• 压庄龙虎 > 科技频道 > 应用新闻

    Google 新推出的这款 app 是专门给听力障碍群体用的

    2019年05月06日 11:03:13   来源:品玩

      “全球约有 4.66 亿耳聋和听力障碍患者,这是非常巨大的一个数目,如果把这个数字当成是一个国家的人口的话,这个 ‘ 国家 ’ 就是世界人口第三大国了。”Ofd中文科技资讯

      远在美国的 Google AI Research Group 高级产品经理 Sagar Savla,通过远程视频参与了一次在中国举行的采访会议。采访中,他展示了上述让人意想不到的统计数字。Ofd中文科技资讯

      借助技术的力量,普通人得到了能力增强,能完成过去做不到的事情,比如 Sagar 可以借助实时视频串流跨洋交流。在科技公司做产品的 Sagar,想让听力障碍群体也能受惠于技术进步。Ofd中文科技资讯

      Google AI Research Group 高级产品经理 Sagar SavlaOfd中文科技资讯

      Live Transcribe 是什么?Ofd中文科技资讯

      Sagar 和他的团队已经迈出了第一步 ——Live Transcribe。Live Transcribe 是一个 Android 端的 App,能将自动生成字幕功能引入日常对话,帮助听力障碍人群融入即时口头交流。这款 App 已于 2019 年 2 月底发布,目前支持 70 多种语言并覆盖全球 80% 以上的人群。Ofd中文科技资讯

      如上所述,全球有 4.66 亿耳聋和听力障碍患者。过去,他们想要参与即兴对话和社交场合,得提前预订昂贵的手动转录服务,成本颇高,Live Transcribe 用技术来解决了这个问题。Ofd中文科技资讯

      Live Transcribe 基于 Google 过去几十年的自动语音识别(Automatic Speech Recognition,以下简称 ASR )技术积累,能把人类的语音信号转变为相应文本。YouTube 上的自动字幕生成,就是应用 ASR 技术的结果。Ofd中文科技资讯

      (安静环境下 Live Transcribe 实时字幕转录普通话测试)Ofd中文科技资讯

      2018 年,Sagar 利用 20% 的工作时间开启了 Live Transcribe 这个项目。“开始不久我们立刻意识到,这其实是一个非常切实的项目。因为在 Google 也有一些聋人员工,他们拿到这个产品后几乎无时无刻不在使用。启动一个月后,我们就把这个项目固定下来了,建立了相应的产品开发团队。” Sagar 对 PingWest 品玩回溯起项目的发展。Ofd中文科技资讯

      值得一提的是,美国国家级院士 Dmitri Krakovsky 也加入了 Live Transcribe 项目组,他天生就是聋人,已经研究 ASR 30 多年。Ofd中文科技资讯

      Live Transcribe 是怎么运行的?Ofd中文科技资讯

      过去,基于 ASR 的转录系统一般都需要计算密集型模型、详尽的用户研究以及昂贵的连接服务费用。Ofd中文科技资讯

      为了降低用户使用自动连续转录服务的成本,Sagar 团队将 Live Transcribe 背后的神经网络模型分别部署在设备端和云端(Google Cloud)。Ofd中文科技资讯

      设备端的是卷积神经网络模型,主要做声音分类的工作,能辨别 570 个声音类别,比如婴儿哭声或玻璃破碎声。Ofd中文科技资讯

      云端的神经网络模型规模大得多,主要做语音转录成文字的工作,由三个部分组成。Ofd中文科技资讯

      第一部分是声学模型,能够从音节的角度辨析说话者所说的是“ Hi ”还是“ Hello ”。Ofd中文科技资讯

      第二个部分是发音模型,可以根据识别出来的音节做拼接或组合,组成实际的单词。第三部分是语言模型,根据识别出来的单词添加适当的标点符号和停顿,以符合人类语言使用习惯。Ofd中文科技资讯

      基于云端神经网络做语音转录的好处是,对设备性能要求没这么高。Sagar 告诉 PingWest 品玩:“这意味着,Live Transcribe 在一些性能较弱的低端设备上也可以正常运行。”Ofd中文科技资讯

      理想状态下只要有互联网接入,能使用 Google 服务,语音转录延迟都可以控制在 200 毫秒以内。Sagar 对 PingWest 品玩表示:“在一些网络接入速度没这么快的第三世界国家,听觉障碍人群其实愿意花一点时间来获得更加准确识别的效果。因为如果没有这款产品的话,他们是很难听见的。”Ofd中文科技资讯

      落地遇到的问题Ofd中文科技资讯

      落到实际用户使用场景,Sagar 团队要解决的问题不止设备性能和网络连接。Ofd中文科技资讯

      Sagar 团队与加拉德特大学共同发起了用户体验研究,考虑了几种不同的设备:计算机、平板电脑、智能手机、小型投影仪,甚至还有 VR/AR 眼镜。“考虑到产品能够具有普惠性,最终选择了成本比较低廉,大家都用得起的一种设备 —— 智能手机”。Ofd中文科技资讯

      “第二个我们要解决的问题是,实时显示字幕的时候是否要显示字幕转录的置信度(转录后文字的可信程度)。” Sagar 说。Ofd中文科技资讯

      一开始,他们曾尝试用颜色来代表转录文字置信度,黄色代表高置信度,绿色代表中等置信度,而蓝色代表低置信度,白色单词为新文本。Ofd中文科技资讯

      Sagar 团队最终放弃了显示置信度:“经过测试,我们发现这种方式会给用户造成一个错觉,好像同一颜色的是一个词组。”Ofd中文科技资讯

      第三个要解决的问题是环境噪音,又称之为“鸡尾酒会问题”:在一个派对场景中,有很多人在交谈,机器很难识别正确的谈话对象。Ofd中文科技资讯

      “为解决此问题,我们构建了一个指示器,用于显示相对于背景噪声的用户说话音量。” Sagar 说:“较亮的内部同心圆代表噪声层,代表当前环境所处的噪声级别。外部同心圆表示麦克风对说话人声音的接收状况。用户可借此收到即时反馈,了解麦克风的接收状况,以便其调整手机位置。”Ofd中文科技资讯

      将来,Sagar 团队会继续改善“鸡尾酒会问题”的解决方案,让对话者的声音更好地从多个说话对象中分离出来。Sagar 说:“ Live Transcribe 也不排除会出 iOS 版本,让更多受众用上这项服务。”Ofd中文科技资讯

      【来源:品玩】Ofd中文科技资讯

      来源:XXX(非中文科技资讯)的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

      如发现本站文章存在问题,提供版权疑问、身份证明、版权证明、联系方式等发邮件至news@basta-ya.net。

    [上传用户: ]
    分享到微信

    推荐

    PayPal第二季度净利润8.23亿美元 同比增长56%

    据外媒报道,PayPal(纳斯达克证券代码:PYPL)周三发布了该公司截至6月30日的2019财年第二季度财报。财报显示,按美国通用会计准则(GAAP),PayPal第二季度净营收为43.05亿美元,较去年同期的38.57亿美元增长12%;净利润为8.23亿美元,较去年同期的5.26亿美元增长56%。

    新闻

    中国AI芯片大幅增长:离不开5G普及

    众多周知,今年是中国的5G元年,目前,中国5G商用牌照已经发放,这就意味着5G商用已经启动,将会在国内开始迅速普及。伴随5G商用幅射面的不断扩大,人工智能、云计算、大数据、物联网等新兴产业发展迅猛,中国AI芯片市场将进一步扩大。

    互联网+

    特斯拉已开始交付3.5万美元版Model 3 首批幸运者确认

    4月16日消息,据国外媒体报道,电动汽车厂商特斯拉在2016年3月底推出了廉价电动汽车Model 3,并在2017年开始向用户交付,但售价最低的标准续航版Model 3,却迟迟未能送到消费者手中,预订者们对这一版本的Model 3也是期待已久。

    融合

    日本酒店解雇机器人员工,AI想抢人类饭碗没那么容易

     2018年年初,日本东京一家名为“Henn-na Hotel”的酒店“请”了243个机器人负责管理与服务。顾客从入住到离店,全程都由机器人引导与陪伴,在当时还引起了不小的轰动。然而时至今日不过一年时间,这家酒店却选择了对机器人“裁员”:解雇了一半的机器人。其中最主要的原因是,自从“雇用”了这些机器人员工之后,它们给酒店制造出的问题远远超过它们能够解决的问题。

    从1700亿跌到67亿,乐视网最后一天:9亿资金赌明天

     从2010年上市,到成为创业板“一哥”,凭借眼花缭乱的“生态化反”,乐视网在资本市场上缔造了一个又一个神话,其市值更是一度高达1700亿。