谷歌人工智能再次完爆人类,读取唇语水平秒杀专家!

创客星球 2016-11-27 23:15 新三板 来源:思达派 查看原文

很多武侠小说或者电视里的武侠高手总会一个特殊的技能——读唇语。其实在我们现实世界中,读唇语这项技能也是真实存在的。

不过读唇语的难度是很高的,不仅因为人的嘴唇、舌头和牙齿的运动较为轻微轻微,而且大多数唇语信号十分隐晦,难以在没有语境的情况下分辨。哪怕是专业的唇读者的精确度也只有20%-60%

人工智能通过大数据处理,已将语音识别发展到非常接近人类的水准,那么AI技术是不是也能运用到读唇语上

当然能。来自牛津大学、谷歌DeepMind以及加拿大高级研究所的研究员,在ICLR机器学习学术会议上提交的论文宣布,他们开发的神经网络LipNet——一个使用深度学习的唇读程序,能够解决这个问题。

LipNet能够通过分析视频中人物的“时空视觉特征”,来解读所说的话。它在测试中实现了93.4%的准确率,远超于人类专业唇读者的准确率。即使在目前的初级阶段,LipNet也能很快地将无声视频处理为文本,几乎接近于实时。

研究人员称:“机器唇读有巨大的应用潜力,可应用于改善助听器、公共场所的无声听写、秘密谈话、嘈杂环境中的语音识别、生物识别以及电影默片处理等。”

研究人员利用网格语料库(GRID corpus)训练和测试LipNet。这个语料库中有一系列音频和视频,包括34名演讲者每人讲的1000句话。这些句子都有“简单语法”的结构”:命令(4)+颜色(4)+介词(4)+字母(25)+数字(10)+副词(4)。

括号中的数字代表每个类别可选单词的数量,这意味着它们共可以组成64000万个句子。由于许多文件已经丢失或损坏,现在还有13名演讲者说出的32829个句子。

LipNet需要大量的训练才能达到如今的精准程度。这些视频中,约88%被用于训练LipNet,12%则用于对其进行测试。LipNet专注于演讲者说话时的口型变化,并将其分解成图像帧。

然后这些信息被馈送到神经网络中,通过多层分析将嘴部运动映射为音素,以语音学出词汇和句子。

如果担心被监控系统读取秘密对话内容的人来说,还不必感到惊慌。极为精确的唇读十分罕见,目前大多数情况都是有限的词汇被串联成句,而且它们往往没有任何意义。

在LipNet能够处理两个人之间真正的、正常的对话之前,还有很长的路要走。这需要极大的的数据量用于训练以处理重音和不同语言。

如果还是担心被监控泄露秘密

那就戴个面具说话吧

编后注:LipNet项目由谷歌DeepMind赞助,但LipNet所有版权均归属牛津大学所有。

资料来源:The Register /  The Verge / Quartz

欢迎加入创客星球微信福利群 方法:

1.添加创客星球星妹纸的微信号:2726646214

2.暗号我是创客,加入群聊参与讨论,就有机会免费获得最酷最炫的智能硬件

更多酷炫前沿的创新视频,请在各大应用商店,搜索“创客星球”进行下载

微信公众号:创客星球 QQ号:2726646214



为您推荐: