什么是目前中国最好的语音人工智能技术?来看科大讯飞如何做

罗曙驰 杨程 2016-11-24 11:31 工具软件 来源:思达派 查看原文

科大讯飞这个企业,虎哥觉得其企业基因里对技术的那种孜孜不倦的程度,蛮像华为,但能在合肥这样的城市产生这样一家在国际人工智能领域异军突起的企业,而不是在北京,只能说城市的气质属于能让技术人沉下心10年坐板凳的那种。这和成都的气质也是有点类似。


很多公众真正开始了解这家企业和他们的强大技术是在10月罗永浩的锤子发布会上。在这个“老罗最后一场相声专场”上,不知有多少人路转粉和记住了科大讯飞这个名字。


而今天在北京,虎哥则参加了一场至少有2000人的发布会,中国工程院院士、中国人工智能学会理事长李德毅、中国移动通信集团公司副总裁李正茂、IBM大中华区首席技术官沈晓卫、锤子科技创始人CEO罗永浩等人出现在现场,不过罗永浩的声音这次已经能够被科大讯飞合成,这意味着今后你可以选择老罗的声音来个段子什么的。


这正是科大讯飞今天端出的黑科技之一。此间,科大讯飞不仅道出了自己的人工智能规划路线图,并且围绕输入法、声音、教育、汽车、机器人等领域一次性发布了多款产品。其中,服务机器人晓曼将于明年3月份量产发布。


1.webp.jpg


发布会上,科大讯飞轮值总裁胡郁提出了“AI+”的概念,分别从输入、电视、交流、汽车、声音、机器人、教育七个方面产品来进行介绍,下面虎哥按照自己感觉惊艳的点做梳理:


惊艳的语音实时纠错功能


万物互联输入法是科大讯飞基于人工智能技术,面向即将到来的万物互联时代,推出的系统化输入解决方案。可提供在远场、移动、无屏输入场景下便捷流畅的智能化输入交互。 本次发布会上,输入法融合OCR智能扫描技术,体感输入及语音输入实时纠错修改技术。


3.webp.jpg


相信大伙对于科大讯飞的核心技术语音识别已经有所领教,但在此次发布会现场令人叫好的还有讯飞最新语音输入的实时纠错功能。


如上图,讯飞手机输入产品经理通过语音输入“请庆峰帮我定好火车票”一段文字,他实际要写的是“庆丰包子铺”的丰,厉害的是,使用者在看到错误后没有什么停顿就讲到“丰是庆丰包子铺的丰”,神奇的是,字被迅速纠正了过来!紧接着他说的中文书名,一旦提醒后机器会自动翻译成英文版并且加书名号。


胡郁讲到,对于语音输入来讲即使能够做到那99.99%的识别,总会有各种原因出现差错,更何况是大段的文字录入。讯飞目前的这项语音纠错将让语音输入更快落地到大众。


同时,讯飞还推出了全新语言转文字服务平台,随时随地上传音频精准高效获取文字。科大讯飞面向政企、司法、媒体、速记等用户提供语音转文字行业解决方案。讯飞团队还针对企业端的安全考虑,推出了独立的离线版本,作为软硬件一体化的解决方案,能够快速实现对话角色的自动分离,快速听写会议并迅速成稿。这真是虎哥以后整理笔记的福音啊!


双手握紧方向盘,其他的就交给讯飞吧


讯飞的汽车智能互联系统飞鱼系统主要提供语音控制服务和海量汽车生活服务。这款车载语音识别系统在现场展示中颇引人注意的是,在嘈杂环境中可以准确识别人音,并具有免唤醒功能。


另外,随意打断功能和语音纠错两项功能让司机的双手真正闲了下来。随意打断让机器更显人性,也显示了讯飞的技术功底。在发布会现场飞鱼系统产品经理通过飞鱼拨打电话,当出现同名或错误时,讯飞会有一个确认过程,司机通过简单的语音纠正就能完全避免错误。


在车上产品经理选歌、选地址、筛选饭店酒店、打电话等等行为完全依靠语音,从整个演示过程看,可以用自然顺畅来形容,使用者随意不间断提问,飞鱼系统顺畅地完成。


这意味着车载系统跟语音系统的整合又上了一个台阶。,围绕在车载环境下的智能导航、在线娱乐、故障处理、车身控制等8个主要功能都进行了深入的调整。


目前,科大讯飞已与30多个汽车厂商建立了长期合作,并已在100多款量产车型中搭载产品。


晓曼机器人


5.webp.jpg


值得一提的是机器人应用方面,讯飞的服务机器人方案在客服领域至少可减低25%的人工坐席成本。讯飞展示了此前已经在部分银行上岗应用的“晓曼机器人”,该机器人可以完成用户身份识别、大数据分析和业务办理推荐等工作。预计明年3月将正式量产发布。


晓曼机器人将世界领先的语音合成、语音识别、语义理解和人脸识别等技术运用到智能服务机器人本体上,结合麦克风阵列、3D摄像头、身份证读卡器、取号小票机等外设应用,以语音、触屏、动作等多模态的交互方式为用户提供优质的服务,可以识别已登记过的顾客、提供理财产品的个性化推荐,目前的数据是晓曼机器人可以独立办理超过70%的业务。


此前,科大讯飞已为行业内3000多家机器人厂商提供技术支持,而本次推出的晓曼机器人,则是科大讯飞在机器人领域的集大成者,在政府、金融、运营商、医疗等多个领域具有广阔应用前景



“晓译”便携翻译机


现场发布会比较震撼的是,讯飞听见在实时中文语音转写的基础上,融合全新的多语种翻译技术,实时将中文演讲翻译成英语、维吾尔语、日语、韩语,并同步展示在大屏幕上,引发现场的一个高潮,这也是是全球首次基于人工智能技术的实时机器多语种翻译技术在大型活动上的展示,准确率比肩同传翻译。此项技术已实际应用于上海高院。


此次也发布了面向个人用户的“晓译”便携翻译机,这款机器翻译系统,可以实现中、英、维三种语言即时互译。上面是科大讯飞轮值总裁胡郁现场演示使用翻译机与外籍友人进行中英文对话。


该翻译机未来将不断加入更多语种,实现不同语言之间的便捷交流,为不同语言的人之间的沟通扫除障碍。


超脑魔盒


7.webp.jpg


在智能家居领域,科大讯飞推出了超脑魔盒,是一款集合讯飞语音识别及自然语言理解等核心技术的家庭智能盒子。包括全程语音、影音点播、智能家居、遥控器K歌、英语翻译学习、生活百科问答等等功能。我们可以用语音来进行“频道切换”、“快进”、“下一集”等多种语音命令,甚至可以发出“快进20秒”等复杂细致的语音命令。从资料看,超脑魔盒的响应速度只有0.2秒,现场的响应速度和正确率确实非常高。


此外,讯飞利用语音合成还推出了3款新产品,面向B端企业用户的配音阁和讯飞有声,这二者分别是专业配音软件和角色语音定制服务,特别是后者趣味性很足。另外面向C端用户的讯飞快听,可以实现文字收音机的功能,通过声音定制满足更多听觉需求,比如父母可以让“儿女”的声音始终为自己播报新闻,儿童则可以通过该产品在父母出差时也能“听父母讲故事”。



未来使用AI会像水和电一样方便



8.webp.jpg


科大讯飞董事长刘庆峰在开场演讲中讲到人工智能产业迎来第三次发展浪潮,强调了人工智能的发展远远超出了人们的预估,在未来5到10年内将成为与网络一样的必需品,“使用AI会像水和电一样方便”。科学杂志曾认为在未来30年内中国每4个工作就会有3个由人工智能来替代,但是如果以今天最新的进展,他认为这个时间还会大幅提前。


刘庆峰表示,科大讯飞是中国第一个把深度神经网络用到语音识别领域,科大讯飞坚信无论人工智能如何发展,交互和后台的理解和学习都是刚需,通过人机耦合以及迭代学习进步,人工智能会逐步替代简单重复的人类劳动。人工智能学习顶尖专家知识,达到一流专家水平,超过90%普通专业人士。


比如在教育领域,目前科大讯飞的技术主要应用在考试阅卷和数字校园中。在今年上海的四、六级考试以及江苏、湖南等地的高考和研究生考试中,已经采用了科大讯飞的机器批改技术。刘庆峰表示,对于语文和英语作文,机器只需要学习 500 份专家改过的试卷,就可以投入使用,自动批阅其他几十万份试卷,而且其综合效能已经超过人工水平。


但从另一方面看,在需要经验判断、需要常识、需要不断迭代的专家知识的领域,人和机器是耦合的。比如说机器不可能替代所有老师,而是帮助老师更好的提高课堂效率,帮助孩子减轻课后的无效重复。未来的趋势是通过人机协同技术,提高各行业的工作效率,聚焦人类的智慧。


今年,科大讯飞获得了全球人工智能比赛Winograd Schema Challenge第一名以及第四届国际多通道语音分离和识别大(CHiME-4)赛事全部三个项目的冠军。刚刚结束的2016国际知识图谱构建大赛上(KBP),科大讯飞一举包揽了该赛事核心任务的冠亚军,充分体现了在自然语言理解、知识推理等领域国际顶尖的技术实力。现在,科大讯飞成长为亚太地区最大的智能语音与人工智能上市公司,持续引领中国人工智能产业发展,以“讯飞超脑”为代表的人工智能技术成果已经应用于教育、医疗、客服、车载等方面。


目前科大讯飞智能云平台上总用户达到8.9亿,每天30亿人次访问量,很快会突破百亿人次,围绕的第三方创业团队从去年的7万增加到21万家,这就是人工智能的产业生态。科大讯飞希望跟所有创业者共同成长,共同创造,也共同分享人工智能的伟大。刘庆峰表示,人工智能为各个细分行业提供了前所未有的创业舞台。



天虎科技  罗曙驰 杨程 



为您推荐: