吴恩达正在考验百度的眼光。
北京时间12月19日下午,百度首席科学家吴恩达今日宣布,公司在语音识别领域取得重大突破,语音识别效果超越谷歌、苹果。
当人工智能专家吴恩达今年5月成为百度首席科学家时,他对自己和团队可能在加州桑尼维尔新开放的实验室开展的项目有些谨慎。不过,他还是忍不住透露,更先进的语音识别技术将成为智能手机时代的关键。
今天,百度披露了前谷歌研究员、斯坦福教授、Coursera联合创始人的初步研究成果。在美国康乃尔大学图书馆arXiv.org网站发表的一篇论文中,由吴恩达和阿瓦尼汉农领导的百度研究团队的10名成员宣布,他们开发了一种更精确的语音识别技术——,这种技术对苹果Siri和谷歌语音搜索越来越重要。吴恩达表示,根据语音识别系统的标准测试,百度的Deep Speech语音识别技术已经超越谷歌和苹果。
具体来说,Deep Speech在汽车或人群等嘈杂环境中的表现优于类似技术。因为可以大大提高实际使用效果,所以这项技术显然非常关键。吴恩达说,在嘈杂背景下的测试结果显示,Deep Speech的错误率比Google Voice API、wit.ai、微软Bing Voice和苹果优艾设计网_PS论坛听写低10%。
百度还提供了两位大学教授的正面评价。“百度研究院的这一最新成果有望颠覆未来的语音识别效果。”卡内基梅隆大学工程学助理教授伊恩莱恩在一份新闻稿中说。苹果和谷歌都没有对此发表评论。
像其他语音识别系统一样,百度的技术基于人工智能的一个分支,称为“深度学习”。这个软件试图以一种非常原始的方式模拟大脑新皮层的神经元活动。——大约80%的大脑活动发生在那里,因此深度学习系统可以识别数字声音、图像和其他数据。"第一代深度学习语音识别技术已经达到极限."吴恩达说。
百度团队收集了9600人7000小时的语音内容,大部分是在安静的环境下收集的。但是,测试人员有时会戴上播放嘈杂背景声音的耳机,这使他们像在嘈杂的环境中一样改变语调。后来,他们利用名为叠加的物理定律,添加了15种噪音,包括酒店、汽车和地铁中的环境噪音。这相当于将样本数据扩展到100,000小时。随后,他们让系统学习识别各种噪声中的语音。
吴恩达说,这比目前的语音识别系统简单得多。他们使用了一系列模块来分析音素和其他语音内容。这通常需要通过称为“隐马尔可夫模型”的统计概率系统手动设计模块,这需要大量的人来校准。百度的系统用深度学习算法取代了这些模型。该算法可以在递归神经网络上训练,从而大大降低了系统的复杂度。
但真正让这款机型发挥作用的是强大的新电脑系统,它配备了许多英伟达GPU。GPU用于加速个人电脑中的图形。由于采用了并行设计,它们在训练识别模型时的速度和成本远优于标准的计算机处理器——,后者比吴恩达在斯坦福和谷歌使用的系统快40倍左右。“算法非常重要,但很大一部分成功要归功于可扩展性。”他说,这既包括计算机系统的可扩展性,也包括其数据处理能力。
如果达不到这个速度,就不可能快速分析各种数据。吴恩达说,这个系统比今天的其他图形处理器系统更复杂。他说:“我们已经进入了语音识别2.0时代。“现在才刚刚开始。”
吴恩达认为,随着用户越来越倾向于语音指令,摒弃文字模式,语音识别的重要性将与日俱增。“让他们和我们说话是关键。”他列举了中国最近的一条搜索命令:“你好,百度。昨天中午我在街上吃了面条。明天卖吗?”吴恩达承认现阶段很难回答这个问题,但他认为语音技术的进步是关键。
物联网的发展也是关键。它将使所有“愚蠢”的设备上线。他认为,当他的孙子得知我们今天使用的电视和微波炉不支持语音命令时,他可能会非常惊讶。“语音是物联网的关键技术。”他说。
吴恩达拒绝透露百度将这项新技术融入搜索和其他服务需要多长时间。但当被问及是否需要很多年时,他很快回答:“绝对不需要!”因此,这项技术有望在明年投入使用。该技术可能应用于百度酷盒,为用户提供语音音乐搜索服务。
吴恩达的团队大约有30名成员,明年将增加一倍。他们的目标是帮助百度跻身世界顶级互联网公司之列。虽然目前主要服务于中国市场,但公司计划向全球扩张,包括开发世界级的语音识别、翻译等功能。
精彩评论