杂志汇法律与生活

李开复&邓力:语音识别的生不逢时与生逢其时

作者:文/杨澜
在卡内基·梅隆大学读书的李开复,开始了人工智能领域之语音识别的研究在万物互联、万物智能时代,人机交互变得越来越频繁,使用语音显然是人类最自然、最便捷的方式。为机器打造听觉系统的技术就是语音识别。语音识别不等于录音,从“听”到“听见”,对人类而言是一种本能,对机器却并非易事。

李开复:看到语音识别的未来

创新工场掌门人李开复在美国哥伦比亚大学读政治科学专业后转向计算机专业,希望未来有一天计算机可以做一些人类做的事情。

1983年,李开复进入卡内基·梅隆大学,开始了人工智能领域语音识别的研究,成为人工智能尤其是语音识别潮起潮落的见证者及重要参与者。

1952年,美国贝尔实验室科学家发明了一种数字自动识别器,叫“奥黛丽”(Audrey),这个系统可以听懂10个英文数字。

20世纪60年代,超音速飞机登上了美苏争霸战舞台。飞行中,飞行员的身体被几倍于体重的强大力量制约,几乎无法使用肢体操作。能不能用语音操纵飞机?于是,在美国国防部高级研究计划局(以下简称DARPA)的全力资助下,语音识别研究蓬勃展开。

当时,DARPA的一位负责人拨了大笔经费支持语音识别研究。可没过多久,这位负责人发现,当时研发出来的语音识别系统非常脆弱。你对着机器说:“今天天气很好。”机器屏幕上会出来相关文字。可你若问机器:“明天天气好不好?”机器就听不懂了。懊恼的负责人自己写了一篇文章,叫《语音识别的凋零》。这篇文章着实让当时语音识别研究者的心情跌落谷底,负责人都觉得“凋零”,语音识别这事儿可能真的没戏了。后来,经费不到位,语音识别从“小火了一把”一下子进入寒冬。

李开复的导师拉吉·雷迪(RajReddy)教授是一位不服输的研究者。他认为“专家系统”时代来临了,可以解决之前脆弱的语音识别问题,并且说服政府拨经费继续支持语音识别研究。最终,政府拨了300万美元给雷迪,这在当时是一笔巨款。

专家系统是20世纪80年代兴起的一项人工智能技术,其逻辑是把人类掌握的专业知识通过规则方式教给机器,让机器成为学识渊博的专家。李开复做了一年后发现,专家系统还很脆弱,走不下去。这是因为每个人的语音都会有一定的差异,把千差万别的语音知识由人类逐一编写规则再教给机器,并没有发挥机器的优势。

初生牛犊不怕虎,李开复鼓足勇气跟导师说:“您的方向很好,可是目前您采用的方法走不通。我觉得需要靠机器学习和统计的方法,才有可能做出成果来。”雷迪想了很久后,说:“开复,虽然我不同意你的看法,但是我可以支持你。”导师的态度出乎李开复的意料,导师的包容和开明更是深深地打动了李开复,他下定决心要搞出点儿名堂来。

三年后,雷迪特地为李开复安排了一场大型演示会,让李开复展示其研究成果。会上,雷迪说:“今天,我们要做一个有史以来没有人做过的尝试,要把话筒一个个传下去,然后,你就可以在这个领域里面畅所欲言。”在场的人一个接一个地传递话筒,虽然在演示中犯了一些小错误,最终大概有90%~95%的识别率,在场的所有人被震撼了。

在这个全新的系统中,机器可以听懂不同人说出的连续句子,这开始有点儿像真正的人际交流了。这项开创性工作,在1988年被美国《商业周刊》评为“年度重要科学创新奖”,美国媒体称之为“现实朝科幻小说又迈进了一步”。

年轻的李开复成为当时媒体报道的创新尖兵,通过电视荧屏,他向更多的人展示了他的语音系统:“……让我们来看看它(语音识别)未来的潜力何在,它不仅是一个能对电脑发号施令的玩具,它还可以改进我们交流的方式;不仅是和机器交流,还可以和汽车、家用电器、电脑交流,并帮助促进人与人之间更好的交流。”的确,他的这项技术让语音识别又上了一个很大的台阶。

邓力:让深度学习成为工具

统计的方法给语音识别研究带来了极大改观,并在20世纪90年代迎来研发高潮。带着对未来人机交互的美好憧憬,华人科学家邓力开始了语音识别研究。

邓力本科就读于中国科技大学,学的是生物与神经科学。上大学时,他听老师说人工智能可以模仿人脑,顿时对人工智能尤其是语音识别和机器翻译产生浓厚兴趣。之后,他来到美国读书。来到美国的第一个星期,他听神经生理课上的医学术语时,一脸茫然。后来,经过艰苦学习,他才渐渐地适应了异国他乡的学习生活。远赴重洋、初出国门后克服语言难关的经历,也被邓力运用到日后研究中。

起先,邓力采用与李开复一样的统计方法。在近20年时间里,这种方法一直是研究主流,但在进入实际应用时却逐渐显示其局限性。千差万别的口音、方言以及现实环境中的噪声,还有来自不同领域的专有名词、日常俗语、成语及句式的转换等,都给语音识别带来挑战。

2006年,加拿大多伦多大学的杰弗里·辛顿(GeoffreyHinton)教授发表了关于“深度学习”的论文《一种深度置信网络的快速学习算法》震惊学界,也让一筹莫展的邓力眼前一亮。

2009年,邓力邀请辛顿来到当时自己工作的微软雷蒙德研究院。经过深入探讨,他理清了很多困惑,决定大胆尝试辛顿的新方法。邓力发现,按照辛顿的深度学习理论,再加上大数据,之前遇到的瓶颈问题突然消失了,他们的第一个实验错误率就降低了20%之多。

2012年,邓力公开发表了一篇论文。该篇论文成为第一篇正式把深度学习应用到语音识别上的研究论文。有了深度学习这个工具,语音识别终于实现了突破。2016年,各大公司纷纷宣布———机器在语音识别上的表现已经超过了人类的平均水平。

邓力(左)与本文作者杨澜法眼看AI先行者的苦难为后来者奠定基础

回首语音识别的发展之路,李开复曾半开玩笑半感慨地说:“这是当年我做研究时不可想象的成就,其实我有点儿‘生不逢时’。我做人工智能太早了,做不出巨大的成果,只能写点儿论文。今天,数据量够大,机器够快,理论够扎实、够清晰,你们(指当今的研究者)应该把握机会。”李开复还在有些演讲的PPT上用“宝宝很苦”形容自己。

著名科学家汉斯·莫拉韦克(Hans Moravec)曾总结过,如果你是一名人工智能设计师,感觉自己陷入困境,那么只需要等上10年时间,你的问题就定然能通过计算性能的提升而得到解决。

正如时势造英雄、英雄也推动了时势的发展一样,没有此前几代研究者的推翻重来、再推翻再重来,也不会有今天语音识别技术的蓬勃发展。

 

李锦莲无罪,不是一个人的清白

死刑犯寻亲:被拐30年后的“等着我”

巴以冲突:耶路撒冷的笑与泪

盗版者 VS 护书人

抱团取法:京版十五社反盗版联盟绝地求生

厂房买卖“罗生门”:同一合同三个版本

相关文章