杂志汇法律与生活

胡郁:让世界聆听“中国声谷”

作者:文/杨澜
当年的创业小青年如今成为公司核心骨干AI领域的中国身影

无论是深度学习、视觉识别还是语音识别,人们看到华人及华裔科学家在人工智能研究领域占据了相当的分量。

在我的采访中,很多科学家都觉得中国在人工智能领域有很大的优势。首先,中国的理工科教育非常先进。中国人的数学一般也比外国人学得好,这些对机器学习的基础有很大的帮助。其次,搞人工智能需要掌握大量数据才能做出很棒的成果。中国人口的基数大,能提供更多的数据,在很多领域可以达到更高的识别率或提出更好的解决方案。最后,中国人理工科方面具有很大优势。因此,中国很多高等科研机构都已经在人工智能领域做出卓越的成果。

近年来,在各大重要学术期刊上,中国人在人工智能领域发表的文章数量应该是除美国之外最多的。

据说奥巴马曾经问乔布斯能不能把智能手机的制造全都搬到美国,乔布斯说:“可以啊,如果你有像中国那么多的工程师就行。”虽然不知道这个段子是否属实,但不可否认的是,中国已经成为世界科技发展中举足轻重、不可或缺的力量。李飞飞、吴恩达(Andrew Ng)、李开复、邓力等人便是其中的佼佼者。

“让世界聆听我们的声音”

在中国本土,有一家几个小青年在门面房创业的小公司成长为市值超过500多亿元的上市公司,被称为“中国声谷”。它就是科大讯飞,坐落于中国合肥。

“让世界聆听我们的声音”,是科大讯飞大楼里随处可见的标语。科大讯飞的执行总裁、消费者事业群总裁胡郁先生如数家珍般列举了他们所取得的成就:

2008年至今,科大讯飞连续在国际说话人、语种识别评测大赛中名列前茅;

自20世纪90年代中期以来,科大讯飞在历次国内外语音合成评测中,各项关键指标均名列第一;

2014年,科大讯飞首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation),即在中英和英中互译方向中以显著优势勇获第一;

2016年,国际语音识别大赛(CHiME)上,科大讯飞取得全部指标第一;

同年,在认知智能领域,科大讯飞相继获得国际认知智能测试(Winograd Schema Challenge)全球第一、国际知识图谱构建大赛(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任务全球第一;

2017年3月,MIT发布2017十大突破性技术进展,科大讯飞入选强化学习、刷脸支付两大突破性技术研究者名单,在中国人工智能企业中排名第一;

2017年6月,MIT科技评论发布2017全球50大最聪明公司榜单,科大讯飞首次入榜,名列全球第六、中国第一;

同年,科大讯飞的口语评测(根据英语发音评价你的发音准确程度、词汇量和语法句法)技术在世界上独一无二。

提起今天的累累硕果,胡郁在神采飞扬的同时没有忘记曾经的“黑历史”。2007年,他们策划利用互联网的方法改进语音识别。当时,他想的是有人把他的录音传到网上,然后通过机器转化成文字传给他。在2009年、2010年的两次国际会议上,胡郁等人发现同行们对智能手机端的语音识别和交互技术已经做了很多有价值的尝试。

回国后,胡郁和伙伴马上掉转方向,从PC端转向移动互联网端。当时的一个难点在于,网络传输的速度很慢。怎样既能保证语音的带宽压缩后文件足够小,同时又能保证后面的音质可以被使用,团队成员为此用尽了各种方法。

在2010年中国第二次云计算大会上,科大讯飞通过语音文本率先推出了手机语音识别系统,第一次展示了在智能语音手机里面通过语音输入文本,但现场的正确识别率只有50%左右。

多年后,再说起这段往事,胡郁不禁莞尔。面对当时的尴尬,在现场演示的他们“紧张是肯定的”。但他们也知道这是一个客观规律,因为你不迈出这一步,永远都不会知道自己的潜能在哪里。

回去后,这帮“创业汪”铆足了劲儿,快马加鞭地进行改进。一年以后,语音正确识别率超过80%,现在已经达到98%。

在胡郁的引领下,我参观了科大讯飞的演示厅。无论是将语音转化成文字还是将方言翻译成普通话、将英文翻译成中文,或者通过遥控器语音遥控电视,速度都非常快。虽然机器没有翻译出我说的上海话,不过我想这帮极客们一定会很快解决。

在胡郁的陪同下,杨澜体验了科大讯飞的语音识别技术胡郁白发背后的小插曲

中国科技大学有一个很好的传统,学生在本科阶段就可以进实验室。在实验室做实验,学生们不仅是为了写论文,更多的是要将实验转换成产品。这让胡郁还在读大学时就耳濡目染了来自实验室里的创业氛围。

一毕业,胡郁便追随师兄们做起了科大讯飞。

在胡郁看来,创业初期,精神压力倒不是很大,最大的压力在于做出来的产品到底能不能卖得出去,有没有人愿意接受他们的产品。

胡郁提起让他至今难忘的一件往事:他们的第一代产品是让机器开口说话,可以运用到很多呼叫台,但稳定性的问题一直没有解决。合作方华为给他们下了最后通牒,如果系统仍然不稳定,他们就不会购买。当年的一群创业青年(今天都已成长为科大讯飞的核心骨干)三天三夜没睡觉,调整系统,终于过关了,最终将产品交给了华为。

就是靠着这样近乎玩命的拼劲儿,科大讯飞一步一步地成长为如今市值超过500多亿元的上市公司。

胡郁的前额有一撮明显的白发,这引起了我的好奇。这一片看上去像是挑染的头发背后,是一段他与科学死磕到底的经历。

2005年至2007年,因为要攻克语音识别难关,他被派到中国香港大学深造。

胡郁意识到,研究工作不能重复别人已有的东西,必须做全新的东西。于是,他看了几乎所有能看到的论文,绞尽脑汁去想创新的Idea,并把它实现。

在这个过程中,胡郁想了几十个方案,但均未成功。直到最后,他找到了四五个算是原创的成果。成果有了,但他的头发也在不知不觉中变白。

胡郁自嘲地说,白头发充分说明自己所处的行业是一个用脑过度的行业。我想,正是因为胡郁这样的执着与专注,才有了今天科大讯飞在智能语音技术上的突飞猛进。

《哈佛商业评论》称,21世纪,数据科学家是最性感的职业之一。在这个性感的世界里,我们看到了越来越多的中国面孔。

(本文摘编自《人工智能真的来了》一书)

 

新书

《我不是药神》,“痛点”背后的情理法

女教师“绯闻”背后的乌龙开房记录

地中海难民船被“踢皮球”:欧洲各国难民共识难达成

“狗案”三十载

“为狗吊孝案”:震惊世界的侮辱案

相关文章