微软为Windows 10内置了一款语音智能助手——Cortana(中文名:微软小娜),同时在Windows 8.1 Phone也集成了该应用。小娜能够了解用户的喜好和习惯,帮助用户进行日程安排、回答问题等,仿佛是一个实实在在的“人”,实际上“她”却只是一个智能程序。现在“她”又连续解锁了多项智能功能,比如“关注学术动态”、“附近美食团购”等等。那么小娜是怎么实现上述功能的?就让我们来看看“她”的背后有什么样的技术支撑。
解密小娜的前世今生
微软小娜看上去非常神奇,其实“她”就是现在流行的智能语音人机交互技术的一种表现形式。说到语音交互,对于微软来说,早在Windows Vista发布之初就内置了“语音识别”组件,通过这个组件我们可以借助语音实现语音输入、语音控制程序启动等交互功能,这功能现在通过小娜都可以轻松实现(图1)。
不过随着移动设备的普及,以及Windows 10全平台的需要,微软将语音识别功能推广到PC和移动设备上,同时结合Bing搜索引擎,微软使用功能更强大的小娜作为替代。当然在移动语音交互领域,各大IT巨头也互不相让,苹果推出了Siri,谷歌则推出了Google Now,它们和小娜一样都是智能语音人机交互技术的典型代表(图2)。
使用过小娜的朋友都会被“她”的聪明劲折服,无论是语音搜索、输入,或是语音命令,小娜都可以准确无误地执行,而且经过一段时间使用以后,小娜将越来越了解用户的行为习惯,可以为大家做出更多智能的操作。那么小娜的这些本领是怎么掌握的?
首先要实现语音交互,小娜就必须实现对语音精准识别和输入。在语音输入识别领域,这原来就是微软亚洲研究院(现已更改为微软亚洲互联网工程院,小娜正是出自其手)的强项。现在小娜支持多种语言,除了中文外还有英语、德语、西班牙语、法语、意大利语等。从支持语言方面就可以看到微软在这方面的技术有多强大。当然撇开其他外语不说,单就中文的支持而言,由于中国目前方言众多,每个地方的人讲普通话几乎都会带各自的口音,经过实际测试可以看到,无论是南方口音,还是典型东北话,目前小娜几乎都可以精准识别,这是小娜语音智能交互的基础,其背后功臣正是微软语音识别技术(图3)。
其次小娜具备和设备智能交互的功能,比如可以基于手机设备进行一些操作,包括打电话、设置提醒等,同时结合微软的必应搜索,小娜可以实现智能问答和推送。启动小娜后,我们只要对着手机语音输入一些关键词,小娜正确识别后就会根据关键词的不同迅速给出反馈。
比如你输入的是“呼叫XXX”,小娜识别后会智能判断出你想执行的操作是拨打电话,接着小娜就会遍历手机通讯录,找出符合语音输入的联系人后开启电话拨号,实现类似很多手机吹嘘的语音拨号功能(图4)。当然这只是小娜一个简单的功能,我们还可以输入类似“订购车票”、“启动计算器”、“明天买蛋糕”等自然语言,小娜就会根据你的关键词,然后智能关联到对应的程序为你服务(比如输入买蛋糕,小娜则会自动启动闹钟提醒服务为你买蛋糕增加语音提醒)。
如果你输入的是和操作并不关联的关键字,比如输入“附近有什么餐馆”,小娜则会结合必应搜索功能,通过对你当前位置的定位,然后将附近餐馆的位置推送给你(图5)。
当然除了这些智能交互操作,如果你开放个人数据(可以在小娜中进行设置),完全信任她,小娜就会根据你开放的权限提供更多智能的服务。比如你经常在微信中订阅某明星信息,那么小娜就会利用必应强大的搜索功能实时将该明星的信息推送给你,让你获得更多个性化的服务(图6)。
当然,小娜这些看上去很神奇的功能,背后实际上依靠的是微软的云计算、云服务和搜索引擎的大数据功能实现的。比如搜索引擎的大数据功能可以通过分析用户输入“北京”和“去北京”这两个关键字的不同,然后为用户呈现不同的反馈结果(如前者是进行北京相关知识的查询,后者则是反馈去北京的交通工具如订购火车、机票)。
从上面的内容可以看到小娜的强大功能,一方面我们只要借助平时的自然语言输入即可获得很多便捷服务,比如在开车时拨打电话,我们只要呼叫联系人的名字即可拨打电话,这种语音操作可以解放我们的双手。另一方面,小娜基于大数据技术可以为我们提供更多个性化服务,比如对于现在的股民,开放我们的个人数据给小娜读取后,小娜就会实时为我们推送股市信息,给我们获取需要的资讯带来更多的便利。
不过,对于语音助手未来的演变,我们还需要有一段适应期,语音识别和交互技术仍然还有很大提升空间。语音并不会完全代替鼠标、触摸屏和手势,这些交互技术各有所长,未来会互相结合使用。随着大数据、云计算技术的发展,类似小娜、Siri这种语音助手未来将会无处不在,必然会给我们的生活带来更多的便利。