——信息搜索,服务获取,任务达成。
贺文/文
除了调侃解闷,语音作为人与智能设备的交互方式之一,现在能做什么?
思必驰创始人、CEO高始兴拿起手机,没有直接解锁屏幕,而是按下一个语音键说,“给浩然发短信”,一秒钟左右,手机里传来温柔女声“短信内容写什么”,“告诉他我已经到北京了,明天会到深圳,我们见个面,帮我订机票”。
原本我们发短信或者打电话,都得先解屏手机,再点击“短信”或拨号,数个步骤后才能完成,而思必驰提供的这个针对智能硬件的解屏语音产品,即便设备没有可触摸的屏,发短信/打电话也相当便捷。
“你再想想,未来搜索会怎么‘搜’?”高始兴很有兴趣采访先从这个话题开始。在他看来,会影响到未来搜索的主要因素有几个:
一是整个硬件时代的迭代,从PC互联网到智能手机移动互联网,再到智能硬件的物联网,硬件端已经发生了翻天覆地的变化;相应地,人机交互的媒介也变化巨大,从键盘、鼠标,到触屏,再到语音、手势、虹膜等;在这样的大背景下,未来用户的搜索会越发的场景化,搜索的目的从传统的信息查询,转变为服务的获取、任务的完成。
思必驰希望能够实现的是,语音作为人机交互的重要方式,要能够形成一个闭环——信息搜索,服务获取,任务达成。
装上“大脑”
高始兴相信,搜索再往下走,特别在智能硬件端、在物联网上,语音交互一定是核心人机交互手段之一。“语音是唯一能传递复杂信息的交互手段,人脸、虹膜、手势,现在来看还只能够作为身份验证,或者做一个简单的搜索,要输入复杂的信息一定是通过语音。”
在感知智能时代,语音交互更多的是简单的语音识别,加自然语言理解,能够实现简单的搜索和控制;在认知智能时代,人机交互时机器更懂用户,懂用户的历史、懂用户的上下文,而且机器听不懂可以去问,允许用户打断,允许用户纠正,机器既有耳朵又有嘴巴更有大脑。这些是在感知智能时代做不到的。高始兴和思必驰团队认为,在垂直领域里面,机器的认知智能应该能做到,听不懂会问、知道怎么问、问什么,核心目的是帮用户快速地完成任务,这是人机对话的下一个阶段,也是思必驰要做到的事情。
高始兴介绍,思必驰现在主要做两款产品:一是AIOS(AISpeech Operating System)人机对话的智能操作系统,把思必驰全面的语音技术整合到操作系统里,把人机对话逻辑整合进去,把后端服务比如高德导航、音乐、天气、聊天等服务整合进去,基于现在主流的操作系统,开发者(智能硬件方向上的合作伙伴)基于思必驰AIOS的标准化接口再做相应开发,让智能硬件产品能说会道,拥有了人机交互的能力;
一是核心硬件模组的研发,比如智能芯片、麦克风阵列,这样能配合思必驰的AIOS软件,因为有些场景里的语音交互需要硬件的配合,才能让交互的体验、交互的效率更好。比如声源定位,就需要环形麦克风阵列这样的硬件支持。
去年10月,苹果收购了一家英国软件创业公司VocalIQ,加强Siri语音助手服务。高始兴称其为“全球做人机对话最棒的公司”。而该创业公司的创始人之一俞凯,就是高始兴创业思必驰的搭档。
“苹果为什么要收购它,为了加强对话。未来通过语音和智能硬件物联网之间进行人机交互的体验,就应该像在智能手机上一样。”高始兴说,不恰当地把智能硬件物联网的爆发类比做智能手机,手机在功能机时只是通信的工具,打电话发短信,交互非常难,但是在智能机时代,触摸交互非常爽,在智能手机上可以听音乐看视频可以购物,能够承载丰富的场景,更多的服务涉及到生活的方方面面,“人机能够对话起来,是实现这种美妙体验的第一步”。
语音交互技术不可能一蹴而就地去到那美丽新世界。
高始兴认为,语音交互技术的发展需要经历:基础的语音技术的提升,比如语音识别技术如何能够解决降噪、远场等问题,在场景化里的语音技术还需要提升,如何更准确地声源定位,做到更好的回声消除等;全面的语音技术的应用,人性化的语音合成比如名人的声音、家人的声音,基于语音的情绪识别等,让人机的语音交互更加友好;多模态的交互技术的结合,比如如何结合人脸识别、虹膜识别、手势识别等。
这三个语音交互技术的发展方向,思必驰都在做,不敢也不能对任一个方向有所放松,这是智能硬件物联网时代,实现真正具有认知能力的人机交互界面所必须具备的。
对于思必驰这样的创业公司来说,它的专注体现在,专注于智能硬件的语音交互,主要是针对车载、智能家居、机器人等智能硬件产品做垂直领域下的对话式交互。思必驰已于2015年10月和12月,相继推出针对车载产品的AIOS For Car智能对话操作系统和针对机器人的环形“6+1”远场麦克风阵列。思必驰的合作代表型案例包括小米蓝牙语音体感遥控器、海尔馨厨冰箱、乐橙“小乐”机器人、捷渡中国“远界”智能后视镜等。
一个创业公司要成功必须要专注,力出一孔。高始兴介绍,剑桥商学院管理学硕士毕业后,曾从事过基于语音技术的汉语语音纠正、英语语音测试等方向的创业,也就是之前的思必驰。2014年把教育事业部分拆出去,成立了“驰声科技”,2015年被网龙全资收购。2014年全面转型之后,思必驰将精力和资源主要放在智能硬件领域的语音交互技术方面。
在车载、智能家居、机器人三个智能硬件方向上,是均匀着墨,还是看市场成熟速度?高始兴认为,从底层技术上,这些语音交互技术的应用场景有很多共同的问题要解决,当然在不同场景里应用是有差异化,产品化速度和市场成熟速度也会不太一样,车载市场会更快成熟一些,智能家居次之,机器人未来市场很大但是现在落地比较难。
高始兴相当推崇亚马逊的智能音箱Echo,亚马逊视为“家中的智能语音中心”型产品,其战略重要性堪比Kindle。高推崇Echo,一方面是其语音交互技术已经做得很棒;二是它已经打通了服务,能做一些人机对话;三是它已经初步构成了一些交易闭环,已经可以声纹支付。今年亚马逊在美国超级碗大赛期间的广告,主角就是Echo。
高始兴和思必驰团队想做的,就是,让中国一个个智能硬件设备,都能成为Echo,给每一款智能硬件装上耳朵嘴巴和大脑。而现在,是刚刚开始。