作者:王剑白

1962年,美国西雅图举办了第二十一届“万国博览会”,也就是我们现在称呼的“世博会”,这一届主题为“太空中的人类”,全方位展示了人类借助宇宙飞船进行环球飞行的航天壮举,也标志着航天时代的来临。

会场的标志性建筑“太空针”,是一个立在细细长长金属上面的飞碟,引发出某个脍炙人口的笑话:那是地球毁灭之日,美国总统逃往宇宙的飞船。此外,会场最受欢迎的展馆是波音公司的“太空馆”,可以让观众体验10分钟虚拟遨游银河系的旅程,不少孩子参观之后萌生了“太空梦”。

百度小助手免费下载,百度小助手免费下载安装?

但同时,“明日生活”是本次世博会的隐性主题,大量预言和幻想在展出:未来的厨房里只需要按下各种按钮,就可以为家人准备晚餐;将来的电话上有个按钮,按下就可以看到对方的脸;以后不需要种植大豆,就可以在工厂里合成各种豆制品……

在各种概念展示中,我们熟悉的IT巨头IBM拿出了一个代号叫“鞋盒”的机器,它能理解人类口述数字0-9以及简单的运算口令,成为当时世界上最先进的语音识别机器,在今天看来如此基础的功能,已经是那个时代的“机械降神”了。

这个“鞋盒”,可以说是语音交互的起点,但从“鞋盒”到“智能音箱”,中间走过了漫漫长路。

先有软件,再有硬件

智能语音交互,一直以来都是人工智能业界重点攻关方向,让机器明白你在说什么,是人类梦寐以求的事。此外,在机械、按键、触屏之后,语音被视为人机交互下一阶段的主流,因为人的“说话”是最自然、最快速、最低成本的交流方式(再往后可能是脑电波),发展智能语音,可以让人类更加轻松便捷地进行生活生产。

从AI对话的流程来看,主要分为四个技术模块:自动语音识别(ASR)、自然语言理解(NLU)、自然语言生成(NLG)、文字转语音(TTS),合并为AI人机对话系统框架,形成一个完整的对话流。可以看到,这流程上的每一个环节,都是人工智能高难度领域,因此,在IBM的“鞋盒”之后三十多年的1990,才出现了第一款语音识别产品Dragon Systems,售价6000美元,明显没法实现消费层面的普及,概念意义远大于实际意义。

百度小助手免费下载,百度小助手免费下载安装?

2010年后,随着算力增长与技术突破,语音助手进入密集爆发期,其中最为人熟知的是苹果的Siri、谷歌Google Now、微软的Cortana等,与此同时,芯片等算力硬件性能提升、体型缩小,及家庭wifi的进一步普及,让功能强大的语音助手能够栖身于更适合家庭场景的设备,“智能音箱”应运而生。

2014年7月9日,亚马逊发布语音助手Alexa和智能音箱the Amazon Echo,一开始,这种产品并不被人所看好,因为实用度确实不高,只能用来听音乐、问天气、查询亚马逊产品价格等,但随着智能家居进一步普及,越来越多的设备开始与Echo连接,智能音箱逐渐成为家庭的控制中枢。2017年,Alexa在美国的功能已经超过10000种,大大丰富了Echo的适用范围,也完成了用户教育。

百度小助手免费下载,百度小助手免费下载安装?

巨头很快意识到这是一片面向消费者的蓝海,而且“占据入口”比“单品消费”的意义更大,因此谷歌、微软、三星都推出了自己的智能音箱设备,可以看到,虽然智能音箱是人工智能技术集成的产物,但一开始并不以AI作为售卖点,更多是作为一个便捷的信息获取设备,这时候的对话系统依然是一板一眼的。

就是在这样的背景下,2017年5月4日,百度推出了自己旗下的首款消费级人工智能设备“渡鸦”,但根据百度官方口径,真正意义上的全自研产品,是在这一年后发布的“小度在家”。

小度的前世今生

按照“先有软件,再有硬件”的逻辑,小度的前世是百度旗下AI语音助手“度秘”。2013年,李彦宏王海峰认为搜索的下一个入口是语音,但是语音需要一个更加具象的应用,一开始,百度希望把自身的语音技术集成为一个智能秘书,这就是2015年“度秘”问世的由来。

今天,我们的语音对话已经非常普及,但在当时,AI开发者依然面临着非常实际的问题:怎么从“一问一答”变成真正理解问题,要根据上下文理解用户意图,主动提供一些帮助。如果只能对话,这个系统的实用价值就会大大降低,而想要解决一些生活中的实际问题,就需要做到“真正理解”,非常考验我们上一期中提到的自然语言理解(NLU)技术。

2015年百度世界大会,“度秘”首次亮相,2017年美国拉斯维加斯CES上,“度秘”有了个新的名字——DuerOS(小度助手),可以搭载到合作伙伴的硬件上,语音、语义等大量算法和模型后续也得到了进一步开放,帮助硬件厂商打造自己的语音控制中枢,百度下的这一手棋为它汇聚了大量生态合作伙伴。

百度小助手免费下载,百度小助手免费下载安装?

到这个时间点为止,百度打磨语音技术的思路很明确——通过开放技术,进入大量形态各异的硬件中,实际上就等于占据了这些硬件的语音入口,只要厂家没有自研语音的打算,就一定要用到DuerOS系统,这是商业的角度;而语音技术在实验室外得到了更多的实践,每一次使用都会带来更贴近现实生活的反馈,比如不同的人唤出语音的习惯不同,发出语音指令会有音量、音调、方向、词语的差异,这些都会成为DuerOS自我学习成长的“养分”,这是技术的角度。

大厂提供平台系统,对外输出垂直能力或解决方案,这一模式在2017年前后开始流行起来,降低了许多第三方厂商拥抱人工智能的门槛。不过,百度并没有就此停止软件与硬件的“灵肉结合”,自研硬件的想法开始出现。

自研硬件,灵肉合体

在第三方硬件上积累经验、“打怪升级”之后,DuerOS优化到2.0版本,已经可以做到“打开手机百度,播放今天的新闻,下一条,声音大一点,返回……”这种连续对话,交流体验已经非常流畅,实现了高达97%的语音唤醒准确率,将误报次数被控制在24小时一次以内,具备进一步大规模应用的条件。

2018年,百度正式成立智能生活事业群组(Smart Living Group)SLG,开始着手打造自己的智能音箱,这里需要注意的是,互联网思维与硬件思维差异很大,互联网大厂经常被人吐槽没有硬件基因,闹出过不少笑话,所以百度找了一个专业的人来主持这件事,他就是景鲲。

百度小助手免费下载,百度小助手免费下载安装?

景鲲曾任微软公司首席研发总监,也是微软小冰的创造者之一,对智能语音这一块可以说驾轻就熟,他于2014年加入百度,2018年升任百度智能生活事业群组总经理。相比语音技术突破,景鲲更注重打造“符合中国人使用习惯”的产品,他认为如果要做智能音箱,就不能忽视老人和小孩群体,这点与欧美产品思路差别很大,因为欧美智能音箱主要面向青年至中年白领群体。

比如产品设计要基于中国用户习惯、口音特点、交互诉求;使用频率与习惯的培养需要被关联上强有力的内容与功能;要符合家庭场景使用习惯,不能每次都喊唤醒词……

2018年3月26日,带屏智能音箱小度在家诞生。这款产品既可以用语音控制,也可以通过触屏控制,而且搭载了视频观看、视频对话等需要屏幕的功能。通过小度在家,其实我们能看到某些消费级人工智能产品的设计思路:

百度小助手免费下载,百度小助手免费下载安装?

一是更加丰富的交互方式。如果一款产品仅面向Z世代人群,他的交互方式会变得极简化,只保留Z世代最常用的那一种,比如语音或者触屏,但是面向更广域人群的消费级产品,还需要向更多群体进行兼容,所以小度在家系列从一开始就主打带屏智能音箱的设计,语音+触控的交叉使用,可以最大程度囊括不同年龄段的用户。

二是更自然的交互习惯。前面已经提到,语音交互是人类社会下一阶段的普及点,但用户教育一定要顺应人类直觉,而非反直觉,一开始,使用智能音箱每次都要加上唤醒词,但我们回到家每次都要喊一声“小度小度,把电视打开”,“小度小度,把灯关掉”无异于一种羞耻play,在2018年小度助手3.0的更新中,已经可以不用每次都喊唤醒词,更像人类一样连续对话,而且能根据历史对话纪录不断优化反馈。

三是要有实用性。智能音箱刚出来的时候实用性不高,是因为技术限制,不能准确理解用户意图,所以只能用于单纯对话和一些简单功能的接入,而且也涉及到更多第三方功能接入门槛的问题。所以在小度不断地升级迭代中,第一方功能和第三方功能越来越丰富,尤其面向老人和儿童,大大延展了智能音箱的实用性。而且随着我国智能家居渗透率进一步提升,智能音箱的家庭控制中枢作用越来越突出。

小度是“基础技术决定上层产品”的具现化

截至目前,小度智能音箱已经经过多次升级迭代,并且面向不同的人群开辟了众多产品线,而它的“灵魂”DuerOS系统也已经升级到7.0版本,并且向更多品类渗透——无线耳机、平板、翻译笔、电视、健身镜……不过,小度在第一方硬件的主力载体,仍然是带屏智能音箱小度在家系列,并且向老人关怀和儿童教育两大方向持续特化。

百度小助手免费下载,百度小助手免费下载安装?

这些都建立于百度在语音交互、语言理解的技术突破之上。这里举两个可以大幅优化用户体验的技术:

一个叫“全双工免唤醒”,这是改变一问一答生硬模式的关键,让人可以和智能音箱连续对话、多轮对话,而不用唤醒,这样人机交互就更接近人和人之间的互动,很考验机器的理解能力,因为唤醒词的诞生,是为了在理解能力略显不足的阶段,提醒机器“我要开始对你下指令”了,如果不加唤醒词,机器不知道你在叫他;但是“全双工免唤醒”技术可以让机器理解人类哪些话是对自己说的,哪些话和自己无关,机器知道该什么时候开启自己的“注意力”。

另一个叫“多模态交互”,意思是在一段交流过程中,机器可以识别文字、语音、视觉、动作、环境等多种方式的交叉混用,还能形成正确的交互逻辑。比如你问小度“周杰伦今年最火的是哪首歌”,小度回答说是“是《莫吉托》,要我为你播放吗?”,你向它比一个“OK”的手势,它就开始播放了,这背后是先用图形识别出人类的肢体动作,再将动作化为语言进行理解。这种也很接近人和人之间的自然交流。

从这两条可以发现,百度在实验室关起门来做的AI底层技术研发,很快就能找到应用渠道,并且转化为产品功能,这是产业侧下场做基础型研究的最大优势,我们常常说“产学研不分家”,意义就在于此。

此外,这种现象还带来了另一种优势:在上一个人工智能周期,技术突破到实际应用时间较长,这一方面受限于芯片等物理基础设施的不完善,另一方面受限于科学家的产业思维没有得到普及,因此一门技术很难快速实现商业化,发挥自身价值,这为2019-2020年人工智能行业整体遇冷埋下了伏笔。企业以消费级产品牵引AI技术的升级迭代,可以避免一些热钱和概念堆叠出来的“空中楼阁”,这对人工智能技术实用化意义重大。

此外,人工智能消费级产品带来的另一个益处是,消费者群体就是一个天然的数据库,我们知道深度学习需要数据去“喂”,以实现系统的优化,去年3月小度智能助手月语音交互总次数就达到66亿次,这加快了小度升级迭代的速度,和在实验室闭门造车不可同日而语。这也侧面证明了,深度学习确实是促进人工智能发展的“利器”。

如今,小度背靠百度人工智能技术优势,以及在宣传营销、现金补贴方面的资源倾斜,成功变身为网红产品。但行业瓶颈期也随之而来:随着智能音箱功能性开发见底,以及疫情影响供应链运转,2020年国内智能音箱销量下降了8.6%。对此,2021年小度推出了很多新品类,延伸到其他的垂直场景,这也是AI底层技术具备灵活性和泛用性的优势所在。

接下来,我们聊一聊百度AI“三驾马车”的另一头:自动驾驶,同样是自研——开放——合作——自造的道路,某种程度上,这个领域与人工智能行业整体趋势更加紧密,Apollo的的曲折路线,反映了人工智能商业化之路的艰辛。(GZH:阅后即AI)

END

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。

相关新闻

联系我们

联系我们

400-9010-860

在线咨询:点击这里给我发消息

微信:85018612

商梦建站客服

工作时间:周一至周六

9:00-18:30,节假日休息

关注微信
关注微信
分享本页
返回顶部