第一次使用手机语音助手的时候,这个令我新奇不已的玩意儿,总是会在我兴冲冲地问一个问题之后,令人失望地回答一句:“我好想听不懂你在说什么……”
后来技术演进,它终于能够通过我的一些关键词,听懂我说什么了。但一板一眼,一字一句,程式化十足。
慢慢地,简单的对话已经难不倒它。语音助手开始不局限于仅仅是对“文本”的理解,而是加入视觉、听觉等分析技术,通过“察言观色”来捕捉人的“话语”背后蕴藏的情感。它们开始试图获取人类的情绪。
就像亚马逊近日所透露的,基于Alexa语音识别情绪的技术能力,他们有计划打造一款类似手表的可穿戴设备,通过捕捉用户的情绪,而去提供更多的服务。
万事不离“视听”:AI探知情绪的主要途径
对人类的情绪进行研究和总结,是一个已经开展了将近一个半世纪的课题。最初研究者们往返于不同的种族人群,进行比对、分析,得出了人类的几大基本情绪类别,然后可以应用在人际交往、医疗护理等行业。
而在人机交互越来越深入的今天,机器能否对人的情绪进行充分的理解,将会直接影响到交互体验。由此而来,诸多人工智能公司开始对机器识别情绪展开了攻关。得益于图像识别和语音识别技术的不断取得突破,目前AI识别情绪主要有两种途径。
第一种是视觉情绪识别。这是一种最基本的情绪识别方式,因为人的情绪往往会以面部肌肉运动的形式来直接呈现,这也是美国心理学家保罗·艾克曼和福里森证明人类有六大基本情绪的直接原因。
而面部识别如今已经是一项非常成熟的技术,通过“喂给”AI大量的面部表情数据,然后进行学习,从而就可以对现实中人脸所呈现的情绪进行判断。国内就有专门做面部情绪识别的人工智能公司,比如旷视、太古等。
第二种是语音情绪识别。人的情绪出了能“看”出来,也能“听”出来。与之直接相关的就是不同情绪下人说话的语调:深沉之于悲伤、高昂之于愉悦等。
相较于视觉识别,语音识别的难度要高了不少。因为情绪与表情的对应度要远高于语调与情绪,比如你很难将哭丧脸与开心联系到一起,但一个人如果说话声音低沉的话可以表示他心情沉重,也可能是因为他的音色本就如此。正因如此,对声音信号的分析才会要求更加精细。百度、谷歌、亚马逊等对此均有一定的技术积累。
除了这两种情绪识别途径之外,通过文本识别和生理信号(脑电波、呼吸、皮肤阻力等)也是AI进行情绪识别的方法,但由于文本涉及的场景狭窄和生理信号的准确率低的短板,其尚不能成为主流的情绪识别方法。
显然,Alexa所擅长的就是第二种途径。在语音情绪识别方面,去年10月Alexa就已经取得了相关专利,其可以通过声音的模式来确定用户的幸福、快乐、愤怒、悲伤、恐惧、厌恶、无聊、压力和其他一些情绪的状态。而如今,这项专利终于要派上用场了。
从买止咳糖浆到在线购物:Alexa听懂情绪后怎样
Alexa是亚马逊专门研究智能语音技术的团队,它的技术要进行应用转化,往往和亚马逊的另一个团队Lab 126(曾经开发过kindle和echo等产品)有关。这一次,两个团队再次携手,准备把语音情绪识别的最新成果搭载到一个类似智能手表的可穿戴设备上。通过与手机APP的连接,来为用户提供个性化服务。
根据亚马逊的内部文件,这款手表的功能定位很简单,就是健康辅助。而在此之外,它还可以通过识别用户的语音特征来进行情绪判断,然后为其提供与他人交流的最佳方式。
根据描述,如果一个女生一边擤鼻涕一边咳嗽一边又跟Alexa说自己有点饿了,那么Alexa就会通过对女生说话的的音调(虚弱、低沉)和背景音(咳嗽、擤鼻涕)分析出她很可能得病了,然后发出来自机器的贴心关怀:要不要来碗鸡汤,或者叫个外卖?甚至直接线上订购一瓶止咳糖浆一小时内送货上门?
说真的,妹子要真有这么一个贴心助理,还要什么男朋友?
从这个角度来说,Alexa作为个人生活助理的角色会得到进一步的加强。比如将其和手机音乐、电商APP等业务进行连接,在感知到你比较悲伤的时候为你唱一支快乐的歌,或者为你购买一盒甜品来让你通过食物获取愉悦感等。
由此而往,Alexa很可能将开启一种全新的语音购物推荐方式。与传统的通过捕捉用户的浏览记录、搜索记录或者通过“窃取”其他用户在手机其他APP上留下的隐私足迹,然后进行毫无目标的泛化、低效的推荐不同,通过感知情绪和问询来为用户进行购物推荐,能够获得更高的成交效率。这无疑将对电商形成巨大的吸引,也是可能成为Alexa获利的一种新的商业模式。
当然,现在这种可穿戴设备尚且处于研究的早期阶段。亚马逊并未完全确定是否执行此项计划。如果技术可行的话,才会进一步地去进行设计。我们这样长篇大论似乎有“过度解读”之嫌。
但在这个时代,最不可小看也最无法预测的,就是技术的走势。如果它真的走入了现实,或许还真有一些东西需要认真对待并妥善解决。