“人机自然交互技术”的趋势与挑战

AI锐见
关注

即便如此,第一个问题我们还要阐述清晰,因为这不仅有市场趋势问题,还有商业路径问题。我们首先看下面一张图片,我们知道全球最大的图书馆是美国国会图书馆,大概有3000多万本藏书,若每本书按照100万字来统计,总共也就30TB左右的数字容量,实际上人类每年产生的文字资料总共也就160TB。相比之下,仅Facebook一家产生的数据就有300 x 365 TB,全球的数据可能超过了2000PB,而且这个总量还在快速增加。那么面对这些海量的数据,我们人类怎么才能获取知识?我们一生也不可能读完美国国会图书馆的藏书,就更没有可能遍历当今的机器数据。当然我们知道这其中很多都是重复数据,但是筛选重复信息本身也是人类学习的过程。显然,我们人类无法记住1亿人的面孔,也无法辨识1亿人的声音。人类知识和机器知识实际上已经开始各成体系,机器显然具有比人类更强的知识去重、筛选、复制和迭代的能力,而我们人类知识想要获得更快的发展,也必须依赖机器知识的支撑,这就必须要解决人类知识和机器知识的交互相通问题,怎么才能简单的把机器所理解的知识复制粘贴到人类世界?以前文本时代我们有搜索引擎,那以语音图像为主的人工智能时代呢?所以,我们必须要有人机自然交互系统,只有这样才能高效的获取更有价值的机器知识,才能解决未来数据爆炸时代的知识获取问题。至于商业化路径,其实搜索引擎已经做了很好的示范,人机交互系统肯定会催生更多的商业变现路径。

“人机自然交互技术”的趋势与挑战

至于第二点对于巨头加入竞争的担忧,其实任何一个赛道只要未来市场空间足够大,就必然会产生这种结果。巨头为了支撑不断攀升的市值,就必须布局未来天花板足够高的产业,即便这个产业的商业模式当前还比较模糊,除非这个行业没有足够的商业空间或者战略价值。我们一定要相信这个世界的聪明人很多,即便倒下了很多巨头,也从来没有哪个巨头纯粹是因为战略方向问题倒下的,更多的原因反而是巨头在执行方面出现了巨大的问题,战略其实也是一个执行问题。

但是我们也要承认语音行业的不足,语音行业还比较缺乏对于商业落地的认知,若比较图像、语音和自动驾驶这三个赛道,语音特别喜欢使用晦涩的术语比如自动语音识别、自然语言理解等等来给技术贴标签,而不像人脸识别、车牌识别、自动驾驶这样直接对应场景应用。而更为麻烦的是,晦涩的术语不仅增加了商务对于场景的解释难度,也拔高了客户对于技术的应用预期。这其实都非常不利于新技术在商业的规模化应用。

举个例子,“人机自然交互技术”就倒霉在这个术语上,这估计是人类追求的终极梦想,可以作为学术术语,但是落地到产业这个名词就过于抬高预期,非常不友好。坦诚的来说,我们现在能做好人机任务对话特别是远场系统就相当厉害了,至于能否挑战人类智慧现在还是看不到任何苗头。即便作为学术名称,却也感觉有点单薄,不如学学通信领域用“G”来定义。这完全可以类比,因为通信解决的是人和人交互的问题,人机自然交互解决的是人和机器交互的问题。随着机器的数量越来越多而且越来越智能,人和机器的交互将是未来世界的主要问题。若采用“G”来划分人机交互技术,则大概可以划分成如下5代,和移动通信类似,当前也就在第4代阶段,距离5G还有一定的周期。

即便参照“G”的分类方法也有很多种,若以商业普及作为重要的参考因素,个人觉得可以按照如下的方式来划分:

第1代人机交互技术:以旋钮和键盘为代表,以模拟信号和字符为主要交互手段,可交互信息复杂度较高,效率很低,只能实现相对简单的任务,但是可靠性也最强。这个阶段的产品主要是包括打字机、电视、照相机、早期计算机、功能手机等各种电子设备,一般都是小巧简单的操作系统或者不用操作系统。

第2代人机交互技术:以鼠标为代表,以复杂图形为主要交互手段,可交互信息复杂度较低,效率得到提升,易用性增强,学习成本降低。这个阶段的产品主要就是个人计算机,Windows和Linux是代表性的操作系统。

第3代人机交互技术:以触摸屏为代表,以简单图形为主要交互手段,可交互信息复杂度更低,易用性提升,学习成本急剧降低。这个阶段的产品主要就是以触摸屏为核心的智能手机,IOS和Android是代表性的操作系统。

第4代人机交互技术:以语音为代表,以远场语音为主要交互手段,从这个阶段开始,人机交互的作用半径变得更远,真正释放了双手,而且人机交互变得更加简单,同时人机交互和内容服务耦合更强,交互具备了知识学习和传递的属性,但是由于存在更多模糊空间,远场语音交互的可靠性相对下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的交互系统。

第5代人机交互技术:以多传感融合为主要交互手段,可交互信息的理解度和可靠性更高,融合交互将成为人和机器互相学习的关键路径,并且这个阶段人机交互的智能程度和主动程度都会得到大幅提升,机器可以感知人类的情感并且与人发起主动交互。

再总结探讨一下,第5代人机交互(5G or 5I 5I means the fifth generationhuman-robot interaction technology)的技术趋势可以暂时归结为下面4个方向:

第1个方向就是远场化,虽然第4代人机交互就主打远场语音交互,但是我们要坦诚地面对现实的残酷,当前的技术远没有那么好,我们在远场可靠性方面还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。第5代技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。更为重要的则是基础理论技术的进步,特别是声学的基础理论突破,我们已经等待太久了。当然这也很难,比如生理声学就受制于当前实验条件和人类伦理的约束比较难于突破,所以脑机接口当前来看就更加困难,直接挑战人类智慧的技术路线当前来看都不太靠谱。

第2个方向就是融合化,“声光电热力磁”这些物理传感手段,必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。机器的感知能力必须要超越人,事实上众多仪器也已经达到了这个目标,只不过,我们要把这些先进的传感手段做的更加小巧更加便宜更加可靠,这是高端技术能够走进寻常百姓家的关键所在。从当前的技术进展来看,声音和图像的融合更为成熟,关键就在远场化。图像识别若应用到消费场景也必须远场化才行,比如说:抬眼一撇,从此便记住了她的容貌,而不是尴尬的站在摄像头面前不知所措,这种交互体验非常不友好更不吸引人。

第3个方向就是智能化,这也是最难实现的,因为智能本身的定义就是模糊的,这个智能化也不是类人智能,而是人类知识和机器知识互相传递的泛化,也就是让机器可以理解人类的模糊知识,这并不是自然语义处理所能解决的事情。比如“像鱼忘掉海的味道”,当前再好的NLP引擎也无法释义,同样机器也无法准确理解“小桥流水人家”,这就是意境。人也是这样,高学历也并不意味着有文化,比如我们AI公司,学历都很高但是有时就比较缺文化。机器要智能就要有文化,那怎么来实现呢?人类怎么做的呢?比如高考时候的语文和英文考试,想拿高分阅读量就是一个硬指标,所以机器也要这样,先不用管什么方法什么模型的,记忆的足够多就会有显著效果。数据足够多的公司,未来必然也会比较聪明。

第4个方向就是主动化,主动化要在智能化的基础上实现,让机器尝试理解人类情感表达。这才是人工智能最大的商业价值所在,因为人和人之间的交互过程中,特别是在有商业价值的地方,主动交互占据相当大的比例。想想其中的奥妙,当前互联网最为火热的三大领域:搜索、电商和社交,归根结底,到底是在做什么呢?搜索的商业变现为什么最终落在广告业务呢?社交的商业变现为什么最终落在游戏业务呢?若想挖掘人机交互的商业价值,主动交互就是关键的技术。只需要部分理解人类思想和情感,就能稍稍影响人类的决策,这就是巨大的商业空间。况且,机器没有人类的那么多情感负担,比如说机器怎么说甜言蜜语都不会觉得恶心,我们人类肯定不会把机器看成我们的上下级关系,也不会把人类的框框强加于机器,当然另外一个可能也是极为可怕,机器可能也无底线的无耻,其目的就是为了推销一款商品。任何技术其实都有两面性,但是掌握技术的是人类,是每一家的企业,所以一家的企业价值观决定了技术是服务人类还是败坏世界规则。归根结底,还是人的问题,人的问题,也都是教育的问题。要让机器不断学习更好的造福人类,人类也应该不断学习适应机器才是

这点还要稍微展开一下,人世间最难的莫过于重塑一个人的思想,以远场语音为核心的人机交互技术逐渐影响人类的决策,想想这就是令人激动的伟大事业。显然,机器以海量的数据、强大的算力和优异的算法为基础,永不疲惫的进化迭代,迟早是能够大概理解一下人类的,这就足以影响一个人简单的决策了,我们人类其实也蛮懒的,日常小的决策非常依赖于周边人群的建议,这就是一种趋同性,而机器恰恰擅长参与并引导这种趋同性。当然,若将这种能力用错了地方,对人类的伤害也很大,所以搜索引擎的谷歌才会有“不作恶”这个价值观,若没有这个风险谁会闲来无事提这个价值观呢。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存