“你不温柔，我不主动”，人机关系究竟要怎么改变呢？

在日常生活之外，多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告，以及利用机器视觉+故障信号的方式判断设备问题等。

把不同信号模态整合在一起，实现设备的多维感知，今天正在以比较快的速度来到应用市场。

高精度判断用户命令，输出主动服务；提供实时化、弹性化的体验，可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。

当然了，还是有几道难关……

按照惯例，最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联网当然也不例外。

最核心的一个问题，是我们到底靠什么实现多模态协同？

目前来看，无论是家电还是工业设备，实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心，启动一定程序来开启相应服务。

换句话说，AI模型本身是没法理解多模态信号的，只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行，只是在实时化和复杂的推理判断上会有心无力。

解决方案可能是一种叫做“多模态深度学习”的技术，让AI智能体本身能够理解多模态信号，从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化，并且可以让设备进行多模态协同学习，真正地“聪明”起来。

这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破，今天我们还只能等待学术界的好消息。

另外一个问题，是今天的多模态交互缺少有效的开发平台，开发者和企业很难复制这一模式，来进行独立的物联网解决方案开发。当然，目前来看这应该仅仅是个时间问题。

与之相对应的，是在缺乏行业标准、开发基础的前提下，今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司，但似乎大部分处在做PPT的画饼阶段。

综合来看，AI带来的多模态想象力，大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势，还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。

但无论如何，耳聪目明的机器，已经在跑步过来的路上了……

相关推荐