这对Facebook有什么用呢?
Facebook在计算机视觉方面一直走在前列,正如我们在它的相机和图像处理程序以及Portal等设备上看到的那样,Potal会用它的“脸”跟着用户在房间里转来转去。
虽然听上去有些惊悚,但是好奇心对于这些需要了解他们所看到或感觉到的环境才能正常工作的应用程序来说都是至关重要的。
任何在应用程序或设备上运行的摄像头,比如Facebook上的摄像头,都在不断地分析它所看到的图像,以获取有用的信息。
当一张脸进入画面时,十几个新的算法就会同时启动并开始工作。如果有人举起一个物体,摄像头就会忙着分析:它有文字内容吗?需要翻译吗?有二维码吗?背景有多远?
如果设备要及时完成这些任务,就会产生CPU使用率峰值、可见延迟以及用户或系统工程师不希望出现的种种情况。
相反,如果人工智能助理在对场景感到不确定性时,发挥它的好奇心去检查这些东西,确定分析物体的优先级,是个相当不错的折衷办法。
通过触摸感知
尽管视觉很重要,但它不是我们或机器人感知世界的唯一方式。许多机器人都配备了运动、声音和其他形式的传感器,但对物体的实际接触相对较少。我们可以把它归因于缺乏良好的触觉接口。
尽管如此,Facebook的研究人员还是想研究使用触觉数据代替视觉数据的可能性。
仔细想想,这完全是正常的,就像有视觉障碍的人用触觉来了解周围的环境,获取关于物体的细节。
因此,Facebook的研究人员部署了一个人工智能模型,机器人根据视频来决定采取什么行动,但不是实际的视频数据,而是给它输入高分辨率的触摸数据。
结果表明,该算法并不真正关心它是否像我们平时观察世界的图像,只要数据是以视觉方式呈现的,例如作为触觉传感器上的压力图,它就可以像图像一样分析该模式。
这对Facebook有什么用呢?
虽然Facebook对用户接触并没有多大兴趣。但这不仅仅是接触的问题,而是跨模式应用学习。
试想你第一次看到两个不同的物体,闭上眼睛,单靠触摸就可以很容易地分辨出来。为什么会这样?
因为当你看到某个东西时,你不只是观察到它的样子,还构想了一个内部模型来表示它,包含了多种感官和视角。
类似地,人工智能助理可能需要将其学习的内容从一个领域转移到另一个领域,比如说听觉数据告诉握力传感器如何握紧物体,或者视觉数据告诉麦克风如何分离声音。
现实世界是一个复杂的环境,这里的数据更嘈杂,信息量更大。无论数据类型如何,都能够利用这些数据对于可靠理解和与现实交互非常重要。
所以你会发现,这些研究本有趣,而且事实上也很重要。正如描述这项研究的博客文章所言:“我们专注于使用机器人技术,这不仅会生产出更有能力的机器人,还将在未来数年或者数十年内挑战人工智能的极限。如果我们想要更接近像人类那样思考、计划和推理的机器,那么我们需要构建人工智能系统,使其能够在多种场景中自主学习,不仅仅是在虚拟的数字世界。”
随着各大网络社交媒体不断扩大其影响力,其应用程序和服务的的范围涉及日常生活的方方面面,它对人工智能助力的要求也就越来越复杂。
虽然我们不会很快看到一个“Facebook机器人”,但未来可期。