我们又忘了,人形机器人≠AI

脑极体
关注

图片

“你看过《机械姬》吗?那个会骗人的艾娃,真的是AI吗?”

朋友突然的问题让我陷入思考。电影里,艾娃的每个眼神、每句对白都让人毛骨悚然——她太像人了,以至于观众理所当然地认为,这就是AI的终极形态。

但现实是,艾娃跟我们现在所说的AI,根本是两码事。她的能力寄身于一个叫具身智能的概念。

图片

具身智能并非更高级的AI,而是一种完全不同的技术路径:它不依赖大语言模型的尺度定律,通过物理身体与环境互动,像婴儿一样学习世界。

但由于科幻片的兴起与传播,被误当成AI好多年。

今天,就让我们抛开刻板印象,聊一聊:

为什么具身智能和AI不一样?以及我们离真正的“艾娃”,还有几公里?

图片

《机械姬》等影视作品中的机器人形象潜移默化中强化了“具身智能=AI”的认知。

但实际上,这是一种误读。

具身智能并不等同于AI。

要理解具身智能是什么,首先要分清具身和离身两个概念。

具身指存在或认知必须通过物理身体与环境的交互实现,强调身体经验的基础性作用,如人类;离身指存在或认知可以脱离物理载体独立存在,强调抽象形式的自主性,如软件、算法。

类似于ChatGPT一样的传统AI就是离身智能,可以脱离物理实体实现符号逻辑的抽象推理,能存在于任何终端。大语言模型通过海量文本训练建立词汇相关性网络,得出概率映射的最优解。然而,这种虚拟环境中研发出的智能缺乏对物理世界的感知。它难以理解拿起水杯需要怎样的力学控制,也不明白怎么避开突然出现的障碍物。

图片

具身智能则强调与物理世界的交互,将智能体的认知能力锚定在特定身体上,相当于“灵肉合一”。这个身体必须拥有清晰的边界和自我认知:首先,它得是独一无二的,自己能移动操控的;其次,它要可以与环境交互,并从中累积经验、习得规律。这种身体化学习(Embodied Learning)机制,让具身智能的进化路径与纯数据驱动的AI截然不同。

而代表具身智能的人形机器人,更是与AI差了一万八千里。

首先,人形机器人必须拥有能与现实世界互动的物理身体。这不仅仅是加个外壳那么简单,而是要建立一套完整的感知-行动闭环。

其次,这个身体要能动。要让机器人的身体真正活起来,需要突破三大难关:精确的抓握控制,比如拿起筷子或者豌豆;动态平衡,在山坡、楼梯等不平坦道路行走;多任务协调,边走路边端盘子等。

图片

并且,要给他与世界交互的多模态感官。具身智能需要构建比AI更丰富的感官体系,不仅要能看(计算机视觉),还要能听(声源定位)、触(力度反馈),甚至闻(化学传感);

最后,要一个比大语言模型更聪明的大脑,基于尺度定律的脑子难解因果。人形机器人的大脑要走世界模型这条路,在与真实世界的交互中习得经验,超越概率,走向规律。

综上,人形机器人是多个顶尖级技术集成的复杂智能体。但这样一个复杂智能体,真的如网上营销的那般,离我们只有一步之遥吗?

图片

哪怕翻遍所有最顶尖人形机器人公司的demo,我们也只能看到一个不停跳舞、翻跟头、有时连苹果也拿不稳的人形巨物。它的电池续航通常不够5h,常常电量告急;复杂的动作需要人工遥控,就跟小孩的遥控赛车一般。不过,小孩的赛车只要几百块,一款机器人需要几十万。

不得不说,这是一个炫技大于实用的概念。

因为我们想象中的人形机器人,那得是《机器人女友》里文武双全、长得像绫濑遥一样美、偶尔露出反差萌的完美“恋人”才行。

图片

理想丰满,现实骨感,AI发展已陷入固有技术方法论的沼泽,我们热衷于大语言模型、热衷于强化学习,却忽略了它们只教会AI如何模仿,没教会AI如何理解真实而复杂的物理世界。

而这恰恰是人形机器人向强发展所需要克服的。

近日,图灵奖获得者杨立昆在巴黎AI峰会上发表观点,要研究人类级AI就要不破不立,做到三个放弃:放弃只会概率计算的大语言模型、放弃宛如拼图游戏的对比学习、放弃驯狗般奖惩AI的强化学习。

人形机器人的脑子需要的是世界模型、规划算法等能与环境交互的技术;人形机器人的身体需要支持运动的仿生关节、代表感官的传感器融合系统、类似小脑的运动控制算法以及作为心脏的高能量密度电池。

但这些技术恰如2020年之前的大语言模型一般,陷入了研究瓶颈。

一方面,是因为太难;另一方面,是成本太高。

举个例子,人类使用工具的能力建立在数百万年进化形成的本体感知系统上。人类使用螺丝刀时,能通过触觉实时调整握力,并预判旋转时的扭矩变化。而机器人要实现同等操作,需要突破三大难关:0.1牛顿级的力控精度、高灵敏的触觉解析,以及避免自碰撞的运动规划协同。

图片

目前最先进的机器人,仍难在不同场景中拿起一个相同的苹果。所有科技公司放出的Demo几乎都是无杂物的光滑桌子或者空旷、光线充足的实验室环境,如果旁边多出一只梨子,或者苹果不小心滚落到地板,他们就可能束手无措。

另一方面,如波士顿动力Atlas的实验机人形机器人研发成本普遍超过200万美元。特斯莱自研“大脑”主控芯片每个3.2万,一个灵巧手1.2万元,作为感官的传感器系统合计11万元,支持运动的线性关节总成本约15万元,而即使实现量产,后期也要一大笔资金投入维修和保养,因为人形机器人有30个左右的关节,经过多次训练磨损后会出现不灵便、卡壳等情况。

不难看出,发展人形机器人就是为了造人而造人。但是从工业场景来讲,双足的效率是不稳定的,远远低于轮式底盘和机械臂的组合;且技术不够成熟,没有发展路径,实在称不上一门很划算的生意。

既然性价比如此低,人形机器人的说法到底从何而来,又为什么如此火热?

图片

人形机器人是一个被资本炒熟的概念,也是一场为了融资而作秀的狂欢。

2024年1月至10月全球人形机器人行业共发生69起融资事件,总金额超过110亿元。其中,有56起发生在中国,总金额超过 50 亿元,不少头部企业一轮就融超10亿。

但是,当前融资热潮源于资本追捧而非技术成熟,部分公司估值虚高。为了吸引融资,企业持续在社交媒体上营销打拳、翻跟头等不实用的功能,同质化严重,价格高、能力差、落地难,本质是脱离技术谈未来。

清醒后的资本热开始退潮。

图片

一些企业陨落了。曾估值30亿美元的达闼科技被曝欠薪、裁员、资金链断裂陷入停摆危机;而素有人形机器人第一股之称的优必选五年亏超五十亿,市值蒸发千亿港元。

一些投资方撤资了,朱啸虎批量撤出人形机器人,退出的公司包括星海图和松延动力。

这并非孤例,这个由资本催熟的概念,在历史上至少经过三次幻灭。

1970年代,早稻田WABOT-1首次双足站立但动作迟缓、能耗极高,仅实验室展示;

1990年,服务机器人泡沫,成本高达200万美元的本田ASIMO,仅能端茶倒水,2018年终止所有相关项目;

2010年代的社交机器人神话软银Pepper因对话机械、价格昂贵、故障率高,在2023年停产;

2020年代,AI的爆火又一次唤醒了资本对人形机器人的狂欢。但这仍掩盖不了波士顿动力多次易主谷歌、软银、现代的事实,另一家公司Atlas因炫技视频与实际落地脱节,融资越来越少。

回望历史,人形机器人的发展始终跳不出一个轮回怪圈:总是始于惊艳的实验室demo吸引资本追捧,继而催生估值泡沫,最终因商业化失败导致资金集体撤离。

无数企业和资方周而复始地演绎着从希望到幻灭的故事。而这个循环反复出现,主要有三个原因:

图片

首先,烧钱太猛,但没有形成商业闭环,没有找到市场过度依赖投资。造一个人形机器人动辄上百万,比工厂里用的机械臂贵几十倍。投资人砸再多钱,也很难找到愿意买单的客户。就像当年本田花3亿美元研发的ASIMO,最后只能在科技馆里表演端茶倒水。

其次,现在的技术其实不足以支撑人形机器人的爆炸,还处于摸着石头过河的状态。当前VLA(视觉-语言-动作)模型在动态环境中的错误率仍高达40%,远未达到自主决策水平;高功耗导致多数人形机器人仅能连续工作不到5小时,远低于工业需求。

最后,方向跑偏了,娱乐属性强、工具属性弱。为了吸引投资而不停作秀跳舞、忽略实用性。无法在垂直场景减轻人类负担提升总体效益的机器人,催生了更大的泡沫。

脱离技术谈商业,只是镜花水月。几乎可以断定,即使此轮人形机器人不会破灭,也一定像历史一样走向沉寂。毕竟,没有人愿意花几十万去买一个只会跳舞的大型机械。但另一方面,值得庆幸的是,我们离那个会欺骗人类感情的“艾娃”还很远。

图片

       原文标题 : 我们又忘了,人形机器人≠AI

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存