特斯拉AI准备打败波士顿动力？

“算力再高,也怕菜刀”

DOJO(日文“道场”的英文)应该算是这次特斯拉AI DAY的最大看点。

2020年8月,马斯克表示,该公司正在研发一款名为“Dojo”的神经网络训练超级计算机,目的是用来训练包括Autopilot在内的整个自动驾驶系统。当时,马斯克发推称,估计还需要一年时间。不仅仅是芯片本身的研发难度,还有能效和冷却问题。

当时,马斯克首次披露了特斯拉Dojo超算计划的目标——FP32精度的1EFLOPS(1018)的算力,也就是1024 PFLOPS,这将是已投入使用的超级计算机中排在第一的日本富岳的2．5倍。

我们可以看看当时的宣传图,芯片用了非常规的封装形式,第一层和第五层铜质结构是水冷散热模块;红色圈的第二层结构由5*5阵列共25个芯片组成;第三层为25个阵列核心的BGA封装基板;第四层和第七层是物理承载结构附带一些导热属性;蓝色圈的第六层是功率模块。而Dojo系统的算力,相当于近3万辆特斯拉HARDWARE 3．0车型算力之和。

时间到了今年6月,在CVPR 2021工坊活动上,卡帕西Andrej Karpathy还介绍了这款超级计算机的最新情况:拥有10 petabytes(1015)NVME存储,运行速度为每秒1．6 TBps(1012),总算力为1．8 EFLOPS(1018),一度被认为超越全球排名第一的超算富岳。

而今天,特斯拉终于揭开了 Dojo 计算机芯片的神秘面纱。由于采用了创新的架构,将算力分布在复杂的网络构造中,实现了极高的算力、高带宽、低延迟的网络吞吐量。

具体来说,Dojo 的D1芯片(属于ASIC芯片,用于AI训练),采用7纳米制程,单片BF16算力达到362 TFLOPs。

此外,D1芯片还具备团队作战能力,可以无缝融合,变成超大规模计算阵列。比如,这次发布的集合25块D1芯片的首个训练模块。算下来,超过50万个训练节点。每个模块算力为9 PFLOPS(1015),带宽为36TB/s。

特斯拉官方还透露:这不是终点,下一代Dojo还会有10倍性能的提升。

当然,最有意思的信息是,特斯拉发布了下一阶段的集成120个训练模块、包含3000个D1芯片、超过1百万个训练节点、算力达到1．1EFLOPS的ExaPOD。不过,“我们很快就会组装我们的第一个机柜,”曾在AMD工作过的Venkataramanan说。嗯,这个ExaPOD机柜离落地还有距离啊。

当然,如果说Dojo是自动驾驶的“大脑”,那么HARDWARE 4．0就是“神经末梢”。不过,整场发布会,都没提HARDWARE4．0。

说起来,特斯拉是“拳打英伟达GPU,脚踢谷歌TPU。”但是,我们要说一句,“算力再高,也怕菜刀”的事还是会出现的。就像记者在《过度宣传“自动驾驶“的罪与罚》里面讲的,千万不要迷信科技!

准备打败波士顿动力?

最后说说,发布会上,在一段人类演员模拟机器人的“尬舞”(这次不是马斯克自己跳了)之后,埃隆·马斯克上前表示,可能会在明年推出人形机器人Tesla Bot的原型。

这款机器人高1．72米,重56．6千克,机器人的脸实际上是一个显示信息的屏幕。此外,机器人的双手动作能力接近人类水平,四肢使用40个机电推杆进行操作,两只脚有力反馈感应,以实现平衡和敏捷的动作。

据悉,它能够完成的一些任务,包括跑杂货店、捡拾家庭物品和其他日常指令。而这款机器人带给人的惊艳感,有微信群里的媒体老师讲到,让人想到威尔·史密斯多年前的名片《机械公敌》里面的SONNY。它的外形也比本田和现代的机器人更接近人类。

不过,机器人这个“大招”在汽车公社&C次元看来,花里胡哨的意味更浓厚点。毕竟,就像谈到机器人必谈的波士顿动力公司,也是命运多舛,被卖来卖去的。所以,机器人“尬舞”更多像是增加招聘几率的“光环效应”。

整场AI DAY,特斯拉讲的内容,其实并没有太出乎意外,是向着“更高、更快、更强”的方向前进,不过,就像《机械公敌》最后站在沙堆上的SONNY一样,特斯拉一些原生性的BUG,让它会不断遭遇到被调查这样的困境,马斯克需要好好反思一下这种极致的发展思路。

特斯拉AI准备打败波士顿动力？

相关推荐