小米的智能驾驶和小米销量一样是中国智能汽车中发展最快的,从2021年立项,到2024年3月28日小米Su 7,带着高速领航上市;半年之后的9月份,小米的城区领航上市;到2025年现在开始内测车位到车位智驾驶。不管小米智能驾驶目前体验性能体验如何,但不可否认小米的智能驾驶的功能成长速度是最快的。
最近的GTC 2025 上小米汽车自动驾驶与机器人部杨奎元,表示“小米在2024年智能驾驶上实现了一年追三代的快速追赶,从基于高精地图模块化架构到去高精地图模块化架构再到端到端架构。” 同时他也介绍了小米在端到端方面的一些实践。所以本文,根据杨奎元在GTC 2025 的演讲内容,探讨端到端算法的物理世界如何建模,也希望探讨下当前智能驾驶端到端到底有几段。
“三层建模”架构的物理世界模型数据观测层Ot作为神经网络的输入层,也就是传感器输入的包含了图像、激光雷达点云以及领航功能所需要的导航信息等。隐式特征层Zt,上一步输入层的信息,通过BEV编码网络得到隐私的特征表达,通过不同的解码器可以分别得到:动态元素,其他交通参与者,其中动态元素在场景中分布较为稀疏局部且不同个体运动状态不同,需要单独维护各自的历史信息,小米智驾使用带有memory的Sparse方案进行建模静态元素,道路标志,设施,障碍物等,静态元素则相反,直接采用Dense方案进行建模。自车的未来轨迹,根据车辆的速度,IMU方位等信息得出自己车辆的运动轨迹。 显示符号层St,就是为了方便人理解以及对接人工规则代码,模型会解码出显示的符号表达,如静态的车道线、斑马线等,动态的行人、车辆等,这些也是监督学习中人工增值标注或者自动化增值标注的表达形式。
有了这“三层建模”这样就形成对当前场景的理解,用于未来的决策规划。不过,这种“三层建模”只是一种粗粒度的划分和表达,每一层内部还可以细化为更多的层。比如图像金字塔中的多层分辨率图像,深度神经网络中不同隐层的特征表示等。最后可能车辆输出的运动轨迹只是充分考虑了动静态信息之后解码生成,最终通过人工设计的cost,如和其他障碍物计算的碰撞cost、和车道线计算的偏离车道cost、横纵向Jerk计算的舒适性cost,用于约束轨迹的合理性。
整个神经网络的训练由人工定义也就是规则定义的最后一层的loss曲度,包含静态和动态的元素和真值之间的差异、自车轨迹模仿廉价轨迹的差异以及人工设计的多个cost,输出运动轨迹来控车。物理世界模型的建模方法设定好了模型架构,那么建模就是打通数据驱动渠道,让模型能够在数据驱动下自动输出真实的需要的结论,形成数据驱动飞轮。三层分别建模的多段式端到端数据观测层典型的输入就是各家常说的多少Clips视频流,但不少corner case或者长尾场景,和感知造环的闭环仿真评测需要采用生成数据训练。目前已经有很多相对成熟的AI技术可以使用,如3DGS重建技术、diffusion auto regression生成技术,典型的工具有open AI的Sara、Deepmind 的 Journey 到英伟达的Cosmos的这些视觉生成大模型。
通过直接拟合原始数据的概率分布加上额外使用逆时针图像隐私特征显示符号等控制条件,可以进行原始信号的生成。当前这些模型目前生成速度较慢主要在云端仿真物理世界。这些生成模型通常也需要使用隐私特征但主要侧重于传感器细节信号的恢复,在理解任务上性能欠佳。于是最近也有些工作开始尝试同时用于生成和理解的隐私特征空间。隐式特征层,在智能驾驶领域目前还没有成熟的基座模型可以用于生成稳定的特征表达。
显示符号层类似自然语言表达人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,可以通过规则代码的方式和模型结合完成持续上的建模,如互助理经常使用的运动学模型如匀速模型云加速模型等,规控常用的轨迹采样搜索和优化等,在端到端范式中显示符号层也可以用于显示定义cost对应强化学习中的reward驱动策略学习,另外受大模型scaling law启发,清华赵航教授和理想合作的state Transformer、苹果的self play(这就是之前网络上说苹果没有放弃自动驾驶的信息)等工作在显示符号层通过增大数据量也验证了scaling law对自驾任务的有效性。
三层联合持续建模的一段式端到端在云端训练模型时,输入录制车辆传感器的未来帧数据则可以用于提供模型训练的自监督信号。将中间的隐式特征层在持续维度上拓展到未来帧。形成完整的时空神经网络模型统一由数据驱动学习,配上显示符号层的模型,一起也就是形成了一段式模型。但是,由于自动驾驶环境的动静态元素在未来中的变化方式不同:静态元素的变化主要和自车运动相关。动态元素的变化由他们各自的运动和自作运动共同决定。因此,推测这种一段式三层联合建模,也会分出两个模型,一个动态物体模型,一个是静态模型。总结以上为理论建模,但实际工程落地更为复杂,需要考虑算力平台优化,模型精简等。所以,杨奎元还分享了部分工程化实践,例如:
云端训练加速英伟达平台优化:推理Pipeline重构(利用率↑100%)、CV库优化(GPU利用率↑30%)。模型架构精简:利用数据稀疏性、2D-3D几何关系减少冗余计算。车端部署优化异构计算:图像前处理迁移至Vic SP/NV Encode单元。算子加速:耗时算子优化20-40%,Orin平台性能翻倍。等工程化落地实践。最后,以上为基于小米杨奎元的演讲推测一段式和几段式端到端,可能有错误,欢迎懂行留言讨论。未经准许严禁转载和摘录-参考资料:
端到端全场景智能驾驶 - 小米 杨奎元 GTC 2025 演讲PDF
原文标题 : 从小米的端到端看自动驾驶物理世界如何建模