车载边缘运算如何成为自动驾驶重要技术?

全球汽车快讯
关注

全球汽车快讯 据外媒报道,自动驾驶车辆需要大量的传感器、海量的数据、持续提升的运算能力、实时操作及安全性顾虑,上述因素将运算的核心从云端推向了网络边缘。

自动驾驶车辆将持续不断地感知路况、定位及周边车辆,然后发送上述数据。自动驾驶车辆每秒将生产近1GB的数据量,由于存在带宽和延迟,即便是先向集中式服务器某个发送兆兆字节(TB)的片段,再将其用于数据分析,该方法依然不切实际。

由于大量的数据需要传输、存在延迟和网络安全性问题,目前的云端运算服务架构对向无人驾驶车辆提供实时的人工智能处理有妨碍作用。

因此,作为人工智能的主要代表性技术,深度学习将被整合到边缘运算框架内。边缘人工智能运算可解决延迟敏感型监控,如:目标追踪与检测、位置感知及云端运算范式所面临隐私性保护方面的挑战。

若边缘运算平台能负责预先训练深度学习建模

只有当所采集的数据能够实现本地化处理、能做出实时决策和预判,且对远程资源无依赖时,才能实现边缘人工智能运算的真实价值。该情况的发生仅存在于以下前提条件:边缘运算平台能负责预先训练深度学习建模并拥有运算资源在本地执行实时推理。

延迟和本地化(地点,locality)是边缘(运算)的两大核心要素,因为对于无人驾驶车辆而言,数据传输延迟和上行服务中断是无法忍受的事情,且会引发安全隐患(SO26262)。

举个例子,车载传感器应能在3秒内检测并识别周边的环境,该过程并不依赖于云端的运算资源,且可靠性要达到99.9999%。

对于一辆以120公里/小时行驶的车辆而言,1毫秒的来回延迟(round-trip latency)意味着车辆与静态目标物间的距离缩短了3厘米。如果对方是相向行驶中的车辆,该延迟意味着这两辆车间的距离缩短了6厘米。

目前,对自动驾驶车辆的功能应用而言,最令人兴奋的莫过于车载人工智能运算任务,其中包括:目标检测、目标分割、路面追踪、标识和信号识别,上述任务主要依赖于通用类硬件——中央处理器(CPU)、图形处理器(GPU)、现场可编程门阵列(FPGA)或通用的处理器。

然而,应将耗电量、运行速度、精确度、内存占用、芯片尺寸、物料清单成本等因素统统纳入到自动驾驶及内置应用的功能设计中。

为满足热稳定约束,采用的冷却负载将进一步提升图形处理器的高耗电量,这将极大地缩短车辆的驾驶里程数和电动车的燃油效率。

别致的包装/套件、风扇冷却和通用型实现组件也不可或缺。因此,这就需要采用更为便宜、能效更高的优化版人工智能加速器芯片(如:针对特定领域、基于人工智能推理的专用集成电路,ASIC),将其作为加速边缘深度学习推理速度的实用方案。

人工智能车载边缘运算的优点

最近,在提升车辆安全性和能源效率方面,付出了重大的努力。如今,车载通信及基于5G网络的车联网(V2X)所取得的技术进步为车辆与基础设施网络间的通信(V2I)提供了可靠的通信链路。

边缘运算最适用于带宽密集型和延迟敏感型应用,如:出于安全原因,需要立即做出行为及响应的无人驾驶汽车。

自动驾驶系统极为复杂,其紧密地整合了以下多种技术:感应、定位、感知、决策、与云端平台的顺畅交互以生成高清地图并完成数据存储。这类技术的复杂性为自动驾驶边缘运算系统的设计工作平添了海量的挑战。

车载边缘运算(Vehicular edge computing,VEC)系统需要实时处理海量的数据。由于VEC系统是可移动的,其通常具有非常严格的能耗限制因素。

为此,当务之急是在合理的能耗范围内提供充足的运算能力,从而确保自动驾驶车辆的安全性。即便该车辆也高速行驶,也需要做到这一点。

谈到为自动驾驶车辆设计一款边缘运算生态系统,其超负荷挑战在于:提供能实时处理且足够强大的运算能力、保障可靠性、可扩容性、成本和安全性,从而确保自动驾驶车辆用户体验的安全性与品质。

表2——车载边缘运算与车载云端运算的对比

低延迟

对于行车安全而言,零(低)延迟是必需/必要条件。许多自动驾驶车辆制造商的设计构想是:传感器数据将流向云端,进行自动驾驶车辆所需的深层数据处理、深度学习、训练及分析,使得车企采集了海量的驾驶数据,然后利用机器学习来提升基于人工智能的自动驾驶实践和学习。

据估计,在整个网络发送数据,整个来回(发送和接收)需要至少150-200毫秒,鉴于车辆在行驶中,且需要做出车辆控制方面的驾驶决策,该耗时占用了大量的时间。

据丰田透露,到2025年,车辆与云端网络间的数据传输量或将达到10艾字节(exabytes)/月,是当前数据量的1万倍。而云端网络的设计显然并不足以快速处理自动驾驶车辆所传输的海量数据。

自动驾驶车辆将执行时间敏感型进程任务,如:在本地(边缘)实时执行车道追踪、交通监控、目标检测或语义分割并采取相应的驾驶操控。同时,为应对耗时较长的任务,自动驾驶车辆将传感器数据上传到云端进行数据处理,最终在将分析结果发回到自动驾驶车辆。

为此,边缘运算技术提供一个端对端系统架构框架,用于向本地化网络分配运算过程。一款设计精良的、基于人工智能的自动驾驶与智能网联车辆将是一款协作式边缘-云端运算系统,高效的视频/图像处理及多层分布式(5G)网络——这是本地处理和云端处理的集合体。

边缘人工智能运算旨在为云端提供互补,而非完全取代后者。

图5——协作式边缘-云端运算

数据处理速度

鉴于网络间数据传输的整个来回要消耗大量的时间,出于安全因素,许多数据处理不得不在车载系统内完成。

车辆将自行运算源源不断的数据,无需进行数据传输。得益于车联网网速及数据传输的速度,车载数据的处理速度将有助于降低延迟并提升准确性。

人机间的相互依赖意味着:实时信息传输的速度至关重要。边缘人工智能运算的应用涉及:拥有足量的本地化运算处理能力和内存容量,能够确保自动驾驶车辆及人工智能处理器能执行其各自亟待完成的任务。

可靠性

确保自动驾驶车辆的安全性是非常关键的任务。边缘运算为拥堵的云端网络减轻了压力,通过缩减数据处理与车辆间的延时来提升可靠性。制造自动驾驶车辆的车企没花多长时间就认识到了云端网络的局限性。尽管云端是不可或缺的重要一环,但自动驾驶车辆需要更为分散的应对途径。

凭借边缘运算以及与车辆位置更近的边缘数据中心,因远方网络问题而对当地自动驾驶车辆造成影响的概率将大幅降低。即使车辆附近的数据中心真的出现网络问题,自动驾驶车辆的车载智能边缘推理将继续自行高效地运行,因为其本来就能应对重要的处理功能。

如今,车企提供多层防御层和冗余防护,旨在应对断电、断网乃至运算故障。自动驾驶车辆还能够动态地重新规划路线,为网络流量乃至决策提供助力,使自动驾驶车辆能够安全地停车。拥有边缘人工智能功能的无人驾驶车辆可凭借预见性系统分析来为车载诊断功能提供支持,该系统能在整个生命周期中不断成长并实现功能演进。

随着大量拥有边缘运算功能的车辆连接到(云端)网络上,数据可借助多个途径重新发送,旨在确保车辆能在需要时获取信息的访问权限。车联网(IoV)和边缘运算高效地整合到综合性分布式边缘架构内,该架构可提供无与伦比的可靠性及可及性。

网络安全性

自动驾驶车辆边缘运算生态系统的最终挑战在于为自动驾驶车辆提供充足的运算能力、冗余和网络安全,保障自动驾驶车辆的驾驶安全性,也就是为自动驾驶车辆提供保护。

边缘运算系统可应对面向感应和运算堆栈各个层级的网络攻击,这也是该系统最令人关注的地方。

自动驾驶车辆的网络安全性应涵盖自动驾驶边缘运算堆栈的不同层级。这类网络安全性包括:传感器的网络安全性、操作系统的网络安全性、控制系统的网络安全性及通信的网络安全性。

此外,随着数量安全性的重要性提升,边缘网关的人工智能将减少车载信息娱乐系统的通信量及通信结果。

可扩容性

从根本性上讲,车载边缘运算拥有分布式架构,该架构有助于将数据带来网络边缘,自动驾驶车辆可在网络边缘进行实时的数据分析与数据交互,就像本地化操作那般。

对于某些任务而言,云端是不可或缺的一环,自动驾驶车辆还需要更为分散的应对途径。举个例子,智能传感器能够分析其自身采集的视频输入,确定哪些帧数的视频需要关注,然后只向服务器发送上数帧数所对应的视频数据。

这种分散式架构可缩短数据传输过程中的网络延迟,因为数据不再需要在网络和云端中来回发送,可直接进行处理。相较于过去的车辆,基于人工智能的车辆配置了更多的车载运算能力,能够自行处理更多的任务,且可预测性更高、延迟更短。

成本

越来越多的路侧单元配置了功能强大的人工智能本地处理器,其有助于降低能耗、维护和运营成本及向云端进行数据传输所涉及到的高带宽成本。同时,作为诸多核心驱动力中的一员,如今运算设备与传感器的价格跳水,使得边缘运算成为现实的可行性有多了几分。

人工智能车规级处理器技术

汽车业正在经历关键性技术转型,向着更高层级的自动驾驶技术水平挺进。智能驾驶需要更高效、功能更强大的人工智能处理器。

据Horizon Robotics提供的车企需求汇总显示,越高层级的自动驾驶技术,对每秒万亿次运算(magnitude tera operations per second,TOPS)量级的需求量就更高。

换言之,2级自动驾驶技术需要2 TOPS的运算能力,3级自动驾驶技术则需要24 TOPS的运算能力,4级和5级自动驾驶技术所需的运算能力则分别为320 TOPS和逾4,000 TOPS。

汽车处理器通常可分为三大类:

基于中央处理器和图形处理器技术的处理器:往往灵活性更高,但通常耗电量也更大;

相较于图形处理器,现场可编程门阵列对运算资源的需求更少,但成本更高,可编程性受限;

专用集成电路:通常采用定制化设计,在性能够、成本和耗电量方面,其表现更高效。

传统的中央处理器和图形处理器正竭力满足4级和5级自动驾驶车辆提升的高水准运算要求。在4级和5级自动驾驶层级,相较于前两者,现场可编程门阵列和专用集成电路的性能更为出色。

运算能力将成为“车轮上的数据中心”。在考虑汽车应用的复杂性时,光靠运算力是不够的。人工智能汽车芯片的能源效益、性能及成本效益也应纳入到考量范围。

到目前为止,在低功耗、性功能和成本方面,全定制的专用集成电路要远超图形处理器/现场可编程门阵列,这就是向自动驾驶车辆整合针对人工智能的专用集成电路愈发火爆的原因了。

高执行能力的加速器芯片

Gyrfalcon Technology, Inc (GTI公司)的推理加速器拥有一款卷积神经元网络特定域架构(Convolutional Neural Network Domain-Specific Architecture,CNN-DSA)及一款矩阵处理引擎(Matrix Processing Engine,MPE)及一项高效的人工智能内存处理(AI Processing in Memory,APiM)技术。

例如,GTI的LightSpeeur2803S提供了24 TOPS/Watt的电源效率性能,其所有的卷积神经元网络处理都能在内存中完成,而非在动态随机存储器(DRAM)。

该款神经元网络加速器可对448×448 RGB的图像输入值进行分类,其计算速度在16.8 TOPS以上,峰值功耗不足700mW,其精度也可媲美VGG的基准水平。

Gyrfalcon旗下的CNN- DSA加速器可重置设定值,旨在为各层级尺寸及层级类型的CNN建模系数提供支持。

对于诸如无人驾驶汽车人工智能平台等更多运算密集型边缘运算应用而言,GTI旗下基于显示卡第二个插槽(PCIe)的人工智能加速卡采用了16x 2803S的芯片设计,其可提供270 TOPS和9.9 TOPS/W的运算效率,该设备旨在满足4级自动驾驶人工智能汽车的性能需求。

GTI旗下基于人工智能的芯片拥有灵活的、可扩容的架构,可轻松实现并联或串联布局,用于任何既定性能/建模尺寸。串联功能可提供灵活性并减少主机的工作量。串联还支持尺寸更大、更复杂的建模(如:ResNet-101、ResNet-152等)。

图8——GTI旗下基于人工智能的加速器,其拥有一款可扩容架构:(a)为提升性能的串联架构、(b)大型建模的串联架构

许多自动驾驶车辆应用的向量函数(underlying function)是深度学习技术,如:卷积神经元网络,该技术通常被用于车辆及行人探查、路面追踪、标识与信号识别及对语音指令的诠释。

GTI旗下基于人工智能的架构是“硅晶验证”独立式加速器技术,其可被用于任何类型的传感器输出值,如:视频、音频及其他形式的数据。这还涉及了来自于机器学习摄像头及高分辨率激光雷达的高数据速率及来自雷达和超声波传感器的低数据速率。(本文为编译作品,所用英文原文和图片选自ept.ca)

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存