2019年5月13日,国际人工智能联合会议(IJCAI)2019发布了一篇题为Randomized Adversarial Imitation Learning的论文。该文介绍了一种基于自动驾驶的随机对抗性模仿学习(Randomized Adversarial Imitation Learning,RAIL)。该方法模拟了配备先进传感器的自动驾驶汽车的协调过程,通过自由派生优化决策系统进而协调诸如智能巡航控制(SCC)和车道保持(LKS)等ADAS功能。值得一提的是,该方法在复杂的多车道高速公路和多智能体环境下,可以处理激光雷达数据并进行决策。
在多车道高速公路环境中,安全事故往往会导致道路拥堵或发生更严重的交通事故。现代自动驾驶中呈现的各种ADAS功能具有高度的相互依赖性,需要将其看成一个单一的综合体,需要在保证安全的同时,形成长期有效的辅助策略显得尤为重要。本文介绍了一种基于自动驾驶的随机对抗性模仿学习(Randomized Adversarial Imitation Learning,RAIL)。该方法模拟了配备先进传感器的自动驾驶汽车的协调过程,通过自由派生优化决策系统进而协调诸如智能巡航控制(SCC)和车道保持(LKS)等ADAS功能。值得一提的是,该方法在复杂的多车道高速公路和多智能体环境下,可以处理激光雷达数据并进行决策。
基于自动驾驶的随机对抗性模仿学习(RAIL)法表明,在政策参数空间内的随机搜索可以适用于自动驾驶政策的模仿学习。具体贡献如下:
(1) 自驾驶机制是在模仿学习的启发下提出的,RAIL方法可以成功地模拟专业驾驶表现;相应的静态和线性策略可以以相近的速度完成多次换道和超车。
(2) 传统的模拟学习方法对自动驾驶的控制结构复杂。相比而言,RAIL方法是基于无派生的随机搜索,该方法更加简单。
(3) RAIL方法开创了应用于自主驾驶鲁棒驾驶策略的学习先河。
图1 车辆控制系统的简化学习层次
先来看一下传统的自动驾驶汽车的系统层次结构(如图1),底层的ADAS控制器直接连接到无人驾驶汽车的激光雷达传感器。控制器确定控制车辆所需的信息,并将已经决策好的操作传递给机械部件。作为一个单一的集成系统,最好有多个ADAS功能同时协作来控制车辆的系统运行。
研究动机:在多车道高速公路等有限条件下,主系统通过协调ADAS功能,实现汽车的自动驾驶。由于车辆本身与周围其他车辆、车道或者环境相互作用、互相交互,通过摄像头或雷达等监视器,主系统并不能获取车辆周围完整的环境状态,只能使用部分局部可见信息。因此,RAIL方法首先将监测代理器建模为一个(O,A,T,R, γ)数组,该数组表示一个部分可见的马尔可夫决策过程,其中包含对自动驾驶的连续观察和动作,还有激光雷达数据的部分观测状态,用O表示。
状态空间:RAIL使用激光雷达传感器发射的N条光束均匀地分布在视场上[wmin,wmax]获取的数据完成矢量观测。每个传感器数据有最大范围rmax,传感器返回它遇到的第一个障碍物与车辆之间的距离,如果没有检测到障碍物,则返回rmax。然后,数值表示为O=(O1, . . . , ON)。进而,根据距离数据,可以计算出障碍物与车辆之间的相对速度Vr = (V1,…VN)。
操作空间:该策略是一个高层次的决策者,通过对高速公路的观察来确定最优的行动。假设自动驾驶汽车利用了ADAS功能,因此,驱动策略的操作激活了每个ADAS功能。驱动策略定义在离散的动作空间。高层次决策可以分解为以下5个步骤:(1)保持当前状态;(2)加速速度为velcur+velacc;(3)减速速度为velcur-veldec;(4)左转;(5)右转。以上操作通过自动紧急制动(AEB)和自适应巡航控制(ACC)完成。
图2 RAIL结构
RAIL主要是是增强传统的ARS和GAIL算法。RAIL旨在培训驾驶决策,模仿专业司机的规范操作。汽车被认为是一个代理策略πθ,在多车道高速公路上,车辆收集数据后生成小值随机噪声矩阵。该代理根据生成的噪声策略与环境进行多次交互,并将结果收集为样本轨迹。