该扰动方程的推导过程与标准的DDP 扰动方程推导相似,不同点在于其根据当前时刻不同隐变量z 的置信度b(z) 进行了加权平均,而且在状态转换时不仅考虑了系统状态x 的演变,还考虑了获得不同的观测值时置信度b 的变化。通过置信度b 进行加权平均的过程,实际上就是把后续分支节点进行合并的过程。所以利用该方法,就可以从轨迹树的叶节点开始,进行递归操作直至根节点为止,对整颗轨迹树进行后向过程操作。
由于问题假设并未对状态转移模型以及损失函数的形式进行约束,所以Q 的形式一般而言是非线性非凸的。为了沿用凸优化的流程,我们需要对Q 进行如下所示的二次近似操作。
此时我们就可以利用标准的凸优化方法对整颗轨迹树进行优化操作了。通过求解上述扰动函数的二次近似函数的极小值,我们可以得到当前时刻的最优动作扰动,如下。
其中k 和K 分别是该时刻下开环控制和反馈控制的增益(具体推导过程与取值见论文)。
四、实验及结果
为了进行对比实验验证PODDP 算法的效果,论文提出了两种有实际意义的baseline 算法:
Probability Weighted DDP (PWDDP):其根据当前时刻的置信度直接对所有可能性进行加权平均操作,而不考虑由于不同的未来观测值而产生的轨迹分支;
Maximum Likelihood DDP (MLDDP):其只考虑当前时刻下置信度最高的隐变量,而忽略其他的可能性。这两种baseline 算法都是常见的POMDP 应对策略。
论文提出了三类不确定性,并为每一类不确定性都设置了一个实验场景:
目标函数不确定 (T-Maze 场景):我们的车辆位于一个T 字型的道路入口处,希望走到一个不确定的目标地点。该目标地点可能是道路的左侧,也可能是道路的右侧,而车辆必须沿侧道路行驶至靠近分叉口的地方才能够得到更好的观测,以确定目标所处的位置。
本体系统运动学规律不确定(Muddy Track 场景):我们的车辆在一条泥泞的道路上朝一个目标地点行驶,但右侧的道路有一定的可能性会更加平滑。而我们的车辆必须在行驶中探索右侧道路是否真的更平滑,从而规划出一条最优的行进路线。
其他个体意图不确定 (Lane Change 场景):我们的车辆希望并线到左侧车道,可是那里已经有另一辆车了。我们需要时刻评估对方是比较合作礼让的,还是比较冲动激进的,进而确定应该超车并线,还是等待对方先向前走远再并线到它后方。
下图展示了在三种不同的场景下各个算法的量化表现。在三种场景下,论文提出的 PODDP 算法的累计实际损失函数值均显著优于另外两种baseline 算法。
下图展示了PODDP 算法在三中场景下规划出的轨迹树。
论文还加入了一项额外的实验,以进一步展示PODDP 算法优化出的轨迹的最优性。该实验沿用了T-Maze 场景,在该场景下从小到大调整在同一位置的观测不确定性的大小规模,从而对比不同算法在不同的不确定性规模下的性能。结果如下图所示,可见PODDP 算法在不同的不确定性规模下均显著优于baseline 算法,而且具有更高的稳定性。
五、讨 论
这项工作结合了离散化隐变量和连续空间下的动作轨迹优化,提出了一种新的微分动态规划变体,可以有效地处理连续空间下的多模态不确定性POMDP 问题,填补了相关空白。由于轨迹树的复杂度会随着观测推演的数量增加而指数膨胀,所以论文提出了一种层级PODDP 结构,不必在每一个时刻都进行观测,以降低运算复杂度,同时保持了控制输出的频率。
值得注意的是,虽然在该论文中设置的实验场景均为无人车应用,但是论文提出的PODDP 算法完全可以应用在各种不同的机器人轨迹规划和优化场景中,处理不同类型的多模态不确定性。
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。