RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划

二、问题规范化

该论文考虑的是如下图所示的POMDP 问题：系统处于连续的状态－动作－观测空间中，而系统的状态转移除了受到上一时刻的状态和动作影响，还由一个离散的隐变量z 决定，而每一时刻的观测量则由当前时刻的系统状态以及隐变量共同决定。其中隐变量z 可用于表示系统中不确定性的不同模态，如旁侧车辆驾驶者的性格、不同行进路线的路况、路面的物理状况等。

对隐变量z 的不同可能性的置信度b（z），我们可以通过如下定义进行更新。

问题的最终目标是对行为策略π 进行优化，从而使得累计损失函数值 J 达到最低。

其中l 和lf分别为根据置信度b 加权平均得到的过程损失函数和最终损失函数。由该公式取最优行为策略π＊后得出的值函数V 可以表示成贝尔曼方程形式，进行递归处理。

三、方法

论文提出了一种新的微分动态规划（DDP）算法，Partially Observable Differential Dynamic Programming （PODDP），可用于解决连续空间下的POMDP 问题。与一般的iLQG／DDP 算法相似，PODDP 也把流程分为了前向过程（Forward Pass）和后向过程（Backward Pass），并对动作序列进行迭代优化。

1．前向过程在前向过程进行前，动作序列U ＝｛ u0， u1， …， uT－1 ｝需要预先给定。在初始化的前向过程中，一般使用随机生成的动作序列，或者通过某些前导知识有规律地生成动作序列。在此后的过程中，将使用前一次优化得到的动作序列，进行迭代优化。

在确定性系统中，由于状态转移过程是确定的，故给定的动作序列将衍生出一条链式的状态序列。但在我们考虑的系统中，由于多模态不确定性的存在，类比于离散空间下的POMDP 问题，每一个节点都可以根据隐变量z 的不同取值可能性，延伸出多个分支，最终形成一个树状的轨迹推演，即轨迹树（trajectory tree），如上图所示。

为了更直观地理解，我们可以考虑一个公路上的变道场景。如下图，我们的汽车（红色）希望变道到左侧车道，可是左侧车道上已经有一辆车了。我们在进行轨迹优化的时候，将未来可能获得的关于旁侧车辆驾驶者性格的观测纳入考虑当中，对方可能是合作性格的，也可能是激进性格的，这两种性格分别对应两个不同的模态。在向前推演的时候，根据这两种不同模态的最大似然值进行分支，获得轨迹推演树。每一条从根节点到叶节点的完整支路对应一条可能发生的轨迹。

2．后向过程为了对轨迹树进行优化，我们首先定义值函数扰动方程Qt以描述在某一时刻t 下系统状态和动作的扰动对值函数的影响。

余下全文 2/3

RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划

相关推荐