RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划

将门创投
关注

二、问题规范化

该论文考虑的是如下图所示的POMDP 问题:系统处于连续的状态-动作-观测空间中,而系统的状态转移除了受到上一时刻的状态和动作影响,还由一个离散的隐变量z 决定,而每一时刻的观测量则由当前时刻的系统状态以及隐变量共同决定。其中隐变量z 可用于表示系统中不确定性的不同模态,如旁侧车辆驾驶者的性格、不同行进路线的路况、路面的物理状况等。

对隐变量z 的不同可能性的置信度b(z),我们可以通过如下定义进行更新。

问题的最终目标是对行为策略π 进行优化,从而使得累计损失函数值 J 达到最低。

其中l 和lf分别为根据置信度b 加权平均得到的过程损失函数和最终损失函数。由该公式取最优行为策略π* 后得出的值函数V 可以表示成贝尔曼方程形式,进行递归处理。

三、方 法

论文提出了一种新的微分动态规划(DDP)算法,Partially Observable Differential Dynamic Programming (PODDP),可用于解决连续空间下的POMDP 问题。与一般的iLQG/DDP 算法相似,PODDP 也把流程分为了前向过程(Forward Pass)和后向过程(Backward Pass),并对动作序列进行迭代优化。

1. 前向过程在前向过程进行前,动作序列U = { u0, u1, …, uT-1 } 需要预先给定。在初始化的前向过程中,一般使用随机生成的动作序列,或者通过某些前导知识有规律地生成动作序列。在此后的过程中,将使用前一次优化得到的动作序列,进行迭代优化。

在确定性系统中,由于状态转移过程是确定的,故给定的动作序列将衍生出一条链式的状态序列。但在我们考虑的系统中,由于多模态不确定性的存在,类比于离散空间下的POMDP 问题,每一个节点都可以根据隐变量z 的不同取值可能性,延伸出多个分支,最终形成一个树状的轨迹推演,即轨迹树(trajectory tree),如上图所示。

为了更直观地理解,我们可以考虑一个公路上的变道场景。如下图,我们的汽车(红色)希望变道到左侧车道,可是左侧车道上已经有一辆车了。我们在进行轨迹优化的时候,将未来可能获得的关于旁侧车辆驾驶者性格的观测纳入考虑当中,对方可能是合作性格的,也可能是激进性格的,这两种性格分别对应两个不同的模态。在向前推演的时候,根据这两种不同模态的最大似然值进行分支,获得轨迹推演树。每一条从根节点到叶节点的完整支路对应一条可能发生的轨迹。

2. 后向过程为了对轨迹树进行优化,我们首先定义值函数扰动方程Qt以描述在某一时刻t 下系统状态和动作的扰动对值函数的影响。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存