谷歌提出非监督强化学习新方法助力智能体发现多样化可预测新技能

利用模型动力学实现基于模型的控制

DADS不仅可以发现可预测的潜在有用模型，同时允许高效地将学习到的技能应用于下游任务中去。可以利用学习到的技能动力学来预测每个技能的状态转移，预测的状态转移可以被衔接起来模拟任意技能的完整状态轨迹，而无需在环境中执行。因此我们可以模拟不同技能的轨迹，并为给定的任务选择最高奖励的技能。基于模型的规划方法具有很高的样本效率并无需额外的训练。相较于先前的方法是一个重要的进步，无需针对学习到的技能在环境中进行额外的训练。

利用智能体发现的技能，就可以在无需额外实验的情况下遍历任意检查点。上图显示了主体在检查点间的遍历情况。

真实实验

为了验证算法的有效性，研究人员针对这一算法提出了简化版本off－DADS，通过离线学习对算法和系统上的改进，使得模型可以利用从不同策略下收集的数据来改进当前策略。特别是对于先前数据的复用将显著提升强化学习算法的样本效率。在改进的离线策略基础上，研究人员从随机初始化策略开始训练了小四足机器人，在没有任何环境奖励和手工探索策略的情况下，通过DADS定义的内部奖励实现了多种步态和方向性运动。

这种新颖的非监督学习技能发现方法可以在将来被用于更为广泛的真实世界任务中，在最小化人类工作的情况下适应广泛场景和任务需求。未来研究人员们将在状态表示和技能发现间进行更为深入的研究，并探索将高级的运动规划和底层的控制进行分离的技能探索策略。

声明： 本文由入驻OFweek维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。
侵权投诉

谷歌提出非监督强化学习新方法助力智能体发现多样化可预测新技能

相关推荐