ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航

将门创投
关注

一、方法架构

本文的核心——模型未知的对抗路径采样器显示如下,首先APS从路径集P中采样出一批路径、并利用Speaker来得到复现的指令I。

对抗采样器APS的学习架构,其中Speaker表示用于生成导航指令的反向翻译语言模型,而NAV表示导航模型。

在获取路径P和指令I后,模型的目标就在于优化导航损失函数。针对APS学习采样的路径,导航器并不能通过最大化导航损失来得到较好的性能。针对导航损失在导航模型NAV和APS之间会产生对抗的行为,APS不断采样出有挑战性的路径,同时NAV则尝试着在APS申请的路径中进行导航完成任务。通过这种对抗方法,基于P和I生成的对抗增强数据将有效提升NAV的导航能力。在实际过程中,Speaker和导航器都通过原始数据进行了预训练,同时Speaker在对抗训练过程中参数保持固定。

在本文中,研究人员使用了回归行为采样器πAPS来采样行为序列at(基于场景特征ft),并结合得到路径输出。其中ft表示从环境中抽取的视觉特征。对于全景输入图像来说,ftj表示时间t时从视角j获取的视觉特征。

对抗采样器的架构模型

模型首先利用LSTM对先前的视觉特征和上一步行为进行编码,而后基于历史编码和行为嵌入u来决定此时此刻需要采取的行为。APS模型中包含了一系列可学习的权重,具体可以在原文3.3部分找到详细的理论描述。

在通过APS处理后,将得到的一系列导航历史{at}和视觉特征{ftj}组建成路径P。为了保持与原始训练数据的一致性(其导航路径都是最短路径),需要将APS采样得到的路径转换为最小路径。随后通过Speaker模型为每一条采样路径P生成指令I,最终将得到增强过的数据对(P,I)。随后通过“学生强制”的方法基于(P,I)来对导航模型进行训练,其中训练损失以可以视为NAV在(P,I)下的性能指标,损失越高性能越差。为了创造难度不断增加的路径来改善导航策略,研究人员将APS损失定义为了与LAN损失相关的表示:

由于APS与模型无关,它仅仅考虑导航模型训练损失而不关系模型架构,所以这种机制可以被集成到任意的导航模型中去。

下面的算法展示了整个对抗路径采样器的训练过程,APS目标是最大化导航损失以便创建尽可能困难的路径,而NAV的目标则是最小化导航损失以便进行更好的导航。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存