行人轨迹预测问题是无人驾驶技术的重要一环,已成为近年来的一项研究热点。在机器人领域国际顶级会议ICRA 2020上,美团无人配送团队从一百多支队伍中脱颖而出,在行人轨迹预测竞赛中夺得第一名。本文系对该预测方法的一些经验总结,希望能对大家有所帮助或启发。
一、背景
6月2日,国际顶会ICRA 2020举办了“第二届长时人类运动预测研讨会”,该研讨会由博世有限公司、厄勒布鲁大学、斯图加特大学、瑞士洛桑联邦理工联合组织。同时在该研讨会上,还举办了一项行人轨迹预测竞赛,吸引了来自世界各地的104支队伍参赛。美团无人配送团队通过采用“世界模型”的交互预测方法,夺得了该比赛的第一名。
图1 ICRA 2020 TrajNet++轨迹预测竞赛
二、赛题简介
本次竞赛提供了街道、出入口、校园等十个复杂场景下的行人轨迹数据集,要求参赛选手根据这些数据集,利用行人在过去3.6秒的轨迹来预测其在未来4.8秒的运行轨迹。竞赛使用FDE(预测轨迹和真实轨迹的终点距离)来对各种算法进行排名。
本次的赛题数据集,主要来源于各类动态场景下的真实标注数据和模拟合成数据,采集频率为2.5赫兹,即两个时刻之间的时间差为0.4秒。数据集中的行人轨迹都以固定坐标系下的时序坐标序列表示,并且根据行人的周围环境,这些轨迹被分类成不同的类别,例如静态障碍物、线性运动、追随运动、避障行为、团体运动等。在该比赛中,参赛队伍需要根据每个障碍物历史9个时刻的轨迹数据(对应3.6秒的时间)来预测未来12个时刻的轨迹(对应4.8秒的时间)。
该竞赛采用多种评价指标,这些评价指标分别对单模态预测模型和多模态预测模型进行评价。单模态模型是指给定确定的历史轨迹,预测算法只输出一条确定的轨迹;而多模态模型则会输出多条可行的轨迹(或者分布)。本次竞赛的排名以单模态指标中的FDE指标为基准。
三、方法介绍
其实,美团在很多实际业务中经常要处理行人轨迹预测问题,而行人轨迹预测的难点在于如何在动态复杂环境中,对行人之间的社交行为进行建模。因为在复杂场景中,行人之间的交互非常频繁并且交互的结果将会直接影响他们后续的运动(例如减速让行、绕行避障、加速避障等)。
基于各类带交互数据集,一系列的算法被相继提出,然后对障碍物进行交互预测,这些主流模型的工作重心都是针对复杂场景下行人之间的交互进行建模。常用的方法包括基于LSTM的交互算法(SR LSTM[1]、Social GAN[2]、SoPhie[3]、Peeking into[4]、StarNet[5]等),基于Graph/Attention的交互算法(GRIP[6]、Social STGCNN[7]、STGAT[8]、VectorNet[9]等),以及基于语义地图/原始数据的预测算法等。
我们本次的参赛方法就是由自研算法[10](如图2所示)改进而来,该方法的设计思路是根据场景中所有障碍物的历史轨迹、跟踪信息以及场景信息,建立并维护一个全局的世界模型来挖掘障碍物之间、障碍物与环境之间的交互特性。然后,再通过查询世界模型来获得每个位置邻域内的交互特征,进而来指导对障碍物的预测。
图2 基于世界模型的预测算法