本文为将门技术社群第227期talk直播的文字内容整理分享嘉宾:旷视南京研究院研究员 赵冰辰
众所周知,参加顶会竞赛是当今AI研究人员锻炼自身、验证已有学术成果的一大舞台。从2017年到现在,旷视研究院在全球顶会累计荣获28项世界冠军,好奇的同学们肯定想知道其中的经验与技巧。
为此我们很荣幸邀请到旷视南京研究院研究员—赵冰辰,与大家分享其团队在 CVPR 2020 iWildCam 项目夺冠的经历,同时也介绍了他们在本次比赛中针对 Camera Trap 数据的特点设计的方法及冠军方案。
值得一提的是,虽然旷视南京研究院在整个参赛过程中持续领先,但就在最终截止日期前5天,Facebook突然大比分反超。经过对现有模型的快速分析,团队通过序列和日期信息大幅提升了模型性能近10个点,在48小时内重新登顶,并夺得iWildCam的全球冠军。
本文回顾了此次比赛的基本背景、团队方案,并介绍了团队总结的参赛经验,希望能为同学们带来启发。
背景
iWildCam竞赛隶属于 CVPR 2020 FGVC workshop, 其目的是利用部署在野外无人操纵的 Camera Trap 来识别野生动物,从而辅助对野生动物的研究与保护。该比赛的难点在于,由于 Camera Trap 的拍摄机制是通过热感或运动来触发相机,因此成像效果与ImageNet或者是iNaturalist中的图像有很大区别。
一个典型的camera trap设备 例如下图,每张图片中都存在动物,但是由于 camera trap 无人操纵的特性,获取的画面会受到光照、模糊、小ROI、遮挡、奇异视角、或者动物本身保护色等诸多因素的干扰。 可以发现,定位到这些动物并且给出正确分类,即使对人类来说也比较困难。
Camera Trap数据的另外一个特点在于画面背景。由于camera trap固定在某个区域进行拍摄,因此由特定camera trap所采集到的图片背景相似度极高。如下图,Camera-1和Camera-2分别对应部署在两个位置的camera trap,可以发现同一个camera拍到的图片背景基本一致。而相应的,不同camera获取的背景差异显著。
因此,这对分类模型的泛化性提出了极高的要求。iWildCam数据集总共包括263个类别,28万张图片,其中训练集441个camera trap,测试集111个camera trap。主办方将全部552个位置的camera trap分成为train set 441个,和test set 111个,这也就是说测试集图片全部来自训练集之外的camera trap 。 另外,类别数据的长尾分布也是必须考虑的问题。 因此可以总结,在Camera Trap场景下,主要存在三个问题: Camera Trap无人操作导致的图像模糊,遮挡等问题。来自训练与测试集不同背景所导致的泛化问题。野生动物分布带来的长尾问题。 针对上述问题,旷视南京研究院在此次参赛中进行了逐项攻克。 挑战一:ROI尺寸过小 如前所述,iWildCam的第一个挑战来自于camera trap所捕获的画面,即动物图片经常存在过小或者被遮挡等问题。 因此比赛主办方提供了Mega Detector(一个微软提供的Camera Trap动物检测器,输出类别只有animal和background)。 因此,旷视南京研究院用Mega Detector来提取图像的ROI区域,从辅助进一步的分类工作。