这种方法超过了仅仅使用单帧图像的FasterR-CNN方法,在多个生态环境图像检测领域内都具有明显的优势。研究人员已将模型整合到TF Object Detection API中,为相关研究人员提供更为简化的训练和部署。
上图中显示了上下文信息(长达一个月)是如何帮助专家确定模糊场景中的动物的。上下文中目标形状、尺寸、每天固定的食草时间帮助算法确定这是角马。
上下文R-CNN模型
上下文R-CNN主要利用静态相机拍摄图像序列间的高度相关性,在无需额外人工标注数据的情况下提升算法在复杂情况下的性能,同时改善在新的相机设置下的泛化性。与Faster R-CNN类似,它也采用了两阶段目标检测架构。
上图显示了上下文R-CNN的顶层架构,显示了检测模型与长期上下文信息如何有效系统提升性能。
为了抽取某一相机的上下文信息,研究人员首先利用参数固定的特征抽取器从较大的时间跨度中构建出上下文存储空间(下图中M);随后每幅图像在对应上下文信息聚合的帮助下,上下文R-CNN将会更好地在复杂情况下对目标进行检测(包括低光、浓雾、模糊等场景)。这种聚合利用attention方式实现,它对静态相机中出现的稀疏和非规则采样具有较好的鲁棒性。
第一阶段的Faster R-CNN将提出潜在目标,而第二阶段将对每个候选目标进行分类。在Context R-CNN中针对第一阶段的候选目标,使用基于相似性的注意力机制来确定当前目标与记忆池中特征的相关性。随后利用相关性权重加权记忆池中的特征来构建针对这一目标的上下文特征,并将其添加到原始的目标特征后,送入第二阶段的Faster R-CNN中进行最终的分类。
Context R-CNN将近一个月的上下文信息用于帮助分类当前目标。绿色数字显示了每个记忆特征与当前目标的注意力相关性权重。