动态生成掩膜预测网络生成模型CondInst,助力FCN重夺实例检测颠峰

将门创投
关注

CondInst的主要架构,C表示主干网络的特征图,P则为FPN的特征图。Fmask是对应的特征图。head被作用于各个特征图P得到分类结果和对应的网络头生成参数(动态生成的maskFCN个数与实例个数相同)。

CondInst中使用了依赖实例的滤波器,隐式地将实例概念编码到了mask头的参数中去,更为灵活的处理。针对非规则形状可以比规则的bbox更好的进行处理,这是相较于ROI方法的优势之一。

CondInst构建与目标检测架构FCOS上,充分利用其简单和灵活性。去除了FCOS的锚分支减少计算量。上图中显示了模型充分利用了特征金字塔,在每一层级都会有上图虚线框中表示的功能层来进行实例相关的预测,计算出目标类别的实例和动态生成滤波器的参数。上图中还包括了mask分支从P3层引出来计算特征图。

最终输出的掩膜大小是原始图像的1/8.为了获取高分辨率的实例掩膜,利用4倍上采样来得到最终的掩膜图像。

实  验

为了充分研究这一模型的有效性,研究人员在COCO数据集上对模型进行了训练。首先测试了mask端的宽度和深度,来选择最为合适的架构大小。

实验表明深度为1效果最差,这是由于模型没有足够的容量,而达到3后则增加不明显甚至下降。针对模型的宽度研究发现,这一因素对于模型的性能影响较小。针对宽度为8深度为3的基线mask head模型,在V100上其运行时间仅仅需要4.5mm/100个实例,仅需要169个参数。这说明这种动态生成方法对主干网络造成的额外开销非常少,与之对比的是Mask R-CNN的mask head则包含有2.3M个参数。

在选择完合适的参数后,研究人员将设计好的架构与多种先进的方法进行了比较,下表中可以看到这种方法在性能上超过了传统的实例分割算法:

其中1x 代表90k迭代训练。aug代表了数据增强。w/sem是指利用了辅助的语义分割任务。

最后来一起看看这种紧凑高效的网络结果,性能优异速度又快,真香!


声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存