谷歌公布新研究BiT探索大规模数据如何影响预训练模型性能

将门创投
关注

迁移学习

基于构建BERT过程中的方法,研究人员将BiT模型在一系列下游任务上进行调优,而在调优的过程中只使用了非常有限的数据。由于预训练模型已经对视觉特征有着良好的理解,这种简单的策略已经能够取得非常优异的结果。

模型调优的过程涉及一系列超参数的选择,包括学习率、权重衰减参数等等。在这篇文章中提出了一种启发式的超参数选择方法“BiT-HyperRule”,它仅仅依赖高层次的数据集特征,包括图像分辨率和标签数量等。这种方法成功地应用到了从自然图像到医学影像等超过20个不同的任务上。

当BiT模型训练完成后,它可以使用少量数据调优就可以应用到其他的视觉任务上。

当利用非常少的样本对BiT进行迁移学习时,研究人员发现随着预训练过程中使用的数据量和架构容量的增加,所得到迁移后的模型性能也在显著增加。当在较小数据集ILSVRC上增加模型容量时,1-shot和5-shot情况下迁移CIFAR得到的增益都较小(下图中绿线)。而在大规模的JFT数据集上进行预训练时,模型容量增加会带来显著的增益(红棕色线所示),BiT-L可以在单样本和五样本上达到64%和95%的精度。

曲线描绘了五次平均运行后模型迁移到CIRAR-10数据集上的平均精度。不同架构的性能曲线表明,在大数据集上的容量更大的架构具有更为显著的数据效率。

为了进行更为广泛的验证,研究人员还在BTAB-1k上验证了BiT的性能,其中包含了19个不同的独立任务,每个任务包含1000个标注样本。通过将BiT-L迁移到这些任务上,达到了76.3%的整体分数,比先前最好的方法提高了5.8%。

下表展示了这种大规模预训练和简单迁移学习的有效性,即使是在数据量有限的情况下也得到了最好或接近最好的结果。BiT即使作RetinaNet的主干网络在COCO数据集上进行结构化的检测任务,这种大规模的预训练也能带来显著的性能提升。

左侧显示了BiT-L在不同的标准视觉任务上取得的优异结果。右侧展示了在目标检测任务的迁移性能。

值得一提的是,在所有这些迁移任务上都没有使用特殊的调参技巧,全部基于BiT-HyperRule来进行调参,在充分的数据集上进行调参甚至可以得到更好的结果。

ObjectNet上的测评

为了在更具挑战的场景下验证BiT的性能,研究人员在最近提出的ObjectNet数据集上进行了验证,这一模型更为接近真实场景,同时具有非典型的内容、视角和旋转等。受益于更大的数据和架构容量,BiT-L在这一任务上取得了令人瞩目的成就,实现了高达80%的top-5精度,超出先前最先进方法近25个百分点!

BiT在ObjectNet上的评测结果,左侧为top5精度右侧为top1精度。

结  语

本研究发现在大规模通用数据的训练下,简单的迁移策略就可以达到令人瞩目的成果,无论是基于大数据还是小样本数据甚至单样本数据,通过大规模预训练的模型在下游任务中都能取得显著的性能提升。BiT预训练模型将为视觉研究人员提供代替ImageNet预训练模型的全新选择。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存