由于这一数据集主要集中于针对水平排列相机的立体视觉,而在垂直方向上的视差会影响立体视觉匹配算法的性能,需要去除具有垂直视差的图像。在这样的筛选后剩下约60k的图像对。
垂直视差造成的匹配性能下降,c和d分别是垂直方向上有2像素和5个像素视差下的匹配结果。
由于绝大多数照片是由Hydrogen One拍摄的,其后摄基线只有12mm前摄则为5mm,场景中包含的视差信息应该是处于有限范围内的,所有研究人员通过视差分析模型去除了包含极端误差的图像和立体特征较差的图像对,最终得到了约50k的立体视觉图像对。
为了探索数据集的分布,研究人员利用在coco数据集上预训练的Mask-RCNN目标检测器对每一对图像的左图来进行检测分析,结果表明其中包含了大量丰富的常见物体,由于这是社交媒体平台,所以其中会包含很多的人物,共检测到了约21k个人体实例。此外数据集中还包含了风景和肖像摄影,为数据集贡献了可观的多样性。
Holopix中物体的词云分布包含了很多常见的物体
定量测评
为了展现数据集的优势,研究人员利用熵、BRISQUE、SR-metric和ENIQA等指标比较了Holopix与现有的数据集,结果如下表所示 :
除了数据集的数量显著高于其他数据集外,可以看到其具有最高的SR指标,意味数据集的质量在人类感知下是最高的、熵值第二高意味着图像中包含的信息也很丰富。
研究人员将数据集按照分辨率分为了HD(720p)和SD(360p)两个子集,其指标在数据集比较中都处于top2的范围内。
除了数据集本身的比较外,研究人员还利用这一数据集重新训练了几个关键的立体视觉任务模型,都得到了大幅的性能提升。
针对图像超分辨任务,采用了PASSRNet模型进行4x图像超分辨,在Holopix50k数据集上训练的结果与Flickr1024上的结果相比具有非常大的性能提升。下表显示了随着训练数据集的增加,得到的模型在不同测试集上的结果也有着显著提升。
下图可以看到基于这一大型数据集训练的结果要明显优于Flickr1024数据集的结果,细节得到更为丰富的重建: