AR/VR中的位姿估计技术
为什么我们在玩AR体验的时候,经常会觉得手机里的东西放在摄像头视野中并不真实,像是漂浮在地板上一样。
这就是因为位姿估计算法不够精准,无法正确定位物体的空间关系。在机器视觉技术的进化下,今天很多位姿估计技术正在同步进化。比如基于动态特征提取算法,达成的动作定位今天已经比较成熟。
这东西听起来挺玄乎,到底是干啥用的呢?它的最大应用场景,就是在VR/AR正确处理场景中动态物体的空间关系和运动轨迹。比如你在VR里玩踢球游戏,球应该在什么位置挨踢,以什么轨迹撞墙,都有赖于位姿估计算法来校准。
在机器视觉算法的帮助下,更精细的位姿估计正在到来,而这也加速了成熟MR体验的到来。另一方面,在VR设备或者手机当中,基于摄像头与传感器协同运作来完成位姿估计,也是沉浸技术中即将发生的一个亮点。
通过散乱数据达成三维建模
3D机器视觉的最重要任何,肯定是基于数据来实现3D建模。这个应用在产业端十分重要,地理信息系统、勘探、工程,以及无人驾驶,都需要大量的3D建模工作来参与。
而消费者级的3D建模今天也在到来,我们已经可以看到在手机端通过3D结构光来完成数据收集,从而达成3D建模的玩法。
跟3D感知一样,3D建模也是利用摄像头或者传感器来收集数据,最终通过不同的解决方案完成建模。
然而这个领域还是有很多问题等待解决。比如说,今天我们进行3D建模时,还需要非常痛苦的一点点收集数据,必须保证数据的对齐和精准排列。否则出来的3D模型就是杂乱无章的。这显然让大众完3D建模的热情减退,并且给很多工程级项目增添了非常多难度。
AI的到来,正在帮助这种情况有所改变。在深度学习算法的帮助下,机器视觉领域正在研究如何在散乱、不规则、巨大数量的数据中完成3D建模。这需要对抗生成以及先验表示等非常多的方案,但带来的效果非常值得期待。
比如说今天已经有3D建模方案,在深度学习的帮助下实现对密林的重建。然而其用来进行点云建模的图像数据中,有很多被树叶遮挡的部分。这时候就可以用AI来增强3D建模的先验知识,主动“脑补”出遮挡物背后的真实样子。
不仅是修复遮挡模型和瑕疵数据,机器视觉技术与3D建模的融合,还可以让很多无人设备具有更雪亮的“眼睛”。比如无人驾驶汽车,或许可以基于“大脑”中的3D建模算法,来脑补智能摄像头尚未发现的环境。这点在复杂立交桥和停车场中格外有用。
在消费者端,3D建模与机器视觉的结合也将带来新的想象力,比如消费者可以根据照片来重建精准的3D模型,或者傻瓜式完成建模要用的数据收集。让不那么专业的人也能建设出专业的3D模型,这个改变背后的想象力惊人。
更好的深度传感器解决方案
还有一个机器视觉技术和3D的交汇,主要发生在无人机领域。
无人机今天进行测绘和航拍时,必须附带对空间的理解能力,否则拍照不准事小,撞了南墙事大。而这个能力主要来自于摄像头和传感器进行空间阅读。
随着消费级无人机的不断升级,人们对无人机拍摄效果要求也不断升高。无人机必须不断在更远的距离、更极端的天气、更复杂的运动中拍摄画面。然而传统的传感系统解决方案已经快要跟不上用户的期许。
今天的消费级无人机,一般采取两种感知解决方案,一种是双目视觉技术,比如大疆的某些产品;一种是结构光传感器,比如微软的Kinect。而这两种主流方案都是有一定局限的,比如感知范围都有限,难以完成远距离作业。再比如双目视觉技术在黑夜中会失灵,所以无人机夜拍一直是个大坑,然而结构光技术应对不来强光,一到中午无人机就石乐志也是很心塞的。
更好的解决方案,在于将传感器与智能摄像头结合起来,达成可以适应不同天候与天气,并且可以长距离感知的新型传感系统解决方案。
今天,用机器视觉技术中的很多算法,协调不同的传感设备工作,让无人机变成“多眼无人机”,正在成为流行的解决方案。机器视觉算法大量加入无人机传感器,还可能带来轨迹拍摄能力提升,让无人机获得拍摄整体环境,或者精准捕捉动态物体,比如说运动中的动物和车辆的能力。
以上几个技术趋势,都可能成为机器视觉和图形学应用的下一步热点。这个领域看似偏门,事实上却能影响今天科技市场中的风吹草动。
让机器看到立体世界的游戏才刚刚开始,机器与人类在某一天可以用同样的视角相互凝视,或许才是这个故事的终点。(作者:脑极体)