纯视觉自动驾驶如何理解路边画报上的人?

智驾最前沿
关注

之前看到过一个非常有趣的新闻,那就是贴有董明珠海报的公交车经过十字路口时,被“行人闯红灯曝光台”识别到,并误以为董明珠闯红灯了。看似一个茶余饭后闲聊的话题,对于自动驾驶行业来说,其实是一个值得深思的问题。随着自动驾驶技术下沉到消费市场,基于纯视觉的自动驾驶系统就是依托于车载摄像头来识别路况,如果遇到了类似海报上的人,尤其是遇到了与真人大小类似的人物海报,自动驾驶系统将如何理解?

其实在纯视觉的自动驾驶系统中,摄像头就像汽车的“眼睛”,负责不停地拍下周围的风景,然后把这些画面交给车上的“大脑”——也就是各种算法和模型(决策系统),来判断前方有没有行人、车辆或障碍物。当汽车只靠摄像头“看世界”时,无论是真人、雕像,还是贴在墙上的海报、广告牌,都可以被它同样地“看到”,但这一切都只是二维的像素点。如果车上的“脑子”误把一张画得惟妙惟肖的海报人物当成了真实行人,它是否会不由自主地踩下刹车,甚至紧急停车?

要让纯视觉系统分清画报上的“假人”和马路上真正走动的行人,其实要从硬件和软件两条路同时发力。现阶段为了确保自动驾驶的安全性,很多车企都会选择在摄像头旁边再装一台雷达或激光雷达(基于激光雷达的自动驾驶方案)。雷达发射电磁波,激光雷达发射激光脉冲,不同于摄像头只“看到”表面纹理,这些传感器能直接给出物体到车身的距离。海报只是贴在墙上的一层薄薄的纸,它在雷达或激光雷达里几乎没有回波,汽车就能立刻判断:“哦,这不是立体的人,是个平面的东西。”但受成本和空间限制,量产车型并不总能一开始就配齐这些高精度传感器。

在只依赖摄像头的情况下,软件层面的改进更显关键。最先要做的,就是让摄像头拍到的画面经过更聪明的“人形检测”算法。目标检测模型通常会先在图像上划出许多小方框,然后再判断每个方框里是不是人。早期的做法像给照片打了“九宫格”,一点一点地扫;现在用深度学习的大脑,能一次性在不同大小的区域上同时判断,大幅提高了速度和准确率。但是这些大脑都是在大量真实行人的照片或视频上训练出来的,对海报、画报这样专门制作的人像平面并不陌生,因为它们往往长得和真人太像了,于是就容易“见人就当真人”。

为了解决这个问题,就会让模型在训练时多“看”一些海报、广告、橱窗人像的画面,把它们当作“负样本”喂给大脑,告诉它们“虽然这个区域里有一个人形,但它总是贴在同一个地方,不会移动,也不会有立体的深度变化”。这样,模型在识别“行人”时,就能多留一个心眼,如果它在连续的画面里每一帧都在同一个位置出现,而且旁边没有地面阴影、脚步移动产生的微小抖动,就可能是个海报,而不是一个真正走路的人。

除了让模型学得更聪明,纯视觉系统还会利用“深度估计”技术来给每个像素预测一个距离值。想象一下,如果你只用单只眼睛看东西,也能凭借物体大小、透视关系估计远近。深度估计网络就是这么一回事,它会结合数万张配有真实距离标注的照片,学会从平面图像里猜距离。问题是,海报和背景是一体的平面,网络有时候也会误以为海报里的“人”是在几米外的真实行人。为此,工程师们会在车上装两台摄像头或双目摄像头,前后或左右分开约几十厘米,模仿我们人眼的工作原理,通过左右图像的微小差别(视差),直接算出距离。对于真正立体的行人,视差足够明显;对于紧贴墙面的广告,其视差几乎为零,这时系统就能判定它是个平面。

更进一步的时,系统会追踪每个“人”在多帧画面中的运动轨迹。真的行人会自己动,每一步都带来位置和形状的微妙变化;而海报里的“人”只会随着车子的移动在画面里平移、缩放,却不会产生独立运动。现在主要采用一种叫“多目标跟踪”(MultiObject Tracking)的技术,把每个检测到的人都打上标签,然后观察它在时间轴上是如何变化。如果某个标签在反复观察中,从来没有过正常的人行运动,那么它的“行人”置信度就会被一帧一帧地降低,最终被系统忽略。

为了让纯视觉系统更早地识别出海报,很多车企还会选择在车辆首次经过某条路段时,自动绘制一张“静态地图”(高精度地图),记录下两旁那些看起来像人却不怎么动的画面位置。这样,车辆再次行驶同一路线时,就不用每次都去重新判断,而是把这些已知的静止“假人”从一开始就屏蔽掉,节省计算资源,也避免了重复误判。

尽管这些算法在实验室和小范围测试中已经取得了不错效果,但阳光直射、雨雪天气、夜晚路灯闪烁等复杂情况,仍然会让纯视觉系统偶尔“犯迷糊”。为此还会在虚拟仿真平台(比如CARLA、LG SVL)里,模拟各种极端光照和天气条件,让系统先在虚拟世界里“吃透”可能遇到的画面,再到真实道路上进行测试和验证。

随着“视觉大模型”(类似自然语言领域的GPT大模型)逐渐走向成熟,纯视觉方案将拥有更强的“常识推理”能力。它们不仅能看出图像里有人,还能结合场景理解。海报一般固定在墙面、广告牌上不会突然移动,也不会投下随行人的脚部阴影。这样一来,汽车的大脑就像多了常识一样,能够更好地区分“画报上的人”和真正的行人。

要让纯视觉自动驾驶系统既能敏锐地发现真实行人,又不会被路边的海报吓得乱刹车,其实需要软硬件多方面的配合。加装雷达或双目摄像头、利用深度估计、时空跟踪、静态语义地图和负样本训练,都是在让汽车“更聪明”地看世界。未来,当城市的路灯、路侧基站也都能把静态障碍信息实时广播给车辆时,纯视觉自动驾驶就能像人一样,用“眼睛+大脑”配合得更默契,真正做到在复杂的城市环境中,自信而平稳地前行,再也不用担心那些“画报上的人”会误导它。

-- END --

       原文标题 : 纯视觉自动驾驶如何理解路边画报上的人?

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存