方象技术观察
布局特定场景及行为识别 抢占技术前沿
中国电子学会的公开数据显示, 2017 年,中国人工智能核心产业规模已达到 56 亿美元左右,预计 2020年将超过 220 亿美元。在人工智能中,机器视觉占比最高,达到 37%。而在机器视觉市场中,安防行业占据七成份额。
目前,随着安防建设升级,安防系统正从传统的被动防御体系升级成为主动判断和预警的智能防御。这种安防建设的升级,对智能安防也提出了更高要求。那么,从被动追逃到主动预警再到多场景应用,视觉安防技术会如何发展呢?
视觉安防离不开卷积神经网络算法
在“计算机视觉+安防”领域,无论是智能视频监控,还是人脸识别或行为识别,归根结底,本质上都是对图像进行处理。自2012年以来,在图像处理问题上,卷积神经网络因其在学习过程中无需手工选取特征,只需进行大量图像数据训练即可,在图像分割、图像检测等方面取得巨大成果。目前,卷积神经网络已经成为图像识别领域的核心算法之一。
根据人类视觉系统[1]对信息分级处理的方式,人工构建的深度卷积神经网络模型,可以仿照人类大脑,由低层到高层逐层迭代、抽象处理视觉信息。卷积网络每层代表可视皮层的区域,每层上的节点代表可视皮层区域上的神经元,信息由左向右,逐层迭代传播。通过对历史数据逐步进行学习,将历史数据的经验存储在网络中,且伴随着学习次数及经验不断提高,可指数型跨越式地提升计算机对图像和视频的认知能力。
[1]1981年诺贝尔医学奖获奖者David Hubel、Torsten Wiesel发现
特定场景和行为识别是重要技术靶点
深度依托于图像处理的“安防”,最先得到了技术发展的红利,传统安防巨头和创企纷纷致力于打造具有“智能大脑”的算法、设备和系统。
虽然深度卷积网络的多重非线性使其具有很大的可塑性,但想要将这把利器恰到好处地用到安防场景,还需更多研究和实践。
在深度网络框架下,如何选择内部结构,引入多少节点,选取哪些区域进行池化,往往需要大量经验,还要反复进行调整。深度网络“学习”的过程中,特写场景中的目标特征识别尤为重要。这需要对系统有针对性地喂以训练数据,比如遮挡人脸、行为识别中各种组合姿态等,通过深度学习,让其能针对特写场景中的目标进行识别。
方象知产研究院认为,在视觉安防领域,以卷积神经网络突破细分场景应用,仍然是未来的发展方向:一方面能让这种“类视觉人工智能系统”针对特定场景的目标进行识别,不仅知道什么时候“该看”,还要能“看得清”、“看得透”、“看得懂”,在安防领域发挥作用;另一方面,还要完善深度网络的学习能力,突破算法局限,能针对不同特点的数据库及需求,建立对应的识别能力,建立系统性的整体设计方案,以最低成本拓展应用场景。