前端成像或将开启“视觉2.0时代”

目前国内AI视觉，几乎都把焦点集中在对图像的后端处理上。虽然算法足够优秀，但产品落地却困难重重，原因是忽略了前端成像的重要作用。

“计算机视觉的前端成像技术，背后是至少100亿数量级的庞大需求！”

在日前刚结束的2018 AWE现场，身为眼擎科技CEO的朱继志，满怀激动的下了这么一个结论。

朱继志说话的语气非常笃定，因为他们的eyemore X42芯片上市不到两个月，就已一路高歌，初露峥嵘。而业内对eyemore X42的看法是：这款全球第一款完全自主研发并正式对外发布的AI视觉成像芯片将“引领AI机器进入视觉2．0时代”。

既然这款芯片目前在国内甚至全球同领域内属于独一份，好奇之下，我们不禁就和他多聊了几句。

2018将是AI落地第一年，视觉市场规模潜力巨大

近几年，人工智能的火热是毋庸置疑的，上到国家两次将其写入政府工作报告，下到雨后春笋般出现的各种AI公司，所有这些都在昭示着一个崭新的人工智能时代即将到来。

同样的，在众多的AI技术和应用中，计算机视觉是最大的切入点和最具潜力的领域。毕竟，在我们获取的全部信息中，视觉信息的比例达到了80％以上，因此，这将是一个前景无限的市场方向。

计算机视觉的应用领域几乎涵盖了我们所知的所有行业，自动驾驶、金融风控／交易、安防、新零售、智能手机、机器人......

国内计算机视觉领域，商汤和旷世算是两只最大的独角兽，而他们于去年上演的融资竞赛更是吸引了无数业内人士的目光：先是2017年7月，商汤科技B轮融资4．1亿美元，接着道10月31日，旷视科技Face＋＋又宣布获得4．6亿美元C轮融资，随后商汤即传出接受阿里15亿元投资的消息......

不用多说什么，仅从这一连串创纪录的融资金额中，我们就可以感受到计算机视觉在AI界的热度。

据相关研究报告预计，2018年全球计算机视觉市场规模将达到50亿美元左右，而到2020年，中国计算机视觉市场规模将增长至725亿元，未来前景极为广阔。

“2016年是AI的概念年，2017年是demo年，2018年是落地第一年。”朱继志认为，在未来的三年内，AI会很快的实现更为广泛的落地应用。

“尽管现在整个产业很多技术都还有一些问题，但是其整体架构已经出来了。”朱继志说。

深耕前端成像领域，视觉2．0将为产业生态带来质变

众所周知的是，目前国内AI视觉领域的科技企业，几乎都在使用传统摄像头，都把焦点集中在对图像的后端处理上。这就导致了一个尴尬的现象：绝大多数的AI公司算法足够优秀，但前端成像技术不过硬，导致实际落地时机器的“眼睛”不能适应外界光线变化，识别效果差的尴尬局面。

以自动驾驶汽车为例，在诸如车辆经过隧道、对面驶来的车开大灯、夜间红绿灯被道路景观灯遮挡／干扰、夜色漆黑伸手不见五指等等异常情况下，往往会由于识别不准而发生行车事故；

同样，安防领域也会因为红外黑白画面和逆光的人脸发黑而无法识别、工业检测中会有因为高光和反光导致无法检测的情形等等。

“在复杂的光线环境下，AI机器获取的图像信噪比会受到极大影响，这是导致市场上AI视觉产品难以落地的最大原因。”朱继志认为，要彻底解决这一难题，关键在于做好AI视觉产品的前端成像。

要克服AI机器在复杂光线下的图像识别，就要首先解决图像的获取和前端处理。目前，业内主流的解决方案有3种。

第一种就是我们所熟知的激光雷达，在光线不好的情况下，通过主动发射激光并利用光线反射来获取物体的图像和三维信息。激光雷达的优点非常明显，它可以获得极高的角度、距离和速度分辨率，同时也具有良好的抗干扰能力。

不过，受限于巨大的体积和昂贵的价格（各类32线、42线、64线等型号产品，价格动辄数万数十万甚至上百万，虽然在持续降低，但依然不亲民），它正在被边缘化。正如马斯克所说的，“激光雷达就像一根拐杖”。这个比喻很恰当，视觉能力不行的时候，需要依靠激光雷达这样的拐杖，但拿着拐杖却是永远跑不快的。

剩下的两种方案则都是在相机和成像处理的基础上加以改进。首先是阵列计算相机技术，原理有点类似于蜻蜓、苍蝇等多目昆虫的复眼，通过数个、数十个甚至上百个相机组成的阵列，拍摄出拥有亿级以上像素的动态图像，为AI机器提供视觉支持。

目前，这一技术尚在研发阶段，受限于体积和供应链的制约，其产品也还处在落地的早期阶段。

第三种方案，即是眼擎科技所做的，AI视觉前端成像引擎芯片eyemore X42。

据朱继志介绍说，眼擎所做的这种方式，像人的眼睛一样，核心是把人的眼睛视力弄好——解决AI机器在各种光线下自动适应光线的能力。

“我们坚信，以后AI机器的眼睛应该和我们人类一样，以后它们的视力一定不会比人眼差，甚至比人眼强。这就是我们创业的初衷，我们要从根本上解决AI的视力问题。”

眼擎eyemore X42芯片，视觉2．0时代的AI机器成像引擎

关于AI视觉，马斯克曾经提出过“全天候被动光学图像识别”的概念，就是要解决复杂光线，包括弱光、逆光、反光下的精准识别，这也是AI机器要解决的刚需问题。眼擎科技把这种自动适应光线的视觉，称之为“视觉2．0”。

2018年1月19日下午，在2018极客公园创新大会上，国内AI视觉成像芯片科技公司眼擎科技正式对外发布“eyemore X42”芯片。据悉，eyemore X42是全球第一款完全自主研发并正式对外发布的AI视觉成像芯片。

数据显示，eyemore X42成像引擎芯片，拥有比传统ISP高20倍的计算能力，采用了20多种新的成像算法，集成了超过500种不同场景下的复杂光线数据。

eyemore X42芯片有三个特点：首先它是一颗独立成像芯片。目前各种相机、智能手机、摄像头里都有成像功能，但都是被集成在主芯片里面的，只能叫集成成像。而eyemore X42整颗芯片只专注于一件事情，那就是成像。这有点像Intel的CPU带了集成显卡功能，但我们知道，只有像NVIdia的专用GPU才一定是未来的主流。

第二个特点，eyemore X42抛弃了传统的ISP成像架构，采用了全新的成像引擎架构，来解决复杂光线下的成像难题。而传统的ISP，从架构上来讲，无论如何也无法完美解决复杂光线的问题。

第三个特点是，eyemore X42提供了丰富的API接口，让做后端图像识别的算法工程师，可以很方便的控制成像的过程。

eyemore X42的性能有多强大？也许其发布会当天现场演示的“微光／暗光环境下实现精准识别”的实验，就能很好的说明问题。

“如果你问所谓的微光会微到什么程度？这个很简单，我们有一个基本的标准，就是和人眼比，我们就是要超越人眼”，朱继志说到。

人眼的视网膜里有大约1．25亿个视杆细胞和视锥细胞，它们扮演感光器的角色。其中，视杆细胞感知光线的明暗，而视锥细胞负责感知颜色。到光线的明暗达到一定程度（过亮或过暗）的时候，视锥细胞就停止工作，转而切换到视杆细胞，因此这时人眼就只能感受到黑白的灰度，暂时失去了感知颜色的能力。

“我们现在做的事情是比人眼18个DB的八倍，在那种情况下。所以，在人眼看不清颜色、只能看清轮廓的情况下，我们能够精准的还原颜色。”

人对世界颜色的感知能力是有限的，虽然理论上说人的眼睛可以分辨出出高达1200万种颜色，但实际上远远低于这个数字。但机器能不能分辨出一百万种、一千万种甚至更多种颜色呢？这完全有可能。

我们很难想象的到，一个机器超越人眼之后可以做些什么。高维视觉和低维视觉相比，具有无可比拟的优越性。

比如看到一朵花，我们看到的只是白色的，但机器看到的是五颜六色的，因为可能有100种白。这就是机器进步的核心能力，能够看到更多的信息，所以能够给出更精准的反馈。

AI实体化之下，5年内视觉芯片将有100亿数量级需求

随着AI技术的进一步发展和应用的持续扩大，各种由AI芯片驱动的机器／设备持续出现，使得AI已经越来越呈现出实体化的趋势。

“得益于人工智能的广泛应用，目前已经形成了一个很大的技术生态。在这个庞大的生态海洋里，AI机器这个新的物种已经开始进化出来，这些AI机器将会迅速进入我们的现实世界。”朱继志说。

AI机器区别于一般机器的最大特点是，它不是一个普通的工具，它自己有大脑。我们可以把自动驾驶、机器人、包括工艺检测设备、智能的安防摄像头／门禁／锁具等等，都看做一个AI的机器。

另一方面，从信息时代发展到如今的AI时代，竞争核心已经从加工制造工艺／硬件设备性能的竞争，升级为算力和算法的比拼。由此，作为算法和算力承载的芯片，就成了当今时代最大的竞争焦点。

而AI机器需要数量更多的、性能更强大的芯片，即各种AI芯片。

“AI机器这个新物种，就是被各种芯片所驱动的。在比拼算法和算力的时代，一个AI机器所需要的芯片的数量，也就是芯片的密度，会呈现数量级的增长。”

以目前突然蹿红的比特币为例，其挖矿的设备——矿机，就是芯片的需求大户。在一个普通的矿机里，就会有几十到数百颗处理器芯片，而这个在以前是不可能想象的。

除此之外，基于万物互联场景下的自动驾驶汽车，它的视觉系统、路径规划系统、车内温度调节、对外通讯通信等等，每一个独立的处理单元都至少需要一颗芯片；同样的还有各种机器人、各种无人机、安防监控、无人超市......

朱继志认为，以后一台AI机器对各种各样的芯片的需求，会有成百上千个。在视觉2．0的内因驱动下，各类AI芯片的大规模应用时代已然来临，AI机器这个新物种，将为AI芯片开辟一个庞大的新增市场。

AI机器对视觉器官的需求量同样是巨大的，由此AI视觉芯片的供应量也将随之激增。

在汽车领域，一台自动驾驶的汽车，将会安装10个视觉摄像头；在安防领域，所有的监控摄像头，都面临着人脸识别的升级；在工业设备领域，通过视觉的方式进行产品的检测，将会成为每一条产线的标配，以后每一条产线上都将配置超过10个智能摄像头；在无人零售，如Amazon go正在把关注的重点从商品的标签迁移到每个顾客的消费习惯，它的每家无人零售店都配置了超过100个以上的摄像头。

前端成像或将开启“视觉2.0时代”

相关推荐