旷视科技CTO唐文斌:我们是一家人工智能产品公司

聚合资讯
关注

我们也非常重视系统的建设,我们有自己研发的MegBrain深度学习引擎和Brain++平台。如果说研究的价值在于去探索边界之外的东西,那边界之内的,比如网络结构的搜索,都应该用机器来完成。我们的产品中常常会有的定制算法的需求,很多时候大框架都差不多,数据工程师把数据整理和准备好以后,就直接用系统把各种类型的模型都尝试一遍,最后挑选出一个不错的。

新智元:你提到了数据工程师,现在旷视在数据方面投入多少?有多少人标注数据?

唐文斌:全职标注的大约有300人,不算在600多人的团队里面。我们还有很多工作是外包完成。我们内部有标注的数据库是PB级别。

新智元:你曾在清华担任科协主席,也带过中国奥林匹克信息学竞赛团队,可以说你是旷视最开始的首席人才官。你认为目前人工智能人才应该有什么样的特点?旷视在选择的时候看重什么特质?

唐文斌:我觉得人才的类型是很多样的,每一种类型的人才都是人才,光会写paper的人才也是人才,虽然价值没有那么大。在现在的人工智能发展态势下,我们最需要的是复合型人才。做产品的时候会有产品经理,但人工智能场景下的产品经理需要更加复合。

我们团队最早的一位同学,员工工号No.  5的“卿爷”,我们现在提供给小米、VIVO人脸解锁的产品线都是他带着团队来做的,他需要有什么样的能力?第一,懂算法,不一定要懂算法具体是怎么做的,但一定要懂算法的边界在哪里——坚信这件事情一定能做到,但同时也要了解现在的算法有些东西是真的做不到。第二,有很好的工程判断力,用算法的方式是从本质去解决问题,而有些东西你会通过工程的方法去“不本质的解决”,倒推出一个一个设计。第三,也是更为重要的,需要不断从用户的需求、用户的场景、用户的价值角度出发思考问题。这样一个产品经理,他需要比以往的产品经理有更多工程上sense,更多算法上的sense。

从工程师的角度来讲,我们有一个词,叫“全栈AI工程师”,我们希望这位同学不仅数学好,懂算法,编程很强,还非常懂系统;算法编程都很懂才能做引擎,懂体系结构你的引擎才能在不同的平台上都跑得很好很快。这样的人非常难找,但也是最强的。比如说我们做Brain++平台的那帮人,他们提供的是训练平台,给到研究人员使用,他们知道Research是怎么使用这些东西,他们自己也随时都能转变为Researcher。同时,他们考虑Researcher做的哪些事情是没有价值的,要把它工程化、系统化,最终的目标是消灭Researcher——所有在边界范围内的Research都由系统来完成,而Research真正要做的事情是突破边界,探索边界之外的东西。

旷视在选择人才的时候也是按照这个标准。如果有这样的人,我们特别特别希望你能够加入我们,我们团队里有很多这样的人,你跟他们在一起一定会非常愉快。其次,我们也很看重学习能力,现在领域发展很快,你需要非常快速地跟上节奏去尝试你的新想法,所以学习能力和动手速度非常重要。我们也有实习生项目,总之欢迎你来,孙剑老师带你飞对吧(笑)。

算法与硬件合,从源抓起控制成像

新智元:旷视的算法、软件如何与硬件相结合?

唐文斌:我们有自己的深度学习引擎MegBrain,这个引擎在不同的品牌上做了非常多的底层优化,能够跑得非常快。我们最近做的一款智能相机产品,这个相机是业界第一款全帧率、全画幅(1080P)智能人像抓拍机。

旷视科技CTO唐文斌:我们是一家人工智能产品公司

旷视的全帧率、全画幅(1080P)智能人像抓拍机

全帧率的意思就是说,每秒30帧,每帧都去抓取,在业界这个指标是最高的。有的嫌疑人员有很强的反侦察意识,一看到摄像头会马上低头,如果相机不能以非常快的速度做出截取,可能只有100毫秒,一两帧之后这人就消失了。同时,每一帧都检测,也能确保总是能抓到质量最好的一帧,为后续应用服务。以往的相机在画面中抓拍做检测,基本上最多只能抓拍画面中10到20个人,再多就抓不到了,因为计算量不行。我们可以做到128张人脸,很大的人流也能跟踪得很好。

我们用的是自己设计的FPGA芯片,在算法层面也做了很大升级。硬件也好,算法也好,引擎也好,这几个东西是要联合优化的。这也是自己做引擎的厂家好的地方,我的引擎可以根据算法的需求去调整。

新智元:未来1年旷视会怎样?未来3~5年呢?

唐文斌:我们分几个组,研究院大概10%~15%的力量可能在解决2~5年的问题,更多的人在解决一年以内的问题,因为创业公司要务实聚焦。在介绍产品时候也讲过,比如说我们为什么做相机,并不是因为觉得相机赚钱,而是我们想当视频大数据平台,发现源头数据不好,后面再怎么分析也没用,所以我们要在源头上通过自己的方式把质量控制好,让后面的分析能力能够更强,形成端到端的解决方案和业务价值。

我们希望未来一年左右,在金融和安防这两个场景下能够站深、站稳,希望在这两个行业形成全系列的产品,端到端的解决方案,给用户一套完整的价值链条。我们内部有个说法是“4+2+X”,在微型场景下,把脸人车文字这4个要素识别做好,再后希望能够形成机器人的手和腿,做一些限定场景的机器人应用。“X”是指通过Brain++这个平台快速做技术的定制,让这个场景真正的能够形成一个完整的产品链。但真真实实地讲,领域发展这么快,未来3~5年,我真的不知道!

新智元 AI World 2017即将启幕

11月8日,在新智元 AI World 2017 世界人工智能大会上,旷视科技首席科学家、旷视研究院院长孙剑博士将发表演讲,聚焦人脸识别等视觉前沿技术和问题,为我们带来计算机视觉最新技术和应用的精彩分享。

旷视科技CTO唐文斌:我们是一家人工智能产品公司

孙剑博士目前在旷视科技(Face++)担任首席科学家、旷视研究院院长。2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院  ( Microsoft Research Asia),任职首席研究员。自2002年以来在 CVPR, ICCV, ECCV,  SIGGRAPH, PAMI 五个顶级学术会议和期刊上发表学术论文 100+ 篇,Google Scholar 引用  25,000+次,H-index 60,两次获得 CVPR Best Paper Award (2009,  2016)。孙剑博士于2010被美国权威技术期刊 MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。

孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (  ImageNet分类,检测和定位,MS COCO  检测和分割),其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软  Windows, Office, Bing, Azure, Surface, Xbox  等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步和探索其在工业和商业上的实践。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存