02 中国开源的冰与火
回到开源深度学习框架的话题上,在各种不确定风险的作用下,势必要燃起属于中国的星星之火。
从浅的层面来说,深度学习框架的自立是避险的需要,连亚马逊、苹果、微软等都在自主研发深度学习框架,避免被谷歌牵制的时候,中国的人工智能企业应该有最基本的风险意识,尽可能避免芯片产业的覆舟之戒。
进一步思考的话,创新通常不是靠砸钱、堆人就能发生的,最大的魅力还是创新的偶然性,可能发生在少数人身上。如果中国有越来越多的开发者、越开越多的企业参与到深度学习框架中来,创新的概率也将被提高。
但同时需要理性认识的是,虽然深度学习框架关乎人工智能赛道的制高点,可本质上还是一款“软件”,它的难度并不在开发层面——伯克利、清华等一些顶级高校的博士生,往往也能开发出不错的深度学习框架。
开源深度学习框架的重心在于产业化和长期维护,能否建立起一套完整的开源体系,进入门槛远没有想象中低。
一个典型的例子,美国大大小小的开源深度学习框架有几十个,最终脱颖而出的却是谷歌、亚马逊、Facebook等巨头,除了自身过硬的实力外,还在于巨头们有充足资金进行技术、团队、社区等方面的建设。一些刚刚起步的创业型公司,常常因为资金、技术、人才等方面的压力而自缚手脚。
另一个层面来看,开源深度学习框架的用户是开发者,所追求的是框架的易用性。在人们的固有认知中,习惯倾向于信赖被大众认可的事物,在情感上更偏向于有巨头背景的开源深度学习框架。即使一些初创企业可以提供有亮点的产品和服务,开发者也会出于安全、稳定等考量选择抢先培养了用户习惯的产品。
中国开源深度学习框架的行业现状,也是如此。
一面是行业越来越热闹,来自清华大学计算机系图形实验室的计图、国内计算机视觉领域的独角兽旷视推出的天元,再到创业公司一流科技打造的OneFlow,已然呈现出一副百花齐放的景象。与2015年前后的美国市场如出一辙,短时间中涌现出了大大小小、各种各样的开源深度学习框架。
一面是开源生态的贫瘠,开源深度学习框架的核心价值在于生态,需要向下对接芯片,向上支撑各种应用,进而打造深度学习的标准,也就需要持续的资源投入。华为的MindSpore还处于婴儿状态,阿里、腾讯等互联网巨头没有太大的声音,深度介入上下游生态的还只有百度飞桨一家而已。
03 抓住产业的窗口期
然而在新基建的浪潮下,留给中国开源深度学习框架试错的时间已经不多。
诸如智慧医疗、智慧社区、智慧金融、智慧交通等市场需求的爆发,正倒逼中国的开源AI形成一个完整的闭环,加速人工智能的产业化。确切地说,深度学习框架已经不仅仅是个开源的问题,还是一个商业化问题。
毕竟开源的目的就是在商业化的过程中,以一个结构化的、开放的底层系统,同时兼容存量市场和新增需求,降低客户和合作伙伴的使用门槛,继而为开发者提供快速实现商业化落地的路径。
不少人尝试对飞桨、天元、计图等开源深度学习框架进行横向对比,试图找到最有吸引力的产品。或许并不需要复杂的对比,仅仅是这些开源框架在GitHub上的星级就能一较高下,百度飞桨的星数为12.5K,计图、OneFlow和天元分别为1.6K、1.7K和2.5K,浏览量和服务端的代码仓库克隆数上,飞桨也远远领先其他国内开源架构。
除了在GitHub上的绝对优势,百度飞桨还是近乎唯一有着大规模应用案例的一家:
百度飞桨的大规模分布式训练,被OPPO应用于应用商店、内容推荐、负一屏、广告等推荐场景,推荐场景效果提升了4%—5%;
普宙飞行器科技基于百度飞桨打造的一款无人机自主飞行平台,实现了大范围森林的自主巡逻、火情监测、非法入侵、森林树木砍伐监测等功能;