2
护航计划,与产业同行
百度创始人李彦宏多次提及AI产业化的重要性。
他表示,AI的发展的第二阶段,是经济智能化阶段,又具体分为上下两个阶段,在前半段,人工智能的发展主要围绕通用能力的开发和作为一种资源的AI能力的平台化;在后半段,人工智能开始全面的产业化,行业应用与商业化全面普及。
百度集团副总裁吴甜也表示,人工智能在和产业的结合正在快速发展。从飞桨与企业合作伙伴的实践中,值得关注的有几个具体趋势,分别是AI应用场景更加多元化和分散化,更深入与企业的业务系统结合呈现专业化的特点;自然语言处理应用课题大量增多,显示出企业更深层次的智能化需求在增加;很多应用已经走过了最初阶段,开始研究更为前沿和深入的问题。
然而,随着人工智能技术逐渐成为各行业实施数字化、智能化转型的核心动力,企业在面对具体应用场景的定制化AI开发中,不仅需要从零起步,自行跑通数据处理、算法开发、模型训练、模型部署、服务集成等多个阶段,更需要开发者具有丰富的AI实战经验,一系列的难题摆在迫切期待AI转型的企业面前,也使AI落地成为一个充满复杂性和挑战性的系统工程。
针对这一现状,飞桨“大航海”计划中,就包括最新发布的护航计划——面向产业智能化升级的“护航”。
因此, “护航计划”的核心是,未来三年,飞桨将投入10亿元资金,支持10万家企业智能化升级,与产业界一起培育百万AI人才。将汇聚生态资源去扶持一批在AI产业落地方面深耕的企业,技术赋能,输出更多百度的行业落地经验,也与业界探讨更深入的难点问题解法,共研共创。
在护航计划中,首席AI架构师培养计划(AICA)显得分外抢眼。
AI架构师在一个企业的AI实践中应该处于一个什么位置?
简单来说,AI架构师就是一个企业里AI应用的核心发动机。
按照吴甜的观察,AI的产业化,分为AI先行者探路阶段、AI工作坊应用阶段、AI工业大生产阶段。目前,大部分企业处于第一阶段,有少数进入了第二阶段,也就是“工作坊阶段”。
换言之,AI架构师是支撑企业AI应用三级跳的核心构建者,这是百度着重打造这一体系培养的关键,这些架构师将推动千行百业与AI大生态的对接。
从涉及的企业来看,由百度联合深度学习技术及应用国家工程实验室共同打造的首席AI架构师培养计划(AICA)在培养AI架构师上持非常开放的态度,面对的企业既有网易云音乐、万方数据、人民网、汽车之家这样的典型互联网企业,也有中国联通、浙江省能源集团、西南电子电信技术研究所、中海石油气电集团这样的国企,还有顺丰、OPPO这样出色的民企。
而培养课题涉及领域也更加广泛,包括AI辅诊系统、零售商品检测识别、电力输电线路相关模型研究和游戏内聊天垃圾广告识别等,涵盖医疗、工业、电力、娱乐等多个领域。
“通过AICA的学习和实践,自己对于AI技术和开发应用流程整体把握能力,对实际业务进行技术抽象的能力,设计并实现高效AI落地方案能力均有了大幅度提升”,来自浙江省能源集团的朱凌风表示。
无疑,这显示AI技术正在从“垂直”走向“多元”,通用性技术的优势也逐渐显现出来。而对于百度来说,在云、AI、互联网融合发展的大趋势下,百度形成了移动生态、百度智能云、智能交通、智能驾驶及更多人工智能领域前沿布局的多引擎增长新格局,在AI算力、算法、开放平台、开发者生态等方面建立的领先优势,正转化为“云智一体”的差异化竞争力,使之进入强劲增长的快车道。
而ACIA的培养,不仅为行业输血,也为百度蓄积的强大AI势能加快产业化落地,提供了大量的“智能路由器”。
毫无疑问,对于吴甜描述的AI进入工业大生产的三阶段来说,百度已经不满足于培养普通的应用层人才,而是输出能够提升一家企业中对技术团队具有AI影响力,能够帮助企业从整体上构建以AI为核心的技术体系,充分发挥AI技术对于业务的助力作用的高端复合型人才。
高端复合型AI人才的培养该走一条什么样的路,世界范围内都没有标准答案。但有业界观察家指出,美国、欧洲的模式都各有优势,也各有弊端。欧美模式的优势是有大量的引领级人才和开山立派的宗师级研究者,但这些象牙塔里的大师的主要标准是发布论文数量,从某种程度上离产业实践较远。
而和谷歌的深度学习框架设计为“面向所有人”和脸书的框架“面向研究者”的定位都有所不同的是,百度的飞桨一开始就明确定义为“产业级”,目的就是指向AI技术应用的产业落地,因此其高端复合人才的导向,亦明确指向产业应用。
这是一片无人的海洋,需要在寻觅中找到方向。
3
领航,指向何方?
作为一个生态体系,AI离不开优秀的开发者和优秀的社区组织,所以,飞桨大航海计划,也面向核心开发者推出了“领航”计划。
百度CTO王海峰曾多次强调开源开放的重要性,他表示,开源开放的精神内涵,已不仅是技术开发领域的协作机制,更是驱动技术创新和加速产业发展的核心动能。
开源平台是与开发者们共建的。PPDE,是飞桨开发者技术专家计划的缩写,目前,全中国的PPDE不到200位,可谓每个都是很高的荣誉。他们不仅为飞桨产品社区贡献技术力量,更是以实际行动在引领和推动开源社区的发展。
PPDE并不是一个技术荣誉,它更偏向荣誉获得者对于产业的贡献,因此,无论是推动技术应用创新的全球飞桨开发者,或是推动开源社区发展的极客或者开源项目 Committer,还是科研机构孜孜不倦钻研的科学家,或桃李满天下的高校老师,甚至是新兴科技公司创始人、CTO、技术领袖,或是编程开发与技术分享兼备的技术博主、Up主,都可以加入PPDE计划。
张林峰就是PPDE的一员。
从北大元培到普林斯顿,再次回到中国的他有了新的身份。作为深势科技这家公司的联合创始人和首席科学家,他和一群志同道合的伙伴正在以“多尺度建模+机器学习+高性能计算”的新范式,解决着微观尺度的工业设计难题。
但是相比于自己创办的企业,张林峰更喜欢聊那个“因共同热情与理想”聚集起来的开源新社区——DeepModeling。
DeepModeling开源社区始于张林峰学生时期所做的“深度势能分子动力学”开源项目DeePMD-kit。从那时起,张林峰就热衷于将基础代码、算法、架构等根据开源协议进行共享,通过社区内的群智协作,让高门槛、高壁垒的不同学科碰撞思维,打通盲点。
对于现在的创业,张林峰解释说:“可以用底层的分子动力学举个例子,比如我们需要描述一个化学反应中,各原子间出现复杂的相互作用时,以前要么是通过更为复杂昂贵的量子力学计算求解,要么就简单地凭经验拍脑袋猜会是怎样的情况。但这个问题一旦被转化到深度学习的语言里面,就变成了‘输入原子位置’,然后‘求解原子间的相互作用结果’,也就是势能面。充分考虑物理限制的深度学习模型相比传统手段更高效准确。”
作为既有深厚的开源文化,又在技术上足够灵活、拓展能力极强的深度学习平台飞桨,能和深势科技“走到一起”并不奇怪。
“科学计算以及物理模拟会是人工智能下一个非常重要的战场,在这样大的场景下,开源将是我们注定要选择的模式。”张林峰在WAVE SUMMIT 2021深度学习开发者峰会的论坛上分享分子动力学与飞桨深度学习平台的融合创新时,提出了自己的观点。
不久前,飞桨已和DeepModeling开源社区的开发者们,就深度势能分子动力学开源项目(DeePMD-kit)进行了跨领域深度合作。依托飞桨成熟的底层功能和动静统一的开发体验,开发者们实现了深度势能分子动力学模型的构建和运行。这一合作促进了双方在开发者生态上的双向融合,拓展了DeePMD-kit原有能力边界,增强了在国产化硬件和大规模分布式训练上的能力,也让飞桨支持的科学计算开源项目中增加了重量级的一员。
但PPED并不是大航海领航计划的全部。
今年四月,浙江大学召开OpenKS(知目)知识计算引擎开源项目发布会,宣布浙大与合作单位研发的OpenKS知识计算引擎取得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,是我国在大数据人工智能方向的又一次有益尝试。
“可泛化的领域知识学习与计算引擎”是以庄越挺教授作为首席科学家的科技创新2030“新一代人工智能”首批重大项目,该项目由浙江大学牵头,联合北京大学等顶尖学术机构和百度等行业领军企业联合建设。
需要划重点的是,OpenKS基于百度飞桨,可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。旨在建立一整套可服务于知识密集型行业共性需求的知识计算工具、算法与系统,帮助这些行业快速地构建行业知识图谱,提供行业相关的智能规划与决策支持。
选择百度飞桨,则是因为知识图谱技术的研发应用需要海量数据、庞大算力以及复杂的模型算法,而构建知识图谱底层平台所需的技术要求高、周期长、投入大、收益慢。而基于飞桨深度学习平台开展人工智能科学实验或产品研发,则可以避免在知识图谱系统搭建中重复造轮子。
举例来说,面对超大规模知识图谱训练,随着图谱规模增大,数据量增多,对训练框架要求越来越高。针对分布式知识计算,OpenKS系统采用飞桨超大规模深度学习模型训练技术,支持百亿图谱分布式存储和检索,还支持百节点数据并行训练万亿稀疏参数,进而学习大规模的知识图谱。
对于飞桨特别擅长的产业应用,在OpenKS的知识图谱应用场景里,如知识图谱问答和推荐等方法,飞桨不仅提供了相应的算法,还针对推荐场景提供了工业级数据处理和万亿稀疏模型训练能力,从而为打通学术界和工业界提供了有力的通路。
以上的两个例子可以看出,在充满了机遇与挑战的大时代背景中,飞桨将持续在技术上不断创新进步的同时,不断探索分布式训练技术等的边界,不断扩展AI赋能的领域,做到与开发者共同成长进步,为产学研智能化进程贡献着自己的力量。
正如王海峰所说,人工智能技术发展到今天,从科学研究的角度面临的问题越来越复杂,但从应用的角度实际上门槛在不断降低。
作为“AI时代的操作系统”、百度大脑的技术底座,飞桨始终坚持开源的路线,保持对繁荣开源生态的建设投入。
一位深度参与飞桨工作的技术大牛这样对笔者说:“如果一定要给近代科学和现代科学划一个分水岭,那就是研发的组织工作上,从研究者单枪匹马的突破到大规模协同的存在,前者需要爱因斯坦天才的大脑,后者则可以依靠更多‘非天才’的分工与协同,飞桨始终强调开源的意义也正在于此,飞桨越开放,聚集的开发者越多,中国的AI生态就越可能出现跨越式突破”。
作为一位航海者的日记,我们或许将在飞桨的未来,或者未来的未来时再品读这句话的深远意义。