近年来,自动化机器学习(AutoML)因可大幅降低机器学习的门槛和人力成本受到了学术界和工业界的广泛关注。其在超参数优化、模型选择、神经网络搜索和特征工程等方面显示出其强大的功能。随着探智立方全新AutoML产品DarwinML的上线,将进一步推动国内自动建模平台的应用进程。
传统上,术语AutoML用于描述模型选择和/或超参数优化的自动化方法。这些方法适用于许多类型的算法,例如随机森林、神经网络等。说白了,AutoML 最核心的内容其实就是用计算力和数学方法自动做数据特征提取以及模型建模。
AutoML 被认为是降低机器学习工作门槛,让 AI 真正推动行业变革的重要一环。探智立方的产品,可以让各领域的专家们仅需专业知识和数据,就能完成机器学习复杂算法的开发。
在 2017 年谷歌刚刚推出 AutoML 工具的时候,「AutoML」还仅有机器学习模型自动化的意思。而现在,人们已经普遍认为 AutoML 需要贯穿机器学习的整个流程:从数据清洗开始、特征工程、到模型的生成,甚至包括模型评估,所有阶段都包括在了 AutoML 的范畴之内。
这也为机器学习自动化提出了更高的要求。「探智立方的DarwinML自动建模平台可以把开发者构建模型的时间从若干周减少到一天,甚至仅仅几个小时,」探智立方产品总监宋煜说道。「而现在,数据整理的工作也可以自动化了,甚至数据特征工程也可以嵌入到整个模型设计过程中去。对于开发者来说,这些事可以在不被感知到的情况下完成,人们无需关心它们是如何被处理的。」
「如何在数据缺乏整理,或内容过多、缺少标注的情况下构建高效的 AI 模型,验证商业模式是否可行,是机器学习落地的最大挑战。」宋煜说道。
探智立方的自动建模平台面向机器学习模型和深度学习模型,在已有工具的基础上进行了大幅度改进。在数据自动分析工具 DarwinML Data Fusion 中,人们可以通过图形化界面,拖拉拽的形式控制系统自动整理数据。经过整理的数据不光在探智立方的平台上,在任何其他机器学习平台中都是可用的。
在核心产品 DarwinML Studio 中,探智立方新增了大量特征工程扩展,带来更为丰富的自动化能力,让「设计大脑」变得聪明,其中还包括数据增强和自动标注技术。此外,探智立方还对模型的结构生成进行了进一步优化,使其效率更高。
「国内绝大多数企业都没有强大的 AI 开发团队,DarwinML可以把AI的整个流程工具化,无需高度专业的AI建模知识就可以开展工作。」徐宁说道。「对于传统公司而言,招募 AI 建模的开发者难度很大。但使用DarwinML就可以很大程度上省去这一过程。」探智立方DarwinML的出现将进一步助推国内自动建模平台创新应用。