Databricks 崛起启示录

新眸
关注

02超级加倍

让所有人感到意外的是,2019年后,Databricks以绝无仅有的加速度在增长。

截至2021年2月,公司已经筹集了近20亿美元资金,包括由富兰克林邓普顿领投的10亿美元G轮融资,此时Databricks估值已经达到280亿美元;在经过最新轮融资后,Databricks380亿的身价与三年前的62亿相比暴增了近13倍。

基本面决定价值,价值决定价格,如果将Databricks的成功仅归结于对技术犀利的洞察,借助了巨人的肩膀和好运气,这还远远不够。基于开源的创新是Databricks成长的关键,从大数据领域杀入云计算和AI,它的产品矩阵里包括DeltaLake、MLflow、Koalas以及开源分析引擎Spark等杀伤利器。

其中,超过80%的用户使用Delta Lake;MLFlow为数据科学家提供了标准化的开源框架,下载量以每月80万的速度增长,拥有比Spark更多的用户;而Koalas可以让数据科学家在笔记本电脑上使用Pandas编程,调用几个API就可以将工作部署到大型的分布式Spark集群上,把Pandas社区的数据科学创新带给了Spark用户。

帮助其他企业构建自己的AI能力,透露出了Databricks的野心:从BI到AI,构建一个企业AI平台,因为Ghodsi认为,在企业计算领域,行业还没有出现头部的企业AI平台。

除了软件产品本身,Databricks的业务模式也有所不同。

传统的开源商业模式是软件免费,厂商收取支持和服务费用,这在on-prem里或许可行,但在云的世界就不一定了。Databricks在开发、软件运行、运营和托管方面向客户收费,采用SaaS开源的盈利模式,客户可以在本地开源平台下载免费的基础软件,同时也可以下载开源公司打造的其他付费版本。

不高估开源,也不低估市场,Ghodsi说:“在云端托管开源项目并把它们租给用户,客户流失率更低,利润增长更快”。SaaS租赁模式下,Databricks的核心知识产权没有存放在它所赞助的开源软件项目中,而是在它用来监管云端软件的工具中,这样避免了泄露的风险。

根据报告,Databricks最新ARR (年度经常性收入)达到6亿美元,相当于Snowflake同财年12亿营业收入的一半,截至目前,后者市值近670亿美元,如果按照两倍之比来简单预估,Databricks380亿的估值也比较合理。以新估值计算,Databricks的价值是当前ARR的63倍,相较于2020年的4.25亿美元,ARR近30%的增长率让投资者对它未来的收入十分看好。

图:Snowflake与Databricks定价对比(来源:官网)

另一方面,通过对比官网收费方式发现,虽然是平台租出服务器的计算资源,但这些服务器整个系统都建立在主要的云厂商的基础服务上。以Snowflake(左)为例,同样是以每秒粒度使用的计算资源付费,Snowflake是平台和云厂商打包收费方式,客户对底层服务界面(如EC2)和上游的Snowflake的成本花费要一次性付清,但比例是怎样无从得知,而打包之后Snowflake需要支付给云厂商另外成本,这在无形中增加了费用风险。

Databricks(右)的玩法是分开收费,用户的账单主要分为两部分:常规的底层云厂商服务器租用成本,以及Databricks在这些服务器上的功能费用。客户使用底层器时,费用单独付给云厂商,并不算在Databricks的营收里。

所以如果对比营收,比如2020年的Snowflake营收近6亿,但刨去付给云厂商的费用,和Databricks4亿多的营收相比,也差不了多少。而这既是Databricks毛利率比Snowflake高的原因,也是前者赚钱能力强的体现。有观点猜测Databricks迟迟不上市的原因,如果根据Ghodsi的说法,是为了避免二级市场所带来的波动,或许收费方式被迫改变等不可预测因素也在里面。

03天时地利人和

根据官网显示,除了为数据科学家、数据领导者与数据工程师提供角色解决方案,Databricks还利用大数据和AI为广告和营销、通讯服务商、教育、能源、联邦政府、金融、医疗等13类行业提供服务。

从类别数量上,Databricks要多于Snowflake,此时全球已经有7000 多家组织(包括荷兰银行、康泰纳仕、H&M 集团、再生元和壳牌)依靠 Databricks 实现大规模数据工程、协作数据科学、全生命周期机器学习和业务分析。

通常情况下,企业客户在进行数据架构时,第三方平台提供数据湖方案,在数据湖中做一些常见的数据工程;同时会有一个数据仓库,存放相当于数据湖5%-10%的结构化数据,来做BI等简单的数据分析。

但由于数据分裂在两个系统上,针对同一个客户问题分析,不同团队有不同权限,因而会看到不同版本的同一份数据,当得出不同结论后,做商业决策的团队不相信数据,进而导致底层数据平台失信,这是个很致命的问题。

将结构化和非结构化数据结合到一个地方,让客户在不移动底层数据的情况下执行数据科学和商业智能工作,是大数据发展的一个关键变化。于是,Databricks决定力推Lakehouse,能够直接在数据湖的低成本存储上,实现类似于数据仓中的数据结构和数据管理的功能,可支持BI到AI所有的工作流。

从Databricks的网页介绍上看,无论是数据工程、数据科学,还是机器学习都要依靠Lakehouse运行,加上过去使用低成本对象存储的数据湖的访问速度很慢,如今DB SQL提高了分析质量和性能,使数据湖在大数据集上的处理与数据仓库相媲美。

“Lakehouse是一个新赛道,这是一场地盘争夺战”,H轮融资之后,Ghodsi表示,这笔资金将主要用于加速Lakehouse的产品创新和市场开拓。与此同时,Databricks透露保留所有主要公共云的选择和灵活性,并将Lakehouse发展成传统数据仓库的替代品。

越来越多的企业乐于看到Databricks的实力和发展潜力,这和它本身的商业逻辑有关,业内传统企业如Teradata在营收额上虽高过Databricks好几个身位,但市值仍徘徊在40多亿美元。大剂量的资金注入后,Databricks选择并购来填补产品路线图中的空白或不足,重点是机器学习和数据初创公司,以及扩大与云公司的合作伙伴关系。

“云、开源、机器学习,这三个方面已成为每家企业战略的核心。我们真的很幸运能够处在这三大趋势的中心位置上。”Ghodsi在接受采访时说到。如果说2019年前看好Databricks的小部分风投是赌趋势,如今匆匆进场的其他机构也并没有迟到,因为在他们眼里,这家独角兽仍具备难以估量的增长能力。

本文系新眸原创

       原文标题 : 「数据新星」Databricks 崛起启示录

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存