前言:
DBRX的诞生标志着全球范围内开源人工智能语言模型技术的最新巅峰,并预示着人工智能技术的发展已正式进入全新阶段。
该模型通过深度学习技术和大规模训练数据的结合,不仅在自然语言处理领域表现出色,更在程序代码解析与生成、复杂数学计算以及逻辑推理等多个领域展现了前所未有的卓越能力。
作者 | 方文三
图片来源 | 网 络
全球最强开源大模型王座易主
近期,全球开源大模型领域迎来了重大变革,创业公司Databricks推出的新型开源模型DBRX在技术层面已超越先前的领军者Llama 2、Mixtral和Grok-1,荣登全球最强开源大模型之巅。
这一突破性的成就,无疑为开源模型领域树立了新的里程碑。
值得注意的是,DBRX在训练成本上实现了显著降低。Databricks公司仅投入1000万美元及3100块H100芯片,便高效地在两个月内完成了DBRX的训练。
相较于Meta开发Llama2所需的庞大投入,这一成本展示了Databricks公司在技术效率与成本控制上的卓越能力。
在性能表现方面,DBRX同样展现出了强大的实力。无论是在语言理解、编程、数学还是逻辑领域,DBRX均轻松超越了开源模型LLaMA2-70B、Mixtral和Grok-1。
更值得一提的是,DBRX的整体性能甚至超越了GPT-3.5,尤其在编程方面,DBRX展现出了超越GPT-3.5的卓越性能。
DBRX大模型,使用MoE架构
Databricks公司最近推出了开源模型DBRX,其参数规模高达1320亿。
这款模型采用了先进的细粒度MoE架构,每次输入仅需使用360亿参数,显著提升了每秒token吞吐量。
DBRX通过细粒度专家混合(MoE)架构,拥有更多的专家模型,从而在推理速度上大幅超越了LLaMA 2-70B,实现了两倍的提升。
DBRX是一款基于Transformer纯解码器的大模型,同样采用下一token预测进行训练。
在MoE中,模型的某些部分会根据查询内容启动,有效提高了模型的训练和运行效率。
相较于其他开源MoE模型如Mixtral和Grok-1,DBRX采用了细粒度设计,使用更多数量的小型专家。
DBRX拥有16个专家模型,每次选择4个使用,而Mixtral和Grok-1则分别拥有8个专家模型,每次选择2个。
这种设计使得DBRX提供了65倍可能的专家组合,极大地提高了模型质量。
此外,DBRX还采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术,以提高模型质量。同时,DBRX还使用了tiktoken存储库中提供的GPT-4分词器。
在方法层面,DBRX模型(包括预训练数据、模型架构和优化策略)与上一代的MPT模型相当,但计算效率提高了近4倍。
三大核心能力表现突出
①经过综合评估,DBRX的“微调版”Instruct在多个基准测试中表现卓越。
在Hugging Face Open LLM Leaderboard这一复合基准测试中,DBRX Instruct以74.5%的得分荣登榜首,显著领先于第二名Mixtral Instruct的72.7%。
同时,在Databricks Model Gauntlet这一包含超过30项任务、横跨六个领域的评估套件中,DBRX Instruct同样以66.8%的得分拔得头筹,较第二名Mixtral Instruct的60.7%有着明显优势。
②DBRX Instruct在编程和数学相关任务上展现出了尤为突出的能力。
在HumanEval这一评估代码质量的任务中,其正确率达到了70.1%,比Grok-1高出约7个百分点,比Mixtral Instruct高出约8个百分点,并超越了所有被评估的LLaMA2-70B变体。
在GSM8k数学问题解决测试中,DBRX Instruct同样取得了最优成绩66.9%,超过了Grok-1、Mixtral Instruct以及其他LLaMA2-70B变体。
值得注意的是,尽管Grok-1的参数数量是DBRX Instruct的2.4倍,但在上述编程和数学任务上,DBRX Instruct仍能保持领先地位。
甚至在针对编程任务专门设计的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表现依然出色。
③DBRX Instruct在多语言理解能力方面也表现出色。
在大规模多任务语言理解数据集(MMLU)上,DBRX Instruct继续展示出顶级性能,得分高达73.7%,超过了本次比较的所有其他模型。
综上所述,DBRX的“微调版”Instruct在多个基准测试中均表现出色,尤其在编程、数学和多语言理解方面展现出了卓越的能力。
Databricks再次搅局,力争市场破局
Databricks,源于加州大学伯克利分校的AMPLab项目,专注于研发基于Scala的开源分布式计算框架Apache Spark,并首创了“湖仓一体”(data Lakehouse)的概念。
2023年3月,该公司紧跟ChatGPT热潮,推出了开源语言模型dolly,并在后续2.0版本中提出了“首个真正开放和商业可行的指令调优LLM(大模型)”的口号,这标志着Databricks的“第二次行业革新”。
值得一提的是,Jonathan Frankle,曾是生成式AI初创公司MosaicML的首席科学家。
而Databricks在2023年6月以14亿美元成功收购了MosaicML,这一举措促使Frankle辞去了哈佛大学教授的职务,全身心投入到DBRX的研发中。
就在前些日子,马斯克宣布了史上最大的开源模型Grok-1的诞生,这一事件无疑引起了业界的广泛关注。
Databricks之所以能在竞争中脱颖而出,其关键在于公司的技术整合能力和专有数据。
这两项核心优势将继续推动新的、更优秀的模型变体的诞生。
DBRX团队拥有16名专家,并从中选择了4名进行模型开发,而Mixtral和Grok-1团队各有8名专家,选择了2名。
这种选择为DBRX提供了超过65倍的专家组合可能性,从而显著提高了模型质量。
DBRX在模型开发中采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术,并使用了tiktoken存储库中提供的GPT-4令牌化器(tokenizer)。
这些决策都是团队经过深入评估和缩放实验后作出的明智选择。
透露下一步有关开源模型的计划
①即将推出RAG工具,这一模式对于其发展具有重大意义。同时,Databricks中已经内置了简洁高效的RAG方法。
接下来,将致力于将DBRX模型打造成为RAG的最佳生成器模型,为用户提供更为强大的支持。
②DBRX模型将在所有主流云环境产品,包括AWS、谷歌云(GCP)和Azure等平台上进行托管。
作为一款开源模型,鼓励用户根据自身需求自由地使用它,以推动业务的发展和创新。
③DBRX模型预计将通过Nvidia API Catalog进行提供,并在Nvidia NIM推理微服务上获得支持。
这将为用户带来更加稳定和高效的推理体验,进一步推动业务的增长和拓展。
让大模型厂商看到了变现的路径
Databricks专注于协助企业构建、训练和扩展符合其特定需求的模型,此举具有深远意义。
这支独角兽团队高度重视企业的采纳情况,因为这直接关系到他们的商业模式。
作为LLM发布计划的一部分,Databricks以开放许可证的形式推出了两个模型:DBRX Base和DBRX Instruct。
DBRX Base是一个预训练的基础模型,而DBRX Instruct则是针对少量交互的微调版本。
值得一提的是,DBRX得到了Azure数据库在AWS、Google Cloud和Microsoft Azure上的支持,这意味着企业可以轻松地下载模型并在任何他们选择的图形处理器(GPU)上运行。
此外,企业还可以选择订阅DBRX和其他工具,如检索增强生成(RAG),通过Databricks的Mosaic AI Model服务产品定制LLM。
Mosaic AI Model服务通过Foundation Model APIs与DBRX相连,使企业能够从服务端点访问和查询LLMs。这一功能为企业提供了更强大的定制能力和灵活性。
Foundation Model APIs提供两种定价模式:按Tokens付费和分配的吞吐量。
按Tokens付费的定价是基于并发请求,而吞吐量则是按每小时每个GPU实例计费。
两种费率,包括云实例成本,均从每个Databricks单位$0.070开始。
同时,Databricks还为不同的GPU配置提供了相应的定价区间,以满足企业在不同场景下的计算需求。
通过稳健的商业模式和开源大模型的结合,这也为企业提供了进入AIGC领域的门票。
通过使用我们的平台,企业不仅可以降低使用自身企业数据开发生成性AI用例的成本,而且不会受到封闭模型提供商(如OpenAI)对商业用途的限制。
结尾:
随着2024年AI大模型的迅猛进步,创新与突破呈现出指数级增长。
例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相继发布并开放使用。
随着LLM社区的逐渐成熟,我们有理由相信,在不久的将来,每个企业都将有能力在新兴的生成式AI领域构建专有的私有LLM模型,并充分发掘和利用企业私有数据的价值。
部分资料参考:机器之心:《开源大模型王座再易主,1320亿参数DBRX上线》,新智元:《全球最强开源模型一夜易主,1320亿参数推理飙升2倍》,CSDN:《Databricks 开源 1320 亿参数大模型强势搅局,Grok 和 LLaMA 悉数落败》,编程奇点:《马斯克刚开源10天的Grok遭吊打,1320亿参数DBRX上线》,开源AI项目落地:《DBRX:全球最强开源大模型易主》
原文标题 : AI芯天下丨热点丨DBRX达1320亿参数,最强开源模型易主