小白读懂DeepSeek:从MoE到MLA,国产AI改变世界

雷科技
关注

DeepSeek的创新就在于让每个人都能用上好的AI。

微信图片_20250311163751.png

此前,不少读者都在后台讨论,DeepSeek虽然牛逼,但是在其之上还有ChatGPT等更强的AI模型,难道仅凭开源就能够引起如此广泛的关注?再说回来,DeepSeek能够被AI从业者反复琢磨和研究,到底是有哪些过人之处?

微信截图_20250208222220.png

图源:DeepSeek

对于这个问题,其实有不少专业文章都做过解释,不过大家未必会想去看万字长文,也对枯燥的学术概念没啥兴趣。所以小雷这次打算用通俗易懂的方式,向大家解释一下DeepSeek在AI模型的训练和设计中,到底有哪些让人眼前一亮的创新。

凭“MoE+MLA+MTP”成为效率狂魔 

自打DeepSeek-V2发布以来,这个AI模型就以高效而闻名,大家对此估计也都有所耳闻,甚至一度被网友称为“三低一高”:低推理成本、低参数量、低硬件要求、高推理性能。

不少网友都认为DeepSeek之所以比ChatGPT等AI模型更高效,是因为使用了稀疏结构。这个结论并没有错,只是稀疏架构并非DeepSeek独创,是泛指在运行过程中会选择性激活一部分网络单元,而非激活全网络单元的AI模型,其最早在深度学习的神经网络应用中被提出,并成为AI领域的主流结构之一。

稀疏结构的优势是可以用更少的算力资源来运行和训练更大参数量的模型,并且在实际的推理过程中拥有更高的效率,不过也因此会导致其出现其他缺陷,这个我们在接下来再详细说明。

而ChatGPT等AI模型则是采用的稠密结构,也就是为每一个数据块都进行单独标记,并且每一个数据块都与前一层所有数据块相连,形成密集的数据矩阵。当你在进行推理/训练时,本质上会读取整个模型的所有参数,借助庞大的参数量可以进行更复杂的计算和更准确的回答,缺点则是当参数量过大时,效率会愈发低下。

从AI大模型的角度来说,其实并不存在最好的选择,稀疏和稠密都有各自的优缺点,目前主流的AI企业基本对两种结构都有所研究,只是根据各自模型的特性和应用范围,会选择不同的结构。

以ChatGPT这种全通用型的AI模型为例,为了覆盖尽可能多的领域,其用的就是稠密架构,但是也让ChatGPT-5一直难产,即使以OpenAI的庞大算力矩阵也难以解决庞大参数量所导致的超高算力消耗和效率下降问题。

而DeepSeek-R1也有着671B参数量,但是因为采用稀疏架构,实际上每次只激活其中32B的参数,加上DeepSeek的思维链优化等技术,就可以实现近似于ChatGPT-4o和o1的推理能力。 

DeepSeek如何做到这点的?接下来让我们隆重介绍一下DeepSeek-R1的核心——MoE+MLA+MTP

首先,DeepSeek创新性地应用MoE架构提高训练效率。

首先需要明确的是,MoE并非DeepSeek首创,其最早在20世纪90年代就已经被提出,随后在机器学习领域的专家Jordan和Jacobs的完善下,在1994年进一步发展成“分层混合专家”模型的概念。

v2-77378a16ac6e82af73d4719d8244d85c_1440w.png

图源:Hugging Face

 

随后,2017年时由谷歌的研究团队首先将其用在了深度学习领域,提出一个具有1370亿参数的稀疏MoE模型,并且展示了在MoE架构下进行高效推理的可能。MoE架构到底是什么?简单来说,就是将一个巨大的AI模型切割成多个子模型,相当于将一个全科天才拆分成语文、数学、化学、生物等不同学科的专家(实际划分并非如此,而是更复杂)。 

在MoE架构下,当你提出一个问题时,AI会首先判断这个问题涉及哪些专家,然后跳过那些不相关的专家,把对应领域的专家喊过来讨论你的问题,然后得出结果。而传统的Dense架构则是全科天才需要处理所有问题,虽然能力强大,但是当问题变多时就会显得效率十分低下,而且其消耗的资源也远超“普通专家”。 

听起来,MoE架构似乎更合理,那么为何国外主流AI模型没有使用呢?实际上并非如此,ChatGPT-4等模型都有使用MoE架构的部分特性强化效率,只不过最终还是选择以Dense(密集)架构为主。而没有将MoE作为主架构的原因主要是这个架构存在训练不稳定、通信成本高、模型复杂度高、微调困难等问题,说白了就是你得对模型进行精雕细琢,无法通过单纯的堆高算力和加大参数量来得到显著提升。

0_Dfl9g1Y-je6-MNrc.jpg

图源:DeepSeek

 

只能说“穷人家”的孩子早当家,DeepSeek在没有庞大算力支持的情况下,只能转而对模型进行深度优化,放弃了DeepSeek-V1的Dense路线,转向在同等算力下有着更高效率的MoE,并且针对MoE的各种问题开发了一系列的解决措施。比如设计了一种创新的无辅助损失负载均衡策略,通过预先设置的负载均衡逻辑来动态调整负载,抛弃传统的额外的损失函数方案。 

简单来说,传统方法是经理总揽全局,如果看到哪个产线过度繁忙,就会通知那个产线的工人你们要被罚款了,不想扣钱就把工作让给隔壁没活干的产线。因为需要经理不停发出指令调整分配,所以实质上增加了管理复杂度,并且难以应付大量的数据请求。 

而DeepSeek则是选择给每个产线都增加一个智能控制器,当控制器检测到产线负载逐渐增加时就会自动调低自己的优先级,让系统将任务分配给优先级更高的其余空余产线。从而实现在无人管理的情况下,多数产线都可以得到均衡的负载,确保训练和推理的效率一直保持在高位。

3fdf1382-38dc-45fc-a741-b62babfd99c5_2258x1268.jpg

图源:DeepSeek

其次,DeepSeek用MLA创造性地提高推理效率。

 解决了训练效率等问题,DeepSeek很快将注意力放到了进一步解决推理效率的问题上,然后在某位研究员的“灵光一闪”下开发出了MLA——多头潜在注意力机制。从技术角度来说,就是通过将注意力头的键和值进行线性变换,将他们压缩到一个共享的低维潜在向量空间,接下来推理时只需要拿着压缩后的缩略图倒腾即可,在得到结论后再把对应的压缩包解压,计算其中的键和值并输出最终答案。 

让我们用一个更简单的比喻,你可以把传统多头注意力机制看作一个老图书馆,每本书都拥有对应的详细索引卡,此时进来一个人要借书,然后AI开始翻动索引卡,尝试从浩如烟海的图书中找到对方要的书,虽然AI的查找速度奇快,但是这样做的效率肯定不会高。 

而DeepSeek的MLA就是在编好索引卡后对书籍又按照类别进行归档,为每个类型的书籍建立一个上级索引,然后又建立了一个智能化的检索机制。当借书人在输入书名后,系统会自动判断所属类型,然后直接锁定大致区间,接下来只需要检索这一片书架就能把书找出来,直接节省了大量的无效检索时间。

v2-2b9f958121be3f73616db6dd8df2744a_1440w.png

图源:Hugging Face

最后,DeepSeek引入MTP机制提高预测能力。

解决了训练和推理等问题,DeepSeek就很自然地开始对预测机制下手,预测机制涉及AI的训练效率、推理速度和回答质量等各个方面,可以说是AI模型的核心机制之一。传统的AI在预测时都是“循规蹈矩”,就像解一道数学题一样,做完一段推理后再进入下一阶段。 

而DeepSeek则是引入了MTP机制(多令牌预测),简单来说就是让你多了好几只手,然后把数学题的解题过程一分为五,五只手同时验算,最后再进行组合生成答案。正是通过这种方式,DeepSeek极大地提高了模型的训练效率,同时也使其推理效率得到显著提升。

1_Iq7aEqYYdLgwcRPBZ1wfaA.png

图源:DeepSeek

 

而且,MTP机制下生成出来的文字内容会更加流畅和自然,因为MTP机制就等于将“走一步看一步”的写作方式,变成了“先拟大纲再填充字词”。DeepSeek先想好要写什么,然后再通过MTP生成一系列字词,选择其中相关性更强的部分组合,这也是为什么大家在看DeepSeek生成的文字内容时,会感觉更有“人”味,因为这就是人类的写作方法。 

从DeepSeek-V2引入MoE并完善MLA,再到DeepSeek-V3加入MTP,最终才有了DeepSeek-R1的诞生基础。

 如何让AI学会“自主学习”? 

DeepSeek-R1也就是我们现在常说的“满血版”DeepSeek,是在V3的基础上经过“强化学习”进化而来的。什么是强化学习?

要回答这个问题,首先我们来了解下传统AI的训练模式——监督学习。 

监督学习就是把AI当成一个“笨”学生,他只能理解你明确标注出来的知识点。比如他看到一个“白鸭子”,即使他此前已经记住了“黑鸭子”,但是在你把“白鸭子”的名字标注出来,并将其与“黑鸭子”归为一类之前,AI都不知道摆在自己面前的“白色奇怪物体”是什么。

当你标注的数据足够多后,AI才能在后续的推理过程中,根据现有的数据特点来自主判断面前的“红鸭子”是一只“鸭子”。这种模式下,需要通过AI的交叉标注和人工手动微调来引导AI一点点累积知识,在AI大模型发展的初期倒也还好,但是随着AI模型的参数量突破千亿、万亿,标注效率下降的同时成本会大幅度上升,只能通过不断堆高算力来“大力出奇迹”。

0_R31A71UjHM8R8Pps.png

图源:Medium

 

所以,对于DeepSeek这样算力有限的公司来说,监督学习是个一眼就能看到尽头的死路,想进一步强化AI就只能走出一条新的路,于是他们想到了机器学习领域的强化学习概念,决定让AI自己教自己学习,又称“左脚踩右脚上天”法。 

DeepSeek抛弃了复杂的标注和奖惩机制,选择了更简单的方案:给出问题,提供正确答案,然后让AI自主推理。在完成前期的数据标注后,不再干涉推理过程,让AI自行比对结果与标准答案的区别,将低于一定得分的结果直接废弃,并在更接近标准答案的结果上进行新一轮推理,重复多次直到最终得出正确答案为止。 

然后DeepSeek的研究人员就发现,随着AI的训练步数增加,AI的思维链也越来越长,并且开始出现自我反思的能力,AI会为了更快地接近正确答案而回头检索出错的推理过程,然后将其标记避免自己再犯同样的错误。 

DeepSeek第一个完全由强化学习方式训练的AI被命名为DeepSeek-R1-Zero,在这个模型的相关论文中,DeepSeek的研究人员甚至提到R1-Zero在强化学习过程中会出现奇怪的举动。当他在计算某个问题,并且开始接近正确答案时,会突然出现与推理过程相关性不大的感慨“Wait, wait, Wait. That's an aha moment I can flag here.(论文原话)”,翻译过来就是:等等,等等,等等。这是一个我可以标记的‘啊哈’时刻。

1738498147.png

图源:DeepSeek

 

看起来就像你在冥思苦想一个数学难题,突然灵光一闪后情不自禁发出的感慨,因此DeepSeek也将这种现象称为“aha moment”,也就是“顿悟”。 

DeepSeek-R1-Zero直接证明了一个结论,那就是只要基础模型足够强大,那么就可以让这个模型在强化学习的过程中,自我进化出一个更强大的模型。理论上,未来的AI模型可以直接脱离人类的帮助,在不停地自问自答中进化到更高的智能水平。 

当然现阶段还是不行的,AI仍然需要人类进行事先的标注,确认条件、对比结果等数据,然后才能进入自主强化学习阶段,但是从目前各个AI大厂的进度来看,我们距离AI完全自主学习的阶段可能并不遥远。

DeepSeek的强化学习理念可以说彻底颠覆了主流AI训练的理念,在狂堆算力和参数的“暴力模式”之外,指出了一条更适合多数人的新捷径。当然,之前并非没有其他人尝试过强化学习,但是他们都没有一个足够高效且出色的基础模型,而且也没能解决强化学习中遇到的一系列问题,所以最终只有DeepSeek成功并打造出了DeepSeek-R1。 

不过随着DeepSeek-R1及相关训练技术的开源,不少AI大厂都已经在尝试引入相关机制来训练模型,并在他们原有的强化学习架构上根据DeepSeek的经验进行优化,或许我们很快就会迎来一次新的AI性能暴涨。

NSA:全新注意力机制,下一代「核弹」?

DeepSeek在2月18号还公布的一篇新论文,这篇由DeepSeek创始人之一梁文锋亲自挂名的论文,短短两小时就获得了三十万浏览量(截止到19号晚,阅读量已接近200万)。

在这篇论文中,DeepSeek提出了一种新的注意力机制——NSA,这是一个可以用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且具有硬件对齐特性,从论文的描述来看,可以将64K长文本的训练速度提升9倍,推理速度提升11.6倍。

微信截图_20250227024625.png

图源:DeepSeek

这是什么概念呢?简单的说,如果之前训练一段64k长度的文本需要100秒,那么现在只需要11秒,推理相同长度的文本内容,从100秒直接降低到10秒以内。不仅如此,使用NSA训练的AI在64k文本里的命中准确率从传统的35%提升到100%,并且保持效率优化不变。

而且不止是强化文本推理,在数学推理等方面,NSA也让AI的准确率得到显著提升,在省下90%算力的情况下还能提升推理正确率,我们一般用两个字来形容:逆天。

基于NSA注意力机制,AI模型可以用原本十分之一的算力来处理64k文本,也可以中同样算力的情况下,将可处理文本扩大十倍,理论上基于新的机制可以处理最高640k的超长文本,远超现有的已公开AI模型上限。

看起来或许只是效率提升,实际上对整个AI的理解和推理效果都将带来质的提升。比如说让AI看一本书,如果字数是30万字的长篇小说,那么传统模式下的AI受64k文本限制,一次只能记住约五分之一的内容,需要在读完五分之一后先建立一个记忆存档,然后开始读取下一部分。

当你询问AI刚刚他读的某一段内容的看法时,他需要先检索出对应的记忆模块,再通过此前生成的对应摘要来定位内容位置,接着再重新阅读上下文并进行推理。但是受限于64k的检索范围,实际上AI只能根据内容所在的前后共64k的内容来进行推论,在算力不足或受限的情况下,你会发现AI经常答了后面忘了前面,记忆力似乎还不如你。

这也是为什么现在的AI在长篇小说创作、解读等方面的表现不如人意,根本原因就是AI记不住这么长的文字内容,不仅受限于算法,也受限于算力。而DeepSeek则打算彻底改变这个现状,打造一套“基于块(blockwise)进行选择”,并采用了压缩、筛选、滑动窗口三种注意力机制并行优化计算效率的系统。

DeepSeek的NSA注意力机制就是将长文本切割成512字的数据块,然后再对数据块进行简略标记,接着再通过编写动态筛选机制,让AI自主决定需要检索哪些数据块,并通过持续的训练来进一步优化筛选机制。

在筛选出“有用”的数据块后,AI再对数据块进行全面检索,也就是进入传统AI的遍历模式,以此来提升推理准确率,同时还会启动上下文检索机制,快速查找是否还存在其他相关信息,避免AI根据筛选的内容“断章取义”,给出错误的回答。

DeepSeek的这个技术以一种巧妙的方式,轻松实现了过去难以解决的长文本推理和创作问题,让AI可以直接阅读数十万字的巨作,并且记住其中绝大多数的细节。换言之,即使你突然丢给AI一本自己写的超长小说,他也可以在短时间内阅读并记住,然后与你讨论整部小说的设定和细节,彼时或许才是多数小说作家的“革命之时”。

NSA的提出意味着AI模型在处理超长文本、复杂推理任务时迈向了新的阶段,为未来的大模型发展提供了重要的技术方向,也让人好奇DeepSeek到底打算把开源做到怎样的地步?

DeepSeek开源:授人以渔,改变世界

DeepSeek采取开源架构,在前不久的“开源周”上,它大方地开放了多个技术/工具/架构,每一个都将对AI大模型产业产生深远影响。

1、FlashMLA:给AI开个“外挂”。

微信截图_20250226185512.png

图源:雷科技

FlashMLA,官方的解释是一款面向Hopper GPU的高效MLA解码内核,并针对可变长度序列的服务场景进行了优化。

用更通俗的说法来解释,就是一个针对H系列计算卡的超频“外挂”,为什么叫外挂而非工具?因为FlashMLA的效果实在是太炸裂了。根据DeepSeek给出的参数,经过FlashMLA优化的H800计算卡,在计算受限的情况下仍然能拥有高达580TFLOPS的算力,内存带宽达到3000GB/s。

这是什么概念?这么说吧,H800是由H100阉割而来的性能残缺版,但是在优化后算力已经超越了H100的默认算力(495TFLOPS),并且内存带宽接近显存的理论上限值,对比默认状态下带宽提升约50%的性能,接近H100经过专属优化后的巅峰性能。

换句话说,DeepSeek硬生生将H800优化成了超频版的H100,突破了算力的限制。不仅如此,针对长序列推理时出现的显存碎片问题,FlashMLA通过将分页KV缓存切割为64-block粒度的技术,将显存利用率大幅度提高,并显著降低实际推理过程中无效算力的占比,并让长序列推理的端到端时延降低40%,直接提升了实时对话和长文本生成等实用场景下的体验。

FlashMLA开源后,一些开发者直接将DeepSeek称为“源神”(开源之神),因为这相当于把DeepSeek-R1最核心的效率工具之一免费贡献给整个AI行业。不管是直接部署使用还是在此基础上进行更多硬件的适配和优化,都可以显著提升模型的算力效率并降低推理成本,用“榨干GPU的每一丝潜力”来形容都不为过。

2、DeepEP:MoE模型的通信革命。

微信截图_20250226185427.png

图源:雷科技

从官方描述来看,DeepEP是一款针对MoE模型训练和推理所设计的EP(专家并行)通信库,旨在解决这类模型在常规通信机制下的高延迟、低数据传输速率等问题。

我们前面说到过MoE是由一个个“专家”组成的数据矩阵,而且这些专家还位于不同的GPU内核,为了可以携手解决问题,自然需要进行交流和通讯,分享自己掌握的数据。如果说传统的通信机制类似于发电报,那么DeepEP就等于装上了语音电话,不仅让两个专家可以即时交流,还能边交流边思考。

官方发布的基准测试里,经过优化后的带宽通信利用率高达92%,是英伟达官方解决方案的3倍,而通信时延也从毫秒级降到了微秒级,同时支持FP8低精度运算。可以说,这就是DeepSeek为了强化MoE模型的训练和推理,而专门定制的一套方案。

但是这玩意的离谱之处就在于,DeepEP实际上可以适配H系列的各种GPU内核,并且提供了一键部署方案,只是还需要大家在此基础上做进一步适配优化来达到最佳效果。这项技术的开源,可以说直接给MoE模型的训练提供了一个很好的优化思路,并且已经在实际使用中得到了充分验证。

3、DeepGEMM:压箱底的“宝贝”。

微信截图_20250226185406.png

图源:雷科技

DeepGEMM是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组的 GEMM。以上是官方解释,一般读者可能看不懂,不过没关系,因为大多数人都是一样的,咳咳。

简单的讲,这就是一个教你如何在FP8精度下训练AI大模型,同时还保证AI大模型的训练不会出问题的玩意。什么是“精度”?直观解释就是数据的准确性,举个例子,“小明的身高是1米7”这就是FP8,“小明的身高是1米72”这就是FP16,精度越高所含的数据就越精准,在AI大模型训练中就可以得出更准确的结果。

但是高精度也会带来问题,那就是数据包本身会占用更大的算力资源,FP16的内存占用几乎是FP8的两倍,而且还会因此影响到传输速度等各方面的效率。所以实际训练中FP16的效率是远不如FP8的,只不过FP8一直也存在严重各种问题,以至于在公开范围内,还没有哪个AI大模型是以FP8精度完成训练的。

而DeepSeek此前公布训练成本时,其实就已经指出高效的背后与FP8精度训练脱不开关系,其中的关键就是DeepGEMM。该代码库用一种双重验证+智能纠错的方式,让FP8在实际训练中也能够拥有媲美高精度训练的准确率,并且解决了溢出等各种问题。

当然DeepGEMM的作用不止于此,不过这是最核心的应用之一(更详细的解读大家可以去看看知乎大佬们的解答)。你可以认为DeepSeek这波就是把真正的压箱底玩意拿出来分享了,大家可以根据DeepGEMM的思路,将AI大模型的训练成本大幅度降低,并且提高整个AI大模型的运行效率。

DeepGEMM的整个执行代码只有约300行,堪称极致的精简和效率,以至于有外国网民评价:这是一份可以直接入选教科书的代码,让我重新领略到了代码的美。

DeepSeek启示录:与其重复造轮子,不如推广「好用的轮子」

不得不说,DeepSeek真的是将开源精神贯彻到极致。从DeepSeek-R1及相关算法的完全开源,到开源周的压箱底技术大放送,几乎都采用MIT或类MIT的开源协议,所有人都可以自由地使用、复制、修改、合并、发布、分发、再许可及销售软件及软件的副本,不受任何制约,而且不强制要求使用开源库的项目进行开源。

从商业公司的角度来看DeepSeek的做法简直匪夷所思,因为DeepSeek本可以借助这些技术优势来获取更大的利润,但是却选择了完全开源,以此换取整个AI行业的跃升。这个形容并不夸张,毕竟从DeepSeek开源的一系列技术来看,AI模型的推理成本有望在今年降低50%甚至更多,而且在实时交互等方面都将有显著的体验提升。

而且,DeepSeek的开源做法也使得更多的AI企业开始考虑加入开源阵营,从根本上促进了整个AI行业的交流与学习,让AI企业从“重复造轮子”的闭源困境中解脱,从这个角度来看,称DeepSeek的开源为AI发展史上的重要节点也毫不为过。

虽然DeepSeek的大多创新都是在已有的概念上,进行极致「工业化」的成果。但是就像英国铁匠托马斯制造了第一台真正实用的蒸汽机,但是却只能用来抽矿井积水,而詹姆斯·瓦特则将其变得更具效率且更通用,最终为工业革命彻底奠定了基础。

DeepSeek的开源就像把自己的「通用技术」拿了出来,让大家都能用上了「通用蒸汽机」,在DeepSeek的影响下,AI的普及将比预料的更快。对于普通人来说,DeepSeek的最大意义在于让我们不用再忍受低质量的AI模型困扰。而对于AI行业来说,他的意义在于从根本上改变了整个行业的动向,让开源变得更受重视,让强化学习机制的潜力得到进一步认可。 

最后,文章开头的问题答案其实很简单,DeepSeek的创新总结起来无非就三点:更高效、更自主(指AI训练)和更开放。

 来源:雷科技

       原文标题 : 小白读懂DeepSeek:从MoE到MLA,国产AI改变世界

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存