超越H100！英特尔Gaudi 3 AI芯片要干翻英伟达？

市场总是充满变数。

英伟达如今在 AI 芯片市场的地位无可争议，直线上涨的数据中心收入和市值就是最好的佐证。但王权没有永恒，英伟达并非不可撼动。

在英伟达发布最新一代 BlackWell GPU 的三周后，4 月 9 日晚，英特尔在 Vision 2024 大会上发布了一系列关于芯片的大消息。

会上，英特尔发布了面向数据中心的第六代至强处理器，也提前展示了面向下一代 AI PC 的 Lunar Lake 处理器。不过纵观整场大会，英特尔花费最多篇幅也最重视的，可能还是最新一代的 AI 芯片：

英特尔 Gaudi 3。

Gaudi 3，图/英特尔

超越英伟达 H100：Gaudi 3 性能更强、成本更低

Gaudi 3 最直接的升级体现在性能和成本方面。

相比英伟达 H100，Gaudi 3 的人工智能推理性能平均提高 50%，能效平均提高 40%。基准测试中，Gaudi 3 可以在 Llama2-7B、Llama2-13B 模型中将训练时间缩短到英伟达 H100 的一半，同时推理吞吐量也比后者平均高出了 50%。

可以说，Gaudi 3 至少在 Llama2 等关键大模型中击败了基于英伟达 Hopper 架构的 H100 GPU，这也是目前市售产品中技术最先进的 AI 芯片。

而 Gaudi 3 还有另一个极其重要的升级——比 H100 低得多的成本，按照英特尔的原话是：

（Gaudi 3 的）成本仅为英伟达 H100 的一小部分。

也怪不得 Gaudi 3 刚刚发布，英特尔就宣布 Naver（韩国互联网巨头）、博世、IBM、Ola 等一大批公司成为英特尔 Gaudi 加速器的客户和合作伙伴。而最早在今年第二季度，英特尔就将向戴尔、惠普以及超微等 OEM 厂商率先供货，第三季度正式上市。

Naver 代表上台，图/英特尔

耐人寻味的是，英特尔往年在 Vision 大会上基本不会发布新的芯片，今年却一反常态发布了六代至强处理器和 Gaudi 3 AI 芯片两款重磅产品。

考虑到英特尔 CEO 帕特·基辛格（Pat Gesinger）去年底就炮轰过英伟达的 CUDA 生态「既浅又窄」，似乎除了软件生态上的对抗，英特尔也在加快硬件上的追赶。

不过，Gaudi 3 真的有机会挑战英伟达的 GPU 霸权吗？

要知道，相比英伟达两年前基于 Hopper GPU 架构的 H100，上个月基于 BlackWell GPU 架构发布的 B100 又进行了一轮大幅的升级，包括马斯克也不禁感慨，「目前没有什么比英伟达 GPU 更好的 AI 芯片了。」

NVIDIA Blackwell Hero.jpg

Blackwell GPU，图/英伟达

Gaudi 3 硬件追上英伟达了吗？

不同于 BlackWell 采用了最新的台积电 3nm 工艺，Gaudi 3 基于台积电 5nm 工艺打造，同时张量核心从 24 个升级到了 32 个。

相比上一代的 Gaudi 2，Gaudi 3 在 FP8 性能、BF16 性能、网络带宽、内存带宽都得到了全面的提升，其中 FP8 吞吐量更是高达 1835 TFLOPS：

基本翻了一番。

图/ 英特尔

比较奇怪的是，搭载 128GB 内存的 Gaudi 3 没有采用最新的 HBM3（高带宽内存），而是采用了稍微有点过时的 HBM2e。

除了更低的传输带宽，HBM2e 的单颗容量也只有 16GB，相比之下 HBM3 的传输带宽得到了大幅提升，单颗容量也能达到 24GB，甚至是 32GB。

此外，Gaudi 3 采用了英伟达 BlackWell 类似的双芯片设计，同时封装了两个相同的芯片，并通过高带宽链路进行连接。每个 Gaudi 3 芯片都具有 48MB 板载 SRAM，整个芯片提供 96MB SRAM，总带宽为 12.8TB/秒。

I/O 方面，英特尔并没有放弃以太网路线，在 Gaudi 3 上将以太网端口的速率从 100GB/s 升级到了 200GB/s，再考虑到双芯片的设计和每个芯片 24 个以太网端口，每一张 Gaudi 3 的以太网 I/O 总带宽高达 8.4TB/s。

总的来说，英特尔在 Gaudi 3 的升级上并不激进，甚至可以说有些保守，包括成本要低得多的 5nm 工艺和 HBM2e 内存，都说明了这一点。虽然相比上一代 Gaudi 2 已经有了明显的进步，在部分大模型上超越 H100，但显然很难与英伟达最新的 B100 相抗衡。

但英特尔的决策未必错了。

Gaudi 3，图/英特尔

一方面，考虑到英伟达在 AI 加速计算方面的技术和生态领先优势，英特尔就算不惜一切代价进行追赶，很可能也难以追平，同时高昂的芯片成本，还会导致英特尔直接错失正在快速增长的 AI 芯片市场。

另一方面，在成本优势明显的前提下，英特尔只要能做到超越英伟达 H100 的表现，自然能够吸引足够的客户进行采购。

更何况就连英伟达自己也预计，「下一代产品（B100）将出现供应紧张」。面对「想买不能买」的窘境，很多客户自然而然也会转向其他可替代的 AI 芯片。

这其中，就有属于 Gaudi 3 的机会。

硬件、软件生态齐头并进，英特尔能否扛起大旗？

「整个行业都希望能干掉 CUDA，包括 Google、OpenAI 等公司都在想方设法让人工智能训练更加开放。我们认为 CUDA 的护城河既浅又窄。」基辛格说。

在前不久雷科技的报道中，我们就解析了全球科技巨头组建 UXL 统一加速基金会对抗英伟达 CUDA 的动作。

UXL Foundation Image.jpg

图/ UXL

简单来说，巨头们基于英特尔 oneAPI 技术，正在开发一套开源软件平台来替代英伟达 CUDA 平台，允许人工智能开发者在任何 AI 芯片上运行他们的代码，也包括英伟达 GPU，核心是解除芯片硬件与软件开发平台之间的强绑定关系，打破英伟达 GPU 在开发生态上的霸权。

正如高通人工智能和机器学习主管 Vinesh Sukumar 所言：「我们实际上是在向开发者展示如何从英伟达平台迁移出来。」

软件的推倒、硬件的追赶，英特尔显然明白英伟达的成功既来源于软件，也来源于硬件，只有齐头并进才能真正追赶上英伟达的脚步，甚至干掉 CUDA，干掉英伟达的护城河。

但英特尔能不能扛起「打倒英伟达」的大旗，夺回数据中心市场的领先地位？关键可能取决于两点：

一是英特尔能不能在一众英伟达挑战者中脱颖而出，包括 AMD 以及一众全球 AI 芯片公司都不会错过英伟达 GPU「供不应求」的机会；

二是按照英特尔的路线图，在合并 GPU 和 AI 芯片两条产品线之后，代号「Falcon Shores」的下一代 GPU，能不能展现出超越英伟达最新一代 GPU 的潜力。

Intel ISC23 Press Deck.jpg

数据中心芯片路线图，图/英特尔

写在最后

过去一年多，AI 掀起了一场不言而喻的革命，但不管 AI 将如何改变我们的生活，芯片算力依然是底层的驱动力。

但英伟达生生占据了 AI 芯片市场的 80%，这显然并不寻常，不过人们最不满的关键其实还是：英伟达无法满足所有人。在这个前提下，不管是英特尔、AMD 还是国产 AI 芯片厂商，其实都还有机会。

换言之，英特尔 Gaudi 3 面对的还是一块「广阔天地」，自然「大有可为」。

来源：雷科技

原文标题 : 超越H100！英特尔Gaudi 3 AI芯片要干翻英伟达？

超越H100！英特尔Gaudi 3 AI芯片要干翻英伟达？

相关推荐