在数据暴增的时代背景下,企业开启了“数据抢滩战”。当世界的一切都将以数据为中心,铁打的算力和功耗就是在这场争夺战之中的一把好武器。
通用处理器虽说“什么都能算”,但在人工智能和深度学习等算法逐渐复杂化,可组合性的异构计算正成为主流。得益于FPGA的低时延、高性能、灵活性和极佳的总拥有成本,FPGA成为数据时代不可或缺的一名大将。
英特尔曾在2019年发布介绍其新旗舰产品Agilex FPGA,不同于以往,该系列产品将作为英特尔的全新品牌,而非Stratix的延续。
近期,Agilex FPGA已于2021年1月进行大规模量产出货,在今年4月份,作为Ice Lake发布的一部分,相关细节也被逐一披露,其业界领先的能效和性能势必能够掀起新的浪潮。
性能远超赛灵思Versal
Agilex FPGA是自英特尔收购Altera后推出的第一个全新高端FPGA系列,作为英特尔的“亲儿子”,利用所有最好的技术堆料是必然的。从Agile(敏捷)+Flexible(灵活)的命名中,也不难看出这款产品将巅峰性地释放FPGA器件自身独特的敏捷性和灵活性。
这款性能到底有多强?实际上,Agilex FPGA的表现都已超出了英特尔自己的预估。英特尔数据平台事业部副总裁可编程解决方案事业部(PSG)产品营销和Enpirion电源产品事业部总经理Deepali Trehan为记者介绍,此前英特尔对于这款产品的预期是比上一代14nm的Stratix 10高出40%的数据中心、网络和边缘应用的性能,但最新的数据显示这款产品相比上一代高出了45%的性能。
除了和自己产品对比,这款产品也与7nm的赛灵思Versal进行了对比。根据英特尔的测试,Agilex FPGA比赛灵思Versal的逻辑结构性能功耗比高约2倍,换言之在每瓦性能上Agilex FPGA远远甩开了友商。Agilex FPGA也代表着全行业最佳的收发速率,达到了每秒116Gbps。我们现在的测试芯片还可以达到每秒 224Gbps。
而在算力方面,Agilex FPGA相比赛灵思Versal有超过50%的视频IP性能提升。(英特尔® Agilex™FPGA Fmax/Versal Fmax 的几何平均值= 1.5)
不止如此,Agilex还通过应用5个由Omnitek所开发的视频IP块与赛灵思Versal“同台竞技”。
Omnitek是一家主打视频加速与推理的初创企业,被英特尔所收购。Omnitek团队基于Agilex FPGA的架构,仅仅改变了内存和DSP实例。通过与赛灵思Versal同台对比同样的视频IP,更能凸显Agilex FPGA的实力,而这5个视频IP块性能上Agilex FPGA均更胜一筹:
Warp图像转换器快32%;
OSVP 1X 可扩展视频处理器快48%;
OSVP 8X 可扩展视频处理器快33%;
MPVDMA 多端口视频直接内存访问快71%;
Combiner 视频流合并快73%。
“堆料狂魔”英特尔
“所有人都认同,随着数据中心迅速发展,需要提升性能来对抗显著增多的数据,但性能的提升并不意味着功耗的下降”,Deepali强调,数据中心客户非常看重性能功耗比这一指标,越高的每瓦性能意味着能有更好的计算力和更少的能源消耗。
嵌入式、云计算、边缘计算、5G正在驱动数据激增,但与此同时也可预见的是能耗不断地增加,同时导致总拥有成本(TCO)的巨大攀升。这是缺乏可持续性的,也会对环境产生巨大影响。
“FPGA是一种非常好的能够提升能源效率的架构,其应用跨越整个数据中心”,Deepali表示,FPGA最大的价值在于灵活性,灵活的加速特性使其可服务于云、网、边缘的各种应用之中。
Agilex是专门为以数据为中心的世界设计的,目的是在数据的处理、存储以及移动过程当中提供行业的领导力。
实际上,Agilex FPGA之所以能取得超过预期的性能和性能功耗比的背后是英特尔的疯狂“堆料”,几乎从头到尾都是全新设计和优化的。
第一,在设计上,Agilex FPGA是第一款端到端在英特尔全方位开发的FPGA,包括概念到设计、实施、验证、生产制造全过程。
产品采用了能够完美媲美制程节点转换的技术10nm SuperFin技术;搭载第二代Hyperflex架构,该架构基于原14nm架构重新设计,并在资源布置上也进行了优化,从而降低功耗和提高性能;重构的互连和平面布局可以减少负载并提高可预测性。以上这些最终都反映在性能和功耗的优化上。
第二,在收发器设计上,采取了基于Chiplet的异构设计,因此可以针对具体应用需求,适用于任何代工厂、制程节点以及任何IP 开发商。Chiplet赋予了产品高度的自由,使得英特尔可以根据应用需求具体开发行业领先的功能,比如:可以实现每秒116Gbps收发器速率、CXL、PCIe Gen5等,包括最高可以支持224Gbps收发器速率的产品也在研究当中。
第三,在软件上,英特尔对Quartus Prime软件进行了极大的优化提升,和AGILEX同步开发。英特尔开发了多个编译流程来符合客户不同的开发需求,比如设计之初,一些客户需要非常密集的编译流程,以便提升生产效率,还有一些客户需要快速的故障排除,这些都通过多编译流程的设计来实现。通过这样的方式为客户提供了多种选择,以满足提升运行时间以及快速故障排除方面的需求。
通过这些在软件方面所付出的努力,将编译时间下降了45%,同时又进行多达135种的Design Assistant规则,以便在规则方面实现好的控制。通过这些努力可以实现快速的编译以及减少在FPGA方面的迭代的需求。所有这一切,有助于客户提升他们的生产率。
英特尔的灵活优势远不止此
如此颇具优势的产品,针对的将会是视频与视觉的边缘计算、5G网络、数据中心三大数据激增的领域。Deepali为记者介绍,基于英特尔Agilex FPGA的解决方案具有巨大优势,这是因为它完全满足硬件的灵活性以及对于硬件可扩展性的要求。
“其实跨越这三个领域,Agilex FPGA有一个非常大的共同优势,那就是极低的功耗。除了极低的功耗可以降低TCO之外,还有很多其他的方式降低客户降低TCO。比如5G应用方面,它为运营商提供了硬件升级方面的多种选项,使其能够优化成本,同时在数据中心领域可以去为它提升和不断变化的工作负载来进行适配”,Deepali这样为记者介绍。
根据之前英特尔的介绍,Agilex Fpga包含F、I、M三个系列,在配置和性能依次提升。具体来说,F系列适用于广泛应用,I系列适用于高性能处理器接口和带宽密集型应用,M适用于计算密集型应用,主要是提供面向英特尔至强处理器的一致性连接、HBM 集成、增强型 DDR5 控制器和英特尔傲腾DC 持久内存支持。这种划分之下,客户拥有更多更灵活的选择。
针对于这三个不同系列,Deepali表示,现在Agilex F系列已在量产当中;I系列在实验室当中,且实验结果非常好,预计将会在本季度向客户发货;M系列还在开发当中,目前并没有公布量产时间。
除了在型号上拥有灵活的选择性,众所周知英特尔目前在开发Xe独立显卡,而Xe的目标市场和Agilex FPGA也有一定的重合性。对此,Deepali为记者解释,“英特尔是全行业当中唯一一家可以全方位覆盖所有的加速器架构的半导体公司,包括CPU、FPGA、GPU、Movidius和Habana。我们的全方位架构可以为客户提供最广泛的选择,使他们可以得到最适合他们用例的加速器,所以这完全是基于应用的。有些应用可能更适合CPU+GPU,有些应用可能更适合CPU+FPGA,而在对系统灵活性需求非常高时FPGA会拥有最大的价值。”
因此英特尔的方案将是全方位覆盖的,而这一切都将在英特尔的一体化平台oneAPI上可以统一进行开发,使得开发者可根据自己的应用选择CPU+GPU或CPU+FPGA,因为英特尔无法完全判断未来市场会向着哪些方面发展,所以会提供统一的软件流,由开发者自由选择,是GPU还是FPGA还是哪一种加速器最符合他的需要。
实际上,记者也注意到英特尔除了FPGA产品,还拥有eASIC和ASIC产品。此前英特尔为记者介绍,现阶段,FPGA和ASIC是“分工明确”的,可编程FPGA主要针对实施与加速要求最苛刻的算法阶段,直到算法已经非常成熟、并且最终确立下来之后,ASIC便可大面积实施在硬件之中。而eASIC又名为结构化ASIC,简言之eASIC就是FPGA和ASIC的中间体,属于更加偏向过渡态的产品,兼具灵活性和性能功耗。
因此,在如此强大的硬件加速器和一体化软件平台加持之下,英特尔的Agilex FPGA的优势更加凸显,在此加持之下用户的选择面更宽,灵活性更强。加上此前英特尔推出的第三代至强(Xeon)可扩展处理器,配合旗下傲腾SSD、傲腾持久内存等,能够释放Agilex FPGA的最佳性能。
回归Agilex FPGA本身,其强大的性能和功耗也势必能够彻底颠覆FPGA市场,这也是英特尔自身长期制程和封装、架构、内存和存储、互连、安全、软件六大技术积累的结晶。