3D Xpoint将掀起人工智能领域一场革命?美光:我行

与非网 中字

3D XPoint之美

3D XPoint连接了NAND存储器(SSD存储器)和DRAM存储器(RAM)之间的鸿沟。正如SumitSadana所言:“3D XPoint是一种持久性存储器,速度不如DRAM快,但明显快于NAND,它与DRAM不同,没有电也能保存状态。”

在原始读写速度上,3D XPoint与常规NAND内存更接近,几乎相同。在广受欢迎的YouTube硬件评论频道Linus Tech Tips执行的测试中,使用了3D XPoint技术的英特尔Optane硬盘的读写速度大致为2GB/s,与三星最新的NAND SSD相同。 相比之下,RAMdisk(从DRAM模块创建的虚拟磁盘)的读取或写入速度可以超过8GB/s。然而,3D XPoint的表现更像DRAM,尤其是在延迟上。

延迟是衡量给定存储介质响应请求的速度的一个指标。同样是CPU请求一张猫的照片,NAND和3D XPoint都能够以大约2GB/s的速度向CPU提供该图片,但3D XPoint模块的延迟(在CPU时间尺度上)更低,即它会比NAND模块更早开始传输信息。3D XPoint的响应时间接近DRAM的响应时间。

我们可以从另外一个角度思考这之间的差异。假如您想要从存储器中读取60 GB的连续数据,那么,NAND和3D XPoint在原始速度方面的性能大致相当。 但是,如果您想从存储器中随机执行120,000个单独的读取请求,比如120,000张大小为500 KB的猫图片,那么,3D XPoint模块完成处理这120,000个请求的速度远快于NAND模块。

3D XPoint的另一个显着优势是其耐用性。现代NAND在失效之前可以写入数十万次至数百万次,但3D XPoint的耐久性与DRAM的耐久性相当,它的性能不会因为重复写入而降低。

3D XPoint实现

现在我们已经知道了机器学习是如何工作的,也了解了3D XPoint的性能特征。现在,让我们看看3D XPoint怎么被非常有效地使用,以加速甚至是革命性地改变机器学习。不过,首先让我们看看Sumit Sadana的一段讲话,他暗示了美光在3D XPoint上可能正在做的工作:

“在云公司内部,一个众所周知的事情是,处理器需要花费大量的时间等待数据。随着这些新兴处理器内核数量在过去几年内的大幅增加,相对来讲这些处理器的附属内存容量并没有增加太多,这就意味着每个内核可以使用的内存带宽容量是实际下降的。

这就是为什么使用3D XPoint扩展这些进程的可寻址内存空间如此重要的原因,因为它实际上可以给你带来更大的回报和更高的性能,而不再是只能升级处理器到下一代版本上或者使用更快速的处理器。未来的处理器将允许更多的内存连接到处理器上,这也将成为提高服务器平均能力的另一个驱动因素。”

上面这段话中的一个关键词汇是“可寻址内存”,它到底意味着什么?你看,CPU并不能直接寻址计算机中的所有内存。你可以直接寻址DRAM,但是不能直接寻址硬盘或者SSD硬盘。

请注意,上图中的CPU可以直接访问DRAM模块中存储的任何数据,但无法对SSD硬盘执行相同的操作。为了访问SSD上的数据,CPU必须与存储控制器通信,要求存储控制器从硬盘驱动器获取一堆数据并将其放入RAM中。然后,CPU从RAM获取所请求的数据,这样就实现了对SSD硬盘数据的访问。写入SSD的过程与读取过程相反,CPU必须首先将一些数据写入RAM,然后要求存储控制器从RAM中获取该数据并将其写回到SSD中。正如你所看到的那样,这里面涉及到很大的性能开销。

相比之下,您可以在图的右侧看到访问DRAM内存和3D XPoint内存的方式。在该模型中,CPU可以直接访问DRAM和3D XPoint存储器中的内存页面。

Linus Tech Tips就这个概念做了一个视频测试,他们使用了英特尔的Optane硬盘取代了测试机器上的存储器。结果显示,即使是在当前的计算机架构中,没有使用特殊的操作系统级的配置,通过M2接口连接,使用3D XPoint内存的Optane硬盘也足够快,可以充分降低CPU访问数据的延迟。

为了让该系统实现最高性能,美光必须和操作系统(Linux和Windows)开发人员共同开发一种基本全新的内存结构和访问机制。在一个计算机系统中,你可能有1级缓存、2级缓存,有时甚至需要3级缓存,然后是我们都知道的RAM或DRAM内存。美光需要开发可以实施另外一层基于3D XPoint技术的内存介质的驱动程序,可能比DRAM稍慢一些,但是比DRAM更耐用,也更便宜。

相对于系统其余部分,这种设计调整可以相对透明地实现。系统会看到全部随机存取存储器,但是内核会做出区分,将经常运行的应用在DRAM中分配内存页面,同时为不太经常使用但当前仍然在运行的应用分配3D XPoint页面。

这种方式对机器学习模型特别有用,它允许服务器将整个数据集加载到可寻址内存中,然后CPU在可寻址的内存空间上,在训练集上开始前向传播和后向传播算法的训练。

更具体地说,如果您参考上文AI部分中的神经网络图,理想的实现会将以X1,X2 ...等表示的数据集加载到3D XPoint存储器中,同时将模型的主要部分,即我们在图中隐藏的第2层和第3层加载到主DRAM中。模型的权重通常由theta,θ表示,它们将被存储在DRAM中,并镜像到3D XPoint进行备份,以应对硬件或软件崩溃的情形。

CPU可以直接访问大量快速和低延迟的内存,将使得CPU大部分时间处于满载状态。这意味着更好的投资回报,更短的模型培训过程,以及机器学习任务的总体重大改进。

结论

美光在最近这次年度会议上展示了公司良好的执行力,他们火力全开,而且如果他们能够以上文所讨论的那样进行3D XPoint技术的部署,他们的股票可以获得更高的市盈率。而且,它也会摆脱商品级芯片供应商“周期上升,周期下降”的老讨套路。如果他们能够提供非易失性的可寻址内存,并与Linux和Windows等操作系统完美集成,他们就能够创建一种全新的存储器类型,并满足机器学习日益增长的需求。

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存