订阅

阅读量:

技术专家眼中内存的未来在何方?

2024年1月31日
  • 编辑:Ana Hu
  • 中国出海半导体网

 

近日,Semiconductor Engineering杂志的技术编辑凯伦·海曼(Karen Heyman)与几位资深行业人士进行深度交流,包括Keysight、Arteris、Rambus、Cadence、西门子的技术专家们。本期内容将聚焦“内存的未来发展”,中国出海半导体网站为读者们整理本次对话的重点内容:图:存储技术专家们共同探讨内存未来的发展

图:存储技术专家们共同探讨内存未来的发展 

CXL1和UCIe2在内存的未来将如何发挥作用,特别是考虑到数据传输成本?

 

Randy White,Keysight内存解决方案项目经理UCIe(Unified Chiplet Interconnect Express)的主要目标是互操作性,以及降低成本和提高产量。从一开始,我们将通过UCIe获得更好的总体指标,这不仅会转化为内存,还会转化为其他IP块。在CXL(Compute Express Link)方面,随着许多更关注人工智能和机器学习的不同架构的出现,CXL将发挥管理和最小化成本的作用。总成本拥有始终是JEDEC的架构指标,而功耗和性能分别是其中的CXL基本上是针对分区的计算架构进行了优化,减少了过度设计并围绕延迟问题进行了设计。

Frank Schirrmeister,Arteris解决方案和业务开发副总裁如果你查看片上网络(network on-chip),例如AXI(Advanced eXtensible Interface)或CHI(Coherent Hub Interface),或OCP(Open Compute Project),你会发现这些都是片上连接变体。然而,当你使用off-die或off-chip时,PCIe和CXL就是这些接口的协议。CXL具有各种使用模型,包括对不同组件之间的一致性的一些理解。在 Open Compute Project 论坛上,当谈论CXL时,谈论的都是内存附加使用模型。

而UCIe将永远是芯片到芯片连接的选项其中之一。在内存方面,UCIe可以在小芯片环境中使用,其中你有一个启动器和一个标记附加内存的目标。UCIe及其在所有连接方式下的延迟以及如何构建架构以及时获取数据方面发挥着作用重要作用。AI/ML架构非常依赖于数据的输入和输出。我们还没有弄清楚内存墙,所以你必须从系统的角度在架构上明智地选择保存数据的位置。

Steven Woo, Rambus的杰出发明家艰难的挑战之一是数据集越来越大,CXL可以帮助解决的问题之一是能够在节点本身上添加更多内存。这些进程的核心数量越来越多。这些核心中每一个都需要一定量的内存容量。最重要的是,数据集变得越来越大,我们每个节点都需要更多的内存容量。现在有很多使用的模型。因此我们看到了很多节点之间传播数据和计算的更多用途,尤其是在人工智能领域,使用在许多不同处理器上训练的大型模型。CXL和UCIe等协议提供了帮助处理器灵活改变数据访问方式的这两种技术都能够灵活地以对他们来说最有意义的方式实现和访问跨多个节点的数据共享,并解决内存墙等问题以及电源和延迟问题。

Frank FerroCadence产品管理组总监关于CXL,我们已经从内存池方面说了很多。从更实际的成本方面来看,由于数据中心的服务器和机箱的大小,虽然你可以在那里贴更多的内存,但这是一个成本负载。当你进入CXL 3.0时,采用现有基础架构并继续扩展的能力对于避免这些内存搁置浅的情况非常重要,在这种情况下,你的处理器无法访问内存。CXL还添加了另一层内存,因此现在你不必使用存储/SSD,从而最大限度地减少延迟。至于UCIe,随着高带宽内存和这些非常昂贵的2.5D结构的出现,UCIe可能是一种帮助分离这些内存并降低成本的方法方法。例如,如果你有一个大型处理器(GPU或CPU),并且你的内存非常接近它,例如希望高带宽内存,那么你将必须在硅层内放置相当大的占用空间,或者在层内技术。这将增加整个系统的成本,因为你必须有一个硅片来承载CPU、DRAM以及你可能想要安装的任何其他组件。有了Chiplet ,我可以将内存放在自己的2.5D上,然后我可以将处理器放在更便宜的主板上,然后通过UCIe连接它。这是一个对于如何降低成本来说非常有趣的使用模型。

 Jongsin Yun,西门子EDA内存技术专家在IEDM上,有大量关于人工智能和不同记忆的讨论。人工智能一直在迅速增加处理参数,在不到五年的时间里增长了约40倍。因此,大量数据需要由人工智能处理。然而,DRAM的性能和底层的通信并没有达到那么大的改进,每两年大约只有我们1.5到2倍的改进,显然这低于AI改进的实际需求。正在尝试改善存储器和芯片之间通信的一个例子。内存的数据供给与人工智能计算能力的数据需求之间存在很大差距,仍需解决。

 

内存如何帮助我们解决功耗和笔记本电脑问题?

Randy White,keysight内存解决方案项目经理电源问题就是内存问题。数据中心内50%的成本来自内存,或者只是I/O,或者是刷新管理和冷却维护。我们谈论的是易丢失的存储器,特别是DRAM。正如我们所说,数据量巨大,工作负载越来越紧张,速度越来越快,所有这些都意味着更高的性能。随着我们的扩展,已经采取了许多举措来满足支持不断的关键数量所需的存储带宽。功率相应地提高。我们在此过程中使用了一些技巧,包括减少电压稳定幅、改进I/O平方函数的电源轨。我们正在尝试使用更多的体组来内存刷新管理的效率,这也提高了整体吞吐量。

几年前,一位客户来找我们,希望对JEDEC如何以及在温度范围方面指定存储器进行重大改变。LPDDR的范围更广,并且具有不同的温度分类,但在大多数情况下,我们讨论的是商品DDR,因为这是容量提高,并且在数据中心中几乎常见。该客户想向JEDEC提出建议,如果我们能够将DRAM的工作温度知道5度(尽管我们刷新率会随着温度的升高而增加),那么每年将会减少3个燃煤工厂的发电量。需要支持这种力量的增加。因此,在设备层面所做的事情将会转化为全球发电厂层面的宏观另外,在架构层次上,内存设计中的过度配置已经存在相当长的一段时间了。我们推出了这个PMIC(电源管理IC),电压因此调节是在模块级别完成的。我们有板载温度传感器,所以现在系统需要监控仓库内的温度。现在,你拥有特定的高效模块和设备温度以及热管理,以进行更多。

Frank Schirrmeister,Arteris解决方案和业务开发副总裁如果DRAM是一个人,它肯定会受到社会挑战,因为大家不愿意与它交流。虽然它非常重要,但没有人愿意与它交谈——或者想很少地与它交谈——因为延迟和功耗都涉及成本。例如,在人工智能/机器学习架构中,你希望避免大量增加成本,这就是为什么每个人都在询问数据是否可以本地存储或以不同的方式移动。我系统地安排我的架构,方便计算元件在管道中的正确时间接收数据吗?这就是为什么它很重要。它拥有所有数据。但是,当你优化延迟时,你还需要优化功耗。从系统角度来看,你这显然希望最大限度地减少访问。这对NoC的数据传输架构产生了非常有趣的影响,就像人们希望携带数据、将数据保存在各种本地存储中一样,并从社会角度设计其架构以方便携带减少对DRAM的访问。

Frank FerroCadence产品管理组总监当我们采用不同的AI架构时,许多危险目标是尝试多地保留在本地,甚至完全避免使用DRAM。有些公司将其作为它们的价值使用。如果不需要剥离芯片,你的消耗并且性能将获得数量级的提升。我们已经讨论过数据模型的大小。它们连接起来如此庞大和笨重,以致可能不实用。但是,你可以在芯片上执行更多的操作,这样就可以节省开支。即使是HBM的概念,其意图也非常广泛且非常缓慢的想法。如果你查看前几代HBM,你会发现它们具有DDR,速度约为3.2GB。现在它们已经达到6GB,但对于非常宽的DRAM来说仍然相对较慢,在这一代,他们甚至将I/O电压降低到0.4,以尝试降低I/O。如果你可以减慢DRAM的运行速度,同时也可以节省电量。现在你正在使用内存,将其放置在非常靠近处理器的位置。那么你就会在较小的区域内获得更大的热足迹。你正在改进一些事情,但也让其他事情变得更加严峻。

Frank Schirrmeister,Arteris解决方案和业务开发副总裁在我看来,IBM的北极AI架构是一个有趣的例子。如果从能源效率的角度来看,大部分内存本质上都是在芯片上的,但并不是每个人都能做到从本质上讲,这是一种极端的情况,我们要尽可能少地造成损害,并在芯片上提供尽可能多的损害。IBM的研究表明是有效的。

Steven Woo, Rambus的杰出发明家当你考虑DRAM时,你必须非常有策略地考虑如何使用它。你必须充分充分的内存层次结构位于位于你上方的内容(即SRAM)与位于你下方的内容(即磁盘层次结构)之间对于内存层次结构中的任何这些要素,如果可以避免的话,你都不想移动大量数据。当你确实移动它时,你需要确保注意多地使用数据该以分摊该头部。非常善于响应一些关键需求。如果你看看低功耗DRAM和HBM等技术的发展,就会发现它们是对标准内存不满足某些性能参数(如电源效率)这个事实的回应。人们正在谈论的一些进展,尤其是在人工智能成为一大推动力的情况下,不仅可以提高性能,还可以提高能效——例如,尝试采用DRAM将其直接放在处理器上,这将有助于展望未来,厂商将通过关注架构的变化来做出回应,不仅是低功耗路线图等增量变化,而且还有更大的变化。

 

除了我们一直在讨论的之外,内存还有其他方法可以帮助解决延迟问题吗?

Randy White,keysight内存解决方案项目经理我们正在启动计算,这将解决边缘计算的许多需求。此外,CXL的明显好处是我们不再传递数据,而是传递指向内存地址的指针,这更加高效并且会减少总体延迟。

Frank Schirrmeister,Arteris解决方案和业务开发副总裁这里也存在一个电源问题。我们有CXL、CHI、PCIe——所有这些项目都必须在片上和芯片间良好工作,尤其是在小芯片环境中。想象一下,在后台,你通过AXI的数据或CHI在芯片上平静地运行,现在你想要在Chiplet到Chiplet之间进行传输。你突然必须开始改变事情。从权力的角度来看,这是有影响的。每个人都在谈论开放的chiplet生态系统以及不同参与者之间的交流。为了实现这一点,你需要确保必须一直进行转换。它让我想起过去的日子,当时有五种不同的视频格式,清晰不同的音频格式,所有这些都需要转换。你希望避免这种情况,因为会产生功耗并增加延迟。从NoC的角度来看,如果我尝试从内存中获取数据,并且需要在某个处插入一个块,因为我需要通过UCIe另一个芯片以获取连接到另一个芯片的内存,达到增加周期。正因为如此,架构师的角色变得越来越重要。从延迟和低功耗的角度来看,你希望避免转换。它只是一个门,不添加任何东西。希望每个人都说同一种语言就好了。

 

  • 1、什么是CXL

CXL:Compute Express Link,技术是一种新型的高速互联技术,旨在提供更高的数据吞吐量和更低的延迟,以满足现代计算和存储系统的需求。它最初由英特尔、AMD和其他公司联合推出,并得到了包括谷歌、微软等公司在内的大量支持。CXL的目标解决CPU和设备、设备和设备之间的内存鸿沟。

  • 2、什么是UCIe

 UCIe:Unified Chiplet Interconnect Express,是一个综合规范,可以立即用作新设计的基础,同时为未来的规范发展奠定坚实的基础。与其他规范相反,UCIe定义了一个完整的die-to-die互连堆栈,确保兼容设备的互操作性,这是实现多die系统市场的强制性要求。

文章的版权属于原作者,转载只为信息、技术的交流分享。