订阅

阅读量:

新一轮挑战与机遇:芯片功耗成本持续上涨(中)

2024年4月3日
  • 编辑:Ana Hu
  • 中国出海半导体网

 

上接:新一轮挑战与机遇:芯片功耗成本持续上涨(上)

 

随着技术的飞速发展,芯片的功耗问题日益突显。许多芯片制造商正在努力应对这些挑战,因为芯片的设计和制造已经不再局限于过去的范畴。从增加晶体管密度到热梯度的管理,再到硬件-软件协同设计和新型功耗传输选项,本文将深入探讨芯片行业面临的复杂挑战,以及如何应对这些挑战来提高芯片性能和可靠性。

中国出海半导体网为您整理相关问题的讨论,本文探讨了功耗问题对芯片设计和性能的影响,以及在解决这些问题时面临的挑战与机遇。下面是根据原文整理的内容:

功耗问题比比皆是

许多芯片制造商刚刚开始应对这些问题,因为大多数芯片并非在最先进的工艺下开发。但随着芯片越来越多地成为芯片组的集合体,一切都必须在40纳米或更高工艺下开发的平面芯片所陌生的条件下进行特性化和操作。

并不总是显而易见的是,无论是在单一芯片中还是在先进封装内部,增加晶体管密度并不一定是提高性能的最大杠杆。然而,它确实增加了功率密度,从而限制了时钟频率。因此,许多重大改进都是与晶体管本身周边相关的。这些包括硬件-软件协同设计、更快的PHY和互连、新的绝缘材料和电子迁移、更准确的预取和更短的失误恢复时间、更稀疏的算法以及新的功耗传输选项。

“对整个系统堆栈的理解非常重要,”Arm公司高级首席CPU架构师Vincent Risson表示。“计算机当然对功率有重要贡献,但系统的其余部分也非常重要。这就是为什么我们有不同级别的缓存,缓存的大小也不同。我们在上一代中已经增加了缓存大小,因为最好有本地的东西,这样下游的功率就会把计算视为本地的。随着我们的扩展到三维,我们可以想象拥有三维堆叠的缓存,这是一个基本上减少数据移动和提高效率的机会。”

关键是在设计周期的每个方面都加入效率,而不仅仅是硬件方面。尽管芯片行业在过去的几十年中一直在讨论硬件-软件协同设计,但系统公司已将该方法与自定义微体系结构相提并论,而移动设备则出于竞争原因希望大幅延长电池寿命。

“有很多调整可以提取更多性能,这是CPU的重点,”Risson说道。“我们在所有预取引擎中不断进行改进,以改善其准确性并减少下游流量。因此,我们覆盖范围更广,但我们在互连中也启动的流量更少。”

这只是谜题的一部分,但还需要更多。例如,考虑随时间推移电介质薄膜的损坏。它可能会因不同的工作负载或操作条件而加速,尤其是在充满芯片组的封装内部。

“TDDB是一个问题,因为我们有如此多的信号和如此多的多边形网在不同电压上运行,”Ansys电子、半导体和光学业务部门的院士兼首席技术官Norman Chang说道。“如果你有一个在信号网旁边的网,其电压不同,那么电介质将会看到不同的电压。随着时间的推移,你将会看到一个时间相关的电介质击穿。这是一个新问题,我们需要为其找到解决方案。”

不一致

热梯度是另一个挑战,特别是当它们是瞬态的,从一个工作负载到另一个工作负载变化很大时。这个问题在2.5D中尤为严重,因为它可能导致翘曲,在预计的未来几年内,3D-IC也会遇到同样的问题。在这两种情况下,热量可能被困住,形成一个滚雪球效应。

图2:热和机械分析结果显示2.5D-IC上的温度梯度,包括245°C时的翘曲。资料来源:Ansys

图2:热和机械分析结果显示2.5D IC上的温度梯度,包括245°C时的翘曲。资料来源:Ansys

“如果你看看3D-IC中的功耗消耗,它与温度密切相关,”Chang说。“当温度升高时,漏电功耗就会增加,而热梯度分布是3D-IC中多物理相互作用的中心。温度会影响功率,但它也会影响电阻。当温度升高时,电阻也会增加,这也会影响电介质常数。这将影响信号完整性和功率完整性,也会影响应力。当你在3D-IC中混合数字和模拟时,模拟对应力更敏感。你必须知道热梯度在哪里,热点在哪里,因为你必须把模拟组件移出热点。如果你看到模拟组件的热循环,你会加速器件的老化,你会开始看到晶体管失配,并且与数字逻辑相比,模拟电路的效率会迅速下降。”

而这仅仅是刚刚开始。Synopsys公司的高级产品管理总监Kenneth Larsen指出,将堆叠芯片的各种元素放置不当可能会产生意想不到的问题,例如热交叉干扰,这也会降低整体性能。“我们已经从单片到基于芯片组的设计,这是分散的,现在这些设备越来越接近并且可以相互影响。当你把一个设备放在另一个设备上时,热量如何逃逸?这是一个巨大的挑战。对于3D-IC来说,第一要务是能否建立具有结构完整性的系统。但你还有其他机械、热力和功率方面的担忧——全部问题。”

过去,管理热量的最简单方法是降低电压。这种方法开始失去效果,因为在极低电压下,最轻微的不规则都可能引起问题。“噪声是非常低功率技术的一个话题,比如接近阈值或亚阈值器件,以及高功率器件,”Fraunhofer IIS自适应系统工程部门设计方法论负责人Roland Jancke表示。“这也是一个几乎不被理解的话题,因为它通常不会出现在仿真中。它在后来的现实世界中出现,然后你必须理解它并应对它。”

例如,交叉耦合可能会在衬底中产生噪声,但在设计阶段通常不明显。“几年前,我们开始使用基板模拟器来了解跨基板的耦合是什么,”Jancke说道。“你在考虑一个单一器件和相邻器件。你不会考虑输入级别的交叉耦合,因为它很远,但通过基板进行耦合。”

这类问题也可能在DRAM中引起问题,特别是随着位单元密度的增加,这也使其更容易受到噪声的影响。“肯定会有热噪声,”苏黎世联邦理工学院计算机科学教授Onur Mutlu表示。“此外,当你访问一个单元时,你会因为电线的切换或访问晶体管引起的电气干扰而在结构中产生噪声。该激活会导致噪声,并且这会导致一些可靠性问题。我们称之为单元间干扰。行锤问题只是其中一个例子。您激活了一行并在相邻行中引起干扰。

RowPress是另一个例子,其中您保持一行打开的时间更长,这会干扰其旁边其他行的发生情况。随着我们减小每个单元的尺寸并使单元之间的距离更近并增加密度,此类单元干扰变得更为普遍。您可能会遇到静默数据损坏,这可能是在实地发生的情况。”

对于功率问题,总会出现意外问题。“无论您运行在什么时钟频率下,您都希望以最低的电压运行,因为这样您将使用的能量最少,”Movellus公司的电源架构师Barry Pangrle说道。“你可以对某种程度进行建模,但像任何模型一样,有时你会遇到意外。我可以拿一个芯片,在不同条件下运行它,我可以调整电压和频率,了解在不同工作负载下它将在何处工作的想法。‘好的,我可以使用这些点,如果我想要更保守一些,我总是可以稍微退后一步并增加一点余量。’但人们不会对每个芯片都这样做。那么,您是否创建区段并说,“好的,属于这一类的我们将以这个时钟和这个电压运行?”那么,某些粒度将由出售该芯片的人决定。”

 

下接:新一轮挑战与机遇:芯片功耗成本持续上涨(下)

原文链接:The Rising Price Of Power In Chips