功耗问题一直是先进芯片制造的重要挑战,涉及资源消耗、数据中心能耗、热管理等多个方面。随着晶体管密度增加和人工智能应用不断扩展,功耗问题变得尤为突出。从限制过度设计到运行真实工作负载,各种方法都在尝试解决这一挑战。此外,文章还强调了对功耗问题的全面理解和综合处理的重要性,以应对芯片行业的不断发展和需求的多样化。
中国出海半导体网为您整理相关问题的讨论,本文探讨了功耗问题的各个方面,包括对芯片和封装的影响、解决方案和未来发展趋势。下面是根据原文整理的内容:
其他问题
功耗问题还涉及到一个经济方面的因素,这涵盖了从创建复杂设计所需的资源到数据中心消耗的电量。晶体管密度越高,为一排服务器供电和冷却所需的能量就越多。而且,随着各种不同类型的人工智能的发展,目标是最大化晶体管利用率,这反过来会消耗更多的电力,产生更多的热量,并需要更多的冷却。
“这些应用程序消耗了大量的功率,而且呈指数级增长,” proteanTecs 的工程解决方案副总裁 Noam Brousard 表示。“高效的功率消耗最终将转化为数据中心的显著节省。这是第一位的。除此之外,我们还关注环境影响。而且,我们希望延长电子产品的使用寿命。”
图3:功耗对芯片的影响。来源:proteanTecs
与功耗相关的影响不仅仅局限于芯片。“在 2.5D 中,热应力将导致翘曲,因此你会面临一个风险,即断开将基板连接到 PCB 的球。” Cadence 的 Roshandell 表示。“如果它开裂,就会发生短路,然后你的产品就无法工作。因此,如何解决这个问题,以及如何对其进行建模,是很重要的。这必须发生在设计的最早阶段,可以设想并采取行动的地方。”
在 3D-IC 中,问题变得更加复杂。再次强调的是在设计周期的早期阶段评估问题的重要性,但在 3D-IC 中,存在添加效应。“与 SoC 相比,动态切换功率对 3D-IC 而言确实非常棘手,” Ansys 的 Chang 表示。“我们必须尽早考虑物理架构,因为如果在 3D-IC 中有 15 个芯片,你如何将功率分区到这 15 个芯片的动态工作流程和时间维度中?在不同的时间,可能会在芯片上产生不同的工作负载,并且可能会导致热点。但是,如果顶层芯片有一个局部热点,底层芯片也有一个局部热点,如果这两个局部热点在某个时间线上,那么这个热点将成为一个全局热点。如果另一颗芯片没有切换,则全局热点可能比局部热点热 10 到 15 度。这使得 3D-IC 电路设计师彻底措手不及,因为在 3D-IC 的芯片组中运行模拟时,可能无法对整个 3D-IC 进行带有真实工作流程的仿真。”
问题在于有太多的依赖关系,所有事物都需要在其他事物的背景下理解。“在没有相互独立的情况下优化这些设备是不可能的,” Keysight 的设计和仿真产品副总裁兼总经理 Niels Faché 表示。“你可能有关于热的目标,比如最高温度,散热,但是你需要在机械应力的背景下理解这一点。你必须能够对这些单独的物理效应进行建模。如果它们非常紧密耦合,你就必须以联合仿真的形式进行建模。例如,我们使用电热仿真。因此,当你查看通过晶体管流动的电流时,它将对热量产生影响。然后,热量会影响电特性,这会改变电气行为,你必须对这些相互作用进行建模。”
解决方案
解决与功耗相关的问题并无单一的全面解决方案,但有许多部分性解决方案。
其中一种方法,也可能是最简单的方法,是限制过度设计。“一切都始于专注于目标用例并定义必要的功能来解决它们,”Rambus 的高级研究员和杰出发明家 Steven Woo 表示。“增加功能以解决其他潜在市场和用例的需求是诱人的,但这往往会导致面积、功耗和复杂性的增加,从而损害芯片主要应用的性能。所有功能都必须进行批判性审视,并以一种几乎无情的方式评判,以确定它们是否真的需要在芯片中。每个新功能都会影响性能、功耗和面积,因此,保持专注于目标市场和用例是第一步。”
这可能会对整体功耗产生显著影响,特别是在人工智能方面。“在人工智能领域,有许多要考虑的选项,特别是对于边缘设备而言,” Woo 表示。“一些选项包括芯片的供电方式、热约束、是否需要支持训练和/或推断、准确度要求、芯片将部署在的环境以及支持的数字格式,仅举几例。支持大型功能集意味着增加面积和功耗,并增加在使用时关闭功能的复杂性。而且,数据传输影响性能并消耗大量的功率预算,设计人员需要充分了解需要传输多少数据,以开发最小化边缘数据传输的架构。”
另一种方法是在设计中运行真实工作负载。“一些客户所做的是说,‘让我们运行代表性工作负载,因为我们不知道我们不知道的东西,’” Synopsys 的低功耗解决方案高级总监 William Ruby 表示。“这就像功率覆盖一样。‘我们认为什么是持续最糟糕的情况?我们认为什么是一个好的空闲工作负载?’但他们不知道的是,新软件更新可能会改变整个活动配置文件。希望它是增量变化,并且他们以某种方式为此预算了,而不是悲观和保守一点。但是,你如何预测固件更新会发生什么?”
背面供电是另一个选择,特别是在最先进的节点。Movellus 的 Pangrle 表示:“在某个时候,你会遇到收益递减的问题,因为你已经将来自顶层的东西传递到底层,而很多时候,顶层的东西是你的功耗和地线路由。”“如果你能从背面提供,而不必经过顶部的 17 层金属层,那么你不必经过所有那些过孔。能够从背门进入而不必担心经过所有这些过孔,距离晶体管更近,这就像制造魔术一样。”
在芯片和封装内部使用传感器监测与功耗相关行为的变化是另一种方法。proteanTecs 的 Brousard 表示:“在现场有许多因素可能会降低性能,因此我们必须应用电压保护带。我们知道会有噪声。我们知道会有过度工作负载。我们知道芯片会经历老化。所有这些因素都迫使我们应用比最佳 VDDmin 更多的电压。”
此外,铜导线可用于将热量传导到可以散热的地方。“你可以通过优化堆叠芯片的 TSV 放置来进行简单的处理,你可能也可以使用热导管,” Synopsys 的 Larsen 表示。“这是非常复杂的,但是在 EDA 中我们一直在处理指数。我们将解决这些问题。但是,当你想要减轻一些问题时,你需要添加一些会减少你所寻找的值的东西。对于可靠性来说,你可以添加冗余,这可能是堆叠中的 TSV 或混合键。”
结论
过去几十年来,功耗一直是先进芯片制造商的一个问题。智能手机会发出警告,表示它运行过热并关闭直到降温,而一排服务器可能会因同样的原因将负载转移到另一排。但芯片越来越多地分解成各种组件并打包在一起,随着诸如汽车等行业开始在 5nm 及以下节点开发芯片,功耗问题将在各个方向上扩散。
架构、布局、信号完整性、热、可靠性、可制造性和老化都与功耗紧密相连。随着芯片行业继续以独特的方式组合不同的功能以解决独特的市场需求,整个行业将需要学会如何处理或绕过与功耗相关的影响。与过去不同,过去只有最高产量的芯片制造商才关注功耗,现在很少有设计可以忽略功耗问题。