在 Hot Chips 2024 大会上,IBM 公布了其即将推出的 IBM Telum II 处理器和 IBM Spyre 加速器的架构细节。此新技术旨在大幅提升下一代 IBM Z 大型机系统的处理能力,尤其是在 AI 集成方面,它将加速传统 AI 模型与大型语言模型(LLM)的协同应用。
随着越来越多的生成式 AI 项目从概念验证阶段进入生产阶段,对节能、安全且可扩展的解决方案的需求正迅速成为关键优先事项。摩根士丹利(Morgan Stanley)在今年 8 月发布的研究报告预测,生成式 AI 的电力需求将在未来几年内每年增长 75%,预计到 2026 年,AI 的能源消耗量将达到西班牙 2022 年的耗电水平。许多 IBM 客户已明确表示,支持大规模基础模型与 AI 工作负载的混合设计方法在架构决策中变得愈发重要。
此次发布的核心创新包括:
IBM Telum II 处理器:这款为下一代 IBM Z 系统设计的新处理器相比第一代 Telum 芯片在频率和内存容量上均有所提升,缓存容量增长了 40%,并集成了 AI 加速器核心及连贯连接的数据处理单元(DPU)。这一处理器将为 LLM 在企业计算中的应用提供支持,以应对复杂的行业交易需求。
IO 加速单元:Telum II 处理器上的全新数据处理单元(DPU)专为加速大型机网络和存储的复杂 IO 协议而设计。DPU 简化了系统操作,并提升了关键组件的性能。
IBM Spyre Accelerator:该加速器提供额外的 AI 计算能力,以补充 Telum II 处理器的功能。Telum II 与 Spyre 芯片协同工作,构成了一种可扩展的架构,支持将多个机器学习或深度学习 AI 模型与编码器 LLM 结合的 AI 集成方法。通过利用不同模型架构的优势,集成 AI 比单一模型能够提供更准确、更强大的结果。在 Hot Chips 2024 会议上预览的 IBM Spyre Accelerator 芯片将作为附加选项提供。每个加速器芯片通过 75 瓦 PCIe 适配器连接,并基于 IBM Research 合作开发的技术。与其他 PCIe 卡一样,Spyre Accelerator 可根据客户需求进行扩展。
IBM Z 和 LinuxONE 产品管理副总裁 Tina Tarquinio 表示:“我们强大的多代路线图使我们能够在技术趋势中保持领先,特别是在 AI 需求不断增长的情况下。”“Telum II 处理器和 Spyre 加速器的设计旨在提供高性能、安全且更加节能的企业计算解决方案。经过多年的研发,这些创新将引入我们的下一代 IBM Z 平台,使客户能够大规模利用 LLM 和生成式 AI。”
图:IBM推出新处理器
Telum II 处理器和 IBM Spyre Accelerator 将由 IBM 的长期制造合作伙伴三星代工生产,基于其高性能、节能的 5nm 工艺节点打造。两者协同工作,将支持一系列先进的 AI 驱动用例,旨在释放商业价值并创造新的竞争优势。借助 AI 的集成方法,客户能够更快、更准确地获得预测结果。此次宣布的综合处理能力将为生成式 AI 用例的应用提供切实支持。部分示例包括:
保险索赔欺诈检测:通过将 LLM 与传统神经网络相结合,集成 AI 可增强家庭保险索赔中的欺诈检测,提高性能和准确性。
高级反洗钱:提高检测可疑金融活动的能力,支持遵守监管要求并降低金融犯罪风险。
人工智能助手:加速应用程序生命周期、知识和专业技能的转移,以及代码解释与转换等功能。
规格和性能指标:
Telum II 处理器:配备八个高性能内核,运行频率为 5.5GHz,每个内核拥有 36MB 的二级缓存,片上缓存容量增加 40%,总计达到 360MB。每个处理器抽屉的虚拟四级缓存容量为 2.88GB,比上一代增加了 40%。集成的 AI 加速器支持低延迟、高吞吐量的交易内 AI 推理,例如在金融交易中增强欺诈检测能力,使每个芯片的计算能力相比上一代提高了四倍。
新的 I/O 加速单元 DPU 集成在 Telum II 芯片内。其设计旨在将 I/O 密度提升 50%,从而改善数据处理。这一进步提升了 IBM Z 的整体效率和可扩展性,使其非常适合处理当前企业的大规模 AI 工作负载和数据密集型应用。
业内人士评价这是一款专为企业设计的加速器,能够为复杂的 AI 模型和生成式 AI 用例提供可扩展的功能。目前它正处于展示阶段,配备高达 1TB 的内存,可通过八张卡在常规 IO 抽屉内协同工作,以支持整个主机的 AI 模型工作负载。每张卡的功耗不超过 75W。每个芯片配备 32 个计算核心,支持 int4、int8、fp8 和 fp16 数据类型,适用于低延迟和高吞吐量的 AI 应用。