今天的内行看门道给大家分享的是Lines Blurring Between Supercomputing And HPC。该文章来自semiengineering,semiengineering专注于半导体工程及相关科技领域的报道与分析,为行业内人士和科技爱好者提供专业且前沿的资讯。这篇文章深入探讨了超级计算和高性能计算(HPC)之间界限日益模糊的现象。下面是该篇文章的核心观点:
在当下,AI 的蓬勃发展和计算组件的解耦正深刻地改变着前沿计算领域。超级计算机和高性能计算机以往在服务市场上差异显著,超级计算机多用于科学和学术计算,性能以百亿亿次浮点运算衡量;HPC 则侧重于传统应用,依赖高带宽内存、快速处理器通信和每秒大量的浮点运算。然而,随着 AI 训练和推理成为计算领域的焦点,二者的架构逐渐趋同。
AI 对这两种计算模式产生了深远影响。一方面,CPU 和 GPU 在异构环境中的融合不断演进,GPU 从游戏、挖矿领域走向 AI 计算核心,其出色的扩展性成为提升计算性能的关键。例如,谷歌在其数据中心,为训练图像识别和自然语言处理等 AI 模型,采用了 CPU 和 GPU 相结合的方式,精心配置二者数量以优化性能。这促使混合计算系统兴起,融合了经典计算、超级计算甚至量子计算,以满足各类应用在性能、可靠性和安全性方面的需求。但另一方面,AI 带来的强大计算需求也带来挑战,超级计算机能耗巨大,像微软、OpenAI 和软银宣布的 Stargate 系统预计需 5 吉瓦电力,远超英美核电厂,能源效率和可持续性成为亟待解决的问题,如美国橡树岭国家实验室的 “顶点” 超级计算机,虽性能强大,但工程师们也在努力探索新的冷却技术和电源管理策略,以降低其能耗。
图:超级计算与 HPC 之间的界限日趋模糊
技术进步是二者融合的核心推动力。高带宽内存、芯片间高速通信技术以及基于 chiplet 的解决方案,这些技术在满足 AI 计算需求的同时,也促进了超级计算和 HPC 的发展。不过,数据移动难题浮现,数据传输成本超过计算成本,先进封装技术虽能缓解,但又引发了散热和功率传输方面的挑战。例如,英伟达的 DGX A100 系统,它结合了强大的 GPU、高带宽内存和高速互连技术,在 AI 研究机构用于训练大型语言模型,也用于一些超级计算相关应用,但在数据传输和散热等方面同样面临挑战。
从计算精度上看,AI 的概率性计算结果与超级计算要求的高精度存在矛盾,科学计算常用的双精度 64 位在 AI 中可能被 8 位或 16 位替代,这使得硬件的适用性变得复杂。此外,数据处理的时效性也面临挑战,处理器间的延迟影响结果反馈速度。在航空航天领域,飞机设计的流体力学模拟等超级计算任务,需高精度计算确保性能可靠,而一些基于 AI 的飞行轨迹预测模型训练时可能采用较低精度以加快速度,在实际应用中就可能因精度问题影响可靠性。
值得一提的是,“超级计算机” 这个概念不仅仅是技术层面的代表,它还具有重大的文化和激励价值,是科技前沿的象征,激励着新一代的工程师和科学家不断探索。超级计算大会每年都会吸引大量学生和科技爱好者,激发他们对科技领域的兴趣,许多人因此立志投身相关研究。
总的来说,超级计算和 HPC 的界限模糊是技术发展的必然趋势,其中机遇与挑战并存。未来,随着技术的持续创新,二者的融合还将为整个科技领域带来更多变革,值得我们持续关注。