订阅

阅读量:

Cerebras发布第三代晶圆级芯片,大幅提升AI算力

2024年3月14日
  • 编辑:Ana Hu
  • 中国出海半导体网

 

Cerebras公司发布了第三代晶圆级芯片,单个芯片可提供125 PFLOPS(FP16精度)的性能。在一天的时间内,一个安装了四个芯片的系统可以对Llama2-70B进行微调,而安装了最多2,048个芯片的最大系统可以在一天内从零开始对其进行训练。

Cerebras首席执行官Andrew Feldman表示,在相同的15kW功率范围和成本下,晶圆级引擎3(WSE3)的大型语言模型(LLM)训练速度是WSE2的两倍。Feldman还指出,战略合作伙伴G42正在顺利部署基于WSE2的人工智能超级计算机系列Condor Galaxy。Condor Galaxy 2已按计划上线,而该系列的第三台超级计算机Condor Galaxy 3将使用新的第三代WSE3硬件。G42还选择安装了大量的Qualcomm Cloud AI100仅推理硬件,作为Condor Galaxy3的一部分。为此,Cerebras与Qualcomm合作调整了训练流程,以优化生成的模型,以在Qualcomm Cloud AI100芯片上进行推理。与未优化的模型相比,这项工作的性能提高了10倍。

新一代晶圆级芯片WSE3的物理尺寸与之前的产品相同,但空间更大。新芯片从台积电7nm转向台积电5nm,拥有90万个核心,而上一代芯片为85万个。核心也更大。总体而言,差异为4万亿个晶体管,而上一代为26万亿个。WSE3还配备了42 GB的SRAM,内存带宽为21 PBytes/s。SRAM可以通过Cerebras提供的大型外部DRAM子系统进行扩展,从而能够训练多达24万亿个参数的AI模型。即使是最大的模型也可以存储在单个逻辑内存空间中,而无需分区或重构。WSE3采用名为CS3的系统,最大集群大小已增加至2048个CS3(FP16计算高达256 ExaFLOPS)。

图:Cerebras发布第三代晶圆级芯片

图:Cerebras发布第三代晶圆级芯片

Cerebras的软件堆栈支持Python 2.0并支持所有模型类型,包括最大的多模式LLM、ViT、专家混合和扩散。此外,它还支持非结构化稀疏性和动态稀疏性,用于训练过程中出现的零。Condor Galaxy系列AI超级计算机的第三个集群将在德克萨斯州达拉斯建立,将拥有64个CS3系统,总共8 ExaFLOPS的FP16计算。CG3将与位于加利福尼亚州圣克拉拉的CG1和位于加利福尼亚州斯托克顿的CG2一起,分别配备64台上一代CS2。推理硬件方面,G42还首次向Condor Galaxy3添加了纯推理硬件,其规模旨在为CG3将要训练的大型模型提供推理。

这些创新对市场发展有着巨大的推动力,并且与高通的合作为市场带来了积极的影响和更高的能力。Cerebras表示,其CS3积压订单数量“相当大”,涵盖了企业、政府和国际云。