首页 > 全部资讯 > 行业新闻 > SEMIFIVE携手HyperAccel量产AI芯片
芯达茂广告F 芯达茂广告F

SEMIFIVE携手HyperAccel量产AI芯片

近日,有报道称SEMIFIVE与HyperAccel签订了大规模生产合同,用于生产专为基于变换器的大型语言模型(LLM)设计的人工智能芯片。这款芯片被称为LLM处理单元(LPU),是全球首款为LLM推理量身定制的半导体LPU,它以低成本、低延迟和特定领域的特性,预计将取代现有的高成本、低效率的图形处理单元(GPU)。与典型的超级计算机相比,这款芯片的性能提高了2倍,性价比提高了19倍。

HyperAccel开发的这款LPU专为大型语言模型(LLM)设计,而SEMIFIVE则专注于SoC平台和ASIC设计解决方案,目前正致力于开发专家SoC设计平台,以应对客户对AI定制硅芯片的需求。SEMIFIVE正在与行业领先的合作伙伴积极开发其SoC芯片平台。

此外,还有一家名为Rebellions的AI无晶圆厂初创公司,正在准备使用三星电子的5纳米级极紫外(EUV)工艺大规模生产数据中心专用的人工智能(AI)芯片。Rebellions完成了与SEMIFIVE的大规模生产合同,后者是三星电子的设计解决方案合作伙伴(DSP)之一,用于三星5纳米AI半导体ATOM。预计明年初开始大规模生产。ATOM以其行业领先的GPU性能和比同等神经网络处理器(NPU)高3.4倍的能效而闻名。


图:SEMIFIVE携手HyperAccel量产AI芯片(图源:SEMIFIVE)

LPU与传统GPU相比,在性能和能效方面的优势主要体现在以下几个方面:

1.专门优化的架构:LPU针对LLM的计算密度和内存带宽进行了优化,减少了每个单词计算所需的时间,使文本序列能够被更快地生成。这种专业化的架构使得LPU在处理基于语言的任务时,相比传统GPU能提供更高的效率和更低的延迟。

2.高推理性能:LPU在推理任务上表现出色,能够以极高的速度执行大型语言模型的推理。例如,Groq的LPU能够实现每秒输出500个Token,这比传统GPU快了10倍。

3.内存带宽和计算逻辑的平衡:LPU通过优化内存访问模式和计算资源管理,确保了有效平衡处理能力和数据可用性,显著提高了NLP任务的性能。

4.低延迟和高可扩展性:LPU设计了专门的同步链接(ESL)来隐藏多个LPU之间的数据同步延迟,实现了接近完美的可扩展性。这意味着随着LPU数量的增加,性能提升的效率更高,延迟更低。

5.能源效率:LPU在能效方面也展现出其优势。通过减少管理多线程的开销并避免核心的低效利用,LPU能够以更低的能耗完成更多的计算任务。HyperAccel的LPU在4nm工艺下,面积为0.824 mm²,功率消耗为284.31 mW,基于LPU的服务器系统在能效上超过了NVIDIA H100和L4 GPU服务器解决方案。

6.成本效益:虽然在一些分析中提到,LPU的实际部署成本可能高于预期,因为需要更多的LPU来运行相同大小的模型,但从性能成本比来看,LPU提供了更高的性价比。

7.软件框架支持:LPU配备了专门的软件框架,如HyperDex,它提供了基于广泛使用的HuggingFace API的运行环境,使得各种LLM应用能够无缝地在LPU硬件上执行。

综上所述,LPU在处理大型语言模型任务时,提供了比传统GPU更高的性能、更低的延迟和更好的能效,这使得它在AI芯片市场中成为一个有吸引力的选择。随着技术的不断发展和市场需求的增长,LPU有望在未来的AI计算领域扮演越来越重要的角色。

相关新闻推荐

登录

注册

登录
{{codeText}}
登录
{{codeText}}
提交
关 闭
订阅
对比栏
对比 清空对比栏