首页 > 全部资讯 > 行业新闻 > NAPU芯片:有效提高加速器利用率
芯达茂广告F 芯达茂广告F

NAPU芯片:有效提高加速器利用率

近日,一家以色列的初创公司NeuReality 正致力于革新数据中心的人工智能推理系统。他们计划用一种新型的芯片——网络可寻址处理单元(NAPU)来替代传统主机中央处理器(GPU)。这种NAPU芯片具备执行CPU典型功能,例如虚拟机监控器的硬件实现。NeuReality的目标是通过这种创新,消除现有CPU可能引发的性能瓶颈,从而显著提升人工智能加速器的使用频率,进而降低运营成本和能源消耗。NeuReality公司的CEO表示这个NAPU芯片能达到百分之百的AI加速器利用率。

在云计算环境或者我们进行的本地测试中,不同的应用场景对人工智能加速器的使用方式各有差异。在某些情况下,GPU或ASIC的利用率可能仅达到25%至30%,而在其他情况下,由于运行大型语言模型(LLM),CPU可能会处于空闲状态,因为此时系统主要受限于GPU和内存接口的性能,CPU并没有发挥太大作用。因此,当使用专门针对推理任务的加速器时,现行服务器的经济性显得相当不合理。

NR1 NAPU 来源:NeuReality

图一: NR1 NAPU 芯片 来源:NeuReality

目前的人工智能服务器配置通常包括两个CPU和一个网络接口控制器(NIC),有时还会包括一个数据处理单元(DPU)或智能网络接口控制器(smartNIC),与每个人工智能加速器一同工作。这样的服务器架构可以支持多个虚拟机运行,其中CPU负责执行网络终止、维护客户端之间的服务质量以及在数据发送给人工智能加速器之前进行数据预处理等任务。随着人工智能加速器性能的不断提升,由于CPU仍然是性能的制约因素,加速器的利用不足问题将变得更加突出。CPU虽然能力强大,但它们本质上是通用处理器。它们并非专为人工智能任务而设计,因此在处理人工智能请求时,不能充分发挥出人工智能加速器的性能。NeuReality公司致力于通过将人工智能处理流程与CPU分离来解决利用率问题。该公司将网络终止和服务质量等CPU任务固化到专为大规模生产环境下的人工智能推理工作负载设计的异构计算芯片上。负责人强调,NAPU并不是“人工智能CPU”,而是专为数据中心人工智能推理服务器设计的专用硅片,旨在处理现代人工智能推理的大量和多样化查询。NAPU是网络连接的,意味着人工智能查询可以直接通过以太网发送到NAPU。

该公司为其第一代NAPU,即NR1,提供的性能数据显示,通过用NR1替换其主机CPU,人工智能加速器ASIC可以将每瓦性能提高大约八倍。虽然NR1是围绕IBM AIU设计的,但它是通用的,并且在引入后可以与任何人工智能加速器配合使用。

NeuReality公司推出的NAPU产品线包括两种形式:一种是NR1-S设备,专为无需CPU的服务器设计;另一种是NR1-M模块,可以插入配备CPU的服务器机架中,以分担CPU的处理任务。

该公司目前主要关注的应用程序包括自动语音识别(ASR)、自然语言处理(NLP)、欺诈检测、安全远程医疗服务、患者人工智能查询搜索以及计算机视觉等。然而,该公司负责人认为,随着生成性人工智能推理技术的发展和规模化应用,可能会出现更大的市场机遇。他强调,为了在关键行业推动生成性人工智能的广泛应用,降低成本、提高可负担性是至关重要的。NeuReality致力于让传统的人工智能应用在经济上更具可持续性,从而为生成性人工智能的发展创造有利条件。

相关新闻推荐

登录

注册

登录
{{codeText}}
登录
{{codeText}}
提交
关 闭
订阅
对比栏
对比 清空对比栏