首页 > 全部资讯 > 行业新闻 > 每秒30个Token:T-MAC如何在CPU上超越NPU性能
芯达茂广告F 芯达茂广告F

每秒30个Token:T-MAC如何在CPU上超越NPU性能

随着人工智能的迅猛发展,大型语言模型(LLMs)的推理效率成为技术进步的重要衡量指标之一。这些模型对计算资源的要求极高,尤其在推理任务中,如何在有限的硬件上高效执行LLM推理,成为业内关注的焦点。传统上,神经处理单元(NPU)因其专门设计,常常被认为是处理LLM推理任务的最佳选择。然而,近期由微软亚洲研究院、中国科学技术大学和中国科学院大学的研究人员联合开发的T-MAC技术,打破了这一传统认知,展示了在CPU上超越NPU性能的可能性。

T-MAC技术的核心优势

T-MAC技术的突破在于其对低比特大型语言模型的优化。它采用了一种基于查找表(Lookup Table,LUT)的方法,直接支持混合精度矩阵乘法(mpGEMM)。通常情况下,LLM推理涉及复杂的权重反量化过程,这一步骤往往成为性能瓶颈。然而,T-MAC通过免去这一步骤,显著降低了计算复杂度,直接提高了推理速度。

更重要的是,T-MAC技术的设计具备极高的扩展性,能够适应不同硬件平台,特别是那些资源受限的边缘设备。这一特性为在实际应用中部署低比特LLMs提供了强有力的支持,确保了技术在各种场景下的广泛适用性。传统上,CPU在推理性能方面被认为远不如NPU,但T-MAC的出现为这一观念带来了新的挑战。

 图:T-MAC技术如何在CPU上超越NPU性能

图:T-MAC技术如何在CPU上超越NPU性能

实验数据与性能对比

为了验证T-MAC技术的优势,研究团队在配备了最新高通Snapdragon X Elite芯片组的Surface AI PC上进行了详细测试。实验结果显示,使用T-MAC技术的3B BitNet-b1.58模型,其生成速率达到每秒48个token,而2bit 7B Llama模型的生成速率为每秒30个token,4bit 7B Llama模型则为每秒20个token。

这些数据表明,T-MAC不仅能够在CPU上实现高效的推理性能,还能够在不同比特宽度下保持良好的适应性。这对于那些需要在边缘设备上部署低比特LLMs的应用场景而言,具有重要意义。与以往依赖NPU的做法相比,T-MAC提供了一个更加灵活且经济的选择。

T-MAC与NPU的性能对比

NPU通常被认为是处理LLM推理的最佳选择,尤其在涉及大量并行计算任务时。然而,T-MAC技术在多次对比测试中展示出了其在CPU上超越NPU的潜力。以Llama-2-7B-4bit模型为例,在NPU上,其生成速率为每秒10.4个token,而在CPU上仅使用两核的T-MAC技术即可达到每秒12.6个token,峰值性能甚至可以达到每秒22个token。

这意味着,在特定任务和场景中,CPU加持的T-MAC技术能够提供更为优越的推理性能,甚至有望取代NPU成为更具成本效益的解决方案。这种性能的提升不仅仅是技术上的突破,更是对现有硬件架构的重新思考。它让我们看到,CPU与NPU之间的界限并非不可逾越,通过合理的技术优化,传统的计算平台也能在人工智能领域中大放异彩。

T-MAC技术的开源贡献

T-MAC技术的创新不仅仅体现在性能上,其开源实践也值得称道。研究团队将T-MAC的代码库开放在GitHub平台上,供全球开发者和研究人员免费使用。这一举措大大加速了T-MAC技术的推广和应用,为更多的边缘计算和智能设备开发者提供了宝贵的资源。

通过开源,T-MAC不仅拓展了技术的应用范围,也推动了相关技术的进一步发展。开发者可以根据自身需求对T-MAC进行优化和扩展,从而推动技术的不断成熟。与此同时,T-MAC的开源实践也为整个科技社区提供了一个协作的平台,促进了全球范围内的技术交流与合作。

T-MAC技术的深远影响

T-MAC技术的出现对学术界和工业界都产生了深远的影响。在学术研究领域,T-MAC提供了一种新的计算路径,为低比特计算和LLM推理研究开辟了新的方向。研究人员可以基于T-MAC的架构,探索更高效的推理方法,进一步推动人工智能技术的发展。

在工业应用中,T-MAC技术的推广有助于大幅降低智能设备的成本,同时提升设备的智能化水平。这对于物联网、自动驾驶、智能家居等领域的企业而言,具有重要的实际意义。随着更多低比特模型的推出和应用,T-MAC技术有望在提高推理效率、降低能耗和成本方面做出更大的贡献。

结论与未来展望

T-MAC技术的成功开发和开源,标志着LLM端侧部署领域的一次重大突破。它不仅展示了CPU在特定场景下的巨大潜力,也为低比特模型的广泛应用铺平了道路。未来,随着T-MAC技术的不断完善,我们有理由相信,它将在边缘计算和智能设备领域发挥越来越重要的作用。

在全球人工智能技术的发展进程中,T-MAC技术的影响力将不断扩大。它的成功不仅是对现有技术的补充,更是对未来智能设备和边缘计算设备发展方向的一次有力指引。随着更多企业和研究机构的加入,T-MAC的应用场景将更加广泛,推动人工智能技术的普及和落地。


相关新闻推荐

登录

注册

登录
{{codeText}}
登录
{{codeText}}
提交
关 闭
订阅
对比栏
对比 清空对比栏