Arm公司推出的新一代Ethos微神经处理单元——Ethos-U85,旨在支持变换器操作,目标是将生成性人工智能(AI)模型应用于物联网(IoT)设备。Arm物联网业务线的高级副总裁兼总经理指出,尽管与大型语言模型相比规模较小,但公司已在边缘计算领域观察到对变换器工作负载的需求增长。举例来说,Arm已经成功将视觉变换器ViT-Tiny和生成性语言模型TinyLlama-1.1B移植到Ethos-U85平台上。
负责人表示:“目前大多数机器学习推理任务都是在基于Arm架构的设备上完成的。虽然AI的爆炸性增长看似突如其来,但实际上Arm已经为此准备了很长时间。边缘AI的优势在于它能够覆盖物联网内的多个细分市场……AI需要硬件与软件之间紧密的集成,Arm在过去十年中已在这一领域进行了大量投资。”
Ethos-U85采用了第三代微架构设计,与第二代U65相比,在其最大配置下,性能提升了4倍,能效提高了20%。与以往的Ethos系列不同,新的U85 NPU可以与Cortex-A应用处理器核心或Cortex-M微控制器核心配合使用。
U85 NPU的IP核是可配置的,范围从128到2048个MAC(乘累加操作),在1 GHz的时钟频率下,能够提供从256 GOPS(每秒十亿次操作)到4 TOPS(每秒万亿次操作)的性能,支持使用INT8权重和INT16激活。此外,它也支持INT8激活。
图一:Arm 推出 NPU Ethos-U85(图源 Arm官网)
负责人指出,嵌入式系统的用户为了提高能效,愿意在所需的数据类型上做出一些妥协。
他说道:“我们的看法是,在目前这个阶段,嵌入式应用的开发者更倾向于开发经过调整和精简的模型来进行部署,而不是追求数据类型完全的灵活性。用户愿意为了达到能够适应毫瓦级功耗范围的能效水平而做出一些妥协。实际上,挑战在于软件开发流程以及相应的工具配套。”
Arm公司已经为U85增加了对特定变换操作符的支持。虽然前几代Ethos理论上能够运行变换操作,但遇到不支持的操作符时,它们必须转而依赖CPU来处理,这包括矩阵乘法(MATMUL)、转置(TRANSPOSE)等操作。现在,通过新增的内部缓冲器,U85还能支持逐元素操作符的链式处理,这有助于最大限度地减少中间数据传输到静态随机存取存储器(SRAM)。
业内人士提到,Ethos-U85的权重解码器——它从DMA控制器读取权重数据流,进行解压缩,并将其存储在为乘累加单元(MAC units)准备的双缓冲寄存器中——已经被优化以提高效率。
操作符链式处理、新的快速权重解码器以及MAC阵列的改进效率,这三个因素共同促成了整体能效20%的提升。
此外,Ethos-U85还提供了对2位和4位稀疏性的原生硬件支持。尽管Arm目前的NPU产品线,从Cortex-M到Cortex-A,再到NPU的算力从256 GOPS到4 TOPS,已经具备了很好的可扩展性,但Arm相关负责人表示,未来可能会推出更强大的NPU。
他说道:“我们正在探索性能的下一个发展点,也就是人们接下来需要帮助的地方。在软件方面还有很多工作要做,而我们的软件生态系统对此至关重要。考虑高性能将如何进一步发展,将是一个有趣的下一步。”
目前,Arm第一代和第二代Ethos NPU的客户包括瑞萨电子、英飞凌、Himax和Alif半导体等。客户现在就可以利用Arm提供的虚拟硬件仿真技术来试验生成性AI模型,而Ethos-U85预计将在2025年以硅芯片的形式面向市场。