2024人工智能全景报告（五）

2024年人工智能全景报告（五）

时间：2024年12月16日编辑：Betty 来源：中国出海半导体

根据state of AI，随着人工智能市场的火热，英伟达自2020年推出A100以来，不断缩短下一代数据中心GPU的交付周期，同时显著提升TFLOPs性能（TFLOPs是衡量计算能力的单位，表示每秒执行的浮点运算次数。在高性能计算、超级计算机、图形处理单元以及深度学习等领域，TFLOPs是一个重要的性能指标，用于评估系统的计算能力。这个指标对于科学模拟、大数据分析、机器学习等需要大量计算的任务至关重要，TFLOPs越高，说明硬件在处理浮点运算方面的能力越强）。从A100到H100的时间缩短了60%，而从H200到GB200的周期又缩短了80%。在此期间，TFLOP性能增加了6倍。据悉，许多大型云公司正在大量采购GB200系统，其中微软的订单在70万至140万之间，谷歌为40万，亚马逊为36万。传闻OpenAI至少也购买了40万台GB200。

图：英伟达加速其产品发布时间同时提升TFLOPs性能

加快GPU与节点间连接提升集群性能

对于大规模集群，GPU和节点间（纵向和横向扩展）数据通信的速度至关重要。英伟达的NVLink技术在过去8年间大幅提升了带宽、链路数量和每个节点的GPU数量，显著提升了集群性能。此外，英伟达还通过InfiniBand技术连接大规模集群，进一步巩固了其市场领导地位。与此同时，国内的腾讯也在积极创新，推出星脉2.0高性能计算网络，声称支持超过10万个GPU的单集群，网络通信效率提升60%，LLM训练性能提升20%。不过，腾讯是否已经构建如此规模的集群仍未可知。

大型集群管理面临挑战

尽管集群规模在不断扩展，但运行大型集群仍然充满挑战。Meta在发布Llama 3系列时，分享了在405B预训练期间每天多达8.6次的工作中断。GPU比CPU更容易发生故障，且每个集群的情况也不同，因此持续监控非常关键。错误配置、测试不充分和故障组件常常影响系统的稳定性，而低成本电源和网络速率的可用性也至关重要。

图：大型集群管理面临挑战

大型科技公司加速硬件自主研发，削弱对英伟达依赖

为了提升与英伟达的竞争能力，许多大型科技公司加速了自主硬件的研发。例如，谷歌推出了基于Armv9架构的Axion芯片，性能比现有最快的Arm通用实例高出30%。Meta则推出了第二代AI推理加速器，计算和内存带宽是前代产品的两倍，计划未来用于生成AI的训练任务。OpenAI也在从Google的TPU团队招募人才，并与高通商讨共同开发新一代AI芯片。

AI芯片领域的挑战者崭露头角

随着英伟达的主导地位，AI芯片的挑战者也在积极争夺市场份额。Cerebras以其晶圆级引擎而闻名，已计划IPO，并在2024年上半年实现1.36亿美元收入，增幅达到15.6倍，87%的收入来自总部位于阿布扎比的G42。Groq则专注于人工智能推理任务的专用芯片，最近完成了6.4亿美元的D轮融资，估值达到28亿美元。Cerebras和Groq都以速度为核心竞争力，并积极进入云服务市场，力图在英伟达的生态系统中抢占一席之地。

软银进军AI芯片市场

软银也在加速进入AI芯片市场，旗下Arm公司计划在2025年推出首款AI芯片，并有可能以600-700亿美元收购英国初创公司Graphcore。Arm虽然已在AI领域有一定参与，但其指令集架构并不完全适合数据中心的并行处理需求，且面临英伟达在数据中心的优势。软银同时收购了Graphcore，这家公司专注于开发智能处理单元，旨在用更少的数据比GPU和CPU更高效地处理AI工作负载。

2024年人工智能全景报告（五）

时间：2024年12月16日编辑：Betty 来源：中国出海半导体

相关新闻推荐

登录

注册

2024年人工智能全景报告（五）

时间：2024年12月16日 编辑：Betty 来源：中国出海半导体

相关新闻推荐

登录

注册

时间：2024年12月16日编辑：Betty 来源：中国出海半导体