根据中国界面新闻报道,小米正在积极构建自己的GPU万卡集群,并计划大力投入AI大模型的研发。自2023年4月成立以来,小米的AI模型团队已经拥有6500个GPU资源。雷军在团队成立时就强调了公司对AI的长期承诺,并提到小米的AI实验室、小爱语音助手及自动驾驶团队等。2023年晚些时候,雷军在小米的年度活动中进一步阐述了AI模型的进展,特别是强调团队专注于轻量级、可本地部署的解决方案。目前,小米已经在其智能手机上运行了13亿参数的大型AI模型,并在某些场景下,其性能已接近60亿参数的云端模型。此外,2023年12月20日,DeepSeek-V2开源模型的关键开发者罗富力加入小米AI实验室,领导大模型的工作。自2016年成立以来,小米的AI部门已经扩展到3000多人,涵盖视觉、语音、自然语言处理、机器学习和多模态AI等多个领域,小米大型语言模型“MiLM”已注册,计划应用于小米汽车、手机、智能家居等产品,实现设备协同,提升用户体验,推动人、车、家全生态战略落地。除小米外,国内的一些科技巨头也纷纷在AI大模型投注,展现出强大的技术实力和广泛的应用潜力。从基础模型性能的提升到应用的扩展,国产大模型在多个方面实现了突破,逐步走向全球人工智能舞台的中心。
一、百度文心大模型:多维度创新引领发展
百度文心大模型在 2024 年持续发力,在性能、技术和应用方面取得显著成果。6 月发布的文心 4.0turbo 实现了模型性能 48% 的提升,为各类 AI 应用提供了更为强大的动力。其推出的检索增强的文生图技术 irag 有效降低了大模型在文生图方面的幻觉,使得生成的图像更加贴近用户需求和现实逻辑。文心智能体平台汇聚了 15 万家企业和 80 万开发者,形成了庞大的创新生态,共同推动 AI 技术在各个领域的深度应用。百度文库凭借上百项多模态 AI 能力的加持,特别是自由画布等创新功能,吸引了超 7000 万月活用户,实现了从传统文档平台向智能化服务提供商的转型。
二、Tele - FLM - 1T:低碳高效的创新典范
智源研究院和中国电信人工智能研究院联合研发的 Tele - FLM - 1T 作为全球首个低碳单体稠密万亿语言模型,在能效和性能之间找到了新的平衡。这一模型的出现,不仅体现了国产大模型在技术创新上的探索精神,也为全球人工智能领域应对环境挑战提供了宝贵经验。在追求高性能计算的同时,Tele - FLM - 1T 通过优化算法和硬件利用,成功降低了能耗,为大模型在可持续发展框架下的大规模应用奠定了基础。

图:小米加大AI大模型的投入(图源:界面新闻)
三、DeepSeek V3:性能与效率的双重突破
DeepSeek V3 以其 671B 的参数量和 MoE 模型架构,在多项测评中脱颖而出,达到开源领域的领先水平。超越 Llama 3.1 405B 的性能表现,使其能够与 GPT - 4o、Claude 3.5 Sonnet 等顶尖模型一较高下。尤为值得关注的是其高效的训练过程,仅用不到 280 万个 GPU 小时就完成训练,相较于同类模型大幅缩短训练时间,同时训练成本也显著降低。3.7 天就能完成每万亿 token 的训练速度,以及每秒生成 60 个 tokens 的高效生成能力,让 DeepSeek V3 在实际应用中具备了更高的响应速度和处理效率。
四、CodeGeeX4 - ALL - 9B:代码生成能力的跃升
智谱 AI 的 CodeGeeX4 - ALL - 9B 在代码生成领域取得了重要突破。基于 GLM - 4 强大的语言能力迭代而来,该模型大幅增强了代码生成的全方位能力,涵盖代码补全、生成、解释、联网搜索、工具调用以及仓库级长代码问答等功能。无论是简单的代码片段生成还是复杂的项目级代码辅助,CodeGeeX4 - ALL - 9B 都能为开发者提供精准、高效的支持,极大地提升了编程开发的效率和质量。
五、vivo 蓝心大模型:端云结合的行业探索
vivo 蓝心大模型作为中国 AI 端云结合的典型代表,充分发挥了端侧化和矩阵化的优势。通过将大模型技术与手机行业深度融合,vivo 致力于重构手机功能,探索众多落地场景,为用户带来更加智能、便捷的体验。从智能语音助手到图像识别优化,蓝心大模型在手机端的应用不仅提升了用户体验,也为移动终端设备的智能化发展提供了新的思路和范例。
六、国产大模型的应用前景与挑战
这些国产大模型的进步,不仅推动了人工智能技术在国内的广泛应用,如智能写作、图像生成、智能客服、编程辅助等领域,还为相关产业的升级和创新提供了技术支撑。然而,国产大模型在发展过程中也面临一些挑战,如数据质量和隐私保护、算法可解释性、人才竞争等。
