根据State of AI,随着越来越多的大语言模型开始表现出优秀的基准性能时,研究人员也越来越多的关注到数据采集污染问题。即测试集或验证集数据泄露到训练集中的情况。数据污染是机器学习领域中的一个重要问题,特别是随着大型语言模型和深度学习技术的发展,数据集的大小和复杂性不断增加,数据污染的风险也随之提高。当用于评估模型性能的测试集数据泄露到模型预训练的数据集中时,就发生了数据污染。
目前研究人员试图纠正广泛使用的基准测试中存在的问题。但是基准测试的挑战具有两面性,在一些广受欢迎的基准测试中,错误率更高,这就有可能会导致这些模型的能力被低估并带来安全隐患。同时,过度拟合的诱惑也很大。
国产AI大模型正蓬勃发展
根据State of AI 报告,尽管受到美国的制裁,但国产的AI大语言模型仍在大放异彩。例如由DeepSeek、零一万物、Zhipu AI 和阿里巴巴等公司开发的模型在LMSYS排行榜上占据了显著位置,特别是在数学和编程方面展现了令人瞩目的成果。另一方面,中国的最强模型与美国生产的前沿模型中第二梯队的最强模型具有竞争力,同时在某些子任务上也能与当前最优水平(SOTA)相比较。中国的研发团队为了弥补在GPU访问方面的限制,将计算效率放在首位,从而能更有效地利用资源。并且中国的研发团队有着不同的优势。例如,DeepSeek在推理过程中减少了对内存的需求,开创了诸多如多头潜在注意力(Multi-head Latent Attention)等新技术,并增强了混合专家(Mixture of Experts,MoE)架构。
图:国产AI大模型蓬勃发展
此外,中国的开源项目也在全球范围内收获了较高的人气和认可,它们对全球技术生态系统做出了重大贡献。例如,DeepSeek因其速度、轻量级和准确性的结合而成为了编码社区中的佼佼者。DeepSeek的deepseek-coder-v2模型在这方面尤为突出,使其成为编码任务领域的强大竞争者。
阿里巴巴最近发布的Qwen-2系列也给社区留下了深刻印象,尤其是在视觉能力方面。从具有挑战性的OCR任务到分析复杂艺术作品,Qwen-2都展示了其在计算机视觉领域的多功能性和强大实力。Qwen-2系列相比其前身Qwen1.5,实现了整体性能的代际飞跃,大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。该系列包含了五个尺寸的预训练和指令微调模型,以满足不同的计算和应用需求。
在较小的项目方面,清华大学的自然语言处理实验室资助了OpenBMB项目,该项目催生了MiniCPM项目。这些小型模型拥有少于25亿的参数,可以在设备上运行,使它们具有高度可访问性和实用性。它们的28亿参数视觉模型在某些指标上仅略微落后于GPT-4V,而基于85亿参数的Llama 3的模型在某些指标上则超过了GPT-4V,展示了这些中国开源项目的令人印象深刻的能力。
此外,清华大学的知识工程小组还创建了CogVideoX,这是目前最强大的文本到视频模型之一。这一创新进一步巩固了中国在人工智能和开源贡献领域的领先地位。
相关阅读: