首页 > 全部资讯 > 市场调查报告 > 2024年人工智能全景报告(三)
芯达茂广告F 芯达茂广告F

2024年人工智能全景报告(三)

根据State of AI,大语言模型在规划和模拟任务上仍面临挑战,在新型任务中,大型语言模型无法依赖记忆和检索,因此性能通常会下降。这表明在没有外部帮助的情况下,大语言模型很难将所学内容泛化到熟悉的模式之外。即使像GPT-4这种先进的大型语言模型,也很难在基于文本的游戏中可靠地模拟状态转换,特别是对环境驱动的变化。这些大型语言模型无法一致地理解因果关系、物理规律和物体的恒存性,因此也不能很好地完成一个相对简单的任务。

大型语言模型在规划和模拟任务上面临的挑战使人工智能行业重新聚焦于通用人工智能(AGI)。是指一种具备广泛智能的人工智能系统,能够像人类一样在多种不同的领域和任务上进行学习和适应。与当前流行的专用人工智能(如深度学习模型,它们通常只能在特定任务上表现出色)不同,AGI的目标是创造出能够理解、学习和应用知识于广泛领域的智能体。实现AGI是一个极其复杂和挑战性的任务,涉及到计算机科学、认知科学、神经科学、心理学等多个学科的知识。目前,AGI仍然是一个研究领域中的长期目标,尽管在某些特定领域(如图像识别、自然语言处理等)取得了显著进展,但距离实现真正的AGI还有很长的路要走。

图:大语言模型在规划和模拟任务上仍面临挑战

AGI的发展也引发了广泛的伦理和社会讨论,包括机器智能超越人类智能的可能性、就业影响、决策权的分配、隐私保护等问题。因此,AGI的研究不仅仅是技术问题,还涉及到深刻的社会和哲学问题。

根据State of AI,历史上,大型语言模型在这项基准测试中的表现不佳,性能最高约为34%。目前的最高得分是46分(目标为85分)。这个成绩是由Minds AI团队取得的,他们采用了基于大型语言模型的方法,通过主动推理、在测试任务示例上微调LLM,并扩展合成示例来提高性能。为了推动通用人工智能的发展,一些社会机构还推出奖金激励。例如:Keras的创始人François Chollet和Zapier联合创始人Mike Knoop合作推出了ARC奖金,他们设立了一个100万美元的奖金池,用于奖励那些在ARC-AGI基准测试上取得重大进展的团队。ARC-AGI基准测试于2019年创建,目的是为了衡量模型的泛化能力。这个测试专注于那些对人类来说容易但对AI来说困难的任务。

图:大型语言模型在规划和模拟任务上面临的挑战使人工智能行业重新聚焦于通用人工智能

AI的泛化能力是指模型对未见过的数据进行预测的能力。一个具有良好泛化能力的模型可以在训练集之外的数据上表现出良好的效果,而不仅仅是在训练集上拟合得很好。泛化能力强的模型能够抓住数据背后的普遍规律,而不是仅仅记忆训练数据中的特征和标签。这意味着,即使面对新的、未知的数据,模型也能做出准确的预测或决策。泛化能力是衡量AI模型在实际应用中性能的关键指标。通过理解和提高模型的泛化能力,我们可以开发出更加强大、更加可靠的AI系统,以应对多变和复杂的现实世界问题。在高级人工智能研究和应用中,如GPT模型,泛化能力尤为重要。GPT模型通过在大量文本数据上预训练,学习到丰富的语言知识,然后在特定任务上进行微调。GPT模型之所以能够在多种自然语言处理任务上表现出色,正是因为它具有优秀的泛化能力,能够将在预训练阶段学到的知识应用到看似不相关的任务上。ARC-AGI的设计强调了泛化能力的重要性,因为它要求AI系统能够在没有见过的新环境中适应,并且能够解决其训练数据之外的问题。


相关阅读:

2024年人工智能全景报告(一)

2024年人工智能全景报告(二)



相关新闻推荐

登录

注册

登录
{{codeText}}
登录
{{codeText}}
提交
关 闭
订阅
对比栏
对比 清空对比栏