Nature发文「智能体摩尔定律」，Agent能力每7个月翻倍，5年后能顶人类苦干一个月的工作

今天小编(謝飛揚)要和大家分享的是Nature发文「智能体摩尔定律」，Agent能力每7个月翻倍，5年后能顶人类苦干一个月的工作,欢迎阅读~

AI Agents（智能体）也有自己的 " 摩尔定律 " 了？！

就在最近，Nature 报道了一项来自非营利研究机构 METR 的最新发现：

AI 在完成长期任务方面的进步速度惊人，其时间跨度大约每七个月翻一番。

为了衡量 Agent 自动完成任务的能力变化，研究人员提出了 "50%- 任务完成时间跨度（50%-task-completion time horizon）" 这一指标。

他们以 50% 任务成功率为基准，假设 2019 年 AI 达到这一目标所需时间对应人类需要的时间为 10 分钟，那么 7 个月后，其对应的人类完成任务时间则变成了 20 分钟。

换句话说，AI 能够胜任越来越多人工耗时久的任务，能力逐渐更强。

2024 年这一增长速度变得更快了，一些最新模型大约每三个月翻一番。

按照预测，大约五年后，AI 就能自动完成很多人类现在要花一个月才能完成的任务。

网友们纷纷表示，这下终于对 AI 进步神速有实感了！

提出 "50%- 任务完成时间跨度 " 指标

在 METR 的介绍中，他们将这一发现命名为 "Moore ’ s Law for AI agents"，也就是 " 智能体摩尔定律 "。

下面我们详细展开其研究方法。

整体而言，他们主要是让 AI 和一些专业人员在相似条件下尝试完成任务，然后测量人类所需要的时间，最终来比较 AI 成功率如何随着人类完成时间的长短而变化。

这第一步，研究团队选择了三个不同的任务套件来评估 AI 模型的能力：

97 个 HCAST 任务，涵盖軟體工程、机器学习、网络安全和一般推理挑战的多样化任务集合，难度从几分钟到 30 小时；

7 个 RE-Bench 任务，由七个开放式的机器学习研究工程环境组成，每个需人类专家约 8 小时完成；

66 个 SWAA 任务，代表軟體开发过程中的单个步骤操作，时长 1 秒到 30 秒。

接下来，为了量化评估 AI 模型的表现，团队招募了800 多名軟體工程、机器学习和网络安全领網域的专业人员执行任务，并记录他们完成任务所需的时间。

据 METR 介绍，在这些任务中，人类完成时间从 1 秒到 16 小时不等。

这些时间被当作衡量任务难度的标准。

然后他们又评估了从 2019 年到 2025 年发布的13 个前沿 AI 模型，包括 GPT 系列和 o1、Sonnet 3.7 等，通过在构建的任务套件上运行这些模型，并记录它们完成任务的成功率。

关键来了，随后他们引入了一个新的指标——50% 任务完成时间跨度（50%-task-completion time horizon），即 AI 模型在 50% 的成功率下能够完成的任务的平均时间长度。

之所以选择 50% 这一成功率，主要是它对于数据分布的微小变化最为稳健。

简单说，当数据的分布（即数据的特征、比例或趋势等）发生一些小的变化时，这个指标不会受到太大的影响，仍然能够保持相对稳定的表现。

论文作者之一 Lawrence Chan 表示：

如果你选择非常低或非常高的阈值，那么分别移除或增加一个成功或失败的任务，就会对你的估计值产生很大的影响。

利用这一指标，团队通过对 AI 模型在各个任务上的成功与失败数据进行逻辑回归分析，计算出每个模型的时间跨度，也就是模型完成任务成功率达到 50% 之时，对应的人类完成任务的时间。

（每个模型在每个任务上运行 8 次，记录成功率）

有了这些数据，团队最终绘制了模型自主性随时间呈指数变化的图表。

发现 "AI 智能体摩尔定律 "

如上图所示，研究的主要发现是：

自 2019 年以来，AI 模型的时间跨度呈现出指数级增长，每七个月左右翻一番。

为了验证研究结果的外部有效性，他们又进行了以下四个实验：

1、用 2023-2025 年数据回溯预测，验证趋势一致性；

2、对 HCAST 和 RE-Bench 任务基于 16 个 " 混乱 " 因素评级，分析任务混乱程度对模型性能的影响；

3、在其他 SWE-bench Verified 数据集上应用相同方法，对比结果；

4、在内部 Pull Requests（PR）任务上测试模型性能，与人类基线对比。

最终，这一趋势得到了以上外部验证。

比如在第 2 个实验中，所谓的 16 个 " 混乱（messy）" 因素是指现实任务比研究任务更难的方面，包括任务是否受到有限资源的限制、是否涉及实时协调或是否源自现实世界的环境。

每个任务都根据这些因素得到了一个 " 混乱度（messiness score）" 分数。

研究人员发现，尽管 AI 模型在更加混乱的任务上（比如缺乏明确提示和反馈、需要 AI 主动去获取信息、任务条件和要求比较模糊等情况）的绝对性能较低，但另一方面其性能在稳步提升。

更有意思的是，不管任务的 " 混乱 " 程度如何，AI 都是以相似的速度在提升。

再比如在 SWE-bench Verified 基准上的验证，他们也观察到了一个类似的指数级增长趋势。

不过由于标注时间的问题，该基准测试的时间跨度翻倍时间更短。

总之，按照 " 智能体摩尔定律 " 进行预测，AI 可能在 2028 年 11 月达到一个月的任务时间跨度；而在较为保守的估计下，这一目标可能在 2031 年 2 月实现。

METR 团队认为，虽然研究还存在任务套件具有局限性、评估指标不完美、未来 AI 发展具有不确定性等需要完善的地方，但很确信这一指标每年有 1~4 倍的增长趋势。

而结合现实中 Manus 智能体的走红，我们已经能够预见到智能体将迎来爆发。

论文：

https://arxiv.org/pdf/2503.14499

参考链接：

[ 1 ] https://www.nature.com/articles/d41586-025-00831-8

[ 2 ] https://x.com/METR_Evals/status/1902384481111322929

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

最后一周！2025 年值得关注的 AIGC 企业产品报名即将截止

下一个 AI" 国产之光 " 将会是谁？欢迎申报奖项！

本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。

一键星标

科技前沿进展每日见

关于Nature发文「智能体摩尔定律」，Agent能力每7个月翻倍，5年后能顶人类苦干一个月的工作就分享完了，您有什么想法可以联系小编(謝飛揚)。

相关推荐