今天小編(謝飛揚)要和大家分享的是Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作,歡迎閱讀~
AI Agents(智能體)也有自己的 " 摩爾定律 " 了?!
就在最近,Nature 報道了一項來自非營利研究機構 METR 的最新發現:
AI 在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月翻一番。
為了衡量 Agent 自動完成任務的能力變化,研究人員提出了 "50%- 任務完成時間跨度(50%-task-completion time horizon)" 這一指标。
他們以 50% 任務成功率為基準,假設 2019 年 AI 達到這一目标所需時間對應人類需要的時間為 10 分鍾,那麼 7 個月後,其對應的人類完成任務時間則變成了 20 分鍾。
換句話說,AI 能夠勝任越來越多人工耗時久的任務,能力逐漸更強。
2024 年這一增長速度變得更快了,一些最新模型大約每三個月翻一番。
按照預測,大約五年後,AI 就能自動完成很多人類現在要花一個月才能完成的任務。
網友們紛紛表示,這下終于對 AI 進步神速有實感了!
提出 "50%- 任務完成時間跨度 " 指标
在 METR 的介紹中,他們将這一發現命名為 "Moore ’ s Law for AI agents",也就是 " 智能體摩爾定律 "。
下面我們詳細展開其研究方法。
整體而言,他們主要是讓 AI 和一些專業人員在相似條件下嘗試完成任務,然後測量人類所需要的時間,最終來比較 AI 成功率如何随着人類完成時間的長短而變化。
這第一步,研究團隊選擇了三個不同的任務套件來評估 AI 模型的能力:
97 個 HCAST 任務,涵蓋軟體工程、機器學習、網絡安全和一般推理挑戰的多樣化任務集合,難度從幾分鍾到 30 小時;
7 個 RE-Bench 任務,由七個開放式的機器學習研究工程環境組成,每個需人類專家約 8 小時完成;
66 個 SWAA 任務,代表軟體開發過程中的單個步驟操作,時長 1 秒到 30 秒。
接下來,為了量化評估 AI 模型的表現,團隊招募了800 多名軟體工程、機器學習和網絡安全領網域的專業人員執行任務,并記錄他們完成任務所需的時間。
據 METR 介紹,在這些任務中,人類完成時間從 1 秒到 16 小時不等。
這些時間被當作衡量任務難度的标準。
然後他們又評估了從 2019 年到 2025 年發布的13 個前沿 AI 模型,包括 GPT 系列和 o1、Sonnet 3.7 等,通過在構建的任務套件上運行這些模型,并記錄它們完成任務的成功率。
關鍵來了,随後他們引入了一個新的指标——50% 任務完成時間跨度(50%-task-completion time horizon),即 AI 模型在 50% 的成功率下能夠完成的任務的平均時間長度。
之所以選擇 50% 這一成功率,主要是它對于數據分布的微小變化最為穩健。
簡單說,當數據的分布(即數據的特征、比例或趨勢等)發生一些小的變化時,這個指标不會受到太大的影響,仍然能夠保持相對穩定的表現。
論文作者之一 Lawrence Chan 表示:
如果你選擇非常低或非常高的阈值,那麼分别移除或增加一個成功或失敗的任務,就會對你的估計值產生很大的影響。
利用這一指标,團隊通過對 AI 模型在各個任務上的成功與失敗數據進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到 50% 之時,對應的人類完成任務的時間。
(每個模型在每個任務上運行 8 次,記錄成功率)
有了這些數據,團隊最終繪制了模型自主性随時間呈指數變化的圖表。
發現 "AI 智能體摩爾定律 "
如上圖所示,研究的主要發現是:
自 2019 年以來,AI 模型的時間跨度呈現出指數級增長,每七個月左右翻一番。
為了驗證研究結果的外部有效性,他們又進行了以下四個實驗:
1、用 2023-2025 年數據回溯預測,驗證趨勢一致性;
2、對 HCAST 和 RE-Bench 任務基于 16 個 " 混亂 " 因素評級,分析任務混亂程度對模型性能的影響;
3、在其他 SWE-bench Verified 數據集上應用相同方法,對比結果;
4、在内部 Pull Requests(PR)任務上測試模型性能,與人類基線對比。
最終,這一趨勢得到了以上外部驗證。
比如在第 2 個實驗中,所謂的 16 個 " 混亂(messy)" 因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及實時協調或是否源自現實世界的環境。
每個任務都根據這些因素得到了一個 " 混亂度(messiness score)" 分數。
研究人員發現,盡管 AI 模型在更加混亂的任務上(比如缺乏明确提示和反饋、需要 AI 主動去獲取信息、任務條件和要求比較模糊等情況)的絕對性能較低,但另一方面其性能在穩步提升。
更有意思的是,不管任務的 " 混亂 " 程度如何,AI 都是以相似的速度在提升。
再比如在 SWE-bench Verified 基準上的驗證,他們也觀察到了一個類似的指數級增長趨勢。
不過由于标注時間的問題,該基準測試的時間跨度翻倍時間更短。
總之,按照 " 智能體摩爾定律 " 進行預測,AI 可能在 2028 年 11 月達到一個月的任務時間跨度;而在較為保守的估計下,這一目标可能在 2031 年 2 月實現。
METR 團隊認為,雖然研究還存在任務套件具有局限性、評估指标不完美、未來 AI 發展具有不确定性等需要完善的地方,但很确信這一指标每年有 1~4 倍的增長趨勢。
而結合現實中 Manus 智能體的走紅,我們已經能夠預見到智能體将迎來爆發。
論文:
https://arxiv.org/pdf/2503.14499
參考鏈接:
[ 1 ] https://www.nature.com/articles/d41586-025-00831-8
[ 2 ] https://x.com/METR_Evals/status/1902384481111322929
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
最後一周!2025 年值得關注的 AIGC 企業產品 報名即将截止
下一個 AI" 國產之光 " 将會是誰?歡迎申報獎項!
本次評選結果将于 4 月 16 日中國 AIGC 產業峰會上公布。
一鍵星标
科技前沿進展每日見
關于Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作就分享完了,您有什麼想法可以聯系小編(謝飛揚)。