高馬爾
一個信息發佈的網站

OpenAI官方基準測試:承認Claude遙遙領先(狗頭)

今天小編(習又夏)要和大家分享的是OpenAI官方基準測試:承認Claude遙遙領先(狗頭),歡迎閱讀~

OpenAI 承認 Claude 是最好的了(狗頭)。

剛剛開源的新基準測試 PaperBench,6 款前沿大模型驅動智能體 PK 復現 AI 頂會論文,新版 Claude-3.5-Sonnet 顯著超越 o1/r1 排名第一。

與去年 10 月 OpenAI 考驗 Agent 機器學習代碼工程能力 MLE-Bnch 相比,PaperBench 更考驗綜合能力,不再是只執行單一任務。

具體來說,智能體在評估中需要復刻來自 ICML 2024 的論文,任務包括理解論文、編寫代碼和執行實驗。

最終成績如下:

Claude-3.5-Sonnet 斷崖式領先,第二名 o1-high 分數只有第一的 60%,第三名 DeepSeek-R1 又只有第二名的一半。

此外 GPT-4o 超過了推理模型 o3-mini-high 也算一個亮點。

除了 AI 之間的 PK, OpenAI 這次還招募頂尖的機器學習博士對比 o1。

雖然最終結論是 AI 在復現頂會論文上還無法超越人類,但展開時間軸發現,在工作時間 1-6 小時内 Ai 的進度還是比人類要快的。

12-24 小時階段 AI 與人類的進度相當,人類需要工作 24-48 小時才能超過 AI。

有創業者稱贊 OpenAI 這波真的 Open 了,而且不避諱競争對手的出色表現,咱們科技圈就需要這種精神。

Agent 復現頂會論文

PaperBench 選取 20 篇 ICML 2024 Spotlight 和 Oral 論文,要求 AI 創建代碼庫并執行實驗,復制論文成果,且不能使用原作者代碼。

OpenAI 與每篇論文的原作者共同制定詳細評分标準,總共包含 8316 個可單獨評分的任務。

開卷考試,也就是允許 Agent 有限聯網搜索,把原論文代碼庫和其他人復現的代碼庫拉黑名單。

完整評估流程分為 3 個階段:

Agent 在 ubuntu 容器中創建并提交復制論文的代碼庫。

在具有 GPU 訪問權限的新容器中執行代碼

裁判模型在第三個容器中給復現結果打分

評估時用分級标準打分,按葉節點、父節點逐級評分,主要指标是所有論文的平均復制分數。

評分也是由大模型自動執行,實驗發現 o3-mini 當裁判的性價比最高。

給每篇論文評分花費 66 美元,比聘請人類專家當裁判要便宜,速度也更快。

運行評估所需的代碼和數據、Docker 鏡像等正在 GitHub 逐步開源。

One More Thing

在論文的附錄中,OpenAI 還給出了讓 AI 復現頂會論文的 Prompt,有需要的朋友可以學習一下。

BasicAgent System Prompt:

強調智能體要完整復制論文,明确最終目标是讓運行 reproduce.sh 能復現論文所有指标

指導智能體使用工具逐步完成任務,避免一次性執行過多操作

要求智能體充分利用時間優化解決方案,而不是急于提交初步結果

IterativeAgent System/Continue Prompt:

強調時間很充裕,要逐步完成任務

每一步都提醒智能體使用可用的工具

強調代碼編寫規範

Task Instructions:

明确任務、可用資源、提交要求等多方面信息

給出代碼示例

最後再次強調權限、考試時間等,還提醒 AI 要真的去執行復現,而不只是寫一個計劃。

就有點像人類準考證上寫的考場須知了。

論文地址:

https://openai.com/index/paperbench/

參考鏈接:

[ 1 ] https://x.com/OpenAI/status/1907481494249255193

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟  ‍♀️

最新嘉賓曝光啦    百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

關于OpenAI官方基準測試:承認Claude遙遙領先(狗頭)就分享完了,您有什麼想法可以聯系小編(習又夏)。