高馬爾
一個信息發佈的網站

OpenAI實名舉報Grok3作弊,一題答64次踩着台階和o3-mini比

今天小編(謝飛揚)要和大家分享的是OpenAI實名舉報Grok3作弊,一題答64次踩着台階和o3-mini比,歡迎閲讀~

Grok-3 才發布 3 天,就陷入作弊風波

隔壁 OpenAI 應用主管火速掀桌:每次評估中 o3-mini 都要比 Grok-3 好,看到 Grok 團隊作弊真是令人失望。

咋回事?

在 Grok-3 的 Blog 中有一張 AIME 2025 評估圖令人印象深刻,兩個新版本模型都超過 o3-mini 高配版。

但注意看,Grok-3 兩個模型的柱狀圖中都有 1 段顏色更淺的部分。OpenAI 指責的作弊,就是在這裏。

淺色部分代表了 Grok-3 模型在 Con@64 上的成績。

即這是模型進行 64 次答案後的成績,而不是單次回答

那麼問題就來了,被拿來對比的 o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking 似乎并沒有這部抽成績。

有人就表示,如果真是如此,那麼 Grok-3 推理模型只是和 o1 相當。OpenAI 和 xAI 之間依舊差了 9 個月。

OpenAI 負責模型設計的研究員 Aidan McLaughlin 更是激情開麥,表示馬斯克發布時説的話極其有誤導性,這會讓人以為淺藍色部分是通過推理實現的成績。

不過值得一提的是,這種模型評估對比方法似乎是 OpenAI 開了頭。o3-mini 的 Blog 中,也看到了類似形式的評估。

所以,為啥這麼對比不合理?

采用 cons@64,o1 都能和 o3-mini 相當

首先明确概念:

cons@64:讓模型生成 64 個答案,最終采用出現頻率最高的回答。

pass@64:如果 64 個答案中只要有一個答案正确,模型就得分。

所以有人就説了,問題的關鍵不是 xAI 不應該使用 cons@64;

關鍵在于,如果其他模型只是嘗試了一次,那就不太公平了。

因為 blog 中并沒有説清楚,所以假定是這種情況。

有 AI 博主也列出了搜集到的相關數據,o3-mini 在單次回答上的表現更好。

其次,根據 o3-mini 的 blog,o1 模型采用 cons@64 成績,甚至可以和 o3-mini 打個相當。

這意味着采用 cons@64 成績是 " 有優勢 " 的。

有人也揪着這事不放,但是 OpenAI 确實沒讓 o3-mini 用 cons@64。

最後,Grok-3 發布時的説法似乎有一定誤導性。

有人貼出來了原片段。在被問及評估圖中的淺色部分是什麼時,官方給出的解釋是:

這些模型可以推理、可以思考,可以要求模型思考更長、花更多時間進行測試時推理。這種情況下,這些淺色部分意味着我們只是花費更多時間讓模型解決同一個問題,然後它才會得出什麼是正确的答案。如果這樣做,模型甚至可以表現得更好。

OpenAI 研究員 Aidan 覺得這段話極具誤導性,他只是説使用更多測試時計算,聽起來像是做更多推理,但其實不是如此。

總而言之,Grok 團隊這麼幹确實有點不地道。

吃瓜到這,網友們不免開始蛐蛐:

Grok-3 不如 o3-mini,馬斯克就會給團隊上壓力。然後想出的好辦法就是在基準測試上做手腳。

以及為啥都不和 Claude 做對比呢?

不過也有人覺得這事不能一棒子打死,Grok 仍舊有很多值得關注的方面。比如 Grok-3 一個月前才完成預訓練,這只是一個月内基于 CoT 的後訓練結果,模型還有很大的提升空間。此外 xAI 正在以行業内最快的速度擴展預訓練計算能力。

以及 Grok-3 發布後,開發者們已經火速琢磨出了一些有趣的新玩法。

輕松開發小遊戲

這不,有人就曬出了在特斯拉上完用 Replit+Grok 開發的小遊戲。

還有曾在微軟深度參與 Windows 系統開發的大佬 Dave Plummer,也用 Grok-3 復刻了經典的打磚塊遊戲。

他為 Windows 創建了任務管理器、為 Windows 完成了對 zip 檔案的支持。

這一次,他展示了如何只用幾句話就讓 Grok-3 開發小遊戲。

提示詞都很簡單:

" 來做個彩色版打磚塊怎麼樣 "

" 讓球自動移動,并讓球每次從球拍上彈起時速度提高 10%"

" 很好,球在垂直彈射時會卡住。一開始遊戲是怎麼設計的?do the same"

最後得到的效果是這樣的:

值得一提的是,馬斯克最近證實了成立了 AI 遊戲工作室的消息,他要讓遊戲再次偉大(doge)。

參考鏈接:

[ 1 ] https://x.com/BorisMPower/status/1892407015038996740

[ 2 ] https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/

[ 3 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code

關于OpenAI實名舉報Grok3作弊,一題答64次踩着台階和o3-mini比就分享完了,您有什麼想法可以聯系小編(謝飛揚)。