今天小编(謝飛揚)要和大家分享的是OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比,欢迎阅读~
Grok-3 才发布 3 天,就陷入作弊风波。
隔壁 OpenAI 应用主管火速掀桌:每次评估中 o3-mini 都要比 Grok-3 好,看到 Grok 团队作弊真是令人失望。
咋回事?
在 Grok-3 的 Blog 中有一张 AIME 2025 评估图令人印象深刻,两个新版本模型都超过 o3-mini 高配版。
但注意看,Grok-3 两个模型的柱状图中都有 1 段颜色更浅的部分。OpenAI 指责的作弊,就是在这里。
浅色部分代表了 Grok-3 模型在 Con@64 上的成绩。
即这是模型进行 64 次答案后的成绩,而不是单次回答。
那么问题就来了,被拿来对比的 o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking 似乎并没有这部抽成绩。
有人就表示,如果真是如此,那么 Grok-3 推理模型只是和 o1 相当。OpenAI 和 xAI 之间依旧差了 9 个月。
OpenAI 负责模型设计的研究员 Aidan McLaughlin 更是激情开麦,表示马斯克发布时说的话极其有误导性,这会让人以为浅蓝色部分是通过推理实现的成绩。
不过值得一提的是,这种模型评估对比方法似乎是 OpenAI 开了头。o3-mini 的 Blog 中,也看到了类似形式的评估。
所以,为啥这么对比不合理?
采用 cons@64,o1 都能和 o3-mini 相当
首先明确概念:
cons@64:让模型生成 64 个答案,最终采用出现频率最高的回答。
pass@64:如果 64 个答案中只要有一个答案正确,模型就得分。
所以有人就说了,问题的关键不是 xAI 不应该使用 cons@64;
关键在于,如果其他模型只是尝试了一次,那就不太公平了。
因为 blog 中并没有说清楚,所以假定是这种情况。
有 AI 博主也列出了搜集到的相关数据,o3-mini 在单次回答上的表现更好。
其次,根据 o3-mini 的 blog,o1 模型采用 cons@64 成绩,甚至可以和 o3-mini 打个相当。
这意味着采用 cons@64 成绩是 " 有优势 " 的。
有人也揪着这事不放,但是 OpenAI 确实没让 o3-mini 用 cons@64。
最后,Grok-3 发布时的说法似乎有一定误导性。
有人贴出来了原片段。在被问及评估图中的浅色部分是什么时,官方给出的解释是:
这些模型可以推理、可以思考,可以要求模型思考更长、花更多时间进行测试时推理。这种情况下,这些浅色部分意味着我们只是花费更多时间让模型解决同一个问题,然后它才会得出什么是正确的答案。如果这样做,模型甚至可以表现得更好。
OpenAI 研究员 Aidan 觉得这段话极具误导性,他只是说使用更多测试时计算,听起来像是做更多推理,但其实不是如此。
总而言之,Grok 团队这么干确实有点不地道。
吃瓜到这,网友们不免开始蛐蛐:
Grok-3 不如 o3-mini,马斯克就会给团队上压力。然后想出的好办法就是在基准测试上做手脚。
以及为啥都不和 Claude 做对比呢?
不过也有人觉得这事不能一棒子打死,Grok 仍旧有很多值得关注的方面。比如 Grok-3 一个月前才完成预训练,这只是一个月内基于 CoT 的后训练结果,模型还有很大的提升空间。此外 xAI 正在以行业内最快的速度扩展预训练计算能力。
以及 Grok-3 发布后,开发者们已经火速琢磨出了一些有趣的新玩法。
轻松开发小游戏
这不,有人就晒出了在特斯拉上完用 Replit+Grok 开发的小游戏。
还有曾在微软深度参与 Windows 系统开发的大佬 Dave Plummer,也用 Grok-3 复刻了经典的打砖块游戏。
他为 Windows 创建了任务管理器、为 Windows 完成了对 zip 檔案的支持。
这一次,他展示了如何只用几句话就让 Grok-3 开发小游戏。
提示词都很简单:
" 来做个彩色版打砖块怎么样 "
" 让球自动移动,并让球每次从球拍上弹起时速度提高 10%"
" 很好,球在垂直弹射时会卡住。一开始游戏是怎么设计的?do the same"
最后得到的效果是这样的:
值得一提的是,马斯克最近证实了成立了 AI 游戏工作室的消息,他要让游戏再次伟大(doge)。
参考链接:
[ 1 ] https://x.com/BorisMPower/status/1892407015038996740
[ 2 ] https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/
[ 3 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code
关于OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比就分享完了,您有什么想法可以联系小编(謝飛揚)。