今天小编(繁綺文)要和大家分享的是DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题,欢迎阅读~
国产 AI 几何模型性能达 IMO 金牌水平,打平谷歌 DeepMind 最新 AlphaGeometry 系列——
TongGeometry,使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder。
它能解决 IMO-AG-30 题中的所有 30 题,在 IMO-AG-50 上也能解决 42 题,而人类金牌选手平均水平分别为:25.9、40.9。
例如,下面是 TongGeometry 提出的一道 IMO2024 几何题的解法,与标准答案完全一致:
TongGeometry不仅能解题还会出题,所出的题目甚至获得了权威数学竞赛认可。
就在去年全国高中数学联赛预赛北京地区的考试中,就有 TongGeometry 出的几何题;由美国 IMO 竞赛教练组组织的一项美国民间数学竞赛 USEMO,也收录了 TongGeometry 出的两道几何题在他们的竞赛短表中。
TongGeometry 由北京通用人工智能研究院打造,下文是更多细节。
DeepSeek 加持神经网络基础
IMO 是面向全球 200 多个国家,最顶尖高中生,所举办的最有影响力的数学竞赛。这项竞赛要求参赛选手对代数、数论、几何、组合四项类型的问题有深刻的理解。其中,几何学问题,又常常因为其优美的图形性质,受到众多参赛选手和数学爱好者们的热议。
△Th é bault 定理,2003 年前曾一度被西方认为是最难证明的几何定理之一
业界通常认为,能够代表国家参加该项赛事并获得金牌,是个人在数学研究历程上的莫大荣誉。菲尔兹奖得主陶哲轩(Terence Tao)教授,就曾经是该项赛事最年轻的金牌得主。
△陶哲轩教授参加 IMO 比赛历史记录
对比赛而言,几何题的难点就在于如何恰到好处地添加辅助线,使得原先难以推理出来的结论,能够借助辅助的点、线、圆来得到。构建这些推理的桥梁,是解决这类问题的关键。
通常,非常困难的问题需要添加数条辅助线才能完成定理的证明。
谷歌 DeepMind AlphaGeometry 最早提出了使用结合语言模型和逻辑引擎解决此类问题的方案。
在他们的方案中,语言模型负责提出可能的辅助线,推理引擎则负责检查添加辅助线后所能产生的结论是否是我们正在寻找的。如果所需要证明的定理仍然不在其中,系统则需要继续搜索可能的辅助线构造方案。
在最新的工作中,AlphaGeometry 宣称其工作超越了奥林匹克竞赛金牌得主的平均水平,能够解决 IMO-AG-30 数据集上的所有 30 题,并能解决 IMO-AG-50 上的 42 题。
而人类金牌选手的平均水平分别是,25.9 和 40.9。
△AlphaGeometry 系列工作在数据集上的表现
在 AlphaGeometry 最新工作公布后,北京通用人工智能研究院的 TongGeometry 工作也浮出水面。
相比较 AlphaGeometry1/2,TongGeometry 有如下改进:
摒弃算数推理(AR),仅仅使用归纳数据库方法(DD)
严格构造对称图形,确保几何图形上的优美性
使用马尔可夫链构造树形状搜索结构,并使用人类数据启发数据生成树的搜索方向
利用策略网络(Policy)和价值网络(Value)联合 Beam Search 进行解题
纯粹的归纳数据库方法
相比较 AlphaGeometry,TongGeometry 摒弃了 DD+AR 的方法,转而只使用 DD。
据悉,AR 方法由于计算慢,效率低,在实际测试中的严重影响性能。TongGeometry 使用的 DD 方法,包含类似 AlphaGeometry 使用的 10 个核心谓词:共线(equine),共圆(eqcircle),等长(cong),中点(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。
这套谓词表示逻辑,能够覆盖 IMO 2000-2024 年的所有几何题目中的 86.8%。
△归纳数据库方法构造对称图形,确保几何图形保持美观
相比于 AlphaGeometry 仅仅使用随机化的构造方案,TongGeometry 在设计问题搜索时就优先考虑对称图形。这种方法来自开源项目 GeoGen。在正式比赛中,多见大量对称图形。
因此,使用对称方法生成数据,能够在有限数据的情况下,尽可能确保数据符合问题的分布。
△TongGeometry 生成的对称图形使用人类数据启发搜索方向
除了在问题构造的时候优先考虑对称结构,TongGeometry 在问题生成的时候还将使用人类数据中获得的分布,指导数据生成方向。
TongGeometry 从往届 IMO,CMO,以及各大比赛中总共收集 196 题,并使用这个小数据集构造数据。从结果看,这一方法能够产生大量难度上数倍于现有 IMO 题目的构型。
△使用人类数据进行启发,TongGeometry 生成的数据难度可数倍于 IMO 现有题目难度利用策略网络和价值网络联合搜索
TongGeometry 在解题过程中,使用了类似 Reinforcement Learning 的 Policy 和 Value 两个网络。
Policy 网络用于提出可能的解题搜索方向。而 Value 网络用于从 Policy 网络提出的所有可能搜索方向中,筛选出最有用的几种方向。
结合 Beam Search 和后端的逻辑推理引擎,TongGeometry 的解题策略能够形成一个闭环。
△策略网络和价值网络联合搜索解题
此外,TongGeometry 使用的策略网络和价值网络都来自微调版本的 DeepSeek-Coder。可以说,DeepSeek 也在默默地助力 TongGeometry 的发展。
△DeepSeek-Coder 在列,作为 TongGeometry 的神经网络基础
在性能测试上,TongGeometry 技术报告显示,TongGeometry 能够解决 IMO-AG-30 题中的所有 30 题。
根据北京通用人工智能研究院的最新介绍,在 IMO-AG-50 上,TongGeometry 也能解决 42 题。注意到 TongGeometry 的技术报告公布于 2024 年 12 月份,谁才是第一个超过人类金牌选手平均水平的几何解题工具,还尚值得商榷。
△TongGeometry 在 2024 年 12 月公布的技术报告中的性能指标解题 / 出题样样精通
TongGeometry 除了是一个解题达人,还是一个出题教练。TongGeometry 的训练数据包含许多很有价值的几何关系发现,其中不乏大量具有镜像对称和旋转对称的美丽构型。
根据报告,这些题目的难度可能数倍于现有的 IMO 竞赛题目。
此外,TongGeometry 所出的题目还获得了数学竞赛的认可。在 2024 年全国高中数学联赛预赛北京地区的考试中,TongGeometry 所出的几何题就正式亮相。
△TongGeometry 在全国高中数学联赛北京卷和美国奥林匹克竞赛中的供题
去年北京地区的考生,可能神不知鬼不觉地已经经历了一次来自 AI 的测试。另外,由美国 IMO 竞赛教练组组织的一项美国民间数学竞赛 USEMO,也收录了 2 题几何题在他们的竞赛短表中(shortlist)。
△北京卷赛题几何部分记录高效推理,性能提升 18 倍
相比 AlphaGeometry 需要 246 个 CPU 核心和 4 块英伟达 V100 的高性能计算集群才能在 90 分钟解决一题相比,TongGeometry只需要 32 个 CPU 核心和 1 块 4090 就能实现满血解题。
在这一配置下,TongGeometry最多用时仅仅需要 38 分钟。
△AlphaGeometry 将解体时间控制在 90 分钟需要使用 246 核心 CPU 和 4 块英伟达 V100 的高性能计算集群
相比 AlphaGeometry 使用 246*90 核心分钟相比,TongGeometry 仅仅需要 32*38 核心分钟,性能提升 18 倍有余。在这个配置要求下,你的黑神话主机,都能用来学习几何了。
△TongGeometry 仅仅使用 32 个 CPU 核心和 1 块 4090 就能将解题时间控制在 38 分钟内
论文链接:https://arxiv.org/pdf/2412.10673
— 完 —
投稿请工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题就分享完了,您有什么想法可以联系小编(繁綺文)。