0

0

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

看不見的法師

看不見的法師

发布时间:2025-04-22 16:04:01

|

328人浏览过

|

来源于php中文网

原创

新智元报道

编辑:编辑部 JHYZ

【新智元导读】刚刚发布的AIME 2025 I数学竞赛大模型参赛结果显示,o3-mini以78%的成绩拔得头筹,DeepSeek R1则以65%的成绩位列第四。然而,一位教授却发现了惊人的事实:一些仅1.5B参数的小模型居然也能达到50%的成绩。这是否意味着数据集存在污染?大语言模型究竟是真正学会了解决数学问题,还是仅仅记住了答案?

关于LLM的「Generalize VS Memorize」之争,近日有了新的进展。

苏黎世联邦理工学院的研究员Mislav Balunović在X上公布了一系列顶级AI推理模型在AIME 2025 I比赛中的表现。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜其中,o3-mini (high)以极低的成本解决了78%的问题,令人印象深刻。

DeepSeek-R1解决了65%的问题,其蒸馏变体也表现出色,确立了其在开源模型中的领先地位。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜图中,绿色代表解答率超过75%,黄色代表解答率在25%-75%之间,红色代表解答率低于25%。

然而,这些结果是否真的可信?

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜AI能够解决奥数题,是因为题目已经在网上泄露了吗?

威斯康星大学麦迪逊分校的教授,现任微软研究员的Dimitris Papailiopoulos对此结果提出了质疑。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜教授对AI模型在数学题上的表现感到惊讶。

他原本认为,小型蒸馏模型在面对这些题目时应该表现不佳,没想到它们却取得了25%到50%的分数。

这真是出乎意料!

要知道,如果这些题目是全新的,模型在训练过程中从未见过,那么小模型能拿到0分以上的分数就已经很不错了。

一个1.5B参数的模型连三位数的乘法都做不好,却能解决奥数题,这合理吗?

这不禁让人怀疑其中是否有问题。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜AIME I指的是2025年首场美国邀请数学考试,学生需要在三个小时内挑战15道难题。

猜猜发生了什么?

教授使用OpenAI Deep Research进行搜索后发现,AIME 2025的第1题在Quora上已经有了「原题」!

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜而且这并非巧合,教授再次使用Deep Research查找了第3题,结果在math.stackexchange上找到了一个非常相似的问题:

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜仍然感到怀疑的教授,使用DeepResearch继续查找了第7题。

结果发现,一个完全相同的问题出现在2023年佛罗里达在线数学公开赛的第9题中。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜接下来,教授放弃了,因为p值已经低得不能再低。

HTTPie AI
HTTPie AI

AI API开发工具

下载

他提出了疑问:这对数学基准意味着什么?对RL的快速发展又意味着什么?

教授表示自己并不确定,但他也不排除GRPO(一种强化学习优化策略)在增强模型记忆的同时,也提高了其数学技能的可能性。

至少,这件事表明了一点:数据净化非常困难。

永远不要低估你在互联网上能找到的东西。几乎所有东西都能在网上找到。

网友们也表示,虽然数学奥赛每年都会出新题,但根本无法100%保证之前没有同样的问题出现过。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜还有好奇的网友也进行了搜索。

其中,第6题似乎有原题,第8题和第10题都有略微相似的题型。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜这不禁让人想起OpenAI秘密资助某数据集的旧闻:如果没有特殊目的,为什么不告诉出题的数学家呢?

难道真如网友Noorie所言「数据去污才是新的Scaling Law」?

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜什么是MathArena?

MathArena是一个用于评估大模型在最新数学竞赛和奥林匹克竞赛中的表现的平台。

它的核心使命是,对LLM在「未见过的数学问题」上的推理能力和泛化能力进行严格评估。

为了确保评估的公平性和数据的纯净性,研究人员仅在模型发布后进行竞赛测试,避免使用可能泄漏的或预先训练的材料进行回溯评估。

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜通过标准化评估,MathArena能够确保模型的得分可以实际比较,而不会受到模型提供方特定评估设置的影响。

与此同时,研究人员会为每个竞赛发布一个排行榜,显示不同模型在各个单独问题上的得分。

此外,他们还将公开一个主表格,展示各个模型在所有竞赛中的整体表现。

为公平评估模型的表现,针对每个问题,每个模型均会进行4次重复评估,最后计算出平均得分以及模型运行成本(以美元计)。

参考资料:

https://www.php.cn/link/ef368049651bc5781718a8d879d9cd24

https://www.php.cn/link/4739d8dbd05dddb73604f6240b83ea68

https://www.php.cn/link/db03d49be7f821909335a60ea7fb7c59

https://www.php.cn/link/ca708d0d44450d9cb93c897bf6515cd3

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1668

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

38

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

3

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

3

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号