讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

PHPz

发布时间：2024-03-15 12:07:23

|

673人浏览过

|

来源于机器之心

转载

合成数据持续解锁大模型的数学推理潜力！

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的语言模型（LLaMA-2-7B）在数学问题解决方面已经展现出较强的潜力，并可使用基于合成数据的有监督微调方法促使模型愈发稳定地将数学能力激发出来。

这项研究发布在 arXiv 上，题为《Common 7B Language Models Already Possess Strong Math Capabilities》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

llama-2-7b数学能力上限已达97.7%？xwin-math利用合成数据解锁潜力

论文链接：https://arxiv.org/pdf/2403.04706.pdf
代码链接：https://github.com/Xwin-LM/Xwin-LM

研究团队首先仅使用 7.5K 数据，对 LLaMA-2-7B 模型指令微调，进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明，当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时，测试准确率可分别高达 97.7% 和 72.0%，这一结果说明即使是通用预训练下 7B 量级的小模型，也具备生成优质回答的巨大潜力，这一发现挑战了以往的观点，即强大的数学推理潜力并非仅限于大规模和数学相关预训练模型。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

然而研究也指出，尽管已具备强大的数学推理潜力，但当前语言模型的主要问题是难以一致地激发其内在的数学能力。例如，在前面的实验中如果只考虑每个问题的一次生成的答案，那么在 GSM8K 和 MATH 基准测试上的准确率会分别降至 49.5% 和 7.9%。这体现出模型数学能力的不稳定性问题。为了解决这一问题，研究团队采用了扩大有监督微调（SFT）数据集的方法，并发现随着 SFT 数据的增多，模型生成正确答案的可靠性被显著提升。

研究中还提到，通过使用合成数据，可以有效地扩大 SFT 数据集，而且这种方法几乎与真实数据一样有效。研究团队利用 GPT-4 Turbo API 生成了合成的数学问题与解题过程，并通过简单的验证提示词来确保问题的质量。通过这种方法，团队成功地将 SFT 数据集从 7.5K 扩展到约一百万样本，实现了近乎完美的缩放定律（Scaling Law）。最终获得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率，大幅超越此前的 SOTA 模型，甚至可超越一些 70B 量级模型，实现越级提升。而 Xwin-Math-70B 模型在 MATH 评测集上的结果可达 52.8%，显著超越了 GPT-4 的早期版本。这是基于 LLaMA 系列基础模型的研究第一次在 MATH 上超越 GPT-4。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

研究人员还定义了 Pass@N 和 PassRatio@N 评测指标，意图分别测评模型的 N 次输出中，是否能够输出正确答案（表示模型潜在的数学能力），以及正确答案的所占比例（表示模型数学能力的稳定性）。当 SFT 数据量较小时，模型的 Pass@256 已经很高，进一步扩大 SFT 数据规模后，模型的 Pass@256 提升极小，而 PassRatio@256 则获得显著增长。这表明基于合成数据的有监督微调是提升模型数学能力稳定性的有效方式。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

此外，研究还提供了对不同推理复杂性和错误类型下扩展行为的洞察。例如，随着 SFT 数据集规模的增加，模型在解决数学问题时的准确率遵循与推理步骤数量相关的幂律关系。通过增加训练样本中长推理步骤的比例，可以显著提高模型解决难题的准确率。同时，研究还发现，计算错误比推理错误更容易被缓解。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

北极象沉浸式AI翻译

北极象沉浸式AI翻译

免费的北极象沉浸式AI翻译 - 带您走进沉浸式AI的双语对照体验

下载

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

在表现模型数学推理泛化能力的匈牙利高中数学考试中，Xwin-Math 也拿到了 65% 的分数，仅次于 GPT-4。这表明研究中合成数据的方式并没有显著地过拟合到评测集中，展现出良好的泛化能力。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

这项研究不仅展示了合成数据在扩展 SFT 数据方面的有效性，而且为大型语言模型在数学推理能力方面的研究提供了新的视角。研究团队表示，他们的工作为未来在这一领域的探索和进步奠定了基础，并期待能够推动人工智能在数学问题解决方面取得更大的突破。随着人工智能技术的不断进步，我们有理由期待 AI 在数学领域的表现将更加出色，为人类解决复杂数学问题提供更多帮助。

文章还涉及数据合成方法的消融实验和其他评测指标的结果，详细内容请参阅全文。

相关文章

教你用AI一键更换证件照背景，小白也能轻松搞定

斑马AI能否离线使用部分功能_斑马AI离线模式开启与功能范围【教程】

kimi怎样设置语言_切换界面语言教程【说明】

钉钉ai划词工具能否划词收藏_钉钉ai划词工具收藏功能使用【攻略】

怎么用AI帮你写婚礼誓词？一键生成感动全场的浪漫告白

相关标签:

math 并发 github 人工智能 transformer https gpt llama

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：专为训练Llama 3，Meta 4.9万张H100集群细节公布下一篇：首次攻克「图基础模型」三大难题！港大开源OpenGraph：零样本学习适配多种下游任

作者最新文章

如何让你的电商前端快如闪电：SprykerTouch模块与Composer助力数据同步挑战

2025-09-12 09:46

如何解决复杂应用中动态URL和重定向管理难题，使用spryker/url模块轻松搞定

2025-09-12 10:39

如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40

如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51

Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38

如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

人工智能在生活中的应用

人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容，供大家免费下载体验。

390

2023.08.17

人工智能的基本概念是什么

人工智能的基本概念是什么

人工智能的英文缩写为AI，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

282

2024.01.09

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

617

2024.09.10

Python 人工智能

Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用，系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例（如房价预测、图像分类、文本情感分析），帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1518

2024.08.16

苹果官网入口直接访问

苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/，该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

115

2025.12.24

拼豆图纸在线生成器

拼豆图纸在线生成器

拼豆图纸生成器有PixelBeads在线版、BeadGen和“豆图快转”；推荐通过pixelbeads.online或搜索“beadgen free online”直达官网，避开需注册的诱导页面。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

84

2025.12.24

俄罗斯搜索引擎yandex官方入口地址（最新版）

俄罗斯搜索引擎yandex官方入口地址（最新版）

Yandex官方入口网址是https://yandex.com。用户可通过网页端直连或移动端浏览器直接访问，无需登录即可使用搜索、图片、新闻、地图等全部基础功能，并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

553

2025.12.24

JavaScript ES6新特性

JavaScript ES6新特性

ES6是JavaScript的根本性升级，引入let/const实现块级作用域、箭头函数解决this绑定问题、解构赋值与模板字符串简化数据处理、对象简写与模块化提升代码可读性与组织性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

155

2025.12.24

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 0.6万人学习

Node.js 教程

Node.js 教程

共57课时 | 7.3万人学习

CSS3 教程

CSS3 教程

共18课时 | 4万人学习

最新文章

更多

AI一键生成可商用矢量插画

唐库AI拆书工具怎么提取人物关系_唐库AI拆书工具人物关系图谱生成方法【教程】

DeepSeek V3 处理高并发请求的性能优化方案

利用 ChatGPT 学习深度学习模型调优策略

DeepSeek在网络安全中的应用 DeepSeek漏洞分析方法

百度ai助手怎么彻底关闭百度ai助手永久关闭教程

可灵ai怎样生成短视频脚本_可灵ai脚本生成模板与分镜设置【攻略】

教你用AI一键更换证件照背景，小白也能轻松搞定

斑马AI能否离线使用部分功能_斑马AI离线模式开启与功能范围【教程】

佐糖AI抠图如何换背景_佐糖AI背景替换与自定义上传【攻略】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部