讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

WBOY

发布时间：2023-11-09 11:13:08

|

1328人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

“别让大模型被基准评估给坑了”。

这是一项最新研究的题目，来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

研究发现，基准测试中相关数据意外被用于模型训练的现象，变得越来越常见了。

因为预训练语料中包含很多公开文本资料，而评估基准也建立在这些信息之上，本来这种情况就在所难免。

现在随着大模型试图搜集更多公开数据，问题正在加重。

要知道，这种数据重叠带来的危害非常大。

不仅会导致模型部分测试分数虚高，还会使模型泛化能力下降、不相关任务表现骤降。甚至可能让大模型在实际应用中产生“危害”。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

所以这项研究正式发出警告，并通过多项模拟测试验证了可能诱发的实际危害，具体来看。

大模型“被漏题”很危险

研究主要通过模拟极端泄露数据的情况，来测试观察大模型会产生的影响。

极端泄露数据的方式有四种：

使用MMLU的训练集
使用MMLU以外所有测试基准的训练集
使用所有训练集+测试prompt
使用所有训练集、测试集和测试prompt（这是最极端情况，仅为实验模拟，正常情况下不会发生）

然后研究人员给4个大模型进行“投毒”，然后再观察它们在不同benchmark中的表现，主要评估了在问答、推理、阅读理解等任务中的表现。

使用的模型分别是：

GPT-Neo（1.3B）
phi-1.5（1.3B）
OpenLLaMA（3B）
LLaMA-2（7B）

同时使用LLaMA（13B/30B/65B）作为对照组。

结果发现，当大模型的预训练数据中包含了某一个评测基准的数据，它会在这一评测基准中表现更好，但在其他不相关任务中的表现会下降。

比如使用MMLU数据集训练后，多个大模型在MMLU测试中分数提高的同时，在常识基准HSwag、数学基准GSM8K中分数下降。

这表明大模型的泛化能力受到影响。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

另一方面，还可能造成不相关测试分数虚高。

如上给大模型进行“投毒”的四个训练集中仅包含少量中文数据，但是大模型被“投毒”后，在C3（中文基准测试）中的分数却都变高了。

这种升高是不合理的。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

这种训练数据泄露的情况，甚至会导致模型测试分数，异常超越更大模型的表现。

比如phi-1.5（1.3B）在RACE-M和RACE-H上的表现优于LLaMA65B，后者是前者规模的50倍。

但这种分数升高没有意义，只是作弊罢了。

AliGenie 天猫精灵开放平台

AliGenie 天猫精灵开放平台

天猫精灵开放平台

下载

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

更严重的是，哪怕是没有被泄露数据的任务，也会受到影响，表现下降。

下表中可以看到，在代码任务HEval中，两个大模型都出现了分数大幅下降的情况。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

同时被泄露数据后，大模型的微调提升远不如未被泄露情况。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

对于发生数据重叠/泄露的情况，本项研究分析了各种可能。

比如大模型预训练语料和基准测试数据都会选用公开文本（网页、论文等），所以发生重叠在所难免。

而且当前大模型评估都是在本地进行，或者是通过API调用来获得结果。这种方式无法严格检查一些不正常的数值提升。

以及当下大模型的预训练语料都被各方视为核心机密，外界无法评估。

所以导致了大模型被意外“投毒”的情况发生。

那该如何规避这一问题呢？研究团队也出了一些建议。

如何规避？

研究团队给出了三点建议：

第一，实际情况中很难完全避免数据重叠，所以大模型应该采用多个基准测试进行更全面的评估。

第二，对于大模型开发者，应该要对数据进行脱敏，公开训练语料的详细构成。

第三，对于基准测试维护人员，应该提供基准测试数据来源，分析数据被污染的风险，使用更多样化的提示进行多次评估。

不过团队也表示本次研究中还存在一定局限。比如没有对不同程度数据泄露进行系统性测试，以及没能在预训练中直接引入数据泄露进行模拟等。

本次研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的多位学者共同带来。

在研究团队中我们发现了两位数据挖掘领域大佬：文继荣和韩家炜。

文继荣教授现任中国人民大学高瓴人工智能学院院长、中国人民大学信息学院院长。主要研究方向为信息检索、数据挖掘、机器学习、大规模神经网络模型的训练与应用。

韩家炜教授领衔是数据挖掘领域专家，现为伊利诺伊大学香槟分校计算机系教授，美国计算机协会院士和IEEE院士。

论文地址：https://arxiv.org/abs/2311.01964。

相关文章

科技论文海报设计终极指南：抓住眼球，赢得认可

历史新高！极氪汽车12月交付30267台同比增长11.3%

AI纳米人像生成终极指南：Gemini与PixVerse打造社交媒体爆款

合同对比分析终极指南：优化谈判，降低法律风险

Android 2025：最佳AI助手应用程序终极指南

相关标签:

人工智能大模型人工智能 https gpt llama prompt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：盲订突破10000+！魅族AR眼镜再度预热，主打双模真无线下一篇：来聊聊近期火爆的几个大模型和自动驾驶概念

作者最新文章

夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

微信朋友圈怎么设置定时发布微信朋友圈定时发送图文教程

2026-01-02 09:14

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

人工智能在生活中的应用

人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容，供大家免费下载体验。

408

2023.08.17

人工智能的基本概念是什么

人工智能的基本概念是什么

人工智能的英文缩写为AI，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

299

2024.01.09

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

627

2024.09.10

Python 人工智能

Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用，系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例（如房价预测、图像分类、文本情感分析），帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1914

2024.08.16

c++主流开发框架汇总

c++主流开发框架汇总

本专题整合了c++开发框架推荐，阅读专题下面的文章了解更多详细内容。

78

2026.01.09

c++框架学习教程汇总

c++框架学习教程汇总

本专题整合了c++框架学习教程汇总，阅读专题下面的文章了解更多详细内容。

45

2026.01.09

学python好用的网站推荐

学python好用的网站推荐

本专题整合了python学习教程汇总，阅读专题下面的文章了解更多详细内容。

118

2026.01.09

学python网站汇总

学python网站汇总

本专题整合了学python网站汇总，阅读专题下面的文章了解更多详细内容。

10

2026.01.09

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

支付宝沙箱支付（个人也能用的支付）

支付宝沙箱支付（个人也能用的支付）

共12课时 | 0.5万人学习

麻省理工大佬Python课程

麻省理工大佬Python课程

共34课时 | 5.1万人学习

国外Web开发全栈课程全集

国外Web开发全栈课程全集

共12课时 | 1.0万人学习

最新文章

更多

豆包AI如何使用语音指令搜内容_豆包AI语音搜内容指引【教程】

悟道如何生成心理测试题库_悟道题库创编攻略【要点】

百度Ai搜索如何用时间轴查事件_百度Ai搜索用时序查招式【贴士】

讯飞星火如何生成亲子沟通话术_星火亲子话术技巧【技巧】

百川如何辅助方言语音转写_百川方言转写技巧【方法】

Claude怎样优化邮件回复内容_Claude邮件润色用法【攻略】

字节豆包如何生成产品卖点提炼_字节豆包卖点挖掘技巧【技巧】

通义千问怎么辅助竞品分析维度_通义千问竞品分析法【方法】

夸克AI搜索如何过滤冗余内容_夸克AI搜索过滤冗余内容窍门【方法】

Broadcom Design_CODE_Build：激发青少年科技创新

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部