AI发展：训练数据即将遭遇瓶颈

爱谁谁

发布时间：2025-01-09 16:31:33

1015人浏览过

来源于php中文网

原创

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ai发展：训练数据即将遭遇瓶颈

人工智能（AI）在过去十年取得了显著进展，这得益于神经网络规模的扩大和海量数据的训练。大型语言模型（LLM），例如ChatGPT，便是“做大做强”策略的成功案例。

然而，众多权威期刊如《自然》、《麻省理工科技评论》等指出，AI的扩展正遭遇瓶颈。一方面，AI消耗的能源日益增多；另一方面，为AI模型提供养分的传统数据集正被过度利用。

训练数据即将枯竭的警讯已现。研究机构预测，到2028年，AI模型训练数据集的典型规模将与现有公共在线文本总量相当，这意味着AI可能在短短四年内耗尽训练数据。同时，数据所有者（如报社）加强了对内容的版权保护，限制数据访问，加剧了“数据共享”危机。AI开发者必须另寻出路。

数据供需失衡日益严重

过去十年，LLM发展对数据的需求呈爆炸式增长。自2020年以来，用于训练LLM的“标记”（或单词）数量增长了100倍，从数百亿飙升至数万亿。RedPajama等大型数据集包含数万亿个单词，这些数据经处理后成为训练LLM的定制数据集。

然而，互联网可用内容的增长速度远低于预期，年增长率不足10%，而AI训练数据集的规模却每年增长一倍以上。预测显示，这两者将在2028年左右相遇。

此外，越来越多的内容提供商通过软件代码或修改条款来阻止爬虫和AI抓取数据。2023年，明确禁止爬虫访问的内容比例不足3%，而2024年这一比例已激增至20%到33%。

围绕AI训练中数据使用的合法性，多起诉讼正在进行，数据提供商寻求获得合理的经济赔偿。例如，《纽约时报》和多家报纸已对OpenAI和微软提起诉讼，指控其侵犯版权。OpenAI则回应称诉讼“毫无根据”。

如果法院最终支持内容提供商的索赔请求，那么AI开发者，特别是资金有限的研究人员，获取所需数据将变得更加困难。

新的解决方案有待验证

数据匮乏对AI的传统扩展策略构成巨大挑战。

获取更多数据的途径之一是收集非公开数据，例如社交媒体信息或视频转录文本。然而，这种做法的合法性存在争议。

火山写作

字节跳动推出的中英文AI写作、语法纠错、智能润色工具，是一款集成创作、润色、纠错、改写、翻译等能力的中英文 AI 写作助手。

下载

一些公司选择使用自身数据训练AI模型，例如Meta利用虚拟现实头显收集的音频和图像。但各公司政策不一，Zoom等公司明确表示不会使用客户内容训练AI。

另一种选择是专注于快速增长的专业数据集，例如天文学或基因组学数据，但其对训练LLM的适用性和有效性尚不明确。

如果AI能够接受多种类型的数据训练（而非仅限于文本），则可能解决数据匮乏问题。Meta首席AI科学家Yann LeCun指出，人类通过观察学习到的数据量远超用于训练LLM的数据量，类人机器人或许能从中受益。

此外，生成数据也是一种解决方案。一些AI公司付费让人们生成训练内容，或使用AI生成的合成数据。这可能成为巨大的数据来源。然而，合成数据也存在问题，例如可能会巩固错误，放大误解，降低学习质量。

小型化、专业化模型的兴起

另一种策略是放弃“模型越大越好”的理念，转向更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据和更先进的训练技术。

OpenAI发布的OpenAI o1模型就是一个例子，它更注重强化学习，让模型对每个回答进行更深入的思考，这标志着一种转变，即从依赖大规模预训练数据集转向更注重训练和推理。

LLM可能已经吸收了互联网大部分内容，或许无需更多数据即可变得更智能。斯坦福大学的研究表明，模型从多次读取相同数据集中学习到的内容，与从相同数量的唯一数据中学习到的内容一样丰富。

合成数据、专业数据集、多次读取和自我反思等方法的结合，或许将共同推动AI的进一步发展。

文章来源：科技日报

AI驱动论文写作：Consensus助力学术研究高效完成

AI数学工具深度测评：突破学习瓶颈，提升解题效率

Craftify AI: 免费UTM构建器和二维码生成器终极指南

N8N自动化：AI图像生成与工作流优化终极指南

AI客服工具：无需人工干预解决客户问题？

相关标签:

ai 数据访问 2025 chatgpt 人工智能 chatgpt zoom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：聚焦HBM，传黄仁勋将在CES上与SK集团会长崔泰源对谈下一篇：强强联合，贝斯特新材料战略投资浙江爱科，开启产业新篇章

作者最新文章

html5怎么加scrollview_HT5用div设overflow:auto或插件实现滚动视图【添加】

2025-12-24 13:50

Depseek怎样生成年终总结大纲_Depseek总结大纲生成与框架定制【教程】

2025-12-24 13:51

研招网成绩查询官网入口研招网2026初试成绩查询地址

2025-12-24 13:54

铁路12306如何改签车次_铁路12306改签车次详细改签步骤

2025-12-24 13:56

洋抖tiktok官网入口洋抖tiktok官方网站在线登录

2025-12-24 13:56

海外抖音tiktok免费网站在线入口抖音外国网站入口tiktok直接打开

2025-12-24 13:59

ACG动漫网直达入口 ACG动漫网站永久在线观看正版首页

2025-12-24 14:00

12306高铁票查询网页登录最新官方入口地址

2025-12-24 14:02

阿里拍卖平台官网如何筛选同城拍品_阿里拍卖平台官网地域筛选与地图查看【指南】

2025-12-24 14:05

vk如何发布投票_vk投票功能使用步骤【教程】

2025-12-24 14:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容，供大家免费下载体验。

390

2023.08.17

人工智能的基本概念是什么

人工智能的英文缩写为AI，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

282

2024.01.09

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

617

2024.09.10

Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用，系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例（如房价预测、图像分类、文本情感分析），帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

2025.10.21

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

520

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

564

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

2706

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

918

2024.03.05

笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法，阅读专题下面的文章了解更多详细内容。

2025.12.25

热门下载

网站特效

网站源码

网站素材

前端模板