0

0

合成数据:机器学习的未来

WBOY

WBOY

发布时间:2023-04-08 20:41:01

|

1887人浏览过

|

来源于51CTO.COM

转载

​译者 | 布加迪

审校 | 孙淑娟

数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始展现的那样,这时候合成数据就算不是一种出色的选择,也是一种可行的选择。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

合成数据:机器学习的未来

什么是合成数据?

合成数据是人工生成的信息,不是通过直接测量获得。“假”数据本质上不是新的概念或革命性的概念。它实际上是为缺少正常运行所需的可用或必要信息的模型生成测试或训练数据的一种方法。

过去,缺少数据导致了使用随机生成的一组数据点的便捷方法。尽管这对于教学和测试用途可能已经足够了,但随机数据不是您想要拿来训练任何类型的预测模型的数据。这就是合成数据概念的不同之处,它很可靠。

合成数据本质上是一种独特的概念,即我们可以巧妙地生成随机化数据。因此,这种方法可以应用于更复杂的用例,而不仅仅是测试。

如何生成合成数据?

虽然生成合成数据的方式与随机数据没什么不同——只是通过更复杂的输入集,但合成数据确实有不同的目的,因此有独特的要求。

合成方法基于并仅限于预先作为输入而馈入的某些标准。实际上,它不是随机的。它基于一组具有特定分布和标准的样本数据,这些标准决定了数据点的可能范围、分布和频次。大致说来,目的是复制真实数据以填充更大的数据集,然后该数据集将足够庞大,以便训练机器学习模型。

在探索用于提炼合成数据的深度学习方法时,这种方法变得特别令人关注。算法可以相互竞争,目的是在生成和识别合成数据的能力方面相互超越。实际上,这里的目的是搞一场人工军备竞赛,以生成超现实的数据。

为什么需要合成数据?

如果我们不能收集推进文明所需的宝贵资源,就会找到一种创造宝贵资源的方法。这个原则现在同样适用于机器学习和人工智能的数据领域。

在训练算法时,拥有非常大的数据样本量至关重要,否则算法识别的模式有可能对于实际应用来说过于简单。这实际上非常合乎逻辑。正如人类智能往往采取最容易的途径来解决问题,训练机器学习和人工智能时也经常发生同样的情况。

比如说,不妨将这运用于对象识别算法,该算法可以从一组猫图像中准确识别狗。如果数据量太少,AI就有可能依赖不是它试图识别的对象的基本特征的模式。在这种情况下,AI可能仍然有效,但是遇到不遵循最初识别的模式的数据时,就会失效。

合成数据如何用于训练AI?

那么,解决办法是什么?我们画了很多略有不同的动物,迫使网络找到图像的底层结构,而不仅仅是某些像素的位置。但不是手工绘制一百万条狗,最好构建一个系统,专门用于绘制狗,可用于训练分类算法——这实际上是我们在提供合成数据以便训练机器学习时所做的事情。

Peppertype.ai
Peppertype.ai

高质量AI内容生成软件,它通过使用机器学习来理解用户的需求。

下载

然而,这种方法存在明显的缺陷。仅仅凭空生成数据代表不了真实世界,因此会导致算法在遇到真实数据时很可能无法运行。解决方案是收集数据子集,分析和识别其中的趋势和范围,然后使用这些数据生成大量随机数据,这些数据很可能代表我们自行收集所有数据后数据的样子。

这也是合成数据的价值所在。我们再也不必无休止地收集数据,然后在使用之前需要清理和处理这些数据。

合成数据为何能解决日益受到关注的数据隐私问题?

全世界目前正在经历一场非常剧烈的转变,尤其是在欧盟:隐私和所生成的数据越来越受到保护。在机器学习和AI领域,加强数据保护是老大难问题。受限制的数据常常正是训练算法为最终用户执行和提供价值所需要的数据,尤其是对于B2C解决方案而言。

个人决定使用解决方案并因此批准使用他们的数据时,隐私问题通常会得到解决。这里的问题是,在您拥有提供足够价值的解决方案、因而愿意交出个人数据之前,很难让用户向您提供其个人数据。因此,供应商常常会陷入先有鸡还是先有蛋的困境。

合成数据就是解决方案,公司可以通过早期采用者获得数据子集。之后,它们可以使用这些信息作为基础,以便生成足够的数据用于训练机器学习和AI。这种方法可以大大减少对私有数据的费时又费钱的需求,仍可以为实际用户开发算法。

对于医疗保健、银行和法律等某些行业而言,合成数据提供了一种更容易访问以前无法获得的大量数据的方法,消除了新的和更先进的算法通常面临的制约因素。

合成数据能否取代真实数据?

真实数据的问题在于它不是为了训练机器学习和AI算法而生成的,它只是我们周围发生的事件的副产品。如前所述,这显然限制了收集数据的可用性和易用性,还限制了数据的参数和可能破坏结果的缺陷(异常值)的可能性。这就是为什么可以定制和控制的合成数据在训练模型时更高效。

然而,尽管非常适用于训练场景,但合成数据将不可避免地始终依赖至少一小部分真实数据用于自身的创建。所以合成数据永远不会取代它所依赖的初始数据。更现实地说,它将大幅减少算法训练所需的真实数据量,这个过程需要比测试多出一大截的数据——通常80%的数据用于训练,另外20%的数据用于测试。

最后,如果处理得当,合成数据提供了一种更快捷、更有效的方式来获取我们需要的数据,成本比从现实世界获取数据的成本更低,同时减少了烦人的数据隐私问题。

原文标题:Synthetic data: The future of machine learning​,作者:Christian Lawaetz Halvorsen​

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

388

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

401

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

290

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 7.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.1万人学习

Rust 教程
Rust 教程

共28课时 | 4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号