0

0

用机器学习解决非结构化数据问题

WBOY

WBOY

发布时间:2023-04-11 22:07:06

|

1650人浏览过

|

来源于51CTO.COM

转载

​译者 | 布加迪

审校 | 孙淑娟

数据革命如火如荼。未来五年内创建的数字数据总量将是迄今生成的数据总量的两倍,非结构化数据将定义这个倡导数字体验的新时代。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用机器学习解决非结构化数据问题

非结构化数据指不遵循传统模型或不适合结构化数据库格式的信息,占所有企业新数据的80%以上。为了准备迎接这个转变,许多公司在寻找创新的方法,管理、分析和尽量利用业务分析和人工智能等各种工具中的所有数据。但决策者也遇到了一个老问题:如何维护和改善庞大笨拙的数据集的质量?

机器学习是解决之道。现在,机器学习技术方面的进步使组织能够有效处理非结构化数据,并改进质量保证工作。随着数据革命方兴未艾,贵公司在哪里遇到了难题?是面临一大堆宝贵但难以管理的数据集,还是使用数据推动业务向前发展?

非结构化数据需要的不仅仅是复制粘贴

准确、及时、一致的数据对于现代企业的价值无可争议,它与云计算和数字应用程序一样重要。尽管如此,糟糕的数据质量仍然使公司/企业每年平均损失1300万美元。

为了解决数据问题,您要运用统计方法来测量数据形状,这使数据团队能够跟踪变化、剔除异常数据,并消除数据漂移。基于统计方法的控制对于在做出关键决策之前判断数据质量,确定应该如何以及何时使用数据集仍很有价值。虽然这种统计方法有效,但通常保留用于结构化数据集,这类数据集适合客观定量的测量。

但是那些不完全适合Microsoft Excel或Google Sheets的数据该如何是好?包括:

  • 物联网:传感器数据、股票数据和日志数据
  • 多媒体:照片、音频和视频
  • 富媒体:地理空间数据、卫星图像、天气数据和监视数据
  • 文档:文字处理文档、电子表格、演示文稿、电子邮件和通讯数据

当这些类型的非结构化数据发挥作用时,不完整或不准确的信息很容易进入到模型。如果错误无人注意,数据问题就会越积越多,对季度报告和预测预估等各项工作造成严重破坏。从结构化数据到非结构化数据的简单复制粘贴方法不够,实际上可能会使业务变得更糟。

常说的“垃圾进垃圾出”非常适用于非结构化数据集。也许是时候抛弃当前的数据方法了。

多瑞(doreesoft)外贸网店系统
多瑞(doreesoft)外贸网店系统

多瑞外贸网店系统立足于全球化贸易往来的一款外贸类企业用户高端应用电子商务系统软件,帮助企业快速搭建网聚全球商机的电子商务系统。本系统使用纯正的英文,国外用户更容易阅读;多年专业外贸设计经验,熟练掌握美式英语,更符合国外用户考虑和解决问题的逻辑;设计风格、用户体验符合国外用户的习惯;简洁明了的设计风格正是欧美用户的所爱,时时推出新模板、紧跟时尚潮流,供您选择。新增加淘宝数据自动导入,批量上传商品,商

下载

机器学习用于保证数据质量时要注意的事项

考虑非结构化数据的解决方案时,机器学习应该是首选。这是由于机器学习可以分析海量数据集,并在杂乱数据中快速找到模式。如果借助正确的训练,机器学习模型可以学习解释、组织和分类任何形式的非结构化数据类型。

比如说,机器学习模型可以学习为数据分析、清理和规模推荐规则,从而使医疗保健和保险等行业的工作更高效更精确。同样,机器学习程序可以按非结构化数据源(比如社交媒体上或电子邮件记录中的数据源)中的主题或情绪,识别和分类文本数据。

当您通过机器学习改进数据质量工作时,记住几个关键的注意事项:

  • 实现自动化:数据解耦和校正等手动数据操作乏味又耗时。鉴于当今的自动化功能,它们也是日益过时的操作,自动化功能可以处理乏味的日常操作,使数据团队能够专注于更重要、更高效的工作。将自动化纳入到数据管道中,只需确保已落实了标准化的操作程序和治理模型,以鼓励围绕任何自动化活动进行简化、可预测的流程。
  • 不要忽视人的监督:数据的复杂性总是需要一定程度的专业知识和只有人类才能提供的上下文,无论是结构化数据还是非结构化数据。虽然机器学习及其他数字解决方案会帮助数据团队,但不要光依赖技术。相反,让团队能够利用技术,同时对单个数据流程定期监管。这种兼顾可以纠正任何现有技术措施无法处理的数据错误。之后,可以根据这些差异来重新训练模型。
  • 检测根本原因:出现异常或其他数据错误时,这常常不是单一事件。如果收集和分析数据时忽略更深层次的问题,贵企业会面临整个数据管道出现普遍性的质量问题这一风险。即使是最好的机器学习计划也无法解决上游产生的错误,选择性的人工干预再次可以夯实整体数据流程,并防止重大错误。
  • 质量方面不要做假设:要长期分析数据质量,应想方设法来定性测量非结构化数据,而不是对数据形状做出假设。您可以创建和测试“假设分析”场景,以开发自己的独特的测量方法、预期输出和参数。使用您的数据运行实验提供了一种确定的方法来计算数据质量和性能,您可以自动测量数据质量本身。这个步骤确保始终进行质量控制,并且作为数据摄取管道的基本功能,而不是事后添加上去的。

非结构化数据是带来新机遇和新见解的宝库。然而,目前只有18%的组织利用其非结构化数据,而数据质量正是阻碍更多企业的主要因素之一。

随着非结构化数据变得越来越流行,并与日常业务决策和运营更紧密相关,基于机器学习的质量控制提供了亟需的保证:您的数据是相关、准确、有用的。如果您没有在数据质量方面卡壳,就可以致力于使用数据推动贵公司向前发展。

想想当您有效控制数据或者更好的是让机器学习为您处理工作时带来的种种机会。

原文标题:Solve the problem of unstructured data with machine learning​,作者:Edgar Honing​

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

216

2025.10.31

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

375

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

564

2023.08.10

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

338

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2068

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

252

2023.09.05

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

177

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 7.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.2万人学习

Rust 教程
Rust 教程

共28课时 | 4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号