0

0

隐私保护:AI实现医疗保健临床数据匿名化

王林

王林

发布时间:2023-04-12 15:19:08

|

1305人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

隐私保护:AI实现医疗保健临床数据匿名化

面对突如其来的新冠疫情,我们已经亲眼见证创纪录级别的数据泄露事件。IBM最近的一份报告发现,数据泄露的成本也在急剧攀升。

医疗保健无疑是受数据泄露影响最大的行业之一,每起数据泄露事件平均造成920万美元损失。在此类违规案例当中,最常暴露在风险之下的信息类型正是敏感客户数据。

制药和医疗保健企业均需要在保护患者数据的前提下,按照严苛的指导要求组织运营。因此,任何违规行为都可能引发高昂代价。例如,在整个药物发现阶段,企业需要收集、处理和存储个人身份信息(PII),而在试验结束并提交临床申请时,必须在所公布的结果中注意保护患者隐私。

欧洲药品管理局(EMA)0070号法规和加拿大卫生部出台的《公开发布临床信息》规定,均对数据匿名化提出了具体建议,希望尽量降低利用结果还原患者身份信息的风险。

除了倡导数据隐私之外,这些法规还要求共享试验数据,确保社区能够以此为基础开展工作。但这无疑让企业陷入了两难境地。

所以,制药企业到底如何在数据隐私与透明度之间求取平衡,同时又能及时、经济且高效地发布研究结果?事实证明,AI技术能够承担起提交过程中超过97%的工作量,大大减轻企业的运营负担。

临床研究结果(CSR)匿名化为何如此困难?

在实施临床提交匿名化的过程中,企业主要面临三大核心挑战:

非结构化数据难于处理:临床试验数据当中,有很大一部分属于非结构化数据。研究结果中包含大量文本数据、扫描图片和表格,处理效率低下。研究报告动辄上千页,从其中识别出敏感信息就如同大海捞针。而且,没有任何标准化技术培训解决方案能够自动执行这类处理工作。

手动过程既繁琐又容易出错:如今,制药企业需要雇用数百名员工对临床研究提交进行匿名处理。整个团队需要经历超过25个复杂步骤,典型的摘要文档就可能需要长达45天的处理周期。而且在手动检查几千页材料时,枯燥的过程往往极易引发错误。

 监管指南的开放性解释:虽然法规中提出不少详细建议,但细节仍然不够完备。例如,加拿大卫生部的《公开发布临床信息》规定就要求身份信息的还原风险应低于9%,却并没有详细介绍具体的风险计算方法。

下面,我们将从解决问题的角度,设想能够处理这类匿名化需求的具体方案。

利用增强分析识别人类语言中的敏感信息

以下三大要素,有助于建立技术驱动型的匿名化解决方案:

用于自然语言处理(NLP)的AI语言模型

如今,AI已经能够像艺术家那样创作,也能像医生那样诊断。深度学习技术已经推动AI取得诸多进步,而AI语言模型正是其中一股中坚力量。作为专司处理人类语言的算法分支,AI语言模型特别擅长检测命名实体,例如患者姓名、社保号码和邮政编码。

不知不觉当中,这些强大的AI模型已经渗透到公共领域的各个角落,并受到公开文档的规模化训练。除了知名的维基百科之外,包含40000名患者脱敏数据的MIMIC-III v1.4数据库也成为训练AI模型的宝贵资源。当然,为了提高模型性能,还需要由领域专家根据内部临床试验报告,对模型开展后续重新训练。

通过人机回圈设计提高准确率

加拿大卫生部提出的9%风险阈值标准,可以大致转化为95%左右的模型准确度要求(一般用召回率或精确度来衡量)。AI算法能够查看大量数据并运行多轮训练周期来提高自身准确度。然而,单靠技术改进还不足以为临床应用做好准备,这些模型还需要人的引导与支持。

为了解决临床试验数据的主观性并改善产出结果,分析解决方案在设计上要求与人类协同工作——这就是所谓增强智能。即将人类视为人机回圈中的一部分,他们不仅负责数据标记和模型训练,同时要在解决方案生效后定期提供反馈。通过这种方式,模型的准确度和产出性能都将有所提升。

以协同方式解决问题

我们假设某项研究共涉及1000名患者,其中980名来自美国本土,其余20人来自南美洲。那么,是否需要对这20位患者的数据进行编辑(涂黑)或匿名化处理?是否有必要在同一国家或洲内选择患者样本?攻击者可能会以哪些方式把这些匿名化信息同年龄、邮政编码等数据结合起来,最终还原患者身份?

很遗憾,这些问题并没有标准答案。为了更清楚地解释临床提交指南,制药商、临床研究组织(CRO)、技术解决方案供应商和学术界的研究人员需要联合起来、协同处理。

AI驱动的匿名化方法

有了以上几条基本思路,接下来就是把它们拼凑成完整的解决方案流程。而整个匿名化方案中的各项技术,应当基于我们已经在工作中使用的实际方法。

临床研究报告中包含各种结构化数据(数字与身份实体,例如人口统计信息和地址条目),以及我们之前讨论过的各种非结构化数据元素。必须妥善处理,才能防止恶意黑客将这些内容还原为敏感的命名实体。结构化数据相对易于处理,但AI算法还需要攻克非结构化数据这道难关。

因此,首先使用光学字符识别(OCR)或计算机视觉等技术,将非结构化数据(通常为扫描图像或PDF等格式)转换为可读形式。之后,将AI算法应用于文档以检测个人身份信息。为了提升算法性能,用户可以分享对样本结果的反馈,帮助系统了解该如何处理这些置信度较低的分析内容。

隐私保护:AI实现医疗保健临床数据匿名化

AI驱动的匿名化方法

在匿名化完成之后,还须评估相应的身份还原风险。这项工作通常需要参考人群背景,再结合来自其他类似试验的数据来共同完成。风险评估会通过一组元素着重识别三大风险场景——检察官、记者和营销人员。这三群群体会从自身需求出发,尝试对患者信息加以还原。

在风险水平达到规定建议的9%之前,匿名化流程会持续引入更多业务规则和算法改进,尝试以重复循环的方式增强效能。再通过与其他技术应用的集成并建立机器学习运营(ML Ops)流程,整个匿名化方案就可以被纳入实际工作流当中。

比算法更艰难的挑战—数据质量

对制药企业来说,这样的匿名化解决方案能够将提交周期缩短达97%。更重要的是,这种半自动化工作流程既提高了效率,同时又保证有人类参与其中。但是,构建AI驱动型匿名化解决方案面临的最大挑战又是什么?

其实与大多数数据科学实践一样,这项工作的最大阻碍并不是用于识别命名实体的AI算法,而是如何将研究报告转换为可供AI处理的高质量数据。对于格式不同、样式和结构各异的文档,相应的内容摄取管道经常会无所适从。

因此,AI匿名化解决方案需要不断微调以适应新的文档编码格式,或者准确检测出图片/表格扫描件中的起始和结束位置。很明显,这方面工作才是AI匿名化当中最耗费时间和精力的领域。

临床研究的匿名化新挑战

随着技术的快速进步,临床研究的匿名化难度会不会持续降低、更加高效?虽然AI驱动型解决方案确实令人眼前一亮,但后续还将有新的挑战需要关注。

首先,通过社交媒体、设备使用情况和线上跟踪等方式收集到的消费者数据,正大大提升身份还原的风险。攻击者可以将这些公开信息同临床研究数据相结合,准确识别出患者的身份。更令人担忧的是,恶意黑客在AI成果的运用上非常积极,甚至有可能抢在制药企业的行动之前。

最后,法规也在持续演变,着力适应特定国家/地区的实践态势。也许很快就会有国家公布临床提交匿名化的具体法规,这必将增加企业保持合规的复杂性和成本负担。但所谓前途是光明的、道路是曲折的,AI技术的发展成熟至少为整个行业带来了攻克难题的希望曙光。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

378

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

325

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2066

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

250

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

315

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

400

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

363

2023.10.16

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.8万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号