0

0

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

PHPz

PHPz

发布时间:2024-03-27 14:16:12

|

1181人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

准确率 >98%,基于电子密度的 gpt 用于化学研究,登 nature 子刊

编辑 | 紫罗

可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。

将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。

最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体 binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。

通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通过梯度下降优化客体的生成。最后,利用Transformer将客体转化为SMILES,实现了对客体结构的有效表示和转换。

模型成功地应用于已建立的分子主体系统,葫芦脲和金属有机笼,结果发现了 9 个先前验证的 CB[6] 客体和 7 个未报告的客体,并发现了 4 个未报告的 准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊客体。

该研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题,于 2024 年 3 月 8 日发表在《Nature Computational Science》上。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

论文链接:https://www.nature.com/articles/s43588-024-00602-x

当前主客体化学研究费力且昂贵

字符串,例如 SMILES,分子以「单词」表示,例如「C1C=C1」(环丙烯),是最广泛的分子数字表示形式之一。使用最先进的自然语言处理,这些表示与 AI 技术直接兼容,例如循环神经网络或 Transformer 模型。

将分子表示为 3D 体积(volume)的优点是可以应用最新的 AI 技术,例如卷积神经网络。到目前为止,3D 体积作为分子描述符的大多数应用都集中在预测特性或从头药物设计上。然而,由于缺乏有效的方法将这些体积与清晰的分子结构相关联,目前使用 3D 体积作为分子描述符受到阻碍。

在过去的 40 年里,由于分子 containers(中空有机分子或中空超分子结构)倾向于通过将分子与空腔中的体相隔离来改变分子的化学和物理性质,因此主客体系统得到了越来越多的研究。主客体系统具有广泛的应用,从催化到生物医学工程、材料科学和反应分子的稳定。

葫芦脲(CB[n])和金属有机笼是最成功的分子 containers 设计之一。尽管主客体化学已经取得了显著的成就,但现有系统中未报道的客体的发现或新的主客体系统的优化,仍然是一个费力且昂贵的迭代过程,阻碍了科学进步的步伐。

一种基于电子密度训练的机器学习模型

在此,研究证明,将主体分子表示为 3D 体积(即,用静电势修饰的电子密度)可以通过计算机辅助发现该主体的客体,而无需了解主体的化学结构之外的主客体系统。

在此过程中,研究人员建立了一个 Transformer 模型,可以通过训练将 3D 体积分子描述符有效地转换为 SMILES 表示,从而生成专业化学家可用的分子结构。

研究还发现,通过用静电势数据修饰分子的电子密度,可以将分子有效地表示为 3D 体积,并且这两个特征足以通过使用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发现主体的客体分子。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊
图示:使用 Transformer 模型将电子密度转换为 SMILES 表示,然后通过梯度下降优化目标主体的客体。(来源:论文)

Transformer 模型完美地预测了其 SMILES 表示,准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型,如 GPT。

工作流程概述

计算机辅助发现葫芦脲 CB[6] 和金属有机笼 图片的实验验证客体需要一个双层工作流程。首先,设计了一个计算机工作流程来为这两个主体生成潜在客体分子的虚拟库。然后建立了体外工作流程,其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物进行实验测试。

司马诸葛
司马诸葛

基于企业知识文档,就可训练专属AI数字员工

下载

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

图示:通过电子密度体积表示发现新型客体分子。(来源:论文)

CB[6] 和 图片 客体分子的计算机生成是通过上图所示的工作流程实现的,该工作流程包括以下步骤:

(1)3D 电子密度体积训练集源自公开的 QM9 数据集中的分子。然后,通过使用变分自编码器(VAE)对这个 3D 电子密度体积训练集进行建模,创建了一个

「分子生成器」,从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 分子生成器的工作原理是将 3D 电子密度体积编码到一维 (1D) 潜在空间中,然后通过从该 1D 潜在空间进行解码来生成与分子相对应的 3D 电子密度体积。有趣的是,这种方法只能产生化学上合理的分子。

(2)VAE 分子生成器和梯度下降优化算法用于为给定的主体分子生成客体分子库(以 3D 电子密度体积的形式)。客体分子是通过最小化主体和客体电子密度之间的重叠,同时优化它们的静电相互作用而产生的。

(3)由于人类操作员将 3D 电子密度体积转换为化学可解释的结构可能具有挑战性,因此训练了 Transformer 模型将这些体积转换为 SMILES 表示,以一种更容易被专业化学家理解的格式捕获描述分子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和 图片 的潜在客体分子后,建立了体外工作流程来对最有希望的候选分子进行实验测试。

下面描述了所使用的实验过程。

(1) 由于其计算机工作流程生成的 CB[6] 和  图片的客体由化学专家进行分类以进行实验测试。有希望进行测试的客体是根据其与 CB[6] 或 图片 的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。

(2)采用直接准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊滴定法测定 CB[6] 或  图片的亲和力。值得注意的是,在计算机中生成的客体包含先前已知与主体(或密切相关)结合的分子和无视专家直觉的分子的混合物。

两个常见主客体系统的实验验证

研究人员通过实验验证了其工作流程,为两个两个常见的主客体系统:葫芦脲(CB[n])和金属有机笼,成了文献验证和未报告的客体。

算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜在新客体,化学专家认为值得进行实验测试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接 图片滴定来评估。

在所有 7 种情况下,都观察到主客体系统的一组信号,表明该系统在 NMR 时间尺度上进行快速交换。络合后,客体分子的脂肪链共振向上场移动,表明它们被封装在 CB[6] 腔内。发现准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊 与 CB[6] 的缔合常数遵循先前建立的趋势,范围从 13.5 M^−1 到 5,470 M^−1。

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊

图示:CB[6] 的优化和先前已知的客体以及图片 的优化客体。(来源:论文)

对于图片 ,优化算法仅生成未知的客体分子,四种潜在的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接图片 滴定进行测试。在所有四种情况中,客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致(Ka 从 44 M^-1 到 529 M^−1)。

虽然研究重点是使用 SMILES 表示法来表示分子,但也测试了其他类似的格式,例如自引用嵌入字符串 (SELFIES)。

尽管 QM9 数据集包含大小完美的分子,可以成为 CB[6] 等主体的客体,但该研究遇到的一个限制是金属有机笼 图片 具有更大的空腔,需要更大的客体分子。在未来的研究中,将使用包含更大分子的数据集,例如 GDB-17 数据集。

之后,「我们的目标是将新配体的选择嵌入到生成过程中,在自动化合成平台(例如 Chemputer 机器人)上自主合成分子,关闭优化和测试之间的循环,创建一个网络-物理闭环系统。」

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6025

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

777

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1043

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1062

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

246

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

202

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1428

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

606

2023.11.24

笔记本电脑卡反应很慢处理方法汇总
笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法,阅读专题下面的文章了解更多详细内容。

1

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.2万人学习

Django 教程
Django 教程

共28课时 | 2.4万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号