[go: up one dir, main page]

CN112885415B - 基于分子表面点云的雌激素活性快速筛查方法 - Google Patents

基于分子表面点云的雌激素活性快速筛查方法 Download PDF

Info

Publication number
CN112885415B
CN112885415B CN202110092707.XA CN202110092707A CN112885415B CN 112885415 B CN112885415 B CN 112885415B CN 202110092707 A CN202110092707 A CN 202110092707A CN 112885415 B CN112885415 B CN 112885415B
Authority
CN
China
Prior art keywords
chemical
point cloud
dimensional structure
neural network
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110092707.XA
Other languages
English (en)
Other versions
CN112885415A (zh
Inventor
刘娴
张爱茜
王理国
薛峤
潘文筱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center for Eco Environmental Sciences of CAS
Original Assignee
Research Center for Eco Environmental Sciences of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center for Eco Environmental Sciences of CAS filed Critical Research Center for Eco Environmental Sciences of CAS
Priority to CN202110092707.XA priority Critical patent/CN112885415B/zh
Publication of CN112885415A publication Critical patent/CN112885415A/zh
Application granted granted Critical
Publication of CN112885415B publication Critical patent/CN112885415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种雌激素活性预测模型的构建方法、雌激素活性的筛查方法、电子设备以及计算机可读存储介质,该雌激素活性预测模型的构建方法包括获取已知具有雌激素活性的化学品数据,所述化学品数据包括化学品的初始三维结构信息;优化所述初始三维结构信息,获得优化后的三维结构信息;基于优化后的三维结构信息,获得所述化学品的分子表面点云矩阵;将分子表面点云矩阵作为输入训练卷积神经网络模型,获得所述雌激素活性预测模型。本发明所构建的深度人工神经网络模型无需人为定义的可量化的结构参数作为分子描述符,节省了分子描述符计算和描述符挑选的时间和计算资源,且应用时对计算化学基础的要求更低。

Description

基于分子表面点云的雌激素活性快速筛查方法
技术领域
本发明涉及化学品环境健康风险评价技术领域,更具体地涉及一种基于分子表面点云的雌激素活性快速筛查方法。
背景技术
大量的环境化学品被逐渐发现具有类雌激素活性,这类化学品可以模拟人体内雌激素的生物行为,从而干扰人体内分泌系统的正常功能,对人体造成不良健康影响。外源性化合物尤其污染物的内分泌干扰效应引起了社会的广泛关注。为了保护人免受此类潜在风险,政府必须对可接触到人体的化学品进行严格的类雌激素活性评价和生产应用管控。然而相较于环境中存在的成千上万的化学品,目前仅有极小部分化学品有类雌激素活性体外测试实验结果,还有大量化学品的活性评价工作亟待完成。已有大多数活性评价的方法都是基于体内(in vivo)或体外(in vitro)实验的结果,这往往会耗费大量的时间及实验资源,并不适合海量化学品的活性评价。即使是美国环境保护局(USEPA)认为具有人体接触风险的化学品也已经超过30000种。
因此定量构效关系(Quantitative Structure Activity Relationships,QSAR)成为了化学品活性评价的一个重要工具,其根据已知化学结构性质间的定性/定量变化关系,建立基于分子结构信息的定性/定量活性预测模型。这一方法的使用大大提高了化学品活性评价的效率,成为化学品管理的重要工具之一。然而由于分子的结构难以表征和计算,传统QSAR预测模型需预先定义和计算一定数量的分子描述符来描述分子结构信息,包括分子构成、分子指纹、拓扑指数和三维结构特征等千种描述符。受模型方法本身所限,大量与所研究性质无关或含义相似的描述符的输入会导致模型多重共线性问题,使模型稳健性较差,并且增加计算复杂性。在实践中,分子描述符往往需要进行预先筛选,剔除冗余、相关性高和代表性低的描述符信息,这会需要大量的工作。此外,基于先验知识或经验的分子描述符的定义计算往往会造成重要分子结构信息的缺失遗漏,也一定程度限制了QSAR预测模型的应用和预测性能。随着深度学习浪潮的再一次兴起,深度神经网络模型在众多领域取得了优异的成果,尤其是在计算机视觉和自然语言处理方面的成功让我们看到将其用于化学品分子识别以至分子性质预测的潜力。深度神经网络模型有着不同于传统机器学习的更灵活的结构,使得其可以接受更加丰富多样的输入信息,而不再局限于人为定义的描述特征,不仅减小了模型使用时前期数据准备的要求,也大幅度提升了模型预测效果。许多研究因此尝试将一维二维的分子结构表征作为输入信息构建深度学习模型,如一维分子结构编码和二维分子结构平面图。这种方法仍旧存在一些问题:它们无法描述分子的立体结构信息,如基团的朝向和键长等;其次对分子内原子的描述过于简单,忽略了原子性质受周围环境的影响。这些结构信息的缺失同样局限了模型的预测能力。
综上所述,基于传统机器学习算法建立的定量构效关系数学预测模型虽然大大提高了化学品评价和性质快速筛查的进程,但由于可用描述符的限制,使其在较为复杂的体系中难以实现足够的预测效果;且描述符的计算和收集需要一定的时间、计算资源以及一定的学科基础,也一定程度限制了预测模型的应用。因此需要一种可以接受更加丰富输入信息的深度学习模型,实现化学结构到性质的直接映射,减小模型使用中前期数据准备的要求,提高模型的预测能力。
发明内容
有鉴于此,本发明的主要目的在于提供一种雌激素活性预测模型的构建方法、雌激素活性的筛查方法、电子设备以及计算机可读存储介质,以期至少部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的一个方面,提供了一种雌激素活性预测模型的构建方法,包括:
S1、获取已知具有雌激素活性的化学品数据,所述化学品数据包括化学品的初始三维结构信息;
S2、优化所述初始三维结构信息,获得优化后的三维结构信息;
S3、基于优化后的三维结构信息,获得所述化学品的分子表面点云矩阵;
S4、将分子表面点云矩阵作为输入训练卷积神经网络模型,获得所述雌激素活性预测模型。
作为本发明的另一个方面,还提供了一种雌激素活性的筛查方法,采用如上所述的构建方法获得的雌激素活性预测模型,包括:
将待评价化学品的初始三维结构信息,转换成分子表面点云矩阵后输入所述的雌激素活性预测模型中,得到雌激素活性预测值;
若预测值大于或等于预设阈值则认为化学品具有雌激素活性,若预测值小于预设阈值则认为化学品不具有雌激素活性。
作为本发明的又一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的筛查方法。
作为本发明的再一个方面,还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的筛查方法。
基于上述技术方案可知,本发明的雌激素活性预测模型的构建方法、雌激素活性的筛查方法、电子设备以及计算机可读存储介质相对于现有技术至少具有以下优势之一或一部分:
(1)不同于传统机器学习算法建立的数学预测模型,本发明所构建的深度人工神经网络模型无需人为定义的可量化的结构参数作为分子描述符,节省了分子描述符计算和描述符挑选的时间和计算资源,且应用时对计算化学基础的要求更低;
(2)本发明方法采用分子表面点云表征分子三维结构信息,构建深度人工神经网络预测模型,提高了模型预测能力的上限,目前在化学物质雌激素活性评价领域尚未应用;
(3)本发明所述方法和现有方法相比,具有高精度的预测性能,适用于大规模化学品雌激素激活活性的精准快速筛查;该方法在化学品风险评价、环境安全性评估等领域具有广阔的应用前景;
(4)本发明利用分子三维结构表面点云的精准信息和卷积神经网络灵活结构,减小了传统预测模型使用分子描述符的信息损失,极大提高了模型的预测能力,实现化学品雌激素活性的高精度预测;此外本发明不依赖分子描述符,直接通过分子三维结构和和活性之间建立联系,有利于指导特定性质化学结构的合成设计,在化学品的快速筛查和设计等领域具有广阔的应用前景。
附图说明
图1为本发明实施例中采用基于分子表面点云的雌激素活性高精度模型预测方法进行化学品评价的流程图;
图2为本发明实施例1中深度神经网络结构示意图;
图3为本发明实施例1中雌二醇表面点云的图示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
根据对现有化学品雌激素活性预测模型的文献调研,可见所涉及的方法或技术存在缺点。传统机器学习方法建立的定量构效关系模型,依赖于人为定义的可量化分子结构参数作为分子描述符,不仅可能造成分子结构信息缺失,冗余的分子描述符和多重共线性问题也极大影响模型预测性能。本发明的目的是要提供一种基于分子表面点云的深度人工神经网络模型,节省了分子描述符收集计算所需的时间和计算资源,并且和其他同类方法相比,本发明方法具有当前研究中最优异的预测能力。
本发明基本原理是,通过分子表面格点的三维坐标和静电势参数表征分子的三维结构;卷积网络中的卷积操作可以提取每一个格点的坐标和静电势参数中内含的大量分子结构信息,并通过全局池化操作提取分子尺度的结构特征;已有研究表明深层神经网络可以拟合任意数学函数,因此所述模型的全连接层可以在卷积操作提取的分子结构信息和分子特定性质间建立数学函数关系,以实现特定分子性质的预测。
本发明首次提出基于分子表面点云的雌激素活性高精度预测方法。在本发明完成之前,还未发现直接将分子表面点云作为输入信息,使用深度卷积神经网络模型进行化学品雌激素活性预测的报道。
本发明公开了一种雌激素活性预测模型的构建方法,包括:
S1、获取已知具有雌激素活性的化学品数据,所述化学品数据包括化学品的初始三维结构信息;
S2、优化所述初始三维结构信息,获得优化后的三维结构信息;
S3、基于优化后的三维结构信息,获得所述化学品的分子表面点云矩阵;
S4、将分子表面点云矩阵作为输入训练卷积神经网络模型,获得所述雌激素活性预测模型。
在本发明的一些实施例中,步骤S3中,具体包括:基于优化后的三维结构信息,计算分子表面格点的静电势和三维坐标参数;从分子表面格点中随机采样M个点作为表征分子三维结构的点云,表示为4×M的数字矩阵。
在本发明的一些实施例中,步骤S4中,所述将分子表面点云矩阵作为输入训练卷积神经网络模型具体包括:
S4.1、将获得的化学品数据按照一定比例随机分为训练集和验证集;
S4.2、使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型,即所述雌激素活性预测模型。
在本发明的一些实施例中,步骤S4.1中,所述训练集和验证集中活性分子所占比例相同;
在本发明的一些实施例中,步骤S4.2中,所述卷积神经网络模型包括:ncv层的卷积层和nfc层全连接层。
在本发明的一些实施例中,所述卷积层中第i层卷积层包含channeli个卷积核,卷积核尺寸为channeli-1×ki,其中,卷积步长为stridei,输出为大小为channeli×Li的数据,其中,
在本发明的一些实施例中,将最后一层卷积的输出大小为的矩阵转换为长度为/>的向量作为全连接层的输入;
在本发明的一些实施例中,全连接层中当前层的每一个结点都与上一层的所有结点相连,每层的节点数分别为全连接层的最后一层即输出层,输出化学品雌激素活性的预测值s。
在本发明的一些实施例中,步骤S4.2中,所述确定卷积神经网络模型的最优超参数的方法包括:
S4.2.1预设置一组模型超参数为{α,λ,batchsize},其中,α为学习率,λ为权重衰减正则化项参数,batchsize为批大小;
S4.2.2基于预设置合适的超参数和训练集数据迭代训练卷积神经网络模型;
S4.2.3使用验证集的化合物对超参数{α,λ,batchsize}进行优化,得到最优超参数。
在本发明的一些实施例中,步骤S4.2.3中所述最优超参数为统计参数最优时的超参数;
在本发明的一些实施例中,所述统计参数包括真阳性、真阴性、假阳性、假阴性、敏感性、特异性、准确率、平衡准确性中的至少一种。
本发明还公开了一种雌激素活性的筛查方法,采用如上所述的构建方法获得的雌激素活性预测模型,包括:
将待评价化学品的初始三维结构信息,转换成分子表面点云矩阵后输入所述的雌激素活性预测模型中,得到雌激素活性预测值;
若预测值大于或等于预设阈值则认为化学品具有雌激素活性,若预测值小于预设阈值则认为化学品不具有雌激素活性。
在本发明的一些实施例中,所述预设阈值的确定方法包括:
将若干已知化学品的的初始三维结构信息,转换成分子表面点云矩阵后输入所述的预测模型中,得到雌激素活性预测值集合S;
将S由大到小排序,根据每个化学品的预测值和相应活性标签,计算真阳性率和假阳性率;以假阳性率为x轴,真阳性率为y轴,得到接受者操作特性曲线;其中,所述相应活性标签是根据步骤S1所获得的。
接受者操作特性曲线中计算真阳性率相对于假阳性率变化率最大点t所对应的预测值st作为判定雌激素活性的预设阈值。
本发明还公开了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的筛查方法。
本发明还公开了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的筛查方法。
本发明的一个实施例中公开了一种化学品的雌激素活性预测方法,包括以下步骤:获取化学品分子结构及其雌激素活性类别;优化化学品的分子三维结构,计算优化后的分子三维结构表面格点的静电势和三维坐标参数;每个分子随机采样M个格点,格点的静电势和三维坐标参数(即分子表面点云)作为输入信息,其雌激素活性数值作为输出信息,建立基于分子表面点云的雌激素活性卷积神经网络预测模型;根据预测模型的预测活性值和预测性能评估确定雌激素活性的预设阈值;将待测化学品的表面点云信息作为输入,结合模型预测结果和预设阈值,判定待测化学品是否具有雌激素活性。本发明利用分子三维结构表面点云的精准信息和卷积神经网络灵活结构,减小了传统预测模型使用分子描述符的信息损失,极大提高了模型的预测能力,实现雌激素活性的高精度预测。此外本发明不依赖分子描述符,直接通过分子三维结构和和活性之间建立联系,有利于指导特定性质化学品的合成设计,在化学品的快速筛查和设计等领域具有广阔的应用前景。
具体地,在本发明的一个优选实施例中,公开了一种基于深度学习和化学品分子表面点云的化学品雌激素活性高精度模型预测方法,包括以下步骤:
步骤1:从公开数据库或文献中获取已知雌激素活性的化学品数据,包括化学品雌激素活性二元类别和化学品的初始三维结构信息。基于优化后的化学品结构计算分子表面静电势和三维坐标参数,并随机采样M个点作为表征分子三维结构的点云。
具体地,本步骤包括以下子步骤:
子步骤11,从公开数据库或文献中获取已知雌激素活性的化学品数据,包括其初始三维结构文件和化学品二元活性类别(数字1代表有活性,数字0代表无活性)。
子步骤12,通过Gaussian 09软件中B3LYP/6-31G(d)基组对分子三维结构进行优化。
子步骤13,使用Multiwfn软件基于优化后的化学品结构,并以0.1~0.5Bohr(波尔)为间隔计算分子表面格点的静电势和三维坐标参数(x,y,z,esp)。从分子表面格点中随机采样M个点作为表征分子三维结构的点云,表示为4×M的矩阵。
步骤2:将已获得的化学品数据随机分为训练集和验证集,并构建以M个格点组成的分子表面点云为输入的卷积神经网络模型。
具体地,本步骤包括以下子步骤:
子步骤21,将化学品数据按照一定比例随机分为训练集和验证集,并保证训练集和验证集中活性分子所占比例相同。其中t%的数据作为训练集,用于训练卷积神经网络模型;v%的数据作为验证集,用于模型超参数搜索和预测能力评估。
子步骤22,本发明所构建的卷积神经网络模型包括ncv层卷积层和nfc层全连接层:其中,ncv的取值可以根据需要设定,例如可以为3~8;nfc的取值可以根据需要设定,例如可以为3~8。训练集中化学品4×M的数字矩阵作为模型输入。
卷积层的第一层为一维卷积层,包含channel1个卷积核,卷积核的尺寸为4×k1,其中,k1可为[1,3,5,7,9],卷积步长为stride1;随后进行批标准化使得训练过程中每一层神经网络的输入保持相同分布的;再使用线性整流函数(ReLU)作为激活函数将神经网络中的线性特征转换为非线性特征。输出为大小为channel1×L1的数据,其中:
卷积层的第二层为一维卷积层,包含channel2个卷积核,卷积核的尺寸为channel1×k2,卷积步长为stride2,随后进行批标准化使得训练过程中每一层神经网络的输入保持相同分布的;再使用ReLU函数作为激活函数将神经网络中的线性特征转换为非线性特征。输出为大小为channel2×L2的数据。
卷积层的第三层至最后一卷积层ncv采用同前两层相似的卷积结构。即第i层包含channeli个卷积核,卷积核尺寸为channeli-1×ki,其中,ki可为[1,3,5,7,9],卷积步长为stridei,输出大小为channeli×Li的数据。将最后一层卷积的输出大小为的矩阵进行全局最大化池化,转换为长度为/>的向量作为全连接层的输入。
全连接层中当前层的每一个结点都与上一层的所有结点相连,每层的节点数分别为除最后一层外每层输出使用ReLU激活函数将神经网络中的线性特征转换为非线性特征;
全连接层的最后一层即输出层,节点数为1。使用sigmoid激活函数变换使输出值在0~1范围内,即为化学品雌激素活性的预测值s。
步骤3:使用训练集中的化学品数据训练模型,验证集的化学品数据进行预测验证,搜索并确定卷积神经网络模型的最优超参数组合。
具体地,本步骤包括以下子步骤:
子步骤31,预设置一组模型超参数为{α,λ,batchsize}。其中学习率α和batchsize(批大小)用于控制收敛到局部最小值的进度,权重衰减L2正则化项参数λ用于降低模型复杂度,防止模型过度拟合。batchsize即每次调整参数前所选取的样本的数量。
子步骤32,基于预设置合适的超参数和训练集数据训练模型,进行E代(epoch)训练,并保存每一代的模型参数。每次迭代的模型用于验证集的预测,计算真阳性(TruePositive,TP)、真阴性(True Negative,TN)、假阳性(False Positive,FP)、假阴性(FalseNegative,FN)、敏感性(Sensitivity,Se)、特异性(Specificity,Sp)、准确率(Accuracy,Acc)、平衡准确性(Balanced Accuracy,BA)统计参数,对模型进行评价。
TP:表示验证集中预测为正,实际也为正的样本个数
FP:表示验证集中预测为正,实际为负的样本个数
FN:表示验证集中预测与负,实际为正的样本个数
TN:表示验证集中预测为负,实际也为负的样本个数
为了避免过拟合提高模型的泛化能力,选择E代迭代中对验证集预测结果平衡准确性BA最优时对应的模型。
子步骤33,使用训练集的化合物基于设置的模型超参数,进行E代(epoch)训练,并使用验证集的化合物进行模型评价,以此对超参数{α,λ,batchsize}搜索优化。最终获得模型的一组超参数{αmax,λmax,batchsizemax}作为最优解。
步骤4:所获得模型对验证集中化学品计算雌激素激活活性的预测得分,确定雌激素活性的判定阈值(即预设阈值)。
具体地,本步骤包括以下子步骤:
子步骤41,使用训练得到的最优预测模型对验证集进行预测,得到验证集中化学品的预测值。
得到验证集中所有化学品的雌激素活性的预测值集合S。将S由大到小排序,根据每个化合物的预测值和预设阈值s得到预测活性标签,并对照子步骤11所获得的实际活性标签(1或0),计算真阳性率TPR和假阳性率FPR。以FPR为x轴,TPR为y轴,做受试者操作特性曲线(Receiver Operating Characteristic curve,ROC)曲线。ROC曲线中TPR相对于FPR变化率最大点t所对应的值st作为判定雌激素激活活性的预设阈值。
st=arg max TPR″(FPR)
子步骤42,接受者操作特性曲线中真阳性率(TPR)相对于假阳性率(FPR)变化率最大点t所对应的预测值st作为判定雌激素激活活性的预设阈值。
步骤5:将待评价化学品的表面点云输入所获得的卷积神经网络模型,得到雌激素活性预测值。若预测值高于预设阈值则判定化学品具有雌激素活性,反之亦然。
具体地,本步骤包括以下子步骤:
子步骤51,待评价化学品按照子步骤12~子步骤13所述方法计算4×M的分子表面点云矩阵。将此数字矩阵作为所得卷积神经网络模型的输入,计算得到化学品雌激素活性的预测值sout
子步骤52,如果预测活性值sout≥st,则判定该化学品具有雌激素活性,反之则判定其不具有雌激素活性。
以下通过具体实施例结合附图对本发明的技术方案做进一步阐述说明。需要注意的是,下述的具体实施例仅是作为举例说明,本发明的保护范围并不限于此。
实施例1
请参阅图1-3,本实例基于卷积神经网络的化学品雌激素活性快速筛查方法包括以下步骤:
(1)化学品数据的获得和预处理
下载美国环保署(EPA)毒理学预测研究项目ToxCast中雌激素受体活性相关的18个高通量测试数据和化学品的三维结构文件。并将化学品的高通量实验数据转化为二元活性类别。最终数据集包括1317个化学品,其中具有雌激素激活活性的化学品144个,不具有雌激素激活活性的化学品1173个。
(2)化学结构转换为表面点云矩阵
通过Gaussian 09软件中B3LYP/6-31G(d)基组对分子三维结构进行优化,得到优化后的fchk文件。
使用Multiwfn软件基于优化后的化学品结构,并以0.25Bohr为间隔计算分子表面格点的静电势和三维坐标参数(x,y,z,esp),如图3所示。从分子表面格点中随机采样4096个点作为表征分子三维结构的点云,点云可以表示为4×4096的矩阵。
(3)深度神经网络模型的训练和超参数搜索
将化学品数据按照4∶1比例随机分为训练集和验证集,验证集用于模型超参数搜索和预测能力评估(数字“1”代表有活性,数字“0”代表无活性)。
所构建的深度神经网络模型可分为8层,包含卷积层和全连接层两种结构,其中前4层为卷积层,后接4层全连接层(如图2所示):
训练集中化学品4×4096的数字矩阵作为模型输入。
卷积层的第一层为一维卷积层,包含64个卷积核,卷积核的尺寸为4×1,卷积步长为1;随后进行批标准化使得训练过程中每一层神经网络的输入保持相同分布的;再使用线性整流函数(ReLU)作为激活函数将神经网络中的线性特征转换为非线性特征。输出为大小为64×4096的数据;
卷积层的第二层为一维卷积层,包含64个卷积核,卷积核的尺寸为64×1,卷积步长为1,随后进行批标准化使得训练过程中每一层神经网络的输入保持相同分布的;再使用ReLU函数作为激活函数将神经网络中的线性特征转换为非线性特征。输出为大小为64×4096的数据。
卷积层的第三、四层采用同前两层相似的卷积结构。即第三层包含128个卷积核,卷积核尺寸为64×1,卷积步长为1,输出为大小为128×4096的数据;第4层包含1024个卷积核,卷积核尺寸为128×1,卷积步长为1,输出为大小为1024×4096的数据。将最后一层卷积的输出大小为1024×4096的矩阵进行全局最大化池化,转换为长度为1024的向量作为全连接层的输入。
全连接层中当前层的每一个结点都与上一层的所有结点相连,每层的节点数分别为1024,256,64,8,1,除最后一层外每层输出使用ReLU激活函数将神经网络中的线性特征转换为非线性特征;
全连接层的最后一层即输出层,节点数为1。使用sigmoid激活函数变换使输出值在0~1范围内,即为化学品雌激素活性的预测值s;
训练时应用自适应矩估计优化器(Adam)方法基于梯度更新神经网络参数,学习率α为0.001,此外为了提高模型的泛化能力,以防止模型过度拟合还在模型中加入L2正则化项,参数设定为L2正则化项参数0.001。为了缓解数据不均衡带来的问题,训练时人为提高有活性化学品的抽样权重至8倍,设置批处理数据量为64。每次训练进行60次迭代,并保存每一次迭代的模型参数。每次迭代的模型用于验证集的预测,计算真阳性(True Positive,TP)、真阴性(True Negative,TN)、假阳性(False Positive,FP)、假阴性(False Negative,FN)、敏感性(Sensitivity,Se)、特异性(Specificity,Sp)、准确率(Accuracy,Acc)、平衡准确性(BalancedAccuracy,BA)统计参数,为了避免过拟合提高模型的泛化能力,选择E代迭代中对验证集预测结果平衡准确性BA最优时对应的模型。
为了进一步避免模型的过拟合,提高模型的泛化能力,对所用超参数进行搜索优化,在一定范围内,一定步长下:
选定学习率参数α,得到不同学习率对应的平衡准确性BA,选定α为0.001;
选定L2正则化项参数λ,得到不同正则化项参数对应的平衡准确性BA,选定λ为0.001;
选定批处理的数据量batchsize,得到不同随机失活比率对应的平衡准确性BA,选定batchsize为64;
(4)活性预测预设阈值的确定
使用步骤(2)所述方法训练得到的最优模型对验证集进行预测,获得验证集中化学品的预测活性值,结合步骤(1)获得的雌激素活性标签绘制接受者操作特性曲线(ROC曲线)。ROC曲线中TPR相对于FPR变化率最大点t所对应的预测值st作为判定雌激素激活活性的预设阈值。最大点t点处预测敏感性Se和特异性Sp的平均值为0.844,对应的活性分类阈值st为0.119。
(5)待评价化学品的雌激素活性判断
β-雌二醇(Beta-Estradiol,CASRN:50-28-2)作为一种雌激素类药物,具有较高的雌激素活性,可用于治疗子宫功能性出血、原发性闭经、绝经期综合征及前列腺癌等。作为本实例中待预测化学品,通过PubChem分子数据库查询β-雌二醇,获取β-雌二醇的3D文件。
使用Gaussian 09软件中B3LYP/6-31G(d)基组对β-雌二醇的三维结构进行优化,得到fchk文件;进一步使用Multiwfn软件以0.25Bohr为间隔计算优化后分子表面格点的静电势和三维坐标参数(x,y,z,esp)。从分子表面格点中随机采样4096个点作为表征分子三维结构的点云(见图3),点云可以表示为4×4096的矩阵。
将数字矩阵作为训练的深度神经网络模型的输入信息进行计算,得到化学品β-雌二醇的雌激素活性预测值为0.958。预测活性值大于预设阈值0.119。因此判断β-雌二醇具有雌激素活性,且预测活性值远高于预设阈值,说明其活性较强,预测结论与事实相符。
(6)与其他现有基于机器学习的方法预测性能比较
为了更好体现本发明所述基于深度神经网络的雌激素激活活性预测方法的高精度和优异性能,将本方法与近年研究中同类模型进行比较。结果如下表1所示,在相同数据集上,本发明所述方法在验证集上有着更好的泛化能力,敏感性、特异性和准确率等评价指标均显著优于其他同类方法。
表1
综上所述,本发明通过建立的深度人工神经网络雌激素活性预测模型,仅基于化学品的分子表面点云就可预测化学品的雌激素活性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种雌激素活性预测模型的构建方法,包括:
S1、获取已知具有雌激素活性的化学品数据,所述化学品数据包括化学品的初始三维结构信息;
S2、优化所述初始三维结构信息,获得优化后的三维结构信息;
S3、基于优化后的三维结构信息,获得所述化学品的分子表面点云矩阵;
S4、将分子表面点云矩阵作为输入训练卷积神经网络模型,获得所述雌激素活性预测模型;
基于优化后的三维结构信息,获得所述化学品的分子表面点云矩阵,包括:
基于优化后的三维结构信息,以0.1~0.5Bohr为间隔计算分子表面格点的静电势和三维坐标参数;
从分子表面格点中随机采样M个点作为表征分子三维结构的点云,表示为4×M的数字矩阵。
2.根据权利要求1所述的构建方法,其特征在于,
步骤S4中,所述将分子表面点云矩阵作为输入训练卷积神经网络模型具体包括:
S4.1、将获得的化学品数据按照一定比例随机分为训练集和验证集;
S4.2、使用训练集训练卷积神经网络模型,使用验证集确定卷积神经网络模型的最优超参数,得到最优卷积神经网络模型,即所述雌激素活性预测模型。
3.根据权利要求2所述的构建方法,其特征在于,
步骤S4.1中,所述训练集和验证集中活性分子所占比例相同;
步骤S4.2中,所述卷积神经网络模型包括:ncv层的卷积层和nfc层全连接层。
4.根据权利要求3所述的构建方法,其特征在于,
所述卷积层中第i层卷积层包含channeli个卷积核,卷积核尺寸为channeli-1×ki,其中,ki为[1,3,5,7,9],卷积步长为stridei,输出为大小为channeli×Li的数据,其中,M为表征分子三维结构的点云中的点数;
其中,将最后一层卷积的输出大小为的矩阵进行全局最大化池化,转换为长度为/>的向量作为全连接层的输入;
其中,全连接层中当前层的每一个结点都与上一层的所有结点相连,每层的节点数分别为其中全连接层的最后一层即输出层,输出化学品雌激素活性的预测值s。
5.根据权利要求2所述的构建方法,其特征在于,
步骤S4.2中,所述确定卷积神经网络模型的最优超参数的方法包括:
S4.2.1预设置一组模型超参数为{α,λ,batchsize},其中,α为学习率,λ为权重衰减正则化项参数,batchsize为批大小;
S4.2.2基于预设置合适的超参数和训练集数据迭代训练卷积神经网络模型;
S4.2.3使用验证集的化合物对超参数{α,λ,batchsize}进行优化,得到最优超参数;
其中,步骤S4.2.3中所述最优超参数为统计参数最优时的超参数;
其中,所述统计参数包括真阳性、真阴性、假阳性、假阴性、敏感性、特异性、准确率、平衡准确性中的至少一种。
6.一种雌激素活性的筛查方法,采用如权利要求1至5任一项所述的构建方法获得的雌激素活性预测模型,包括:
将待评价化学品的初始三维结构信息,转换成分子表面点云矩阵后输入所述的雌激素活性预测模型中,得到雌激素活性预测值;
若预测值大于或等于预设阈值则认为化学品具有雌激素活性,若预测值小于预设阈值则认为化学品不具有雌激素活性。
7.根据权利要求6所述的筛查方法,其特征在于,
所述预设阈值的确定方法包括:
将若干已知化学品的的初始三维结构信息,转换成分子表面点云矩阵后输入所述的预测模型中,得到雌激素活性预测值集合S;
将S由大到小排序,根据每个化学品的预测值和相应的活性标签,计算真阳性率和假阳性率;以假阳性率为x轴,真阳性率为y轴,得到接受者操作特性曲线;
接受者操作特性曲线中计算真阳性率相对于假阳性率变化率最大点t所对应的预测值st作为判定雌激素活性的预设阈值。
8.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求6或7所述的筛查方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求6或7所述的筛查方法。
CN202110092707.XA 2021-01-22 2021-01-22 基于分子表面点云的雌激素活性快速筛查方法 Active CN112885415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110092707.XA CN112885415B (zh) 2021-01-22 2021-01-22 基于分子表面点云的雌激素活性快速筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110092707.XA CN112885415B (zh) 2021-01-22 2021-01-22 基于分子表面点云的雌激素活性快速筛查方法

Publications (2)

Publication Number Publication Date
CN112885415A CN112885415A (zh) 2021-06-01
CN112885415B true CN112885415B (zh) 2024-02-06

Family

ID=76050692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110092707.XA Active CN112885415B (zh) 2021-01-22 2021-01-22 基于分子表面点云的雌激素活性快速筛查方法

Country Status (1)

Country Link
CN (1) CN112885415B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689919A (zh) * 2021-08-10 2021-11-23 淮阴工学院 一种基于bp人工神经网络预测有机化学分子基态能量的方法
CN114121177B (zh) * 2021-11-22 2025-01-07 中国科学院合肥物质科学研究院 基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法
TWI799269B (zh) * 2022-05-16 2023-04-11 國立臺灣師範大學 化學物質對雌激素受體的活性之預測方法
CN115881212A (zh) * 2022-10-26 2023-03-31 溪砾科技(深圳)有限公司 一种基于rna靶点的小分子化合物筛选方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309385A (ja) * 1993-01-07 1994-11-04 Akiko Itai 生理活性を有するリガンドの分子構造を構築する方法
CN1886659A (zh) * 2003-10-14 2006-12-27 维颂公司 分子构像及组合的分析方法及仪器
JP2010197419A (ja) * 2009-02-23 2010-09-09 Japan Advanced Institute Of Science & Technology Hokuriku タンパク質分子の分子模型及びその作製方法
CN103678951A (zh) * 2013-12-11 2014-03-26 陕西科技大学 分子表面随机采样分析法对抗艾滋病药物活性的预测
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN110232953A (zh) * 2019-07-26 2019-09-13 中北大学 一种7-[4-(5-芳基-1,3,4-噁二唑)]哌嗪衍生物抗氧化活性预估方法
CN111564185A (zh) * 2020-03-19 2020-08-21 浙江师范大学 一种快速预测有机化合物贮存脂肪/水分配系数的方法
CN112164427A (zh) * 2020-09-23 2021-01-01 常州微亿智造科技有限公司 基于深度学习的药物小分子靶点活性预测方法和装置
CN112201313A (zh) * 2020-09-15 2021-01-08 北京晶派科技有限公司 一种自动化的小分子药物筛选方法和计算设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309385A (ja) * 1993-01-07 1994-11-04 Akiko Itai 生理活性を有するリガンドの分子構造を構築する方法
CN1886659A (zh) * 2003-10-14 2006-12-27 维颂公司 分子构像及组合的分析方法及仪器
JP2010197419A (ja) * 2009-02-23 2010-09-09 Japan Advanced Institute Of Science & Technology Hokuriku タンパク質分子の分子模型及びその作製方法
CN103678951A (zh) * 2013-12-11 2014-03-26 陕西科技大学 分子表面随机采样分析法对抗艾滋病药物活性的预测
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
CN110232953A (zh) * 2019-07-26 2019-09-13 中北大学 一种7-[4-(5-芳基-1,3,4-噁二唑)]哌嗪衍生物抗氧化活性预估方法
CN111564185A (zh) * 2020-03-19 2020-08-21 浙江师范大学 一种快速预测有机化合物贮存脂肪/水分配系数的方法
CN112201313A (zh) * 2020-09-15 2021-01-08 北京晶派科技有限公司 一种自动化的小分子药物筛选方法和计算设备
CN112164427A (zh) * 2020-09-23 2021-01-01 常州微亿智造科技有限公司 基于深度学习的药物小分子靶点活性预测方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Improved atoms-in-molecule charge partitioning functional for simultaneously reproducing the electrostatic potential and chemical states in periodic and nonperiodic materials;Manz T A等;《Journal of chemical theory and computation》;第8卷(第8期);2844-2867 *
Molecular electrostatic potentials: an effective tool for the elucidation of biochemical phenomena;Politzer P等;《Environmental health perspectives》;第61卷;191-202 *
Pointnet: Deep learning on point sets for 3d classification and segmentation;Qi C R等;《Proceedings of the IEEE conference on computer vision and pattern recognition》;652-660 *
SepPCNET: deeping learning on a 3D surface electrostatic potential point cloud for enhanced toxicity classification and its application to suspected environmental estrogens;Wang L等;《Environmental Science & Technology》;第55卷(第14期);9958-9967 *
基于三维静电势参数研究 C60溶解性的构效关系;郭明等;《物理化学学报》;第19卷(第5期);432-435 *
基于分子表面静电势参数的定量结构-性质/活性关系研究;黄建湘;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》(第2期);B014-914 *
基于局部分子表面静电势参数的定量构效关系研究;刘芬;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》(第2期);第1.1.1节、第1.4节、第2章 *
基于神经网络的喹诺酮羧酸类衍生物活性研究;堵锡华等;《西北大学学报:自然科学版》;第46卷(第9期);第918-926页 *

Also Published As

Publication number Publication date
CN112885415A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112885415B (zh) 基于分子表面点云的雌激素活性快速筛查方法
CN106874688A (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN107403188A (zh) 一种水质评价方法及装置
CN110472417A (zh) 基于卷积神经网络的恶意软件操作码分析方法
CN113257357A (zh) 蛋白质残基接触图预测方法
CN115049019A (zh) 金属有机框架对砷的吸附性能评估方法、装置及相关设备
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN114782775A (zh) 分类模型的构建方法、装置、计算机设备及存储介质
CN110046770B (zh) 粮食霉变预测方法及装置
CN118522359A (zh) 基于门控轴向自注意力机制的scRNA-seq数据细胞类型注释方法和系统
CN117476106A (zh) 一种多类不平衡蛋白质二级结构预测方法和系统
CN117370650A (zh) 基于服务组合超图卷积网络的云计算数据推荐方法
CN116798536A (zh) 一种分子多构象预测模型的训练方法及装置
CN113362920B (zh) 基于临床数据的特征选择方法及装置
CN112634993A (zh) 化学品雌激素受体激活活性的预测模型及筛查方法
US20230004791A1 (en) Compressed matrix representations of neural network architectures based on synaptic connectivity
WO2023052653A1 (en) Neural networks with transformed activation function layers
Li et al. A BYY scale-incremental EM algorithm for Gaussian mixture learning
CN111863134A (zh) siRNA序列的沉默效率预测结果获取方法及装置
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN114842920A (zh) 一种分子性质预测方法、装置、存储介质和电子设备
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
Andersson et al. Sketch classification with neural networks: A comparative study of CNN and RNN on the Quick, Draw! data set
CN110750732A (zh) 基于团扩张和二次优化的社交网络全局重叠社团检测方法
CN117809734B (zh) 一种基因调控网络的降维建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant