[go: up one dir, main page]

CN102999705A - 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 - Google Patents

通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 Download PDF

Info

Publication number
CN102999705A
CN102999705A CN2012105059356A CN201210505935A CN102999705A CN 102999705 A CN102999705 A CN 102999705A CN 2012105059356 A CN2012105059356 A CN 2012105059356A CN 201210505935 A CN201210505935 A CN 201210505935A CN 102999705 A CN102999705 A CN 102999705A
Authority
CN
China
Prior art keywords
qsar
model
descriptor
compound
logk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105059356A
Other languages
English (en)
Inventor
李雪花
傅志强
陈景文
乔显亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN2012105059356A priority Critical patent/CN102999705A/zh
Publication of CN102999705A publication Critical patent/CN102999705A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种有机化学品正辛醇/空气分配系数(KOA)的理论预测方法,属于生态风险评价测试策略领域。即基于化合物的分子Dragon描述符构建定量构效关系模型(QSAR)以及基于热力学原理采用开源溶剂化模型计算溶解自由能,由热力学原理式logKOA = -ΔGOA/2.303RT换算得到KOA。基于该方法提出预测化合物KOA的一般策略,即首先根据Dragon描述符判断分子是否在应用域内,处在域内则优先采用QSAR模型(不同温度下采用QSAR-T),域外化合物采用SM8AD溶剂化模型预测。采取和遵循本发明的方法策略,可快速、有效地预测不同化合物在不同温度下的KOA,节省大量人力物力财力,为大规模的化学品的生态风险评价和环境监管提供重要的基础数据。

Description

通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数KOA的方法
技术领域
本发明属于化学品生态风险评价测试策略领域,具体是基于有机化合物分子的Dragon描述符判断化合物是否处于构建的正辛醇/空气分配系数(KOA)与分子描述符的定量构效关系模型(QSAR)和温度依附性的QSAR-T模型应用域内,域内化合物优先通过QSAR模型计算其在单一温度(25℃)下的KOA,不同温度(-10—50℃)的KOA值由QSAR-T模型计算。对域外化合物,则采用溶剂化模型SM8AD进行KOA的预测。
背景技术
正辛醇/空气分配系数(KOA)可以定义为:在一定温度下,分配平衡时,有机化合物在正辛醇相和空气相中浓度的比值(无量纲),实际应用中常以其对数形式(logKOA)表示。由于正辛醇是长链脂肪醇,具有类脂性,因此KOA常用来描述污染物在空气相和环境有机相之间的分配行为,是评价化合物在环境中的长距离迁移能力和生物蓄积性的重要的环境行为参数。KOA定义的热力学公式为:
logKOA=-ΔGOA/2.303RT                    (1)
式(1)中ΔGOA表示化合物从空气相转移到辛醇相中Gibbs自由能的变化,也称溶解自由能或溶剂化自由能。R是指理想气体常数,T为环境温度。KOA值越大的化合物,越容易分配于环境有机相中(包括土壤有机质,空气颗粒物的有机成分,以及动物植物的表皮角质层等)。此外,KOA具有较强的温度依附性:温度越低,KOA 值越大。
化合物的KOA主要通过实验测定的方法来获取:产生柱法、顶空气相色谱法、固相微萃取法、逸度测量法和气相色谱保留时间方法。前人通过这几种方法得到了一些典型环境污染物(如多氯联苯(PCBs),多环芳烃(PAHs),多溴联苯醚(PBDEs)以及二噁英(PCDD/Fs)等的KOA。这几种方法各有优缺点,适于测定的化合物性质也不同。由于化学品的种类繁多,采用实验测定方法获得KOA花费大,耗时长,而且有些化合物缺乏标准品,造成测定的困难。据美国环保局的统计,目前为止,具有KOA实验测定值的化合物仅有几百种,远不能满足化学品风险评估的需要。因此,发展或构建理论预测方法或者模型来快捷有效地获取化合物的KOA具有重要的意义和应用价值。其中,基于分子描述符的定量结构-活性关系(QSAR)模型是一种常用且简便有效的方法。
QSAR模型的基本原理是:化合物的分子结构决定它的性质。QSAR作为一种计算机建模方法,可以深入挖掘和表征有机化合物分子结构与其理化性质、环境行为、毒理效应等性质的量变规律和因果关系,从而从分子水平上评价污染物的生态风险。目前,QSAR模型已成为污染物环境生态风险评价和人体建康风险评价的重要工具。为了促进QSAR模型在化学品风险管理方面的应用,经济合作与发展组织(OECD)2007年提出了QSAR的构建和使用导则,该导则认为,一个好的QSAR模型应该具备以下五个标准:(1)明确定义的环境(活性)指标;(2)明确的算法;(3)定义了模型的应用域;(4)对模型的拟合优度、稳健性和预测能力有适当的评价;(5)最好进行机理解释。目前已经有许多研究者建立了一些化合物KOA的QSAR预测模型。这些QSAR模型有些是基于分子碎片的基团贡献模型,比如文献“Li, X. H.;Chen, J. W. et al. The fragment constant method for predicting octanol-air partition coefficients of persistent organic pollutants at different temperatures.Journal of Physical and Chemical Reference Data 2006,35, (3), 1365-1384.”采用多元线性回归(MLR)的方法,建立了典型持久性有机污染物KOA的线性QSAR模型,模型的自变量为分子碎片常数。该模型具有应用简便,预测能力高,稳健性好的特点。还有些是多参数线性自由能关系(pp-LFER)模型,例如“Chen, J. W.; Harner, T.; Yang, P.; Quan, X.; Chen, S.; Schramm, K. W.; Kettrup, A. Quantitative predictive modelsfor octanol-air partition coefficients of polybrominated diphenyl ethers at different temperatures. Chemosphere 2003, 51, (7), 577-584.”和“Chen, J. W.; Harner,T. et al. Quantitative relationships between molecularstructures, environmental temperatures and octanol-airpartition coefficients of polychlorinated biphenyls.Computational Biology and Chemistry 2003, 27, (3), 405-421.”等基于化合物的分子结构描述符,采用偏最小二乘(PLS)的方法建立了QSAR模型,分别预测了PCBs和PBDEs的KOA。模型采用累积交叉验证系数Q2 CUM表征稳健性(鲁棒性),并且添加了温度这一描述符考虑了KOA的温度依附性,得到了良好的预测效果。参照OECD的指导原则可以发现,这些QSAR模型均属于局部(local)意义上的定量构效关系,往往只能适用于某一类型的化合物。且有些模型缺乏对应用域的准确表征以及缺少有效地外部验证集进行模型预测能力的探讨。同时,对于温度依附性较强的KOA,也需要考虑温度的影响。因此,有必要建立一个应用域覆盖不同种类化合物的广义的(global) QSAR模型,并将温度作为一个变量加入模型。同时,根据OECD的QSAR导则,在建立模型后,需要对其进行应用域的表征及可能的机理解释。
总体来讲,预测KOA的QSAR方法的计算量小,结果可靠,可应用于风险管理。但是,QSAR模型强烈依赖于化合物的KOA实验值(建模和验证),并且一个好的QSAR模型仅能够对其应用域内有限的化合物的KOA做出预测。这两点构成了它应用的主要限制。因此,基于溶解自由能△GOA的KOA预测方法具有多方面优点:(1)基于溶解自由能△GOA的计算在理论上没有应用域的限制,适用于所有的有机化合物;(2)只需要输入分子的坐标信息,就可以较为准确快速地获取化合物在辛醇相中的△GOA,从而得到logKOA值。近几年来,量子化学计算的发展突飞猛进,计算精度与速度完美结合,加之理论化学家对分子在相间的物理化学过程的认识与合理的模拟,通过溶剂化模型来计算溶剂自由能已经能获得较好的精度。此外,这种从头算的方法,从另一方面规避了大量的分子描述符的筛选,只需要化合物分子最基本的结构坐标信息,为简化计算迈出了重要一步。许多国外的研究者开发了许多开源的隐性溶剂化模型(模型采用参数来表示溶剂),来探讨化合物分子在介质之间分配,以及在溶剂中溶解的过程及其能量变化。比如,在著名的量子化学计算软件高斯(Gaussian)中常见的IEFPCM溶剂化模型,以及Truhlar小组报道的一系列溶剂化模型SMx(solvation models)。文献“Marenich, A. V. et al. Universal Solvation Model Based on the Generlizaed BornApproxiamtion with Asymmetric Descreening. J. Chem. Theory Comput 2009, 5, (9), 2447-2464.”中,作者发表了最新的SM8AD溶剂化模型,来计算化合物分子的溶解自由能。该模型可适用于所有的中性分子或者带电离子溶解于几乎所有溶剂中的情况。参数化的结果表明,模型计算的2560个自由能值(不同中性溶质分子在水、乙腈、甲醇和二甲基亚砜中的溶解自由能个数和)的无符号误差约为0.6kcal/mol,适应于化合物分子在正辛醇溶剂中的溶解自由能计算。一般来说,只要模型的原理可靠,参数化和近似合理,就可以准确地获得目标化合物的溶解自由能值,从而根据式(1)准确预测其KOA。因此,在结合传统QSAR模型方法的基础上,有必要尝试引进量子化学溶剂化模型,计算化合物在辛醇相中的溶解自由能,从而预测化合物的KOA
发明内容
本发明提供了一种通过定量构效关系和溶剂化模型预测有机化合物不同温度下的正辛醇空气分配系数KOA的方法。目前理论预测正辛醇空气分配系数(KOA)的QSAR方法往往不能充分满足OECD的应用准则的标准要求,所建立的QSAR模型应用域较小(局域),没有有效的预测能力表征,因此在应用于化学品风险管理方面存在限制。如何建立广域的,能准确预测化学品KOA,符合OECD准则的QSAR方法且同时考虑KOA的温度依附性,是亟待解决的问题。此外QSAR方法计算流程相对复杂,且严重依赖于实验数据。因此如何在QSAR之外,发展针对化合物KOA的快速有效的量子化学计算方法显得十分必要。本发明针对以上技术难题,提供了一种结合符合OECD导则的QSAR模型和溶剂化自由能模型来预测有机化学品正辛醇-空气分配系数的方法。从而可以对不同种类的化合物在不同温度下的KOA值进行较为准确的预测,为海量的有机化学品的风险评估和环境监管提供必要的基础数据。
化合物的分子结构决定其理化性质和环境行为,因此,通过计算表征化合物分子的Dragon描述符,建立QSAR模型,表征模型应用域,从而可以用来预测域内化合物的环境行为参数——正辛醇/空气分配系数。对于不同温度的情况,优先采用QSAR-T模型的计算结果。在QSAR模型应用域之外的化合物,可基于量子化学溶剂化模型计算决定25℃其在正辛醇相中的溶解自由能,也可以预测KOA
本发明采用的技术方案包括如下步骤:
(1)基于Dragon描述符的QSAR模型的构建
为了保证本发明所建立的模型和方法的数据准确性,搜集文献中实验测定的正辛醇/空气分配系数KOA值,得到380种有机化合物在不同温度下的936个KOA数据;随机将其中264种、654个KOA值划为训练集,其余为验证集(用于QSAR模型外部验证)。;
采用Dragon软件计算264种训练集化合物(分子保存为.mol格式)的所有Dragon描述符。模型的构建采用多元线性回归(MLR)和偏最小二乘(PLS)的方法。(a)首先,采用SPSS软件中的逐步多元线性回归筛选对化合物KOA值起显著影响的描述符。获取最优的MLR方程,根据OECD导则(OECD, 2007. Guidance Document On The Validation Of (Quantitative) Structure-Activity Relationships [(Q)SAR] Models. Organisation for Economic Co-Operation andDevelopment, Paris, France),最优MLR方程的评价标准是具有最大的校正决定系数(R2 adj),其中每个变量(描述符)的容差膨胀因子(VIF)< 10,并且方程的显著性水平p = 0.001。R2 adj的定义如下:
Figure BDA0000249906801
其中,和yi分别是第i个化合物的logKOA的预测值和实验值。
Figure BDA0000249906803
是实验训练集化合物实测logKOA值的平均。n是指训练集化合物的总数,共为264种,p是指描述符的个数。最优的MLR模型需进行下一步分析优化。(b)采用SIMCA软件中的PLS算法进一步去除MLR模型的多余变量。PLS算法的计算条件是:交叉验证次数=7,最大迭代次数=200,允许数据缺失比例为50%,同时PLS模型的显著性水平限=0.05。在每步PLS计算中,去掉权重(VIP指数)最小的描述符,再进行下一步的拟合。最后选取具有最大的R2 adj值和最大的累积交叉验证系数Q2 CUM的最优PLS模型。Q2 CUM可以用来表征一个PLS模型的稳健性。一般来讲,Q2 CUM > 0.5的模型稳健性较好,Q2 CUM > 0.9的模型稳健性较优(Eriksson, L., Jaworska, J. et al. 2003. Methods for reliability and uncertainty assessment and for applicability evaluationsof classification- and regression-based QSARs. Environmental Health Perspectives 111, 1361-1375.)。Q2 CUM的定义如下:
Q2 CUM = 1.0 - ∏(PRESS/SS)a ,(a = 1, 2, …A)(3)
PRESS = &Sigma; i &Sigma; m ( Y im - Y im ^ ) 2 - - - ( 4 )
其中,SS指的是残差平方和,是针对一个拟合好的PLS模型,其预测值与实验值之差的平方和;PRESS指的是预测残差平方和,是在一次PLS验证中,去除一个变量重新拟合的PLS方程,所得的预测值与实验值之差的平方和。其中A为PLS方程的变量个数;Yim是实验;是预测值。除此之外,模型的准确性还与模型的变量个数A,显著性水平限p有关。
在PLS模型的构建中,可以加入温度这一描述符(Chen, J. W.; Harner, T. et al. Universal predictive models on octanol-air partition coefficients at different temperatures for persistent organic pollutants. Environ. Toxicol.Chem. 2004, 23, (10), 2309-2317),并且对其他已筛选的描述符加上温度形成温度依附性的KOA的QSAR预测模型(QSAR-T)。
(2) 基于Dragon描述符的QSAR模型以及温度依附性的QSAR-T模型线性关系式。
① QSAR:logKOA = 0.509 + 0.986 × X1sol – 1.018 ×Mor13v + 1.384 × H-050 – 1.528 × R5v – 0.015× T(O..Cl) + 0.043 × HATS5v – 0.026 × RDF035m– 0.197 × RCI – 0.130 × nCOOR – 0.077 × Mor15u – 0.077 × RDF090m
其中,X1sol表示溶剂连接性指数chi-1;Mor13v和Mor15u是3D-MoRSE描述符;H-050表示H原子连接杂原子的碎片常数;R5v和HATS5v表示GETAWAY描述符;RDF035m和RDF090m表示径向分布函数描述符;RCI 表示芳香性指数描述符;T(O..Cl)是O和Cl原子间拓扑距离的和;nCOOR表示分子中醚键的个数。其中,X1sol的VIP值最大,表明它是决定化合物分子KOA值的主要描述符。
在最优模型中,logKOA表示为11个描述符变量的函数,训练集数据集个数n = 264。R2 Y(adj) = 0.966,标准偏差SE = 0.818,p < 0.001表明模型有良好的拟合优度。Q2 CUM = 0.949表明模型的稳健性好。
② QSAR-T:logKOA = –3.03 + 3.13 × 102X1sol/T – 8.57 × 10Mor13v/T + 4.32 × 102H050/T – 1.27 × 103R5v/T – 5.54 × T(O..Cl)/T + 1.25 × 102HATS5v/T– 1.33 × 10RDF035m/T – 6.11 × 10RCI/T – 3.76× 10nCOOR/T + 1.56 × 102Mor15u/T – 5.49 × RDF090m/T + 1.04 × 103/T
其中各项的意义与QSAR模型一样,只是加入了温度的影响。在最优的模型中,共有n = 654个不同温度的KOA数据。R2 Y(adj) = 0.963,标准偏差SE = 0.463, p < 0.001表明模型有良好的拟合优度。Q2 CUM =0.959,表明模型具有良好的稳健性。
(3) QSAR和QSAR-T模型的验证和应用域表征
QSAR(以及QSAR-T)模型的预测能力需要通过外部验证来检验。验证集共n = 282个数据。外部验证的结果可以通过外部预测相关系数的平方Q2 EXT以及外部验证结果的均方根误差RMSE来表示。这两个参数分别定义为:
Figure BDA0000249906806
Figure BDA0000249906807
QSAR模型应用域表征同时采用四种方法:描述符距离法,欧几里德距离法(0.33~1.48),城市街区方法(0.68~4.29)及概率密度方法,可以确定化合物是否离域,其中只要有一种方法确定化合物处于域外,则该化合物为离域化合物;同时结合预测的误差限±3RMSE来确定化合物是否离群,从而决定模型的应用域。对于QSAR模型来说,在应用域内验证集化合物KOA预测的结果为:n = 101(15种化合物在域外), Q2 EXT = 0.953, RMSE = 0.820。表明该QSAR模型具有良好的预测能力。对于QSAR-T模型的验证结果n = 282, RMSE = 1.27,Q2 EXT = 0.870,表明该模型可以用于预测不同温度下的KOA
(4)采用溶剂化模型计算溶剂自由能预测KOA
采用开源的溶剂化模型SM8AD从头计算化合物分子在298.15 K时在正辛醇中的溶解自由能。并由热力学关系式(1)计算得到logKOA值。计算只需输入化合物分子的坐标文件。
对比SM8AD模型与QSAR模型在训练集264种化合物上的计算线性拟合结果(预测值与实验值作图),比较拟合的相关系数,斜率k(趋近于1),均方根误差。可以发现,SM8AD模型预测的准确性较高,但较QSAR模型的结果差一些。(SM8AD: R= 0.860, k = 0.80, RMSE= 1.29; QSAR: R2 = 0.966, k = 0.97, RMSE = 0.524)。因此若化合物处在QSAR模型和QSAR-T模型应用域之外,可以优先考虑用SM8AD模型预测化合物的KOA
本发明提供的方法具有如下特点:
1.依据OECD关于QSAR模型构建和使用的导则,建立的QSAR模型具有良好的拟合优度,稳健性和预测能力。
2.模型的应用域较广,涵盖多种结构的有机化合物,加入温度的影响,可用于预测不同化合物在不同温度下的KOA,为有机化学品全球性环境行为分析和生态风险评价提供基础数据。
3.溶剂化模型可以为KOA的预测提供新的参考,可以弥补QSAR模型预测的不足,提供更加可靠的KOA预测数据,而从头算法简便,理论上应用域无限制,可以推广至所有化合物的KOA预测。
本发明可以快速有效地预测不同环境温度下,不同有机污染物的正辛醇/空气分配系数。该方法成本低廉、简便而快速,可节省大量的人力、物力和财力。该发明涉及的QSAR模型的建立和验证严格依照OECD规定的QSAR模型构建和使用的导则,准确可靠,同时参照广域的从头算溶剂化模型SM8AD预测结果,准确获取KOA,为化学品监管工作提供重要的基础数据,并对生态风险评价具有重要的指导意义。
附图说明
图1化合物logKOA的QSAR模型和溶剂化模型预测方法说明图。
图2为训练集logKOA的实测值与QSAR模型预测值的拟合图。
图3为训练集QSAR模型预测KOA的残差分布。
图4为QSAR-T模型在训练集上的预测值与实测值的线性拟合图。
图5为SM8AD溶剂化模型在训练集上的预测值与实测值的线性拟合图。
具体实施方式
实施例1
采用本发明方法预测一种联苯类化合物-多氯联苯PCB-66(2,3’,4,4’-tetrachlorobiphenyl)在25℃的正辛醇/空气分配系数KOA。预测方法为:
(1)首先,用化学作图软件获取并保存PCB-66为.mol格式的文件。使用MOPAC软件对其进行初步结构优化;(2)通过Dragon软件计算出QSAR模型中的11种Dragon描述符,结果为:X1sol = 8.73,Mor13v= -0.33, H-050 = 0,R5v = 0.118,T(O..Cl) = 0,HATS5v = 0.254,RDF035m = 0.443,RCI = 1.48,nCOOR = 0,Mor15u = 0.155,RDF090m = 0.334;(3)根据应用域的判定方法进行判定:①描述符距离:由于训练集化合物确定的描述符距离为X1sol~(1,13.35),Mor13v ~(-1.538,0.938),H-050 ~(0,1,2),R5v ~(0,0.319),T(O..Cl) ~(0,100),HATS5v~(0,1.115),RDF035m ~(0,59.03),RCI ~(0,1.54),nCOOR~(0或1),Mor15u~(-1.25,1.75),RDF090m ~(0,53.63)。这11种描述符均符合应用域范围;②欧几里德距离:计算得到的欧几里德距离值为0.41,处在(0.33-1.48)之间,说明该化合物处在域内;③城市街区距离:计算的城市街区距离值为0.86,处在(0.68~4.29)内;④概率密度分布,计算得到的概率密度处在训练集概率密度分布值(>0.01)范围内。所计算的11种描述符均处在范围内,因此,该化合物在所建立的QSAR模型应用域内。故可以利用本模型进行预测。将以上描述符分别代入QSAR模型的线性表达式。
logKOA = 0.509 + 0.986 × 8.73 – 1.018 ×(-0.33)+1.384 × 0 – 1.528 × 0.118 – 0.015 × 0 + 0.043 × 0.254 – 0.026 × 0.443 – 0.197 × 1.48– 0.130 × 0 – 0.077 × 0.155 – 0.077 × 0.334= 9.02
所得的logKOA预测值9.02与其实验测定值8.97十分接近,预测的误差为0.05个log单位。表明该QSAR模型预测结果可靠。
实施例2
采用本发明方法预测一个多氯代萘化合物1,4,6,7-tetrachloronapthalene在283.15 K, 293.15 K, 298.15 K, 303.15 K, 313.15 K, 323.15 K温度下的正辛醇/空气分配系数值并与实验值进行对比。利用QSAR-T模型对该化合物在不同温度下的KOA进行预测。预测步骤如下:
首先,用化学作图软件获取并保存1,4,6,7-四氯代萘为.mol格式的文件。使用MOPAC2000软件对其进行初步结构优化。通过Draogon软件计算出X1sol,Mor13v, H-050, R5v, T(O..Cl), HATS5v, RDF035m, RCI, nCOOR, Mor15u和RDF090m。再判断对这11种描述进行QSAR应用域的判断,确定目标化合物在QSAR-T模型的应用域内。然后将描述符计算值除以对应的温度,得到不同温度下这11种描述符的值,分别如下表所示:
表1 QSAR-T模型中不同温度校正的Dragon描述符值
Figure BDA0000249906808
将以上温度校正的描述符的值代入QSAR-T模型的线性关系式,预测得到在不同温度下(由低到高)的logKOA值为8.012,8.597,8.201,7.83,7.484,7.158。对应的实测值为8.13,8.85,8.42,7.87,7.43,7.12。两者比较,残差值在0.038~0.253之间。预测值与实验值非常接近。线性拟合预测值与实验值,两者的相关系数R2 = 0.996,显示出良好的相关性,表明该QSAR-T预测模型可靠。
实施例3
任意给定一个联苯醚类化合物甲氧基多溴联苯醚6-OH-BDE-157。同样计算它的11种Dragon描述符,值分别为X1sol = 12.77,Mor13v =-0.921,H-050 = 1,R5v = 0.103,T(O..Cl) = 0,HATS5v= 0.245,RDF035m = 84.685,RCI = 1.41,nCOOR = 0,Mor15u= 1.33,RDF090m = 14.19。根据应用域的判定方法进行判定:①描述符距离:训练集化合物确定的描述符距离为X1sol ~(1,13.35),Mor13v ~(-1.538,0.938),H-050 ~(0,1,2),R5v ~(0,0.319),T(O..Cl) ~(0,100),HATS5v ~(0,1.115),RDF035m ~(0,59.03),RCI ~(0,1.54),nCOOR ~(0或1),Mor15u ~(-1.25,1.75),RDF090m ~(0,53.63)。这11种描述符中RDF035m处在描述符范围外,因此该化合物在域外;②欧几里德距离:计算得到的欧几里德距离值为0.829,处在(0.33-1.48)之间;③城市街区距离:计算的城市街区距离值为2.09,处在(0.68~4.29)内;④概率密度分布,计算得到的概率密度值为4.36,处在训练集概率密度分布值(>0.01)范围内。有一种方法定义化合物在域外,因此,该化合物在QSAR模型域外。可以参考使用SM8AD模型进行计算。同样的,将化合物分子结构保存为.inp格式文件。加入模型的计算控制参数值,具体坐标文件形式如下:
Figure BDA00002499068010
Figure BDA00002499068011
$END
计算得到的溶解自由能为11.8kcal/mol, 通过关系式logKOA = -△GOA/2.303RT换算出logKOA值为10.68(室温25℃),查询到其logKOA实测值为10.95,两者之差为0.27个log单位,证明SM8AD溶剂化模型的计算结果较准确。
实施例4
采用本发明方法预测二甲基酰胺(Dimethylformamide)化合物在室温25℃时的KOA值。首先,计算其Dragon描述符为:X1sol = 2.27,Mor13v = -0.01, H-050 = 0,R5v = 0,T(O..Cl) = 0,HATS5v = 0,RDF035m = 1.14,RCI = 0,nCOOR = 0,Mor15u = -0.11,RDF090m = 0。根据应用域的判定方法进行判定:①描述符距离:由于训练集化合物确定的描述符距离为X1sol ~(1,13.35),Mor13v ~(-1.538,0.938),H-050 ~(0,1,2),R5v ~(0,0.319),T(O..Cl) ~(0,100),HATS5v ~(0,1.115),RDF035m ~(0,59.03),RCI ~(0,1.54),nCOOR ~(0或1),Mor15u ~(-1.25,1.75),RDF090m ~(0,53.63)。这11种描述符均处在各自的描述符范围内;②欧几里德距离:计算得到的欧几里德距离值为0.81,处在(0.33-1.48)之间,说明该化合物处在域内;③城市街区距离:计算的城市街区距离值为1.37,处在(0.68~4.29)内;④概率密度分布,计算得到的概率密度处在训练集概率密度分布值(>0.01)范围内。根据四种方法判断,该化合物处在QSAR模型的应用域内,代入QSAR线性关系式计算得到logKOA = 2.73,与实验值logKOA = 4.38残差(1.65)较大,在训练集的±3RMSE(-1.57,1.57)之外,因此属于预测的离群值。尝试采用SM8AD溶剂化模型计算。计算结果为logKOA = 3.54,相对更加可信。
实施例5
采用本发明方法预测一种有机氯农药DDT(p,p’-DDT)在室温25℃时的KOA值。首先,计算其Dragon描述符为:X1sol = 10.20,Mor13v= -0.31, H-050 = 0,R5v = 0.151,T(O..Cl) = 0,HATS5v = 0.381,RDF035m = 3.993,RCI = 1.4,nCOOR = 0,Mor15u = 0.157,RDF090m = 0。根据应用域的判定方法进行判定:①描述符距离:由于训练集化合物确定的描述符距离为X1sol ~(1,13.35),Mor13v ~(-1.538,0.938),H-050 ~(0,1,2),R5v ~(0,0.319),T(O..Cl) ~(0,100),HATS5v ~(0,1.115),RDF035m ~(0,59.03),RCI ~(0,1.54),nCOOR ~(0或1),Mor15u ~(-1.25,1.75),RDF090m ~(0,53.63)。这11种描述符均处在各自的描述符范围内;②欧几里德距离:计算得到的欧几里德距离值为0.48,处在(0.33-1.48)之间,说明该化合物处在域内;③城市街区距离:计算的城市街区距离值为0.94,处在(0.68~4.29)内;④概率密度分布,计算得到的概率密度处在训练集概率密度分布值(>0.01)范围内。根据四种方法判断,该化合物处在QSAR模型的应用域内,代入QSAR线性关系式计算得到logKOA = 10.28。而p,p’-DDT实验logKOA =9.82。表明该QSAR模型预测结果可靠,适用于包括有机农药在内的不同种类化合物KOA的预测。

Claims (2)

1.通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数KOA的方法,其特征包括以下步骤:
(1)数据搜集和划分:搜集文献中实验测定的正辛醇/空气分配系数KOA值,得到380种有机化合物在不同温度下的936个KOA数据;随机将其中264种、654个KOA值划为训练集,其余为验证集;
(2)QSAR和QSAR-T模型构建:采用多元线性回归和偏最小二乘方法构建25℃时logKOA和训练集化合物分子Dragon描述符的定量构效关系QSAR模型,表达式为:
logKOA= 0.509 + 0.986 × X1sol – 1.018 × Mor13v +1.384 × H-050 – 1.528 × R5v – 0.015 × T(O..Cl) + 0.043 × HATS5v – 0.026 × RDF035m – 0.197× RCI – 0.130 × nCOOR – 0.077 × Mor15u – 0.077 × RDF090m,其中,X1sol表示溶剂连接性指数chi-1;Mor13v和Mor15u是3D-MoRSE描述符;H-050表示H原子连接杂原子的碎片常数;R5v和HATS5v表示GETAWAY描述符;RDF035m和RDF090m表示径向分布函数描述符;RCI 表示芳香性指数描述符;T(O..Cl)是O和Cl原子间拓扑距离的和;nCOOR表示分子中醚键的个数;在该QSAR模型的Dragon描述符上添加温度校正后构建-10—50℃时logKOA与校正的Dragon描述符之间的温度依附性QSAR-T模型,表达式为:
logKOA = –3.03 + 3.13 ×102X1sol/T – 8.57 × 10Mor13v/T + 4.32 × 102H050/T – 1.27 × 103R5v/T – 5.54 × T(O..Cl)/T+ 1.25 × 102HATS5v/T – 1.33 × 10RDF035m/T – 6.11 × 10RCl/T – 3.76 × 10nCOOR/T+1.56 × 102Mor15u/T – 5.49 × RDF090m/T + 1.04 ×103/T;该QSAR和QSAR-T模型的校正决定系数R2 adj > 0.9,累积交叉验证系数Q2 CUM > 0.9;
(3)QSAR和QSAR-T模型的验证和应用域表征:QSAR和QSAR-T模型的验证结果用外部预测相关系数的平方Q2 EXT和均方根误差RMSE表示;QSAR和QSAR-T模型的化合物应用域相同,均同时采用以下四种应用域表征方法:描述符距离范围法、欧几里德距离法、城市街区距离法和概率密度分布法;
(4)溶剂化模型:采用从头算的开源溶剂化模型SM8AD计算有机化合物分子在25℃时在正辛醇中的溶解自由能△GOA,由KOA的热力学原理式logKOA = -△GOA/2.303RT计算得到logKOA值;
(5)未知化合物的KOA预测:计算未知化合物的Dragon描述符,判断该描述符是否处在QSAR和QSAR-T模型应用域内;若是,则采用QSAR模型预测25℃时的KOA值,如需获得其他温度下的KOA,则采用QSAR-T模型预测;若处在域外,则采用溶剂化模型SM8AD计算获取KOA
2.根据权利要求1所述的方法,其特征在于,所述的化合物包括烷烃类、醇类、醚类、酮类、羧酸类及取代物、苯、联苯、苯酚、多环芳烃及其取代化合物、有机农药。
CN2012105059356A 2012-11-30 2012-11-30 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 Pending CN102999705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105059356A CN102999705A (zh) 2012-11-30 2012-11-30 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105059356A CN102999705A (zh) 2012-11-30 2012-11-30 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法

Publications (1)

Publication Number Publication Date
CN102999705A true CN102999705A (zh) 2013-03-27

Family

ID=47928264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105059356A Pending CN102999705A (zh) 2012-11-30 2012-11-30 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法

Country Status (1)

Country Link
CN (1) CN102999705A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488901A (zh) * 2013-09-25 2014-01-01 大连理工大学 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数
CN103714220A (zh) * 2014-01-07 2014-04-09 中国科学院烟台海岸带研究所 预测海岸带持久性有机污染物消除速率的方法
CN105548463A (zh) * 2015-11-26 2016-05-04 昆明理工大学 一种预测大气中含硫化合物吸附速率的方法
CN105678069A (zh) * 2016-01-06 2016-06-15 昆明理工大学 预测气态含硫化合物在低温水解条件下消除速率常数的方法
CN105868540A (zh) * 2016-03-25 2016-08-17 哈尔滨理工大学 应用智能支持向量机对多环芳烃性质/毒性的预测方法
CN107516016A (zh) * 2017-08-30 2017-12-26 华南理工大学 一种通过构建定量构效关系模型预测疏水性化合物的硅油‑空气分配系数的方法
CN110110934A (zh) * 2019-05-10 2019-08-09 大连民族大学 一种基于植物生长差异因子预测污染物植物-大气分配系数的方法
CN110534163A (zh) * 2019-08-22 2019-12-03 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法
CN111189869A (zh) * 2018-11-15 2020-05-22 中国科学院大连化学物理研究所 一种建筑装饰材料中半挥发性有机物释放关键参数的测定方法
CN111613266A (zh) * 2020-05-20 2020-09-01 中南大学 基于定量构效关系的离群值检测方法
CN113591394A (zh) * 2021-08-11 2021-11-02 清华大学 有机化合物正十六烷/空气分配系数的预测方法
CN113705008A (zh) * 2021-08-31 2021-11-26 扬州大学 POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法
CN116246717A (zh) * 2021-12-08 2023-06-09 中国科学院大连化学物理研究所 一种提高水中亚铁氰酸根溶解度的添加剂筛选方法
CN116312854A (zh) * 2023-03-06 2023-06-23 杭州以勒标准技术有限公司 一种预测磺胺甲基异恶唑类物质正辛醇水分配系数的方法
CN119446324A (zh) * 2025-01-08 2025-02-14 青岛沙木新材料有限公司 双组分无溶剂刷涂型透明防水聚脲配方优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法
CN102507630A (zh) * 2011-11-30 2012-06-20 大连理工大学 一种基于分子结构和环境温度预测化学物质与臭氧氧化反应速率常数的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法
CN102507630A (zh) * 2011-11-30 2012-06-20 大连理工大学 一种基于分子结构和环境温度预测化学物质与臭氧氧化反应速率常数的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雪花: "有毒有机污染物正辛醇/空气分配系数(KOA)的定量预测方法", 《中国博士学位论文全文数据库 工程科技I辑》, 31 May 2009 (2009-05-31) *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488901A (zh) * 2013-09-25 2014-01-01 大连理工大学 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数
CN103488901B (zh) * 2013-09-25 2016-06-22 大连理工大学 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数的方法
CN103714220A (zh) * 2014-01-07 2014-04-09 中国科学院烟台海岸带研究所 预测海岸带持久性有机污染物消除速率的方法
CN103714220B (zh) * 2014-01-07 2017-01-11 中国科学院烟台海岸带研究所 预测海岸带持久性有机污染物消除速率的方法
CN105548463A (zh) * 2015-11-26 2016-05-04 昆明理工大学 一种预测大气中含硫化合物吸附速率的方法
CN105548463B (zh) * 2015-11-26 2017-11-10 昆明理工大学 一种预测大气中含硫化合物吸附速率的方法
CN105678069A (zh) * 2016-01-06 2016-06-15 昆明理工大学 预测气态含硫化合物在低温水解条件下消除速率常数的方法
CN105868540A (zh) * 2016-03-25 2016-08-17 哈尔滨理工大学 应用智能支持向量机对多环芳烃性质/毒性的预测方法
CN105868540B (zh) * 2016-03-25 2018-04-13 哈尔滨理工大学 应用智能支持向量机对多环芳烃性质/毒性的预测方法
CN107516016A (zh) * 2017-08-30 2017-12-26 华南理工大学 一种通过构建定量构效关系模型预测疏水性化合物的硅油‑空气分配系数的方法
CN107516016B (zh) * 2017-08-30 2021-01-19 华南理工大学 一种构模预测疏水性化合物的硅油-空气分配系数的方法
CN111189869A (zh) * 2018-11-15 2020-05-22 中国科学院大连化学物理研究所 一种建筑装饰材料中半挥发性有机物释放关键参数的测定方法
CN111189869B (zh) * 2018-11-15 2022-04-08 中国科学院大连化学物理研究所 一种建筑装饰材料中svoc释放关键参数的测定方法
CN110110934B (zh) * 2019-05-10 2021-03-30 大连民族大学 一种基于植物生长差异因子预测污染物植物-大气分配系数的方法
CN110110934A (zh) * 2019-05-10 2019-08-09 大连民族大学 一种基于植物生长差异因子预测污染物植物-大气分配系数的方法
CN110534163A (zh) * 2019-08-22 2019-12-03 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法
CN110534163B (zh) * 2019-08-22 2022-09-06 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法
CN111613266A (zh) * 2020-05-20 2020-09-01 中南大学 基于定量构效关系的离群值检测方法
CN113591394A (zh) * 2021-08-11 2021-11-02 清华大学 有机化合物正十六烷/空气分配系数的预测方法
CN113591394B (zh) * 2021-08-11 2024-02-23 清华大学 有机化合物正十六烷/空气分配系数的预测方法
CN113705008A (zh) * 2021-08-31 2021-11-26 扬州大学 POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法
CN116246717A (zh) * 2021-12-08 2023-06-09 中国科学院大连化学物理研究所 一种提高水中亚铁氰酸根溶解度的添加剂筛选方法
CN116246717B (zh) * 2021-12-08 2024-06-28 中国科学院大连化学物理研究所 一种提高水中亚铁氰酸根溶解度的添加剂筛选方法
CN116312854A (zh) * 2023-03-06 2023-06-23 杭州以勒标准技术有限公司 一种预测磺胺甲基异恶唑类物质正辛醇水分配系数的方法
CN119446324A (zh) * 2025-01-08 2025-02-14 青岛沙木新材料有限公司 双组分无溶剂刷涂型透明防水聚脲配方优化方法

Similar Documents

Publication Publication Date Title
CN102999705A (zh) 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法
Borhani et al. QSPR prediction of the hydroxyl radical rate constant of water contaminants
CN110534163B (zh) 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法
Raiesi et al. Evaluating forest soil quality after deforestation and loss of ecosystem services using network analysis and factor analysis techniques
Roshni et al. Development and evaluation of hybrid artificial neural network architectures for modeling spatio-temporal groundwater fluctuations in a complex aquifer system
CN103488901B (zh) 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数的方法
Gharagheizi et al. Prediction of flash point temperature of pure components using a quantitative structure–property relationship model
CN107563133B (zh) 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法
CN103425872B (zh) 通过定量构效关系模型预测大气中有机物与羟基反应速率常数的方法
CN105046100A (zh) 一种堤坝边坡变形监测数据分析新方法
Fan et al. Modeling the toxicity of ionic liquids based on deep learning method
Gharagheizi et al. Determination of the normal boiling point of chemical compounds using a quantitative structure–property relationship strategy: Application to a very large dataset
Yan et al. Norm index-based QSTR model to predict the eco-toxicity of ionic liquids towards Leukemia rat cell line
CN104573863A (zh) 预测水相中有机化合物与羟基自由基反应速率常数的方法
CN112182950B (zh) 一种气体介质绝缘能力评估方法
Fu et al. Spatial variation and source apportionment of surface water pollution in the Tuo River, China, using multivariate statistical techniques
CN109524063B (zh) 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法
CN107516012A (zh) 一种基于有机化合物分子三维结构计算的结构描述符
Gonzalez et al. A method for prediction of UNIFAC group interaction parameters
Baxevanidis et al. Group contribution‐based LCA models to enable screening for environmentally benign novel chemicals in CAMD applications
Pan et al. Predicting the net heat of combustion of organic compounds from molecular structures based on ant colony optimization
Martínez‐Santiago et al. Discrete Derivatives for Atom‐Pairs as a Novel Graph‐Theoretical Invariant for Generating New Molecular Descriptors: Orthogonality, Interpretation and QSARs/QSPRs on Benchmark Databases
Zhang A mathematical model for project cost prediction combining multiple algorithms
Mohan et al. Physics-informed machine learning to predict solvatochromic parameters of designer solvents with case studies in CO2 and lignin dissolution
Ahmadi A QSPR study of association constants of macrocycles toward sodium cation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130327