CN111261238A - PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 - Google Patents
PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 Download PDFInfo
- Publication number
- CN111261238A CN111261238A CN202010042963.3A CN202010042963A CN111261238A CN 111261238 A CN111261238 A CN 111261238A CN 202010042963 A CN202010042963 A CN 202010042963A CN 111261238 A CN111261238 A CN 111261238A
- Authority
- CN
- China
- Prior art keywords
- anaerobic digestion
- model
- removal rate
- training set
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000029087 digestion Effects 0.000 title claims abstract description 41
- 239000000126 substance Substances 0.000 title claims abstract description 37
- 238000010276 construction Methods 0.000 title claims description 7
- 150000001875 compounds Chemical class 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000010200 validation analysis Methods 0.000 claims description 14
- 238000012512 characterization method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 229960004296 megestrol acetate Drugs 0.000 claims description 6
- RQZAXGRLVPAYTJ-GQFGMJRRSA-N megestrol acetate Chemical compound C1=C(C)C2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(C)=O)(OC(=O)C)[C@@]1(C)CC2 RQZAXGRLVPAYTJ-GQFGMJRRSA-N 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 5
- 229960004099 azithromycin Drugs 0.000 claims description 4
- MQTOSJVFKKJCRP-BICOPXKESA-N azithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)N(C)C[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 MQTOSJVFKKJCRP-BICOPXKESA-N 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000002003 electron diffraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000324 molecular mechanic Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 239000010802 sludge Substances 0.000 abstract description 16
- 231100000290 environmental risk assessment Toxicity 0.000 abstract description 3
- 239000000463 material Substances 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- MYSWGUAQZAJSOK-UHFFFAOYSA-N ciprofloxacin Chemical compound C12=CC(N3CCNCC3)=C(F)C=C2C(=O)C(C(=O)O)=CN1C1CC1 MYSWGUAQZAJSOK-UHFFFAOYSA-N 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 239000002689 soil Substances 0.000 description 4
- 231100000331 toxic Toxicity 0.000 description 4
- 230000002588 toxic effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000000383 hazardous chemical Substances 0.000 description 3
- 238000010564 aerobic fermentation Methods 0.000 description 2
- 229960003405 ciprofloxacin Drugs 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- WHHGLZMJPXIBIX-UHFFFAOYSA-N decabromodiphenyl ether Chemical compound BrC1=C(Br)C(Br)=C(Br)C(Br)=C1OC1=C(Br)C(Br)=C(Br)C(Br)=C1Br WHHGLZMJPXIBIX-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000003673 groundwater Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 150000002894 organic compounds Chemical class 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- DNXHEGUUPJUMQT-UHFFFAOYSA-N (+)-estrone Natural products OC1=CC=C2C3CCC(C)(C(CC4)=O)C4C3CCC2=C1 DNXHEGUUPJUMQT-UHFFFAOYSA-N 0.000 description 1
- PROQIPRRNZUXQM-UHFFFAOYSA-N (16alpha,17betaOH)-Estra-1,3,5(10)-triene-3,16,17-triol Natural products OC1=CC=C2C3CCC(C)(C(C(O)C4)O)C4C3CCC2=C1 PROQIPRRNZUXQM-UHFFFAOYSA-N 0.000 description 1
- RXZBMPWDPOLZGW-XMRMVWPWSA-N (E)-roxithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)C(=N/OCOCCOC)/[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 RXZBMPWDPOLZGW-XMRMVWPWSA-N 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241000402754 Erythranthe moschata Species 0.000 description 1
- DNXHEGUUPJUMQT-CBZIJGRNSA-N Estrone Chemical compound OC1=CC=C2[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4[C@@H]3CCC2=C1 DNXHEGUUPJUMQT-CBZIJGRNSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960002626 clarithromycin Drugs 0.000 description 1
- AGOYDEPGAOXOCK-KCBOHYOISA-N clarithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)C(=O)[C@H](C)C[C@](C)([C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)OC)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 AGOYDEPGAOXOCK-KCBOHYOISA-N 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229960001348 estriol Drugs 0.000 description 1
- PROQIPRRNZUXQM-ZXXIGWHRSA-N estriol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H]([C@H](O)C4)O)[C@@H]4[C@@H]3CCC2=C1 PROQIPRRNZUXQM-ZXXIGWHRSA-N 0.000 description 1
- 229960003399 estrone Drugs 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 239000003063 flame retardant Substances 0.000 description 1
- -1 fluorochemicals Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229960005489 paracetamol Drugs 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229960005224 roxithromycin Drugs 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 229960002135 sulfadimidine Drugs 0.000 description 1
- ASWVTGNCAZCNNR-UHFFFAOYSA-N sulfamethazine Chemical compound CC1=CC(C)=NC(NS(=O)(=O)C=2C=CC(N)=CC=2)=N1 ASWVTGNCAZCNNR-UHFFFAOYSA-N 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- IEDVJHCEMCRBQM-UHFFFAOYSA-N trimethoprim Chemical compound COC1=C(OC)C(OC)=CC(CC=2C(=NC(N)=NC=2)N)=C1 IEDVJHCEMCRBQM-UHFFFAOYSA-N 0.000 description 1
- 229960001082 trimethoprim Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
本发明公开了一种PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,包括数据收集、设置训练集和验证集样本化合物,计算描述符,模型构建,模型性能评价。利用4个描述符:DI SPm、Mor15m、HATSe、O‑060,计算与训练集样本的欧几里德距离,选出与其距离最近的3个训练集样本,根据这3个训练集样本去除效率分类结果最多的确定待预测PPCPs的去除效率分类。该模型可准确预测出PPCPs在污泥中温厌氧消化过程中的去除效率,预测方法简单、快速,避免了实测研究,节省了人力、物力和时间,为污泥高效厌氧消化处理工程设计以及PPCPs的环境风险评估提供理论和技术支持。
Description
技术领域
本发明属于环保技术领域,具体涉及一种PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法。
背景技术
我国是化学品研发、生产、使用大国,除了4.5万多种现有化学物质外,每年还有上千种新化学物质投入使用。这些化学品中存在大量的有毒有害化学品。在污水生物处理过程中,大量难降解、有毒性的新型化学品通过吸附转移到污泥中。这些污泥经过厌氧消化、好氧发酵等污泥处置后,将可能用于土壤施肥。
但是,大量研究表明,污泥在厌氧消化、好氧发酵等处置过程中,有毒有害化学品仍然不能完全去除,处置后的污泥中仍然存在高水平的PPCPs、溴系阻燃剂、全氟化合物、药物和个人护理产品(PPCPs)等化学品(含量水平达mg/kg级别)。
在污泥农用过程中,这些有毒有害物质城市污泥中含有较高含量的有机污染物进入土壤后,可能对土壤生物、地下水、地表水带来潜在环境风险。因此研究污泥消化处理过程中化学品的去除效率,对于评估化学品的风险、保证土壤生物和地下水安全具有重要意义。
药物和个人护理用品(Pharmaceutical and Personal Care Products,PPCPs)因其对人类健康和环境的潜在影响而受到关注。国内外已有一些报道污泥中温厌氧消化过程中药物和个人护理产品(PPCPs)的分配和去除(Narumiya M,et al.Phase distributionand removal of pharmaceuticals and personal care products during anaerobicsludge digestion.Journal of Hazardous Materials,2013,260:305–312;Stasinakis AS.Review on the fate of emerging contaminants during sludge anaerobicdigestion.Bioresource Technology,2012,121:432-440)。但是,这些研究仅针对有限数量的PPCPs,还有大量的PPCPs物质在污泥中温厌氧消化过程中的去除效率未经过评估。由于试验测定需要较高的代价,费时费力,使用模型预测的方法将是一种最佳的选择。
发明内容
为了解决上述问题,本发明提供了一种PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,构建的模型用于预测PPCPs在厌氧消化过程中的去除效率,以期为污泥处理工程设计以及PPCPs的环境风险评估提供技术依据。所述预测模型的构建方法包括以下步骤:
(1)数据收集、设置训练集和验证集样本化合物;
从文献中查询了中温厌氧消化条件下污泥中44种有机化学品去除率数据(污泥停留时间SRT=25d,PH=8.0;来源于文献Journal of Hazardous Materials,2013,260,305–312)。A表示去除率≥60%,可去除;I表示去除率<60%,不可去除。训练集选取35个样本化合物,验证集选取9个样本化合物。训练集样本在结构上尽可能多样化,活性覆盖范围应尽可能大,以使模型的应用范围广,预测能力强。验证集则用来评价所建立模型的预测能力,包含在训练集的描述符空间之内。
(2)计算描述符
采用Hyperchem 7.0软件中的MM+分子力学对化合物结构进行预优化,半经验AM1方法对化合物结构进行优化,基于优化的结构,使用Dragon 5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关(相关系数大于0.98的两个分子描述符中与目标值相关系数较小的)的分子描述符最终得到626个分子描述符。
(3)模型构建
采用MobyDigs软件中遗传算法GA进行变量选择,GA的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证LOO-CV,其他参数均为默认值,当增加变量数目对结果影响不大时,就得到了最优的参数个数;
最终筛选出4个最优描述符,即DI SPm、Mor15m、HATSe、O-060;模型表征参数如下:
DI SPm属于组成描述符,表示位移量/质量加权;Mor15m属于3D-MORSE描述符,是基于电子衍射的分子结构表征,HATSe属于GETAWAY描述符,表示Sanderson电负性加权,O-060是原子中心碎片描述符,表示Al-O-Ar/Ar-O-Ar/R..O..R/R-O-C=X原子。
根据计算出来的最优描述符,采用基于欧几里德距离的kNN方法构建了二元分类模型。欧几里德距离计算方法为:
其中,DE是欧几里德距离;x表示验证集化合物,y表示训练集化合物;xi和yi分别是化学品x和y的第i个描述符,n表示最优描述符个数;
训练集样本分类结果如表2所示,验证集中样本与训练集中每个样本做欧式距离计算,取k=3,即选出与其距离最近的3个训练集样本,该验证集样本的分类结果与这3个训练集分类结果最多的一致。
(4)模型性能评价
采用预测准确度(Q)、敏感性(Sn)、特异性(Sp)参数表征模型效果。
其中,TP(true positive)和TN(true negative)分别是正确分类为不可去除和可去除的化合物数量;FN(false negative)和FP(false positive)分别是错误分类为可去除和不可去除的化合物数量。MCC表示马修斯相关系数。
基于kNN方法构建了二元分类算法准确度(Q)、敏感性(Sn)、特异性(Sp)和马修斯相关系数(MCC)参数如表1所示。
表1有机化学品中温厌氧消化去除率模型表征结果
本发明的另一目的是提供上述模型的应用,未知化物经过分子结构的输入和结构优化过程,通过Dragon软件计算4种描述符,DI SPm、Mor15m、HATSe、O-060,利用所述预测模型得到未知化合物中温厌氧消化去除率。
优选的,上述模型应用于阿奇霉素和醋酸甲地孕酮的中温厌氧消化去除率预测的应用。
本发明的有益效果在于:利用本方法构建出的预测模型能准确预测出PPCPs在污泥中温厌氧消化过程中的去除效率,预测方法简单、快速,准确性高,避免了实测研究,节省了人力、物力和时间,为污泥高效厌氧消化处理工程设计以及PPCPs的环境风险评估提供理论和技术支持。
附图说明
图1PPCPs类有机化学品中温厌氧消化去除率模型的应用域Williams图。
图2基于欧几里德距离的模型应用域表征图。
具体实施方式
根据下述实施例,可以更好地理解本发明。然而,本领域的技术人员容易理解,实施例所描述的内容仅用于说明本发明,而不应当也不会限制权利要求书中所详细描述的本发明。
实施例1 PPCPs类有机化学品中温厌氧消化去除率模型预测模型构建
(1)数据收集、设置训练集和验证集样本化合物;
从文献中查询了中温厌氧消化条件下污泥中44种有机化学品去除率数据(污泥停留时间SRT=25d,PH=8.0;来源于文献Phase distribution and removal ofpharmaceuticals and personal care products during anaerobic sludgedigestion.Journal of Hazardous Materials,2013,260,305–312)。将A:去除率≥60%可去除;I去除率<60%不可去除。训练集选取35个样本化合物,验证集选取9个样本化合物。训练集样本在结构上尽可能多样化,活性覆盖范围应尽可能大,以使模型的应用范围广,预测能力强。验证集则用来评价所建立模型的预测能力,包含在训练集的描述符空间之内。
(2)描述符
采用Hyperchem 7.0软件中的MM+分子力学对化合物结构进行预优化,半经验AM1方法对化合物结构进行优化,基于优化的结构,使用Dragon 5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关(相关系数大于0.98的两个分子描述符中与目标值相关系数较小的)的分子描述符,得到626个重要分子描述符。
(3)模型构建
采用MobyDigs软件中遗传算法GA进行变量选择,GA的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证LOO-CV,其他参数均为默认值,当增加变量数目对结果影响不大时,就得到了最优的参数个数;
最终筛选出4个最优描述符,即DISPm、Mor15m、HATSe、O-060;模型表征参数如下:
DISPm属于组成描述符,表示位移量/质量加权;Mor15m属于3D-MORSE描述符,是基于电子衍射的分子结构表征,HATSe属于GETAWAY描述符,表示Sanderson电负性加权,O-060是原子中心碎片描述符,表示Al-O-Ar/Ar-O-Ar/R..O..R/R-O-C=X原子。
根据计算出来的最优描述符,采用基于欧几里德距离的kNN方法构建了二元分类模型。欧几里德距离计算方法为:
其中,DE是欧几里德距离;x和y是不同的化学品;xi和yi分别是化学品x和y的第i个描述符。
训练集样本分类结果如表所示,验证集中样本与训练集中每个样本做欧式距离计算,取k=3,即选出与其距离最近的3个训练集样本,该验证集样本的分类结果与这3个训练集分类结果最多的一致。
采用预测准确度(Q)、敏感性(Sn)、特异性(Sp)参数表征模型效果。
其中,TP(true positive)和TN(true negative)分别是正确分类为不可去除和可去除的化合物数量;FN(false negative)和FP(false positive)分别是错误分类为可去除和不可去除的化合物数量。MCC表示马修斯相关系数,值通常位于-1和+1之间。+1代表预测值与实验值一致;0代表预测不比随机好;值为-1表示预测值与实验值不一致。
基于kNN方法构建了二元分类算法准确度(Q)、敏感性(Sn)、特异性(Sp)和马修斯相关系数(MCC),训练集准确度和相关系数分别为0.886、0.755;验证集准确度和相关系数分别为0.778、0.381;马修斯相关系数分别为0.755和0.381;结果显示,二元分类模型效果较好,具体参数如表1所示。
表1有机化学品中温厌氧消化去除率模型表征结果
实施例2对构建的模型进行模型应用域表征
采用欧几里德距离方法和基于leverage的Williams图定义模型的应用域。欧几里德距离使用AMBIT Discovery v0.04软件计算(http://ambit.sourceforge.net/download_ambitdiscovery.html)。欧几里德距离由下式计算得到:
式中,μ是描述符x的均值。
Williams图是由标准残差(δ)和杠杆值(以hi表示,i代表不同的化合物)定义的一种模型应用域。δ采用下式计算:
训练集化合物的杠杆值(leverage,hi)可以通过下面的公式求得:
hi=xi T(XTX)–1xi (8)
式中,xi为第i个化合物分子结构描述符的行向量。警戒值(h*)定义为:
h*=3(k+1)/n (9)
其中,k为描述符的个数,n为训练集个数。
模型应用域表征结果如图1、图2所示。图1中h*=3(k+1)/n=3(4+1)/35=0.42。Williams图纵坐标用实验值和预测值的标准残差来表征实验值的离散程度,当化合物的标准残差δ的绝对值大于3.0时,被视为离群点。横坐标代表训练集中化合物hi值,hi大于警戒值(h*=0.42)时,说明在训练集中该物质的子结构出现较少,会对模型预测结果有显著影响。由图可见,有1个化合物的杠杆值h超过了警戒杠杆值h*,表明这个化合物的结构与训练集化合物的结构有一定的差异,但标准残差均在(-3,+3)范围内,说明本模型适用于十溴二苯醚(CAS:1163-19-5)
基于欧几里得距离法表征模型的应用域。图2即是欧几里德距离图。训练集化合物特征向量到中心点特征向量的欧几里德距离范围为0.208-0.855,因此特征向量欧几里德距离不大于0.855的化合物适用于本模型。本模型验证集化合物都在应用域内。
实施例3 44中PPCPs类有机化合物进行中温厌氧消化去除率预测
利用实施例1构建的预测模型,对44中PPCPs类有机化合物进行中温厌氧消化去除率预测,结果见表2。由表2可知,雌三醇和吐纳麝香的预测结果较差,其他化合物预测正确,准确率达到80%左右,具有较好的预测能力。
表2 PPCPs类有机化学品中温厌氧消化去除率预测值与实验值结果
实施例4阿奇霉素的中温厌氧消化去除率预测
给阿奇霉素(SMILES:CN([C@H](C)[C@@H](O)[C@@](O)(C)[C@@H](CC)O1)C[C@H](C)C[C@](O)(C)[C@H](O[C@H]3[C@H](O)[C@@H](N(C)C)C[C@@H](C)O3)[C@@H](C)[C@H](O[C@H]2C[C@@](C)(OC)[C@@H](O)[C@H](C)O2)[C@@H](C)C1=O)预测其中温厌氧消化去除率。首先根据化学物质分子结构,使用Dragon软件计算出4种描述符DI SPm、Mor15m、HATSe、O-060;分别为3.274、2.213、8.685和0;与训练集中每个化合物做欧式距离计算,计算出与其距离最近的3个训练集化合物为克拉霉素、罗红霉素和甲氧苄啶。Hat为0.311,欧几里得距离为0.369,在模型应用域范围内,可以用本模型对环丙沙星厌氧消化去除率进行预测:
则环丙沙星中温厌氧消化去除率预测值≥60%,可去除;去除率实验值为78%,可去除;与试验测定结果一致。
实施例5醋酸甲地孕酮的中温厌氧消化去除率预测
给醋酸甲地孕酮(SMILESO=C(C)[C@]([C@](CC2)(C)[C@@H](CC1)[C@H](C=C3C)[C@H]2[C@](CC4)(C)C3=CC4=O)1OC(C)=O)预测其中温厌氧消化去除率。首先根据化学物质分子结构,使用Dragon软件计算出4种描述符DI SPm、Mor15m、HATSe、O-060;分别为3.649、0.252、8.97和0;与训练集中每个化合物做欧式距离计算,计算出与其距离最近的3个训练集化合物为扑热息痛、磺胺甲基嘧啶和雌酮。Hat为0.351,欧几里得距离为0.503,在模型应用域范围内,可以用本模型对醋酸甲地孕酮厌氧消化去除率进行预测:
则醋酸甲地孕酮中温厌氧消化去除率预测值≥60%,可去除;去除率实验值为83%,可去除;与试验测定结果一致。
Claims (7)
1.一种PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,所述方法包括以下步骤:
步骤一、数据收集,设置训练集和验证集样本化合物;
步骤二、计算描述符;
步骤三、模型构建;
步骤四、模型性能评价。
2.根据权利要求1所述的PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤一收集数据,所述数据为44种有机化学品中温厌氧消化去除率数据,训练集选取35个样本化合物,验证集选取9个样本化合物。
3.根据权利要求1所述的PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤二采用Hyperchem 7.0软件中的MM+分子力学对化合物结构进行预优化,半经验AM1方法对化合物结构进行优化,基于优化的结构,使用Dragon 5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关的626个分子描述符。
4.根据权利要求1所述的PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤三采用MobyDigs软件中遗传算法GA进行变量选择,GA的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证LOO-CV,其他参数均为默认值,当增加变量数目对结果影响不大时,得到最优的参数个数;
最终筛选出4个最优描述符,即DISPm、Mor15m、HATSe、O-060;其中,DISPm属于组成描述符,表示位移量/质量加权;Mor15m属于3D-MORSE描述符,是基于电子衍射的分子结构表征;HATSe属于GETAWAY描述符,表示Sanderson电负性加权;O-060是原子中心碎片描述符,表示Al-O-Ar/Ar-O-Ar/R..O..R/R-O-C=X原子;
根据计算出来的最优描述符,基于欧几里德距离的kNN方法构建二元分类模型,欧几里德距离计算方法为:
其中,DE是欧几里德距离;x表示验证集化合物,y表示训练集化合物;xi和yi分别是化学品x和y的第i个描述符,n表示最优描述符个数;
验证集中样本与训练集中每个样本做欧式距离计算,取k=3,k代表设定欧几里得距离最近的化合物个数,即选出与其距离最近的3个训练集化合物,该验证集化合物的分类结果与这3个训练集物质分类结果最多的一致。
6.权利要求1所述的PPCPs类有机化学品中温厌氧消化去除率预测模型构建方法的应用,其特征在于,未知化合物经过分子结构的输入和结构优化过程,通过Dragon软件计算4种描述符DI SPm、Mor15m、HATSe、O-060,利用所述预测模型得到未知化合物中温厌氧消化去除率。
7.根据权利要求6所述的应用,其特征在于:所述应用为阿奇霉素和醋酸甲地孕酮的中温厌氧消化去除率预测的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042963.3A CN111261238A (zh) | 2020-01-15 | 2020-01-15 | PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042963.3A CN111261238A (zh) | 2020-01-15 | 2020-01-15 | PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111261238A true CN111261238A (zh) | 2020-06-09 |
Family
ID=70950581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010042963.3A Pending CN111261238A (zh) | 2020-01-15 | 2020-01-15 | PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261238A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986735A (zh) * | 2020-08-19 | 2020-11-24 | 兰州大学 | Ardgpr模型预测rna中原子多极距的计算方法 |
CN112456639A (zh) * | 2020-11-10 | 2021-03-09 | 盐城工学院 | 一种厌氧消化中硫化氢产生量的智能预测方法 |
CN114627981A (zh) * | 2020-12-14 | 2022-06-14 | 阿里巴巴集团控股有限公司 | 化合物分子结构的生成方法及装置、非易失性存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030111411A1 (en) * | 2000-08-16 | 2003-06-19 | Gunter Lorenz | Method for purifying waste water, and purification plant for carrying out said method |
CN101339181A (zh) * | 2008-08-14 | 2009-01-07 | 南京工业大学 | 基于遗传算法的有机化合物燃爆特性预测方法 |
CN103761431A (zh) * | 2014-01-10 | 2014-04-30 | 大连理工大学 | 定量结构活性关系预测有机化学品鱼类生物富集因子 |
CN110114471A (zh) * | 2016-10-14 | 2019-08-09 | 遗传分析股份有限公司 | 用于饮食干预或粪便微生物群移植治疗肠易激综合征的伴随诊断方法 |
-
2020
- 2020-01-15 CN CN202010042963.3A patent/CN111261238A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030111411A1 (en) * | 2000-08-16 | 2003-06-19 | Gunter Lorenz | Method for purifying waste water, and purification plant for carrying out said method |
CN101339181A (zh) * | 2008-08-14 | 2009-01-07 | 南京工业大学 | 基于遗传算法的有机化合物燃爆特性预测方法 |
CN103761431A (zh) * | 2014-01-10 | 2014-04-30 | 大连理工大学 | 定量结构活性关系预测有机化学品鱼类生物富集因子 |
CN110114471A (zh) * | 2016-10-14 | 2019-08-09 | 遗传分析股份有限公司 | 用于饮食干预或粪便微生物群移植治疗肠易激综合征的伴随诊断方法 |
Non-Patent Citations (2)
Title |
---|
CHENGFX ET AL: "《In Silico Assessment of Chemical Biodegradability》", 《ACS PUBLICATIONS》 * |
马益等: "《化学品厌氧生物降解QSBR预测模型研究》", 《生态与农村环境学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986735A (zh) * | 2020-08-19 | 2020-11-24 | 兰州大学 | Ardgpr模型预测rna中原子多极距的计算方法 |
CN112456639A (zh) * | 2020-11-10 | 2021-03-09 | 盐城工学院 | 一种厌氧消化中硫化氢产生量的智能预测方法 |
CN112456639B (zh) * | 2020-11-10 | 2022-11-22 | 盐城工学院 | 一种厌氧消化中硫化氢产生量的智能预测方法 |
CN114627981A (zh) * | 2020-12-14 | 2022-06-14 | 阿里巴巴集团控股有限公司 | 化合物分子结构的生成方法及装置、非易失性存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bouchez et al. | Molecular microbiology methods for environmental diagnosis | |
CN111261238A (zh) | PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 | |
Talbot et al. | Evaluation of molecular methods used for establishing the interactions and functions of microorganisms in anaerobic bioreactors | |
Werner et al. | Bacterial community structures are unique and resilient in full-scale bioenergy systems | |
Wang et al. | Distinctive patterns and controls of nitrous oxide concentrations and fluxes from urban inland waters | |
Cheng et al. | Development and application of random forest regression soft sensor model for treating domestic wastewater in a sequencing batch reactor | |
Fang et al. | Quantitative evaluation of A2O and reversed A2O processes for biological municipal wastewater treatment using a projection pursuit method | |
CN111310299B (zh) | PPCPs类有机污染物废水中臭氧消解速率预测模型构建方法 | |
Zhang et al. | Machine learning modeling for the prediction of phosphorus and nitrogen removal efficiency and screening of crucial microorganisms in wastewater treatment plants | |
Lu et al. | A molecular-based method to estimate the risk associated with cyanotoxins and odor compounds in drinking water sources | |
Schoen et al. | Contamination scenario matters when using viral and bacterial human-associated genetic markers as indicators of a health risk in untreated sewage-impacted recreational waters | |
CN103345544B (zh) | 采用逻辑回归方法预测有机化学品生物降解性 | |
Gao et al. | Comprehensive meta-analysis reveals the impact of non-biodegradable plastic pollution on methane production in anaerobic digestion | |
Bakiri et al. | Development of an improved model for settling velocity and evaluation of the settleability characteristics | |
Qin et al. | A fuzzy composting process model | |
CN117174165A (zh) | 基于宏基因组的环境耐药组分析方法 | |
Ganeshan et al. | Machine learning for high solid anaerobic digestion: Performance prediction and optimization | |
Bai et al. | Prediction models for bioavailability of Cu and Zn during composting: Insights into machine learning | |
Piorkowski et al. | Evaluation of statistical models for predicting Escherichia coli particle attachment in fluvial systems | |
Selvanathan et al. | Assessing machine learning tools for methane emission prediction from POME treatment in Malaysia | |
Su et al. | Leveraging machine learning for prediction of antibiotic resistance genes post thermal hydrolysis-anaerobic digestion in dairy waste | |
Choubey et al. | Metagenomics and metatranscriptomic analysis of wastewater | |
AU2021103009A4 (en) | Method for predicting removal rate of PPCPS-Type organic chemical during mesophilic anerobic digestion | |
Łagód et al. | Rapid on-line method of wastewater parameters estimation by electronic nose for control and operating wastewater treatment plants toward Green Deal implementation | |
LU502703B1 (en) | Method for predicting ozone digestion rate of PPCPS-Type organic chemical in wastewater treatment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200609 |
|
RJ01 | Rejection of invention patent application after publication |