CN113049664B - 一种基于质谱代谢组学的通路分析建模方法 - Google Patents
一种基于质谱代谢组学的通路分析建模方法 Download PDFInfo
- Publication number
- CN113049664B CN113049664B CN202110277077.3A CN202110277077A CN113049664B CN 113049664 B CN113049664 B CN 113049664B CN 202110277077 A CN202110277077 A CN 202110277077A CN 113049664 B CN113049664 B CN 113049664B
- Authority
- CN
- China
- Prior art keywords
- paths
- metabolites
- pathway
- path
- ogpls
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003068 pathway analysis Methods 0.000 title claims abstract description 12
- 238000004949 mass spectrometry Methods 0.000 title claims description 12
- 238000002705 metabolomic analysis Methods 0.000 title claims description 10
- 230000001431 metabolomic effect Effects 0.000 title claims description 10
- 239000002207 metabolite Substances 0.000 claims abstract description 75
- 230000037361 pathway Effects 0.000 claims abstract description 75
- 239000000523 sample Substances 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000001819 mass spectrum Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 239000012472 biological sample Substances 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims 2
- 230000037353 metabolic pathway Effects 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 description 11
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 9
- 210000004369 blood Anatomy 0.000 description 7
- 239000008280 blood Substances 0.000 description 7
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 6
- 206010009944 Colon cancer Diseases 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000006228 supernatant Substances 0.000 description 5
- 238000010998 test method Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 3
- USFZMSVCRYTOJT-UHFFFAOYSA-N Ammonium acetate Chemical compound N.CC(O)=O USFZMSVCRYTOJT-UHFFFAOYSA-N 0.000 description 3
- 239000005695 Ammonium acetate Substances 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 229940043376 ammonium acetate Drugs 0.000 description 3
- 235000019257 ammonium acetate Nutrition 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 2
- XLYOFNOQVPJJNP-ZSJDYOACSA-N Heavy water Chemical compound [2H]O[2H] XLYOFNOQVPJJNP-ZSJDYOACSA-N 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000002552 multiple reaction monitoring Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- OUYCCCASQSFEME-JRDQCHRYSA-N (2S)-2-amino-3-(4-hydroxyphenyl)(2,3-13C2)propanoic acid Chemical compound N[13C@@H]([13CH2]C1=CC=C(C=C1)O)C(=O)O OUYCCCASQSFEME-JRDQCHRYSA-N 0.000 description 1
- JVTAAEKCZFNVCJ-VMIGTVKRSA-N 2-oxidanylpropanoic acid Chemical compound [13CH3][13CH](O)[13C](O)=O JVTAAEKCZFNVCJ-VMIGTVKRSA-N 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- 229930195713 D-glutamate Natural products 0.000 description 1
- WHUUTDBJXJRKMK-GSVOUGTGSA-N D-glutamic acid Chemical compound OC(=O)[C@H](N)CCC(O)=O WHUUTDBJXJRKMK-GSVOUGTGSA-N 0.000 description 1
- ZDXPYRJPNDTMRX-GSVOUGTGSA-N D-glutamine Chemical compound OC(=O)[C@H](N)CCC(N)=O ZDXPYRJPNDTMRX-GSVOUGTGSA-N 0.000 description 1
- 229930195715 D-glutamine Natural products 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000006696 biosynthetic metabolic pathway Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- ZPWVASYFFYYZEW-UHFFFAOYSA-L dipotassium hydrogen phosphate Chemical compound [K+].[K+].OP([O-])([O-])=O ZPWVASYFFYYZEW-UHFFFAOYSA-L 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 229930182851 human metabolite Natural products 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 238000002514 liquid chromatography mass spectrum Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 229910000403 monosodium phosphate Inorganic materials 0.000 description 1
- 235000019799 monosodium phosphate Nutrition 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000004796 pathophysiological change Effects 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 239000011734 sodium Substances 0.000 description 1
- AJPJDKMHJJGVTQ-UHFFFAOYSA-M sodium dihydrogen phosphate Chemical compound [Na+].OP(O)([O-])=O AJPJDKMHJJGVTQ-UHFFFAOYSA-M 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8696—Details of Software
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供一种质谱代谢组学的代谢通路分析建模方法,包括如下步骤:S1:采集正常生物和患病生物的生物样本,对采集样本得到的质谱转化成mzML文件,对质谱文件进行中心化、去噪以及对齐处理,得到样本的代谢物的二维数据矩阵;S2:对样本的代谢物的二维数据矩阵以及样本类别矢量矩阵,做中心化和Unite Variance归一化处理;S3:获取代谢物‑通路映射关系,并通路权重系数进行优化;S4:进行通路排序,调整惩罚因子并确定通路被选频率,利用通路的被选频率对通路进行排序;本发明提供的方法,通过将代谢物分组为相互之间有重叠的通路,将偏最小二乘法和Group Lasso相结合建立回归模型,并引入通路权重系数和惩罚因子,实现基于“分组稀疏”的多元回归。
Description
技术领域
本发明涉及数据分析领域,特别是指一种基于质谱代谢组学的通路分析建模方法。
背景技术
现代高通量的质谱分析技术为我们提供生物体丰富的分子信息,使得我们可以系统研究机体的内源性分子在外界刺激、病理生理学改变以及基因突变等条件下的变化。基于质谱的代谢组学作为综合分析机体代谢的现代分析技术,在学术研究领域被广泛采用,尤其是生物医学和植物科学等领域。
数据分析是质谱代谢组学研究中的关键步骤,近二十年来人们提出了各种的数据分析策略和工具,用于解读数据中生物学差异,揭示其潜在的生物生理病理机制。传统的数据分析策略集中于识别在两个感兴趣的条件之间表现出差异的个体代谢物,然而其结果无法关联上生物环境(如,代谢物通路),需要结合过表达分析(Over-representationanalysis,ORA)将得到的差异代谢物映射到预先定义的生物通路中,从而进一步富集得到扰动通路。这些基于代谢物的通路分析方法忽略了代谢物浓度,结果受到差异代谢物识别结果影响很大。与ORA不同,定量富集分析(Quantitative enrichment analysis,QEA)无需进行差异代谢物识别,直接利用Global-test方法统计来自同一通路的一组代谢物在两类样本间是否存在显著差异。从系统生物学的角度来看,许多的代谢物参与多条代谢通路,即通路间存在重叠,通路之间并不是独立的,它们彼此关联构成整个代谢网络。此外,通路在某些特性上是不等价的,例如不同通路,其包含代谢物的数量、“通路-谢物”对应关系等均存在差异。这些对通路分析提出了三个方面的挑战。第一,如何考虑代谢物和通路之间的相互关系;第二,对于通路间重叠代谢物,如何分配其在各通路中的权重;第三,如何消除各通路间的差异,使得不同通路之间具有可比性。
针对第一个问题,我们可以通过整合所有代谢物来构建一个综合模型来实现,代谢物和通路之间的相互作用被表征成多个通路同时建模来解决。近期研究人员利用多块偏最小二乘(multi-block partial least square,MB-PLS)分析方法对的所有的“组”数据(通路数据)进行建模,使用通路重要性投影(pathway importance in projection,PIP)参量来评估各通路的重要性,并证明了这类基于通路水平(“组”数据)的方法较传统的基于代谢物水平的方法可靠性更高。对于第二问题,通常有两种策略,一种是从数据集中移除所有重叠的代谢物;另一种是将重叠的代谢物复制/均摊到其涉及的各条通路中。然而,这两种策略在筛选扰动通道时都会导致较高的假阳性率(FDR)。对于最后一个问题,有人建议在多条通路联合建模时引入通路内代谢物数量的平方根成做为通路的权重系数,以减少通路之间的不等价性。然而,代谢物数量并不是导致通路间不可比的唯一原因,选择合适的通路权重系数仍是一个挑战。
从网络角度来看,许多的代谢物参与多条代谢通路,即存在通路重叠问题。虽然这类重叠代谢物的代谢水平是由涉及的多条通路共同作用的,但当这类代谢物的代谢水平出现扰动时,扰动通常只是由一条(或部分)通路引起。现有的通路分析方法往往将重叠代谢物的扰动得分均摊在其涉及的各条通路中,进而增加了分析结果的假阳率;其次,由于各通路包含代谢物数量不同、通路间的存在交叠等情况,在多通路联合建模时,通路权重系数难以准确估计;另外,由于代谢组学研究样本量有限,分析结果往往存在一定的随机性。
发明内容
本发明的目的在于克服现有技术的不足,针对当前质谱代谢组学通路分析中的通路重叠问题,提出了一种基于重叠通路的通路分析方法,该方法整合所有代谢物构建出一个综合模型,将代谢物分组为相互之间有重叠的通路,采用权重系数优化算法来分配各个通路的权重,有效地解决了上述背景技术中的问题。
本发明采用如下技术方案:
一种质谱代谢组学的通路分析方法,其特征在于,包括如下步骤:
S1:对采集得到的质谱转化成mzML文件,对质谱文件进行中心化、去噪以及对齐处理,得到样本的代谢物的二维数据矩阵;
S2:对样本的代谢物的二维数据矩阵以及样本类别矢量矩阵,做中心化和单位方差归一化处理;
S3:根据京都基因和基因组百科全书据库(Kyoto Encyclopedia of Genes andGenomes,KEGG),建立“代谢物-通路”间的一对多关系;构建ogPLS模型,对通路权重系数进行优化;
S4:进行通路排序,调整惩罚因子并确定通路被选择的频率,利用通路的选择频率对通路进行排序。
具体地,所述步骤S3对代谢物-通路映射关系的通路权重系数进行优化,具体包括:
若D(Πnull|Πω)<∈,停止步骤S33,其中∈≥0表示收敛精度;
S34:循环迭代:转步骤S32。
具体地,所述步骤S4进行通路排序,调整惩罚因子并确定通路被选择的频率,利用通路的选择频率对通路进行排序,具体包括:
S41:确定惩罚因子λ值:
初始化:令λ=1.0,K=min(N,M),β>0表示学习率,S=φ表示所选通路集;
调整惩罚因子λ:如果|S|≠L,L为所要选择的通路数量,则更新λ=λ+β·(|S|-L);回到ogPLS建模步骤继续ogPLS建模直至满足|S|=L;
S42:确定通路被选择的频率:
Bootstrapping建模,初始化通路选择计数器cg=0,g=1,2,…,G;从n=1到n=1000循环:对数据进行50%的随机采样构建一个ogPLS模型Mn;若通路被模型Mn选择,则cg=cg+1;
S43:利用通路的选择频率对通路进行排序:
利用通路选择的频率对通路进行排序Fλ=(c1,c2,…,cG)/N,通路被选择的频率越高,该通路的排序越靠前。
具体地,构建所述ogPLS模型的方法,具体包括:
S422:计算ogPLS模型的基向量uk:从k=1到K循环:
其中
其中,U=(u1,u2,…,uK),X表示N个样本M个代谢物的二维数据矩阵,y表示原始响应。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明的生物样本是正常生物和患病生物的生物样本(可以是血液、尿液、粪便等),此类生物样本是常用的检验样品,其收集和处理过程简单方便,花费低,便于推广应用。
(2)现有技术中的方法大多假设通路与通路间是正交(不重叠)的,但在生物学中代谢物不只参与一个通路,通路间是交叠的,本发明将代谢物分组为交叠的通路,在生物学上具有可解释性。
(3)本发明将PLS和Group Lasso相结合建立回归模型,既恰当地处理了代谢组学数据中的多重共线性,又实现了多元回归的分组稀疏,有效地降低了通路识别结果的假阳性率。
(4)本发明通过引入通路权重系数实现去偏目的,解决了在改变通路的识别中,某些通路天生具有比其他通路高的被选择的可能性而使通路选择结果产生偏差的问题。
以下结合附图和具体实施例对本发明作进一步详述。
附图说明
图1为本发明实施例提供的各通路选择频率的示意图;
图2为本发明与其他两种方法(PIP和Globaltest)的累积代谢物覆盖率的对比结果;
图3为本发明与其他两种方法(PIP和Globaltest)的累积代谢物重叠率的对比结果。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明解决其技术问题所采用的技术方案是:通过将代谢物分组为相互之间有重叠的通路,将PLS和Group Lasso结合建立回归模型,并引入通路权重系数和惩罚因子,实现基于“分组稀疏”的多元回归。
本发明包括以下述步骤:
S1:对采集得到的质谱转化成mzML文件,对质谱文件进行中心化、去噪以及对齐处理,得到样本的代谢物的二维数据矩阵;采集实验样本,对实验样本处理得到健康志愿者样本和患病志愿者样本,对样本进行LC-MS/MS实验得到质谱。
S11:首先样本收集与检测:
所有志愿者(总样本量为N)在采血前一晚禁食,采血后进行结肠镜检查。根据活组织切片检查的结果将志愿者分为健康者(样本量为N1)和疾病患者(样本量为N2)两类。每个血液样本凝结45分钟后,以2000转/分钟速度离心10分钟,离心后其取上清液储存于-80℃冰箱中直至实验。
对待检测的代谢组学生物样本进行靶向LC-MS/MS实验,质谱实验在Agilent1260LC(Agilent Technologies,Santa Clara,CA)AB Sciex QTrap 5500MS(AB Sciex,Toronto,Canada)仪器上进行,在正、负模式下各检测一次,使用MultiQuant 2.1软件(ABSciex,Toronto,Canada)对谱峰进行积分处理。
S12:谱图预处理:
对采集得到的质谱先转化成mzML文件,然后用R读取文件,使用XCMS v3.0.2软件对质谱文件进行中心化、去噪、对齐等处理,得一个N个样本M个代谢物的二维数据矩阵X,矩阵的每一行代表一个样本信息,每一列代表一个代谢物信息,矩阵大小为N×M。
S2:对样本的代谢物的二维数据矩阵以及样本类别矢量矩阵,做中心化和UniteVarience归一化处理;
待处理的样本数据表示为X,样本类别矢量表示为Y,大小为N×1。分别对X和Y做中心化和Unite Varience归一化处理。
S3:获取代谢物-通路映射关系,并通路权重系数进行优化;
S31:获取代谢物-通路映射关系
京都基因与基因组百科全书(KEGG;http://www.genome.jp/kegg/)是一个可公开访问的数据库,其中包含了一系列人工绘制的代谢通路图,从该数据库中下载所研究数据集包含的M个代谢物参与的所有通路。
为使结果更加可靠和可解释,排除掉那些检测到的代谢物少于三种的代谢通路。
S32:通路权重系数ωg优化:
(2)通路选择的经验分布:
初始化通路选择计数器cg:cg=0,g=1,2,…,G;
从n=1到n=N循环做:
a.对原始响应y随机置换得到一个新的响应y′,然后在数据(y′,X)上构建一个ogPLS模型Mn;
(3)通路权重系数的调整:
b.∈≥0表示收敛精度,如果D(Πnull|∏ω)<∈,停止通路权重系数调整步骤。
c.0<α<1表示学习率,从g=1到g=G,循环做:
(4)循环迭代:回到(2)继续循环。
S4:进行通路排序,调整惩罚因子并确定通路被选择的频率,利用通路的选择频率对通路进行排序。
S41:确定λ值:
a初始化:令λ=1.0,K=min(N,M),β>0表示学习率(β>0),S=φ表示所选通路集;
b ogPLS建模:
c调整惩罚因子λ:
如果|S|≠L(L为所要选择的通路数量),则更新λ=λ+β·(|S|-L);
回到步骤b继续ogPLS建模知道满足|S|=L。
S42:Bootstrapping建模
a.初始化通路选择计数器cg=0,g=1,2,…,G
b.从n=1到n=1000循环做:
对数据进行50%的随机采样构建一个ogPLS模型Mn;
S43:利用通路选择的频率对通路进行排序Fλ=(c1,c2,…,cG)/N,通路被选择的频率越高,该通路的排序越靠前。
所述步骤中的Overlapping-group PLS(ogPLS)模型的方法为:
uk表示一个M×1的ogPLS模型的基向量;
ogPLS的具体步骤如下:
(2)计算uk:
从k=1到K循环:
a从g=1到G计算:
c如果‖uk‖2≠0,则计算:
tk=Xuk
否则‖uk‖2=0,则K=k,回到(3)
其中,U=(u1,u2,…,uK),X表示N个样本M个代谢物的二维数据矩阵,y表示原始响应。
下面通过具体实例进行说明:
1.研究对象
本发明使用在印第安纳州大学医学院采集的158个血清样本,分别来自66个结直肠癌患者和92个健康志愿者,所有结直肠癌患者均是第一次被诊断出,采血之前未进行任何手术治疗、化学治疗和放射治疗。
2.试剂和仪器设备
实验试剂包括重水、三氯甲烷、甲醇、磷酸二氢钠、磷酸氢二钾、乙酸铵、醋酸。
实验耗材包括5mm核磁管、移液器、1000μL和200μL枪头、5mL EP管、记号笔、乳胶手套和口罩。
实验设备包括移液器、低温高速离心机、安捷伦1260LC和AB Sciex QTrap5500MS。
3.样本收集和预处理
采集66个结直肠癌患者和92个健康志愿者的血浆,采集到的血液静置45分钟后以2000转/分钟的转速离心10分钟,离心后其取上清液储存于-80℃冰箱中直至实验。
4.LC/MS谱测定
50μL血清样本与150μL甲醇涡旋混合,并静置于-20℃冰箱20分钟;取出样本以14000转/分钟的速度离心10分钟,取上清液;对于剩下的蛋白质小球,再次加入300μL甲醇、涡旋混合10分钟、14000转/分钟离心10分钟,之后取上清液;两轮中提取的上清液混合后进行干燥;干燥后的固体复溶于500μL的99.8%乙酸铵溶液(5mM乙酸铵,40%水/60%乙腈)+0.2%醋酸(5.13μM L-酪氨酸-13C2/22.54μM L-乳酸钠-13C3),其中两种同位素标记的标准物被用于监控实验系统稳定性。LC-MS/MS实验在Agilent 1260LC(AgilentTechnologies,Santa Clara,CA)和AB Sciex QTrap 5500MS(AB Sciex,Toronto,Canada)仪器上进行。每个样本正、负模式下各检测一次。靶标质谱数据在质谱多反应监测(multiple reaction monitoring,MRM)模式下获取。在正、负模式下分别检测到59对和99个母离子-子离子对(总共158对)。最后,利用MultiQuant 2.1软件(AB Sciex,Toronto,Canada)对谱峰进行积分处理。最终113个代谢物被识别和量化,2019年3月16日发布的KEGG数据库共下载了81条人类(智人)代谢通路(包含1498个代谢物)。为使结果更加可靠和可解释,本发明排除了检测到的代谢物少于三种的代谢通路。经过数据预处理,从CRC数据集中只纳入30个代谢通路和81个代谢产物进行进一步分析。
5.数据处理
对CRC数据集的健康和癌症样本的数据矩阵X=(xij)158×81做中心化和UniteVarience归一化处理。用y=(yi)158×1表示响应变量,根据样本所属的类别设为:
6.获取代谢物-通路映射关系
(1)2013年3月16日,从KEGG数据库下载了81条人类代谢物通路信息(包含1498个代谢物),
(2)为使结果更加可靠和可解释,本发明排除了那些包含的检测到的代谢物少于三种的代谢通路。经过数据预处理,从CRC数据集中只纳入30个代谢通路和81个代谢产物进行进一步分析。
7.通路权重系数优化
用Mh~c表示健康和癌症样本数据(y,X)的ogPLS模型,使用所述的通路权重优化算法对Mh~c的通路权重系数进行优化和设置。
8.通路排序
由于在具体实施时已验证分组排序算法对参数λ是鲁棒的,此处选择λ=20来对各个通路进行排序。
9.方法验证与对比
(1)背景技术中的PIP方法和Global-Test方法是根据通路重要程度或者PIP值来对通路进行进行排序的。图1列出了本发明和上述两种方法用于健康类和癌症类通路分析的结果。
通路通过颜色的深浅进行了排序,通路的排序越靠前,对应的颜色越深。通路的独立性Ig被定义为:
从图1中可以看出通过ogPLS选择出的的排序靠前的通路,它们的独立性较高。PIP和Global-Test的结果更加一致,而ogPLS的结果与其他两种方法有所不同。例如,在PIP和Global-Test方法中,D-谷氨酰胺和D-谷氨酸代谢通路和精氨酸生物合成通路的排名较前,而在ogPLS中则较后。进一步的独立性分析表明,两种通路的独立性分别为0.24和0.16。这说明这两条通路与其他通路有高度重叠,且这两条通路不可靠。
(2)两种度量,定义排序后前r个通路的累积代谢物覆盖率#(r)和累积代谢物重叠率O(r)来描述三种方法的排序行为:
从图2可以看出,横坐标为选择的通路,纵坐标为选择的代谢物,与PIP和Global-Test相比,ogPLS倾向于选择代谢物覆盖率更高的通路。
从图3可以看出,横坐标为选择的通路,纵坐标为选择的代谢物的重叠率,对于前几个显著通路,PIP和Global-Test方法比ogPLS方法更容易选择代谢物重叠率高的通路。例如,PIP和Global-Test方法的Ο(r=5)比ogPLS方法更高,在ogPLS方法中Group Lasso惩罚可以有效减少重叠通路的竞争力。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (2)
1.一种质谱代谢组学的通路分析建模方法,其特征在于,包括如下步骤:
S1:采集正常生物和患病生物的生物样本,对采集样本得到的质谱转化成mzML文件,对质谱文件进行中心化、去噪以及对齐处理,得到样本的代谢物的二维数据矩阵;
S2:对样本的代谢物的二维数据矩阵以及样本类别矢量矩阵,做中心化和单位方差归一化处理;
S3:获取代谢物-通路映射关系,并通路权重系数进行优化;
S4:进行通路排序,调整惩罚因子并确定通路被选择的频率,利用通路的选择频率对通路进行排序;
所述步骤S3对代谢物-通路映射关系的通路权重系数进行优化,具体包括:
若D(Πnull|∏ω)<∈,停止优化过程,其中∈≥0且∈表示收敛精度;
S34:循环迭代:转步骤S32;
所述步骤S4进行通路排序,调整惩罚因子并确定通路被选择的频率,利用通路的选择频率对通路进行排序,具体包括:
S41:确定惩罚因子λ值:
初始化:令λ=1.0,K=min(N,M),β>0且β表示学习率,S=φ且s表示所选通路集;
调整惩罚因子λ:如果|S|≠L,L为所要选择的通路数量,则更新λ=λ+β·(|S|-L);回到ogPLS建模步骤继续ogPLS建模直至满足|S|=L;
S42:确定通路被选择的频率:
S43:利用通路的选择频率对通路进行排序:
利用通路选择的频率对通路进行排序Fλ=(c1,c2,…,cG)/T,通路被选择的频率越高,该通路的排序越靠前。
2.根据权利要求1所述的一种质谱代谢组学的通路分析建模方法,其特征在于,构建所述ogPLS模型的方法,具体包括:
S422:计算ogPLS模型的基向量uk:从k=1到K循环:
其中
其中X表示N个样本M个代谢物的二维数据矩阵,y表示原始响应,U=(u1,u2,…,uK)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277077.3A CN113049664B (zh) | 2021-03-15 | 2021-03-15 | 一种基于质谱代谢组学的通路分析建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277077.3A CN113049664B (zh) | 2021-03-15 | 2021-03-15 | 一种基于质谱代谢组学的通路分析建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113049664A CN113049664A (zh) | 2021-06-29 |
CN113049664B true CN113049664B (zh) | 2022-11-22 |
Family
ID=76512611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110277077.3A Expired - Fee Related CN113049664B (zh) | 2021-03-15 | 2021-03-15 | 一种基于质谱代谢组学的通路分析建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113049664B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116313131B (zh) * | 2023-05-24 | 2023-09-15 | 山东大学 | 基于仿造变量的脑网络差异识别系统、设备及存储介质 |
CN117133377B (zh) * | 2023-10-27 | 2024-07-16 | 浙江大学 | 一种基于代谢组学的代谢物组合模型的数据迭代处理方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE563520A (zh) * | 1956-12-27 | |||
WO2008061866A1 (en) * | 2006-11-20 | 2008-05-29 | Bayer Cropscience Sa | New benzamide derivatives |
US8255346B2 (en) * | 2009-11-11 | 2012-08-28 | International Business Machines Corporation | Methods and systems for variable group selection and temporal causal modeling |
WO2013063139A1 (en) * | 2011-10-24 | 2013-05-02 | Somalogic, Inc. | Selection of preferred sample handling and processing protocol for identification of disease biomarkers and sample quality assessment |
US20140309122A1 (en) * | 2013-04-11 | 2014-10-16 | Nec Laboratories America, Inc. | Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction |
US10745754B2 (en) * | 2013-11-27 | 2020-08-18 | Bioscreening & Diagnostics Llc | Method for predicting congenital heart defect |
AU2016206649A1 (en) * | 2015-01-14 | 2017-08-03 | Memorial Sloan-Kettering Cancer Center | Age-modified cells and methods for making age-modified cells |
US20180251725A1 (en) * | 2015-08-24 | 2018-09-06 | Nubyiota Llc | Systems and methods for enriching a bacterial strain from a target bacterial system |
CN106874705B (zh) * | 2015-12-11 | 2019-04-02 | 中国医学科学院医学信息研究所 | 基于转录组数据确定肿瘤标记物的方法 |
BR102015031930B8 (pt) * | 2015-12-18 | 2021-09-28 | Univ Estadual Campinas Unicamp | Método de identificação por ressonância magnética nuclear (rmn) e quimiometria de biomarcadores para doenças mentais graves e usos do mesmo |
CN105894493A (zh) * | 2016-01-27 | 2016-08-24 | 电子科技大学 | 一种基于稳定性选择的fMRI数据特征的选择方法 |
CN107167617B (zh) * | 2017-05-26 | 2018-09-25 | 山东师范大学 | 鉴定ic50剂量维生素c对raw264.7和k562细胞差异标志物的方法 |
CN107729721B (zh) * | 2017-10-17 | 2021-01-19 | 中国科学院上海有机化学研究所 | 一种代谢物鉴定及紊乱通路分析方法 |
CN108680745B (zh) * | 2018-01-03 | 2021-06-15 | 湖州市中心医院 | 血清脂质生物标志物在nsclc早期诊断中的应用方法 |
CN109187614B (zh) * | 2018-09-27 | 2020-03-06 | 厦门大学 | 基于核磁共振和质谱的代谢组学数据融合方法及其应用 |
US11581062B2 (en) * | 2018-12-10 | 2023-02-14 | Grail, Llc | Systems and methods for classifying patients with respect to multiple cancer classes |
US10982283B2 (en) * | 2019-02-25 | 2021-04-20 | Biome Health, Inc. | Indices of microbial diversity relating to health |
CN110632017A (zh) * | 2019-09-26 | 2019-12-31 | 中国疾病预防控制中心营养与健康所 | 一种基于形态分析的转基因大豆快速鉴别优化模型 |
CN110794074A (zh) * | 2019-11-18 | 2020-02-14 | 广西医科大学 | 当归四逆汤抗寒凝血瘀证差异代谢物代谢通路及研究方法 |
CN111210876B (zh) * | 2020-01-06 | 2023-03-14 | 厦门大学 | 一种受扰动代谢通路确定方法及系统 |
CN211391333U (zh) * | 2020-01-15 | 2020-09-01 | 东华理工大学 | 一种具有防震功能的计算机运输车 |
CN111652291A (zh) * | 2020-05-18 | 2020-09-11 | 温州医科大学 | 一种基于组稀疏融合医院大数据建立学生成长画像的方法 |
CN111721860B (zh) * | 2020-06-05 | 2022-06-28 | 上海交通大学 | 一种基于渗透压校正的尿液代谢组学分析方法 |
CN111896655A (zh) * | 2020-08-05 | 2020-11-06 | 中国农业大学 | 一种用于分析与发掘消化道益生菌产生的功能性代谢物的方法 |
CN112326826A (zh) * | 2020-10-30 | 2021-02-05 | 南京农业大学 | 一种筛选响应杨树高温胁迫下关键代谢物的方法 |
-
2021
- 2021-03-15 CN CN202110277077.3A patent/CN113049664B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN113049664A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315774B2 (en) | Big-data analyzing Method and mass spectrometric system using the same method | |
Riekeberg et al. | New frontiers in metabolomics: from measurement to insight | |
Alonso et al. | Analytical methods in untargeted metabolomics: state of the art in 2015 | |
AU2002241535C1 (en) | Method for analyzing mass spectra | |
US20020193950A1 (en) | Method for analyzing mass spectra | |
Halouska et al. | Revisiting protocols for the NMR analysis of bacterial metabolomes | |
CN108363908B (zh) | 用于检测生物分子的智谱系统 | |
CN113049664B (zh) | 一种基于质谱代谢组学的通路分析建模方法 | |
Ahmed et al. | Improving feature ranking for biomarker discovery in proteomics mass spectrometry data using genetic programming | |
Bowling et al. | Analyzing the metabolome | |
Guo et al. | Metabolic network-based identification of plasma markers for non-small cell lung cancer | |
Zhang et al. | Rapidly improved determination of metabolites from biological data sets using the high-efficient TransOmics tool | |
Wadie et al. | Enrichment analysis for spatial and single-cell metabolomics accounting for molecular ambiguity | |
CN118800338B (zh) | 野生与养殖鳙的甘油磷脂类标志物及应用 | |
CN114414819B (zh) | 诊断尘肺病的生物标志物及其应用 | |
Wang et al. | Deconvolution from bulk gene expression by leveraging sample-wise and gene-wise similarities and single-cell RNA-seq data | |
Yu | Development of analytical workflows and bioinformatic programs for mass spectrometry-based metabolomics | |
Balluff | The Role of Informatics and Data Analysis in MALDI Mass Spectrometry Imaging | |
Liu et al. | Construction of a prognostic model of lung adenocarcinoma based on machine learning | |
Song | Statistical and Computational Methods for Proteogenomic Data Analysis | |
Ji | Statistical Methods for Decoding Gene Regulation in Single Cells | |
Towards accurate compound annotation in mass spectrometry-based global metabolomics | ||
CN115825262A (zh) | 一组差异小分子代谢产物在制备用于检测鼻咽癌的试剂中的应用 | |
Lynn et al. | An Automated Identification Tool for LC-MS Based Metabolomics Studies | |
JP2023080714A (ja) | 疾病あるいは健康状態の検査方法、及び検査システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221122 |