CN112786105A - 一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 - Google Patents
一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 Download PDFInfo
- Publication number
- CN112786105A CN112786105A CN202011415023.0A CN202011415023A CN112786105A CN 112786105 A CN112786105 A CN 112786105A CN 202011415023 A CN202011415023 A CN 202011415023A CN 112786105 A CN112786105 A CN 112786105A
- Authority
- CN
- China
- Prior art keywords
- search
- trypsin
- protein
- proteolysis
- peptide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000017854 proteolysis Effects 0.000 title claims description 24
- 238000005065 mining Methods 0.000 title abstract description 8
- 230000000968 intestinal effect Effects 0.000 title description 16
- 230000000813 microbial effect Effects 0.000 title description 13
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 92
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 68
- 229920001184 polypeptide Polymers 0.000 claims abstract description 37
- 239000012588 trypsin Substances 0.000 claims abstract description 35
- 230000004481 post-translational protein modification Effects 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 43
- 235000018102 proteins Nutrition 0.000 claims description 40
- 102000004169 proteins and genes Human genes 0.000 claims description 40
- 102000004142 Trypsin Human genes 0.000 claims description 21
- 108090000631 Trypsin Proteins 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 102000004190 Enzymes Human genes 0.000 claims description 14
- 108090000790 Enzymes Proteins 0.000 claims description 14
- 150000002500 ions Chemical class 0.000 claims description 14
- 229940024606 amino acid Drugs 0.000 claims description 12
- 235000001014 amino acid Nutrition 0.000 claims description 12
- 150000001413 amino acids Chemical class 0.000 claims description 12
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 claims description 12
- 230000001580 bacterial effect Effects 0.000 claims description 10
- 208000022559 Inflammatory bowel disease Diseases 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 claims description 7
- 102000035195 Peptidases Human genes 0.000 claims description 7
- 108091005804 Peptidases Proteins 0.000 claims description 7
- 239000004365 Protease Substances 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000003647 oxidation Effects 0.000 claims description 7
- 238000007254 oxidation reaction Methods 0.000 claims description 7
- ODHCTXKNWHHXJC-VKHMYHEASA-N 5-oxo-L-proline Chemical compound OC(=O)[C@@H]1CCC(=O)N1 ODHCTXKNWHHXJC-VKHMYHEASA-N 0.000 claims description 6
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 claims description 6
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 claims description 6
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 claims description 6
- 230000021736 acetylation Effects 0.000 claims description 6
- 238000006640 acetylation reaction Methods 0.000 claims description 6
- 238000005902 aminomethylation reaction Methods 0.000 claims description 6
- 229960001230 asparagine Drugs 0.000 claims description 6
- 235000009582 asparagine Nutrition 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000006240 deamidation Effects 0.000 claims description 6
- 229930182817 methionine Natural products 0.000 claims description 6
- ODHCTXKNWHHXJC-GSVOUGTGSA-N Pyroglutamic acid Natural products OC(=O)[C@H]1CCC(=O)N1 ODHCTXKNWHHXJC-GSVOUGTGSA-N 0.000 claims description 5
- ODHCTXKNWHHXJC-UHFFFAOYSA-N acide pyroglutamique Natural products OC(=O)C1CCC(=O)N1 ODHCTXKNWHHXJC-UHFFFAOYSA-N 0.000 claims description 5
- 235000018417 cysteine Nutrition 0.000 claims description 5
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000001976 enzyme digestion Methods 0.000 claims description 5
- 101800001415 Bri23 peptide Proteins 0.000 claims description 4
- 102400000107 C-terminal peptide Human genes 0.000 claims description 4
- 101800000655 C-terminal peptide Proteins 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 208000035143 Bacterial infection Diseases 0.000 claims description 2
- 208000022362 bacterial infectious disease Diseases 0.000 claims description 2
- 230000007065 protein hydrolysis Effects 0.000 claims description 2
- 101710141454 Nucleoprotein Proteins 0.000 claims 2
- 230000029087 digestion Effects 0.000 claims 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 claims 1
- 229930195712 glutamate Natural products 0.000 claims 1
- 230000007540 host microbe interaction Effects 0.000 claims 1
- 229940043131 pyroglutamate Drugs 0.000 claims 1
- 241000588724 Escherichia coli Species 0.000 abstract description 13
- 108010026552 Proteome Proteins 0.000 abstract description 13
- 238000012163 sequencing technique Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract 1
- 238000004949 mass spectrometry Methods 0.000 abstract 1
- 230000002797 proteolythic effect Effects 0.000 description 10
- 230000031018 biological processes and functions Effects 0.000 description 8
- 102000007079 Peptide Fragments Human genes 0.000 description 7
- 108010033276 Peptide Fragments Proteins 0.000 description 7
- 230000004060 metabolic process Effects 0.000 description 7
- 244000005700 microbiome Species 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 241000606125 Bacteroides Species 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000008642 heat stress Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 206010009900 Colitis ulcerative Diseases 0.000 description 4
- 208000011231 Crohn disease Diseases 0.000 description 4
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 4
- 201000006704 Ulcerative Colitis Diseases 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 238000003776 cleavage reaction Methods 0.000 description 4
- 230000002550 fecal effect Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 230000007062 hydrolysis Effects 0.000 description 4
- 238000006460 hydrolysis reaction Methods 0.000 description 4
- 230000007017 scission Effects 0.000 description 4
- 238000004885 tandem mass spectrometry Methods 0.000 description 4
- 241000605861 Prevotella Species 0.000 description 3
- 150000005693 branched-chain amino acids Chemical class 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 230000009087 cell motility Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 235000005911 diet Nutrition 0.000 description 3
- 235000014113 dietary fatty acids Nutrition 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 229930195729 fatty acid Natural products 0.000 description 3
- 239000000194 fatty acid Substances 0.000 description 3
- 150000004665 fatty acids Chemical class 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000032258 transport Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 108010055682 3-hydroxybutyryl-CoA dehydrogenase Proteins 0.000 description 2
- 241000606750 Actinobacillus Species 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 241000186000 Bifidobacterium Species 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000305071 Enterobacterales Species 0.000 description 2
- 108050001049 Extracellular proteins Proteins 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102100041003 Glutamate carboxypeptidase 2 Human genes 0.000 description 2
- 102100039894 Hemoglobin subunit delta Human genes 0.000 description 2
- 102400000108 N-terminal peptide Human genes 0.000 description 2
- 101800000597 N-terminal peptide Proteins 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 241000205156 Pyrococcus furiosus Species 0.000 description 2
- 239000004473 Threonine Substances 0.000 description 2
- 244000098338 Triticum aestivum Species 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 239000000356 contaminant Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000378 dietary effect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 210000003608 fece Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010230 functional analysis Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000003368 label free method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 229920003259 poly(silylenemethylene) Polymers 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000024176 regulation of proteolysis Effects 0.000 description 2
- 230000035939 shock Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 229960002898 threonine Drugs 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 102100025230 2-amino-3-ketobutyrate coenzyme A ligase, mitochondrial Human genes 0.000 description 1
- 241000372033 Andromeda Species 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 241000238582 Artemia Species 0.000 description 1
- 241000605059 Bacteroidetes Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- FERIUCNNQQJTOY-UHFFFAOYSA-M Butyrate Chemical compound CCCC([O-])=O FERIUCNNQQJTOY-UHFFFAOYSA-M 0.000 description 1
- FERIUCNNQQJTOY-UHFFFAOYSA-N Butyric acid Natural products CCCC(O)=O FERIUCNNQQJTOY-UHFFFAOYSA-N 0.000 description 1
- 241001112696 Clostridia Species 0.000 description 1
- 241000193403 Clostridium Species 0.000 description 1
- SHZGCJCMOBCMKK-UHFFFAOYSA-N D-mannomethylose Natural products CC1OC(O)C(O)C(O)C1O SHZGCJCMOBCMKK-UHFFFAOYSA-N 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- PNNNRSAQSRJVSB-SLPGGIOYSA-N Fucose Natural products C[C@H](O)[C@@H](O)[C@H](O)[C@H](O)C=O PNNNRSAQSRJVSB-SLPGGIOYSA-N 0.000 description 1
- 241000287826 Gallus Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 108030000900 Glycine C-acetyltransferases Proteins 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 238000012313 Kruskal-Wallis test Methods 0.000 description 1
- SHZGCJCMOBCMKK-DHVFOXMCSA-N L-fucopyranose Chemical compound C[C@@H]1OC(O)[C@@H](O)[C@H](O)[C@@H]1O SHZGCJCMOBCMKK-DHVFOXMCSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 241001112693 Lachnospiraceae Species 0.000 description 1
- 241000277275 Oncorhynchus mykiss Species 0.000 description 1
- 102000004035 Phosphoenolpyruvate carboxykinase (ATP) Human genes 0.000 description 1
- 108090000472 Phosphoenolpyruvate carboxykinase (ATP) Proteins 0.000 description 1
- 241000425347 Phyla <beetle> Species 0.000 description 1
- 241000385060 Prevotella copri Species 0.000 description 1
- 241001354471 Pseudobahia Species 0.000 description 1
- 241000605947 Roseburia Species 0.000 description 1
- 241000282849 Ruminantia Species 0.000 description 1
- 241000192031 Ruminococcus Species 0.000 description 1
- 241000277289 Salmo salar Species 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 235000002560 Solanum lycopersicum Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 102000019197 Superoxide Dismutase Human genes 0.000 description 1
- 108010012715 Superoxide dismutase Proteins 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000007244 Zea mays Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000003963 antioxidant agent Substances 0.000 description 1
- 230000003078 antioxidant effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 230000032770 biofilm formation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 150000001732 carboxylic acid derivatives Chemical class 0.000 description 1
- 150000001735 carboxylic acids Chemical class 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 208000037976 chronic inflammation Diseases 0.000 description 1
- 208000037893 chronic inflammatory disorder Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 210000003495 flagella Anatomy 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000004110 gluconeogenesis Effects 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 150000004715 keto acids Chemical class 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000006609 metabolic stress Effects 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010239 partial least squares discriminant analysis Methods 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
- 230000030788 protein refolding Effects 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003938 response to stress Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000032895 transmembrane transport Effects 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物技术领域,公开了一种以半胰蛋白酶多肽为中心的宏蛋白质组数据挖掘方法,包括两步搜库、从头测序、开放式检索和多种搜库软件匹配,针对高分辨率质谱数据进行大规模的以半胰蛋白酶肽为中心的宏蛋白质组信息挖掘。这些策略可以减少因数据库不完整和翻译后修饰而产生的假阳性率。使用本发明的方法在分析大肠杆菌蛋白质组时,从一个巨大的宏蛋白数据库中鉴定出的肽段有93.4%与传统大肠杆菌参考数据库鉴定出的肽段相一致。
Description
技术领域
本发明涉及生物信息分析技术领域,更具体的,涉及一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用。
背景技术
肠道微生物生活在一个动态的环境中,面临着来自药物、饮食、微生物竞争和宿主内源化学成分的蛋白毒性和代谢压力。细菌已经进化出不同的调节策略以适应不断变化的环境,包括基因表达的改变、细胞分化和运动的变化,在这些调节策略中,蛋白水解起到了至关重要的作用,蛋白水解调控是影响所有生物的重要过程,细菌使用能量依赖的蛋白酶来降解错误折叠的蛋白,或者激活调节蛋白来对动态的肠道环境做出快速反应。微生物通过蛋白水解进行调节的功能非常广泛,例如应激反应、细胞生长分裂、生物膜形成、蛋白质的分泌。
炎症性肠病(IBD)是一种受遗传和环境因素影响的慢性炎症性疾病,主要包括克罗恩病(CD)和溃疡性结肠炎(UC)。已有报道证实IBD与肠道微生物失调有关。在IBD肠道微生物组研究中,宏基因组学和16S rRNA基因测序占绝大多数。然而,需要宏转录组学或宏蛋白质组学通过分别直接测量RNA和蛋白质来精确定位功能和代谢活动。此外,在蛋白质水平上还有重要的调节模式,例如蛋白质水解调控,这些调节模式无法通过RNA研究获得,但可以使用宏蛋白质组学进行研究。
然而,在IBD等复杂疾病状态下,肠道微生物蛋白质水解的特征变化尚未被研究,因此亟需一种能够在复杂疾病状态下掌握肠道微生物蛋白质水解特征的方法。
发明内容
本发明所要解决的技术问题是克服现有技术存在的上述问题,首先提供一种以半胰蛋白酶多肽为中心的宏蛋白质组挖掘方法,也提供一种比较蛋白质水解程度的方法。
本发明的第二个目的是提供上述方法在获取肠道微生物蛋白水解特征中的应用。
本发明的目的通过以下技术方案实现:
一种确定蛋白质水解程度的方法,包括以下步骤:
S1、获取样品的(宏)蛋白质组数据或公共数据库中发表的(宏)蛋白质组数据;
S2、利用大的宏蛋白数据库以及PEAKS DB软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质;
S3、利用PEAKS DB软件、MaxQuant软件和pFind软件将组学数据与S2得到的蛋白质序列进行搜库鉴定,保留同时被PEAKS DB、MaxQuant和pFind三种软件同时鉴定的肽;
S4、区分出S3得到的肽中半胰蛋白酶多肽(Semi-tryptic peptide)和完全胰蛋白酶多肽(full tryptic peptide);
S5、以半胰蛋白酶多肽归一化后的相对丰度来确定蛋白质水解程度,其中,半胰蛋白酶多肽归一化的相对丰度是通过将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度得到。
优选地,S4中,半胰蛋白酶多肽的鉴定原则是:在鉴定序列前一位氨基酸不是R或K的肽为半胰蛋白酶N端肽(不包含蛋白质的N端)。鉴定序列的最后一个氨基酸缺少R或K,则是半胰蛋白酶C端肽(不包含蛋白质的C端)。
蛋白质组学样品制备过程中蛋白质被胰蛋白酶水解后产生的肽段的前面一位氨基酸应该是K或R,而最后一位氨基酸也应该为K或R。如果数据中检测到了半胰蛋白酶,说明有胰蛋白酶以外的其他蛋白酶参与了蛋白质的水解,导致了肽段前面一位氨基酸或最后一位氨基酸不是K或R,因此半胰蛋白酶可作为蛋白质在生物体内被其他蛋白酶水解的标志,而完全胰蛋白酶可以作为蛋白质在生物体内未被其他蛋白酶水解的标志。但是研究蛋白质水解程度不能仅仅依赖于半胰蛋白酶,因为半胰蛋白酶丰度的改变可能仅仅是由于对应的蛋白质总量的改变(合成增加或减少),而蛋白质水解的程度并没有改变。因此需要将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度来比较不同样本间蛋白质水解的程度的变化,这样可以排除蛋白质总量变化这一因素。
优选地,PEAKS DB数据库执行搜索的参数为:母离子(precursor ion)的质量偏差为10ppm,碎片离子(product ion)的质量偏差为0.02Da;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰为3个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;酶为胰蛋白酶,酶切方式为半特异性(semi-specific),未被酶切位点最多为3个;假阳性率(false discoveryrate)设为1%。
优选地,MaxQuant执行搜索的参数为:初次搜索(first search)质量偏差为20ppm,主要搜索(main search)质量偏差为4.5ppm;酶为胰蛋白酶,酶切方式为半特异性(semi-specific),未被酶切位点最多为2个;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰数为5个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;假阳性率(false discoveryrate,FDR)设为1%,保留后验错误概率(posterior error probability,PEP)小于5%的肽段用于后续分析。
优选地,pFind执行搜索的参数为:pFind执行搜索的参数为:母离子的质量偏差为10ppm,碎片离子的质量偏差为20ppm,搜库模式为开放式搜库(open-search),酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个;FDR设为1%。
本发明还提供上述方法的应用。
具体地,上述方法用于捕获肠道微生物蛋白质水解的特征。提供了菌群结构和蛋白质丰度之外的不同层次的信息,这项分析是基于这样的假设,即相似的蛋白水解程度应该导致相似的半胰蛋白酶多肽的相对丰度,本发明研究发现447个粪便宏蛋白质组中的微生物半胰蛋白酶多肽在脂肪酸、羧酸、葡萄糖和盐藻糖的代谢过程、支链氨基酸的生物合成过程、蛋白质运输和细菌型鞭毛介导的细胞运动等几个生物学过程中得到了丰富,这表明它们经历了更广泛的蛋白质水解调节。
或者,上述方法用于研究肠道微生物区系和宿主-微生物相互作用。
本发明上述蛋白质组的挖掘方法也适用于捕获植物和环境微生物的蛋白质水解特征,因此,上述方法可用于探索植物和环境微生物的蛋白质水解规律。
本发明上述方法还可以用于研究与细菌蛋白酶有关的疾病(例如细菌感染、炎症性肠病),通过该方法可以研究细菌蛋白水解程度的变化,从而以相应的细菌蛋白酶为靶标,针对性的开发相应的药物进行调控。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种以半胰蛋白酶多肽为中心的宏蛋白质组挖掘方法,包括两步搜索、从头测序、开放搜索和多种软件结果匹配,以进行大规模的半胰蛋白酶肽为中心的宏蛋白质组挖掘。这些策略可以减少因数据库不完整和多肽修饰而产生的假阳性识别。以往的研究对低分辨率MS/MS生成的宏蛋白质组学数据集进行了半胰蛋白酶多肽搜索,不可避免地增加了搜索空间,降低了鉴定结果的置信度。在他们的研究中,在一个包含6162,582条序列的宏蛋白大数据库中,当搜索Pyrococcus furiosus蛋白质组时,只有80.2%的鉴定肽被注释为P.furiosus序列。相反,本发明是针对的高分辨率MS/MS数据的多引擎搜索。使用本发明的方法在分析大肠杆菌蛋白质组时,从一个明显更大的宏蛋白质数据库(130,975,891个序列)中鉴定出的肽段有93.4%与传统大肠杆菌参考数据库鉴定出的肽段相一致,显示了本方法有更好的准确性。
附图说明
图1为在447份粪便代谢蛋白质组学样本中,来自主要细菌种类和生物过程的半胰蛋白酶多肽的归一化相对丰度(NRASP,半胰蛋白酶多肽丰度/完全胰蛋白酶多肽丰度),不同的细菌种类(A)、生物学过程(B)和酶(C)的功能按升序排列;框图表示中位数(框中间的线)、第25百分位数和第75百分位数;虚线表示四分位范围(IQR)的1.5倍,离群值显示为点;
图2为大肠杆菌蛋白质组在热应激诱导下不同生物过程蛋白水解特征的变化(p<0.05)。
具体实施方式
下面对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
下述实验例中所使用的试验方法如无特殊说明,均为常规方法;所使用的材料、试剂等,如无特殊说明,为可从商业途径得到的试剂和材料。
数据集:分析了2个公开发表的健康和IBD肠道宏蛋白质组的人群的数据集,数据集1(PXD008675)由来自89名受试者的447个粪便宏蛋白质组组成,这些受试者的年龄在6-58岁,中位数为22.8岁,包括24名非IBD对照组、39名CD患者,26名UC患者;在这些样本中,分别有272个样本具有匹配的宏基因组,184个样本具有匹配的宏蛋白质组;我们还分析了蛋白质组数据集(PXS000498)以研究热应激对大肠杆菌K-12蛋白水解调节的影响。
宏蛋白数据库:一个全面的人体肠道微生物蛋白质数据库由以下部分组成:(1)基于来自1070个人(760个欧洲人、368个中国人和139个美国人样本)的1267个肠道宏基因组的integrated gene catalog(IGC)数据库;(2)从健康成人粪便中培养的215个菌株的序列数据;(3)Culturable Genome Reference(CGR)数据库,包含了6000株从健康人类粪便中分离的肠道菌的1520个非冗余、高质量基因组;(4)UniProtKB(版本2017_06)和NCBI RefSeq(版本90)中的所有古生菌、细菌和真菌序列。上述微生物序列数据库附加了UniProt人类参考蛋白质组,它包括膳食有机物组成的食物数据库,例如生物普通小麦(Triticumaestivum)、水稻(Oryza sativa subsp.japonica)、大豆(Glycine max)、玉米(Zea mays)、花生(Arachis hypogaea)、马铃薯(Solanum tuberosum)、番茄(Solanum lycopersicum)、猪(Sus scrofa)、牛(Bos taurus)、鸡(Gallus gallus)、羊(Ovis aries)、鱼(Salmo salar和Oncorhynchus mykiss)、虾(Artemia sp.和Litopenaeus vannamei),和一个常见污染物数据库(http://maxquant.org/contaminants.zip)。使用USEARCH v11.0.667(-Fastx_Unique es)去除重复蛋白质序列,得到130,975,891个非冗余序列。
统计分析方法:利用主成分分析(PCA)和偏最小二乘判别分析(PLS-DA)对裂解位点附近的氨基酸频率进行多元分析,并采用Bayesian PCA(BPCA)估算缺失值。在R(vesion3.5.3)和RStudio(version 1.1.383)中使用Kruskal-Wallis检验和Dunn-Bonferroni检验,P值小于0.05来检测各组之间显著不同的变量(存在于至少75%的样本中)。使用Bray-Curtis距离的主坐标分析(PcoA)来确定多组学数据的β多样性。
实施例1不同软件执行搜索的表现
使用MLI数据集和大型宏蛋白质数据库,我们比较了不同的商业软件(ProteomeDiscoverer、PEAK、ProteinPilot和Byonic)和开源软件(MaxQuant、MSFragger和pFind)在几个36核服务器(安装有192G内存)上搜索半胰蛋白酶肽的性能。Proteome Discoverer、Byonic、MaxQuant、pFind和ProteinPilot在一个月内没有完成搜索,而MSFragger因内存不足错误而崩溃。只有PEAK在一个月内完成了分析,因此使用一个156核的高性能计算集群进行进一步的高通量分析,该集群在2周内完成了数据库搜索。
实施例2数据库搜索
数据库搜索流程一般包括两个主要步骤:(1)从头测序(de-novo sequencing),并使用大的宏蛋白数据库(large database)以及PEAKS软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质并生成一个相应的小的蛋白质数据库(reduced database);(2)使用reduced database和多种软件进行第二次搜索,提高鉴定半胰蛋白酶多肽的准确性。
为了应对在宏蛋白质组半胰蛋白酶多肽鉴定中增加的搜索空间和时间,首先在配置有Intel(R)Xeon(R)156核处理器和1.5TB 2666MHz内存的集群上使用PEAKS DB进行搜索,软件首先进行从头测序,接下来使用下列参数进行数据库搜索:母离子的质量偏差为10ppm,碎片离子的质量偏差为0.02Da;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰为3个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个;假阳性率设为1%。
这里使用两步法搜索策略,是为了增加搜库的灵敏度,在第一步搜索中由至少一个肽被鉴定的蛋白质被保留用于第二轮多引擎搜索,第二步搜索使用PEAKS DB、MaxQuant(版本1.6.2)和pFind(版本3.1.5)。
使用Andromeda引擎执行MaxQuant(版本1.6.2.10)搜索。设置参数如下:初次搜索质量偏差为20ppm,主要搜索质量偏差为4.5ppm;酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为2个;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰数为5个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;假阳性率设为1%,保留后验错误概率小于5%的肽段用于后续分析;“Second peptides”选项在MS/MS谱中搜索共碎片肽。启用“match betweenruns”选项,设置使用0.7分钟的匹配时间窗口和20分钟的校准时间段。蛋白质和肽的定量使用无标记定量(LFQ)算法,最小比计数为1,最小邻域数和平均邻域数分别为3和6。
使用pFind进行数据库搜索,母离子的质量偏差为10ppm,碎片离子的质量偏差为20ppm,搜库模式为开放式搜库(open-search),酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个。
只有被三个搜索引擎(PEAKS DB、MaxQuant和pFind)识别的肽才会被保留下来,用于进一步分析。
实施例3半胰蛋白酶多肽鉴定以及分类和功能分析
1、半胰蛋白酶多肽的鉴定原则
在鉴定序列前一位氨基酸不是R或K的肽为半胰蛋白酶N端肽(不包含蛋白质的N端)。鉴定序列的最后一个氨基酸缺少R或K,则是半胰蛋白酶C端肽(不包含蛋白质的C端)。根据洗脱时间将源内片段(In-source CID fragment)与蛋白水解衍生的半胰蛋白酶多肽区分开来。与它们的理论保留时间(使用SSRCalc预测)相比,大多数源内片段显示出不同的保留时间。根据FASTA序列条目中相应的检索号,将微生物半胰蛋白酶多肽与人来源的肽和食物来源的肽区分开来。
2、结合半胰蛋白酶和完全胰蛋白酶的数据来定量蛋白质的水解程度
我们通过将半胰蛋白酶肽的相对丰度归一化到完全胰蛋白酶肽的相对丰度,根据半胰蛋白酶肽的归一化相对丰度(normalized relative abundance of semi-trypticpeptides,简称NRASP)来确定蛋白水解程度的变化。这一归一化步骤很重要,因为如果半胰蛋白酶多肽和完全胰蛋白酶多肽的丰度成比例变化,通常表明蛋白水解程度没有变化。然而,在这种情况下,如果只比较半胰蛋白酶多肽,就会出现组间差异。
3、结果
为了提高基于大序列空间的宏蛋白质组分析的灵敏度,我们采用了两步数据库搜索策略。这有效地将宏蛋白质数据库的规模缩小到了传统蛋白质组学分析的数据库规模,从而方便了基于半胰蛋白酶的宏蛋白质组学搜索。此外,通过结合三个常用的软件来提高肽鉴定的可信度。这些软件使用不同的算法进行峰匹配、共流出肽段识别和FDR计算(MaxQuant和pFind使用目标-诱饵策略,PEASK DB使用诱饵-融合方法),从而显著增加了肽识别的置信度。只保留三个软件共同鉴定的肽用于进一步分析。
共检索了12,828,005个MS/MS图谱,从粪便宏蛋白质组中鉴定出3,804,903(29.66%)个二级图谱(PSMs),125,494个肽,其中108,784(86.68%)肽为微生物特有肽(未被人或食物序列共享)。在粪便宏蛋白质组中鉴定出7,969(6.35%)人特异性多肽,其中5,104(64.05%)肽为半胰蛋白酶。基因本体(Gene ontology,GO)分析表明,84.13%的人半胰蛋白酶肽来自潜在的胞外蛋白,只有1.16%的微生物半胰蛋白酶肽来源于潜在的胞外蛋白。
实施例4通过分析大肠杆菌热休克反应中的蛋白水解特征来验证上述方法
我们通过使用已发表的大肠杆菌K12的蛋白质组数据集分析热休克诱导的蛋白水解特征,验证了我们的方法。结合三个搜索引擎,用上述大的宏蛋白数据库鉴定了9937个肽段,而用UniProt E.coli K12参考数据库中鉴定了14111个肽段。两种方法中鉴定肽的数量减少了29.6%,反映了正常的灵敏度损失,因为大数据库产生的序列比常规的参考序列多10,000倍。
在UniProt E.coli K12参考数据库鉴定的全部14111个肽段中,有83.7%的肽段PEP值低于0.01,61.6%的肽段PEP值低于0.001。而在仅被UniProt E.coli K12参考数据库鉴定出(未被宏蛋白质数据库鉴定)的4783个肽段中,PEP值低于0.01的占60.3%,低于0.001的占39.5%。在仅被UniProt E.coli K12参考数据库鉴定出的肽段具有较高的PEP值,这说明低质量的肽谱(PSMs)在大数据库搜索时更容易受到灵敏度降低的影响。同时值得注意的是,单一微生物蛋白质组与肠道蛋白质组有显著差异。最近的研究表明,大型公共数据库组装的宏蛋白数据库和样本匹配参考数据库(sample-matched)对肠道宏蛋白质组学研究产生了相当的结果。因此,我们的方法在肠道宏蛋白质组分析中不会出现明显的灵敏度损失。用巨大的宏蛋白数据库鉴定出的肽段有93.4%与大肠杆菌参考数据库鉴定出的肽段相一致,表明我们的方法具有较高的肽段鉴定准确性。
为了验证我们的方法,我们比较了所有样本中发现的185个生物过程的NRASP(作为蛋白质水解监管指标),发现20(约占10.8%)个生物过程的NRASP在对照组和热应激组之间明显不同(P值<0.05,图2)。
热应激会扰乱蛋白质的折叠,导致错误折叠蛋白质的积累,这些错误折叠的蛋白质需要重新折叠成正确的构象。相应的,使用我们的方法发现,热应激下与蛋白质折叠的NRASP减少,而与蛋白质重新折叠相关的NRASP增加。同时我们观察到与甲基化相关的NRASP在热应激下增加,这与最近发现是一致的。综上所述,使用我们的方法得到与蛋白质水解调控的生物学发现具有较高的可信度。
实施例5肽的分类和功能分析
分析使用Unipept(版本4.3.5),使用UniProt 2020.01,基于最低共同祖先(LCA)算法进行分析,所有肽用以下参数进行分析:使I和L相等,过滤重复肽,高级缺失切割处理(Advanced missing cleavage handling)。分类信息是使用UniPept提供的Sunburst视图可视化的。、
研究结果
(1)半胰蛋白酶多肽的相对丰度和分布
图1给出了来自CD(n=204)、UC(n=123)和对照(n=120)组的447个粪便宏蛋白质组中至少在75%样品中鉴定到20个主要细菌种属、35个主要生物学过程和32个酶亚类的NRASP。厚壁菌门(phyla Firmicutes)和拟杆菌门(Bacteroidetes),拟杆菌(Bacteroidia)和梭状芽孢杆菌(Clostridia),拟杆菌目(Bacteroidales)和梭菌目(Clostridiales),拟杆菌科(fBacteroidaceae)和拟杆菌属(Bacteroides)的NRASP的中位数在1左右,表明相应的半胰蛋白酶肽与完全胰蛋白酶肽的相对丰度相当(图1A)。然而,NRASP的中位数在毛螺菌科(Lachnospiraceae)和反刍球菌科(Ruminococcaceae)分别增加到约1.25,罗斯拜瑞氏菌属(genera Roseburia)和普氏菌属(Prevotella)以及普拉梭菌(Faecalibacteriumprausnitzii)和普氏菌(Prevotella copri)的NRASP中位数分别增加到1.5,而放线杆菌门(Actinobacteria)和双歧杆菌目(Bifidobacteriales)的NRASP中位数则下降到约0.5。以上数据表明了不同肠道菌具有不同的蛋白酶水解程度。
大多数生物过程的NRASP的中位数也在1左右波动(图1B)。而异亮氨酸生物合成过程、缬氨酸生物合成过程、细菌型鞭毛依赖细胞运动、蛋白质转运、羧酸代谢过程、岩藻糖代谢过程和葡萄糖代谢过程的NRASP值均增加到1.75-2,脂肪酸代谢过程和L-苏氨酸分解代谢过程的NRASP进一步增加到2.5,多糖分解代谢过程、碳水化合物运输和跨膜运输的NRASP降低到0.75左右,代谢过程的NRASP进一步降低到0.3。
在酶水平上,参与丁酸代谢的3-羟丁酰辅酶A脱氢酶的NRASP最高(中位数>3),其次是参与脂肪酸β氧化的3-羟基丁酰辅酶A脱氢酶,参与L-苏氨酸降解的甘氨酸C-乙酰基转移酶,参与糖异生的磷酸烯醇式丙酮酸羧激酶(ATP),参与支链氨基酸(BCAA)生物合成的酮酸还原异构酶,以及参与抗氧化剂胁迫的超氧化物歧化酶(NRASP中位数2-3,图1C)。
Claims (10)
1.一种确定蛋白质水解程度的方法,其特征在于,包括以下步骤:
S1、获取样品的(宏)蛋白质组数据或公共数据库中发表的(宏)蛋白质组数据;
S2、利用大的宏蛋白数据库以及PEAKSDB软件执行第一次搜索,得到至少一个肽被鉴定出来的蛋白质;
S3、利用PEAKSDB软件、MaxQuant软件和pFind软件将组学数据与S2得到的蛋白质序列进行搜库鉴定,保留同时被PEAKSDB、MaxQuant和pFind三种软件同时鉴定的肽;
S4、区分出S3得到的肽中半胰蛋白酶多肽和完全胰蛋白酶多肽;
S5、以半胰蛋白酶多肽归一化后的相对丰度来确定蛋白质水解程度,其中,半胰蛋白酶多肽归一化的相对丰度是通过将半胰蛋白酶多肽的相对丰度归一化到完全胰蛋白酶多肽的相对丰度得到。
2.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,S4中,半胰蛋白酶多肽的鉴定原则是:鉴定的肽段若前一位氨基酸不是R或K(不包括蛋白质N端肽段)则是半胰蛋白酶N末端肽,鉴定的肽段若最后一位氨基酸不是R或K(不包括蛋白质C端肽段)则是半胰蛋白酶C末端肽。
3.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,PEAKSDB数据库执行搜索的参数为:母离子的质量偏差为10ppm,碎片离子的质量偏差为0.02Da;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰为3个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个;假阳性率设为1%。
4.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,MaxQuant执行搜索的参数为:初次搜索质量偏差为20ppm,主要搜索质量偏差为4.5ppm;酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为2个;半胱氨酸的氨基甲基化被设定为固定修饰;每个肽的最大可变翻译后修饰数为5个,包括蛋白质N末端的乙酰化、甲硫氨酸的氧化、天冬酰胺和谷氨酰胺的脱酰胺化以及谷氨酰胺转化为焦谷氨酸;假阳性率设为1%,保留后验错误概率小于5%的肽段用于后续分析。
5.根据权利要求1所述的确定蛋白质水解程度的方法,其特征在于,pFind执行搜索的参数为:母离子的质量偏差为10ppm,碎片离子的质量偏差为20ppm,搜库模式为开放式搜库,酶为胰蛋白酶,酶切方式为半特异性,未被酶切位点最多为3个;FDR设为1%。
6.权利要求1至5任一项所述方法的应用。
7.根据权利要求6所述的应用,其特征在于,所述方法用于捕获肠道微生物蛋白质水解的特征信息。
8.根据权利要求6所述的应用,其特征在于,所述方法用于研究肠道微生物和宿主相互作用。
9.根据权利要求6所述的应用,其特征在于,所述方法用于研究与细菌蛋白酶有关的疾病。
10.根据权利要求9所述的应用,其特征在于,所述疾病包括但不限于细菌感染、炎症性肠病。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415023.0A CN112786105B (zh) | 2020-12-07 | 2020-12-07 | 一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415023.0A CN112786105B (zh) | 2020-12-07 | 2020-12-07 | 一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786105A true CN112786105A (zh) | 2021-05-11 |
CN112786105B CN112786105B (zh) | 2024-05-07 |
Family
ID=75750749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011415023.0A Active CN112786105B (zh) | 2020-12-07 | 2020-12-07 | 一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786105B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115267033A (zh) * | 2022-08-05 | 2022-11-01 | 西湖大学 | 基于质谱数据的宏蛋白质组学分析方法及电子设备 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004046731A2 (en) * | 2002-11-18 | 2004-06-03 | Ludwig Institute For Cancer Research | Method for analysing amino acids, peptides and proteins using mass spectroscopy of fixed charge-modified derivatives |
US20050032040A1 (en) * | 2002-10-11 | 2005-02-10 | Bettina Warscheild | Analyzing and distinguishing organisms such as bacterial spores by their soluble polypeptides |
US20050048564A1 (en) * | 2001-05-30 | 2005-03-03 | Andrew Emili | Protein expression profile database |
CN1692282A (zh) * | 2002-04-15 | 2005-11-02 | 萨莫芬尼根有限责任公司 | 生物学分子的定量 |
US20070231909A1 (en) * | 2005-10-13 | 2007-10-04 | Applera Corporation | Methods for the development of a biomolecule assay |
US20100047261A1 (en) * | 2006-10-31 | 2010-02-25 | Curevac Gmbh | Base-modified rna for increasing the expression of a protein |
US20100143912A1 (en) * | 2007-01-25 | 2010-06-10 | The Regents Of The Universuty Of California | Specific n-terminal labeling of peptides and proteins in complex mixtures |
US20110093205A1 (en) * | 2009-10-19 | 2011-04-21 | Palo Alto Research Center Incorporated | Proteomics previewer |
CN103268432A (zh) * | 2013-05-08 | 2013-08-28 | 中国科学院水生生物研究所 | 一种基于串联质谱鉴定蛋白质磷酸化修饰位点的方法 |
US20140072991A1 (en) * | 2011-04-04 | 2014-03-13 | Atlas Antibodies Ab | Quantitative standard for mass spectrometry of proteins |
KR20140101134A (ko) * | 2013-02-08 | 2014-08-19 | 건국대학교 산학협력단 | 노인성 황반변성 환자에서 안방수의 프로테오믹 분석방법을 통한 정보제공방법 및 노인성 황반변성 바이오마커 |
US20150248998A1 (en) * | 2012-11-15 | 2015-09-03 | Dh Technologies Development Pte. Ltd. | Systems and Methods for Identifying Compounds from MS/MS Data without Precursor Ion Information |
US20150309045A1 (en) * | 2012-11-28 | 2015-10-29 | Eth Zurich | Method and tools for the determination of conformation and conformational changes of proteins and of derivatives thereof |
WO2018165350A1 (en) * | 2017-03-07 | 2018-09-13 | Nuseed Pty Ltd. | Lc-ms/ms-based methods for characterizing proteins |
US20180340941A1 (en) * | 2017-05-25 | 2018-11-29 | Wisconsin Alumni Research Foundation | Method to Map Protein Landscapes |
CN109444313A (zh) * | 2018-10-23 | 2019-03-08 | 大连工业大学 | 基于液质联用技术分析蛋白-多糖复合体消化率的方法 |
US20190307856A1 (en) * | 2016-10-12 | 2019-10-10 | Institute For Research In Biomedicine | Arginine And Its Use As A T Cell Modulator |
US20200141946A1 (en) * | 2017-08-25 | 2020-05-07 | Nanjing Agricultural University | Method for evaluating in vivo protein nutrition based on lc-ms-ms technique |
CN111220690A (zh) * | 2018-11-27 | 2020-06-02 | 中国科学院大连化学物理研究所 | 一种低丰度蛋白质翻译后修饰组的直接质谱检测方法 |
-
2020
- 2020-12-07 CN CN202011415023.0A patent/CN112786105B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050048564A1 (en) * | 2001-05-30 | 2005-03-03 | Andrew Emili | Protein expression profile database |
CN1692282A (zh) * | 2002-04-15 | 2005-11-02 | 萨莫芬尼根有限责任公司 | 生物学分子的定量 |
US20050032040A1 (en) * | 2002-10-11 | 2005-02-10 | Bettina Warscheild | Analyzing and distinguishing organisms such as bacterial spores by their soluble polypeptides |
WO2004046731A2 (en) * | 2002-11-18 | 2004-06-03 | Ludwig Institute For Cancer Research | Method for analysing amino acids, peptides and proteins using mass spectroscopy of fixed charge-modified derivatives |
US20070231909A1 (en) * | 2005-10-13 | 2007-10-04 | Applera Corporation | Methods for the development of a biomolecule assay |
US20100047261A1 (en) * | 2006-10-31 | 2010-02-25 | Curevac Gmbh | Base-modified rna for increasing the expression of a protein |
US20100143912A1 (en) * | 2007-01-25 | 2010-06-10 | The Regents Of The Universuty Of California | Specific n-terminal labeling of peptides and proteins in complex mixtures |
US20110093205A1 (en) * | 2009-10-19 | 2011-04-21 | Palo Alto Research Center Incorporated | Proteomics previewer |
US20140072991A1 (en) * | 2011-04-04 | 2014-03-13 | Atlas Antibodies Ab | Quantitative standard for mass spectrometry of proteins |
US20150248998A1 (en) * | 2012-11-15 | 2015-09-03 | Dh Technologies Development Pte. Ltd. | Systems and Methods for Identifying Compounds from MS/MS Data without Precursor Ion Information |
US20150309045A1 (en) * | 2012-11-28 | 2015-10-29 | Eth Zurich | Method and tools for the determination of conformation and conformational changes of proteins and of derivatives thereof |
KR20140101134A (ko) * | 2013-02-08 | 2014-08-19 | 건국대학교 산학협력단 | 노인성 황반변성 환자에서 안방수의 프로테오믹 분석방법을 통한 정보제공방법 및 노인성 황반변성 바이오마커 |
CN103268432A (zh) * | 2013-05-08 | 2013-08-28 | 中国科学院水生生物研究所 | 一种基于串联质谱鉴定蛋白质磷酸化修饰位点的方法 |
US20190307856A1 (en) * | 2016-10-12 | 2019-10-10 | Institute For Research In Biomedicine | Arginine And Its Use As A T Cell Modulator |
WO2018165350A1 (en) * | 2017-03-07 | 2018-09-13 | Nuseed Pty Ltd. | Lc-ms/ms-based methods for characterizing proteins |
US20180340941A1 (en) * | 2017-05-25 | 2018-11-29 | Wisconsin Alumni Research Foundation | Method to Map Protein Landscapes |
US20200141946A1 (en) * | 2017-08-25 | 2020-05-07 | Nanjing Agricultural University | Method for evaluating in vivo protein nutrition based on lc-ms-ms technique |
CN109444313A (zh) * | 2018-10-23 | 2019-03-08 | 大连工业大学 | 基于液质联用技术分析蛋白-多糖复合体消化率的方法 |
CN111220690A (zh) * | 2018-11-27 | 2020-06-02 | 中国科学院大连化学物理研究所 | 一种低丰度蛋白质翻译后修饰组的直接质谱检测方法 |
Non-Patent Citations (3)
Title |
---|
何明敏;舒坤贤;白明泽;许睿;: "质谱图聚类网络法在鉴定多肽翻译后修饰中的应用及研究进展", 生物工程学报, no. 10, 19 April 2018 (2018-04-19) * |
吴重德;黄钧;周荣清;: "宏蛋白质组学研究进展及应用", 食品与发酵工业, no. 05, 15 April 2016 (2016-04-15) * |
齐崴, 何明霞, 何志敏, 史德青: "胰蛋白酶水解全酪蛋白反应过程中的色谱分析", 色谱, no. 01, 30 January 2002 (2002-01-30) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115267033A (zh) * | 2022-08-05 | 2022-11-01 | 西湖大学 | 基于质谱数据的宏蛋白质组学分析方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112786105B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karlsson et al. | Proteotyping: Proteomic characterization, classification and identification of microorganisms–A prospectus | |
Kolmeder et al. | Metaproteomics of our microbiome—developing insight in function and activity in man and model systems | |
Kallow et al. | MALDI‐TOF MS for microbial identification: Years of experimental development to an established protocol | |
Sauer et al. | Nutriproteomics: Facts, concepts, and perspectives | |
Benabdelkamel et al. | Serum-based proteomics profiling in adult patients with cystic fibrosis | |
Šedo et al. | Limitations of routine MALDI-TOF mass spectrometric identification of Acinetobacter species and remedial actions | |
Yan et al. | A semi-tryptic peptide centric metaproteomic mining approach and its potential utility in capturing signatures of gut microbial proteolysis | |
CA3208429A1 (en) | Biomarkers for determining an immuno-oncology response | |
CN112786105A (zh) | 一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用 | |
Blakeley-Ruiz et al. | Dietary protein source alters gut microbiota composition and function | |
TW202321695A (zh) | 用於診斷非酒精性脂肪肝炎(nash)或肝細胞癌(hcc)的生物標記 | |
Rodriguez Palomo et al. | Benchmarking the identification of a single degraded protein to explore optimal search strategies for ancient proteins | |
AU2021214797A1 (en) | Biomarkers for diagnosing ovarian cancer | |
CN102532315A (zh) | 人脑胶质瘤标志物gfap自身抗体及其用途 | |
Plikat et al. | From proteomics to systems biology of bacterial pathogens: approaches, tools, and applications | |
CN103694342B (zh) | 检测人老龄化的多肽标志物 | |
Zellner et al. | How many spots with missing values can be tolerated in quantitative two-dimensional gel electrophoresis when applying univariate statistics? | |
CN110656153B (zh) | 与小体重鸡只厌食行为高度关联的肠道微生物标记物 | |
CN116456895A (zh) | 用于诊断非酒精性脂肪性肝炎(nash)或肝细胞癌(hcc)的生物标志物 | |
Holstein et al. | Check Chapter 16 updates | |
Rybina | Identification of mouse brain proteoforms: comparison of 2D-electrophoresis data and independent experiment with mass spectrometric identification | |
Bukato et al. | Proteomic dataset: Profiling of cultivated Echerichia coli isolates from Crohn's disease patients and healthy individuals Q9 | |
Karlsson et al. | Proteotyping: Tandem mass spectrometry shotgun proteomic characterization and typing of pathogenic microorganisms | |
Killinger | Development and Application of Analytical and Chemical Biology Approaches to Understand Physiological Responses to External Exposures | |
Weldatsadik et al. | Pool-seq driven proteogenomic database for Group G Streptococcus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |