CN113223618B - 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 - Google Patents
基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 Download PDFInfo
- Publication number
- CN113223618B CN113223618B CN202110579642.1A CN202110579642A CN113223618B CN 113223618 B CN113223618 B CN 113223618B CN 202110579642 A CN202110579642 A CN 202110579642A CN 113223618 B CN113223618 B CN 113223618B
- Authority
- CN
- China
- Prior art keywords
- virulence
- gene
- clinical
- result
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 204
- 230000001018 virulence Effects 0.000 title claims abstract description 147
- 244000052616 bacterial pathogen Species 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012163 sequencing technique Methods 0.000 claims abstract description 28
- 238000012512 characterization method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 25
- 244000052769 pathogen Species 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000001717 pathogenic effect Effects 0.000 claims description 16
- 241000894007 species Species 0.000 claims description 14
- 239000000304 virulence factor Substances 0.000 claims description 14
- 230000007923 virulence factor Effects 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002195 synergetic effect Effects 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000003759 clinical diagnosis Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 108091008109 Pseudogenes Proteins 0.000 claims description 3
- 102000057361 Pseudogenes Human genes 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 208000015181 infectious disease Diseases 0.000 abstract description 13
- 230000035945 sensitivity Effects 0.000 abstract description 7
- 210000001175 cerebrospinal fluid Anatomy 0.000 abstract description 5
- 150000001413 amino acids Chemical group 0.000 description 26
- 239000000523 sample Substances 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 19
- 238000003752 polymerase chain reaction Methods 0.000 description 16
- 241000588747 Klebsiella pneumoniae Species 0.000 description 14
- 241000894006 Bacteria Species 0.000 description 9
- 150000007523 nucleic acids Chemical group 0.000 description 9
- 238000007397 LAMP assay Methods 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 230000007918 pathogenicity Effects 0.000 description 7
- 206010035664 Pneumonia Diseases 0.000 description 6
- 241000193998 Streptococcus pneumoniae Species 0.000 description 6
- 230000003321 amplification Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 229940031000 streptococcus pneumoniae Drugs 0.000 description 6
- -1 CsuA Proteins 0.000 description 5
- 241000191967 Staphylococcus aureus Species 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 230000008685 targeting Effects 0.000 description 5
- 208000035473 Communicable disease Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 238000007403 mPCR Methods 0.000 description 4
- 208000035143 Bacterial infection Diseases 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 3
- 206010040047 Sepsis Diseases 0.000 description 3
- 208000022362 bacterial infectious disease Diseases 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 230000000813 microbial effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000193468 Clostridium perfringens Species 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 241000194033 Enterococcus Species 0.000 description 2
- 108010006464 Hemolysin Proteins Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000607142 Salmonella Species 0.000 description 2
- 101710117021 Tyrosine-protein phosphatase YopH Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000003228 hemolysin Substances 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 101150082581 lytA gene Proteins 0.000 description 2
- 229920001282 polysaccharide Polymers 0.000 description 2
- 239000005017 polysaccharide Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101150110106 rmpA gene Proteins 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 208000013223 septicemia Diseases 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000008673 vomiting Effects 0.000 description 2
- 241000588626 Acinetobacter baumannii Species 0.000 description 1
- 101100295756 Acinetobacter baumannii (strain ATCC 19606 / DSM 30007 / JCM 6841 / CCUG 19606 / CIP 70.34 / NBRC 109757 / NCIMB 12457 / NCTC 12156 / 81) omp38 gene Proteins 0.000 description 1
- 208000030090 Acute Disease Diseases 0.000 description 1
- 241000607534 Aeromonas Species 0.000 description 1
- 208000035404 Autolysis Diseases 0.000 description 1
- 101100226150 Bacillus subtilis (strain 168) estA gene Proteins 0.000 description 1
- 208000031729 Bacteremia Diseases 0.000 description 1
- 206010004022 Bacterial food poisoning Diseases 0.000 description 1
- 108010074051 C-Reactive Protein Proteins 0.000 description 1
- 102100032752 C-reactive protein Human genes 0.000 description 1
- 206010057248 Cell death Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000037041 Community-Acquired Infections Diseases 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 239000003298 DNA probe Substances 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 101710146739 Enterotoxin Proteins 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 208000005577 Gastroenteritis Diseases 0.000 description 1
- 101100221862 Gibberella fujikuroi cps gene Proteins 0.000 description 1
- 241000606768 Haemophilus influenzae Species 0.000 description 1
- 101100437444 Haemophilus influenzae bexA gene Proteins 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 206010061598 Immunodeficiency Diseases 0.000 description 1
- 101150013996 LIP gene Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 206010024652 Liver abscess Diseases 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 201000009906 Meningitis Diseases 0.000 description 1
- 208000005119 Necrotizing Pneumonia Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- CVRALZAYCYJELZ-UHFFFAOYSA-N O-(4-bromo-2,5-dichlorophenyl) O-methyl phenylphosphonothioate Chemical compound C=1C=CC=CC=1P(=S)(OC)OC1=CC(Cl)=C(Br)C=C1Cl CVRALZAYCYJELZ-UHFFFAOYSA-N 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 206010033078 Otitis media Diseases 0.000 description 1
- 101710183389 Pneumolysin Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 208000003100 Pseudomembranous Enterocolitis Diseases 0.000 description 1
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 1
- 206010037423 Pulmonary oedema Diseases 0.000 description 1
- 241000193985 Streptococcus agalactiae Species 0.000 description 1
- 101100286149 Streptococcus agalactiae serotype III (strain NEM316) hylB gene Proteins 0.000 description 1
- 208000009470 Ventilator-Associated Pneumonia Diseases 0.000 description 1
- 101100128403 Vibrio cholerae serotype O1 (strain ATCC 39315 / El Tor Inaba N16961) hlyC gene Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 206010000269 abscess Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 208000012873 acute gastroenteritis Diseases 0.000 description 1
- 101150073130 ampR gene Proteins 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 101150042295 arfA gene Proteins 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012864 cross contamination Methods 0.000 description 1
- 101150028842 ctxA gene Proteins 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 101150036149 eccA1 gene Proteins 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 239000002158 endotoxin Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 229940023064 escherichia coli Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 210000003714 granulocyte Anatomy 0.000 description 1
- 229940047650 haemophilus influenzae Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 231100000086 high toxicity Toxicity 0.000 description 1
- 230000007446 host cell death Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000028709 inflammatory response Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 101150117619 iucA gene Proteins 0.000 description 1
- 229940045505 klebsiella pneumoniae Drugs 0.000 description 1
- 231100000225 lethality Toxicity 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 101150091094 lipA gene Proteins 0.000 description 1
- 101150056138 lipA1 gene Proteins 0.000 description 1
- 101150114896 lipA2 gene Proteins 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 230000003448 neutrophilic effect Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 101150087557 omcB gene Proteins 0.000 description 1
- 101150115693 ompA gene Proteins 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 208000008494 pericarditis Diseases 0.000 description 1
- 101150063938 ply gene Proteins 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000028043 self proteolysis Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于宏基因组的临床重要致病菌毒力基因检测的方法和系统。该方法包括:S10,建立临床致病菌毒力基因数据库;S20,获取临床样本宏基因组测序原始数据,对其预处理获得目标数据;S30,利用预设宏基因组测序数据多重比对注释系统分析目标数据,鉴定毒力基因;S40,建立重要毒力基因‑毒力因子‑表征(功能/临床表型)关联数据库;S50,利用预设临床自动化报告系统,基于毒力基因鉴定结果和关联数据库,生成毒力基因鉴定报告。该系统能够对不同类型(脑脊液等)的临床感染样本的宏基因组测序数据进行毒力基因鉴定,一次性鉴定样本中多种病原菌的多个重要毒力基因,具有较好的灵敏性和准确性,帮助医生及时进行诊断、治疗和预后。
Description
技术领域
本发明属于生物信息算法软件技术领域。可以应用于临床致病菌检测产品-病原宏基因组检测的临床致病菌毒力基因分析,包括多种临床致病菌的数百个毒力基因。应用领域:各类感染性疾病患者的组织、体液(脑脊液、肺泡灌洗液、血液、痰液)等样本的病原宏基因组检测的致病菌毒力基因的识别、鉴定和溯源,协助临床医生进行精准诊断、治疗方案选择和预后判断,且在细菌感染类疾病的监控中提供有用信息。
背景技术
细菌作为在自然界中广泛分布的微生物,其感染人类事件在世界范围内发生,细菌感染可以引发多种急性和慢性疾病,也可以作为条件致病菌,通过病原、宿主及环境因素之间相互作用引发疾病,其中某些临床致病菌会严重危害人类生命健康。如金黄色葡萄球菌(Staphylococcus aureus),常引起人类化脓感染,可直接导致肺炎、伪膜性肠炎、心包炎等,甚至败血症、脓血症等全身感染。肺炎克雷伯菌(Klebsiella pneumoniae)广泛存在于动物粘膜表面(如人体胃肠道)或环境,是医院医疗相关感染、严重社区获得性感染的主要病原。在中国,肺炎克雷伯菌占呼吸机相关肺炎和重症监护病房获得性肺炎分离病原体的11.9%。而肺炎链球菌(Streptococcus pneumoniae)是社区获得性肺炎、中耳炎、脑膜炎、脓肿、败血症等主要致病菌之一。在发展中国家,每年超过110万儿童因患肺炎而死亡,其中肺炎链球菌导致的约占20%。另一类治疗棘手、致死率高、常呈现多重耐药或泛耐药的是铜绿假单胞菌(pseudomonas aeruginosa),它是一种革兰氏阴性菌,易在呼吸道形成定植和感染,特别是免疫力低下人群易感。这些临床致病菌在感染人类的过程中常常通过多种毒力基因发挥其致病性,导致疾病发生。
毒力因子是病原微生物产生、导致宿主疾病发生的一类效应或调控分子(蛋白质、脂质分子或化合物等)及其组合的功能单元的统称。编码这些毒力因子的基因,常称为毒力基因。如金黄色葡萄球菌可通过产生多种毒力因子来实现对宿主细胞的黏附、侵染和散播,并可通过形成生物被膜逃避宿主免疫系统或抗生素的作用,其重要毒力基因包括pvl、sea、seb等,pvl可促进中性粒细胞溶解而赋予菌株强致病性,与皮肤、软组织化脓性感染相关,严重者可导致坏死性肺炎,致死率较高;sea、seb等肠毒素基因可刺激呕吐中枢导致以呕吐为主要症状的急性肠胃炎,是引起人类细菌性食物中毒的主要原因。而肺炎链球菌具有多种毒力基因,如荚膜多糖合成素A基因、肺炎链球菌溶血素基因(ply)、lytA和nanA等。其中cps4A等荚膜相关基因是肺炎链球菌具有致病性的前提;溶血素可导致宿主细胞溶解,引起肺泡水肿和出血,并诱发肺炎,以及促使细菌进入血液引起菌血症;lytA参与细菌的自溶,导致溶血素等成分分泌,会引起宿主的强炎症反应。肺炎克雷伯菌的不同菌株毒力基因的差异会导致其致病性的差异,其重要毒力基因有rmpA,可调节其荚膜多糖合成,参与其高黏液表型的产生,导致菌株的强致病性,与iutA等毒力基因共同影响形成肝脓肿时的毒力作用等。这些编码毒素、表面蛋白质等毒力因子的毒力基因,能协助细菌粘附与侵入宿主细胞、提高其在宿主细胞内存活与繁殖、导致宿主细胞中毒死亡等,最终引发宿主的各种感染性疾病。因此,检测鉴定临床样本高频或重要致病菌的毒力基因,有助于识别潜在的致病菌,评估临床菌株的毒力强弱,辅助临床感染类疾病的诊断、精准治疗、预后处理等具体措施的选择实施。另一方面,在公共卫生领域,毒力基因检测及其特定毒力谱的识别,对细菌感染类疾病的监控、疫情暴发几率的判断、疫情严重性评估等方面提供了有用信息,助力合理疾控防治措施的提出和实施。
目前临床致病菌的毒力基因检测和鉴定方法主要如下:基于聚合酶链式反应(PCR)及其衍生技术的单/多基因检测、环介导等温扩增、基因芯片和二代测序宏基因组检测技术等。其中,临床应用最为广泛的为PCR技术,主要针对特定毒力基因的核酸序列的保守区域设计特异性引物,以临床样本或分离菌株的核酸为模板进行扩增检测。该技术可以实现基因的快速检测,有着灵敏性高特点。临床应用主要包括:1)多重PCR技术:在同一PCR反应体系中加入两对及以上引物,同时扩增出多个核酸片段,可以同时对两个及以上毒力基因进行检测鉴定;2)荧光定量PCR技术:在普通PCR基础上,增加了每一循环产物荧光信号的实时检测从而实现对起始模板DNA定量及定性的分析,与普通PCR相比,实时荧光定量PCR有着可定量、更为简便、敏感、快速等优点。同时,上述两种PCR技术也存在着操作较复杂,对仪器和人员要求较高,不适合现场快速诊断等缺点。环介导等温扩增反应(LAMP)是一种不同于PCR的新式核酸扩增技术,它依靠一种具有链置换活性的DNA聚合酶和2对特殊设计的引物,不需要反复的温度循环和昂贵的仪器设备,在等温条件下即可高效快速地完成扩增反应,目前已广泛应用于细菌、病毒、寄生虫等病原体的检测鉴定。相比于普通PCR技术,LAMP具有高特异性、高灵敏度、操作简单、对仪器设备要求低、可在恒温条件下快速完成核酸扩增等特点。不足之处是对引物设计要求高,不易辨别非特异性扩增,受污染影响较大等。基因芯片,又称为DNA微阵列(DNA microarray),指采用原位合成(in-situ synthesis)或微量点样等方法将大量DNA探针如基因片段、人工合成的寡核苷酸等以预先设计的方式固定在载体上组成密集分子阵列,与荧光素或其它方式标记的核酸样品进行杂交,通过检测杂交信号的强弱来判断样品中有无靶基因并定量。近年的发展使得基因芯片技术也被应用在基因表达分析、突变和多态性分析等领域。相较于PCR或LAMP技术,基因芯片技术具有一次实验可实现大量基因的检测,快速、高度并行性、多样性和自动化等优点。另一方面,基因芯片检测成本昂贵,对操作要求高、灵敏性较差,这些则导致其应用范围受限。无论PCR、LAMP或基因芯片均有着需要对样本的先验知识有所了解,仅能检测特定细菌的特定毒力基因,难以应对变异较大、未预估的基因类别,无法全面覆盖在临床上有重要意义的毒力基因。近年快速发展的、基于二代测序的宏基因组测序技术(Metagenomic sequencing),在克服上述缺点上有着独有的优势。宏基因组测序无需单独对病原分离培养,通过核酸提取纯化,可以直接分析临床样本。利用序列同源性比对,进行全面的毒力基因注释和鉴定。
临床感染类疾病样本中存在多种致病菌,其致病机制涉及不同毒力因子,由多个毒力基因协同调控作用,产生致病性。涉及微生物毒力基因检测的现有技术包括PCR及其衍生技术、环介导等温扩增、基因芯片等,均存在检测毒力基因数量与范围有限、需先验认知、易交叉污染等问题。目前毒力基因鉴定的产品主要是基于PCR技术,此类技术只能检测有限范围的细菌和有限数量的毒力基因。特别是普通PCR,一次实验仅能检测一种细菌的一个毒力基因,如中国专利公开CN110669853A,只能检测非粘性肺炎克雷伯菌的ampR基因。即使是多重PCR,也需要考虑引物对数量过多会易形成二聚体,影响扩增效率的问题,而导致检测毒力基因数量较少,如中国专利公开CN111876509A,应用多重PCR技术一次检测鲍曼不动杆菌的abaR、CsuA、bap等四个毒力基因,中国专利公开CN109554449A的多重PCR产品检测气单胞菌的7个毒力基因和中国专利公开CN108707680A技术设计七重PCR检测引物组,也仅覆盖了无乳链球菌的sip、fbsA、hylB等21个毒力基因的特定区域。多重荧光PCR技术由于结果判读便捷也被应用在毒力基因的检测上,如2020年提交的中国专利公开CN112430677A设计多重荧光PCR定量检测了肺炎克雷伯菌的icuA、rmpA1、rmpA2三个毒力基因。同时,近年发展出来的环介导等温扩增技术也被应用于临床毒力基因检测。如中国专利公开CN11150075A应用2对引物扩增高毒力肺炎克雷伯菌的peg-344基因的6个不同区域,鉴定临床高毒力株。基因芯片由于成本较高,较少应用于临床毒力基因检测。2016年提交的中国专利授权CN105950732B产品,设计鉴定9种动物源食品致病菌:沙门氏菌(Salmonella)、肠球菌(Enterococcus)、产气荚膜梭菌(Clostridium perfringens)等的17个毒力基因。现有的这些技术由于实验前均需要设计或使用已知的一个或特定若干基因的特异性引物,因此只能检测预先设定范围内的毒力基因。临床上需要更灵敏、更全面的感染类致病菌的毒力基因检测策略,满足我国对高发、高毒性的重要致病菌的诊断、治疗和流行病学监控的需求。近年发展起来的宏基因组测序技术,以特定生境中的整个微生物群落作为研究对象,直接提取临床样本的全部微生物组的DNA进行测序注释和比对分析。该技术弥补了以前测序方法的不足,无需培养,无需样本的先验知识,可以同时对临床病原宏基因组进行全面的毒力基因扫描和鉴定。目前中国专利公开申请或获得的项目中没有基于宏基因组的毒力基因检测的产品或类似项目,研发和推广该类产品有助于满足临床感染类疾病高毒力致病菌诊断的需要。
发明内容
本专利提供一种基于宏基因组的临床重要致病菌毒力基因检测的方法和系统,包括但不限于肺炎克雷伯菌、肺炎链球菌、大肠杆菌、流感嗜血杆菌、金黄色葡萄球菌等多种致病菌的数百个重要毒力基因鉴定,如rmpA、iucA、ply、cps、stx1A、bexA、lukF-PV、hly、ompA、plc、cylL、ctxA、eccA1、lipA、slo、acm、icmTlef、toxA、pgm等。本方法包含以下主要部分:1)建立临床致病菌毒力基因数据库;2)获取临床样本宏基因组测序原始数据,对其预处理获得目标数据;3)利用预设宏基因组测序数据多重比对系统和多重注释系统分析目标数据,鉴定毒力基因;4)建立重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;5)利用预设临床自动化报告系统,基于毒力基因鉴定结果和关联数据库,生成毒力基因鉴定报告。该方法适用于临床多种感染疾病样本类型(脑脊液、肺泡灌洗液、血液等),一次性对多种临床致病菌的多个高频和重要毒力基因进行鉴定,减少额外筛查时间,深度关联数据库、多重比对策略具有较高的灵敏性和准确性,自动化报告系统快速生成报告,帮助医生及时进行感染类高毒力致病菌株的鉴定诊断、治疗和预后。
本发明的第一方面在于公开一种基于宏基因组的临床重要致病菌毒力基因检测的方法,包括:
S10,建立临床致病菌毒力基因数据库;
S20,获取临床样本宏基因组测序原始数据,预处理获得目标数据;
S30,利用预设宏基因组测序数据多重比对系统和多重注释系统分析目标数据,鉴定毒力基因;
S40,建立重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;
S50,利用预设临床自动化报告系统,基于S30毒力基因鉴定结果和S40关联数据库,生成毒力基因鉴定报告。
在本发明的一些实施方式中,所述S10包括以下步骤:
从毒力基因数据库中获取临床致病菌毒力基因及序列;
从公共数据库获取所述临床致病菌的全部基因组、基因序列及注释信息;
过滤基因序列中的假基因、片段和错误注释的序列;
多重阈值聚类各基因单元序列,组内交叉比对去重;
模拟数据集测试基因单元参考基因序列,调整补充基因单元参考序列;
循环多重阈值聚类各基因单元序列,组内交叉比对去重;
对各基因单元参考序列聚类,过滤异常序列;
提取参考序列的基因名、物种名等公共数据库注释信息,校对和标准化各基因单元参考序列注释;
建立全部毒力基因单元的参考序列索引;
和可选的,建立软件实现自动下载序列、聚类去重、更新和标准化数据库。
在本发明的一些实施方式中,所述S20包括:
过滤质量值低于2,碱基数占整个read 40%的读序;
切除滑窗(5bp)内碱基平均质量小于20的碱基;
过滤平均质量小于20、含N数量大于5、长度小于50的读序。
在本发明的一些实施方式中,所述S30包括以下步骤:
特定毒力基因的参考序列集设为:{s1,s2,…,sn};其中,sn:参考序列n,n为参考序列的总数;
应用多重比对算法比对宏基因组的高质量读序(clean reads)到参考序列集,阈值e-value=1e-5;
每条读序的比对结果为:{R1,R2,…,Rm}∈gi;其中,0≤m≤n;Rm:第m个比对的结果;gi:第i个基因单元;
毒力基因的检出结果(VF-result)的过滤策略:
其中,id=序列相似度得分(%);
score=序列两两比对的质量得分;
过滤条件:VF-result∈gi,i>1,丢弃,结果为无;
和可选的,建立软件实现自动化比对、过滤和结果列表产生。
在本发明的一些实施方式中,所述S30的比对结果包括:
当比对结果为单一结果(m=1),取该结果(Rm)为最终结果(r);
当多个比对结果(m>1),且靶向参考序列为相同物种的同一基因单元,得分排序后,最终结果ri如下:
当多个比对结果(m>1),且靶向参考序列为相同物种的不同基因单元(gi,i>1),最终结果r为每个基因分组中取最优结果的并集{r1,r2,…,ri},其中,gi分组中结果如下:
score=序列两两比对的质量得分,Max是靶向参考序列为相同物种的同一基因单元,得分排序后最大值,identity是一致性计算函数,max是最大值函数。
在本发明的一些实施方式中,所述S40包括以下步骤:
致病菌临床样本的宏基因组测序数据收集;
基于所述S20和S30对上述数据进行分析,构建每个样本单个致病菌的毒力基因谱;
样本相应临床表型和生理生化指标提取和标准化;
应用最大似然法分析提取基因特征;
结合临床常规检测指标和毒力基因的序列特征(PAAC和PSSM-C),应用多重机器学习策略构建临床诊断相关的毒力基因特征谱;
聚类协同作用的毒力基因到单一毒力因子单元,关联相应的表征(功能/临床表型);
构建毒力因子-毒力基因,毒力因子-表征(功能/临床表型)关联表,建立临床重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;
和可选的,通过软件实现自动化比对、过滤和结果列表产生。
在本发明的一些实施方式中,所述S40中的应用最大似然法分析提取基因特征包括:
毒力基因的蛋白序列理化特征(PAAC)的提取:
其中,单个氨基酸理化特征如下:
对于任意两个氨基酸Rb和Rd的相关性为:
对于长度为L的氨基酸序列,序列位置相关性参数θh定义如下:
则,对于20+λ(λ=2)维度序列里氨基酸e的理化特征提取公式如下:
其中,fe:氨基酸e在序列中的频率;ω:氨基酸在序列在的位次加权参数,默认值为0.1,θe-20反映的是氨基酸e的次序参数的效应。
毒力蛋白序列的进化特征(PSSM)的提取:
转化基因单元内毒力基因的蛋白序列为原始PSSM矩阵如下:
其中,L:序列长度;20:列数呈现20个天然氨基酸;pu,v:第u个氨基酸进化突变为第v个氨基酸可能性;
PSSM-C转换PSSM矩阵为20x20矩阵,其中第u行的氨基酸Zu计算如下:
zt:原始PSSM表中第t位的值;pt:序列中第t位的氨基酸;L:序列的长度;au是20种氨基酸中第u位的氨基酸。
在本发明的一些实施方式中,所述S50包括以下步骤:
导入所述S30获得的结果列表,比对所述S40关联数据库,生成毒力基因结果,包含致病菌物种(物种拉丁名、中文名)和基因信息(基因名、毒力因子、表征和支持得分等);
将上述结果导入报告模板的相应表格;
将数据库的客户信息导入报告模板;
生成最终的临床样本的特定致病菌的毒力基因鉴定报告(PDF格式)。
本发明的第二方面在于公开一种基于宏基因组的临床重要致病菌毒力基因检测的系统,包括以下组成部分:
临床致病菌毒力基因数据库;
重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;
宏基因组测序数据多重比对系统和多重注释系统;
临床自动化报告系统。
本发明的有益技术效果是:
(1)建立了一种基于宏基因组的临床重要致病菌毒力基因检测系统,克服了目前现有技术与方法的多方面局限性,能够对不同样本类型(脑脊液、肺部灌洗液、血液、咽拭子等),核酸含量偏低的临床感染样本进行毒力基因检测鉴定,可一次性对多种临床致病菌的数百个重要毒力基因进行鉴定,减少额外筛查时间。深度层级数据库、两步法比对策略提高了鉴定的灵敏性和准确性。临床自动化报告系统快速生成报告,帮助医生及时进行诊断、治疗和预后;
(2)构建全面、经过人工校对的临床重要致病菌毒力基因数据库,包含多种临床重要致病菌的数百个重要毒力基因的全部参考序列,以及校对后的物种和功能注释信息;
(3)应用机器学习算法进行文献和临床大数据挖掘,识别每个致病菌高频、重要毒力基因谱及其毒力因子与表征(功能/临床表型),并按基因的协同效应划分为不同毒力因子单元,建立重要毒力基因及其毒力因子与表征(功能/临床表型)的强关联知识库,对临床诊断和预后处理更具参考价值;
(4)基于大样本分析后的比对分级阈值过滤算法,兼顾比对的准确性同时,提高毒力基因检测结果的敏感性,克服了现有相关技术对于低丰度、短读序样本鉴定的局限性,尤其适宜于单端短读序(50~75bp)、低核酸含量的临床样本(如脑脊液)的毒力基因检测鉴定;
(5)临床自动化报告系统中整合宏基因组数据的比对结果和重要毒力基因的毒力因子与表征(功能/临床表型)信息,有着较高可靠性和临床实用性。
附图说明
图1本发明的一种实施方式的临床重要致病菌毒力基因检测方法的流程图;
图2本发明的一种实施方式的临床重要致病菌毒力基因检测系统的工作流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
实施例1
如图1所示,基于宏基因组的临床重要致病菌毒力基因检测方法,主要步骤如下:
1.建立临床致病菌毒力基因数据库
1.1.从VFDB等毒力数据库中,获取24种重要致病菌(覆盖18个属,10种革兰氏阴性菌,14种革兰氏阳性菌)的1761个毒力基因及其序列;
1.2.从公共数据库(NCBI RefSeq)下载过滤24种致病菌的全部基因组和基因序列及注释信息;
1.3.应用自研发软件软件过滤下载序列中的假基因、片段和错误注释的序列;
1.4.多重阈值聚类各基因单元序列,组内交叉比对去重;
1.5.模拟数据集测试基因单元参考基因序列,调整补充基因单元参考序列;
1.6.循环1.4步骤,聚类各基因单元序列,组内交叉比对去重;
1.7.对各基因单元参考序列聚类,过滤异常序列;
1.8.应用正则表达式提取参考序列的基因名、物种名等NCBI注释信息,校对和标准化各基因单元参考序列注释;
1.9.建立全部毒力基因单元的参考序列索引;
1.10.软件(VF_MKDB)实现自动下载序列、聚类去重、更新和标准化数据库。
2获取临床样本宏基因组测序原始数据,对其预处理获得目标数据
2.1.过滤质量值低于2,碱基数占整个read 40%的读序;
2.2切除滑窗(5bp)内碱基平均质量小于20的碱基;
2.3过滤平均质量小于20、含N数量大于5、长度小于50的读序。
3用预设宏基因组测序数据多重比对系统和多重注释系统分析目标数据,鉴定毒力基因基于宏基因组测序读序(Read)的两步法比对策略和判断方法如下:
3.1.特定毒力基因的参考序列集设为:{s1,s2,…,sn};其中,sn:参考序列n;
3.2.应用多重比对算法比对宏基因组的高质量读序(clean reads)到参考序列集(阈值
e-value=1e-5);
3.3.每条读序的比对结果为:{R1,R2,…,Rm}∈gi;其中,0≤m≤n;Rm:第m个比对的结果;gi:第i个基因单元;
3.4步骤一:
如果比对结果为单一结果(m=1),取该结果(Rm)为最终结果(r);
3.5.如果多个比对结果(m>1),两种情况:
3.5.1靶向参考序列为相同物种的同一基因单元,得分排序后,最终结果ri如下:
3.5.2靶向参考序列为相同物种的不同基因单元(gi,i>1),最终结果r为每个基因分组中取最优结果的并集{r1,r2,…,ri},其中,gi分组中结果如下:
3.6.步骤二:
毒力基因的检出结果(VF-result)的过滤策略:
其中,id=序列相似度得分(%);
score=序列两两比对的质量得分;
过滤条件:VF-result∈gi,i>1,丢弃,结果为无(None);
3.7.软件(VF_Finder)实现自动化比对、过滤和结果列表产生。
4.建立重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库
4.1. 24种致病菌临床样本的宏基因组测序数据收集(约50样本/单个致病菌);
4.2.基于所述宏基因组测序数据多重比对系统和多重注释系统对上述数据进行分析,构建每个样本单个致病菌的毒力基因谱;
4.3样本相应临床表型和生理生化指标提取和标准化,主要包括血常规:白细胞计数、中性粒细胞计数、单核细胞比值、淋巴细胞比值、C反应蛋白、内毒素等;
4.4.应用最大似然法分析提取基因特征:
4.4.1.毒力基因的蛋白序列理化特征(PAAC)的提取:
其中,单个氨基酸理化特征如下:
对于任意两个氨基酸Rb和Rd的相关性为:
对于长度为L的氨基酸序列,序列位置相关性参数θh定义如下:
则,对于20+λ(λ=2)维度序列里氨基酸e的理化特征提取公式如下:
其中,fe:氨基酸e在序列中的频率;ω:氨基酸在序列在的位次加权参数,默认值为0.1。
4.4.2.毒力蛋白序列的进化特征(PSSM)的提取:
应用PSI-BLAST转化基因单元内毒力基因的蛋白序列为原始PSSM矩阵(Position-specific scoring matrix)如下:
其中,L:序列长度;20:列数呈现20个天然氨基酸;pu,v:第u个氨基酸进化突变为第v个氨基酸可能性;
PSSM-C(PSSM-composition)转换PSSM矩阵为20x20矩阵,其中第u行的氨基酸Zu计算如下:
zt:原始PSSM表中第t位的值;pt:序列中第t位的氨基酸;L:序列的长度;au是20种氨基酸中第u位的氨基酸。
4.5.结合临床常规检测指标和毒力基因的序列特征(PAAC和PSSM-C),应用多重机器学习策略(多任务逻辑回归、随机森林、支持向量机等)构建临床诊断相关的毒力基因特征谱;
4.6.聚类协同作用的毒力基因到单一毒力因子单元,关联相应的表征(功能/临床表型);
4.7.构建毒力因子-毒力基因,毒力因子-表征(功能/临床表型)关联表,建立临床重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;
4.8.软件(VF-KDB)实现数据的收集、分析和升级。
5.利用预设临床自动化报告系统,基于毒力基因鉴定结果和关联数据库,生成毒力基因鉴定报告
5.1.导入所述宏基因组测序数据多重比对系统和多重注释系统获得的结果列表,比对重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库,自动生成基因结果列表(text文本格式):包含致病菌物种(物种拉丁名、中文名)和基因信息(基因名、毒力因子、表征和支持得分等);
5.2.程序自动将上述结果导入报告模板的相应表格;
5.3.程序自动将数据库的客户信息导入报告模板;
5.5.生成最终的临床样本的特定致病菌的毒力基因鉴定报告(PDF格式)。
如图2所示,基于宏基因组的临床重要致病菌毒力基因检测的系统,包括以下组成部分:
1.临床致病菌毒力基因数据库;
2.重要毒力基因-毒力因子-表征(功能/临床表型)关联数据库;
3.宏基因组测序数据多重比对系统和多重注释系统;
4.临床自动化报告系统。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。
Claims (7)
1.一种基于宏基因组的临床重要致病菌毒力基因检测的方法,其特征在于,包括:
S10,建立临床致病菌毒力基因数据库;
S20,获取临床样本宏基因组测序原始数据,预处理获得目标数据;
S30,利用预设宏基因组测序数据多重比对注释系统分析目标数据,鉴定毒力基因;
S40,建立重要毒力基因-毒力因子-表征关联数据库;
S50,利用预设临床自动化报告系统,基于毒力基因鉴定结果和关联数据库,生成毒力基因鉴定报告;
所述S30包括:
特定毒力基因的参考序列集设为:{s1,s2,…,sn};其中,sn:参考序列n,n为参考序列的总数;
应用多重比对算法比对宏基因组的高质量读序到参考序列集,阈值e-value=1e-5;
每条读序的比对结果为:{R1,R2,…,Rm}∈gi;其中,0≤m≤n;Rm:第m个比对的结果;gi:第i个基因单元;
毒力基因的检出结果的过滤策略:
其中,id=序列相似度得分(%);
score=序列两两比对的质量得分;
过滤条件:VF-result∈gi,i>1,丢弃,结果为无;
所述S30中的比对结果包括:
当比对结果为单一结果,取该结果为最终结果;
当多个比对结果,且靶向参考序列为相同物种的同一基因单元,得分排序后,最终结果ri如下:
其中,Score=序列两两比对的质量得分;Rm:第m个比对的结果;Max是靶向参考序列为相同物种的同一基因单元得分排序后的最大序列;identity是一致性计算函数;
当多个比对结果,且靶向参考序列为相同物种的不同基因单元,最终结果为每个基因分组中取最优结果的并集,其中,gi分组中结果如下:
其中,Score=序列两两比对的质量得分;Rm:第m个比对的结果;Max是靶向参考序列为相同物种的同一基因单元得分排序后的最大序列;identity是一致性计算函数;
所述S40包括:
致病菌临床样本的宏基因组测序数据收集;
基于所述S20和S30对上述数据进行分析,构建每个样本单个致病菌的毒力基因谱;
样本相应临床表型和生理生化指标提取和标准化;
应用最大似然法分析提取基因特征;
结合临床常规检测指标和毒力基因的序列特征,应用多重机器学习策略构建临床诊断相关的毒力基因特征谱;
聚类协同作用的毒力基因到单一毒力因子单元,关联相应的表征;
构建毒力因子-毒力基因,毒力因子-表征关联表,建立临床重要毒力基因-毒力因子-表征关联数据库;
所述S50包括:
导入所述S30获得的结果列表,比对所述S40关联数据库,生成毒力基因结果,包含致病菌物种和基因信息;
将上述结果导入报告模板的相应表格;
将数据库的客户信息导入报告模板;
生成最终的临床样本的特定致病菌的毒力基因鉴定报告;
所述表征是功能表征或者临床表型表征。
2.根据权利要求1所述的方法,其特征在于,所述S30还包括:
建立软件实现自动化比对、过滤和结果列表产生。
3.根据权利要求1所述的方法,其特征在于,所述S40还包括:
建立软件实现自动化比对、过滤和结果列表产生。
4.根据权利要求1所述的方法,其特征在于,所述S10包括:
从毒力基因数据库中获取临床致病菌毒力基因及序列;
从公共数据库获取所述临床致病菌的全部基因组、基因序列及注释信息;
过滤基因序列中的假基因、片段和错误注释的序列;
多重阈值聚类各基因单元序列,组内交叉比对去重;
模拟数据集测试基因单元参考基因序列,调整补充基因单元参考序列;
循环多重阈值聚类各基因单元序列,组内交叉比对去重;
对各基因单元参考序列聚类,过滤异常序列;
提取参考序列的公共数据库注释信息,校对和标准化各基因单元参考序列注释;
建立全部毒力基因单元的参考序列索引。
5.根据权利要求1所述的方法,其特征在于,所述S10还包括:
建立软件实现自动下载序列、聚类去重、更新和标准化数据库。
6.根据权利要求1所述的方法,其特征在于,所述S20包括:
过滤质量值低于2,碱基数占整个read40%的读序;
切除滑窗内碱基平均质量小于20的碱基;
过滤平均质量小于20、含N数量大于5、长度小于50的读序。
7.一种基于宏基因组的临床重要致病菌毒力基因检测的系统,包括以下组成部分:
临床致病菌毒力基因数据库;
重要毒力基因-毒力因子-表征关联数据库;
宏基因组测序数据多重比对注释系统;
临床自动化报告系统;
所述系统采用如权利要求1所述的方法进行检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579642.1A CN113223618B (zh) | 2021-05-26 | 2021-05-26 | 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110579642.1A CN113223618B (zh) | 2021-05-26 | 2021-05-26 | 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223618A CN113223618A (zh) | 2021-08-06 |
CN113223618B true CN113223618B (zh) | 2022-09-16 |
Family
ID=77099541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110579642.1A Active CN113223618B (zh) | 2021-05-26 | 2021-05-26 | 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223618B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113782100B (zh) * | 2021-11-10 | 2022-02-18 | 中国人民解放军军事科学院军事医学研究院 | 一种基于细菌基因组高通量测序数据鉴定细菌种群携带的质粒类型的方法 |
CN114038501B (zh) * | 2021-12-21 | 2022-05-27 | 广州金匙医学检验有限公司 | 一种基于机器学习的背景菌判定方法 |
CN114420213B (zh) * | 2021-12-31 | 2024-09-17 | 圣湘生物科技股份有限公司 | 一种生物信息分析方法及装置、电子设备及存储介质 |
CN114574606B (zh) * | 2022-04-02 | 2023-04-28 | 予果生物科技(北京)有限公司 | 检测宏基因组中结核分枝杆菌的引物组及高通量测序方法 |
CN115985400B (zh) * | 2022-12-02 | 2024-03-15 | 江苏先声医疗器械有限公司 | 一种宏基因组多重比对序列重分配的方法及应用 |
CN118086518A (zh) * | 2024-02-26 | 2024-05-28 | 浙江大学 | 一种基于毒力基因的环境病原菌高通量识别及定量方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542214A (zh) * | 2020-12-18 | 2021-03-23 | 昆明金域医学检验所有限公司 | 基于病原微生物宏基因组的多种菌群间Granger因果分析方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101680872B (zh) * | 2007-04-13 | 2015-05-13 | 塞昆纳姆股份有限公司 | 序列比较分析方法和系统 |
US8478544B2 (en) * | 2007-11-21 | 2013-07-02 | Cosmosid Inc. | Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods |
WO2013090620A1 (en) * | 2011-12-13 | 2013-06-20 | Genomedx Biosciences, Inc. | Cancer diagnostics using non-coding transcripts |
US10190169B2 (en) * | 2013-06-20 | 2019-01-29 | Immunexpress Pty Ltd | Biomarker identification |
EP3141612A1 (en) * | 2015-09-10 | 2017-03-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and device for nucleic acid based diagnostic approaches including the determination of a deviant condtion, especially a health condition and/or pathogenic condition of a sample |
CN105950732B (zh) * | 2016-05-25 | 2019-12-13 | 中国农业大学 | 动物源食品致病菌鉴定及其耐药和毒力基因检测复合芯片 |
WO2018069430A1 (en) * | 2016-10-13 | 2018-04-19 | bioMérieux | Identification and antibiotic characterization of pathogens in metagenomic sample |
CN110462053A (zh) * | 2016-12-21 | 2019-11-15 | 加利福尼亚大学董事会 | 使用基于水凝胶的液滴进行单细胞基因组测序 |
CN107391965A (zh) * | 2017-08-15 | 2017-11-24 | 上海派森诺生物科技股份有限公司 | 一种基于高通量测序技术的肺癌体细胞突变检测分析方法 |
CN110349630B (zh) * | 2019-06-21 | 2023-03-14 | 深圳华大因源医药科技有限公司 | 血液宏基因组测序数据的分析方法、装置及其应用 |
CN111192630B (zh) * | 2019-12-24 | 2023-10-13 | 中国科学院生态环境研究中心 | 一种宏基因组数据挖掘方法 |
CN111276185B (zh) * | 2020-02-18 | 2023-11-03 | 上海桑格信息技术有限公司 | 一种基于二代高通量测序的微生物鉴定分析系统及装置 |
CN111187813B (zh) * | 2020-02-20 | 2020-12-04 | 予果生物科技(北京)有限公司 | 全流程质控的病原微生物高通量测序检测方法 |
CN111445955B (zh) * | 2020-04-10 | 2021-09-10 | 广州微远医疗器械有限公司 | 新型冠状病毒变异分析方法及应用 |
CN111491023B (zh) * | 2020-04-10 | 2021-10-26 | 西咸新区予果微码生物科技有限公司 | 一种基于crispr技术的微生物检测系统 |
CN112530519B (zh) * | 2020-12-14 | 2021-08-24 | 广东美格基因科技有限公司 | 一种检测样本中微生物和耐药基因的方法和系统 |
CN112837745B (zh) * | 2021-01-15 | 2023-11-21 | 广州微远基因科技有限公司 | 病原微生物毒力基因关联模型及其建立方法和应用 |
CN112687344B (zh) * | 2021-01-21 | 2021-09-10 | 予果生物科技(北京)有限公司 | 一种基于宏基因组的人腺病毒分子分型和溯源方法及系统 |
-
2021
- 2021-05-26 CN CN202110579642.1A patent/CN113223618B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112542214A (zh) * | 2020-12-18 | 2021-03-23 | 昆明金域医学检验所有限公司 | 基于病原微生物宏基因组的多种菌群间Granger因果分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113223618A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113223618B (zh) | 基于宏基因组的临床重要致病菌毒力基因检测的方法及系统 | |
Wu et al. | Guild-based analysis for understanding gut microbiome in human health and diseases | |
Okura et al. | Current taxonomical situation of Streptococcus suis | |
Gong et al. | Advances in the methods for studying gut microbiota and their relevance to the research of dietary fiber functions | |
Links et al. | The chaperonin-60 universal target is a barcode for bacteria that enables de novo assembly of metagenomic sequence data | |
CN111378788B (zh) | 辅助covid-19诊断的菌种标志物及其应用 | |
Suttisunhakul et al. | Matrix-assisted laser desorption/ionization time-of-flight mass spectrometry for the identification of Burkholderia pseudomallei from Asia and Australia and differentiation between Burkholderia species | |
CN114898800B (zh) | 一种预测肺炎克雷伯菌对头孢曲松敏感性的方法及系统 | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
Be et al. | Detection of Bacillus anthracis DNA in complex soil and air samples using next-generation sequencing | |
CN110283903A (zh) | 用于诊断胰腺炎的肠道微生物菌群 | |
CN108064272A (zh) | 用于类风湿性关节炎的生物标记物及其用途 | |
Imai et al. | Rapid and accurate species identification of mitis group streptococci using the MinION nanopore sequencer | |
JP2023501538A (ja) | 感染の宿主rnaバイオマーカーの同定 | |
Torres-Morales et al. | Site-specialization of human oral Gemella species | |
Ojha et al. | Examination of animal and zoonotic pathogens using microarrays | |
CN113684242A (zh) | 一种基于淋巴结微生物菌群的头颈癌预后生物标志物及其应用 | |
Karthik et al. | Comparative phylogenomics of Trueperella pyogenes reveals host-based distinction of strains | |
Loy et al. | From Genomics to MALDI‐TOF MS: Diagnostic Identification and Typing of Bacteria in Veterinary Clinical Laboratories | |
CN113862382A (zh) | 肠道菌群的生物标志物在制备诊断成人免疫性血小板减少症的产品中的应用 | |
CN109652573A (zh) | 用于鼠伤寒沙门菌或其单相菌变种分型检测的vntr位点、检测引物组及检测分析方法 | |
CN115058524B (zh) | 一种用于鉴别人苍白杆菌的引物、探针组合及检测试剂盒 | |
Xu et al. | Application of Next Generation Sequencing in identifying different pathogens | |
CN114045353B (zh) | 与诺如病毒感染性腹泻相关的微生物标志物及其用途 | |
US20240011105A1 (en) | Analysis of microbial fragments in plasma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |