CN119452420A - 确定和去除簇间光干扰 - Google Patents
确定和去除簇间光干扰 Download PDFInfo
- Publication number
- CN119452420A CN119452420A CN202480003115.8A CN202480003115A CN119452420A CN 119452420 A CN119452420 A CN 119452420A CN 202480003115 A CN202480003115 A CN 202480003115A CN 119452420 A CN119452420 A CN 119452420A
- Authority
- CN
- China
- Prior art keywords
- cluster
- intensity values
- oligonucleotides
- determining
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims description 28
- 108091034117 Oligonucleotide Proteins 0.000 claims abstract description 382
- 238000000034 method Methods 0.000 claims abstract description 77
- 238000001514 detection method Methods 0.000 claims description 376
- 238000012163 sequencing technique Methods 0.000 claims description 222
- 125000003729 nucleotide group Chemical group 0.000 claims description 181
- 239000002773 nucleotide Substances 0.000 claims description 179
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims description 170
- 238000005286 illumination Methods 0.000 claims description 134
- 239000000523 sample Substances 0.000 description 85
- 150000007523 nucleic acids Chemical group 0.000 description 72
- 102000039446 nucleic acids Human genes 0.000 description 68
- 108020004707 nucleic acids Proteins 0.000 description 68
- 230000004044 response Effects 0.000 description 32
- 108020004414 DNA Proteins 0.000 description 25
- 102000053602 DNA Human genes 0.000 description 25
- 230000006870 function Effects 0.000 description 24
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 18
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 16
- 238000003860 storage Methods 0.000 description 15
- 229920000642 polymer Polymers 0.000 description 14
- 229930024421 Adenine Natural products 0.000 description 13
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 13
- 230000009471 action Effects 0.000 description 13
- 229960000643 adenine Drugs 0.000 description 13
- 238000010348 incorporation Methods 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 12
- 239000000178 monomer Substances 0.000 description 11
- 239000003153 chemical reaction reagent Substances 0.000 description 9
- 229940104302 cytosine Drugs 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000003321 amplification Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 239000000975 dye Substances 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 229940113082 thymine Drugs 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000012175 pyrosequencing Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- ZKHQWZAMYRWXGA-KQYNXXCUSA-J ATP(4-) Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)[C@H]1O ZKHQWZAMYRWXGA-KQYNXXCUSA-J 0.000 description 4
- ZKHQWZAMYRWXGA-UHFFFAOYSA-N Adenosine triphosphate Natural products C1=NC=2C(N)=NC=NC=2N1C1OC(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)C(O)C1O ZKHQWZAMYRWXGA-UHFFFAOYSA-N 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000001712 DNA sequencing Methods 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 235000011180 diphosphates Nutrition 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 239000000758 substrate Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- HRNLTDFVEVHLFF-UHFFFAOYSA-N 5-hydroxy-8-(8-hydroxy-2,2-dimethylchromen-6-yl)-2,2-dimethyl-10-(3-methylbut-2-enyl)-7,8-dihydropyrano[3,2-g]chromen-6-one Chemical compound O1C(C)(C)C=CC2=CC(C3OC4=C(C=5OC(C)(C)C=CC=5C(O)=C4C(=O)C3)CC=C(C)C)=CC(O)=C21 HRNLTDFVEVHLFF-UHFFFAOYSA-N 0.000 description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- KDLHZDBZIXYQEI-UHFFFAOYSA-N Palladium Chemical compound [Pd] KDLHZDBZIXYQEI-UHFFFAOYSA-N 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008774 maternal effect Effects 0.000 description 2
- 230000005257 nucleotidylation Effects 0.000 description 2
- 239000010452 phosphate Substances 0.000 description 2
- 210000002381 plasma Anatomy 0.000 description 2
- 239000011148 porous material Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 125000003903 2-propenyl group Chemical group [H]C([*])([H])C([H])=C([H])[H] 0.000 description 1
- 101710092462 Alpha-hemolysin Proteins 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 108020000946 Bacterial DNA Proteins 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 230000010777 Disulfide Reduction Effects 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241001536374 Indicator indicator Species 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 235000014548 Rubus moluccanus Nutrition 0.000 description 1
- 102000004523 Sulfate Adenylyltransferase Human genes 0.000 description 1
- 108010022348 Sulfate adenylyltransferase Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000023445 activated T cell autonomous cell death Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011888 autopsy Methods 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 1
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 1
- RGWHQCVHVJXOKC-SHYZEUOFSA-J dCTP(4-) Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-J 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 239000005546 dideoxynucleotide Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 238000011842 forensic investigation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000000370 laser capture micro-dissection Methods 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 239000002086 nanomaterial Substances 0.000 description 1
- 229910052763 palladium Inorganic materials 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002161 passivation Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 229920013655 poly(bisphenol-A sulfone) Polymers 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000012521 purified sample Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 125000000548 ribosyl group Chemical group C1([C@H](O)[C@H](O)[C@H](O1)CO)* 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Data Mining & Analysis (AREA)
- Immunology (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本公开描述了方法、系统和非暂态计算机可读介质的实施方案,其准确地估计从寡核苷酸相邻簇加到寡核苷酸目标簇上的串扰,并且从寡核苷酸目标簇去除或减去由寡核苷酸相邻簇发射的串扰。例如,本发明所公开的系统能够检测目标簇和相邻簇的强度值。基于相邻簇的强度值,本发明所公开的系统能够确定估计从相邻簇发射的串扰的簇间干扰量度。本发明所公开的系统能够从目标簇的强度值中去除簇间干扰量度,并且生成目标簇的经修改强度值。
Description
优先权申请
本申请要求2023年2月6日提交的名称为“DETERMINING AND REMOVING INTER-CLUSTER LIGHT INTERFERENCE”的美国临时申请63/483,428号的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已改进了用于确定样品中核苷酸碱基(也称为“核碱基”)序列的硬件和软件平台。例如,一些现有测序机和测序数据分析软件(统称为“现有测序系统”)通过使用常规桑格(Sanger)测序或通过使用边合成边测序(SBS)来确定核酸序列的单独核苷酸碱基。当使用SBS时,现有测序系统可以监测并行合成的数千、数万或更多核酸聚合物,以检测更准确的核苷酸碱基检出。例如,SBS平台中的相机可以捕获来自掺入此类合成核酸序列(通常分组成簇)中的核苷酸碱基的经照射荧光标签的图像。在捕获这些图像之后,来自现有系统的计算设备使用测序数据分析软件基于图像数据中捕获的光信号来确定在给定图像中检测到的核苷酸碱基。通过反复地将核苷酸碱基掺入寡核苷酸中并且在各种测序循环中捕获所发射光信号的图像,现有测序系统可以确定样品中存在的核苷酸碱基序列。
为了增加样品通量和效率,现有测序系统已在流动池的孔内或在其他核苷酸样品载玻片上将多个寡核苷酸簇越来越紧密地聚集在一起。随着簇密度增加,来自一个簇的荧光响应(例如,信号)更有可能由于引起簇之间的重叠信号而干扰邻近簇的荧光响应(或无响应)。此类重叠信号和光干扰通常称为空间串扰。现有测序系统试图通过减少对各种部件的光干扰并且实施计算模型来减少干扰信号,这些计算模型估计来自簇信号的干扰响应(例如,直流偏移、噪声电平和/或点扩散函数)并将其解聚。遗憾的是,簇之间的密度增加和光干扰增加使得估计给定簇或核苷酸样品载玻片区段的点扩散函数(PSF)更加困难。
由于核苷酸样品载玻片携带更密集包装的簇,所以测序设备连同其他强度检测系统更有可能错误地确定簇被照明(而不是未被照明),原因是来自邻近簇的空间串扰。串扰增加,连同幅值和背景噪声的变化,降低了基于来自特定簇的信号的核碱基检出的准确性。例如,来自多个邻近簇的串扰增加可能照明给定通道的图像内的给定簇。现有测序系统内的这种间接照明可能导致碱基检出算法在给定的循环期间为掺入一个簇的寡核苷酸的核碱基确定不正确的核碱基检出(例如,腺嘌呤),而不是正确的核碱基检出(例如,鸟嘌呤)。
因为现有测序系统对核碱基检出的准确性施加了限制,所以一些现有系统保持了簇之间的距离,因此限制了测序设备的样品通量和簇通量。如上文所指出,当现有测序系统增加流动池或其他核苷酸样品载玻片上的簇密度时,成像质量与核碱基检出的准确性下降,导致数据输出降低。为了维持成像质量和相对准确的核碱基检出,一些现有测序系统对核苷酸样品载玻片上的簇的数量和密度作出了限制。通过避免成簇过度(例如,在流动池上放置过多的簇)和/或成簇不足(例如,在流动池上放置较少的簇),现有系统将核苷酸测序限制为流动池上狭窄范围的簇密度,因而降低了数据产量。
这些问题和难题,连同附加的问题和难题存在于当前的测序系统中。
发明内容
本公开描述了方法、非暂态计算机可读介质和系统的实施方案,其可以估计寡核苷酸邻近簇对寡核苷酸目标簇(“目标簇”)的串扰,并且在确定目标簇的经修改信号时,从由目标簇发射的信号中去除或减去该串扰。例如,本发明所公开的系统可以检测添加有标记核苷酸碱基的各种寡核苷酸簇的强度值。基于不同簇集合的强度值,本发明所公开的系统可以确定与目标簇相邻的一个或多个簇的照明指示标识。根据照明指示标识和/或关于寡核苷酸相邻簇(“相邻簇”)的其他数据,本发明所公开的系统确定簇间干扰量度,该量度估计相邻簇对目标簇的光干扰。本发明所公开的系统可以进一步从目标簇的强度值中去除簇间干扰量度。
本发明所公开的系统可以将此类与簇相关联的簇间干扰量度用于下文进一步描述的多种碱基检出应用。例如,本发明所公开的系统可以通过(i)在确定目标簇信号的强度值时从目标簇的强度值中去除邻近簇的串扰,以及(ii)确定目标簇的核碱基检出,来更准确地确定给定测序循环的簇信号及其对应的核碱基检出。为了提高核碱基检出的准确性和效率,在一些情况下,本发明所公开的系统基于相应簇的强度值范围反复地确定簇相邻子集的串扰并将其从簇目标子集中去除或减去。
本公开的一个或多个实施方案的附加的特征和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
具体实施方式将通过使用附图来描述具有附加特异性和细节的各种实施方案,这些附图汇总如下。
图1展示了根据本公开的一个或多个实施方案的串扰感知碱基检出系统可以在其中工作的环境。
图2展示了根据本公开的一个或多个实施方案的串扰感知碱基检出系统的概略图,该系统通过确定簇间干扰量度并将其从目标簇的强度值中去除,来生成目标簇的经修改强度值。
图3展示了根据本公开的一个或多个实施方案,证明随着寡核苷酸簇之间的距离缩小,寡核苷酸簇之间的光干扰增加的示意图。
图4展示了根据本公开的一个或多个实施方案的基于不同通道中的荧光响应来确定照明指示标识的串扰感知碱基检出系统。
图5A至图5B展示了根据一个或多个实施方案的串扰感知碱基检出系统,其利用线性均衡器系统并且通过确定来自相邻簇的核碱基检出和照明指示标识、目标簇的信号模型和簇间干扰量度来生成目标簇的经修改强度值。
图6展示了根据本公开的一个或多个实施方案的来自寡核苷酸簇的信号强度值的估计点扩散函数。
图7A至图7C展示了根据本公开的一个或多个实施方案的寡核苷酸簇之间的光干扰效果,以及去除某些寡核苷酸簇的光干扰的效果。
图8A至图8B展示了根据本公开的一个或多个实施方案的具有来自寡核苷酸相邻簇的光干扰和没有来自寡核苷酸相邻簇的光干扰的寡核苷酸簇的强度值的柱状图。
图9展示了根据本公开的一个或多个实施方案的使用簇间干扰量度生成寡核苷酸簇的经修改强度值集合的一系列动作。
图10展示了根据本公开的一个或多个实施方案的示例计算设备的框图。
具体实施方式
本公开描述了串扰感知碱基检出系统的一个或多个实施方案,该系统确定表示一个寡核苷酸簇对目标寡核苷酸簇的光干扰的簇间干扰量度,并且基于该簇间干扰量度生成目标簇的经修改强度值。通过确定簇间干扰量度并将其去除,串扰感知碱基检出系统将簇之间的光干扰解聚。为了基于这样的簇间干扰量度来检测和解聚光,在一些具体实施中,串扰感知碱基检出系统针对给定的测序循环确定来自寡核苷酸目标簇和寡核苷酸相邻簇的信号的强度值。基于相邻簇的强度值,串扰感知碱基检出系统确定表示相邻簇在给定的测序循环期间是否被照明的照明指示标识。基于这些照明指示标识,串扰感知碱基检出系统确定估计相邻簇对目标簇的光干扰的簇间干扰量度。串扰感知碱基检出系统可以进一步从目标簇信号的强度值中扣除(或者说去除)簇间干扰量度,以创建目标簇的经修改强度值。
如上文所提出,在一个或多个实施方案中,串扰感知碱基检出系统在给定的测序循环中检测由目标簇和相邻簇发射的信号的强度值(例如,波长和/或亮度值)。例如,在一些情况下,串扰感知碱基检出系统在给定的测序循环中从样品核苷酸载玻片上的每个簇(包括成为目标簇和相邻簇的那些簇)发射的信号检测强度值。在某些实施方案中,具有较高强度值的簇相对较亮,而具有较低强度值的簇相对较暗。在一些情况下,串扰感知碱基检出系统利用较亮簇的数据来确定较亮簇对较暗簇的串扰。
例如,基于检测到的强度值,串扰感知碱基检出系统可以确定簇子集(包括目标簇的相邻簇)的照明指示标识子集。具体地讲,串扰感知碱基检出系统确定簇子集(例如,掺入腺嘌呤的较亮簇子集)的核碱基检出,然后根据这些核碱基检出确定该簇子集的照明指示标识。此类照明指示标识识别在测序循环期间,给定簇在给定通道(例如,两个或四个通道)中是否被照明或是否发射荧光响应,并且连同其他给定通道中的荧光响应一起形成用于确定核碱基检出的数据。在一些情况下,照明指示标识一起表示簇在多个通道中的照明情况,诸如指示给定簇在给定的测序循环期间是否在第一通道中被照明的第一照明指示标识,以及指示给定簇在给定的测序循环期间是否在第二通道中被照明的第二照明指示标识。相比之下,在一些情况下,照明指示标识可以是连续的照明指示标识,其指示给定簇在给定通道中被照明的程度。
如先前所提出,基于此类照明指示标识,串扰感知碱基检出系统确定簇间干扰量度(例如,串扰量度)。如上文所提及,在一些情况下,串扰指示相邻簇的信号(例如,亮度)如何干扰、操纵和/或改变目标簇的信号。具体地讲,在一个或多个实施方案中,簇间干扰量度估计来自相邻簇的光干扰或修改来自目标簇的光的程度或范围。在一些情况下,串扰感知碱基检出系统可以确定多个簇间干扰量度,其中每个簇间干扰量度估计给定相邻簇对目标簇的光干扰。
在确定簇间干扰量度之后,串扰感知碱基检出系统可以利用该簇间干扰量度来生成由簇在测序循环期间发射的信号的经修改强度值。通过利用这样的量度,串扰感知碱基检出系统可以确定簇间串扰的量,然后将该串扰从目标簇中去除或减去。为了举例说明,在一个或多个实施方案中,在测序循环期间,目标簇可能具有相对较暗(例如,较低强度)的信号,而邻近簇可能具有相对较亮(例如,较高强度)的信号。但是,邻近簇信号的亮度可能增加目标簇信号的亮度(例如,强度),使得难以确定该簇在测序循环期间是否在给定通道中发射特定频率(例如,频带或光谱带)的光强度。在一些实施方案中,串扰感知碱基检出系统可以基于照明指示标识和关于相邻簇的其他数据来确定簇间干扰量度。基于簇间干扰量度,串扰感知碱基检出系统可以从目标簇信号中消除从较亮相邻簇的信号发射的光(或者减小这种光的影响)。因此,在一些实施方案中,串扰感知碱基检出系统可以基于簇间干扰量度在测序循环期间更准确地确定两个通道中或每个相关通道中的目标簇强度值,这使得目标簇的核碱基检出更准确。
为了提高效率和准确性,在一些情况下,串扰感知碱基检出系统遵循特定次序来确定核碱基检出并去除簇的串扰。例如,串扰感知碱基检出系统可以:(i)识别并确定发射最高强度值范围内的信号的寡核苷酸簇最亮子集(例如,最亮的前10%)的核碱基检出,以及(ii)进一步确定估计寡核苷酸簇最亮子集对发射第二强度值范围内的信号的寡核苷酸簇下一最亮子集(例如,最亮的前20%至30%)的光干扰的簇间干扰量度。如下文进一步解释,串扰感知碱基检出系统可以同样地基于附加强度值范围执行确定串扰的进一步反复操作。作为根据强度值范围按次序进行核碱基检出和去除串扰的替代方案,在一些实施方案中,串扰感知碱基检出系统可以使用信噪比(SNR)量度来按次序针对簇进行核碱基检出和串扰去除。
串扰感知碱基检出系统提供了优于常规测序平台的几个优点。具体地讲,串扰感知碱基检出系统可以将包括簇信号强度和来自其他来源的噪声的光强度解聚,提高核碱基检出的准确性,并且增加测序循环期间流动池或核苷酸样品载玻片的效率。如所提及的,串扰感知碱基检出系统可以从目标簇接收具有未修改强度值的信号,其中来自目标簇的信号的未修改强度值包括来自目标簇的信号、来自相邻簇的串扰(例如,噪声),以及其他来源的噪声(例如,背景噪声或强度波动)。串扰感知碱基检出系统可以将由目标信号和噪声组成的光强度解聚。具体地讲,串扰感知碱基检出系统可以确定簇间干扰量度,该量度估计相邻簇对目标簇的光干扰。簇间干扰量度估计相邻簇的来自复合成分(例如,背景噪声、目标簇信号的强度值、串扰)的串扰(例如,干扰光)。一旦估计出该串扰,串扰感知碱基检出系统就可以通过从目标簇的信号中去除簇间干扰量度来去除或减去该串扰。虽然现有测序系统经常不能基于背景噪声、串扰和/或幅值的变化来确定目标簇是否正在发射信号,但是簇间干扰量度允许串扰感知碱基检出系统准确地将串扰从背景噪声和/或幅值中解聚出来。与现有测序系统不同,在一个或多个实施方案中,在确定串扰的程度和来源之后,串扰感知碱基检出系统可以从受影响簇的信号中去除该串扰。通过从目标簇的信号中去除簇间干扰量度,串扰感知碱基检出系统可以生成目标簇的经修改信号。因此,通过从目标簇的信号中去除串扰并且生成目标簇的更准确信号,串扰感知碱基检出系统可以更准确且更可信地确定目标簇的核碱基检出。
除检测和解聚由噪声和光组成的信号的一部分之外,串扰感知碱基检出系统还提高了核碱基检出的准确性。具体地讲,串扰感知碱基检出系统可以确定估计相邻簇对目标簇的光干扰的簇间干扰量度,并且从目标簇信号的强度值中去除该簇间干扰量度。所得的经修改强度值表示目标簇的更准确和/或更纯净的信号。基于该更准确或更纯净的簇信号,串扰感知碱基检出系统同样可以确定目标簇的更准确或更可信的核碱基检出-没有串扰干扰或只有极小串扰干扰确定这些核碱基检出的信号。例如,串扰感知碱基检出系统可以确定目标簇的经修改强度值落入一个核碱基而不是另一个核碱基的强度值边界内,或者提高只有低质量分数的核碱基检出的置信度分数(例如,QU AL分数)。
除改进核苷酸碱基检出并且将串扰从簇信号解聚之外,串扰感知碱基检出系统还提高了测序系统执行核苷酸测序的效率。通过确定和去除簇间干扰量度以及改善目标簇的信号,串扰感知碱基检出系统有助于在核苷酸样品载玻片上将簇分为更密集的组。与现有测序系统中受到更多限制且分为密集度较低的组的簇不同,串扰感知碱基检出系统引入了一种模型,该模型去除或减去串扰,并且促进测序设备上出现更密集分组的簇和更高的通量。因此,通过确定和去除簇间干扰量度,与不能有效调整密集分组的簇的串扰的现有测序系统相比,串扰感知碱基检出系统能够以提高的准确度对更多基因组样品的核苷酸序列进行测序。
如前述讨论所展示,本公开利用多种术语来描述串扰感知碱基检出系统的特征和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“核苷酸样品载玻片”是指包括用于对样品的核苷酸片段进行测序的寡核苷酸的板或载玻片。具体地,核苷酸样本载玻片可以是指含有流体通道的载玻片,试剂和缓冲液可作为测序的一部分通过该流体通道行进。例如,在一个或多个实施方案中,核苷酸样品载玻片包括流通池(例如,图案化流通池或未图案化流通池),该流通池包括小流体通道和与接头序列互补的短寡核苷酸。
相关地,如本文所用,术语“核苷酸样品载玻片的区段”(或“核苷酸样品载玻片区段”)是指作为核苷酸样品载玻片的一部分的区域。具体地讲,核苷酸样品载玻片区段可以指代核苷酸样品载玻片的离散部分,该离散部分不同于核苷酸样品载玻片的其他部分。例如,核苷酸样品载玻片区段可以包括图案化流动池的孔(例如,纳米孔),或非图案化流动池的离散子区段(例如,对应于簇的子区段)。在一些情况下,核苷酸样品载玻片区段包括具有并行生长的相同或相似寡核苷酸簇的块(tile)或子块。
另外,如本文所用,术语“标记的核苷酸碱基”是指具有核苷酸碱基分类的基于荧光或光的指示标识或者荧光染料指示标识的核苷酸碱基。具体地讲,标记的核苷酸碱基可以指代掺入基于荧光或光的指示标识或者荧光染料指示标识以识别碱基类型(例如,腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤)的核苷酸碱基。例如,在一个或多个实施方案中,标记的核苷酸碱基包括具有以下荧光标签的核苷酸碱基:该荧光标签自身或与另一荧光标签一起发射标识碱基类型的信号。因此,核苷酸碱基可以通过一起指示核碱基类型(例如,“接通”/“接通”照明指示标识)的染料混合物(或荧光标签混合物)来识别。基于由寡核苷酸簇中的标记核苷酸碱基发射的信号的强度值,诸如16正交幅度调制(QAM)或脉冲幅度调制(PAM)4格式的信号,在串扰感知碱基检出系统的某些实施方案中可以确定碱基的类型(例如,腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤)。
此外,如本文所用,术语“寡核苷酸簇”是指含有结合到流动池表面的几个相同脱氧核糖核酸(DNA)片段的分组。例如,在一些实施方案中,寡核苷酸簇可以由已通过桥扩增被克隆扩增的模板DNA链组成。
此外,如本文所用,术语“信号”是指从标记的核苷酸碱基或一组标记的核苷酸碱基(例如,添加到寡核苷酸簇的标记的核苷酸碱基)发射、反射或以其他方式传递的信号。具体地,信号可以是指指示碱基类型的信号。例如,信号可以包括从核苷酸碱基的荧光标签或掺入寡核苷酸中的多个核苷酸碱基的荧光标签发射或反射的光信号。如上文所指出,掺入簇中的核碱基可以(响应于激光)同样发射信号,该信号可以被识别为一起指示核碱基类型(例如,具有“接通”/“接通”照明指示标识的簇)的染料混合物(或荧光标签混合物)。在一些具体实施中,串扰感知碱基检出系统通过外部刺激(诸如激光或其他光源)来触发信号。在一些情况下,串扰感知碱基检出系统通过一些内部刺激来触发信号。另外,在一些实施方案中,串扰感知碱基检出系统使用在捕获核苷酸样品载玻片(例如,核苷酸样品载玻片区段)的图像时应用的滤波器来观察信号。如上文所建议,在某些情况下,信号包括由添加到寡核苷酸簇中的各个寡核苷酸的每个标记的核苷酸碱基提供的信号的聚集。
如本文所用,术语“强度值”是指指示从标记的核苷酸碱基或来自寡核苷酸簇的一组标记的核苷酸碱基发射、反射或以其他方式传递的信号的特性或属性的值。具体地,强度值可以是指与颜色强度(例如,波长)或光强度(例如,亮度)相关联的值。在一些情况下,串扰感知碱基检出系统使用不同的滤波器(或强度通道)来捕获具有标记的核苷酸碱基的寡核苷酸簇的若干图像。因此,信号的强度值可以对应于通过特定过滤器观察到的信号的强度。
如本文所用,术语“照明指示标识”是指在测序循环期间寡核苷酸簇是否被特定频带的光强度照明或发射特定频带的光强度的指示标识。具体地讲,照明指示标识表示寡核苷酸簇是否(或以下各项的程度):(i)包含发射特定频率(例如,频带)的特定光强度的标记核苷酸以被照明(例如,接通或激活),或者(ii)不包含使得其在测序期间不被强度通道中的特定频率(例如,频带)的特定光强度照明(例如,断开或非激活)的标记核苷酸碱基。在一些情况下,照明指示标识可以采用成对格式。例如,如果寡核苷酸簇掺入具有荧光标签或其他标记的核碱基,这些荧光标签或其他标记(响应于光或激光)在测序循环期间在通道中照射或发射特定频率(例如,频带)的光强度,则照明指示标识的“接通”或“照明”状态可以由1表示。相反,如果寡核苷酸簇没有掺入(或只掺入很少)具有荧光标签或其他标记的核碱基,这些荧光标签或其他标记(响应于光或激光)在测序循环期间在通道中照射或发射特定频率(例如,频带)的光强度,则照明指示标识的“断开”或“未被照明”状态可以由0表示。为了举例说明,[1,1]可以指示寡核苷酸簇在两个不同通道中被照明的照明指示标识。虽然说明书和附图描绘了不同通道(例如,两个通道或四个通道)中的照明指示标识,但是串扰感知碱基检出系统可以在此类不同的通道中同时检测来自簇的信号。
相比之下,如果寡核苷酸多克隆簇掺入具有不同荧光标签或其他标记的核碱基,这些不同荧光标签或其他标记(响应于光或激光)在测序循环期间在给定通道中照射或发射不同光谱带内的光,则照明指示标识的状态将不是完全“接通”或“断开”(或不是完全“被照明”或“未被照明”)。在一些情况下,基于不同类型核碱基的强度值边界,来自寡核苷酸多克隆簇的这种混合信号被滤除并丢弃。
虽然本公开频繁使用“接通”或“断开”(或对应的“1”或“0”)形式的照明指示标识,但是照明指示标识可以是通道特有的,并且不被设计成指示背景噪声或其他光存在或不存在。因此,“断开”或“0”指示标识并不指示不存在光,而是估计特定簇没有掺入(或只掺入很少)具有荧光标签或另一标记的核碱基,该荧光标签或另一标记(响应于光或激光)在测序循环期间在特定通道中照射或发射特定频率(例如,频带)的光强度。因此,照明指示标识可以采取其他格式。作为成对格式的替代方案,在一些实施方案中,照明指示标识可以是连续的,其表示给定簇在测序循环期间被照明的程度。例如,这样的连续照明指示标识可以采取量度或分数(例如,介于0与1之间)的形式,指示簇在测序循环期间被掺入该簇中的特定类型核苷酸发射的光照明的程度。
另外,如本文所用,术语“簇间干扰量度”是指来自一个寡核苷酸簇的光干扰或修改来自另一个寡核苷酸簇的光的量度或定量。具体地讲,簇间干扰量度可以指代来自一个寡核苷酸簇的光信号对另一寡核苷酸簇的干扰的程度、量和/或范围。
如本文所用,术语“核苷酸碱基检出”是指确定或预测测序循环期间寡核苷酸(例如,核苷酸读段)或样品基因组的基因组坐标的特定核碱基(或核碱基对)。具体地讲,核碱基检出可以指示已掺入核苷酸样品载玻片上的寡核苷酸内的核碱基类型的确定或预测结果(例如,基于读段的核碱基检出)。在一些情况下,对于核苷酸读段,核碱基检出包括基于由被添加到核苷酸样品载玻片(例如,流通池的簇中)的寡核苷酸的带荧光标签的核苷酸产生的强度值来确定或预测核碱基。如上文所提出,单个核碱基检出可以是腺嘌呤(A)检出、胞嘧啶(C)检出、鸟嘌呤(G)检出、胸腺嘧啶(T)检出或尿嘧啶(U)检出。
附加地,如本文所用,术语“测序循环”(或“循环”)是指将核苷酸碱基添加到或掺入寡核苷酸的反复或将核苷酸碱基并行添加到或掺入寡核苷酸的反复。具体地,循环可以包括反复采集并分析一个或多个图像,该一个或多个图像具有指示被添加或掺入到一个寡核苷酸中或并行添加或掺入到多个寡核苷酸的各个核苷酸碱基的数据。因此,循环可被重复作为核酸聚合物测序的一部分。例如,在一个或多个实施方案中,每个测序循环涉及其中仅以单一方向读取DNA或RNA链的单个读段或者其中从两个末端读取DNA或RNA链的双端读段。此外,在某些情况下,每个测序循环涉及相机拍摄核苷酸样品载玻片或核苷酸样品载玻片的多个部分的图像,以生成用于确定添加或掺入特定寡核苷酸中的特定核碱基的图像数据。在图像捕获阶段之后,测序系统可以从掺入的核苷酸碱基中移除某些荧光标记,并且执行另一测序循环,直到核酸聚合物已经被完全测序。在一个或多个实施方案中,测序循环包括边合成边测序(SBS)运行内的循环。
附加地,如本文所用,术语“核苷酸碱基检出数据”是指指示核酸聚合物的各个核苷酸碱基或核苷酸碱基的序列的数字文件、图像数据或其他数字信息。具体地,核苷酸碱基检出数据可以包括来自核苷酸样品载玻片的由相机拍摄的图像的强度值(例如,各个簇的颜色或光强度值)或指示核酸聚合物的各个核苷酸碱基或核苷酸碱基的序列的其他数据。作为强度值的补充或替代,核苷酸碱基检出数据可以包括指示序列中的各个核碱基的色谱峰或电流变化。附加地,在一些实施方案中,核苷酸碱基检出数据包括识别各个核苷酸碱基(例如,A、T、C或G)的各个核苷酸碱基检出。例如,核苷酸碱基检出数据可以包括核酸聚合物序列中核苷酸碱基检出的数据,核苷酸碱基检出的数目对应于特定碱基(例如腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤),如在数字文件(诸如二元碱基检出(BCL)文件)中组织的。此外,核苷酸碱基检出数据可以包括误差/准确性信息,诸如与每个核苷酸碱基检出相关联的质量度量。在一些实施方案中,核苷酸碱基检出数据包括来自利用边合成边测序(SBS)的测序设备的信息。
现在将结合描绘串扰感知碱基检出系统的示例实施方案和具体实施的说明性附图提供关于串扰感知碱基检出系统的附加细节。例如,图1展示了其中串扰感知碱基检出系统106根据一个或多个实施方案来工作的系统环境(或“环境”)100的示意图。如所示,环境100包括经由网络112连接到用户客户端设备108和测序设备114的一个或多个服务器设备102。虽然图1示出了串扰感知碱基检出系统106的一个实施方案,但是替代性的实施方案和配置也是可行的。
如图1中进一步所示,服务器设备102、用户客户端设备108和测序设备114经由网络112连接。环境100的每个部件可以经由网络112通信。网络112包括计算设备可在其上通信的任何合适的网络。下文结合图10更详细地讨论示例网络。
如图1中所示,环境100包括测序设备114。测序设备114包括用于测序全基因组或其他核酸聚合物的设备。在一些实施方案中,测序设备114分析样品以利用本文所述的计算机实现的方法和系统在测序设备114上直接或间接地生成数据。在一个或多个实施方案中,测序设备114利用边合成边测序(SBS)以对全基因组或其他核酸聚合物测序。如图所示,在一些实施方案中,测序设备114绕过网络112并且直接与用户客户端设备108通信。
如图1进一步描绘的,环境100包括服务器设备102。服务器设备102可以生成、接收、分析、存储、接收和传输电子数据,诸如用于对核酸聚合物测序的数据。服务器设备102可以接收来自测序设备114的数据。例如,服务器设备102可以收集和/或接收测序数据,包括核苷酸碱基判读数据、质量数据,以及与测序核酸聚合物相关的其他数据。服务器设备102还可与用户客户端设备108通信。具体地讲,服务器设备102可以向用户客户端设备108发送读段数据、核酸聚合物序列、错误数据和其他信息。在一些实施方案中,服务器设备102包括分布式服务器,其中服务器设备102包括跨网络112分布并且位于不同物理位置的许多服务器设备。服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示,服务器设备102可包括测序系统104。一般来讲,测序系统104分析从测序设备114接收的测序数据,以确定全基因组样品或其他核酸聚合物的核苷酸序列。例如,测序系统104可以从测序设备114接收原始数据(例如,核苷酸读段的碱基检出数据)并且确定基因组样品的核酸序列。为了举例说明,测序系统104可以从测序设备114接收核苷酸读段的数据,然后测序系统104从这些核苷酸读段生成基因组样品的变体检出(或其他核碱基检出)。在一些实施方案中,测序系统104确定DNA和/或RNA中核苷酸碱基的序列。
如图1进一步展示,测序设备114包括串扰感知碱基检出系统106。一般来讲,串扰感知碱基检出系统106确定簇间干扰量度,以针对相邻簇对目标簇的估计光干扰修改或校正信号。更具体地讲,在一些实施方案中,串扰感知碱基检出系统106在给定的测序循环中检测目标簇和相邻簇的强度值。串扰感知碱基检出系统106确定相邻簇的核碱基检出和照明指示标识。串扰感知碱基检出系统106进一步确定相邻簇对目标簇的串扰的簇间干扰量度。串扰感知碱基检出系统106进一步通过从目标簇强度值中去除簇间干扰量度来生成目标簇的经修改强度值。
图1中所展示的环境100还包括用户客户端设备108。用户客户端设备108可以生成、存储、接收和发送数字数据。具体地,用户客户端设备108可从测序设备114接收测序数据。此外,用户客户端设备108可以与服务器设备102通信,以接收核苷酸碱基检出、核苷酸序列和变体检出文件。用户客户端设备108可向与用户客户端设备108相关联的用户呈现测序数据。
图1中示出的用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在还有一些其他实施方案中,用户客户端设备108包括移动设备,诸如膝上型电脑、平板电脑、移动电话、智能电话,等等。关于用户客户端设备108的附加细节在下文结合图10进行论述。
如图1进一步所示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是用户客户端设备108上的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序等)。测序应用程序110可以包括以下指令:这些指令(在被执行时)使得用户客户端设备108从串扰感知碱基检出系统106接收或请求数据并且呈现测序数据。此外,测序应用程序110可以包括以下指令:这些指令(在被执行时)使得用户客户端设备108提供基因组样品核苷酸读段的读段堆积或读段比对的可视化图形。
如图1进一步展示,串扰感知碱基检出系统106可以作为测序应用程序110的一部分位于用户客户端设备108上。如图所展示,在一些实施方案中,串扰感知碱基检出系统106由用户客户端设备108(例如,通过完全或部分地位于其上)实施。在还有其他实施方案中,串扰感知碱基检出系统106由环境100的一个或多个其他部件实施。具体地讲,串扰感知碱基检出系统106能够以多种不同的方式跨服务器设备102、用户客户端设备108和测序设备114实施。在一个实例中,串扰感知碱基检出系统106部分地位于测序设备114以及服务器设备102上。具体地讲,串扰感知碱基检出系统106可以确定测序设备114上相邻簇对目标簇的串扰的簇间干扰量度,并且通过作为服务器设备102的一部分去除该簇间干扰量度来修改目标簇的强度值。
尽管图1展示了经由网络112进行通信的环境100的部件,但是在一些实施方案中,环境100的这些部件绕过该网络直接与彼此通信。例如,并且如前所述,用户客户端设备108可直接与测序设备114通信。另外,用户客户端设备108可以绕过网络112直接与串扰感知碱基检出系统106通信。此外,串扰感知碱基检出系统106可以访问容纳在服务器设备102或者环境100中的其他位置上的一个或多个数据库。
以下段落提供有关串扰感知碱基检出系统106的进一步细节。根据一个或多个实施方案,图2描绘了生成簇间干扰量度并且修改目标簇强度值的串扰感知碱基检出系统106的概略图。如图2概略图所示,串扰感知碱基检出系统106执行一系列动作,包括:检测目标簇和相邻簇的强度值的动作202;确定相邻簇的核碱基检出和照明指示标识的动作204;确定相邻簇对目标簇的串扰的簇间干扰量度的动作206;以及通过去除簇间干扰量度来生成目标簇的经修改强度值的动作208。
如刚才提及的,图2展示了检测目标簇和相邻簇的强度值的动作202。在一些实施方案中,串扰感知碱基检出系统106可以通过激光(例如,光)激发和成像来检测目标簇的强度值集合与相邻簇的强度值集合。在测序循环期间,串扰感知碱基检出系统106可以将具有指定波长的光源引导至核苷酸样品载玻片(或核苷酸样品载玻片的一部分)处并且捕获该核苷酸样品载玻片内发射信号的多个簇的图像。在一些实施方案中,串扰感知碱基检出系统106捕获发射信号的多个簇的多个图像。例如,串扰感知碱基检出系统106可以使用各种滤波器或强度通道来捕获多个图像。为了说明,在一些实施方案中,串扰感知碱基检出系统106利用双通道实施方式,每个测序循环捕获核苷酸样品载玻片的一个区段的两个图像。具体地讲,串扰感知碱基检出系统106使用第一滤波器捕获第一图像,并且使用第二滤波器捕获第二图像。第一图像和第二图像可以捕获来自目标簇和相邻簇且对应于滤波器的发射信号的强度。
然而,串扰感知碱基检出系统106可以使用另选的基于通道的方法来实现测序运行。在一些具体实施中,串扰感知碱基检出系统106利用四通道实施方式并且捕获流动池区段的四个不同图像。类似于双通道实施方式,串扰感知碱基检出系统106可以使用不同滤波器捕获该四通道实施方式的每个图像。每个图像可以基于用于该图像的滤波器来捕获发射信号的强度。因此,在一些情况下,四个图像中的每个图像描绘了具有不同强度的所发射信号。另外,串扰感知碱基检出系统106可以利用单通道实施方式并且捕获核苷酸样品载玻片区段的一个图像,然后使用特定滤波器捕获发射信号的强度。在其他实施方案中,串扰感知碱基检出系统106可以利用单通道实施方式并且捕获核苷酸样品载玻片区段的一个图像(或三通道实施方式,并且捕获三个图像),然后通过利用特定滤波器来捕获发射信号的强度值。
基于由目标簇和相邻簇发射的信号的强度(例如,颜色强度和/或光强度)的捕获图像,串扰感知碱基检出系统106可以测量目标簇和相邻簇的信号强度,并且提供目标簇和相邻簇的信号强度值(例如,波长和/或亮度)。例如,当利用两个强度通道时,串扰感知碱基检出系统106可以测量由目标簇和相邻簇在第一通道和第二通道中发射的信号的波长。
如图2进一步指示,串扰感知碱基检出系统106可以执行确定相邻簇的核碱基检出和照明指示标识的动作204。如先前所提及,簇的发射信号可以指示核苷酸碱基的类型。例如,在一些实施方案中,串扰感知碱基检出系统106(例如,同时)分析来自两个通道中,或者多个通道中的每个通道中的给定簇的信号的强度值,以确定核碱基检出。在一些实施方案中,基于每个通道中的簇的信号强度值,串扰感知碱基检出系统106可以利用期望最大化和高斯概率分布来计算信号落入特定碱基(A、C、G或T)的强度值边界内的概率。然后,串扰感知碱基检出系统106可以通过选择具有最高概率的核碱基的强度值边界来检出掺入簇中的核碱基。例如,基于由簇信号发射的强度值,串扰感知碱基检出系统106可以确定簇为腺嘌呤(A)的概率最高的核碱基的强度值边界。
在确定簇的核碱基检出之后,在一些实施方案中,串扰感知碱基检出系统106确定簇的照明指示标识。例如,基于核碱基检出,串扰感知碱基检出系统106可以决定在测序循环期间簇在给定强度通道中是“接通”(例如,被照明或主动发射特定频率的光强度)还是“断开”(例如,未被照明或没有发射特定频率的光强度)。例如,如果簇的核碱基检出为腺嘌呤(A),则串扰感知碱基检出系统106可以确定在测序循环期间,簇的第一通道信号和第二通道信号是“接通”的(或者簇在第一通道和第二通道中都发射光)。
虽然前一个实施方案描述串扰感知碱基检出系统106在确定照明指示标识之前先确定核碱基检出,但是在一些实施方案中,串扰感知碱基检出系统106能够以相反的次序来执行这些动作。例如,在一些实施方案中,串扰感知碱基检出系统106可以确定在测序循环期间,给定通道的照明指示标识是“接通”还是“断开”,并且基于这些照明指示标识来确定簇的核碱基检出。
在一些情况下,串扰感知碱基检出系统106可以将强度通道内的相邻簇照明指示标识状态表示为成对格式的照明指示标识集合。例如,在一些实施方案中,串扰感知碱基检出系统106确定相邻簇的核碱基检出为腺嘌呤(A),因此将相邻簇在两个不同通道中的对应照明指示标识确定为接通/接通或[1,1]。如图2所指示,在一些实施方案中,核碱基检出为胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的照明指示标识可以分别表示为接通/断开或[1,0]、断开/接通或[0,1]、断开/断开或[0,0]。
如图2进一步所示,在确定相邻簇的核碱基检出和照明指示标识集合之后,串扰感知碱基检出系统106执行确定相邻簇对目标簇的串扰的簇间干扰量度的动作206。例如,串扰感知碱基检出系统106基于相邻簇的照明指示标识集合来确定簇间干扰量度。如下文进一步描述,在一些实施方案中,串扰感知碱基检出系统106基于相邻簇的幅值、针对相邻簇编码的照明指示标识集合以及从相邻簇位置到目标簇位置的估计点扩散函数响应来确定簇间干扰量度。基于估计的幅值、照明指示标识和相邻簇的点扩散函数,串扰感知碱基检出系统106可以测量相邻簇对目标簇的串扰(例如,光干扰)量。
在一些情况下,串扰感知碱基检出系统106利用簇间干扰量度作为从目标簇中扣除串扰的函数的一部分。图5B和下文的对应段落提供了根据一个或多个实施方案的关于串扰感知碱基检出系统106如何估计和利用相邻簇的幅值相邻簇的照明指示标识以及从相邻簇到目标簇的点扩散函数响应来确定估计相邻簇对目标簇的光干扰的簇间干扰量度(Ii0_i1)的进一步细节。在一些实施方案中,串扰可以被建模为目标簇上的光干扰。在其他实施方案中,串扰可以被建模为与目标簇相关联的像素上的光干扰。
在确定簇间干扰量度之后,串扰感知碱基检出系统106执行通过去除簇间干扰量度来生成目标簇的经修改强度值的动作208。基于目标簇的经修改强度值,串扰感知碱基检出系统106可以对目标簇作出更准确的核碱基检出。例如,串扰感知碱基检出系统106可以确定目标簇的经修改强度值产生鸟嘌呤(G)核碱基检出,而目标簇的未修改强度值最初产生胞嘧啶(C)核碱基检出。
如先前所提及,串扰感知碱基检出系统106可以遵循特定的簇次序来确定给定测序循环中的照明指示标识和串扰。例如,串扰感知碱基检出系统106可以识别发射最高强度值范围(例如,最亮的前10%)内的最亮信号的寡核苷酸簇第一子集。串扰感知碱基检出系统106随后确定:(i)寡核苷酸簇第一子集的核碱基检出,以及(ii)估计来自寡核苷酸簇第一子集的簇对发射第二强度值范围(例如,最亮的前20%至30%)内的信号的寡核苷酸簇第二子集的干扰的簇间干扰量度。基于附加的强度值范围,剩余的簇次序可以遵循相同或相似的模式。在一些情况下,例如,串扰感知碱基检出系统106确定:(i)寡核苷酸簇第二子集的核碱基检出,以及(ii)估计来自寡核苷酸簇第二子集的簇对发射第三强度值范围(例如,最亮的前30%至40%)内的信号的寡核苷酸簇第三子集的干扰的簇间干扰量度。
如刚才所描述,串扰感知碱基检出系统106可以在给定的测序循环中,基于强度值范围以一定的次序确定核碱基检出、照明指示标识和串扰。作为使用强度值范围的替代方案,串扰感知碱基检出系统106可以(i)基于由簇发射的信号的直流偏移和幅值识别寡核苷酸簇第一子集,以及(ii)确定估计来自寡核苷酸簇第一子集的簇对发射信号的寡核苷酸簇第二子集的干扰的簇间干扰量度。例如,串扰感知碱基检出系统106可以(i)识别寡核苷酸簇第一子集,其表现出在给定簇的接收强度值的第一阈值差内的直流偏移和幅值的组合,以及(ii)识别寡核苷酸簇第二子集,其表现出在给定簇的接收强度值的第二阈值差内的直流偏移和幅值的组合。
图2提供由串扰感知碱基检出系统106执行的动作的概略图,作为通过利用簇间干扰量度来去除或减去相邻簇对目标簇的串扰来生成目标簇的经修改强度值的一部分。根据一个或多个实施方案,图3展示了随着簇之间的距离减小而增大的簇间串扰(例如,光干扰)的实例。具体地讲,图3描绘了含有三个寡核苷酸簇的二维核苷酸样品载玻片的一维横截面,以显示簇之间的距离如何影响簇间串扰。
如先前所讨论,一些现有测序系统对流动池中寡核苷酸簇的数量和密度作出了限制,以维持准确的核碱基检出。如图3所示,当寡核苷酸相邻簇302、寡核苷酸中心簇304和寡核苷酸相邻簇306之间存在足够大的距离时,具有相对较高强度值的寡核苷酸中心簇304的信号不与具有相对较低强度值的寡核苷酸相邻簇302和寡核苷酸相邻簇306的信号重叠(或只最低限度重叠)。
因为寡核苷酸相邻簇302、寡核苷酸中心簇304和寡核苷酸相邻簇306的信号之间的重叠相对小,所以现有测序系统可以更容易地检测寡核苷酸中心簇304的信号对由寡核苷酸相邻簇302和寡核苷酸相邻簇306发射的信号的强度值的干扰。利用寡核苷酸相邻簇302和寡核苷酸相邻簇306的更准确或更纯净的强度值,串扰感知碱基检出系统106可以更准确地进行核碱基检出,并且确定寡核苷酸相邻簇302和寡核苷酸相邻簇306在测序循环期间在某些强度通道中是“接通”(例如,以特定频率被照明或发射光强度)还是“断开”(例如,未以特定频率被照明或发射光强度)。
如图3进一步描绘,随着寡核苷酸簇之间的密度增加,准确地确定发射相对较低(例如,相对较暗)强度值的寡核苷酸簇的强度值与核碱基检出变得更加困难,这是因为来自发射相对较高(例如,相对较亮)强度值的寡核苷酸簇的光干扰影响较暗寡核苷酸簇的强度值。
如图3所示,例如,寡核苷酸相邻簇308、寡核苷酸中心簇310和寡核苷酸相邻簇312之间的距离减小引起干扰寡核苷酸相邻簇308和寡核苷酸相邻簇312的相对较低强度值的串扰增加。更具体地讲,从寡核苷酸中心簇310发射的光信号干扰或使得更难以检测寡核苷酸相邻簇308和寡核苷酸相邻簇312的强度值。由于光干扰,以及检测不正确地归因于寡核苷酸相邻簇308和寡核苷酸相邻簇312的寡核苷酸中心簇310强度值的可能性增加,现有测序系统通常不能准确地对寡核苷酸相邻簇308和寡核苷酸相邻簇312进行核碱基检出。
如上文所指出,串扰感知碱基检出系统106可以确定核碱基检出和对应的照明指示标识。根据一个或多个实施方案,图4示出在给定的测序循环中,串扰感知碱基检出系统106确定不同通道中的寡核苷酸簇的核碱基检出和对应的照明指示标识集合。如上文所提及,照明指示标识指示在测序期间簇是否以及/或者以何种程度在特定强度通道中提供荧光响应。
具体地讲,图4示出对应于特定类型核苷酸碱基的寡核苷酸簇的两个不同强度通道中的照明指示标识集合的接通/断开状态。为了举例说明这种接通/断开状态,图4描绘了裁剪图像中从寡核苷酸簇402发射或不从该寡核苷酸簇发射的特定频率(例如,频带)的光强度,这些裁剪图像在核碱基检出腺嘌呤(A)408、胞嘧啶(C)410、胸腺嘧啶(T)412和鸟嘌呤(G)414的旁边排成行示出。
例如,如图4所示,当对寡核苷酸簇402作出为腺嘌呤(A)408的核碱基检出时,串扰感知碱基检出系统106确定,指示寡核苷酸簇402的照明指示标识第一集合在由第一通道图像404捕获的第一通道和由第二通道图像406捕获的第二通道两者中都是“接通”的(例如,被特定频率的光强度照明,或发射特定频率的光强度)。相比之下,当对寡核苷酸簇402作出为胞嘧啶(C)410的核碱基检出时,串扰感知碱基检出系统106确定,指示寡核苷酸簇402的照明指示标识第二集合在由第一通道图像404捕获的第一通道中是“接通”的,而在由第二通道图像406捕获的第二通道中是“断开”的(例如,不被特定频率的光强度照明,或不发射特定频率的光强度)。当对寡核苷酸簇402作出为胸腺嘧啶(T)412的核碱基检出时,串扰感知碱基检出系统106确定,指示寡核苷酸簇402的照明指示标识第三集合在由第一通道图像404捕获的第一通道中是“断开”的,而在由第二通道图像406捕获的第二通道中是“接通”的。最后,当对寡核苷酸簇402作出为鸟嘌呤(G)414的核碱基检出时,串扰感知碱基检出系统106确定,指示寡核苷酸簇402的照明指示标识第四集合在由第一通道图像捕获的第一通道和由第二通道图像406捕获的第二通道两者中都是“断开”的。
如先前所讨论,照明指示标识的照明状态(例如,接通/激活状态,或者断开/非激活状态)可以采取成对形式或连续形式。例如,如果在测序期间照明指示标识在强度通道中“接通”(并且发射特定频率的光强度),则“接通”状态可以由1表示。相反,如果在测序期间照明指示标识在强度通道中“断开”(并且不发射特定频率的光强度),则“断开”状态可以由0表示。
因此,寡核苷酸簇在多于一个通道中的照明状态可以由照明指示标识集合表示。例如,由[1,1]表示的照明指示标识集合可以指示寡核苷酸簇的照明指示标识在第一强度通道和第二强度通道中是“接通”的。另外,串扰感知碱基检出系统106可以基于核碱基检出来对照明指示标识集合解码。例如,具有腺嘌呤(A)核苷酸碱基的寡核苷酸簇照明指示标识集合可以由[1,1]表示;具有胞嘧啶(C)核苷酸碱基可以由[1,0]表示;具有胸腺嘧啶(T)核苷酸碱基可以由[0,1]表示;具有鸟嘌呤(G)核苷酸碱基可以由[0,0]表示。
如先前所提及,照明指示标识的照明状态可以是连续的。更具体地讲,给定的照明指示标识可以指示寡核苷酸簇被特定频率(例如,频带)的光强度照明的程度。例如,基于寡核苷酸簇落入由高斯混合模型定义的强度值边界内的可能性,串扰感知碱基检出系统106可以确定照明指示标识在给定强度通道中被照明的程度。此外,串扰感知碱基检出系统106可以基于寡核苷酸簇的强度值来确定连续照明指示标识被照明的程度。
考虑到照明指示标识与核碱基检出之间的关系,在一些实施方案中,串扰感知碱基检出系统106可以基于目标簇的经修改信号来更新或调整照明指示标识集合。例如,串扰感知碱基检出系统106可以通过从目标簇的初始强度值中去除簇间干扰量度来生成目标簇的经修改(且更准确的)强度值。基于目标簇的经修改强度值,串扰感知碱基检出系统106可以对目标簇作出不同的核碱基检出。基于不同且更准确的核碱基检出,串扰感知碱基检出系统106可以调整照明指示标识集合,以更准确地表示目标簇在强度通道内的照明指示标识“接通”或“断开”状态。例如,在一个或多个实施方案中,基于目标簇的初始强度值,串扰感知碱基检出系统106确定核碱基检出为A,以及目标簇的照明指示标识集合为[1,1]。然而,基于目标簇的经修改强度值和对应的核碱基检出T,串扰感知碱基检出系统106确定经调整的照明指示标识集合为[0,1]。
如上文所讨论,在一个或多个实施方案中,串扰感知碱基检出系统106可以利用簇间干扰量度来去除相邻簇对目标簇的串扰。根据一个或多个实施方案,图5A和图5B展示串扰感知碱基检出系统106利用均衡器系统,确定表示相邻簇对目标簇的光干扰的簇间干扰量度,并且基于该簇间干扰量度来生成目标簇的经修改强度值。
如先前所提及,串扰感知碱基检出系统106可以利用均衡器来估计经修改信号。在一些实施方案中,串扰感知碱基检出系统106可以利用线性均衡器,通过处理接收的图像来确定目标簇的强度值。一般来讲,线性均衡器是可以被设计或优化以滤除噪声的线性滤波器。在某些实施方案中,均衡器可以通过对像素强度进行线性加权,来将接收的像素上分散强度能量转换成目标簇和相邻簇的接收强度值。在一些实施方案中,线性滤波器可以单独地或跨整个图像应用于每个簇。具体地讲,图5A描述了均衡器系统的模型。
在一些实施方案中,串扰感知碱基检出系统106当在测序设备上实施时,可以利用线性均衡器来计算描绘来自目标簇和一个或多个相邻簇的强度发射的像素强度值的加权和。均衡器可以被训练以产生均衡器系数,这些均衡器系数被配置为以最大化例如信噪比的方式混合/组合描绘来自目标簇和相邻簇的发射强度的像素强度值。
如图5A所示,串扰感知碱基检出系统106可以接收核苷酸样品载玻片区段的输入图像503。输入图像可以包括描绘目标簇和附近相邻簇的强度值的像素。基于接收的输入图像,均衡器可以从像素收集光能并且将该能量转换成循环(c)期间目标簇(i)在通道(j)中的强度值(yi,c,j)。均衡器505的系统模型可以被建模为yi,c,j=ai,c,j vi,c,j+di,c,j+ni,c,j。扩增系数ai,c,j考虑到对于循环(c)、通道(j)和簇(i),核苷酸样品载玻片上的簇之间的尺度变化。干净强度信号(vi,c,j)考虑到对于循环(c)、通道(j)和簇(i)的未密封和未移位的信号。直流偏移(di,c,j)考虑到对于循环(c)、通道(j)和簇(i),由不同的簇尺寸、不同的背景强度、变化的刺激响应、变化的聚焦、变化的传感器灵敏度和变化的透镜像差引起的随机噪声。变量n(i,c,j)表示循环(c)、通道(j)和簇(i)的相加噪声。
在利用均衡器505的系统模型处理输入时,串扰感知碱基检出系统106可以在循环(c)、位置(x,y)和通道(j)处确定像素的强度值507P[x,y,c,j]。如下文在图5B中所讨论的,串扰感知碱基检出系统106可以利用像素强度来确定目标簇的经修改强度值。虽然所描述的实施方案利用线性均衡器来确定描绘目标簇的像素强度,但是其他实施方案可以将所描述方法与强度检测系统和/或强度提取系统结合起来使用。在一些实施方案中,串扰感知碱基检出系统106利用如Eric Ojard等人提交的名称为“Equalization-Based ImageProcessing and Spatial Crosstalk Attenuator”的美国专利11,188,778号以及EricOjard等人提交的名称为“Generating Cluster-Specific-Signal Corrections forDetermining Nucleotide-Base Calls”的美国专利申请18/059,326号所描述的均衡器,这些专利各自全文以引用方式并入本文。
如图5B所示,并且如上文所讨论,串扰感知碱基检出系统106可以执行确定相邻簇的核碱基检出和照明指示标识的动作502。如先前所提及,串扰感知碱基检出系统106可以在测序循环期间检测和/或测量相邻簇在给定通道中发射的光,并且确定该发射光的强度值。在一些情况下,基于相邻簇的强度值,串扰感知碱基检出系统106确定相邻簇的核碱基检出。
为了举例说明这种基于强度值的碱基检出,在一些实施方案中,串扰感知碱基检出系统106可以将期望最大值应用于2D高斯混合模型,以定义对应于每种类型核碱基(A、C、T或G)的强度值边界。基于在给定测序循环中掺入寡核苷酸簇中的标记核苷酸所发射的光的强度值,串扰感知碱基检出系统106可以确定寡核苷酸簇的强度值落入对应于每种类型核碱基的四个强度值边界之一内的概率。然后,串扰感知碱基检出系统106可以通过根据强度值边界选择具有最高概率的核碱基来检出寡核苷酸簇的核碱基。
如上文所讨论,在一些实施方案中,基于核碱基检出,串扰感知碱基检出系统106可以确定该簇的照明指示标识集合。例如,串扰感知碱基检出系统106可以确定相邻簇在一个或多个强度通道中的照明指示标识“接通”和/或“断开”状态。如上文所讨论,在一些情况下,串扰感知碱基检出系统106能够以成对格式表示照明指示标识的照明状态。例如,如果串扰感知碱基检出系统106对相邻簇作出的核碱基检出为腺嘌呤(A),则串扰感知碱基检出系统106确定寡核苷酸簇的照明指示标识在第一强度通道和第二强度通道中均是“接通”的。基于该确定,串扰感知碱基检出系统106可以将寡核苷酸簇在这两个通道中的接通状态表示为照明指示标识集合[1,1]。如下文更详细讨论的,串扰感知碱基检出系统106可以利用照明指示标识集合中的数据来确定簇间干扰量度。
如图5B进一步所示,在一些实施方案中,串扰感知碱基检出系统106利用目标簇的信号模型504。更具体地讲,串扰感知碱基检出系统106可以利用函数来确定像素(P)的初始强度值(P[x,y,c,j]),该像素(P)表示在位置[x,y]处的寡核苷酸目标簇,其中(x)表示该像素的水平坐标,(y)表示该像素的垂直坐标。如该信号模型所指示,表示目标簇的像素的初始强度值(P[x,y,c,j])可以包括来自背景、目标簇以及从相邻簇发射的串扰的强度值之和。
如图5B所示,例如,目标簇的强度值(P[x,y,c,j])可以被建模为:
背景强度估计在测序循环(c)期间,通道(/)内的捕获图像中的位置(x,y)处的背景强度值。在一些情况下,估计的背景强度值可以包括基因组样品或测序设备中固有的噪声或偏差。例如,在一些实施方案中,背景强度可以增加目标簇的强度值。另外,函数估计来自目标簇的强度值与来自相邻簇的串扰之和。
如图5B进一步所示,目标簇强度值之和可以包括在测序循环(c)期间,对强度通道(j)内的目标簇和具有簇索引(i)的相邻簇的幅值的估计值。具体地讲,基于目标簇的强度值,串扰感知碱基检出系统106可以估计强度通道内的目标簇幅值,以及一个或多个相邻簇的幅值。另外,如图5B所指示,串扰感知碱基检出系统106可以确定在测序循环(c)期间,在强度通道(j)内针对目标簇编码的照明指示标识以及具有簇索引(i)的一个或多个相邻簇的对应照明指示标识。
如上文所讨论,在一些情况下,目标簇中编码的成对格式可以由目标簇的照明指示标识集合(例如,[1,1]、[1,0]、[0,1]或[0,0])表示。然而,如上文所讨论,来自具有高强度值的相邻簇的串扰可能放大目标簇的强度值。目标簇的强度值增加可能导致在测序期间出现目标簇在第一强度通道或第二强度通道中接通的错误指示。
图5B进一步展示,目标簇的信号模型504可以包括点扩散函数(PSF)的估计值,该估计值覆盖相对于PSF响应中心位置(xi,yi)的各个位置(x,y)。例如,串扰感知碱基检出系统106可以针对更靠近PSF响应中心位置(xi,yi)的第一位置估计较高的PSF响应,或者针对更远离PSF响应中心位置(xi,yi)的第二位置估计较低的PSF响应。如上文所提及,估计的PSF可以说明从相邻簇扩散的串扰如何干扰目标簇的强度值。更具体地讲,估计的PSF可以估计目标簇的位置相对于来自相邻簇的PSF响应的中心的PSF响应。
如图5B进一步所示,串扰感知碱基检出系统106可以确定簇间干扰量度506。如上文所提及,簇间干扰量度(Ii0_i1)可以表示一个簇(表示为i1)对另一个簇(表示为i0)的光干扰。例如,簇间干扰量度(Ii0_i1)可以表示相邻簇对目标簇的光干扰。
如图5B中的函数Ii0_i1所指示,串扰感知碱基检出系统106可以通过将相邻簇的幅值相邻簇的照明指示标识以及对应于目标簇位置的PSF相乘,来估计给定测序循环(c)的簇间干扰量度。具体地讲,串扰感知碱基检出系统106可以部分地通过估计在测序循环(c)期间通道(j)中的相邻簇(i1)幅值来确定簇间干扰量度(Ii0_i1)。如先前所提及,串扰感知碱基检出系统106可以基于相邻簇(i1)的强度值来估计相邻簇的幅值
串扰感知碱基检出系统106可以进一步基于相邻簇(i1)的强度值来估计相邻簇(i1)的照明指示标识例如,基于相邻簇(i1)的高强度值,串扰感知碱基检出系统106在第一强度通道和第二强度通道中确定相邻簇的核碱基检出(例如,A),以及相邻簇(i1)的对应照明指示标识(例如,[1,1])。
另外,如图5B所示,串扰感知碱基检出系统106可以相对于相邻簇(i1)的中心位置(xi1,yi1)(或区域)的PSF响应来估计目标簇(i0)的位置(xi0,yi0)处的点扩散函数。如上文所提及,与目标簇的位置相对应的估计PSF可以基于相邻簇和目标簇的位置来描述相邻簇的强度值如何影响目标簇的强度值。
如图5B和对应的功能进一步指示,串扰感知碱基检出系统106可以从目标簇的强度值之和中扣除簇间量度508。具体地讲,串扰感知碱基检出系统106可以从目标簇(i0)的强度值之和中去除相邻簇(i1)的簇间干扰量度。类似地,如图5B进一步描绘,串扰感知碱基检出系统106可以确定相邻簇(i2)直到相邻簇(in)的簇间干扰量度,然后将其从目标簇(i0)的强度值之和中去除。因此,串扰感知碱基检出系统106可以确定多个相邻簇的簇间干扰量度,然后将其从单个目标簇的强度值中去除。例如,在一些实施方案中,串扰感知碱基检出系统106可以估计最靠近目标簇的具有最高强度的相邻簇的簇间干扰量度并将其去除。此外,串扰感知碱基检出系统106可以从流动池上的任何其他簇位置中扣除源自相邻簇(i1)的串扰。
如上文所提及,串扰感知碱基检出系统106可以反复地确定相邻簇子集对目标簇相应子集的串扰的簇间干扰量度,然后基于相邻簇子集的强度值范围将相邻簇子集的簇间干扰量度从目标簇的相应子集中去除。例如,串扰感知碱基检出系统106可以确定发射最高强度值范围(例如,最亮的前10%)内的最亮信号的寡核苷酸相邻簇第一子集的核碱基检出。在一些情况下,串扰感知碱基检出系统106检出最亮簇的核碱基,因为它们落在与核碱基之一(例如,A)相关联的强度值边界内的可能性最高。根据寡核苷酸相邻簇第一子集的核碱基检出,串扰感知碱基检出系统106确定(i)来自寡核苷酸相邻簇第一子集的相应簇的照明指示标识,以及(ii)来自寡核苷酸相邻簇第一子集的各个相邻簇相对于来自寡核苷酸目标簇子集的各个目标簇的簇间干扰量度。串扰感知碱基检出系统106进一步将寡核苷酸相邻簇第一子集的簇间干扰量度从各个目标簇的强度值之和中去除。
在这种去除之后,串扰感知碱基检出系统106可以确定第二强度值范围(例如,最亮的前20%至30%)内的相邻簇第二子集的核碱基检出、照明指示标识和簇间干扰量度。串扰感知碱基检出系统106可以进一步将相邻簇第二子集的各个相邻簇的簇间干扰量度从来自寡核苷酸目标簇第二子集的各个目标簇的强度值之和中去除。
如图5B进一步所示,在串扰感知碱基检出系统106去除簇间干扰量度之后,串扰感知碱基检出系统106可以为描绘目标簇的像素生成经修改强度值510。如图5B所指示,例如,描绘目标簇的像素的经修改强度值等于以下各项之和:(i)背景强度以及(ii)相邻簇和目标簇的幅值与照明指示标识之和乘以PSF。如先前所指示,经修改强度值表示在测序循环期间目标簇的更准确强度值和/或更纯净信号。基于经修改强度值,串扰感知碱基检出系统106可以作出更准确的核碱基检出,仅有来自一个或多个相邻簇的极小串扰干扰,或者完全没有来自一个或多个相邻簇的串扰干扰。
例如,如先前所提及,串扰感知碱基检出系统106可以基于高斯概率分布和期望最大化来计算信号落入特定核碱基(A、C、G或T)的强度值边界内的概率。通过去除簇间干扰量度,串扰感知碱基检出系统106可以基于信号的更准确强度值确定信号落入特定核碱基(A、C、G或T)的强度值边界内的更准确概率。在一些实施方案中,更新的概率可能改变对掺入簇中的核碱基的检出或预测。在其他实施方案中,更新的概率可能不改变掺入簇中的核碱基的检出或预测,但是可以提供来自簇的信号落入最初检出或预测的核碱基的强度值边界内的更高的碱基检出质量量度(例如,QUAL分数)。
如刚才所指示,在一些情况下,串扰感知碱基检出系统106估计包括目标簇和相邻簇的核苷酸样品载玻片区段的PSF响应。根据一个或多个实施方案,图6展示串扰感知碱基检出系统106估计簇强度值的点扩散函数。
如图6所示,估计的PSF可以描述在特定的位置或区域处相对于点源(例如,寡核苷酸簇)中心PSF响应的响应。更具体地讲,图6示出来自寡核苷酸簇的强度值的数学建模PSF响应602。如图6所示,寡核苷酸簇强度值的估计PSF在中心位置或区域处最集中(例如,最亮),并且随着来自寡核苷酸簇的信号移动远离寡核苷酸簇的中心位置或区域而减小。串扰感知碱基检出系统106可以利用估计的PSF响应来估计相邻簇对目标簇造成的串扰的程度。
在一些实施方案中,可以通过利用最小二乘(LS)或最小均方误差(MMSE)方法来估计PSF。例如,在最小二乘(LS)方法下,检测器接收信号(y)以确定PSF估计值接收信号(y)可以表示为y=Mh+n,其中h是复合通道脉冲响应(例如,PSF响应),M是循环训练序列矩阵,n是噪声。在生成训练序列矩阵(M)并且最小化的平方误差量之后,估计的最小二乘通道脉冲响应可以表示为其中()H和()-1分别表示埃尔米特矩阵和逆矩阵。最后,鉴于是通道系数的最佳线性无偏估计,前面提及的等式可以简化为其中P表示训练序列的长度。因此,可以基于等式来估计PSF。在某些具体实施中,串扰感知碱基检出系统106确定PSF估计值,如以下文献所描述:Jinho Choi,Adaptive and Iterative Signal Processing in Communications(Cambridge Univ.Press2006),或Markku Pukkila,Channel Estimation Modeling(2000),其可在http://www.comlab.hut.fi/opetus/333/presentations_2000/chan_est.pdf获得,这两篇文献均全文以引用方式并入本文中。
根据一个或多个实施方案,图7A至图7C展示寡核苷酸簇之间的串扰以及去除某些寡核苷酸簇的光干扰的影响。具体地讲,出于举例说明的目的,图7A至图7C提供核苷酸样品载玻片上的寡核苷酸簇的模拟图像,以及寡核苷酸簇之间的串扰。虽然图7A至图7C中的图像将簇示为均匀间隔的正方形网格,但是实际的寡核苷酸簇并没有均匀地分散在核苷酸样品载玻片上。此外,图7A至图7C描绘了正方形网格内的每个像素中心处的簇,以便更清楚地展示串扰的影响。另外,虽然图7A至图7C展示了利用正方形网格的核苷酸样品载玻片,但是核苷酸样品载玻片的其他实施方案可以利用各种形状(例如,菱形、六边形等)。
作为概略图,图7A描绘了映射对强度通道内的光激发起反应的寡核苷酸簇的强度值的图像700。图像700可以表示其上已接种寡核苷酸簇的核苷酸样品载玻片(例如,流动池)区段。如图7A所示,强度通道的图像700包含几个寡核苷酸簇,并且用像素映射对应的强度值。具体地讲,强度通道的图像700使用像素来表示流动池内给定位置处的强度值。由每个像素描绘的强度值是寡核苷酸簇、噪声和来自邻近簇的串扰的强度值之和。
图7A还描绘了在核苷酸样品载玻片区段上与其他簇相邻的寡核苷酸簇。具体地讲,图7A的寡核苷酸簇相对于目标簇第一相邻、第二相邻或第三相邻。当相邻簇定位成离开目标簇一个簇,或者相对于其他簇紧邻目标簇时,此类相邻簇相对于目标簇第一相邻。例如,在第一相邻边界712内的八个相邻簇与寡核苷酸“断开”簇702a第一相邻,因为相对于其他簇,这八个相邻簇紧挨着(并且更靠近)寡核苷酸“断开”簇702a。相关地,当相邻簇定位成离开目标簇两个簇,或者定位在紧挨目标簇之后的位置时,此类相邻簇相对于目标簇第二相邻。例如,如图7A所示,第二相邻边界714内(以及第一相邻边界712外)的16个相邻簇相对于寡核苷酸“断开”簇702a第二相邻,因为这16个相邻簇定位在紧挨寡核苷酸“断开”簇702a之后的位置。类似地,当相邻簇定位成离开目标簇三个簇,或者定位在紧挨目标簇之后再之后的位置时,此类相邻簇相对于目标簇第三相邻。如图3所展示,第三相邻边界716内(以及第二相邻边界714外)的24个相邻簇相对于寡核苷酸“断开”簇702a第三相邻,因为这24个相邻簇定位成离开寡核苷酸“断开”簇702a三个簇(或者定位在紧挨该寡核苷酸“断开”簇之后再之后的位置)。如上文所指出,在一些实施方案中,串扰感知碱基检出系统106确定与目标簇第一相邻、第二相邻和/或第三相邻的簇的簇间干扰量度。
为了表示由各个簇发射的不同类型的光,图7A描绘了表示不同簇的变化强度值的不同图案和表示图像700中的簇照明指示标识的不同圆圈类型。如更密集或更暗图案和更稀疏或更亮图案所指示,更暗和/或较暗的像素表示具有较低强度值的寡核苷酸位置和/或寡核苷酸簇,而更亮和/或较亮的像素表示具有较高强度值的寡核苷酸位置和/或寡核苷酸簇。此外,包含具有白色边界的黑色圆圈的像素表示对于给定通道,不(或尚未被检测到)发射特定频率(例如,频带)的光强度的寡核苷酸“断开”簇,而包含具有黑色边界的白色圆圈的像素表示对于给定通道,发射(或已被检测到发射)特定频率(例如,频带)的光强度的寡核苷酸“接通”簇。
如先前所讨论,可能难以对邻近具有高强度值的寡核苷酸“接通”簇或被这类寡核苷酸“接通”簇包围的寡核苷酸“断开”簇进行核碱基检出,因为来自具有高强度值的寡核苷酸“接通”簇的串扰会扭曲寡核苷酸“断开”簇的强度值。具体地讲,图7A示出从具有高强度值的寡核苷酸“接通”簇发射的串扰如何增加邻近或相邻寡核苷酸“断开”簇的强度值。例如,在图7A中,寡核苷酸“断开”簇702a看起来是寡核苷酸“接通”簇,因为来自明亮的寡核苷酸邻近簇706a和706b的串扰使得包含寡核苷酸“断开”簇702a的像素看起来更亮(例如,增加该像素的强度值)。由于使包含寡核苷酸“断开”簇702a的像素看起来更亮,对寡核苷酸“断开”簇702a作出不正确核碱基检出的可能性增加。另外,图7A展示寡核苷酸的暗淡“接通”簇的较低强度值如何使得难以确定寡核苷酸的暗淡“接通”簇的核碱基检出,因为它们看起来具有与簇上邻近的寡核苷酸“断开”簇的强度值相似的强度值。关于寡核苷酸的暗淡“接通”簇的更多细节在图8A中讨论。
根据一个或多个实施方案,图7B展示串扰感知碱基检出系统106初始确定簇子集的核碱基检出和照明指示标识,作为去除串扰的有序方法的一部分。例如,由选择边界708a、708b、708c、708d、708e、708f、708g、708h、708i、708j和708k突出显示的寡核苷酸簇子集表示发射最高强度值范围(例如,前10%或前15%)内的最高强度值的寡核苷酸簇。如先前所讨论,这种寡核苷酸簇子集的高强度值允许串扰感知碱基检出系统106更可信地确定核碱基检出。基于对由选择边界708a-708k突出显示的寡核苷酸簇子集的核碱基检出,串扰感知碱基检出系统106可以更准确地确定寡核苷酸簇在强度通道内是“接通”的。
虽然对由选择边界708a-708k突出显示的寡核苷酸簇子集进行核碱基检出更容易,但是在一些情况下,这些寡核苷酸簇生成最多的串扰(例如,光干扰)并且影响具有较低强度值的寡核苷酸邻近簇。例如,如图7B所示,寡核苷酸“断开”簇702a被由选择边界708d、708g和708h突出显示的寡核苷酸簇子集包围,该寡核苷酸簇子集发射最高强度值和最高水平的串扰。来自由选择边界708d、708g和708h突出显示的寡核苷酸簇子集的串扰增加了寡核苷酸“断开”簇702a的强度值。由于增加了寡核苷酸“断开”簇702a的强度值,所以更有可能的是,寡核苷酸“断开”簇702a被给予不准确的核碱基检出—没有有效的方式来去除串扰。
虽然图7A至图7B示出寡核苷酸簇之间的串扰效应,但是图7C示出从某些寡核苷酸簇中去除串扰的效应。如图7C所示,串扰感知碱基检出系统106从由选择边界708a-708k突出显示的寡核苷酸簇子集中去除来自各种目标簇的强度值的串扰。为了举例说明由目标簇发射的光的强度值(没有由选择边界708a-708k突出显示的寡核苷酸簇子集所发射的光),图7C描绘了具有指示由这样的簇子集发射的光已被去除的图案的图像700。在去除串扰之前,并且如上文所讨论,串扰感知碱基检出系统106可以(i)确定核碱基检出并且确定由选择边界708a-708k突出显示的寡核苷酸簇子集的照明指示标识集合,(ii)确定由选择边界708a-708k突出显示的寡核苷酸簇子集中的每个簇的簇间干扰量度,以及(iii)从具有较暗强度值的其他寡核苷酸相邻簇中去除寡核苷酸簇子集的簇间干扰量度。
在去除簇间干扰量度之后,图像700描绘了较暗的寡核苷酸“接通”簇和“断开”簇的更准确强度值。例如,串扰感知碱基检出系统106消除或去除由寡核苷酸簇710a和710b发射的串扰,该串扰干扰寡核苷酸目标簇的相对较低强度值。如图7C所提出,寡核苷酸“断开”簇702a的强度值更清楚地显示寡核苷酸簇702a在特定通道中是“断开”的。因此,寡核苷酸簇702a的强度值更接近地类似于寡核苷酸簇702b的强度值—两者在由图像700捕获的通道中都不发射特定频率(例如,频带)的光强度。
如图7C进一步所示,通过去除具有最高强度值的寡核苷酸相邻簇对目标簇的串扰,串扰感知碱基检出系统106确定寡核苷酸簇704的经修改强度值,从而阐明寡核苷酸簇704在测序期间在强度通道中是“接通”的,或发射特定频率(例如,频带)的光强度。因此,串扰感知碱基检出系统106可以(i)基于寡核苷酸目标簇的更准确的经修改强度值作出更准确的核碱基检出,以及(ii)更可信地确定寡核苷酸给定簇在测序循环期间在给定通道中是“接通”的,或发射特定频率(例如,频带)的光强度。
如上文所指出,串扰感知碱基检出系统106提高了可以通过确定和去除簇间干扰量度来确定照明指示标识(以及对应的核碱基检出)的准确性。根据一个或多个实施方案,图8A至图8B描绘了存在和不存在来自相邻簇的串扰的寡核苷酸簇的强度值的柱状图。
例如,如图8A所示,由该柱状图中的黑色值描绘的具有较高强度值806的寡核苷酸簇代表具有下述强度值的簇:对于这些强度值,基于清楚“接通”的照明指示标识,可以更容易地确定准确的核碱基检出。相对较高的(或最亮的)强度值降低了由于来自相邻簇的串扰引起串扰感知碱基检出系统106的核碱基检出不准确的可能性。因此,串扰感知碱基检出系统106可以更容易地确定具有相对较高强度值的寡核苷酸簇是否“接通”。相反,由该柱状图中的白色值描绘的具有较低强度值802的寡核苷酸簇代表具有下述强度值的簇:对于这些强度值,基于清楚“断开”的照明指示标识,可以更容易地确定准确的核碱基检出。因此,在该展示的实施方案中,串扰感知碱基检出系统106可以更容易地确定具有较低强度值802的寡核苷酸簇是“断开”的。
然而,如图8A进一步所示,该柱状图包括由黑白条纹值描绘的重叠强度值804区域,对于该区域难以确定核碱基检出和照明指示标识。例如,当寡核苷酸“断开”簇的增大强度值与寡核苷酸“接通”簇的强度值重叠时,具有重叠强度值804的簇可以证明难以确定准确的核碱基检出和照明指示标识。如上文所讨论,在一些情况下,来自明亮的寡核苷酸相邻簇的串扰增加了暗淡的寡核苷酸“断开”簇的强度值,并且使得寡核苷酸“断开”簇表现为“接通”,或者表现出可能是“接通”或可能不是“接通”的强度值。另外,并且如先前所提及,寡核苷酸的一些“接通”簇实际上在具有高强度值的强度通道中不发射特定频率(例如,频带)的光强度,而且可能在该强度通道中表现为“断开”。
在一些情况下,现有测序系统识别用于确定给定寡核苷酸簇的强度值是否指示给定簇在强度通道中发射特定频率(例如,频带)光强度的强度值阈值。然而,如图8A所展示,强度值阈值对于准确地确定表现出重叠强度值804的寡核苷酸簇对于给定的强度通道是否应当具有“接通”或“断开”照明指示标识可能几乎不起作用。因此,图8A所描绘的柱状图证明,使用强度值阈值而没有去除或减去串扰的有效方法的现有测序系统无法准确地分辨表现出重叠强度值804的寡核苷酸簇的照明指示标识和对应的核碱基检出。
根据一个或多个实施方案,图8B展示,通过确定和去除表示从寡核苷酸相邻簇发射的串扰的簇间干扰量度,串扰感知碱基检出系统106确定目标簇的更准确的经修改强度值(和对应的核碱基检出)。例如,图8B示出了寡核苷酸簇的经修改(或更准确的)强度值。如图8B所示,表示为白色值的寡核苷酸“断开”簇的经修改强度值808不与表示为黑色值的寡核苷酸“接通”簇的经修改强度值810重叠。通过清楚地分离寡核苷酸“断开”簇的经修改强度值808和寡核苷酸“接通”簇的经修改强度值810,串扰感知碱基检出系统106可以应用强度值范围来清楚地区分寡核苷酸“接通”簇和寡核苷酸“断开”簇,并且更准确地确定此类寡核苷酸簇的核碱基检出。
图1至图8B、对应的文本和实例提供串扰感知碱基检出系统106的许多不同的方法、系统、设备和非暂态计算机可读介质。除前述内容之外,一个或多个实施方案还可以按照包括用于实现特定结果的动作的流程图来描述,如图9所示。图9可以用更多或更少的动作来执行。此外,这些动作可以按不同顺序执行。附加地,本文所描述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
图9展示了根据一个或多个实施方案的使用簇间干扰量度来生成核碱基检出的质量量度的一系列动作900的流程图。虽然图9展示了根据一个实施方案的动作,但是另选实施方案可以省略、添加、重新排序和/或修改图9所示的任何动作。在一些具体实施中,图9的动作作为方法的一部分来执行。在一些情况下,非暂态计算机可读介质在其上存储以下指令:这些指令在由至少一个处理器执行时使得计算设备执行图9的动作。在一些具体实施中,系统执行图9的动作。例如,在一种或多种情况下,系统包括至少一个处理器,以及包含指令的非暂态计算机可读介质,这些指令在由至少一个处理器执行时使得系统执行图9的动作。
这一系列动作900包括用于检测来自第一簇和第二簇的强度值集合的动作902。例如,动作902可以涉及从来自第一簇的第一信号和来自第二簇的第二信号检测强度值。
另外,这一系列动作900包括确定第一簇的照明指示标识集合的动作904。例如,动作904可以涉及确定第一簇的核碱基检出,并且基于该核碱基检出来确定第一簇的这组照明指示标识。
另外,一系列动作900包括确定簇间干扰量度的动作906。例如,动作906可以涉及通过将第一簇的估计幅值、第一簇的照明指示标识集合和点扩散函数响应相乘来估计第一簇对第二簇的串扰程度。
一系列动作900还包括通过去除簇间干扰量度来生成第二簇的经修改强度值的动作908。具体地讲,动作908可以涉及针对测序循环,通过从强度值第二集合中去除簇间干扰量度、从寡核苷酸第二簇的强度值之和中扣除簇间干扰量度,生成来自该第二簇的第二信号的经修改强度值第二集合。
在一些情况下,这一系列动作包括以下附加动作:进一步基于强度值第一集合的幅值以及包括寡核苷酸第一簇的核苷酸样品载玻片区段的估计点扩散函数来确定照明指示标识集合;然后进一步基于估计点扩散函数来确定簇间干扰量度。
在一个或多个实施方案中,这一系列动作900还包括以下附加动作:估计点扩散函数使用寡核苷酸第二簇或寡核苷酸不同簇的位置作为点,并且包括含有寡核苷酸第一簇与一个或多个寡核苷酸其他簇的区域。
在一些情况下,这一系列动作900包括以下附加动作:核苷酸样品载玻片内的寡核苷酸第一簇的第一位置与核苷酸样品载玻片内的寡核苷酸第二簇的第二位置第一相邻、第二相邻或第三相邻。
另外,在一个或多个实施方案中,这一系列动作900包括以下附加动作:针对测序循环,基于核碱基的强度值第一集合与强度值边界来确定寡核苷酸第一簇的核碱基检出;以及进一步基于寡核苷酸第一簇的核碱基检出来确定照明指示标识集合。
在一些实施方案中,这一系列动作900还包括以下附加动作:基于来自对应于第一通道的强度值第一集合的强度值和来自对应于第二通道的强度值第一集合的强度值来确定寡核苷酸第一簇的核碱基检出;以及通过从来自对应于第一通道的强度值第二集合的强度值中或从来自对应于第二通道的强度值第二集合的强度值中扣除簇间干扰量度的值,来生成经修改强度值第二集合。在一些情况下,这一系列动作900包括通过从来自对应于第一通道的强度值第二集合的强度值中或从来自对应于第二通道的强度值第二集合的强度值中扣除簇间干扰量度的值,来生成经修改强度值第二集合。因此,在某些实施方案中,可以从第一通道和第二通道两者的强度值中去除或消除簇间干扰量度。
另外,在其他实施方案中,这一系列动作900可以包括以下附加动作:确定第一照明指示标识,其指示寡核苷酸第一簇在测序循环期间是否在第一通道中被照明;以及确定第二照明指示标识,其指示寡核苷酸第二簇在测序循环期间是否在第二通道中被照明;或者确定第一连续照明指示标识,其指示寡核苷酸第一簇在测序循环期间在第一通道中被照明的程度;以及确定第二连续照明指示标识,其指示寡核苷酸第一簇在测序循环期间在第二通道中被照明的程度。
在一种或多种情况下,这一系列动作900包括以下附加动作:针对测序循环并且基于经修改强度值第二集合来确定经调整的照明指示标识集合,该经调整的照明指示标识集合表示寡核苷酸第二簇在测序循环期间是否被照明,并且不同于对应于强度值第二集合的照明指示标识初始集合。
在一些具体实施中,这一系列动作900还包括以下附加动作:针对测序循环并且基于经修改强度值第二集合来确定寡核苷酸第二簇的核碱基检出与对应于强度值第二集合的核碱基不同。
在另外的实施方案中,这一系列动作900包括以下附加动作:针对测序循环,检测来自寡核苷酸第三簇的第三信号的强度值第三集合;基于强度值第三集合确定附加照明指示标识集合,该附加照明指示标识集合表示寡核苷酸第三簇在测序循环期间是否被照明;基于附加照明指示标识集合确定附加簇间干扰量度,该附加簇间干扰量度估计寡核苷酸第三簇对寡核苷酸第二簇的光干扰;以及针对测序循环,通过从强度值第二集合中去除簇间干扰量度和附加簇间干扰量度,生成来自寡核苷酸第二簇的第二信号的经修改强度值第二集合。
此外,在一个或多个实施方案中,这一系列动作900还包括以下附加动作:确定来自寡核苷酸第一簇的第一信号的强度值第一集合在强度值范围内;确定来自寡核苷酸第二簇的第二信号的强度值第二集合不在该强度值范围内;基于强度值第一集合在强度值范围内并且强度值第二集合不在强度值范围内,通过从强度值第二集合中去除估计寡核苷酸第一簇对寡核苷酸第二簇的光干扰的簇间干扰量度,来生成经修改强度值第二集合。替代性地,这一系列动作900包括:基于强度值第一集合在强度值范围内并且强度值第二集合不在强度值范围内,通过从强度值第二集合中去除估计描绘寡核苷酸第一簇的一个或多个像素对描绘寡核苷酸第二簇的一个或多个像素的光干扰的簇间干扰量度,来生成经修改强度值第二集合。
在一些情况下,这一系列动作900包括以下附加动作:基于强度值第一集合确定作为具有在强度值范围内的强度值的寡核苷酸簇第一子集的一部分的寡核苷酸第一簇的第一核碱基检出;以及基于经修改强度值第二集合确定作为具有不在强度值范围内的强度值的寡核苷酸簇第二子集的一部分的寡核苷酸第二簇的第二核碱基检出。
在一个或多个实施方案中,串扰感知碱基检出系统106通过在单个通道中检测来自寡核苷酸第一簇的第一信号的第一强度值,来检测强度值第一集合;通过在单个通道中检测来自寡核苷酸第二簇的第二信号的第二强度值,来检测强度值第二集合;以及通过确定单个照明指示标识来确定照明指示标识集合,该单个照明指示标识表示寡核苷酸第一簇是否在测序循环期间在单个通道中被照明。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
下文描述的SBS技术可利用单端测序或双端测序。在单端测序中,测序设备从一端到另一端读取片段以生成碱基对的序列。相比之下,在双端测序期间,测序设备开始于一次读取,在相同方向中完成特定读长的读取,然后从片段的相对端开始另一次读取。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001年),“Pyrosequencing sheds light on DNA sequencing.”,Genome Res.11(1),3-11;Ronaghi,M.、Uhlen,M.和Nyren,P.(1998年),“A sequencing method based on real-timepyrophosphate.”,Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以逆转,并且荧光标记可以被裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可以进行共同工程改造,以便高效地掺入这些经修饰核苷酸并且从这些经修饰核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在具体实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。替代性地,可以顺序地添加不同的核苷酸类型,并且可以在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在具体实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光切割的接头附接到碱基,该可光切割的接头可通过暴露于长波长紫外光30秒来容易地切割。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的改变(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并识别此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可利用纳米孔测序(Deamer,D.W.和Akeson,M.,“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”,Trends Biotechnol.18,147-151(2000年);Deamer,D.和D.Branton,“Characterization of nucleic acids bynanopore analysis.”,Acc.Chem.Res.35:817-825(2002年);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003年),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,靶核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当靶核酸穿过纳米孔时,可通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafast DNAsequencing using solid-state nanopores.”,Clin.Chem.53,1996-2001(2007年);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007年);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008年),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003年);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008年);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008年),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的靶核酸。在具体实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,靶核酸可为阵列格式。在阵列格式中,靶核酸通常可以在空间上可区分的方式结合到表面。靶核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的靶核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的集成系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体组件,该系统包括诸如泵、阀、贮存器、流体管线等的组件。流通池在集成系统中可被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方案为例,集成系统的一个或多个流体组件可用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,集成系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样本中存在的核酸聚合物进行测序。如本文所定义,“样本”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样本,诸如基因组学DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样本可来自:单个个体、来自遗传相关成员的核酸样本的集合、来自遗传不相关成员的核酸样本、来自单个个体的(与之匹配的)核酸样本(诸如肿瘤样本和正常组织样本),或者来自包含两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样本,或者在包含植物或动物DNA的样本中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
核酸样本可包括高分子量物质,诸如基因组学DNA(gDNA)。样本可包括低分子量物质,诸如从FFPE样本或存档的DNA样本获得的核酸分子。在另一个实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。样本可包括无细胞循环DNA。在一些实施方案中,样品可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一个实施方案中,样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可用于扩增具有低质量核酸分子的核酸样本,诸如来自法医学样本的降解的和/或片段化的基因组学DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包括少量DNA(诸如基因组学DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
串扰感知碱基检出系统106的部件可以包括软件、硬件或两者。例如,串扰感知碱基检出系统106的部件可以包括存储在非暂态计算机可读存储介质上并且可由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。串扰感知碱基检出系统106的计算机可执行指令在由一个或多个处理器执行时,可以使得计算设备执行本文所述的故障源识别方法。替代性地,串扰感知碱基检出系统106的部件可以包括硬件(诸如专用处理设备),用于执行某些功能或功能的组。除此之外或替代性地,串扰感知碱基检出系统106的部件可以包括计算机可执行指令和硬件的组合。
此外,执行本文关于串扰感知碱基检出系统106所述功能的串扰感知碱基检出系统106的部件可以例如被实施作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可以被其他应用程序调用的库函数或函数,以及/或者作为云计算模型。因此,串扰感知碱基检出系统106的部件可以被实施作为个人计算设备或移动设备上的独立应用程序的一部分。除此之外或替代性地,串扰感知碱基检出系统106的部件可以在提供测序服务的任何应用程序中实施,该应用程序包括但不限于Illumina BaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述过程中的一者或多者可以至少部分地实施为体现在非暂态计算机可读介质中并且能够由一个或多个计算设备(例如,本文所述介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包括本文所述过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征或动作。相反,所描述的特征和动作是作为实现权利要求的示例性形式来公开的。
本领域的技术人员应当理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,该网络计算环境包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机,等等。本公开还可在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实现。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图10展示了可以被配置为执行上述过程中的一个或多个过程的计算设备1000的框图。应当理解,一个或多个计算设备(诸如计算设备1000)可以实施串扰感知碱基检出系统106和测序系统104。如图10所示,计算设备1000可以包括能够经由通信基础设施1012通信地耦接的处理器1002、存储器1004、存储设备1006、I/O接口1008和通信接口1010。在某些实施方案中,计算设备1000可以包括比图10所示的那些部件更少或更多的部件。以下段落更详细地描述图10所示计算设备1000的部件。
在一个或多个实施方案中,处理器1002包括用于执行指令(诸如构成计算机程序的那些指令)的硬件。作为实例而不是以限制的方式,为了执行用于动态修改工作流的指令,处理器1002可以从内部寄存器、内部高速缓存、存储器1004或存储设备1006检索(或获取)这些指令,然后对它们进行解码并执行。存储器1004可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1006包括用于存储用于执行本文所述方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1008允许用户向计算设备1000提供输入、从该计算设备接收输出,并且以其他方式向该计算设备传递数据并从该计算设备接收数据。I/O接口1008可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备,或此类I/O接口的组合。I/O接口1008可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器,以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1008被配置为向显示器提供图形数据以呈现给用户。图形数据可表示一个或多个图形用户界面和/或可服务于特定具体实施的任何其他图形内容。
通信接口1010可以包括硬件、软件或两者。在任何情况下,通信接口1010均可以提供用于计算设备1000与一个或多个其他计算设备或网络之间的通信(诸如,基于分组的通信)的一个或多个接口。作为实例而不是以限制的方式,通信接口1010可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或者用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
另外,通信接口1010可以促进与各种类型的有线网络或无线网络的通信。通信接口1010还可以促进使用各种通信协议的通信。通信基础设施1012还可以包括将计算设备1000的部件彼此耦接的硬件、软件或两者。例如,通信接口1010可以使用一种或多种网络和/或协议来使得通过特定基础设施连接的多个计算设备能够彼此通信,以执行本文所述过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图例示了各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以其他特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所述的方法可用更少或更多的步骤/动作执行,或者步骤/动作可以不同的顺序执行。附加地,本文所述的步骤/动作可重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。
Claims (39)
1.一种系统,包括:
至少一个处理器;以及
非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
针对测序循环,检测来自寡核苷酸第一簇的第一信号的强度值第一集合与来自寡核苷酸第二簇的第二信号的强度值第二集合;
基于所述强度值第一集合确定照明指示标识集合,所述照明指示标识集合表示所述寡核苷酸第一簇在所述测序循环期间是否被照明;
基于所述照明指示标识集合确定簇间干扰量度,所述簇间干扰量度估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的经修改强度值第二集合。
2.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
进一步基于所述强度值第一集合的幅值以及包括所述寡核苷酸第一簇的核苷酸样品载玻片区段的估计点扩散函数来确定所述照明指示标识集合;以及
进一步基于所述估计点扩散函数来确定所述簇间干扰量度。
3.根据权利要求2所述的系统,其中所述估计点扩散函数使用所述寡核苷酸第二簇或寡核苷酸不同簇的位置作为点,并且包括含有所述寡核苷酸第一簇与一个或多个寡核苷酸其他簇的区域。
4.根据权利要求1所述的系统,其中核苷酸样品载玻片内的所述寡核苷酸第一簇的第一位置与所述核苷酸样品载玻片内的所述寡核苷酸第二簇的第二位置第一相邻、第二相邻或第三相邻。
5.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
针对所述测序循环,基于核碱基的所述强度值第一集合与强度值边界来确定所述寡核苷酸第一簇的核碱基检出;以及
进一步基于所述寡核苷酸第一簇的所述核碱基检出来确定所述照明指示标识集合。
6.根据权利要求5所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
基于来自对应于第一通道的所述强度值第一集合的强度值和来自对应于第二通道的所述强度值第一集合的强度值来确定所述寡核苷酸第一簇的所述核碱基检出;以及
通过从来自对应于所述第一通道的所述强度值第二集合的强度值中或从来自对应于所述第二通道的所述强度值第二集合的强度值中扣除所述簇间干扰量度的值,来生成所述经修改强度值第二集合。
7.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统通过如下方式来确定所述照明指示标识集合:
确定第一照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间是否在第一通道中被照明;以及
确定第二照明指示标识,其指示所述寡核苷酸第二簇在所述测序循环期间是否在第二通道中被照明;或者
确定第一连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第一通道中被照明的程度;以及
确定第二连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第二通道中被照明的程度。
8.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统针对所述测序循环并且基于所述经修改强度值第二集合来确定经调整的照明指示标识集合,所述经调整的照明指示标识集合表示所述寡核苷酸第二簇在所述测序循环期间是否被照明,并且不同于对应于所述强度值第二集合的照明指示标识初始集合。
9.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统针对所述测序循环并且基于所述经修改强度值第二集合来确定所述寡核苷酸第二簇的核碱基检出与对应于所述强度值第二集合的核碱基不同。
10.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
针对所述测序循环,检测来自寡核苷酸第三簇的第三信号的强度值第三集合;
基于所述强度值第三集合确定附加照明指示标识集合,所述附加照明指示标识集合表示所述寡核苷酸第三簇在所述测序循环期间是否被照明;
基于所述附加照明指示标识集合确定附加簇间干扰量度,所述附加簇间干扰量度估计所述寡核苷酸第三簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度和所述附加簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的所述经修改强度值第二集合。
11.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
确定来自所述寡核苷酸第一簇的所述第一信号的所述强度值第一集合在强度值范围内;
确定来自所述寡核苷酸第二簇的所述第二信号的所述强度值第二集合不在所述强度值范围内;以及
基于所述强度值第一集合在所述强度值范围内并且所述强度值第二集合不在所述强度值范围内,通过从所述强度值第二集合中去除估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰的所述簇间干扰量度,来生成所述经修改强度值第二集合。
12.根据权利要求11所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
基于所述强度值第一集合确定作为具有在所述强度值范围内的强度值的寡核苷酸簇第一子集的一部分的所述寡核苷酸第一簇的第一核碱基检出;以及
基于所述经修改强度值第二集合确定作为具有不在所述强度值范围内的强度值的寡核苷酸簇第二子集的一部分的所述寡核苷酸第二簇的第二核碱基检出。
13.根据权利要求1所述的系统,还包括指令,所述指令在由所述至少一个处理器执行时使得所述系统:
通过在单个通道中检测来自寡核苷酸第一簇的所述第一信号的第一强度值,来检测所述强度值第一集合;
通过在所述单个通道中检测来自寡核苷酸第二簇的所述第二信号的第二强度值,来检测所述强度值第二集合;以及
通过确定单个照明指示标识来确定所述照明指示标识集合,所述单个照明指示标识表示所述寡核苷酸第一簇是否在所述测序循环期间在所述单个通道中被照明。
14.一种其上存储有指令的非暂态计算机可读介质,所述指令在由至少一个处理器执行时使得计算设备:
针对测序循环,检测来自寡核苷酸第一簇的第一信号的强度值第一集合与来自寡核苷酸第二簇的第二信号的强度值第二集合;
基于所述强度值第一集合确定照明指示标识集合,所述照明指示标识集合表示所述寡核苷酸第一簇在所述测序循环期间是否被照明;
基于所述照明指示标识集合确定簇间干扰量度,所述簇间干扰量度估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的经修改强度值第二集合。
15.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
进一步基于所述强度值第一集合的幅值以及包括所述寡核苷酸第一簇的核苷酸样品载玻片区段的估计点扩散函数来确定所述照明指示标识集合;以及
进一步基于所述估计点扩散函数来确定所述簇间干扰量度。
16.根据权利要求15所述的非暂态计算机可读介质,其中所述估计点扩散函数使用所述寡核苷酸第二簇或寡核苷酸不同簇的位置作为点,并且包括含有所述寡核苷酸第一簇与一个或多个寡核苷酸其他簇的区域。
17.根据权利要求14所述的非暂态计算机可读介质,其中核苷酸样品载玻片内的所述寡核苷酸第一簇的第一位置与所述核苷酸样品载玻片内的所述寡核苷酸第二簇的第二位置第一相邻、第二相邻或第三相邻。
18.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
针对所述测序循环,基于核碱基的所述强度值第一集合与强度值边界来确定所述寡核苷酸第一簇的核碱基检出;以及
进一步基于所述寡核苷酸第一簇的所述核碱基检出来确定所述照明指示标识集合。
19.根据权利要求18所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
基于来自对应于第一通道的所述强度值第一集合的强度值和来自对应于第二通道的所述强度值第一集合的强度值来确定所述寡核苷酸第一簇的所述核碱基检出;以及
通过从来自对应于所述第一通道的所述强度值第二集合的强度值中或从来自对应于所述第二通道的所述强度值第二集合的强度值中扣除所述簇间干扰量度的值,来生成所述经修改强度值第二集合。
20.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备通过如下方式来确定所述照明指示标识集合:
确定第一照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间是否在第一通道中被照明;以及
确定第二照明指示标识,其指示所述寡核苷酸第二簇在所述测序循环期间是否在第二通道中被照明;或者
确定第一连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第一通道中被照明的程度;以及
确定第二连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第二通道中被照明的程度。
21.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备针对所述测序循环并且基于所述经修改强度值第二集合来确定经调整的照明指示标识集合,所述经调整的照明指示标识集合表示所述寡核苷酸第二簇在所述测序循环期间是否被照明,并且不同于对应于所述强度值第二集合的照明指示标识初始集合。
22.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备针对所述测序循环并且基于所述经修改强度值第二集合来确定所述寡核苷酸第二簇的核碱基检出与对应于所述强度值第二集合的核碱基不同。
23.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
针对所述测序循环,检测来自寡核苷酸第三簇的第三信号的强度值第三集合;
基于所述强度值第三集合确定附加照明指示标识集合,所述附加照明指示标识集合表示所述寡核苷酸第三簇在所述测序循环期间是否被照明;
基于所述附加照明指示标识集合确定附加簇间干扰量度,所述附加簇间干扰量度估计所述寡核苷酸第三簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度和所述附加簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的所述经修改强度值第二集合。
24.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
确定来自所述寡核苷酸第一簇的所述第一信号的所述强度值第一集合在强度值范围内;
确定来自所述寡核苷酸第二簇的所述第二信号的所述强度值第二集合不在所述强度值范围内;以及
基于所述强度值第一集合在所述强度值范围内并且所述强度值第二集合不在所述强度值范围内,通过从所述强度值第二集合中去除估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰的所述簇间干扰量度,来生成所述经修改强度值第二集合。
25.根据权利要求24所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
基于所述强度值第一集合确定作为具有在所述强度值范围内的强度值的寡核苷酸簇第一子集的一部分的所述寡核苷酸第一簇的第一核碱基检出;以及
基于所述经修改强度值第二集合确定作为具有不在所述强度值范围内的强度值的寡核苷酸簇第二子集的一部分的所述寡核苷酸第二簇的第二核碱基检出。
26.根据权利要求14所述的非暂态计算机可读介质,还包括指令,所述指令在由所述至少一个处理器执行时使得所述计算设备:
通过在单个通道中检测来自寡核苷酸第一簇的所述第一信号的第一强度值,来检测所述强度值第一集合;
通过在所述单个通道中检测来自寡核苷酸第二簇的所述第二信号的第二强度值,来检测所述强度值第二集合;以及
通过确定单个照明指示标识来确定所述照明指示标识集合,所述单个照明指示标识表示所述寡核苷酸第一簇是否在所述测序循环期间在所述单个通道中被照明。
27.一种方法,包括:
针对测序循环,检测来自寡核苷酸第一簇的第一信号的强度值第一集合与来自寡核苷酸第二簇的第二信号的强度值第二集合;
基于所述强度值第一集合确定照明指示标识集合,所述照明指示标识集合表示所述寡核苷酸第一簇在所述测序循环期间是否被照明;
基于所述照明指示标识集合确定簇间干扰量度,所述簇间干扰量度估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的经修改强度值第二集合。
28.根据权利要求27所述的方法,还包括:
进一步基于所述强度值第一集合的幅值以及包括所述寡核苷酸第一簇的核苷酸样品载玻片区段的估计点扩散函数来确定所述照明指示标识集合;以及
进一步基于所述估计点扩散函数来确定所述簇间干扰量度。
29.根据权利要求28所述的方法,其中所述估计点扩散函数使用所述寡核苷酸第二簇或寡核苷酸不同簇的位置作为点,并且包括含有所述寡核苷酸第一簇与一个或多个寡核苷酸其他簇的区域。
30.根据权利要求27所述的方法,其中核苷酸样品载玻片内的所述寡核苷酸第一簇的第一位置与所述核苷酸样品载玻片内的所述寡核苷酸第二簇的第二位置第一相邻、第二相邻或第三相邻。
31.根据权利要求27所述的方法,还包括:
针对所述测序循环,基于核碱基的所述强度值第一集合与强度值边界来确定所述寡核苷酸第一簇的核碱基检出;以及
进一步基于所述第一寡核苷酸簇的所述核碱基检出来确定所述照明指示标识集合。
32.根据权利要求31所述的方法,还包括:
基于来自对应于第一通道的所述强度值第一集合的强度值和来自对应于第二通道的所述强度值第一集合的强度值来确定所述寡核苷酸第一簇的所述核碱基检出;以及
通过从来自对应于所述第一通道的所述强度值第二集合的强度值中或从来自对应于所述第二通道的所述强度值第二集合的强度值中扣除所述簇间干扰量度的值,来生成所述经修改强度值第二集合。
33.根据权利要求27所述的方法,其中确定所述照明指示标识集合包括:
确定第一照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间是否在第一通道中被照明;以及
确定第二照明指示标识,其指示所述寡核苷酸第二簇在所述测序循环期间是否在第二通道中被照明;或者
确定第一连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第一通道中被照明的程度;以及
确定第二连续照明指示标识,其指示所述寡核苷酸第一簇在所述测序循环期间在所述第二通道中被照明的程度。
34.根据权利要求27所述的方法,还包括针对所述测序循环并且基于所述经修改强度值第二集合来确定经调整的照明指示标识集合,所述经调整的照明指示标识集合表示所述寡核苷酸第二簇在所述测序循环期间是否被照明,并且不同于对应于所述强度值第二集合的照明指示标识初始集合。
35.根据权利要求27所述的方法,还包括针对所述测序循环并且基于所述经修改强度值第二集合来确定所述寡核苷酸第二簇的核碱基检出与对应于所述强度值第二集合的核碱基不同。
36.根据权利要求27所述的方法,还包括:
针对所述测序循环,检测来自寡核苷酸第三簇的第三信号的强度值第三集合;
基于所述强度值第三集合确定附加照明指示标识集合,所述附加照明指示标识集合表示所述寡核苷酸第三簇在所述测序循环期间是否被照明;
基于所述附加照明指示标识集合确定附加簇间干扰量度,所述附加簇间干扰量度估计所述寡核苷酸第三簇对所述寡核苷酸第二簇的光干扰;以及
针对所述测序循环,通过从所述强度值第二集合中去除所述簇间干扰量度和所述附加簇间干扰量度,生成来自所述寡核苷酸第二簇的所述第二信号的所述经修改强度值第二集合。
37.根据权利要求27所述的方法,还包括:
确定来自所述寡核苷酸第一簇的所述第一信号的所述强度值第一集合在强度值范围内;
确定来自所述寡核苷酸第二簇的所述第二信号的所述强度值第二集合不在所述强度值范围内;以及
基于所述强度值第一集合在所述强度值范围内并且所述强度值第二集合不在所述强度值范围内,通过从所述强度值第二集合中去除估计所述寡核苷酸第一簇对所述寡核苷酸第二簇的光干扰的所述簇间干扰量度,来生成所述经修改强度值第二集合。
38.根据权利要求37所述的方法,还包括:
基于所述强度值第一集合确定作为具有在所述强度值范围内的强度值的寡核苷酸簇第一子集的一部分的所述寡核苷酸第一簇的第一核碱基检出;以及
基于所述经修改强度值第二集合确定作为具有不在所述强度值范围内的强度值的寡核苷酸簇第二子集的一部分的所述寡核苷酸第二簇的第二核碱基检出。
39.根据权利要求27所述的方法,其中:
检测所述强度值第一集合包括在单个通道中检测来自寡核苷酸第一簇的所述第一信号的第一强度值;
检测所述强度值第二集合包括在所述单个通道中检测来自寡核苷酸第二簇的所述第二信号的第二强度值;并且
确定所述照明指示标识集合包括确定单个照明指示标识,所述单个照明指示标识表示所述寡核苷酸第一簇是否在所述测序循环期间在所述单个通道中被照明。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202363483428P | 2023-02-06 | 2023-02-06 | |
US63/483428 | 2023-02-06 | ||
PCT/US2024/014657 WO2024167954A1 (en) | 2023-02-06 | 2024-02-06 | Determining and removing inter-cluster light interference |
Publications (1)
Publication Number | Publication Date |
---|---|
CN119452420A true CN119452420A (zh) | 2025-02-14 |
Family
ID=90365030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202480003115.8A Pending CN119452420A (zh) | 2023-02-06 | 2024-02-06 | 确定和去除簇间光干扰 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240266003A1 (zh) |
CN (1) | CN119452420A (zh) |
AU (1) | AU2024219208A1 (zh) |
WO (1) | WO2024167954A1 (zh) |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991006678A1 (en) | 1989-10-26 | 1991-05-16 | Sri International | Dna sequencing |
US5846719A (en) | 1994-10-13 | 1998-12-08 | Lynx Therapeutics, Inc. | Oligonucleotide tags for sorting and identification |
US5750341A (en) | 1995-04-17 | 1998-05-12 | Lynx Therapeutics, Inc. | DNA sequencing by parallel oligonucleotide extensions |
GB9620209D0 (en) | 1996-09-27 | 1996-11-13 | Cemu Bioteknik Ab | Method of sequencing DNA |
GB9626815D0 (en) | 1996-12-23 | 1997-02-12 | Cemu Bioteknik Ab | Method of sequencing DNA |
ES2563643T3 (es) | 1997-04-01 | 2016-03-15 | Illumina Cambridge Limited | Método de secuenciación de ácido nucleico |
US6969488B2 (en) | 1998-05-22 | 2005-11-29 | Solexa, Inc. | System and apparatus for sequential processing of analytes |
US6274320B1 (en) | 1999-09-16 | 2001-08-14 | Curagen Corporation | Method of sequencing a nucleic acid |
US7001792B2 (en) | 2000-04-24 | 2006-02-21 | Eagle Research & Development, Llc | Ultra-fast nucleic acid sequencing device and a method for making and using the same |
CN100462433C (zh) | 2000-07-07 | 2009-02-18 | 维西根生物技术公司 | 实时序列测定 |
EP1354064A2 (en) | 2000-12-01 | 2003-10-22 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
DK3363809T3 (da) | 2002-08-23 | 2020-05-04 | Illumina Cambridge Ltd | Modificerede nukleotider til polynukleotidsekvensering |
GB0321306D0 (en) | 2003-09-11 | 2003-10-15 | Solexa Ltd | Modified polymerases for improved incorporation of nucleotide analogues |
EP3175914A1 (en) | 2004-01-07 | 2017-06-07 | Illumina Cambridge Limited | Improvements in or relating to molecular arrays |
US20060062531A1 (en) | 2004-09-17 | 2006-03-23 | Stephen Turner | Fabrication of optical confinements |
WO2006064199A1 (en) | 2004-12-13 | 2006-06-22 | Solexa Limited | Improved method of nucleotide detection |
WO2006120433A1 (en) | 2005-05-10 | 2006-11-16 | Solexa Limited | Improved polymerases |
GB0514936D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Preparation of templates for nucleic acid sequencing |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
WO2007123744A2 (en) | 2006-03-31 | 2007-11-01 | Solexa, Inc. | Systems and devices for sequence by synthesis analysis |
AU2007309504B2 (en) | 2006-10-23 | 2012-09-13 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
US8349167B2 (en) | 2006-12-14 | 2013-01-08 | Life Technologies Corporation | Methods and apparatus for detecting molecular interactions using FET arrays |
GB2457851B (en) | 2006-12-14 | 2011-01-05 | Ion Torrent Systems Inc | Methods and apparatus for measuring analytes using large scale fet arrays |
US20100137143A1 (en) | 2008-10-22 | 2010-06-03 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes |
US8951781B2 (en) | 2011-01-10 | 2015-02-10 | Illumina, Inc. | Systems, methods, and apparatuses to image a sample for biological or chemical analysis |
HRP20211523T1 (hr) | 2011-09-23 | 2021-12-24 | Illumina, Inc. | Pripravci za sekvenciranje nukleinske kiseline |
ES2949570T3 (es) | 2012-04-03 | 2023-09-29 | Illumina Inc | Cabezal integrado de lectura optoelectrónica y cartucho de fluidos útiles para la secuenciación de ácidos nucleicos |
EP4121559A4 (en) * | 2020-03-18 | 2024-03-27 | Pacific Biosciences of California, Inc. | SYSTEMS AND METHODS FOR DETECTING DENSE ANALYTES |
US11188778B1 (en) * | 2020-05-05 | 2021-11-30 | Illumina, Inc. | Equalization-based image processing and spatial crosstalk attenuator |
-
2024
- 2024-02-06 CN CN202480003115.8A patent/CN119452420A/zh active Pending
- 2024-02-06 US US18/434,416 patent/US20240266003A1/en active Pending
- 2024-02-06 AU AU2024219208A patent/AU2024219208A1/en active Pending
- 2024-02-06 WO PCT/US2024/014657 patent/WO2024167954A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2024167954A1 (en) | 2024-08-15 |
AU2024219208A1 (en) | 2025-01-16 |
US20240266003A1 (en) | 2024-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102629171B1 (ko) | 페이징 보정 | |
US20240038327A1 (en) | Rapid single-cell multiomics processing using an executable file | |
CN117043867A (zh) | 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型 | |
US20220415443A1 (en) | Machine-learning model for generating confidence classifications for genomic coordinates | |
US20220415442A1 (en) | Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality | |
WO2024249940A1 (en) | Improving structural variant alignment and variant calling by utilizing a structural-variant reference genome | |
CN119452420A (zh) | 确定和去除簇间光干扰 | |
CN117546246A (zh) | 用于重新校准核苷酸碱基检出的机器学习模型 | |
US20230420080A1 (en) | Split-read alignment by intelligently identifying and scoring candidate split groups | |
US20240127906A1 (en) | Detecting and correcting methylation values from methylation sequencing assays | |
US20230340571A1 (en) | Machine-learning models for selecting oligonucleotide probes for array technologies | |
US20230420082A1 (en) | Generating and implementing a structural variation graph genome | |
US20240112753A1 (en) | Target-variant-reference panel for imputing target variants | |
US20230095961A1 (en) | Graph reference genome and base-calling approach using imputed haplotypes | |
CN119698662A (zh) | 生成并实现结构变异图基因组 | |
RU2765996C9 (ru) | Коррекция фазирования | |
JP2024535663A (ja) | ヌクレオチド配列決定における塩基コールエラーパターンからの障害ソースの自動的特定 | |
CN118871994A (zh) | 核苷酸测序的校准序列 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |