RU2773318C2 - Large-scale monocellular transcriptome libraries and methods for their production and use - Google Patents
Large-scale monocellular transcriptome libraries and methods for their production and use Download PDFInfo
- Publication number
- RU2773318C2 RU2773318C2 RU2020102911A RU2020102911A RU2773318C2 RU 2773318 C2 RU2773318 C2 RU 2773318C2 RU 2020102911 A RU2020102911 A RU 2020102911A RU 2020102911 A RU2020102911 A RU 2020102911A RU 2773318 C2 RU2773318 C2 RU 2773318C2
- Authority
- RU
- Russia
- Prior art keywords
- cells
- nuclei
- nucleic acid
- indexed
- nucleic acids
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 401
- 238000004519 manufacturing process Methods 0.000 title abstract description 9
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 427
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 283
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 283
- 238000012163 sequencing technique Methods 0.000 claims abstract description 126
- 210000004027 cell Anatomy 0.000 claims description 1047
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 206
- 230000003321 amplification Effects 0.000 claims description 204
- 125000003729 nucleotide group Chemical group 0.000 claims description 203
- 239000002773 nucleotide Substances 0.000 claims description 196
- 108090000623 proteins and genes Proteins 0.000 claims description 168
- 108020004414 DNA Proteins 0.000 claims description 118
- 238000012545 processing Methods 0.000 claims description 99
- 102000053602 DNA Human genes 0.000 claims description 93
- 239000012634 fragment Substances 0.000 claims description 93
- 238000011282 treatment Methods 0.000 claims description 56
- 238000002372 labelling Methods 0.000 claims description 55
- 238000006243 chemical reaction Methods 0.000 claims description 53
- 108020004999 messenger RNA Proteins 0.000 claims description 52
- 230000015572 biosynthetic process Effects 0.000 claims description 51
- 239000000203 mixture Substances 0.000 claims description 46
- 238000009396 hybridization Methods 0.000 claims description 42
- 108091093088 Amplicon Proteins 0.000 claims description 41
- 238000009826 distribution Methods 0.000 claims description 35
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 34
- 102000008579 Transposases Human genes 0.000 claims description 33
- 108010020764 Transposases Proteins 0.000 claims description 33
- 102100034343 Integrase Human genes 0.000 claims description 30
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims description 28
- 230000017105 transposition Effects 0.000 claims description 28
- 108091034117 Oligonucleotide Proteins 0.000 claims description 27
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims description 14
- 238000013467 fragmentation Methods 0.000 claims description 14
- 238000006062 fragmentation reaction Methods 0.000 claims description 14
- 102000004169 proteins and genes Human genes 0.000 claims description 13
- 108091036407 Polyadenylation Proteins 0.000 claims description 8
- 239000002253 acid Substances 0.000 claims description 8
- -1 nucleic acid fragments acids Chemical class 0.000 claims description 7
- 108090000288 Glycoproteins Proteins 0.000 claims description 6
- 102000003886 Glycoproteins Human genes 0.000 claims description 6
- 150000007513 acids Chemical class 0.000 claims description 6
- 150000001720 carbohydrates Chemical class 0.000 claims description 6
- 231100000219 mutagenic Toxicity 0.000 claims description 6
- 230000003505 mutagenic effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 229940126585 therapeutic drug Drugs 0.000 claims description 6
- 108091030071 RNAI Proteins 0.000 claims description 5
- 102000002278 Ribosomal Proteins Human genes 0.000 claims description 5
- 108010000605 Ribosomal Proteins Proteins 0.000 claims description 5
- 230000009368 gene silencing by RNA Effects 0.000 claims description 5
- 238000011534 incubation Methods 0.000 claims description 5
- 229930001119 polyketide Natural products 0.000 claims description 5
- 150000003881 polyketide derivatives Chemical class 0.000 claims description 5
- 238000009395 breeding Methods 0.000 claims description 3
- 230000001488 breeding effect Effects 0.000 claims description 3
- 238000010790 dilution Methods 0.000 claims description 3
- 239000012895 dilution Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 30
- 239000000126 substance Substances 0.000 abstract description 6
- 230000002103 transcriptional effect Effects 0.000 abstract description 5
- 210000004940 nucleus Anatomy 0.000 description 294
- 239000013615 primer Substances 0.000 description 228
- 229920002477 rna polymer Polymers 0.000 description 120
- 230000014509 gene expression Effects 0.000 description 111
- 241000699666 Mus <mouse, genus> Species 0.000 description 70
- 210000002257 embryonic structure Anatomy 0.000 description 68
- 210000001161 mammalian embryo Anatomy 0.000 description 51
- 238000011161 development Methods 0.000 description 47
- 210000001519 tissue Anatomy 0.000 description 47
- 230000007704 transition Effects 0.000 description 47
- 230000018109 developmental process Effects 0.000 description 46
- 108091023040 Transcription factor Proteins 0.000 description 45
- 210000003414 extremity Anatomy 0.000 description 45
- 102000040945 Transcription factor Human genes 0.000 description 44
- 238000004458 analytical method Methods 0.000 description 44
- 229960003957 dexamethasone Drugs 0.000 description 43
- UREBDLICKHMUKA-CXSFZGCWSA-N dexamethasone Chemical compound C1CC2=CC(=O)C=C[C@]2(C)[C@]2(F)[C@@H]1[C@@H]1C[C@@H](C)[C@@](C(=O)CO)(O)[C@@]1(C)C[C@@H]2O UREBDLICKHMUKA-CXSFZGCWSA-N 0.000 description 43
- 230000009028 cell transition Effects 0.000 description 42
- 238000010839 reverse transcription Methods 0.000 description 38
- 238000004422 calculation algorithm Methods 0.000 description 37
- 239000003550 marker Substances 0.000 description 37
- 238000001514 detection method Methods 0.000 description 35
- 102000003676 Glucocorticoid Receptors Human genes 0.000 description 34
- 108090000079 Glucocorticoid Receptors Proteins 0.000 description 34
- 230000000875 corresponding effect Effects 0.000 description 33
- 238000003752 polymerase chain reaction Methods 0.000 description 33
- 230000004044 response Effects 0.000 description 33
- 230000000295 complement effect Effects 0.000 description 31
- 230000002441 reversible effect Effects 0.000 description 31
- 102000004190 Enzymes Human genes 0.000 description 29
- 108090000790 Enzymes Proteins 0.000 description 29
- 229940088598 enzyme Drugs 0.000 description 29
- 230000022131 cell cycle Effects 0.000 description 27
- 238000012512 characterization method Methods 0.000 description 26
- 230000005305 organ development Effects 0.000 description 26
- 238000003559 RNA-seq method Methods 0.000 description 25
- 239000000872 buffer Substances 0.000 description 25
- 238000012800 visualization Methods 0.000 description 25
- 239000003153 chemical reaction reagent Substances 0.000 description 24
- 230000008569 process Effects 0.000 description 24
- 210000002919 epithelial cell Anatomy 0.000 description 23
- 230000001105 regulatory effect Effects 0.000 description 23
- 239000007787 solid Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- ZLOIGESWDJYCTF-XVFCMESISA-N 4-thiouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=S)C=C1 ZLOIGESWDJYCTF-XVFCMESISA-N 0.000 description 20
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 20
- 241000699670 Mus sp. Species 0.000 description 19
- 230000008859 change Effects 0.000 description 19
- 230000037361 pathway Effects 0.000 description 18
- 239000008004 cell lysis buffer Substances 0.000 description 17
- 238000002474 experimental method Methods 0.000 description 17
- 239000000523 sample Substances 0.000 description 17
- 239000000758 substrate Substances 0.000 description 17
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 16
- 239000000499 gel Substances 0.000 description 16
- 102000040430 polynucleotide Human genes 0.000 description 16
- 108091033319 polynucleotide Proteins 0.000 description 16
- 239000002157 polynucleotide Substances 0.000 description 16
- 239000007790 solid phase Substances 0.000 description 16
- 239000000243 solution Substances 0.000 description 16
- 230000001413 cellular effect Effects 0.000 description 15
- 239000002299 complementary DNA Substances 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 15
- 238000003556 assay Methods 0.000 description 14
- 230000007717 exclusion Effects 0.000 description 14
- 239000007788 liquid Substances 0.000 description 14
- 239000000178 monomer Substances 0.000 description 14
- 238000012360 testing method Methods 0.000 description 14
- 230000000925 erythroid effect Effects 0.000 description 13
- 230000009467 reduction Effects 0.000 description 13
- 238000010186 staining Methods 0.000 description 13
- 239000011534 wash buffer Substances 0.000 description 13
- 230000004913 activation Effects 0.000 description 12
- 238000000137 annealing Methods 0.000 description 12
- 230000004069 differentiation Effects 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 12
- 210000004072 lung Anatomy 0.000 description 12
- 230000027455 binding Effects 0.000 description 11
- 210000004556 brain Anatomy 0.000 description 11
- 238000007901 in situ hybridization Methods 0.000 description 11
- 210000003141 lower extremity Anatomy 0.000 description 11
- 239000000463 material Substances 0.000 description 11
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 210000001185 bone marrow Anatomy 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- UQLDLKMNUJERMK-UHFFFAOYSA-L di(octadecanoyloxy)lead Chemical compound [Pb+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O UQLDLKMNUJERMK-UHFFFAOYSA-L 0.000 description 10
- JYGXADMDTFJGBT-VWUMJDOOSA-N hydrocortisone Chemical compound O=C1CC[C@]2(C)[C@H]3[C@@H](O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 JYGXADMDTFJGBT-VWUMJDOOSA-N 0.000 description 10
- 230000006517 limb development Effects 0.000 description 10
- 108091027963 non-coding RNA Proteins 0.000 description 10
- 102000042567 non-coding RNA Human genes 0.000 description 10
- 239000011886 peripheral blood Substances 0.000 description 10
- 210000005259 peripheral blood Anatomy 0.000 description 10
- 239000011780 sodium chloride Substances 0.000 description 10
- 241000894007 species Species 0.000 description 10
- 230000032258 transport Effects 0.000 description 10
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 9
- 229930040373 Paraformaldehyde Natural products 0.000 description 9
- 230000015556 catabolic process Effects 0.000 description 9
- 239000000017 hydrogel Substances 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 210000004185 liver Anatomy 0.000 description 9
- 210000003205 muscle Anatomy 0.000 description 9
- 210000000107 myocyte Anatomy 0.000 description 9
- 210000003458 notochord Anatomy 0.000 description 9
- 210000000056 organ Anatomy 0.000 description 9
- 229920002866 paraformaldehyde Polymers 0.000 description 9
- 238000002360 preparation method Methods 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 8
- 229920001213 Polysorbate 20 Polymers 0.000 description 8
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 8
- 210000002889 endothelial cell Anatomy 0.000 description 8
- 238000002955 isolation Methods 0.000 description 8
- 229910052757 nitrogen Inorganic materials 0.000 description 8
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 8
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 8
- 230000022379 skeletal muscle tissue development Effects 0.000 description 8
- 108010077544 Chromatin Proteins 0.000 description 7
- 230000010190 G1 phase Effects 0.000 description 7
- 230000004668 G2/M phase Effects 0.000 description 7
- 108060004795 Methyltransferase Proteins 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 210000003483 chromatin Anatomy 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000011901 isothermal amplification Methods 0.000 description 7
- 210000000276 neural tube Anatomy 0.000 description 7
- 238000000746 purification Methods 0.000 description 7
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 6
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 6
- 101100502742 Danio rerio fgf8a gene Proteins 0.000 description 6
- 108010061833 Integrases Proteins 0.000 description 6
- 102000003960 Ligases Human genes 0.000 description 6
- 108090000364 Ligases Proteins 0.000 description 6
- 102000018120 Recombinases Human genes 0.000 description 6
- 108010091086 Recombinases Proteins 0.000 description 6
- 108091007416 X-inactive specific transcript Proteins 0.000 description 6
- 108091035715 XIST (gene) Proteins 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 210000003719 b-lymphocyte Anatomy 0.000 description 6
- 210000001612 chondrocyte Anatomy 0.000 description 6
- 238000003776 cleavage reaction Methods 0.000 description 6
- 238000004925 denaturation Methods 0.000 description 6
- 230000036425 denaturation Effects 0.000 description 6
- 239000000975 dye Substances 0.000 description 6
- 230000013020 embryo development Effects 0.000 description 6
- 210000002950 fibroblast Anatomy 0.000 description 6
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 6
- 239000011521 glass Substances 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- 238000010348 incorporation Methods 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 6
- 230000010311 mammalian development Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 239000003161 ribonuclease inhibitor Substances 0.000 description 6
- 230000007017 scission Effects 0.000 description 6
- 230000008685 targeting Effects 0.000 description 6
- 101150115978 tbx5 gene Proteins 0.000 description 6
- 238000005406 washing Methods 0.000 description 6
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 5
- JYCQQPHGFMYQCF-UHFFFAOYSA-N 4-tert-Octylphenol monoethoxylate Chemical compound CC(C)(C)CC(C)(C)C1=CC=C(OCCO)C=C1 JYCQQPHGFMYQCF-UHFFFAOYSA-N 0.000 description 5
- ZKHQWZAMYRWXGA-KQYNXXCUSA-J ATP(4-) Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)[C@H]1O ZKHQWZAMYRWXGA-KQYNXXCUSA-J 0.000 description 5
- ZKHQWZAMYRWXGA-UHFFFAOYSA-N Adenosine triphosphate Natural products C1=NC=2C(N)=NC=NC=2N1C1OC(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)C(O)C1O ZKHQWZAMYRWXGA-UHFFFAOYSA-N 0.000 description 5
- 102100034798 CCAAT/enhancer-binding protein beta Human genes 0.000 description 5
- 101100518995 Caenorhabditis elegans pax-3 gene Proteins 0.000 description 5
- 102000012410 DNA Ligases Human genes 0.000 description 5
- 108010061982 DNA Ligases Proteins 0.000 description 5
- 101000945963 Homo sapiens CCAAT/enhancer-binding protein beta Proteins 0.000 description 5
- 101000904152 Homo sapiens Transcription factor E2F1 Proteins 0.000 description 5
- 101100518997 Mus musculus Pax3 gene Proteins 0.000 description 5
- 230000018199 S phase Effects 0.000 description 5
- 102100024026 Transcription factor E2F1 Human genes 0.000 description 5
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 5
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 5
- 238000003491 array Methods 0.000 description 5
- 239000011324 bead Substances 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 229940104302 cytosine Drugs 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 238000011049 filling Methods 0.000 description 5
- 210000003194 forelimb Anatomy 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000011331 genomic analysis Methods 0.000 description 5
- 230000012010 growth Effects 0.000 description 5
- 229960000890 hydrocortisone Drugs 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 210000004962 mammalian cell Anatomy 0.000 description 5
- 230000014690 mesenchyme development Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 210000000933 neural crest Anatomy 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 239000005022 packaging material Substances 0.000 description 5
- 230000035755 proliferation Effects 0.000 description 5
- 238000012175 pyrosequencing Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 210000002027 skeletal muscle Anatomy 0.000 description 5
- 210000000952 spleen Anatomy 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 210000001364 upper extremity Anatomy 0.000 description 5
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 4
- 101150050847 CPA2 gene Proteins 0.000 description 4
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 4
- 101001121442 Homo sapiens Ubiquitin thioesterase OTU1 Proteins 0.000 description 4
- 102000012330 Integrases Human genes 0.000 description 4
- HLFSDGLLUJUHTE-SNVBAGLBSA-N Levamisole Chemical compound C1([C@H]2CN3CCSC3=N2)=CC=CC=C1 HLFSDGLLUJUHTE-SNVBAGLBSA-N 0.000 description 4
- 101150013833 MYOD1 gene Proteins 0.000 description 4
- 108010010416 Myogenic Regulatory Factors Proteins 0.000 description 4
- 102000015864 Myogenic Regulatory Factors Human genes 0.000 description 4
- 102100038380 Myogenic factor 5 Human genes 0.000 description 4
- 101710099061 Myogenic factor 5 Proteins 0.000 description 4
- 108010047956 Nucleosomes Proteins 0.000 description 4
- 101150106167 SOX9 gene Proteins 0.000 description 4
- 239000006180 TBST buffer Substances 0.000 description 4
- 102100026369 Ubiquitin thioesterase OTU1 Human genes 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 235000014633 carbohydrates Nutrition 0.000 description 4
- 230000018486 cell cycle phase Effects 0.000 description 4
- 230000024245 cell differentiation Effects 0.000 description 4
- 108091092328 cellular RNA Proteins 0.000 description 4
- 210000002808 connective tissue Anatomy 0.000 description 4
- 238000011109 contamination Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 4
- 235000011180 diphosphates Nutrition 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 239000000839 emulsion Substances 0.000 description 4
- 210000000981 epithelium Anatomy 0.000 description 4
- 238000003209 gene knockout Methods 0.000 description 4
- 238000000338 in vitro Methods 0.000 description 4
- 238000011065 in-situ storage Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 229960001614 levamisole Drugs 0.000 description 4
- 210000002540 macrophage Anatomy 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 210000003716 mesoderm Anatomy 0.000 description 4
- 239000002077 nanosphere Substances 0.000 description 4
- 210000001623 nucleosome Anatomy 0.000 description 4
- 230000005298 paramagnetic effect Effects 0.000 description 4
- 238000000059 patterning Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 108020004418 ribosomal RNA Proteins 0.000 description 4
- 210000003491 skin Anatomy 0.000 description 4
- 101150055666 sox6 gene Proteins 0.000 description 4
- 210000000130 stem cell Anatomy 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- ZLOIGESWDJYCTF-UHFFFAOYSA-N 4-Thiouridine Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=S)C=C1 ZLOIGESWDJYCTF-UHFFFAOYSA-N 0.000 description 3
- HRPVXLWXLXDGHG-UHFFFAOYSA-N Acrylamide Chemical compound NC(=O)C=C HRPVXLWXLXDGHG-UHFFFAOYSA-N 0.000 description 3
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 3
- 102000014914 Carrier Proteins Human genes 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 3
- 230000004568 DNA-binding Effects 0.000 description 3
- 241000252212 Danio rerio Species 0.000 description 3
- 101100286129 Danio rerio hoxd13a gene Proteins 0.000 description 3
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 230000035519 G0 Phase Effects 0.000 description 3
- 102100022967 General transcription factor II-I repeat domain-containing protein 1 Human genes 0.000 description 3
- 101000903798 Homo sapiens General transcription factor II-I repeat domain-containing protein 1 Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 241001529936 Murinae Species 0.000 description 3
- 108020003217 Nuclear RNA Proteins 0.000 description 3
- 102000043141 Nuclear RNA Human genes 0.000 description 3
- 101150044101 PAX9 gene Proteins 0.000 description 3
- 229910019142 PO4 Inorganic materials 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 230000000692 anti-sense effect Effects 0.000 description 3
- 108091008324 binding proteins Proteins 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 230000006369 cell cycle progression Effects 0.000 description 3
- 230000006037 cell lysis Effects 0.000 description 3
- 230000004663 cell proliferation Effects 0.000 description 3
- 210000001072 colon Anatomy 0.000 description 3
- 230000000112 colonic effect Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 239000003431 cross linking reagent Substances 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 210000004443 dendritic cell Anatomy 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 230000003511 endothelial effect Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008014 freezing Effects 0.000 description 3
- 238000007710 freezing Methods 0.000 description 3
- 230000007045 gastrulation Effects 0.000 description 3
- 210000001654 germ layer Anatomy 0.000 description 3
- 230000003394 haemopoietic effect Effects 0.000 description 3
- 210000003494 hepatocyte Anatomy 0.000 description 3
- 210000003734 kidney Anatomy 0.000 description 3
- 210000002752 melanocyte Anatomy 0.000 description 3
- 210000001616 monocyte Anatomy 0.000 description 3
- 239000002777 nucleoside Substances 0.000 description 3
- 150000003833 nucleoside derivatives Chemical class 0.000 description 3
- 210000000496 pancreas Anatomy 0.000 description 3
- 239000010452 phosphate Substances 0.000 description 3
- 229920003023 plastic Polymers 0.000 description 3
- 239000004033 plastic Substances 0.000 description 3
- 230000037452 priming Effects 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000012488 skeletal system development Effects 0.000 description 3
- 210000000278 spinal cord Anatomy 0.000 description 3
- 239000004094 surface-active agent Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 229940124597 therapeutic agent Drugs 0.000 description 3
- 238000012085 transcriptional profiling Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 238000011740 C57BL/6 mouse Methods 0.000 description 2
- 108091033409 CRISPR Proteins 0.000 description 2
- 238000010354 CRISPR gene editing Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 102100024340 Contactin-4 Human genes 0.000 description 2
- 101710107714 Contactin-4 Proteins 0.000 description 2
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 2
- 108010008286 DNA nucleotidylexotransferase Proteins 0.000 description 2
- 102100029764 DNA-directed DNA/RNA polymerase mu Human genes 0.000 description 2
- SHIBSTMRCDJXLN-UHFFFAOYSA-N Digoxigenin Natural products C1CC(C2C(C3(C)CCC(O)CC3CC2)CC2O)(O)C2(C)C1C1=CC(=O)OC1 SHIBSTMRCDJXLN-UHFFFAOYSA-N 0.000 description 2
- 108010067770 Endopeptidase K Proteins 0.000 description 2
- 102100031702 Endoplasmic reticulum membrane sensor NFE2L1 Human genes 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 230000037057 G1 phase arrest Effects 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- HTTJABKRGRZYRN-UHFFFAOYSA-N Heparin Chemical compound OC1C(NC(=O)C)C(O)OC(COS(O)(=O)=O)C1OC1C(OS(O)(=O)=O)C(O)C(OC2C(C(OS(O)(=O)=O)C(OC3C(C(O)C(O)C(O3)C(O)=O)OS(O)(=O)=O)C(CO)O2)NS(O)(=O)=O)C(C(O)=O)O1 HTTJABKRGRZYRN-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101000588298 Homo sapiens Endoplasmic reticulum membrane sensor NFE2L1 Proteins 0.000 description 2
- 101001076292 Homo sapiens Insulin-like growth factor II Proteins 0.000 description 2
- 101000577547 Homo sapiens Nuclear respiratory factor 1 Proteins 0.000 description 2
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 2
- 101001028730 Homo sapiens Transcription factor JunB Proteins 0.000 description 2
- 102100025947 Insulin-like growth factor II Human genes 0.000 description 2
- 108091007767 MALAT1 Proteins 0.000 description 2
- 108010052285 Membrane Proteins Proteins 0.000 description 2
- 102000018697 Membrane Proteins Human genes 0.000 description 2
- 101100343535 Mus musculus Litaf gene Proteins 0.000 description 2
- 108010071382 NF-E2-Related Factor 2 Proteins 0.000 description 2
- 102100031701 Nuclear factor erythroid 2-related factor 2 Human genes 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 101150031628 PITX2 gene Proteins 0.000 description 2
- KDLHZDBZIXYQEI-UHFFFAOYSA-N Palladium Chemical compound [Pd] KDLHZDBZIXYQEI-UHFFFAOYSA-N 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 102000035195 Peptidases Human genes 0.000 description 2
- 239000002202 Polyethylene glycol Substances 0.000 description 2
- 102000006382 Ribonucleases Human genes 0.000 description 2
- 108010083644 Ribonucleases Proteins 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 108010006785 Taq Polymerase Proteins 0.000 description 2
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 2
- 102100037168 Transcription factor JunB Human genes 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 210000001789 adipocyte Anatomy 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000033366 cell cycle process Effects 0.000 description 2
- 230000011712 cell development Effects 0.000 description 2
- 230000007910 cell fusion Effects 0.000 description 2
- 230000006727 cell loss Effects 0.000 description 2
- 239000013592 cell lysate Substances 0.000 description 2
- 230000036755 cellular response Effects 0.000 description 2
- 210000003169 central nervous system Anatomy 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 238000003508 chemical denaturation Methods 0.000 description 2
- 238000007385 chemical modification Methods 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001054 cortical effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000009089 cytolysis Effects 0.000 description 2
- 238000004163 cytometry Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 239000005547 deoxyribonucleotide Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- QONQRTHLHBTMGP-UHFFFAOYSA-N digitoxigenin Natural products CC12CCC(C3(CCC(O)CC3CC3)C)C3C11OC1CC2C1=CC(=O)OC1 QONQRTHLHBTMGP-UHFFFAOYSA-N 0.000 description 2
- 239000013024 dilution buffer Substances 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000012149 elution buffer Substances 0.000 description 2
- 210000002308 embryonic cell Anatomy 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 238000010362 genome editing Methods 0.000 description 2
- 210000003714 granulocyte Anatomy 0.000 description 2
- 238000000227 grinding Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 210000002216 heart Anatomy 0.000 description 2
- 238000003505 heat denaturation Methods 0.000 description 2
- 229960002897 heparin Drugs 0.000 description 2
- 229920000669 heparin Polymers 0.000 description 2
- 230000002440 hepatic effect Effects 0.000 description 2
- 210000005260 human cell Anatomy 0.000 description 2
- 230000003100 immobilizing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 229940068935 insulin-like growth factor 2 Drugs 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 101150033420 lmo2 gene Proteins 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000012139 lysis buffer Substances 0.000 description 2
- 238000007403 mPCR Methods 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 210000003593 megakaryocyte Anatomy 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 210000000663 muscle cell Anatomy 0.000 description 2
- 239000002102 nanobead Substances 0.000 description 2
- 210000000822 natural killer cell Anatomy 0.000 description 2
- 210000001020 neural plate Anatomy 0.000 description 2
- 210000005155 neural progenitor cell Anatomy 0.000 description 2
- 210000004498 neuroglial cell Anatomy 0.000 description 2
- 230000004031 neuronal differentiation Effects 0.000 description 2
- 239000012038 nucleophile Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000004789 organ system Anatomy 0.000 description 2
- 210000000963 osteoblast Anatomy 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 210000001672 ovary Anatomy 0.000 description 2
- 210000002741 palatine tonsil Anatomy 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 101150103310 pitx1 gene Proteins 0.000 description 2
- 238000005498 polishing Methods 0.000 description 2
- 229920002401 polyacrylamide Polymers 0.000 description 2
- 229920001223 polyethylene glycol Polymers 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 239000011148 porous material Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 239000011541 reaction mixture Substances 0.000 description 2
- 210000000664 rectum Anatomy 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000001177 retroviral effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 210000003705 ribosome Anatomy 0.000 description 2
- 210000004116 schwann cell Anatomy 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000001542 size-exclusion chromatography Methods 0.000 description 2
- 238000001179 sorption measurement Methods 0.000 description 2
- 238000013112 stability test Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- UCSJYZPVAKXKNQ-HZYVHMACSA-N streptomycin Chemical compound CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](NC(N)=N)[C@H](O)[C@@H](NC(N)=N)[C@H](O)[C@H]1O UCSJYZPVAKXKNQ-HZYVHMACSA-N 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 210000001550 testis Anatomy 0.000 description 2
- 239000002562 thickening agent Substances 0.000 description 2
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 210000002105 tongue Anatomy 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000001226 triphosphate Substances 0.000 description 2
- 235000011178 triphosphate Nutrition 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 210000003932 urinary bladder Anatomy 0.000 description 2
- 210000004291 uterus Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 101150020580 yap1 gene Proteins 0.000 description 2
- JUIKUQOUMZUFQT-UHFFFAOYSA-N 2-bromoacetamide Chemical group NC(=O)CBr JUIKUQOUMZUFQT-UHFFFAOYSA-N 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- 208000020570 3p deletion syndrome Diseases 0.000 description 1
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- BUZOGVVQWCXXDP-VPENINKCSA-N 8-oxo-dGTP Chemical compound O=C1NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 BUZOGVVQWCXXDP-VPENINKCSA-N 0.000 description 1
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 1
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 101710092462 Alpha-hemolysin Proteins 0.000 description 1
- 241000269332 Ambystoma mexicanum Species 0.000 description 1
- 241000269350 Anura Species 0.000 description 1
- 101100302211 Arabidopsis thaliana RNR2A gene Proteins 0.000 description 1
- 108090001008 Avidin Proteins 0.000 description 1
- 210000002237 B-cell of pancreatic islet Anatomy 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- KWIUHFFTVRNATP-UHFFFAOYSA-N Betaine Natural products C[N+](C)(C)CC([O-])=O KWIUHFFTVRNATP-UHFFFAOYSA-N 0.000 description 1
- 238000012169 CITE-Seq Methods 0.000 description 1
- 238000010453 CRISPR/Cas method Methods 0.000 description 1
- 241000244203 Caenorhabditis elegans Species 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 108010059892 Cellulase Proteins 0.000 description 1
- 101150058295 Cntn4 gene Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 108091028732 Concatemer Proteins 0.000 description 1
- 101700026669 DACH1 Proteins 0.000 description 1
- 238000010442 DNA editing Methods 0.000 description 1
- 102000003844 DNA helicases Human genes 0.000 description 1
- 108090000133 DNA helicases Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 1
- 102100028735 Dachshund homolog 1 Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 206010012559 Developmental delay Diseases 0.000 description 1
- 208000012239 Developmental disease Diseases 0.000 description 1
- 229920002307 Dextran Polymers 0.000 description 1
- 230000010777 Disulfide Reduction Effects 0.000 description 1
- 239000006144 Dulbecco’s modified Eagle's medium Substances 0.000 description 1
- 108010036466 E2F2 Transcription Factor Proteins 0.000 description 1
- 101150084967 EPCAM gene Proteins 0.000 description 1
- 101150016325 EPHA3 gene Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 108091092566 Extrachromosomal DNA Proteins 0.000 description 1
- 101150099234 FGF10 gene Proteins 0.000 description 1
- 101150112093 FGF9 gene Proteins 0.000 description 1
- 108010044495 Fetal Hemoglobin Proteins 0.000 description 1
- 229920001917 Ficoll Polymers 0.000 description 1
- 240000008168 Ficus benjamina Species 0.000 description 1
- 108010008599 Forkhead Box Protein M1 Proteins 0.000 description 1
- 108010009306 Forkhead Box Protein O1 Proteins 0.000 description 1
- 102100023374 Forkhead box protein M1 Human genes 0.000 description 1
- 102100035427 Forkhead box protein O1 Human genes 0.000 description 1
- 230000037059 G2/M phase arrest Effects 0.000 description 1
- 208000003098 Ganglion Cysts Diseases 0.000 description 1
- 108010033128 Glucan Endo-1,3-beta-D-Glucosidase Proteins 0.000 description 1
- SXRSQZLOMIGNAQ-UHFFFAOYSA-N Glutaraldehyde Chemical compound O=CCCCC=O SXRSQZLOMIGNAQ-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 102000010956 Glypican Human genes 0.000 description 1
- 108050001154 Glypican Proteins 0.000 description 1
- 108050007237 Glypican-3 Proteins 0.000 description 1
- 244000060234 Gmelina philippensis Species 0.000 description 1
- 101150112082 Gpnmb gene Proteins 0.000 description 1
- 208000031886 HIV Infections Diseases 0.000 description 1
- 108090000031 Hedgehog Proteins Proteins 0.000 description 1
- 102000003693 Hedgehog Proteins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000593405 Homo sapiens Myb-related protein B Proteins 0.000 description 1
- 101001109698 Homo sapiens Nuclear receptor subfamily 4 group A member 2 Proteins 0.000 description 1
- 101001132698 Homo sapiens Retinoic acid receptor beta Proteins 0.000 description 1
- 101000707471 Homo sapiens Serine incorporator 3 Proteins 0.000 description 1
- 101000866292 Homo sapiens Transcription factor E2F7 Proteins 0.000 description 1
- 101000653735 Homo sapiens Transcriptional enhancer factor TEF-1 Proteins 0.000 description 1
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 1
- 241000713340 Human immunodeficiency virus 2 Species 0.000 description 1
- 101150088952 IGF1 gene Proteins 0.000 description 1
- 101150002416 Igf2 gene Proteins 0.000 description 1
- 241000102542 Kara Species 0.000 description 1
- 102100020679 Krueppel-like factor 6 Human genes 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 101150040658 LHX2 gene Proteins 0.000 description 1
- 108090001090 Lectins Proteins 0.000 description 1
- 102000004856 Lectins Human genes 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 108090000988 Lysostaphin Proteins 0.000 description 1
- 101150054908 MYH3 gene Proteins 0.000 description 1
- 101150094019 MYOG gene Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 108010006519 Molecular Chaperones Proteins 0.000 description 1
- 102000005431 Molecular Chaperones Human genes 0.000 description 1
- SOWBFZRMHSNYGE-UHFFFAOYSA-N Monoamide-Oxalic acid Natural products NC(=O)C(O)=O SOWBFZRMHSNYGE-UHFFFAOYSA-N 0.000 description 1
- 101150118570 Msx2 gene Proteins 0.000 description 1
- 108010014251 Muramidase Proteins 0.000 description 1
- 102000016943 Muramidase Human genes 0.000 description 1
- 241000714177 Murine leukemia virus Species 0.000 description 1
- 101100172630 Mus musculus Eri1 gene Proteins 0.000 description 1
- 101100397133 Mus musculus Iqcj-Schip1 gene Proteins 0.000 description 1
- 101100351033 Mus musculus Pax7 gene Proteins 0.000 description 1
- 101100364746 Mus musculus Slc35f4 gene Proteins 0.000 description 1
- 101100482085 Mus musculus Trim30a gene Proteins 0.000 description 1
- 102100034670 Myb-related protein B Human genes 0.000 description 1
- 102100032970 Myogenin Human genes 0.000 description 1
- 108010056785 Myogenin Proteins 0.000 description 1
- KWIUHFFTVRNATP-UHFFFAOYSA-O N,N,N-trimethylglycinium Chemical compound C[N+](C)(C)CC(O)=O KWIUHFFTVRNATP-UHFFFAOYSA-O 0.000 description 1
- 108010062010 N-Acetylmuramoyl-L-alanine Amidase Proteins 0.000 description 1
- 206010052399 Neuroendocrine tumour Diseases 0.000 description 1
- 102100032062 Neurogenic differentiation factor 2 Human genes 0.000 description 1
- 108050000625 Neurogenic differentiation factor 2 Proteins 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 108050000592 Neurogenic differentiation factor 6 Proteins 0.000 description 1
- 102000019040 Nuclear Antigens Human genes 0.000 description 1
- 108010051791 Nuclear Antigens Proteins 0.000 description 1
- 102100022676 Nuclear receptor subfamily 4 group A member 2 Human genes 0.000 description 1
- 102100031915 Otoconin-90 Human genes 0.000 description 1
- 101710132333 Otoconin-90 Proteins 0.000 description 1
- 101150095051 PRTG gene Proteins 0.000 description 1
- 108020002230 Pancreatic Ribonuclease Proteins 0.000 description 1
- 102000005891 Pancreatic ribonuclease Human genes 0.000 description 1
- 229930182555 Penicillin Natural products 0.000 description 1
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 1
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 description 1
- 239000004372 Polyvinyl alcohol Substances 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 241000910071 Pyrobaculum filamentous virus 1 Species 0.000 description 1
- 101710086015 RNA ligase Proteins 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 230000006819 RNA synthesis Effects 0.000 description 1
- 101150002896 RNR2 gene Proteins 0.000 description 1
- 102100033909 Retinoic acid receptor beta Human genes 0.000 description 1
- 101710141795 Ribonuclease inhibitor Proteins 0.000 description 1
- 229940122208 Ribonuclease inhibitor Drugs 0.000 description 1
- 102100037968 Ribonuclease inhibitor Human genes 0.000 description 1
- 101150081509 SLC16A10 gene Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 101150070469 Schip1 gene Proteins 0.000 description 1
- 102100031727 Serine incorporator 3 Human genes 0.000 description 1
- 102100025490 Slit homolog 1 protein Human genes 0.000 description 1
- 101150028561 Slit1 gene Proteins 0.000 description 1
- 101150024495 Snap91 gene Proteins 0.000 description 1
- 101150117830 Sox5 gene Proteins 0.000 description 1
- 101150049022 Spon1 gene Proteins 0.000 description 1
- 102100036428 Spondin-1 Human genes 0.000 description 1
- 101710092167 Spondin-1 Proteins 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 208000005400 Synovial Cyst Diseases 0.000 description 1
- 102000052935 T-box transcription factor Human genes 0.000 description 1
- 108700035811 T-box transcription factor Proteins 0.000 description 1
- 108700040013 TEA Domain Transcription Factors Proteins 0.000 description 1
- 101150025711 TF gene Proteins 0.000 description 1
- 101100239689 Takifugu rubripes myod gene Proteins 0.000 description 1
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical class O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 1
- 108010012306 Tn5 transposase Proteins 0.000 description 1
- 101001023030 Toxoplasma gondii Myosin-D Proteins 0.000 description 1
- 101150071739 Tp63 gene Proteins 0.000 description 1
- 108700009124 Transcription Initiation Site Proteins 0.000 description 1
- 102100024024 Transcription factor E2F2 Human genes 0.000 description 1
- 102100031556 Transcription factor E2F7 Human genes 0.000 description 1
- 102100034204 Transcription factor SOX-9 Human genes 0.000 description 1
- 101710198026 Transcription factor SOX-9 Proteins 0.000 description 1
- 102100029898 Transcriptional enhancer factor TEF-1 Human genes 0.000 description 1
- 239000013504 Triton X-100 Substances 0.000 description 1
- 229920004890 Triton X-100 Polymers 0.000 description 1
- 101150032671 Trpm1 gene Proteins 0.000 description 1
- 108090000631 Trypsin Proteins 0.000 description 1
- 102000004142 Trypsin Human genes 0.000 description 1
- 101100239691 Xenopus laevis myod1-a gene Proteins 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 230000009056 active transport Effects 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 230000001464 adherent effect Effects 0.000 description 1
- 210000000577 adipose tissue Anatomy 0.000 description 1
- 230000001919 adrenal effect Effects 0.000 description 1
- 101150000319 aer gene Proteins 0.000 description 1
- 238000005054 agglomeration Methods 0.000 description 1
- 238000005804 alkylation reaction Methods 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 208000033571 alveolar capillary dysplasia with misalignment of pulmonary veins Diseases 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 230000019552 anatomical structure morphogenesis Effects 0.000 description 1
- 239000007864 aqueous solution Substances 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000001130 astrocyte Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 210000003651 basophil Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960003237 betaine Drugs 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000012148 binding buffer Substances 0.000 description 1
- 238000000876 binomial test Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 210000003443 bladder cell Anatomy 0.000 description 1
- 210000002459 blastocyst Anatomy 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 101150067309 bmp4 gene Proteins 0.000 description 1
- 210000002449 bone cell Anatomy 0.000 description 1
- 230000004641 brain development Effects 0.000 description 1
- 210000000984 branchial region Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 230000023852 carbohydrate metabolic process Effects 0.000 description 1
- 235000021256 carbohydrate metabolism Nutrition 0.000 description 1
- 235000011089 carbon dioxide Nutrition 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000022159 cartilage development Effects 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000012820 cell cycle checkpoint Effects 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 230000007726 cellular glucose metabolism Effects 0.000 description 1
- 230000004640 cellular pathway Effects 0.000 description 1
- 229940106157 cellulase Drugs 0.000 description 1
- 230000021617 central nervous system development Effects 0.000 description 1
- 210000001638 cerebellum Anatomy 0.000 description 1
- 239000013043 chemical agent Substances 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000005757 colony formation Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 229920001577 copolymer Polymers 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 1
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 1
- RGWHQCVHVJXOKC-SHYZEUOFSA-J dCTP(4-) Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-J 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000000326 densiometry Methods 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000005546 dideoxynucleotide Substances 0.000 description 1
- 230000009274 differential gene expression Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000012161 digital transcriptional profiling Methods 0.000 description 1
- SHIBSTMRCDJXLN-KCZCNTNESA-N digoxigenin Chemical compound C1([C@@H]2[C@@]3([C@@](CC2)(O)[C@H]2[C@@H]([C@@]4(C)CC[C@H](O)C[C@H]4CC2)C[C@H]3O)C)=CC(=O)OC1 SHIBSTMRCDJXLN-KCZCNTNESA-N 0.000 description 1
- 229940042399 direct acting antivirals protease inhibitors Drugs 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 125000002228 disulfide group Chemical group 0.000 description 1
- 210000003981 ectoderm Anatomy 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 239000003480 eluent Substances 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 210000001842 enterocyte Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000000918 epididymis Anatomy 0.000 description 1
- 201000010063 epididymitis Diseases 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 239000011536 extraction buffer Substances 0.000 description 1
- 230000004373 eye development Effects 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 239000011888 foil Substances 0.000 description 1
- 239000012520 frozen sample Substances 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 238000010199 gene set enrichment analysis Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000004153 glucose metabolism Effects 0.000 description 1
- 210000001362 glutamatergic neuron Anatomy 0.000 description 1
- 108010026195 glycanase Proteins 0.000 description 1
- 210000002149 gonad Anatomy 0.000 description 1
- 101150039713 gpc3 gene Proteins 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000003630 histaminocyte Anatomy 0.000 description 1
- 230000013632 homeostatic process Effects 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 210000001926 inhibitory interneuron Anatomy 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 210000002510 keratinocyte Anatomy 0.000 description 1
- 239000002523 lectin Substances 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 231100000225 lethality Toxicity 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000007834 ligase chain reaction Methods 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 210000003563 lymphoid tissue Anatomy 0.000 description 1
- 235000010335 lysozyme Nutrition 0.000 description 1
- 229960000274 lysozyme Drugs 0.000 description 1
- 239000004325 lysozyme Substances 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 102000016470 mariner transposase Human genes 0.000 description 1
- 108060004631 mariner transposase Proteins 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 210000005074 megakaryoblast Anatomy 0.000 description 1
- 210000002780 melanosome Anatomy 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 210000001259 mesencephalon Anatomy 0.000 description 1
- 230000007744 mesenchymal cell development Effects 0.000 description 1
- 238000001466 metabolic labeling Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000002025 microglial effect Effects 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 230000027291 mitotic cell cycle Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003003 monocyte-macrophage precursor cell Anatomy 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 229940126619 mouse monoclonal antibody Drugs 0.000 description 1
- 108010009127 mu transposase Proteins 0.000 description 1
- 230000009756 muscle regeneration Effects 0.000 description 1
- 210000001167 myeloblast Anatomy 0.000 description 1
- 210000003098 myoblast Anatomy 0.000 description 1
- 230000001114 myogenic effect Effects 0.000 description 1
- UYORIKDXEZTMQA-UHFFFAOYSA-N n-[5-[(2-azidoacetyl)amino]pentyl]prop-2-enamide Chemical compound C=CC(=O)NCCCCCNC(=O)CN=[N+]=[N-] UYORIKDXEZTMQA-UHFFFAOYSA-N 0.000 description 1
- KVLNTIPUCYZQHA-UHFFFAOYSA-N n-[5-[(2-bromoacetyl)amino]pentyl]prop-2-enamide Chemical compound BrCC(=O)NCCCCCNC(=O)C=C KVLNTIPUCYZQHA-UHFFFAOYSA-N 0.000 description 1
- 239000002086 nanomaterial Substances 0.000 description 1
- 210000001989 nasopharynx Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 101150017648 neurod2 gene Proteins 0.000 description 1
- 210000004412 neuroendocrine cell Anatomy 0.000 description 1
- 208000016065 neuroendocrine neoplasm Diseases 0.000 description 1
- 201000011519 neuroendocrine tumor Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000003924 normoblast Anatomy 0.000 description 1
- 102000044158 nucleic acid binding protein Human genes 0.000 description 1
- 108700020942 nucleic acid binding protein Proteins 0.000 description 1
- 238000003203 nucleic acid sequencing method Methods 0.000 description 1
- 238000001668 nucleic acid synthesis Methods 0.000 description 1
- 238000010534 nucleophilic substitution reaction Methods 0.000 description 1
- 230000005257 nucleotidylation Effects 0.000 description 1
- 210000004409 osteocyte Anatomy 0.000 description 1
- 210000003101 oviduct Anatomy 0.000 description 1
- 210000004681 ovum Anatomy 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 229910052763 palladium Inorganic materials 0.000 description 1
- 210000002571 pancreatic alpha cell Anatomy 0.000 description 1
- 239000000123 paper Substances 0.000 description 1
- 230000000849 parathyroid Effects 0.000 description 1
- 238000002161 passivation Methods 0.000 description 1
- 230000009057 passive transport Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 229940049954 penicillin Drugs 0.000 description 1
- 239000000137 peptide hydrolase inhibitor Substances 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000004594 persistent fetal circulation syndrome Diseases 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- 238000000206 photolithography Methods 0.000 description 1
- 230000001817 pituitary effect Effects 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 230000004983 pleiotropic effect Effects 0.000 description 1
- 229920000136 polysorbate Polymers 0.000 description 1
- 229920002451 polyvinyl alcohol Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000002987 primer (paints) Substances 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 235000019419 proteases Nutrition 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 210000003124 radial glial cell Anatomy 0.000 description 1
- 239000000376 reactant Substances 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000011506 response to oxidative stress Effects 0.000 description 1
- 230000003938 response to stress Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000004491 retinal development Effects 0.000 description 1
- 210000003079 salivary gland Anatomy 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000001044 sensory neuron Anatomy 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 235000012239 silicon dioxide Nutrition 0.000 description 1
- 238000012174 single-cell RNA sequencing Methods 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 210000001057 smooth muscle myoblast Anatomy 0.000 description 1
- 210000002023 somite Anatomy 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 229960005322 streptomycin Drugs 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 210000002435 tendon Anatomy 0.000 description 1
- 238000011191 terminal modification Methods 0.000 description 1
- 230000002381 testicular Effects 0.000 description 1
- 210000001103 thalamus Anatomy 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
- 150000003573 thiols Chemical class 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 108091008023 transcriptional regulators Proteins 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 1
- 239000012588 trypsin Substances 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 210000000626 ureter Anatomy 0.000 description 1
- 210000003708 urethra Anatomy 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 108700014981 vertebrate slit Proteins 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 230000029663 wound healing Effects 0.000 description 1
- 210000001325 yolk sac Anatomy 0.000 description 1
Images
Abstract
Description
Перекрестная ссылка на родственные заявкиCross-reference to related applications
[0001] В настоящей заявке испрашивается преимущество предварительной заявки на патент США рег. №62/680259, поданной 4 июня 2018, и предварительной заявки на патент США рег. №62/821678, поданной 21 марта 2019, содержание которых включено в настоящее описание в полном объеме.[0001] This application claims the benefit of U.S. Provisional Application Reg. No. 62/680259, filed June 4, 2018, and U.S. Provisional Application Reg. No. 62/821678, filed March 21, 2019, the contents of which are included in this description in full.
Заявление о спонсировании правительством на средства Федерального фондаApplication for Government Sponsorship with Federal Funds
[0002] Настоящее изобретение было разработано при поддержке Правительства на грант No. DP1 HG007811, выданный Национальным Институтом Здравоохранения. Правительство имеет определенные права на это изобретение.[0002] The present invention was developed with government support under Grant No. DP1 HG007811 issued by the National Institutes of Health. The government has certain rights to this invention.
Область изобретенияField of invention
[0003] Варианты раскрытия настоящего изобретения относятся к секвенированию нуклеиновых кислот. В частности, варианты описанных здесь способов и композиций относятся к получению индексированных моноклеточных библиотек транскритомов и к получению данных об их последовательностях.[0003] Embodiments of the present invention relate to nucleic acid sequencing. In particular, variants of the methods and compositions described herein relate to the production of indexed single cell libraries of transcriptomes and their sequence data acquisition.
Предпосылки создания изобретенияPrerequisites for the creation of the invention
[0004] Клетки проходят через различные функциональные и молекулярные состояния на различных этапах своего развития, таких как развитие многоклеточного организма и ответ на различные условия, такие как воздействие терапевтического агента. Характеризация пути перехода состояний клеток или судьбы клеток является полезной для понимания клеточных путей, включая развитие и молекулярный ответ клеток на изменение окружающей среды. Так, например, могут быть идентифицированы регуляторы дефектов развития, что позволяет лучше понять механизмы влияния терапевтических агентов на клетки.[0004] Cells go through various functional and molecular states at various stages of their development, such as the development of a multicellular organism and response to various conditions, such as exposure to a therapeutic agent. Characterization of cell state transition pathways or cell fate is useful for understanding cellular pathways, including cell development and molecular response to environmental change. Thus, for example, regulators of developmental defects can be identified, which allows a better understanding of the mechanisms of action of therapeutic agents on cells.
[0005] Комбинаторное индексирование отдельных клеток («sci») представляет собой методику, в основе которой используется штриховое кодирование с разделением пулов для уникального мечения нуклеиновых кислот, содержащихся в большом количестве в отдельных клетках или ядрах. Однако, современные геномные методы, проводимые с использованием отдельных клеток, не обладают достаточной пропускной способностью и разрешением для получения общего представления о молекулярных состояниях и траекториях быстро диверсифицирующегося и расширяющегося числа типов клеток, которые обычно присутствуют во время развития многоклеточного организма. Современные геномные методы, проводимые с использованием отдельных клеток, позволяют лишь быстро зафиксировать состояние клетки, а поэтому не могут предоставить информацию о динамике перехода клетки из одного состояния в другое, регулируемой внутренними факторами (например, программой внутреннего клеточного цикла) и внешними факторами (например, ответом клетки на внешний стимул, такой как терапевтический агент).[0005] Combinatorial single cell indexing ("sci") is a technique that uses pooled barcoding to uniquely label nucleic acids that are abundant in single cells or nuclei. However, current single-cell genomic methods lack sufficient throughput and resolution to provide a general understanding of the molecular states and trajectories of the rapidly diversifying and expanding number of cell types that are normally present during the development of a multicellular organism. Modern genomic methods, carried out using single cells, allow only a quick fixation of the state of the cell, and therefore cannot provide information on the dynamics of the cell transition from one state to another, regulated by internal factors (for example, the internal cell cycle program) and external factors (for example, response of a cell to an external stimulus such as a therapeutic agent).
СущностьEssence
[0006] Настоящее изобретение относится к способам идентификации динамики перехода клетки из одного состояния в другое путем мечения вновь синтезированной РНК. Целые и вновь синтезированные РНК-транскриптомы фиксируют для характеризации динамики транскритомов между временными точками на уровне отдельных клеток. Настоящее изобретение также относится к способам, которые направлены на секвенирование представляющих интерес мРНК отдельных клеток, что позволяет устранить ограничения по силе тока при детектировании изменений количества любого данного транскрипта. Кроме того, настоящее изобретение относится к способам, которые снижают уровень потери клеток и устраняют ограничения по эффективности реакций, что позволяет определить профиль большего количества отдельных клеток, чем это было возможно ранее.[0006] The present invention relates to methods for identifying the dynamics of a cell's transition from one state to another by labeling newly synthesized RNA. Whole and newly synthesized RNA transcriptomes are fixed to characterize the dynamics of transcriptomes between time points at the individual cell level. The present invention also relates to methods that are directed to sequencing single cell mRNAs of interest, thereby eliminating current limitations in detecting changes in the amount of any given transcript. In addition, the present invention relates to methods that reduce the rate of cell loss and remove limitations on the effectiveness of reactions, which allows you to profile more individual cells than previously possible.
[0007] В одном варианте осуществления изобретения, способ включает получение множества ядер или клеток в первом множестве компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток, и мечение вновь синтезированной РНК в субпопуляциях клеток или ядер, полученных из клеток. Молекулы РНК в каждой субпопуляции ядер или клеток обрабатывают для получения индексированных ядер или клеток, где такая обработка включает добавление к нуклеиновым кислотам РНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот ДНК, присутствующих в индексированных ядрах или клетках, а затем объединение индексированных ядер или клеток для создания объединенных индексированных ядер или клеток.[0007] In one embodiment of the invention, the method includes obtaining a plurality of nuclei or cells in a first plurality of compartments, where each compartment contains a subset of nuclei or cells, and labeling newly synthesized RNA in subpopulations of cells or nuclei derived from cells. The RNA molecules in each subset of nuclei or cells are processed to obtain indexed nuclei or cells, where such processing includes adding to the RNA nucleic acids present in each subset of nuclei or cells a first compartment-specific index sequence to obtain indexed DNA nucleic acids present in the indexed nuclei or cells, and then combining the indexed nuclei or cells to create the combined indexed nuclei or cells.
[0008] В другом варианте осуществления изобретения, способ включает получение множества ядер или клеток в первом множестве компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток. Каждую субпопуляцию подвергают контактированию с обратной транскриптазой и праймером, которые гибридизуются с предварительно определенной нуклеиновой кислотой РНК, что приводит к образованию двухцепочечных нуклеиновых кислот ДНК с праймером и соответствующей нуклеотидной последовательности ДНК из нуклеиновых кислот матричной РНК. Молекулы ДНК в каждой субпопуляции ядер или клеток обрабатывают для получения индексированных ядер или клеток, где такая обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот, присутствующих в индексированных ядрах или клетках, а затем объединение индексированных ядер или клеток для создания объединенных индексированных ядер или клеток.[0008] In another embodiment of the invention, the method includes obtaining a plurality of nuclei or cells in a first plurality of compartments, where each compartment contains a subset of nuclei or cells. Each subpopulation is contacted with reverse transcriptase and primer, which hybridize to a predetermined RNA nucleic acid, resulting in the formation of double-stranded DNA nucleic acids with the primer and the corresponding DNA nucleotide sequence from the messenger RNA nucleic acids. DNA molecules in each subset of nuclei or cells are processed to obtain indexed nuclei or cells, where such processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed nucleic acids present in indexed nuclei or cells, and then combining the indexed nuclei or cells to create the combined indexed nuclei or cells.
[0009] В другом варианте осуществления изобретения, способ включает получение множества ядер или клеток в первом множестве компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток. Каждую субпопуляцию подвергают контактированию с обратной транскриптазой и праймером, которые гибридизуются с предварительно определенной нуклеиновой кислотой РНК, что приводит к образованию двухцепочечных нуклеиновых кислот ДНК с праймером и соответствующей нуклеотидной последовательности ДНК из нуклеиновых кислот матричной РНК. Молекулы ДНК в каждой субпопуляции ядер или клеток обрабатывают для получения индексированных ядер или клеток, где такая обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот, присутствующих в индексированных ядрах или клетках, а затем объединение индексированных ядер или клеток для создания объединенных индексированных ядер или клеток. Объединенные в пул индексированные ядра или клетки разделяют, а затем дополнительно обрабатывают для добавления второго компартмент-специфического индекса к молекулам ДНК, объединяют, разделяют и снова обрабатывают для добавления третьего компартмент-специфического индекса к молекулам ДНК.[0009] In another embodiment of the invention, the method includes obtaining a plurality of nuclei or cells in a first plurality of compartments, where each compartment contains a subset of nuclei or cells. Each subpopulation is contacted with reverse transcriptase and primer, which hybridize to a predetermined RNA nucleic acid, resulting in the formation of double-stranded DNA nucleic acids with the primer and the corresponding DNA nucleotide sequence from the messenger RNA nucleic acids. DNA molecules in each subset of nuclei or cells are processed to obtain indexed nuclei or cells, where such processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed nucleic acids present in indexed nuclei or cells, and then combining the indexed nuclei or cells to create the combined indexed nuclei or cells. The pooled indexed nuclei or cells are separated and then further processed to add a second compartment-specific index to the DNA molecules, pooled, separated and processed again to add a third compartment-specific index to the DNA molecules.
[0010] Определения[0010] Definitions
[0011] Используемые здесь термины имеют общепринятое значение, известное специалистам в данной области, если это не оговорено особо. Некоторые используемые здесь термины и их значения приводятся ниже.[0011] The terms used here have the generally accepted meaning known to those skilled in the art, unless otherwise noted. Some of the terms used here and their meanings are given below.
[0012] Используемые здесь термины «организм» и «индивидуум» являются синонимами и относятся к микроорганизмам (например, к прокариотическим или эукариотическим), к животным и растениям. Примером животного является млекопитающее, такое как человек.[0012] As used herein, the terms "organism" and "individual" are synonymous and refer to microorganisms (eg, prokaryotic or eukaryotic), animals, and plants. An example of an animal is a mammal such as a human.
[0013] Используемый здесь термин «тип клеток» относится к идентификации клеток на основе морфологии, фенотипа, эволюционного развития или других известных или распознаваемых отличительных свойств клеток. Различные типы клеток могут быть получены из одного организма (или из организма одного и того же вида). Типичными типами клеток являются, но не ограничиваются ими, гаметы (включая женские гаметы, например, зрелые яйцеклетки или яйцеклетки, и мужские гаметы, например сперматозоиды), эпителиальные клетки яичника, фибробласты яичника, клетки яичек, клетки мочевого пузыря, иммунные клетки, В-клетки, Т-клетки, природные клетки-киллеры, дендритные клетки, раковые клетки, эукариотические клетки, стволовые клетки, клетки крови, мышечные клетки, жировые клетки, клетки кожи, нервные клетки, костные клетки, клетки поджелудочной железы, эндотелиальные клетки, эпителиальные клетки поджелудочной железы, альфа-клетки поджелудочной железы, бета-клетки поджелудочной железы, эндотелиальные клетки поджелудочной железы, лимфобласты костного мозга, В-лимфобласты костного мозга, макрофаги костного мозга, эритробласты костного мозга, дендритные клетки костного мозга, адипоциты костного мозга, остеоциты костного мозга, хондроциты костного мозга, промиелобласты, мегакариобласты костного мозга, клетки мочевого пузыря, В-лимфоциты головного мозга, глиальные клетки головного мозга, нейроны, астроциты головного мозга, клетки нейроэктодермы, макрофаги головного мозга, микроглиальные клетки головного мозга, эпителиальные клетки головного мозга, нейроны коркового слоя, фибробласты головного мозга, эпителиальные клетки молочной железы, эпителиальные клетки толстой кишки, В-лимфоциты толстой кишки, эпителиальные клетки молочной железы, миоэпителиальные клетки молочной железы, фибробласты молочной железы, энтероциты толстой кишки, эпителиальные клетки шейки матки, эпителиальные клетки протоков молочной железы, эпителиальные клетки языка, дендритные клетки миндалин, В-лимфоциты миндалин, лимфобласты периферической крови, Т-лимфобласты периферической крови, кожные Т-лимфоциты периферической крови, природные клетки-киллеры периферической крови, В-лимфобласты периферической крови, моноциты периферической крови, миелобласты периферической крови, монобласты периферической крови, промиелобласты периферической крови, макрофаги периферической крови, базофилы периферической крови, эпителиальные клетки печени, тучные клетки печени, эпителиальные клетки печени, В-лимфоциты печени, эндотелиальные клетки селезенки, эпителиальные клетки селезенки, В-лимфоциты селезенки, гепатоциты печени, фибробласты печени, эпителиальные клетки легких, эндотелиальные клетки бронхов, фибробласты легких, В-лимфоциты легких, шванновские клетки легких, плоские клетки легких, макрофаги легких, остеобласты легких, нейроэндокринные клетки, клетки альвеолы легких, эпителиальные клетки желудка и фибробласты желудка.[0013] As used herein, the term "cell type" refers to the identification of cells based on morphology, phenotype, evolutionary development, or other known or recognizable distinctive properties of cells. Different types of cells can be obtained from the same organism (or from an organism of the same species). Typical cell types include, but are not limited to, gametes (including female gametes, such as mature eggs or ova, and male gametes, such as spermatozoa), ovarian epithelial cells, ovarian fibroblasts, testicular cells, bladder cells, immune cells, B- cells, T cells, natural killer cells, dendritic cells, cancer cells, eukaryotic cells, stem cells, blood cells, muscle cells, fat cells, skin cells, nerve cells, bone cells, pancreatic cells, endothelial cells, epithelial cells pancreas, pancreatic alpha cells, pancreatic beta cells, pancreatic endothelial cells, bone marrow lymphoblasts, bone marrow B lymphoblasts, bone marrow macrophages, bone marrow erythroblasts, bone marrow dendritic cells, bone marrow adipocytes, bone marrow osteocytes , bone marrow chondrocytes, promyeloblasts, bone marrow megakaryoblasts, urinary bladder cells zyra, B-lymphocytes of the brain, glial cells of the brain, neurons, astrocytes of the brain, neuroectoderm cells, macrophages of the brain, microglial cells of the brain, epithelial cells of the brain, neurons of the cortical layer, fibroblasts of the brain, epithelial cells of the mammary gland, epithelial colonic cells, colonic B-lymphocytes, mammary epithelial cells, mammary myoepithelial cells, mammary fibroblasts, colonic enterocytes, cervical epithelial cells, mammary ductal epithelial cells, tongue epithelial cells, tonsil dendritic cells, B-lymphocytes tonsils, peripheral blood lymphoblasts, peripheral blood T lymphoblasts, skin peripheral blood T lymphocytes, peripheral blood natural killer cells, peripheral blood B lymphoblasts, peripheral blood monocytes, peripheral blood myeloblasts, peripheral blood monoblasts, peripheral promyeloblasts blood, peripheral blood macrophages, peripheral blood basophils, liver epithelial cells, liver mast cells, liver epithelial cells, liver B-lymphocytes, spleen endothelial cells, spleen epithelial cells, spleen B-lymphocytes, liver hepatocytes, liver fibroblasts, lung epithelial cells, bronchial endothelial cells, lung fibroblasts, lung B-lymphocytes, lung Schwann cells, lung squamous cells, lung macrophages, lung osteoblasts, neuroendocrine cells, lung alveolar cells, gastric epithelial cells and gastric fibroblasts.
[0014] Используемый здесь термин «ткань» означает скопление или агрегацию клеток, которые вместе выполняют одну или более специфических функций в организме. Клетки могут быть, но необязательно, морфологически сходными. Типичными тканями являются, но не ограничиваются ими, ткани эмбрионов, эпидидимиса, глаз, мышц, кожи, сухожилий, вены, артерий, крови, сердца, селезенки, лимфоузлов, кости, костного мозга, легких, бронхов, трахеи, кишечника, тонкого кишечника, толстой кишки, ободочной кишки, прямой кишки, слюнных желез, языка, желчного пузыря, аппендикса, печени, поджелудочной железы, головного мозга, желудка, кожи, почек, мочеточника, мочевого пузыря, мочеиспускательного канала, гонады, яичек, яичника, матки, фаллопиевых труб, тимуса, гипофиза, щитовидной железы, надпочечников или паращитовидной железы. Ткань может быть получена из любых различных органов человека или другого организма. Ткань может быть здоровой или пораженной заболеванием. Примерами пораженных заболеванием тканей являются, но не ограничиваются ими, злокачественные новообразования репродуктивной ткани, легких, молочной железы, толстой и прямой кишки, предстательной железы, носоглотки, желудка, яичек, кожи, нервной системы, кости, яичника, печени, кроветворных тканей, поджелудочной железы, матки, почек, лимфоидных тканей и т.п. Злокачественные новообразованиями могут быть новообразования различных гистологических подтипов, например, карцинома, аденокарцинома, саркома, фиброаденокарцинома, нейроэндокринная опухоль или недифференцированная опухоль.[0014] As used herein, the term "tissue" means a collection or aggregation of cells that together perform one or more specific functions in the body. The cells may be, but need not be, morphologically similar. Typical tissues include, but are not limited to, embryonic tissues, epididymis, eyes, muscles, skin, tendons, veins, arteries, blood, heart, spleen, lymph nodes, bone, bone marrow, lungs, bronchi, trachea, intestines, small intestines, colon, colon, rectum, salivary glands, tongue, gallbladder, appendix, liver, pancreas, brain, stomach, skin, kidney, ureter, bladder, urethra, gonad, testis, ovary, uterus, fallopian tubes, thymus, pituitary, thyroid, adrenal, or parathyroid. The tissue can be obtained from any of the various organs of a human or other organism. The tissue may be healthy or diseased. Examples of diseased tissues include, but are not limited to, malignant neoplasms of the reproductive tissue, lung, breast, colon and rectum, prostate, nasopharynx, stomach, testicles, skin, nervous system, bone, ovary, liver, hematopoietic tissues, pancreas glands, uterus, kidneys, lymphoid tissues, etc. Malignant neoplasms may be neoplasms of various histological subtypes, for example, carcinoma, adenocarcinoma, sarcoma, fibroadenocarcinoma, neuroendocrine tumor, or undifferentiated tumor.
[0015] Используемый здесь термин «компартмент» означает область или объем, которые отделяют или изолируют одни элементы от других элементов. Типичными компартментами являются, но не ограничиваются ими, флаконы, пробирки, лунки, капли, болюсы, сферы, сосуды, поверхностные элементы или области или объемы, разделенные физическими силами, такими как поток жидкости, магнетизм, электрический ток или т.п. В одном варианте осуществления изобретения, компартмент представляет собой лунку многолуночного планшета, такого как 96- или 384-луночный планшет. Используемый здесь термин «капли» может включать гидрогелевую сферу, которая представляет собой гранулу для инкапсуляции одного или более ядер или клеток, и включает гидрогелевую композицию. В некоторых вариантах осуществления изобретения, капля представляет собой гомогенную каплю из гидрогелевого вещества или представляет собой полую каплю, имеющую оболочку из полимерного гидрогеля. Гомогенная капля, независимо от того, является ли она гомогенной или полой, может быть подходящей для инкапсуляции в нее одного или более ядер или одной или более клеток. В некоторых вариантах осуществления изобретения, капля представляет собой каплю, стабилизированную поверхностно-активным веществом.[0015] As used herein, the term "compartment" means an area or volume that separates or isolates some elements from other elements. Typical compartments include, but are not limited to, vials, tubes, wells, drops, boluses, spheres, vessels, surface features, or areas or volumes separated by physical forces such as fluid flow, magnetism, electric current, or the like. In one embodiment of the invention, the compartment is a well of a multi-well plate, such as a 96- or 384-well plate. As used herein, the term "droplets" may include a hydrogel sphere, which is a bead to encapsulate one or more nuclei or cells, and includes a hydrogel composition. In some embodiments, the droplet is a homogeneous droplet of a hydrogel substance or is a hollow droplet having a polymeric hydrogel shell. A homogeneous droplet, whether homogeneous or hollow, may be suitable for encapsulation of one or more nuclei or one or more cells. In some embodiments of the invention, the drop is a drop stabilized with a surfactant.
[0016] Используемый здесь термин «транспосомный комплекс» означает фермент интеграции и нуклеиновую кислоту, включающую сайт распознавания интеграции. «Транспосомный комплекс» представляет собой функциональный комплекс, образованный транспозазой и сайтом распознавания транспозазы, который способен катализировать реакцию транспозиции (см., например, Gunderson et al., WO 2016/130704). Примерами ферментов интеграции являются, но не ограничиваются ими, интеграза или транспозаза. Примерами сайтов распознавания интеграции являются, но не ограничиваются ими, сайт распознавания транспозазы.[0016] As used herein, the term "transposome complex" means an integration enzyme and a nucleic acid comprising an integration recognition site. A "transposome complex" is a functional complex formed by a transposase and a transposase recognition site that is capable of catalyzing a transposition reaction (see, for example, Gunderson et al., WO 2016/130704). Examples of integration enzymes include, but are not limited to, integrase or transposase. Examples of integration recognition sites include, but are not limited to, a transposase recognition site.
[0017] Используемый здесь термин «нуклеиновая кислота» употребляется в соответствии с ее применением в данной области и включает природные нуклеиновые кислоты или их функциональные аналоги. Особенно подходящие функциональные аналоги способны гибридизоваться с нуклеиновой кислотой по последовательность-специфическому механизму или могут быть использованы в качестве матрицы для репликации конкретной нуклеотидной последовательности. Природные нуклеиновые кислоты обычно имеют остов, содержащий фосфодиэфирные связи. Структура аналога может иметь чередующуюся связь в остове, включая любую из множества связей, известных специалистам в данной области. Природные нуклеиновые кислоты обычно имеют сахар дезоксирибозу (например, присутствующую в дезоксирибонуклеиновой кислоте (ДНК)) или сахар рибозу (например, присутствующую в рибонуклеиновой кислоте (РНК)). Нуклеиновая кислота может содержать любой из ряда аналогов этих сахарных групп, известных специалистам в данной области. Нуклеиновая кислота может включать природные или неприродные основания. В соответствии с этим, природная дезоксирибонуклеиновая кислота может иметь одно или более оснований, выбранных из группы, состоящей из аденина, тимина, цитозина или гуанина, а рибонуклеиновая кислота может иметь одно или более оснований, выбранных из группы, состоящей из аденина, урацила, цитозина или гуанина. Подходящие неприродные основания, которые могут быть включены в нуклеиновую кислоту, известны специалистам в данной области. Примерами неприродных оснований являются блокированная нуклеиновая кислота (LNA), мостиковая нуклеиновая кислота (BNA) и псевдокомплементарные основания (Trilink Biotechnologies, San Diego, CA). В ДНК-олигонуклеотид могут быть включены основания LNA и BNA, которые повышают силу и специфичность гибридизации олигонуклеотидов. Основания LNA и BNA известны специалистам в данной области и используются в рутинных способах. Если это не оговорено особо, то термин «нуклеиновая кислота» включает природную и неприродную мРНК, некодирующую РНК, например РНК без poly-A на 3'-конце, нуклеиновые кислоты, происходящие от РНК, например, кДНК и ДНК.[0017] As used herein, the term "nucleic acid" is used in accordance with its use in this field and includes natural nucleic acids or their functional analogues. Particularly suitable functional analogs are capable of hybridizing to a nucleic acid in a sequence-specific manner, or may be used as a template for replication of a particular nucleotide sequence. Natural nucleic acids usually have a backbone containing phosphodiester bonds. The analog structure may have an alternating backbone bond, including any of a variety of bonds known to those skilled in the art. Natural nucleic acids typically have a deoxyribose sugar (eg, present in deoxyribonucleic acid (DNA)) or a ribose sugar (eg, present in ribonucleic acid (RNA)). The nucleic acid may contain any of a number of analogues of these sugar groups known to those skilled in the art. The nucleic acid may include natural or non-natural bases. Accordingly, natural deoxyribonucleic acid may have one or more bases selected from the group consisting of adenine, thymine, cytosine or guanine, and ribonucleic acid may have one or more bases selected from the group consisting of adenine, uracil, cytosine or guanine. Suitable non-natural bases that can be included in the nucleic acid are known to those skilled in the art. Examples of non-natural bases are blocked nucleic acid (LNA), bridged nucleic acid (BNA) and pseudo-complementary bases (Trilink Biotechnologies, San Diego, CA). Bases LNA and BNA can be included in the DNA oligonucleotide, which increase the strength and specificity of hybridization of the oligonucleotides. The bases of LNA and BNA are known to those skilled in the art and are used in routine methods. Unless otherwise noted, the term "nucleic acid" includes natural and non-natural mRNA, non-coding RNA, such as RNA without poly-A at the 3' end, RNA-derived nucleic acids, such as cDNA and DNA.
[0018] Используемый здесь термин «мишень», если он употребляется по отношению к нуклеиновой кислоте, означает семантический идентификатор нуклеиновой кислоты в описанных здесь способах или композициях и необязательно ограничивает структуру или функцию нуклеиновой кислоты помимо тех, которые были конкретно указаны. Нуклеиновая кислота-мишень может представлять собой, по существу, любую нуклеиновую кислоту с известной или неизвестной последовательностью. Нуклеиновая кислота может представлять собой, например, фрагмент геномной ДНК (например, хромосомной ДНК), внехромосомной ДНК, такой как плазмида, неклеточной ДНК, РНК (например, РНК или некодирующей РНК), белков (например, клеточных белков или белков клеточной поверхности) или кДНК. Секвенирование позволяет определить последовательность всей молекулы или части молекулы-мишени. Мишень может происходить от первичного образца нуклеиновой кислоты, такого как ядро. В одном варианте осуществления изобретения, мишени могут быть обработаны с получением матриц, подходящих для амплификации, путем присоединения универсальных последовательностей к одному или обоим концам каждого фрагмента-мишени. Мишени могут быть также получены из образца первичной РНК посредством обратной транскрипции в кДНК. В одном варианте осуществления изобретения, мишень используется в отношении подгруппы ДНК, РНК или белков, присутствующих в клетке. Целевое секвенирование включает отбор и выделение представляющих интерес генов или областей или белков, обычно, с помощью ПЦР-амплификации (например, область-специфических праймеров) или методом захвата на основе гибридизации или с использованием антител. Нацеленное обогащение может быть осуществлено на различных стадиях этого способа. Так, например, представление РНК-мишени может быть достигнуто с использованием мишень-специфических праймеров на стадии обратной транскрипции или на стадии обогащения на основе гибридизации подгруппы из более сложных библиотек. Примером является секвенирование экзома или анализ L1000 (Subramanian et al., 2017, Cell, 171:1437-1452). Нацеленное секвенирование может включать любой из способов обогащения, известных специалисту в данной области.[0018] As used herein, the term "target", when used in relation to a nucleic acid, means the semantic identifier of the nucleic acid in the methods or compositions described herein and does not necessarily limit the structure or function of the nucleic acid beyond those specifically indicated. The target nucleic acid can be essentially any nucleic acid with a known or unknown sequence. The nucleic acid can be, for example, a fragment of genomic DNA (eg, chromosomal DNA), extrachromosomal DNA such as a plasmid, non-cellular DNA, RNA (eg, RNA or non-coding RNA), proteins (eg, cellular or cell surface proteins), or cDNA. Sequencing allows you to determine the sequence of the entire molecule or part of the target molecule. The target may be derived from a primary nucleic acid sample, such as a nucleus. In one embodiment of the invention, targets can be processed into templates suitable for amplification by attaching universal sequences to one or both ends of each target fragment. Targets can also be obtained from a primary RNA sample by reverse transcription into cDNA. In one embodiment of the invention, the target is used against a subgroup of DNA, RNA or proteins present in the cell. Targeted sequencing involves selecting and isolating genes or regions or proteins of interest, typically by PCR amplification (eg, region-specific primers) or by hybridization-based capture or by using antibodies. Targeted enrichment can be carried out at various stages of this process. Thus, for example, presentation of a target RNA can be achieved using target-specific primers in a reverse transcription step or in a subset hybridization enrichment step from more complex libraries. An example is exome sequencing or L1000 analysis (Subramanian et al., 2017, Cell, 171:1437-1452). Targeted sequencing may include any of the enrichment methods known to those skilled in the art.
[0019] Термин «универсальный», если он используется здесь для описания нуклеотидной последовательности, относится к области последовательности, которая является общей для двух или более молекул нуклеиновой кислоты, где эти молекулы также имеют области последовательности, которые отличаются друг от друга, Универсальная последовательность, которая присутствует в различных членах набора молекул, позволяет захватывать множество различных нуклеиновых кислот благодаря группе универсальных нуклеиновых кислот для захвата, например, для захвата олигонуклеотидов, которые являются комплементарными части универсальной последовательности, например универсальной последовательности для захвата. Неограничивающие примеры универсальных последовательностей для захвата включают последовательности, которые являются идентичными или комплементарными праймерам Р5 и Р7. Аналогичным образом, универсальная последовательность, которая присутствует в различных членах набора молекул, позволяет осуществлять репликацию (например, секвенирование) или амплификацию множества различных нуклеиновых кислот благодаря группе универсальных праймеров, которые являются комплементарными части универсальной последовательности, например универсальной последовательности для заякоривания. В одном варианте осуществления изобретения, универсальные последовательности для заякоривания используются в качестве сайта, с которым гибридизуется универсальный праймер для секвенирования (например, секвенирующий праймер для считывания на дорожке 1 или 2). Следовательно, олигонуклеотид для захвата или универсальный праймер включает последовательность, которая может специфически гибридизоваться с универсальной последовательностью.[0019] The term "universal", when used here to describe a nucleotide sequence, refers to a region of sequence that is common to two or more nucleic acid molecules, where these molecules also have sequence regions that differ from each other, Universal sequence, which is present in different members of a set of molecules allows the capture of many different nucleic acids due to the group of universal capture nucleic acids, for example, to capture oligonucleotides that are complementary to part of the universal sequence, for example the universal capture sequence. Non-limiting examples of universal capture sequences include sequences that are identical or complementary to primers P5 and P7. Similarly, a universal sequence that is present in various members of a set of molecules allows replication (eg, sequencing) or amplification of many different nucleic acids through a group of universal primers that are complementary to part of the universal sequence, such as the universal anchoring sequence. In one embodiment of the invention, universal anchoring sequences are used as the site to which a universal sequencing primer hybridizes (eg, a sequencing primer for reading in
[0020] Термины «Р5» и «Р7» могут быть использованы при описании универсальной последовательности для захвата или олигонуклеотида для захвата. Термины «Р5» (праймер Р5) и «Р7» (праймер Р7) относятся к комплементу к Р5 и Р7, соответственно. Следует отметить, что в описанных здесь способах могут быть использованы любая подходящая универсальная последовательность для захвата или олигонуклеотид для захвата, и что использование Р5 и Р7 приводится лишь для примера. Использование олигонуклеотидов для захвата, таких как Р5 и Р7, или их комплементов на проточных ячейках известно специалистам в данной области, и их примеры раскрываются в WO 2007/010251, WO 2006/064199, WO 2005/065814, WO 2015/106941, WO 1998/044151 и WO 2000/018957. Так, например, любой подходящий прямой праймер для амплификации, независимо от того, является ли он иммобилизованным или присутствует в растворе, может быть использован в описанных здесь способах гибридизации с комплементарной последовательностью и амплификации последовательности. Аналогичным образом, любой подходящий обратный праймер для амплификации, независимо от того является ли он иммобилизованным или присутствует в растворе, может быть использован в описанных здесь способах гибридизации с комплементарной последовательностью и амплификации последовательности. Специалисту в данной области известны способы конструирования и использования последовательностей праймеров, которые являются подходящими для захвата и/или амплификации представленных здесь нуклеиновых кислот.[0020] The terms "P5" and "P7" can be used when describing a universal capture sequence or a capture oligonucleotide. The terms "P5" (primer P5) and "P7" (primer P7) refer to the complement to P5 and P7, respectively. It should be noted that any suitable universal capture sequence or capture oligonucleotide may be used in the methods described herein, and that the use of P5 and P7 is exemplary only. The use of capture oligonucleotides such as P5 and P7 or their complements on flow cells is known to those skilled in the art and examples are disclosed in WO 2007/010251, WO 2006/064199, WO 2005/065814, WO 2015/106941, WO 1998 /044151 and WO 2000/018957. Thus, for example, any suitable forward amplification primer, whether immobilized or present in solution, can be used in the complementary sequence hybridization and sequence amplification methods described herein. Likewise, any suitable reverse amplification primer, whether immobilized or present in solution, can be used in the complementary sequence hybridization and sequence amplification methods described herein. One skilled in the art is aware of methods for designing and using primer sequences that are suitable for capturing and/or amplifying the nucleic acids provided herein.
[0021] Используемый здесь термин «праймер» и его производные обычно относятся к любой нуклеиновой кислоте, которая может гибридизоваться с представляющей интерес последовательностью-мишенью. Обычно, праймер функционирует как субстрат, на котором нуклеотиды могут полимеризоваться посредством полимеразы, или с которыми может быть лигирована нуклеотидная последовательность, такая как индекс; однако, в некоторых вариантах осуществления, праймер может встраиваться в синтезированную цепь нуклеиновой кислоты и образовывать сайт, с которым может гибридизоваться другой праймер для инициации синтеза новой цепи, которая является комплементарной синтезированной молекуле нуклеиновой кислоты. Праймер может включать любую комбинацию нуклеотидов или их аналогов. В некоторых вариантах осуществления изобретения, праймер представляет собой одноцепочечный олигонуклеотид или полинуклеотид. Используемые здесь термины «полинуклеотид» и «олигонуклеотид» являются синонимами и означают полимерную форму нуклеотидов любой длины и могут включать рибонуклеотиды, дезоксирибонуклеотиды их аналоги или их смеси. Эти термины следует понимать как эквиваленты, аналоги или любые ДНК, РНК, кДНК или конъюгаты «антитело-олигонуклеотид», полученные из нуклеотидных аналогов, и эти термины могут быть применены к одноцепочечным (таким как смысловые или антисмысловые) полинуклеотидам и двухцепочечным полинуклеотидам. Используемый здесь термин также охватывает кДНК, которая является комплементарной ДНК или ее копией, полученной из матричной РНК, например, под действием обратной транскриптазы. Этот термин относится только к первичной структуре молекулы. Таким образом, этот термин включает трех-, двух- и одноцепочечную дезоксирибонуклеиновую кислоту («ДНК»), а также трех-, двух- и одноцепочечную рибонуклеиновую кислоту («РНК»).[0021] As used herein, the term "primer" and its derivatives generally refers to any nucleic acid that can hybridize to a target sequence of interest. Typically, the primer functions as a substrate on which nucleotides can be polymerized by the polymerase, or to which a nucleotide sequence, such as an index, can be ligated; however, in some embodiments, the primer may insert into the synthesized nucleic acid strand and form a site to which another primer may hybridize to initiate the synthesis of a new strand that is complementary to the synthesized nucleic acid molecule. The primer may include any combination of nucleotides or their analogues. In some embodiments, the primer is a single stranded oligonucleotide or polynucleotide. As used herein, the terms "polynucleotide" and "oligonucleotide" are synonymous and refer to the polymeric form of nucleotides of any length and may include ribonucleotides, deoxyribonucleotides, their analogs, or mixtures thereof. These terms are to be understood as equivalents, analogs, or any DNA, RNA, cDNA, or antibody-oligonucleotide conjugates derived from nucleotide analogs, and these terms can be applied to single-stranded (such as sense or antisense) polynucleotides and double-stranded polynucleotides. As used herein, the term also encompasses cDNA, which is complementary DNA, or a copy thereof, obtained from messenger RNA, for example by the action of reverse transcriptase. This term refers only to the primary structure of a molecule. Thus, the term includes three-, two- and single-stranded deoxyribonucleic acid ("DNA"), as well as three-, double- and single-stranded ribonucleic acid ("RNA").
[0022] Используемый здесь термин «адаптер» и его производные, например универсальный адаптер, в общих чертах относится к любому линейному олигонуклеотиду, который может быть присоединен к молекуле нуклеиновой кислоты согласно изобретению. В некоторых вариантах осуществления изобретения, адаптер, по существу, не является комплементарным 3'-концу или 5'-концу любой последовательности-мишени, присутствующей в образце. В некоторых вариантах осуществления изобретения, подходящий адаптер имеет длину в пределах приблизительно 10-100 нуклеотидов, приблизительно 12-60 нуклеотидов или приблизительно 15-50 нуклеотидов. Вообще говоря, адаптер может включать любую комбинацию нуклеотидов и/или нуклеиновых кислот. В некоторых аспектах изобретения, адаптер может включать одну или более расщепляемых групп в одном или более положениях. В другом аспекте изобретения, адаптер может включать последовательность, которая, по существу, идентична или, по существу, комплементарна по меньшей мере части праймера, например, универсального праймера. В некоторых вариантах осуществления изобретения, адаптер может включать штрих-код (также называемый здесь «меткой» или «индексом») для облегчения последующего исправления ошибок, идентификации или секвенирования. Термины «адаптор» и «адаптер» используются как синонимы.[0022] As used herein, the term "adapter" and its derivatives, such as a universal adapter, generally refers to any linear oligonucleotide that can be attached to a nucleic acid molecule according to the invention. In some embodiments of the invention, the adapter is not substantially complementary to the 3' end or 5' end of any target sequence present in the sample. In some embodiments, a suitable adapter is in the range of about 10-100 nucleotides, about 12-60 nucleotides, or about 15-50 nucleotides in length. Generally speaking, the adapter may include any combination of nucleotides and/or nucleic acids. In some aspects of the invention, the adapter may include one or more cleavable groups in one or more positions. In another aspect of the invention, the adapter may include a sequence that is substantially identical to or substantially complementary to at least a portion of a primer, such as a universal primer. In some embodiments, the adapter may include a barcode (also referred to herein as a "tag" or "index") to facilitate subsequent error correction, identification, or sequencing. The terms adapter and adapter are used interchangeably.
[0023] Используемый здесь термин «каждый», если он употребляется для описания группы объектов, относится к идентификации отдельного объекта в этой группе, но он необязательно относится к каждому предмету в данной группе, если это не оговорено особо.[0023] As used herein, the term "each", when used to describe a group of objects, refers to the identification of an individual object in that group, but it does not necessarily refer to every item in that group, unless otherwise noted.
[0024] Используемый здесь термин «транспорт» относится к перемещению молекулы через жидкость. Этот термин может включать пассивный транспорт, такой как движение молекул вдоль градиента их концентрации (например, пассивная диффузия). Этот термин также может включать активный транспорт, благодаря которому молекулы могут двигаться вдоль градиента концентрации или против градиента концентрации. Таким образом, транспорт может включать приложение энергии для перемещения одной или более молекул в желаемом направлении или в нужное положение, такое как сайт амплификации.[0024] As used herein, the term "transport" refers to the movement of a molecule through a liquid. This term may include passive transport, such as the movement of molecules along their concentration gradient (eg, passive diffusion). The term can also include active transport, by which molecules can move along a concentration gradient or against a concentration gradient. Thus, transport may involve the application of energy to move one or more molecules in a desired direction or position, such as an amplification site.
[0025] Используемый здесь термин «амплифицировать», «амплификация» или «реакция амплификации» и их производные, по существу, относятся к любому действию или процессу, в результате которого по меньшей мере часть молекулы нуклеиновой кислоты реплицируется или копируется по меньшей мере в одну дополнительную молекулу нуклеиновой кислоты. Дополнительная молекула нуклеиновой кислоты включает, но необязательно, последовательность, которая, по существу, идентична или, по существу, комплементарна по меньшей мере некоторой части матричной молекулы нуклеиновой кислоты. Матричная молекула нуклеиновой кислоты может быть одноцепочечной или двухцепочечной, а дополнительная молекула нуклеиновой кислоты может независимо быть одноцепочечной или двухцепочечной. Амплификация включает, но необязательно, линейную или экспоненциальную репликацию молекулы нуклеиновой кислоты. В некоторых вариантах осуществления изобретения, такая амплификация может быть осуществлена в изотермических условиях; а в других вариантах осуществления изобретения, такая амплификация может включать реакцию в термоячейке. В некоторых вариантах осуществления изобретения, амплификация представляет собой мультиплексную амплификацию, которая включает одновременную амплификацию множества последовательностей-мишеней в одной реакции амплификации. В некоторых вариантах осуществления изобретения, термин «амплификация» включает амплификацию по меньшей мере некоторой части нуклеиновых кислот на основе ДНК и РНК отдельно или в комбинации. Реакция амплификации может включать любые процессы амплификации, известные специалисту в данной области. В некоторых вариантах осуществления изобретения, реакция амплификации включает полимеразную цепную реакцию (ПЦР).[0025] As used herein, the term "amplify", "amplification" or "amplification reaction" and their derivatives, essentially refers to any action or process by which at least a portion of a nucleic acid molecule is replicated or copied into at least one additional nucleic acid molecule. The additional nucleic acid molecule optionally includes a sequence that is substantially identical to or substantially complementary to at least some portion of the template nucleic acid molecule. The template nucleic acid molecule may be single-stranded or double-stranded, and the additional nucleic acid molecule may independently be single-stranded or double-stranded. Amplification includes, but is not limited to, linear or exponential replication of the nucleic acid molecule. In some embodiments of the invention, such amplification can be carried out under isothermal conditions; and in other embodiments of the invention, such amplification may include a thermowell reaction. In some embodiments of the invention, the amplification is multiplex amplification, which includes the simultaneous amplification of multiple target sequences in a single amplification reaction. In some embodiments of the invention, the term "amplification" includes the amplification of at least some of the nucleic acids based on DNA and RNA alone or in combination. The amplification reaction may include any amplification processes known to the person skilled in the art. In some embodiments of the invention, the amplification reaction includes a polymerase chain reaction (PCR).
[0026] Используемый здесь термин «условия амплификации» и его производные обычно относится к условиям, подходящим для амплификации одной или более последовательностей нуклеиновых кислот. Такая амплификация может быть линейной или экспоненциальной. В некоторых вариантах осуществления изобретения, условия амплификации могут включать изотермические условия или, альтернативно, условия реакции в термоячейке или комбинацию изотермических условий и условий реакции в термоячейке. В некоторых вариантах осуществления изобретения, условия, подходящие для амплификации одной или более последовательностей нуклеиновых кислот, включают условия полимеразной цепной реакции (ПЦР). Обычно, условия амплификации относятся к реакционной смеси, которая является достаточной для амплификации нуклеиновых кислот, таких как одна или более последовательностей-мишеней, фланкированных универсальной последовательностью, или для амплификации амплифицированной последовательности-мишени, лигированной с одним или более адаптерами. Вообще говоря, условия амплификации включают катализатор для амплификации или для синтеза нуклеиновой кислоты, например, полимеразу; праймер, который обладает некоторой степенью комплементарности с амплифицируемой нуклеиновой кислотой; и нуклеотиды, такие как дезоксирибонуклеотид-трифосфаты (dNTP), для ускорения удлинения праймера после гибридизации с нуклеиновой кислотой. Условия амплификации могут потребовать гибридизации или отжига праймера с нуклеиновой кислотой, удлинения праймера и стадии денатурации, при которой удлиненный праймер отделяется от последовательности нуклеиновой кислоты в процессе амплификации. Обычно, но необязательно, условия амплификации могут включать реакцию в термоячейке; а в некоторых вариантах осуществления изобретения, условия амплификации включают множество циклов, где повторяются стадии отжига, удлинения и разделения. Обычно, условия амплификации включают катионы, такие как Mg2+ или Mn2+, и могут также включать различные модификаторы ионной силы.[0026] As used herein, the term "amplification conditions" and its derivatives generally refers to conditions suitable for amplifying one or more nucleic acid sequences. Such amplification may be linear or exponential. In some embodiments, the amplification conditions may include isothermal conditions, or alternatively, thermowell reaction conditions, or a combination of isothermal conditions and thermowell reaction conditions. In some embodiments of the invention, conditions suitable for amplifying one or more nucleic acid sequences include polymerase chain reaction (PCR) conditions. Typically, amplification conditions refer to a reaction mixture that is sufficient to amplify nucleic acids, such as one or more target sequences flanked by a universal sequence, or to amplify an amplified target sequence ligated to one or more adapters. Generally speaking, amplification conditions include a catalyst for amplification or for nucleic acid synthesis, such as a polymerase; a primer that has some degree of complementarity with the amplifiable nucleic acid; and nucleotides such as deoxyribonucleotide triphosphates (dNTPs) to accelerate primer extension after hybridization with nucleic acid. Amplification conditions may require hybridization or annealing of the primer to the nucleic acid, primer extension, and a denaturation step in which the extended primer is separated from the nucleic acid sequence during amplification. Typically, but not necessarily, amplification conditions may include a thermowell reaction; and in some embodiments of the invention, the amplification conditions include many cycles, where the steps of annealing, extension and separation are repeated. Typically, amplification conditions include cations such as Mg 2+ or Mn 2+ and may also include various ionic strength modifiers.
[0027] Используемые здесь термины «повторная амплификация» и их производные обычно относятся к любому процессу, посредством которого по меньшей мере часть амплифицированной молекулы нуклеиновой кислоты дополнительно амплифицируется посредством любой подходящей реакции амплификации (называемой в некоторых вариантах осуществления изобретения «вторичной» амплификацией), что приводит к образованию повторно амплифицированной молекулы нуклеиновой кислоты. Вторичная амплификация необязательно должна быть идентична первоначальному процессу амплификации, в результате которого была получена амплифицированная молекула нуклеиновой кислоты, и при этом не требуется, чтобы повторно амплифицированная молекула нуклеиновой кислоты была полностью идентичной или полностью комплементарной амплифицированной молекуле нуклеиновой кислоты; и единственное, что необходимо, - это то, чтобы повторно амплифицированная молекула нуклеиновой кислоты включала по меньшей мере часть молекулы амплифицированной нуклеиновой кислоты или ее комплемент. Так, например, повторная амплификация, в отличие от первичной амплификации, может включать использование различных условий амплификации и/или различных праймеров, включая различные мишень-специфичные праймеры.[0027] As used herein, the terms "re-amplification" and their derivatives generally refer to any process by which at least a portion of an amplified nucleic acid molecule is further amplified by any suitable amplification reaction (referred to in some embodiments as "secondary" amplification) such that leads to the formation of a re-amplified nucleic acid molecule. Secondary amplification does not need to be identical to the original amplification process that produced the amplified nucleic acid molecule, and it is not required that the re-amplified nucleic acid molecule be completely identical or completely complementary to the amplified nucleic acid molecule; and the only requirement is that the re-amplified nucleic acid molecule includes at least a portion of the amplified nucleic acid molecule or its complement. Thus, for example, re-amplification, as opposed to primary amplification, may involve the use of different amplification conditions and/or different primers, including different target-specific primers.
[0028] Используемый здесь термин «полимеразная цепная реакция» («ПЦР») относится к методу Муллиса, см. патенты США №.4683195 и 4683202, где описан способ повышения концентрации сегмента представляющего интерес полинуклеотида в смеси геномной ДНК без клонирования или очистки. Этот способ амплификации представляющего интерес полинуклеотида состоит из введения большого избытка двух олигонуклеотидных праймеров в смесь ДНК, содержащую представляющий интерес полинуклеотид, с последующим проведением серий термоциклов в присутствии ДНК-полимеразы. Два праймера являются комплементарными соответствующим цепям представляющего интерес двухцепочечного полинуклеотида. Сначала смесь денатурируют при более высокой температуре, а затем праймеры гибридизуют с комплементарными последовательностями в представляющей интерес молекуле полинуклеотида. После отжига, праймеры удлиняют посредством полимеразы с образованием новой пары комплементарных цепей. Стадии денатурации, отжига и удлинения праймеров под действием полимеразы могут повторяться много раз (и эти стадии называются термоциклами) с получением высокой концентрации амплифицированного сегмента нужного представляющего интерес полинуклеотида. Длину амплифицированного сегмента нужного представляющего интерес полинуклеотида (ампликона) определяют по относительным положениям праймеров по отношению друг к другу, и, следовательно, эта длина является регулируемым параметром. Благодаря повторению такого процесса, этот метод называется ПЦР. Поскольку нужные амплифицированные сегменты представляющего интерес полинуклеотида становятся преобладающими последовательностями нуклеиновых кислот (с точки зрения концентрации) в смеси, то считается, что они являются «ПЦР-амплифицированными». В модификации обсуждаемого выше способа, молекулы нуклеиновой кислоты-мишени могут быть амплифицированы с помощью ПЦР с использованием множества различных пар праймеров, а в некоторых случаях, одной или более пар праймеров на представляющую интерес молекулу нуклеиновой кислоты-мишени, что позволяет проводить мультиплексную ПЦР-реакцию.[0028] As used herein, the term "polymerase chain reaction" ("PCR") refers to the Mullis method, see US Pat. This method of amplifying a polynucleotide of interest consists of introducing a large excess of two oligonucleotide primers into a mixture of DNA containing the polynucleotide of interest, followed by a series of thermal cycles in the presence of a DNA polymerase. The two primers are complementary to the corresponding strands of the double-stranded polynucleotide of interest. The mixture is first denatured at a higher temperature and then the primers are hybridized to complementary sequences in the polynucleotide molecule of interest. After annealing, the primers are extended by polymerase to form a new pair of complementary strands. The steps of denaturation, annealing, and primer extension by polymerase can be repeated many times (and these steps are called thermal cycles) to produce a high concentration of the amplified segment of the desired polynucleotide of interest. The length of the amplified segment of the polynucleotide of interest (amplicon) of interest is determined by the relative positions of the primers to each other, and therefore this length is a controllable parameter. Due to the repetition of such a process, this method is called PCR. Since the desired amplified segments of the polynucleotide of interest become the predominant nucleic acid sequences (in terms of concentration) in the mixture, they are said to be "PCR amplified". In a modification of the method discussed above, target nucleic acid molecules can be amplified by PCR using a variety of different primer pairs, and in some cases, one or more primer pairs per target nucleic acid molecule of interest, allowing for a multiplex PCR reaction. .
[0029] Как определено в настоящей заявке, «мультиплексная амплификация» относится к селективной и нерандомизированной амплификации двух или более последовательностей-мишеней в образце, проводимой с использованием по меньшей мере одного мишень-специфического праймера. В некоторых вариантах осуществления изобретения, мультиплексную амплификацию осуществляют так, чтобы некоторые или все последовательности-мишени амплифицировались в одном реакционном сосуде. «Плексность» или «множество» для данной мультиплексной амплификации, по существу, относится к числу различных мишень-специфических последовательностей, которые амплифицируются в процессе одной мультиплексной амплификации. В некоторых вариантах осуществления изобретения, плексность может быть приблизительно 12-кратной, 24-кратной, 48-кратной, 96-кратной, 1692-кратной, 384-кратной, 768-кратной, 1536-кратной, 3072-кратной, 6144-кратной или более. Амплифицированные последовательности-мишени также могут быть детектированы несколькими различными методами (например, с помощью гель-электрофореза с последующей денситометрией, путем количественной оценки с использованием биоанализатора или количественной ПЦР; путем гибридизации с меченым зондом; путем включения биотинилированных праймеров с последующим детектированием конъюгата «авидин-фермент»; путем включения 32Р-меченных дезоксинуклеотид-трифосфатов в амплифицированную последовательность-мишень).[0029] As defined herein, "multiplex amplification" refers to the selective and non-randomized amplification of two or more target sequences in a sample using at least one target-specific primer. In some embodiments of the invention, multiplex amplification is performed such that some or all of the target sequences are amplified in a single reaction vessel. "Plexity" or "multitude" for a given multiplex amplification essentially refers to the number of different target-specific sequences that are amplified during a single multiplex amplification. In some embodiments, the plexity may be approximately 12x, 24x, 48x, 96x, 1692x, 384x, 768x, 1536x, 3072x, 6144x, or more. Amplified target sequences can also be detected by several different methods (for example, by gel electrophoresis followed by densitometry, by quantification using a bioanalyzer or quantitative PCR; by hybridization with a labeled probe; by incorporation of biotinylated primers followed by detection of the "avidin- enzyme"; by incorporating 32 P-labeled deoxynucleotide triphosphates into the amplified target sequence).
[0030] Используемый здесь термин «амплифицированные последовательности-мишени» и их производные обычно относится к последовательности нуклеиновой кислоты, полученной путем амплификации последовательностей-мишеней с использованием мишень-специфических праймеров и с применением описанных здесь способов. Амплифицированные последовательности-мишени могут быть смысловыми (то есть, с положительной цепью) или антисмысловыми (то есть, с отрицательной цепью) по отношению к последовательностям-мишеням.[0030] As used herein, "amplified target sequences" and derivatives thereof generally refers to a nucleic acid sequence obtained by amplifying target sequences using target-specific primers and using the methods described herein. Amplified target sequences can be sense (ie, positive strand) or antisense (ie, negative strand) to the target sequences.
[0031] Используемые здесь термины «лигирующий», «лигирование» и их производные обычно относятся к способу ковалентного связывания двух или более молекул вместе, например, ковалентному связыванию двух или более молекул нуклеиновой кислоты друг с другом. В некоторых вариантах осуществления изобретения, лигирование включает введение «ников» между соседними нуклеотидами нуклеиновых кислот. В некоторых вариантах осуществления изобретения, лигирование включает образование ковалентной связи между концом первой и концом второй молекулы нуклеиновой кислоты. В некоторых вариантах осуществления изобретения, лигирование может включать образование ковалентной связи между 5'-фосфатной группой одной нуклеиновой кислоты и 3'-гидроксильной группой второй нуклеиновой кислоты, и тем самым образование лигированной молекулы нуклеиновой кислоты. Обычно, в целях раскрытия настоящего изобретения, амплифицированная последовательность-мишень может быть лигирована с адаптером с получением амплифицированной последовательности-мишени, лигированной с адаптером.[0031] As used herein, the terms "ligation", "ligation" and their derivatives generally refer to a method of covalently linking two or more molecules together, such as covalently linking two or more nucleic acid molecules to each other. In some embodiments of the invention, ligation includes the introduction of "nicknames" between adjacent nucleic acid nucleotides. In some embodiments of the invention, ligation includes the formation of a covalent bond between the end of the first and the end of the second nucleic acid molecule. In some embodiments of the invention, ligation may include the formation of a covalent bond between the 5'-phosphate group of one nucleic acid and the 3'-hydroxyl group of the second nucleic acid, and thereby the formation of a ligated nucleic acid molecule. Typically, for purposes of the disclosure of the present invention, an amplified target sequence may be ligated to an adapter to provide an amplified target sequence ligated to the adapter.
[0032] Используемый здесь термин «лигаза» и его производные, по существу, означает любой агент, способный катализировать лигирование двух молекул субстрата. В некоторых вариантах осуществления изобретения, лигаза представляет собой фермент, способный катализировать включение ников между соседними нуклеотидами нуклеиновой кислоты. В некоторых вариантах осуществления изобретения, лигаза представляет собой фермент, способный катализировать образование ковалентной связи между 5'-фосфатом одной молекулы нуклеиновой кислоты и 3'-гидроксилом другой молекулы нуклеиновой кислоты, что будет приводить к образованию лигированной молекулы нуклеиновой кислоты. Подходящими лигазами могут быть, но не ограничиваются ими, ДНК-лигаза Т4, РНК-лигаза Т4 и ДНК-лигаза E. coli.[0032] As used herein, the term "ligase" and its derivatives essentially means any agent capable of catalyzing the ligation of two substrate molecules. In some embodiments, a ligase is an enzyme capable of catalyzing the incorporation of nicks between adjacent nucleic acid nucleotides. In some embodiments, a ligase is an enzyme capable of catalyzing the formation of a covalent bond between the 5'-phosphate of one nucleic acid molecule and the 3'-hydroxyl of another nucleic acid molecule, which will result in the formation of a ligated nucleic acid molecule. Suitable ligases may include, but are not limited to, T4 DNA ligase, T4 RNA ligase, and E. coli DNA ligase.
[0033] Используемый здесь термин «условия лигирования» и его производные обычно относится к условиям, подходящим для лигирования двух молекул друг с другом. В некоторых вариантах осуществления изобретения, условия лигирования являются подходящими для закрытия «ников» или «разрывов» между нуклеиновыми кислотами. Используемые здесь термины «ник» или «разрыв» соответствуют терминам, используемым в литературе. Обычно, ник или разрыв может быть лигирован в присутствии фермента, такого как лигаза, при подходящей температуре и рН. В некоторых вариантах осуществления изобретения, ДНК-лигаза Т4 может соединять «ник» между нуклеиновыми кислотами при температуре приблизительно 70-72°С.[0033] As used herein, the term "ligation conditions" and its derivatives generally refers to conditions suitable for ligating two molecules to each other. In some embodiments of the invention, ligation conditions are suitable for closing "nicks" or "gaps" between nucleic acids. The terms "nick" or "gap" used here correspond to the terms used in the literature. Typically, the nick or gap can be ligated in the presence of an enzyme, such as a ligase, at the appropriate temperature and pH. In some embodiments of the invention, T4 DNA ligase can connect "nick" between nucleic acids at a temperature of approximately 70-72°C.
[0034] Используемый здесь термин «проточная ячейка» относится к камере, имеющей твердую поверхность, через которую могут проходить один или более жидких реагентов. Примеры проточных ячеек и родственных жидкостных систем и платформ для детектирования, которые могут быть легко применены в способах согласно изобретению, описаны, например, Bentley et al., Nature 456: 53-59 (2008), в WO 04/018497; в патенте США 7057026; в WO 91/06678; WO 07/123744; в патентах США 7292992; 7211414; 7315019; 7405281 и в заявке на патент США 2008/0108082.[0034] As used herein, the term "flow cell" refers to a chamber having a solid surface through which one or more liquid reactants can pass. Examples of flow cells and related fluidic detection systems and platforms that can be readily applied in the methods of the invention are described, for example, in Bentley et al., Nature 456: 53-59 (2008), in WO 04/018497; in US Pat. No. 7,057,026; in WO 91/06678; WO 07/123744; US Pat. Nos. 7,292,992; 7211414; 7315019; 7405281 and US Patent Application 2008/0108082.
[0035] Используемый здесь термин «ампликон», если он относится к нуклеиновой кислоте, означает продукт копирования нуклеиновой кислоты, где этот продукт имеет нуклеотидную последовательность, которая является идентичной или комплементарной по меньшей мере части нуклеотидной последовательности нуклеиновой кислоты. Ампликон может быть получен любыми различными методами амплификации, в которых используются нуклеиновая кислота или ее ампликон в качестве матрицы, включая, например, удлинение под действием полимеразы, полимеразную цепную реакцию (ПЦР), амплификацию по типу «катящегося кольца» (RCA), удлинение посредством лигирования или лигазную цепную реакцию. Ампликон может представлять собой молекулу нуклеиновой кислоты, имеющую одну копию конкретной нуклеотидной последовательности (например, продукт ПЦР) или множество копий нуклеотидной последовательности (например, конкатемерный продукт RCA). Первый ампликон нуклеиновой кислоты-мишени обычно представляет собой комплементарную копию. Последующие ампликоны являются копиями, которые создаются после продуцирования первого ампликона из нуклеиновой кислоты-мишени или из первого ампликона. Последующий ампликон может иметь последовательность, которая, по существу, комплементарна нуклеиновой кислоте-мишени или, по существу, идентична нуклеиновой кислоте-мишени.[0035] As used herein, the term "amplicon", when referring to a nucleic acid, means a copy product of a nucleic acid, where the product has a nucleotide sequence that is identical or complementary to at least a portion of the nucleotide sequence of the nucleic acid. The amplicon can be generated by any of the various amplification methods that use a nucleic acid or its amplicon as a template, including, for example, polymerase extension, polymerase chain reaction (PCR), rolling ring amplification (RCA), extension by ligation or ligase chain reaction. An amplicon may be a nucleic acid molecule having a single copy of a particular nucleotide sequence (eg, a PCR product) or multiple copies of a nucleotide sequence (eg, an RCA concatemer product). The first amplicon of the target nucleic acid is usually a complementary copy. Subsequent amplicons are copies that are created after the production of the first amplicon from the target nucleic acid or from the first amplicon. The subsequent amplicon may have a sequence that is substantially complementary to the target nucleic acid or substantially identical to the target nucleic acid.
[0036] Используемый здесь термин «сайт амплификации» означает сайт или массив, где могут быть созданы один или более ампликонов. Сайт амплификации может также иметь конфигурацию, при которой он содержит, сохраняет или присоединяет по меньшей мере один ампликон, который генерируется в этом сайте.[0036] As used herein, the term "amplification site" means a site or array where one or more amplicons can be generated. The amplification site may also be configured to contain, retain or attach at least one amplicon that is generated at that site.
[0037] Используемый здесь термин «массив» означает совокупность сайтов, которые могут отличаться друг от друга по их относительному местоположению. Различью молекулы, которые находятся в различных положениях массива, могут отличаться друг от друга в зависимости от местоположения сайтов в массиве. Отдельный сайт массива может включать одну или более молекул определенного типа. Так, например, сайт может включать одну молекулу нуклеиновой кислоты-мишени, имеющую конкретную последовательность, или этот сайт может включать несколько молекул нуклеиновой кислоты, имеющих одну и ту же последовательность (и/или комплементарную последовательность). Сайты массива могут иметь различные признаки на одной и той же подложке. Типичными признаками являются, но не ограничиваются ими, углубления в подложке, сферы (или другие частицы), расположенные в подложке или на подложке, выступы из подложки, складки на подложке или каналы в подложке. Сайты массива могут представлять собой отдельные подложки, каждая из которых содержит различные молекулы. Различные молекулы, прикрепленные к отдельным подложкам, могут быть идентифицированы по положениям подложки на поверхности, с которой они связаны, или по положениям подложки в жидкости или геле. Репрезентативные массивы, в которых отдельные подложки расположены на поверхности, включают, но не ограничиваются ими, массивы, имеющие сферы в лунках.[0037] As used herein, the term "array" means a collection of sites that may differ from each other in their relative location. The difference between molecules that are in different positions of the array can differ from each other depending on the location of the sites in the array. A single array site may include one or more molecules of a particular type. Thus, for example, a site may include a single target nucleic acid molecule having a specific sequence, or the site may include multiple nucleic acid molecules having the same sequence (and/or complementary sequence). Array sites may have different features on the same substrate. Typical features include, but are not limited to, recesses in the substrate, spheres (or other particles) located in or on the substrate, protrusions from the substrate, folds in the substrate, or channels in the substrate. The sites of the array may be separate substrates, each of which contains different molecules. The various molecules attached to individual supports can be identified by the positions of the support on the surface to which they are attached, or by the positions of the support in a liquid or gel. Representative arrays in which individual substrates are located on the surface include, but are not limited to, arrays having spheres in wells.
[0038] Используемый здесь термин «емкость», если он относится к сайту и молекуле нуклеиновой кислоты, означает максимальное количество молекул нуклеиновой кислоты, которое может занимать этот сайт. Так, например, этот термин может относиться к общему количеству молекул нуклеиновой кислоты, которые могут занимать сайт в конкретных условиях. Также могут быть использованы и другие параметры, включая, например, общую массу молекул нуклеиновой кислоты или общее число копий конкретной нуклеотидной последовательности, которая может занимать сайт в конкретных условиях. Обычно, емкость сайта для нуклеиновой кислоты-мишени будет, по существу, эквивалентна емкости сайта для ампликонов нуклеиновой кислоты-мишени.[0038] As used herein, the term "capacity", when referring to a site and a nucleic acid molecule, means the maximum number of nucleic acid molecules that can occupy that site. Thus, for example, the term may refer to the total number of nucleic acid molecules that can occupy a site under specific conditions. Other parameters may also be used, including, for example, the total mass of nucleic acid molecules or the total number of copies of a particular nucleotide sequence that may occupy a site under particular conditions. Typically, the site capacity for the target nucleic acid will be substantially equivalent to the site capacity for the target nucleic acid amplicons.
[0039] Используемый здесь термин «агент для захвата» означает материал, химическое вещество, молекулу или их части, которые способны присоединяться к молекуле-мишени, удерживаться на этой молекуле или связываться с ней (например, с нуклеиновой кислотой-мишенью). Типичными агентами для захвата являются, но не ограничиваются ими, нуклеиновая кислота для захвата (также называемая здесь олигонуклеотидом для захвата), которая комплементарна по меньшей мере части нуклеиновой кислоты-мишени; член пары связывания «рецептор-лиганд» (например, авидин, стрептавидин), биотин, лектин, углевод, белок, связывающийся с нуклеиновой кислотой, эпитоп, антитело и т.п.), способные связываться с нуклеиновой кислотой-мишенью (или связываться с линкерной молекулой, присоединенной к ней), или химический реагент, способный образовывать ковалентную связь с нуклеиновой кислотой-мишенью (или с линкерной молекулой, присоединенной к ней).[0039] As used herein, the term "capture agent" means a material, chemical, molecule, or portions thereof that are capable of attaching to, retaining on, or binding to a target molecule (eg, a target nucleic acid). Exemplary capture agents include, but are not limited to, a capture nucleic acid (also referred to herein as a capture oligonucleotide) that is complementary to at least a portion of the target nucleic acid; a member of a receptor-ligand binding pair (e.g., avidin, streptavidin), biotin, lectin, carbohydrate, nucleic acid-binding protein, epitope, antibody, etc.) capable of binding to (or binding to) the target nucleic acid a linker molecule attached to it), or a chemical reagent capable of forming a covalent bond with the target nucleic acid (or a linker molecule attached to it).
[0040] Используемый здесь термин «репортерная часть» может означать любую идентифицируемую метку, маркер, индексы, штрих-коды или группу, которые позволяют определять состав, идентичность и/или источник исследуемого аналита. В некоторых вариантах осуществления изобретения, репортерная часть может включать антитело, которое специфически связывается с белком. В некоторых вариантах осуществления изобретения, антитело может включать детектируемую метку. В некоторых вариантах осуществления изобретения, репортер может включать антитело или аффинный реагент, меченный нуклеиновой кислотой-меткой. Нуклеиновая кислота-метка может быть детектирована, например, с помощью анализа на проксимальное лигирование (PLA) или анализа на проксимальное удлинение (PEA) или считывание на основе секвенирования (Shahi et al. Scientific Reports volume 7, Article number: 44447, 2017) или CITE-seq (Stoeckius et al. Nature Methods 14: 865-868, 2017).[0040] As used herein, the term "reporter moiety" can mean any identifiable label, marker, indexes, barcodes, or group that allows the composition, identity, and/or source of the analyte under investigation to be determined. In some embodiments of the invention, the reporter part may include an antibody that specifically binds to a protein. In some embodiments of the invention, the antibody may include a detectable label. In some embodiments of the invention, the reporter may include an antibody or affinity reagent labeled with a nucleic acid tag. The tagged nucleic acid can be detected, for example, by a proximal ligation assay (PLA) or a proximal extension assay (PEA) or a sequencing-based read (Shahi et al.
[0041] Используемый здесь термин «клональная популяция» относится к популяции нуклеиновых кислот, которая является гомогенной по отношению к конкретной нуклеотидной последовательности. Гомогенная последовательность обычно имеет длину по меньшей мере 10 нуклеотидов, но может быть даже более длинной, например, ее длина может составлять по меньшей мере 50, 100, 250, 500 или 1000 нуклеотидов. Клональная популяция может быть получена из одной нуклеиновой кислоты-мишени или матричной нуклеиновой кислоты. Обычно, все нуклеиновые кислоты в клональной популяции будут иметь одинаковую нуклеотидную последовательность. Следует отметить, что небольшое количество мутаций (например, из-за артефактов амплификации) может происходить в клональной популяции без отклонения от клональности.[0041] As used herein, the term "clonal population" refers to a population of nucleic acids that is homogeneous with respect to a particular nucleotide sequence. The homogeneous sequence is usually at least 10 nucleotides in length, but may be even longer, for example, it may be at least 50, 100, 250, 500 or 1000 nucleotides in length. The clonal population can be derived from a single target nucleic acid or a template nucleic acid. Typically, all nucleic acids in a clonal population will have the same nucleotide sequence. It should be noted that a small number of mutations (eg, due to amplification artifacts) can occur in a clonal population without deviating from clonality.
[0042] Используемый здесь термин «уникальный молекулярный идентификатор» или «UMI» относится к молекулярной метке, либо рандомизированной, либо нерандомизированной, либо полурандомизированной, которая может быть присоединена к нуклеиновой кислоте. UMI, при его включении в нуклеиновую кислоту, может быть использован для последующей коррекции смещения амплификации путем прямого подсчета уникальных молекулярных идентификаторов (UMI), которые секвенируют после амплификации.[0042] As used herein, the term "unique molecular identifier" or "UMI" refers to a molecular label, either randomized, non-randomized, or semi-randomized, that can be attached to a nucleic acid. UMI, when incorporated into a nucleic acid, can be used to subsequently correct amplification bias by directly counting unique molecular identifiers (UMIs) that are sequenced after amplification.
[0043] Используемый здесь термин «экзогенное» соединение, например, экзогенный фермент, относится к соединению, которое обычно или по своей природе не присутствует в конкретной композиции. Так, например, если конкретная композиция включает клеточный лизат, то экзогенный фермент представляет собой фермент, который обычно или по своей природе не присутствует в клеточном лизате.[0043] As used herein, the term "exogenous" compound, eg, exogenous enzyme, refers to a compound that is not normally or inherently present in a particular composition. Thus, for example, if a particular composition includes a cell lysate, then an exogenous enzyme is an enzyme that is not normally or inherently present in the cell lysate.
[0044] Используемый здесь термин «предоставление» в отношении композиции, изделия, нуклеиновой кислоты или ядра означает получение композиции, изделия, нуклеиновой кислоты или ядра, закупку композиции, изделия, нуклеиновой кислоты или ядра, или получение соединения, композиции, изделия или ядра каким-либо другим образом.[0044] As used herein, the term “providing” with respect to a composition, article, nucleic acid, or core means the receipt of a composition, article, nucleic acid, or core, the purchase of a composition, article, nucleic acid, or core, or the receipt of a compound, composition, article, or core by which in any other way.
[0045] Термин «и/или» означает один или все из перечисленных элементов или комбинацию любых двух или более из перечисленных элементов.[0045] The term "and/or" means one or all of the listed elements or a combination of any two or more of the listed elements.
[0046] Слова «предпочтительный» и «предпочтительно» относятся к вариантам раскрытия изобретения, которые могут давать определенные преимущества при определенных обстоятельствах. Однако, предпочтительными также могут быть и другие варианты осуществления изобретения при тех же самых или других обстоятельствах. Кроме того, при описании одного или более предпочтительных вариантов осуществления не подразумевается, что не могут быть использованы и другие варианты, а поэтому из объема раскрытия изобретения не могут быть исключены и другие варианты.[0046] The words "preferred" and "preferably" refer to embodiments of the invention that may provide certain advantages under certain circumstances. However, other embodiments of the invention may also be preferred under the same or different circumstances. In addition, when describing one or more preferred embodiments, it is not implied that other options cannot be used, and therefore other options cannot be excluded from the scope of the invention.
[0047] Термины «содержит» и их варианты, если эти термины имеются в описании и в формуле изобретения, не имеют ограничивающего значения.[0047] The terms "comprises" and their variants, if these terms are present in the description and in the claims, are not limiting.
[0048] Следует отметить, что везде, где описанные здесь варианты осуществления изобретения употребляются вместе со словом «включать», «включает» или «включающий» и т.п., также могут быть использованы и другие аналогичные варианты, описанные с употреблением терминов «состоящий из» и/или «состоящий, по существу, из».[0048] It should be noted that wherever the embodiments of the invention described herein are used together with the word "comprise", "includes" or "including", etc., other similar embodiments described using the terms " consisting of" and/or "consisting essentially of".
[0049] Если это не оговорено особо и не указано иное, то слова «а», «an», «the» и «по меньшей мере один» являются синонимами и означают один или более, чем один.[0049] Unless otherwise noted and indicated, the words "a", "an", "the" and "at least one" are synonymous and mean one or more than one.
[0050] Кроме того, в настоящем описании, указание численных диапазонов вплоть до граничных значений включает все числа, включенные в этот диапазон (например, интервал 1-5 включает значения 1; 1,5; 2; 2,75; 3; 3,80; 4; 5 и т.п.).[0050] In addition, in the present description, the indication of numerical ranges up to the boundary values includes all numbers included in this range (for example, the interval 1-5 includes the
[0051] Для любого раскрытого здесь способа, который включает отдельные стадии, эти стадии могут быть проведены в любом возможном порядке. И при необходимости, могут быть одновременно проведены две или более стадий в любой комбинации.[0051] For any method disclosed here that includes separate steps, these steps can be carried out in any possible order. And if necessary, two or more steps can be carried out simultaneously in any combination.
[0052] Во всем описании изобретения, термины «один вариант осуществления изобретения», «вариант осуществления изобретения», «определенные варианты осуществления изобретения» или «некоторые варианты осуществления изобретения» и т.п. означают, что конкретные признаки, конфигурации, композиции или характеристики, описанные согласно данному варианту, включены по меньшей мере в один вариант осуществления раскрытия изобретения. Таким образом, употребление таких терминов в различных частях описания изобретения необязательно относится к тому же варианту раскрытия изобретения. Кроме того, конкретные признаки, конфигурации, композиции или характеристики могут быть объединены любым подходящим способом в одном или более вариантах осуществления изобретения.[0052] Throughout the description of the invention, the terms "one embodiment of the invention", "an embodiment of the invention", "certain embodiments of the invention" or "certain embodiments of the invention", and the like. mean that the specific features, configurations, compositions, or characteristics described in accordance with this embodiment are included in at least one embodiment of the disclosure. Thus, the use of such terms in various parts of the specification does not necessarily refer to the same embodiment of the disclosure. In addition, specific features, configurations, compositions, or characteristics may be combined in any suitable manner in one or more embodiments of the invention.
Краткое описание чертежейBrief description of the drawings
[0053] Нижеследующее подробное описание иллюстративных вариантов раскрытия настоящего изобретения приводится для лучшего понимания изобретения при его чтении со ссылкой на нижеследующие чертежи.[0053] The following detailed description of exemplary embodiments of the present invention is provided for a better understanding of the invention when read with reference to the following drawings.
[0054] На фиг. 1 представлена общая блок-схема общего иллюстративного способа комбинаторного индексирования в одной клетке в соответствии с раскрытием изобретения.[0054] FIG. 1 is a general flow diagram of a general exemplary single cell combinatorial indexing method in accordance with the disclosure.
[0055] На фиг. 2 представлена общая блок-схема общего иллюстративного способа комбинаторного индексирования в одной клетке в соответствии с раскрытием изобретения.[0055] FIG. 2 is a general flow diagram of a general exemplary single cell combinatorial indexing method in accordance with the disclosure.
[0056] На фиг. 3 представлена общая блок-схема общего иллюстративного способа комбинаторного индексирования в одной клетке в соответствии с раскрытием изобретения.[0056] FIG. 3 is a general flow diagram of a general exemplary single cell combinatorial indexing method in accordance with the disclosure.
[0057] На фиг. 4 показано, что sci-РНК-seq3 позволяет определить профиль ~2 миллионов клеток от 61 эмбриона мыши на 5 стадиях развития в одном эксперименте. (А) рабочая диаграмма sci-РНК-seq3 и экспериментальная схема. (В) Сравнение пропускной способности эксперимента с недавно полученными отчетами. (С) График рассеяния для числа UMI для мышей и человека, построенный для клеток HEK293T и NIH/3T3. (D) Гистограмма, иллюстрирующая число клеток, профилированных для каждого из 61 эмбриона мыши. (Е) Прямоугольная диаграмма, иллюстрирующая количество генов и обнаруженных UMI на клетку. (F) График рассеяния уникальных ридов, выровненных по генам Xist (chr X) и chrY на мышиный эмбрион. (G) Псевдовременная траектория псевдообъемов профилей РНК-seq мышиных эмбрионов. (Н) Тепловая карта изменений в экспрессии маркерного гена Е9.5-Е13.5 из псевдообъемов профилей РНК-seq мышиных эмбрионов.[0057] FIG. 4 shows that sci-RNA-seq3 can profile ~2 million cells from 61 mouse embryos at 5 developmental stages in a single experiment. (A) Working diagram of sci-RNA-seq3 and experimental scheme. (B) Comparison of experiment throughput with recent reports. (C) Scatter plot of mouse and human UMIs plotted for HEK293T and NIH/3T3 cells. (D) Histogram illustrating the number of cells profiled for each of 61 mouse embryos. (E) Box plot illustrating the number of genes and detected UMIs per cell. (F) Scatterplot of unique reads aligned to the Xist (chr X) and chrY genes per mouse embryo. (G) Pseudo-temporal trajectory of mouse embryonic RNA-seq pseudo-volume profiles. (H) Heat map of changes in E9.5-E13.5 marker gene expression from mouse embryonic RNA-seq pseudo-volume profiles.
[0058] На фиг. 5 показаны результаты анализов на признаки и анализов QC для sci-РНК-seq3. (А) Гистограмма, иллюстрирующая число ОТ-лунок, используемых для каждого из 61 мышиного эмбриона. (В) Гистограмма, иллюстрирующая распределение исходных секвенирующих ридов для каждой ПЦР-лунки в sci-РНК-seq3. (С) Прямоугольная диаграмма, иллюстрирующая число UMI на клетку для клеток HEK293T и NIH/3T3. (D) Прямоугольная диаграмма, иллюстрирующая соотношение ридов, картируемых для ожидаемых видов клеток HEK293T (человека) и NIH/3T3 (мыши). (Е) Прямоугольная диаграмма для сравнения числа UMI на клетку (снижение выборки до 20000 исходных ридов на клетку) для sci-РНК-seq3 и sci-РНК-seq. (F) Корреляция между данными измерений уровней экспрессии генов в профилях объединенных клеток HEK293T для sci-РНК-seq3 и sci-РНК-seq.[0058] FIG. 5 shows the results of trait assays and QC assays for sci-RNA-seq3. (A) Histogram illustrating the number of RT wells used for each of 61 mouse embryos. (B) Histogram illustrating the distribution of initial sequencing reads for each PCR well in sci-RNA-seq3. (C) Bar graph illustrating the number of UMI per cell for HEK293T and NIH/3T3 cells. (D) Box plot illustrating the ratio of reads mapped for expected HEK293T (human) and NIH/3T3 (mouse) cell types. (E) Box plot comparing UMIs per cell (downsampling to 20,000 original reads per cell) for sci-RNA-seq3 and sci-RNA-seq. (F) Correlation between measurements of gene expression levels in pooled HEK293T cell profiles for sci-RNA-seq3 and sci-RNA-seq.
[0059] На фиг. 6 показаны результаты анализов на дополнительные признаки и анализов QC для sci-РНК-seq3. (А) График рассеяния, иллюстрирующий корреляцию между количеством используемых ОТ-лунок и количеством выделенных клеток на эмбрион. (B-D) Гистограмма для сравнения числа исходных веквенирующих ридов (В), детектированных генов (С) и UMI (D) на клетку в методах sci-РНК-seq3 и других методах. (Е) Прямоугольная диаграмма, иллюстрирующая число UMI, детектированных на клетку эмбрионов на всех пяти стадиях развития. (F) Гистограмма, иллюстрирующая число мужских и женских эмбрионов, профиль которых был определен на каждой стадии развития.[0059] FIG. 6 shows the results of additional trait assays and QC assays for sci-RNA-seq3. (A) Scatterplot illustrating the correlation between the number of OT wells used and the number of recovered cells per embryo. (B-D) Histogram for comparison of the number of original sequencing reads (B), detected genes (C) and UMI (D) per cell in sci-RNA-seq3 and other methods. (E) Bar graph illustrating the number of UMIs detected per embryo cell at all five developmental stages. (F) Histogram illustrating the number of male and female embryos profiled at each stage of development.
[0060] На фиг. 7 показаны профили псевдообъема РНК-seq мышиных эмбрионов, которые были легко разделены по стадиям развития. (A) t-SNE объединенных транскритомов отдельных клеток, полученных от каждого из 61 мышиного эмбриона, позволило идентифицировать пять тесно кластеризованных групп, идеально совпадающих по стадиям развития. (В) Псевдовременная траектория профилей псевдообъема РНК-seq мышиных эмбрионов идентична траектории, показанной на фиг. 4G, но отличается тем, что псевдовремя показано цветом. (С) Профили 61 эмбриона были упорядочены по псевдовремени. Три самых ранних и три самых поздних (по псевдовремени) эмбриона Е10.5 показаны на фотографиях и отличаются по морфологии.[0060] FIG. 7 shows RNA-seq pseudo-volume profiles of mouse embryos that have been easily separated into developmental stages. (A) t-SNE of pooled single cell transcriptomes obtained from each of the 61 mouse embryos identified five closely clustered groups perfectly aligned in developmental stages. (B) The pseudo-temporal trajectory of the mouse embryo RNA-seq pseudo-volume profiles is identical to the trajectory shown in FIG. 4G, but differs in that the pseudo time is shown in color. (C) Profiles of 61 embryos were sorted by pseudo-time. The three earliest and three latest (in pseudo-time) E10.5 embryos are shown in the photographs and differ in morphology.
[0061] На фиг. 8 проиллюстрирована идентификация клеток основных типов, участвующих в органогенезе мыши. (А) визуализация t-SNE 2026641 клеток мышиных эмбрионов, окрашенных по идентификатору кластера при кластеризации Лювена и аннотированных на основе маркерных генов. То же самое t-SNE представлено ниже на графике, где проиллюстрированы только клетки на каждой стадии развития. Примитивные эритроидные (транзиентные) и окончательные эритроидные (размножающиеся) кластеры показаны в рамке для иллюстрации динамики их пролиферации. (В) Точечный график, иллюстрирующий экспрессию одного выбранного маркерного гена на тип клетки. Размер пятна соответствует проценту клеток каждого типа, а его цвет соответствует среднему уровню экспрессии.[0061] In FIG. 8 illustrates the identification of major cell types involved in mouse organogenesis. (A) Visualization of t-SNE 2026641 mouse embryonic cells stained for cluster ID in Leuven clustering and annotated based on marker genes. The same t-SNE is shown in the graph below, where only cells at each developmental stage are illustrated. Primitive erythroid (transient) and definitive erythroid (reproducing) clusters are shown in the box to illustrate the dynamics of their proliferation. (B) Dot plot illustrating the expression of one selected marker gene per cell type. The spot size corresponds to the percentage of cells of each type, and its color corresponds to the average level of expression.
[0062] На фиг. 9 проиллюстрирована идентификация клеток основных типов, участвующих в органогенезе мыши, и соответствующие наборы маркерных генов, специфичных для клеток конкретных типов. (А) Визуализация t-SNE при переходе клетки из Е9.5 в Е13.5, где стадии развития показаны цветом. Аналогичное t-SNE показано на фиг. 8А, но в данном случае, на каждом графике показаны только клетки, полученные в один момент времени. (В) Тепловая карта, иллюстрирующая относительную экспрессию генов по основным идентифицированным типам клеток. (С) Гистограмма, иллюстрирующая число маркерных генов в клетках каждого типа с экспрессией, более, чем в два раза превышающей экспрессию маркерных генов в клетках второго типа с наиболее высоким уровнем экспрессии (FDR 5%).[0062] In FIG. 9 illustrates the identification of the major cell types involved in mouse organogenesis and the corresponding sets of marker genes specific to particular cell types. (A) Visualization of t-SNE as the cell transitions from E9.5 to E13.5, where developmental stages are shown in color. A similar t-SNE is shown in FIG. 8A, but in this case, each graph shows only the cells obtained at one time point. (B) Heat map illustrating relative gene expression across the major cell types identified. (C) Histogram illustrating the number of marker genes in each type of cell with more than twice the expression of the marker genes in the highest-expressing
[0063] На фиг. 10 показано, что клетки, происходящие от реплицированных эмбрионов для одного и того же момента времени, не обнаруживают явных периодических эффектов. (А-Е) визуализация t-SNE клеток мышиных эмбрионов на различных стадиях развития: Е9,5 (А), Е10,5 (В), Е1,5 (С), Е12,5 (D), Е13,5 (Е), окрашенных по идентификатору эмбриона на каждой стадии.[0063] FIG. 10 shows that cells originating from replicated embryos for the same time point show no overt periodic effects. (A-E) Visualization of t-SNE cells of mouse embryos at various stages of development: E9.5 (A), E10.5 (B), E1.5 (C), E12.5 (D), E13.5 (E ) stained for embryo ID at each stage.
[0064] На фиг. 11 показана динамика изменения чисел клеток конкретных типов в процессе органогенеза у мышей. (А) Гистограмма, иллюстрирующая число клеток, профилированных для клеток каждого типа с разбивкой по стадиям развития. (В) Тепловая карта, иллюстрирующая относительное число клеток каждого типа (строки) в 61 мышином эмбрионе (столбцы). Абсолютное число клеток конкретного типа на эмбрион вычисляли путем умножения доли, которую внесят клетки конкретного типа в данный эмбрион, на общее вычисленное число клеток на этой стадии развития. Для представления данных, эти оценки нормализуют в каждом ряду по максимальному оцененному числу клеток данного типа для всего 61 эмбриона. Эмбрионы отсортировывали слева направо по псевдовремени развития. (С) Линейный график, иллюстрирующий относительное изменение числа клеток для примитивных эритроидных и окончательных эритроидных линий дифференцировки, рассчитанное как на панели В. Пунктирными линиями показана относительная экспрессия маркерных генов для примитивных эритроидов (Hbb-bhl) и окончательных эритроидов (Hbb-bs). Экспериментальные данные для отдельных эмбрионов были упорядочены по псевдовремени развития и сглажены методом Лесса.[0064] FIG. 11 shows the dynamics of changes in the number of cells of specific types in the process of organogenesis in mice. (A) Histogram illustrating the number of cells profiled for each cell type by developmental stage. (B) Heat map illustrating the relative number of cells of each type (rows) in 61 mouse embryos (bars). The absolute number of cells of a particular type per embryo was calculated by multiplying the proportion that cells of a particular type would contribute to a given embryo by the total calculated number of cells at that stage of development. For data presentation, these scores are normalized in each row to the maximum estimated number of cells of a given type for a total of 61 embryos. Embryos were sorted from left to right by pseudo-development time. (C) Line graph illustrating the relative change in cell number for primitive erythroid and definitive erythroid lineages calculated as in panel B. The dashed lines show the relative expression of marker genes for primitive erythroids (Hbb-bhl) and definitive erythroid lineages (Hbb-bs). Experimental data for individual embryos were sorted by pseudo-development time and smoothed by the Less method.
[0065] На фиг. 12 проиллюстрирована кластеризация Лювена и визуализация t-SNE подкластеров каждой из клеток 38 основных типов. Поскольку гетерогенность типов клеток была совершенно очевидна для множества из 38 кластеров, представленных на фиг. 8А, то авторами была разработана итеративная стратегия повторяющейся кластеризации Лювена для клеток каждого основного типа в целях идентификации подкластеров. После удаления подкластеров, в которых доминируют один или два эмбриона, и после слияния очень похожих подкластеров было получено всего 655 подкластеров (также называемых «подтипами», чтобы отличить их от клеток 38 основных типов, идентифицированных путем начальной кластеризации).[0065] FIG. 12 illustrates Leuven clustering and visualization of t-SNE subclusters of each of the 38 major cell types. Since the heterogeneity of cell types was quite evident for the set of 38 clusters shown in FIG. 8A, we developed an iterative Leuven iterative clustering strategy for each major cell type in order to identify subclusters. After removing subclusters dominated by one or two embryos, and after merging very similar subclusters, a total of 655 subclusters (also called "subtypes" to distinguish them from the 38 main cell types identified by initial clustering) were obtained.
[0066] На фиг. 13 проиллюстрирована кластеризация Лювена и визуализация t-SNE подкластеров каждой из клеток 38 основных типов на всех стадиях развития. Эта фигура идентична фиг. 12, за исключением того, что клетки были окрашены по стадии развития, а не по ID подкластера.[0066] FIG. 13 illustrates Leuven clustering and visualization of t-SNE subclusters of each of the 38 major cell types at all developmental stages. This figure is identical to Fig. 12, except that the cells were stained for developmental stage and not for subcluster ID.
[0067] На фиг. 14 проиллюстрирована чувствительность детектирования типов клеток в зависимости от клеточного охвата. (А) визуализация t-SNE всех клеток (левый график, n=2026641) и подмножества с более низкой выборкой (правый график, n=50000), окрашенные по идентификаторами кластеров Лювена, как показано на фиг. 8А. (В) визуализация t-SNE всех эндотелиальных клеток, (левый график, n=35878) и клеток подмножества с более низкой выборкой (правый график, n=1173), окрашенных по идентификатору кластеров Лювена, и вычисленных на основе 35878 эндотелиальных клеток. (С) визуализация t-SNE 1173 эндотелиальных клеток, окрашенных по идентификатору кластеров Лювена, и вычисленных на основе 1173 эндотелиальных клеток.[0067] FIG. 14 illustrates the sensitivity of cell type detection as a function of cell coverage. (A) t-SNE imaging of all cells (left plot, n=2026641) and lower sampled subset (right plot, n=50000) stained for Leuven cluster IDs as shown in FIG. 8A. (B) t-SNE imaging of all endothelial cells, (left panel, n=35878) and lower sampled subset cells (right panel, n=1173), stained for Leuven cluster ID and computed from 35878 endothelial cells. (C) Visualization of t-SNE of 1173 endothelial cells stained for the Leuven Cluster ID and computed from 1173 endothelial cells.
[0068] На фиг. 15 проиллюстрированы клетки 655 подтипов, происходящих от множества эмбрионов и определенных по сериям маркеров. (А) Гистограмма, иллюстрирующая распределение подкластеров по числу клеток (медиана 1869; диапазон 51-65894). (В) Гистограмма, иллюстрирующая распределение подкластеров по числу эмбрионов, от которых происходят эти клетки (>5 клеток, квалифицированных как благоприятствующий фактор). (С) Гистограмма, иллюстрирующая распределение подкластеров по отношению клеток, происходящих от эмбриона, рассматриваемого как наиболее благоприятствующий фактор. (D) Гистограмма, иллюстрирующая распределение подкластеров по числу маркерных генов (с уровнем экспрессии, который по меньшей мере в 1,5 раза превышает уровень экспрессии по сравнению с уровнем экспрессии в клетках других подтипов с наиболее высоким уровнем экспрессии в том же самом основном кластере; 5% FDR).[0068] FIG. 15 illustrates 655 cell subtypes derived from a variety of embryos and defined by a series of markers. (A) Histogram illustrating the distribution of subclusters by cell number (median 1869; range 51-65894). (B) Histogram illustrating the distribution of subclusters by the number of embryos from which these cells originate (>5 cells qualified as a favorable factor). (C) Histogram illustrating the distribution of subclusters in relation to cells derived from the embryo considered as the most favorable factor. (D) Histogram illustrating the distribution of subclusters by number of marker genes (with an expression level that is at least 1.5 times the level of expression compared to the level of expression in cells of other subtypes with the highest level of expression in the same main cluster; 5% FDR).
[0069] На фиг. 16 показана динамика изменения числа клеток конкретых типов в процессе органогенеза у мышей. (А) Тепловая карта, иллюстрирующая относительную экспрессию генов 655 идентифицированных подкластеров. (В) Тепловая карта, иллюстрирующая относительное число клеток каждого подтипа (ряды) в 61 мышином эмбрионе (столбцы). Абсолютное число клеток конкретного подтипа на эмбрион вычисляли как показано на фиг. 11В. (С) Визуализация t-SNE всех 61 эмбрионов мыши только на основе доли клеток 655 подтипов в каждом эмбрионе.[0069] FIG. 16 shows the dynamics of changes in the number of cells of specific types during organogenesis in mice. (A) Heat map illustrating the relative gene expression of the 655 identified subclusters. (B) Heat map illustrating the relative number of cells of each subtype (rows) in 61 mouse embryos (bars). The absolute number of cells of a particular subtype per embryo was calculated as shown in FIG. 11V. (C) Visualization of t-SNE of all 61 mouse embryos based only on the proportion of 655 cell subtypes in each embryo.
[0070] На фиг. 17 проиллюстрирована идентификация и характеризация подтипов эпителиальных клеток и апикального эктодермального гребня конечности (AER). (А) Визуализация t-SNE и аннотация эпителиальных клеток определенных подтипов на основе маркеров. (В) Визуализация t-SNE всех эпителиальных клеток, окрашенных по уровню экспрессии Fgf8. (С) Изображения дорожек гибридизации in situ Fgf8 в эмбрионах Е10.5 (слева) и Е11.5 (справа). (D) Визуализация t-SNE всех эпителиальных клеток, окрашенных по уровню экспрессии Fndc3a. (Е) Изображения дорожек гибридизации in situ Fndc3a в эмбрионе E10.5. Стрелка: сайт экспрессии гена. (F) Прямоугольная диаграмма, иллюстрирующая долю клеток AER на эмбрион на различных стадиях развития. (G) Псевдовременная траектория моноклеточных транскриптомов AER, окрашенных по стадиям развития. (Н) Линейный график, иллюстрирующий относительную экспрессию маркерных генов AER в течение всего псевдовремени развития.[0070] FIG. 17 illustrates the identification and characterization of epithelial cell and apical ectodermal limb ridge (AER) subtypes. (A) Visualization of t-SNE and annotation of epithelial cells of certain subtypes based on markers. (B) Visualization of t-SNE of all epithelial cells stained for Fgf8 expression level. (C) Images of Fgf8 in situ hybridization lanes in E10.5 (left) and E11.5 (right) embryos. (D) Visualization of t-SNE of all epithelial cells stained for Fndc3a expression levels. (E) Images of Fndc3a in situ hybridization lanes in an E10.5 embryo. Arrow: gene expression site. (F) Bar graph illustrating the proportion of AER cells per embryo at various stages of development. (G) Pseudo-temporal trajectory of AER single-cell transcriptomes stained for developmental stages. (H) Line graph illustrating the relative expression of AER marker genes during the entire developmental pseudo-time.
[0071] На фиг. 18 проиллюстрирована идентификация подтипов мышиного эпителия. Точечный график, иллюстрирующий экспрессию одного выбранного маркерного гена на подтип эпителия. Размер пятна соответствует проценту клеток определенного типа, а его цвет соответствует среднему уровню экспрессии.[0071] In FIG. 18 illustrates the identification of mouse epithelial subtypes. Dot plot illustrating the expression of one selected marker gene per epithelial subtype. The spot size corresponds to the percentage of cells of a certain type, and its color corresponds to the average level of expression.
[0072] На фиг. 19 проиллюстрирована динамика экспрессии генов в клетках апикального эктодермального гребня конечностей (AER) в течение псевдовремени. (А) Тепловая карта, иллюстрирующая сглаженную дифференциальную экспрессию генов в зависимости от псевдовремени (FDR 1%) в клетках AER, и построенная по отрицательной биномиальной регрессии, а также масштабируемая по проценту от максимальной экспрессии гена. В каждом ряду указаны различные гены, и эти гены распределены по подмножествам, которые имеют активированную (вверху), подавляемую (в середине) или транзиентную динамику (внизу) между Е9.5 и Е13.5. (В-С) Графики, иллюстрирующие значение q, преобразованное в log10, и объединенные баллы для обогащенных членов реактом, вычисленных с помощью enrichR (В) и факторов транскрипции (С) для генов, экспрессия которых значительно снижается при развитии AER. Наилучшие члены пути обогащения (Reactome2016) со значительным уменьшением числа генов включают прохождение клеточного цикла (митотического клеточного цикла, qva1=0,0002) и метаболизма глюкозы (метаболизма углеводов, qva1=0,0002). Наиболее обогащенные TF с мишенями для снижения числа генов включают факторы плюрипотентности, такие как Is11 (qva1 <10-5), Pou5f1 (qva1=0,002) и Nanog (qva1=0,003).[0072] FIG. 19 illustrates the dynamics of gene expression in apical ectodermal limb ridge (AER) cells over pseudotime. (A) Heat map illustrating smoothed pseudo-time differential gene expression (
[0073] На фиг. 20 проиллюстрирована характеризация клеточных траекторий во время дифференцировки мезенхимы конечностей. (А) 3D-визуализация UMAP мезенхимальных клеток конечностей, окрашенных по стадиям развития (слева и справа представлены изображения в двух направлениях). (В) График рассеяния, иллюстрирующий нормализованную экспрессию Pitxl и Tbx5 в мезенхимальных клетках конечностей. Показаны только клетки, в которых обнаружены Pitxl и/или Tbx5. (С) График Volkano, иллюстрирующий дифференциально экспрессируемые гены (FDR 5%, показаны красным) между передней и задней конечностями. Гены с наибольшим уровнем дифференциальной экспрессии были помечены. Ось X: log2-преобразованное кратное изменение между передними и задними конечностями для каждого гена. Ось Y: - log10-преобразованное qval исходя из теста на дифференцировку. (D) Та же самая визуализация, как и на панели А, но с окрашиванием по нормализованной экспрессии генов проксимальных маркеров/хондроцитов (Sox6, Sox9), а также маркеров дистальных органов (Hoxdl3, Tfap2b), передних (Рах9, Alx4) или задних (Hand2, Shh) конечностей. (F) Изображения дорожек гибридизации in situ для Hoxdl3 у эмбрионов Е10,5-Е13,5. (G) Та же самая визуализация, как и на панели А и D, но с окрашиванием по нормализованной экспрессии генов Сра2. Их паттерн экспрессии на этой траектории позволил авторам предсказать, что Сра2 является дистальным маркером развития мезенхимы конечностей, таким как Hoxdl3. (Н) Изображения дорожек гибридизации in situ для Сра2 у эмбрионов Е10.5-Е11.5. (I) Объединенные систематизированные результаты траекторий для AER и мезенхимы конечностей.[0073] FIG. 20 illustrates the characterization of cell trajectories during limb mesenchymal differentiation. (A) 3D UMAP imaging of mesenchymal limb cells stained for developmental stages (bidirectional images are shown on the left and right). (B) Scatterplot illustrating normalized Pitxl and Tbx5 expression in limb mesenchymal cells. Only cells in which Pitxl and/or Tbx5 are found are shown. (C) Volkano plot illustrating the differentially expressed genes (
[0074] На фиг. 21 проиллюстрирована характеризация траекторий изменения клеток во время развития мезенхимы конечности. (А) Тепловая карта, иллюстрирующая гены с наиболее высокими уровнями дифференциальной экспрессии между различными стадиями развития клеток мезенхимальных клеток конечностей. (В) Гистограмма, иллюстрирующая log10-преобразованное скорректированное значение р для обогащенных факторов транскрипции генов с повышенной степенью активации во время развития мезенхимы конечности. (С) Визуализация t-SNE мезенхимальных клеток конечностей, окрашенных для передних конечностей (Tbx5+) и задних конечностей (Pitx1+). Клетки с отсутствием экспрессии или с экспрессией обоих Tbx5 и Pitxl не показаны.[0074] FIG. 21 illustrates the characterization of cell trajectories during limb mesenchymal development. (A) Heat map illustrating the genes with the highest levels of differential expression between different stages of limb mesenchymal cell development. (B) Histogram illustrating the log10-transformed adjusted p-value for enriched transcription factor genes with increased activation during limb mesenchymal development. (C) Visualization of t-SNE mesenchymal limb cells stained for forelimb (Tbx5+) and hindlimb (Pitx1+). Cells lacking or expressing both Tbx5 and Pitxl are not shown.
[0075] На фиг. 22 показана экспрессия маркеров, пространственно ограниченных в конечностях. Каждая панель иллюстрирует другой маркерный ген. Цветом показаны количества UMI, которые были масштабированы по размеру библиотеки, логарифмически преобразованы, а затем картированы по Z-показателям для сравнения между генами. Клетки с отсутствием экспрессии данного маркера были исключены для предотвращения превышения точек на графике. (А) Маркер задней конечности Pitxl и маркер передней конечности Tbx5. (В) Первый ряд: маркеры проксимальных конечностей Sox6 (которые также помечают хондроциты) и Sox9. Второй ряд: маркеры дистальных конечностей Hoxdl3 и Tfap2b. Третий ряд: маркеры передних конечностей 68 Рах9 и Alx4. Четвертый ряд: маркеры задних конечностей Shh и Hand2.[0075] FIG. 22 shows the expression of markers spatially restricted in limbs. Each panel illustrates a different marker gene. Color shows UMI numbers that have been scaled to library size, log-transformed, and then mapped to Z-scores for comparison between genes. Cells with no expression of this marker were excluded to prevent overshooting of the points on the graph. (A) Pitxl hind limb marker and Tbx5 forelimb marker. (B) First row: proximal limb markers Sox6 (which also mark chondrocytes) and Sox9. Second row: distal limb markers Hoxdl3 and Tfap2b. Third row:
[0076] На фиг. 23 показаны модули пространственно ограниченных генов в конечностях. Всего 1191 ген был кластеризован с помощью иерархической кластеризации. Дендрограмма была распределена на 8 модулей с использованием функции границы дерева в R, и была оценена совокупная экспрессия генов в каждом модуле. Цветом показаны совокупные значения UMI для каждого модуля, которые были масштабированы по размеру библиотеки, логарифмически преобразованы, а затем картированы по Z-показателям для сравнения между модулями. Клетки с отсутствием экспрессии данного модуля были исключены для предотвращения превышения точек на графике.[0076] FIG. 23 shows modules of spatially restricted genes in limbs. A total of 1191 genes were clustered using hierarchical clustering. The dendrogram was divided into 8 modules using the tree boundary function in R, and the cumulative gene expression in each module was evaluated. The color shows the cumulative UMI values for each module, which were scaled by library size, log-transformed, and then mapped by Z-score for comparison between modules. Cells with no expression of this module were excluded to prevent exceeding the points on the graph.
[0077] На фиг. 24 проиллюстрирована характеризация восьми основных траекторий развития, наблюдаемых во время органогенеза у мышей. (А) 3D-визуализация UMAP общего набора данных авторов; вверху: вид в двух направлениях; внизу: увеличенный вид траекторий мезенхимы (слева) и нервной трубки/хорды (справа), окрашенных по стадиям развития. (В) Тепловая карта, иллюстрирующая долю клеток от каждого из 38 основных типов клеток, присвоенных каждой из 8 основных траекторий. В столбцах представлены восемь основных линий дифференцировки, показанных цветом на верхней гистограмме (см. ключ на панели А). (С) 3D-визуализация UMAP эпителиальных субтраекторий, окрашенных по стадиям развития.[0077] FIG. 24 illustrates the characterization of eight major developmental trajectories observed during organogenesis in mice. (A) 3D UMAP visualization of the authors' total dataset; top: two-way view; Bottom: Enlarged view of mesenchymal (left) and neural tube/notochord (right) trajectories, stained by developmental stage. (B) Heatmap illustrating the proportion of cells from each of the 38 major cell types assigned to each of the 8 major trajectories. The columns represent the eight major lines of differentiation, shown in color in the upper histogram (see key in panel A). (C) 3D UMAP visualization of epithelial subtrajectories stained for developmental stages.
[0078] На фиг. 25 проиллюстрирована характеризация восьми основных траекторий развития, наблюдаемых во время органогенеза у мышей. (А) Эта фигура аналогична фиг. 24А, за исключением того, что цвет соответствует 38 основным кластерам клеток. (В-С) Площадь участка, показывающая оцененную долю (В) и оцененное абсолютное число клеток (С) на эмбрион, полученное для каждой из восьми основных траекторий клеток от Е9.5 до Е13.5.[0078] FIG. 25 illustrates the characterization of eight major developmental trajectories observed during organogenesis in mice. (A) This figure is similar to Fig. 24A, except that the color corresponds to the 38 main cell clusters. (B-C) Plot area showing the estimated proportion (B) and the estimated absolute number of cells (C) per embryo obtained for each of the eight major cell trajectories from E9.5 to E13.5.
[0079] На фиг. 26 проиллюстрирована визуализация UMAP для восьми основных траекторий клеток, окрашенных по основному идентификатору кластера клеток.[0079] FIG. 26 illustrates a UMAP visualization of eight major cell trajectories stained for the major cell cluster ID.
[0080] На фиг. 27 проиллюстрирована визуализация UMAP для восьми основных траекторий клеток, окрашенных по стадиям развития.[0080] FIG. 27 illustrates UMAP imaging for eight major cell trajectories, stained by developmental stage.
[0081] На фиг. 28 проиллюстрирована визуализация UMAP подтипов эпителиальных клеток. Окраска соответствует 29 эпителиальным подтипам, показанным на фиг. 17А.[0081] FIG. 28 illustrates the visualization of UMAP epithelial cell subtypes. The stain corresponds to the 29 epithelial subtypes shown in FIG. 17A.
[0082] На фиг. 29 показано разрешение траекторий клеток в миогенезе. Края на основных графиках, которые определяют траектории, сообщаемые в Monocle 3, показаны в виде голубых отрезков фрагментов. (А) Клетки, предположительно участвующие в миогенезе, были выделены из траектории мезенхимных клеток in silico, а затем использованы для создания субтраектории миоцитов (Методы). (В) Клетки в субтраектории миоцитов, окрашенные по стадиям развития. (С) Клетки в траектории миоцитов, окрашенные по экспрессии выбранных регуляторов транскрипции при миогенезе. Клетки без детектируемой экспрессии для данного гена были исключены из графика. (D) Клетки, классифицированные по стадиям развития в соответствии с маркерами, показаны на панели С (Методы).[0082] FIG. 29 shows the resolution of cell trajectories in myogenesis. The edges on the main graphs that define the trajectories reported to
[0083] На фиг. 30 проиллюстрировано совместное профилирование общего и вновь синтезированного транскриптома по судьбе sci-клеток. (А) Рабочая диаграмма sci-клеток с ключевыми стадиями, изложенными в описании. (Б) Схема эксперимента. Клетки А549 обрабатывали дексаметазоном в зависимости от времени. Клетки во всех условиях обработки метили S4U за два часа до сбора для оценки судьбы sci-клеток. (С) График Violin, где показано отношение S4U-меченых ридов на клетку за шесть обработок. (D) График Violin, где показано отношение S4U-меченых ридов в экзонных и интронных ридах. Для всех прямоугольных диаграмм: толстые горизонтальные линии; медианы; верхний и нижний края прямоугольника; первый и третий квартили, соответственно; усы, в 1,5 раза превышающие межквартильный интервал; круги, выбросы. (Е) Визуализация UMAP в клетках А549 с использованием целого транскриптома (слева), вновь синтезированного транскриптома (в середине) и их обоих (справа). (F) Визуализация, аналогичная (Е), но с окрашиванием по идентификатору кластера, обнаруженному с использованием целого транскриптома. (G) Визуализация UMAP в клетках А549 по общей информации с окрашиванием по нормализованной экспрессии маркерных генов G2/M на уровне РНК (слева) и на уровне вновь синтезированной РНК (справа). Число UMI для этих генов масштабируют по размеру библиотеки, логарифмически преобразуют, объединяют, а затем картируют по Z-показателям.[0083] FIG. 30 illustrates joint profiling of the total and newly synthesized transcriptome for sci cell fate. (A) Working diagram of sci cells with key steps outlined in the description. (B) Schematic of the experiment. A549 cells were treated with dexamethasone in a time dependent manner. Cells under all treatment conditions were labeled with S4U two hours prior to harvest to assess sci cell fate. (C) Violin plot showing the ratio of S4U-labeled reads per cell over six treatments. (D) Violin plot showing the ratio of S4U-labeled reads in exon and intron reads. For all rectangular charts: thick horizontal lines; medians; the top and bottom edges of the rectangle; first and third quartiles, respectively; whiskers, 1.5 times the interquartile interval; circles, outliers. (E) Visualization of UMAP in A549 cells using whole transcriptome (left), newly synthesized transcriptome (middle) and both (right). (F) Visualization similar to (E), but staining for cluster ID detected using the whole transcriptome. (G) Visualization of UMAP in A549 cells by common information staining for normalized G2/M marker gene expression at the RNA level (left) and at the newly synthesized RNA level (right). The UMIs for these genes are scaled by library size, log-transformed, pooled, and then mapped to Z-scores.
[0084] На фиг. 31 показаны результаты анализов на дополнительные признаки и анализов QC для судьбы sci-клеток. (А) График рассеяния для числа UMI у мышей (NIH/3T3) и человека (HEK293T) на клетку в условиях оценки судьбы sci-клеток. (B-D) Прямоугольная диаграмма, где показано отношение S4U-меченных ридов, число UMI и чистота (доля ридов, картируемых по ожидаемым видам) на клетку для клеток HEK293T (число клеток n=932) и клеток NIH/3T3 (число клеток n=438). Для всех прямоугольных диаграмм: толстые горизонтальные линии; медианы; верхний и нижний края прямоугольника; первый и третий квартили, соответственно; усы, в 1,5 раза превышающие межквартильный интервал; круги, выбросы. (E-F) Корреляция (корреляция Спирмена) между оценками измерений экспрессии генов в объединенных профилях клеток HEK293T (Е) и NIH/3T3 (F) по sci-судьбе (ось у) по сравнению с sci-РНК-seq-клетками (ось х).[0084] FIG. 31 shows the results of additional trait assays and QC assays for sci cell fate. (A) Scatterplot of murine (NIH/3T3) and human (HEK293T) UMIs per cell under sci cell fate assessment conditions. (B-D) Bar graph showing ratio of S4U-labeled reads, UMI number, and purity (proportion of reads mapped to expected species) per cell for HEK293T cells (n=932 cells) and NIH/3T3 cells (n=438 cells) ). For all rectangular charts: thick horizontal lines; medians; the top and bottom edges of the rectangle; first and third quartiles, respectively; whiskers, 1.5 times the interquartile interval; circles, outliers. (E-F) Correlation (Spearman correlation) between scores of gene expression measurements in pooled HEK293T (E) and NIH/3T3 (F) cell profiles by sci-fate (y-axis) versus sci-RNA-seq cells (x-axis) .
[0085] На фиг. 32 показана оценка sci-судьбы клеток А549, обработанных дексаметазоном. (А, В) График Violin, где показано число UMI (А) и генов (В) на клетку в шести условиях обработки. Для всех прямоугольных диаграмм: толстые горизонтальные линии; медианы; верхний и нижний края прямоугольника; первый и третий квартили, соответственно; усы, в 1,5 раза превышающие межквартильный интервал; круги, выбросы. (С) График корреляции, где показан коэффициент корреляции Пирсона между различными условиями обработки для объединенного целого транскриптома (вверху справа) и вновь синтезированного транскриптома (внизу слева). (D) Визуализация UMAP в клетках А549 с использованием вновь синтезированного транскриптома с окрашиванием по идентификатору кластера, идентифицированному с использованием вновь синтезированной транскриптомы. (Е) Тепловая карта, показывающая долю клеток от каждого кластера, определенного по всему транскриптому, которые входят в каждый клеточный кластер вновь синтезированного транскриптома. (F-G) Визуализация UMAP в клетках А549 с использованием общего и вновь синтезированного транскриптома с окрашиванием по нормализованной экспрессии маркерных генов S-фазы по экспрессии общей РНК (F) и вновь синтезированной РНК (G). Число UMI для этих генов масштабируют по размеру библиотеки, логарифмически преобразуют, объединяют, а затем картируют по Z-показателям.[0085] FIG. 32 shows the sci fate of A549 cells treated with dexamethasone. (A, B) Violin plot showing the number of UMIs (A) and genes (B) per cell under six treatment conditions. For all rectangular charts: thick horizontal lines; medians; the top and bottom edges of the rectangle; first and third quartiles, respectively; whiskers, 1.5 times the interquartile interval; circles, outliers. (C) Correlation plot showing the Pearson correlation coefficient between different processing conditions for the pooled whole transcriptome (upper right) and the newly synthesized transcriptome (lower left). (D) Visualization of UMAP in A549 cells using the newly synthesized transcriptome, staining for the cluster ID identified using the newly synthesized transcriptome. (E) Heat map showing the proportion of cells from each cluster identified across the entire transcriptome that are included in each cell cluster of the newly synthesized transcriptome. (F-G) Visualization of UMAP in A549 cells using total and newly synthesized transcriptome stained for normalized expression of S-phase marker genes for total RNA expression (F) and newly synthesized RNA (G). The UMIs for these genes are scaled by library size, log-transformed, pooled, and then mapped to Z-scores.
[0086] На фиг. 33 проиллюстрирована характеризация модулей TF, инициирующих переход клеток из одного состояния в другое. (А) Идентифицированная связь (синий) между факторами транскрипции (оранжевый) и регулируемыми генами (серый). Модули TF, ассоциированные с прохождением клеточного цикла или GR-ответом, помечены. (В) Визуализация UMAP клеток А549, упорядоченных по модулям TF клеточного цикла с окрашиванием вновь синтезированной мРНК маркеров S-фазы и G2/М-фазы (вверху), трех фаз клеточного цикла (внизу слева) и девяти стадий клеточного цикла с помощью анализа на неконтролируемую кластеризацию (внизу справа). (С) Визуализация UMAP клеток А549, упорядоченных по модулям TF GR-ответа с окрашиванием по времени обработки DEX (слева), активности СЕВРВ и FOXOl (в середине) и идентификатору кластера в анализе на неконтролируемую кластеризацию (справа). Для вычисления активности TF, число вновь синтезированных UMI для этих генов масштабируют по размеру библиотеки, логарифмически преобразуют, объединяют, а затем картируют по Z-показателям. (D) Таблица, где показано наблюдаемое отношение (черный) состояния клетки к комбинаторному состоянию модулей клеточного цикла (ось х) и модулей GR-ответа (ось у). Красное число означает ожидаемое отношение, предполагающее независимый набор. (Е) Тепловая карта, иллюстрирующая долю состояний клеток, определяемых по комбинаторным состояниям модулей TF в каждом из основных кластеров, идентифицированных в анализе на кластеризацию на основе объединенного целого и вновь синтезированного транскриптома.[0086] FIG. 33 illustrates the characterization of TF modules that initiate the transition of cells from one state to another. (A) Identified relationship (blue) between transcription factors (orange) and regulated genes (grey). TF modules associated with cell cycle progression or GR response are labeled. (B) UMAP imaging of A549 cells sorted into cell cycle TF modules with staining of newly synthesized mRNA for S-phase and G2/M-phase markers (top), three cell cycle phases (lower left), and nine cell cycle stages by analysis on uncontrolled clustering (bottom right). (C) Visualization of UMAP A549 cells sorted by TF GR response modules staining for DEX treatment time (left), CEBPB and FOXO1 activity (middle), and cluster ID in the uncontrolled clustering assay (right). To calculate TF activity, the number of newly synthesized UMIs for these genes is scaled by library size, log-transformed, pooled, and then Z-score mapped. (D) Table showing the observed relationship (in black) of cell state to the combinatorial state of cell cycle modules (x-axis) and GR response modules (y-axis). The red number means the expected relationship, assuming an independent set. (E) Heat map illustrating the proportion of cell states determined from the combinatorial states of the TF modules in each of the major clusters identified in the pooled whole and newly synthesized transcriptome clustering assay.
[0087] На фиг. 34 проиллюстрированы модули TF, инициирующие переход клеток из одного состояния в другое для DEX-обработанных клеток А549. (А) Идентифицированные гены-мишени (серые) от СЕВРВ (оранжевый). Показаны только связи с регулируемым коэффициентом корреляции исходя из LASSO >0,6. (В) Визуализация UMAP клеток А549 по целому и вновь синтезированному транскриптому с окрашиванием по экспрессии СЕВРВ (слева) и активности (справа). (С) похож на (В), но с окрашиванием по экспрессии YOD1 (слева) и по активности YOD1 (справа). (D) аналогичен (В), но с окрашиванием по экспрессии GTF2IRD1 (слева) и по активности GTF2IRD1 (справа). (Е) аналогичен (В), но с окрашиванием по экспрессии E2F1 (слева), по активности E2F1 (в середине) и по совокупной экспрессии целого транскриптома для генов, сцепленных с E2F1 (справа). (F) Тепловая карта, где показано абсолютное значение коэффициента корреляции Пирсона между модулями TF. 29 модулей TF были распределены на пять групп с помощью анализа на иерархическую кластеризацию.[0087] FIG. 34 illustrates TF modules initiating cell transition from one state to another for DEX-treated A549 cells. (A) Identified target genes (grey) from CEBPB (orange). Only relationships with adjustable correlation coefficient based on LASSO >0.6 are shown. (B) UMAP imaging of A549 cells on the whole and newly synthesized transcriptome, staining for CEBPB expression (left) and activity (right). (C) Similar to (B) but stained for YOD1 expression (left) and YOD1 activity (right). (D) Similar to (B), but stained for GTF2IRD1 expression (left) and for GTF2IRD1 activity (right). (E) Similar to (B), but stained for E2F1 expression (left), for E2F1 activity (middle), and for overall whole-transcriptome expression for E2F1-linked genes (right). (F) Heat map showing the absolute value of the Pearson correlation coefficient between TF modules. The 29 TF modules were divided into five groups using a hierarchical clustering analysis.
[0088] На фиг. 35 показаны клеточные состояния, характеризуемые комбинаторными состояниями функциональных модулей TF. (А) Схема, иллюстрирующая стратегию характеризации состояний клеток по комбинаторным состояниям функциональных модулей TF. (В) Визуализация Umap для всех клеток с использованием как целого, так и вновь синтезированного транскриптома с окрашиванием по основному идентификатору кластера, идентифицированного с помощью алгоритма кластеризации пиков плотности в области UMAP.[0088] FIG. 35 shows cellular states characterized by combinatorial states of TF functional modules. (A) Scheme illustrating the strategy for characterizing cell states by combinatorial states of TF functional modules. (B) Umap imaging for all cells using both whole and newly synthesized transcriptome stained for the main cluster identifier identified by the UMAP region density peak clustering algorithm.
[008 9] На фиг. 36 проиллюстрирована характеризация траекторий перехода клеток из одного состояния а другое для >6000 отдельных клеток. (А) Схема, иллюстрирующая коррекцию памяти, и анализ на слияние клеток для построения траектории перехода клеток из одного состояния в другое, подробно рассматриваемые в описании и Методе. (В) 3D-график для клеток, окрашенных по времени обработки DEX (также в виде z-координат). Координаты х и у соответствуют области UMAP по целому и вновь синтезированному транскриптому на фиг. 30Е (слева). Слитые родительские и дочерние клетки показаны серыми линиями. (С) Аналогично (В), за исключением того, что координаты х и у соответствуют области UMAP по динамике моноклеточного транскриптома в одной клетке в шести временных точках. (D) Линейные графики, иллюстрирующие динамику состояния клеток с точки зрения различных GR-ответов (вверху) и фазы клеточного цикла (внизу) в кластерах для каждой клеточной траектории (слева) или во всех клетках (справа) независимо от анализа на слияние клеток. (Е) Сеть перехода клеток из одного состояния в другое. Узлами являются 27 состояний клеток, охарактеризованных на фиг. 33D, а звенья представляют собой идентифицированные пути перехода клеток из одного состояния в другое. Звенья с низкой вероятностью перехода (<0,1) отфильтровывают. Квадратами с пунктирными линиями показаны примеры состояний с обратимой динамикой перехода. (F) Корреляционный график, иллюстрирующий корреляцию доли состояния клеток между условиями обработки. Положительные корреляции показаны синим цветом, а отрицательные - красным. Форма эллипса коррелирует с коэффициентами корреляции (на эллипсе). (G) График рассеяния, иллюстрирующий корреляцию доли состояния клеток между наблюдаемыми 10-часовыми группами DEX-обработки и прогнозируемыми долями состояний клеток. Прогноз основан на вероятностях перехода клеток из одного состояния в другое и на оценке доли состояния клеток в группе без обработки DEX. Синяя линия соответствует линии линейной регрессии. (Н) График рассеяния, иллюстрирующий корреляцию вероятности перехода клеток из одного состояния в другое, рассчитанной по полным данным (0-10 часов) или частичным данным (0-6 часов) вместе с линией линейной регрессии.[008 9] FIG. 36 illustrates the characterization of cell transition trajectories from one state to another for >6000 individual cells. (A) Schematic illustrating memory correction and cell fusion analysis to construct a cell transition trajectory from one state to another, discussed in detail in the description and Method. (B) 3D plot of cells stained by DEX treatment time (also as z-coordinates). The x and y coordinates correspond to the UMAP region of the whole and newly synthesized transcriptome in FIG. 30E (left). Merged parent and child cells are shown with gray lines. (C) Similar to (B), except that the x and y coordinates correspond to the UMAP region in single cell monocellular transcriptome dynamics at six time points. (D) Line graphs illustrating the dynamics of cell state in terms of different GR responses (top) and cell cycle phase (bottom) in clusters for each cell trajectory (left) or in all cells (right) regardless of cell fusion assay. (E) Network of cell transition from one state to another. The nodes are the 27 cell states described in FIG. 33D, and links are identified pathways for cells to move from one state to another. Links with a low transition probability (<0.1) are filtered out. Squares with dotted lines show examples of states with reversible transition dynamics. (F) Correlation plot illustrating the correlation of cell state proportion between treatment conditions. Positive correlations are shown in blue and negative ones in red. The shape of the ellipse correlates with the correlation coefficients (on the ellipse). (G) Scatterplot illustrating the correlation of cell state fractions between observed 10-hour DEX treatment groups and predicted cell state fractions. The prediction is based on the probabilities of cell transition from one state to another and on an estimate of the proportion of cell state in the group without DEX treatment. The blue line corresponds to the linear regression line. (H) Scatterplot illustrating the correlation of cell transition probability from one state to another calculated from complete data (0-10 hours) or partial data (0-6 hours) along with a linear regression line.
[0090] На фиг. 37 показана оценка уровня детектирования новой РНК и уровня разложения РНК. (А) График рассеяния, иллюстрирующий корреляцию между осью х: различия нормализованного целого транскриптома между клетками без DEX и клетками через 2 часа после обработки DEX, и осью у: различия нормализованного вновь синтезированного транскриптома между клетками без DEX и клетками через 2 часа после обработки DEX. Синей линией обозначена линия линейной регрессии. Полный транскриптом и вновь синтезированный транскриптом в каждый момент времени нормализуют по размеру библиотеки всего транскриптома в данный момент времени. (В) График корреляции, иллюстрирующий корреляцию оценки степени деградации генов между условиями обработки. Положительные корреляции представлены синим цветом, а отрицательные - красным. Форма эллипса коррелирует с коэффициентами корреляции (на эллипсе).[0090] FIG. 37 shows an assessment of the level of detection of new RNA and the level of degradation of RNA. (A) Scatterplot illustrating the correlation between x-axis: differences in normalized whole transcriptome between cells without DEX and
[0091] На фиг. 38 показана сеть перехода клеток из одного состояния в другое для предсказания состояния клеток. (А) График корреляции, иллюстрирующий корреляцию между наблюдаемыми состояниями клеток в каждое время обработки и прогнозируемым состоянием клеток по вероятности перехода клеток из одного состояния в другое и по доле состояний клеток у группы без обработки DEX. Синей линией показана линия линейной регрессии. (В) График рассеяния, иллюстрирующий корреляцию доли состояний клеток между наблюдаемыми 10-часовыми группами обработки DEX и предсказанными значениями. Предсказанные значения основаны на вероятностях перехода клеток из одного состояния в другое, оцененных по частичным данным (0-6 часов), и по доле состояния клеток у группе без обработки DEX. Синей линией показана линия линейной регрессии.[0091] FIG. 38 shows a cell transition network from one state to another to predict the state of the cells. (A) Correlation plot illustrating the correlation between observed cell states at each treatment time and predicted cell state by cell transition probability from one state to another and by proportion of cell states in the non-DEX treatment group. The blue line shows the linear regression line. (B) Scatterplot illustrating the correlation of the proportion of cell states between observed 10-hour DEX treatment groups and predicted values. The predicted values are based on the probabilities of transition of cells from one state to another, estimated from partial data (0-6 hours), and on the proportion of cell state in the group without DEX treatment. The blue line shows the linear regression line.
[0092] На фиг. 39 показано, что вероятности перехода клеток из одного состояния в другое регулируются паттерном стабильности перехода в соседнее состояние. (А) График корреляции, иллюстрирующий корреляцию между расстоянием перехода (расстоянием Пирсона) и вероятностью перехода клеток из одного состояния в другое, вместе с красной линией сглаживания Лесса, помеченной ggplot2. (В) 3D-график, иллюстрирующий паттерн нестабильности состояния клеток. Ось X представляет состояния GR-ответов (от состояния «нет» до состояния «низкий» - «высокий»). Ось Y представляет фазы клеточных циклов от G0/G1 до G2/M. Ось Z представляет паттерн нестабильности состояния клеток, определяемый по вероятности скачка каждого состояния клетки в другие состояния через 2 часа. (С) График рассеяния, иллюстрирующий взаимосвязь между нестабильностью состояния клеток и изменением доли клеток до и после 10-часовой обработки DEX, вместе с красной линией сглаживания сглаживания Лесса, помеченной ggplot2. (D) График рассеяния, иллюстрирующий корреляцию между нестабильностью состояния и энтропией перехода из одного состояния в другое вместе с линией линейной регрессии (синего цвета). (Е) Прямоугольная диаграмма, иллюстрирующая анализ на перекрестное подтверждение методом R-квадрат для предсказания вероятности перехода между состояниями только по расстоянию перехода или по комбинации расстояния перехода и паттерна нестабильности состояний с использованием плотно соединенной нейронной сети.[0092] FIG. 39 shows that the probabilities of cell transition from one state to another are regulated by the transition stability pattern to the neighboring state. (A) Correlation plot illustrating the correlation between transition distance (Pearson distance) and cell transition probability from one state to another, along with the red Lesse smoothing line labeled ggplot2. (B) 3D graph illustrating the pattern of cell state instability. The x-axis represents the states of the GR responses (from "none" to "low" to "high"). The y-axis represents the cell cycle phases from G0/G1 to G2/M. The z-axis represents the cell state instability pattern, defined by the probability of each cell state jumping to other states after 2 hours. (C) Scatterplot illustrating the relationship between cell state instability and cell fraction change before and after 10-hour DEX treatment, along with the red Loess smoothing line labeled ggplot2. (D) Scatterplot illustrating the correlation between state instability and state transition entropy along with a linear regression line (in blue). (E) Box plot illustrating R-squared cross-validation analysis for predicting state transition probability from transition distance alone or from a combination of transition distance and state instability pattern using a densely connected neural network.
[0093] На фиг. 40 представлен сканирующий снимок экзона-мишени в гене LMO2. Экзон-мишень указан на дорожке «Экзоны-мишени». Следует обратить внимание, что 12 ОТ-праймеров, прошедших через фильтры, охватывают экзон, по возможности, на достаточном уровне. Две нижние дорожки, «Primers_plus/minus» и «Captured_plus/minus», иллюстрируют риды, картированные по ОТ-праймерам и захваченным транскриптам, соответственно. Разница в количестве считываний указывает на число инициации нежелательных событий.[0093] FIG. 40 is a scan of the target exon in the LMO2 gene. The target exon is listed on the Target Exons track. It should be noted that the 12 RT primers passed through the filters cover the exon, if possible, at a sufficient level. The bottom two lanes, "Primers_plus/minus" and "Captured_plus/minus", illustrate reads mapped to RT primers and captured transcripts, respectively. The difference in the number of reads indicates the number of unwanted events triggered.
[0094] На фиг. 41 представлена таблица для сравнительного ранжирования генов в базе данных по секвенированию общей ядерной РНК ENCODE и генов в библиотеке для захвата мультиплексной ОТ in situ. Гены-мишени показаны жирным шрифтом. Из 12 наиболее распространенных генов в библиотеке-мишени было выбрано 8 генов-мишеней. В последних двух столбцах - «RANK» означает ранжирование в базе данных авторов изобретения, a «ENCODE», означает ранжирование в базе данных ENCODE. Избыточные РНК, не являющиеся мишенями, включают митохондриальные рибосомные РНК RNR2 и RNR1, а часто встречающиеся ядерные РНК включают IncPHК MALAT1. Следует отметить, что ген LMO2 простирается от 4627-го наиболее детектируемого гена в базе данных ENCODE (из 26281 генов) до 3-го наиболее детектируемого гена в библиотеке авторов.[0094] FIG. 41 is a table for the comparative ranking of genes in the ENCODE total nuclear RNA sequencing database and genes in the in situ multiplex RT capture library. Target genes are shown in bold. Of the 12 most common genes in the target library, 8 target genes were selected. In the last two columns - "RANK" means the ranking in the database of inventors, and "ENCODE" means the ranking in the ENCODE database. Excess non-target RNAs include the mitochondrial ribosomal RNAs RNR2 and RNR1, and frequently occurring nuclear RNAs include IncRNA MALAT1. It should be noted that the LMO2 gene ranges from the 4627th most detected gene in the ENCODE database (out of 26281 genes) to the 3rd most detected gene in the authors' library.
[0095] На фиг. 42 показано обогащение захваченного транскрипта по сравнению с общей РНК. График рассеяния для ридов в библиотеке мишеней и для ридов в ядерной РНК ENCODE. Гены, на которые нацелены ОТ, обозначены красным; при этом, следует отметить, что обычно они находятся за пределами диагонали, что указывает на то, что они были обогащены по сравнению с ожидаемым уровнем экспрессии в эталонной базе данных. Избыточные ядерные IncPHК MALAT1 и XIST показаны синим цветом: и они находятся выше диагонали, что указывает на успешное обогащение по сравнению с этими РНК. еРНК-мишень не обогащена (оранжевый). Среднее обогащение было в 45,3 раза выше ожидаемого уровня для 9 генов-мишеней в этом эксперименте. В целом, риды генов-мишеней составляют 31% от общего числа ридов, картированных по генам в этой базе данных.[0095] FIG. 42 shows the enrichment of the captured transcript compared to total RNA. Scatterplot for reads in the target library and for reads in ENCODE nuclear RNA. Genes targeted by OTs are shown in red; however, it should be noted that they are usually off the diagonal, indicating that they were enriched compared to the expected level of expression in the reference database. Excess nuclear IncRNA MALAT1 and XIST are shown in blue: and they are above the diagonal, indicating successful enrichment compared to these RNAs. The target eRNA is not enriched (orange). The mean enrichment was 45.3 times the expected level for the 9 target genes in this experiment. Overall, target gene reads account for 31% of the total reads mapped by genes in this database.
[0096] Схематически представленные чертежи необязательно соответствуют масштабу. Одинаковые номера, используемые на фигурах, относятся к одинаковым компонентам, стадиям и т.п. Однако, следует отметить, что использование числа для ссылки на компонент на данном чертеже не рассматривается как ограничение компонента на другом чертеже, обозначенного тем же номером. Кроме того, использование различных номеров для обозначения компонентов не означает, что различные пронумерованные компоненты не могут быть идентичны другим пронумерованным компонентам или похожи на них.[0096] The schematic drawings are not necessarily to scale. Like numbers used in the figures refer to like components, steps, and the like. However, it should be noted that the use of a number to refer to a component in this drawing is not to be considered as limiting the component in another drawing designated by the same number. In addition, the use of different numbers to designate components does not mean that different numbered components cannot be identical or similar to other numbered components.
Подробное описание иллюстративных вариантов осуществления изобретенияDetailed description of illustrative embodiments of the invention
[0097] В одном варианте осуществления изобретения, описанный здесь способ может быть применен для создания библиотек секвенирования (sci) и комбинаторного индексирования отдельных клеток, которые включают транскриптомы множества отдельных клеток. Так, например, этот способ может быть применен для получения информации о последовательностях транскриптомов целых клеток, транскритомов вновь синтезированной РНК или их комбинации. В другом варианте осуществления изобретения, описанный здесь способ может быть применен для получения sci-секвенирующих библиотек, которые включают информацию о последовательности субпопуляции нуклеиновых кислот РНК. Так, например, если некодирующая регуляторная область является мишенью для перестановки, то кодирующая область, находящаяся в цис-положении по отношению к регуляторной области, может быть протестирована на измененную экспрессию. В другом примере, эксперименты по клеточной карте могут проводиться с использованием считанных данных, ограниченных числом мРНК, которые являются высокоинформативными.[0097] In one embodiment of the invention, the method described here can be used to create single cell sequencing (sci) and combinatorial indexing libraries that include multiple single cell transcriptomes. For example, this method can be used to obtain information about the sequences of whole cell transcriptomes, transcriptomes of newly synthesized RNA, or a combination of both. In another embodiment of the invention, the method described here can be used to obtain sci-sequencing libraries that include information about the sequence of a subset of RNA nucleic acids. Thus, for example, if a non-coding regulatory region is the target of a permutation, then a coding region that is cis to the regulatory region can be tested for altered expression. In another example, cell mapping experiments can be performed using mRNA-limited readouts that are highly informative.
[0098] Способ может включать одну или более стадий получения выделенных ядер или клеток, распределения субпопуляций выделенных ядер или клеток на компартменты, обработки выделенных ядер или клеток так, чтобы они включали фрагменты нуклеиновой кислоты, и добавление компартмент-специфического индекса к фрагментам нуклеиновой кислоты. Этот способ может включать, но необязательно, обработку клеток в заранее определенных условиях и/или мечение вновь синтезированной РНК в клетках. Этот способ может быть направлен на получение информации, которая включает информацию о клеточном транскриптоме или субпопуляции нуклеиновых кислот РНК. Эти стадии могут выполняться практически в любом порядке и могут быть объединены различными способами. Необязательно, ядра могут быть выделены из клеток после обработки клеток в предварительно определенных условиях и мечения вновь синтезированной РНК.[0098] The method may include one or more steps of obtaining isolated nuclei or cells, distributing subpopulations of the isolated nuclei or cells into compartments, treating the isolated nuclei or cells to include nucleic acid fragments, and adding a compartment-specific index to the nucleic acid fragments. This method may include, but not necessarily, the processing of cells under predetermined conditions and/or labeling of newly synthesized RNA in cells. This method may be directed to obtaining information that includes information about the cellular transcriptome or subpopulation of RNA nucleic acids. These steps can be performed in almost any order and can be combined in a variety of ways. Optionally, nuclei can be isolated from cells after treating the cells under predetermined conditions and labeling the newly synthesized RNA.
Получение выделенных ядер или клетокObtaining isolated nuclei or cells
[0099] Описанный здесь способ может включать получение клеток или ядер, выделенных из множества клеток (фиг. 1, блок 10; фиг. 2, блок 22). Клетки могут происходить от любого(ых) организма(ов) и от клеток любого типа или любой ткани организма(ов). В одном варианте осуществления изобретения, клетки могут представлять собой эмбриональные клетки, например клетки, полученные из эмбриона. В одном варианте осуществления изобретения, клетки или ядра могут быть выделены из раковой или пораженной ткани. Способ может также включать диссоциацию клеток и/или выделение ядер. Количество ядер или клеток может быть равно по меньшей мере двум. Верхний предел зависит от практических ограничений оборудования (например, многолуночных планшетов, числа индексов), используемого в других стадиях описанного здесь способа. Количество ядер или клеток, которые могут быть использованы, не имеет конкретных ограничений и может исчисляться миллиардами. Так, например, в одном варианте осуществления изобретения, число ядер или клеток может составлять не более 100000000, не более 10000000, не более 1000000000, не более 100000000, не более 10000000, не более 1000000, не более 100000, нет более 10000, не более 1000, не более 500 или не более 50. Для специалиста очевидно, что в некоторых вариантах осуществления изобретения, молекулы нуклеиновой кислоты в каждом ядре представляют весь транскриптом этого ядра, например весь транскриптом, недавно синтезированный транскриптом или тот и другой.[0099] The method described here may include obtaining cells or nuclei isolated from a plurality of cells (Fig. 1, block 10; Fig. 2, block 22). Cells can be derived from any organism(s) and from any cell type or tissue of the organism(s). In one embodiment of the invention, the cells may be embryonic cells, such as cells derived from an embryo. In one embodiment of the invention, cells or nuclei can be isolated from cancerous or diseased tissue. The method may also include cell dissociation and/or isolation of nuclei. The number of nuclei or cells may be at least two. The upper limit depends on the practical limitations of the equipment (eg, multiwell plates, number of indexes) used in other steps of the method described here. The number of nuclei or cells that can be used is not particularly limited and may be in the billions. So, for example, in one embodiment of the invention, the number of nuclei or cells can be no more than 100000000, no more than 10000000, no more than 1000000000, no more than 100000000, no more than 10000000, no more than 1000000, no more than 100000, no more than 10000, no more 1000, not more than 500, or not more than 50. It will be appreciated by those skilled in the art that in some embodiments of the invention, the nucleic acid molecules in each nucleus represent the entire transcriptome of that nucleus, such as the entire transcriptome, a newly synthesized transcriptome, or both.
[00100] В тех вариантах осуществления изобретения, где используются выделенные ядра, ядра могут быть получены путем экстракции и фиксации. Необязательно и предпочтительно, способ получения выделенных ядер не включает ферментативную обработку. В тех вариантах осуществления, где получают вновь синтезированный транскриптом, ядра не выделяют до тех пор, пока клетка не будет обработана в условиях, подходящих для мечения вновь синтезированных транскриптов.[00100] In embodiments where isolated nuclei are used, nuclei can be obtained by extraction and fixation. Optionally and preferably, the method for obtaining isolated nuclei does not include enzymatic treatment. In those embodiments where a newly synthesized transcriptome is obtained, nuclei are not isolated until the cell has been treated under conditions suitable for labeling the newly synthesized transcriptome.
[00101] В одном варианте осуществления изобретения, ядра выделяют из отдельных клеток, которые являются адгезивными или присутствуют в суспензии. Способы выделения ядер из отдельных клеток известны специалисту в данной области. Ядра обычно выделяют из клеток, присутствующих в ткани. Способ получения выделенных ядер обычно включает получение ткани, выделение ядер из полученной ткани, а затем фиксацию ядер. В одном варианте осуществления изобретения, все стадии осуществляют на льду.[00101] In one embodiment of the invention, nuclei are isolated from single cells that are adherent or present in suspension. Methods for isolating nuclei from individual cells are known to the person skilled in the art. Nuclei are usually isolated from cells present in the tissue. The method for producing isolated nuclei typically involves obtaining tissue, isolating nuclei from the resulting tissue, and then fixing the nuclei. In one embodiment of the invention, all steps are carried out on ice.
[00102] Получение ткани включает мгновенное замораживание ткани в жидком азоте, а затем уменьшение размера ткани путем разрезания на кусочки диаметром 1 мм или менее. Ткань может быть уменьшена в размерах путем ее измельчения или физического воздействия. Измельчение может быть осуществлено с помощью лезвия бритвы для разрезания ткани на мелкие кусочки. Применение физического воздействия может быть осуществлено путем разбивания ткани молотком или подобным предметом, а полученная композиция из измельченной ткани называется порошком.[00102] Tissue preparation involves flash freezing the tissue in liquid nitrogen and then reducing the size of the tissue by cutting it into pieces with a diameter of 1 mm or less. Tissue can be reduced in size by shredding or by physical manipulation. Grinding can be done by using a razor blade to cut the tissue into small pieces. The application of physical impact can be carried out by breaking the fabric with a hammer or the like, and the resulting composition of the crushed fabric is called a powder.
[00103] Выделение ядер может быть осуществлено путем инкубирования кусочков ткани или порошка в буфере для лизиса клеток в течение по меньшей мере 1-20 минут, например, 5, 10 или 15 минут. Подходящими буферами являются буферы, которые стимулируют лизис клеток, но сохраняют целостность ядер. Пример буфера для лизиса клеток включает 10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ MgCl2, 0,1% IGEPAL СА-630, 1% SUPERазы в ингибиторе РНКазы (20 ед/мкл, Ambion) и 1% BSA (20 мг/мл, NEB). В стандартных методах выделения ядер часто используют одно или более экзогенных соединений, таких как экзогенные ферменты, для облегчения выделения. Примерами полезных ферментов, которые могут присутствовать в буфере для лизиса клеток, являются, но не ограничиваются ими, ингибиторы протеазы, ДНКаза, лизоцим, протеиназа К, поверхностно-активные вещества, лизостафин, зимолаза, целлюлаза, протеаза или гликаназа и т.п. (Islam et al., Micromachines (Basel), 2017, 8(3):83; www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107). В одном варианте осуществления изобретения, один или более экзогенных ферментов не присутствуют в буфере для лизиса клеток, используемом в описанном здесь способе. Так, например, экзогенный фермент, (i) не добавляется в клетки до смешивания клеток и буфера для лизиса, (ii) не присутствует в буфере для лизиса клеток до смешивания с клетками, (iii) не добавляется в смесь клеток и буфера для лизиса клеток, или применяются их комбинации. Для специалиста в данной области очевидно, что эти уровни компонентов могут быть несколько изменены без снижения ценности буфера для лизиса клеток для выделения ядер. Затем экстрагированные ядра очищают путем проведения одного или более раундов промывки буфером для ядер. Пример буфера для ядер включает 10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ MgCl2, 1% SUPERазы в ингибиторе РНКазы (20 ед/мкл, Ambion) и 1% BSA (20 мг/мл, NEB). Подобно буферу для лизиса клеток, экзогенные ферменты могут также отсутствовать в буфере для ядер, используемом в способе согласно изобретению. Специалисту очевидно, что эти уровни компонентов могут быть несколько изменены без снижения ценности буфера для выделения ядер. Специалисту также очевидно, что BSA и/или поверхностно-активные вещества могут быть использованы в буферах, применяемых для выделения ядер.[00103] Isolation of nuclei can be accomplished by incubating pieces of tissue or powder in cell lysis buffer for at least 1-20 minutes, such as 5, 10, or 15 minutes. Suitable buffers are buffers that promote cell lysis but maintain the integrity of the nuclei. An example cell lysis buffer includes 10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl 2 , 0.1% IGEPAL CA-630, 1% SUPERase in RNase inhibitor (20 U/µl, Ambion) and 1% BSA (20 mg/ml, NEB). Standard methods for isolating nuclei often use one or more exogenous compounds, such as exogenous enzymes, to facilitate isolation. Examples of useful enzymes that may be present in cell lysis buffer include, but are not limited to, protease inhibitors, DNase, lysozyme, proteinase K, surfactants, lysostaphin, zymolase, cellulase, protease or glycanase, and the like. (Islam et al., Micromachines (Basel), 2017, 8(3):83; www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107). In one embodiment of the invention, one or more exogenous enzymes are not present in the cell lysis buffer used in the method described here. For example, an exogenous enzyme is (i) not added to cells prior to mixing cells and lysis buffer, (ii) not present in cell lysis buffer prior to mixing with cells, (iii) not added to the mixture of cells and cell lysis buffer , or combinations thereof. One of ordinary skill in the art will appreciate that these component levels can be altered somewhat without compromising the value of cell lysis buffer for nuclei isolation. The extracted nuclei are then purified by performing one or more rounds of washing with nuclear buffer. An example nuclear buffer includes 10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl 2 , 1% SUPERase in RNase inhibitor (20 U/μl, Ambion) and 1% BSA (20 mg/ml, NEB ). Like cell lysis buffer, exogenous enzymes may also be absent from the nuclear buffer used in the method of the invention. It will be apparent to those skilled in the art that these component levels can be altered somewhat without degrading the value of the nuclei extraction buffer. It will also be apparent to those skilled in the art that BSA and/or surfactants can be used in buffers used to isolate nuclei.
[00104] Выделенные ядра фиксируют путем воздействия перекрестно-сшивающего агента. Подходящий пример перекрестно-сшивающего агента включает, но не ограничивается им, параформальдегид. Параформальдегид может присутствовать в концентрации от 1% до 8%, например, 4%. Обработка ядер параформальдегидом может включать добавление параформальдегида к суспензии ядер и инкубирование при 0°С. Необязательно, но предпочтительно, после фиксации проводят промывку в буфере для ядер.[00104] The isolated nuclei are fixed by exposure to a cross-linking agent. A suitable example of a cross-linking agent includes, but is not limited to, paraformaldehyde. Paraformaldehyde may be present at a concentration of 1% to 8%, for example 4%. Treatment of nuclei with paraformaldehyde may include the addition of paraformaldehyde to the suspension of nuclei and incubation at 0°C. Optionally, but preferably, a wash in nuclear buffer is performed after fixation.
[00105] Выделенные фиксированные ядра могут быть использованы непосредственно или разделены на аликвоты, а затем сразу заморожены в жидком азоте для последующего использования. При подготовке к использованию после замораживания, оттаянные ядра могут быть сделаны проницаемыми, например, с использованием 0,2% тритона-100 в течение 3 минут на льду, а затем быстро обработаны ультразвуком для уменьшения скопления ядер.[00105] The isolated fixed nuclei can be used directly or aliquoted and then immediately frozen in liquid nitrogen for later use. In preparation for use after freezing, thawed kernels can be made permeable, for example by using 0.2% Triton-100 for 3 minutes on ice, and then rapidly sonicated to reduce kernel accumulation.
[00106] Стандартные методы экстракции ядер из тканей обычно включает инкубирование ткани с тканеспецифическим ферментом (например, трипсином) при высокой температуре (например, при 37°С) в течение периода времени от 30 минут до нескольких часов, а затем клетки подвергают лизису буфером для лизиса клеток в целях экстракции ядер. Описанный здесь метод выделения ядер имеет несколько преимуществ: (1) искусственные ферменты не вводят, и все стадии осуществляют на льду. Это приводит к возможному снижению пертурбации состояний клеток (например, состояния транскриптома). (2) Новый метод был апробирован для большинства типов тканей, включая такни головного мозга, легких, почек, селезенки, сердца, мозжечка и образцы тканей с патологиями, такие как опухолевые ткани. По сравнению с традиционными методами экстракции ядер из тканей, в которых используются различные ферменты для различных типов тканей, новый метод может потенциально уменьшать отклонения при сравнении состояний клеток из различных тканей. (3) Новый метод также снижает стоимость и повышает эффективность за счет исключения стадии обработки ферментом. (4) По сравнению с другими методами экстракции ядер (например, методом измельчения тканей Даунса), новый метод является более надежным для различных типов тканей (например, метод Даунса требует оптимизации циклов Даунса для различных тканей) и позволяет обрабатывать большие фрагменты образцов с высокой производительностью (например, метод Даунса ограничен размером измельчителя).[00106] Standard techniques for extracting nuclei from tissues typically involve incubating the tissue with a tissue-specific enzyme (eg, trypsin) at high temperature (eg, 37°C) for a period of 30 minutes to several hours, and then subjecting the cells to lysis with a buffer to cell lysis to extract nuclei. The nuclear isolation method described here has several advantages: (1) no artificial enzymes are introduced and all steps are performed on ice. This leads to a possible reduction in the perturbation of cell states (eg transcriptome states). (2) The new method has been tested on most tissue types, including brain, lung, kidney, spleen, heart, cerebellum tissues, and abnormal tissue samples such as tumor tissue. Compared to traditional methods for extracting nuclei from tissues, which use different enzymes for different types of tissues, the new method can potentially reduce bias when comparing the states of cells from different tissues. (3) The new method also reduces cost and improves efficiency by eliminating the enzyme treatment step. (4) Compared with other methods of extraction of nuclei (for example, the Downs method of tissue grinding), the new method is more reliable for various types of tissues (for example, the Downs method requires optimization of Downs cycles for various tissues) and can process large sample fragments with high throughput (e.g. the Downs method is limited by the size of the grinder).
[00107] Выделенные ядра могут, но необязательно, не содержать нуклеосому или могут быть помещены в условия, способствующие истощению ядер, состоящих из нуклеосом, с получением ядер, обедненных нуклеосомами.[00107] The isolated nuclei may optionally not contain a nucleosome, or may be placed under conditions that deplete nuclei made up of nucleosomes, resulting in nuclei depleted of nucleosomes.
Распределение субпопуляцийDistribution of subpopulations
[00108] Описанный здесь способ включает распределение субпопуляций выделенных ядер или клеток по множеству компартментов (фиг. 1, блок 11; фиг. 2, блок 23; фиг. 3, блок 32). Способ может включать множество стадий распределения, где популяция выделенных ядер или клеток (также называемая здесь пулом) разделяется на субпопуляции. Обычно, субпопуляции выделенных ядер или клеток, например субпопуляции, присутствующие во множестве компартментов, индексируют с помощью компартмент-специфических индексов, а затем объединяют в пул. В соответствии с этим, способ обычно включает по меньшей мере одну стадию «разделения и объединения», состоящую из сбора выделенных ядер или клеток, их распределения и добавления компартмент-специфического индекса, где число стадий «разделения и объединения» может зависеть от числа различных индексов, которые добавляют к фрагментам нуклеиновых кислот. Каждая начальная субпопуляция ядер или клеток перед индексацией может быть уникальной среди других субпопуляций. Так, например, каждая первая субпопуляция может быть взята из уникального образца или обработана в уникальных условиях. После индексирования, субпопуляции могут быть объединены, разделены на субпопуляции, проиндексированы и снова объединены, по мере необходимости, до тех пор, пока к фрагментам нуклеиновой кислоты не будет добавлено достаточное количество индексов. Этот процесс позволяет присваивать уникальный индекс или комбинацию индексов каждой отдельной клетке или ядру. После завершения индексирования, например, после добавления одного, двух, трех или более индексов, выделенные ядра или клетки могут быть подвергнуты лизису. В некоторых вариантах осуществления изобретения, добавление индекса и лизис могут происходить одновременно.[00108] The method described here includes distributing subpopulations of isolated nuclei or cells across multiple compartments (FIG. 1, block 11; FIG. 2, block 23; FIG. 3, block 32). The method may include a plurality of distribution steps where a population of isolated nuclei or cells (also referred to herein as a pool) is divided into subpopulations. Typically, subpopulations of isolated nuclei or cells, such as subpopulations present in multiple compartments, are indexed with compartment-specific indices and then pooled. Accordingly, the method typically includes at least one "split and pool" step consisting of collecting the isolated nuclei or cells, distributing them, and adding a compartment-specific index, where the number of "split and pool" steps may depend on the number of different indices. , which are added to nucleic acid fragments. Each initial subpopulation of nuclei or cells before indexing may be unique among other subpopulations. For example, each first subpopulation may be taken from a unique sample or processed under unique conditions. After indexing, the subpopulations can be pooled, subpopulated, indexed, and pooled again, as needed, until enough indexes have been added to the nucleic acid fragments. This process allows you to assign a unique index or combination of indexes to each individual cell or nucleus. After indexing is complete, for example after adding one, two, three or more indexes, the isolated nuclei or cells can be lysed. In some embodiments of the invention, the addition of the index and lysis can occur simultaneously.
[00109] Количество ядер или клеток, присутствующих в субпопуляции и, следовательно, в каждом компартменте, может составлять по меньшей мере 1. В одном варианте осуществления изобретения, количество ядер или клеток, присутствующих в субпопуляции, составляет не более, чем 100000000, не более, чем 10000000, не более, чем 1000000, не более, чем 100000, не более, чем 10000, не более, чем 4000, не более, чем 3000, не более, чем 2000 или не более, чем 1000, не более, чем 500 или не более, чем 50. В одном варианте осуществления изобретения, число ядер или клеток, присутствующих в субпопуляции, может составлять от 1 до 1000, от 1000 до 10000, от 10000 до 100000, от 100000 до 1000000, от 1000000 до 10000000 или от 10000000 до 100000000. В одном варианте осуществления изобретения, количества ядер или клеток, присутствующих в каждой субпопуляции, являются приблизительно одинаковыми. Количество ядер, присутствующих в субпопуляции и, следовательно, в каждом компартменте, было частично основано на желании авторов уменьшить наложение индексов, которое представляют собой присутствие двух ядер или клеток, имеющих одинаковую комбинацию индексов, заканчивающихся в одном и том же компартменте на этой стадии метода. Способы распределения ядер или клеток по субпопуляциям известны специалисту в данной области и являются рутинными. Хотя может быть применена цитометрия с использованием клеточного сортинга с активацией флуоресценции (FACS), однако, в некоторых вариантах осуществления изобретения, предпочтительным является использование простого разведения. В одном варианте осуществления изобретения, FACS-цитометрия не используется. Ядра, имеющие различные плоидности, могут быть стробированы и обогащены окрашиванием, например окрашиванием DAPI (4',6-диамидино-2-фенилиндолом). Окрашивание может быть также использовано для отделения отдельных клеток от дублетов во время сортинга.[00109] The number of nuclei or cells present in a subpopulation, and therefore in each compartment, may be at least 1. In one embodiment of the invention, the number of nuclei or cells present in a subpopulation is no more than 100,000,000, no more less than 10000000, not more than 1000000, not more than 100000, not more than 10000, not more than 4000, not more than 3000, not more than 2000 or not more than 1000, not more than 500 or not more than 50. In one embodiment of the invention, the number of nuclei or cells present in a subpopulation may be from 1 to 1000, from 1000 to 10000, from 10000 to 100000, from 100000 to 1000000, from 1000000 to 10000000 or from 10000000 to 100000000. In one embodiment of the invention, the numbers of nuclei or cells present in each subpopulation are approximately the same. The number of nuclei present in a subpopulation, and therefore in each compartment, was partly based on the desire of the authors to reduce index overlap, which is the presence of two nuclei or cells having the same combination of indices ending in the same compartment at this stage of the method. Methods for distributing nuclei or cells into subpopulations are known to the person skilled in the art and are routine. While fluorescence-activated cell sorting (FACS) cytometry can be used, in some embodiments, simple dilution is preferred. In one embodiment of the invention, FACS cytometry is not used. Nuclei having different ploidies can be gated and enriched with staining, such as DAPI (4',6-diamidino-2-phenylindole) staining. Staining can also be used to separate single cells from doublets during sorting.
[00110] Количество компартментов на стадиях распределения (и последующее добавление индекса) может зависеть от используемого формата. Так, например, количество компартментов может составлять от 2 до 96 компартментов (при использовании 96-луночного планшета), от 2 до 384 компартментов (при использовании 384-луночного планшета) или от 2 до 1536 компартментов (при использовании 1536-луночного планшета). В одном варианте осуществления изобретения, может быть использовано множество планшетов. В одном варианте осуществления изобретения, каждый компартмент может представлять собой каплю. Если типом используемого компартмента является капля, которая содержит два или более ядер или клеток, то может быть использовано любое количество капель, например, по меньшей мере 10000, по меньшей мере 100000, по меньшей мере 1000000 или по меньшей мере 10000000 капель. Субпопуляции выделенных ядер или клеток обычно индексируют в компартментах перед объединением.[00110] The number of compartments in the distribution steps (and subsequent index addition) may depend on the format used. For example, the number of compartments can be from 2 to 96 compartments (using a 96-well plate), from 2 to 384 compartments (using a 384-well plate), or from 2 to 1536 compartments (using a 1536-well plate). In one embodiment of the invention, multiple tablets may be used. In one embodiment of the invention, each compartment may be a drop. If the type of compartment used is a drop that contains two or more nuclei or cells, then any number of drops can be used, such as at least 10,000, at least 100,000, at least 1,000,000, or at least 1,000,000 drops. Subpopulations of isolated nuclei or cells are usually indexed into compartments prior to pooling.
[00111] В некоторых вариантах осуществления изобретения, компартмент представляет собой каплю или лунку. Транскриптом, вновь синтезированный транскриптом или его субпопуляции в клетке или в ядре могут быть помечены уникальным индексом или комбинацией индексов в капле или в лунке. Индексированные библиотеки, выделенные из отдельных частей капель или лунок, могут быть объединены для дальнейшей обработки и секвенирования. Примерами таких методов являются, но не ограничиваются ими, системы анализа отдельных клеток от 10Х Genomics (Pleasanton, СА), Biorad (Hercules, СА) и CellSee (Ann Arbor, MI).[00111] In some embodiments, the compartment is a drop or well. A transcriptome, a newly synthesized transcriptome, or subpopulations thereof in a cell or nucleus can be labeled with a unique index or combination of indices in a droplet or well. Indexed libraries isolated from separate parts of drops or wells can be pooled for further processing and sequencing. Examples of such methods include, but are not limited to, single cell analysis systems from 10X Genomics (Pleasanton, CA), Biorad (Hercules, CA), and CellSee (Ann Arbor, MI).
Обработка в предварительно определенных условияхProcessing under predefined conditions
[00112] В необязательном варианте осуществления изобретения, каждую субпопуляцию клеток подвергают воздействию агента или пертурбации (Фиг. 1, блок 12). Таким агентом может быть, по существу, любой агент, вызывающий изменение в клетке. Так, например, агент может изменить транскриптом клетки, изменять структуру хроматина клетки, изменить активность белка в клетке, изменять ДНК клетки, изменять состояние метилирования, изменять редактирование ДНК клетки или вызывать другие изменения. Примерами агентов являются, но не ограничиваются ими, соединение, такое как белок (включая антитело), не-рибосомный белок, поликетид, органическая молекула (включая органическую молекулу размером в 900 Дальтон или менее), неорганическая молекула, молекула РНК или РНКи, углевод, гликопротеин, нуклеиновая кислота или их комбинация. В одном варианте осуществления изобретения, агент вызывает генетическую пертурбацию, например, белок, редактирующий ДНК, такой как CRISPR или Talen. В одном варианте осуществления изобретения, агент представляет собой терапевтическое лекарственное средство. В одном варианте осуществления изобретения, клетка может представлять собой клетку дикого типа, а в другом варианте осуществления изобретения, клетка может быть генетически модифицирована так, чтобы она включала генетическую пертурбацию, например, нокин гена или нокаут гена (Szlachta et al., Nat Commun., 2018, 9:4275). Субпопуляции клеток могут подвергаться воздействию одного и того же агента, но различные параметры могут изменяться в различных компартментах, что позволяет тестировать множество парметров в одном эксперименте. Так, например, различные дозы, различные продолжительности обработки и различные типы клеток могут быть протестированы в одном многолуночном планшете. В одном варианте осуществления изобретения, клетки могут экспрессировать белок, обладающий известной активностью, и влияние агента на активность оценивают в различных условиях. Использование индексных последовательностей для мечения фрагментов нуклеиновых кислот позволяет затем идентифицировать нуклеиновые кислоты, происходящие от конкретных субпопуляций ядер или клеток, например, из одной лунки многолуночного планшета.[00112] In an optional embodiment of the invention, each subpopulation of cells is exposed to an agent or perturbation (Fig. 1, block 12). Such an agent can be essentially any agent that causes a change in a cell. For example, an agent can change the transcriptome of a cell, change the structure of the cell's chromatin, change the activity of a protein in the cell, change the cell's DNA, change the methylation state, change the editing of the cell's DNA, or cause other changes. Examples of agents include, but are not limited to, a compound such as a protein (including an antibody), a non-ribosomal protein, a polyketide, an organic molecule (including an organic molecule of 900 Daltons or less), an inorganic molecule, an RNA or RNAi molecule, a carbohydrate, glycoprotein, nucleic acid, or a combination thereof. In one embodiment of the invention, the agent causes a genetic perturbation, for example, a DNA editing protein such as CRISPR or Talen. In one embodiment of the invention, the agent is a therapeutic drug. In one embodiment, the cell may be a wild-type cell, and in another embodiment, the cell may be genetically modified to include a genetic perturbation, such as a gene knockin or gene knockout (Szlachta et al., Nat Commun. , 2018, 9:4275). Subpopulations of cells can be exposed to the same agent, but different parameters can change in different compartments, allowing multiple parameters to be tested in a single experiment. For example, different doses, different treatment times and different cell types can be tested in one multiwell plate. In one embodiment of the invention, the cells can express a protein with a known activity, and the effect of the agent on the activity is evaluated under various conditions. The use of index sequences to label nucleic acid fragments then allows the identification of nucleic acids derived from specific subpopulations of nuclei or cells, for example, from one well of a multiwell plate.
[00113] Мечение нуклеиновых кислот[00113] Labeling of nucleic acids
[00114] В необязательном варианте осуществления изобретения, нуклеиновые кислоты, такие как РНК, кДНК или ДНК, продуцируемые клеткой, были помечены (фиг. 1, блок 13). Современные методы геномных технологий для отдельных клеток позволяют получить мгновенное изображение состояния клетки, но не дают информацию о динамике клеточного перехода. Авторами настоящего изобретения было обнаружено, что мечение вновь синтезированной РНК позволяет захватывать как весь транскриптом, так и вновь синтезированный транскриптом на уровне отдельных клеток методом индексирования с разделением и объединением, методом комбинаторного индексирования или любым методом индексирования отдельных клеток. Весь транскриптом и вновь синтезированная РНК получают один и тот же уникальный индекс или комбинацию индексов, позволяющую определить имеющиеся (например, ранее существовавшее), и вновь синтезированные нуклеиновые кислоты в одной и той же клетке. Это позволяет охарактеризовать динамику перехода клеток из одного состояния в другое, регулируемую внутренними факторами (например, программой внутреннего клеточного цикла) и внешними факторами (например, реакцией клетки на внешний стимул, такой как терапевтическое лекарственное средство). Кроме того, в некоторых вариантах осуществления изобретения обеспечивается захват как целого транскриптома, так и вновь синтезированного транскриптома на уровне одной клетки, вместе с информацией о разложении транскриптома по сравнению с его прежним состоянием (память прежнего состояния). Память о прежних состояниях каждой клетки может быть скорректирована по степени деградации мРНК (коррекция памяти), так, чтобы каждая клетка могла быть охарактеризована по динамике транскриптома между двумя или более моментами времени.[00114] In an optional embodiment of the invention, nucleic acids such as RNA, cDNA or DNA produced by the cell were labeled (FIG. 1, block 13). Modern methods of genomic technologies for individual cells provide an instant image of the state of the cell, but do not provide information about the dynamics of the cell transition. The present inventors have found that labeling newly synthesized RNA allows capturing both the entire transcriptome and the newly synthesized transcriptome at the individual cell level by a split-and-combine indexing method, a combinatorial indexing method, or any single cell indexing method. The entire transcriptome and newly synthesized RNA receive the same unique index or combination of indices, which makes it possible to identify existing (for example, pre-existing) and newly synthesized nucleic acids in the same cell. This allows characterization of the dynamics of cell transition from one state to another, regulated by internal factors (eg, the internal cell cycle program) and external factors (eg, the cell's response to an external stimulus, such as a therapeutic drug). In addition, in some embodiments, the capture of both the entire transcriptome and the newly synthesized transcriptome at the single cell level is provided, along with information about the decomposition of the transcriptome compared to its previous state (past state memory). Each cell's memory of past states can be adjusted for the degree of mRNA degradation (memory correction), so that each cell can be characterized by transcriptome dynamics between two or more time points.
[00115] Существуют различные методы мечения вновь синтезированной нуклеиновой кислоты для того, чтобы ее можно было отличить от уже существующей нуклеиновой кислоты, и, в основном, может быть применен любой метод. Обычно, метку включают в нуклеиновые кислоты по мере их синтеза. Один из типов методов включает введение нуклеозидного аналога, который добавляет идентифицируемую мутацию. Так, например, добавление нуклеозидного аналога 4-тиоуридина (S4U) в молекулу РНК приводит к точечной мутации во время стадии обратной транскрипции, и тем самым, к образованию мутированной кДНК первой цепи, имеющей замену тимина на цитозин (Sun and Chen, 2018, Metabolic Labeling of Newly Synthesized RNA with 4sU to in Parallel Assess RNA Transcription and Decay. In: Lamande S. (eds) mRNA Decay. Methods in Molecular Biology, vol. 1720. Humana Press, New York, NY). Эта точковая мутация может быть идентифицирована на стадиях секвенирования и анализа путем сравнения последовательности с эталоном. Другой тип метода включает введение меченого гаптеном нуклеотида, который можно использовать для очистки РНК, содержащих гаптен. Примерами являются биотинилированные нуклеотиды (Luo et al., 2011, Nucl. Acids Res., 39 (19): 8559-8571) и нуклеотиды, модифицированные дигоксигенином (поставляемые от Jena Bioscience GmbH). Третий тип метода включает введение нуклеотида, который может быть модифицирован посредством химической реакции, например, нуклеотида, функционализированного путем нажатия кнопки на установке, и добавление гаптена (Bharmal et al., 2010, J. Biomol Tech., 21 (3 Suppl): S43, поставляемые от Jena Bioscience GmbH и Thermo Fisher Scientific). Другой тип метода включает введение мутагенного нуклеотида, такого как, но не ограничивающегося ими, 8-оксо-dGTP и dPTP (поставляемых от Jena Bioscience GmbH).[00115] There are various methods for labeling a newly synthesized nucleic acid so that it can be distinguished from an already existing nucleic acid, and basically any method can be used. Typically, the label is incorporated into nucleic acids as they are synthesized. One type of method involves the introduction of a nucleoside analog that adds an identifiable mutation. For example, the addition of the nucleoside analog 4-thiouridine (S4U) to an RNA molecule leads to a point mutation during the reverse transcription step, and thus, to the formation of a mutated cDNA of the first strand, which has a thymine-to-cytosine substitution (Sun and Chen, 2018, Metabolic Labeling of Newly Synthesized RNA with 4sU to in Parallel Assess RNA Transcription and Decay, In: Lamande S. (eds) mRNA Decay, Methods in Molecular Biology, vol. 1720, Humana Press, New York, NY). This point mutation can be identified at the sequencing and analysis steps by comparing the sequence with a reference. Another type of method involves the introduction of a hapten-labeled nucleotide, which can be used to purify RNA containing the hapten. Examples are biotinylated nucleotides (Luo et al., 2011, Nucl. Acids Res., 39 (19): 8559-8571) and digoxigenin modified nucleotides (supplied from Jena Bioscience GmbH). A third type of method involves introducing a nucleotide that can be modified by a chemical reaction, such as a nucleotide functionalized by pressing a button on a machine, and adding a hapten (Bharmal et al., 2010, J. Biomol Tech., 21 (3 Suppl): S43 supplied by Jena Bioscience GmbH and Thermo Fisher Scientific). Another type of method involves the introduction of a mutagenic nucleotide such as, but not limited to, 8-oxo-dGTP and dPTP (supplied from Jena Bioscience GmbH).
[00116] Предварительно определенные условия обычно используются для клетки, но не для выделенных ядер; однако, мечение нуклеиновых кислот по мере их синтеза может быть осуществлено с использованием клеток или ядер, выделенных из клеток.[00116] Predefined conditions are typically used for a cell, but not for isolated nuclei; however, labeling of nucleic acids as they are synthesized can be carried out using cells or nuclei isolated from cells.
[00117] В некоторых вариантах осуществления изобретения, мечение может быть применено к вновь синтезированной кДНК или ДНК. Мечение может быть использовано для идентификации конкретного состояния или субпопуляции клеток или ядер. Так, например, различные количества меток, например нуклеозидного аналога, нуклеотида, меченного гаптеном, нуклеотида, функционализированного нажатием кнопки и/или мутагенного нуклеотида и/или различные соотношения меток могут быть использованы для специфического мечения РНК, кДНК или ДНК компартмента. В другом варианте осуществления изобретения, метка может быть добавлена в различные моменты времени для фиксации момента времени. Различные метки или различные соотношения меток могут быть добавлены для дифференциального мечения РНК в различные периоды времени. В некоторых вариантах осуществления изобретения, мечение может быть частью схемы индексации для выделения отдельных клеток. Так, например, в стадии удлинения может быть использован уникальный набор нуклеотидов для каждого компартмента. Мечение может происходить на стадии обратной транскрипции, стадии удлинения, стадии гибридизации или стадии амплификации, такой как ПЦР. В некоторых вариантах осуществления изобретения, это позволяет обнаруживать дублеты или множество клеток или столкновения клеток.[00117] In some embodiments of the invention, labeling can be applied to newly synthesized cDNA or DNA. Labeling can be used to identify a particular condition or subset of cells or nuclei. Thus, for example, different amounts of labels, such as nucleoside analog, hapten-labeled nucleotide, button-functionalized nucleotide and/or mutagenic nucleotide, and/or different ratios of labels can be used to specifically label an RNA, cDNA or DNA compartment. In another embodiment of the invention, a label may be added at various points in time to capture a point in time. Different labels or different ratios of labels can be added to differentially label RNA at different times. In some embodiments of the invention, labeling may be part of an indexing scheme for isolating individual cells. For example, a unique set of nucleotides for each compartment can be used in the extension step. Labeling can occur at a reverse transcription step, an extension step, a hybridization step, or an amplification step such as PCR. In some embodiments of the invention, this allows the detection of doublets or multiple cells or cell collisions.
Обработка с получением фрагментов нуклеиновых кислотProcessing to obtain nucleic acid fragments
[00118] В одном варианте осуществления изобретения, обработка выделенных ядер или клеток может быть применена для фрагментации нуклеиновых кислот ДНК в выделенных ядрах или клетках с получением фрагментов нуклеиновых кислот (фиг. 1, блок 14). Фрагментация нуклеиновых кислот может оказаться полезной для получения молекул, длина которых является подходящей для секвенирования описанными здесь способами. Обработка может быть необходима в случае, когда секвенируемые нуклеиновые кислоты-мишени происходят от ДНК, присутствующей в ядрах или клетках; однако, в некоторых вариантах осуществления изобретения, обработка является необязательной, если секвенируемые нуклеиновые кислоты-мишени происходят от РНК (например, от мРНК и/или некодирующей РНК), присутствующей в ядрах или клетках, поскольку в некоторых вариантах осуществления изобретения, молекулы РНК необязательно должны быть фрагментированы. В других вариантах осуществления изобретения, нуклеиновые кислоты, происходящие от молекул РНК, являются фрагментированными. Фрагментация может происходить на любой стадии этого способа. Так, например, иллюстративный способ, показанный на фиг. 2, включает фрагментацию после добавления двух индексов к молекулам нуклеиновой кислоты.[00118] In one embodiment of the invention, the processing of isolated nuclei or cells can be used to fragment DNA nucleic acids in isolated nuclei or cells to obtain nucleic acid fragments (Fig. 1, block 14). Fragmentation of nucleic acids may be useful to obtain molecules, the length of which is suitable for sequencing methods described here. Processing may be necessary when the target nucleic acids to be sequenced are from DNA present in nuclei or cells; however, in some embodiments of the invention, processing is optional if the target nucleic acids to be sequenced are from RNA (e.g., from mRNA and/or non-coding RNA) present in nuclei or cells, since in some embodiments of the invention, the RNA molecules need not be be fragmented. In other embodiments of the invention, nucleic acids derived from RNA molecules are fragmented. Fragmentation can occur at any stage of this method. For example, the exemplary method shown in FIG. 2 includes fragmentation after adding two indices to nucleic acid molecules.
[00119] При обработке нуклеиновых кислот в ядрах или клетках обычно присоединяют нуклеотидную последовательность к одному или обоим концам фрагментов нуклеиновой кислоты, полученных в результате обработки, и нуклеотидная последовательность может включать и обычно включает одну или более универсальных последовательностей. Универсальную последовательность можно использовать, например, в качестве «посадочной полосы» на последующем этапе для отжига нуклеотидной последовательности, которую можно использовать в качестве праймера для добавления другой нуклеотидной последовательности, такой как индекс, к фрагменту нуклеиновой кислоты. Нуклеотидная последовательность такого праймера может, но необязательно, включать индексную последовательность. При обработке нуклеиновых кислот в ядрах или клетках обычно добавляют один или более уникальных молекулярных идентификаторов к одному или обоим концам фрагментов нуклеиновых кислот, полученных в результате обработки.[00119] When processing nucleic acids in nuclei or cells, a nucleotide sequence is typically attached to one or both ends of the nucleic acid fragments resulting from the processing, and the nucleotide sequence can and usually does include one or more universal sequences. The universal sequence can be used, for example, as a "landing strip" in a subsequent step to anneal a nucleotide sequence, which can be used as a primer to add another nucleotide sequence, such as an index, to a nucleic acid fragment. The nucleotide sequence of such a primer may optionally include an index sequence. When processing nucleic acids in nuclei or cells, one or more unique molecular identifiers are usually added to one or both ends of the nucleic acid fragments resulting from the processing.
[00120] Известны различные способы обработки нуклеиновых кислот в ядрах или клетках с получением фрагментов нуклеиновых кислот. Примерами являются ферменты CRISPR и Talen-подобные ферменты, а также ферменты, раскручивающие ДНК (например, геликазы), которые могут образовывать одноцепочечные области, с которыми могут гибридизоваться фрагменты ДНК и инициировать удлинение или амплификацию. Так, например, может быть применена амплификация на основе геликазы (Vincent et al., 2004, EMBO Rep., 5 (8):795-800). В одном варианте осуществления изобретения, удлинение или амплификацию инициируют рандомизированным праймером. В одном варианте осуществления изобретения используется транспосомный комплекс.[00120] Various methods are known for processing nucleic acids in nuclei or cells to obtain nucleic acid fragments. Examples are CRISPR and Talen-like enzymes, as well as DNA unwinding enzymes (eg, helicases), which can form single-stranded regions to which DNA fragments can hybridize and initiate extension or amplification. For example, helicase-based amplification can be used (Vincent et al., 2004, EMBO Rep., 5(8):795-800). In one embodiment of the invention, extension or amplification is initiated with a randomized primer. In one embodiment of the invention, a transposome complex is used.
[00121] Транспосомный комплекс представляет собой транспозазу, связанную с сайтом распознавания транспозазы, и может встраивать сайт распознавания транспозазы в нуклеиновую кислоту-мишень внутри ядра в процессе, иногда называемом «мечением». При некоторых таких событиях встраивания, одна цепь сайта распознавания транспозазы может быть перенесена в нуклеиновую кислоту-мишень. Такая цепь называется «перенесенной цепью». В одном варианте осуществления изобретения, транспосомный комплекс включает димерную транспозазу, имеющую две субъединицы и две несмежные последовательности транспозона. В другом варианте осуществления изобретения, транспозаза включает димерную транспозазу, имеющую две субъединицы, и непрерывную последовательность транспозона. В одном варианте осуществления изобретения, 5'-конец одной или обеих цепей сайта распознавания транспозазы может быть фосфорилирован.[00121] A transposome complex is a transposase associated with a transposase recognition site and can insert the transposase recognition site into a target nucleic acid within the nucleus in a process sometimes referred to as "tagging". At some of these insertion events, one strand of the transposase recognition site can be transferred to the target nucleic acid. Such a chain is called a "transferred chain". In one embodiment of the invention, the transposome complex comprises a dimeric transposase having two subunits and two non-contiguous transposon sequences. In another embodiment of the invention, the transposase includes a dimeric transposase having two subunits and a contiguous transposon sequence. In one embodiment of the invention, the 5' end of one or both strands of the transposase recognition site may be phosphorylated.
[00122] Некоторые варианты осуществления изобретения могут включать использование гиперактивной Tn5-транспозазы и сайта распознавания транспозазы типа Tn5 (Goryshin and Reznikoff, J. Biol. Chem., 273: 7367 (1998)) или MuA-транспозазы и сайта распознавания Mu-транспозазы, содержащих концевые последовательности R1 и R2 (Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H. et al., EMBO J., 14: 4893, 1995). Концевые последовательности мозаичного Tn5 (ME) могут быть также использованы как последовательности, оптимизированные специалистом в данной области.[00122] Some embodiments of the invention may include the use of an overactive Tn5 transposase and a Tn5 type transposase recognition site (Goryshin and Reznikoff, J. Biol. Chem., 273: 7367 (1998)) or a MuA transposase and a Mu transposase recognition site, containing R1 and R2 terminal sequences (Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H. et al., EMBO J., 14: 4893, 1995). Mosaic Tn5 (ME) end sequences can also be used as sequences optimized by one of skill in the art.
[00123] Дополнительные примеры систем транспозиции, которые могут быть использованы с определенными вариантами композиций и способов согласно изобретению включают Tn552 Staphylococcus aureus (Colegio et al., J. Bacteriol, 183: 2384-8, 2001; Kirby С et al, Mol. Microbiol., 43: 173-86, 2002), Tyl (Devine & Boeke, Nucleic Acids Res., 22: 3765-72, 1994 и публикация Международной заявки WO 95/23875), транспозон Tn7 (Craig, NL, Science. 271: 1512, 1996; Craig, NL, Review in: Curr Top Microbiol Immunol., 204: 27-48, 1996), Tn/O и IS10 (Kleckner N, et al., Curr Top Microbiol Immunol., 204: 49-82, 1996), транспозазу Mariner (Lampe DJ, et al., EMBO J., 15: 5470-9, 1996); Tel (Plasterk RH, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996); элемент P (Gloor, GB, Methods Mol. Biol., 260: 97-114, 2004); Tn3 (Ichikawa & Ohtsubo, J. Biol. Chem. 265: 18829-32, 1990); бактериальные инсерционные последовательности (Ohtsubo & Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996); ретровирусы (Brown et al., Proc Natl Acad Sci USA, 86:2525-9, 1989) и ретротранспозон дрожжей (Boeke & Corces, Annu Rev Microbiol. 43: 403-34, 1989). Дополнительные примеры включают IS5, Tn10, Tn903, IS911 и сконструированные варианты ферментов семейства транспозаз (Zhang et al., (2009) PIoS Genet. 5: e1000689. Epub 2009, Oct. 16; Wilson C. et al (2007) J. Microbiol. Methods 71: 332-5).[00123] Additional examples of transposition systems that can be used with certain embodiments of the compositions and methods of the invention include Staphylococcus aureus Tn552 (Colegio et al., J. Bacteriol, 183: 2384-8, 2001; Kirby C et al, Mol. Microbiol ., 43: 173-86, 2002), Tyl (Devine & Boeke, Nucleic Acids Res., 22: 3765-72, 1994 and International Application Publication WO 95/23875), Tn7 transposon (Craig, NL, Science. 271: 1512, 1996; Craig, NL, Review in: Curr Top Microbiol Immunol., 204: 27-48, 1996), Tn/O and IS10 (Kleckner N, et al., Curr Top Microbiol Immunol., 204: 49-82 , 1996), Mariner transposase (Lampe DJ, et al., EMBO J., 15:5470-9, 1996); Tel (Plasterk RH, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996); element P (Gloor, GB, Methods Mol. Biol., 260: 97-114, 2004); Tn3 (Ichikawa & Ohtsubo, J. Biol. Chem. 265: 18829-32, 1990); bacterial insertion sequences (Ohtsubo & Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996); retroviruses (Brown et al., Proc Natl Acad Sci USA, 86:2525-9, 1989); and yeast retrotransposons (Boeke & Corces, Annu Rev Microbiol. 43: 403-34, 1989). Additional examples include IS5, Tn10, Tn903, IS911, and engineered variants of the transposase family of enzymes (Zhang et al., (2009) PIoS Genet. 5: e1000689. Epub 2009, Oct. 16; Wilson C. et al (2007) J. Microbiol Methods 71: 332-5).
[00124] Другими примерами интеграз, которые могут быть использованы в описанных здесь способах и композициях, являются ретровирусные интегразы и последовательности распознавания интеграз для таких ретровирусных интеграз, такие как интегразы, происходящие от ВИЧ-1, ВИЧ-2, SIV, PFV-1, RSV.[00124] Other examples of integrases that can be used in the methods and compositions described herein are retroviral integrases and integrase recognition sequences for such retroviral integrases, such as integrases derived from HIV-1, HIV-2, SIV, PFV-1, RSV.
[00125] Последовательности транспозонов, используемые в описанных здесь способах и композициях, представлены в публикации заявки на патент США №2012/0208705, в публикации заявки на патент США №2012/0208724 и в публикации Международной патентной заявки № WO 2012/061832. В некоторых вариантах осуществления изобретения, последовательность транспозона включает первый сайт распознавания транспозазы и второй сайт распознавания транспозазы. В тех вариантах осуществления изобретения, где комплекс транспосомный комплекс используется для введения индексной последовательности, эта индексная последовательность может присутствовать между сайтами распознавания транспозазы или в транспозоне.[00125] The transposon sequences used in the methods and compositions described herein are provided in US Patent Application Publication No. 2012/0208705, US Patent Application Publication No. 2012/0208724, and International Patent Application Publication No. WO 2012/061832. In some embodiments, the transposon sequence includes a first transposase recognition site and a second transposase recognition site. In those embodiments where the transposome complex is used to introduce an index sequence, the index sequence may be present between transposase recognition sites or within a transposon.
[00126] Некоторые используемые здесь транспосомные комплексы включают транспозазу, имеющую две последовательности транспозона. В некоторых таких вариантах осуществления изобретения, две последовательности транспозона не связаны друг с другом, то есть, другими словами, последовательности транспозонов не являются смежными. Примеры таких транспосом известны специалистам в данной области (см., например, публикацию заявки на патент США №2010/0120098).[00126] Some of the transposome complexes used here include a transposase having two transposon sequences. In some such embodiments, the two transposon sequences are not linked to each other, that is, in other words, the transposon sequences are not contiguous. Examples of such transpos are known to those skilled in the art (see, for example, US Patent Application Publication No. 2010/0120098).
[00127] Обычно, мечение применяют для получения фрагментов нуклеиновой кислоты, которые включают различные нуклеотидные последовательности на каждом конце (например, последовательность праймера N5 на одном конце и праймера N7 на другом конце). Это может быть достигнуто путем использования двух типов транспосомных комплексов, где каждый транспосомный комплекс включает различные нуклеотидные последовательности, которые являются частью перенесенной цепи. В некоторых вариантах осуществления изобретения, применяемое здесь мечение позволяет встраивать одну нуклеотидную последовательность во фрагменты нуклеиновой кислоты. Встраивание нуклеотидной последовательности приводит к получению фрагментов нуклеиновой кислоты, имеющих шпилечный лигирующий дуплекс на одном конце и нуклеотидную последовательность, в которую встроен транспосомный комплекс, на другом конце. Нуклеотидная последовательность, включающая транспосомный комплекс, имеет универсальную последовательность. Универсальная последовательность служит в качестве комплементарной последовательности для гибридизации в описанной здесь стадии амплификации для введения другого индекса.[00127] Typically, labeling is used to generate nucleic acid fragments that include a different nucleotide sequence at each end (eg, an N5 primer sequence at one end and an N7 primer sequence at the other end). This can be achieved by using two types of transposome complexes, where each transposome complex includes a different nucleotide sequence that is part of the transferred strand. In some embodiments of the invention, the labeling used here allows one nucleotide sequence to be inserted into nucleic acid fragments. Insertion of a nucleotide sequence results in nucleic acid fragments having a hairpin ligation duplex at one end and a nucleotide sequence into which the transposome complex is inserted at the other end. A nucleotide sequence comprising a transposome complex has a universal sequence. The universal sequence serves as a complementary sequence for hybridization in the amplification step described herein to introduce another index.
[00128] В некоторых вариантах осуществления изобретения, транспосомный комплекс включает последовательность нуклеиновой кислоты транспозона, которая связывает две субъединицы транспозазы с образованием «петлевого комплекса» или «петлевой транспосомы». В одном примере, транспосома включает димерную транспозазу и последовательность транспозона. Петлевые комплексы могут гарантировать встраивание транспозонов в ДНК-мишень при сохранении информации об упорядочении исходной ДНК-мишени и без фрагментации ДНК-мишени. Очевидно, что петлевые структуры могут встраивать нужные последовательности нуклеиновой кислоты, такие как индексы, в нуклеиновую кислоту-мишень с сохранением физической связи с нуклеиновой кислотой-мишенью. В некоторых вариантах осуществления изобретения, последовательность транспозона петлевого транспосомного комплекса может включать сайт фрагментации, так, чтобы последовательность транспозона могла фрагментироваться с образованием транспосомного комплекса, включающего две последовательности транспозона. Такие транспосомные комплексы могут быть использованы для гарантии того, что соседние фрагменты ДНК-мишени, в которые встраиваются транспозоны, будут иметь комбинации штрих-кодов, которые могут быть однозначно собраны на более поздней стадии анализа.[00128] In some embodiments, the transposome complex includes a transposon nucleic acid sequence that links two transposase subunits to form a "loop complex" or "loop transposome". In one example, a transposome includes a dimeric transposase and a transposon sequence. Loop complexes can ensure the insertion of transposons into the target DNA while retaining information about the ordering of the original target DNA and without target DNA fragmentation. Clearly, loop structures can insert desired nucleic acid sequences, such as indices, into a target nucleic acid while maintaining a physical link to the target nucleic acid. In some embodiments, the transposon sequence of the loop transposome complex may include a fragmentation site such that the transposon sequence can be fragmented to form a transposome complex comprising two transposon sequences. Such transposome complexes can be used to ensure that adjacent target DNA fragments into which transposons are inserted will have barcode patterns that can be unambiguously assembled at a later stage of analysis.
[00129] В одном варианте осуществления изобретения, фрагментацию нуклеиновых кислот осуществляют с использованием сайта фрагментации, присутствующего в нуклеиновых кислотах. Обычно, сайты фрагментации вводят в нуклеиновые кислоты-мишени с использованием транспосомного комплекса. В одном варианте осуществления изобретения, после фрагментации нуклеиновых кислот, транспозаза остается связанной с фрагментами нуклеиновой кислоты, а поэтому, фрагменты нуклеиновой кислоты, полученные из одной и той же молекулы геномной ДНК, остаются физически связанными (Adey et al., 2014, Genome Res., 24: 2041-2049). Так, например, петлевой транспосомный комплекс может включать сайт фрагментации. Сайт фрагментации может использоваться для физического расщепления, но не информационной ассоциации между индексными последовательностями, которые были встроены в нуклеиновую кислоту-мишень. Расщепление может быть осуществлено биохимическим, химическим или другим способом. В некоторых вариантах осуществления изобретения, сайт фрагментации может включать нуклеотид или нуклеотидную последовательность, которые могут быть фрагментированы различными способами. Примерами сайтов фрагментации являются, но не ограничиваются ими, сайт рестриктирующей эндонуклеазы, по меньшей мере один рибонуклеотид, расщепляемый РНКазой; нуклеотидные аналоги, расщепляемые в присутствии определенного химического агента; диоловая связь, расщепляемая путем обработкой периодатом; дисульфидная группа, расщепляемая химическим восстановителем; расщепляемый фрагмент, который может быть подвергнут фотохимическому расщеплению; и пептид, расщепляемый ферментом пептидазой или другими подходящими способами (см., например, публикацию заявки на патент США №2012/0208705, публикацию заявки на патент США №2012/0208724 и WO 2012/061832).[00129] In one embodiment of the invention, the fragmentation of nucleic acids is carried out using a fragmentation site present in the nucleic acids. Typically, fragmentation sites are introduced into target nucleic acids using a transposome complex. In one embodiment of the invention, after nucleic acid fragmentation, the transposase remains associated with nucleic acid fragments, and therefore, nucleic acid fragments derived from the same genomic DNA molecule remain physically associated (Adey et al., 2014, Genome Res. , 24:2041-2049). For example, a loop transposome complex may include a fragmentation site. The fragmentation site can be used for physical cleavage, but not informational association, between index sequences that have been inserted into the target nucleic acid. Cleavage can be carried out by biochemical, chemical or other means. In some embodiments of the invention, the site of fragmentation may include a nucleotide or nucleotide sequence that can be fragmented in various ways. Examples of fragmentation sites include, but are not limited to, a restriction endonuclease site, at least one ribonucleotide cleaved by an RNase; nucleotide analogs cleavable in the presence of a specific chemical agent; a diol bond cleaved by treatment with periodate; a disulfide group cleavable by a chemical reducing agent; a cleavable fragment that can be subjected to photochemical cleavage; and a peptide cleavable by a peptidase enzyme or other suitable methods (see, for example, US Patent Application Publication No. 2012/0208705, US Patent Application Publication No. 2012/0208724 and WO 2012/061832).
[00130] Транспосомный комплекс может необязательно включать индексную последовательность, также называемую индексом транспозазы. Индексная последовательность присутствует как часть последовательности транспозона. В одном варианте осуществления изобретения, индексная последовательность может присутствовать на перенесенной цепи, то есть, цепи сайта распознавания транспозазы, которая переносится в нуклеиновую кислоту-мишень.[00130] The transposome complex may optionally include an index sequence, also referred to as a transposase index. The index sequence is present as part of the transposon sequence. In one embodiment of the invention, the index sequence may be present on the transferred strand, ie, the strand of the transposase recognition site, which is transferred to the target nucleic acid.
[00131] После мечения ядер и обработки фрагментов нуклеиновой кислоты может быть проведена стадия очистки для повышения чистоты молекул. При этом может быть проведен любой подходящий метод очистки, такой как электрофорез, эксклюзионная хроматография или т.п. В некоторых вариантах осуществления изобретения, для отделения нужных молекул ДНК, например, от невключенных праймеров и для отбора нуклеиновых кислот по размеру могут быть использованы парамагнитные сферы для твердофазной обратимой иммобилизации. Парамагнитные сферы для твердофазной обратимой иммобилизации являются коммерчески доступными и поставляются Beckman Coulter (Agencourt AMPure XP), Thermofisher (MagJet), Omega Biotek (Mag-Bind), Promega Beads (Promega) и Кара Biosystems (Кара Pure Beads).[00131] Following nuclear labeling and processing of nucleic acid fragments, a purification step may be performed to increase the purity of the molecules. Any suitable purification method, such as electrophoresis, size exclusion chromatography, or the like, may be carried out. In some embodiments of the invention, paramagnetic spheres for solid-phase reversible immobilization can be used to separate the desired DNA molecules, for example, from non-included primers and to select nucleic acids for size. Paramagnetic spheres for solid phase reversible immobilization are commercially available from Beckman Coulter (Agencourt AMPure XP), Thermofisher (MagJet), Omega Biotek (Mag-Bind), Promega Beads (Promega), and Kara Biosystems (Kara Pure Beads).
Добавление компартмент-специфического индексаAdding a Compartment-Specific Index
[00132] Индексная последовательность, также называемая меткой или штрих-кодом, являются подходящей в качестве маркера для характеризации компартмента, в котором присутствует конкретная нуклеиновая кислота. В соответствии с этим, индекс представляет собой последовательность нуклеиновой кислоты-метки, которая присоединена к каждой нуклеиновой кислоте-мишени, присутствующей в конкретном компартменте, и присутствие этой метки указывает на компартмент или позволяет идентифицировать компартмент, в котором присутствует популяция выделенных ядер или клеток на определенной стадии этого метода. Добавление индекса к фрагментам нуклеиновой кислоты осуществляют с использованием субпопуляций выделенных ядер или клеток, распределенных по различным компартментам (фиг. 1, блок 15; фиг. 2, блоки 24, 26 и 30; фиг. 3, блоки 33 и 37).[00132] An index sequence, also referred to as a label or barcode, is suitable as a marker for characterizing the compartment in which a particular nucleic acid is present. Accordingly, an index is a sequence of a tag nucleic acid that is attached to each target nucleic acid present in a particular compartment, and the presence of this tag indicates a compartment or allows identification of a compartment in which a population of isolated nuclei or cells is present on a particular compartment. steps of this method. The addition of an index to nucleic acid fragments is carried out using subpopulations of isolated nuclei or cells distributed in different compartments (Fig. 1, block 15; Fig. 2, blocks 24, 26 and 30; Fig. 3, blocks 33 and 37).
[00133] Индексная последовательность может иметь длину в любое подходящее количество нуклеотидов, например, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или более нуклеотидов. Метка из четырех нуклеотидов дает возможность определить мультиплексность 256 образцов в одном массиве, а метка из шести оснований позволяет обрабатывать 4096 образцов в одном массиве.[00133] The index sequence may be any suitable number of nucleotides in length, e.g., 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 or more nucleotides. A four-base label makes it possible to determine the multiplexity of 256 samples in one array, and a six-base label allows processing 4096 samples in one array.
[00134] В одном варианте осуществления изобретения, добавление индекса достигается в процессе обработки нуклеиновых кислот с получением фрагментов нуклеиновых кислот. Так, например, можно использовать транспосомный комплекс, который включает индекс. В некоторых вариантах осуществления изобретения, индекс добавляют после получения фрагментов нуклеиновой кислоты, содержащих нуклеотидную последовательность на одном или обоих концах, путем обработки. В других вариантах осуществления изобретения, для добавления индекса обработка не требуется. Так, например, индекс может быть добавлен непосредственно к нуклеиновым кислотам РНК без фрагментации нуклеиновых кислот РНК. В соответствии с этим, термин «фрагмент нуклеиновой кислоты» включает нуклеиновые кислоты, которые образуются в результате обработки, и нуклеиновые кислоты РНК, а также нуклеиновые кислоты, происходящие от этих нуклеиновых кислот.[00134] In one embodiment of the invention, the addition of the index is achieved during the processing of nucleic acids to obtain nucleic acid fragments. Thus, for example, a transposome complex can be used that includes an index. In some embodiments of the invention, the index is added after processing of nucleic acid fragments containing the nucleotide sequence at one or both ends. In other embodiments of the invention, no processing is required to add the index. Thus, for example, an index can be added directly to RNA nucleic acids without fragmenting the RNA nucleic acids. Accordingly, the term "nucleic acid fragment" includes nucleic acids that result from processing and RNA nucleic acids, as well as nucleic acids derived from these nucleic acids.
[00135] Способы добавления индекса включают, но не ограничиваются ими, лигирование, удлинение (включая удлинение с использованием обратной транскриптазы), гибридизацию, адсорбцию, специфические или неспецифические взаимодействия праймеров, амплификацию или транспозицию. Нуклеотидная последовательность, которую добавляют к одному или обоим концам фрагментов нуклеиновой кислоты, также может включать одну или более универсальных последовательностей и/или уникальных молекулярных идентификаторов. Универсальная последовательность может быть использована, например, в качестве «посадочной полосы» на последующей стадии для отжига нуклеотидной последовательности, которая может быть использована в качестве праймера для добавления другой нуклеотидной последовательности, такой как другой индекс и/или другая универсальная последовательность, к фрагменту нуклеиновой кислоты. Таким образом, для включения индексной последовательности может быть применен способ, который включает одну, две или более стадий, с использованием, по существу, любой комбинации лигирования, удлинения, гибридизации, адсорбции, специфических или неспецифических взаимодействий праймера, амплификации или транспозиции.[00135] Methods for adding an index include, but are not limited to, ligation, extension (including extension using reverse transcriptase), hybridization, adsorption, specific or non-specific primer interactions, amplification, or transposition. The nucleotide sequence that is added to one or both ends of the nucleic acid fragments may also include one or more universal sequences and/or unique molecular identifiers. A universal sequence can be used, for example, as a "landing strip" in a subsequent step to anneal a nucleotide sequence, which can be used as a primer to add another nucleotide sequence, such as another index and/or another universal sequence, to a nucleic acid fragment. . Thus, a method that includes one, two, or more steps can be used to incorporate an index sequence using essentially any combination of ligation, extension, hybridization, adsorption, specific or non-specific primer interactions, amplification, or transposition.
[00136] Так, например, в вариантах осуществления изобретения, в которых используются фрагменты нуклеиновой кислоты, происходящие от мРНК, для добавления индекса к мРНК в одну или две стадии могут быть применены различные методы. Так, например, индекс может быть добавлен с применением методов продуцирования кДНК. Праймер с poly-T-последовательностью на 3'-конце может быть гибридизован с молекулами мРНК и удлинен с использованием обратной транскриптазы. Обработка выделенных ядер или клеток этими компонентами в условиях, подходящих для обратной транскрипции, позволяет осуществлять одностадийное добавление индекса, что будет приводить к образованию популяции индексированных ядер или клеток, где каждое ядро или каждая клетка содержит индексированные фрагменты нуклеиновой кислоты. Альтернативно, праймер с poly-T-последовательностью включает универсальную последовательность вместо индекса, а индекс добавляют в последующей стадии лигирования, удлинения праймера, амплификации, гибридизации или их комбинации. В некоторых вариантах осуществления изобретения, штрих-код добавляют без использования универсальной последовательности. Индексированные фрагменты нуклеиновой кислоты в синтезированной цепи могут включать и обычно включают индексную последовательность, указывающую на конкретный компартмент.[00136] For example, in embodiments of the invention that use nucleic acid fragments derived from mRNA, various methods can be applied to add an index to the mRNA in one or two steps. For example, the index can be added using cDNA production techniques. A primer with a poly-T sequence at the 3' end can be hybridized to mRNA molecules and extended using reverse transcriptase. Treatment of isolated nuclei or cells with these components under conditions suitable for reverse transcription allows one-step index addition, which will result in a population of indexed nuclei or cells, where each nucleus or cell contains indexed nucleic acid fragments. Alternatively, a primer with a poly-T sequence includes a universal sequence instead of an index, and the index is added in a subsequent step of ligation, primer extension, amplification, hybridization, or a combination thereof. In some embodiments of the invention, the barcode is added without using a universal sequence. The indexed nucleic acid fragments in the synthesized strand may and usually include an index sequence indicating a particular compartment.
[00137] В вариантах осуществления изобретения, которые включают использование фрагментов нуклеиновой кислоты, происходящих от некодирующей РНК, могут быть применены различные способы добавления индекса к некодирующей РНК в одну или две стадии. Так, например, индекс может быть добавлен с использованием первого праймера, который включает рандомизированную последовательность и праймер для переключения матрицы, где любой праймер может включать индекс. Может быть использована обратная транскриптаза, обладающая терминальной трансферазной активностью, которая приводит к добавлению нематричных нуклеотидов к 3'-концу синтезированной цепи, а праймер для переключения матрицы включает нуклеотиды, которые гибридизуются с нематричными нуклеотидами, добавленными под действием обратной транскриптазы. Примером подходящего фермента обратной транскриптазы является обратная транскриптаза вируса мышиного лейкоза Молони. В конкретном варианте осуществления изобретения, реагент SMARTer™, поставляемый от Takara Bio USA, Inc. (кат. №634926), используют для переключения матрицы в целях добавления индекса к некодирующей РНК и мРНК, если это желательно. Альтернативно, первый праймер и/или праймер для переключения матрицы могут включать универсальную последовательность вместо индекса, и индекс добавляют в последующей стадии лигирования, удлинения праймера, амплификации, гибридизации или их комбинации. Индексированные фрагменты нуклеиновой кислоты на синтезированной цепи могут включать и обычно включают индексную последовательность, указывающую на конкретный компартмент. Другие варианты осуществления изобретения включают 5'- или 3'-профилирование РНК или полноразмерное профилирование РНК.[00137] In embodiments of the invention that involve the use of nucleic acid fragments derived from non-coding RNA, various methods of adding an index to non-coding RNA in one or two steps can be applied. Thus, for example, an index can be added using a first primer that includes a randomized sequence and a matrix switch primer, where either primer can include an index. A reverse transcriptase having terminal transferase activity that results in the addition of non-template nucleotides to the 3' end of the synthesized strand can be used, and the template-switching primer includes nucleotides that hybridize to non-template nucleotides added by reverse transcriptase. An example of a suitable reverse transcriptase enzyme is Moloney's murine leukemia virus reverse transcriptase. In a specific embodiment of the invention, the SMARTer™ reagent available from Takara Bio USA, Inc. (Cat. No. 634926) is used to switch the template in order to add an index to non-coding RNA and mRNA, if desired. Alternatively, the first primer and/or template switch primer may include a universal sequence instead of an index, and the index is added in a subsequent step of ligation, primer extension, amplification, hybridization, or a combination thereof. The indexed nucleic acid fragments on the synthesized strand may and usually include an index sequence indicating a particular compartment. Other embodiments of the invention include 5' or 3' RNA profiling or full length RNA profiling.
[00138] В другом варианте осуществления изобретения, специфическая мРНК и/или некодирующая РНК могут быть мишенями для амплификации. Таргетинг позволяет создавать секвенирующие библиотеки, обогащенные последовательностями, которые с большей вероятностью будут давать полезную информацию, и тем самым значительно снижать глубину секвенирования и связанные с этим затраты, а также повышають способность обнаруживать тонкие различия между клетками. Молекулы РНК, включающие одну или более мРНК и/или одну или более некодирующих РНК, могут быть отобраны на вероятность получения полезной информации, а праймеры могут быть использованы для селективного отжига предварительно определенных нуклеиновых кислот РНК и амплификации субпопуляции общих молекул РНК, присутствущих в клетке или в ядре. Специалисту в данной области очевидно, что соответствующие молекулы РНК для отбора зависят от эксперимента. Так, например, при оценке некодирующих пертурбаций, на изменение уровня экспрессии могут быть протестированы только кодирующие области, находящиеся в цис-положении по отношению к разрушаемому регуляторному элементу. Такой подход позволяет уменьшить фон рибосомных ридов в большей степени, чем использование рандомизированного гексамера или poly-T-праймеров. Этот подход также позволяет осуществлять нацеливание на стыки сплайсинга и экзоны, образованные в результате альтернативных событий в сайте инициации транскрипции, и таким образом получить информацию об изоформах, которую трудно получить стандартными sci-методами.[00138] In another embodiment of the invention, specific mRNA and/or non-coding RNA can be targets for amplification. Targeting enables the creation of sequencing libraries enriched with sequences that are more likely to provide useful information, thereby significantly reducing sequencing depth and associated costs, and increasing the ability to detect subtle differences between cells. RNA molecules comprising one or more mRNAs and/or one or more non-coding RNAs can be selected for the likelihood of obtaining useful information, and primers can be used to selectively anneal predetermined RNA nucleic acids and amplify a subset of total RNA molecules present in a cell or in the core. One skilled in the art will appreciate that the appropriate RNA molecules to select depend on the experiment. Thus, for example, when evaluating non-coding perturbations, only the coding regions that are in the cis-position with respect to the disrupted regulatory element can be tested for a change in the level of expression. This approach reduces the background of ribosomal reads to a greater extent than the use of a randomized hexamer or poly-T primers. This approach also allows targeting of splicing junctions and exons formed as a result of alternative events at the transcription initiation site, and thus obtain isoform information that is difficult to obtain with standard sci methods.
[00139] Нацеленная амплификация молекул РНК может происходить в несколько стадий во время получения библиотеки. В одном варианте осуществления изобретения, нацеленная амплификация множества мишеней происходит во время обратной транскрипции молекул РНК. В эксперименте может быть использовано множество различных праймеров, нацеленных на различные молекулы РНК. В одном варианте осуществления изобретения может быть использовано множество различных праймеров, нацеленных на различные области одной и той же молекулы РНК. Использование множества праймеров, нацеленных на различные области одной и той же молекулы РНК, дает множество возможностей осуществления обратной транскрипции молекулы РНК в кДНК, что будет повышать вероятность обнаружения молекулы РНК.[00139] Targeted amplification of RNA molecules can occur in several steps during library preparation. In one embodiment of the invention, targeted amplification of multiple targets occurs during reverse transcription of RNA molecules. Many different primers targeting different RNA molecules can be used in an experiment. In one embodiment of the invention, many different primers can be used to target different regions of the same RNA molecule. The use of multiple primers targeting different regions of the same RNA molecule provides multiple opportunities for reverse transcription of the RNA molecule into cDNA, which will increase the likelihood of detecting the RNA molecule.
[00140] В одном варианте осуществления изобретения, праймеры, используемые для нацеленной амплификации, не включают индекс. Если индекс не добавляют во время реакции амплификации, то распределение клеток или ядер по различным компартментам является необязательным, и амплификация может происходить за одну реакцию со всеми молекулами РНК и всеми присутствующими праймерами. В тех вариантах осуществления изобретения, где индекс добавляют во время реакции амплификации, распределение клеток или ядер является полезным, и амплификация может быть осуществлена за одну реакцию в каждом компартменте в присутствии всех молекул РНК и всех праймеров, но, при этом, каждый праймер в компартменте имеет один и тот же компартмент-специфический индекс.[00140] In one embodiment of the invention, the primers used for targeted amplification do not include an index. If the index is not added during the amplification reaction, then the allocation of cells or nuclei to different compartments is optional, and amplification can occur in one reaction with all RNA molecules and all primers present. In those embodiments where the index is added during the amplification reaction, the distribution of cells or nuclei is beneficial and amplification can be carried out in one reaction in each compartment in the presence of all RNA molecules and all primers, but, at the same time, each primer in the compartment has the same compartment-specific index.
[00141] В одном варианте осуществления изобретения, конструирование праймеров для мультиплексного захвата мишени может быть осуществлено исходя из одного или более из следующих соображений. После отбора РНК для нацеленной амплификации может быть собрана последовательность РНК и могут быть определены все возможные праймеры обратной транскриптазы, то есть, праймеры-кандидаты. Длина любого праймера должна быть достаточной для их функционирования в реакции обратной транскрипции, и может составлять, например, от 20 до 30 нуклеотидов.[00141] In one embodiment of the invention, the design of primers for multiplex target capture may be based on one or more of the following considerations. Once the RNA has been selected for targeted amplification, the RNA sequence can be assembled and all possible reverse transcriptase primers, ie, candidate primers, can be determined. The length of any primer should be sufficient for their function in the reverse transcription reaction, and may be, for example, from 20 to 30 nucleotides.
[00142] Праймеры-кандидаты могут быть отфильтрованы по различным критериям, включая, но не ограничиваясь ими, содержание GC, локализацию оснований GC в праймере, вероятность нацеливания на нежелательный сайт и картируемость. Подходящее содержание GC составляет 40-60%, что соответствует температурам плавления, которые составляют приблизительно 55-70°С. Предпочтительно, чтобы эти два гуаниновых или цитозиновых основания присутствовали в последних 5 нуклеотидах у 3'-конца праймера, что увеличит вероятность того, что гибридизованный праймер будет хорошим субстратом для удлинения под действием фермента обратной транскриптазы.[00142] Candidate primers can be filtered by various criteria including, but not limited to, GC content, localization of GC bases in the primer, likelihood of targeting an unwanted site, and mapability. A suitable GC content is 40-60%, which corresponds to melting points that are approximately 55-70°C. Preferably, these two guanine or cytosine bases are present in the last 5 nucleotides at the 3' end of the primer, which will increase the likelihood that the hybridized primer will be a good substrate for extension by the reverse transcriptase enzyme.
[00143] Что касается вероятности нежелательного праймирования, то авторами настоящего изобретения было обнаружено, что хотя РНК-мишени были в высокой степени обогащены, однако, большая часть ридов все еще происходила от других РНК, которые присутствовали в клетках в большом количестве. Большинство этих событий нежелательного праймирования является результатом того, что приблизительно 5-8 пар оснований были комплементарны между 3'-концом праймера и РНК, не являющейся мишенью. Авторами настоящего изобретения было обнаружено, что следует учитывать избыточность конечного гексамера праймера-кандидата в общей клеточной РНК. Было определено, что подходящие праймеры включают последний гексамер, который либо (i) не присутствует в рибосомной РНК, либо (ii) присутствует на низком уровне в общей клеточной РНК.[00143] With regard to the likelihood of unwanted priming, the authors of the present invention found that although the target RNAs were highly enriched, however, most of the reads were still derived from other RNAs that were present in cells in large quantities. Most of these undesired priming events result from approximately 5-8 base pairs being complementary between the 3' end of the primer and the non-target RNA. The authors of the present invention have found that the redundancy of the final hexamer of the candidate primer in the total cellular RNA should be taken into account. Suitable primers have been determined to include the last hexamer which is either (i) not present in ribosomal RNA or (ii) present at low levels in total cellular RNA.
[00144] Описаны примеры гексамеров, не присутствующих в рибосомной РНК (гексамеры, которые «не были рандомизированы соответствующим образом» или NSR-гексамеры, описаны Armor et al., 2009, Nature Methods, 6(9): 647-49). Было обнаружено, что праймеры, обладающие этим свойством, с гораздо меньшей вероятностью имеют нецелевое праймирование в рибосомной РНК. Одним из методов определения того факта, присутствует ли гексамер на низком уровне в общей клеточной РНК, является метод, который может включать идентификацию избытка каждого гексамера в молекулах РНК в клетке, например, все возрастающую транскрипцию, включая рибосомную транскрипцию, в клетках анализируемого типа в соответствии с описанными здесь способами. Использование праймеров-кандидатов, которые имеют небольшой избыточный уровень, например, в пределах самого низкого квартиля, может снижать уровень таргетинга в нежелательный сайт.[00144] Examples of hexamers not present in ribosomal RNA are described (hexamers that "have not been appropriately randomized" or NSR hexamers are described by Armor et al., 2009, Nature Methods, 6(9): 647-49). It has been found that primers with this property are much less likely to have off-target priming in ribosomal RNA. One method for determining whether a hexamer is present at a low level in total cellular RNA is a method that may involve identifying an excess of each hexamer in the RNA molecules in the cell, e.g., increasing transcription, including ribosomal transcription, in cells of the analyzed type according to with the methods described here. The use of candidate primers that have a slight excess, eg, within the lowest quartile, may reduce targeting to an undesirable site.
[00145] Праймеры-кандидаты также могут быть оценены по картируемости. Так, например, каждый кандидат может быть выровнен по мишеням с использованием алгоритма типа «галстука-бабочки» и допускает 3 несоответствия. Эта стадия будет гарантировать, что каждый праймер будет иметь только один сайт-мишень в геноме.[00145] Candidate primers can also be assessed for mapability. So, for example, each candidate can be aligned to the targets using a bow tie algorithm and allows 3 mismatches. This step will ensure that each primer has only one target site in the genome.
[00146] В некоторых вариантах осуществления изобретения, амплификация множества мишеней в одной и той же реакции, также называемой мультиплексным захватом мишеней, с регуляцией температур отжига праймеров обратной транскриптазы, может быть использована для поддержания специфической обратной транскрипции и амплификации нужных РНК-мишеней. Так, например, типичные протоколы обратной транскрипции включают денатурацию смеси РНК и праймера обратной транскрипции и охлаждение до 4°С для обеспечения отжига. Низкая температура отжига создает условия слишком низкой жесткости и приводит к нежелательным событиям отжига. Для повышения вероятности того, что будут наблюдаться только события отжига, когда все праймеры-мишени обратной транскрипции гибридизуются с правильными мишенями, высокая температура должна поддерживаться в течение всего процесса обратной транскрипции. В одном варианте осуществления изобретения, компоненты, например, смесь фиксированных клеток, пула праймеров обратной транскрипции и dNTP при 65°С, гибридизуют при 53°С, добавляют в смесь фермента/буфера для обратной транскрипции, которая была предварительно уравновешена при 53°С до реакции отжига, а затем проводят реакцию удлинения при 53°С в течение 20 минут. Таким образом, уменьшается вероятность отжига праймеров обратной транскрипции при низкой температуре между стадиями денатурации и удлинения. Специалисту в данной области очевидно, что могут быть внесены некоторые изменения, например, изменение температуры или времени без снижения специфичности обратной транскрипции.[00146] In some embodiments, the amplification of multiple targets in the same reaction, also referred to as multiplex target capture, with regulation of reverse transcriptase primer anneal temperatures, can be used to maintain specific reverse transcription and amplify desired target RNAs. For example, typical reverse transcription protocols include denaturing a mixture of RNA and reverse transcription primer and cooling to 4°C to ensure annealing. The low annealing temperature creates conditions of too low stiffness and results in undesired annealing events. To increase the likelihood that only annealing events will be observed when all reverse transcription target primers hybridize to the correct targets, a high temperature must be maintained throughout the entire reverse transcription process. In one embodiment of the invention, components, e.g., a mixture of fixed cells, a reverse transcription primer pool and dNTP at 65°C, hybridized at 53°C, are added to a reverse transcription enzyme/buffer mixture that has been pre-equilibrated at 53°C to annealing reaction, and then carry out the elongation reaction at 53°C for 20 minutes. Thus, the likelihood of annealing reverse transcription primers at low temperature between the denaturation and extension steps is reduced. One skilled in the art will appreciate that some changes can be made, such as changing temperature or time, without reducing reverse transcription specificity.
[00147] Для добавления индекса к фрагменту нуклеиновой кислоты могут быть применены и другие способы, и способ добавления индекса не имеет конкретных ограничений. Так, например, в одном варианте осуществления изобретения, введение индексной последовательности включает лигирование праймера с одним или обоими концами фрагментов нуклеиновой кислоты. Лигирование лигирующего праймера может облегчаться благодаря присутствию универсальной последовательности на концах фрагментов нуклеиновой кислоты. Примером праймера является шпилечный лигирующий дуплекс. Лигирующий дуплекс может быть лигирован с одним концом или предпочтительно с обоими концами фрагментов нуклеиновой кислоты.[00147] Other methods can be used to add an index to a nucleic acid fragment, and the method for adding an index is not particularly limited. Thus, for example, in one embodiment of the invention, the introduction of the index sequence includes ligating the primer to one or both ends of the nucleic acid fragments. Ligation of the ligation primer may be facilitated by the presence of a universal sequence at the ends of the nucleic acid fragments. An example of a primer is a hairpin ligation duplex. The ligation duplex may be ligated to one end, or preferably to both ends, of the nucleic acid fragments.
[00148] В другом варианте осуществления изобретения, введение индексной последовательности включает использование одноцепочечных фрагментов нуклеиновой кислоты и синтез второй цепи ДНК. В одном варианте осуществления изобретения, вторую цепь ДНК получают с использованием праймера, который включает последовательности, комплементарные нуклеотидам, присутствующим на концах одноцепочечных фрагментов нуклеиновой кислоты.[00148] In another embodiment of the invention, the introduction of the index sequence includes the use of single-stranded nucleic acid fragments and the synthesis of the second DNA strand. In one embodiment of the invention, the second DNA strand is prepared using a primer that includes sequences that are complementary to the nucleotides present at the ends of the single stranded nucleic acid fragments.
[00149] В другом варианте осуществления изобретения, включение индекса происходит в один, два, три или более раундов штрихового кодирования с разделением и объединением, что приводит к созданию библиотек отдельных клеток с одним, двумя, тремя или множеством (например, четырьмя или более) индексами.[00149] In another embodiment of the invention, index insertion occurs in one, two, three, or more rounds of split-and-merge barcoding, resulting in single cell libraries with one, two, three, or multiple (e.g., four or more) indexes.
[00150] В другом варианте осуществления изобретения, включение индексов и медиатора амплификации (например, универсальной последовательности) является полезным, и позволяет получать секвенирующие библиотеки-мишени для отдельных клеток и/или секвенирующие библиотеки-мишени для отдельных клеток.[00150] In another embodiment of the invention, the inclusion of indices and an amplification mediator (eg, a universal sequence) is useful, and allows the production of single cell target sequencing libraries and/or single cell target sequencing libraries.
Добавление универсальных последовательностей для иммобилизацииAddition of universal sequences for immobilization
В одном варианте осуществления изобретения, добавление нуклеотидов во время стадий обработки и/или индексации приводит к добавлению универсальных последовательностей, подходящих для иммобилизации и секвенирования фрагментов. В другом варианте осуществления изобретения, индексированные фрагменты нуклеиновой кислоты могут быть также обработаны для добавления универсальных последовательностей, подходящих для иммобилизации и секвенирования фрагментов нуклеиновой кислоты. Специалисту в данной области очевидно, что в тех вариантах осуществления изобретения, где компартмент представляет собой каплю, последовательности для иммобилизации фрагментов нуклеиновой кислоты являются необязательными. В одном варианте осуществления изобретения, введение универсальных последовательностей, подходящих для иммобилизации и секвенирования фрагментов, включает лигирование идентичных универсальных адаптеров (также называемых «несоответствующими адапторами», общие признаки которых описаны Gormley et al., в патенте США 7741463 и Bignell et al. в патенте США 8053192) с 5'- т 3'-концами индексированных фрагментов нуклеиновой кислоты. В одном варианте осуществления изобретения, универсальный адаптер включает все последовательности, необходимые для секвенирования, включая последовательности для иммобилизации индексированных фрагментов нуклеиновой кислоты на массиве.In one embodiment of the invention, the addition of nucleotides during the processing and/or indexing steps results in the addition of universal sequences suitable for fragment immobilization and sequencing. In another embodiment of the invention, indexed nucleic acid fragments can also be processed to add universal sequences suitable for immobilization and sequencing of nucleic acid fragments. One skilled in the art will appreciate that, in those embodiments where the compartment is a droplet, sequences for immobilizing nucleic acid fragments are optional. In one embodiment of the invention, the introduction of universal sequences suitable for immobilization and sequencing of fragments includes the ligation of identical universal adapters (also referred to as "mismatched adapters", the general features of which are described by Gormley et al., in US patent 7741463 and Bignell et al. in patent US 8053192) with the 5'-3' ends of the indexed nucleic acid fragments. In one embodiment of the invention, the universal adapter includes all sequences required for sequencing, including sequences for immobilizing indexed nucleic acid fragments on an array.
[00152] В одном варианте осуществления изобретения может быть использовано лигирование тупых концов. В другом варианте осуществления изобретения, фрагменты нуклеиновой кислоты получают так, чтобы они имели одиночные выступающие нуклеотиды, например, под действием активности ДНК-полимеразы определенных типов, такой как Taq-полимераза или экзо-(-)-полимераза Кленова, которая обладает не зависимой от матрицы концевой трансферазной активностью, добавляющей один или больше дезоксинуклеотидов, например дезоксиаденозин (А) к 3'-концам индексируемых фрагментов нуклеиновой кислоты. В некоторых случаях, выступающий нуклеотид представляет собой более, чем одно основание. Такие ферменты могут быть использованы для добавления одного нуклеотида «А» к тупому концу 3'-конца каждой цепи фрагментов нуклеиновой кислоты. Таким образом, «А» может быть добавлен к 3'-концу каждой цепи двухцепочечных фрагментов-мишеней посредством реакции с Taq-полимеразой или экзо-(-)-полимеразой Кленова, а дополнительные последовательности, добавляемые к каждому концу фрагмента нуклеиновой кислоты, могут включать совместимый выступающий «Т», присутствующий на 3'-конце каждой области добавляемой двухцепочечной нуклеиновой кислоты. Эта концевая модификация также предотвращает аутолигирование нуклеиновых кислот, а поэтому наблюдается отклонение в сторону образования индексируемых фрагментов нуклеиновых кислот, фланкированных последовательностями, которые добавляются в этом варианте осуществления изобретения.[00152] In one embodiment of the invention, blunt end ligation may be used. In another embodiment of the invention, the nucleic acid fragments are prepared so that they have single overhanging nucleotides, for example, by the activity of certain types of DNA polymerase, such as Taq polymerase or exo-(-)-Klenow polymerase, which has an independent matrix terminal transferase activity adding one or more deoxynucleotides, for example deoxyadenosine (A) to the 3' ends of the indexed nucleic acid fragments. In some cases, the overhanging nucleotide is more than one base. Such enzymes can be used to add one "A" nucleotide to the blunt end of the 3' end of each strand of nucleic acid fragments. Thus, "A" can be added to the 3' end of each strand of double-stranded target fragments by reaction with Taq polymerase or Klenow exo-(-) polymerase, and additional sequences added to each end of the nucleic acid fragment can include a compatible "T" overhang present at the 3' end of each region of the added double-stranded nucleic acid. This terminal modification also prevents the autoligation of nucleic acids, and therefore there is a bias towards the formation of indexable nucleic acid fragments flanked by the sequences that are added in this embodiment of the invention.
[00153] В другом варианте осуществления изобретения, если универсальный адаптер, лигированный с индексированными фрагментами нуклеиновой кислоты, не включает все последовательности, необходимые для секвенирования, то может быть проведена стадия амплификации, такая как ПЦР, для дополнительной модификации универсальных адаптеров, присутствующих в каждом индексированном фрагменте нуклеиновой кислоты до иммобилизации и секвенирования. Так, например, исходная реакция удлинения праймера может быть проведена с использованием универсальной якорной последовательности, комплементарной универсальной последовательности, присутствующей в индексируемом фрагменте нуклеиновой кислоты, в котором образуются продукты удлинения, комплементарные обеим цепям каждого отдельного индексируемого фрагмента нуклеиновой кислоты. Обычно, ПЦР добавляет дополнительные универсальные последовательности, такие как универсальная последовательность для захвата.[00153] In another embodiment of the invention, if the universal adapter ligated to the indexed nucleic acid fragments does not include all the sequences required for sequencing, then an amplification step, such as PCR, can be performed to further modify the universal adapters present in each indexed nucleic acid fragment prior to immobilization and sequencing. Thus, for example, the initial primer extension reaction can be performed using a universal anchor sequence that is complementary to the universal sequence present in the indexed nucleic acid fragment that produces extension products that are complementary to both strands of each individual indexed nucleic acid fragment. Typically, PCR adds additional universal sequences, such as a universal capture sequence.
[00154] После добавления универсальных адаптеров, либо одностадийным способом лигирования, либо путем гибридизации универсального адаптера, включающего все последовательности, необходимые для секвенирования, или двухстадийным способом лигирования универсального адаптера, а затем амплификации для дальнейшей модификации универсального адаптера, конечные индексные фрагменты будут включать универсальную последовательность для захвата и якорную последовательность. Результатом добавления универсальных адаптеров к каждому концу является множество или библиотека проиндексированных фрагментов нуклеиновой кислоты.[00154] After adding universal adapters, either by a one-step ligation method, or by hybridization of a universal adapter that includes all sequences required for sequencing, or by a two-step method of ligating a universal adapter, and then amplifying to further modify the universal adapter, the final index fragments will include a universal sequence to capture and anchor sequence. The result of adding universal adapters to each end is a set or library of indexed nucleic acid fragments.
[00155] Полученные индексированные фрагменты, взятые вместе, представляют собой библиотеку нуклеиновых кислот, которые могут быть иммобилизованы, а затем секвенированы. Термин «библиотека», также называемый здесь «библиотекой секвенирования», означает набор фрагментов нуклеиновых кислот из отдельных ядер или клеток, содержащих известные универсальные последовательности на их 3'- и 5'-концах. Эта библиотека включает нуклеиновые кислоты из всего транскриптома, нуклеиновые кислоты из вновь синтезированных молекул РНК или их комбинацию и может быть использована для секвенирования всего транскриптома, транскриптома вновь синтезированной РНК или их комбинации.[00155] The resulting indexed fragments, taken together, are a library of nucleic acids that can be immobilized and then sequenced. The term "library", also referred to here as a "sequencing library", means a set of nucleic acid fragments from individual nuclei or cells containing known universal sequences at their 3' and 5' ends. This library includes nucleic acids from the entire transcriptome, nucleic acids from newly synthesized RNA molecules, or a combination thereof, and can be used to sequence the entire transcriptome, the transcriptome of newly synthesized RNA, or a combination of both.
[00156] Индексированные фрагменты нуклеиновой кислоты могут быть обработаны в условиях, которые позволяют отбирать молекулы предварительно определенного размера, например, длиной от 150 до 400 нуклеотидов, например, от 150 до 300 нуклеотидов. Полученные индексированные фрагменты нуклеиновой кислоты объединяют, а затем, они могут быть, но необязательно, подвергнуты очистке для повышения чистоты молекул ДНК путем удаления по меньшей мере части невключенных универсальных адаптеров или праймеров. При этом может быть проведен любой подходящий способ очистки, такой как электрофорез, эксклюзионная хроматография или т.п. В некоторых вариантах осуществления изобретения, для отделения нужных молекул ДНК, например, от невключенных праймеров, и для отбора нуклеиновых кислот по размеру могут быть использованы парамагнитные сферы для твердофазной обратимой иммобилизации. Парамагнитные сферы для твердофазной обратимой иммобилизации являются коммерчески доступными и поставляются Beckman Coulter (Agencourt AMPure XP), Thermofisher (MagJet), Omega Biotek (Mag-Bind), Promega Beads (Promega) и Kapa Biosystems (Kapa Pure Beads).[00156] Indexed nucleic acid fragments can be processed under conditions that allow predetermined size molecules to be selected, eg 150 to 400 nucleotides in length, eg 150 to 300 nucleotides. The resulting indexed nucleic acid fragments are combined and then optionally purified to increase the purity of the DNA molecules by removing at least a portion of non-included universal adapters or primers. Any suitable purification method, such as electrophoresis, size exclusion chromatography, or the like, may be carried out. In some embodiments of the invention, paramagnetic spheres for solid-phase reversible immobilization can be used to separate the desired DNA molecules, for example, from non-included primers, and to select nucleic acids for size. Paramagnetic spheres for solid phase reversible immobilization are commercially available from Beckman Coulter (Agencourt AMPure XP), Thermofisher (MagJet), Omega Biotek (Mag-Bind), Promega Beads (Promega), and Kapa Biosystems (Kapa Pure Beads).
[00157] Неограничивающий иллюстративный вариант раскрытия изобретения показан на фиг. 1. В этом варианте осуществления изобретения, способ включает получение множества клеток (фиг. 1, блок 10). Этот способ также включает распределение субпопуляций клеток по множеству компартментов (фиг. 1, блок 11) и обработку клеток в предварительно определенных условиях (фиг. 1, блок 12). Предварительно определенные условия могут отличаться и обычно отличаются между различными компартментами. Так, например, различные компартменты могут включать различные дозы агента, различные пертурбации, различные продолжительности обработки, различные типы клеток и т.п. Вновь синтезированную РНК затем метят (фиг. 1, блок 13). Может быть осуществлено мечение клеток, либо ядра могут быть выделены из клеток, а затем помечены. В некоторых вариантах осуществления изобретения, клеточную РНК обрабатывают с образованием фрагментов (фиг. 1, блок 14). РНК, присутствующую в клетках или ядрах, затем индексируют (фиг. 1, блок 15). При этом возможны различные варианты индексирования РНК. Так, например, в одном варианте осуществления изобретения, все мРНК, присутствующие в клетке, индексируются с использованием праймера, который включает poly-T-область. В другом варианте осуществления изобретения, специфические нуклеиновые кислоты РНК могут быть индексированы.[00157] A non-limiting illustrative embodiment of the invention is shown in FIG. 1. In this embodiment of the invention, the method includes obtaining a plurality of cells (Fig. 1, block 10). This method also includes the distribution of subpopulations of cells across multiple compartments (Fig. 1, block 11) and treatment of cells under predetermined conditions (Fig. 1, block 12). The predetermined conditions may and usually differ between different compartments. Thus, for example, different compartments may include different doses of the agent, different perturbations, different treatment times, different cell types, and the like. The newly synthesized RNA is then labeled (Fig. 1, block 13). Cells can be labeled, or nuclei can be isolated from cells and then labeled. In some embodiments of the invention, cellular RNA is processed into fragments (FIG. 1, block 14). RNA present in cells or nuclei is then indexed (FIG. 1, block 15). In this case, various variants of RNA indexing are possible. Thus, for example, in one embodiment of the invention, all mRNAs present in the cell are indexed using a primer that includes a poly-T region. In another embodiment of the invention, specific RNA nucleic acids can be indexed.
[00158] Другой неограничивающий иллюстративный вариант раскрытия изобретения показан на фиг. 2 и описан в Примере 1. В этом варианте осуществления изобретения, способ включает получение выделенных ядер из множества клеток (фиг. 2, блок 22). Этот способ также включает распределение субпопуляций выделенных ядер по первому множеству компартментов (фиг. 2, блок 23). Количество компартментов в первой стадии распределения (фиг. 2, блок 23) может зависеть от используемого формата. Так, например, количество компартментов может составлять от 2 до 96 компартментов (при использовании 96-луночного планшета), от 2 до 384 компартментов (при использовании 384-луночного планшета) или от 2 до 1536 компартментов (при использовании 1536-луночного планшета). В качестве альтернативы можно использовать и другие компартменты, такие как капли.[00158] Another non-limiting illustrative embodiment of the invention is shown in FIG. 2 and described in Example 1. In this embodiment, the method includes obtaining isolated nuclei from a plurality of cells (FIG. 2, block 22). This method also includes the distribution of subpopulations of selected nuclei across the first set of compartments (Fig. 2, block 23). The number of compartments in the first distribution stage (FIG. 2, block 23) may depend on the format used. For example, the number of compartments can be from 2 to 96 compartments (using a 96-well plate), from 2 to 384 compartments (using a 384-well plate), or from 2 to 1536 compartments (using a 1536-well plate). Alternatively, other compartments such as drops can be used.
[00159] Способ также включает получение индексируемых ядер (фиг. 2, блок 24). В одном из вариантов осуществления изобретения, получение индексированных ядер включает использование обратной транскриптазы с олиго-dT-праймером для добавления индекса, рандомизированной нуклеотидной последовательности и универсальной последовательности. Индекс в каждом компартменте является уникальным, например, каждый индекс является компартмент-специфическим. Рандомизированная последовательность используется в качестве уникального молекулярного идентификатора (UMI) для мечения уникальных фрагментов нуклеиновых кислот. Рандомизированная последовательность может быть также использована для облегчения удаления дубликатов при последующей обработке. Универсальная последовательность служит в качестве комплементарной последовательности для гибридизации в описанной здесь стадии лигирования. В другом варианте осуществления изобретения, получение индексированных ядер включает использование обратной транскриптазы со специфическими праймерами для нацеливания на заранее определенные молекулы РНК. Обратная транскрипция может приводить к добавлению индекса, рандомизированной нуклеотидной последовательности и универсальной последовательности к молекулам РНК-мишени. Обработка ядер этими компонентами в условиях, подходящих для обратной транскрипции, приводит к образованию популяции индексируемых ядер, где каждое ядро содержит индексированные фрагменты нуклеиновой кислоты. Индексированные фрагменты нуклеиновой кислоты могут включать и обычно включают на синтезированной цепи индексную последовательность, указывающую на конкретный компартмент. Пример индексированного фрагмента нуклеиновой кислоты показан на фиг. 1А Примера 1 (см. раздел «Индексированная обратная транскрипция»).[00159] The method also includes obtaining indexable cores (FIG. 2, block 24). In one embodiment of the invention, obtaining indexed nuclei includes using a reverse transcriptase with an oligo-dT primer to add an index, a randomized nucleotide sequence, and a universal sequence. The index within each compartment is unique, eg each index is compartment-specific. The randomized sequence is used as a unique molecular identifier (UMI) to label unique nucleic acid fragments. A randomized sequence can also be used to facilitate the removal of duplicates in post-processing. The universal sequence serves as a complementary sequence for hybridization in the ligation step described here. In another embodiment of the invention, obtaining indexed nuclei includes the use of reverse transcriptase with specific primers to target predetermined RNA molecules. Reverse transcription may result in the addition of an index, a randomized nucleotide sequence, and a universal sequence to target RNA molecules. Treatment of the nuclei with these components under conditions suitable for reverse transcription results in the formation of a population of indexed nuclei, where each nucleus contains indexed nucleic acid fragments. Indexed nucleic acid fragments may, and usually include, on the synthesized strand, an index sequence indicating a particular compartment. An example of an indexed nucleic acid fragment is shown in FIG. 1A of Example 1 (see Indexed Reverse Transcription section).
[00160] Индексированные ядра от множества компартментов могут быть объединены (фиг. 2, блок 25). Субпопуляции этих объединенных индексированных ядер, называемых здесь объединенными индексированными ядрами, затем распределяют по второму множеству компартментов (фиг. 2, блок 25). После распределения ядер по субпопуляциям, в каждый компартмент индексированных фрагментов нуклеиновой кислоты включают вторую индексную последовательность с получением фрагментов с двумя индексами. В результате этого происходит дополнительное индексирование индексированных фрагментов нуклеиновой кислоты (фиг. 2, блок 26).[00160] Indexed nuclei from multiple compartments can be combined (FIG. 2, block 25). Subpopulations of these pooled indexed nuclei, referred to herein as pooled indexed nuclei, are then distributed across a second set of compartments (FIG. 2, block 25). After distributing the nuclei into subpopulations, a second index sequence is included in each compartment of the indexed nucleic acid fragments to obtain fragments with two indexes. This results in further indexing of the indexed nucleic acid fragments (FIG. 2, block 26).
[00161] В этом иллюстративном варианте осуществления изобретения, введение второй индексной последовательности включает лигирование дуплекса, лигирование шпилечного лигирующего дуплекса с индексированными фрагментами нуклеиновой кислоты в каждом компартменте. Использование шпилечного лигирующего дуплекса для введения универсальной последовательности, индекса или их комбинации в конец фрагмента нуклеиновой кислоты-мишени обычно включает использование одного конца дуплекса в качестве праймера для последующей амплификации. В противоположность этому, шпилечный лигирующий дуплекс, используемый в этом варианте осуществления изобретения, не действует как праймер. Преимущество использования описанного здесь шпилечного лигирующего дуплекса заключается в уменьшении аутолигирования, наблюдаемого для многих шпилечных лигирующих дуплексов, описанных в литературе. В одном варианте осуществления изобретения, лигирующий дуплекс включает пять элементов: 1) универсальную последовательность, которая является комплементарной универсальной последовательности, присутствующей в праймере олиго-dT, 2) второй индекс, 3) i-дезокси-U, 4) нуклеотидную последовательность, которая может образовывать шпильку и 5) обратный комплемент второго индекса. Последовательности второго индекса являются уникальными для каждого компартмента, в который были помещены распределенные индексированные ядра (фиг. 2, блок 25) после добавления первого индекса посредством обратной транскрипции. Пример фрагмента нуклеиновой кислоты с двумя индексами показан на фиг. 1А Примера 1 (см. «Индексированное шпилечное лигирование»).[00161] In this illustrative embodiment of the invention, the introduction of the second index sequence includes duplex ligation, ligation of the hairpin ligation duplex with indexed nucleic acid fragments in each compartment. The use of a hairpin ligation duplex to introduce a universal sequence, index, or combination thereof at the end of a target nucleic acid fragment typically involves using one end of the duplex as a primer for subsequent amplification. In contrast, the hairpin ligation duplex used in this embodiment does not act as a primer. The advantage of using the hairpin ligation duplex described here is the reduction in autoligation observed with many hairpin ligation duplexes described in the literature. In one embodiment, the ligation duplex includes five elements: 1) a universal sequence that is complementary to the universal sequence present in the oligo-dT primer, 2) a second index, 3) i-deoxy-U, 4) a nucleotide sequence that can form a hairpin and 5) reverse complement of the second index. The second index sequences are unique for each compartment into which distributed indexed nuclei were placed (FIG. 2, block 25) after adding the first index by reverse transcription. An example of a nucleic acid fragment with two indices is shown in FIG. 1A of Example 1 (see "Indexed hairpin ligation").
[00162] Удаление i-дезокси-U, присутствующего в области шпильки шпилечного лигирующего дуплекса, включенного во фрагменты нуклеиновой кислоты, может происходить до, во время или после очистки. Удаление остатка урацила может быть осуществлено любым доступным способом, а в одном из вариантом, используется реагент для урацил-специфического вырезания (USER), поставляемый NEB.[00162] Removal of i-deoxy-U present in the hairpin region of the hairpin ligation duplex incorporated into nucleic acid fragments can occur before, during or after purification. Removal of the uracil residue can be accomplished by any available means, and in one embodiment, the Uracil Specific Excision Reagent (USER) supplied by NEB is used.
[00163] Субпопуляции этих объединенных ядер с двумя индексами, называемые здесь объединенными ядрами с двумя индексами, затем распределяют по третьему множеству компартментов (фиг. 2, блок 27). В одном варианте осуществления изобретения, в каждую лунку распределяют от 100 до 30000 ядер. В одном варианте осуществления изобретения, число ядер в лунке составляет по меньшей мере 100, по меньшей мере 500, по меньшей мере 1000 или по меньшей мере 5000. В одном варианте осуществления изобретения, число ядер в лунке составляет не более 30000, не более 25000, не более 20000 или не более 15000. В одном варианте осуществления изобретения, число ядер, присутствующих в субпопуляции, может составлять 100-1000, 1000-10000, 10000-20000 или 20000-30000. В одном варианте осуществления изобретения, в каждую лунку помещают 2500 ядер. В одном варианте осуществления изобретения, число ядер, присутствующих в каждой субпопуляции является, приблизительно одинаковым.[00163] Subpopulations of these two-index pooled nuclei, referred to herein as two-index pooled nuclei, are then distributed to a third set of compartments (FIG. 2, block 27). In one embodiment of the invention, 100 to 30,000 cores are dispensed into each well. In one embodiment, the number of cores per well is at least 100, at least 500, at least 1000, or at least 5000. In one embodiment, the number of cores per well is at most 30,000, at most 25,000, not more than 20000 or not more than 15000. In one embodiment of the invention, the number of nuclei present in the subpopulation may be 100-1000, 1000-10000, 10000-20000 or 20000-30000. In one embodiment of the invention, 2500 cores are placed in each well. In one embodiment of the invention, the number of nuclei present in each subpopulation is approximately the same.
[00164] После распределения ядер с двумя индексами по субпопуляциям осуществляют синтез второй цепи ДНК (фиг. 2, блок 28). Нуклеиновые кислоты в ядрах обрабатывают путем мечения (фиг. 2, блок 29). Каждый компартмент, содержащий ядра с двумя индексами, включает транспосомный комплекс. В этом варианте осуществления изобретения, мечение проводят для получения фрагментов нуклеиновой кислоты, которые включают различные нуклеотидные последовательности на каждом конце (например, последовательность праймера N5 на одном конце и праймера N7 на другом конце).[00164] After the distribution of nuclei with two indices to subpopulations, the synthesis of the second strand of DNA is carried out (Fig. 2, block 28). Nucleic acids in the nuclei are processed by labeling (FIG. 2, block 29). Each compartment containing nuclei with two indexes includes a transposome complex. In this embodiment, labeling is performed to produce nucleic acid fragments that include a different nucleotide sequence at each end (eg, an N5 primer sequence at one end and an N7 primer sequence at the other end).
[00165] После мечения ядер, во фрагменты нуклеиновой кислоты с двумя индексами в каждом компартменте вводят третью индексную последовательность для получения фрагментов с тремя индексами, где третья индексная последовательность в каждом компартменте отличается от первой и второй индексных последовательностей в компартментах. Это приводит к дополнительной индексации индексированных фрагментов нуклеиновой кислоты (фиг. 2, блок 30; см. также фиг. 1А примера («обработка USER, индексированная ПЦР»)) до иммобилизации и секвенирования. В одном варианте осуществления изобретения, универсальные последовательности, присутствующие на концах фрагментов нуклеиновой кислоты с двумя индексами (например, нуклеотидная последовательность, встроенная в шпилечный лигирующий дуплекс на одном конце, и нуклеотидная последовательность, встроенная в транспосомный комплекс на другом конце), могут быть использованы для связывания праймеров и для удлинения в реакции амплификации. Обычно, используют два различных праймера. Один праймер гибридизуется с универсальными последовательностями у 3'-конца одной цепи фрагментов нуклеиновой кислоты с двумя индексами, а второй праймер гибридизуется с универсальными последовательностями у 3'-конца другой цепи фрагментов нуклеиновой кислоты с двумя индексами. Таким образом, якорные последовательности (например, сайт, с которым гибридизуется универсальный праймер, такой как секвенирующий праймер для секвенирования рида 1 или рида 2), присутствующие на каждом праймере, могут отличаться. Каждый из подходящих праймеров может включать дополнительные универсальные последовательности, такие как универсальная последовательность для захвата (например, сайт, с которым гибридизуется олигонуклеотид для захвата, где олигонуклеотид для захвата может быть иммобилизован на поверхности твердой подложке). Поскольку каждый праймер включает индекс, то эта стадия приводит к добавлению еще одной последовательности индекса, по одной на каждом конце фрагментов нуклеиновой кислоты с получением фрагментов с тремя индексами. В одном варианте осуществления изобретения, индексированные праймеры, такие как индексированный праймер Р5 и индексированный праймер Р7, могут быть использованы для добавления третьего индекса. Фрагменты с тремя индексами объединяют, а затем они могут быть подвергнуты описанной здесь стадии очистки.[00165] After nuclear labeling, nucleic acid fragments with two indices in each compartment are introduced with a third index sequence to obtain fragments with three indices, where the third index sequence in each compartment differs from the first and second index sequences in the compartments. This results in additional indexing of indexed nucleic acid fragments (FIG. 2, block 30; see also FIG. 1A of the example ("PCR-indexed USER treatment")) prior to immobilization and sequencing. In one embodiment of the invention, universal sequences present at the ends of nucleic acid fragments with two indexes (for example, a nucleotide sequence inserted into a hairpin ligation duplex at one end and a nucleotide sequence inserted into a transposome complex at the other end) can be used to primer binding and for extension in the amplification reaction. Typically, two different primers are used. One primer hybridizes to universal sequences at the 3'end of one strand of double-index nucleic acid fragments, and the second primer hybridizes to universal sequences at the 3'end of the other strand of double-index nucleic acid fragments. Thus, the anchor sequences (eg, the site to which a universal primer hybridizes, such as a
[00166] Для секвенирования может быть получено множество фрагментов с тремя индексами. После объединения фрагментов с тремя индексами и после их очистки, их обогащают, обычно путем иммобилизации и/или амплификации перед секвенированием (фиг. 2, блок 31).[00166] A plurality of fragments with three indexes can be obtained for sequencing. After combining fragments with three indexes and after their purification, they are enriched, usually by immobilization and/or amplification before sequencing (Fig. 2, block 31).
[00167] Другой неограничивающий иллюстративный вариант раскрытия изобретения показан на фиг. 3 и описан в Примере 4. В этом варианте осуществления изобретения, способ включает получение выделенных ядер или клеток (фиг. 3, блок 30). Ядра или клетки могут быть обработаны обратной транскриптазой и специфическими праймерами для нацеливания и обогащения предварительно определенных молекул РНК (фиг. 3, блок 31). Обработка ядер или клеток этими компонентами в условиях, подходящих для обратной транскрипции, позволяет получить популяцию ядер или клеток, где каждое ядро содержит фрагменты нуклеиновой кислоты, обогащенные последовательностями, присутствующими в предварительно определенных молекулах РНК. Этот способ также включает распределение субпопуляций ядер или клеток по первому множеству компартментов (фиг. 3, блок 32). Число компартментов в первой стадии распределения (фиг. 3, блок 32) может зависеть от используемого формата. Так, например, количество компартментов может составлять от 2 до 96 компартментов (при использовании 96-луночного планшета), от 2 до 384 компартментов (при использовании 384-луночного планшета) или от 2 до 1536 компартментов (при использовании 1536-луночного планшета). В качестве альтернативы можно использовать и другие компартменты, такие как капли.[00167] Another non-limiting illustrative embodiment of the invention is shown in FIG. 3 and described in Example 4. In this embodiment, the method includes obtaining isolated nuclei or cells (FIG. 3, block 30). Nuclei or cells can be treated with reverse transcriptase and specific primers to target and enrich predetermined RNA molecules (FIG. 3, block 31). Treatment of nuclei or cells with these components under conditions suitable for reverse transcription produces a population of nuclei or cells, where each nucleus contains nucleic acid fragments enriched in sequences present in predetermined RNA molecules. This method also includes the distribution of subpopulations of nuclei or cells in the first set of compartments (Fig. 3, block 32). The number of compartments in the first distribution stage (FIG. 3, block 32) may depend on the format used. For example, the number of compartments can be from 2 to 96 compartments (using a 96-well plate), from 2 to 384 compartments (using a 384-well plate), or from 2 to 1536 compartments (using a 1536-well plate). Alternatively, other compartments such as drops can be used.
[00168] Этот способ также включает получение индексированных ядер или клеток (фиг. 3, блок 33) путем включения во фрагменты нуклеиновой кислоты в каждом компартменте индексной последовательности для получения индексированных фрагментов.[00168] This method also includes obtaining indexed nuclei or cells (Fig. 3, block 33) by incorporating nucleic acid fragments in each compartment of the index sequence to obtain indexed fragments.
[00169] В одном варианте осуществления изобретения, введение индексной последовательности включает лигирование шпилечного лигирующего дуплекса с индексированными фрагментами нуклеиновой кислоты в каждом компартменте. Ядра или клетки, содержащие индексированные фрагменты, объединяют, а затем субпопуляции этих объединенных индексированных ядер или клеток распределяют по второму множеству компартментов (фиг. 3, блок 34).[00169] In one embodiment of the invention, the introduction of the index sequence includes ligation of the hairpin ligation duplex with indexed nucleic acid fragments in each compartment. The nuclei or cells containing the indexed fragments are pooled and then subpopulations of these pooled indexed nuclei or cells are distributed into a second set of compartments (FIG. 3, block 34).
[00170] Распределение индексированных ядер или клеток по субпопуляциям может сопровождаться синтезом второй цепи ДНК (фиг. 3, блок 35). Нуклеиновые кислоты в ядрах или клетках обрабатывают путем мечения (фиг. 3, блок 36). Каждый компартмент, содержащий проиндексированные ядра, включает транспосомный комплекс. В этом варианте осуществления изобретения, мечение проводят для получения фрагментов нуклеиновой кислоты, которые включают различные нуклеотидные последовательности на каждом конце (например, последовательность праймера N5 на одном конце и праймера N7 на другом конце).[00170] The distribution of indexed nuclei or cells into subpopulations may be accompanied by the synthesis of a second strand of DNA (Fig. 3, block 35). Nucleic acids in nuclei or cells are processed by labeling (FIG. 3, block 36). Each compartment containing indexed nuclei includes a transposome complex. In this embodiment, labeling is performed to produce nucleic acid fragments that include a different nucleotide sequence at each end (eg, an N5 primer sequence at one end and an N7 primer sequence at the other end).
[00171] После мечения ядер, во фрагменты нуклеиновой кислоты с двумя индексами в каждом компартменте вводят вторую индексную последовательность для получения фрагментов с двумя индексами, где вторая индексная последовательность в каждом компартменте отличается от первых индексных последовательностей в компартментах. Это приводит к дополнительной индексации индексированных фрагментов нуклеиновой кислоты (фиг. 3, блок 37) до иммобилизации и секвенирования.[00171] After labeling the nuclei, a second index sequence is introduced into the nucleic acid fragments with two indices in each compartment to obtain fragments with two indices, where the second index sequence in each compartment differs from the first index sequences in the compartments. This results in additional indexing of the indexed nucleic acid fragments (FIG. 3, block 37) prior to immobilization and sequencing.
[00172] Для секвенирования может быть получено множество фрагментов с двумя индексами, где данные секвенирования обогащают последовательностями, присутствующими в предварительно определенных молекулах РНК. После объединения и очистки фрагментов с двумя индексами, их обогащают обычно путем иммобилизации и/или амплификации перед секвенированием (фиг. 3, блок 38).[00172] For sequencing, a plurality of fragments with two indices can be obtained, where the sequencing data is enriched with sequences present in predetermined RNA molecules. After pooling and purification of fragments with two indexes, they are usually enriched by immobilization and/or amplification before sequencing (Fig. 3, block 38).
Получение иммобилизованных образцов для секвенированияObtaining immobilized samples for sequencing
[00173] Методы присоединения индексированных фрагментов от одного или более источников к субстрату известны специалистам. В одном варианте осуществления изобретения, индексированные фрагменты обогащают с использованием множества олигонуклеотидов для захвата, специфичных к индексированным фрагментам, и олигонуклеотиды для захвата могут быть иммобилизованы на поверхности твердой подложки. Так, например, олигонуклеотиды для захвата могут включать первый член универсальной связывающей пары, а второй член связывающей пары может быть иммобилизован на поверхности твердой подложки. Аналогичным образом, методы амплификации иммобилизованных фрагментов с двумя индексами включают, но не ограничиваются ими, мостиковую амплификацию и кинетическое исключение. Методы иммобилизации и амплификации до секвенирования описаны, например, Bignell et al. (патент США 8053192), Gunderson et al. (WO 2016/130704), Shen et al. (патент США 8895249) и Pipenburg et al. (патент США 9309502).[00173] Methods for attaching indexed fragments from one or more sources to a substrate are known to those skilled in the art. In one embodiment of the invention, the indexed fragments are enriched using a plurality of capture oligonucleotides specific to the indexed fragments, and the capture oligonucleotides can be immobilized on the surface of a solid support. For example, the capture oligonucleotides may include a first member of the universal binding pair, and the second member of the binding pair may be immobilized on the surface of a solid support. Similarly, methods for amplifying dual-index immobilized fragments include, but are not limited to, bridge amplification and kinetic exclusion. Methods for immobilization and amplification prior to sequencing are described, for example, by Bignell et al. (US patent 8053192), Gunderson et al. (WO 2016/130704), Shen et al. (US patent 8895249) and Pipenburg et al. (U.S. Patent 9309502).
[00174] Объединенный образец может быть иммобилизован при подготовке для секвенирования. Секвенирование может быть осуществлено с использованием массива отдельных молекул, либо эти молекулы могут быть амплифицированы до секвенирования. Амплификация может быть проведена с использованием одного или более иммобилизованных праймеров. Иммобилизованный(е) праймер(ы) может (могут) представлять собой, например, дорожку на плоской поверхности или на пуле сфер. Пул сфер можно быть выделен с получением эмульсии с одной сферой в каждом «компартменте» эмульсии. При концентрации только одной матрицы на «компартменте» на каждой сфере амплифицируется только одна матрица.[00174] The pooled sample may be immobilized in preparation for sequencing. Sequencing can be performed using an array of individual molecules, or these molecules can be amplified prior to sequencing. Amplification can be carried out using one or more immobilized primers. The immobilized primer(s) may be, for example, a track on a flat surface or on a pool of spheres. A pool of spheres can be isolated to form an emulsion with one sphere in each "compartment" of the emulsion. By concentrating only one template per "compartment", only one template is amplified per sphere.
[00175] Используемый здесь термин «твердофазная амплификация» означает любую реакцию амплификации нуклеиновой кислоты, осуществляемую на твердом носителе или в комбинации с твердым носителем, так, чтобы все амплифицированные продукты или их часть иммобилизовались на твердом носителе по мере их образования. В частности, этот термин охватывает твердофазную полимеразную цепную реакцию (твердофазную ПЦР) и твердофазную изотермическую амплификацию, которые являются реакциями, аналогичными стандартной амплификации в жидкой фазе, за исключением того, что один или оба прямых и обратных праймеров амплификации иммобилизованы на твердом носителе. Твердофазная ПЦР охватывает системы, такие как эмульсии, в которых один праймер заякорен на сфере, а другой присутствует в свободном растворе, и образование колоний в твердофазных гелевых матрицах, где один праймер заякорен на поверхности, а другой находится в свободном растворе.[00175] As used herein, the term "solid-phase amplification" means any nucleic acid amplification reaction carried out on a solid support or in combination with a solid support, such that all or part of the amplified products are immobilized on the solid support as they are formed. In particular, the term encompasses solid phase polymerase chain reaction (solid phase PCR) and solid phase isothermal amplification, which are reactions similar to standard liquid phase amplification, except that one or both of the forward and reverse amplification primers are immobilized on a solid support. Solid phase PCR covers systems such as emulsions, in which one primer is anchored to a sphere and another is present in free solution, and colony formation in solid phase gel matrices, where one primer is anchored to the surface and the other is in free solution.
[00176] В некоторых вариантах осуществления изобретения, твердый носитель содержит профилированную поверхность. Термин «профилированная поверхность» относится к расположению различных областей внутри или на открытом слое твердого носителя. Так, например, одна или более областей могут представлять собой элементы, в которых присутствуют один или более праймеров амплификации. Эти элементы могут быть разделены промежуточными областями, где отсутствуют праймеры амплификации. В некоторых вариантах осуществления изобретения, структура может представлять собой элементы в формате х-у, которые находятся в рядах и в столбцах. В некоторых вариантах осуществления изобретения, структура может представлять собой повторяющееся расположение элементов и/или промежуточных областей. В некоторых вариантах осуществления изобретения, структура может представлять собой случайное расположение элементов и/или промежуточных областей. Репрезентативными профилированными поверхностями, которые могут быть использованы в описанных здесь способах и композициях, являются поверхности, описанные в патенте США No. 8778848, 8778849 и 9079148 и в публикации заявки на патент США No. 2014/0243224.[00176] In some embodiments of the invention, the solid media contains a profiled surface. The term "shaped surface" refers to the location of various areas within or on the exposed layer of the solid carrier. Thus, for example, one or more regions may be elements in which one or more amplification primers are present. These elements can be separated by intermediate regions where there are no amplification primers. In some embodiments of the invention, the structure may be elements in x-y format that are in rows and columns. In some embodiments of the invention, the structure may be a repeating arrangement of elements and/or intermediate areas. In some embodiments of the invention, the structure may be a random arrangement of elements and/or intermediate areas. Representative shaped surfaces that can be used in the methods and compositions described herein are those described in U.S. Patent No. 8778848, 8778849 and 9079148 and U.S. Patent Application Publication No. 2014/0243224.
[00177] В некоторых вариантах осуществления изобретения, твердый носитель включает массив лунок или впадин в поверхности. Это может быть получено, в основном, известными методами с применением ряда технологий, включая, но не ограничиваясь ими, фотолитографию, методы штамповки, методы формования и методы микротравления. Как будет понятно специалистам в данной области, применяемая технология будет зависеть от состава и формы подложки-массива.[00177] In some embodiments of the invention, the solid media includes an array of holes or depressions in the surface. This can be obtained by generally known methods using a number of technologies, including, but not limited to, photolithography, stamping methods, molding methods, and microetching methods. As will be understood by those skilled in the art, the technology employed will depend on the composition and shape of the substrate array.
[00178] Элементы в профилированной поверхности могут представлять собой лунки в массиве лунок (например, микролунки или нанолунки) на стекле, кремнии, пластике или других подходящих твердых носителях со структурированным, ковалентно связанным гелем, таким как сополимер (N-(5-азидоацетамидилпентил)акриламида и акриламида) (PAZAM, см., например, публикацию заявок на патент США №2013/184796, WO 2016/066586 и WO 2015/002813). Этот способ позволяет создать гелевые прокладки, используемые для секвенирования, которые могут быть стабильными в течение раундов секвенирования с большим количеством циклов. Ковалентное связывание полимера с лунками позволяет сохранять гель со структурированными свойствами в течение всего времени полужизни структурированного носителя при различных применениях. Однако, во многих вариантах осуществления изобретения, гель не обязательно должен быть ковалентно связан с лунками. Так, например, в некоторых условиях, не содержащий силана акриламид (SFA, см., например, патент США №8563677), который ковалентно не связан с любой частью структурированного носителя, может быть использован в качестве геля.[00178] The features in the shaped surface may be wells in an array of wells (e.g., microwells or nanowells) on glass, silicon, plastic, or other suitable solid supports with a structured, covalently bonded gel, such as a copolymer (N-(5-azidoacetamidylpentyl) acrylamide and acrylamide) (PAZAM, see for example US Patent Application Publication No. 2013/184796, WO 2016/066586 and WO 2015/002813). This method allows the creation of gel pads used for sequencing that can be stable over high cycle sequencing rounds. The covalent binding of the polymer to the wells allows the retention of the gel with structured properties throughout the half-life of the structured support in a variety of applications. However, in many embodiments of the invention, the gel need not be covalently bonded to the wells. For example, under certain conditions, silane-free acrylamide (SFA, see, for example, US Pat. No. 8,563,677) that is not covalently bound to any part of the structured support can be used as a gel.
[00179] В конкретных вариантах осуществления изобретения, структурированный субстрат может быть изготовлен путем формирования рисунка на твердом носителе с лунками (например, микролунками или нанолунками) путем покрытия структурированного носителя гелевым материалом (например, PAZAM, SFA или его химически модифицированными вариантами, такими как азидолизированный вариант SFA (азидо-SFA) и полировки покрытого гелем носителя, например, посредством химической или механической полировки с сохранением геля в лунках, но удалением или инактивацией почти всего геля из промежуточных областей на поверхности структурированного носителя между лунками. Праймерные нуклеиновые кислоты могут быть присоединены к гелевому материалу. Затем раствор индексированных фрагментов может быть подвергнут контактированию с полированным субстратом, так, чтобы отдельные индексированные фрагменты были «засеяны» в отдельные лунки посредством взаимодействий с праймерами, связанными с гелевым материалом, однако, нуклеиновые кислоты-мишени не будут занимать промежуточные области из-за отсутствия гелевого материала или отсутствия его активности. Амплификация индексированных фрагментов будет ограничена лунками, поскольку отсутствие геля или отсутствие активности геля в промежуточных областях препятствует внешней миграции растущей колонии нуклеиновых кислот. Этот способ может быть легко осуществлен в промышленных масштабах, является масштабируемым и включает применение стандартных методов микро- или нанообработки.[00179] In particular embodiments, a structured substrate can be made by patterning a solid support with wells (e.g., microwells or nanowells) by coating the structured support with a gel material (e.g., PAZAM, SFA, or chemically modified variants thereof, such as azidolized a variant of SFA (azido-SFA) and polishing of the gel-coated carrier, for example by chemical or mechanical polishing, retaining the gel in the wells, but removing or inactivating nearly all of the gel from the intermediate regions on the surface of the structured carrier between the wells. The solution of the indexed fragments can then be contacted with a polished substrate such that the individual indexed fragments are seeded into individual wells through interactions with primers bound to the gel material, however, the nuclein The target acids will not occupy the intermediate regions due to the lack of gel material or its lack of activity. Amplification of the indexed fragments will be limited to wells because the lack of gel or the lack of gel activity in the intervening regions prevents outward migration of the growing nucleic acid colony. This method can be easily carried out on an industrial scale, is scalable and involves the use of standard micro- or nanomachining techniques.
[00180] Хотя раскрытие настоящего изобретения охватывает способы «твердофазной» амплификации, где был иммобилизован только один праймер для амплификации (другой праймер обычно присутствует в свободном растворе), однако, в одном варианте осуществления изобретения, предпочтительно, чтобы твердый носитель был снабжен прямыми и обратными иммобилизованными праймерами. На практике, на твердом носителе будет присутствовать «множество» идентичных прямых праймеров и/или «множество» идентичных обратных праймеров, иммобилизованных на твердом носителе, поскольку процесс амплификации требует избытка праймеров для поддержания амплификации. Ссылки на прямые и обратные праймеры в описании настоящей заявки, соответственно интерпретируются как охватывающие «множество» таких праймеров, если это не противоречит контексту изобретения.[00180] Although the disclosure of the present invention covers methods of "solid-phase" amplification, where only one amplification primer was immobilized (the other primer is usually present in free solution), however, in one embodiment of the invention, it is preferable that the solid support be provided with forward and reverse immobilized primers. In practice, there will be a "multiple" identical forward primers on a solid support and/or a "multiple" identical reverse primers immobilized on a solid support, since the amplification process requires an excess of primers to maintain amplification. References to forward and reverse primers in the specification of this application are accordingly interpreted to encompass a "multiple" of such primers, unless this is contrary to the context of the invention.
[00181] Как будет понятно специалисту в данной области, любая данная реакция амплификации требует присутствия по меньшей мере одного типа прямого праймера и по меньшей мере одного типа обратного праймера, специфичного для амплифицируемой матрицы. Однако, в определенных вариантах осуществления изобретения, прямой и обратный праймеры могут включать специфичные к матрице части идентичной последовательности и могут иметь полностью идентичные нуклеотидные последовательности и структуры (включая любые не-нуклеотидные модификации). Другими словами, можно осуществить твердофазную амплификацию с использованием только одного типа праймера, и такие способы с одним праймером входят в объем настоящего изобретения. В других вариантах осуществления изобретения могут быть использованы прямые и обратные праймеры, которые содержат идентичные последовательности, специфичные к матрице, но которые отличаются некоторыми другими структурными признаками. Так, например, праймер одного типа может содержать не-нуклеотидную модификацию, которая отсутствует в другом праймере.[00181] As will be appreciated by one of skill in the art, any given amplification reaction requires the presence of at least one type of forward primer and at least one type of reverse primer specific to the template being amplified. However, in certain embodiments of the invention, the forward and reverse primers may include template-specific portions of an identical sequence and may have completely identical nucleotide sequences and structures (including any non-nucleotide modifications). In other words, it is possible to carry out solid phase amplification using only one type of primer, and such single primer methods are within the scope of the present invention. In other embodiments of the invention, forward and reverse primers can be used that contain identical template-specific sequences but that differ in some other structural features. Thus, for example, one type of primer may contain a non-nucleotide modification that is not present in another primer.
[00182] Во всех вариантах раскрытия изобретения, праймеры для твердофазной амплификации предпочтительно иммобилизуют путем ковалентного связывания в одном положении с твердым носителем у 5'-конца или возле 5'-конца праймера, что позволяет части праймера, специфичной к матрице, свободно гибридизоваться с его когнатной матрицей и с 3'-гидроксильной группой, свободной для удлинения праймера. Для этой цели может быть применен любой подходящий метод ковалентного связывания, известный специалистам. Выбранный метод химического связывания будет зависеть от природы твердого носителя и любой его дериватизации или функционализации. Сам праймер может включать группу, которая может представлять собой не-нуклеотидную химическую модификацию, для облегчения связывания. В конкретном варианте осуществления изобретения, праймер может включать серусодержащий нуклеофил, такой как фосфортиоат или тиофосфат, у 5'-конца. В случае полиакриламидных гидрогелей на твердом носителе, этот нуклеофил будет связываться с бромацетамидной группой, присутствующей в гидрогеле. Более конкретный способ связывания праймеров и матриц с твердым носителем представляет собой способ 5'-фосфортиоатного связывания с гидрогелем, состоящим из полимеризованного акриламида и N-(5-бромацетамидилпентил)акриламида (BRAPA), как описано в WO 05/065814.[00182] In all embodiments of the disclosure, primers for solid phase amplification are preferably immobilized by covalently linking in the same position with a solid support at the 5' end or near the 5' end of the primer, which allows the template-specific portion of the primer to freely hybridize to its cognate template and with a 3'-hydroxyl group free to extend the primer. For this purpose, any suitable method of covalent bonding known to those skilled in the art may be used. The chemical bonding method chosen will depend on the nature of the solid support and any derivatization or functionalization thereof. The primer itself may include a moiety, which may be a non-nucleotide chemical modification, to facilitate binding. In a specific embodiment of the invention, the primer may include a sulfur-containing nucleophile, such as phosphorothioate or thiophosphate, at the 5' end. In the case of solid-supported polyacrylamide hydrogels, this nucleophile will bind to the bromoacetamide group present in the hydrogel. A more specific method of coupling primers and templates to a solid support is the 5'-phosphorothioate coupling method to a hydrogel consisting of polymerized acrylamide and N-(5-bromoacetamidylpentyl)acrylamide (BRAPA) as described in WO 05/065814.
[00183] В некоторых вариантах раскрытия изобретения могут быть использованы твердые носители, которые включают инертную основу или матрицу (например, предметные стекла, полимерные сферы и т.п.), которые были «функционализированы», например, путем нанесения слоя или покрытия промежуточного вещества, включающего реакционноспособные группы, которые обеспечивают ковалентное связывание с биомолекулами, такими как полинуклеотиды. Примерами таких носителей являются, но не ограничиваются ими, полиакриламидные гидрогели, нанесенные на инертную основу, такую как стекло. В таких вариантах осуществления изобретения, биомолекулы (например, полинуклеотиды) могут быть непосредственно ковалентно связаны с промежуточным веществом (например, гидрогелем), но само промежуточное вещество может быть ковалентно не связано с основой или матрицей (например, со стеклянной основой). Термин «ковалентное связывание с твердым носителем» следует интерпретировать, соответственно, как термин, охватывающий структуру такого типа.[00183] In some embodiments, solid carriers may be used that include an inert support or matrix (e.g., glass slides, polymer spheres, etc.) that has been "functionalized," e.g., by deposition of a layer or coating of an intermediate , which includes reactive groups that provide covalent binding to biomolecules such as polynucleotides. Examples of such carriers are, but are not limited to, polyacrylamide hydrogels supported on an inert support such as glass. In such embodiments, the biomolecules (eg, polynucleotides) may be directly covalently linked to an intermediate (eg, a hydrogel), but the intermediate itself may not be covalently linked to a backing or matrix (eg, a glass base). The term "covalent bonding to a solid support" should be interpreted, accordingly, as a term covering this type of structure.
[00184] Объединенные образцы могут быть амплифицированы на сферах, где каждая сфера содержит прямой и обратной праймер амплификации. В конкретном варианте осуществления изобретения, библиотеку индексированных фрагментов используют для получения кластеризованных массивов групп нуклеиновых кислот, аналогичных тем, которые описаны в публикации заявки на патент США №2005/0100900, в патенте США №7115400, в заявке на патент США WO 00/18957 и WO 98/44151, путем твердофазной амплификации, а более конкретно, твердофазной изотермической амплификации. Используемые здесь термины «кластер» и «группа» являются синонимами и означают дискретный сайт на твердом носителе, включающий множество идентичных цепей иммобилизованной нуклеиновой кислоты и множество идентичных цепей иммобилизованной комплементарной нуклеиновой кислоты. Термин «кластеризованный массив» означает массив, образованный такими кластерами или группами. В этом контексте, термин «массив» не следует понимать как упорядоченное расположение кластеров.[00184] Pooled samples can be amplified on spheres, where each sphere contains a forward and reverse amplification primer. In a specific embodiment of the invention, a library of indexed fragments is used to obtain clustered arrays of nucleic acid groups similar to those described in US patent application publication No. 2005/0100900, in US patent No. 7115400, in US patent application WO 00/18957 and WO 98/44151, by solid phase amplification, and more specifically, solid phase isothermal amplification. The terms "cluster" and "group" as used herein are synonymous and refer to a discrete site on a solid support comprising a plurality of identical immobilized nucleic acid strands and a plurality of identical immobilized complementary nucleic acid strands. The term "clustered array" means an array formed by such clusters or groups. In this context, the term "array" should not be understood as an ordered arrangement of clusters.
[00185] Используемый здесь термин «твердая фаза» или «поверхность» означает любой плоский массив, где праймеры присоединены к плоской поверхности, например, к стеклу, к двуокиси кремния или пластиковым предметным стеклам микроскопа или аналогичных устройств с проточной кюветой; сферы, где один или два праймера присоединены к сферам, а сферы являются амплифицированными; или массив сфер на поверхности после амплификации сфер.[00185] As used herein, the term "solid phase" or "surface" means any flat array where primers are attached to a flat surface, such as glass, silicon dioxide, or plastic microscope slides or similar flow cell devices; spheres where one or two primers are attached to the spheres and the spheres are amplified; or an array of spheres on the surface after sphere amplification.
[00186] Кластеризованные массивы могут быть получены с использованием любого способа проведения реакции в термоячейке как описано в WO 98/44151, или способа, в котором поддерживают постоянную температуру, а циклы удлинения и денатурации осуществляют путем замены реагентов. Такие способы изотермической амплификации описаны в патентной заявке WO No. 02/46456 и в публикации заявки на патент США 2008/0009420. Из-за более низких температур, используемых в изотермическом процессе, этот способ является особенно предпочтительным в некоторых вариантах осуществления изобретения.[00186] Clustered arrays can be obtained using any thermocell reaction method as described in WO 98/44151, or a method in which a constant temperature is maintained and the elongation and denaturation cycles are performed by changing reagents. Such isothermal amplification methods are described in WO No. 02/46456 and US Patent Application Publication 2008/0009420. Due to the lower temperatures used in the isothermal process, this method is particularly preferred in some embodiments of the invention.
[00187] Следует отметить, что любые методы амплификации, описанные в настоящей заявке или, по существу, известные специалистам в данной области, могут быть проведены с использованием универсальных или мишень-специфических праймеров для амплификации иммобилизованных фрагментов ДНК. Подходящие способы амплификации включают, но не ограничиваются ими, полимеразную цепную реакцию (ПЦР), амплификацию с заменой цепи (SDA), амплификацию, опосредованную транскрипцией (ТМА) и амплификацию на основе последовательности нуклеиновой кислоты (NASBA), как описано в патенте США No. №8003354. Указанные выше способы амплификации могут быть использованы для амплификации одной или более представляющих интерес нуклеиновых кислот. Так, например, ПЦР, включая мультиплексную ПЦР, SDA, ТМА, NASBA и т.п. могут быть использованы для амплификации фрагментов иммобилизованной ДНК. В некоторых вариантах осуществления изобретения, праймеры, которые являются специфичными к представляющему интерес полинуклеотиду, включены в реакцию амплификации.[00187] It should be noted that any amplification methods described in this application or, as such, known to specialists in this field, can be carried out using universal or target-specific primers to amplify immobilized DNA fragments. Suitable amplification methods include, but are not limited to, polymerase chain reaction (PCR), strand change amplification (SDA), transcription-mediated amplification (TMA), and nucleic acid sequence-based amplification (NASBA), as described in U.S. Patent No. No. 8003354. The above amplification methods can be used to amplify one or more nucleic acids of interest. Thus, for example, PCR, including multiplex PCR, SDA, TMA, NASBA, and the like. can be used to amplify immobilized DNA fragments. In some embodiments of the invention, primers that are specific for the polynucleotide of interest are included in the amplification reaction.
[00188] Другие подходящие способы амплификации полинуклеотидов могут включать методы удлинения и лигирования олигонуклеотидов, амплификации по типу «катящегося кольца» (RCA) (Lizardi et al., Nat. Genet. 19: 225-232 (1998)) и анализ на лигирование олигонуклеотидов (OLA) (см., в общих чертах патенты США №№7582420, 5185243, 5679524 и 5573907; ЕР 0320308 В1; ЕР 0336731 В1; ЕР 0439182 Bl; WO 90/01069; WO 89/12696 и WO 89/09835). Очевидно, что эти методики амплификации могут быть разработаны для амплификации иммобилизованных фрагментов ДНК. Так, например, в некоторых вариантах осуществления изобретения, метод амплификации может включать реакции амплификации для лигирования зонда или анализ на лигирование олигонуклеотидов (OLA), которые включают праймеры, специфически нацеленные на представляющую интерес нуклеиновую кислоту. В некоторых вариантах осуществления изобретения, способ амплификации может включать реакцию лигирования-удлинения праймеров, которая включает праймеры, специфически нацеленные на представляющую интерес нуклеиновую кислоту. В качестве неограничивающего примера праймеров для удлинения и лигирования служат праймеры, которые могут быть специально сконструированы для амплификации представляющей интерес нуклеиновой кислоты, и такая амплификация может включать праймеры, используемые для анализа GoldenGate (Illumina, Inc., San Diego, CA), описанного в патентах США No. 7582420 и 7611869.[00188] Other suitable polynucleotide amplification methods may include oligonucleotide extension and ligation methods, rolling ring amplification (RCA) (Lizardi et al., Nat. Genet. 19: 225-232 (1998)) and oligonucleotide ligation assay (OLA) (See, in general terms, US Pat. Obviously, these amplification techniques can be developed to amplify immobilized DNA fragments. For example, in some embodiments, the amplification method may include amplification reactions for probe ligation or oligonucleotide ligation assay (OLA) that include primers that specifically target the nucleic acid of interest. In some embodiments, the amplification method may include a primer ligation-extension reaction that includes primers specifically targeted to the nucleic acid of interest. As a non-limiting example of primers for extension and ligation, primers can be specifically designed to amplify the nucleic acid of interest, and such amplification can include primers used for the GoldenGate assay (Illumina, Inc., San Diego, CA) described in patents. USA No. 7582420 and 7611869.
[00189] Наногранулы ДНК могут быть также использованы в комбинации с описанными здесь способами и композициями. Способы получения и использования наногранул ДНК для геномного секвенирования можно найти, например, в патентах США и публикациях патента США 7910354, в 2009/0264299, 2009/0011943, 2009/0005252, 2009/0155781, 2009/0118488, и, например, в публикации Drmanac et al., 2010, Science 327 (5961): 78-81. Вкратце, после лигирования адапторов для фрагментации ДНК геномной библиотеки с фрагментами, лигированные фрагменты адаптера подвергают циркуляризации путем лигирования с циклической лигазой и проводят амплификацию по типу «катящегося кольца» (как описано Lizardi et al., 1998. Nat. Genet. 19: 225-232 и в US 2007/0099208 Al). Удлиненная конкатемерная структура ампликонов способствует спирализации, и тем самым создает компактные наносферы ДНК. Наносферы ДНК могут быть захвачены на носителях, предпочтительно для создания упорядоченного или структурированного массива так, чтобы поддерживалось расстояние между наносферами, что позволяло бы осуществлять секвенирование отдельных наносфер ДНК. В некоторых вариантах осуществления изобретения, таких как варианты, в которых используются метод Complete Genomics (Mountain View, CA), перед циркуляризацией проводят последовательные раунды лигирования адаптера, амплификации и расщепления для получения конструкций «голова к хвосту», имеющих несколько фрагментов геномной ДНК, разделенных последовательностями адаптера.[00189] DNA nanobeads can also be used in combination with the methods and compositions described herein. Methods for obtaining and using DNA nanobeads for genomic sequencing can be found, for example, in US patents and US patent publications 7910354, in 2009/0264299, 2009/0011943, 2009/0005252, 2009/0155781, 2009/0118488, and Drmanac et al., 2010, Science 327 (5961): 78-81. Briefly, after ligation of adapters to fragment the genomic library DNA to fragments, the ligated adapter fragments are circularized by ligation with a cyclic ligase and amplified in a rolling ring manner (as described by Lizardi et al., 1998. Nat. Genet. 19:225- 232 and in US 2007/0099208 Al). The elongated concatemeric structure of the amplicons promotes helicalization and thereby creates compact DNA nanospheres. DNA nanospheres can be captured on carriers, preferably to create an ordered or structured array such that distance between nanospheres is maintained to allow sequencing of individual DNA nanospheres. In some embodiments, such as those using the Complete Genomics (Mountain View, CA) method, successive rounds of adapter ligation, amplification, and digestion are performed before circularization to produce head-to-tail constructs having multiple genomic DNA fragments separated by adapter sequences.
[00190] Репрезентативными способами изотермической амплификации, которые могут быть применены в способе раскрытия изобретения, являются, но не ограничиваются ими, амплификация с множеством замен (MDA), описанная, например, Dean et al., Proc. Natl. Акад. Sci. USA 99: 5261-66 (2002), или изотермическая амплификация нуклеиновых кислот с вытеснением цепи, например, описанная в патенте США No. 6214587. Другие методы, которые не основаны на ПЦР и могут быть применены в способе раскрытия изобретения, являются, например, амплификация с вытеснением цепи (SDA), описанная, например, Walker et al., Molecular Methods for Detection Detection, Academic Press, Inc., 1995; в патентах США №№5455166 и 5130238 и Walker et al., Nucl. Acids Res. 20: 1691-96 (1992), или амплификация с вытеснением гиперразветвленной цепи, описанная, например, Lage et al., Genome Res. 13: 294-307 (2003). Методы изотермической амплификации могут быть проведены, например, с использованием полимеразы Phi 29 для вытеснения цепи, или с использованием крупного фрагмента ДНК-полимеразы Bst, 5'→3'-экзо для рандомизированной амплификации геномной ДНК с использованием праймеров. Преимущество использования этих полимераз заключается в их высокой эффективности и активности вытеснения цепи. Высокая эффективность позволяет полимеразам образовывать фрагменты длиной 10-20 т.п.о. Как указывалось выше, более мелкие фрагменты могут быть получены в изотермических условиях с использованием полимераз, имеющих низкую эффективность и активность вытеснения цепи, таких как полимераза Кленова. Дополнительное более подробное описание реакций амплификации и их условий и компонентов приводится в патенте США №7670810.[00190] Representative isothermal amplification techniques that can be used in the method of the disclosure include, but are not limited to, multi-substitution amplification (MDA) as described, for example, by Dean et al., Proc. Natl. Acad. sci. USA 99: 5261-66 (2002), or isothermal amplification of nucleic acids with strand exclusion, such as those described in US Patent No. 6,214,587. Other methods that are not based on PCR and can be used in the method of the disclosure of the invention are, for example, strand displacement amplification (SDA) as described, for example, by Walker et al., Molecular Methods for Detection Detection, Academic Press, Inc. ., 1995; US Pat. Nos. 5,455,166 and 5,130,238 and Walker et al., Nucl. Acids Res. 20: 1691-96 (1992), or hyperbranched exclusion amplification as described, for example, by Lage et al., Genome Res. 13: 294-307 (2003). Isothermal amplification methods can be carried out, for example, using
[00191] Другим способом амплификации полинуклеотидов, который применяется в настоящем изобретении, является ПЦР-мечение, где используется популяция двухдоменных праймеров, имеющих константную 5'-область, за которой следует рандомизированная 3'-область, как описано, например, Grothues et al. Nucleic Acids Res. 21 (5):1321-2 (1993). Первые раунды амплификации проводят для создания множества сайтов инициации на термоденатурированной ДНК на основе отдельной гибридизации исходя из случайно синтезированной 3'-области. Исходя из природы 3'-области, было сделано предположение, что сайты инициации имеют случайное распределение по всему геному. После этого, несвязанные праймеры могут быть удалены, и дальнейшая репликация может быть проведена с использованием праймеров, комплементарных константной 5'-области.[00191] Another method for amplifying polynucleotides that is used in the present invention is PCR labeling, which uses a population of two-domain primers having a constant 5' region followed by a randomized 3' region, as described, for example, Grothues et al. Nucleic Acids Res. 21(5):1321-2 (1993). The first rounds of amplification are carried out to create a plurality of initiation sites on thermally denatured DNA based on individual hybridization based on a randomly synthesized 3' region. Based on the nature of the 3' region, it has been suggested that initiation sites are randomly distributed throughout the genome. Thereafter, unbound primers can be removed and further replication can be done using primers complementary to the 5' constant region.
[00192] В некоторых вариантах осуществления изобретения, изотермическая амплификация может быть осуществлена посредством амплификации с кинетическим исключением (KEA), также называемой амплификацией с исключением (ExAmp). Библиотека нуклеиновых кислот согласно изобретению может быть получена методом, включающим стадию взаимодействия реагента для амплификации с получением множества сайтов амплификации, каждый из которых включает по существу клональную популяцию ампликонов из отдельной нуклеиновой кислоты-мишени, которая занимает этот сайт. В некоторых вариантах осуществления изобретения, реакция амплификации продолжается до тех пор, пока не будет образовано достаточное количество ампликонов для заполнения соответствующего сайта амплификации. Заполнение уже занятого сайта до такого уровня препятствует закреплению и амплификации нуклеиновых кислот-мишеней в этом сайте, что приводит к образованию клональной популяции ампликонов в этом сайте. В некоторых вариантах осуществления изобретения, кажущаяся клональность может быть достигнута, даже если сайт амплификации не заполнен до его полной емкости еще до закрепления второй нуклеиновой кислоты в этом сайте. При некоторых условиях, амплификация первой нуклеиновой кислоты-мишени может продолжаться до того момента, когда будет образовано достаточное число копий, которое могло бы в высокой степени превзойти или подавить образование копий второй нуклеиновой кислоты-мишени, которая транспортируется в этот сайт. Так, например, в варианте осуществления изобретения, в котором применяется способ мостиковой амплификации на кольцевом элементе диаметром менее 500 нм, было определено, что после 14 циклов экспоненциальной амплификации первой целевой нуклеиновой кислоты-мишени, контаминация второй нуклеиновой кислотой-мишенью на том же самом сайте будет давать количество контаминирующих ампликонов, которое будет недостаточным для неблагоприятного влияния на секвенирующий анализ посредством синтеза на платформе Illumina для секвенирования.[00192] In some embodiments, isothermal amplification can be performed by kinetic exclusion amplification (KEA), also referred to as exclusion amplification (ExAmp). A nucleic acid library of the invention can be obtained by a method comprising the step of reacting an amplification reagent to produce a plurality of amplification sites, each of which comprises a substantially clonal population of amplicons from a single target nucleic acid that occupies that site. In some embodiments of the invention, the amplification reaction is continued until a sufficient number of amplicons are generated to fill the corresponding amplification site. Filling an already occupied site to this level prevents anchorage and amplification of target nucleic acids at that site, leading to the formation of a clonal population of amplicons at that site. In some embodiments, apparent clonality can be achieved even if the amplification site is not filled to its full capacity before the second nucleic acid is anchored at that site. Under certain conditions, amplification of the first target nucleic acid may continue until a sufficient copy number is made to greatly out-compete or suppress copy-making of the second target nucleic acid that is being transported to that site. Thus, for example, in an embodiment of the invention that uses a bridged amplification method on a ring element with a diameter of less than 500 nm, it was determined that after 14 cycles of exponential amplification of the first target nucleic acid, contamination by the second target nucleic acid at the same site will produce an amount of contaminating amplicons that is insufficient to adversely affect sequencing analysis via synthesis on the Illumina sequencing platform.
[00193] В некоторых вариантах осуществления изобретения, сайты амплификации в массиве могут быть, но не обязательно, полностью клональными. Скорее всего, для некоторых применений, отдельный сайт амплификации может быть преимущественно заполнен ампликонами из первого проиндексированного фрагмента и может также иметь низкий уровень контаминирующих ампликонов из второй нуклеиновой кислоты-мишени. Массив может включать один или более сайтов амплификации, которые имеют низкий уровень контаминирующих ампликонов, при условии, что уровень контаминации не будет оказывать негативное влияние на последующее использование массива. Так, например, если массив используется для детектирования, то приемлемым уровнем контаминации будет уровень, который не будет негативно влиять на отношение сигнал/шум или на разрешение метода детектирования. В соответствии с этим, кажущаяся клональность будет, как обычно, иметь отношение к конкретному использованию или применению массива, полученного описанными здесь способами. Типичные уровни контаминации, которые могут быть приемлемыми в отдельном сайте амплификации для конкретных применений, включают, но не ограничиваются ими, максимум 0,1%, 0,5%, 1%, 5%, 10% или 25% контаминирующих ампликонов. Массив может включать один или более сайтов амплификации, имеющих эти репрезентативные уровни контаминирующих ампликонов. Так, например, до 5%, 10%, 25%, 50%, 75% или даже 100% сайтов амплификации в массиве могут иметь несколько контаминирующих ампликонов. При этом очевидно, что в массиве или в другой совокупности сайтов, по меньшей мере 50%, 75%, 80%, 85%, 90%, 95% или 99% или более сайтов могут быть клональными или могут иметь кажущуюся клональность.[00193] In some embodiments of the invention, amplification sites in an array may be, but need not be, fully clonal. Rather, for some applications, a particular amplification site may be predominantly filled with amplicons from the first indexed fragment and may also have a low level of contaminating amplicons from the second target nucleic acid. The array may include one or more amplification sites that have a low level of contaminating amplicons, provided that the level of contamination will not adversely affect subsequent use of the array. So, for example, if the array is used for detection, then an acceptable level of contamination will be a level that will not adversely affect the signal-to-noise ratio or the resolution of the detection method. Accordingly, apparent clonality will, as usual, be related to the particular use or application of the array obtained by the methods described here. Typical levels of contamination that may be acceptable at a particular amplification site for specific applications include, but are not limited to, a maximum of 0.1%, 0.5%, 1%, 5%, 10%, or 25% of contaminating amplicons. The array may include one or more amplification sites having these representative levels of contaminating amplicons. For example, up to 5%, 10%, 25%, 50%, 75%, or even 100% of amplification sites in an array may have multiple contaminating amplicons. It is obvious that in an array or other collection of sites, at least 50%, 75%, 80%, 85%, 90%, 95%, or 99% or more of the sites may be clonal or may have apparent clonicity.
[00194] В некоторых вариантах осуществления изобретения, кинетическое исключение может происходить в том случае, когда процесс происходит с достаточно высокой скоростью и позволяет эффективно исключать другое событие или другой процесс. Так, например, можно создать массив нуклеиновых кислот, в котором сайты массива случайным образом заполняются индексированными фрагментами из раствора, а копии индексированных фрагментов образуются в процессе амплификации так, чтобы каждый из фрагментов полностью заполнял эти сайты. В соответствии со способами кинетического исключения согласно изобретению, процессы заполнения и амплификации могут происходить одновременно в условиях, при которых скорость амплификации превышает скорость заполнения. Так, например, относительно высокая скорость, с которой происходит образование копий в сайте, заполненном первой нуклеиновой кислотой-мишенью, будет эффективно исключать заполнение сайта амплификации второй нуклеиновой кислотой. Способы амплификации с кинетическим исключением могут быть осуществлены способом, подробно описанным в публикации заявки на патент США №2013/0338042.[00194] In some embodiments of the invention, the kinetic exclusion may occur when the process occurs at a sufficiently high rate and allows you to effectively exclude another event or another process. For example, one can create an array of nucleic acids in which the sites of the array are randomly filled with indexed fragments from solution, and copies of the indexed fragments are formed during amplification so that each of the fragments completely fills these sites. In accordance with the methods of kinetic exclusion according to the invention, the processes of filling and amplification can occur simultaneously under conditions in which the rate of amplification exceeds the rate of filling. Thus, for example, the relatively high rate at which copies are made at the site filled with the first target nucleic acid will effectively preclude the filling of the amplification site with the second nucleic acid. Kinetic exclusion amplification methods can be carried out in the manner detailed in US Patent Application Publication No. 2013/0338042.
[00195] При кинетическом исключении может использоваться относительно низкая скорость инициации амплификации (например, низкая скорость создания первой копии индексированного фрагмента) по сравнению с относительно высокой скоростью создания последующих копий индексированного фрагмента (или первой копии индексированного фрагмента). В примере, описанном в предыдущем абзаце, кинетическое исключение происходит из-за относительно низкой скорости заполнения индексированного фрагмента (например, относительно медленной диффузии или транспорта) по сравнению с относительно высокой скоростью, с которой происходит амплификация с заполнением сайта копиями индексированного фрагмента. В другом иллюстративном варианте осуществления изобретения, кинетическое исключение может происходить из-за замедления образования первой копии индексированного фрагмента, который заполняет сайт (например, отложенная или медленная активация) по сравнению с относительно высокой скоростью заполнения этого сайта последующими копиями. В этом примере, отдельный сайт может быть заполнен несколькими различными индексированными фрагментами (например, несколько индексированных фрагментов может присутствовать в каждом сайте до амплификации). Однако, образование первой копии любого данного индексированного фрагмента может быть активировано случайным образом, в результате чего средняя скорость формирования первой копии является относительно низкой по сравнению со скоростью, с которой генерируются последующие копии. В этом случае, хотя отдельный сайт может быть заполнен несколькими различными индексированными фрагментами, однако, кинетическое исключение позволяет амплифицировать только один из этих индексированных фрагментов. Более конкретно, после активации первого индексированного фрагмента для амплификации, сайт будет быстро заполняться копиями до полной емкости, что будет предотвращать создание копий второго индексированного фрагмента в этом сайте.[00195] Kinetic exclusion can use a relatively low rate of amplification initiation (eg, a slow rate of creation of the first copy of the indexed fragment) compared to a relatively high rate of creation of subsequent copies of the indexed fragment (or the first copy of the indexed fragment). In the example described in the previous paragraph, the kinetic exclusion is due to the relatively low rate of population of the indexed fragment (eg, relatively slow diffusion or transport) compared to the relatively high rate at which amplification occurs to fill the site with copies of the indexed fragment. In another illustrative embodiment of the invention, the kinetic exclusion may be due to slower formation of the first copy of the indexed fragment that fills the site (eg, delayed or slow activation) compared to the relatively high rate of filling this site with subsequent copies. In this example, a single site may be populated with several different indexed fragments (eg, several indexed fragments may be present in each site prior to amplification). However, the formation of the first copy of any given indexed fragment can be activated randomly, with the result that the average rate of formation of the first copy is relatively low compared to the rate at which subsequent copies are generated. In this case, although a single site may be filled with several different indexed fragments, however, kinetic exclusion allows only one of these indexed fragments to be amplified. More specifically, once the first indexed fragment is activated for amplification, the site will quickly fill up with copies to full capacity, which will prevent the creation of copies of the second indexed fragment at that site.
[00196] В одном варианте осуществления изобретения осуществляют способ одновременного (i) транспорта индексированных фрагментов в сайты амплификации со средней скоростью транспорта и (ii) амплификации индексированных фрагментов, которые присутствуют в сайтах амплификации, со средней скоростью амплификации, где средняя скорость амплификации превышает среднюю скорость транспорта (патент США №9166913). Соответственно, в таких вариантах осуществления изобретения, кинетическое исключение может быть достигнуто с использованием относительно низкой скорости транспорта. Так, например, для достижения желаемой средней скорости транспорта может быть выбрана достаточно низкая концентрация индексируемых фрагментов, причем, чем ниже концентрации, тем ниже средняя скорость трансфорта. Альтернативно или дополнительно, для снижения скорости транспорта может быть использован раствор с высокой вязкостью, и/или в растворе могут присутствовать реагенты для молекулярного загущения. Примеры подходящих реагентов для молекулярного загущения включают, но не ограничиваются ими, полиэтиленгликоль (ПЭГ), фиколл, декстран или поливиниловый спирт. Репрезентативные реагенты и препараты для молекулярного загущения описаны в патенте США №7399590, который вводится в настоящее описание посредством ссылки. Другим фактором, который может быть скорректирован для достижения желаемой скорости транспорта, является средний размер нуклеиновых кислот-мишеней.[00196] In one embodiment of the invention, a method is carried out for simultaneously (i) transporting indexed fragments to amplification sites at an average transport rate, and (ii) amplifying indexed fragments that are present at amplification sites at an average amplification rate, where the average amplification rate exceeds the average speed transport (US patent No. 9166913). Accordingly, in such embodiments of the invention, kinetic exclusion can be achieved using a relatively low transport rate. For example, to achieve the desired average transport rate, a sufficiently low concentration of indexable fragments can be chosen, and the lower the concentration, the lower the average transport rate. Alternatively or additionally, a high viscosity solution may be used to reduce the transport rate and/or molecular thickening agents may be present in the solution. Examples of suitable molecular thickening agents include, but are not limited to, polyethylene glycol (PEG), ficoll, dextran, or polyvinyl alcohol. Representative reagents and preparations for molecular thickening are described in US patent No. 7399590, which is introduced into the present description by reference. Another factor that can be adjusted to achieve the desired transport rate is the average size of the target nucleic acids.
[00197] Реагент для амплификации может включать дополнительные компоненты, которые облегчают образование ампликона, а в некоторых случаях, увеличивают скорость образования ампликона. Примером является рекомбиназа. Рекомбиназа может облегчать образование ампликона посредством повторяющегося проникновения/удлинения. Более конкретно, рекомбиназа может облегчать проникновение индексируемого фрагмента под действием полимеразы, и удлинение праймера под действием полимеразы с помощью индексированного фрагмента, используемого в качестве матрицы для образования ампликона. Этот процесс может быть повторен как цепная реакция, где ампликоны, образующиеся после каждого раунда проникновения/удлинения, служат в качестве матриц в последующем раунде. Этот процесс может происходить быстрее, чем стандартная ПЦР, поскольку в данном случае не требуется проведения цикла денатурации (например, тепловой или химической денатурации). Таким образом, амплификация, инициируемая рекомбиназой, может быть осуществлена в изотермических условиях. Обычно, для облегчения амплификации, в реагент для амплификации, стимулируемый рекомбиназой, желательно включать АТФ или другие нуклеотиды (или в некоторых случаях, их негидролизуемые аналоги). Смесь рекомбиназы и одноцепочечного связывающегося белка (SSB) являются особенно подходящей, поскольку SSB может также стимулировать амплификацию. Типичными препаратами для амплификации, облегчаемой рекомбиназой, являются препараты, которые являются коммерчески доступными и поставляются в виде наборов TwistAmp от TwistDx (Cambridge, UK). Подходящие компоненты реагента для амплификации, облегчаемой рекомбиназой, и условия реакции описаны в патентах США №№5223414 и 7399590.[00197] The amplification reagent may include additional components that facilitate the formation of the amplicon, and in some cases, increase the rate of formation of the amplicon. An example is recombinase. The recombinase can facilitate amplicon formation through repeated entry/extension. More specifically, the recombinase can facilitate penetration of the indexed fragment by the polymerase, and primer extension by the polymerase with the indexed fragment used as a template to form the amplicon. This process can be repeated as a chain reaction, where the amplicons generated after each round of penetration/extension serve as templates in the next round. This process can be faster than standard PCR because it does not require a denaturation cycle (eg, heat or chemical denaturation). Thus, amplification initiated by recombinase can be carried out under isothermal conditions. It is generally desirable to include ATP or other nucleotides (or, in some cases, non-hydrolysable analogs) in the recombinase-stimulated amplification reagent to facilitate amplification. A mixture of recombinase and single chain binding protein (SSB) is particularly suitable because SSB can also stimulate amplification. Typical formulations for recombinase-facilitated amplification are those that are commercially available as TwistAmp kits from TwistDx (Cambridge, UK). Suitable reagent components for recombinase-facilitated amplification and reaction conditions are described in US Pat. Nos. 5,223,414 and 7,399,590.
[00198] Другим примером компонента, который может быть включен в состав реагента для амплификации в целях облегчения образования ампликона, а в некоторых случаях, увеличения скорости образования ампликона, является геликаза. Геликаза может облегчать образование ампликона под действием цепной реакции образования ампликона. Этот процесс может происходить быстрее, чем стандартная ПЦР, поскольку в данном случае не требуется проведения цикла денатурации (например, тепловой или химической денатурации). Таким образом, амплификация, инициируемая геликазой, может быть осуществлена в изотермических условиях. Смесь геликазы и одноцепочечного связывающегося белка (SSB) являются особенно подходящей, поскольку SSB может также стимулировать амплификацию. Типичными препаратами для амплификации, облегчаемой геликазой, являются коммерчески доступные препараты, которые поставляются в виде наборов IsoAmp от Biohelix (Beverly, MA). Кроме того, примеры подходящих препаратов, которые включают белок геликазу, описаны в патентах США №№7399590 и 7829284.[00198] Another example of a component that can be included in an amplification reagent to facilitate amplicon formation, and in some cases increase the rate of amplicon formation, is helicase. The helicase can facilitate amplicon formation by a chain reaction of amplicon formation. This process can be faster than standard PCR because it does not require a denaturation cycle (eg, heat or chemical denaturation). Thus, amplification initiated by helicase can be carried out under isothermal conditions. A mixture of helicase and single chain binding protein (SSB) is particularly suitable because SSB can also stimulate amplification. Exemplary preparations for helicase-facilitated amplification are commercially available preparations that are available as IsoAmp kits from Biohelix (Beverly, MA). In addition, examples of suitable formulations that include the helicase protein are described in US Pat. Nos. 7,399,590 and 7,829,284.
[00199] Еще один пример компонента, который может быть включен в амплифицирующий реагент для облегчения образования ампликона, а в некоторых случаях, для увеличения скорости образования ампликона, представляет собой ориджин-связывающий белок.[00199] Another example of a component that can be included in an amplifying reagent to facilitate amplicon formation, and in some cases, to increase the rate of amplicon formation, is an origin binding protein.
Использование в секвенировании/Методы секвенированияUse in sequencing/Sequencing methods
[00200] После прикрепления индексированных фрагментов к поверхности определяют последовательность иммобилизованных и амплифицированных индексированных фрагментов. Секвенирование может быть осуществлено любым подходящим методом секвенирования, и способы определения последовательности иммобилизованных и амплифицированных индексированных фрагментов, включая повторный синтез цепи, известны специалистам и описаны, например, Bignell et al. (патент США 8, 053, 192), Gunderson et al. (WO 2016/130704), Shen et al. (патент США 8895249) и Pipenburg et al. (патент США 9309502).[00200] After attaching the indexed fragments to the surface, the sequence of the immobilized and amplified indexed fragments is determined. Sequencing can be performed by any suitable sequencing method, and methods for determining the sequence of immobilized and amplified index fragments, including strand resynthesis, are known to those skilled in the art and are described, for example, by Bignell et al. (
[00201] Описанные здесь способы могут быть применены в комбинации с различными методами секвенирования нуклеиновых кислот. Особенно подходящими методами являются методы, где нуклеиновые кислоты присоединяются в фиксированных положениях в массиве, таким образом, что их относительные положения не изменяются, и методы, где получают несколько изображений массивов. Особенно подходящими являются варианты, в которых изображения получают в различных цветовых каналах, например, совпадающих с различными метками, используемыми для того, чтобы отличить нуклеотидное основание одного типа от другого. В некоторых вариантах осуществления изобретения, способ определения нуклеотидной последовательности индексированного фрагмента может быть автоматизированным. Предпочтительные варианты осуществления изобретения включают методы секвенирования посредством синтеза («SBS»).[00201] The methods described herein can be used in combination with various nucleic acid sequencing methods. Particularly suitable methods are methods where nucleic acids are attached at fixed positions in an array such that their relative positions do not change, and methods where multiple array images are obtained. Particularly suitable are variants in which images are obtained in different color channels, for example, matching different labels used to distinguish one type of nucleotide base from another. In some embodiments of the invention, the method for determining the nucleotide sequence of an indexed fragment may be automated. Preferred embodiments of the invention include sequencing by synthesis ("SBS") methods.
[00202] Методы SBS обычно включают ферментативное удлинение растущей цепи нуклеиновой кислоты посредством итеративного добавления нуклеотидов к матричной цепи. В традиционных методах SBS, единственный нуклеотидный мономер может быть представлен нуклеотиду-мишени в присутствии полимеразы при каждой доставке. Однако, в описанных здесь способах, нуклеотидный мономер более, чем одного типа, может быть представлен нуклеиновой кислоте-мишени в присутствии полимеразы во время доставки.[00202] SBS methods typically involve enzymatic extension of a growing nucleic acid strand by iterative addition of nucleotides to a template strand. In traditional SBS methods, a single nucleotide monomer can be presented to the target nucleotide in the presence of a polymerase with each delivery. However, in the methods described herein, more than one type of nucleotide monomer may be presented to the target nucleic acid in the presence of the polymerase during delivery.
[00203] В одном варианте осуществления изобретения, нуклеотидный мономер включает блокированные нуклеиновые кислоты (LNA) или мостиковые нуклеиновые кислоты (BNA). Использование LNA или BNA в нуклеотидном мономере повышает эффективность гибридизации между нуклеотидным мономером и секвенирующей последовательностью праймера, присутствующей на иммобилизованном индексированном фрагменте.[00203] In one embodiment of the invention, the nucleotide monomer includes blocked nucleic acids (LNA) or bridged nucleic acids (BNA). The use of LNA or BNA in the nucleotide monomer increases the efficiency of hybridization between the nucleotide monomer and the primer sequencing sequence present on the immobilized index fragment.
[00204] В SBS могут быть использованы нуклеотидные мономеры, которые имеют терминирующую группу, или нуклеотидные мономеры, которые не содержат терминирующих групп. Способы с использованием нуклеотидных мономеров, в которых отсутствуют терминаторы, включают, например, пиросеквенирование и секвенирование с использованием нуклеотидов, меченных γ-фосфатом, как подробно описано далее в настоящей заявке. В способах с использованием нуклеотидных мономеров, не содержащих терминаторов, число нуклеотидов, добавляемых в каждом цикле, обычно является вариабельным и зависит от последовательности матрицы и способа доставки нуклеотидов. Для методов SBS, в которых используются нуклеотидные мономеры, имеющие терминирующую группу, терминатор может быть фактически необратимым в условиях секвенирования как в случае традиционного секвенирования Сэнгера, в котором используются дидезоксинуклеотиды, либо терминатор может быть обратимым, как это имеет место в методах секвенирования, разработанных фирмой Solexa (в настоящее время называемой Illumina, Inc.).[00204] Nucleotide monomers that have a termination group or nucleotide monomers that do not contain a termination group can be used in SBS. Methods using nucleotide monomers that lack terminators include, for example, pyrosequencing and sequencing using γ-phosphate labeled nucleotides, as detailed hereinafter. In methods using nucleotide monomers that do not contain terminators, the number of nucleotides added in each cycle is usually variable and depends on the sequence of the template and the method of delivery of the nucleotides. For SBS methods that use nucleotide monomers having a terminating group, the terminator may be virtually irreversible under sequencing conditions, as is the case with traditional Sanger sequencing, which uses dideoxynucleotides, or the terminator may be reversible, as is the case in sequencing methods developed by the company Solexa (now called Illumina, Inc.).
[00205] В методах SBS могут использоваться нуклеотидные мономеры, которые имеют метку, или нуклеотидные мономеры, которые не имеют метки. Соответственно, события включения могут быть детектированы исходя из свойств метки, таких как флуоресценция метки; характерные признаки нуклеотидного мономера, такие как молекулярная масса или заряд; побочный продукт включения нуклеотида, такой как высвобождаемый пирофосфат или т.п. В тех вариантах осуществления изобретения, где два или более различных нуклеотида присутствуют в реагенте для секвенирования, различные нуклеотиды могут отличаться друг от друга, или, альтернативно, две или более различных меток могут быть неразличимыми в применяемых методах обнаружения. Так, например, различные нуклеотиды, присутствующие в реагенте для секвенирования, могут иметь разные метки, и их можно различить с использованием подходящих оптических приборов, описанных в методах секвенирования, разработанных Solexa (в настоящее время называемой Illumina, Inc.).[00205] SBS methods can use nucleotide monomers that are labeled or nucleotide monomers that are not labeled. Accordingly, turn-on events can be detected based on properties of the label, such as the fluorescence of the label; characteristic features of the nucleotide monomer, such as molecular weight or charge; a nucleotide incorporation by-product, such as releasable pyrophosphate or the like. In those embodiments where two or more different nucleotides are present in the sequencing reagent, the different nucleotides may be different from each other, or alternatively, the two or more different labels may be indistinguishable in the detection methods used. Thus, for example, different nucleotides present in a sequencing reagent may be labeled differently and can be distinguished using suitable optical instruments as described in the sequencing methods developed by Solexa (now called Illumina, Inc.).
[00206] Предпочтительные варианты осуществления изобретения включают методы пиросеквенирования. Пиросеквенирование позволяет детектировать высвобождение неорганического пирофосфата (PPi), по мере включения конкретных нуклеотидов в растущую цепь (Ronaghi, М., Karamohamed, S., Pettersson, В., Uhlen, М. and Nyren, P. (1996) «Real-time DNA sequencing using detection of pyrophosphate release». Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) «Pyrosequencing sheds light on DNA sequencing». Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. and Nyren, P. (1998) «A sequencing method based on real-time pyrophosphate». Science 281(5375), 363; патенты США №№6210891; 6258568 и 6274320). При пиросеквенировании, высвобожденный PPi может быть детектирован путем непосредственного превращения в аденозинтрифосфат (АТФ) под действием АТФ-сульфуразы, а уровень генерируемого АТФ определяют с помощью фотонов, продуцируемых люциферазой. Секвенируемые нуклеиновые кислоты могут быть присоединены к элементам в массиве, и этот массив может быть визуализирован для захвата хемилюминесцентных сигналов, которые вырабатываются в результате включения нуклеотидов в элементы массива. Изображение может быть получено после обработки массива нуклеотидом определенного типа (например, А, Т, С или G). Изображения, полученные после добавления нуклеотидов каждого типа, будут отличаться в зависимости от детектируемых элементов в массиве. Эти различия в изображениях отражают различное содержание последовательностей элементов на массиве. Однако, относительные положения каждого элемента остаются неизменными на изображениях. Изображения могут быть сохранены, обработаны и проанализированы описанными здесь методами. Так, например, изображения, полученные после обработки массива каждым из нуклеотидов различных типов, могут обрабатываться таким же образом, как описано здесь для изображений, полученных из различных каналов детектирования в методах секвенирования на основе обратимых терминаторов.[00206] Preferred embodiments of the invention include pyrosequencing techniques. Pyrosequencing detects the release of inorganic pyrophosphate (PPi) as specific nucleotides are incorporated into the growing chain (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release" Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing" Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate" Science 281(5375), 363; U.S. Patent Nos. 6210891; 6258568 and 6274320). In pyrosequencing, released PPi can be detected by direct conversion to adenosine triphosphate (ATP) by ATP sulphurase, and the level of ATP generated is determined by photons produced by luciferase. The nucleic acids to be sequenced can be attached to elements in the array, and the array can be visualized to capture chemiluminescent signals that are generated by incorporating the nucleotides into the elements of the array. An image can be obtained after processing the array with a specific type of nucleotide (eg, A, T, C, or G). The images obtained after the addition of each type of nucleotide will differ depending on the detected elements in the array. These differences in the images reflect the different contents of the element sequences in the array. However, the relative positions of each element remain unchanged in the images. Images can be stored, processed and analyzed using the methods described here. For example, images obtained after processing the array with each of the different types of nucleotides can be processed in the same manner as described here for images obtained from different detection channels in reversible terminator sequencing methods.
[00207] В другом репрезентативном SBS, циклическое секвенирование осуществляют путем постадийного добавления обратимых нуклеотидов-терминаторов, содержащих, например, отщепляемую метку или фотообесцвечиваемую метку-краситель, как описано, например, в WO 04/018497 и в патенте США No. №7057026. Этот метод коммерциализирован фирмой Solexa (в настоящее время называемой Illumina Inc.), а также описан в WO 91/06678 и WO 07/123,744. Доступность флуоресцентно-меченных терминаторов, в которых оба конца могут быть обратимыми, а флуоресцентная метка отщеплена, способствует эффективному секвенированию посредством циклической обратимой терминации (CRT). Полимеразы могут быть также сконструированы для эффективного включения модифицированных нуклеотидов и удлинения цепи от этих модифицированных нуклеотидов.[00207] In another representative SBS, cycle sequencing is performed by stepwise addition of reversible terminator nucleotides containing, for example, a cleavable label or a photobleaching dye label, as described, for example, in WO 04/018497 and US Pat. No. 7057026. This method has been commercialized by Solexa (now called Illumina Inc.) and is also described in WO 91/06678 and WO 07/123,744. The availability of fluorescently labeled terminators, in which both ends can be reversible and the fluorescent label is cleaved, facilitates efficient sequencing via reversible cyclic termination (CRT). Polymerases can also be designed to efficiently incorporate modified nucleotides and extend the chain from these modified nucleotides.
[00208] В некоторых вариантах секвенирования на основе обратимого терминатора, метки, по существу, не ингибируют удлинение в условиях реакции SBS. Однако, детектирующие метки могут быть удалены, например, путем отщепления или разложения. Изображения могут быть сделаны после включения меток в матричные элементы нуклеиновых кислот. В конкретных вариантах осуществления изобретения, каждый цикл включает одновременную доставку четырех различных нуклеотидов в массив, и нуклеотид каждого типа имеет спектрально отличающиеся метки. Затем могут быть получены четыре изображения, каждое из которых получают с использованием канала детектирования, специфичного для одной из четырех различных меток. Альтернативно, нуклеотиды различных типов могут быть добавлены последовательно, и изображение массива может быть получено между каждыми стадиями добавления. В таких вариантах осуществления изобретения, каждое изображение будет демонстрировать элементы нуклеиновой кислоты, которые включают нуклеотиды определенного типа. На различных изображениях будут присутствовать или отсутствовать различные элементы, что обусловлено различными составами последовательности каждого элемента. Однако, относительное положение элементов на изображениях остается неизменным. Изображения, полученные с помощью таких методов SBS с использованием обратимого терминатора, могут быть сохранены, обработаны и проанализированы, как описано в настоящей заявке. После стадии получения изображения, метки и молекулы обратимого терминатора могут быть удалены для последующих циклов добавления и детектирования нуклеотидов. Удаление меток после того, как они были детектированы в конкретном цикле и перед последующим циклом, может оказаться предпочтительным с точки зрения снижения фонового сигнала и перекрестных помех между циклами. Примеры подходящих меток и способов удаления приводятся в настоящей заявке.[00208] In some variants of reversible terminator sequencing, labels do not substantially inhibit elongation under SBS reaction conditions. However, the detection marks can be removed, for example, by cleavage or degradation. Images can be made after incorporating labels into nucleic acid matrix elements. In specific embodiments of the invention, each cycle includes the simultaneous delivery of four different nucleotides in the array, and each type of nucleotide has a spectrally different label. Four images can then be obtained, each of which is obtained using a detection channel specific to one of four different labels. Alternatively, different types of nucleotides can be added sequentially and an image of the array can be obtained between each addition step. In such embodiments, each image will show nucleic acid elements that include nucleotides of a particular type. Different images will have or lack different elements due to the different composition of the sequence of each element. However, the relative position of the elements in the images remains unchanged. Images obtained using such SBS methods using a reversible terminator can be stored, processed and analyzed as described in this application. After the imaging step, labels and reversible terminator molecules can be removed for subsequent rounds of nucleotide addition and detection. Removing marks after they have been detected in a particular cycle and before the subsequent cycle may be advantageous in terms of reducing background signal and crosstalk between cycles. Examples of suitable labels and removal methods are provided in this application.
[00209] В конкретных вариантах осуществления изобретения, некоторые или все нуклеотидные мономеры могут включать обратимые терминаторы. В таких вариантах осуществления изобретения, обратимые терминаторы/отщепляемые флуорофоры могут включать флуорофоры, связанные с рибозной молекулой посредством 3'-сложноэфирной связи (Metzker, Genome Res. 15: 1767-1776 (2005)). В других методах, химический метод с использованием терминатора отличается от метода расщепления флуоресцентной метки (Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel и др. описали получение обратимых терминаторов, в которых используется небольшая 3'-аллильная группа для блокирования удлинения, но, при этом, может быть легко осуществлено деблокирование путем короткой обработки палладиевым катализатором. Флуорофор был присоединен к основанию посредством фоторасщепляемого линкера, который легко расщепляется путем 30-секундного облучения длинноволновым УФ-светом. Таким образом, в качестве расщепляемого линкера может быть использован агент для восстановления дисульфида, либо агент для фоторасщепления. Другим методом обратимой терминации является использование природной терминации, которая будет происходить после помещения объемного красителя на dNTP. Присутствие заряженного объемного красителя на dNTP может действовать как эффективный терминатор благодаря стерическому и/или электростатическому затруднению. Наличие одного события включения предотвращает дальнейшие включения, если краситель не удален. Расщепление красителя удаляет флуорофор и эффективно отменяет терминацию. Примеры модифицированных нуклеотидов также описаны в патентах США No. №№7427673 и 7057026.[00209] In specific embodiments of the invention, some or all of the nucleotide monomers may include reversible terminators. In such embodiments, reversible terminators/cleavable fluorophores may include fluorophores linked to the ribose molecule via a 3' ester bond (Metzker, Genome Res. 15: 1767-1776 (2005)). In other methods, the terminator chemistry method differs from the fluorescent label cleavage method (Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel et al. have described the preparation of reversible terminators that use a small 3'-allyl group to block elongation but can be easily deblocked by a short treatment with a palladium catalyst. The fluorophore was attached to the base via a photo-cleavable linker, which is readily cleaved by 30 seconds long wavelength UV light. Thus, a disulfide reduction agent or a photocleavage agent can be used as the cleavable linker. Another method of reversible termination is the use of natural termination, which will occur after bulk dye is placed on the dNTP. The presence of a charged bulk dye on dNTP can act as an effective terminator due to steric and/or electrostatic hindrance. The presence of one turn-on event prevents further turn-ons unless the dye is removed. Cleavage of the dye removes the fluorophore and effectively abolishes termination. Examples of modified nucleotides are also described in US Pat. Nos. 7427673 and 7057026.
[00210] Дополнительные репрезентативные системы и методы SBS, которые могут быть применены вместе с описанными здесь способами и системами, описаны в публикациях заявок на патент США №№. 2007/0166705, 2006/0188901, 2006/0240439, 2006/0281109, 2012/0270305 и 2013/0260372, в патенте США 7057026, в публикации РСТ WO 05/065814, в публикация заявки на патент США №2005/0100900 и в публикациях РСТ WO 06/064199 и WO 07/010251.[00210] Additional representative SBS systems and methods that may be used in conjunction with the methods and systems described herein are described in US Patent Application Publication Nos. 2007/0166705; 2006/0188901; 2006/0240439; 2006/0281109; PCT WO 06/064199 and WO 07/010251.
[00211] В некоторых вариантах осуществления изобретения может применяться детектирование четырех различных нуклеотидов с использованием менее, чем четырех различных меток. Так, например, SBS может быть осуществлен с применением методов и систем, описанных во включенных материалах публикации заявки на патент США 2013/0079232. В первом примере, пара нуклеотидов может быть детектирована на одной и той же длине волны, но с одной лишь разницей, заключающейся в отличии интенсивности для одного члена пары от интенсивности для другого члена пары или в замене одного члена пары (например, посредством химической модификации, фотохимической модификации или физической модификации), что вызывает появление или исчезновение кажущегося сигнала по сравнению с сигналом, обнаруженным для другого члена пары. В другом примере, три из четырех различных нуклеотидов могут быть детектированы при определенных условиях, в то время как нуклеотид четвертого типа не содержит метку, которая может быть детектирована в этих условиях, или детектируется на минимальном уровне в этих условиях (например, детектируется на минимальном уровне из-за фоновой флуоресценции и т.п.). Включение первых трех нуклеотидов в нуклеиновую кислоту может быть определено по присутствию соответствующих сигналов, а включение нуклеотида четвертого типа в нуклеиновую кислоту может быть определено по отсутствию детектирования или детектированию любого сигнала на минимальном уровне. В третьем примере, нуклеотид одного типа может включать метку(и), которая(ые) детектируется(ются) в двух различных каналах, тогда как нуклеотиды других типов детектируются не более, чем в одном из каналов. Вышеупомянутые три репрезентативные конфигурации не считаются взаимоисключающими и могут использоваться в различных комбинациях. Репрезентативный вариант, который объединяет все три примера, представляет собой метод SBS на основе флуоресценции, в котором используется нуклеотид первого типа, детектируемый в первом канале (например, dATP, имеющий метку, которая детектируется в первом канале при возбуждении на первой длине волны возбуждения), нуклеотид второго типа, который детектируется во втором канале (например, dCTP, имеющий метку, которая детектируется во втором канале при возбуждении на второй длине волны возбуждения), нуклеотид третьего типа, который детектируется в первом и во втором канале (например, dTTP, имеющий по меньшей мере одну метку, которая детектируется в обоих каналах при возбуждении на первой и/или второй длине волны возбуждения), и нуклеотид четвертого типа, который не содержит метки, то есть не детектируется или детектируется на минимальном уровне в любом канале (например, dGTP, не имеющий метки).[00211] In some embodiments, the detection of four different nucleotides using less than four different labels can be used. For example, SBS can be performed using the methods and systems described in the included materials of US Patent Application Publication 2013/0079232. In the first example, a nucleotide pair can be detected at the same wavelength, but with only one difference, which is the difference in intensity for one member of the pair from the intensity for the other member of the pair, or in the replacement of one member of the pair (for example, by chemical modification, photochemical modification or physical modification), which causes the appearance or disappearance of the apparent signal in comparison with the signal detected for the other member of the pair. In another example, three out of four different nucleotides can be detected under certain conditions, while a fourth type nucleotide does not contain a label that can be detected under these conditions, or is detected at a minimum level under these conditions (for example, is detected at a minimum level due to background fluorescence, etc.). The inclusion of the first three nucleotides in the nucleic acid can be determined by the presence of the corresponding signals, and the inclusion of the fourth type of nucleotide in the nucleic acid can be determined by the absence or detection of any signal at a minimal level. In a third example, one type of nucleotide may include label(s) that(s) are(are) detected in two different channels, while other types of nucleotides are detected in no more than one of the channels. The above three representative configurations are not considered mutually exclusive and may be used in various combinations. A representative variant that combines all three examples is a fluorescence-based SBS method that uses a first type of nucleotide detectable in the first channel (for example, dATP having a label that is detected in the first channel when excited at the first excitation wavelength), a nucleotide of the second type, which is detected in the second channel (for example, dCTP, having a label that is detected in the second channel when excited at a second excitation wavelength), a nucleotide of the third type, which is detected in the first and second channel (for example, dTTP, having at least one label that is detected in both channels when excited at the first and/or second excitation wavelength), and a fourth type nucleotide that does not contain a label, that is, is not detected or is detected at a minimum level in any channel (for example, dGTP, unlabeled).
[00212] Далее, как описано во включенных материалах публикации заявки на патент США №2013/0079232, данные секвенирования могут быть получены с использованием одного канала. В таких так называемых методах секвенирования с использованием одного красителя, нуклеотид первого типа метят, но метку удаляют после получения первого изображения, а нуклеотид второго типа метят только после получения первого изображения. Нуклеотид третьего типа сохраняет свою метку как на первом, так и на втором изображениях, а нуклеотид четвертого типа остается немеченным на обоих изображениях.[00212] Further, as described in the included materials of US Patent Application Publication No. 2013/0079232, sequencing data can be obtained using a single channel. In such so-called single-dye sequencing methods, the first type nucleotide is labeled, but the label is removed after the first image is acquired, and the second type nucleotide is labeled only after the first image is obtained. The third type nucleotide retains its label in both the first and second images, while the fourth type nucleotide remains unlabeled in both images.
[00213] В некоторых вариантах осуществления изобретения могут быть проведено секвенирование методами лигирования. В таких методах используют ДНК-лигазу для включения олигонуклеотидов и идентификации включения таких олигонуклеотидов. Олигонуклеотиды обычно имеют различные метки, которые коррелируют с идентичностью конкретного нуклеотида в последовательности, с которой гибридизуются эти олигонуклеотиды. Как и в случае других методов SBS, изображения могут быть получены после обработки массива элементов нуклеиновой кислоты мечеными реагентами для секвенирования. Каждое изображение будет показывать элементы нуклеиновой кислоты, имеющие включенные метки конкретного типа. Различные элементы будут присутствовать или отсутствовать на различных изображениях из-за разного содержания последовательности каждого элемента, но относительное положение элементов на этих изображениях останется неизменным. Изображения, полученные методами секвенирования на основе лигирования, могут быть сохранены, обработаны и проанализированы, как описано в настоящей заявке. Репрезентативные системы и методы SBS, которые могут быть применены вместе с описанными здесь методами и системами, описаны в патентах США №№6969488, 6172218 и 6306597.[00213] In some embodiments of the invention, sequencing by ligation methods can be performed. Such methods use DNA ligase to incorporate oligonucleotides and identify the inclusion of such oligonucleotides. Oligonucleotides typically have different labels that correlate with the identity of the particular nucleotide in the sequence to which the oligonucleotides hybridize. As with other SBS methods, images can be obtained after processing an array of nucleic acid elements with labeled sequencing reagents. Each image will show nucleic acid elements having a particular type of label included. Different elements will be present or absent in different images due to the different sequence content of each element, but the relative position of the elements in these images will remain the same. Images obtained by ligation-based sequencing methods can be stored, processed and analyzed as described in this application. Representative SBS systems and methods that can be used in conjunction with the methods and systems described herein are described in US Pat.
[00214] В некоторых вариантах осуществления изобретения может быть проведено секвенирование нанопор (Deamer, D. W. & Akeson, М. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002); Li, T, M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)). В таких вариантах осуществления изобретения, индексированный фрагмент проходит через нанопору. Нанопора может представлять собой синтетическую пору или биологический мембранный белок, такой как α-гемолизин. Если индексируемый фрагмент проходит через нанопору, то каждая пара оснований может быть идентифицирована путем измерения колебаний электропроводности поры (патент США No. 7001792; Soni, G. V. & Meller, «A. Progress toward ultrafast DNA sequencing using solid-state nanopores». Clin. Chem. 53, 1996-2001 (2007); Healy, K. «Nanopore-based single-molecule DNA analysis». Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. «A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution». J. Am. Chem. Soc. 130, 818-820 (2008)). Данные, полученные после секвенирования нанопор, могут быть сохранены, обработаны и проанализированы, как описано в настоящей заявке. В частности, данные могут быть обработаны как изображение в соответствии с репрезентативной обработкой оптических изображений и других изображений, описанных в настоящей заявке.[00214] In some embodiments, nanopore sequencing can be performed (Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002), Li, T, M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)). In such embodiments of the invention, the indexed fragment passes through the nanopore. The nanopore can be a synthetic pore or a biological membrane protein such as α-hemolysin. If the fragment being indexed passes through a nanopore, then each base pair can be identified by measuring the fluctuations in the electrical conductivity of the pore (U.S. Patent No. 7001792; Soni, G. V. & Meller, "A. Progress towards ultrafast DNA sequencing using solid-state nanopores."
[00215] В некоторых вариантах осуществления изобретения могут применяться способы, включающие мониторинг активности ДНК-полимеразы в реальном времени. Включения нуклеотидов могут быть детектированы по взаимодействиям методами переноса флуоресцентной резонансной энергии (FRET) между флуорофор-содержащей полимеразой и γ-фосфат-меченными нуклеотидами, как описано, например, в патентах США No. 7329492 и 7211414, или включения нуклеотидов могут быть детектированы с помощью волноводов нулевой моды, как описано, например, в патенте США No. 7315019, и с использованием флуоресцентных нуклеотидных аналогов и сконструированных полимераз, как описано, например, в патенте США No. 7405281 и в публикации заявки на патент США №2008/0108082. Облучение может быть ограничено объемом в масштабе гептолитров в окружении поверхностно-связанной полимеразы, так, чтобы включение флуоресцентно меченных нуклеотидов могло наблюдаться на низком фоновом уровне (Levene, М. J. et al. «Zero-mode waveguides for single molecule analysis at high concentrations», Science 299, 682-686 (2003); Lundquist, P. M. et al. «Parallel confocal detection of single molecules in real time», Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al., «Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures)), Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Изображения, полученные такими способами, могут быть сохранены, обработаны и проанализированы, как описано в настоящей заявке.[00215] In some embodiments of the invention, methods can be used that include real-time monitoring of DNA polymerase activity. Nucleotide inclusions can be detected by fluorescent resonance energy transfer (FRET) interactions between a fluorophore-containing polymerase and γ-phosphate-labeled nucleotides, as described, for example, in US Pat. 7,329,492 and 7,211,414 or nucleotide inclusions can be detected using zero-mode waveguides as described, for example, in US Pat. 7,315,019 and using fluorescent nucleotide analogs and engineered polymerases as described, for example, in US Pat. 7405281 and US Patent Application Publication No. 2008/0108082. Irradiation can be limited to a heptoliter-scale volume surrounded by surface-bound polymerase, so that incorporation of fluorescently labeled nucleotides can be observed at a low background level (Levene, M. J. et al. "Zero-mode waveguides for single molecule analysis at high concentrations ", Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time", Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. , "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures)", Proc. Natl. Acad. sci. USA 105, 1176-1181 (2008)). Images obtained by such methods can be stored, processed and analyzed as described in this application.
[00216] Некоторые варианты SBS включают детектирование протона, высвобождаемого после включения нуклеотида в продукт удлинения. Так, например, при секвенировании на основе детектирования высвобождаемых протонов могут быть использованы электрический детектор и методы с его применением, которые являются коммерчески доступными и разработаны Ion Torrent (Guilford, СТ, a Life Technologies subsidiary) или методы и системы секвенирования, описанные в публикациях заявок на патент США. №2009/0026082; 2009/0127589; 2 010/0137143; и 2010/0282617. Описанные здесь способы амплификации нуклеиновых кислот-мишеней посредством кинетического исключения, могут быть легко применены к субстратам, используемым для обнаружения протонов. Более конкретно, описанные здесь способы могут быть применены для получения клональных популяций ампликонов, которые используются для обнаружения протонов.[00216] Some variants of SBS include detection of a proton released after incorporation of a nucleotide into the extension product. For example, when sequencing based on the detection of released protons, an electrical detector and methods using it can be used, which are commercially available and developed by Ion Torrent (Guilford, CT, a Life Technologies subsidiary) or sequencing methods and systems described in application publications. for a US patent. No. 2009/0026082; 2009/0127589; 2010/0137143; and 2010/0282617. The methods described here for amplifying target nucleic acids by kinetic exclusion can be readily applied to substrates used for proton detection. More specifically, the methods described herein can be used to generate clonal populations of amplicons that are used to detect protons.
[00217] Вышеуказанные способы SBS могут быть преимущественно осуществлены в мультиплексном формате, так, чтобы множество различных индексированных фрагментов было модифицировано одновременно. В конкретных вариантах осуществления изобретения, различные индексированные фрагменты могут быть обработаны в общем реакционном сосуде или на поверхности конкретной основы. Это облегчает доставку реагентов для секвенирования, удаление непрореагировавших реагентов и детектирование событий включения мультиплексным способом. В вариантах осуществления изобретения, в которых используются связанные с поверхностью нуклеиновые кислоты-мишени, индексированные фрагменты могут иметь формат массива. В формате массива, индексированные фрагменты обычно могут быть связаны с поверхностью различимыми способами широкого ряда. Индексированные фрагменты могут быть связаны посредством прямой ковалентной связи, путем прикрепления к сфере или к другой частице или путем связывания с полимеразой или с другой молекулой, которая связана с поверхностью. Массив может включать одну копию индексированного фрагмента на каждом сайте (также называемого элементом), либо несколько копий, имеющих одну и ту же последовательность, могут присутствовать на каждом сайте или в каждом элементе. Множество копий может быть получено методами амплификации, такими как мостиковая амплификация или эмульсионная ПЦР, как описано более подробно в настоящей заявке.[00217] The above SBS methods can advantageously be implemented in a multiplex format such that many different indexed fragments are modified at the same time. In specific embodiments of the invention, different indexed fragments can be processed in a common reaction vessel or on the surface of a specific base. This facilitates the delivery of sequencing reagents, the removal of unreacted reagents, and the detection of turn-on events in a multiplexed manner. In embodiments of the invention that use surface-bound target nucleic acids, the indexed fragments may be in array format. In an array format, indexed fragments can typically be associated with a surface in a wide variety of distinguishable ways. The indexed moieties may be linked via a direct covalent bond, by attachment to a sphere or other particle, or by binding to a polymerase or other molecule that is bound to a surface. The array may include one copy of the indexed fragment per site (also called element), or multiple copies of the same sequence may be present in each site or element. Multiple copies can be obtained by amplification methods such as bridge amplification or emulsion PCR, as described in more detail in this application.
[00218] В описанных здесь способах могут быть использованы массивы, имеющие элементы с различными плотностями, включая, например, по меньшей мере приблизительно 10 элементов/см2, 100 элементов/см2, 500 элементов/см2, 1000 элементов/см2, 5000 элементов/см2, 10000 элементов/см2, 50000 элементов/см2, 100000 элементов/см2, 1000000 элементов/см2, 5000000 элементов/см2 или более.[00218] The methods described herein may use arrays having elements of various densities, including, for example, at least about 10 elements/cm 2 , 100 elements/cm 2 , 500 elements/cm 2 , 1000 elements/cm 2 , 5,000 cells/cm 2 , 10,000 cells/cm 2 , 50,000 cells/cm 2 , 100,000 cells/cm 2 , 1,000,000 cells/cm 2 , 5,000,000 cells/cm 2 or more.
[00219] Преимущество описанных здесь способов заключается в том, что они одновременно обеспечивают быстрое и эффективное детектирование множества элементов на см2. Соответственно, настоящее изобретение относится к интегрированным системам, позволяющим получать и детектировать нуклеиновые кислоты методами, известными специалистам, такими как методы, описанные в настоящей заявке. Таким образом, интегрированная система согласно изобретению может включать жидкие компоненты, способные доставлять реагенты для амплификации и/или секвенирующие реагенты к одному или более иммобилизованным индексированным фрагментам, где указанная система включает такие компоненты, как насосы, клапаны, резервуары, поточные линии и т.п. Проточная кювета может быть сконфигурирована и/или использована в интегрированной системе для обнаружения нуклеиновых кислот-мишеней. Репрезентативные проточные кюветы описаны, например, в публикации заявок на патент США №2010/0111768 и №13/273666. Как проиллюстрировано для проточных кювет, один или более жидких компонентов интегрированной системы могут быть использованы в способе амплификации и детектирования. В качестве примера может служить вариант секвенирования нуклеиновых кислот, где один или более жидких компонентов интегрированной системы могут быть использованы в описанном здесь способе амплификации и для доставки секвенирующих реагентов в способе секвенирования, таком как способ, проиллюстрированный выше. Альтернативно, интегрированная система может включать отдельные жидкостные системы для осуществления методов амплификации и методов детектирования. Примерами интегрированных систем секвенирования, подходящих для получения амплифицированных нуклеиновых кислот, а также для определения последовательности нуклеиновых кислот являются, но не ограничиваются ими, платформа MiSeqTM (Illumina, Inc., San Diego, CA) и устройства, описанные в патенте США рег. No. 13/273666.[00219] The advantage of the methods described here is that they simultaneously provide fast and efficient detection of multiple elements per cm 2 . Accordingly, the present invention relates to integrated systems that allow the production and detection of nucleic acids by methods known to those skilled in the art, such as the methods described in this application. Thus, an integrated system according to the invention may include liquid components capable of delivering amplification reagents and/or sequencing reagents to one or more immobilized indexed fragments, where said system includes components such as pumps, valves, reservoirs, flow lines, and the like. . The flow cell may be configured and/or used in an integrated system for the detection of target nucleic acids. Representative flow cells are described, for example, in US Patent Application Publication Nos. 2010/0111768 and 13/273666. As illustrated for the flow cells, one or more liquid components of the integrated system can be used in the amplification and detection method. An exemplary embodiment of nucleic acid sequencing is where one or more liquid components of the integrated system can be used in the amplification method described herein and to deliver sequencing reagents in the sequencing method, such as the method illustrated above. Alternatively, the integrated system may include separate fluid systems for performing amplification methods and detection methods. Examples of integrated sequencing systems suitable for obtaining amplified nucleic acids as well as nucleic acid sequencing include, but are not limited to, the MiSeqTM platform (Illumina, Inc., San Diego, CA) and the devices described in US Pat. no. 13/273666.
[00220] Настоящее изобретение также относится к композициям. При практическом применении описанных здесь способов могут быть получены различные композиции. Так, например, может быть получена композиция, включающая индексированные фрагменты нуклеиновой кислоты, где индексированные фрагменты нуклеиновой кислоты происходят от вновь синтезированной РНК. В одном варианте осуществления изобретения, вновь синтезированная РНК является меченной. Настоящее изобретение также относится к многолуночному планшету, где лунка многолуночного планшета содержит индексированные фрагменты нуклеиновой кислоты.[00220] The present invention also relates to compositions. With the practical application of the methods described here, various compositions can be obtained. For example, a composition can be prepared comprising indexed nucleic acid fragments, wherein the indexed nucleic acid fragments are derived from newly synthesized RNA. In one embodiment of the invention, the newly synthesized RNA is labeled. The present invention also relates to a multiwell plate, wherein the well of the multiwell plate contains indexed nucleic acid fragments.
[00221] Настоящее изобретение также относится к наборам. В одном варианте осуществления изобретения, набор предназначен для получения секвенирующей библиотеки, где вновь синтезированная РНК является меченной. В другом варианте осуществления изобретения, набор включает описанную здесь нуклеотидную метку. В другом варианте осуществления изобретения, набор включает один или более праймеров для отжига РНК, где по меньшей мере один праймер предназначен для направленной амплификации одной или более предварительно определенных нуклеиновых кислот. В дополнительном варианте осуществления изобретения, набор включает компоненты для добавления по меньшей мере трех индексов к нуклеиновым кислотам. Набор также может включать другие компоненты, подходящие для получения секвенирующей библиотеки. Так, например, набор может включать по меньшей мере один фермент, который опосредует лигирование, удлинение праймера или амплификацию для обработки молекул РНК в целях включения индекса. Набор может включать нуклеиновые кислоты с индексными последовательностями. Набор также может включать другие компоненты, подходящие для добавления индекса к нуклеиновой кислоте, такие как транспосомный комплекс. Набор также может включать один или более праймеров для отжига РНК. Праймеры могут быть предназначены для получения всего транскриптома (например, праймер, который включает poly-T-последовательность) или для нацеленной амплификации одной или более предварительно определенных нуклеиновых кислот.[00221] The present invention also relates to kits. In one embodiment of the invention, the kit is designed to obtain a sequencing library, where the newly synthesized RNA is labeled. In another embodiment of the invention, the kit includes a nucleotide tag as described herein. In another embodiment of the invention, the kit includes one or more RNA annealing primers, wherein at least one primer is designed to target amplify one or more predefined nucleic acids. In a further embodiment of the invention, the kit includes components for adding at least three indices to nucleic acids. The kit may also include other components suitable for obtaining a sequencing library. For example, the kit may include at least one enzyme that mediates ligation, primer extension, or amplification to process RNA molecules to include an index. The kit may include nucleic acids with index sequences. The kit may also include other components suitable for adding an index to the nucleic acid, such as a transposome complex. The kit may also include one or more RNA annealing primers. Primers may be designed to generate the entire transcriptome (eg, a primer that includes a poly-T sequence) or to target amplification of one or more predefined nucleic acids.
[00222] Компоненты набора в подходящем упаковочном материале обычно присутствуют в количестве, достаточном для проведения по меньшей мере одного анализа или его применения. При этом, могут быть включены, но необязательно, и другие компоненты, такие как буферы и растворы. Обычно также включены инструкции по применению упакованных компонентов. Используемый здесь термин «упаковочный материал» означает одну или более физических структур, используемых для размещения содержимого набора. Упаковочный материал изготавливают рутинными методами, обычно для обеспечения стерильной среды без примесей. Упаковочный материал может иметь этикетку, на которой указано, что компоненты могут быть использованы для получения секвенирующей библиотеки. Кроме того, упаковочный материал содержит инструкции по применению материалов, содержащихся в наборе. Используемый здесь термин «упаковка» означает контейнер из таких материалов, как стекло, пластик, бумага, фольга и т.п., способных сохранять компоненты набора в фиксированных пределах. «Инструкции по применению» обычно включают общеизвестное выражение, описывающее концентрацию реагента или по меньшей мере один из параметров аналитического метода, таких как относительные количества реагента и образца, подлежащих смешиванию, время хранения смесей реагента/образца, температура, буферные условия и т.п.[00222] The components of the kit in a suitable packaging material are usually present in an amount sufficient to conduct at least one analysis or its application. In this case, may be included, but not necessarily, and other components, such as buffers and solutions. Typically, instructions for use of the packaged components are also included. As used herein, the term "packaging material" means one or more physical structures used to contain the contents of a kit. The packaging material is made by routine methods, usually to provide a sterile environment without impurities. The packaging material may have a label stating that the components can be used to make a sequencing library. In addition, the packaging material contains instructions for the use of the materials contained in the kit. As used herein, the term "packaging" means a container of materials such as glass, plastic, paper, foil, etc., capable of keeping the components of a kit within fixed limits. "Instructions for use" usually includes a well-known expression describing the concentration of a reagent or at least one of the parameters of the analytical method, such as the relative amounts of reagent and sample to be mixed, storage time of reagent/sample mixtures, temperature, buffer conditions, and the like.
Репрезентативны варианты осуществления изобретенияRepresentative Embodiments of the Invention
[00223] Вариант 1. Способ получения библиотеки для секвенирования, содержащей нуклеиновые кислоты, происходящие из множества отдельных ядер или клеток, где указанный способ включает:[00223]
(a) получение множества ядер или клеток в первом множестве компартментов,(a) obtaining a plurality of nuclei or cells in a first plurality of compartments,
где каждый компартмент содержит субпопуляцию ядер или клеток;where each compartment contains a subpopulation of nuclei or cells;
(b) мечение вновь синтезированной РНК в субпопуляциях клеток или ядер, полученных из клеток;(b) labeling newly synthesized RNA in subpopulations of cells or nuclei derived from cells;
(c) обработку молекул РНК в каждой субпопуляции ядер или клеток с получением индексированных ядер или клеток,(c) processing the RNA molecules in each subset of nuclei or cells to obtain indexed nuclei or cells,
где обработка включает добавление к нуклеиновым кислотам РНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот ДНК, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the RNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed DNA nucleic acids present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию или амплификацию; иwhere the processing includes ligation, primer extension, hybridization or amplification; and
(d) объединение индексированных ядер или клеток с получением объединенных индексированных ядер или клеток.(d) combining indexed nuclei or cells to form combined indexed nuclei or cells.
[00224] Вариант 2. Способ Варианта 1, где обработка включает:[00224]
контактирование субпопуляций с обратной транскриптазой и праймером, которые гибридизуются с нуклеиновыми кислотами РНК, с образованием двухцепочечных нуклеиновых кислот ДНК, содержащих праймер, и соответствующей нуклеотидной последовательности ДНК из матричных молекул РНК.contacting subpopulations with reverse transcriptase and a primer that hybridize with RNA nucleic acids to form double-stranded DNA nucleic acids containing the primer and the corresponding DNA nucleotide sequence from RNA template molecules.
[00225] Вариант 3. Способ вариантов 1 или 2, где праймер содержит поли-Т-нуклеотидную последовательность, которая гибридизуется с поли(А)-хвостом мРНК.[00225]
[00226] Вариант 4. Способ любого из вариантов 1-3, где обработка также включает контактирование субпопуляций со вторым праймером, где второй праймер содержит последовательность, которая гибридизуется с предварительно определенной нуклеиновой кислотой ДНК.[00226]
[00227] Вариант 5. Способ любого из вариантов 1-4, где второй праймер содержит компартмент-специфический индекс.[00227]
[00228] Вариант 6. Способ любого из вариантов 1-5, где праймер содержит последовательность, которая гибридизуется с предварительно определенной нуклеиновой кислотой РНК.[00228]
[00229] Вариант 7. Способ любого из вариантов 1-6, где способ включает праймеры в различных компартментах, которые гибридизуются с различными нуклеотидами одной и той же предварительно определенной нуклеиновой кислоты РНК.[00229]
[00230] Вариант 8. Способ любого из вариантов 1-7, где праймер включает праймер переключения матрицы.[00230]
[00231] Вариант 9. Способ любого из вариантов 1-7, где обработка для добавления первой компартмент-специфической индексной последовательности включает двухстадийный способ добавления нуклеотидной последовательности, содержащей[00231]
универсальную последовательность, к нуклеиновым кислотам РНК с получением нуклеиновых кислот ДНК, а затем добавление первой компартмент-специфической индексной последовательности к нуклеиновым кислотам ДНК.a universal sequence to RNA nucleic acids to obtain DNA nucleic acids, and then adding a first compartment-specific index sequence to DNA nucleic acids.
[00232] Вариант 10. Способ получения библиотеки для секвенирования, содержащей нуклеиновые кислоты, происходящие из множества отдельных ядер или клеток, где указанный способ включает:[00232]
(a) получение множества ядер или клеток в первом множестве компартментов,(a) obtaining a plurality of nuclei or cells in a first plurality of compartments,
где каждый компартмент содержит субпопуляцию ядер или клеток;where each compartment contains a subpopulation of nuclei or cells;
(b) контактирование каждой субпопуляции с обратной транскриптазой и праймером, которые гибридизуются с предварительно определенной нуклеиновой кислотой РНК, с образованием двухцепочечных нуклеиновых кислот ДНК, содержащих праймер, и соответствующей нуклеотидной последовательности ДНК из матричных молекул РНК;(b) contacting each subpopulation with a reverse transcriptase and a primer that hybridizes to a predetermined RNA nucleic acid to form double-stranded DNA nucleic acids containing the primer and the corresponding DNA nucleotide sequence from the RNA template molecules;
(c) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением индексированных ядер или клеток,(c) processing DNA molecules in each subset of nuclei or cells to obtain indexed nuclei or cells,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот ДНК,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed DNA nucleic acids,
присутствующих в индексированных ядрах или клетках,present in indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию или амплификацию; иwhere the processing includes ligation, primer extension, hybridization or amplification; and
(d) объединение индексированных ядер или клеток с получением объединенных индексированных ядер или клеток.(d) combining indexed nuclei or cells to form combined indexed nuclei or cells.
[00233] Вариант 11. Способ варианта 10, где праймер содержит первую компартмент-специфическую индексную последовательность.[00233]
[00234] Вариант 12. Способ вариантов 10 или 11, дополнительно включающий, перед контактированием, мечение вновь синтезированной РНК в субпопуляциях клеток или ядер, выделенных из клеток.[00234]
[00235] Вариант 13. Способ любого из вариантов 10-12, где обработка для добавления первой компартмент-специфической индексной последовательности включает двухстадийный способ добавления нуклеотидной последовательности, содержащей универсальную последовательность, к нуклеиновым кислотам, а затем добавление первой компартмент-специфической индексной последовательности к нуклеиновым кислотам.[00235]
[00236] Вариант 14. Способ любого из вариантов 1-13, где предварительно определенная нуклеиновая кислота РНК представляет собой мРНК.[00236]
[00237] Вариант 15. Способ любого из вариантов 1-14, где уже существующие нуклеиновые кислоты РНК и вновь синтезированные нуклеиновые кислоты РНК помечены одинаковыми индексами в одном и том же компартменте.[00237]
[00238] Вариант 16. Способ любого из вариантов 1-15, где мечение включает инкубирование множества ядер или клеток в композиции, содержащей нуклеотидную метку, где нуклеотидная метка включена во вновь синтезированную РНК.[00238]
[00239] Вариант 17. Способ любого из вариантов 1-16, где нуклеотидная метка содержит нуклеотидный аналог, меченный гаптеном нуклеотид, мутагенный нуклеотид или нуклеотид, который может быть модифицирован посредством химической реакции.[00239]
[00240] Вариант 18. Способ любого из вариантов 1-17, где более чем одна нуклеотидная метка включена во вновь синтезированную РНК.[00240]
[00241] Вариант 19. Способ любого из вариантов 1-18, где отношения нуклеотидной метки или меток отличаются для различных компартментов или моментов времени.[00241]
[00242] Вариант 20. Способ любого из вариантов 1-19, также включающий обработку субпопуляций ядер или клеток в предварительно определенных условиях перед мечением.[00242]
[00243] Вариант 21. Способ любого из вариантов 1-20, где предварительно определенное условие включает обработку агентом.[00243]
[00244] Вариант 22. Способ любого из вариантов 1-21, где агент включает белок, не-рибосомный белок, поликетид, органическую молекулу, неорганическую молекулу, молекулу РНК или РНКи, углевод, гликопротеин, нуклеиновую кислоту или их комбинацию.[00244]
[00245] Вариант 23. Способ любого из вариантов 1-22, где агент включает терапевтическое лекарственное средство.[00245]
[00246] Вариант 24. Способ любого из вариантов 1-23, где предварительно определенные условия двух или более компартментов являются различными.[00246]
[00247] Вариант 25. Способ любого из вариантов 1-24, где обработку и мечение проводят одновременно или обработку проводят до мечения.[00247]
[00248] Вариант 26. Способ любого из вариантов 1-25, дополнительно включающий:[00248]
распределение субпопуляций объединенных индексированных ядер или клеток по второму множеству компартментов и добавление к индексированным нуклеиновым кислотам, присутствующим в субпопуляциях ядер или клеток, второй индексной последовательности с получением ядер или клеток с двумя индексами, содержащих фрагменты нуклеиновой кислоты с двумя индексами, где добавление включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию; иdistributing the subpopulations of the combined indexed nuclei or cells over the second set of compartments and adding to the indexed nucleic acids present in the subpopulations of nuclei or cells a second index sequence to obtain nuclei or cells with two indexes containing nucleic acid fragments with two indexes, where the addition includes ligation, primer extension, hybridization, amplification or transposition; and
объединение ядер или клеток с двумя индексами с получением объединенных ядер или клеток с двумя индексами.combining nuclei or cells with two indices to obtain combined nuclei or cells with two indices.
[00249] Вариант 27. Способ любого из вариантов 1-26, дополнительно включающий:[00249]
распределение субпопуляций объединенных ядер или клеток с двумя индексами по третьему множеству компартментов и добавление к индексированным нуклеиновым кислотам, присутствующим в субпопуляциях ядер или клеток, третьей индексной последовательности с получением ядер или клеток с тремя индексами, содержащих фрагменты нуклеиновой кислоты с тремя индексами, где добавление включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию; иdistributing the subpopulations of fused nuclei or cells with two indexes over a third set of compartments and adding to the indexed nucleic acids present in the subpopulations of nuclei or cells with a third index sequence to obtain nuclei or cells with three indexes containing nucleic acid fragments with three indexes, where the addition includes ligation, primer extension, hybridization, amplification or transposition; and
объединение ядер или клеток с тремя индексами с получением объединенных ядер или клеток с тремя индексами.combining nuclei or cells with three indices to obtain combined nuclei or cells with three indices.
[00250] Вариант 28. Способ любого из вариантов 1-27, где распределение включает разведение.[00250]
[00251] Вариант 29. Способ любого из вариантов 1-27, где распределение включает сортинг.[00251]
[00252] Вариант 30. Способ любого из вариантов 1-29, где добавление включает контактирование субпопуляций со шпилечным лигирующим дуплексом в условиях, подходящих для лигирования шпилечного лигирующего дуплекса с концом фрагментов нуклеиновой кислоты, содержащих одну или две индексных последовательности.[00252]
[00253] Вариант 31. Способ любого из вариантов 1-30, где добавление включает контактирование фрагментов нуклеиновой кислоты, содержащих одну или более индексных последовательностей, с транспосомным комплексом, где транспосомный комплекс в компартментах содержит транспозазу и универсальную последовательность, где контактирование также включает условия, подходящие для фрагментации фрагментов нуклеиновой кислоты и включения универсальной последовательности во фрагменты нуклеиновой кислоты.[00253]
[00254] Вариант 32. Способ любого из вариантов 1-31, где добавление включает лигирование первой компартмент-специфической индексной последовательности, а также добавление второй индексной последовательности с получением ядер или клеток с двумя индексами, содержащих фрагменты нуклеиновой кислоты с двумя индексами, где добавление включает транспозицию.[00254]
[00255] Вариант 33. Способ любого из вариантов 1-32, где добавление включает лигирование второй компартмент-специфической индексной последовательности, а также добавление третьей индексной последовательности с получением ядер или клеток с двумя индексами, содержащих фрагменты нуклеиновой кислоты с тремя индексами, где добавление включает транспозицию.[00255]
[00256] Вариант 34. Способ любого из вариантов 1-33, где компартмент включает лунку или каплю.[00256]
[00257] Вариант 35. Способ любого из вариантов 1-34, где компартменты первого множества компартментов содержат от 50 до 100000000 ядер или клеток.[00257]
[00258] Вариант 36. Способ любого из вариантов 1-35, где компартменты второго множества компартментов содержат от 50 до 100000000 ядер или клеток.[00258]
[00259] Вариант 37. Способ любого из вариантов 1-36, где компартменты третьего множества компартментов содержат от 50 до 100000000 ядер или клеток.[00259]
[00260] Вариант 38. Способ любого из вариантов 1-37, дополнительно включающий получение индексированных нуклеиновых кислот из объединенных индексированных ядер или клеток, с получением библиотеки для секвенирования из множества ядер или клеток.[00260]
[00261] Вариант 39. Способ любого из вариантов 1-38, дополнительно включающий получение нуклеиновых кислот с двумя индексами из объединенных ядер или клеток с двумя индексами, с получением библиотеки для секвенирования из множества ядер или клеток.[00261]
[00262] Вариант 40. Способ любого из вариантов 1-39, дополнительно включающий получение нуклеиновых кислот с тремя индексами из объединенных ядер или клеток с тремя индексами, с получением библиотеки для секвенирования из множества ядер или клеток.[00262]
[00263] Вариант 41. Способ любого из вариантов 1-40, дополнительно включающий:[00263]
получение поверхности, содержащей множество сайтов амплификации,obtaining a surface containing a plurality of amplification sites,
где сайты амплификации включают по меньшей мере две популяции связанных одноцепочечных олигонуклеотидов для захвата, имеющих свободный 3'-конец, иwhere the sites of amplification include at least two populations of linked single-stranded capture oligonucleotides having a free 3' end, and
контактирование поверхности, содержащей сайты амплификации, с фрагментами нуклеиновой кислоты, содержащими одну, две или три индексных последовательности, в условиях, подходящих для получения множества сайтов амплификации, каждый из которых содержит клональную популяцию ампликонов, из отдельного фрагмента, содержащего множество индексов.contacting a surface containing amplification sites with nucleic acid fragments containing one, two or three index sequences under conditions suitable to obtain a plurality of amplification sites, each containing a clonal population of amplicons, from a single fragment containing a plurality of indices.
[00264] Вариант 42. Способ любого из вариантов 1-41, где добавление компартмент-специфической индексной последовательности включает двухстадийный способ добавления нуклеотидной последовательности, содержащей универсальную последовательность, к нуклеиновым кислотам, а затем добавление первой компартмент-специфической индексной последовательности к нуклеиновым кислотам.[00264]
[00265] Вариант 43. Способ получения библиотеки для секвенирования, содержащей нуклеиновые кислоты, происходящие из множества отдельных ядер или клеток, где указанный способ включает:[00265]
(a) получение множества ядер или клеток в первом множестве компартментов,(a) obtaining a plurality of nuclei or cells in a first plurality of compartments,
где каждый компартмент содержит субпопуляцию ядер или клеток;where each compartment contains a subpopulation of nuclei or cells;
(b) контактирование каждой субпопуляции с обратной транскриптазой и праймером с получением двухцепочечных нуклеиновых кислот ДНК, содержащих праймер, и соответствующей нуклеотидной последовательности ДНК из матричных молекул РНК;(b) contacting each subpopulation with a reverse transcriptase and a primer to obtain double-stranded DNA nucleic acids containing the primer and the corresponding DNA nucleotide sequence from template RNA molecules;
(c) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением индексированных ядер или клеток,(c) processing DNA molecules in each subset of nuclei or cells to obtain indexed nuclei or cells,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed nucleic acids present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию;where the processing includes ligation, primer extension, hybridization, amplification or transposition;
(d) объединение индексированных ядер или клеток с получением объединенных индексированных ядер или клеток;(d) combining indexed nuclei or cells to form combined indexed nuclei or cells;
(e) распределение объединенных индексированных ядер или клеток по второму множеству компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток;(e) distributing the pooled indexed nuclei or cells across a second set of compartments, where each compartment contains a subset of nuclei or cells;
(f) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением ядер или клеток с двумя индексами,(f) processing DNA molecules in each subset of nuclei or cells to obtain nuclei or cells with two indices,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, второй компартмент-специфической индексной последовательности с получением нуклеиновых кислот с двумя индексами, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, a second compartment-specific index sequence to obtain nucleic acids with two indices present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию;where the processing includes ligation, primer extension, hybridization, amplification or transposition;
(g) объединение ядер или клеток с двумя индексами с получением объединенных ядер или клеток с двумя индексами;(g) combining nuclei or cells with two indices to obtain combined nuclei or cells with two indices;
(h) распределение объединенных ядер или клеток с двумя индексами по третьему множеству компартментов,(h) the distribution of the combined nuclei or cells with two indices across the third set of compartments,
где каждый компартмент содержит субпопуляцию ядер или клеток;where each compartment contains a subpopulation of nuclei or cells;
(i) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением ядер или клеток с тремя индексами,(i) processing DNA molecules in each subset of nuclei or cells to obtain nuclei or cells with three indices,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, третьей компартмент-специфической индексной последовательности с получением нуклеиновых кислот с тремя индексами, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, a third compartment-specific index sequence to obtain nucleic acids with three indices present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию; иwhere the processing includes ligation, primer extension, hybridization, amplification or transposition; and
(j) объединение ядер или клеток с тремя индексами с получением объединенных ядер или клеток с тремя индексами.(j) combining nuclei or cells with three indices to obtain combined nuclei or cells with three indices.
[00266] Вариант 44. Способ получения библиотеки для секвенирования, содержащей нуклеиновые кислоты, происходящие из множества отдельных ядер или клеток, где указанный способ включает:[00266]
(a) получение множества ядер или клеток;(a) obtaining a plurality of nuclei or cells;
(b) контактирование множества ядер или клеток с обратной транскриптазой и праймером, с получением двухцепочечных нуклеиновых кислот ДНК, содержащих праймер, и соответствующей нуклеотидной последовательности ДНК из матричных нуклеиновых кислот РНК;(b) contacting a plurality of nuclei or cells with a reverse transcriptase and a primer to produce double-stranded DNA nucleic acids containing the primer and the corresponding DNA nucleotide sequence from the RNA template nucleic acids;
(c) распределение ядер или клеток по первому множеству компартментов,(c) the distribution of nuclei or cells in the first set of compartments,
где каждый компартмент содержит субпопуляцию ядер или клеток;where each compartment contains a subpopulation of nuclei or cells;
(d) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением индексированных ядер или клеток,(d) processing DNA molecules in each subset of nuclei or cells to obtain indexed nuclei or cells,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, первой компартмент-специфической индексной последовательности с получением индексированных нуклеиновых кислот, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, the first compartment-specific index sequence to obtain indexed nucleic acids present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию;where the processing includes ligation, primer extension, hybridization, amplification or transposition;
(e) объединение индексированных ядер или клеток с получением объединенных индексированных ядер или клеток;(e) combining indexed nuclei or cells to form combined indexed nuclei or cells;
(f) распределение объединенных индексированных ядер или клеток по второму множеству компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток;(f) distributing the pooled indexed nuclei or cells across a second set of compartments, where each compartment contains a subset of nuclei or cells;
(g) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением ядер или клеток с двумя индексами,(g) processing DNA molecules in each subset of nuclei or cells to obtain nuclei or cells with two indices,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в каждой субпопуляции ядер или клеток, второй компартмент-специфической индексной последовательности с получением нуклеиновых кислот с двумя индексами, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in each subset of nuclei or cells, a second compartment-specific index sequence to obtain nucleic acids with two indices present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию;where the processing includes ligation, primer extension, hybridization, amplification or transposition;
(h) объединение ядер или клеток с двумя индексами с получением объединенных ядер или клеток с двумя индексами;(h) combining nuclei or cells with two indices to obtain combined nuclei or cells with two indices;
(i) распределение объединенных ядер или клеток с двумя индексами по третьему множеству компартментов, где каждый компартмент содержит субпопуляцию ядер или клеток;(i) distributing pooled nuclei or cells with two indices across a third set of compartments, where each compartment contains a subset of nuclei or cells;
(j) обработку молекул ДНК в каждой субпопуляции ядер или клеток с получением ядер или клеток с тремя индексами,(j) processing DNA molecules in each subset of nuclei or cells to obtain nuclei or cells with three indices,
где обработка включает добавление к нуклеиновым кислотам ДНК, присутствующим в субпопуляциях ядер или клеток, третьей компартмент-специфической индексной последовательности с получением нуклеиновых кислот с тремя индексами, присутствующих в индексированных ядрах или клетках,where the processing includes adding to the DNA nucleic acids present in subpopulations of nuclei or cells, a third compartment-specific index sequence to obtain nucleic acids with three indices present in the indexed nuclei or cells,
где обработка включает лигирование, удлинение праймера, гибридизацию, амплификацию или транспозицию; иwhere the processing includes ligation, primer extension, hybridization, amplification or transposition; and
(k) объединение ядер или клеток с тремя индексами с получением объединенных ядер или клеток с тремя индексами.(k) merging nuclei or cells with three indices to obtain combined nuclei or cells with three indices.
[00267] Вариант 45. Способ любого из вариантов 43 или 44, где праймер гибридизуется с нуклеиновыми кислотами РНК с образованием двухцепочечных нуклеиновых кислот ДНК, содержащих праймер, и соответствующей нуклеотидной последовательности ДНК из матричных молекул РНК.[00267] Option 45. The method of any of
[00268] Вариант 46. Способ любого из вариантов 43-45, где праймер содержит поли-Т-нуклеотидную последовательность, которая гибридизуется с поли(А)-хвостом мРНК.[00268]
[00269] Вариант 47. Способ любого из вариантов 43-46, где контактирование также включает контактирование субпопуляций со вторым праймером, где второй праймер содержит[00269]
последовательность, которая гибридизуется с предварительно определенной нуклеиновой кислотой ДНК.a sequence that hybridizes to a predetermined DNA nucleic acid.
[00270] Вариант 48. Способ любого из вариантов 43-47, где второй праймер содержит компартмент-специфический индекс.[00270]
[00271] Вариант 49. Способ любого из вариантов 43-45, где праймер содержит последовательность, которая гибридизуется с предварительно определенной нуклеиновой кислотой РНК.[00271]
[00272] Вариант 50. Способ любого из вариантов 43-49, где предварительно определенной нуклеиновой кислотой РНК является мРНК.[00272]
[00273] Вариант 51. Способ любого из вариантов 43-50, где праймер включает праймер переключения матрицы.[00273]
[00274] Вариант 52. Способ любого из вариантов 43-51, где обработка для добавления одной или более первой, второй или третьей компартмент-специфической индексной последовательности включает двухстадийный способ добавления нуклеотидной последовательности, содержащей универсальную последовательность, к нуклеиновым кислотам, а затем добавление первой компартмент-специфической индексной последовательности к нуклеиновым кислотам ДНК.[00274]
[00275] Вариант 53. Способ любого из вариантов 43-52, где праймер содержит первую компартмент-специфическую индексную последовательность.[00275]
[00276] Вариант 54. Способ любого из вариантов 43-53, дополнительно включающий, перед контактированием, мечение вновь синтезированной РНК в субпопуляциях клеток или ядер, выделенных из клеток.[00276] Option 54. The method of any of options 43-53, further comprising, before contacting, labeling newly synthesized RNA in subpopulations of cells or nuclei isolated from cells.
[00277] Вариант 55. Способ любого из вариантов 43-54, где уже существующие нуклеиновые кислоты РНК и вновь синтезированные нуклеиновые кислоты РНК помечены одинаковыми индексами в одном и том же компартменте.[00277]
[00278] Вариант 56. Способ любого из вариантов 43-55, где мечение включает инкубирование множества ядер или клеток в композиции, содержащей нуклеотидную метку, где нуклеотидная метка включена во вновь синтезированную РНК.[00278]
[00279] Вариант 57. Способ любого из вариантов 43-56, где нуклеотидная метка содержит нуклеотидный аналог, меченный гаптеном нуклеотид, мутагенный нуклеотид или нуклеотид, который может быть модифицирован посредством химической реакции.[00279]
[00280] Вариант 58. Способ любого из вариантов 43-57, где более чем одна нуклеотидная метка включена во вновь синтезированную РНК.[00280]
[00281] Вариант 59. Способ любого из вариантов 43-58, где отношения нуклеотидной метки или меток отличаются для различных компартментов или моментов времени.[00281]
[00282] Вариант 60. Способ любого из вариантов 43-59, также включающий обработку субпопуляций ядер или клеток компартментов в предварительно определенных условиях перед мечением.[00282]
[00283] Вариант 61. Способ любого из вариантов 43-60, где предварительно определенное условие включает обработку агентом.[00283]
[00284] Вариант 62. Способ любого из вариантов 43-61, где агент включает белок, не-рибосомный белок, поликетид, органическую молекулу, неорганическую молекулу, молекулу РНК или РНКи, углевод, гликопротеин, нуклеиновую кислоту или их комбинацию.[00284]
[00285] Вариант 63. Способ любого из вариантов 43-62, где агент включает терапевтическое лекарственное средство.[00285]
[00286] Вариант 64. Способ любого из вариантов 43-63, где предварительно определенные условия двух или более компартментов являются различными.[00286]
[00287] Вариант 65. Способ любого из вариантов 43-64, где обработку и мечение проводят одновременно или обработку проводят до мечения.[00287]
[00288] Вариант 66. Способ любого из вариантов 43-65, где одно или более распределений включают разведение.[00288]
[00289] Вариант 67. Способ любого из вариантов 43-65, где одно или более распределений включают сортинг.[00289]
[00290] Вариант 68. Способ любого из вариантов 43-67, где добавление одной или более из первой, второй или третьей компартмент-специфических индексных последовательностей включает контактирование субпопуляций со шпилечным лигирующим дуплексом в условиях, подходящих для лигирования шпилечного лигирующего дуплекса с концом фрагментов нуклеиновой кислоты.[00290]
[00291] Вариант 69. Способ любого из вариантов 43-68, где добавление одной или более из первой, второй или третьей компартмент-специфических индексных последовательностей включает контактирование фрагментов нуклеиновой кислоты с транспосомным комплексом, где транспосомный комплекс в компартментах содержит транспозазу и универсальную последовательность, где контактирование также включает условия, подходящие для фрагментации фрагментов нуклеиновой кислоты и включения нуклеотидной последовательности во фрагменты нуклеиновой кислоты.[00291] Option 69. The method of any of options 43-68, wherein adding one or more of the first, second, or third compartment-specific index sequences comprises contacting nucleic acid fragments with a transposome complex, where the transposome complex in the compartments contains a transposase and a universal sequence, where contacting also includes conditions suitable for fragmenting nucleic acid fragments and incorporating the nucleotide sequence into nucleic acid fragments.
[00292] Вариант 70. Способ любого из вариантов 43-69, где добавление первого или второго компартмент-специфического индекса включает лигирование, а добавление последующей компартмент-специфической индексной последовательности включает транспозицию.[00292] Option 70. The method of any of options 43-69, wherein adding the first or second compartment-specific index involves ligation and adding a subsequent compartment-specific index sequence involves transposition.
[00293] Вариант 71. Способ любого из вариантов 43-70, где компартмент включает лунку или каплю.[00293] Option 71. The method of any of options 43-70, where the compartment includes a well or drop.
[00294] Вариант 72. Способ любого из вариантов 43-71, где компартменты первого множества компартментов содержат от 50 до 100000000 ядер или клеток.[00294]
[00295] Вариант 73. Способ любого из вариантов 43-72, где компартменты второго множества компартментов содержат от 50 до 100000000 ядер или клеток.[00295] Option 73. The method of any of options 43-72, where the compartments of the second set of compartments contain from 50 to 100,000,000 nuclei or cells.
[00296] Вариант 74. Способ любого из вариантов 43-73, где компартменты третьего множества компартментов содержат от 50 до 100000000 ядер или клеток.[00296] Option 74. The method of any of options 43-73, where the compartments of the third set of compartments contain from 50 to 100,000,000 nuclei or cells.
[00297] Вариант 75. Способ любого из вариантов 43-74, дополнительно включающий получение нуклеиновых кислот с тремя индексами из объединенных ядер или клеток с тремя индексами, и тем самым получение библиотеки для секвенирования из множества ядер или клеток.[00297] Option 75. The method of any of embodiments 43-74, further comprising obtaining tri-index nucleic acids from tri-index pooled nuclei or cells, and thereby obtaining a sequencing library from multiple nuclei or cells.
[00298] Вариант 76. Способ любого из вариантов 43-76, дополнительно включающий:[00298] Option 76. The method of any of options 43-76, further comprising:
получение поверхности, содержащей множество сайтов амплификации,obtaining a surface containing a plurality of amplification sites,
где сайты амплификации включают по меньшей мере две популяции связанных одноцепочечных олигонуклеотидов для захвата, имеющих свободный 3'-конец, иwhere the sites of amplification include at least two populations of linked single-stranded capture oligonucleotides having a free 3' end, and
контактирование поверхности, содержащей сайты амплификации, с фрагментами нуклеиновой кислоты с тремя индексами в условиях, подходящих для получения множества сайтов амплификации, каждый из которых содержит клональную популяцию ампликонов, из отдельного фрагмента, содержащего множество индексов.contacting a surface containing amplification sites with nucleic acid fragments with three indexes under conditions suitable for obtaining a plurality of amplification sites, each containing a clonal population of amplicons, from a single fragment containing a plurality of indices.
[00299] Вариант 77. Способ получения библиотеки для секвенирования, содержащей нуклеиновые кислоты, из множества отдельных клеток, где указанный способ включает:[00299] Option 77. A method of obtaining a sequencing library containing nucleic acids from a plurality of individual cells, where the method includes:
(a) получение ядер из множества клеток;(a) obtaining nuclei from a plurality of cells;
(b) распределение субпопуляций ядер по первому множеству компартментов и контактирование каждой субпопуляции с обратной транскриптазой и праймером, где праймер в каждом компартменте содержит первую индексную последовательность, которая отличается от первых индексных последовательностей в других компартментах, с получением индексированных ядер содержащих индексированные фрагменты нуклеиновых кислот;(b) distributing nuclear subpopulations across a first plurality of compartments and contacting each subpopulation with a reverse transcriptase and a primer, where the primer in each compartment contains a first index sequence that is different from first index sequences in other compartments, to obtain indexed nuclei containing indexed nucleic acid fragments;
(c) объединение индексированных ядер с получением объединенных индексированных ядер;(c) combining indexed kernels to obtain combined indexed kernels;
(d) распределение субпопуляций объединенных индексированных ядер по второму множеству компартментов и контактирование каждой субпопуляции со шпилечным лигирующим дуплексом в условиях, подходящих для лигирования шпилечного лигирующего дуплекса с концом индексированных фрагментов нуклеиновой кислоты, содержащих первую индексную последовательность, с получением ядер с двумя индексами, содержащих фрагменты нуклеиновой кислоты с двумя индексами, где шпилечный лигирующий дуплекс содержит вторую индексную последовательность, отличающуюся от вторых индексных последовательностей в других компартментах;(d) allocating subpopulations of the pooled indexed nuclei to a second plurality of compartments and contacting each subpopulation with the hairpin ligation duplex under conditions suitable for ligating the hairpin ligation duplex to the end of the indexed nucleic acid fragments containing the first index sequence to produce dual-index nuclei containing the fragments a nucleic acid with two indexes, where the hairpin ligation duplex contains a second index sequence different from the second index sequences in other compartments;
(e) объединение ядер с двумя индексами с получением объединенных ядер с двумя индексами;(e) merging the 2-index kernels to produce merged 2-index kernels;
(f) распределение субпопуляций объединенных ядер с двумя индексами по третьему множеству компартментов и обработку фрагментов нуклеиновой кислоты с двумя индексами в условиях, подходящих для синтеза второй цепи;(f) distributing the subpopulations of the dual-index pooled nuclei across a third set of compartments and processing the dual-index nucleic acid fragments under conditions suitable for second strand synthesis;
(g) контактирование фрагментов нуклеиновой кислоты с двумя индексами с транспосомным комплексом, где транспосомный комплекс в каждом компартменте содержит транспозазу и универсальную последовательность, где контактирование включает условия, подходящие для фрагментации фрагментов нуклеиновой кислоты с двумя индексами и включения универсальной последовательности во фрагменты нуклеиновой кислоты с двумя индексами с получением фрагментов нуклеиновой кислоты с двумя индексами, содержащих первый и второй индексы на одном конце и универсальную последовательность на другом конце;(g) contacting the two-index nucleic acid fragments with a transposome complex, wherein the transposome complex in each compartment contains a transposase and a universal sequence, where the contacting includes conditions suitable for fragmenting the two-index nucleic acid fragments and incorporating the universal sequence into the two-index nucleic acid fragments. indices to obtain nucleic acid fragments with two indices, containing the first and second indices at one end and the universal sequence at the other end;
(h) включение во фрагменты нуклеиновой кислоты с двумя индексами в каждом компартменте третьей индексной последовательности с получением фрагментов с тремя индексами;(h) inserting into nucleic acid fragments with two indexes in each compartment a third index sequence to obtain fragments with three indexes;
(i) объединение фрагментов с тремя индексами с получением библиотеки для секвенирования, содержащей нуклеиновые кислоты транскриптома, из множества отдельных клеток.(i) combining fragments with three indexes to obtain a sequencing library containing transcriptome nucleic acids from a plurality of individual cells.
[00300] Вариант 78. Способ варианта 77, где праймер содержит поли-Т-нуклеотидную последовательность, которая гибридизуется с поли(А)-хвостом мРНК.[00300] Option 78. The method of option 77, wherein the primer contains a poly-T nucleotide sequence that hybridizes to the poly(A) tail of the mRNA.
[00301] Вариант 79. Способ вариантов 77-78, где праймер каждого компартмента содержит последовательность, которая гибридизуется с предварительно определенной мРНК.[00301] Option 79. The method of options 77-78, where the primer of each compartment contains a sequence that hybridizes to a predetermined mRNA.
[00302] Вариант 80. Способ любого из вариантов 77-79, где способ включает праймеры в различных компартментах, которые гибридизуются с различными нуклеотидами одной и той же предварительно определенной мРНК.[00302]
[00303] Вариант 81. Способ получения библиотеки для секвенирования транскриптома, содержащей нуклеиновые кислоты, из множества отдельных клеток, где указанный способ включает:[00303] Option 81. A method of obtaining a transcriptome sequencing library containing nucleic acids from a plurality of single cells, wherein said method comprises:
(a) получение объединенных ядер из множества клеток;(a) obtaining pooled nuclei from a plurality of cells;
(b) контактирование объединенных ядер с обратной транскриптазой и праймером, содержащим последовательность олиго-dT, которая гибридизуется с поли(А)-хвостом мРНК с образованием объединенных ядер, содержащих фрагменты нуклеиновой кислоты;(b) contacting the pooled nuclei with reverse transcriptase and a primer containing the oligo-dT sequence, which hybridizes to the mRNA poly(A) tail to form pooled nuclei containing nucleic acid fragments;
(c) распределение субпопуляций объединенных ядер по множеству компартментов и контактирование каждой субпопуляции со шпилечным лигирующим дуплексом в условиях, подходящих для лигирования шпилечного лигирующего дуплекса с концом фрагментов нуклеиновой кислоты с получением индексированных ядер, содержащих индексированные фрагменты нуклеиновой кислоты, где шпилечный лигирующий дуплекс содержит индексную последовательность, отличающуюся от индексных последовательностей в других компартментах;(c) distributing subpopulations of pooled nuclei across a plurality of compartments and contacting each subpopulation with a hairpin ligation duplex under conditions suitable for ligating the hairpin ligation duplex to the end of the nucleic acid fragments to produce indexed nuclei containing indexed nucleic acid fragments, where the hairpin ligation duplex contains an index sequence , different from index sequences in other compartments;
(d) объединение индексированных ядер с получением объединенных индексированных ядер;(d) combining indexed kernels to obtain combined indexed kernels;
(e) распределение субпопуляций объединенных индексированных ядер по второму множеству компартментов и обработку индексированных фрагментов нуклеиновой кислоты в условиях, подходящих для синтеза второй цепи;(e) allocating subpopulations of the pooled indexed nuclei to a second set of compartments and processing the indexed nucleic acid fragments under conditions suitable for second strand synthesis;
(f) контактирование индексированных фрагментов нуклеиновой кислоты с транспосомным комплексом, где транспосомный комплекс в каждом компартменте содержит транспозазу и универсальную последовательность, где контактирование включает условия, подходящие для фрагментации индексированных фрагментов нуклеиновой кислоты и включения универсальной последовательности в индексированные фрагменты нуклеиновой кислоты с получением индексированных фрагментов нуклеиновой кислоты, содержащих индекс на одном конце и универсальную последовательность на другом конце;(f) contacting the indexed nucleic acid fragments with a transposome complex, where the transposome complex in each compartment contains a transposase and a universal sequence, where the contacting includes conditions suitable for fragmenting the indexed nucleic acid fragments and incorporating the universal sequence into the indexed nucleic acid fragments to obtain indexed nucleic acid fragments acids containing an index at one end and a universal sequence at the other end;
(g) включение в индексированные фрагменты нуклеиновой кислоты в каждом компартменте второй индексной последовательности с получением фрагментов с двумя индексами;(g) inserting into the indexed nucleic acid fragments in each compartment a second index sequence to produce fragments with two indexes;
(j) объединение фрагментов с двумя индексами с получением библиотеки для секвенирования, содержащей нуклеиновые кислоты транскриптома, из множества отдельных клеток.(j) combining fragments with two indexes to obtain a sequencing library containing transcriptome nucleic acids from a plurality of individual cells.
[00304] Вариант 82. Способ выделения ядер, включающий:[00304]
(a) мгновенное замораживание ткани в жидком азоте;(a) flash freezing the tissue in liquid nitrogen;
(b) уменьшение размера ткани для получения обработанной ткани; и(b) reducing the size of the tissue to obtain a treated tissue; and
(c) извлечение ядер из обработанной ткани путем инкубирования в буфере, который стимулирует лизис клеток и сохраняет целостность ядер в отсутствие одного или более экзогенных ферментов.(c) recovering nuclei from the treated tissue by incubation in a buffer that stimulates cell lysis and maintains the integrity of the nuclei in the absence of one or more exogenous enzymes.
[00305] Вариант 83. Способ варианта 82, где указанное уменьшение размера включает измельчение ткани, воздействие на ткань физической силы или их комбинацию.[00305] Embodiment 83. The method of
[00306] Вариант 84. Способ варианта 82 или 83, дополнительно содержащий:[00306]
(d) обработку извлеченных ядер перекрестносшивающим агентом с получением фиксированных ядер; и(d) treating the recovered nuclei with a cross-linking agent to obtain fixed nuclei; and
(е) промывку фиксированных ядер.(e) washing fixed cores.
[00307] Вариант 85. Набор для его применения в целях получения библиотеки для секвенирования, где указанный набор включает нуклеотидную метку и по меньшей мере один фермент, который опосредует лигирование, удлинение праймера или амплификацию.[00307] Option 85. A kit for its use in order to obtain a library for sequencing, where the specified kit includes a nucleotide tag and at least one enzyme that mediates ligation, primer extension or amplification.
[00308] Вариант 86. Набор для его применения в целях получения библиотеки для секвенирования, где указанный набор включает праймер, который гибридизуется с предварительно определенной нуклеиновой кислотой, и по меньшей мере один фермент, который опосредует лигирование, удлинение праймера или амплификацию.[00308] Option 86. A kit for its use in order to obtain a sequencing library, where the specified kit includes a primer that hybridizes to a predetermined nucleic acid, and at least one enzyme that mediates ligation, primer extension or amplification.
ПримерыExamples
[00309] Настоящее изобретение проиллюстрировано на следующих примерах. Следует отметить, что конкретные примеры, материалы, количества и процедуры должны интерпретироваться в широком смысле в соответствии с объемом и сущностью раскрытого здесь изобретения.[00309] The present invention is illustrated by the following examples. It should be noted that specific examples, materials, quantities and procedures should be interpreted in a broad sense in accordance with the scope and essence of the invention disclosed here.
Пример 1Example 1
[00310] Динамический паттерн транскрипции при органогенезе млекопитающих с разрешением отдельных клеток.[00310] Dynamic transcription pattern in mammalian organogenesis with single cell resolution.
[00311] В процессе органогенеза млекопитающих, клетки трех зародышевых слоев трансформируются в эмбрион, который включает большинство основных внутренних и внешних органов. Ключевые регуляторы дефектов развития могут быть исследованы на этой важной стадии, но современные технологии не обладают пропускной способностью и разрешением, достаточными для получения общей информации о молекулярных состояниях и траекториях быстро диверсифицирующегося и расширяющегося числа клеток различных типов. Авторами была предпринята попытка исследовать динамику транскрипции при развитии мышей во время органогенеза при разрешении отдельных клеток. После усовершенствования протокола на основе комбинаторной индексации отдельных клеток («sci-РНК-seq3»), авторами был определен профиль свыше 2 миллионов клеток, полученных из 61 эмбриона мыши, на стадии беременности на дни 9,5-13,5 (Е9.5-Е13.5; 10-15 повторов в каждый момент времени). Авторами были идентифицированы сотни клеток расширяющихся, сжимающихся и переходных типов, многие из которых детектируются только по определенной здесь глубине сканирующего охвата клеток, и были определены соответствующие наборы генов-маркеров, специфичных к клеткам конкретного типа, Некоторые из которых были подтверждены авторами по общему уровню их гибридизация in situ. Авторами была исследована динамика пролиферации и экспрессии генов в клетках конкретных типов в течение определенного периода времени, включая направленные анализы только апикального эктодермального гребня, мезенхимы конечностей и скелетных мышц. С использованием нового алгоритма, авторами были идентифицированы основные пути развития отдельных клеток в процессе мышиного органогенеза, и в них были обнаружены примеры различных путей достижения одной и той же конечной точки, то есть разветвления и конвергенции. Эти данные составляют основной ресурс в биологии развития млекопитающих и представлены так, чтобы облегчить понимание информации, постоянно комментируемой учеными.[00311] During mammalian organogenesis, the cells of the three germ layers transform into an embryo that includes most of the major internal and external organs. Key regulators of developmental defects can be explored at this important stage, but current technologies lack the throughput and resolution sufficient to provide general information about the molecular states and trajectories of a rapidly diversifying and expanding number of different cell types. The authors attempted to investigate the dynamics of transcription during the development of mice during organogenesis with resolution of individual cells. After improving the protocol based on combinatorial indexing of single cells (“sci-RNA-seq3”), the authors profiled over 2 million cells obtained from 61 mouse embryos at the gestation stage at days 9.5-13.5 (E9.5 -E13.5; 10-15 repetitions at each time point). The authors have identified hundreds of cells of expanding, contracting and transitional types, many of which are detected only by the depth of scanning coverage of cells defined here, and the corresponding sets of marker genes specific to cells of a particular type have been identified, some of which were confirmed by the authors by the general level of their hybridization in situ. The authors investigated the dynamics of proliferation and expression of genes in specific cell types over a certain period of time, including targeted analyzes of only the apical ectodermal ridge, limb mesenchyme, and skeletal muscle. Using the new algorithm, the authors identified the main developmental pathways of individual cells during murine organogenesis and found examples of different pathways to reach the same endpoint, i.e. branching and convergence. These data constitute a major resource in mammalian developmental biology and are presented in a way that makes it easier to understand the information that scientists are constantly commenting on.
[00312] Введение[00312] Introduction
[00313] Органогенез млекопитающих является удивительным процессом. В течение короткого промежутка времени, клетки трех зародышевых слоев превращаются в сформировавшийся эмбрион, который включает большинство основных внутренних и внешних органов. Хотя человеческие эмбрионы на очень ранней стадии могут быть культивированы и исследованы in vitro1, однако, доступ к материалам, соответствующим более поздним стадиям эмбрионального развития человека, ограничен. А поэтому, большинство исследований органогенеза млекопитающих проводится на организмах-моделях, а, в частности, на мышах.[00313] Mammalian organogenesis is an amazing process. Within a short period of time, the cells of the three germ layers develop into a mature embryo, which includes most of the major internal and external organs. Although human embryos at a very early stage can be cultured and examined in vitro 1 , however, access to materials corresponding to the later stages of human embryonic development is limited. And therefore, most studies of mammalian organogenesis are carried out on model organisms, and, in particular, on mice.
[00314] По сравнению с людьми, мыши развиваются быстро, всего лишь 21 день между оплодотворением и рождением детенышей. Имплантация мышиных бластоцистов (32-64 клетки) происходит на 4-й день эмбриогенеза (Е4.0). За этой стадией следует гаструляция и образование первичных зародышевых слоев (Е6.5-Е7.5; 660-15К клеток)2,3. В течение этого периода времени происходит образование примитивных полос и распределение отдельных линий дифференцировки эмбриона от передней до задней области4. На ранних стадиях сомита (Е8.0-Е8.5), эмбрион переходит от гаструляции к раннему органогенезу, ассоциированному с формированием нервной пластинки и сердечной трубки (клетки 60К-90К). Классический органогенез начинается на стадии Е9.5. В последующие четыре дня (Е9.5-Е13.5), эмбрион мыши развивается от нескольких сотен тысяч клеток до более чем десяти миллионов клеток, и одновременно развиваются сенсорные органы, желудочно-кишечный тракт и органы дыхания, спинной мозг, скелетная система и кроветворная система. Неудивительно, что этот важный период развития мышей был интенсивно изучен. Действительно, большинство ключевых регуляторов дефектов развития могут быть изучены в течение этого периода времени5,6.[00314] Compared to humans, mice develop rapidly, with only 21 days between fertilization and birth. Implantation of mouse blastocysts (32-64 cells) occurs on the 4th day of embryogenesis (E4.0). This stage is followed by gastrulation and the formation of primary germ layers (E6.5-E7.5; 660-15K cells) 2,3 . During this period of time, the formation of primitive bands and the distribution of individual lines of differentiation of the embryo from the anterior to the posterior region 4 occur. In the early somite stages (E8.0-E8.5), the embryo transitions from gastrulation to early organogenesis associated with the formation of the neural plate and cardiac tube (60K-90K cells). Classical organogenesis begins at the E9.5 stage. In the next four days (E9.5-E13.5), the mouse embryo develops from a few hundred thousand cells to more than ten million cells, and sensory organs, the gastrointestinal tract and respiratory organs, the spinal cord, the skeletal system, and the hematopoietic system develop simultaneously. system. Not surprisingly, this important developmental period in mice has been intensively studied. Indeed, most of the key regulators of developmental defects can be studied during this time period 5,6 .
[00315] Общепринятая парадигма исследования органогенеза у мышей включает акцентирование внимания на отдельной системе органов на ограниченной стадии развития и объединение исследований по нокауту генов с фенотипированием по анатомической морфологии, гибридизацией in situ, иммуногистохимией7,8 или, совсем недавно, с профилированием транскриптома или эпигенома9. Хотя такие целенаправленные исследования позволили получить фундаментальное представление о развитии млекопитающих, однако, современные технологии не обладают пропускной способностью и разрешением, достаточными для получения общей информации о динамических молекулярных процессах, происходящих в разнообразных и быстро растущих популяциях и субпопуляциях клеток во время органогенеза.[00315] A common paradigm for the study of organogenesis in mice involves focusing on a single organ system at a limited developmental stage and combining gene knockout studies with anatomical morphology phenotyping, in situ hybridization, immunohistochemistry 7,8 or, more recently, transcriptome or epigenome profiling 9 . Although such targeted studies have provided fundamental insights into mammalian development, however, current technologies do not have sufficient bandwidth and resolution to provide general information about the dynamic molecular processes that occur in diverse and rapidly growing populations and subpopulations of cells during organogenesis.
[00316] «Профилирование методом дробовика», относящееся к молекулярному содержимому отдельных клеток, представляет собой перспективный путь для решения этих проблем и дальнейшего углубления понимания пути развития млекопитающих. Так, например, применение методов секвенирования PHK-seq отдельных клеток недавно выявило высокую гетерогенность в нейронах и миокардиоцитах во время развития мышей10,11. Хотя недавно было издано два транскрипционных атласа отдельных клеток мышей и были представлены важные ресурсы для области12,13, однако, они, в основном, ограничены органами взрослых особей, и пока еще не были предприняты попытки охарактеризовать появление и временную динамику типов клеток млекопитающих во время их развития.[00316] "Shotgun profiling", referring to the molecular content of individual cells, is a promising avenue to address these issues and further advance understanding of the mammalian developmental pathway. For example, single cell RNA-seq sequencing techniques have recently revealed high heterogeneity in neurons and myocardiocytes during development in mice 10,11 . Although two transcription atlases of individual mouse cells have recently been published and provided important resources for the field, 12,13 they are mostly limited to adult organs and no attempt has yet been made to characterize the emergence and temporal dynamics of mammalian cell types during their development.
[00317] Комбинаторная индексация отдельных клеток («sci-») представляет собой методологическую основу, в которой используется штриховое кодирование с разделением-объединением для уникального мечения состава нуклеиновых кислот в большом количестве отдельных клеток или ядер14,21. Недавно авторами был разработан «sci-протокол» для транскриптомов («sci-PHK-seq»), и этот протокол был применен для создания 50-кратного «клеточного охвата» методом «дробовика» для нематод Caenorhabditis elegans на стадии L219. Хотя пропускная способность sci-»-методов возрастает экспоненциально с увеличением числа раундов индексации, однако, этот потенциал еще предстоит полностью реализовать в отношении других факторов, таких как скорость потери клеток и ограниченная эффективность реакции на некоторых этапах19,21. Чтобы решить эту проблему, авторами был разработан и тщательно оптимизирован 3-уровневый метод sci-PHK-seq (sci-PHK-seq3), в результате чего был разработан рабочий протокол, который позволяет определить профиль более одного миллиона клеток на эксперимент. Как было показано ранее19, множественные выборки (например, реплики, моменты времени и т.п.) могут быть подвергнуты штриховому кодированию во время первого раунда индексации и одновременно обработаны.[00317] Single cell combinatorial indexing ("sci-") is a methodological framework that uses split-merge barcoding to uniquely label the composition of nucleic acids in a large number of single cells or nuclei 14,21 . Recently, a "sci-protocol" for transcriptomes ("sci-PHK-seq") has been developed by the authors, and this protocol has been applied to create a 50-fold "cell coverage" by the "shotgun" method for the L2 stage nematodes Caenorhabditis elegans 19 . Although the throughput of sci-'-methods increases exponentially with increasing number of indexing rounds, however, this potential has yet to be fully realized with respect to other factors such as the rate of cell loss and limited reaction efficiency at some steps 19,21 . To solve this problem, the authors developed and carefully optimized the 3-level sci-PHK-seq (sci-PHK-seq3) method, resulting in a working protocol that allows profiling over one million cells per experiment. As shown previously 19 , multiple samples (eg, cues, time points, etc.) can be barcoded during the first round of indexing and processed simultaneously.
[00318] В данном случае, авторами была предпринята попытка исследовать транскрипционную динамику развития мышей во время органогенеза при разрешении отдельных клеток с использованием sci-PHK-seq3. В одном эксперименте, авторами был определен профиль более 2 миллионов отдельных клеток, полученных из 61 эмбриона мыши на стадии между Е9.5-Е13.5 (10-15 повторов в каждый момент времени). Исходя из этих данных, авторами было идентифицировано 38 основных типов клеток, а также более 600 клеток более гранулярных типов (называемых здесь «подтипами», чтобы отличить их от 38 основных типов клеток). В целом, авторами были обнаружены тысячи новых генов-кандидатов для клеток определенных типов и подтипов, которые были подтверждены авторами как репрезентативные примеры по общему уровню их гибридизации in situ. Авторами была количественно оценена динамика пролиферации и экспрессии генов в клетках размножающихся и транзиентных типов во втором триместре беременности, включая целевые анализы только апикального эктодермального гребня, мезенхимы конечностей и скелетных мышц. С использованием нового алгоритма, авторами были[00318] In this case, the authors attempted to investigate the transcriptional developmental dynamics of mice during organogenesis in single cell resolution using sci-RNA-seq3. In one experiment, the authors profiled over 2 million individual cells obtained from 61 mouse embryos between E9.5-E13.5 (10-15 repeats at each time point). Based on these data, the authors identified 38 major cell types, as well as more than 600 more granular cell types (referred to here as "subtypes" to distinguish them from the 38 major cell types). In general, the authors have discovered thousands of new candidate genes for certain cell types and subtypes, which were confirmed by the authors as representative examples of their overall level of in situ hybridization. The authors quantified the dynamics of proliferation and gene expression in proliferating and transient cells in the second trimester of pregnancy, including targeted analyzes of only the apical ectodermal ridge, limb mesenchyme, and skeletal muscle. Using the new algorithm, the authors were
идентифицированы основные пути развития отдельных клеток в процессе мышиного органогенеза, и в них были обнаружены примеры различных путей достижения одной и той же конечной точки, то есть, разветвления и конвергенции. Эти данные имеются в свободном доступе и представлены так, чтобы облегчить понимание информации, постоянно комментируемой учеными.the main developmental pathways of individual cells during murine organogenesis have been identified and examples of different pathways to reach the same endpoint, ie, branching and convergence, have been found. These data are freely available and are presented in a way that makes it easier to understand the information constantly commented on by scientists.
[00319] Результаты[00319] Results
[00320] Профилирование 2 миллионов клеток из 61 мышиного эмбриона на 5 стадиях развития с помощью sci-PHK-seq3[00320]
[00321] Для увеличения пропускной способности sci-PHK-seq, авторами было исследовано свыше 1000 экспериментальных условий. Что касается первоначального описания авторами данного метода19, то основные усовершенствования, введенные с помощью sci-PHK-seq3 (фиг. 4А, Методы), заключаются в том, что: (i) Авторами была разработана новая стратегия выделения и фиксации ядер, где ядра выделяют непосредственно из свежих тканей без какой-либо ферментативной обработки. Ядра, после их выделения, фиксируют в 4% параформальдегиде, и эти ядра могут храниться в жидком азоте до следующей обработки (ii). По сравнению с предыдущим описанием 3-уровневого индексирования19, авторы перешли от индексированного мечения Tn5 к индексированному шпилечному лигированию. (iii) Несколько отдельных реакций, например, реакция обратной транскрипции были дополнительно оптимизированы для повышения эффективности. (iv) Стадию FACS-сортинга не проводили, а для минимизации агрегации ядер проводили стадии обработки ультразвуком и фильтрации. Стадии получения библиотеки sci-PHK-seq3 могут быть завершены одним человеком за одну неделю, и значительно превышают «экспериментальную» пропускную способность альтернативных протоколов sc-PHK-seq (фиг. 4В).[00321] To increase the throughput of sci-PHK-seq, over 1000 experimental conditions were investigated by the authors. Regarding the authors' original description of this method 19 , the main improvements introduced with sci-PHK-seq3 (Fig. 4A, Methods) are that: (i) The authors developed a new strategy for isolating and fixing nuclei, where nuclei isolated directly from fresh tissue without any enzymatic treatment. The nuclei, after being isolated, are fixed in 4% paraformaldehyde and these nuclei can be stored in liquid nitrogen until the next treatment (ii). Compared to the previous description of 3-level indexing 19 , the authors have moved from indexed Tn5 labeling to indexed hairpin ligation. (iii) Several individual reactions, such as the reverse transcription reaction, were further optimized for efficiency. (iv) No FACS sorting step was performed, and sonication and filtration steps were performed to minimize nuclear aggregation. The sci-PHK-seq3 library preparation steps can be completed by one person in one week, and far exceed the "experimental" throughput of alternative sc-RNA-seq protocols (FIG. 4B).
[00322] Авторами были собраны эмбрионы мышей C57BL/6 между Е9.5-Е13.5, и мгновенно заморожены в жидком азоте, включая 10-15 эмбрионов по меньшей мере из трех независимых пометов на стадию. Впоследствии авторы выделяли ядра из 61 отдельного цельного эмбриона и осуществляли sci-PHK-seq3 (фиг. 4А). Ядра, полученные от каждого эмбриона, помещали в различные лунки в течение первого раунда индексирования так, чтобы профили PHK-seq отдельных ядер могли соответствовать эмбрионам, из которых они были получены (фиг. 5А). В качестве внутреннего контроля, авторами также была добавлена смесь клеток HEK293T и NIH/3T3 в две лунки во время первого раунда индексирования. После завершения протокола sci-PHK-seq3, полученная библиотека была секвенирована за один раунд NovaSeq с получением 11 миллиардов ридов (фиг. 5В).[00322] We harvested C57BL/6 mouse embryos between E9.5-E13.5, and flash frozen in liquid nitrogen, including 10-15 embryos from at least three independent litters per stage. We subsequently isolated nuclei from 61 single whole embryos and performed sci-RNA-seq3 (FIG. 4A). The nuclei obtained from each embryo were placed in different wells during the first round of indexing so that the RNA-seq profiles of the individual nuclei could match the embryos from which they were obtained (FIG. 5A). As an internal control, the authors also added a mixture of HEK293T and NIH/3T3 cells to two wells during the first round of indexing. After completion of the sci-PHK-seq3 protocol, the resulting library was sequenced in one round of NovaSeq to obtain 11 billion reads (Fig. 5B).
[00323] Из этого одного эксперимента, авторами было получено 2072011 транскриптомов отдельных клеток (количество уникального молекулярного идентификатора или количество UMI≥200), включая 2058652 клетки из 61 мышиного эмбриона и 13359 клеток, происходящих от клеток HEK293T или NIH/3T3. Можно с уверенностью предсказать, что транскриптомы клеток HEK293T и NIH/3T3 в подавляющем большинстве случаев картированы по геному одного вида или другого вида с 420 (3%) соударениями (фиг. 4С). При глубине секвенирования 23207 ридов на клетку наблюдалась медиана 3676 UMI на клетки HEK293T и 5163 UMI на клетки NIH/3T3, при этом, 3,9% и 2,9% ридов на клетку были картированы у несоответствующих видов, соответственно (фиг. 5C-D). Авторами было проведено сравнение исходного протокола sci-PHK-seq с sci-PHK-seq3 путем снижения объема выборки ранее полученного набора данных19 до эквивалентной глубины секвенирования на клетку HEK293T или NIH/3T3. Протокол sci-PHK-seq3, давал 40-кратное увеличение пропускной способности и продемонстрировал сравнимую эффективность с точки зрения количества UMI, обнаруженных на клетку (фиг. 5Е). Кроме того, профили объединенных транскриптомов отдельных клеток HEK293T, полученных в соответствии с протоколом sci-PHK-seq3 и sci-PHK-seq, были в высокой степени скоррелированными (Пирсон: 0,98, фиг. 5F).[00323] From this single experiment, we generated 2,072,011 single cell transcriptomes (unique molecular identifier number or UMI number ≥200), including 2,058,652 cells from 61 mouse embryos and 13,359 cells derived from HEK293T or NIH/3T3 cells. It can be predicted with certainty that HEK293T and NIH/3T3 cell transcriptomes are overwhelmingly mapped to one species or another species genome with 420 (3%) collisions (Fig. 4C). At a sequencing depth of 23207 reads per cell, a median of 3676 UMI for HEK293T cells and 5163 UMI for NIH/3T3 cells was observed, with 3.9% and 2.9% of reads per cell mapped to mismatched species, respectively (Fig. 5C- D). The authors compared the original sci-PHK-seq protocol with sci-PHK-seq3 by reducing the sample size of the previously acquired dataset 19 to an equivalent sequencing depth per HEK293T or NIH/3T3 cell. The sci-RNA-seq3 protocol produced a 40-fold increase in throughput and demonstrated comparable efficiency in terms of the number of UMIs detected per cell (FIG. 5E). In addition, the pooled transcriptome profiles of individual HEK293T cells generated according to the sci-PHK-seq3 and sci-PHK-seq protocols were highly correlated (Pearson: 0.98, Fig. 5F).
[00324] 2058652 клеток, полученных из эмбрионов, были картированы по 61 отдельному эмбриону на основе их штрихового кодирования в первом раунде (медиана 35272 клеток на эмбрион; фиг. 4D). Количество клеток, выделенных из каждого эмбриона, хорошо коррелировало с количеством лунок в первом раунде, соответствующих этим клеткам (Спирман: 0,75, фиг. 6А). На относительно небольшой глубине секвенирования (~5000 ридов на клетку) была определена медиана для 519 генов (671 UMI) на клетку (фиг .4Е). Этот результат был сравним с результатом или превышал результат других исследований scRNA-seq, в которых различные типы клеток были выделены и аннотированы19,21,22, несмотря на то, что число исходных секвенирующих ридов на клетку составлял менее, чем одну треть (фиг. 6B-D). У эмбрионов на более поздней стадии (Е12.5 и Е13.5) наблюдалось несколько меньшее количество UMI на клетку, что свидетельствует о снижении содержания мРНК на ядро во время развития (фиг. 6Е).[00324] The 2,058,652 embryo-derived cells were mapped to 61 individual embryos based on their first round barcoding (median 35,272 cells per embryo; FIG. 4D). The number of cells isolated from each embryo correlated well with the number of wells in the first round corresponding to those cells (Spearman: 0.75, Fig. 6A). At a relatively shallow sequencing depth (~5000 reads per cell), a median of 519 genes (671 UMI) per cell was determined (FIG. 4E). This result was comparable to or superior to other scRNA-seq studies in which various cell types were isolated and annotated 19,21,22 despite the fact that the number of initial sequencing reads per cell was less than one third (Fig. 6B-D). Embryos at a later stage (E12.5 and E13.5) had slightly lower UMI per cell, indicating a decrease in mRNA content per nucleus during development (Fig. 6E).
[00325] Исходя из грубых оценок количества клеток на эмбрион в каждый момент времени (Методы) и суммирования всех 10-15 репликатов в каждый момент времени, авторы провели оценку клеточного охвата методом «дробовика» для мышиных эмбрионов, и такая оценка составляла 0,8× на Е9,5 (клетки 200К на эмбрион; в данном случае было профилировано 152К), 0,3× на 10,5 (клетки 1,1М; профилировано 378К), 0,2× на Е11,5 (клетки 2М; профилировано 616К), 0,08 на Е12,5 (клетки 6М; профилировано 475К) и 0,03× на Е13,5 (клетки 13М; профилировано 437К). Таким образом, еще до проведения авторами снижения объема выборки, было обнаружено, что количество клеток, которые были профилированы на каждой стадии, эквивалентны значительному проценту количества клеток отдельных мышиных эмбрионов (3-80%).[00325] Based on crude estimates of the number of cells per embryo at each time point (Methods) and the summation of all 10-15 replicates at each time point, the authors performed a shotgun cell coverage estimate for mouse embryos, and this estimate was 0.8 x per E9.5 (200K cells per embryo; in this case 152K profiled), 0.3x per 10.5 (1.1M cells; 378K profiled), 0.2x per E11.5 (2M cells; profiled 616K), 0.08 at E12.5 (6M cells; 475K profiled) and 0.03x at E13.5 (13M cells; 437K profiled). Thus, even before the authors reduced the sample size, it was found that the number of cells that were profiled at each stage is equivalent to a significant percentage of the number of cells in individual mouse embryos (3-80%).
[00326] Для проверки качества данных, авторами были объединены транскриптомы отдельных клеток каждого индивидуума, в результате чего был получен 61 «псевдообъемный профиль» мышиных эмбрионов. После подсчета количества UMI, картированных по транскрипту Xist (экспрессируемому только у самок) или по транскриптам на Y-хромосоме, мышиные эмбрионы могли быть легко разделены на мужские (х=31) и женские (n=30) группы (фиг. 4F) с сбалансированным представлением с точки зрения количества мужских и женских репликатов на каждой стадии (фиг. 6F).[00326] To check the quality of the data, the transcriptomes of individual cells from each individual were pooled, resulting in 61 “pseudo-volume profiles” of mouse embryos. After counting the number of UMIs mapped to the Xist transcript (expressed only in females) or transcripts on the Y chromosome, mouse embryos could be easily divided into male (x=31) and female (n=30) groups (Fig. 4F) with balanced representation in terms of the number of male and female replicates at each stage (Fig. 6F).
[00327] Для дополнительной проверки качества, авторами было проведено t-стохастическое встраивание соседних областей (t-SNE) в «псевдообъемные» транскриптомы 61 эмбриона, в результате чего было получено пять тесно кластеризованных групп, которые идеально совпадали по их стадиям развития (фиг. 7А). Авторы также упорядочили мышиные эмбрионы по «псевдовременной траектории» с использованием Monocle23 на основе наилучших 1000 лучших генов, дифференциально экспрессирующихся в различные моменты времени, и результирующее упорядочение также соответствовало ожидаемому (фиг. 4G). При этом наблюдалось два заметных пробела в «псевдовременной траектории» на уровне эмбрионов, то есть, один пробел между Е9.5 и Е10.5, а другой между Е1 1.5 и Е12.5, что позволяет предположить о наличиии резких изменений в глобальном транскриптоме в этих «окнах». Каждому эмбриону авторы присваивали псевдовремя, которое потенциально отражало более детальную оценку стадии развития (фиг. 7В). Так, например, эмбрионы Е10.5, находящиеся на более ранней стадии развития, морфологически отличались от эмбрионов на более поздней псевдовременной стадии развития (фиг. 7С).[00327] For additional quality control, the authors performed t-stochastic neighboring region (t-SNE) insertion into the "pseudo-bulk" transcriptomes of 61 embryos, resulting in five closely clustered groups that perfectly matched their developmental stages (Fig. 7A). The authors also ordered mouse embryos along a "pseudo-temporal trajectory" using Monocle 23 based on the top 1000 genes differentially expressed at different time points, and the resulting ordering was also as expected (Fig. 4G). At the same time, two noticeable gaps in the “pseudo-temporal trajectory” at the level of embryos were observed, that is, one gap between E9.5 and E10.5, and the other between E1 1.5 and E12.5, which suggests the presence of abrupt changes in the global transcriptome in these windows. For each embryo, the authors assigned a pseudo-time that potentially reflected a more detailed assessment of developmental stage (FIG. 7B). Thus, for example, E10.5 embryos at an earlier stage of development were morphologically different from embryos at a later pseudotemporal stage of development (Fig. 7C).
[00328] Авторами также были исследованы изменения во всем транскриптоме во время его развития. 12236 генов дифференциально экспрессировались на различных стадиях развития (данные не приводятся), и авторами был построен график по данным для некоторых наиболее динамичных генов как показано на фиг. 4Н. Как и ожидалось, наблюдалось повышение уровня экспрессии генов гемоглобина взрослого индивидуума, таких как Hbb-bt и Hbb-bs, и снижение экспрессии генов гемоглобина эмбрионов, таких как Hbb-bhl и Hbb-x. Гены с известной ролью в дифференцировке нейронов, включая Cntn424, Neurod225 и Neurod626, имели повышенный уровень экспрессии на более поздних стадиях. Однако, большинство наиболее высокодинамичных генов, например, Slc35f4, Prtg и Trim30a, ранее не были охарактеризованы. Независимо от этого и действительно, по предположениям авторов, мотивация для сбора данных об отдельных клетках заключается в том, что динамика экспрессии генов «всего эмбриона», в основном, обусловлена резкими изменениями относительного числа клеток различных типов, но не изменениями внутри клеток какого-либо одного типа.[00328] The authors also examined changes throughout the transcriptome during its development. 12,236 genes were differentially expressed at different developmental stages (data not shown) and the authors plotted the data for some of the most dynamic genes as shown in FIG. 4H. As expected, there was an increase in expression of adult hemoglobin genes such as Hbb-bt and Hbb-bs and a decrease in expression of fetal hemoglobin genes such as Hbb-bhl and Hbb-x. Genes with a known role in neuronal differentiation, including Cntn4 24 , Neurod2 25 and Neurod6 26 , were upregulated at later stages. However, most of the most highly dynamic genes, such as Slc35f4, Prtg and Trim30a, have not been previously characterized. Irrespective of this, and indeed, the authors suggest, the motivation for collecting data on single cells is that the dynamics of gene expression of the "whole embryo" is mainly due to sharp changes in the relative number of cells of various types, but not changes within the cells of any one type.
[00329] Идентификация и аннотация основных типов и подтипов клеток, присутствующих во время органогенеза у мышей[00329] Identification and annotation of major cell types and subtypes present during organogenesis in mice
[00330] Для идентификации клеток основных типов, авторы провели кластеризацию Лювена для 2058652 транскриптомов отдельных клеток (то есть, всех эмбрионов из все моменты времени), в результате чего было идентифицировано 40 различных групп с последующей визуализацией t-SNE (фиг.8А). При этом обнадеживает тот факт, что, хотя и наблюдались явные различия между клетками, полученными в различные моменты времени (фиг. 9А), однако, клетки, полученные из реплицированных эмбрионов в один и тот же момент времени, были распределены одинаково (фиг. 10). На основе наборов генов, специфичных для каждого из этих 40 кластеров, авторы вручную проводили индексирование клеток по их типам путем сравнения с опубликованными маркерными генами (данные не приводятся). Для 37 кластеров, авторы могли достоверно и точно присвоить каждой клетке по одной букве, в то время как два кластера соответствовали определенной эритроидной линии дифференцировки. Один кластер имел аномально высокие уровни UMI, но невысокое число кластер-специфичных генов, что позволяет предположить, что это может быть техническим артефактом клеточных дублетов. Объединение определенных кластеров эритроидной линии дифференцировки и отбрасывание этого предполагаемого кластера-дублета позволило выявить 38 основных типов клеток (фиг. 8А). Для многих кластеров, высокоспецифические маркерные гены позволяют точно дифференцировать клетки по их типам (фиг. 8В, фиг. 9В-С, данные не показаны). Так, например, кластер 6 (эпителиальные клетки) специфически экспрессировал хорошо охарактеризованные маркерные гены Epcam и Trp6321,28, в то время как кластер 29 (гепатоциты) был специфически маркирован по экспрессии Afp и Alb12. Более мелкие кластеры, включая некоторые кластеры, соответствующие в высокой степени специализированным типам клеток, могут быть также легко аннотированы. Так, например, кластер 36 был обогащен транскриптами с высоким уровнем экспрессии во время развития сетчатки, такими как Tyr и Trpm1, что с большой уверенностью позволяет предположить, что эти клетки представляют собой меланоциты29, 30. Кластер 37 был обогащен транскриптами, экспрессирующимися исключительно в развивающемся храсталике. Для кластеров, соответствующих эмбриональной ткани мезенхимы и соединительной ткани, идентификация клеток конкретных типов оказалась более сложной, в основном, потому, что в современной литературе указано меньшее число высокоспецифичных маркерных генов.[00330] To identify major cell types, we performed Leuven clustering on 2,058,652 individual cell transcriptomes (i.e., all embryos from all time points), resulting in the identification of 40 different groups followed by t-SNE visualization (FIG. 8A). However, it is reassuring that although there were clear differences between cells obtained at different time points (Fig. 9A), however, cells obtained from replicated embryos at the same time point were distributed in the same way (Fig. 10 ). Based on sets of genes specific to each of these 40 clusters, the authors manually indexed cells by their types by comparison with published marker genes (data not shown). For 37 clusters, the authors could reliably and accurately assign one letter to each cell, while two clusters corresponded to a specific erythroid lineage. One cluster had abnormally high levels of UMI but a low number of cluster-specific genes, suggesting that this may be a technical artifact of cellular doublets. Pooling certain clusters of the erythroid lineage and discarding this putative doublet cluster revealed 38 major cell types (Fig. 8A). For many clusters, highly specific marker genes allow precise differentiation of cells according to their type (Fig. 8B, Fig. 9B-C, data not shown). Thus, for example, cluster 6 (epithelial cells) specifically expressed the well-characterized Epcam and Trp63 marker genes 21,28 while cluster 29 (hepatocytes) was specifically marked for Afp and Alb 12 expression. Smaller clusters, including some clusters corresponding to highly specialized cell types, can also be easily annotated. For example,
[00331] Из 26183 генов, 17789 генов (68%) были дифференциально экспрессированы (FDR 5%) в клетках 38 основных типов (фиг. 9В, данные не приводятся). Из этих клеток, авторами было идентифицировано 2863 клетко-специфических маркеров, подавляющее большинство которых ранее, насколько это известно авторам, не были ассоциированы с соответствующим типом клеток (в среднем 75 маркеров на кластер; фиг. 8В, фиг. 9С). В качестве примера того, насколько эти данные будут полезны для определения новых маркеров экспрессии генов, специфичных к стадиям развития и типам клеток, был рассмотрен ген «звуковой еж» (Shh), который, как было показано, играет важную роль в развитии многих систем органов, включая конечности, срединные структуры головного мозга, таламус, спинной мозг и легкие31. Авторами была детектирована наивысшая экспрессия Shh в кластере 30 (хорда; данные не приводятся), вместе с Ntnl, Slit1 и Spon1, о которых известно, что все они экспрессируются в клетках хорды и в вентральной пластинке нервной трубки в процессе развития32-34. Однако, гены Тох2, Stxbp6, Schip1, Frmd4b, ранее не описанные как маркеры хорды, также были в высокой степени специфичными к кластеру 30.[00331] Of 26,183 genes, 17,789 genes (68%) were differentially expressed (
[00332] Как и ожидалось, авторы наблюдали заметные изменения в соотношениях типов клеток во время органогенеза. В то время как большинство из 38 основных типов клеток пролиферировались экспоненциально, Некоторые из них были транзиентными, и окончательно исчезали на Е13.5 (фиг. 11А-В). Так, например, примитивная эритроидная линия дифференцировки, происходящая из желточного мешка, представленного кластером 26, была охарактеризована по экспрессии Hbb-bhl, а окончательная эритроидная линия дифференцировки, происходящая из печени плода, была помечена по экспрессии Hbb-bs в кластере 22 (данные не приводятся). На стадии Е9.5, авторами были обнаружены, в основном, клетки, соответствующие примитивной эритроидной линии дифференцировки (фиг. 8А). В течение следующих 5 дней, окончательная эритроидная линия дифференцировки стала преобладающим типом клеток в кровообращении плода и, в конечном счете, превратилась исключительно в линию дифференцировки эритроцитов на Е13.5 (фиг. 8А). Соответствующие генные маркеры продемонстрировали сходную динамику (фиг. 11С).[00332] As expected, we observed marked changes in cell type ratios during organogenesis. While most of the 38 major cell types proliferated exponentially, some were transient and finally disappeared at E13.5 (Fig. 11A-B). For example, a primitive erythroid lineage derived from the yolk sac represented by
[00333] Для идентифицированных здесь клеток 38 основных типов, медиана составляет 47073 клеток, причем самый большой кластер содержит 144648 клеток (предшественников соединительной ткани; 7,0% от общего набора данных), а самый маленький кластер включает только 1000 клеток (моноцитов/гранулоцитов; 0,05% от общего набора данных). Поскольку гетерогенность клеток определенных типов была совершенно очевидна во многих из этих 38 кластерах, авторы приняли итеративную стратегию, включающую повторную кластеризацию Лювена для каждого основного типа клеток в целях идентификации подкластеров (фиг. 12-13). После удаления подкластеров, в которых доминируют один или два эмбриона, и слияния очень похожих подкластеров (Методы), было идентифицировано всего 655 подкластеров (называемых здесь «подтипами», чтобы отличить их от 38 основных типов клеток; фиг. 12-13). Следует отметить, что чувствительность детектирования клеток определенных типов и подтипов, оцененная авторами в этом исследовании, непосредственно зависит от большого числа профилированных клеток. Так, например, повторение кластеризации Лювена на 2,5% данных, полученных авторами (50000 клеток), выявило только субпопуляцию клеток определенных типов и подтипов (фиг. 14).[00333] For the 38 major cell types identified here, the median is 47,073 cells, with the largest cluster containing 144,648 cells (connective tissue precursors; 7.0% of the total data set) and the smallest cluster containing only 1,000 cells (monocytes/granulocytes ; 0.05% of the total data set). Since heterogeneity of certain cell types was quite evident in many of these 38 clusters, the authors adopted an iterative strategy involving Leuven re-clustering for each major cell type in order to identify subclusters (FIGS. 12-13). After removing subclusters dominated by one or two embryos and merging very similar subclusters (Methods), a total of 655 subclusters (referred to here as "subtypes" to distinguish them from the 38 major cell types; Figs. 12-13) were identified. It should be noted that the sensitivity of detection of cells of certain types and subtypes, assessed by the authors in this study, directly depends on the large number of profiled cells. For example, repeating Leuven clustering on 2.5% of the data obtained by the authors (50,000 cells) revealed only a subpopulation of cells of certain types and subtypes (Fig. 14).
[00334] 655 подтипов состоят из медианы 1869 клеток и варьируются от 51 клетки (подтип клеток хорды) до 65894 клеток (подтипа клеток-предшественников соединительной ткани) (фиг. 15А).[00334] The 655 subtypes consist of a median of 1869 cells and range from 51 cells (notochord cell subtype) to 65894 cells (connective tissue progenitor subtype) (FIG. 15A).
[00335] Почти все подтипы (99%) состоят из клеток множества эмбрионов, причем, доминирование какого-либо одного эмбриона не наблюдалось (фиг. 15В-С). Для того, чтобы подтвердить, что эти подтипы входят в совместимые транскрипционные программы, которые отличаются от родственных подтипов, авторами была определена медиана 55 специфических маркеров на подтип (фиг. 15D; следует отметить, что подтип-специфические маркеры определяются по специфичности в пределах соответствующих основных типов клеток, а не в общем наборе данных). Таким образом, для более, чем 38 основных типов клеток, отдельные подтипы продемонстрировали изменяющуюся динамику между Е9.5 и Е13.5. Большинство подтипов (64%) обнаруживали увеличение оцениваемого числа клеток, в то время как 12% клеток имели пониженное число, а 24% показали более сложные паттерны (фиг. 16А-В). Интересно отметить, что авторы могли легко отделить эмбрионы на различных стадиях развития, основываясь исключительно на соотношении клеток, соответствующих каждому подтипу (фиг. 16С).[00335] Nearly all subtypes (99%) are composed of cells from multiple embryos, with no single embryo dominating (Fig. 15B-C). In order to confirm that these subtypes are included in compatible transcriptional programs that differ from related subtypes, a median of 55 specific markers per subtype was determined by the authors (Fig. 15D; it should be noted that subtype-specific markers are defined by specificity within the respective main cell types, not in the general dataset). Thus, for more than 38 major cell types, individual subtypes showed changing dynamics between E9.5 and E13.5. Most of the subtypes (64%) showed an increase in the estimated number of cells, while 12% of the cells had a reduced number, and 24% showed more complex patterns (Fig. 16A-B). Interestingly, the authors could easily separate embryos at different developmental stages based solely on the ratio of cells corresponding to each subtype (Fig. 16C).
[00336] Характеризация траекторий экспрессии генов во время развития апикального эктодермального гребня (AER) конечностей[00336] Characterization of gene expression trajectories during limb apical ectodermal ridge (AER) development
[0 0337] В качестве примера органа, который может быть представлен с подробными аннотациями и исследованиями подтипа, авторы выбрали эпителий (кластер 6), а в частности, апикальный эктодермальный гребень (подкластер 6.25). На основе подтип-специфичных маркерных генов, авторы аннотировали 29 подтипов эпителия (кластер 6; фиг. 17А; фиг. 18А, данные не приводятся). Так, например, эпителиальные клетки подтипа 6.10 были помечены Ос90, то есть, геном, экспрессируемым исключительно в эпителии слухового пузырька35, тогда как эпителиальные клетки подтипа 6.25 показали повышенную экспрессию хорошо охарактеризованных маркерных генов Fgf8, Msx2 и Rspo2, специфичных к апикальному эктодермальному гребню (AER), то есть, в высокой степени специализированному эпителию, участвующему в развитии пальцев36. Для всех эпителиальных подтипов, авторы идентифицировали гены, ранее не известные как маркеры. Так, например, AER также отличался экспрессией Fndc3a, Adamts3, Slc16a10, Snap91 и Pou6f2. Общая гибридизация in situ (WISH) Fgf8 (известного маркера) и Fndc3a (нового маркера) подтвердила, что оба эти гена экспрессируются на самом дистальном конце почечных узлов конечности, представляющем AER при Е10.5 (фиг. 17В-Е).[0 0337] As an example of an organ that can be represented with detailed annotations and subtype studies, the authors chose the epithelium (cluster 6), and in particular the apical ectodermal ridge (subcluster 6.25). Based on subtype-specific marker genes, the authors annotated 29 epithelial subtypes (
[00338] Далее авторами была исследована динамика пролиферации клеток и экспрессия генов во время развития AER. Авторами было идентифицировано всего 1237 клеток AER, что составляло лишь 0,0 6% от полученного авторами всего набора данных, но они участвовали в развитии почти каждого эмбриона (45 из 61 с более чем 5 профилированными клетками AER). Хотя клетки AER детектировались во все моменты времени, однако, по наблюдению авторов, они находились на своем пике с точки зрения числа клеток на эмбрион на стадии Е9.5, а затем уменьшались (фиг. 17F), что соответствовало предыдущим отчетам37 и проведенным авторами исследованиям по валидации in situ (фиг. 17С). Для характеризации динамики экспрессии генов в AER во время развития, авторами было осуществлено псевдотемпоральное упорядочение клеток AER на основе 500 наилучших дифференциально экспрессированных генов на стадиях развития, что позволило создать простую траекторию раннего или позднего развития (фиг. 17G). 710 белок-кодирующих генов были дифференциально экспрессированы по псевдовремени развития (FDR 5%) (данные не приводятся). Так, например, Fgf9, о котором известно, что он обнаруживает AER-специфическую экспрессию в почечных узлах конечностей38, продемонстрировал замедленную динамику активации по сравнению с Fgf8 и Fndc3a (фиг. 17Н). В значительной степени активированные гены могут играть важную роль в дифференцировке клеток AER. Так, например, активированные гены включают Rspo2, который, как известно, играет важную роль в сохранении AER и в поддержании роста и формировании паттернов в развитии конечностей39 (фиг. 17Н).[00338] Next, the authors investigated the dynamics of cell proliferation and gene expression during the development of AER. The authors identified a total of 1237 AER cells, which was only 0.06% of the total data set obtained by the authors, but they were involved in the development of almost every embryo (45 out of 61 with more than 5 profiled AER cells). Although AER cells were detected at all time points, however, as observed by the authors, they were at their peak in terms of the number of cells per embryo at the E9.5 stage, and then decreased (Fig. 17F), which was consistent with previous reports 37 and conducted by the authors in situ validation studies (FIG. 17C). To characterize the dynamics of AER gene expression during development, we performed a pseudotemporal ordering of AER cells based on the best 500 differentially expressed genes during developmental stages, which allowed us to create a simple trajectory of early or late development (Fig. 17G). 710 protein-coding genes were differentially expressed by developmental pseudotime (
[00339] Авторами также были идентифицированы гены, экспрессия которых значительно снижалась в клетках AER в период времени между стадиями Е9.5 и Е13.5 (169 генов при FDR 1%; фиг. 19А). Такими генами являются Ki67 (ММ67) и инсулиноподобный фактор роста 2 (Igf2), которые оба играют определенную роль в стимуляции пролиферации клеток40,41 (фиг. 17Н). Действительно, в соответствии с прекращением пролиферации AER в этом временном окне развития, анализы уровня пути значительного снижения экспрессии генов выявил сроки, ассоциированные с прохождением клеточного цикла и метаболизмом глюкозы, а также факторы транскрипции, связанные с плюрипотентностью (Is11, Pou5f1, Nanog) (фиг. 19В-С).[00339] We also identified genes that were significantly downregulated in AER cells between E9.5 and E13.5 (169 genes at 1% FDR; FIG. 19A). These genes are Ki67 (MM67) and insulin-like growth factor 2 (Igf2), both of which play a role in stimulating cell proliferation 40,41 (Fig. 17H). Indeed, consistent with the cessation of AER proliferation in this developmental time window, analyzes of the level of the pathway to significantly downregulate gene expression revealed timing associated with cell cycle progression and glucose metabolism, as well as transcription factors associated with pluripotency (Is11, Pou5f1, Nanog) (Fig. .19B-C).
[00340] Характеристика траекторий изменения судьбы клеток при развитии мезенхимы конечности[00340] Characterization of trajectories of cell fate change during the development of limb mesenchyme
[00341] Затем авторами была предпринята попытка исследовать пути развития, которые проходят клетки различных типов в течение этого важного периода развития млекопитающих, включая переходы клеток из одних типов и подтипов в другие. Большинство современных алгоритмов реконструирования псевдовременной траектории имеют два основных ограничения. Во-первых, при их создании предполагается, что клетки находятся в одном непрерывном многообразии, то есть, без разрывов между субпопуляциями клеток. Однако, поскольку самые ранние эмбрионы согласно изобретению образуются на стадии Е9.5, то полученный авторами набор данных не содержит клетки, соответствующие по меньшей мере некоторым наследственным состояниям. Во-вторых, в этих алгоритмах предполагается, что лежащая в их основе траектория представляет собой дерево, в котором точки ветвления соответствуют решениям судьбы клеток. Однако, известно, что некоторые ткани содержат транскрипционно неразличимые клетки, вносимые транскрипционно различными линиями дифференцировки, то есть сходимостью траекторий, разделенных одним или более событиями ветвления.[00341] The authors then attempted to explore the developmental pathways that cells of different types undergo during this important period of mammalian development, including transitions of cells from one type and subtype to another. Most modern pseudo-time trajectory reconstruction algorithms have two main limitations. First, when creating them, it is assumed that the cells are in one continuous variety, that is, without gaps between subpopulations of cells. However, since the earliest embryos according to the invention are formed at the E9.5 stage, the data set obtained by the authors does not contain cells corresponding to at least some of the hereditary conditions. Second, these algorithms assume that the underlying trajectory is a tree, with branching points corresponding to cell fate decisions. However, some tissues are known to contain transcriptionally indistinguishable cells brought about by transcriptionally distinct lineages, ie convergence of trajectories separated by one or more branching events.
[00342] Для устранения этих ограничений, авторами был разработан новый алгоритм, включенный в пакет Monocle42, в целях разрешения множественных непересекающихся траекторий, а также для обеспечения как ветвления, так и сходимости внутри траекторий. Алгоритм Monocle 3 начинается с проецирования клеток на малоразмерное пространство, соответствующее состоянию транскрипции, посредством программы однородной множественной аппроксимации и проецирования (UMAP)43. Затем, с помощью Monocle 3 обнаруживают сообщества сходных клеток с использованием кластеризации Лювена и объединяют соседние сообщества с помощью статистического анализа, включенного в алгоритм аппроксимированного сжатия графов44 (AGA). Важно отметить, что эти процедуры позволяют поддерживать множество непересекающихся сообществ клеток. Последняя стадия в Monocle 3 направлена на разрешение путей развития отдельных клеток и выявление местоположений не только ветвей, но и сходящихся элементов в наборе клеток, которые составляют каждое сообщество, то есть, траекторий. Ранее авторами была описана процедура, называемая построение «L1-графа» для встраивания «основного графа» в проекцию профилей PHK-seq отдельных клеток, так, чтобы каждая клетка находилась возле определенной точки на графе45. Хотя с помощью L1-графа можно изучать траектории с замкнутыми петлями и ветвями, однако, он мог работать только на наборах данных с несколькими сотнями клеток. Чтобы алгоритм мог обрабатывать тысячи или даже миллионы клеток, авторами были внесены два усовершенствования. Во-первых, авторы запустили этот алгоритм на нескольких сотнях центроидов данных, а не на самих клетках. Во-вторых, они ограничили процедуру линейного программирования алгоритма для соблюдения границ между непересекающимися траекториями, определенными тестом AGA.[00342] To overcome these limitations, the authors have developed a new algorithm, included in the Monocle 42 package, in order to allow multiple non-intersecting paths, as well as to provide both branching and convergence within the paths. The
[00343] Сначала авторами была сделана попытка применить этот новый алгоритм к одному главному типу клеток, кластеру 25, 26559 клеток которого были аннотированы как мезенхима клеток почечных узлов конечностей по экспрессии Hoxd13, Fgf10 и Lmx1b (данные не приводятся). Визуализация траектории клеток этого кластера с помощью Monocle 3 иллюстрирует резкое размножение мезенхимальных клеток конечностей в процессе развития, причем, основной рост наблюдался между стадиями Е10.5 и Е12.5 (фиг. 20A). Экспрессия генов может быть любой, но постоянной во время такого размножения, причем, уровни 4763 белок-кодирующих генов значительно изменяются (FDR 1%; данные не приводятся). Ранние стадии развития мезенхимы конечностей характеризуются некоторыми предполагаемыми генами, такими как Tbx1546 и Gpc347, а более поздние стадии характеризуются Msx148, Epha449 и Dach150 (фиг. 21А), но подавляющее большинство динамически экспрессируемых генов являются новыми. Факторы транскрипции, значительно повышенные во время развития мезенхимы конечностей, включали факторы, участвующие в дифференцировке хондроцитов (например, Sox951 и Yap152), дифференцировке мышц (например, Tead453) и в заживлении ран и регенерации конечностей (например, Smarcd154) (фиг. 21В).[00343] We first attempted to apply this novel algorithm to one major cell type,
[00344] Интересно отметить, что клетки передних и задних конечностей было нелегко разделить путем неконтролируемой кластеризации (фиг. 21С) или анализа траектории (фиг. 22А), но их можно было различить по взаимоисключающей экспрессии ТЬх5 в передних конечностях (2085 клеток, 7,9% от всех мезенхимальных клеток конечностей) и Pitx1 в задних конечностях (1885 клеток, 7,1% от всех мезенхимальных клеток конечностей), причем, только 22 клетки экспрессировали оба маркера (0,08% от всех мезенхимальных клеток конечностей по сравнению с ~0,6% ожидаемых клеток, если они были независимыми; фиг. 20В)55. Таким образом, 285 генов дифференциально экспрессировались в клетках, относящихся к передней и задней конечностям (фиг. 20С, данные не приводятся). Известные маркерные гены, такие как Tbx4 и гены кластера Нохс (Нохс4-10)56, были активированы в клетках задних конечностей, как и ожидалось, но также были идентифицированы и новые маркеры. Так, например, авторами было обнаружено, что Epha3 и Hs3st3bl имели 5-кратный избыток в передних конечностях, a Pcdh17 и Igf1 имели 3-кратный избыток в задних конечностях.[00344] Interestingly, forelimb and hindlimb cells were not easily separated by uncontrolled clustering (Fig. 21C) or trajectory analysis (Fig. 22A), but could be distinguished by mutually exclusive Thx5 expression in forelimbs (2085 cells, 7, 9% of all limb mesenchymal cells) and Pitx1 in the hind limbs (1885 cells, 7.1% of all limb mesenchymal cells), with only 22 cells expressing both markers (0.08% of all limb mesenchymal cells compared to ~ 0.6% of expected cells if they were independent Fig. 20B) 55 . Thus, 285 genes were differentially expressed in forelimb and hindlimb cells (Fig. 20C, data not shown). Known marker genes such as Tbx4 and Hoxc cluster genes (Hoxc4-10) 56 were upregulated in hindlimb cells as expected, but new markers were also identified. For example, the authors found that Epha3 and Hs3st3bl had a 5-fold excess in the forelimbs, while Pcdh17 and Igf1 had a 3-fold excess in the hind limbs.
[00345] Хотя время развития является главной осью изменения траектории мезенхимы конечности в алгоритме Monocle 3 (фиг. 20A), однако, очевидно, существует дополнительная структура. По меньшей мере некоторые из них, по-видимому, соответствуют двум основным пространственным осям развития конечностей: проксимально-дистальной оси (основное направление разрастания) и передне-задней оси (соответствует пяти пальцам)55. Так, например, Sox6 и Sox9 (проксимальный) 57, 58, Hoxd13 и Tfap2b (дистальный) 36, Рах9 и Alx4 (передний) и Shh и Hand2 (задний) были дифференциально распределены по траектории согласно Monocle 3 (фиг. 20D; фиг. 22В). Гибридизация in situ всей линии Hoxd13 (известного дистального маркера) и Сра2 (нового маркера, распределение которого по траектории согласно Monocle 3 было сходным с распределением известных дистальных маркеров) подтвердила, что оба гена экспрессируются в мезенхиме дистальных конечностей на стадиях между Е10.5 и Е13.5 (фиг. 20F-H). Применение критерия Морана для определения пространственной автокорреляции к траектории мезенхимы конечности выявило 1191 значительно различающихся генов (FDR 1%; I>10 по критерию Морана). Эти гены были сгруппированы в восемь паттернов экспрессии, Некоторые из которых совпадают с распределением маркеров на проксимально-дистальной и передне-задней осях (фиг. 23, данные не приводятся).[00345] Although developmental time is the main axis of limb mesenchymal trajectory variation in the
[00346] Объединенные суммарные результаты, полученные авторами для траекторий AER и мезенхимы конечности, представлены на фиг. 20I. Хотя развитие конечности определяется относительно простыми траекториями, однако, анализы авторов показали, как этот атлас отдельных клеток, участвующих в органогенезе мышей, может использоваться для характеризации пространственно-временной динамики экспрессии генов в конкретных системах.[00346] The combined summary results obtained by the authors for AER trajectories and limb mesenchyme are shown in FIG. 20I. Although limb development follows relatively simple trajectories, the authors' analyzes show how this atlas of individual cells involved in mouse organogenesis can be used to characterize the spatiotemporal dynamics of gene expression in specific systems.
[00347] Определение и характеристика дифференцировки основных клеточных линий мышиного органогенеза[00347] Definition and differentiation characterization of major cell lines of mouse organogenesis
[00348] Затем, авторами была предпринята попытка идентифицировать основные линии дифференцировки развития и клеточные траектории для всего набора данных. С помощью алгоритма Monocle 3 была сделана выборка 100000 высококачественных клеток (UMI>400) по восьми четко разделенным линиям дифференцировки (фиг. 24А, фиг. 25А). Почти все из 38 основных типов клеток почти исключительно входят в одну из этих восьми групп (фиг. 24В). Исключение составляют три из четырех наименьших кластеров: моноциты/гранулоциты (36 клеток), хрусталик (125 клеток) и мегакариоциты (287 клеток), вероятно, вследствие их малого количества. Двумя наиболее сложными структурами, очевидно, являются мезенхимальная траектория, которая включает все типы мезенхимальных и мышечных клеток (слева, фиг. 24А и фиг. 25А), и траектория нервной трубки/хорды, которая включает хорду, нервную трубку, клетки-предшественники и развивающиеся нейроны и глиальные клетки (справа, фиг. 24А и фиг. 25А). Первая траектория нервного гребня {«нервного гребня 1») включает меланоциты и предшественники шванновских клеток, а вторая траектория нервного гребня {«нервного гребня 2») состоит из сенсорных нейронов. Гемопоэтическая траектория включает мегакариоциты, эритроциты и лимфоциты, а каждая из трех остальных траекторий {печеночная, эндотелиальная, эпителиальная) соответствуют одному главному типу клеток. Хотя предполагаемое количество клеток на эмбрион в каждой из этих линий дифференцировки увеличивается экспоненциально начиная со стадии Е9.5 и до Е13.5, однако, их соотношения остаются относительно стабильными, за исключением гепатоцитов, которые увеличиваются почти в десять раз в этом временном окне развития (0,3% на стадии Е9.5→2,8% на стадии Е13.5) (фиг. 25В-С).[00348] Next, the authors attempted to identify major developmental lineages and cellular trajectories for the entire data set. Using the
[00349] UMAP позволяет проецировать клетки одного и того же типа в определенные области, но в отличие от t-SNE, также позволяет размещать клетки родственных типов рядом друг с другом. Так, например, ранние мезенхимальные клетки, по-видимому, расходятся из определенной области в миоциты, мезенхиму конечности, хондроциты/остеобласты и соединительные ткани (фиг. 24А, слева). Аналогичным образом, типы клеток, обнаруженные в более поздние моменты развития, такие как глутаматергические нейроны, отделены от ранних предшественников ЦНС (например, радиальных глиальных клеток) «мостиком» из нервных клеток-предшественников (фиг. 24А, справа). С другой стороны, разрывы (например, между восемью основными линиями дифференцировки), вероятно, указывают на отсутствие промежуточных или наследственных состояний между этими группами из-за ограничений в исследованиях авторами на стадиях Е9.5-Е13.5.[00349] UMAP allows cells of the same type to be projected to specific areas, but unlike t-SNE, it also allows cells of related types to be placed next to each other. Thus, for example, early mesenchymal cells appear to diverge from a defined area into myocytes, limb mesenchyme, chondrocytes/osteoblasts, and connective tissues (FIG. 24A, left). Similarly, cell types found later in development, such as glutamatergic neurons, are separated from early CNS progenitors (eg, radial glial cells) by a 'bridge' of neural progenitor cells (Fig. 24A, right). On the other hand, breaks (eg, between eight major lineages) probably indicate the absence of intermediate or hereditary conditions between these groups due to limitations in the authors' studies at stages E9.5-E13.5.
[00350] После того, как авторы отдельно проанализировали каждую из восьми основных линий дифференцировки с помощью анализа для оценки траекторий, как описано выше, то есть, по аналогии с итеративной субкластеризацией, то траектории мезенхимы и нервной трубки/хорды были построены снова, как описано выше (фиг. 26-27, верхний ряд), а другие основные линии дифференцировки (эпителиальные, эндотелиальные и т.п.) продемонстрировали множество прерывистых сублиний, что позволило детально раскрыть траектории для подтипов (фиг. 26-27, остальные ряды). Так, например, если авторы аннотировали эпителиальную траекторию с помощью 29 подтипов (фиг. 17А), то они наблюдали несколько отдельных субтраекторий, каждая из которых происходит от основной концентрации клеток, полученных на стадии Е9.5, лежащих в основе субпопуляций эпителиальных клеток определенных подтипов (фиг. 24С, фиг. 28). Так, например, эпителиальные клетки апикального эктодермального гребня (фиг. 17G) образуют линейную субтраекторию от клеток на стадиях Е9.5-Е13.5, которые четко отделены от других эпителиальных субтраекторий (фиг. 24С, нижний центр).[00350] After the authors separately analyzed each of the eight major lineages using the trajectory evaluation analysis as described above, i.e., by analogy with iterative subclustering, the mesenchymal and neural tube/notochord trajectories were plotted again as described above (FIGS. 26-27, top row), and other major lineages (epithelial, endothelial, etc.) showed many discontinuous sublines, allowing detailed subtype trajectories to be revealed (FIGS. 26-27, remaining rows). Thus, for example, if the authors annotated an epithelial trajectory with 29 subtypes (Fig. 17A), they observed several distinct subtrajectories, each derived from a core concentration of E9.5-derived cells underlying epithelial cell subpopulations of certain subtypes. (Fig. 24C, Fig. 28). Thus, for example, epithelial cells of the apical ectodermal ridge (FIG. 17G) form a linear subtrajectory from cells at stages E9.5-E13.5 that are clearly separated from other epithelial subtrajectories (FIG. 24C, lower center).
[00351] Реконструирование клеточных траекторий во время миогенеза скелета[00351] Reconstruction of cell trajectories during skeletal myogenesis
[00352] Необходимо провести дополнительные исследования для того, чтобы полностью выяснить взаимосвязь между клеточными типами и подтипами, которые составляют траектории, представленные на фиг. 24, а в частности, являются более сложными. В качестве репрезентативного примера может служить проведенная авторами более детальная оценка развития ткани мышц, которая состоит из различных мезодермальных линий дифференцировки, которые формируются до начала органогенеза. Так, например, внеглазные мышцы образуются из прехордиальной мезодермы, тогда как другие мышцы лица и челюсти образуются из носоглоточной мезодермы. Миогенез скелета формируется благодаря основному набору миогенных регуляторных факторов (MRF), которые активируются различными наборами вышерасположенных генов59. Так, например, Рах3 активирует Myod1 в мышцах туловища, тогда как в области головы, Рах3 является необязательным, a MRF активируются Pitx2 и Tbx160-62. Myod1 или Myf5, в свою очередь, активируют миогенин, который запускает экспрессию множества генов, необходимых для обеспечения сократительной способности скелетной мышцы. Авторами была выдвинута гипотеза, что миогенная траектория, если рассматривать ее в масштабе всего эмбриона, будет иметь несколько точек входа, которые подают клетки на общий путь, соответствующий активации программы экспрессии генов ядра, общей для миотрубок.[00352] More research is needed to fully elucidate the relationship between the cell types and subtypes that make up the trajectories shown in FIG. 24 in particular are more complex. As a representative example, the authors performed a more detailed assessment of the development of muscle tissue, which consists of various mesodermal lineages that form before the onset of organogenesis. Thus, for example, the extraocular muscles are derived from the prechordial mesoderm, while the other muscles of the face and jaw are derived from the nasopharyngeal mesoderm. Skeletal myogenesis is shaped by a core set of myogenic regulatory factors (MRFs) that are activated by various sets of upstream genes 59 . Thus, for example, Pax3 activates Myod1 in the muscles of the trunk, while in the head region, Pax3 is optional and MRFs activate Pitx2 and Tbx1 60-62 . Myod1 or Myf5, in turn, activate myogenin, which triggers the expression of many genes necessary for skeletal muscle contractility. The authors hypothesized that the myogenic trajectory, when viewed on the scale of the entire embryo, would have multiple entry points that feed cells into a common path corresponding to the activation of the nuclear gene expression program common to myotubes.
[00353] Для проверки этой гипотезы, авторами были выделены миоциты и их предполагаемые клетки-«предки» из мезенхимального пути, сначала путем количественной оценки фракции клеток в каждом узле главного графа, которые были классифицированы как миоциты (кластер 13). Затем, авторами были собраны все узлы «большинства миоцитов», а ребра главного графа были использованы для расширения этого набора узлов в более широкую «окрестность» клеток (фиг. 29А). Затем, авторы повторно запустили Monocle 3 на этой субпопуляции клеток для построения траектории, специфичной для миогенеза. Эта траектория отличалась множественными очаговыми концентрациями клеток Е9.5, причем клетки на более поздних стадиях были распределены по нескольким путям, отходящим наружу (фиг. 29В). Рах3 и Pax7, которые характерны для предшественников скелетных мышц, экспрессировались в клетках, распределенных по широкой полосе главного графа (фиг. 29С). Из этой области графа исходят два параллельных линейных сегмента, на которых клетки экспрессируют либо Myf5, либо Myod. Оба пути входят в общую область, занятую клетками, экспрессирующими Myog или Myh3, маркерами миоцитов и миотрубок, соответственно. Дополнительный путь, пройденный клетками от стадии Е9.5, которые экспрессируют Lhx2, Tbx1 и Pitx2, но очень низкие уровни Рах3, входит в траекторию непосредственно перед сегментами Myf5 и Myod1, возможно, соответствующими мезодерме глотки. Таким образом, динамика MRF и их вышерасположенных активаторов по всей траектории согласуется с мнением о том, что различные мезодермальные линии дифференцировки используют разные факторы для совмещения с базовой программой мышечных генов (фиг. 29D).[00353] To test this hypothesis, the authors isolated myocytes and their putative "ancestor" cells from the mesenchymal pathway, first by quantifying the fraction of cells at each node of the main graph, which were classified as myocytes (cluster 13). Then, all the nodes of the "most myocytes" were collected by the authors, and the edges of the main graph were used to expand this set of nodes into a wider "neighborhood" of cells (Fig. 29A). Then, the authors
[00354] Обсуждение[00354] Discussion
[00355] В этом исследовании, авторы попытались охарактеризовать развитие млекопитающих путем профилирования транскриптомов отдельных клеток в масштабе всего мышиного эмбриона, ориентируясь на окно, соответствующее классическому органогенезу. В результате профилирования более 2000000 клеток из 61 отдельного эмбриона в одном эксперименте с sci-PHK-seq3, авторами также была разработана техническая основа для небольших лабораторий в целях создания наборов данных PHK-seq для отдельных клеток с беспрецедентной пропускной способностью. Для разрешения ветвления, сходимости и разрывов в траекториях развития, авторы представили Monocle 3, новый алгоритм для определения траектории, которая будет масштабироваться до миллионов клеток.[00355] In this study, the authors attempted to characterize mammalian development by profiling individual cell transcriptomes at the scale of the entire mouse embryo, focusing on a window corresponding to classical organogenesis. By profiling over 2,000,000 cells from 61 individual embryos in a single sci-RNA-seq3 experiment, the authors also developed a technical framework for small laboratories to generate single cell RNA-seq datasets with unprecedented throughput. To resolve branching, convergence, and discontinuities in developmental trajectories, the authors introduced
[00356] Для эмбрионов мышей со средним сроком беременности, авторы идентифицировали 38 основных типов клеток и более 600 подтипов. Каждый из этих типов и подтипов характеризуется экспрессией ряда маркерных генов, подавляющее большинство которых являются новыми, и репрезентативные примеры которых авторы подтвердили путем общей гибридизации in situ. В качестве иллюстрации эффективности глубокого клеточного охвата методом «дробовика» для характеризации редких типов клеток, авторами были выделены маркеры и динамически экспрессируемые гены в апикальном эктодермальном гребне (AER), специализированном эпителии, играющем важную роль в развитии пальцев, но здесь представлено только 0,06% профилированных клеток. 38 основных типов клеток в целом подразделяются на 8 траекторий, включая мезенхимальную траекторию, нервную трубку/хорду, кроветворную, печеночную, эндотелиальную, эпителиальную траекторию и две траектории нервного гребня. Разрыв между этими восьмью траекториями, вероятно, является следствием отсутствия представления наследственных или промежуточных состояний в наборе данных авторов, начиная с Е9.5. Анализ траектории мезенхимы конечности выявил корреляты гетерогенности развития, соответствующие как временной, так и множественной пространственным осям. Сосредоточив свое внимание на траектории субпопуляции мезенхимальных клеток, соответствующей миоцитам и их предшественникам, авторами было идентифицировано множество субтраекторий, которые сходятся в одну общую конечную точку, соответствующую миотрубкам. Этот пример «конвергенции» программ экспрессии отличается от структуры ветвления, присваеваемой большинством алгоритмов для определения траектории развития.[00356] For mouse embryos with an average gestational age, the authors identified 38 major cell types and more than 600 subtypes. Each of these types and subtypes is characterized by the expression of a number of marker genes, the vast majority of which are new, and representative examples of which the authors confirmed by common in situ hybridization. To illustrate the effectiveness of deep cell trapping with the shotgun method for characterizing rare cell types, the authors isolated markers and dynamically expressed genes in the apical ectodermal ridge (AER), a specialized epithelium important in digit development, but only 0.06 are represented here. % profiled cells. The 38 major cell types are broadly classified into 8 trajectories, including the mesenchymal trajectory, neural tube/notochord, hematopoietic, hepatic, endothelial, epithelial trajectory, and two neural crest trajectories. The gap between these eight trajectories is likely due to the lack of representation of ancestral or intermediate states in the authors' data set since E9.5. Analysis of the trajectory of the limb mesenchyme revealed correlates of developmental heterogeneity corresponding to both temporal and multiple spatial axes. Focusing on the trajectory of the subpopulation of mesenchymal cells corresponding to myocytes and their progenitors, the authors identified many subtrajectories that converge into one common endpoint corresponding to myotubes. This example of "convergence" of expression programs differs from the branching structure assigned by most algorithms to determine the developmental trajectory.
[00357] Исследование авторов имеет несколько ограничений, которые необходимо учитывать. Во-первых, как и в случае других атласов отдельных клеток, данные о транскриптоме отдельных клеток являются недостаточными. Тем не менее, предыдущие исследования показали, что программы транскрипции могут легко различаться в наборах данных транскриптома отдельных клеток на удивительно малой глубине секвенирования63. Возможность определить 655 транскрипционно различных подтипов с медианой 671 UMI на клетку, согласуется с этим представлением, и объединение транскриптомов клеток каждого типа или подтипа позволяет авторам создать репрезентативные профили экспрессии. Во-вторых, хотя авторы достаточно уверены в большинстве сделанных здесь присвоений клеткам определенных типов, но тем не менее, их следует рассматривать как предварительные. Ключевой проблемой является то, что развитие мышей в середине срока беременности (Е9.5-Е13.5) ранее не изучалось ни с точки зрения разрешения отдельных клеток, ни в масштабе всего организма. Существующие атласы транскрипции для отдельных клеток включают представленные отдельные органы взрослых мышей или мышей на поздних эмбриональных стадиях12,13. Хотя на сегодняшний день авторы добились значительных успехов, однако, полная аннотация этих 655 подтипов клеток является текущим проектом, и авторы ожидают, что они получат поддержку при участии исследователей и экспертов в данной области для достижения стабильного консенсуса. С этой целью авторы создали общедоступную базу данных для облегчения аннотации для авторов и исследователей (доступна в Интернете на сайте atlas.gs.washington.edu/mouse-rna/). Уникальная страница для каждого подтипа включает загрузочную матрицу клеток, которые ее составляют, список генов-маркеров, специфичных для этого подтипа, и описание динамики клеток этого подтипа в изученном здесь окне развития.[00357] The authors' study has several limitations that must be considered. First, as with other single cell atlases, single cell transcriptome data are scarce. However, previous studies have shown that transcription programs can easily differ in individual cell transcriptome datasets at surprisingly shallow sequencing depths 63 . The ability to identify 655 transcriptionally distinct subtypes, with a median of 671 UMI per cell, is consistent with this notion, and pooling the transcriptomes of each cell type or subtype allows the authors to generate representative expression profiles. Secondly, although the authors are quite confident in most of the assignments to certain types of cells made here, they should nevertheless be considered as preliminary. The key problem is that the development of mice at mid-gestation (E9.5-E13.5) has not previously been studied either in terms of single cell resolution or on an organism scale. Existing transcription atlases for single cells include representative single organs of adult or late embryonic mice 12,13 . Although the authors have made significant progress to date, however, a complete annotation of these 655 cell subtypes is an ongoing project and the authors expect to receive support from researchers and experts in the field to reach a stable consensus. To this end, the authors have created a public database to facilitate annotation for authors and researchers (available online at atlas.gs.washington.edu/mouse-rna/). The unique page for each subtype includes a loading matrix of the cells that make it up, a list of marker genes specific to that subtype, and a description of the cell dynamics of that subtype in the developmental window studied here.
[00358] Возможно, что, в конечном счете, отдаленная цель ученых в этой области с точки зрения технической перспективы заключается в создании всеобъемлющего, пространственно-временного молекулярного атласа развития млекопитающих при разрешении отдельных клеток. Для достижения этой цели был остановлен выбор на мышах, который имеет несколько преимуществ, включая небольшой размер мыши, доступность ранних временных точек ее развития, врожденный генетический фон и генетическую манипуляцию. Эти данные, представляющие количество клеток, соответствующее значительному проценту клеточного содержимого отдельного эмбриона мыши (от 3 до 80% «клеточного охвата методом дробовика» на стадию), являются мощным ресурсом в области биологии развития, а также могут способствовать дальнейшему продвижению разработки компьютерных методов для разрешения и интерпретации типов клеток или траекторий их развития. Заглядывая в будущее, авторы ожидают, что суммарная оценка транскриптома, дополнительных молекулярных фенотипов64, истории происхождения линии дифференцировки65 и широкая информация помогут сформировать общее представление о развитии млекопитающих.[00358] It is possible that, ultimately, the distant goal of scientists in this field from a technical perspective is to create a comprehensive, spatiotemporal molecular atlas of mammalian development in single cell resolution. To achieve this goal, the choice was made in mice, which has several advantages, including the small size of the mouse, the availability of early time points of its development, the innate genetic background, and genetic manipulation. These data, representing a cell count corresponding to a significant percentage of the cellular content of an individual mouse embryo (from 3 to 80% "shotgun cell coverage" per stage), are a powerful resource in the field of developmental biology, and may also further advance the development of computer-assisted methods for resolution and interpretation of cell types or developmental trajectories. Looking to the future, the authors expect that a summary assessment of the transcriptome, additional molecular phenotypes 64 , lineage histories 65 , and a wealth of information will help form a general understanding of mammalian development.
[00359] В заключение следует отметить, что атласы развития отдельных клеток мышей дикого типа также являются первым шагом к пониманию плейотропных нарушений развития в масштабе организма, а также к детальному изучению тонкой роли генов и регуляторных последовательностей в развитии. Так, например, хотя ~35% нокаутов генов у мышей являются летальными5, однако, многие нокауты, а в частности, нокауты консервативных регуляторных последовательностей, не обнаруживают каких-либо аномалий при обычном фенотипировании66. Авторы предполагают, что sc-PHK-seq в масштабе организма позволяет осуществлять методы обратной генетики, например, потенциально обнаружить ранее пропущенные фенотипы с тонкими дефектами в молекулярных программах или относительные соотношения определенных типов клеток67.[00359] In conclusion, wild-type mouse single cell developmental atlases are also a first step towards organism-wide understanding of pleiotropic developmental disorders, as well as a detailed study of the subtle role of genes and regulatory sequences in development. For example, although ~35% of gene knockouts in mice are lethal 5 , however, many knockouts, and in particular knockouts of conserved regulatory sequences, do not show any abnormalities in conventional phenotyping66. The authors suggest that organism-scale sc-RNA-seq allows for reverse genetics techniques, for example, potentially detecting previously missed phenotypes with subtle defects in molecular programs or the relative ratios of certain cell types 67 .
[00360] Методы[00360] Methods
[00361] Выделение эмбрионов[00361] Isolation of embryos
[00362] Мышей C57BL/6 получали из Лаборатории Джексона (Bar-Harbor, ME) и подбирали пары для спаривания. День спаривания считался эмбриональным днем (Е) 0.5. Иссечения выполняли как описано ранее69, и все эмбрионы немедленно замораживали в жидком азоте. Все процедуры на животных осуществляли с разрешения руководителей Института, Регуляторных Органов штата и Правительства (в соответствии с протоколом IACUC 4378-01).[00362] C57BL/6 mice were obtained from Jackson Laboratories (Bar-Harbor, ME) and paired for mating. The day of mating was considered embryonic day (E) 0.5. Excisions were performed as previously described 69 and all embryos were immediately frozen in liquid nitrogen. All animal procedures were performed with the permission of Institute officials, State and Government Regulatory Authorities (in accordance with IACUC protocol 4378-01).
[00363] Общая гибридизация in situ[00363] General in situ hybridization
[00364] Экспрессию мРНК в эмбрионах мышей на стадии Е9.5-Е11.5 оценивали путем общей гибридизации in situ (WISH) с использованием меченого дигоксигенином антисмыслового рибозонда, транскрибированного из клонированных геноспецифических зондов (набор для ПЦР-синтеза зонда DIG, Roche). Целые эмбрионы фиксировали в течение ночи в 4% PFA/PBS. Эмбрионы промывали в PBST (0,1% Твина) и постадийно дегидратировали в 25%, 50% и 75% метаноле/PBST и, наконец, хранили при -20°С в 100% метаноле. Протокол WISH осуществляли следующим образом: День 1) Эмбрионы регидратировали на льду на обратимых стадиях обработки метанолом/PBST, промывали в PBST, отбеливали в 6% H202/PBST в течение 1 часа и промывали в PBST. Затем эмбрионы обрабатывали в 10 мкг/мл протеиназы K/PBST в течение 3 минут, инкубировали в глицине/PBST, промывали в PBST и, наконец, повторно фиксировали в течение 2 0 минут 4% PFA/PBS, 0,2% глутаральдегидом и 0,1% Твином 20. После дополнительных стадий промывки PBST, эмбрионы инкубировали при 68°С в буфере L1 (50% деионизованный формамид, 5× SSC, 1% ДСН, 0,1% Твин 20 в DEPC; рН 4,5) в течение 10 минут. Затем эмбрионы инкубировали в течение 2 часов при 68°С в буфере для гибридизации 1 (L1 с 0,1% тРНК и 0,05% гепарином). После этого, эмбрионы инкубировали в течение ночи при 68°С в буфере для гибридизации 2 (в буфере для гибридизации 1 с 0,1% тРНК и 0,05% гепарином и зондом 1:500 DIG). День 2) Удаление несвязанного зонда осуществляли с помощью серии стадий промывки 3 × 30 минут каждая, при 68°С: L1, L2 (50% деионизованный формамид, 2 × SSC, рН 4,5, 0,1% Твина 20 в DEPC; рН 4,5) и L3 (2× SSC, рН 4,5, 0,1% Твин 20 в DEPC; рН 4,5). Затем эмбрионы обрабатывали в течение 1 часа раствором РНКазы (0,1 М NaCl, 0,01 М Триса, рН 7,5, 0,2% Твина 20, 100 мкг/мл РНКазы А в H2O) с последующей промывкой в TBST 1 (140 мМ NaCl, 2,7 мМ KCl, 2 5 мМ Триса-HCl, 1% Твина 20; рН 7,5). Затем эмбрионы блокировали в течение 2 часов при комнатной температуре в блокирующем растворе (TBST 1 с 2% телячьей сывороткой и 0,2% BSA) с последующим инкубированием при 4°С в течение ночи в блокирующем растворе, содержащем 1:5000 антитело против дигоксигенина-АР, 1:5000. День 3) Удаление несвязанного антитела осуществляли с помощью серии стадий промывок TBST 2 (TBST с 0,1% Твина 20 и 0,05% левамизола/тетрамизола) 8×30 минут при комнатной температуре и оставляли на ночь при 4°С. День 4) Окрашивание эмбрионов начинали путем промывки при комнатной температуре буфером со щелочной фосфатазой (0,02 М NaCl, 0,05 М MgCl2, 0,1% Твина 20, 0,1 М Триса-HCl и 0,05% левамизола/тетрамизола в H2O) 3×20 минут с последующим окрашиванием пурпурным субстратом для АР ВМ (Roche). Окрашенные эмбрионы визуализировали под микроскопом Zeiss Discovery V.12 и с помощью цифровой камеры Leica DFC420.[00364] mRNA expression in E9.5-E11.5 mouse embryos was assessed by total in situ hybridization (WISH) using a digoxigenin labeled antisense riboprobe transcribed from cloned gene-specific probes (DIG PCR Probe Synthesis Kit, Roche). Whole embryos were fixed overnight in 4% PFA/PBS. Embryos were washed in PBST (0.1% Tween) and dehydrated stepwise in 25%, 50% and 75% methanol/PBST and finally stored at -20° C. in 100% methanol. The WISH protocol was performed as follows: Day 1) Embryos were rehydrated on ice in the reversible steps of methanol/PBST treatment, washed in PBST, bleached in 6% H202/PBST for 1 hour, and washed in PBST. Embryos were then treated in 10 μg/ml proteinase K/PBST for 3 minutes, incubated in glycine/PBST, washed in PBST, and finally re-fixed for 20 minutes with 4% PFA/PBS, 0.2% glutaraldehyde, and 0 .1
[00365] Культивирование клеток млекопитающих[00365] Mammalian cell culture
[00366] Все клетки млекопитающих культивировали при 37°С с 5% CO2 и хранили в DMEM с высоким содержанием глюкозы (Gibco, кат. №11965) для клеток HEK293T и NIH/3T3, а затем добавляли 10% FBS и IX Pen/Strep (Gibco, кат.№15140122; 100 ед./мл пенициллина, 100 мкг/мл стрептомицина). Клетки трипсинизировали 0,25% трипсином-EDTA (Gibco, кат. №25200-056) и распределяли в отношении 1:10 три раза в неделю.[00366] All mammalian cells were cultured at 37°C with 5% CO 2 and stored in DMEM with high glucose content (Gibco, cat. No. 11965) for HEK293T and NIH/3T3 cells, and then added 10% FBS and IX Pen/ Strep (Gibco cat. no. 15140122; 100 U/ml penicillin, 100 µg/ml streptomycin). Cells were trypsinized with 0.25% trypsin-EDTA (Gibco, cat. no. 25200-056) and distributed at a ratio of 1:10 three times a week.
[00367] Выделение и фиксация ядер мышиных эмбрионов[00367] Isolation and fixation of mouse embryonic nuclei
[00368] Мышиные эмбрионы на различных стадиях развития обрабатывали вместе для уменьшения кластер-эффекта. Каждый мышиный эмбрион измельчали на мелкие кусочки лезвием бритвы в 1 мл охлажденного льдом буфера для лизиса клеток (10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ MgCl2 и 0,1% IGEPAL СА-63070, модифицированного так, чтобы он включал 1% ингибитора Super-РНКазы и 1% BSA) и переносили в верхнюю часть 4 0 мкм-фильтра для клеток (Falcon). Ткани гомогенизировали с помощью резинового наконечника поршня шприца (5 мл, BD) в 4 мл буфера для лизиса клеток. Затем, отфильтрованные ядра переносили в новую пробирку объемом 15 мл (Falcon) и осаждали путем центрифугирования при 500×g в течение 5 минут и один раз промывали 1 мл буфера для лизиса клеток. Ядра фиксировали в 4 мл охлажденного льдом 4% параформальдегида (EMS) в течение 15 минут на льду. После фиксации, ядра два раза промывали в 1 мл буфера для промывки ядер (буфер для лизиса клеток без IGEPAL) и ресуспендировали в 500 мкл буфера для промывки ядер. Образцы распределяли по двум пробиркам по 2 50 мкл в каждой пробирке и мгновенно замораживали в жидком азоте.[00368] Mouse embryos at various stages of development were treated together to reduce the cluster effect. Each mouse embryo was minced into small pieces with a razor blade in 1 ml of ice-cold cell lysis buffer (10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl 2 and 0.1% IGEPAL CA-630 70 modified so that it includes 1% Super-RNase inhibitor and 1% BSA) and transferred to the top of a 40 µm cell filter (Falcon). Tissues were homogenized with a rubber tip syringe (5 ml, BD) in 4 ml cell lysis buffer. Then, the filtered nuclei were transferred to a new 15 ml tube (Falcon) and pelleted by centrifugation at 500×g for 5 minutes and washed once with 1 ml of cell lysis buffer. The nuclei were fixed in 4 ml ice-cold 4% paraformaldehyde (EMS) for 15 minutes on ice. After fixation, nuclei were washed twice in 1 ml of nuclear wash buffer (cell lysis buffer without IGEPAL) and resuspended in 500 µl of nuclear wash buffer. Samples were dispensed into two tubes, 2 x 50 µl in each tube, and flash frozen in liquid nitrogen.
[00369] Для оценки контроля качества, клетки HEK293T и NIH/3T3 трипсинизировали, центрифугировали при 300×g в течение 5 минут (4°С) и один раз промывали в 1×PBS. Равное количество клеток и NIH/3T3 объединяли и подвергали лизису с использованием 1 мл охлажденного льдом буфера для лизиса клеток с последующей фиксацией и хранением в таких же условиях, как и для мышиных эмбрионов.[00369] For quality control evaluation, HEK293T and NIH/3T3 cells were trypsinized, centrifuged at 300×g for 5 minutes (4°C) and washed once in 1×PBS. An equal number of cells and NIH/3T3 were pooled and lysed using 1 ml of ice-cold cell lysis buffer, followed by fixation and storage under the same conditions as for mouse embryos.
[00370] Получение и секвенирование библиотеки sci-РНК-seq3[00370] Obtaining and sequencing the sci-RNA-seq3 library
[00371] Оттаянные ядра делали проницаемыми с использованием 0,2% тритона Х-100 (в буфере для промывки ядер) в течение 3 минут на льду, а затем быстро обрабатывали ультразвуком (Diagenode, 12 секунд в режиме малой мощности) для уменьшения агломерации ядер. Затем, ядра один раз промывали буфером для промывки ядер и фильтровали через 1 мл-фильтр для клеток Flowmi (Flowmi). Отфильтрованные ядра центрифугировали при 500×g в течение 5 минут и ресуспендировали в буфере для промывки ядер.[00371] Thawed kernels were permeated using 0.2% Triton X-100 (in Kernel Wash Buffer) for 3 minutes on ice and then rapidly sonicated (Diagenode, 12 seconds on low power) to reduce kernel agglomeration . Then, the nuclei were washed once with nuclear washing buffer and filtered through a 1 ml Flowmi cell filter (Flowmi). The filtered nuclei were centrifuged at 500×g for 5 minutes and resuspended in nuclear washing buffer.
[00372] Затем ядра от каждого мышиного эмбриона распределяли по нескольким отдельным лункам в четырех 96-луночных планшетах. Затем регистрировали взаимосвязь между идентификатором лунок и мышиным эмбрионом для последующей обработки данных. Для каждой лунки, 80000 ядер (16 мкл) смешивали с 8 мл 25 мкМ заякоренного праймера олиго-dT (5'-/5Phos/CAGAGCNNNNNNNNN [10 п.о. штрих-код] ТТТТТТТТТТТТТТТТТТТТТТТТТТТТТТ-3', (SEQ ID NO: 1), где «N» представляет собой любое основание; IDT) и 2 мкл 10 мМ dNTP-смеси (Thermo) денатурировали при 55°С в течение 5 минут и сразу помещали на лед. После этого, в каждую лунку добавляли 14 мкл реакционной смеси для реакции первой цепи, содержащей 8 мкл 5× буфера для первой цепи Superscript IV (Invitrogen), 2 мкл 100 мМ DTT (Invitrogen), 2 мкл обратной транскриптазы Superscript IV (200 ед./мкл, Invitrogen), 2 мкл рекомбинантного ингибитора рибонуклеазы RNaseOUT (Invitrogen). Обратную транскрипцию осуществляли путем инкубирования планшетов в градиенте температур (4°С, 2 минуты, 10°С, 2 минуты, 20°С, 2 минуты, 30°С, 2 минуты, 40°С, 2 минуты, 50°С, 2 минуты и 55°С, 10 минут).[00372] The nuclei from each mouse embryo were then distributed to several individual wells in four 96-well plates. The relationship between the well identifier and the mouse embryo was then recorded for further data processing. For each well, 80,000 nuclei (16 μl) were mixed with 8 ml of 25 μM oligo-dT anchored primer (5'-/5Phos/CAGAGCNNNNNNNNN [10 bp barcode] TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3', (SEQ ID NO: 1 ), where "N" is any base; IDT) and 2 μl of 10 mM dNTP mixture (Thermo) were denatured at 55° C. for 5 minutes and immediately placed on ice. Thereafter, 14 µl of a first strand reaction mixture containing 8 µl of 5× Superscript IV first strand buffer (Invitrogen), 2 µl of 100 mM DTT (Invitrogen), 2 µl of Superscript IV reverse transcriptase (200 U) was added to each well. /µl, Invitrogen), 2 µl of recombinant RNaseOUT ribonuclease inhibitor (Invitrogen). Reverse transcription was performed by incubating the plates in a temperature gradient (4°C, 2 minutes, 10°C, 2 minutes, 20°C, 2 minutes, 30°C, 2 minutes, 40°C, 2 minutes, 50°C, 2 minutes and 55°C, 10 minutes).
[00373] После реакции ОТ, в каждую лунку добавляли 60 мкл буфера для разведения ядер (10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ MgCl2 и 1% BSA). Ядра из всех лунок объединяли и центрифугировали при 500×g в течение 10 минут. Затем ядра ресуспендировали в буфере для промывки ядер и перераспределяли в четыре других 96-луночных планшета, где каждая лунка включала 4 мкл буфера для лигирования Т4 (NEB), 2 мкл ДНК-лигазы Т4 (NEB), 4 мкл раствора бетаина (5М, Sigma-Aldrich), 6 мкл буфера для промывки ядер, 8 мкл адаптера для лигирования со штрих-кодом (100 мкМ, 5'-GCTCTG [штрих-код 9 п.о. или 10 п.о. А]/i-дезокси-U/ACGACGCTCTTCCGATCT [обратный комплемент штрих-кода А]-3') (SEQ ID NO: 2) и 16 мкл 40% ПЭГ 8000 (Sigma-Aldrich). Реакцию лигирования проводили при 16°С в течение 3 часов.[00373] After the RT reaction, 60 μl of nuclear dilution buffer (10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl 2 and 1% BSA) was added to each well. The nuclei from all wells were pooled and centrifuged at 500×g for 10 minutes. The nuclei were then resuspended in nuclear wash buffer and redistributed into four other 96-well plates, where each well contained 4 µl T4 ligation buffer (NEB), 2 µl T4 DNA ligase (NEB), 4 µl betaine solution (5M, Sigma -Aldrich), 6 µl nuclear wash buffer, 8 µl barcoded ligation adapter (100 µM, 5'-GCTCTG [barcode 9bp or 10bp A]/i-deoxy- U/ACGACGCTCTTCCGATCT [reverse complement of barcode A]-3') (SEQ ID NO: 2) and 16 μl of 40% PEG 8000 (Sigma-Aldrich). The ligation reaction was carried out at 16°C for 3 hours.
[00374] После реакции ОТ, в каждую лунку добавляли 60 мкл буфера для разведения ядер (10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ и 1% BSA). Ядра из всех лунок объединяли и центрифугировали при 600×g в течение 10 минут. Ядра один раз промывали буфером для промывки ядер и два раза фильтровали через 1 мл-фильтр для клеток Flowmi (Flowmi), подсчитывали и перераспределяли по восьми 96-луночным планшетам, где каждая лунка, включала 2500 ядер в 5 мкл буфера для промывки ядер и 5 мкл буфера для элюирования (Qiagen). Затем, в каждую лунку добавляли 1,33 мкл буфера для синтеза второй цепи мРНК (NEB) и 0,66 мкл фермента для синтеза второй цепи мРНК (NEB), и синтез второй цепи проводили при 16°С в течение 180 мин.[00374] After the RT reaction, 60 μl of nuclear dilution buffer (10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM and 1% BSA) was added to each well. The nuclei from all wells were pooled and centrifuged at 600×g for 10 minutes. Nuclei were washed once with nuclear wash buffer and filtered twice through a 1 ml Flowmi cell filter (Flowmi), counted and redistributed into eight 96-well plates, each well containing 2500 nuclei in 5 μl of nuclear wash buffer and 5 µl of elution buffer (Qiagen). Then, 1.33 µl of second strand mRNA synthesis buffer (NEB) and 0.66 µl of second strand mRNA synthesis enzyme (NEB) were added to each well, and second strand synthesis was performed at 16°C for 180 min.
[00375] Для мечения, содержимое каждой лунки смешивали с 11 мкл буфера Nextera TD (Illumina) и 1 мкл только фермента [i7] TDE1 (62,5 нМ, Illumina), а затем инкубировали при 55°С в течение 5 минут для проведения мечения. Затем реакцию прекращали путем добавления 24 мкл ДНК-связывающего буфера (Zymo) на лунку и инкубирования при комнатной температуре в течение 5 минут. Затем каждую лунку очищали с использованием 1,5× сфер AMPure ХР (Beckman Coulter). На стадии элюирования, в каждую лунку добавляли 8 мкл воды, не содержащей нуклеазы, 1 мкл 10× буфера USER (NEB), 1 мкл фермента USER (NEB) и инкубировали при 37°С в течение 15 минут. В каждую лунку добавляли еще 6,5 мкл буфера для элюирования. Сферы AMPure ХР удаляли магнитным стержнем, и продукт элюирования переносили в новый 96-луночный планшет.[00375] For labeling, the contents of each well were mixed with 11 µl of Nextera TD buffer (Illumina) and 1 µl of [i7] TDE1 enzyme only (62.5 nM, Illumina) and then incubated at 55°C for 5 minutes to conduct tagging. The reaction was then terminated by adding 24 μl of DNA binding buffer (Zymo) per well and incubating at room temperature for 5 minutes. Each well was then purified using 1.5x AMPure XP spheres (Beckman Coulter). At the elution step, 8 µl of nuclease-free water, 1 µl of 10x USER buffer (NEB), 1 µl of USER enzyme (NEB) were added to each well and incubated at 37° C. for 15 minutes. An additional 6.5 μl of elution buffer was added to each well. The AMPure XP spheres were removed with a magnetic rod and the eluent was transferred to a new 96-well plate.
[00376] Для ПЦР-амплификации, содержимое каждой лунки (16 мкл продукта) смешивали с 2 мкл 10 мкМ индексированного праймера Р5 (5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'; IDT) (SEQ ID NO: 3), 2 мкл 10 мкМ праймера Р7 (5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3', IDT) (SEQ ID NO: 4) и 20 мкл 2× ПЦР-смеси NEBNext High-Fidelity Master Mix (NEB). Амплификацию осуществляли по следующей программе: 72°С в течение 5 минут, 98°С в течение 30 секунд, 12-14 циклов (98°С в течение 10 секунд, 66°С в течение 30 секунд, 72°С в течение 1 минуты) и наконец при 72°С в течение 5 минут.[00376] For PCR amplification, the contents of each well (16 µl of product) were mixed with 2 µl of 10 µM indexed primer P5 (5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'; IDT) (SEQ ID NO: 3), 2
[00377] После ПЦР, образцы объединяли и очищали с использованием 0,8 объема сфер AMPure ХР. Концентрации библиотек определяли с помощью Qubit (Invitrogen), и библиотеки визуализировали с помощью электрофореза на 6% ТВЕ-ПААГ-геле. Все библиотеки были секвенированы на одной платформе NovaSeq (Illumina) (считывание 1: 34 цикла, считывание 2: 52 цикла, индекс 1: 10 циклов, индекс 2: 10 циклов).[00377] After PCR, samples were pooled and purified using 0.8 volume of AMPure XP spheres. Library concentrations were determined using Qubit (Invitrogen) and libraries were visualized by electrophoresis on a 6% TBE-PAGE gel. All libraries were sequenced on the same NovaSeq platform (Illumina) (read 1:34 cycles, read 2:52 cycles, index 1:10 cycles, index 2:10 cycles).
[00378] Обработка секвенирующих ридов[00378] Processing sequencing reads
[00379] Базовые запрашиваемые последовательности преобразовывали в формат fastq с использованием bcl2fastq Illumina и подвергали демультиплексированию на основе штрих-кодов ПЦР i5 и i7 с использованием пакета программ для демультиплексирования с максимальным правдоподобием deML71 с параметрами по умолчанию. Дальнейшая обработка последовательностей и создание матрицы для оцифровывания отдельных клеток были аналогичны sci-PHK-seq19, за исключением того, что ОТ-индекс был объединен с индексом шпилечного адаптера, и, таким образом, картированные риды были подразделены на составные клеточные индексы путем демультиплексирования ридов с использованием ОТ-индекса и индекса лигирования (ED<2, включая инсерции и делеции). Вкратце, демультиплексированные риды были отфильтрованы по ОТ-индексу и индексу лигирования (ED<2, включая инсерции и делеции), а адаптер был удален с использованием программы trim_galore/0.4.1 с параметрами по умолчанию. Усеченные риды картировали по эталонному мышиному геному (mm10) для ядер мышиных эмбрионов или химерному эталонному геному человеческого hgl9 и мышиного mm10 для смешанных ядер НЕК293Т и NIH/3T3 с использованием программы STAR/v 2.5.2b72 с параметрами по умолчанию и с аннотациями генов (GENCODE V19 для человека; GENCODE VM11 для мыши). Уникально картированные риды выделяли, и дубликаты удаляли с использованием последовательности уникального молекулярного идентификатора (UMI), индекса обратной транскрипции (ОТ), индекса адаптера шпилечного лигирования и рида 2 с конечными координатами (то есть, риды с идентичными UMI, индексом ОТ, индексом адаптера лигирования и сайтом мечения рассматривались как дубликаты). И наконец, картированные риды распределяли по отдельным клеточным индексам путем последующего демультиплексирования ридов с использованием ОТ-индекса и индекса шпилечного лигирования (ED<2, включая инсерции и делеции). Для эксперимента со смешанными видами вычисляли процент уникально картированных ридов для геномов каждого вида. Клетки с более чем 85% UMI, отнесенных к одному виду, рассматривались как видоспецифичные клетки, а остальные клетки классифицировались как смешанные клетки или «столкновения». Для создания цифровых матриц, авторы вычислили число цепь-специфических UMI для каждой клетки, картированной по экзонным и интронным областям каждого гена с помощью пакета программ Python HTseq73. Для мультикартировнных ридов, эти риды были отнесены к самым близким генам, за исключением случаев, когда другой перемежающийся ген попадал в пределы 100 п.о. до конца ближайшего гена, и в этом случае, рид отбрасывали. Для большинства анализов, авторами были включены ожидаемые UMI для интронных и экзонных цепей на матрицах для экспрессии генов отдельных клеток.[00379] The base query sequences were converted to fastq format using bcl2fastq Illumina and demultiplexed based on the i5 and i7 PCR barcodes using the deML 71 maximum likelihood demuxing software package with default parameters. Further sequence processing and matrix generation for single cell digitization was similar to sci-RNA-seq 19 , except that the RT index was combined with the hairpin adapter index, and thus the mapped reads were subdivided into composite cell indices by read demultiplexing using OT-index and ligation index (ED<2, including insertions and deletions). Briefly, the demultiplexed reads were filtered by OT-index and ligation-index (ED<2, including insertions and deletions), and the adapter was removed using the trim_galore/0.4.1 program with default parameters. The truncated reads were mapped to the reference mouse genome (mm10) for mouse embryonic nuclei or the chimeric reference genome of human hgl9 and mouse mm10 for mixed HEK293T and NIH/3T3 nuclei using the STAR/v 2.5.2b 72 program with default parameters and gene annotations ( GENCODE V19 for humans; GENCODE VM11 for mice). Uniquely mapped reads were isolated and duplicates were removed using the unique molecular identifier (UMI) sequence, reverse transcription index (RT), hairpin ligation adapter index, and read 2 end coordinates (i.e., reads with identical UMI, RT index, ligation adapter index). and tagging site were treated as duplicates). Finally, the mapped reads were assigned to individual cell indices by subsequent read demultiplexing using the OT index and the hairpin ligation index (ED<2, including insertions and deletions). For the mixed species experiment, the percentage of uniquely mapped reads for the genomes of each species was calculated. Cells with more than 85% UMI assigned to the same species were considered as species-specific cells, and the remaining cells were classified as mixed cells or "collisions". To create digital matrices, the authors calculated the number of chain-specific UMIs for each cell, mapped to the exon and intron regions of each gene using the Python HTseq 73 software package. For multimapped reads, these reads were assigned to the closest genes, unless another interspersed gene fell within 100 bp. to the end of the nearest gene, in which case, the read was discarded. For most analyses, the authors included expected UMIs for intron and exon strands on single cell gene expression templates.
[00380] Анализ всего мышиного эмбриона[00380] Whole mouse embryo analysis
[00381] После создания матрицы для подсчета генов отдельных клеток, каждая клетка была приписана к ее исходному мышиному эмбриону исходя из штрих-кода ОТ. Карты ридов для каждого эмбриона объединяли для создания «общей РНК-seq» для каждого эмбриона. Для разделения эмбрионов по половому признаку, авторами были подсчитаны риды, картированные по генам некодирующих РНК, специфичных для самок (Xist), или по генам chr Y (за исключением гена Erdr1, который присутствует в chr X и chr Y). Эмбрионы были легко разделены на женскую группу (с большим числом ридов, картированных по генам Xist, чем число ридов для генов chr Y) и мужскую группу (с большим числом ридов, картированных по генам chr Y, чем по Xist).[00381] After creating a matrix for counting individual cell genes, each cell was assigned to its original mouse embryo based on the OT barcode. Read maps for each embryo were combined to create a "total RNA-seq" for each embryo. To separate embryos by sex, the authors counted reads mapped to female-specific non-coding RNA genes (Xist) or to chr Y genes (with the exception of the Erdr1 gene, which is present in chr X and chr Y). The embryos were easily separated into a female group (with more reads mapped for Xist genes than for chr Y genes) and a male group (with more reads mapped for chr Y genes than for Xist).
[00382] Псевдовременное упорядочение целых эмбрионов мыши осуществляли с помощью Monocle 274. Вкратце, объединенную матрицу для экспрессии генов конструировали как описано выше. Дифференциально экспрессируемые гены в различных условиях развития были идентифицированы с помощью дифференциальной функции GeneTest программы Monocle 274. Лучшие 2000 генов с наименьшим значением q были использованы для построения псевдовременной траектории с использованием Monocle 274. Каждому эмбриону было присвоено псевдовременное значение исходя из его положения на дереве траекторий.[00382] Pseudo-temporal sequencing of whole mouse embryos was performed using
[00383] Кластеризация клеток, визуализация t-SNE и идентификация маркерных генов[00383] Cell Clustering, t-SNE Imaging, and Identification of Marker Genes
[00384] Цифровую матрицу для экспрессии генов создавали на основе исходных данных секвенирования как описано выше. Клетки с менее, чем 200 UMI отбрасывали. Последующий анализ проводили с помощью Monocle274 и пакета программ python scanpy75. Вкратце, определенное число генов, картированных по половым хромосомам, удаляли перед кластеризацией и уменьшением размерности. Стадию предварительной обработки проводили методом, аналогичным подходу, используемому Zheng et al.22, по функции «zheng17 recipe» (n_top-genes=2000) в scanpy75. Данные по размерности были сначала уменьшены с помощью РСА (30 компонентов), а затем с помощью t-SNE, после чего была проведена кластеризация Лювена на 30 основных компонентах (разрешение=1,5). Было идентифицировано 40 кластеров. Затем, авторы отобрали 1000 клеток из каждого кластера, и дифференциально экспрессированные гены в разных кластерах были идентифицированы с помощью дифференциальной функции GeneTest в программе Monocle 274. Гены, специфичные для каждого кластера, идентифицировали так же, как описано в литературе76. Кластеры были отнесены к известным типам клеток на основе кластер-специфических маркеров (Таблица 1). Один кластер имел аномально высокое число UMI, но не имел достаточного количества кластер-специфических генов, что позволяет предположить, что он может быть техническим артефактом клеточных дублетов, а следовательно, может быть удален. Два других кластера, как оказалось, соответствовали окончательной линии дифференцировки эритроидов и были объединены. Профили консенсусной экспрессии для клеток каждого типа были сконструированы как описано в литературе76. Для идентификации маркера гена, специфичного для клеток конкретного типа, авторами был выбран ген, который был дифференциально экспрессирован в клетках различных типов (FDR 5%, анализ на отношение вероятностей), а также максимально экспрессировался в клетке каждого типа по меньшей мере с 2-кратным увеличением по сравнению с клетками других типов, занимающими второе место по максимальной экспрессии.[00384] A digital template for gene expression was created based on the original sequencing data as described above. Cells with less than 200 UMI were discarded. Subsequent analysis was performed using Monocle2 74 and the python scanpy 75 software package. Briefly, a certain number of sex-mapped genes were removed prior to clustering and downsizing. The pretreatment step was carried out in a manner similar to the approach used by Zheng et al. 22 , according to the function "zheng17 recipe" (n_top-genes=2000) in scanpy 75 . Dimensional data were first downsampled with PCA (30 components) and then with t-SNE, followed by Leuven clustering on 30 principal components (resolution=1.5). 40 clusters were identified. Then, the authors selected 1000 cells from each cluster, and differentially expressed genes in different clusters were identified using the differential GeneTest function in
[00385] Для идентификации подкластера, авторы выбирали клетки высокого качества (UMI>400) для каждого основного типа и проводили РСА, t-SNE, кластеризацию Лювена аналогично анализу общего кластера. В высокой степени смещенные подкластеры отфильтровывали, если большинство клеток (>50%) кластера происходили от одного эмбриона. Очень похожие подкластеры были объединены, если их объединенные транскриптомы были в высокой степени скоррелированными (коэффициент корреляции Пирсона>0,95), и если два кластера были близки друг к другу в пространстве t-SNE. Дифференциально экспрессируемые гены во всех подкластерах были идентифицированы для каждого основного типа клеток как описано выше.[00385] To identify a subcluster, we selected high quality cells (UMI>400) for each major type and performed PCA, t-SNE, Leuven clustering similar to the overall cluster analysis. Highly biased subclusters were filtered out if the majority of cells (>50%) of the cluster originated from a single embryo. Very similar subclusters were pooled if their pooled transcriptomes were highly correlated (Pearson's correlation coefficient >0.95) and if the two clusters were close to each other in t-SNE space. Differentially expressed genes in all subclusters were identified for each major cell type as described above.
[00386] Для оценки числа клеток каждого типа (или подтипа), авторы сначала вычислили долю клеток каждого типа в отдельном эмбрионе, а затем результат умножали на общее число клеток, вычисленное для каждого эмбриона (Е9.5: 200000: Е10.5: 1100000; Е11.5: 2600000; Е12.5: 6100000; Е13.5: 13000000).[00386] To estimate the number of cells of each type (or subtype), the authors first calculated the proportion of cells of each type in an individual embryo, and then the result was multiplied by the total number of cells calculated for each embryo (E9.5: 200000: E10.5: 1100000 ; E11.5: 2600000; E12.5: 6100000; E13.5: 13000000).
[00387] Для идентификации пол-специфических типов клеток (или подтипов), авторы сначала вычислили число клеток каждого типа (или подтипа) для самцов и самок на пяти стадиях развития. Отношение, специфичное для клеток каждого типа у самцов и самок, сравнивали с общим отношением числа клеток у самцов и самок на каждой стадии развития. Затем, авторы применили биномиальный критерий в R, для идентификации клеток определенных типов или подтипов со значительными различиями у самцов и самок для каждого типа клеток (х и n представляют собой число женских клеток и общее число клеток каждого типа на каждой стадии развития, р представляет собой число женских клеток на каждой стадии развития). Значение р преобразовывают в скорректированное значение q по методу Бенджамини и Хохберга с помощью функции коррекции р в R.[00387] To identify sex-specific cell types (or subtypes), the authors first calculated the number of cells of each type (or subtype) for males and females at five developmental stages. The ratio specific for cells of each type in males and females was compared with the total ratio of the number of cells in males and females at each stage of development. Next, the authors applied a binomial test in R to identify cell types or subtypes with significant differences between males and females for each cell type (x and n are the number of female cells and the total number of cells of each type at each developmental stage, p is the number of female cells at each stage of development). The p value is converted to a corrected q value by the method of Benjamini and Hochberg using the p correction function in R.
[00388][00388]
[00389] Псевдовременной анализ AER и мезенхимы конечностей[00389] Pseudo-temporal analysis of AER and limb mesenchyme
[00390] Псевдовременное упорядочение клеток AER, передних или задних конечностей было осуществлено с помощью Monocle 274. Вкратце, дифференциально экспрессируемые гены на пяти стадиях развития были идентифицированы с помощью дифференциальной функции GeneTest в Monocle 274. Лучшие 500 генов с наименьшим значением q были использованы для построения псевдовременной траектории с использованием Monocle 274, где число UMI на клетку было использовано в качестве ковариаты при построении дерева. Каждой клетке присваивали псевдовременное значение на основе его положения вдоль дерева траекторий. Сглаженное изменение экспрессии маркерного гена по псевдовремени было определено путем введения функции plot_genes_in_pseudotim в Monocle 274. Клетки на траектории были сгруппированы по методу, описанному в литературе77. Вкратце, клетки были сначала сгруппированы в аналогичных положениях по псевдовремени с помощью кластеризации k-средних вдоль псевдовременной оси (k=10). Эти кластеры были подразделены на группы, содержащие по меньшей мере 50 и не более, чем 100 клеток. Затем, авторы объединили профили транскриптома клеток в каждой группе. Экспрессия гена по псевдовремени была вычислена методом, описанным в литературе77. Вкратце, гены, удовлетворяющие критерию значимости (FDR 5%) в различных условиях обработки, были отобраны, и был использован натуральный сплайн для построения графика зависимости генов от псевдовремени, где среднее число генов было включено в качестве ковариаты. Экспрессию каждого гена вычитали из наименьшей экспрессии, а затем делили на наибольшую экспрессию. Гены с максимальной экспрессией в течение первых 20% псевдовремени были помечены как активированные гены. Гены с максимальной экспрессией в последние 20% псевдовремени были помечены как репрессированные гены. Другие гены были помечены как временные гены. Обогащенные реактомные элементы (Reactome_2016) и факторы транскрипции (СпЕА_2016) были идентифицированы с использованием пакета программ EnrichR78.[00390] Pseudo-temporal sequencing of AER cells, forelimbs or hind limbs was performed using
[00391] Заключение о траекториях, определенных с помощью Monocle 3[00391] Conclusion about trajectories defined using
[00392] Рабочая схема Monocle 3 состоит из 3 основных стадий организации клеток по потенциально прерывистым траекториям, с последующими необязательными статистическими анализами для поиска генов, которые различаются по экспрессии на всех этих траекториях. Monocle 3 также включает пакеты программ по визуализации для облегчения исследования траекторий в трех измерениях.[00392] The
[00393] Уменьшение размерности с помощью однородной множественной аппроксимации и проецирования (UMAP)[00393] Uniform Multiple Approximation and Projection (UMAP) Dimension Reduction
[00394] Сначала программа Monocle 3 была использована для проецирования данных в маломерное пространство, что облегчает изучение основного графа, который описывает клеточные переходы между транскриптомными состояниями. Программа Monocle 3 работает вместе с UMAP, то есть, с недавно предложенным алгоритмом, основанным на римановой геометрии и алгебраической топологии, для уменьшения размерности и визуализации данных79. Качество визуализации, достигаемое с помощью этого алгоритма, может конкурировать с качеством, достигаемым с помощью популярного метода t-SNE (t-стохастического встраивания соседних областей), широко применяемого в транскриптомике для отдельных клеток. Однако, если t-SNE в основном направлен на размещение в высокой степени сходных клеток в одних и тех же областях маломерного пространства, то UMAP также сохраняет отношения расстояний с более широким размахом. Сам алгоритм UMAP также является более эффективным (сложность алгоритма UMAP оценивается по О (N) по сравнению с О(Nlog(N)) для t-SNE). Вкратце, UMAP сначала дает топологическое представление о многомерных данных с локальными множественными аппроксимациями и объединяет их локальные размытые представления упрощенных множеств. Затем UMAP оптимизирует введение нижнего измерения, минимизируя перекрестную энтропию между представлением низкой размерности и представлением высокой размерности.[00394] Initially, the
[00395] Вычислительная эффективность UMAP резко ускоряет анализ данных мышиных эмбрионов. Авторами было обнаружено, что UMAP завершает анализ серии данных для двух миллионов клеток за 3 часа, в то время как анализ t-SNE занимает более 10 часов с 10 центрами (в данном случае используется мультицентровой bh-t-SNE). Несколько деталей реализации этого метода делает UMAP более эффективным. Алгоритмы UMAP и t-SNE имеют две основных стадии: сначала создается промежуточная структура из пространства с высокой размерностью (обычно это пространство с уменьшенным верхним РСА), а затем осуществляется поиск включений с низкой размерностью для представления промежуточной структуры. Во второй стадии, в обоих методах используется способ стохастического понижения решетки с различными функциями потерь для включения данных в маломерное пространство. Для t-SNE требуется функция потери для глобальной нормализации, а для UMAP не требуется функция потери, а используется другая целевая функция. Эта стадия позволяет, по существу, линейно масштабировать UMAP по ряду выборки данных. В Monocle 3, авторы работают с программой имплементации Python UMAP (доступной в Интернете на сайте www.atgithub.com/lmcinnes/umap) от Leland Mclnnes и John Healy с помощью пакета программ reticulate (доступного в Интернете на сайте atcran.r-project.org/web/packages/reticulate/ index.html).[00395] The computational efficiency of UMAP dramatically speeds up the analysis of mouse embryo data. The authors found that UMAP completes the analysis of a data series for two million cells in 3 hours, while the analysis of t-SNE takes more than 10 hours with 10 centers (in this case, a multicenter bh-t-SNE is used). A few implementation details of this method make UMAP more efficient. The UMAP and t-SNE algorithms have two main stages: first, an intermediate structure is created from a high-dimensional space (usually a space with reduced upper PCA), and then low-dimensional inclusions are searched to represent the intermediate structure. In the second stage, both methods use a stochastic lattice reduction approach with different loss functions to include data in a low-dimensional space. t-SNE requires a loss function for global normalization, while UMAP does not require a loss function but uses a different objective function. This stage allows UMAP to be substantially linearly scaled over a set of data samples. In
[00396] Распределение клеток по прерывающимся траекториям[00396] Distribution of cells along interrupted trajectories
[00397] Недавно Вольф и его коллеги предложили идею организовать сбор данных о транскриптоме для отдельных клеток в «абстрактный разбиваемый граф» (AGA), связывающий кластеры клеток, которые могут быть связаны друг с другом с точки зрения времени развития. Вкратце, их алгоритм позволяет построить граф k-ближайших соседей на клетках, а затем идентифицирует «сообщества» клеток методом Лювена, аналогичным предыдущим методам анализа данных CyTOF или сбора данных PHK-seq для отдельных клеток80. Затем с помощью AGA можно построить граф, в котором вершинами являются лювеновские сообщества. Две вершины связаны с ребром в графе AGA, если клетки в соответствующих сообществах являются соседями в графе kNN чаще, чем это можно было бы ожидать в простой биномиальной модели81. Подобные методы были также недавно разработаны и применены для анализа наборов данных в атласе клеток для рыбы-зебры и лягушек82, 83.[00397] Recently, Wolf and colleagues proposed the idea of organizing the collection of transcriptome data for individual cells into an "Abstract Divided Graph" (AGA) linking clusters of cells that can be related to each other in terms of developmental time. Briefly, their algorithm builds a k-nearest neighbor graph on cells and then identifies "communities" of cells in a Leuven method, similar to previous methods for analyzing CyTOF data or collecting RNA-seq data for individual cells 80 . Then, using AGA, one can construct a graph in which the vertices are the Leuven communities. Two vertices are connected to an edge in the AGA graph if cells in the respective communities are neighbors in the kNN graph more often than would be expected in a simple binomial model 81 . Similar methods have also recently been developed and applied to the analysis of cell atlas datasets for zebrafish and frogs 82, 83 .
[00398] Монокль 3 опирается на следующие идеи: сначала строят граф kNN для клеток в пространстве UMAP, а затем их группируют в лювеновские сообщества, и каждую пару сообществ тестируют на значимое число связей между их соответствующими клетками. Сообщества, которые имеют больше связей, чем это ожидалось при нулевой гипотезе ложной связи (FDR<10%), остаются связанными на графике AGA, а те связи, которые не прошли этот тест, разрываются. Результирующий граф AGA будет иметь один или более компонентов, каждый из которых передается на следующий шаг (L1-граф) в виде отдельной группы клеток, которые будут организованы в траекторию. Алгоритм AGA, по существу останавливается на этом этапе, представляя граф AGA как своего рода крупную траекторию в каждом сообществе, отражающую клетки в различных состояниях, которые они могут принимать по мере их развития. В отличие от этого, как описано в следующем разделе, Monocle 3 использует граф AGA для ограничения пространства главных графов, которые могут формировать конечную траекторию. То есть, Monocle 3 использует крупный граф AGA для изучения мелкой траектории.[00398]
[00399] Реализация Monocle 3 вышеупомянутых процедур масштабируется до миллионов клеток. Вкратце, он использует функцию лювеновской кластеризации из пакета программ igraph для обнаружения сообщества. Затем, основные расчеты AGA, сделанные Wolf и др., обрабатываются на компьютере с помощью ряда операций на разреженных матрицах. X можно принять за (разреженную) матрицу, представляющую член сообщества клеток. Каждый столбец X представляет лювенское сообщество, а каждый ряд X соответствует конкретной клетке. Xij=1, если клеткам принадлежит лювенскому сообществу j, а в противном случае Xij=0. Далее, можно получить матрицу смежности А графа kNN, используемую для осуществления кластеризации Лювена, где Aij=1, если клетка i соединяется с j на графе kNN. Затем матрицу М соединения между каждым кластером вычисляют по формуле:[00399] The
[00400] М=ХТАХ[00400] M=X T AX
[00401] После построения М, авторы могут следовать Дополнительному примечанию 3.1 из ссылки81 для вычисления значимости связи между каждой кластеризацией Лювена, и рассмотреть любые кластеры с величиной р более, чем 0,05 по умолчанию, как неразрывные.[00401] After constructing M, authors may follow Supplementary Note 3.1 of Ref. 81 to calculate the significance of the relationship between each Leuven clustering, and consider any clusters with a p-value greater than the default 0.05 as non-discontinuous.
[00402] Изучение основного графа[00402] Learning the main graph
[00403] Монокль 3 позволяет исследовать основной граф, который находится в таком же малоразмерном пространстве, как и данные для представления возможных путей развития клеток. В Monocle 3 используется расширенная реализация алгоритма84 Ll-графа для изучения основного графа. Мао и др. описали два варианта алгоритма Ll-графа84. В первом алгоритме («Алгоритм 1»), эти данные были оптимизированы относительно всех отдельных исходных данных в базе данных. Ранее авторами было показано, что, хотя L1-граф может применяться к данным RNA-seq для отдельных клеток, однако, он позволяет изучать наиболее «шумные» графы, которые не устойчивы к снижению выборки, и этот алгоритм эффективно не масштабируется по наборам данных за пределами нескольких сотен клеток85. Авторы не исследовали «Алгоритм 2», описанный в работе Qiu et al., где сначала осуществляют отбор «ориентировочных» исходных данных с использованием алгоритма кластеризации K-средних. Затем алгоритм оптимизируют по сравнению с этой гораздо меньшей выборкой данных. В Monocle 3 используется алгоритм, который, при его применении к клеткам в пространстве UMAP, является надежным, и с некоторыми ключевыми изменениями, может масштабироваться до миллионов клеток.[00403]
[00404] Реализация авторами алгоритма L1-графа имеет несколько ключевых особенностей, которые позволяют проанализировать большие наборы данных и достоверно выделить основной граф. Сначала авторы изучали L1-граф в пространстве UMAP (по умолчанию, в 3-мерном). Авторами была использована кластеризация K-медиоидов для отбора «ориентировочных» клеток в целях ускорения оптимизации. Количество выбранных «ориентировочных» клеток влияет на время работы алгоритма и качество решения: слишком много ориентиров приведет к неразрешимой проблеме линейного программирования. Поэтому, авторами было определено количество ориентиров в зависимости от данных путем присваивания К сообществам, которые были обнаружены среди клеток, и которые были в три раза больше лювенских сообществ, что на практике приводило к быстрым и стабильным решениям.[00404] The authors' implementation of the L1 graph algorithm has several key features that allow you to analyze large data sets and reliably highlight the main graph. First, the authors studied the L1 graph in UMAP space (by default, in 3-dimensional space). The authors used K-medioids clustering to select "orienting" cells in order to speed up optimization. The number of selected "guide" cells affects the running time of the algorithm and the quality of the solution: too many guides will lead to an unsolvable linear programming problem. Therefore, the authors determined the number of landmarks depending on the data by assigning K to the communities that were found among the cells, and which were three times larger than the Leuven communities, which in practice led to fast and stable solutions.
[00405] Вторая важная оптимизация L1-графа заключается в том, что авторы накладывают ограничения на «допустимое» пространство всех возможных графов W, рассматриваемых при оптимизации. Мао et al. рассмотрели все возможные границы между ориентировочными исходными данными. Однако, даже при наличии всего лишь тысячи «ориентировочных» клеток, задача линейного программирования быстро может стать неосуществимой, поскольку число переменных зависит от числа ребер в графе. В Monocle 3, авторы вводят ребра только в допустимое пространство, которое находится либо в дереве минимального охвата (MST), построенного на «ориентировочных» точках, либо в графе kNN (по умолчанию k=3), построенном на вершинах с нечетной степенью в МСТ. И наконец, авторами были исключены ребра, которые связывали бы клетки в различных соединенных компонентах графа AGA, построенного как описано в предыдущем разделе.[00405] The second important optimization of the L1 graph is that the authors impose restrictions on the "feasible" space of all possible graphs W considered in the optimization. Mao et al. considered all possible boundaries between the indicative initial data. However, even with only a thousand "indicative" cells, a linear programming problem can quickly become unfeasible, since the number of variables depends on the number of edges in the graph. In
[00406] Идентификация генов, экспрессия которых зависит от траектории[00406] Identification of genes whose expression depends on the trajectory
[00407] Для идентификации генов, различающихся по экспрессии в зависимости от траектории развития, авторы позаимствовали статистический критерий, обычно используемый при анализе пространственных данных. Статистический I-критерий Морана представляет собой критерий разнонаправленной и многомерной пространственной автокорреляции. Эта статистический метод позволяет определить пространственные взаимосвязи между исходными данными через граф ближайших соседей, что делает его особенно подходящим для анализа больших наборов данных RNA-seq для отдельных клеток.[00407] To identify genes that differ in expression depending on the developmental trajectory, the authors borrowed a statistical criterion commonly used in the analysis of spatial data. Statistical Moran's I-test is a multidirectional and multivariate spatial autocorrelation test. This statistical method allows the determination of spatial relationships between input data through a nearest neighbor graph, making it particularly suitable for analyzing large single-cell RNA-seq datasets.
[004 08] Т-критерий Морана86 определяют по формуле:[004 08] Moran's T-test 86 is determined by the formula:
[00409] [00409]
[00410] где N означает число клеток, проиндексированных как i и j, а х означает величину экспрессии представляющего интерес гена; представляет собой среднее значение экспрессии генов для ближайших соседей клеток i' (или j'); ωij представляет собой весовую матрицу, определенную графом ближайших соседей с нулем по диагонали (то есть, ωii=0), и ωij=1/ki, где ki означает число ближайших соседей, a W равно сумме всех ωij.[00410] where N is the number of cells indexed as i and j, and x is the amount of expression of the gene of interest; represents the average value of gene expression for the nearest neighbors of cells i' (or j'); ω ij is a weight matrix defined by the nearest neighbor graph with diagonal zero (i.e., ω ii =0), and ω ij =1/k i , where k i is the number of nearest neighbors and W is the sum of all ω ij .
[00411] Для идентификации ближайших соседей, используемых для создания весовой матрицы W, авторами был сначала построен граф ближайших соседей к (по умолчанию 25) (kNN) для всех клеток в пространстве UMAP. Авторами также была проецирована каждая клетка на ближайший узел в основном графе. Затем авторы удалили все ребра из графа kNN, которые соединяют клетки, проецируемые на узлы основного графа, который не является частью ребра.[00411] To identify the nearest neighbors used to create the weight matrix W, we first built a nearest neighbor graph k (default 25) (kNN) for all cells in UMAP space. The authors also projected each cell to the nearest node in the main graph. The authors then removed all edges from the kNN graph that connect cells projected onto the nodes of the main graph that are not part of the edge.
[00412] В Monocle 3 авторами была реализована функция manifoldTest для идентификации множества скоррелированных генов, которая зависит от модифицированных версий рутинных программ, взятых из пакета программ spdep для реализации I-критерия Морана.[00412] In
[00413] Библиография[00413] Bibliography
[00414] 1. Fogarty, N. М. Е. et al. Genome editing reveals a role for OCT4 in human embryogenesis. Nature 550, 67-73 (2017).[00414] 1. Fogarty, N. M. E. et al. Genome editing reveals a role for OCT4 in human embryogenesis. Nature 550, 67-73 (2017).
[00415] 2. Kojima, Y., Tam, О. H. & Tam, P. P. L. Timing of developmental events in the early mouse embryo. Semin. Cell Dev. Biol. 34, 65-75 (2014).[00415] 2. Kojima, Y., Tam, O. H. & Tam, P. P. L. Timing of developmental events in the early mouse embryo. Semin. celldev. Biol. 34, 65-75 (2014).
[00416] 3. Tam, P. P. L. & Loebel, D. A. F. Gene function in mouse embryogenesis: get set for gastrulation. Nat. Rev. Genet. 8, 368-381 (2007).[00416] 3. Tam, P. P. L. & Loebel, D. A. F. Gene function in mouse embryogenesis: get set for gastrulation. Nat. Rev. Genet. 8, 368-381 (2007).
[00417] 4. Rivera-Péres J. A. & Hadjantonakis, A.-K. The Dynamics of Morphogenesis in the Early Mouse Embryo. Cold Spring Harb. Perspect. Biol. 7, a015867 (2014).[00417] 4. Rivera-Péres J. A. & Hadjantonakis, A.-K. The Dynamics of Morphogenesis in the Early Mouse Embryo. Cold Spring Harb. perspective. Biol. 7, a015867 (2014).
[00418] 5. Dickinson, M. E. et al. High-throughput discovery of novel developmental phenotypes. Nature 537, 508-514 (2016).[00418] 5. Dickinson, M. E. et al. High-throughput discovery of novel developmental phenotypes. Nature 537, 508-514 (2016).
[00419] 6. Meehan, Т. F. et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nat. Genet. 49, 1231-1238 (2017).[00419] 6. Meehan, T. F. et al. Disease model discovery from 3,328 gene knockouts by The International Mouse Phenotyping Consortium. Nat. Genet. 49, 1231-1238 (2017).
[00420] 7. Shyer, A. E., Huycke, T. R., Lee, C, Mahadevan, L. & Tabin, C. J. Bending gradients: how the intestinal stem cell gets its home. Cell 161, 569-580 (2015).[00420] 7. Shyer, A. E., Huycke, T. R., Lee, C, Mahadevan, L. & Tabin, C. J. Bending gradients: how the intestinal stem cell gets its home. Cell 161, 569-580 (2015).
[00421] 8. Uygur, A. et al. Scaling Pattern to Variations in Size during Development of the Vertebrate Neural Tube. Dev. Cell 37, 127-135 (2016).[00421] 8. Uygur, A. et al. Scaling Pattern to Variations in Size during Development of the Vertebrate Neural Tube. dev.
[00422] 9. Gorkin, D. et al. Systematic mapping of chromatin state landscapes during mouse development. (2017). doi:10.1101/166652[00422] 9. Gorkin, D. et al. Systematic mapping of chromatin state landscapes during mouse development. (2017). doi:10.1101/166652
[00423] 10. Mayer, C. et al. Developmental diversification of cortical inhibitory interneurons. Nature 555, 457-462 (2018).[00423] 10. Mayer, C. et al. Developmental diversification of cortical inhibitory interneurons. Nature 555, 457-462 (2018).
[00424] 11. Lescroart, F. et al. Defining the earliest step of cardiovascular lineage segregation by single-cell RNA-seq. Science (2018). doi:10.1126/science.aao4174[00424] 11. Lescroart, F. et al. Defining the earliest step of cardiovascular lineage segregation by single-cell RNA-seq. Science (2018). doi:10.1126/science.aao4174
[00425] 12. Han, X. et al. Mapping the Mouse Cell Atlas by Microwell-Seq. Cell 172, 1091-1107.e17 (2018).[00425] 12. Han, X. et al. Mapping the Mouse Cell Atlas by Microwell-Seq. Cell 172, 1091-1107.e17 (2018).
[00426] 13. The Tabula Muris Consortium, Quake, S. R., Wyss-Coray, T. & Darmanis, S. Transcriptomic characterization of 20 organs and tissues from mouse at single cell resolution creates a Tabula Muris. (2017). doi:10.1101/237446[00426] 13. The Tabula Muris Consortium, Quake, S. R., Wyss-Coray, T. & Darmanis, S. Transcriptomic characterization of 20 organs and tissues from mouse at single cell creates resolution a Tabula Muris. (2017). doi:10.1101/237446
[00427] 14. Amini, S. et al. Haplotype-resolved whole-genome sequencing by contiguity-preserving transposition and combinatorial indexing. Nat. Genet. 46, 1343-1349 (2014).[00427] 14. Amini, S. et al. Haplotype-resolved whole-genome sequencing by contiguity-preserving transposition and combinatorial indexing. Nat. Genet. 46, 1343-1349 (2014).
[00428] 15. Adey, A. et al. In vitro, long-range sequence information for de novo genome assembly via transposase contiguity. Genome Res. 24, 2041-2049 (2014).[00428] 15. Adey, A. et al. In vitro, long-range sequence information for de novo genome assembly via transposase contiguity. Genome Res. 24, 2041-2049 (2014).
[00429] 16. Cusanovich, D. A. et al. Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science 348, 910-914 (2015).[00429] 16. Cusanovich, D. A. et al. Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science 348, 910-914 (2015).
[00430] 17. Vitak, S. A. et al. Sequencing thousands of single-cell genomes with combinatorial indexing. Nat. Methods 14, 302-308 (2017).[00430] 17. Vitak, S. A. et al. Sequencing thousands of single-cell genomes with combinatorial indexing. Nat.
[00431] 18. Ramani, V. et al. Massively multiplex single-cell Hi-C. Nat. Methods 14, 263-266 (2017).[00431] 18. Ramani, V. et al. Massively multiplex single-cell Hi-C. Nat.
[00432] 19. Cao, J. et al. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science 357, 661-667 (2017).[00432] 19. Cao, J. et al. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science 357, 661-667 (2017).
[00433] 20. Mulqueen, R. M. et al. Scalable and efficient single-cell DNA methylation sequencing by combinatorial indexing. (2017). doi:10.1101/157230[00433] 20. Mulqueen, R. M. et al. Scalable and efficient single-cell DNA methylation sequencing by combinatorial indexing. (2017). doi:10.1101/157230
[00434] 21. Rosenberg, A. B. et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science (2018). doi:10.112б/science.aam8999[00434] 21. Rosenberg, A. B. et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science (2018). doi:10.112b/science.aam8999
[00435] 22. Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. Commun. 8, 14049 (2017).[00435] 22. Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. commun. 8, 14049 (2017).
[00436] 23. Qiu, X. et al. Reversed graph embedding resolves complex single-cell developmental trajectories. (2017). doi:10.1101/110668[00436] 23. Qiu, X. et al. Reversed graph embedding resolves complex single-cell developmental trajectories. (2017). doi:10.1101/110668
[00437] 24. Fernandez, T. et al. Disruption of contactin 4 (CNTN4) results in developmental delay and other features of 3p deletion syndrome. Am. J. Hum. Genet. 74, 1286-1293 (2004).[00437] 24. Fernandez, T. et al. Disruption of contactin 4 (CNTN4) results in developmental delay and other features of 3p deletion syndrome. Am. J. Hum. Genet. 74, 1286-1293 (2004).
[00438] 25. Olson, J. M. et al. NeuroD2 is necessary for development and survival of central nervous system neurons. Dev. Biol. 234, 174-187 (2001).[00438] 25. Olson, J. M. et al. NeuroD2 is necessary for development and survival of central nervous system neurons. dev. Biol. 234, 174-187 (2001).
[00439] 26. Uittenbogaard, M., Baxter, К. K. & Chiaramello, A. NeuroD6 Genomic Signature Bridging Neuronal Differentiation to Survival via the Molecular Chaperone Network. J. Neurosci. Res. 88, 33 (2010).[00439] 26. Uittenbogaard, M., Baxter, K. K. & Chiaramello, A. NeuroD6 Genomic Signature Bridging Neuronal Differentiation to Survival via the Molecular Chaperone Network. J. Neurosci. Res. 88, 33 (2010).
[00440] 27. Yang, A. et al. p63 is essential for regenerative proliferation in limb, craniofacial and epithelial development. Nature 398, 714-718 (1999).[00440] 27. Yang, A. et al. p63 is essential for regenerative proliferation in limb, craniofacial and epithelial development. Nature 398, 714-718 (1999).
[00441] 28. McQualter, J. L., Yuen, K., Williams, B. & Bertoncello, I. Evidence of an epithelial stem/progenitor cell hierarchy in the adult mouse lung. Proc. Natl. Acad. Sci. U. S. A. 107, 1414-1419 (2010).[00441] 28. McQualter, J. L., Yuen, K., Williams, B. & Bertoncello, I. Evidence of an epithelial stem/progenitor cell hierarchy in the adult mouse lung. Proc. Natl. Acad. sci. U. S. A. 107, 1414-1419 (2010).
[00442] 29. Cichorek, M., Wachulska, M., Stasiewicz, A. & Tymińska A. Skin melanocytes: biology and development. Advances in Dermatology and Allergology 1, 30-41 (2013).[00442] 29. Cichorek, M., Wachulska, M., Stasiewicz, A. & Tymińska A. Skin melanocytes: biology and development. Advances in Dermatology and
[00443] 30. Tomihari, M., Hwang, S.-H., Chung, J.-S., Cruz, P. D., Jr. & Ariizumi, K. Gpnmb is a melanosome-associated glycoprotein that contributes to melanocyte/keratinocyte adhesion in a RGD-dependent fashion. Exp.Dermatol. 18, 586-595 (2009).[00443] 30. Tomihari, M., Hwang, S.-H., Chung, J.-S., Cruz, P. D., Jr. & Ariizumi, K. Gpnmb is a melanosome-associated glycoprotein that contributes to melanocyte/keratinocyte adhesion in a RGD-dependent fashion. Exp.Dermatol. 18, 586-595 (2009).
[00444] 31. Varjosalo, M. & Taipale, J. Hedgehog: functions and mechanisms. Genes Dev. 22, 2454-2472 (2008).[00444] 31. Varjosalo, M. & Taipale, J. Hedgehog: functions and mechanisms. Gene Dev. 22, 2454-2472 (2008).
[00445] 32. Strahle, U., Lam, C. S., Ertzer, R. & Rastegar, S. Vertebrate floor-plate specification: variations on common themes. Trends Genet. 20, 155-162 (2004).[00445] 32. Strahle, U., Lam, C. S., Ertzer, R. & Rastegar, S. Vertebrate floor-plate specification: variations on common themes. Trends Genet. 20, 155-162 (2004).
[00446] 33. Holmes, G. P. et al. Distinct but overlapping expression patterns of two vertebrate slit homologs implies functional roles in CNS development and organogenesis. Mech. Dev. 79, 57-72 (1998).[00446] 33. Holmes, G. P. et al. Distinct but overlapping expression patterns of two vertebrate slit homologs implies functional roles in CNS development and organogenesis. Mech. dev. 79, 57-72 (1998).
[00447] 34. Akle, V. et al. F-spondin/sponlb expression patterns in developing and adult zebrafish. PLoS One 7, e37593 (2012).[00447] 34. Akle, V. et al. F-spondin/sponlb expression patterns in developing and adult zebrafish. PLoS One 7, e37593 (2012).
[00448] 35. Hartman, В. H., Durruthy-Durruthy, R., Laske, R. D., Losorelli, S. & Heller, S. Identification and characterization of mouse otic sensory lineage genes. Front. Cell. Neurosci. 9, 79 (2015).[00448] 35. Hartman, B. H., Durruthy-Durruthy, R., Laske, R. D., Losorelli, S. & Heller, S. Identification and characterization of mouse otic sensory lineage genes. front. cell. neurosci. 9, 79 (2015).
[00449] 36. Petit, F., Sears, К. E. & Ahituv, N. Limb development: a paradigm of gene regulation. Nat. Rev. Genet. 18, 245-258 (2017).[00449] 36. Petit, F., Sears, K. E. & Ahituv, N. Limb development: a paradigm of gene regulation. Nat. Rev. Genet. 18, 245-258 (2017).
[00450] 37. Guo, Q., Loomis, C. & Joyner, A. L. Fate map of mouse ventral limb ectoderm and the apical ectodermal ridge. Dev. Biol. 264, 166-178 (2003).[00450] 37. Guo, Q., Loomis, C. & Joyner, A. L. Fate map of mouse ventral limb ectoderm and the apical ectodermal ridge. dev. Biol. 264, 166-178 (2003).
[00451] 38. Lewandoski M, E. al. Fgf8 signalling from the AER is essential for normal limb development. - PubMed - NCBI. Available at: https://www.ncbi.nlm.nih.gov/pubmed/11101846. (Accessed: 22nd April 2018)[00451] 38. Lewandoski M, E. al. Fgf8 signaling from the AER is essential for normal limb development. - PubMed - NCBI. Available at: https://www.ncbi.nlm.nih.gov/pubmed/11101846. (Accessed: 22nd April 2018)
[00452] 39. Aoki M, E. al. R-spondin2 expression in the apical ectodermal ridge is essential for outgrowth and patterning in mouse limb development. - PubMed - NCBI. Available at: https://www.ncbi.nlm.nih.gov/pubmed/18067586. (Accessed: 22nd April 2018)[00452] 39. Aoki M, E. al. R-spondin2 expression in the apical ectodermal ridge is essential for outgrowth and patterning in mouse limb development. - PubMed - NCBI. Available at: https://www.ncbi.nlm.nih.gov/pubmed/18067586. (Accessed: 22nd April 2018)
[00453] 40. Gerdes, J., Schwab, U., Lemke, H. & Stein, H. Production of a mouse monoclonal antibody reactive with a human nuclear antigen associated with cell proliferation. Int. J. Cancer 31, 13-20 (1983).[00453] 40. Gerdes, J., Schwab, U., Lemke, H. & Stein, H. Production of a mouse monoclonal antibody reactive with a human nuclear antigen associated with cell proliferation.
[00454] 41. Bergman, D., Halje, M., Nordin, M. & Engström W. Insulin-like growth factor 2 in development and disease: a mini-review. Gerontology 59, 240-249 (2013).[00454] 41. Bergman, D., Halje, M., Nordin, M. & Engström W. Insulin-
[00455] 42. Trapnell, C. et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nat. Biotechnol. 32, 381-386 (2014).[00455] 42. Trapnell, C. et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nat. Biotechnol. 32, 381-386 (2014).
[00456] 43. Mclnnes, L. & Healy, J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. (2018).[00456] 43. McInnes, L. & Healy, J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. (2018).
[00457] 44. Alexander Wolf, F. et al. Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells. bioRxiv 208819 (2017). doi:10.1101/208819[00457] 44. Alexander Wolf, F. et al. Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells. bioRxiv 208819 (2017). doi:10.1101/208819
[00458] 45. Qiu, X. et al. Reversed graph embedding resolves complex single-cell trajectories. Nat. Methods 14, 979-982 (2017).[00458] 45. Qiu, X. et al. Reversed graph embedding resolves complex single-cell trajectories. Nat.
[00459] 46. Singh, M. K. et al. The T-box transcription factor Tbxl5 is required for skeletal development. Mech. Dev. 122, 131-144 (2005).[00459] 46. Singh, M. K. et al. The T-box transcription factor Tbxl5 is required for skeletal development. Mech. dev. 122, 131-144 (2005).
[00460] 47. Paine-Saunders, S., Viviano, B. L., Zupicich, J., Skarnes, W. C. & Saunders, S. glypican-3 controls cellular responses to Bmp4 in limb patterning and skeletal development. Dev. Biol. 225, 179-187 (2000).[00460] 47. Paine-Saunders, S., Viviano, B. L., Zupicich, J., Skarnes, W. C. & Saunders, S. glypican-3 controls cellular responses to Bmp4 in limb patterning and skeletal development. dev. Biol. 225, 179-187 (2000).
[00461] 48. Hara, K. & Ide, H. Msx1 expressing mesoderm is important for the apical ectodermal ridge (AER)-signal transfer in chick limb development. Dev. Growth Differ. 39, 705-714 (1997).[00461] 48. Hara, K. & Ide, H. Msx1 expressing mesoderm is important for the apical ectodermal ridge (AER)-signal transfer in chick limb development. dev. Growth Differ. 39, 705-714 (1997).
[00462] 49. D. G. et al. Disruptions of Topological Chromatin Domains Cause Pathogenic Rewiring of Gene-Enhancer Interactions. Cell 161, 1012-1025 (2015).[00462] 49. DG et al. Disruptions of Topological Chromatin Domains Cause Pathogenic Rewiring of Gene-Enhancer Interactions. Cell 161, 1012-1025 (2015).
[00463] 50. Davis, R. J. et al. Dachl mutant mice bear no gross abnormalities in eye, limb, and brain development and exhibit postnatal lethality. Mol. Cell. Biol. 21, 1484-1490 (2001).[00463] 50. Davis, R. J. et al. Dachl mutant mice bear no gross abnormalities in eye, limb, and brain development and exhibit postnatal lethality. Mol. cell. Biol. 21, 1484-1490 (2001).
[00464] 51. Akiyama, H., Chaboissier, M.-C, Martin, J. F., Schedl, A. & de Crombrugghe, B. The transcription factor Sox9 has essential roles in successive steps of the chondrocyte differentiation pathway and is required for expression of Sox5 and Sox6. Genes Dev. 16, 2813-2828 (2002).[00464] 51. Akiyama, H., Chaboissier, M.-C, Martin, J. F., Schedl, A. & de Crombrugghe, B. The transcription factor Sox9 has essential roles in successive steps of the chondr differentiationocyte pathway and is required for expression of Sox5 and Sox6. Gene Dev. 16, 2813-2828 (2002).
[00465] 52. Deng, Y. et al. Yap1 Regulates Multiple Steps of Chondrocyte Differentiation during Skeletal Development and Bone Repair. Cell Rep.14, 2224-2237 (2016).[00465] 52. Deng, Y. et al. Yap1 Regulates Multiple Steps of Chondrocyte Differentiation during Skeletal Development and Bone Repair. Cell Rep. 14, 2224-2237 (2016).
[00466] 53. Joshi, S. et al. TEAD transcription factors are required for normal primary myoblast differentiation in vitro and muscle regeneration in vivo. PLoS Genet. 13, е1006600 (2017).[00466] 53. Joshi, S. et al. TEAD transcription factors are required for normal primary myoblast differentiation in vitro and muscle regeneration in vivo. PLoS Genet. 13, e1006600 (2017).
[00467] 54. Knapp, D. et al. Comparative transcriptional profiling of the axolotl limb identifies a tripartite regeneration-specific gene program. PLoS One 8, e61352 (2013).[00467] 54. Knapp, D. et al. Comparative transcriptional profiling of the axolotl limb identifies a tripartite regeneration-specific gene program. PLoS One 8, e61352 (2013).
[00468] 55. Zeller, R., López-Rios J. & Zuniga, A. Vertebrate limb bud development: moving towards integrative analysis of organogenesis. Nat. Rev. Genet. 10, 845-858 (2009).[00468] 55. Zeller, R., López-Rios J. & Zuniga, A. Vertebrate limb bud development: moving towards integrative analysis of organogenesis. Nat. Rev. Genet. 10, 845-858 (2009).
[00469] 56. Nishimoto, S., Minguillon, C, Wood, S. & Logan, M. P. 0. A combination of activation and repression by a colinear Hox code controls forelimb-restricted expression of Tbx5 and reveals Hox protein specificity. PLoS Genet. 10, el004245 (2014).[00469] 56. Nishimoto, S., Minguillon, C, Wood, S. & Logan, M. P. 0. A combination of activation and repression by a colinear Hox code controls forelimb-restricted expression of Tbx5 and reveals Hox protein specificity. PLoS Genet. 10, el004245 (2014).
[00470] 57. Vargesson, N., Luria, V., Messina, I., Erskine, L. & Laufer, E. Expression patterns of Slit and Robo family members during vertebrate limb development. Mech. Dev. 106, 175-180 (2001).[00470] 57. Vargesson, N., Luria, V., Messina, I., Erskine, L. & Laufer, E. Expression patterns of Slit and Robo family members during vertebrate limb development. Mech. dev. 106, 175-180 (2001).
[00471] 58. Chimal-Monroy, J. et al. Analysis of the molecular cascade responsible for mesodermal limb chondrogenesis: Sox genes and BMP signaling. Dev. Biol. 257, 292-301 (2003).[00471] 58. Chimal-Monroy, J. et al. Analysis of the molecular cascade responsible for mesodermal limb chondrogenesis: Sox genes and BMP signaling. dev. Biol. 257, 292-301 (2003).
[00472] 59. Braun, T. & Gautel, M. Transcriptional mechanisms regulating skeletal muscle differentiation, growth and homeostasis. Nat. Rev. Mol. Cell Biol. 12, 349-361 (2011).[00472] 59. Braun, T. & Gautel, M. Transcriptional mechanisms regulating skeletal muscle differentiation, growth and homeostasis. Nat. Rev. Mol. Cell biol. 12, 349-361 (2011).
[00473] 60. Tajbakhsh, S., Rocancourt, D., Cossu, G. & Buckingham, M. Redefining the genetic hierarchies controlling skeletal myogenesis: Pax-3 and Myf-5 act upstream of MyoD. Cell 89, 127-138 (1997).[00473] 60. Tajbakhsh, S., Rocancourt, D., Cossu, G. & Buckingham, M. Redefining the genetic hierarchies controlling skeletal myogenesis: Pax-3 and Myf-5 act upstream of MyoD. Cell 89, 127-138 (1997).
[00474] 61. Harel, I. et al. Distinct origins and genetic programs of head muscle satellite cells. Dev. Cell 16, 822-832 (2009).[00474] 61. Harel, I. et al. Distinct origins and genetic programs of head muscle satellite cells. dev.
[00475] 62. Sambasivan, R. et al. Distinct regulatory cascades govern extraocular and pharyngeal arch muscle progenitor cell fates. Dev. Cell 16, 810-821 (2009).[00475] 62. Sambasivan, R. et al. Distinct regulatory cascades govern extraocular and pharyngeal arch muscle progenitor cell fates. dev.
[00476] 63. Heimberg, G., Bhatnagar, R., El-Samad, H. & Thomson, M. Low Dimensionality in Gene Expression Data Enables the Accurate Extraction of Transcriptional Programs from Shallow Sequencing. Cell Syst 2, 239-250 (2016).[00476] 63. Heimberg, G., Bhatnagar, R., El-Samad, H. & Thomson, M. Low Dimensionality in Gene Expression Data Enables the Accurate Extraction of Transcriptional Programs from Shallow Sequencing.
[00477] 64. Cusanovich, D. A. et al. The cis-regulatory dynamics of embryonic development at single cell resolution. (2017). doi:10.1101/166066[00477] 64. Cusanovich, D. A. et al. The cis-regulatory dynamics of embryonic development at single cell resolution. (2017). doi:10.1101/166066
[00478] 65. McKenna, A. et al. Whole-organism lineage tracing by combinatorial and cumulative genome editing. Science 353, aaf7907 (2016).[00478] 65. McKenna, A. et al. Whole-organism lineage tracing by combinatorial and cumulative genome editing. Science 353, aaf7907 (2016).
[00479] 66. Osterwalder, M. et al. Enhancer redundancy provides phenotypic robustness in mammalian development. Nature 554, 239-243 (2018).[00479] 66. Osterwalder, M. et al. Enhancer redundancy provides phenotypic robustness in mammalian development. Nature 554, 239-243 (2018).
[00480] 67. Dickel, D. E. et al. Ultraconserved Enhancers Are Required for Normal Development. Cell 172, 491-499.el5 (2018).[00480] 67. Dickel, D. E. et al. Ultraconserved Enhancers Are Required for Normal Development. Cell 172, 491-499.el5 (2018).
[00481] 68. Li, D. et al. Formation of proximal and anterior limb skeleton requires early function of Irx3 and Irx5 and is negatively regulated by Shh signaling. Dev. Cell 29, 233-240 (2014).[00481] 68. Li, D. et al. Formation of proximal and anterior limb skeleton requires early function of Irx3 and Irx5 and is negatively regulated by Shh signaling. dev.
[00482] 69. Kraft, K. et al. Deletions, Inversions, Duplications: Engineering of Structural Variants using CRISPR/Cas in Mice. Cell Rep.(2015). doi:10.1016/j.celrep.2 015.01.016[00482] 69. Kraft, K. et al. Deletions, Inversions, Duplications: Engineering of Structural Variants using CRISPR/Cas in Mice. Cell Rep. (2015). doi:10.1016/j.celrep.2 015.01.016
[00483] 70. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y. & Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat. Methods 10, 1213-1218 (2013).[00483] 70. Buenrostro, J. D., Giresi, P. G., Zaba, L. C., Chang, H. Y. & Greenleaf, W. J. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat.
[00484] 71. Renaud, G., Stenzel, U., Maricic, Т., Wiebe, V. & Kelso, J. deML: robust demultiplexing of Illumina sequences using a likelihood-based approach. Bioinformatics 31, 770-772 (2015).[00484] 71. Renaud, G., Stenzel, U., Maricic, T., Wiebe, V. & Kelso, J. deML: robust demultiplexing of Illumina sequences using a likelihood-based approach.
[00485] 72. Dobin, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29, 15-21 (2013).[00485] 72. Dobin, A. et al. STAR: ultrafast universal RNA-seq aligner.
[00486] 73. Anders, S., Pyl, P. T. & Huber, W. HTSeq--a Python framework to work with high-throughput sequencing data. Bioinformatics btu638 (2014).[00486] 73. Anders, S., Pyl, P. T. & Huber, W. HTSeq--a Python framework to work with high-throughput sequencing data. Bioinformatics btu638 (2014).
[00487] 74. Qiu, X. et al. Reversed graph embedding resolves complex single-cell developmental trajectories. (2017). doi:10.1101/110668[00487] 74. Qiu, X. et al. Reversed graph embedding resolves complex single-cell developmental trajectories. (2017). doi:10.1101/110668
[00488] 75. Wolf, F. A., Angerer, P. & Theis, F. J. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol. 19, 15 (2018).[00488] 75. Wolf, F. A., Angerer, P. & Theis, F. J. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol. 19, 15 (2018).
[00489] 76. Cao, J. et al. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science 357, 661-667 (2017).[00489] 76. Cao, J. et al. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science 357, 661-667 (2017).
[00490] 77. Pliner, H. et al. Chromatin accessibility dynamics of myogenesis at single cell resolution. (2017). doi:10.1101/155473[00490] 77. Pliner, H. et al. Chromatin accessibility dynamics of myogenesis at single cell resolution. (2017). doi:10.1101/155473
[00491] 78. Kuleshov, M. V. et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Res. 44, W90-7 (2016).[00491] 78. Kuleshov, M. V. et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Res. 44, W90-7 (2016).
[00492] 79. McInnes, L. & Healy, J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. (2018).[00492] 79. McInnes, L. & Healy, J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. (2018).
[00493] 80. Levine, J. H. et al. Data-Driven Phenotypic Dissection of AML Reveals Progenitor-like Cells that Correlate with Prognosis. Cell 162, 184-197 (2015).[00493] 80. Levine, J. H. et al. Data-Driven Phenotypic Dissection of AML Reveals Progenitor-like Cells that Correlate with Prognosis. Cell 162, 184-197 (2015).
[00494] 81. Wolf, F. A. et al. Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells. (2017). doi:10.1101/208819[00494] 81. Wolf, F. A. et al. Graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells. (2017). doi:10.1101/208819
[00495] 82. Wagner, D. E. et al. Single-cell mapping of gene expression landscapes and lineage in the zebrafish embryo. Science eaar4362 (2018).[00495] 82. Wagner, D. E. et al. Single-cell mapping of gene expression landscapes and lineage in the zebrafish embryo. science ear4362 (2018).
[00496] 83. Briggs, J. A. et al. The dynamics of gene expression in vertebrate embryogenesis at single-cell resolution. Science eaar5780 (2018).[00496] 83. Briggs, J. A. et al. The dynamics of gene expression in vertebrate embryogenesis at single-cell resolution. science ear5780 (2018).
[00497] 84. Mao, Q., Wang, L., Tsang, I. & Sun, Y. Principal Graph and Structure Learning Based on Reversed Graph Embedding. IEEE Trans. Pattern Anal. Mach. Intell. (2016). doi:10.1109/TPAMI.2 016.2 635657[00497] 84. Mao, Q., Wang, L., Tsang, I. & Sun, Y. Principal Graph and Structure Learning Based on Reversed Graph Embedding. IEEE Trans. pattern anal. Mach. Intel. (2016). doi:10.1109/TPAMI.2 016.2 635657
[00498] 85. Qiu, X. et al. Reversed graph embedding resolves complex single-cell trajectories. Nat. Methods 14, 979-982 (2017).[00498] 85. Qiu, X. et al. Reversed graph embedding resolves complex single-cell trajectories. Nat.
[00499] 86. Moran, P. A. P. Notes on continuous stochastic phenomena. Biometrika 37, 17-23 (1950). [00499] 86. Moran, P. A. P. Notes on continuous stochastic phenomena.
[00500] Пример 2[00500] Example 2
[00501] Новый метод выделения ядер из ткани и их фиксации (sc-RNA-seq)[00501] A new method for isolating nuclei from tissue and fixing them (sc-RNA-seq)
[00502] Реагенты: BSA (с чистотой, используемой в молекулярной биологии, NEB, # B9000S); ингибитор Super-РНКазы (Thermo, №АМ2696); EMS 157-4-100, 4% водный раствор параформальдегида (формальдегида), класса ЕМ, 100 мл (Amazon).[00502] Reagents: BSA (molecular biology grade, NEB, #B9000S); Super-RNase inhibitor (Thermo, No. AM2696); EMS 157-4-100, 4% paraformaldehyde (formaldehyde) aqueous solution, EM grade, 100 ml (Amazon).
[00503] Буферы: Буфер для ядер (хранится при 4°С): 10 мМ Трис-HCl, рН 7,4, 10 мМ NaCl, 3 мМ MgCl2, 10% IGEPAL СА-630 (хранится при 4°С). Буфер для промывки ядер (каждый раз заменяли свежим): 98 0 мкл буфера для ядер с 10 мкл BSA и 10 мкл ингибитора Super-РНКазы тщательно перемешивали и хранили на льду. Буфер для лизиса ядер (каждый раз заменяли свежим): буфер для промывки ядер с 0,1% IGEPAL СА-630.[00503] Buffers: Buffer for nuclei (stored at 4°C): 10 mM Tris-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl 2 , 10% IGEPAL CA-630 (stored at 4°C). Nuclear wash buffer (replaced fresh each time): 980 µl of nuclear buffer with 10 µl of BSA and 10 µl of Super-RNase inhibitor were thoroughly mixed and stored on ice. Nuclear lysis buffer (replaced fresh each time): Nuclear wash buffer with 0.1% IGEPAL CA-630.
[00504] Выделение ядер непосредственно из ткани[00504] Isolation of nuclei directly from tissue
[00505] Ткани измельчали на мелкие кусочки лезвием бритвы в 1 мл охлажденного льдом буфера для лизиса клеток (10 мМ Трис-, рН 7,4, 10 мМ NaCl, 3 мМ и 0,1% IGEPAL СА-630, 1% ингибитора Super-РНКазы и 1% BSA) и переносили в верхнюю часть 4 0 мкм-фильтра для клеток (Falcon).[00505] Tissues were minced into small pieces with a razor blade in 1 ml ice-cold cell lysis buffer (10 mM Tris, pH 7.4, 10 mM NaCl, 3 mM and 0.1% IGEPAL CA-630, 1% inhibitor Super -RNase and 1% BSA) and transferred to the top of a 40 µm cell filter (Falcon).
[00506] Ткани гомогенизировали с помощью резинового наконечника поршня шприца (5 мл, BD) в 4 мл буфера для лизиса клеток.[00506] Tissues were homogenized with a rubber tip syringe (5 ml, BD) in 4 ml cell lysis buffer.
[00507] Затем, отфильтрованные ядра переносили в новую пробирку объемом 15 мл (Falcon) и осаждали путем центрифугирования при 500× g в течение 5 минут и один раз промывали 1 мл буфера для лизиса клеток.[00507] Then, the filtered nuclei were transferred to a new 15 ml tube (Falcon) and pelleted by centrifugation at 500×g for 5 minutes and washed once with 1 ml of cell lysis buffer.
[00508] Фиксация ядер[00508] Fixing nuclei
[00509] Ядра фиксировали в 4 мл охлажденного льдом 4% параформальдегида (EMS) в течение 15 минут на льду.[00509] The nuclei were fixed in 4 ml of ice-cold 4% paraformaldehyde (EMS) for 15 minutes on ice.
[00510] После фиксации, ядра два раза промывали в 1 мл буфера для промывки ядер (буфера для лизиса клеток без IGEPAL) и ресуспендировали в 500 мкл буфера для промывки ядер.[00510] After fixation, nuclei were washed twice in 1 ml of nuclear wash buffer (cell lysis buffer without IGEPAL) and resuspended in 500 μl of nuclear wash buffer.
[00511] Образцы распределяли на несколько партий и мгновенно замораживали в жидком азоте. Замороженные образцы могут быть перенесены на сухой лед.[00511] Samples were divided into several batches and flash frozen in liquid nitrogen. Frozen samples may be transferred to dry ice.
[00512] Пример 3[00512] Example 3
[00513] Характеризация динамики перехода клеток из одного состояния в другое по sci-судьбе[00513] Characterization of the dynamics of cell transition from one state to another by sci-fate
[00514] Развитие живого организма заключается в прохождении клетками различных состояний в строго организованном временном порядке. Несмотря на все возрастающее применение геномных методов для отдельных клеток, количественная оценка динамики перехода клетки из одного состояния в другое остается сложной задачей. В данном случае, авторами вводится понятие «sci-судьба» как высокопроизводительный анализ на основе комбинаторного индексирования, проводимый для профилирования как целого, так и вновь синтезированного транскриптома в каждой из тысяч отдельных клеток. В качестве доказательства этой концепции, авторы применили понятие sci-судьба к модельной системе ответа на кортизол и охарактеризовали более 6000 событий перехода клетки из одного состояния в другое в соответствии с известной динамикой клеточных циклов после активации глюкокортикоидного рецептора. Исходя из этого анализа, авторами было показано, что направление перехода клетки из одного состояния в другое и его вероятность регулируются расстояниями между данными состояниями и природой нестабильности таких состояний. Эта техника и вычислительные методы могут быть легко применимы и к другим биологическим системам для количественной характеризации динамики состояний клеток и расшифровки внутреннего механизма определения судьбы клеток.[00514] The development of a living organism consists in the passage of cells of various states in a strictly organized temporal order. Despite the increasing use of genomic methods for individual cells, the quantitative assessment of the dynamics of the transition of a cell from one state to another remains a difficult task. In this case, the authors introduce the concept of "sci-fate" as a high-throughput analysis based on combinatorial indexing, carried out to profile both the whole and the newly synthesized transcriptome in each of the thousands of individual cells. As proof of this concept, the authors applied the concept of sci-fate to a model cortisol response system and characterized more than 6000 cell transition events from one state to another according to the known dynamics of cell cycles after glucocorticoid receptor activation. Based on this analysis, the authors showed that the direction of the cell transition from one state to another and its probability are regulated by the distances between these states and the nature of the instability of such states. This technique and computational methods can be easily applied to other biological systems to quantitatively characterize the dynamics of cell states and decipher the internal mechanism for determining cell fate.
[00515] Клетка проходит различные функциональные и молекулярные состояния во время развития многоклеточного организма. Характеризация пути перехода клетки из одного состояния в другое или судьбы клетки является основой для понимания процессов развития и их применения в таких областях, как клеточная инженерия. Несмотря на все возрастающее применение геномных методов для отдельных клеток, эти методы позволяют получить изображения только состояния клетки, а поэтому, не могут предоставить информацию о динамике клеточных переходов (1). Хотя для характеристики клеточных переходов из одного состояния в другое может быть применен метод отслеживания отдельных клеток с помощью времяпролетной микроскопии (2, 3), однако, эти методы имеют ограниченную пропускную способность и могут отслеживать изменения только в нескольких генах, а следовательно, имеют низкую способность к расшифровке сложных систем.[00515] A cell goes through various functional and molecular states during the development of a multicellular organism. Characterization of a cell's transition pathway from one state to another, or cell fate, is the basis for understanding developmental processes and their applications in fields such as cell engineering. Despite the increasing use of genomic methods for single cells, these methods only provide images of the state of the cell and therefore cannot provide information on the dynamics of cell transitions (1). Although single-cell tracking using time-of-flight microscopy can be used to characterize cellular transitions from one state to another (2, 3), these methods have limited throughput and can track changes in only a few genes, and therefore have a low capacity. to decipher complex systems.
[00516] В настоящей заявке авторами была описана новая стратегия количественной оценки динамики перехода клетки из одного состояния в другое на уровне всего транскриптома. Эта стратегия зависит от новой методики PHK-seq для отдельных клеток на основе комбинаторного индексирования, sci-судьбы. Путем мечения вновь синтезированной мРНК 4-тиоуридином (4, 5), который будет давать точковые мутации C>T во время обратной транскрипции, sci-судьба охватывает как целый транскриптом, так и вновь синтезированный транскриптом на уровне отдельных клеток, вместе с информацией о деградированном транскриптоме в прошлом (память о прежнем состоянии). Память о прежних состояниях каждой клетки затем корректируют по скорости разложения мРНК (методом коррекции памяти), так, чтобы каждая клетка могла быть охарактеризована по динамике транскриптома между двумя временными точками.[00516] In this application, the authors have described a new strategy for quantifying the dynamics of the transition of a cell from one state to another at the level of the entire transcriptome. This strategy relies on a new RNA-seq technique for single cells based on combinatorial indexing, sci-fate. By labeling newly synthesized mRNA with 4-thiouridine (4, 5), which will give rise to C>T point mutations during reverse transcription, sci-fate captures both the entire transcriptome and the newly synthesized transcriptome at the individual cell level, along with information about the degraded transcriptome in the past (memory of the previous state). The memory of the previous states of each cell is then corrected for the rate of mRNA degradation (memory correction method), so that each cell can be characterized by the dynamics of the transcriptome between two time points.
[00517] Для характеризации динамики перехода клетки из одного состояния в другое, регулируемой внутренними и внешними факторами, авторами была применено понятие sci-судьба к модельной системе ответа на кортизол, где судьба клетки запускается двумя основными факторами: программой внутреннего клеточного цикла и внешней активацией глюкокортикоидного рецептора (GR), индуцируемой лекарственным средством. Активация GR влияет на активность почти каждой клетки в организме и регулирует гены, контролирующие развитие, обмен веществ и иммунный ответ (6). С помощью sci-судьбы авторы определили динамику всего транскриптома для более чем 6000 отдельных клеток. Исходя из сходства между прошлым и текущим состояниями транскриптома, авторами были построены тысячи траекторий перехода клеток из одного состояния в другое, охватывающих пять временных точек, которые могут быть сгруппированы в три типа судьбы клеток в соответствии с известными паттернами прохождения клеточного цикла при активации GR. Кроме того, авторами были охарактеризованы скрытые клеточные состояния по функциональной активности модулей TF, и был сделан вывод о сети клеточных переходов для прогнозирования состояния клетки. И наконец, авторами было показано, что направление и вероятность перехода клеток из одного состояния в другое регулируются сходством транскриптомов и природой нестабильности соседних состояний. Разработанные здесь теоретические, вычислительные и экспериментальные подходы должны быть легко применимы к другим биологическим системам, в которых динамика клеточных переходов до сих пор неизвестна.[00517] To characterize the dynamics of cell transition from one state to another, regulated by internal and external factors, the authors applied the concept of sci-fate to a model system of response to cortisol, where cell fate is triggered by two main factors: the program of the internal cell cycle and external activation of the glucocorticoid receptor (GR) induced by the drug. GR activation affects the activity of almost every cell in the body and regulates genes that control development, metabolism, and immune response (6). Using sci-fate, the authors determined the dynamics of the entire transcriptome for more than 6000 individual cells. Based on the similarity between the past and current states of the transcriptome, the authors constructed thousands of trajectories for the transition of cells from one state to another, covering five time points, which can be grouped into three types of cell fate in accordance with the known patterns of the cell cycle during GR activation. In addition, the authors characterized the latent cellular states by the functional activity of TF modules, and concluded a network of cellular transitions to predict the state of the cell. Finally, the authors showed that the direction and probability of cell transition from one state to another are regulated by the similarity of transcriptomes and the nature of the instability of neighboring states. The theoretical, computational, and experimental approaches developed here should be easily applicable to other biological systems in which the dynamics of cellular transitions is still unknown.
[00518] Общий обзор sci-судьбы[00518] Overview of sci destiny
[00519] Анализ sci-судьбы осуществляют путем проведения следующих стадий (фиг.30А): (i) клетки сначала инкубируют с 4-тиоуридином (S4U), широко используемым аналогом тимидина, для мечения вновь синтезированной РНК (7-13). (ii) Клетки собирают, фиксируют 4% параформальдегидом, после чего проводят реакцию алкилирования посредством связывания с тиолом (SH), в результпте которой происходит ковалентное присоединение карбоксиамидетильной группы к S4U посредством нуклеофильного замещения (4). (iii) Клетки распределяют по массе в каждую лунку 4×96-луночных планшетов. Первый молекулярный индекс PHK-seq вводят в мРНК клеток в каждую лунку посредством обратной транскрипции (ОТ) in situ с помощью поли(Т)-праймера, имеющего специфичный к лунке штрих-код и вырожденный уникальный молекулярный идентификатор (UMI). Во время синтеза кДНК, мРНК, меченная модифицированным S4U, имитирует превращение тимина в цитозин (Т>С) и приводит к образованию мутированной кДНК первой цепи. (iv) Клетки из всех лунок объединяют, а затем перераспределяют путем клеточного сортинга с активацией флуоресценции (FACS) во множестве 96-луночных планшетов. Клетки стробируют окрашиванием DAPI (4',6-диамидино-2-фенилиндолом), чтобы отличить одну клетку от дублетов во время сортинга. Двухцепочечную кДНК получают путем разложения РНК и синтеза второй цепи и подвергают транспозиции с Tn5. Затем, кДНК амплифицируют с помощью полимеразной цепной реакции (ПЦР) с комбинацией праймеров, распознающих -адаптер на 5'-конце и ОТ-праймер на 3'-конце. Эти праймеры также имеют специфичный для лунки штрих-код, который вводит второй молекулярный индекс RNA-seq. (v) ПЦР-ампликоны объединяют и подвергают массивному параллельному секвенированию. Как и в случае с другими «sci»-протоколами (14-21), большинство ядер проходит через уникальную комбинацию лунок, а поэтому содержимое каждой лунки помечают уникальной комбинацией штрих-кодов, которые могут быть использованы для группировки ридов, происходящих из одной и той же клетки. Вновь синтезированная мРНК из всего транскриптома идентифицируется по превращениям «Т>С» с поправкой на фоновую ошибку (Метод).[00519] The sci fate analysis is carried out by carrying out the following steps (FIG. 30A): (i) cells are first incubated with 4-thiouridine (S4U), a commonly used thymidine analog, to label the newly synthesized RNA (7-13). (ii) Cells are harvested, fixed with 4% paraformaldehyde, followed by an alkylation reaction by coupling with thiol (SH), which results in the covalent attachment of a carboxyamide methyl group to S4U via nucleophilic substitution (4). (iii) Cells are distributed by weight into each well of 4 x 96 well plates. The first RNA-seq molecular index is introduced into the cell mRNA in each well by in situ reverse transcription (RT) using a poly(T) primer having a well-specific barcode and a degenerate unique molecular identifier (UMI). During cDNA synthesis, mRNA labeled with modified S4U mimics the conversion of thymine to cytosine (T>C) and leads to the formation of a mutated first strand cDNA. (iv) Cells from all wells are pooled and then redistributed by fluorescence activated cell sorting (FACS) in multiple 96-well plates. Cells are gated by DAPI (4',6-diamidino-2-phenylindole) staining to distinguish single cells from doublets during sorting. Double-stranded cDNA is prepared by RNA degradation and second strand synthesis and transposed with Tn5. The cDNA is then amplified by polymerase chain reaction (PCR) with a combination of primers recognizing the α-adapter at the 5' end and the RT primer at the 3' end. These primers also have a well-specific barcode that introduces a second RNA-seq molecular index. (v) PCR amplicons are pooled and subjected to massive parallel sequencing. As with other "sci" protocols (14-21), most nuclei pass through a unique combination of wells, and therefore the contents of each well are labeled with a unique combination of barcodes that can be used to group reads originating from the same same cells. Newly synthesized mRNA from the entire transcriptome is identified by T>C transformations, corrected for background error (Method).
[00520] Для оценки контроля качества, авторы сначала протестировали метод с использованием смеси клеток (человеческих) и NIH/3T3 (мышиных) в четырех условиях: с мечением S4U или без мечения (200 нМ, 6 часов) и с обработкой IAA или без нее (фиг. 31A-D). При мечении S4U и обработке IAA (состояние sci-судьбы), транскриптомы из человеческих/мышиных клеток были в значительной степени видо-специфическими (>99% чистота для человеческих и мышиных клеток, 2,6% соударений) с высоким отношением обнаруженных мутированных ридов Т>С (46% для человеческих клеток и 31% для мышиных клеток в состоянии sci-судьбы по сравнению с 0,8% для человеческих клеток и 0,8% для мышиных клеток в условиях без обработки). Авторами была достигнута почти эквивалентная чистота клеток в четырех условиях, хотя в группах обработки IAA были обнаружены несколько более низкие UMI. Объединенные транскриптомы после оценки sci-судьбы по сравнению с нормальным sci-RNA-seq были в высокой степени скоррелированными (корреляция Спирмена r=0,99; фиг. 31Е-F), что позволяет предположить, что кратковременный процесс мечения и превращения оказывает минимальное влияние на состояние клетки.[00520] To evaluate quality control, we first tested the method using a mixture of cells (human) and NIH/3T3 (mouse) under four conditions: S4U labeled or unlabeled (200 nM, 6 hours) and with or without IAA treatment (FIGS. 31A-D). When labeled with S4U and treated with IAA (sci fate state), transcriptomes from human/mouse cells were highly species-specific (>99% purity for human and mouse cells, 2.6% collisions) with a high ratio of mutated T reads detected. >C (46% for human cells and 31% for mouse cells in the sci-fate state compared to 0.8% for human cells and 0.8% for mouse cells under untreated conditions). Nearly equivalent cell purity was achieved by the authors under the four conditions, although slightly lower UMIs were found in the IAA treatment groups. Pooled transcriptomes after sci-fate versus normal sci-RNA-seq were highly correlated (Spearman correlation r=0.99; Figures 31E-F), suggesting that the short-term labeling and conversion process has minimal effect on the state of the cell.
[00521] Совместное профилирование общего и вновь синтезированного транскриптома в клетках А549, обработанных дексаметазоном.[00521] Joint profiling of the total and newly synthesized transcriptome in A549 cells treated with dexamethasone.
[00522] Затем авторы применили анализ sci-судьбы к модели ответа на кортизол, где дексаметазон (DEX), синтетический имитатор кортизола активирует глюкокортикоидный рецептор (GR), который связывается с тысячами положений по всему геному и значительно изменяет состояние клетки за короткий промежуток времени (22-25). Авторы обрабатывали клетки А549, полученные из аденокарциномы легкого, в течение 0, 2, 4, 6, 8 или 10 часов 100 мМ DEX. В каждом состоянии, клетки инкубировали с S4ET (200 нМ) в течение последних двух часов перед сбором клеток в лунках 384 × 192 для оценки sci-судьбы (фиг. 30В). Каждое из этих шести условий представлено в 64 лунках во время первого цикла индексирования так, чтобы условия обработки можно было восстановить на основе первого индекса каждой клетки.[00522] The authors then applied sci-fate analysis to a cortisol response model where dexamethasone (DEX), a synthetic cortisol mimic, activates the glucocorticoid receptor (GR), which binds to thousands of positions throughout the genome and significantly alters cell state in a short amount of time ( 22-25). We treated A549 cells derived from lung adenocarcinoma for 0, 2, 4, 6, 8, or 10 hours with 100 mM DEX. In each condition, cells were incubated with S4ET (200 nM) for the last two hours before cell collection in 384 x 192 wells for sci-fate assessment (Fig. 30B). Each of these six conditions is presented in 64 wells during the first indexing cycle so that the processing conditions can be reconstructed based on the first index of each cell.
[00523] После фильтрации низкокачественных клеток, потенциальные дублеты и небольшую подгруппу дифференцированных клеток (Метод), авторами были определены профили отдельных клеток для 6680 клеток (медиана для 26176 детектированых мРНК, на клетку) с медианой 20% меченных UMI на клетку (фиг. 30С, фиг. 32А-В). Интронные риды обнаруживали значительно более высокий уровень вновь синтезированной мРНК, чем экзонные риды (65% в интронных ридах и 13% в экзонных ридах, р-величина <2,2е-16, ранговый критерий знаков Уилкоксона; фиг. 30D), что соответствует ожиданиям, что интронные риды будут обогащенными во вновь синтезированном транскриптоме.[00523] After filtering out low-quality cells, potential doublets, and a small subset of differentiated cells (Method), single cell profiles were determined for 6680 cells (median for 26176 mRNA detected, per cell) with a median of 20% labeled UMI per cell (Fig. 30C , Fig. 32A-B). Intron reads showed a significantly higher level of newly synthesized mRNA than exon reads (65% in intron reads and 13% in exon reads, p-value <2.2e-16, Wilcoxon's sign-rank test; Fig. 30D), as expected. that intron reads will be enriched in the newly synthesized transcriptome.
[00524] Сначала авторы задались вопросом, передают ли весь транскриптом и вновь синтезированный транскриптом различную информацию по характеризации состояния клетки. Авторами были объединены весь транскриптом и вновь синтезированный транскриптом для каждого условия обработки и была оценена их корреляция. В отличие от всего транскриптома, вновь синтезированный транскриптом обнаруживал резкое различие для групп, не обработанных DEX (О ч.), и DEX-обработанных групп (фиг. 32С). В соответствии с этим, уменьшение размерности с помощью однородной множественной аппроксимации и проецирования (UMAP) (26) для всего или вновь синтезированного транскриптома дает разные результаты (фиг. 30Е): весь транскриптом не может разделять клетки, которые не были обработаны DEX (0 ч.), и клетки с ранней обработкой DEX (2 часа), в то время как вновь синтезированный транскриптом объединяет все DEX-обработанные клетки в одну группу. Клеточные кластеры, идентифицированные по целому или вновь синтезированному транскриптому, не полностью совпадают друг с другом (фиг.30F, фиг. 32D-E). Это и ожидалось, поскольку вновь синтезированный транскриптом непосредственно отражает активность промотора гена или эпигенетический ответ на внешнюю среду, тогда как весь транскриптом, в основном, определяется по остатку мРНК из его прежнего состояния.[00524] First, the authors wondered whether the entire transcriptome and the newly synthesized transcriptome convey different information on the characterization of the state of the cell. The authors pooled the entire transcriptome and the newly synthesized transcriptome for each processing condition and assessed their correlation. In contrast to the entire transcriptome, the newly synthesized transcriptome showed a sharp difference between the non-DEX-treated (0 h) and DEX-treated groups (FIG. 32C). Consistently, dimensionality reduction by uniform multiple approximation and projection (UMAP) (26) for the entire or newly synthesized transcriptome gives different results (Fig. 30E): the entire transcriptome cannot separate cells that have not been treated with DEX (0 h .), and cells with early DEX treatment (2 hours), while the newly synthesized transcriptome combines all DEX-treated cells into one group. Cell clusters identified from the whole or newly synthesized transcriptome do not completely match each other (Fig. 30F, Fig. 32D-E). This was expected, since the newly synthesized transcriptome directly reflects the activity of the gene promoter or the epigenetic response to the external environment, while the entire transcriptome is mainly determined by the mRNA residue from its previous state.
[00525] Для характеризации состояния клеток с помощью общей информации, авторы объединили главные компоненты (PC) из целого и вновь синтезированного транскриптома для анализа UMAP. Общая информация разделяет клетки на клетки без DEX-обработки (0 ч.), клетки с ранней обработкой (2 часа) и с поздней обработкой (>2 часов) (фиг. 30Е). Интересно отметить, что два кластера (кластер 1 и 4), характеризующиеся целым транскриптомом, были разделены на четыре отдельные группы по общей информации (фиг. 30F). Авторы оценили уровень экспрессии и скорость нового синтеза генных маркеров, ассоциированных с клеточным циклом (27) (фиг. 30G, фиг. 32F-G): вновь разделенные кластеры по общей информации соответствуют клеткам в фазе G2/M (высокий уровень экспрессии и высокая скорость синтеза маркеров G2/M) и клеткам в ранней фазе G0/G1 (высокий уровень экспрессии и низкая скорость синтеза маркеров G2/M). Это позволяет предположить, что вновь синтезированный транскриптом передает другую информацию о состоянии клетки по сравнению со всем транскриптомом, а общая информация может обеспечивать более высокое разрешение при характеризации состояния клетки.[00525] To characterize the condition of cells using general information, the authors combined the principal components (PC) from the whole and newly synthesized transcriptome for UMAP analysis. General information divided cells into cells without DEX-treatment (0 hours), cells with early treatment (2 hours) and late treatment (>2 hours) (Fig. 30E). Interestingly, two clusters (
[00526] Характеризация функциональных модулей TF, позволяющих определить судьбу клеток.[00526] Characterization of TF functional modules to determine cell fate.
[00527] Далее авторами была сделана попытка[00527] Further, the authors have made an attempt
охарактеризовать модули TF, запускающие процесс перехода клеток из одного состояния в другое. Связи между факторами транскрипции (TF) и их регулируемыми генами были идентифицированы в два этапа: для каждого гена, авторы вычислили корреляции между скоростью синтеза мРНК в течение последних двух часов и уровнем экспрессии TF для более, чем 6000 клеток с использованием LASSO (наименьшей абсолютной усадкой и отбором оператора). Эти идентифицированные связи были дополнительно отфильтрованы либо с помощью анализа опубликованных данных CHIP-seq (28), либо анализа на обогащения мотива (29) (Метод). Было идентифицировано всего 986 связей между 29 TF и 532 генами (фиг. 33А, Таблица S1) на основе ковариации TF-гена и подтверждения данных по связыванию ДНК. Для оценки возможности того, что связи являются артефактами регулируемой регрессии, авторы сделали перестановку идентификаторов выборки матрицы экспрессии TF и провели тот же самый анализ. После этой перестановки, связи не были обнаружены.to characterize the TF modules that trigger the process of cell transition from one state to another. Associations between transcription factors (TF) and their regulated genes were identified in two steps: for each gene, the authors calculated the correlations between the rate of mRNA synthesis during the last two hours and the level of TF expression for more than 6000 cells using LASSO (least absolute shrinkage and operator selection). These identified associations were further filtered either by analysis of published CHIP-seq data (28) or analysis for motif enrichments (29) (Method). A total of 986 links between 29 TF and 532 genes were identified (FIG. 33A, Table S1) based on TF gene covariance and validation of DNA binding data. To assess the possibility that associations are artifacts of controlled regression, the authors permuted the TF expression matrix sample identifiers and performed the same analysis. After this rearrangement, no links were found.
[00528] Были идентифицированы модули TF, запускающие GR-ответ, включая известные эффекторы GR-ответа, такие как СЕВРВ (30) (фиг. 34А-В), FOXOl (37) и JUNB (32) (фиг. 33А). Авторы также обнаружили несколько новых модулей TF, ассоциированных с GR-ответом, включая YOD1 и GTF2IRD1, с повышенной экспрессией и активностью в DEX-обработанных клетках (фиг. 34C-D). Были идентифицированы основные модули TF, запускающие процесс прохождения клеточного цикла, и эти модули включают E2F1, E2F2, E2F7, BRCA1 и MYBL2 (33). По сравнению с общим уровнем экспрессии, скорость синтеза генов новой РНК, регулируемых модулями TF клеточного цикла, в большей степени коррелирует с экспрессией TF-мишени (фиг. 34Е). Кроме того, авторами были также обнаружены модули TF, ассоциированные с дифференцировкой клеток, такие как GATA3, в основном, экспрессирующиеся в группе популяции покоящихся клеток (34), и модули TF, ассоциированные с реакцией на окислительный стресс, такие как NRF1 (35) и NFE2L2 (NRF2) (36).[00528] TF modules that trigger a GR response have been identified, including known GR response effectors such as CEBPB (30) (FIGS. 34A-B), FOXOl (37), and JUNB (32) (FIGS. 33A). The authors also found several new TF modules associated with the GR response, including YOD1 and GTF2IRD1, with increased expression and activity in DEX-treated cells (Fig. 34C-D). Major TF modules that trigger the cell cycle process have been identified and these modules include E2F1, E2F2, E2F7, BRCA1 and MYBL2 (33). Compared to the overall level of expression, the rate of synthesis of novel RNA genes regulated by cell cycle TF modules correlated more strongly with the expression of the TF target (Fig. 34E). In addition, the authors also found TF modules associated with cell differentiation, such as GATA3, mainly expressed in the resting cell population group (34), and TF modules associated with oxidative stress response, such as NRF1 (35) and NFE2L2 (NRF2) (36).
[00529] Затем авторы охарактеризовали активность TF путем объединения скоростей синтеза генов новой РНК в каждом модуле TF и вычислили абсолютный коэффициент корреляции между каждой парой TF (фиг. 34F). В высокой степени скоррелированная активность TF указывает на то, что эти пары могут функционировать в комбинации друг с другом. Иерархическая кластеризация разделяет эти 29 модулей TF на пять основных модулей (фиг. 34F): первый модуль представляет собой все модули TF, ассоциированные с клеточным циклом, такие как E2F1 и FOXM1 (33), и представляет собой фактор, запускающий процесс прохождения клеточного цикла. Третий модуль представляет собой все модули TF, ассоциированные с GR-ответом, такие как FOXOl, СЕВРВ, JUNB и RARB (30) (31) (32). Другие группы модулей TF включают три TF (KLF6, TEAD1 и YOD1), совместно регулируемые как клеточным циклом, так и GR-ответом (модуль 2); внутренний путь дифференцировки, включая GATA3 и AR (модуль 3), и TF, ассоциированные с ответом на стресс, такие как NRF1 и NFE2L2 (модуль 5).[00529] We then characterized TF activity by combining the rates of new RNA gene synthesis in each TF module and calculated the absolute correlation coefficient between each pair of TFs (FIG. 34F). The highly correlated TF activity indicates that these pairs may function in combination with each other. Hierarchical clustering divides these 29 TF modules into five main modules (Fig. 34F): the first module represents all cell cycle associated TF modules such as E2F1 and FOXM1 (33) and is the trigger for the cell cycle process. The third module is all TF modules associated with the GR response such as FOXOl, CEBPB, JUNB and RARB (30) (31) (32). Other groups of TF modules include three TFs (KLF6, TEAD1 and YOD1) co-regulated by both the cell cycle and the GR response (module 2); internal differentiation pathway, including GATA3 and AR (module 3), and TFs associated with stress response such as NRF1 and NFE2L2 (module 5).
[00530] Для идентификации различных состояний клеточного цикла, авторы сначала упорядочили клетки по активности модуля TF, ассоциированного с клеточным циклом. Клетки были упорядочены по сглаженной траектории клеточного цикла, что подтверждалось скоростью синтеза известных маркеров клеточного цикла (27) (фиг. 33 В). Авторы наблюдали разрыв между фазой G2/M и фазой G0/G1, что соответствует резкому изменению состояния клетки во время ее деления. Посредством неконтролируемой кластеризации авторами было идентифицировано девять состояний клеточного цикла, охватывающих фазы клеточного цикла G0/G1, S и G2/M, исходя из уровня экспрессии маркера клеточного цикла (фиг.33 В). Клетки могут быть упорядочены по другой сглаженной траектории с использованием модулей TF ассоциированных с GR-ответом. Эта траектория четко коррелирует со временем обработки DEX и динамикой известной активности TF, регулируемой активацией GR (фиг. 33С). Посредством неконтролируемого анализа на кластеризацию, авторы идентифицировали три клеточных кластера по GR-ответам, что соответствует отсутствию GR-ответа/низкому уровню/высокому уровню GR-ответа (фиг. 33С).[00530] To identify different cell cycle states, we first ordered cells by activity of the TF module associated with the cell cycle. Cells were ordered along a smoothed cell cycle trajectory, as evidenced by the rate of synthesis of known cell cycle markers (27) (Fig. 33B). The authors observed a gap between the G2/M phase and the G0/G1 phase, which corresponds to a sharp change in the state of the cell during its division. Through uncontrolled clustering, the authors identified nine cell cycle states spanning G0/G1, S, and G2/M cell cycle phases based on cell cycle marker expression level (FIG. 33B). Cells can be ordered along a different smoothed trajectory using the TF modules associated with the GR response. This trajectory clearly correlates with DEX treatment time and the dynamics of known TF activity regulated by GR activation (FIG. 33C). Through uncontrolled clustering analysis, the authors identified three cell clusters by GR responses, corresponding to no GR response/low/high GR response (FIG. 33C).
[00531] Затем авторы попытались количественно охарактеризовать скрытые клеточные состояния в системе (фиг. 35А). Девять состояний клеточного цикла и три состояния GR-ответа были показаны на фиг. 33В-С. Были идентифицированы все возможные комбинаторные состояния, причем, наименьшая группа включала 1,1% (74) от всех клеток (фиг. 33D). Наблюдаемая доля клеточных состояний была близка к ожидаемой при условии независимого отбора. Это соответствует низкому коэффициенту корреляции (корреляции Пирсона r=0,004) между активностью этих двух функциональных модулей TF для более, чем 6000 клеток. Для сравнения, путем анализа на снижение размерности и анализа на кластеризацию для всего и вновь синтезированного транскриптома, авторами было идентифицировано 6 основных кластеров (фиг. 35В). Эти основные кластеры могут быть легко определены путем объединения групп этих 27 состояний клеток (фиг. 33Е).[00531] We then attempted to quantify the latent cellular states in the system (FIG. 35A). Nine cell cycle states and three GR response states were shown in FIG. 33B-S. All possible combinatorial conditions were identified, with the smallest group comprising 1.1% (74) of all cells (FIG. 33D). The observed proportion of cellular states was close to that expected under the condition of independent selection. This corresponds to a low correlation coefficient (Pearson correlation r=0.004) between the activity of these two functional TF modules for more than 6000 cells. For comparison, by dimensionality reduction and clustering analysis for the entire and newly synthesized transcriptome, 6 major clusters were identified by the authors (FIG. 35B). These major clusters can be easily identified by pooling the groups of these 27 cell states (FIG. 33E).
[00532] Характеризация траектории перехода клеток из одного состояния в другое и сети перехода таких состояний[00532] Characterization of the trajectory of the transition of cells from one state to another and the network of transition of such states
[00533] С использованием всего транскриптома и вновь синтезированного транскриптома, охарактеризованных для каждой клетки, авторы могли сделать вывод о состоянии транскриптома одной клетки до мечения S4U (фиг. 36А). Восстановление предшествующего клеточного транскриптома зависит от двух параметров: скорости детектирования вновь синтезированных ридов с точки зрения sci-судьбы и скорости разложения (или полуразложения) каждой мРНК (Метод). Оба эти параметра можно оценить в одном и том же эксперименте по оценке sci-судьбы.[00533] Using the entire transcriptome and the newly synthesized transcriptome characterized for each cell, the authors were able to infer the state of the transcriptome of one cell prior to labeling with S4U (FIG. 36A). Restoration of the previous cell transcriptome depends on two parameters: the rate of detection of newly synthesized reads in terms of sci-fate and the rate of degradation (or semi-degradation) of each mRNA (Method). Both of these parameters can be evaluated in the same sci-fate experiment.
[00534] Сначала авторы оценивали уровень детектирования sci-судьбы. Авторы предполагают, что время полужизни мРНК является постоянным в различных условиях DEX-обработки. Это предположение было также подтверждено последующей проверкой стабильности. Согласно этому предположению, общий транскриптом, частично разрушенный за 2 часа до S4U-мечения, должен быть таким же в клетках, не обработанных DEX, и в клетках, обработанных DEX через 2 часа. Таким образом, различия в общем транскриптоме (объем) должны совпадать с различиями во вновь синтезированном транскриптоме (объем), скорректированными по степени обнаружения в зависимости от техники. Поскольку весь транскриптом и вновь синтезированный транскриптом были охарактеризованы в данном эксперименте, то авторы могли непосредственно определить уровень детектирования sci-судьбы. Различия во вновь синтезированной мРНК хорошо коррелируют с различиями в уровне экспрессии мРНК (критерий Пирсона, r=0,93, фиг. 37А), что позволяет предположить, что уровень детектирования новой РНК является довольно стабильным по всем генам. Таким образом, авторы использовали медиану скорости захвата новой РНК (82%) для последующего анализа.[00534] First, the authors evaluated the level of detection of sci fate. The authors suggest that the half-life of mRNA is constant under various conditions of DEX-treatment. This assumption was also confirmed by a subsequent stability test. According to this assumption, the total transcriptome partially disrupted 2 hours prior to S4U labeling should be the same in non-DEX-treated cells and in DEX-treated
[00535] Затем была вычислена степень разложения мРНК за 2 часа. Поскольку популяция клеток А549 может рассматриваться как стабильная без внешней пертурбации, то для клеток после 2-часовой обработки DEX, их прежнее состояние (за 2 часа до мечения S4U) должно быть таким же, как и у клеток, не обработанных DEX. Аналогично, прежнее состояние (перед мечением S4U) для клеток, обработанных DEX на время Т=0/2/4/6/8/10 часов, должно быть аналогично состоянию профилированных клеток на время Т=0/0/2/4/6/8 часов. Что касается всего транскриптома и вновь синтезированного транскриптома, охарактеризованных для всех условий обработки, можно оценить степень разложения мРНК для нескольких тысяч генов в каждом 2-часовом интервале времени. После вышеупомянутой проверки на стабильность было обнаружено, что степень разрушения генов значительно коррелируют со временем обработки DEX (фиг. 37В). Затем авторы использовали усредненную степень разрушения генов для последующего анализа. После определения усредненной степени детектирования новой мРНК и степени разрушения генов, авторы оценивали прежнее состояние транскриптома одной клетки так, чтобы каждая клетка могла быть охарактеризована по динамике транскриптома в двухчасовом интервале.[00535] The degree of mRNA degradation was then calculated for 2 hours. Since the A549 cell population can be considered stable without external perturbation, for cells after 2 hours of DEX treatment, their previous state (2 hours before labeling with S4U) should be the same as for cells not treated with DEX. Similarly, the previous state (before labeling with S4U) for cells treated with DEX at time T=0/2/4/6/8/10 hours should be similar to the state of profiled cells at time T=0/0/2/4/6 /8 ocloc'k. With respect to the whole transcriptome and the newly synthesized transcriptome characterized for all processing conditions, it is possible to estimate the degree of mRNA degradation for several thousand genes in each 2-hour time interval. After the aforementioned stability test, it was found that the extent of gene disruption correlated significantly with DEX treatment time (FIG. 37B). The authors then used the average degree of gene disruption for further analysis. After determining the average degree of detection of new mRNA and the degree of gene destruction, the authors evaluated the previous state of the transcriptome of one cell so that each cell could be characterized by the dynamics of the transcriptome in a two-hour interval.
[00536] Для оценки динамики состояний клеток в течение более длительного интервала (то есть, в течение 10 часов), авторами был разработан потоковый алгоритм для оценки взаимосвязи родительских и дочерних клеток в одной и той же траектории перехода клеток из одного состояния в другое (фиг. 36А): для каждой клетки А (например, для клеток, обработанных DEX через 2 часа) был идентифицирован профиль клетки В в более ранний момент времени (например, для клеток, не обработанных DEX), и текущее состояние клетки В было аналогичным ее прежнему состоянию А, как было определено исходя из недавно разработанной стратегии выравнивания для идентификации общих состояний клеток между двумя наборами данных (27). Состояние В можно рассматривать как родительское состояние А. Аналогично, авторами был также определен профиль другой клетки С в более поздний момент времени (например, для клеток, обработанных DEX через 4 часа), и клетка С имела свое прежнее состояние, аналогичное текущему состоянию клетки А. Клетка С может рассматриваться как будущее состояние клетки А. Применяя ту же самую стратегию на все прежние и последующие состояния, определенные для каждой клетки, авторы построили 6680 траекторий перехода клеток из одного состояния в другое в течение 10 часов и в пяти временных точках (фиг. 36А-В). Следует отметить, что этот анализ основан на предположении, что прежнее и текущее состояния каждой клетки (кроме клеток в начальный и конечный моменты времени) были детально детектированы, что справедливо и для полученных авторами наборов данных, так как было профилировано более 6000 клеток (более 1000 клеток на одно условие), или одна клетка в течение менее одной минуты во время клеточного цикла. Был определен профиль состояния каждой из множества клеток (>50), и таким образом, может быть также зафиксирован стохастический процесс перехода клеток из одного состояния в другое.[00536] To assess the dynamics of cell states over a longer interval (i.e., within 10 hours), the authors developed a streaming algorithm to evaluate the relationship of parent and daughter cells in the same trajectory of transition of cells from one state to another (Fig. 36A): For each A cell (eg, DEX-treated cells at 2 hours), the profile of cell B at an earlier time point was identified (eg, for cells not treated with DEX), and the current state of cell B was similar to its previous state A, as determined from a recently developed alignment strategy to identify common cell states between two datasets (27). State B can be considered as the parent state of A. Similarly, the authors also determined the profile of another cell C at a later time point (for example, for cells treated with DEX after 4 hours), and cell C had its previous state similar to the current state of cell A Cell C can be considered as the future state of cell A. Applying the same strategy to all previous and subsequent states defined for each cell, the authors constructed 6680 cell transition trajectories from one state to another within 10 hours and at five time points (Fig. 36A-B). It should be noted that this analysis is based on the assumption that the previous and current states of each cell (except for cells at the initial and final time points) were detected in detail, which is also true for the data sets obtained by the authors, since more than 6000 cells were profiled (more than 1000 cells per condition), or one cell for less than one minute during the cell cycle. The state profile of each of the many cells (>50) was determined, and thus the stochastic process of cell transition from one state to another can also be recorded.
[00537] Для подтверждения результата, авторами был проведен анализ на уменьшение размерности и неконтролируемую кластеризацию для траекторий 6680 отдельных клеток, которые были сгруппированы в три кластера траекторий. Авторами была оценена динамика клеточных состояний, охарактеризованных на фиг. 36С. Как и ожидалось, все три траектории показали переход клеток из одного состояния в другое в отсутствии GR-ответа при низком/высоком GR-ответе в течение определенного периода времени (фиг. 36D). Авторы наблюдали различную динамику клеточного цикла во всех этих трех траекториях (фиг. 36D): траектория 1 указывала на снижение фазы G2/M и соответственно, на увеличение фазы G0/G1, и на переход клетки из промежуточных состояний G2/M и G1 в фазу G1. Траектория 2 указывала на переход клетки из промежуточных состояний S и G2/M в фазу G2/M. На траектории 3 авторы наблюдали переход клетки из промежуточной фазы G1 и S в раннюю фазу S во время ранней обработки DEX (0-2 часа), но этот переход ингибировался в условиях более поздней обработки DEX (>2 часа после обработки DEX), что свидетельствует о том, что длительная обработка DEX приводит к остановке фазы G1. Это соответствует изменениям соотношений состояний клеток в течение определенного времени обработки и с данными предыдущих исследований (37,38) (фиг. 36D). Это позволяет предположить, что пути перехода отдельных клеток, характеризуемые sci-судьбой, могут восстанавливать общие направления перехода клеток из одного состояния в другое.[00537] To confirm the result, the authors performed a dimensionality reduction and uncontrolled clustering analysis for the trajectories of 6680 individual cells, which were grouped into three clusters of trajectories. The authors evaluated the dynamics of the cellular states characterized in Figs. 36C. As expected, all three trajectories showed a transition of cells from one state to another in the absence of a GR response at a low/high GR response for a certain period of time (Fig. 36D). The authors observed different dynamics of the cell cycle in all these three trajectories (Fig. 36D):
[00538] После определения профиля каждого состояния множества клеток (>70), авторами была определена вероятность перехода клеток из одного состояния в другое во всех 27 скрытых состояниях. Переходы клеток из одного состояния в другое с низкой вероятностью перехода (<0,1) могут быть вызваны редкими событиями или шумом и, таким образом, отфильтрованы. Сеть переходов клеток из одного состояния в другое может быть определена 2 7 состояниями клеток как узлы, а связи указывают на возможные пути перехода (фиг. 36Е). Направление прохождения клеточного цикла может быть легко охарактеризовано по меньшей мере тремя стадиями перехода с необратимыми направлениями перехода во время клеточного цикла (фиг. 36Е). В поздней фазе G1 и в поздней фазе G2/M, авторами было также обнаружено несколько состояний, указывающих на обратимую динамику переходов, которая может указывать на две контрольных точки клеточного цикла в фазах G1/S и G2/M (33). Как и ожидалось, клетки с одинаковым клеточным циклом, но с разными GR-ответами продемонстрировали резко отличающуюся динамику перехода, а клетки с высоким GR-ответом обычно имеют тенденцию к остановке фазы G1 или G2/M.[00538] After determining the profile of each state of a plurality of cells (>70), the authors determined the probability of transition of cells from one state to another in all 27 latent states. Cell transitions from one state to another with a low transition probability (<0.1) can be caused by rare events or noise and thus filtered out. The network of cell transitions from one state to another can be defined by the 2 7 cell states as nodes, and the links indicate possible transition paths (FIG. 36E). The direction of passage of the cell cycle can be easily characterized by at least three stages of transition with irreversible directions of transition during the cell cycle (Fig. 36E). In the late G1 phase and late G2/M phase, the authors also found several conditions indicating reversible transitional dynamics that may indicate two cell cycle checkpoints in the G1/S and G2/M phases (33). As expected, cells with the same cell cycle but different GR responses showed dramatically different transition dynamics, and cells with a high GR response generally tend to G1 or G2/M phase arrest.
[00539] В качестве проверки на непротиворечивость, для того, чтобы подтвердить, может ли сеть перехода клеток из одного состояния в другое охватывать динамику перехода клеток из одного состояния в другое, авторы провели анализ для того, чтобы определить, могут ли вероятности перехода указывать на возможность восстановления реальных распределений состояний клетки в разные моменты времени. Действительно, хотя соотношения состояний клетки динамически изменяются в течение 10 часов (фиг. 36F), однако, сеть переходов состояний позволяет точно предсказать соотношения 27 состояний клеток во всех пяти более поздних временных точках, начиная от соотношения состояний DEX-обработанных клеток на 0 часов (фиг. 36G, фиг. 38А). Авторы также вычислили сеть переходов состояний клеток только для части данных (от 0 до 6 часов), которая давала в высокой степени скоррелированные вероятности перехода с полными данными, и точно предсказали состояния клеток за 10 часов (фиг. 36Н, фиг. 38 В).[00539] As a consistency check, in order to confirm whether the cell transition network from one state to another can capture the dynamics of cell transition from one state to another, the authors conducted an analysis to determine whether the transition probabilities can indicate the possibility of restoring the real distributions of cell states at different points in time. Indeed, although cell state ratios change dynamically over 10 hours (FIG. 36F), however, the state transition network accurately predicts the ratios of the 27 cell states at all five later time points, starting from the state ratio of DEX-treated cells at 0 hours ( Fig. 36G, Fig. 38A). The authors also computed a cell state transition network for only part of the data (from 0 to 6 hours), which gave highly correlated transition probabilities with the full data, and accurately predicted cell states 10 hours in advance (FIG. 36H, FIG. 38B).
[00540] Характеризация факторов, регулирующих направления перехода клеток из одного состояния в другое[00540] Characterization of factors regulating the direction of cell transition from one state to another
[00541] Для характеризации факторов, регулирующих вероятность перехода состояний клеток, авторы сначала вычислили расстояние между состояниями клеток по расстоянию Пирсона для объединенного транскриптома (целого и вновь синтезированного) между каждой парой состояний. Как и ожидалось, вероятность перехода клетки из одного состояния в другое отрицательно коррелирует с расстоянием перехода (коэффициент корреляции Спирмена = -0,38, фиг. 39А). Авторы также вычислили нестабильность состояния, определяемую долей клеток, выходящих из данного состояния в течение двух часов (фиг. 39В). Природа нестабильности состояний хорошо коррелирует с направлениями перехода клетки (фиг. 39В): состояния в отсутствии GR-ответа являются более нестабильными по сравнению с состояниями с высоким GR-ответом. В состояниях с высоким GR-ответом, клетки в ранней фазе G1 имеют самую низкую нестабильность, в то время как клетки в промежуточных состояниях G1/S демонстрируют высокий пик нестабильности, что соответствует остановке фазы G1 при более поздней обработке DEX.[00541] To characterize the factors governing the likelihood of cell state transition, we first calculated the distance between cell states from the Pearson distance for the combined transcriptome (whole and newly synthesized) between each pair of states. As expected, the probability of a cell transition from one state to another is negatively correlated with transition distance (Spearman correlation coefficient = -0.38, Fig. 39A). The authors also calculated the instability of the state, defined by the proportion of cells leaving this state within two hours (Fig. 39B). The nature of state instability correlates well with cell transition directions (FIG. 39B): states in the absence of a GR response are more unstable compared to states with a high GR response. In states with a high GR response, cells in early G1 phase have the lowest instability, while cells in intermediate G1/S states show a high peak of instability, consistent with G1 phase arrest with later DEX treatment.
[00542] Изменения соотношения состояний клетки через 10 часов хорошо коррелирует с нестабильностью состояния клетки (коэффициент корреляции Спирмена = -0,88, фиг. 39С), что позволяет предположить, что динамика состояния клетки зависит от природы нестабильности состояния клетки. Нестабильность состояния также хорошо коррелирует с энтропией вероятности перехода состояний, что указывает на разнообразие конечных точек перехода состояний (корреляция Пирсона r=0,73, фиг. 39D). Для того, чтобы проверить, может ли вероятность перехода между состояниями быть следствием нестабильности соседних состояний, авторами был построен график зависимости нестабильности от расстояния до ближайших состояний в модели нейронной сети, для предсказания вероятности перехода из каждого состояния в другие состояния. Сочетание нестабильности соседних состояний и расстояний позволило повысить эффективность предсказания вероятности перехода между одним состоянием в другое более, чем в десять раз по сравнению с использованием только расстояний между состояниями (после перекрестной валидации, медианный критерий r2 составляет 0,58 при использовании информации о двух параметрах, и 0,046 при использовании только расстояний между состояниями, р-величина=4,5е-10, двусторонний критерий суммы рангов Уилкоксона, фиг. 39Е), что позволяет предположить, что направления и вероятности перехода состояния клеток зависят от природы стабильности соседнего состояния. При этом, клетки предпочитают переходить в более стабильное непосредственно следующее соседнее состояние.[00542] Changes in cell state ratio after 10 hours correlate well with cell state instability (Spearman correlation coefficient = -0.88, Fig. 39C), suggesting that cell state dynamics depend on the nature of cell state instability. State instability also correlates well with state transition probability entropy, indicating a variety of state transition endpoints (Pearson correlation r=0.73, FIG. 39D). In order to test whether the probability of transition between states can be a consequence of the instability of neighboring states, the authors plotted the dependence of instability on the distance to the nearest states in a neural network model to predict the probability of transition from each state to other states. The combination of the instability of neighboring states and distances made it possible to increase the efficiency of predicting the probability of transition between one state to another more than ten times compared to using only distances between states (after cross-validation, the median criterion r 2 is 0.58 when using information about two parameters , and 0.046 using only distances between states, p-value = 4.5e-10, two tailed Wilcoxon rank sum test, Fig. 39E), suggesting that the directions and probabilities of cell state transition depend on the nature of neighboring state stability. At the same time, cells prefer to move to a more stable immediately next neighboring state.
[00543] Обсуждение[00543] Discussion
[00544] Авторами настоящей заявки была разработана первая стратегия характеризации динамики перехода состояния клеток на уровне всего транскриптома. Эта стратегия зависит от sci-судьбы, то есть, представляет собой новый высокопроизводительный метод секвенирования РНК-последовательности отдельных клеток на основе комбинаторного индексирования, позволяющий охарактеризовать как весь, так и вновь синтезированный транскриптом в тысячах клеток. Подобно другим «sci»-методам, sci-судьба может быть легко масштабирована до миллионов клеток (39) и потенциально совместима с характеризацией как транскриптома, так и эпигенома (40). По этой sci-судьбе можно охарактеризовать динамику состояния клеток в гораздо более сложной системе (то есть, на уровне развития всего эмбриона), где реальный путь перехода клеток в клетки нескольких сотен типов до сих пор неизвестен. Кроме того, авторами был разработан вычислительный алгоритм потокового типа для оценки степени захвата вновь синтезированной РНК и степени разрушения генов по данным о sci-судьбе (коррекция памяти), и были построены тысячи дифференциальных траекторий для каждой из отдельных клеток, связанных общим прежним и текущим состоянием транскриптома в каждый момент времени.[00544] The authors of the present application developed the first strategy for characterizing the dynamics of the transition of the state of cells at the level of the entire transcriptome. This strategy is sci-fate dependent, i.e., it is a new high-throughput method for sequencing the RNA sequence of individual cells based on combinatorial indexing, which makes it possible to characterize both the entire and newly synthesized transcriptome in thousands of cells. Like other sci methods, sci fate can be easily scaled to millions of cells (39) and is potentially compatible with both transcriptome and epigenome characterization (40). This sci-fate can be used to characterize the dynamics of the state of cells in a much more complex system (that is, at the level of development of the entire embryo), where the real path of cell transition into cells of several hundred types is still unknown. In addition, the authors developed a flow-type computational algorithm to assess the degree of capture of newly synthesized RNA and the degree of gene destruction according to sci-fate (memory correction), and thousands of differential trajectories were built for each of the individual cells connected by a common previous and current state. transcriptome at any given time.
[00545] Для проверки методов и для того, чтобы определить, как влияют внутренние и внешние факторы на динамику состояний клетки, авторы применили эту стратегию к модельной системе ответа на кортизол, где судьба клеток динамически регулируется активацией GR внутреннего клеточного цикла и внешней активацией GR, вызываемой лекарственным средством. Авторы показали, что вновь синтезированный транскриптом непосредственно связан с ответом эпигенома на внешние стимулы, а совместный анализ целого и вновь синтезированного транскриптома выявил более высокое разрешение при разделении клеточных состояний. Посредством ковариации между экспрессией TF и скоростью синтеза новой РНК в тысячах клеток, авторы идентифицировали до тысячи связей между TF и регулируемыми генами, на что указывают данные связывания ДНК. Авторы также определили 27 «скрытых клеточных состояний», характеризуемых комбинаторным состоянием функциональных модулей TF в прохождении клеточного цикла и GR-ответом, по сравнению только с 6 состояниями, оцениваемыми с помощью стандартного анализа на кластеризацию.[00545] To test the methods and to determine how intrinsic and extrinsic factors influence the dynamics of cell states, the authors applied this strategy to a cortisol response model system where cell fate is dynamically regulated by inner cell cycle GR activation and extrinsic GR activation, caused by the drug. The authors showed that the newly synthesized transcriptome is directly related to the response of the epigenome to external stimuli, and the joint analysis of the whole and newly synthesized transcriptome revealed higher resolution in the separation of cellular states. By covariating between TF expression and the rate of new RNA synthesis in thousands of cells, the authors identified up to a thousand links between TF and regulated genes as indicated by DNA binding data. The authors also identified 27 "hidden cellular states" characterized by the combinatorial state of TF functional modules in cell cycle progression and GR response, compared to only 6 states assessed by standard clustering analysis.
[00546] Путем анализа на коррекцию памяти и клеточных связей, авторы построили более 6000 траекторий перехода отдельных клеток, охватывающих 10 часов, при этом, основные траектории соответствуют известной динамике состояния клетки в клеточном цикле и GR-ответу. Сеть перехода клеток из одного состояния в другое характеризуется вероятностью перехода во всех состояниях клетки, что подтверждается восстановлением динамики 27 состояний клеток во всех пяти временных точках. И наконец, авторами было обнаружено, что вероятности перехода клетки из одного состояния в другое зависят от двух ключевых факторов сети перехода состояния клетки: расстояния между состояниями и природы нестабильности состояний, и оба этих фактора могут быть оценены обычными методами секвенирования -seq для отдельных клеток.[00546] By analyzing for memory correction and cellular connections, the authors constructed more than 6000 individual cell transition trajectories spanning 10 hours, with the main trajectories corresponding to the known dynamics of the state of the cell in the cell cycle and the GR response. The network of cell transition from one state to another is characterized by the probability of transition in all cell states, which is confirmed by the restoration of the dynamics of 27 cell states at all five time points. Finally, the authors found that the probabilities of a cell transition from one state to another depend on two key factors of the cell state transition network: the distance between states and the nature of state instability, both of which can be estimated by conventional -seq sequencing methods for single cells.
[00547] Эта стратегия, несмотря на ее мощность, имеет несколько ограничений. Во-первых, для точного построения траектории отдельной клетки необходима полная характеризация состояния клетки в каждый момент времени. Для точной оценки вероятности перехода также необходимо провести множество наблюдений для каждого состояния. Эти ограничения могут быть легко устранены с помощью комбинаторной стратегии sci-судьбы, которая позволяет охарактеризовать миллионы клеток в одном эксперименте. Другое ограничение заключается в том, что для систем in vitro требуется проведение множества экспериментов по мечению S4U. Тем не менее, недавние исследования показали, что S4U позволяет осуществлять стабильное мечение клетки конкретного типа посредством специфической транскрипции РНК во множестве тканей мыши (то есть, в ткани головного мозга, кишечника и жировой ткани) (41, 42), что позволяет предположить, что оценка sci-судьбы вместе с дальнейшими оптимизациями для повышения уровня включения S4U и степени детектирования, могут быть применены для определения профиля динамики транскриптома отдельных клеток in vivo.[00547] This strategy, while powerful, has several limitations. First, to accurately construct the trajectory of an individual cell, a complete characterization of the state of the cell at each moment of time is necessary. To accurately estimate the transition probability, it is also necessary to make many observations for each state. These limitations can be easily overcome using the sci-fate combinatorial strategy, which allows the characterization of millions of cells in a single experiment. Another limitation is that in vitro systems require many S4U labeling experiments. However, recent studies have shown that S4U allows for stable labeling of a particular cell type through specific RNA transcription in a variety of mouse tissues (i.e., brain, gut, and adipose tissue) (41, 42), suggesting that sci-fate estimation, together with further optimizations to increase the level of S4U incorporation and the degree of detection, can be applied to profile the dynamics of the transcriptome of individual cells in vivo.
[00548] Оценка sci-судьбы открывает новые возможности для применения «статических» геномных методов характеризации динамических систем отдельных клеток. По сравнению с традиционными технологиями, основанными на визуализации, оценка sci-судьбы позволяет охарактеризовать динамику состояния клетки на уровне всего транскриптома и обеспечивать всестороннюю характеризацию состояния клетки без отбора маркеров и обнаружения ключевой движущей силы в дифференцировке клеток. И наконец, авторы предполагают, что sci-судьба может быть легко объединена с альтернативными методами отслеживания линии дифференцировки (43-45) для расшифровки подробной динамики перехода состояния клетки в каждое конечное состояние в пределах нескольких сотен линий дифференцировки.[00548] The assessment of sci-fate opens up new possibilities for applying "static" genomic methods to characterize the dynamic systems of individual cells. Compared to traditional imaging-based technologies, sci-fate assessment allows characterization of cell state dynamics at the level of the entire transcriptome and provides a comprehensive characterization of cell state without selecting markers and revealing the key driving force in cell differentiation. Finally, the authors suggest that sci-fate can be easily combined with alternative lineage tracing methods (43-45) to decipher the detailed dynamics of cell state transition to each final state within a few hundred lineages.
[00549] Материалы и методы.[00549] Materials and methods.
[00550] Культивирование клеток млекопитающих.[00550] Mammalian cell culture.
[00551] Все клетки млекопитающих культивировали при 37°С с 5% CO2 и хранили в DMEM с высоким содержанием глюкозы (Gibco, кат. №11965) для клеток НЕК293Т и NIH/3T3, или в среде DMEM/F12 для клеток А549, в которую добавляли 10% FBS и 1× Pen/Strep (Gibco, cat. №15140122; 100 ед./мл пенициллина, 100 мкг/мл стрептомицина). Клетки трипсинизировали 0,25% трипсином-EDTA (Gibco, кат. №25200-056) и распределяли в отношении 1:10 три раза в неделю.[00551] All mammalian cells were cultured at 37° C. with 5% CO 2 and stored in high glucose DMEM (Gibco, Cat. No. 11965) for HEK293T and NIH/3T3 cells, or in DMEM/F12 medium for A549 cells, to which was added 10% FBS and 1x Pen/Strep (Gibco, cat. no. 15140122; 100 U/ml penicillin, 100 μg/ml streptomycin). Cells were trypsinized with 0.25% trypsin-EDTA (Gibco, cat. no. 25200-056) and distributed at a ratio of 1:10 three times a week.
[00552] Обработка образцов для sci-судьбы[00552] Processing samples for sci destiny
[00553] Клетки А549 обрабатывали 100 нМ DEX в течение 0 часов, 2 часов, 4 часов, 6 часов, 8 часов и 10 часов. Клетки во всех условиях обработки инкубировали с 200 мкМ S4U в течение последних двух часов перед сбором клеток. Для клеток НЕК2 93Т и NIH/3T3, клетки инкубировали с 200 мкМ S4U в течение 6 часов перед сбором клеток.[00553] A549 cells were treated with 100 nM DEX for 0 hours, 2 hours, 4 hours, 6 hours, 8 hours and 10 hours. Cells under all treatment conditions were incubated with 200 μM S4U for the last two hours before harvesting the cells. For HEK2 93T and NIH/3T3 cells, cells were incubated with 200 μM S4U for 6 hours before harvesting the cells.
[00554] Все клеточные линии (клетки А549, НЕК293Т и NIH/3T3) трипсинизировали, центрифугировали при 300х g в течение 5 минут (4°С) и один раз промывали в охлажденном льдом PBS. Все клетки фиксировали 4 мл охлажденным льдом 4% параформальдегидом (EMS) в течение 15 минут на льду. После фиксации, клетки осаждали при 500× g в течение 3 минут (4°С) и один раз промывали 1 мл PBSR (1× PBS, рН 7,4, 1% BSA, 1% SuperRnaseln, 1% 10 мМ DTT). После промывки, клетки ресуспендировали в PBSR в количестве 10 миллионов клеток на мл, быстро замораживали и хранили в жидком азоте. Клетки, фиксированные параформальдегидом, оттаивали на водяной бане при 37°С, центрифугировали при 500× g в течение 5 минут и инкубировали с 500 мкл PBSR, включающего 0,2% тритона Х-100, в течение 3 минут на льду. Клетки осаждали и ресуспендировали в 500 мкл воды, не содержащей нуклеазы и включающей 1% SuperRnaseln. Затем, к клеткам добавляли 3 мл 0,1 н и инкубировали в течение 5 минут на льду (21). В клетки добавляли 3,5 мл Трис-HCl (рН=8,0) и 35 мкл 10% Тритона Х-100 для нейтрализации. Клетки осаждали и промывали 1 мл PBSR. Клетки ресуспендировали в 100 мкл PBSR. 100 мкл PBSR с фиксированными клетками инкубировали со смесью, включающей 40 мкл иодацетамида (IAA, 100 мМ), 40 мкл натрий-фосфатного буфера (500 мМ, рН=8,0), 200 мкл ДМСО и 20 мкл H2O, при 50°С в течение 15 минут. Реакцию гасили 8 мкл DTT (1 М) и 8,5 мл PBS (47). Клетки осаждали и ресуспендировали в 100 мкл PBSI (1×PBS, рН 7,4, 1% BSA, 1% SuperRnaseln). Для всех последующих промывок, ядра осаждали центрифугированием при 500× g в течение 5 минут (4°С).[00554] All cell lines (A549, HEK293T and NIH/3T3 cells) were trypsinized, centrifuged at 300xg for 5 minutes (4°C) and washed once in ice-cold PBS. All cells were fixed with 4 ml ice-cold 4% paraformaldehyde (EMS) for 15 minutes on ice. After fixation, cells were pelleted at 500×g for 3 minutes (4°C) and washed once with 1 ml PBSR (1× PBS, pH 7.4, 1% BSA, 1% SuperRnaseln, 1% 10 mM DTT). After washing, the cells were resuspended in PBSR at 10 million cells per ml, flash frozen and stored in liquid nitrogen. Cells fixed with paraformaldehyde were thawed in a water bath at 37° C., centrifuged at 500×g for 5 minutes and incubated with 500 μl of PBSR containing 0.2% Triton X-100 for 3 minutes on ice. Cells were pelleted and resuspended in 500 µl of nuclease-free water containing 1% SuperRnaseln. Then, 3 ml of 0.1 N was added to the cells and incubated for 5 minutes on ice (21). 3.5 ml of Tris-HCl (pH=8.0) and 35 μl of 10% Triton X-100 were added to the cells for neutralization. Cells were pelleted and washed with 1 ml PBSR. Cells were resuspended in 100 µl PBSR. 100 µl PBSR with fixed cells were incubated with a mixture containing 40 µl iodoacetamide (IAA, 100 mM), 40 µl sodium phosphate buffer (500 mM, pH=8.0), 200 µl DMSO and 20 µl H 2 O, at 50 °C for 15 minutes. The reaction was quenched with 8 μl DTT (1 M) and 8.5 ml PBS (47). Cells were pelleted and resuspended in 100 μl PBSI (1×PBS, pH 7.4, 1% BSA, 1% SuperRnaseln). For all subsequent washes, nuclei were pelleted by centrifugation at 500×g for 5 minutes (4°C).
[00555] Следующие стадии осуществляли в соответствии с протоколом sci-RNA-seq для ядер, фиксированных параформальдегидом (15, 16). Вкратце, клетки распределяли по четырем 9б-луночным планшетам. Для каждой лунки, 5000 ядер (2 мкл) смешивали с 1 мкл 25 мМ заякоренного олиго-dT-праймера (5'-ACGACGCTCTTCCGATCTNNNNNNNN[10 п.о.-индекс][00555] The following steps were performed according to the sci-RNA-seq protocol for paraformaldehyde-fixed nuclei (15, 16). Briefly, cells were distributed into four 9b-well plates. For each well, 5000 nuclei (2 µl) were mixed with 1 µl of 25 mM anchored oligo-dT primer (5'-ACGACGCTCTTCCGATCTNNNNNNNN[10 bp index]
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3') (SEQ ID NO: 5), где «N» означает любое основание, а «V» означает «А», «С» или «G»; IDT), и 0,25 мкл смеси 10 мМ dNTP (Thermo) денатурировали при 55°С в течение 5 минут и сразу помещали на лед. После этого, в каждую лунку добавляли 1,75 мкл реакционной смеси для первой цепи, содержащей 1 мкл 5× буфера для первой цепи Superscript IV (Invitrogen), 0,25 мкл 100 мМ DTT (Invitrogen), 0,25 мкл обратной транскриптазы Superscript IV (200 ед./мкл, Invitrogen), 0,25 мкл рекомбинантного ингибитора рибонуклеазы RNaseOUT (Invitrogen). Обратную транскрипцию осуществляли путем инкубирования планшетов в градиенте температур: 4°С, 2 минуты, 10°С, 2 минуты, 2 0°С, 2 минуты, 30°С, 2 минуты, 40°С, 2 минуты, 50°С, 2 минуты, и 55°С, 10 минут. Затем, все клетки (или ядра) объединяли, окрашивали 4',6-диамидино-2-фенилиндолом (DAPI, Invitrogen) в конечной концентрации 3 мкМ и сортировали по 25 ядер на лунку в 5 мкл буфера ЕВ. Клетки стробировали по окрашиванию DAPI так, чтобы синглеты были отделены от дублетов и отсортированы в каждую лунку. Затем, в каждую лунку добавляли 0,66 мкл буфера для синтеза второй цепи мРНК (NEB) и 0,34 мкл фермента для синтеза второй цепи мРНК (NEB), и синтез второй цепи проводили при 16°С в течение 180 минут. Затем содержимое каждой лунки смешивали с 5 мкл буфера Nextera TD (Illumina) и 1 мкл фермента TDE1 только для i7 (25 нМ, Illumina, разведенного в буфере Nextera TD), и инкубировали при 55°С в течение 5 минут для мечения. Реакцию прекращали добавлением 10 мкл ДНК-связывающего буфера (Zymo) и инкубирования при комнатной температуре в течение 5 минут. Затем каждую лунку очищали с использованием 30 мкл сфер AMPure ХР (Beckman Coulter), элюировали в 16 мкл буфера ЕВ (Qiagen), а затем переносили в свежий многолуночный планшет.TTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3') (SEQ ID NO: 5), where "N" means any base and "V" means "A", "C" or "G"; IDT), and 0.25 μl of a mixture of 10 mm dNTP (Thermo) were denatured at 55°C for 5 minutes and immediately placed on ice. Thereafter, 1.75 µl of the first strand reaction mixture containing 1 µl of 5× Superscript IV first strand buffer (Invitrogen), 0.25 µl of 100 mM DTT (Invitrogen), 0.25 µl of Superscript reverse transcriptase was added to each well. IV (200 U/µl, Invitrogen), 0.25 µl of recombinant RNaseOUT ribonuclease inhibitor (Invitrogen). Reverse transcription was performed by incubating the plates in a temperature gradient: 4°C, 2 minutes, 10°C, 2 minutes, 20°C, 2 minutes, 30°C, 2 minutes, 40°C, 2 minutes, 50°C, 2 minutes, and 55°C, 10 minutes. Then, all cells (or nuclei) were pooled, stained with 4',6-diamidino-2-phenylindole (DAPI, Invitrogen) at a final concentration of 3 μM, and sorted at 25 nuclei per well in 5 μl of EB buffer. Cells were gated by DAPI staining so that singlets were separated from doublets and sorted into each well. Then, 0.66 µl of second strand mRNA synthesis buffer (NEB) and 0.34 µl of second strand mRNA synthesis enzyme (NEB) were added to each well, and second strand synthesis was performed at 16° C. for 180 minutes. The contents of each well were then mixed with 5 µl of Nextera TD buffer (Illumina) and 1 µl of TDE1 enzyme for i7 only (25 nM, Illumina diluted in Nextera TD buffer) and incubated at 55°C for 5 minutes for labeling. The reaction was terminated by adding 10 μl of DNA binding buffer (Zymo) and incubating at room temperature for 5 minutes. Each well was then purified using 30 µl AMPure XP spheres (Beckman Coulter), eluted in 16 µl EB buffer (Qiagen) and then transferred to a fresh multi-well plate.
[00556] Для ПЦР-реакции, содержимое каждой лунки смешивали с 2 мкл 10 мкМ праймера Р5 (5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCC TACACGACGCTCTTCCGAT СТ-3'; IDT) (SEQ ID NO: 6), 2 мкл 10 мкМ праймера Р7 (5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3', IDT) (SEQ ID NO: 7) и 20 мкл 2× ПЦР-смеси NEBNext High-Fidelity Master Mix (NEB). Амплификацию осуществляли по следующей программе: 72°С в течение 5 минут, 98°С в течение 30 секунд, 18-22 цикла (98°С в течение 10 секунд, 66°С в течение 30 секунд, 72°С в течение 1 минуты) и наконец, при 72°С в течение 5 минут. После ПЦР, образцы объединяли и очищали с использованием 0,8 объема сфер AMPure ХР. Концентрации библиотек определяли с помощью Qubit (Invitrogen), и библиотеки визуализировали с помощью электрофореза на 6% ТВЕ-ПААГ-геле. Все библиотеки были секвенированы на одной платформе NovaSeq 500 (Illumina) с использованием набора для 150 циклов V2 (рид 1: 18 циклов, рид 2: 130 циклов, индекс 1: 10 циклов, индекс 2: 10 циклов).[00556] For the PCR reaction, the contents of each well were mixed with 2
[00557] Выравнивание ридов и последующая обработка[00557] Read alignment and post-processing
[00558] Выравнивание ридов и создание матрицы для подсчета генов в целях секвенирования РНК-seq для отдельных клеток осуществляли с использованием алгоритма потокового типа, который был разработан для sci-РНК-seq (48), с небольшими модификациями. Сначала, риды картировали по эталонному геному с помощью STAR/v2.5.2b {49) с аннотациями генов из GENCODE V19 для человека и GENCODE VM11 для мыши. Для экспериментов с клетками НЕК2 93Т и NIH/3T3 был использован индекс, включающий комбинацию хромосом человека (hgl9) и мыши (mm10). Для эксперимента А549 авторы использовали конструкцию человеческого генома hgl9.[00558] Read alignment and generation of a gene count matrix for single cell RNA-seq sequencing was performed using a stream-type algorithm that was developed for sci-RNA-seq (48), with minor modifications. First, reads were mapped to a reference genome using STAR/v2.5.2b {49) with gene annotations from GENCODE V19 for human and GENCODE VM11 for mouse. For experiments with HEK2 93T and NIH/3T3 cells, an index was used that included a combination of human (hgl9) and mouse (mm10) chromosomes. For the A549 experiment, the authors used the hgl9 human genome construct.
[00559] Файлы sam для отдельных клеток были сначала преобразованы в файл tsv выравнивания с использованием функции sam2tsv в jvarkit (50). Затем для создания файла выравнивания для каждой отдельной клетки, мутации, соответствующие фоновым SNP, отфильтровывали. Для оценки эталонного фонового SNP для клеток А549, авторы загрузили данные для спаренных по концам общих PHK-seq для клеток А549 из ENCODE (28) (выбранное имя: ENCFF542FVG, ENCFF538ZTA, ENCFF214JEZ, ENCFF629LOL, ENCFF149CJD, ENCFF006WNO, ENCFF828WTU, ENCFF380VGD). Каждый файл fastq спаренного конца сначала обрезали с использованием программы-адаптера trim_galore/0.4.1 (51) с параметрами по умолчанию, выровненными по конструкции человеческого генома hgl9 с помощью STAR/v2.5.2b {49). Некартированные риды и множество картированных ридов удаляли с помощью samtools/vl.3 (52). Дуплицированные риды отфильтровывали с использованием функции MarkDuplicates в picard/1.105 (53). Недуплицированные риды от всех образцов объединяли и отсортировывали с использованием samtools/vl.3 (52). Фоновые SNP запрашивали по функции mpileup в samtools/vl.3 (52) и функции mpileup2snp в VarScan/2.3.9 {54). Для эксперимента по тестированию НЕК2 93Т и NIH/3T3, фоновый эталонный SNP создавали в аналогичном алгоритме потокового типа вместе с объединенными данными sam для отдельных клеток в контрольных условиях (в условиях без мечения S4U и без обработки IAA).[00559] The individual cell sam files were first converted to an alignment tsv file using jvarkit's sam2tsv function (50). Then, to create an alignment file for each individual cell, mutations corresponding to background SNPs were filtered out. To evaluate the reference background SNP for A549 cells, the authors loaded end-matched total RNA-seq data for A549 cells from ENCODE (28) (selected name: ENCFF542FVG, ENCFF538ZTA, ENCFF214JEZ, ENCFF629LOL, ENCFF149CJD, ENCFF006WNO, ENCFF828WTU, ENCFF380V). Each paired-end fastq file was first trimmed using the trim_galore/0.4.1 (51) adapter program with default parameters aligned to the hgl9 human genome construct using STAR/v2.5.2b {49). Unmapped reads and many mapped reads were removed using samtools/vl.3 (52). Duplicated reads were filtered out using the MarkDuplicates function in picard/1.105 (53). Non-duplicated reads from all samples were pooled and sorted using samtools/vl.3 (52). Background SNPs were requested using the mpileup function in samtools/vl.3 (52) and the mpileup2snp function in VarScan/2.3.9 {54). For the HEK2 93T and NIH/3T3 testing experiment, a background reference SNP was generated in a similar flow-type algorithm along with pooled single cell sam data under control conditions (under conditions without S4U labeling and without IAA treatment).
[00560] Для создания файла выравнивания для отдельных клеток, все мутации с показателем качества ≤13 удаляли. Мутации на обоих концах каждого рида были обусловлены, главным образом, ошибками секвенирования, а поэтому были также отфильтрованы. Для каждого рида авторы оценивали наличие мутаций Т>С (для смысловой цепи) или мутаций A>G (для антисмысловой цепи), и эти мутированные риды помечали как вновь синтезированные риды.[00560] To create a single cell alignment file, all mutations with a quality score ≤13 were removed. Mutations at both ends of each read were due mainly to sequencing errors and were therefore also filtered out. For each read, the authors evaluated the presence of T>C mutations (for the sense strand) or A>G mutations (for the antisense strand), and these mutated reads were labeled as newly synthesized reads.
[00561] Каждую клетку охарактеризовали двумя цифровыми матрицами экспрессии генов исходя из данных полного секвенирования и данных о вновь синтезированной РНК, как описано выше. Гены с экспрессией в 5 или менее, чем в 5 клетках, отфильтровывали. Клетки с менее, чем 2000 UMI или более, чем 80000 UMI, отбрасывали. Клетки с оценкой дублетов >0,2 в соответствии с алгоритмом потокового типа для анализа дублетов Scrublet/0,2 (55) удаляли.[00561] Each cell was characterized by two digital gene expression arrays based on full sequencing data and newly synthesized RNA data as described above. Genes with expression in 5 or less than 5 cells were filtered out. Cells with less than 2000 UMI or more than 80000 UMI were discarded. Cells with a doublet score >0.2 according to the Scrublet/0.2 (55) streaming type doublet analysis algorithm were removed.
[00562] Данные размерности были сначала сокращены с помощью РСА (после отбора наилучших 2000 генов с наибольшей дисперсией) на цифровых матрицах для экспрессии генов исходя из данных полной экспрессии генов или данных экспрессии вновь синтезированных генов с помощью Monocle 3 (55,57). Наилучшие 10 PC были отобраны для анализа на уменьшение размерности с использованием программы однородной множественной аппроксимации и проецирования (UMAP/0.3.2), то есть, недавно предложенного алгоритма, основанного на римановой геометрии и алгебраической топологии, для уменьшения размерности и визуализации данных (26). Для проведения совместного анализа, авторы объединили 10 наилучших PC, вычисленных для всего транскриптома, и 10 наилучших PC, вычисленных для вновь синтезированного транскриптома для каждой отдельной клетки перед уменьшением размерности с помощью UMAP. Клеточные кластеры создавали с помощью алгоритма densityPeak, реализованного в Monocle 3 (56, 57). Сначала, авторы провели анализ UMAP на основе общей информации о всех обработанных клетках, и этот кластер идентифицировали как выброс (724 из 7404 клеток). Эти клетки были помечены GATA3, то есть, маркером дифференцированных клеток (34), отличающихся высоким уровнем экспрессии, и были отфильтрованы перед проведением последующего анализа.[00562] Dimensional data were first reduced by PCA (after selecting the best 2000 genes with the highest variance) on digital gene expression arrays based on total gene expression data or newly synthesized gene expression data using Monocle 3 (55,57). The top 10 PCs were selected for dimensionality reduction analysis using the Uniform Multiple Approximation and Projection Program (UMAP/0.3.2), i.e., a newly proposed algorithm based on Riemannian geometry and algebraic topology for dimensionality reduction and data visualization (26) . For joint analysis, the authors pooled the best 10 PC calculated for the entire transcriptome and the best 10 PC calculated for the newly synthesized transcriptome for each individual cell before UMAP downsizing. Cell clusters were created using the densityPeak algorithm implemented in Monocle 3 (56, 57). First, the authors performed a UMAP analysis based on a total of all treated cells, and this cluster was identified as an outlier (724 out of 7404 cells). These cells were labeled with GATA3, a marker of highly expressed differentiated cells (34), and filtered before further analysis.
[00563] Анализ на связывание фактора транскрипции (TF) с регуляторными генами[00563] Transcription Factor (TF) Binding Assay to Regulatory Genes
[00564] Авторы поставили своей целью идентифицировать связи между TF и регуляторными генами на основе их ковариации. Были детектированы клетки с более, чем 10000 UMI, и были отобраны гены с вновь синтезированными ридами, детектированными в более, чем 10% всех клеток. Экспрессию всего гена и число вновь синтезированных генов на клетку нормализовали по клетко-специфическим факторам размера библиотеки, вычисленным с помощью матрицы экспрессии всего гена с использованием алгоритма estimateSizeFactors в Monocle 3 (56, 57), а затем подвергали логарифмическому преобразованию, центрировали, и масштабировали с помощью функции scale() в R. Для каждого детектированного гена была построена регрессионная модель LASSO с помощью пакета программ glmnet (58) для предсказания нормализованных уровней экспрессии исходя из нормализованной экспрессии 853 TF, аннотированных в данных «motifAnnotations_hgnc» из пакета программ RcisTarget {29), путем построения следующей модели:[00564] The authors set out to identify relationships between TF and regulatory genes based on their covariance. Cells with more than 10,000 UMI were detected, and genes with newly synthesized reads detected in more than 10% of all cells were selected. Whole gene expression and number of newly synthesized genes per cell were normalized to cell-specific library size factors calculated with a whole gene expression
[00565] Gi=β0+βtTi [00565] G i =β 0 +β t T i
[00566] где Gi представляет собой скорректированную величину экспрессии гена i. Эту величину вычисляли путем подсчета количества вновь синтезированных мРНК для каждой клетки, нормализованного путем оценки клетко-специфического фактора размера клетки (SGi) с помощью estimateSizeFactors в Monocle 3 (56, 57) на матрице для общей экспрессии в каждой клетке, и подвергали логарифмическому преобразованию:[00566] where G i is the corrected expression value of gene i. This value was calculated by counting the number of newly synthesized mRNAs for each cell, normalized by estimating cell-specific cell size factor (SG i ) using estimateSizeFactors in Monocle 3 (56, 57) on a matrix for total expression in each cell, and subjected to a log transformation :
[00567] [00567]
[00568] Для упрощения последующего сравнения генов, авторы стандартизировали ответ Gi перед построением модели для каждого гена i с функцией scale () в R.[00568] To simplify the subsequent comparison of genes, the authors standardized the response G i before building a model for each gene i with the scale () function in R.
[00569] Аналогично Gi, Ti представляет собой скорректированную величину экспрессии TF для каждой клетки. Эту величину вычисляли путем подсчета общего уровня экспрессии TF для каждой клетки, нормализованного путем оценки клетко-специфического фактора размера клетки (SGi) с помощью estimateSizeFactors в Monocle 3 [56, 57) на матрице для общей экспрессии в каждой клетке, и подвергали логарифмическому преобразованию:[00569] Similarly to G i , T i is the adjusted value of TF expression for each cell. This value was calculated by calculating the total level of expression of TF for each cell, normalized by estimating the cell-specific cell size factor (SG i ) using estimateSizeFactors in Monocle 3 [56, 57) on the matrix for total expression in each cell, and subjected to a logarithmic transformation :
[00570][00570]
[00571] Перед построением, Ti стандартизируют с помощью функции scale () в R.[00571] Before plotting, Ti is standardized using the scale() function in R.
[00572] Способ согласно изобретению направлен на TF, которые могут регулировать каждый ген, путем поиска субпопуляции, которая может быть использована для предсказания его экспрессии в регрессионной модели. Однако, TF с экспрессией, коррелирующей с экспрессией гена, не гарантирует, что он будет регулировать этот ген: если ген А специфически экспрессируется в клетке в состоянии 1, а ген TF В специфически экспрессируется в клетке типа 2. Хотя отрицательные корреляции между экспрессией TF и скоростью синтеза нового гена могут укзывать на активность репрессора транскрипции, однако, авторы почувствовали, что более вероятным объяснением негативных связей, о которых сообщает glmnet, является наличие взаимоисключающих паттернов экспрессии, специфичной к состоянию клетки и активности TF. Таким образом, во время предсказания, авторы исключили TF, экспрессия которого негативно коррелировала с уровнем синтеза гена, а также с низким коэффициентом корреляции (≤0,03). Авторами было идентифицировано всего 6103 связи между TF и регуляторными генами.[00572] The method of the invention targets TFs that can regulate each gene by looking for a subpopulation that can be used to predict its expression in a regression model. However, TF with expression correlated with gene expression does not guarantee that it will regulate that gene: if gene A is specifically expressed in a cell in
[00573] В целях идентификации предполагаемых мишеней для прямого связывания, авторы выбрали точку пересечения связей с TF, охарактеризованными в эксперименте ENCODE Chip-seq (28). Из 1086 связей с TF, охарактеризованных в ENCODE, 807 связей были подтверждены в TF-сайтах связывания рядом с промоторами генов {59), что в 4,3 раза увеличивало отношение вероятностей (количество подтвержденных связей по сравнению с неподтвержденными связями) по сравнению с фоном (отношение вероятностей = 2,89 для связей, идентифицированных методом регрессии LASSO и 0,67 для фона, величина р<2.2е-16, точный критерий Фишера). Были сохранены только наборы генов со значимым обогащением сайтов связывания только с TF Chip-seq (точный критерий Фишера, уровень ложного обнаружения 5%), и эти наборы были сокращены для удаления генов непрямых мишеней без сохранения данных связывания с TF. В этом методе была сохранена 591 связь.[00573] In order to identify putative targets for direct binding, the authors chose the point of intersection of the bonds with TFs characterized in the ENCODE Chip-seq experiment (28). Of the 1086 TF associations characterized in ENCODE, 807 associations were confirmed at TF binding sites near gene promoters {59), which increased the odds ratio (number of confirmed associations versus unconfirmed associations) by a factor of 4.3 compared to background (probability ratio = 2.89 for associations identified by LASSO regression and 0.67 for background, p<2.2e-16, Fisher's exact test). Only sets of genes with significant enrichment of TF Chip-seq-only binding sites (Fischer's exact test, 5% false detection rate) were retained, and these sets were reduced to remove indirect target genes without retaining TF binding data. In this method, 591 relationships were saved.
[00574] Для дополнительного подтверждения связей генов TF, авторами был также использован пакет программ SCENIC (29), то есть, алгоритм потокового типа для построения сетей регуляторных генов на основе обогащения мотивов TF-мишеней вокруг промоторов генов (10 т.п.о.). Каждый модуль совместной экспрессии, идентифицированный посредством регрессии LASSO, анализировали с помощью анализа на цис-регуляторный мотив с использованием RcisTarget(29). Только модули со значимым обогащением мотивов правильного регулятора TF были сохранены и сокращены для удаления генов непрямых мишеней без сохранения мотива. Авторами были отфильтрованы связи гена TF по трем пороговым значениям коэффициента корреляции (0,3, 0,4 и 0,5), и были объединены все связи, подтвержденные с помощью RcisTarget(29). Методом анализа мотивов было подтверждено всего 509 связей. После объединения обоих методов, авторами было идентифицировано всего 986 регуляторных генов TF по ковариации между уровнем экспрессии TF и синтеза генов, на что указывали данные по связыванию ДНК или анализ мотивов. Для оценки вероятности того, что эти связи будут представлять собой артефакты регулированной регрессии, авторами была проведена перестановка идентификаторов выборки матрицы для экспрессии TF и был проведен тот же анализ. После такой перестановки связи не обнаруживались.[00574] To further confirm the associations of TF genes, the authors also used the SCENIC software package (29), i.e., a flow-type algorithm for constructing networks of regulatory genes based on the enrichment of TF target motifs around gene promoters (10 kb ). Each co-expression module identified by LASSO regression was analyzed by cis regulatory motif analysis using RcisTarget(29). Only modules with significant enrichment of the correct TF regulator motifs were retained and reduced to remove indirect target genes without retaining the motif. The authors filtered the associations of the TF gene by three correlation coefficient thresholds (0.3, 0.4, and 0.5) and pooled all associations confirmed with RcisTarget(29). A total of 509 connections were confirmed by the method of analysis of motives. After combining both methods, a total of 986 TF regulatory genes were identified by the covariance between TF expression level and gene synthesis as indicated by DNA binding data or motif analysis. To assess the likelihood that these associations would be artifacts of the adjusted regression, the authors permuted the matrix sample identifiers for TF expression and performed the same analysis. After such a rearrangement, no connections were found.
[00575] Упорядочение клеток по функциональным модулям TF[00575] Ordering of cells by TF functional modules
[00576] Для вычисления активности TF в каждой клетке, количества вновь синтезированных UMI для генов в модуле TF-мишени были масштабированы по размеру библиотеки, подвергнуты логарифмиеческому преобразованию и объединены, а затем картированы по Z-показателям. Поскольку было высказано предположение, что TF, обладающие в высокой степени скоррелированной или нескоррелированной активностью, могут функционировать в биологическом процессе в связанной форме, то авторы вычислили абсолютный коэффициент корреляции Пирсона между каждой парой активности TF, и на основании этого кластеризовали TF методом кластеризации ward.d2 в пакете программ pheatmap/1.0.12(60). Пять функциональных модулей TF были идентифицированы и аннотированы на основе их функций.[00576] To calculate TF activity in each cell, the numbers of newly synthesized UMIs for genes in the TF target module were scaled by library size, log-transformed and pooled, and then Z-score mapped. Since it has been suggested that TFs with highly correlated or uncorrelated activities can function in a biological process in a bound form, the authors calculated the absolute Pearson correlation coefficient between each pair of TF activities, and based on this clustered the TFs using the ward.d2 clustering method. in the software package pheatmap/1.0.12(60). Five TF functional modules have been identified and annotated based on their functions.
[00577] Для характеризации состояний клеток по размеру каждого функционального модуля TF, клетки были упорядочены по активности TF, ассоциированных с клеточным циклом (модуль 1 TF) или TF, ассоциированных с GR-ответом (модуль 3 TF), методом UMAP (метрика = «косинус», n_neighbords = 30, min_dist = 0,01). Траекторию прохождения клеточного цикла подтверждали по маркерам генов клеточного цикла в Seurat/2.3.4(27). Три фазы клеточного цикла были идентифицированы с помощью алгоритма densityPeak, реализованного в Monocle 3 (56,57) по координатам UMAP, упорядоченным по модулям TF клеточного цикла. Поскольку каждая главная фаза клеточного цикла по-прежнему сохраняла вариабельную активность TF и экспрессию маркера клеточного цикла, то авторы сегментировали каждую фазу на ранние/средние/поздние состояния с помощью кластеризации посредством k-средних (k=3) и получили всего девять состояний клеточного цикла. Три состояния GR-ответа были идентифицированы с помощью алгоритма densityPeak, реализованного в Monocle 3 (56,51).[00577] To characterize cell states by the size of each functional TF module, cells were ordered by activity of TF associated with the cell cycle (TF module 1) or TF associated with the GR response (TF module 3) using the UMAP method (metric = " cosine", n_neighbords = 30, min_dist = 0.01). The cell cycle trajectory was confirmed by cell cycle gene markers in Seurat/2.3.4(27). The three phases of the cell cycle were identified using the densityPeak algorithm implemented in Monocle 3 (56,57) by UMAP coordinates ordered by cell cycle TF modules. Because each major cell cycle phase still retained variable TF activity and cell cycle marker expression, we segmented each phase into early/middle/late states using k-means clustering (k=3) and obtained a total of nine cell cycle states. . Three states of the GR response have been identified using the densityPeak algorithm implemented in Monocle 3 (56,51).
[00578] Восстановление прежнего состояния транскриптома по sci-судьбе[00578] Restoration of the previous state of the transcriptome by sci fate
[00579] Для идентификации прежнего состояния транскриптома (состояния клетки перед S4U-мечением), авторы выдвинули гипотезу, что время полужизни мРНК является постоянным при различных условиях обработки DEX. Это предположение дополнительно подтверждали последующей проверкой стабильности. Согласно этому предположению, общий транскриптом, частично разрушенный за 2 часа до S4U-мечения, должен быть таким же в клетках, не обработанных DEX, и в клетках, обработанных DEX через 2 часа. Таким образом, различия в общем транскриптоме (по объему) должны совпадать с различиями во вновь синтезированном транскриптоме (по объему), скорректированном по степени обнаружения в зависимости от техники:[00579] To identify the former state of the transcriptome (the state of the cell before S4U labeling), we hypothesized that the mRNA half-life is constant under various DEX treatment conditions. This assumption was further confirmed by a subsequent stability test. According to this assumption, the total transcriptome partially disrupted 2 hours prior to S4U labeling should be the same in non-DEX-treated cells and in DEX-treated
[00580] A0h/S0h - (N0h/S0h)/α=A2h/S2h ~ (N2h/S2h)/α[00580] A 0h /S 0h - (N 0h /S 0h )/α=A 2h /S 2h ~ (N 2h /S 2h )/α
[00581] A0h означает число объединенных UMI для всех клеток в группе без DEX-обработки; S0h означает размер библиотеки (общее количество клеток для UMI) при отсутствии обработки DEX; N0h означает число объединенных вновь синтезированных UMI для всех клеток в группе без DEX-обработки; A2h означает число объединенных UMI для всех клеток в группе DEX-обработки через 2 часа; S2h означает размер библиотеки (общее количество UMI для клеток) в группе DEX-обработки через 2 часа; N2h означает число объединенных вновь синтезированных UMI для всех клеток в группе DEX-обработки через 2 часа; а означает степень детектирования sci-судьбы. Теоретически, для каждого гена может быть определена одна степень детектирования. Однако, для генов с незначительными различиями скорости нового синтеза между двумя состояниями, оцененный параметр а находится в пределах уровня шума. Таким образом, авторами были отобраны гены, обнаруживающие более высокие различия в нормализованной скорости нового синтеза между двумя состояниями: сначала была протестирована серия пороговых величин для фильтрации генов и рассчитан α для каждого гена. Затем авторами был построен график зависимости между пороговым значением и соотношением генов с выходящими за пределы величинами α, (<0 или>1). Авторами был выбран порог, который в точке изгиба на графике соответствовал 186 выбранным генам. Различия во вновь синтезированной мРНК этих генов сильно коррелируют с различиями в уровне экспрессии мРНК (критерий Пирсона, r=0,93, фиг. 37А), что позволяет предположить, что уровень детектирования новой РНК является довольно стабильным по всем генам. Таким образом, медиана скорости захвата вновь синтезированной РНК по sci-судьбе составляет 82%.[00581] A 0h means the number of pooled UMIs for all cells in the group without DEX treatment; S 0h means the size of the library (total number of cells for UMI) in the absence of DEX processing; N 0h means the number of pooled newly synthesized UMI for all cells in the group without DEX treatment; A 2h is the number of pooled UMIs for all cells in the DEX treatment group after 2 hours; S 2h is the library size (total UMI for cells) in the DEX treatment group after 2 hours; N2h is the number of pooled newly synthesized UMIs for all cells in the DEX treatment group after 2 hours; a means the degree of detection of sci-fate. Theoretically, one degree of detection can be determined for each gene. However, for genes with little difference in the rate of new synthesis between the two states, the estimated parameter a is within the noise level. Thus, the authors selected genes showing higher differences in the normalized rate of new synthesis between the two states: first, a series of gene filtering thresholds were tested and α calculated for each gene. Then the authors plotted the relationship between the threshold value and the ratio of genes with out-of-bounds values of α, (<0 or>1). The authors chose a threshold that, at the inflection point on the graph, corresponded to 186 selected genes. Differences in newly synthesized mRNA for these genes strongly correlate with differences in mRNA expression level (Pearson's test, r=0.93, Fig. 37A), suggesting that the level of detection of new RNA is fairly stable across all genes. Thus, the median rate of uptake of newly synthesized RNA by sci-fate is 82%.
[00582] Затем была вычислена степень разложения мРНК за каждые 2 часа. Поскольку популяция клеток А549 может рассматриваться как стабильная без внешней пертурбации, то для клеток после 2-часовой обработки DEX, их прежнее состояние (за 2 часа до мечения S4U) должно быть таким же, как и у клеток, не обработанных DEX. Аналогично, прежнее состояние (перед мечением S4U) для клеток, обработанных DEX на время Т=0/2/4/6/8/10 часов, должно быть аналогично состоянию профилированных клеток на время Т=0/0/2/4/6/8 часов.[00582] The degree of mRNA degradation was then calculated for every 2 hours. Since the A549 cell population can be considered stable without external perturbation, for cells after 2 hours of DEX treatment, their previous state (2 hours before labeling with S4U) should be the same as for cells not treated with DEX. Similarly, the previous state (before labeling with S4U) for cells treated with DEX at time T=0/2/4/6/8/10 hours should be similar to the state of profiled cells at time T=0/0/2/4/6 /8 ocloc'k.
[00583] At1/St1 - (Nt1/St1)/α=At0/St0⋅β[00583] A t1 /S t1 - (N t1 /S t1 )/α=A t0 /S t0 ⋅β
[00584] At1 означает число объединенных UMI для всех клеток на t1; St1 означает размер библиотеки (общее количество клеток для UMI) на t1; Nt1 означает число объединенных вновь синтезированных UMI для всех клеток на t1; α означает оцененную степень детектирования sci-судьбы; At0 означает число объединенных UMI для всех клеток на t0; St0 означает размер библиотеки (общее количество UMI для клеток) на t0; β=1-степень геноспецифического разложения на время t0-t1, и соответствует времени полужизни мРНК γ, где β вычисляется по формуле:[00584] A t1 means the number of combined UMIs for all cells at t1; S t1 means the size of the library (total number of cells for UMI) per t1; N t1 is the number of newly synthesized UMIs pooled for all cells at t1; α means the estimated degree of detection of sci fate; A t0 means the number of combined UMIs for all cells on t0; S t0 means library size (total number of UMIs for cells) per t0; β=1 is the degree of gene-specific degradation for time t0-t1, and corresponds to the mRNA half-life γ, where β is calculated by the formula:
[00585] β=1-(1/2) (t1-t0)/γ [00585] β=1-(1/2) (t1-t0)/γ
[00586] Степень деградации гена β может быть вычислена после каждой DEX-обработки с 2-часовым интервалом. После вышеупомянутый проверки стабильности было обнаружено, что степень деградации генов сильно коррелируют в различные периоды времени DEX-обработки (фиг. 35В). Затем, авторы использовали усредненную степень деградации генов для последующего анализа.[00586] The degree of degradation of the β gene can be calculated after each DEX treatment at a 2-hour interval. After the aforementioned stability check, it was found that the degree of gene degradation was highly correlated at various DEX treatment times (FIG. 35B). Then, the authors used the average degree of gene degradation for further analysis.
[00587] Исходя из оцененной степени детектирования и деградации генов, прежнее состояние транскриптома каждой клетки может быть вычислено по формуле:[00587] Based on the estimated degree of detection and degradation of genes, the previous state of the transcriptome of each cell can be calculated by the formula:
[00588] at1-nt1/α=at0⋅β[00588] a t1 -n t1 /α=a t0 ⋅β
[00589] at1 означает число UMI для отдельных клеток на t1; nt1 означает число вновь синтезированных UMI для отдельных клеток на t1; а означает оцененную степень детектирования sci-судьбы; β=1 - степень геноспецифического разложения на время t0-t1. at0 означает оцененное число UMI для отдельных клеток за прошедший момент времени t0, где все отрицательные величины были приведены к 0.[00589] a t1 means the number of UMI for individual cells at t1; n t1 means the number of newly synthesized UMI for individual cells per t1; a means the estimated degree of detection of sci fate; β=1 - the degree of gene-specific decomposition for the time t0-t1. a t0 means the estimated number of UMIs for individual cells over the past time point t0, where all negative values have been adjusted to 0.
[00590] Анализ на связывание для построения траектории состояния отдельной клетки.[00590] Binding analysis to build a single cell state trajectory.
[00591] Посредством анализа на связывание, авторами была поставлена цель идентифицировать связанные родительские и дочерние клетки в одной и той же траектории. Технически, для клеток на t1, авторы объединили прежнее состояние транскриптома (перед мечением S4U, за 2 часа до t1 в проведенном авторами эксперименте) в одну группу 1, а состояние всего транскриптома на t0 (за 2 часа до t1) во вторую группу 2. Если предположить, что какой-либо явный апоптоз клеток отсутствовал, то эти две группы должны иметь сходное распределение клеточных состояний. Авторами была применена стратегия множественного выравнивания для идентификации общих клеточных состояний между двумя наборами данных, исходя из общих источников вариабельности (27). Этот анализ основан на другом предположении, что прежнее и текущее состояние каждой клетки (кроме клеток в начальный и конечный моменты времени) детально детектируются, что подтверждается полученными авторами наборами данных по мере характеризации более 6000 клеток (более 1000 клеток на одно условие), или одной клетки в течение менее одной минуты во время прохождения клеточного цикла. После введения алгоритма потокового типа, клеточные состояния, начиная с t0, и прежние состояния, начиная с t1, выравнивают в одном и том же пространстве UMAP. Необоснованность вышеприведенных допущений может быть обнаружена по выбросам во время выравнивания двух наборов данных. Для каждой клетки А на t1, авторами были выбраны ее ближайшие соседи на t0 как родительское состояние при выравнивании в пространстве UMAP. Аналогично, для каждой клетки на t0, авторами были выбраны ее ближайшие соседи на t1 как состояния дочерних клеток. Следует отметить, что связь необязательно должна быть двунаправленной: родительское состояние одной клетки может быть связано с состоянием другой дочерней клетки. Поскольку родительское состояние и дочернее состояние были идентифицированы для каждой клетки (кроме клеток на 0 часов и 10 часов), то авторы затем идентифицировали связанную родительскую клетку родителя каждой клетки и аналогично связанную дочернюю клетку потомка каждой клетки. Таким образом, каждая отдельная клетка может быть охарактеризована по пути перехода клетки из одного состояния в другое во всех пяти временных точках, охватывающих период 10 часов. Поскольку множество клеток (>50) было охарактеризовано в каждом состоянии, то может быть также зафиксирован стохастический процесс перехода клетки из одного состояния в другое.[00591] Through the analysis of binding, the authors have set the goal to identify associated parent and child cells in the same trajectory. Technically, for cells at t1, the authors combined the previous state of the transcriptome (before labeling with S4U, 2 hours before t1 in the experiment conducted by the authors) into one
[00592] Уменьшение размерности и анализ на кластеризацию для оценки динамики транскриптома отдельных клеток.[00592] Dimensionality reduction and clustering analysis to evaluate individual cell transcriptome dynamics.
[00593] Для уменьшения размерности в динамике транскриптома отдельных клеток, для каждого состояния было отобрано 5 наилучших PC для всего транскриптома и 5 наилучших PC для вновь синтезированного транскриптома, и эти PC были объединены во временном порядке для каждой траектории состояния отдельной клетки для анализа UMAP. Основные типы траекторий клеток были идентифицированы с помощью алгоритма кластеризации пиков плотности {61).[00593] To reduce dimensionality in individual cell transcriptome dynamics, for each state, the top 5 PCs for the entire transcriptome and the top 5 PCs for the newly synthesized transcriptome were selected, and these PCs were pooled in temporal order for each individual cell state trajectory for UMAP analysis. The main types of cell trajectories were identified using the density peak clustering algorithm {61).
[00594] Принимая во внимание соотношение состояния клетки в начальный момент времени (обработка на 0 часов) и вероятности перехода клетки из одного состояния в другое, оцененные по полученным данным, авторами сначала было предсказано распределение состояний клетки через 2 часа, если допустить, что процесс перехода клетки из одного состояния в другое при DEX-обработке представляет собой динамику Маркова, которая является автономной для клеток и не зависит от времени. Аналогично, распределение состояний клеток в более поздний момент времени может быть вычислено на основе прогнозируемого распределения состояний клеток за 2 часа до этого.[00594] Taking into account the ratio of the state of the cell at the initial moment of time (processing at 0 hours) and the probability of the transition of the cell from one state to another, estimated from the data obtained, the authors first predicted the distribution of cell states after 2 hours, if we assume that the process the transition of a cell from one state to another during DEX processing is a Markov dynamics, which is autonomous for cells and does not depend on time. Similarly, the distribution of cell states at a later point in time can be calculated based on the predicted distribution of cell states 2 hours before.
[00595] Предсказание вероятности перехода клетки из одного состояния в другое по нестабильности состояния[00595] Predicting the probability of a cell transition from one state to another based on state instability
[00596] Нестабильность состояния клетки определяется как вероятность перехода каждого состояния в другие состояния через 2 часа. Для вычисления расстояния переходов между клетками, авторы сначала отобрали равное количество (n=50) клеток в каждом состоянии и объединили полный транскриптом и вновь синтезированный транскриптом для всех клеток в этом состоянии. Каждое состояние клетки может быть определено по общей информации, объединяющей весь и вновь синтезированный транскриптом. Расстояние между состояниями клеток вычисляют как коэффициент корреляции Пирсона для общей информации между двумя состояниями.[00596] Cell state instability is defined as the probability of each state transitioning to other states after 2 hours. To calculate the distance of transitions between cells, the authors first selected an equal number (n=50) of cells in each state and combined the complete transcriptome and the newly synthesized transcriptome for all cells in this state. Each state of the cell can be determined by common information that combines the entire and newly synthesized transcriptome. The distance between cell states is calculated as the Pearson correlation coefficient for the total information between two states.
[00597] Для предсказания вероятности перехода между состояниями, авторами была построена 3-слойная нейронная сеть (число элементов: 128, 128, 26 с активацией сопротивления на каждом слое; функция потери: cosine_proximity, размер партии: 128, периоды: 80) с помощью программы Keras/2.2.4(62). Для ввода авторы использовали нестабильность состояния в текущий момент, нормализованную нестабильность состояния для других 26 состояний (масштабируемых по нестабильности текущего состояния) и расстояние перехода (квадрат) от текущего состояния до других 26 состояний (в том же порядке следования состояний как и в векторе нестабильности состояний). Во избежание избыточной аппроксимации модели, авторы сделали перестановку порядка состояний нестабильности по 200 раз для каждого ввода, причем, порядок расстояний перехода между состояниями поддерживался таким же, как и при нестабильности состояний. Для оценки производительности модели, авторы применили программу проверки достоверности данных «с сохранением/без сохранения» функций путем обучения 26 состояниям, и проверки модели в прежнем состоянии с предсказанием вероятностей перехода состояний во все остальные 26 состояний. Для предсказания вероятности перехода только по расстоянию перехода используется одна и та же модель обучения и проверки с заменой всех нестабильностей исходного состояния на 1.[00597] To predict the probability of transition between states, the authors built a 3-layer neural network (number of elements: 128, 128, 26 with resistance activation on each layer; loss function: cosine_proximity, batch size: 128, periods: 80) using Keras/2.2.4(62) programs. For input, the authors used the instability of the state at the current moment, the normalized instability of the state for the other 26 states (scaled by the instability of the current state), and the transition distance (square) from the current state to the other 26 states (in the same order of states as in the state instability vector ). To avoid over-approximation of the model, the authors permuted the order of instability states 200 times for each input, and the order of transition distances between states was maintained the same as in the case of instability states. To evaluate the performance of the model, the authors applied a hold/no hold function data validation program by training 26 states, and validating the model in the previous state, predicting the probabilities of state transitions to all other 26 states. To predict the transition probability from the transition distance only, the same training and validation model is used, with all initial state instabilities replaced by 1.
[00598] Библиография[00598] Bibliography
[00599] 1. N. Moris, С. Pina, А. М. Arias, Transition states and cell fate decisions in epigenetic landscapes. Nat. Rev. Genet. 17, 693-703 (2016).[00599] 1. N. Moris, C. Pina, A. M. Arias, Transition states and cell fate decisions in epigenetic landscapes. Nat. Rev. Genet. 17, 693-703 (2016).
[00600] 2. A. Filipczyk et al., Network plasticity of pluripotency transcription factors in embryonic stem cells. Nat. Cell Biol. 17, 1235-1246 (2015).[00600] 2. A. Filipczyk et al., Network plasticity of pluripotency transcription factors in embryonic stem cells. Nat. Cell biol. 17, 1235-1246 (2015).
[00601] 3. S. Hormoz et al., Inferring Cell-State Transition Dynamics from Lineage Trees and Endpoint Single-Cell Measurements. Cell Syst. 3, 419-433.e8 (2016).[00601] 3. S. Hormoz et al., Inferring Cell-State Transition Dynamics from Lineage Trees and Endpoint Single-Cell Measurements. Cell System. 3, 419-433.e8 (2016).
[00602] 4. V. A. Herzog et al., Thiol-linked alkylation of RNA to assess expression dynamics. Nat. Methods. 14, 1198-1204 (2017).[00602] 4. V. A. Herzog et al., Thiol-linked alkylation of RNA to assess expression dynamics. Nat. methods. 14, 1198-1204 (2017).
[00603] 5. J. A. Schofield, E. E. Duffy, L. Kiefer, M. C. Sullivan, M. D. Simon, TimeLapse-seq: adding a temporal dimension to RNA sequencing through nucleoside recoding. Nat. Methods. 15, 221-225 (2018).[00603] 5. J. A. Schofield, E. E. Duffy, L. Kiefer, M. C. Sullivan, M. D. Simon, TimeLapse-seq: adding a temporal dimension to RNA sequencing through nucleoside recoding. Nat. methods. 15, 221-225 (2018).
[00604] 6. J. C. Buckingham, Glucocorticoids: exemplars of multi-tasking. Br. J. Pharmacol. 147, S258 (2006).[00604] 6. J. C. Buckingham, Glucocorticoids: exemplars of multi-tasking. Br. J Pharmacol. 147, S258 (2006).
[00605] 7. M. D. Cleary, C. D. Meiering, E. Jan, R. Guymon, J. C. Boothroyd, Biosynthetic labeling of RNA with uracil phosphoribosyltransferase allows cell-specific microarray analysis of mRNA synthesis and decay. Nat. Biotechnol. 23, 232-237 (2005).[00605] 7. M. D. Cleary, C. D. Meiering, E. Jan, R. Guymon, J. C. Boothroyd, Biosynthetic labeling of RNA with uracil phosphoribosyltransferase allows cell-specific microarray analysis of mRNA synthesis and decay. Nat. Biotechnol. 23, 232-237 (2005).
[00606] 8. L. Dolken et al., High-resolution gene expression profiling for simultaneous kinetic parameter analysis of RNA synthesis and decay. RNA. 14, 1959-1972 (2008).[00606] 8. L. Dolken et al., High-resolution gene expression profiling for simultaneous kinetic parameter analysis of RNA synthesis and decay. RNA. 14, 1959-1972 (2008).
[00607] 9. C. Miller et al., Dynamic transcriptome analysis measures rates of mRNA synthesis and decay in yeast. Mol. Syst. Biol. 7, 458-458 (2014).[00607] 9. C. Miller et al., Dynamic transcriptome analysis measures rates of mRNA synthesis and decay in yeast. Mol. Syst. Biol. 7, 458-458 (2014).
[00608] 10. E. E. Duffy et al., Tracking Distinct RNA Populations Using Efficient and Reversible Covalent Chemistry. Mol. Cell. 59, 858-866 (2015).[00608] 10. E. E. Duffy et al., Tracking Distinct RNA Populations Using Efficient and Reversible Covalent Chemistry. Mol. cell. 59, 858-866 (2015).
[00609] 11. B. Schwalb et al., TT-seq maps the human transient transcriptome. Science. 352, 1225-1228 (2016).[00609] 11. B. Schwalb et al., TT-seq maps the human transient transcriptome. Science. 352, 1225-1228 (2016).
[00610] 12. M. Rabani et al., Metabolic labeling of RNA uncovers principles of RNA production and degradation dynamics in mammalian cells. Nat. Biotechnol. 29, 436-442 (2011).[00610] 12. M. Rabani et al., Metabolic labeling of RNA uncovers principles of RNA production and degradation dynamics in mammalian cells. Nat. Biotechnol. 29, 436-442 (2011).
[00611] 13. M. R. Miller, K. J. Robinson, M. D. Cleary, C. Q. Doe, TU-tagging: cell type-specific RNA isolation from intact complex tissues. Nat. Methods. 6, 439-441 (2009).[00611] 13. M. R. Miller, K. J. Robinson, M. D. Cleary, C. Q. Doe, TU-tagging: cell type-specific RNA isolation from intact complex tissues. Nat. methods. 6, 439-441 (2009).
[00612] 14. D. A. Cusanovich et al., Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science. 348, 910-914 (2015).[00612] 14. D. A. Cusanovich et al., Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science. 348, 910-914 (2015).
[00613] 15. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).[00613] 15. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).
[00614] 16. J. Cao et al., Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science. 361, 1380-1385 (2018).[00614] 16. J. Cao et al., Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science. 361, 1380-1385 (2018).
[00615] 17. V. Ramani et al., Massively multiplex single-cell Hi-C (2016), doi:10.1101/065052.[00615] 17. V. Ramani et al., Massively multiplex single-cell Hi-C (2016), doi:10.1101/065052.
[00616] 18. R. M. Mulqueen et al., Highly scalable generation of DNA methylation profiles in single cells. Nat. Blotechnol. 36, 428-431 (2018).[00616] 18. R. M. Mulqueen et al., Highly scalable generation of DNA methylation profiles in single cells. Nat. Blotechnol. 36, 428-431 (2018).
[00617] 19. S. A. Vitak et al., Sequencing thousands of single-cell genomes with combinatorial indexing. Nat. Methods. 14, 302-308 (2017).[00617] 19. S. A. Vitak et al., Sequencing thousands of single-cell genomes with combinatorial indexing. Nat. methods. 14, 302-308 (2017).
[00618] 20. Y. Yin et al., High-throughput mapping of meiotic crossover and chromosome mis-segregation events in interspecific hybrid mice (2018),, doi:10.1101/338053.[00618] 20. Y. Yin et al., High-throughput mapping of meiotic crossover and chromosome mis-segregation events in interspecific hybrid mice (2018), doi:10.1101/338053.
[00619] 21. A. B. Rosenberg et al., Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science. 360, 176-182 (2018).[00619] 21. A. B. Rosenberg et al., Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science. 360, 176-182 (2018).
[00620] 22. Т. E. Reddy et al., Genomic determination of the glucocorticoid response reveals unexpected mechanisms of gene regulation. Genome Res. 19, 2163-2171 (2009).[00620] 22. T. E. Reddy et al., Genomic determination of the glucocorticoid response reveals unexpected mechanisms of gene regulation. Genome Res. 19, 2163-2171 (2009).
[00621] 23. S. John et al., Chromatin accessibility predetermines glucocorticoid receptor binding patterns. Nat. Genet. 43, 264-268 (2011).[00621] 23. S. John et al., Chromatin accessibility predetermines glucocorticoid receptor binding patterns. Nat. Genet. 43, 264-268 (2011).
[00622] 24. Т. E. Reddy, J. Gertz, G. E. Crawford, M. J. Garabedian, R. M. Myers, The Hypersensitive Glucocorticoid Response Specifically Regulates Period 1 and Expression of Circadian Genes. Mol. Cell. Biol. 32, 3756-3767 (2012).[00622] 24. T. E. Reddy, J. Gertz, G. E. Crawford, M. J. Garabedian, R. M. Myers, The Hypersensitive Glucocorticoid Response Specifically Regulates
[00623] 25. С.M. Vockley et al., Direct GR Binding Sites Potentiate Clusters of TF Binding across the Human Genome. Cell. 166, 1269-1281.el9 (2016).[00623] 25. C.M. Vockley et al., Direct GR Binding Sites Potentiate Clusters of TF Binding across the Human Genome. cell. 166, 1269-1281.el9 (2016).
[00624] 26. L. Mclnnes, J. Healy, N. Saul, L. GroBberger, UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software. 3, 861 (2018).[00624] 26. L. McInnes, J. Healy, N. Saul, L. GroBberger, UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software. 3, 861 (2018).
[00625] 27. A. Butler, P. Hoffman, P. Smibert, E. Papalexi, R. Satija, Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat. Biotechnol. 36, 411-420 (2018).[00625] 27. A. Butler, P. Hoffman, P. Smibert, E. Papalexi, R. Satija, Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat. Biotechnol. 36, 411-420 (2018).
[00626] 28. The ENCODE Project Consortium, The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 306, 636-640 (2004).[00626] 28. The ENCODE Project Consortium, The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 306, 636-640 (2004).
[00627] 29. S. Aibar et al., SCENIC: single-cell regulatory network inference and clustering. Nat. Methods. 14, 1083-1086 (2017).[00627] 29. S. Aibar et al., SCENIC: single-cell regulatory network inference and clustering. Nat. methods. 14, 1083-1086 (2017).
[00628] 30. M. Boruk, J. G. A. Savory, R. J. G. Hache, AF-2-Dependent Potentiation of CCAAT Enhancer Binding Proteinβ - Mediated Transcriptional Activation by Glucocorticoid Receptor. Mol. Endocrinol. 12, 1749-1763 (1998).[00628] 30. M. Boruk, J. G. A. Savory, R. J. G. Hache, AF-2-Dependent Potentiation of CCAAT Enhancer Binding Proteinβ - Mediated Transcriptional Activation by Glucocorticoid Receptor. Mol. Endocrinol. 12, 1749-1763 (1998).
[00629] 31. W. Qin et al., Identification of functional glucocorticoid response elements in the mouse FoxO1 promoter. Biochem. Biophys. Res. Commun. 450, 979-983 (2014).[00629] 31. W. Qin et al., Identification of functional glucocorticoid response elements in the mouse FoxO1 promoter. Biochem. Biophys. Res. commun. 450, 979-983 (2014).
[00630] 32. C. S. Sheela Rani, N. Elango, S.-S. Wang, K. Kobayashi, R. Strong, Identification of an Activator Protein-1-Like Sequence as the Glucocorticoid Response Element in the Rat Tyrosine Hydroxylase Gene. Mol. Pharmacol. 75, 589 (2009).[00630] 32. C. S. Sheela Rani, N. Elango, S.-S. Wang, K. Kobayashi, R. Strong, Identification of an Activator Protein-1-Like Sequence as the Glucocorticoid Response Element in the Rat Tyrosine Hydroxylase Gene. Mol. Pharmacol. 75, 589 (2009).
[00631] 33. M. Fischer, G. A. Muller, Cell cycle transcription control: DREAM/MuvB and RB-E2F complexes. Crit. Rev. Biochem. Mol. Biol. 52, 638-662 (2017).[00631] 33. M. Fischer, G. A. Muller, Cell cycle transcription control: DREAM/MuvB and RB-E2F complexes. Crit. Rev. Biochem. Mol. Biol. 52, 638-662 (2017).
[00632] 34. J. Chou, S. Provot, Z. Werb, GATA3 in development and cancer differentiation: cells GATA have it! J. Cell. Physiol. 222, 42-49 (2010).[00632] 34 J. Chou, S. Provot, Z. Werb, GATA3 in development and cancer differentiation: GATA cells have it! J. Cell. physiol. 222, 42-49 (2010).
[00633] 35. J. Y. C. Madhurima Biswas, Role of Nrfl in antioxidant response element-mediated gene expression and beyond. Toxicol. Appl. Pharmacol. 244, 16 (2010).[00633] 35. J. Y. C. Madhurima Biswas, Role of Nrfl in antioxidant response element-mediated gene expression and beyond. Toxicol. Appl. Pharmacol. 244, 16 (2010).
[00634] 36. I.-G. Ryoo, M.-K. Kwak, Regulatory crosstalk between the oxidative stress-related transcription factor Nfe212/Nrf2 and mitochondria. Toxicol. Appl. Pharmacol. 359, 24-33 (2018).[00634] 36. I.-G. Ryoo, M.-K. Kwak, Regulatory crosstalk between the oxidative stress-related transcription factor Nfe212/Nrf2 and mitochondria. Toxicol. Appl. Pharmacol. 359, 24-33 (2018).
[00635] 37. J. M. Harmon, M. R. Norman, B. J. Fowlkes, E. B. Thompson, Dexamethasone induces irreversible G1 arrest and death of a human lymphoid cell line. J. Cell. Physiol. 98, 2 67-278 (1979).[00635] 37. J. M. Harmon, M. R. Norman, B. J. Fowlkes, E. B. Thompson, Dexamethasone induces irreversible G1 arrest and death of a human lymphoid cell line. J. Cell. physiol. 98, 2 67-278 (1979).
[00636] 38. A. K. Greenberg et al., Glucocorticoids inhibit lung cancer cell growth through both the extracellular signal-related kinase pathway and cell cycle regulators. Am. J. Respir. Cell Mol. Biol. 27, 320-328 (2002).[00636] 38. A. K. Greenberg et al., Glucocorticoids inhibit lung cancer cell growth through both the extracellular signal-related kinase pathway and cell cycle regulators. Am. J. Respir. Cell Mol. Biol. 27, 320-328 (2002).
[00637] 39. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).[00637] 39. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).
[00638] 40. J. Cao et al., Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science. 361, 1380-1385 (2018).[00638] 40. J. Cao et al., Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science. 361, 1380-1385 (2018).
[00639] 41. W. Matsushima et al., SLAM-ITseq: sequencing cell type-specific transcriptomes without cell sorting. Development. 145 (2018), doi:10.1242/dev.164640.[00639] 41. W. Matsushima et al., SLAM-ITseq: sequencing cell type-specific transcriptomes without cell sorting. Development. 145 (2018), doi:10.1242/dev.164640.
[00640] 42. U. Sharma et al., Small RNAs are trafficked from the epididymis to developing mammalian sperm (2017), doi:10.1101/194522.[00640] 42. U. Sharma et al., Small RNAs are trafficked from the epididymis to developing mammalian sperm (2017), doi:10.1101/194522.
[00641] 43. A. McKenna et al., Whole-organism lineage tracing by combinatorial and cumulative genome editing. Science. 353, aaf7907 (2016).[00641] 43. A. McKenna et al., Whole-organism lineage tracing by combinatorial and cumulative genome editing. Science. 353, aaf7907 (2016).
[00642] 44. B. Raj et al., Simultaneous single-cell profiling of lineages and cell types in the vertebrate brain. Nat. Biotechnol. 36, 442-450 (2018).[00642] 44. B. Raj et al., Simultaneous single-cell profiling of lineages and cell types in the vertebrate brain. Nat. Biotechnol. 36, 442-450 (2018).
[00643] 45. K. L. Frieda et al., Synthetic recording and in situ readout of lineage information in single cells. Nature. 541, 107-111 (2017).[00643] 45. K. L. Frieda et al., Synthetic recording and in situ readout of lineage information in single cells. Nature. 541, 107-111 (2017).
[00 644] 46. H. Wickham, ggplot2: Elegant Graphics for Data Analysis (Springer, 2016).[00 644] 46. H. Wickham, ggplot2: Elegant Graphics for Data Analysis (Springer, 2016).
[00645] 47. M. Muhar et al., SLAM-seq defines direct gene-regulatory functions of the BRD4-MYC axis. Science. 360, 800-805 (2018).[00645] 47. M. Muhar et al., SLAM-seq defines direct gene-regulatory functions of the BRD4-MYC axis. Science. 360, 800-805 (2018).
[00646] 48. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).[00646] 48. J. Cao et al., Comprehensive single-cell transcriptional profiling of a multicellular organism. Science. 357, 661-667 (2017).
[00647] 49. A. Dobin et al., STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).[00647] 49. A. Dobin et al., STAR: ultrafast universal RNA-seq aligner. bioinformatics. 29, 15-21 (2013).
[00648] 50. P. Lindenbaum, JVarkit: java-based utilities for Bioinformatics. figshare (2015).[00648] 50. P. Lindenbaum, JVarkit: java-based utilities for Bioinformatics. figshare (2015).
[00649] 51. FelixKrueger, FelixKrueger/TrimGalore. GitHub, (доступна на https://github.com/FelixKrueger/TrimGalore).[00649] 51. FelixKrueger, FelixKrueger/TrimGalore. GitHub, (available at https://github.com/FelixKrueger/TrimGalore).
[00650] 52. H. Li et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25, 2078-2079 (2009).[00650] 52. H. Li et al., The Sequence Alignment/Map format and SAMtools. bioinformatics. 25, 2078-2079 (2009).
[00651] 53. Picard Tools - By Broad Institute, (доступна на http://broadinstitute.github.io/picard/).[00651] 53. Picard Tools - By Broad Institute, (available at http://broadinstitute.github.io/picard/).
[00652] 54. D. C. Koboldt et al., VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22, 568-576 (2012).[00652] 54. D. C. Koboldt et al., VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res. 22, 568-576 (2012).
[00653] 55. S. L. Wolock, R. Lopez, A. M. Klein, Scrublet: computational identification of cell doublets in single-cell transcriptomic data (2018),, doi:10.1101/357368.[00653] 55. S. L. Wolock, R. Lopez, A. M. Klein, Scrublet: computational identification of cell doublets in single-cell transcriptomic data (2018), doi:10.1101/357368.
[00654] 56. X. Qiu et al., Reversed graph embedding resolves complex single-cell trajectories. Nat. Methods. 14, 979-982 (2017).[00654] 56. X. Qiu et al., Reversed graph embedding resolves complex single-cell trajectories. Nat. methods. 14, 979-982 (2017).
[00655] 57. cole-trapnell-lab, cole-trapnell-lab/monocle-release. GitHub, (доступна на https://github.com/cole-trapnell-lab/monocle-release).\[00655] 57. cole-trapnell-lab, cole-trapnell-lab/monocle-release. GitHub, (available at https://github.com/cole-trapnell-lab/monocle-release).\
[00656] 58. J. Friedman, T. Hastie, R. Tibshirani, Regularization Paths for Generalized Linear Models via Coordinate Descent. J. Stat. Softw. 33 (2010),[00656] 58. J. Friedman, T. Hastie, R. Tibshirani, Regularization Paths for Generalized Linear Models via Coordinate Descent. J. Stat. softw. 33 (2010),
doi:10.18637/jss.v033.i01.doi:10.18637/jss.v033.i01.
[00657] 59. Dataset - ENCODE Transcription Factor Binding Site Profiles, (доступна на http://amp.pharm.mssm.edu/Harmonizome/dataset/ENCODE+Transcripti on+Factor+Binding+Site+Profiles).[00657] 59. Dataset - ENCODE Transcription Factor Binding Site Profiles, (available at http://amp.pharm.mssm.edu/Harmonizome/dataset/ENCODE+Transcription+Factor+Binding+Site+Profiles).
[00658] 60. raivokolde, raivokolde/pheatmap.GitHub, (доступна на https://github.com/raivokolde/pheatmap).[00658] 60. raivokolde, raivokolde/heatmap.GitHub, (available at https://github.com/raivokolde/heatmap).
[00659] 61. A. Rodriguez, A. Laio, Clustering by fast search and find of density peaks. Science. 344, 1492-1496 (2014).[00659] 61. A. Rodriguez, A. Laio, Clustering by fast search and find of density peaks. Science. 344, 1492-1496 (2014).
[00660] 62. keras-team, keras-team/keras. GitHub, (доступна на https://github.com/keras-team/keras[00660] 62. keras-team, keras-team/keras. GitHub, (available at https://github.com/keras-team/keras
[00661] Пример 4[00661] Example 4
[00662] Захват мультиплексного транскрипта[00662] Multiplex Transcript Capture
[00663] Большинство методов секвенирования РНК отдельных клеток выполняется при охвате от 15000 до 50000 уникальных ридов на клетку (Ziegenhain et al. 2017), тогда как общее содержание мРНК в отдельных клетках может варьироваться от 50000 до 300000 молекул (Marinov et al. 2014). Кроме того, в большинстве этих методов используются олиго(dT)-праймеры для обратной транскрипции (ОТ), и эти методы направлены на секвенирование у 3'-конца РНК. Это означает, что такие методы имеют ограниченные возможности для обнаружения изменений в численности любого данного транскрипта. Недавние исследования, в которых было охарактеризовано большое количество клеток (Gasperini et al. 2019; Cao et al. 2019), потребовали очень высокой глубины секвенирования, причем, запуск программ Illumina NovaSeq, использованных в этих исследованиях, стоит 30000 долларов каждая, что делает такие эксперименты недоступными для большинства ученых.[00663] Most single cell RNA sequencing methods are performed at a coverage of 15,000 to 50,000 unique reads per cell (Ziegenhain et al. 2017), while the total mRNA content in single cells can vary from 50,000 to 300,000 molecules (Marinov et al. 2014) . In addition, most of these methods use reverse transcription (RT) oligo(dT) primers and these methods aim at sequencing at the 3' end of the RNA. This means that such methods have limited ability to detect changes in the abundance of any given transcript. Recent studies characterizing large numbers of cells (Gasperini et al. 2019; Cao et al. 2019) have required very high sequencing depths, with the Illumina NovaSeq programs used in these studies costing $30,000 each to run, making such experiments inaccessible to most scientists.
[00664] Однако, в обоих случаях, количество операций считывания, необходимых для получения биологической информации из имеющихся данных, является относительно небольшим. При получении информации о некодирующих пертурбациях в отдельных клетках, анализ на изменение уровня экспрессии проводили только для генов, расположенных в цис-положении по отношению к регуляторному элементу, подвергнутому дизрупции (Xie et al. 2017; Gasperini et al. 2018). Хотя в экспериментах по созданию клеточного атласа, для кластеризации сходных клеток использовали общие паттерны экспрессии, однако, присвоение клеткам конкретных типов проводили с использованием небольшого числа ключевых генов факторов транскрипции. Таким образом, возможность получить данные считывания для транскриптов генов, которые являются наиболее информативными в этих экспериментах, позволяет значительно снизить необходимую глубину секвенирования и увеличить мощность анализа для обнаружения незначительных различий между клетками.[00664] However, in both cases, the number of read operations required to obtain biological information from the available data is relatively small. When obtaining information about noncoding perturbations in individual cells, analysis for changes in the expression level was performed only for genes located in the cis position relative to the disrupted regulatory element (Xie et al. 2017; Gasperini et al. 2018). Although common expression patterns were used in cell atlas experiments to cluster similar cells, assignment to specific cell types was performed using a small number of key transcription factor genes. Thus, the ability to obtain readout data for gene transcripts that are most informative in these experiments can significantly reduce the required sequencing depth and increase the power of analysis to detect minor differences between cells.
[00665] Авторы сосредоточили свое внимание на секвенирование отдельных клеток для идентификации представляющих интерес мРНК с использованием специфических ОТ-праймеров, а не олиго(dT)-праймеров. Подобный метод был недавно использован, в основном, для специфической последовательности всех известных стыков сплайсинга в дрожжах, что привело к 100-кратному обогащению областями-мишенями по сравнению с областями, не являющимися мишенями (Xu et al., 2018). Пул ОТ-праймеров, перекрывающих представляющие интерес транскрипты, позволяет сократить число считываний транскриптомной библиотеки (sci-PHK-seq) до сотен захваченных транскриптов на эксперимент.[00665] The authors focused on single cell sequencing to identify mRNAs of interest using specific RT primers rather than oligo(dT) primers. A similar method has recently been used to basically sequence-specific all known splice junctions in yeast, resulting in a 100-fold enrichment in target regions compared to non-target regions (Xu et al., 2018). A pool of RT primers that span the transcripts of interest reduces the number of transcriptome library (sci-PHK-seq) reads to hundreds of captured transcripts per experiment.
[00666] Эти манипуляции с sciPHK-seq имеют множество преимуществ по сравнению с олиго-(dT)-праймированием. Во-первых, эти манипуляции позволяют осуществлять прямое секвенирование областей генома, которые были определены авторами как наиболее информативные для каждого эксперимента. Во-вторых, они дают возможность осуществлять обратную транскрипцию каждой молекулы РНК в кДНК, что увеличивает вероятность детектирования на молекулу РНК. В-третьих, этот подход позволяет осуществлять нацеливание только на те ампликоны, которые были уникально картированы, и могут уменьшить фон рибосомных ридов в большей степени, чем альтернативые методы с использованием рандомизированного гексамера или олиго(dT)-праймирования. В-четвертых, это позволяет осуществлять нацеливание на информативные области мРНК, такие как области стыка сплайсинга и экзоны, образующиеся в результате альтернативных событий в сайтах инициации транскрипции, и таким образом получить информацию об изоформе, которую нелегко обнаружить с помощью обычного sciPHK-seq.[00666] These sciPHK-seq manipulations have many advantages over oligo-(dT)-priming. First, these manipulations allow for direct sequencing of genome regions that were identified by the authors as the most informative for each experiment. Secondly, they allow reverse transcription of each RNA molecule into cDNA, which increases the probability of detection per RNA molecule. Third, this approach allows targeting only those amplicons that have been uniquely mapped and can reduce the background of ribosomal reads to a greater extent than alternative methods using randomized hexamer or oligo(dT)-priming. Fourth, it allows targeting of informative regions of mRNA, such as splicing junctions and exons resulting from alternative events at transcription initiation sites, and thus obtain isoform information that is not easily detected using conventional sciRNA-seq.
[00667] sciPHK-seq идеально подходит для модификации несколькими ОТ-праймерами. В большинстве методов PHK-seq для отдельных клеток используются сферы, связанные с уникальными олиго-идентификаторами, для введения штрих-кодов, идентифицирующих клетки, в транскриптом каждой клетки, обычно путем захвата мРНК посредством гибридизации с их поли(А)-хвостом. Хотя такие сферы были модифицированы для добавления небольшого количества специфических ОТ-праймеров в целях увеличения охвата нескольких транскриптов (Saikia et al. 2018), однако, эту стратегию будет трудно масштабировать до сотен транскриптов-мишеней или сделать быстрые замены между экспериментами. Таким образом, адаптивность комбинаторной индексации отдельных клеток будет полезной при разработке мультиплексного ОТ-секвенирования PHK-seq в отдельных клетках.[00667] sciPHK-seq is ideal for modification with multiple OT primers. Most single-cell RNA-seq methods use spheres associated with unique oligo-identifiers to introduce cell-identifying barcodes into each cell's transcriptome, typically by capturing mRNA via hybridization to their poly(A) tail. Although such spheres have been modified to add a small number of specific RT primers in order to increase the coverage of multiple transcripts (Saikia et al. 2018), however, this strategy will be difficult to scale up to hundreds of target transcripts or make quick swaps between experiments. Thus, the adaptability of combinatorial indexing of single cells will be useful in the development of multiplex RT-sequencing of RNA-seq in single cells.
[00668] Рабочая схема для этого аспекта аналогична трехуровневому протоколу sciPHK-seq, описанному в Примерах 1 и 3, но в некоторых вариантах, она не включает стадию ОТ.[00668] The workflow for this aspect is similar to the three-layer sciPHK-seq protocol described in Examples 1 and 3, but in some embodiments, it does not include an OT step.
[00669] 1. Конструирование пула От-праймеров. В одном аспекте, эти праймеры будут синтезированы отдельно, а затем объединены. Для нацеливания на >384 ампликонов может быть синтезирована библиотека праймеров, амплифицированных в виде двухцепочечной ДНК с последующей обработкой для получения одноцепочечных праймеров, как описано в литературе (Xu et al. 2018). Эта вторая стратегия позволяет добавлять множество уникальных индексов к ОТ-праймерам (что позволяет индексировать sciPHK-seq при ОТ и конечной ПЦР).[00669] 1. Construction of a pool of OT primers. In one aspect, these primers will be synthesized separately and then combined. To target >384 amplicons, a library of primers amplified as double-stranded DNA can be synthesized, followed by processing to obtain single-stranded primers as described in the literature (Xu et al. 2018). This second strategy allows multiple unique indexes to be added to the RT primers (allowing sciPHK-seq to be indexed in RT and final PCR).
[00670] 2. Проведение мультиплексной ОТ с использованием пула праймеров. Эта реакция может представлять собой либо отдельную реакцию с тысячами клеток (если на этой стадии не проводили индексирование), либо множество параллельных реакций, которые будут добавлять в высокой степени специфический индекс при обратной транскрипции.[00670] 2. Conducting multiplex OT using primer pool. This reaction can either be a single reaction with thousands of cells (if indexing was not performed at that stage) or multiple parallel reactions that will add a highly specific index on reverse transcription.
[00671] 3. Лигирование шпилечного адаптера для добавления индекса, специфичного для лунки.[00671] 3. Ligation of the hairpin adapter to add a well-specific index.
[00672] 4. Объединение всех клеток и проведение синтеза второй цепи.[00672] 4. Combining all cells and performing second strand synthesis.
[00673] 5. Распределение клеток по множеству лунок и проведение мечения для добавления второго постоянного ПЦР-фрагмента.[00673] 5. Allocation of cells to a plurality of wells and labeling to add a second persistent PCR fragment.
[00674] 6. ПЦР-амплификация, добавление конечного индекса, специфичного для лунки.[00674] 6. PCR amplification, addition of a well-specific final index.
[00675] 7. Секвенирование.[00675] 7. Sequencing.
[00676] Рабочая схема конструирования праймера:[00676] Primer construction workflow:
[00677] 1. Сбор последовательностей для всех экзонов из генов-мишеней.[00677] 1. Collection of sequences for all exons from target genes.
[00678] 2. Компьютерный анализ всех возможных ОТ-праймеров размером в 25 п.о.[00678] 2. Computer analysis of all possible 25 bp RT primers.
[00679] 3. Фильтрация ОТ-праймеров-кандидатов по:[00679] 3. Filtering candidate RT primers by:
[00680] а. содержанию GC 40-60%, соответствующему температурам плавления приблизительно от 55 до 70 градусов.[00680] a. a GC content of 40-60% corresponding to melting points of approximately 55 to 70 degrees.
[00681] b. по меньшей мере по 2 G или С в последних 5 нуклеотидах праймера для повышения вероятности того, что гибридизованный ОТ-праймер будет хорошим субстратом для удлинения под действием фермента обратной транскриптазы.[00681] b. at least 2 Gs or Cs in the last 5 nucleotides of the primer to increase the likelihood that the hybridized RT primer will be a good substrate for reverse transcriptase enzyme extension.
[00682] с. вероятности нецелевого праймирования. В первом эксперименте согласно изобретению, авторы обнаружили, что хотя гены-мишени согласно изобретению были в высокой степени обогащены, однако, большая часть ридов все еще происходила от других РНК, которые присутствуют в клетках в избыточном количестве. Большинство из этих событий нецелевого праймирования были результатом ~ 5-8 п.о. - комплементарности между 3'-концом праймера и РНК, не являющейся мишенью. Таким образом, разработанный авторами алгоритм конструирования праймера был сделан с учетом избытка конечного гексамера ОТ-праймера в общей клеточной РНК. Авторами были включены только те ОТ-праймеры, в которых этот последний гексамер:[00682] p. probabilities of non-target priming. In the first experiment according to the invention, the authors found that although the target genes according to the invention were highly enriched, however, most of the reads still came from other RNAs that are present in cells in excess. Most of these non-targeted priming events were the result of ~5-8 bp. - complementarity between the 3' end of the primer and the non-target RNA. Thus, the primer design algorithm developed by the authors was made taking into account the excess of the final hexamer of the RT primer in total cellular RNA. The authors included only those OT primers in which this last hexamer:
[00683] i. Вообще не присутствует в рибосомной РНК. Этот гексамер происходит от серии описанных ранее гексамеров, которые «не были рандомизированы соответствующий образом, или гексамеров NSR (Armour et al. 2009). Праймеры, которые проходят через этот фильтр, с гораздо меньшей вероятностью будут нецелевыми праймерами в рибосомной РНК.[00683] i. Generally not present in ribosomal RNA. This hexamer is derived from a series of previously described hexamers that “have not been appropriately randomized, or NSR hexamers (Armour et al. 2009). Primers that pass through this filter are much less likely to be non-target primers in ribosomal RNA.
[00684] ii. Присутствует в общей клеточной РНК в низком количестве. Авторы подсчитали количество всех 4096 возможных гексамеров в ридах PRO-seq, картированных по человеческому геному (Core et al., 2014). PRO-seq позволяет измерить все возрастающую транскрипцию в клетках, включая рибосомную транскрипцию. Авторами были использованы только ОТ-праймеры, которые заканчиваются гексамерами, присутствующими в нижнем квартиле избытка в этом наборе данных. Это позволяет сохранить несколько гексамеров, которые, хотя и присутствуют в рибосомной РНК, но встречаются в клетках не так часто, как РНК.[00684] ii. Present in total cellular RNA in low amounts. The authors counted all 4096 possible hexamers in PRO-seq reads mapped by the human genome (Core et al., 2014). PRO-seq measures increasing transcription in cells, including ribosomal transcription. The authors used only OT primers that end in hexamers present in the lower quartile of excess in this data set. This makes it possible to preserve several hexamers, which, although present in ribosomal RNA, are not as common in cells as RNA.
[00685] Этот фильтр избыточного содержания резко изменяет выбор праймера. Наблюдается только ~ 17% перекрывание между праймерами, выбранными с помощью алгоритма потокового типа согласно изобретению в присутствии или в отсутствии этого фильтра. В будущем, варианты разработанного авторами алгоритма конструирования потокового типа позволят улучшить фильтрацию объектов, не являющихся мишенью. По мере сбора данных для большего числа праймеров, авторы должны иметь возможность оценивать большее число нецелевых событий праймирования.[00685] This excess content filter drastically changes primer selection. There is only ~17% overlap between primers selected using the streaming type algorithm of the invention in the presence or absence of this filter. In the future, variants of the flow type construction algorithm developed by the authors will improve the filtering of non-target objects. As data are collected for more primers, authors should be able to evaluate more non-target priming events.
[00686] 4. Фильтрация кандидатов по картируемости. Авторы выравнивали каждого кандидата по hgl9 с использованием программы «галстук-бабочка», что позволило определить 3 несоответствия. Эта стадия гарантирует, что каждый праймер будет иметь только один сайт-мишень в геноме.[00686] 4. Candidate filtering by mapability. The authors aligned each candidate for hgl9 using a bow tie program, which allowed 3 mismatches to be identified. This step ensures that each primer has only one target site in the genome.
[00687] 5. Выбор из возможных праймеров, которые прошли через эти фильтры, набора, который наиболее равномерно располагается по всему гену.[00687] 5. Selecting from the candidate primers that have passed through these filters, the set that is most evenly distributed throughout the gene.
[00688] Для каждого гена, на который осуществляется нацеливание, авторы решают, сколько необходимо сконструировать праймеров на один экзон. Авторами был включен первый и последний праймер, которые проходят фильтры для каждого экзона, а затем были собраны внутренние праймеры, которые наиболее равномерно покрывают экзон, путем минимизации расстояния от положений праймеров, которые бы точно разделяли экзон на n кусков.[00688] For each gene that is targeted, the authors decide how many primers to design per exon. The authors included the first and last primers that pass the filters for each exon, and then assembled the inner primers that most evenly cover the exon by minimizing the distance from the primer positions that would accurately divide the exon into n chunks.
[00689] Так, например, для экзона с 300 п. о., где авторы провели поиск 3 праймеров, были взяты праймеры, наиболее близкие к положениям 1, 150 и 300, которые прошли все фильтры до этой точки.[00689] So, for example, for the 300 bp exon, where the authors searched for 3 primers, the primers closest to
[00690] 6. Для данного пилотного эксперимента, ОТ-праймеры были упорядочены в 384-луночных планшетах и объединены для создания эквимолярной смеси всех праймеров. Затем эту смесь фосфорилировали полинуклеотид-киназой Т4 для лигирования индексированного шпилечного олигонуклеотида во время создания библиотеки sciPHK-seq (Cao et al., 2019). Это гораздо более выгодно, чем заказывать фосфорилированные олигонуклеотиды. OT-праймеры в 2 5 п. о. также добавляют уникальный молекулярный идентификатор (UMI) в 8 п. о. и фрагменты в 6 п. о. для отжига шпилечного олигонуклеотида, который добавляет специфический для лунки индекс (для комбинаторной индексации) и ПЦР-фрагмент.[00690] 6. For this pilot experiment, the RT primers were ordered in 384-well plates and pooled to create an equimolar mixture of all primers. This mixture was then phosphorylated with T4 polynucleotide kinase to ligate the indexed hairpin oligonucleotide during the creation of the sciRNA-seq library (Cao et al., 2019). This is much more advantageous than ordering phosphorylated oligonucleotides. OT primers in 2 5 p. also add a unique molecular identifier (UMI) in 8 bp. and fragments in 6 p. to anneal a hairpin oligonucleotide that adds a well-specific index (for combinatorial indexing) and a PCR fragment.
[00691] Этот процесс может быть итеративным, когда каждый ОТ-праймер заказывается отдельно: более низкое нецелевое отношение было достигнуто в более поздних экспериментах путем селективного повторного объединения праймеров, которые, как было обнаружено, имеют благоприятные скорости захвата в первом эксперименте. Каждый рид для секвенирования Illumina охватывает ОТ-праймер 25 п. о. и захваченную молекулу РНК, что позволяет картировать ОТ-праймеры и захваченные молекулы отдельно для вычисления скорости нацеливания для каждого праймера.[00691] This process can be iterative, with each RT primer ordered separately: a lower off-target ratio was achieved in later experiments by selectively recombining primers found to have favorable uptake rates in the first experiment. Each Illumina sequencing read covers a 25 bp RT primer. and a captured RNA molecule, allowing RT primers and captured molecules to be mapped separately to calculate the targeting rate for each primer.
[00692] Более поздние раунды могут включать больше ОТ-праймеров путем их синтеза в массиве. Библиотека праймеров может быть размножена с помощью ПЦР и сделана одноцепочечной путем селективной экзонуклеолитической деградации цепи, которая не включает блокирующую группу в ПЦР-праймере (Xu et al., 2018). Большой массив можно использовать для синтеза нескольких пулов праймеров: если каждый пул имеет специфический ПЦР-фрагмент, то один массив может быть использован для получения десятков пулов из тысяч праймеров, каждый из которых может быть селективно амплифицирован.[00692] Later rounds can include more OT primers by synthesizing them in an array. The primer library can be propagated by PCR and made single stranded by selective exonucleolytic strand degradation that does not include a blocking group in the PCR primer (Xu et al., 2018). A large array can be used to synthesize several pools of primers: if each pool has a specific PCR fragment, then one array can be used to generate tens of pools of thousands of primers, each of which can be selectively amplified.
[00693] Мультиплексная обратная транскрипция:[00693] Multiplex reverse transcription:
[00694] Мультиплексный захват мишени может быть осуществлен в несколько стадий в соответствии с протоколом создания библиотеки PHK-seq. Однако авторы считают, что обратную транскрипцию легче всего проводить параллельно. В высокой степени мультиплексные ПЦР-реакции редко бывают успешными. Реакции ПЦР включают множество (10-20) циклов. Это означает, что проблемы с нецелевым отжигом усугубляются после экспоненциального роста во время этих циклов, которые часто опережают циклы целевого отжига. В мультиплексной ПЦР, для каждой мишени получают два специфических ПЦР-праймера. Цель состоит в том, чтобы эти два праймера специфически амплифицировали только свою мишень. Однако, в большом пуле праймеров будет несколько комбинаций, которые гибридизуются с другими праймерами, присутствующими в пуле. Поскольку концентрация праймеров намного выше, чем концентрация молекул матрицы, то эти димеры праймеров будут доминировать в пуле к концу ПЦР. Невозможность осуществления в высокой степени мультиплексной ПЦР является причиной того, что многие целевые протоколы амплификации, такие как секвенирование экзома, часто используют молекулярные инверсионные зонды для захвата мишеней (Hiatt et al. 2013). В таких протоколах, специфичность к мишени достигается с помощью одной стадии отжига между зондом и мишенью. Целевые специфические зонды добавляют ПЦР-фрагменты, которые затем используются в общей целевой ПЦР-амплификации. Методы комбинаторной индексации в одной клетке основаны на индексации в несколько стадий во время создания библиотеки: метод инверсионного зонда для захвата мишеней из кДНК не позволяет выполнить достаточное количество стадий индексации.[00694] Multiplex target capture can be carried out in several stages in accordance with the protocol for creating a PHK-seq library. However, the authors believe that reverse transcription is most easily carried out in parallel. Highly multiplex PCR reactions are rarely successful. PCR reactions include many (10-20) cycles. This means that problems with off-target annealing are exacerbated after exponential growth during these cycles, which often outpace targeted annealing cycles. In multiplex PCR, two specific PCR primers are prepared for each target. The goal is for these two primers to specifically amplify only their target. However, in a large primer pool there will be several combinations that hybridize with other primers present in the pool. Since the concentration of primers is much higher than the concentration of template molecules, these primer dimers will dominate the pool by the end of the PCR. The inability to perform highly multiplexed PCR is the reason why many targeted amplification protocols, such as exome sequencing, often use molecular inversion probes to capture targets (Hiatt et al. 2013). In such protocols, target specificity is achieved with a single annealing step between probe and target. Target specific probes add PCR fragments, which are then used in the overall target PCR amplification. Single-cell combinatorial indexing methods rely on indexing in several steps during library creation: the inversion probe method for capturing targets from cDNA does not allow for a sufficient number of indexing steps.
[00695] Для захвата мультиплексной мишени авторы использовали специфический праймер обратной транскрипции, после чего проводили ПЦР-реакцию, которая амплифицирует все молекулы, подвергаемые обратной транскрипции. Таким образом, стратегия авторов аналогична использованию зондов молекулярной инверсии для целевой амплификации ДНК: одна стадия (обратная транскрипция) избирательно нацеливается на представляющие интерес транскрипты и добавляет общий ПЦР-фрагмент, который может быть использован для амплификации всех молекул-мишеней во время ПЦР. Таким образом, высокая специфичность при обратной транскрипции играет очень важную роль. Поддержание высокой температуры после отжига ОТ-праймеров облегчает мультиплексное специфическое праймирование. Обычные протоколы обратной транскрипции включают денатурацию смеси РНК и праймера обратной транскрипции и охлаждение до 4 градусов для обеспечения отжига. Эта низкая температура отжига является слишком мягкой для событий нецелевого отжига. Авторы должны убедиться, что единственными событиями отжига, которые могут быть расширены, являются события, для которых все в высокой степени оспецифичные ОТ-праймеры, разработанные авторами, нашли свои мишени. Таким образом, авторы поддерживали высокую температуру в течение осуществления всего протокола, как и в других мультиплексных методах специфической обратной транскрипции (Xu et al. 2018). Авторами была проведена денатурация смеси фиксированных клеток, пула ОТ-праймеров и dNTP при 65°С, отжиг при 53°С, а затем добавление смеси фермента/буфера для обратной транскрипции, которую предварительно уравновешивали при 53°С, для проведения реакции отжига, а затем проводили цикл удлинения при 53°С в течение 20 минут. Таким образом, ОТ-праймеры не имели возможности осуществлять отжиг при низкой температуре между стадиями денатурации и удлинения.[00695] To capture the multiplex target, the authors used a specific reverse transcription primer, after which they performed a PCR reaction that amplifies all molecules subjected to reverse transcription. Thus, the authors' strategy is similar to using molecular inversion probes for targeted DNA amplification: one step (reverse transcription) selectively targets transcripts of interest and adds a common PCR fragment that can be used to amplify all target molecules during PCR. Thus, high specificity in reverse transcription plays a very important role. Maintaining a high temperature after annealing the RT primers facilitates multiplex specific priming. Common reverse transcription protocols include denaturing the mixture of RNA and reverse transcription primer and cooling to 4 degrees to allow for annealing. This low annealing temperature is too mild for non-target annealing events. Authors should ensure that the only annealing events that can be extended are events for which all of the highly specific RT primers developed by the authors have found their targets. Thus, the authors maintained a high temperature throughout the entire protocol, as in other multiplex specific reverse transcription methods (Xu et al. 2018). The authors denatured a mixture of fixed cells, a pool of RT primers and dNTP at 65°C, annealed at 53°C, and then added a mixture of enzyme/reverse transcription buffer, which was pre-equilibrated at 53°C, to carry out the annealing reaction, and then an extension cycle was carried out at 53° C. for 20 minutes. Thus, the RT primers were unable to anneal at low temperature between the denaturation and extension steps.
[00696] Остальные стадии этого метода соответствуют методам, описанным в Примерах 1 и 3. Шпилечный адаптер лигируют in situ с добавлением клеточного индекса. Клетки объединяют, промывают и распределяют по новым лункам для проведения последней стадии индексации. В этих лунках проводят синтез второй цепи. Затем, двухцепочечную кДНК метят с добавлением второго общего ПЦР-фрагмента (первый фрагмент получают путем лигирования, а второй путем мечения). ДНК выделяют из клеток путем связывания со сферами Ampure, а затем проводят ПЦР с добавлением второго индекса.[00696] The remaining steps of this method correspond to the methods described in Examples 1 and 3. The hairpin adapter is ligated in situ with the addition of a cell index. Cells are pooled, washed and distributed to new wells for the final indexing step. These wells carry out the synthesis of the second chain. Then, the double-stranded cDNA is labeled with the addition of a second common PCR fragment (the first fragment is obtained by ligation and the second by labeling). DNA is isolated from cells by binding to Ampure spheres followed by PCR with the addition of a second index.
[00697] Предварительные результаты:[00697] Preliminary results:
[00698] Все результаты, представленные на фиг. 40-42, получены из общей библиотеки (без комбинаторного индексирования отдельных клеток) in situ (все стадии осуществляют в ядрах, фиксированных параформальдегидом), полученной с использованием пула ОТ-праймеров, нацеленных на гены в локусе LMO2 в клетках К562.[00698] All results shown in FIG. 40-42 are derived from a total library (no single cell combinatorial indexing) in situ (all steps performed in paraformaldehyde-fixed nuclei) generated using a pool of RT primers targeting genes at the LMO2 locus in K562 cells.
[00699] Библиография:[00699] Bibliography:
[00700] Armour, Christopher D., John С.Castle, Ronghua Chen, Tomas Babak, Patrick Loerch, Stuart Jackson, Jyoti K. Shah, et al. 2009. "Digital Transcriptome Profiling Using Selective Hexamer Priming for cDNA Synthesis." Nature Methods 6 (9): 647-49.[00700] Armour, Christopher D., John C. Castle, Ronghua Chen, Tomas Babak, Patrick Loerch, Stuart Jackson, Jyoti K. Shah, et al. 2009. "Digital Transcriptome Profiling Using Selective Hexamer Priming for cDNA Synthesis." Nature Methods 6(9): 647-49.
[00701] Cao, Junyue, Malte Spielmann, Xiaojie Qiu, Xingfan Huang, Daniel M. Ibrahim, Andrew J. Hill, Fan Zhang, et al. 2019. "The Single-Cell Transcriptional Landscape of Mammalian Organogenesis." Nature 566 (7745): 496-502.[00701] Cao, Junyue, Malte Spielmann, Xiaojie Qiu, Xingfan Huang, Daniel M. Ibrahim, Andrew J. Hill, Fan Zhang, et al. 2019. "The Single-Cell Transcriptional Landscape of Mammalian Organogenesis." Nature 566 (7745): 496-502.
[00702] Core, Leighton J., Andre L. Martins, Charles G. Danko, Colin T. Waters, Adam Siepel, and John T. Lis. 2014. "Analysis of Nascent RNA Identifies a Unified Architecture of Initiation Regions at Mammalian Promoters and Enhancers." Nature Genetics 46 (12): 1311-20.[00702] Core, Leighton J., Andre L. Martins, Charles G. Danko, Colin T. Waters, Adam Siepel, and John T. Lis. 2014. "Analysis of Nascent RNA Identifies a Unified Architecture of Initiation Regions at Mammalian Promoters and Enhancers." Nature Genetics 46(12): 1311-20.
[00703] Gasperini, Molly, Andrew J. Hill, Jose L. McFaline-Figueroa, Beth Martin, Seungsoo Kim, Melissa D. Zhang, Dana Jackson, et al. 2019. "A Genome-Wide Framework for Mapping Gene Regulation via Cellular Genetic Screens." Cell 176 (6): 1516.[00703] Gasperini, Molly, Andrew J. Hill, Jose L. McFaline-Figueroa, Beth Martin, Seungsoo Kim, Melissa D. Zhang, Dana Jackson, et al. 2019. "A Genome-Wide Framework for Mapping Gene Regulation via Cellular Genetic Screens." Cell 176(6): 1516.
[00704] Gasperini, Molly, Andrew Hill, Jose L. McFaline-Figueroa, Beth Martin, Cole Trapnell, Nadav Ahituv, and Jay Shendure. 2018. "crisprQTL Mapping as a Genome-Wide Association Framework for Cellular Genetic Screens." bioRxiv. https://doi.org/10.1101/314344.[00704] Gasperini, Molly, Andrew Hill, Jose L. McFaline-Figueroa, Beth Martin, Cole Trapnell, Nadav Ahituv, and Jay Shendure. 2018. "crisprQTL Mapping as a Genome-Wide Association Framework for Cellular Genetic Screens." bioRxiv. https://doi.org/10.1101/314344.
[00705] Hiatt, Joseph В., Colin C. Pritchard, Stephen J. Salipante, Brian J. O'Roak, and Jay Shendure. 2013. "Single Molecule Molecular Inversion Probes for Targeted, High-Accuracy Detection of Low-Frequency Variation." Genome Research 23 (5): 843-54.[00705] Hiatt, Joseph B., Colin C. Pritchard, Stephen J. Salipante, Brian J. O'Roak, and Jay Shendure. 2013. "Single Molecule Molecular Inversion Probes for Targeted, High-Accuracy Detection of Low-Frequency Variation." Genome Research 23(5): 843-54.
[00706] Marinov, Georgi K., Brian A. Williams, Ken McCue, Gary P. Schroth, Jason Gertz, Richard M. Myers, and Barbara J. Wold. 2014. "From Single-Cell to Cell-Pool Transcriptomes: Stochasticity in Gene Expression and RNA Splicing." Genome Research 24 (3): 496-510.[00706] Marinov, Georgi K., Brian A. Williams, Ken McCue, Gary P. Schroth, Jason Gertz, Richard M. Myers, and Barbara J. Wold. 2014. "From Single-Cell to Cell-Pool Transcriptomes: Stochasticity in Gene Expression and RNA Splicing." Genome Research 24(3): 496-510.
[00707] Saikia, Mridusmita, Philip Burnham, Sara H. Keshavjee, Michael F. Z. Wang, Pablo Moral-Lopez, Meleana M. Hinchman, Charles G. Danko, John S. L. Parker, and Iwijn De Vlaminck. 2018. "Simultaneous Multiplexed Amplicon Sequencing and Transcriptome Profiling in Single Cells." bioRxiv. https://doi.org/10.1101/328328.[00707] Saikia, Mridusmita, Philip Burnham, Sara H. Keshavjee, Michael F. Z. Wang, Pablo Moral-Lopez, Meleana M. Hinchman, Charles G. Danko, John S. L. Parker, and Iwijn De Vlaminck. 2018. "Simultaneous Multiplexed Amplicon Sequencing and Transcriptome Profiling in Single Cells." bioRxiv. https://doi.org/10.1101/328328.
[00708] Xie, Shiqi, Jialei Duan, Boxun Li, Pei Zhou, and Gary C. Hon. 2017. "Multiplexed Engineering and Analysis of Combinatorial Enhancer Activity in Single Cells." Molecular Cell 66 (2): 285-99.e5.[00708] Xie, Shiqi, Jialei Duan, Boxun Li, Pei Zhou, and Gary C. Hon. 2017. "Multiplexed Engineering and Analysis of Combinatorial Enhancer Activity in Single Cells." Molecular Cell 66(2): 285-99.e5.
[00709] Xu, Hansen, Benjamin J. Fair, Zach Dwyer, Michael Gildea, and Jeffrey A. Pleiss. 2018. "Multiplexed Primer Extension Sequencing Enables High Precision Detection of Rare Splice Isoforms." bioRxiv. https://doi.org/10.1101/331629.[00709] Xu, Hansen, Benjamin J. Fair, Zach Dwyer, Michael Gildea, and Jeffrey A. Pleiss. 2018. "Multiplexed Primer Extension Sequencing Enables High Precision Detection of Rare Splice Isoforms." bioRxiv. https://doi.org/10.1101/331629.
[00710] Ziegenhain, Christoph, Beate Vieth, Swati Parekh, Bjorn Reinius, Amy Guillaumet-Adkins, Martha Smets, Heinrich Leonhardt, Holger Heyn, Ines Hellmann, and Wolfgang Enard. 2017. "Comparative Analysis of Single-Cell RNA Sequencing Methods." Molecular Cell 65 (4): 631-43.e4.[00710] Ziegenhain, Christoph, Beate Vieth, Swati Parekh, Bjorn Reinius, Amy Guillaumet-Adkins, Martha Smets, Heinrich Leonhardt, Holger Heyn, Ines Hellmann, and Wolfgang Enard. 2017. "Comparative Analysis of Single-Cell RNA Sequencing Methods." Molecular Cell 65(4): 631-43.e4.
[00711] Полное раскрытие всех цитируемых здесь патентов, патентных заявок и публикаций, а также материалов, доступных в электронной форме (включая, например, представление нуклеотидных последовательностей, например, в GenBank и RefSeq, и представление аминокислотных последовательностей, например, в SwissProt, PIR, PRF, PDB, и трансляции из аннотированных кодирующих областей в GenBank и RefSeq), включено в настоящее описание посредством ссылки в полном объеме. Дополнительные материалы, цитируемые в публикациях (такие как дополнительные таблицы, дополнительные чертежи, дополнительные материалы и методы и/или дополнительные экспериментальные данные), также включены в настоящее описание посредством ссылки в полном объеме. В случае, если существует какое-либо несоответствие между раскрытием настоящей заявки и раскрытием(ями) любого документа, включенного в настоящую заявку посредством ссылки, следует отдать предпочтение описанию настоящей заявки. Вышеизложенное подробное описание и примеры приведены лишь для лучшего понимания изобретения. Однако, они не должны рассматриваться как ограничение объема изобретения. Раскрытие настоящего изобретения не ограничивается конкретными представленными и описанными здесь деталями, поскольку для специалиста в данной области очевидно, что в настоящее изобретение могут быть включены изменения, определенные формулой изобретения.[00711] Full disclosure of all patents, patent applications and publications cited herein, as well as materials available in electronic form (including, for example, representation of nucleotide sequences, for example, in GenBank and RefSeq, and representation of amino acid sequences, for example, in SwissProt, PIR , PRF, PDB, and translations from the annotated coding regions in GenBank and RefSeq) are incorporated herein by reference in their entirety. Additional materials cited in publications (such as additional tables, additional drawings, additional materials and methods, and/or additional experimental data) are also incorporated herein by reference in their entirety. In the event that there is any inconsistency between the disclosure of this application and the disclosure(s) of any document incorporated in this application by reference, the description of this application should take precedence. The foregoing detailed description and examples are provided only for a better understanding of the invention. However, they should not be construed as limiting the scope of the invention. The disclosure of the present invention is not limited to the specific details presented and described here, since it is obvious to a person skilled in the art that changes defined by the claims may be included in the present invention.
[00712] Если это не оговорено особо, то все числа, выражающие количества компонентов, молекулярные массы и т.п., используемые в описании и формуле изобретения, во всех случаях следует понимать как «приблизительные». В соответствии с этим, если это не оговорено особо, то числовые параметры, представленные в описании и в формуле изобретения, являются приблизительными значениями, которые могут варьироваться в зависимости от желаемых свойств, которые должны быть достигнуты в настоящем изобретении. Каждый числовой параметр должен рассматриваться по меньшей мере как число, обозначаемое значащими цифрами с применением обычных методов округления, но, тем не менее, он не должен интерпретироваться как попытка ограничить доктрину эквивалентов объемом формулы изобретения.[00712] Unless otherwise stated, all numbers expressing amounts of components, molecular weights, and the like used in the specification and claims are to be understood as "approximate" in all cases. Accordingly, unless otherwise stated, the numerical parameters presented in the description and in the claims are approximate values that may vary depending on the desired properties to be achieved in the present invention. Each numerical parameter should be considered at least as a number denoted by significant figures using the usual methods of rounding, but, nevertheless, it should not be interpreted as an attempt to limit the doctrine of equivalents to the scope of the claims.
[00713] Несмотря на то, что числовые интервалы и параметры, определяющие широкий объем раскрытия изобретения, являются приблизительными, однако, числовые значения, указанные в конкретных примерах, сообщаются с максимально возможной точностью. При этом, все числовые значения, по своей сути содержат интервал, который обязательно является результатом стандартного отклонения, обнаруживаемого в их соответствующих экспериментальных измерениях.[00713] Although the numerical ranges and parameters defining the broad scope of the disclosure of the invention are approximate, however, the numerical values indicated in specific examples are reported with the greatest possible accuracy. That being said, all numerical values inherently contain an interval that is necessarily the result of the standard deviation found in their respective experimental measurements.
[00714] Все заголовки представлены для удобства читателя и не должны рассматриваться как ограничение смысла текста, следующего за заголовком, если это не оговорено особо.[00714] All headings are presented for the convenience of the reader and should not be construed as limiting the meaning of the text following the heading unless otherwise noted.
--->--->
СПИСОК ПОСЛЕДОВАТЕЛЬНОСТЕЙ SEQUENCE LIST
<110> ILLUMINA, INC.<110> ILLUMINA, INC.
UNIVERSITY OF WASHINGTON UNIVERSITY OF WASHINGTON
<120> КРУПНОМАСШТАБНЫЕ МОНОКЛЕТОЧНЫЕ БИБЛИОТЕКИ ТРАНСКРИПТОМОВ <120> LARGE-SCALE MONOCELLULAR TRANSCRIPTOME LIBRARIES
И СПОСОБЫ ИХ ПОЛУЧЕНИЯ И ПРИМЕНЕНИЯ AND METHODS OF THEIR OBTAINING AND APPLICATION
<130> IP-1722-PCT<130> IP-1722-PCT
<140> PCT/US2019/035422<140> PCT/US2019/035422
<141> 2019-06-04<141> 2019-06-04
<150> 62/821,678<150> 62/821.678
<151> 2019-03-21<151> 2019-03-21
<150> 62/680,259<150> 62/680.259
<151> 2018-06-04<151> 2018-06-04
<160> 11 <160> 11
<170> PatentIn version 3.5<170>PatentIn version 3.5
<210> 1<210> 1
<211> 54<211> 54
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<220><220>
<221> modified_base<221> modified_base
<222> (7)..(24)<222> (7)..(24)
<223> a, c, t, g, неизвестные или другие<223> a, c, t, g, unknown or other
<400> 1<400> 1
cagagcnnnn nnnnnnnnnn nnnntttttt tttttttttt tttttttttt tttt 54cagagcnnnn nnnnnnnnnn nnnntttttt tttttttttt tttttttttt tttt 54
<210> 2<210> 2
<211> 45<211> 45
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательност: синтетический<223> Synthetic sequence description: synthetic
олигонуклеотид oligonucleotide
<220><220>
<223> Описание Combined ДНК/RNA Molecule: синтетический<223> Description of Combined DNA/RNA Molecule: Synthetic
олигонуклеотид oligonucleotide
<220><220>
<221> modified_base<221> modified_base
<222> (7)..(16)<222> (7)..(16)
<223> a, c, t, g, неизвестные или другие<223> a, c, t, g, unknown or other
<220><220>
<221> misc_feature<221> misc_feature
<222> (7)..(16)<222> (7)..(16)
<223> Эта область может включать 9-10 оснований <223> This area can include 9-10 bases
<220><220>
<221> modified_base<221> modified_base
<222> (36)..(45)<222> (36)..(45)
<223> a, c, t, g, неизвестные или другие<223> a, c, t, g, unknown or other
<220><220>
<221> misc_feature<221> misc_feature
<222> (36)..(45)<222> (36)..(45)
<223> Эта область может включать 9-10 оснований<223> This area can include 9-10 bases
<400> 2<400> 2
gctctgnnnn nnnnnnuacg acgctcttcc gatctnnnnn nnnnn 45gctctgnnnn nnnnnnuacg acgctcttcc gatctnnnnn nnnnn 45
<210> 3<210> 3
<211> 29<211> 29
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 3<400> 3
aatgatacgg cgaccaccga gatctacac 29aatgatacgg cgaccaccga gatctacac 29
<210> 4<210> 4
<211> 24<211> 24
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 4<400> 4
caagcagaag acggcatacg agat 24caagcagaag acggcatacg agat 24
<210> 5<210> 5
<211> 68<211> 68
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<220><220>
<221> modified_base<221> modified_base
<222> (19)..(36)<222> (19)..(36)
<223> a, c, t, g, неизвестные или другие<223> a, c, t, g, unknown or other
<220><220>
<221> modified_base<221> modified_base
<222> (68)..(68)<222> (68)..(68)
<223> a, c, t, g, неизвестные или другие<223> a, c, t, g, unknown or other
<400> 5<400> 5
acgacgctct tccgatctnn nnnnnnnnnn nnnnnntttt tttttttttt tttttttttt 60acgacgctct tccgatctnn nnnnnnnnnn nnnnnntttt tttttttttt tttttttttt 60
ttttttvn 6868
<210> 6<210> 6
<211> 29<211> 29
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 6<400> 6
aatgatacgg cgaccaccga gatctacac 29aatgatacgg cgaccaccga gatctacac 29
<210> 7<210> 7
<211> 24<211> 24
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 7<400> 7
caagcagaag acggcatacg agat 24caagcagaag acggcatacg agat 24
<210> 8<210> 8
<211> 33<211> 33
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 8<400> 8
acactctttc cctacacgac gctcttccga tct 33acactctttc cctacacgac gctcttccga tct 33
<210> 9<210> 9
<211> 15<211> 15
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 9<400> 9
gtctcgtggg ctcgg 15
<210> 10<210> 10
<211> 33<211> 33
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 10<400> 10
acactctttc cctacacgac gctcttccga tct 33acactctttc cctacacgac gctcttccga tct 33
<210> 11<210> 11
<211> 15<211> 15
<212> ДНК<212> DNA
<213> Искусственная последовательность<213> Artificial sequence
<220><220>
<223> Описание искусственной последовательности: синтетический<223> Artificial sequence description: synthetic
праймер primer
<400> 11<400> 11
gtctcgtggg ctcgg 15
<---<---
Claims (150)
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862680259P | 2018-06-04 | 2018-06-04 | |
US62/680,259 | 2018-06-04 | ||
US201962821678P | 2019-03-21 | 2019-03-21 | |
US62/821,678 | 2019-03-21 | ||
PCT/US2019/035422 WO2019236599A2 (en) | 2018-06-04 | 2019-06-04 | High-throughput single-cell transcriptome libraries and methods of making and of using |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2022113116A Division RU2022113116A (en) | 2018-06-04 | 2019-06-04 | LARGE-SCALE MONOCELLULAR TRANSCRIPTOME LIBRARIES AND METHODS FOR THEIR PRODUCTION AND APPLICATION |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020102911A RU2020102911A (en) | 2021-07-27 |
RU2020102911A3 RU2020102911A3 (en) | 2021-08-27 |
RU2773318C2 true RU2773318C2 (en) | 2022-06-01 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015200609A1 (en) * | 2014-06-26 | 2015-12-30 | Illumina, Inc. | Library preparation of tagged nucleic acid using single tube add-on protocol |
WO2016130704A2 (en) * | 2015-02-10 | 2016-08-18 | Illumina, Inc. | Methods and compositions for analyzing cellular components |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015200609A1 (en) * | 2014-06-26 | 2015-12-30 | Illumina, Inc. | Library preparation of tagged nucleic acid using single tube add-on protocol |
WO2016130704A2 (en) * | 2015-02-10 | 2016-08-18 | Illumina, Inc. | Methods and compositions for analyzing cellular components |
Non-Patent Citations (2)
Title |
---|
JUNYUE CAO et al., Comprehensive single-cell transcriptional profiling of a multicellular organism, Science, 18 Aug 2017, Vol.357, Issue 6352, pp.661-667. * |
ЗАДЕСЕНЕЦ К.С. и др., Полногеномное секвенирование геномов эукариот: от секвенирования фрагментов ДНК к сборке генома, ГЕНЕТИКА, 2017, том 53, N 6, с.641-650. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7581175B2 (en) | High-throughput single-cell transcriptome libraries and methods for making and using same | |
KR102640255B1 (en) | High-throughput single-cell sequencing with reduced amplification bias | |
JP7637390B2 (en) | High-throughput single nucleus and single cell libraries and methods of making and using | |
US20220356461A1 (en) | High-throughput single-cell libraries and methods of making and of using | |
RU2773318C2 (en) | Large-scale monocellular transcriptome libraries and methods for their production and use | |
HK40030451A (en) | High-throughput single-cell transcriptome libraries and methods of making and of using | |
HK40041230B (en) | Methods of making high-throughput single-cell transcriptome libraries | |
HK40041230A (en) | Methods of making high-throughput single-cell transcriptome libraries | |
RU2838545C2 (en) | High-performance libraries of single nuclei and single cells and methods for their production and use | |
JP2025108660A (en) | High-throughput single-cell libraries and methods of making and using | |
HK40068328A (en) | High-throughput single-cell libraries and methods of making and of using | |
HK40055119A (en) | High-throughput single-nuclei and single-cell libraries and methods of making and of using | |
Moakley | Reverse engineering neuron cell type-specific splicing regulatory networks | |
Martín Martínez | Analysis of gene expression in stem cells: FOXO transcription factors as master regulators of stemness |