KR20210113237A - 무 세포 dna 말단 특성 - Google Patents
무 세포 dna 말단 특성 Download PDFInfo
- Publication number
- KR20210113237A KR20210113237A KR1020217022713A KR20217022713A KR20210113237A KR 20210113237 A KR20210113237 A KR 20210113237A KR 1020217022713 A KR1020217022713 A KR 1020217022713A KR 20217022713 A KR20217022713 A KR 20217022713A KR 20210113237 A KR20210113237 A KR 20210113237A
- Authority
- KR
- South Korea
- Prior art keywords
- dna
- sequence
- cell
- motifs
- clinically relevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012512 characterization method Methods 0.000 title 1
- 239000012634 fragment Substances 0.000 claims abstract description 264
- 239000000523 sample Substances 0.000 claims abstract description 137
- 239000012472 biological sample Substances 0.000 claims abstract description 69
- 206010028980 Neoplasm Diseases 0.000 claims description 179
- 238000000034 method Methods 0.000 claims description 160
- 230000001605 fetal effect Effects 0.000 claims description 137
- 206010073071 hepatocellular carcinoma Diseases 0.000 claims description 122
- 231100000844 hepatocellular carcinoma Toxicity 0.000 claims description 122
- 108020004414 DNA Proteins 0.000 claims description 116
- 201000011510 cancer Diseases 0.000 claims description 110
- 210000001519 tissue Anatomy 0.000 claims description 74
- 238000007069 methylation reaction Methods 0.000 claims description 46
- 230000011987 methylation Effects 0.000 claims description 45
- 108700028369 Alleles Proteins 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 33
- 210000003754 fetus Anatomy 0.000 claims description 32
- 108010077544 Chromatin Proteins 0.000 claims description 22
- 210000003483 chromatin Anatomy 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 20
- 102000053602 DNA Human genes 0.000 claims description 19
- 210000004185 liver Anatomy 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 14
- 210000000056 organ Anatomy 0.000 claims description 13
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 10
- 208000023275 Autoimmune disease Diseases 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 230000003394 haemopoietic effect Effects 0.000 claims description 8
- 230000001973 epigenetic effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 206010009944 Colon cancer Diseases 0.000 claims description 6
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 6
- 108090000790 Enzymes Proteins 0.000 claims description 6
- 102000004190 Enzymes Human genes 0.000 claims description 6
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 6
- 201000005202 lung cancer Diseases 0.000 claims description 6
- 208000020816 lung neoplasm Diseases 0.000 claims description 6
- 206010006187 Breast cancer Diseases 0.000 claims description 4
- 208000026310 Breast neoplasm Diseases 0.000 claims description 4
- 201000010915 Glioblastoma multiforme Diseases 0.000 claims description 4
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 claims description 4
- 206010061306 Nasopharyngeal cancer Diseases 0.000 claims description 4
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 4
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 4
- 206010017758 gastric cancer Diseases 0.000 claims description 4
- 208000005017 glioblastoma Diseases 0.000 claims description 4
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 4
- 201000011216 nasopharynx carcinoma Diseases 0.000 claims description 4
- 201000002528 pancreatic cancer Diseases 0.000 claims description 4
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 4
- 201000011549 stomach cancer Diseases 0.000 claims description 4
- 208000000102 Squamous Cell Carcinoma of Head and Neck Diseases 0.000 claims description 3
- 201000000459 head and neck squamous cell carcinoma Diseases 0.000 claims description 3
- 238000009396 hybridization Methods 0.000 claims description 3
- 201000000596 systemic lupus erythematosus Diseases 0.000 claims description 3
- 210000005059 placental tissue Anatomy 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 11
- 239000000203 mixture Substances 0.000 abstract description 4
- 210000002381 plasma Anatomy 0.000 description 102
- 238000004458 analytical method Methods 0.000 description 71
- 230000008774 maternal effect Effects 0.000 description 52
- 238000012163 sequencing technique Methods 0.000 description 50
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000003556 assay Methods 0.000 description 20
- 238000009826 distribution Methods 0.000 description 16
- 238000007417 hierarchical cluster analysis Methods 0.000 description 16
- 230000035935 pregnancy Effects 0.000 description 16
- 230000035772 mutation Effects 0.000 description 15
- 241000700721 Hepatitis B virus Species 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 239000002773 nucleotide Substances 0.000 description 13
- 125000003729 nucleotide group Chemical group 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 238000003205 genotyping method Methods 0.000 description 11
- 238000000926 separation method Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 108091029430 CpG site Proteins 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 230000008719 thickening Effects 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 210000000349 chromosome Anatomy 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 150000007523 nucleic acids Chemical class 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 6
- 206010016654 Fibrosis Diseases 0.000 description 6
- 230000007882 cirrhosis Effects 0.000 description 6
- 208000019425 cirrhosis of liver Diseases 0.000 description 6
- 239000012530 fluid Substances 0.000 description 6
- 208000002672 hepatitis B Diseases 0.000 description 6
- 238000000126 in silico method Methods 0.000 description 6
- 210000002966 serum Anatomy 0.000 description 6
- 102100036049 T-complex protein 1 subunit gamma Human genes 0.000 description 5
- 210000002593 Y chromosome Anatomy 0.000 description 5
- 239000000969 carrier Substances 0.000 description 5
- 101150062912 cct3 gene Proteins 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000012886 linear function Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000000159 protein binding assay Methods 0.000 description 5
- 239000013074 reference sample Substances 0.000 description 5
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 4
- 108091033409 CRISPR Proteins 0.000 description 4
- 101000829958 Homo sapiens N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Proteins 0.000 description 4
- 102100023315 N-acetyllactosaminide beta-1,6-N-acetylglucosaminyl-transferase Human genes 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000005119 centrifugation Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000002054 transplantation Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 210000000601 blood cell Anatomy 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 238000010354 CRISPR gene editing Methods 0.000 description 2
- 101710163270 Nuclease Proteins 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000001742 aqueous humor Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000012350 deep sequencing Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002440 hepatic effect Effects 0.000 description 2
- 230000006607 hypermethylation Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 208000010125 myocardial infarction Diseases 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000005204 segregation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- HWPZZUQOWRWFDB-UHFFFAOYSA-N 1-methylcytosine Chemical compound CN1C=CC(N)=NC1=O HWPZZUQOWRWFDB-UHFFFAOYSA-N 0.000 description 1
- MJEQLGCFPLHMNV-UHFFFAOYSA-N 4-amino-1-(hydroxymethyl)pyrimidin-2-one Chemical compound NC=1C=CN(CO)C(=O)N=1 MJEQLGCFPLHMNV-UHFFFAOYSA-N 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 241000143060 Americamysis bahia Species 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- 241001598984 Bromius obscurus Species 0.000 description 1
- -1 CCAC Proteins 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 1
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 1
- 101100310856 Drosophila melanogaster spri gene Proteins 0.000 description 1
- 241001123946 Gaga Species 0.000 description 1
- 102100040004 Gamma-glutamylcyclotransferase Human genes 0.000 description 1
- 108700007698 Genetic Terminator Regions Proteins 0.000 description 1
- 108020005004 Guide RNA Proteins 0.000 description 1
- 101000886680 Homo sapiens Gamma-glutamylcyclotransferase Proteins 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006470 autoimmune attack Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003412 degenerative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 230000009795 fibrotic process Effects 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 230000011132 hemopoiesis Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 210000003494 hepatocyte Anatomy 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 208000027866 inflammatory disease Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 201000006417 multiple sclerosis Diseases 0.000 description 1
- 201000008383 nephritis Diseases 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 210000002445 nipple Anatomy 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000001847 surface plasmon resonance imaging Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 210000001550 testis Anatomy 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/36—Gynecology or obstetrics
- G01N2800/368—Pregnancy complicated by disease or abnormalities of pregnancy, e.g. preeclampsia, preterm labour
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/38—Pediatrics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/70—Mechanisms involved in disease identification
- G01N2800/7042—Aging, e.g. cellular aging
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 개시내용은 시료의 특성 (예를 들어, 임상 관련 DNA의 분획 농도)을 측정하기 위해 유기체의 생물학적 시료에서 무 세포 DNA 단편의 서열 말단 모티프의 양 (예를 들어, 상대 빈도)을 측정하고/하거나 그러한 측정을 기반으로 유기체의 상태를 결정하는 기술에 관한 것이다. 상이한 조직 유형은 상기 서열 말단 모티프의 상대 빈도에 대해 상이한 패턴을 나타낸다. 본 개시내용은 예를 들어, 다양한 조직으로부터의 무 세포 DNA의 혼합물에서, 무 세포 DNA의 서열 말단 모티프의 상대 빈도 측정을 위한 다양한 용도를 제공한다. 그러한 조직 중 하나로부터의 DNA를 임상 관련 DNA로서 지칭할 수 있다.
Description
본 출원은 2018년 12월 19일에 출원된 "무-세포 DNA 말단 특성"라는 명칭의 미국 가출원 제 62/782,316호의 PCT 국제 출원이며 이의 이익을 주장하며, 이는 그 전체가 모든 목적을 위해 참조로 본원에 포함된다.
혈장 DNA는 조혈 조직, 뇌, 간, 폐, 결장, 췌장 등을 포함하되 이에 제한되지 않는 신체의 다수 조직에서 나온 무 세포 DNA로 구성되는 것으로 믿어진다 (문헌 [Sun et al, Proc Natl Acad Sci USA. 2015;112:E5503-12]; [Lehmann-Werman et al, Proc Natl Acad Sci USA. 2016]; [113: E1826-34; Moss et al, Nat Commun. 2018; 9: 5068]). 혈장 DNA 분자 (무 세포 DNA 분자의 일종)는 비 무작위 과정을 통해 생성되는 것으로 입증되었고, 예를 들어, 그의 크기 프로파일은 166-bp 주요 피크 및 더 작은 피크들에서 발생하는 10-bp 주기성을 나타낸다 (문헌 [Lo et al, Sci Transl Med. 2010;2:61ra91]; [Jiang et al, Proc Natl Acad Sci USA. 2015;112:E1317-25]).
가장 최근에는 인간 게놈 위치 (예를 들어, 기준 게놈 상의 위치)의 하위 집합이 우선적으로 절단됨으로써, 기원 조직과 관계가 있는 말단 위치를 갖는 혈장 DNA 단편이 생성되는 것으로 보고되었다. (문헌 [Chan et al, Proc Natl Acad Sci USA. 2016;113:E8159-8168]; [Jiang et al, Proc Natl Acad Sci USA. 2018; doi: 10.1073/pnas.1814616115]). Chandrananda 등 (문헌 [BMC Med Genomics. 2015; 8: 29])은 신규한 디스커버리 소프트웨어 DREME을 사용하여 (문헌 [Bailey, Bioinformatics. 2011;27:1653-9]) 조직 유형에 관계 없이 뉴클레아제 절단과 관련된 모티프에 대한 무 세포 DNA 데이터를 채굴하였다.
본 개시내용은 시료의 특성 (예를 들어, 임상 관련 DNA의 분획 농도)을 측정하기 위해 유기체의 생물학적 시료에서 무 세포 DNA 단편의 서열 말단 모티프의 양 (예를 들어, 상대 빈도)을 측정하고/하거나 그러한 측정을 기반으로 유기체의 상태를 결정하는 기술을 개시한다. 상이한 조직 유형은 서열 말단 모티프의 상대 빈도에 대해 상이한 패턴을 나타낸다. 본 개시내용은 예를 들어, 다양한 조직으로부터의 무 세포 DNA의 혼합물에서, 무 세포 DNA의 서열 말단 모티프의 상대 빈도 측정을 위한 다양한 용도를 제공한다. 하나의 이러한 조직으로부터의 DNA는 임상 관련 DNA로서 지정될 수 있다.
다양한 실시예에서 DNA 단편의 말단 서열을 나타내는 서열 모티프 (말단 모티프)의 양을 정량화할 수 있다. 예를 들어, 실시양태에서 DNA 단편의 말단 서열에 대한 서열 모티프 세트의 상대 빈도를 결정할 수 있다. 다양한 구현예에서, 바람직한 말단 모티프의 세트 및/또는 말단 모티프의 패턴은 유전형 접근법 (예를 들어, 조직 특이적 대립 유전자) 또는 표현형 접근법 (예를 들어, 동일한 조건을 갖는 시료를 사용)을 이용하여 결정될 수 있다. 바람직한 세트 또는 특정 패턴의 상대 빈도는 유기체의 새로운 시료 또는 조건 (예를 들어, 태아의 재태 연령 또는 병태 수준)의 특성 (예를 들어, 임상 관련 DNA의 분획 농도)의 분류를 확인하는데 사용될 수 있다. 따라서, 실시양태에서는 암, 자가 면역 질환, 이식, 및 임신을 포함한 생리적 변화의 정보를 제공하기 위한 측정을 제공할 수 있다.
추가 예로서, 서열 말단 모티프는 임상 관련 무 세포 DNA 단편에 대한 생물학적 시료의 물리적 농화(enrichment) 및/또는 인실리코(in silico) 농화에 사용될 수 있다. 농화는 태아, 종양, 또는 이식과 같은 임상 관련 조직에 바람직한 서열 말단 모티프를 사용할 수 있다. 물리적 농화는 생물학적 시료가 임상 관련 DNA 단편에 대해 농화되도록 특정 세트의 서열 말단 모티프를 검출하는 하나 이상의 프로브 분자를 사용할 수 있다. 인실리코 농화를 위해, 임상 관련 DNA에 대한 바람직한 말단 서열 세트 중 하나를 갖는 무 세포 DNA 단편의 서열 판독 그룹이 식별될 수 있다. 특정 서열 판독은 임상 관련 DNA에 상응할 가능성에 기초하여 저장될 수 있으며, 여기서 상기 가능성은 바람직한 서열 말단 모티프를 포함하는 서열 판독을 설명한다. 저장된 서열 판독을 분석하여 생물학적 시료의 임상 관련 DNA의 특성을 결정할 수 있다.
본 개시내용의 여러 실시양태가 하기에서 상세히 설명된다. 예를 들어, 다른 실시양태는 본원에 기재된 방법과 관련된 시스템, 장치, 및 컴퓨터 판독 가능 매체에 관한 것이다.
본 개시내용의 실시양태의 성질 및 이점은 하기의 상세한 설명 및 첨부된 도면을 참조하여 보다 양호하게 이해될 수 있다.
용어
"조직"은 기능적 단위로서 함께 그룹화되는 세포의 그룹에 상응한다. 하나 이상의 유형의 세포가 단일 조직에서 발견될 수 있다. 상이한 유형의 조직은 상이한 유형의 세포 (예를 들어, 간세포, 폐포 세포 또는 혈액 세포)로 구성될 수 있을 뿐만 아니라, 상이한 유기체들 (모체 대 태아)로부터의 조직 또는 건강한 세포 대 종양 세포에 상응할 수 있다. "기준 조직"은 조직 특이적 메틸화 수준을 결정하는 데 사용되는 조직에 상응할 수 있다. 상이한 개체로부터의 동일한 조직 유형의 다수의 시료는 그 조직 유형의 조직 특이적 메틸화 수준을 결정하는 데 사용될 수 있다.
"생물학적 시료"는 대상체 (예를 들어, 인간 (또는 다른 동물), 예컨대 임신한 여성, 암을 가진 사람, 또는 암을 갖고 있는 것으로 의심되는 사람, 장기 이식 수혜자, 또는 장기에 관여되는 질환 과정 (예를 들어, 심근 경색에서 심장, 뇌졸중에서 뇌, 또는 빈혈에서 조혈계)을 갖고 있는 것으로 의심되는 대상체)로부터 채취되고 하나 이상의 관심 핵산 분자(들)를 함유하는 임의의 시료를 지칭한다. 생물학적 시료는 체액, 예컨대 혈액, 혈장, 혈청, 소변, 질액, 수류(예를 들어, 고환의)로부터의 유체, 질 플러싱 유체(vaginal flushing fluid), 흉막액(pleural fluid), 복수(ascitic fluid), 뇌척수액, 침, 땀, 눈물, 가래, 기관지폐포 세척액, 유두로부터의 배출액, 신체(예를 들어, 갑상선, 유방)의 상이한 부분들로부터의 흡인액, 안내 유체(intraocular fluids) (예를 들어, 안방수(aqueous humor)) 등일 수 있다. 대변 시료가 사용될 수도 있다. 다양한 구현예에서, 무 세포 DNA에 대해 농화되었던 생물학적 시료(예를 들어, 원심분리 프로토콜을 통해 수득된 혈장 시료) 내의 대부분의 DNA는 무 세포일 수 있으며, 예를 들어, 50%, 60%, 70%, 80%, 90%, 95% 또는 99% 초과의 DNA가 무 세포일 수 있다. 원심분리 프로토콜은 예를 들어 3,000 g x 10분에서 유체 부분의 수득 단계 및 잔여 세포를 제거하기 위한, 예를 들어 30,000 g에서 또 다른 10분 동안의 재원심분리 단계를 포함할 수 있다. 생물학적 시료 분석의 일환으로 최소 1,000개의 무 세포 DNA 분자를 분석할 수 있다. 다른 예로서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 무 세포 DNA 분자, 또는 그 이상이 분석될 수 있다.
"임상 관련 DNA"는 예를 들어 이러한 DNA의 분획 농도를 결정하거나 시료 (예를 들어, 혈장)의 표현형을 분류하기 위해 측정될 특정 조직 공급원의 DNA를 지칭할 수 있다. 임상 관련 DNA의 예로는 모체 혈장 내 태아 DNA 또는 환자 혈장 내 종양 DNA 또는 무 세포 DNA를 갖는 기타 시료가 있다. 또 다른 예는 이식 환자의 혈장, 혈청, 또는 소변 내 이식 연관 DNA의 양의 측정을 포함한다. 추가의 예는 대상체의 혈장 내 조혈 및 비-조혈 DNA의 분획 농도, 또는 시료 내 간 DNA 단편 (또는 다른 조직)의 분획 농도 또는 뇌척수액 내 뇌 DNA 단편의 분획 농도의 측정을 포함한다.
"서열 판독"은 핵산 분자 중 임의의 부분 또는 전부로부터 시퀀싱된 뉴클레오타이드 열(string)을 지칭한다. 예를 들어, 서열 판독은 생물학적 시료에 존재하는 핵산 단편으로부터 시퀀싱 뉴클레오타이드(예를 들어, 20 내지 150개 뉴클레오타이드)의 짧은 열, 핵산 단편 중 하나의 말단 또는 두 말단 모두에서 뉴클레오타이드의 짧은 열, 또는 전체 핵산 단편의 시퀀싱일 수 있다. 서열 판독은 여러 가지 방식으로, 예를 들어 시퀀싱 기술을 사용하거나, 예컨대 혼성화 어레이 또는 포착 프로브에서 프로브를 사용하거나, 또는 증폭 기술, 예컨대 중합효소 연쇄 반응(PCR) 또는 단일 프라이머를 사용하는 선형 증폭 또는 등온 증폭에서 수득할 수 있다. 생물학적 시료 분석의 일부로서 최소 1,000개의 서열 판독값을 분석할 수 있다. 다른 실시예에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 서열 판독, 또는 그 이상이 분석될 수 있다.
서열 판독은 단편의 말단과 관련된 "종결 서열 "을 포함할 수 있다. 종결 서열은 단편의 가장 바깥 쪽 N 염기, 예를 들어 단편 말단 2-30개의 염기에 해당할 수 있다. 서열 판독이 단편 전체에 해당하는 경우, 상기 서열 판독은 두 개의 종결 서열을 포함할 수 있다. 짝을 이룬(paired) 말단 시퀀싱이 단편의 말단에 해당하는 두 개의 서열 판독값을 제공하는 경우, 각 서열 판독값은 하나의 종결 서열을 포함할 수 있다.
"서열 모티프"는 DNA 단편 (예를 들어, 무 세포 DNA 단편) 내 염기의 짧고 반복적인 패턴을 지칭할 수 있다. 서열 모티프는 단편의 말단에서 발생할 수 있으므로 종결 서열의 일부이거나 종결 서열을 포함한다. "말단 모티프"는 잠재적으로 특정 유형의 조직에 대해 DNA 단편의 말단에서 우선적으로 발생하는 종결 서열에 대한 서열 모티프를 지칭할 수 있다. 또한, 말단 모티프는 단편의 말단 바로 앞 또는 바로 뒤에 나타날 수 있으며, 따라서 여전히 종결 서열에 상응한다.
용어 "대립유전자"는 상이한 표현형 속성을 초래할 수 있거나 초래하지 않을 수 있는, 동일한 물리적 게놈 좌위에서의 대안적인 DNA 서열을 지칭한다. 임의의 특정 이배수체(diploid) 유기체에서, 각각의 염색체의 2개 카피와 함께(남성 인간 대상체에서 성염색체 제외), 각각의 유전자에 대한 유전자형은 해당 좌위에 존재하는 대립유전자의 쌍을 포함하고, 이들은 동형접합체에서는 동일하고 이형접합체에서는 상이하다. 유기체의 집단 또는 종은 전형적으로, 다양한 개체 중 각각의 좌위에서의 다수의 대립유전자를 포함한다. 상기 집단에서 1개 초과의 대립유전자가 발견되는 게놈 좌위는 다형체성 부위라고 한다. 좌위에서의 대립유전자 변이는 존재하는 대립유전자의 수 (즉, 다형성의 정도) 또는 집단 내 이형접합체의 비율 (즉, 이형접합성율)로서 측정 가능하다. 본원에 사용된 용어 "다형성 "은 빈도에 관계없이 인간 게놈의 개체간 변이를 지칭한다. 이러한 변이의 예는 단일 뉴클레오타이드 다형성, 단순 직렬 반복 다형성, 삽입-결실 다형성, 돌연변이 (질병을 유발할 수 있는 것) 및 카피 수 변이를 포함하지만 이에 제한되지는 않는다. 본원에 사용된 바와 같이, 용어 "반수체형(haplotype)"은 동일한 염색체 또는 염색체 영역 상에서 함께 이송되는 다수의 좌위에서 대립유전자들의 조합을 지칭한다. 반수체형은 불과 한쌍의 좌위 또는 염색체 영역, 또는 전체 염색체 또는 염색체 팔을 지칭할 수 있다.
용어 "분획 태아 DNA 농도"는 "태아 DNA 비율" 및 "태아 DNA 분획"이라는 용어와 상호교환적으로 사용되며, 태아로부터 유래된 생물학적 시료 (예를 들어, 모체 혈장 또는 혈청 시료)에 존재하는 태아 DNA 분자의 비율을 지칭한다 (문헌 [Lo et al, Am J Hum Genet. 1998;62:768-775]; [Lun et al, Clin Chem. 2008;54:1664-1672]). 유사하게, 종양 분획 또는 종양 DNA 분획은 생물학적 시료에서 종양 DNA의 분획 농도를 지칭할 수 있다.
"상대 빈도 "는 비율 (예를 들어, 백분율, 비율 또는 농도)을 의미할 수 있다. 특히, 특정 말단 모티프 (예를 들어, CCGA)의 상대 빈도는 예를 들어 CCGA의 종결 서열을 가짐으로써 말단 모티프 CCGA와 관련된 무 세포 DNA 단편의 비율을 제공할 수 있다.
"집계값 "은 예를 들어, 말단 모티프 세트의 상대 빈도와 같은 집합적 속성을 지칭할 수 있다. 예시는 평균, 중앙값, 상대 빈도의 합, 상대 빈도 간의 변동 (예를 들어, 서로 다른 상대 빈도 사이의 엔트로피, 표준 편차 (SD), 변동 계수 (CV), 사분위 범위 (IQR) 또는 특정 백분위 수 컷오프 (예를 들어, 95번째 또는 99번째 백분위 수)), 또는 상대 빈도의 기준 패턴과의 차이 (예를 들어, 거리)를 포함하고, 클러스터링에서 구현될 수 있다.
"보정 시료 "는 임상 관련 DNA (예를 들어, 조직 특이적 DNA 분획)의 분획 농도가 알려지거나 보정 방법을 통해, 예를 들어 조직에 특이적인 대립 유전자를 사용하여 결정된 생물학적 시료에 상응할 수 있고, 예컨대, 이식의 경우 기증자의 게놈에는 있지만 수령자의 게놈에는 없는 대립 유전자가 이식된 장기의 마커로 사용될 수 있다. 또 다른 예로서, 보정 시료는, 말단 모티프가 결정될 수 있는 시료에 상응할 수 있다. 보정 시료는 두 목적 모두를 위해 사용될 수 있다.
"보정 데이터 포인트 "는 "보정값 "및 임상 관련 DNA (예를 들어, 특정 조직 유형의 DNA)의 측정되거나 알려진 분획 농도를 포함한다. 보정값은 임상 관련 DNA의 분획 농도가 알려진 보정 시료에 대해 결정된 바와 같이 상대 빈도 (예를 들어, 집계값)로부터 결정될 수 있다. 보정 데이터 포인트는 여러 가지 방식으로, 예를 들어, 별개의 포인트로서 또는 보정 함수(보정 곡선 또는 보정 면이라고도 함)로서 정의될 수 있다. 보정 함수는 보정 데이터 포인트의 부가적인 수학적 변환으로부터 유래되었을 수 있다.
"부위"("게놈 부위"로도 지칭됨)는 단일 부위에 상응하며, 이는 단일 염기 위치 또는 상관된 염기 위치의 그룹, 예를 들어 상관된 염기 위치의 CpG 부위 또는 더 큰 그룹일 수 있다. "좌위"는 다수의 부위들을 포함하는 영역에 상응할 수 있다. 좌위는 하나의 부위만을 포함할 수 있으며, 이는 맥락상 상기 좌위를 부위와 동등한 것이 되도록 한다.
각각의 게놈 부위 (예를 들어, CpG 부위)에 대한 "메틸화 지수"는 (예를 들어, 서열 판독 또는 프로브로부터 결정된 바와 같은) DNA 단편의 비율을 지칭할 수 있고, 이는 그 부위를 커버하는 판독의 총 수에 걸쳐 그 부위에서의 메틸화를 보여준다. "판독"은 DNA 단편으로부터 얻은 정보 (예를 들어, 한 부위에서의 메틸화 상태)에 상응할 수 있다. 판독은 특정 메틸화 상태의 DNA 단편에 우선적으로 혼성화하는 시약(예를 들어, 프라이머 또는 프로브)을 사용하여 수득될 수 있다. 전형적으로, 이러한 시약은 DNA 분자의 메틸화 상태에 따라 이들 분자를 차별적으로 변형시키거나 차별적으로 인지하는 과정, 예를 들어, 비설파이트 전환, 또는 메틸화-민감성 제한 효소, 메틸화 결합 단백질, 또는 항-메틸시토신 항체, 또는 예컨대 메틸시토신 및 하이드록시메틸시토신을 인식하는 단일 분자 시퀀싱 기법으로 처리한 후 적용된다.
영역의 "메틸화 밀도"는 영역 내의 부위를 커버하는 판독의 총 수로 나눈 메틸화를 보여주는 영역 내의 부위에서의 판독 수를 지칭할 수 있다. 상기 부위는 특정한 특징을 가질 수 있고 예를 들어 CpG 부위일 수 있다. 따라서, 영역의 "CpG 메틸화 밀도"는 영역 내의 CpG 부위 (예를 들어, 특정 CpG 부위, CpG 섬 내의 CpG 부위, 또는 더 큰 영역)를 커버하는 총 판독 수로 나눈 CpG 메틸화를 나타내는 판독 수를 지칭할 수 있다. 예를 들어, 인간 게놈에서 각각의 100-kb 빈(bin)에 대한 메틸화 밀도는, 100-kb 영역으로 맵핑된 시퀀스 판독에 의해 커버된 모든 CpG 부위의 비율로서 CpG 부위에서 비설파이트 처리 (메틸화된 시토신에 상응함) 후 전환되지 않은 시토신의 총 수로부터 결정될 수 있다. 이 분석은 다른 빈 크기, 예를 들어, 500 bp, 5 kb, 10 kb, 50-kb 또는 1-Mb 등에 대해서도 수행될 수 있다. 영역은 전체 게놈 또는 염색체 또는 염색체의 일부 (예를 들어, 염색체 아암)일 수 있다. CpG 부위의 메틸화 지수는, 영역이 해당 CpG 부위만 포함할 때, 상기 영역에 대한 메틸화 밀도와 동일하다. "메틸화된 시토신의 비율"은, 영역에서 분석된 시토신 잔기, 즉, CpG 맥락 외부의 시토신을 포함하여 이들의 총 수에 걸쳐 메틸화된 (예를 들어, 바이설파이트 전환 후 전환되지 않는) 것으로 보이는 시토신 부위인 "C"의 수를 지칭할 수 있다. 메틸화 지수, 메틸화 밀도, 및 메틸화된 시토신의 비율은 "메틸화 수준"의 예들이다. 비설파이트 전환 외에도, 비제한적으로 메틸화 상태에 민감한 효소 (예를 들어, 메틸화-민감성 제한 효소), 메틸화 결합 단백질, 메틸화 상태에 민감한 플랫폼을 사용하는 단일 분자 시퀀싱 (예를 들어, 나노포어 시퀀싱(문헌[(Schreiber et al, Proc Natl Acad Sci USA. 2013; 110: 18910-18915]) 및 Pacific Biosciences 단일 분자 실시간 분석(문헌[Flusberg 등 Nat Methods 2010; 7: 461-465]))을 포함하여 당업자에게 알려진 다른 과정이 DNA 분자의 메틸화 상태에 대한 정보를 얻는 데 사용될 수 있다. DNA 분자의 메틸화 메트릭은 메틸화되는 부위 (예를 들어, CpG 부위)의 백분율에 해당할 수 있다. 메틸화 메트릭은 분자의 메틸화 밀도로서 지칭될 수도 있는 절대 숫자 또는 백분율로 특정할 수 있다.
용어 "시퀀싱 깊이"는 좌위가 그 좌위에 정렬된 서열 판독에 의해 커버되는 횟수를 지칭한다. 좌위는 뉴클레오타이드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 시퀀싱 깊이는 50x, 100x 등으로서 표현될 수 있고, 여기서 "x"는 좌위가 서열 판독으로 커버되는 횟수를 지칭한다. 시퀀싱 깊이는 다수의 좌위 또는 전체 게놈에 또한 적용될 수 있고, 이 경우 x는 좌위 또는 반수체 게놈, 또는 전체 게놈이 각각 시퀀싱되는 평균 횟수를 지칭할 수 있다. 울트라-딥(ultra-deep) 시퀀싱은 시퀀싱 깊이가 적어도 100x인 것을 지칭할 수 있다.
"분리값"은 2개의 값, 예를 들어, 2개의 분획 기여도 (fractional contribution), 또는 2개의 메틸화 수준을 수반하는 차이 또는 비에 상응한다. 분리값은 단순한 차이 또는 비일 수 있다. 예로서, x/y의 정비(direct ratio)는 x/(x+y)와 같이 분리값이다. 분리값은 다른 인자, 예를 들어, 곱셈 인자(multiplicative factor)를 포함할 수 있다. 다른 예로서, 값들의 함수의 차이 또는 비, 예를 들어, 2개 값의 자연 로그(ln)의 차이 또는 비가 사용될 수 있다. 분리값은 차이 및 비를 포함할 수 있다.
"분리값" 및 "집계값" (예를 들어, 상대 빈도의 상기 값)은 상이한 분류 (상태) 사이에서 달라지는 시료의 측정치를 제공하는 매개변수 (메트릭이라고도 함)의 2개의 예이므로, 상이한 분류를 결정하는 데 사용될 수 있다. 집계값은 분리값일 수 있고, 예를 들어, 클러스터링에서 수행될 수 있는 것처럼 시료의 상대 빈도 세트와 상대 빈도의 기준 세트간에 차이가 발생하는 경우이다.
본원에 사용된 바와 같이 용어 "분류"는 시료의 특정한 특성과 연관된 임의의 수(들) 또는 다른 특징(들)을 지칭한다. 예를 들어, "+" 부호 (또는 단어 "양성")는, 시료가 결실 또는 증폭을 갖고 있는 것으로 분류됨을 의미할 수 있을 것이다. 분류는 2진(binary) (예를 들어, 양성 또는 음성)일 수 있거나, 더 많은 수준의 분류 (예를 들어, 1 내지 10, 또는 0 내지 1의 규모)를 가질 수 있다.
용어 "컷오프" 및 "역치"는 작동(operation) 시 사용되는 미리 결정된 수를 지칭한다. 예를 들어, 컷오프 크기는 단편이 배제되는 크기를 초과하는 크기를 지칭할 수 있다. 역치 값은 특정 분류가 적용되는 값의 초과 또는 미만 값일 수 있다. 이들 용어 중 어느 한 용어는 이들 맥락 중 어느 한 맥락으로 사용될 수 있다. 컷오프 또는 역치는 "기준값"일 수 있거나, 2개 이상의 분류 사이에 특정 분류를 나타내거나 구별하는 기준값으로부터 유래될 수 있다. 이러한 기준값은, 당업자에 의해 이해될 바와 같이, 다양한 방식으로 결정될 수 있다. 예를 들어, 메트릭은 상이한 공지의 분류를 갖는 대상체의 2개의 상이한 코호트에 대해 결정될 수 있고, 기준값은 한 분류의 대표값 (예를 들어, 평균)으로서 또는 메트릭의 2개의 클러스터 사이에 있는 값 (예를 들어, 원하는 민감도 및 특이성을 얻기 위해 선택된 것)으로서 선택될 수 있다. 또 다른 예로서, 기준값은 시료의 통계학적 시뮬레이션에 기초하여 결정될 수 있다.
용어 "암의 수준"은, 암이 존재하는지의 여부 (즉, 존재 또는 부재), 암의 병기, 종양의 크기, 전이가 존재하는지의 여부, 신체의 총 종양 부담, 치료에 대한 암의 반응, 및/또는 암의 중증도의 다른 측정치 (예를 들어, 암의 재발)를 지칭할 수 있다. 암의 수준은 숫자 또는 다른 지표, 예컨대 부호, 알파벳 문자, 및 색상일 수 있다. 상기 수준은 0일 수 있다. 또한 암의 수준은 전악성 또는 전암성 병상 (상태)을 포함할 수도 있다. 암의 수준은 다양한 방식으로 사용될 수 있다. 예를 들어, 스크리닝은 암을 갖는 것으로 이전에는 알려지지 않은 개체에 암이 존재하는지 확인할 수 있다. 평가는 암을 진단받은 개체를 조사하여, 시간 경과에 따른 암의 진전을 모니터링하거나, 치료법의 효능을 연구하거나, 예후를 결정할 수 있다. 일 실시양태에서, 예후는 환자가 암으로 사망할 가능성, 특정한 기간 또는 시간 후에 암이 진행되는 가능성, 또는 암이 전이될 가능성 또는 정도로서 표현될 수 있다. 검출은 '스크리닝'을 의미할 수 있거나, 암의 제안된 특색 (예를 들어, 증상 또는 다른 양성 시험)을 갖는 개체가 암을 갖는지 확인하는 것을 의미할 수 있다.
"병태 수준"은 유기체와 연관된 병태의 양, 정도 또는 중증도를 지칭할 수 있고, 이때 상기 수준은 암에 대해 상기 기재된 바와 같을 수 있다. 병태의 또다른 예는 이식된 장기의 거부이다. 다른 예시적인 병태는 자가면역 공격 (예를 들어, 신장을 손상시키는 홍반성 신염 또는 다발성 경화증), 염증성 질환 (예를 들어, 간염), 섬유증 과정 (예를 들어, 경변증), 지방 침윤 (예를 들어, 지방 간 질환), 퇴행성 과정 (예를 들어, 알츠하이머병), 및 허혈성 조직 손상 (예를 들어, 심근 경색 또는 뇌졸중)을 포함할 수 있다. 대상체의 건강한 상태는 병태 없음의 분류로 간주될 수 있다.
용어 "약" 또는 "대략"은 당업자에 의해 결정된 바와 같은 특정 값에 대한 허용 가능한 오차 범위 내를 의미할 수 있으며, 이는 부분적으로는 상기 값이 어떻게 측정되거나 결정되는지, 즉, 측정 시스템의 한계에 의존할 수 있다. 예를 들어, "약"은 당업의 관행에 따라 1 이내 또는 1 초과의 표준 편차를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 20% 이하, 10% 이하, 5% 이하, 또는 1% 이하의 범위를 의미할 수 있다. 대안적으로, 특히 생물학적 시스템 또는 과정에 관하여, 용어 "약" 또는 "대략"은 값의 승수 이내, 5배 이내, 보다 바람직하게는 2배 이내를 의미할 수 있다. 특정 값이 본 출원 및 청구범위에 기재되어 있는 경우, 다르게 언급되지 않는 한, 특정 값에 대한 허용 가능한 오차 범위 내를 의미하는 용어 "약"이 추정되어야 한다. 용어 "약"은 당업자에 의해 보편적으로 이해되는 바와 같은 의미를 가질 수 있다. 용어 "약"은 ±10%를 지칭할 수 있다. 용어 "약"은 ±5%를 지칭할 수 있다.
도 1은 본 개시내용의 실시양태에 따른 말단 모티프의 예를 나타낸다.
도 2는 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다.
도 3은 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 말단 모티프 빈도의 막대 그래프를 나타낸다.
도 4는 본 개시내용의 실시양태에 따른 태아 및 공유 (즉, 태아+모체) 서열에 대한 도 3의 상위 10개 말단 모티프를 나타낸다.
도 5a 및 5b는 본 발명의 실시양태에 따른 임산부의 태아 및 모체 DNA 분자 사이의 엔트로피의 박스형 그래프를 나타낸다.
도 6a 및 6b는 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자에 대한 계층적 클러스터링 분석을 나타낸다.
도 7a 및 7b는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대한 모든 모티프를 사용한 엔트로피 분포를 나타낸다. 도 7c 및 7d는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대한 10개의 모티프를 사용한 엔트로피 분포를 나타낸다.
도 8a는 상이한 재태 연령에 걸친 모든 단편에 대한 엔트로피를 나타낸다. 제3 임신 삼분기인 대상체에서의 혈장 DNA 단편의 엔트로피는 제1 및 제2 임신 삼분기인 대상체에서의 엔트로피보다 낮은 것으로 나타났다 (p-값=0.06). 도 8b는 상이한 제태 연령에 걸친 Y 염색체 유래 단편에 대한 엔트로피를 나타낸다. 제3 임신 삼분기인 대상체에서의 Y 염색체 유래 단편의 엔트로피는 제1 및 제2 임신 삼분기인 대상체에서의 엔트로피보다 낮은 것으로 나타났다 (p-값=0.01).
도 9 및 도 10은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 모체 DNA 분자 사이의 상위 10개 말단 모티프의 분포를 나타낸다.
도 11은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 공유 분자 사이의 상위 10개 모티프의 결합 빈도를 나타낸다.
도 12는 본 개시내용의 실시양태에 따른 암 환자의 혈장 DNA에서 돌연변이와 공유 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다.
도 13은 본 개시내용의 실시양태에 따른 간세포 암종에서의 암 관련 돌연변이 및 공유 분자의 혈장 DNA 말단 모티프의 랜드스케이프를 나타낸다.
도 14는 본 개시내용의 실시양태에 따른 간세포 암종에서의 암 관련 돌연변이 및 공유 분자의 혈장 DNA 말단 모티프의 방사형 랜드스케이프를 나타낸다.
도 15a는 본 개시내용의 실시양태에 따른 HCC 환자의 혈장 DNA에서의 돌연변이 및 공유 서열 사이의 말단 모티프 빈도의 차이 상위 10개 말단 모티프를 나타낸다.
도 15b는 본 개시내용의 실시양태에 따른 HCC 환자 및 임산부에 대한 8개의 말단 모티프에 대한 결합 빈도를 나타낸다.
도 16a 및 16b는 본 개시내용의 실시양태에 따른 HCC 사례에 대한 상이한 말단 모티프 세트에 대한 공유 및 돌연변이 단편에 대한 엔트로피 값을 나타낸다.
도 17은 본 개시내용의 실시양태에 따른 측정된 순환 종양 DNA 분획에 대한 모티프 다양성 점수 (엔트로피)의 그래프이다.
도 18a는 본 개시내용의 실시양태에 따른 공여자 특이적 단편을 사용한 엔트로피 분석을 나타낸다. 도 18b는 공여자 특이적 단편을 사용한 계층적 클러스터링 분석을 나타낸다.
도 19는 본 발명의 실시양태에 따른 대상체의 생물학적 시료에서의 임상 관련 DNA의 분획 농도 추정 방법을 나타낸 순서도이다.
도 20은 본 발명의 실시양태에 따른 태아를 임신한 여성 대상체의 생물학적 시료를 분석하여 태아의 재태 연령을 결정하는 방법을 나타낸 순서도이다.
도 21은 본 개시내용의 실시양태에 따른 혈장 DNA 말단 모티프 분석을 위한 표현형 접근법의 개략도를 나타낸다.
도 22는 본 개시내용의 실시양태에 따른 모든 혈장 DNA 분자를 사용한 HCC 및 HBV 대상체 사이의 4-mer 말단 모티프의 빈도 프로파일에 대한 예를 나타낸다.
도 23a는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 다양한 대상체에 대한 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합 빈도에 대한 박스형 그래프를 나타낸다. 대조군은 암의 수준이다: 건강한 대조군 대상체; HBV: 만성 B형 간염 보균자; Cirr: 간경변 대상체; eHCC: 초기 단계 HCC; iHCC: 즉각적 단계 HCC; 및 aHCC: 진행된 단계 HCC. 도 23b는 본 개시내용의 실시양태에 따른 HCC 및 비-암 대상체 사이의 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합 빈도의 수신기 작동 특성 (ROC) 곡선을 나타낸다.
도 24a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 CCA 모티프의 빈도의 박스형 그래프를 나타낸다. 도 24b는 본 개시내용의 실시양태에 따른 비-HCC 대상체에 존재하는 가장 빈번한 3-mer 모티프 (CCA)를 사용한 비-HCC 및 HCC 그룹 간의 ROC 곡선을 나타낸다.
도 25a는 본 개시내용의 실시양태에 따른 256개의 4-mer 말단 모티프를 사용한 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 나타낸다. 도 25b는 본 개시내용의 실시양태에 따른 10개의 4-mer 말단 모티프를 사용한 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 나타낸다.
도 26a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 3-mer 모티프를 사용한 엔트로피 값의 박스형 그래프를 나타낸다. 3-mer 모티프 (총 64개 모티프)를 사용한 HCC 대상체의 엔트로피는 비-HCC 대상체의 엔트로피보다 상당히 높은 것으로 나타났다 (p-값 < 0.0001). 도 26b는 본 개시내용의 실시양태에 따른 비-HCC 및 HCC 그룹 사이의 64개의 3-mer 모티프의 엔트로피를 사용한 ROC 곡선을 나타낸다. AUC는 0.872로 확인되었다.
도 27a 및 27b는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 4-mer를 사용한 모티프 다양성 (엔트로피) 점수의 박스형 그래프를 나타낸다.
도 28은 본 개시내용의 실시양태에 따른 암으로부터 건강한 대조군을 구별하는 다양한 기술에 대한 수신기 작동 곡선을 나타낸다.
도 29는 본 개시내용의 실시양태에 따른 다양한 k-mer를 사용한 MDS 분석을 위한 수신기 작동 곡선을 나타낸다.
도 30은 본 개시내용의 실시양태에 따른 다양한 종양 DNA 분획에 대한 MDS 기반 암 검출의 성능을 나타낸다.
도 31은 본 개시내용의 실시양태에 따른 MDS, SVM, 및 로지스틱 회귀 분석에 대한 수신기 작동 곡선을 나타낸다.
도 32는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 상위 10개 말단 모티프에 대한 계층적 클러스터링 분석을 나타낸다. 상이한 그룹이 대조군을 포함한다: 건강한 대조군 대상체; HBV: 만성 B형 간염 보균자; Cirr: 간경변 대상체; eHCC: 초기 단계 HCC; iHCC: 즉각적 단계 HCC; 및 aHCC: 진행된 단계 HCC.
도 33a 내지 33c는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 나타낸다.
도 34는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 모든 혈장 DNA 분자를 사용한 3-mer 모티프에 기초한 계층적 클러스터링 분석을 나타낸다.
도 35a는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다. 도 35b는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 나타낸다.
도 36은 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이에 10개의 선택된 말단 모티프를 갖는 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다.
도 37은 본 개시내용의 실시양태에 따른 말단 모티프 및 카피 수 또는 메틸화를 포함하는 결합 분석에 대한 ROC 곡선을 나타낸다.
도 38a는 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer에 기초한 엔트로피 분석을 나타낸다. 도 38b는 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer에 기초한 클러스터링 분석을 나타낸다.
도 39는 본 개시내용의 실시양태에 따른 혈장 DNA의 말단 모티프를 정의하는데 사용되는 도 1의 기술 (140) 및 (160)에 대한 ROC 비교를 나타낸다.
도 40은 본 개시내용의 실시양태에 따른 조직 특이적 개방형 염색질 영역이 혈장 DNA 말단 모티프의 식별력을 향상시키는 것을 보여주는 정확도의 비교를 나타낸다.
도 41은 본 개시내용의 실시양태에 따른 크기 대역 기반 혈장 DNA 말단 모티프 분석을 나타낸다.
도 42는 본 개시의 실시양태에 따른 대상체의 생물학적 시료에서 병태 수준을 분류하는 방법을 나타내는 흐름도이다.
도 43은 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법을 예시하는 흐름도이다.
도 44는 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법 (3700)을 예시하는 흐름도이다.
도 45는 본 개시내용의 실시양태에 따른 CCCA 말단 모티프를 사용한 태아 DNA 분획의 증가를 도시한 예시적인 그래프를 나타낸다.
도 46은 본 발명의 일 실시양태에 따른 측정 시스템을 도시한다.
도 47은 본 발명의 실시양태에 따른 시스템 및 방법으로 사용 가능한 일례의 컴퓨터 시스템의 블록 다이어그램을 나타낸다.
도 2는 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다.
도 3은 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 말단 모티프 빈도의 막대 그래프를 나타낸다.
도 4는 본 개시내용의 실시양태에 따른 태아 및 공유 (즉, 태아+모체) 서열에 대한 도 3의 상위 10개 말단 모티프를 나타낸다.
도 5a 및 5b는 본 발명의 실시양태에 따른 임산부의 태아 및 모체 DNA 분자 사이의 엔트로피의 박스형 그래프를 나타낸다.
도 6a 및 6b는 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자에 대한 계층적 클러스터링 분석을 나타낸다.
도 7a 및 7b는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대한 모든 모티프를 사용한 엔트로피 분포를 나타낸다. 도 7c 및 7d는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대한 10개의 모티프를 사용한 엔트로피 분포를 나타낸다.
도 8a는 상이한 재태 연령에 걸친 모든 단편에 대한 엔트로피를 나타낸다. 제3 임신 삼분기인 대상체에서의 혈장 DNA 단편의 엔트로피는 제1 및 제2 임신 삼분기인 대상체에서의 엔트로피보다 낮은 것으로 나타났다 (p-값=0.06). 도 8b는 상이한 제태 연령에 걸친 Y 염색체 유래 단편에 대한 엔트로피를 나타낸다. 제3 임신 삼분기인 대상체에서의 Y 염색체 유래 단편의 엔트로피는 제1 및 제2 임신 삼분기인 대상체에서의 엔트로피보다 낮은 것으로 나타났다 (p-값=0.01).
도 9 및 도 10은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 모체 DNA 분자 사이의 상위 10개 말단 모티프의 분포를 나타낸다.
도 11은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 공유 분자 사이의 상위 10개 모티프의 결합 빈도를 나타낸다.
도 12는 본 개시내용의 실시양태에 따른 암 환자의 혈장 DNA에서 돌연변이와 공유 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다.
도 13은 본 개시내용의 실시양태에 따른 간세포 암종에서의 암 관련 돌연변이 및 공유 분자의 혈장 DNA 말단 모티프의 랜드스케이프를 나타낸다.
도 14는 본 개시내용의 실시양태에 따른 간세포 암종에서의 암 관련 돌연변이 및 공유 분자의 혈장 DNA 말단 모티프의 방사형 랜드스케이프를 나타낸다.
도 15a는 본 개시내용의 실시양태에 따른 HCC 환자의 혈장 DNA에서의 돌연변이 및 공유 서열 사이의 말단 모티프 빈도의 차이 상위 10개 말단 모티프를 나타낸다.
도 15b는 본 개시내용의 실시양태에 따른 HCC 환자 및 임산부에 대한 8개의 말단 모티프에 대한 결합 빈도를 나타낸다.
도 16a 및 16b는 본 개시내용의 실시양태에 따른 HCC 사례에 대한 상이한 말단 모티프 세트에 대한 공유 및 돌연변이 단편에 대한 엔트로피 값을 나타낸다.
도 17은 본 개시내용의 실시양태에 따른 측정된 순환 종양 DNA 분획에 대한 모티프 다양성 점수 (엔트로피)의 그래프이다.
도 18a는 본 개시내용의 실시양태에 따른 공여자 특이적 단편을 사용한 엔트로피 분석을 나타낸다. 도 18b는 공여자 특이적 단편을 사용한 계층적 클러스터링 분석을 나타낸다.
도 19는 본 발명의 실시양태에 따른 대상체의 생물학적 시료에서의 임상 관련 DNA의 분획 농도 추정 방법을 나타낸 순서도이다.
도 20은 본 발명의 실시양태에 따른 태아를 임신한 여성 대상체의 생물학적 시료를 분석하여 태아의 재태 연령을 결정하는 방법을 나타낸 순서도이다.
도 21은 본 개시내용의 실시양태에 따른 혈장 DNA 말단 모티프 분석을 위한 표현형 접근법의 개략도를 나타낸다.
도 22는 본 개시내용의 실시양태에 따른 모든 혈장 DNA 분자를 사용한 HCC 및 HBV 대상체 사이의 4-mer 말단 모티프의 빈도 프로파일에 대한 예를 나타낸다.
도 23a는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 다양한 대상체에 대한 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합 빈도에 대한 박스형 그래프를 나타낸다. 대조군은 암의 수준이다: 건강한 대조군 대상체; HBV: 만성 B형 간염 보균자; Cirr: 간경변 대상체; eHCC: 초기 단계 HCC; iHCC: 즉각적 단계 HCC; 및 aHCC: 진행된 단계 HCC. 도 23b는 본 개시내용의 실시양태에 따른 HCC 및 비-암 대상체 사이의 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합 빈도의 수신기 작동 특성 (ROC) 곡선을 나타낸다.
도 24a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 CCA 모티프의 빈도의 박스형 그래프를 나타낸다. 도 24b는 본 개시내용의 실시양태에 따른 비-HCC 대상체에 존재하는 가장 빈번한 3-mer 모티프 (CCA)를 사용한 비-HCC 및 HCC 그룹 간의 ROC 곡선을 나타낸다.
도 25a는 본 개시내용의 실시양태에 따른 256개의 4-mer 말단 모티프를 사용한 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 나타낸다. 도 25b는 본 개시내용의 실시양태에 따른 10개의 4-mer 말단 모티프를 사용한 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 나타낸다.
도 26a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 3-mer 모티프를 사용한 엔트로피 값의 박스형 그래프를 나타낸다. 3-mer 모티프 (총 64개 모티프)를 사용한 HCC 대상체의 엔트로피는 비-HCC 대상체의 엔트로피보다 상당히 높은 것으로 나타났다 (p-값 < 0.0001). 도 26b는 본 개시내용의 실시양태에 따른 비-HCC 및 HCC 그룹 사이의 64개의 3-mer 모티프의 엔트로피를 사용한 ROC 곡선을 나타낸다. AUC는 0.872로 확인되었다.
도 27a 및 27b는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 4-mer를 사용한 모티프 다양성 (엔트로피) 점수의 박스형 그래프를 나타낸다.
도 28은 본 개시내용의 실시양태에 따른 암으로부터 건강한 대조군을 구별하는 다양한 기술에 대한 수신기 작동 곡선을 나타낸다.
도 29는 본 개시내용의 실시양태에 따른 다양한 k-mer를 사용한 MDS 분석을 위한 수신기 작동 곡선을 나타낸다.
도 30은 본 개시내용의 실시양태에 따른 다양한 종양 DNA 분획에 대한 MDS 기반 암 검출의 성능을 나타낸다.
도 31은 본 개시내용의 실시양태에 따른 MDS, SVM, 및 로지스틱 회귀 분석에 대한 수신기 작동 곡선을 나타낸다.
도 32는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 상위 10개 말단 모티프에 대한 계층적 클러스터링 분석을 나타낸다. 상이한 그룹이 대조군을 포함한다: 건강한 대조군 대상체; HBV: 만성 B형 간염 보균자; Cirr: 간경변 대상체; eHCC: 초기 단계 HCC; iHCC: 즉각적 단계 HCC; 및 aHCC: 진행된 단계 HCC.
도 33a 내지 33c는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 나타낸다.
도 34는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 모든 혈장 DNA 분자를 사용한 3-mer 모티프에 기초한 계층적 클러스터링 분석을 나타낸다.
도 35a는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다. 도 35b는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 나타낸다.
도 36은 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이에 10개의 선택된 말단 모티프를 갖는 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다.
도 37은 본 개시내용의 실시양태에 따른 말단 모티프 및 카피 수 또는 메틸화를 포함하는 결합 분석에 대한 ROC 곡선을 나타낸다.
도 38a는 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer에 기초한 엔트로피 분석을 나타낸다. 도 38b는 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer에 기초한 클러스터링 분석을 나타낸다.
도 39는 본 개시내용의 실시양태에 따른 혈장 DNA의 말단 모티프를 정의하는데 사용되는 도 1의 기술 (140) 및 (160)에 대한 ROC 비교를 나타낸다.
도 40은 본 개시내용의 실시양태에 따른 조직 특이적 개방형 염색질 영역이 혈장 DNA 말단 모티프의 식별력을 향상시키는 것을 보여주는 정확도의 비교를 나타낸다.
도 41은 본 개시내용의 실시양태에 따른 크기 대역 기반 혈장 DNA 말단 모티프 분석을 나타낸다.
도 42는 본 개시의 실시양태에 따른 대상체의 생물학적 시료에서 병태 수준을 분류하는 방법을 나타내는 흐름도이다.
도 43은 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법을 예시하는 흐름도이다.
도 44는 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법 (3700)을 예시하는 흐름도이다.
도 45는 본 개시내용의 실시양태에 따른 CCCA 말단 모티프를 사용한 태아 DNA 분획의 증가를 도시한 예시적인 그래프를 나타낸다.
도 46은 본 발명의 일 실시양태에 따른 측정 시스템을 도시한다.
도 47은 본 발명의 실시양태에 따른 시스템 및 방법으로 사용 가능한 일례의 컴퓨터 시스템의 블록 다이어그램을 나타낸다.
본 개시내용은 시료의 특성을 측정하고/하거나 이러한 측정에 기초하여 유기체의 상태를 결정하기 위해 유기체의 생물학적 시료에서 무 세포 DNA 단편의 말단 모티프의 양 (예를 들어, 상대 빈도)을 측정하는 기술을 설명한다. 상이한 조직 유형은 서열 모티프의 상대 빈도에 대해 상이한 패턴을 나타낸다. 본 개시내용은 예를 들어 다양한 조직으로부터의 무 세포 DNA의 혼합물에서 무 세포 DNA의 말단 모티프의 상대 빈도 측정을 위한 다양한 용도를 제공한다. 그러한 조직 중 하나로부터의 DNA를 임상 관련 DNA라고 지칭할 수 있다.
특정 조직 (예를 들어, 태아, 종양 또는 이식된 장기)의 임상 관련 DNA는 특정 패턴의 상대 빈도를 나타내며, 이는 집계값으로서 측정될 수 있다. 시료 내 다른 DNA는 상이한 패턴을 나타낼 수 있으므로 시료에서 임상 관련 DNA의 양을 측정할 수 있다. 따라서, 한 실시예에서, 임상 관련 DNA의 분획 농도 (예를 들어, 백분율)는 말단 모티프의 상대 빈도에 기초하여 결정될 수 있다. 분획 농도는 숫자, 수치 범위, 또는 기타 분류, 예를 들어, 높음, 중간, 또는 낮음, 또는 분획 농도가 역치를 초과하는지 여부일 수 있다. 다양한 구현예에서, 집계값은 말단 모티프 세트에 대한 상대 빈도의 합, 모든 말단 모티프 또는 말단 모티프 한 세트 내의 상대 빈도에서의 분산 (예를 들어, 엔트로피, 모티프 다양성 점수라고도 함), 또는 기준 패턴, 예를 들어 알려진 분획 농도를 가진 보정 시료(들)에 대한 상대 빈도 배열 (벡터)로부터의 차이 (예를 들어, 총 거리)일 수 있다. 상기 배열은 상대 빈도의 기준 세트로 간주될 수 있다. 상기 차이는 계층적 클러스터링, 지원 벡터 머신, 및 로지스틱 회귀가 표본인 분류자에서 사용할 수 있다. 표본으로서, 임상 관련 DNA는 태아, 종양, 이식된 장기, 또는 기타 조직 (예를 들어, 조혈 또는 간) DNA일 수 있다.
다른 실시예에서, 병태 수준은 모티프 상대 빈도를 사용하여 결정될 수 있다. 상이한 표현형을 갖는 유기체는 무 세포 DNA 단편의 모티프 상대 빈도의 상이한 패턴을 나타낼 수 있다. 말단 모티프의 상대 빈도의 집계값을 기준값과 비교하여 표현형을 분류할 수 있다. 다양한 구현예에서, 집계값은 상대 빈도의 합, 상대 빈도의 분산, 또는 상대 빈도 기준 세트와의 차이일 수 있다. 병태의 예는 암 및 SLE와 같은 자가 면역 질환을 포함한다.
다른 실시예에서, 모티프 상대 빈도는 태아의 재태 연령을 결정하는 데 사용될 수 있다. 태아의 재태 연령이 길어짐에 따라 모체 시료에서 말단 모티프의 상대 빈도의 집계값이 변한다. 집계값은 상기 및 다른 곳에서 기재된 바와 같이 결정될 수 있다.
특정 조직으로부터의 무 세포 DNA 단편이 바람직한 말단 모티프 특정 세트를 갖는다면, 상기 바람직한 말단 모티프는 특정 조직의 DNA (임상 관련 DNA)에 대한 시료를 농화하는 데 사용될 수 있다. 상기 농화는 물리적 시료를 농화하기 위한 물리적 작업을 통해 수행할 수 있다. 일부 실시양태는, 예를 들어 프라이머 또는 어댑터를 사용하여 바람직한 말단 모티프 세트와 일치하는 종결 서열을 갖는 무 세포 DNA 단편을 포획 및/또는 증폭할 수 있다. 다른 예가 본원에 설명된다.
일부 실시양태에서, 농화는 인실리코에서 수행될 수 있다. 예를 들어, 시스템은 서열 판독을 수신한 다음 말단 모티프를 기반으로 상기 판독을 필터링하여 임상 관련 DNA에서 더 높은 농도의 상응하는 DNA 단편을 갖는 서열 판독의 하위 집합을 얻을 수 있다. DNA 단편이 바람직한 말단 모티프를 포함하는 종결 서열을 갖는 경우, 이는 관심 조직으로부터 유래되었을 가능성이 더 높은 것으로 식별될 수 있다. 상기 가능성은 본원에 기재된 바와 같이 DNA 단편의 메틸화 및 크기에 기초하여 추가로 결정될 수 있다.
이러한 말단 모티프의 사용은 말단 위치를 사용할 때 필요할 수 있는 기준 게놈의 필요성을 없앨 수 있다 (문헌 [Chan et al, Proc Natl Acad Sci USA. 2016;113:E8159-8168]; [Jiang et al, Proc Natl Acad Sci USA. 2018]; [doi: 10.1073/pnas.1814616115]). 또한, 말단 모티프의 수가 기준 게놈에서 선호되는 말단 위치의 수보다 적을 수 있으므로 각 말단 모티프에 대해 더 많은 통계를 수집하여 잠재적으로 정확도를 높일 수 있다.
상기 기술된 방식으로 말단 모티프를 사용하는 이러한 능력은 예를 들어 Chandrananda 등이 단편 시작 부위 주변 51 bp (상/하류 20 bp) 영역에 대한 모노뉴클레오타이드 빈도에 관한 위치 특이적 뉴클레오타이드 패턴 측면에서 모체와 태아 단편간에 높은 유사성이 있음을 발견하였고 (문헌 [Chandrananda et al, BMC Med Genomics. 2015; 8:29]), 이는 말단 주변의 모노뉴클레오타이드 빈도에 기반한 그들의 방법을 사용하는 것이 조직에 무 세포 DNA 단편의 기원을 알릴 수 없음을 의미한다.
I.
무 세포 DNA 말단 모티프
말단 모티프는 무 세포 DNA 단편의 종결 서열, 예를 들어 단편의 양 말단에 있는 K개 염기 서열과 관련된다. 종결 서열은 다양한 수의 염기, 예를 들어 1, 2, 3, 4, 5, 6, 7 등을 갖는 k-mer일 수 있다. 말단 모티프 (또는 "서열 모티프")는 기준 게놈의 특정 위치가 아니라 서열 자체에 관련된다. 따라서, 동일한 말단 모티프가 기준 게놈 전체에 걸쳐 수많은 위치에서 발생할 수 있다. 말단 모티프는 기준 게놈을 사용하여, 예를 들어 시작 위치 바로 앞 또는 말단 위치 바로 뒤에 염기를 확인하기 위해 결정될 수 있다. 이러한 염기는 예를 들어, 단편의 종결 서열에 기초하여 확인되기 때문에 여전히 무 세포 DNA 단편의 말단에 해당할 것이다.
도 1은 본 개시내용의 실시양태에 따른 말단 모티프의 예를 보여준다. 도 1은 분석할 4-mer 말단 모티프를 정의하는 두 가지 방법을 묘사한다. 기술 (140)에서, 4-mer 말단 모티프는 혈장 DNA 분자의 각 말단에 있는 첫번째 4-bp 서열로부터 직접 구성된다. 예를 들어, 시퀀싱 단편의 처음 4개 뉴클레오타이드 또는 마지막 4개 뉴클레오타이드가 사용될 수 있다. 기술 (160)에서, 4-mer 말단 모티프는 단편의 시퀀싱 말단으로부터의 2-mer 서열과 그 단편의 말단에 인접한 게놈 영역으로부터의 다른 2-mer 서열을 사용함으로써 공동으로 구성된다. 다른 실시양태에서, 다른 유형의 모티프, 예를 들어 1-mer, 2-mer, 3-mer, 5-mer, 6-mer 및 7-mer 말단 모티프가 사용될 수 있다.
도 1에 도시된 바와 같이, 무 세포 DNA 단편 (110)은 예를 들어 원심 분리와 같은 혈액 시료에 대한 정제 공정을 사용하여 수득된다. 혈장 DNA 단편 외에, 다른 유형의 무 세포 DNA 분자가, 예를 들어 혈청, 소변, 타액, 및 본원에 언급된 기타 이러한 무 세포 시료로부터 사용될 수 있다. 일 실시양태에서, DNA 단편은 블런트(blunt) 말단일 수 있다.
블록 (120)에서, DNA 단편은 짝을 이룬(paired)-말단 시퀀싱에 적용된다. 일부 실시양태에서, 짝을 이룬-말단 시퀀싱은 DNA 단편의 두 말단, 예를 들어, 서열 판독 당 30-120개 염기로부터 2개의 서열 판독을 생성할 수 있다. 이들 2개의 서열 판독은 DNA 단편 (분자)에 대한 판독 쌍을 형성할 수 있으며, 여기서 각 서열 판독은 DNA 단편의 각 말단의 종결 서열을 포함한다. 다른 실시양태에서, 전체 DNA 단편이 시퀀싱될 수 있고, 이에 의해 DNA 단편의 양 말단의 종결 서열을 포함하는 단일 서열 판독을 제공할 수 있다.
블록 (130)에서, 서열 판독은 기준 게놈에 정렬될 수 있다. 이러한 정렬은 서열 모티프를 정의하는 다양한 방법을 설명하기 위한 것이며 일부 실시양태에서는 사용되지 않을 수 있다. 정렬 절차는 BLAST, FASTA, Bowtie, BWA, BFAST, SHRiMP, SSAHA2, NovoAlign 및 SOAP와 같은 다양한 소프트웨어 패키지를 사용하여 수행될 수 있다.
기술 (140)은 게놈 (145)에 대한 정렬과 함께 시퀀싱 단편 (141)의 서열 판독을 보여준다. 5' 말단을 시작으로 보는 경우, 첫 번째 말단 모티프 (142) (CCCA)는 시퀀싱 단편 (141)의 시작 부분에 있다. 두 번째 말단 모티프 (144) (TCGA)는 시퀀싱 단편 (141)의 꼬리에 있다. 이러한 말단 모티프는 일 실시양태에서 효소가 CCCA를 인식한 다음 첫 번째 C 바로 전에 절단할 때 발생할 수 있다. 이 경우 CCCA는 우선적으로 혈장 DNA 단편의 말단에 있을 것이다. TCGA의 경우 효소가 이를 인식한 다음 A 뒤에 절단한다.
기술 (160)은 게놈 (165)에 대한 정렬과 함께 시퀀싱 단편 (161)의 서열 판독을 보여준다. 5' 말단을 시작으로 보는 경우, 제1 말단 모티프 (162) (CGCC)는 시퀀싱 단편 (161)의 시작 직전에 발생하는 첫 번째 부분 (CG) 및 시퀀싱 단편 (161)의 시작에 대한 종결 서열의 일부인 두 번째 부분 (CC)을 갖는다. 제2 말단 모티프 (164) (CCGA)는 시퀀싱 단편 (161)의 꼬리 바로 뒤에 발생하는 제1 부분 (GA) 및 시퀀싱 단편 (161)의 꼬리에 대한 종결 서열의 일부인 제2 부분 (CC)을 갖는다. 이러한 말단 모티프는 한 실시양태에서 효소가 CGCC를 인식한 다음 G와 C 사이를 절단할 때 발생할 수 있다. 이 경우 CC는 우선적으로 그의 직전에 발생하는 CG를 갖는 혈장 DNA 단편의 말단에 있을 것이므로, 말단 모티프 CGCC를 제공한다. 제2 말단 모티프 (164) (CCGA)의 경우로서, 효소가 C와 G 사이를 절단할 수 있다. 이 경우 CC는 우선적으로 혈장 DNA 단편의 말단에 있을 것이다. 기술 (160)의 경우, 인접한 게놈 영역 및 시퀀싱된 혈장 DNA 단편의 염기 수는 다양할 수 있으며 반드시 고정비로 제한되지는 않는다 (예를 들어, 2:2 대신 비율은 2:3, 3:2, 4:4, 2:4 등일 수 있음).
무 세포 DNA 말단 시그니처에 포함된 뉴클레오타이드 수가 많을수록, 게놈에서 정확한 배열로 6개의 염기가 정렬될 확률이 게놈에서 정확한 배열로 2개의 염기가 정렬될 확률보다 낮기 때문에 모티프의 특이도가 더 높다. 따라서, 말단 모티프의 길이 선택은 의도된 사용 용도에서 요구되는 민감도 및/또는 특이도에 의해 결정될 수 있다.
종결 서열은 서열 판독을 기준 게놈에 정렬하는 데 사용되기 때문에, 말단 서열에서 또는 직전/직후에 결정된 임의의 서열 모티프는 여전히 말단 서열로부터 결정된다. 따라서, 기술 (160)은 말단 서열을 다른 염기에 연관시키고, 여기서 기준 게놈은 상기 연관시키는 메커니즘으로 사용된다. 기술 (140)과 (160) 사이의 차이는 특정 DNA 단편이 할당되는 두 개의 말단 모티프에 있으며, 이는 상대 빈도에 대한 특정 값에 영향을 준다. 그러나 전체적인 결과 (예를 들어, 임상 관련 DNA의 분획 농도, 병태 수준의 분류 등)는 제조에 사용되는 바와 같이 일관된 기술이 트레이닝 데이터에 사용되는 한 DNA 단편이 말단 모티프에 할당되는 방식에 영향을 받지 않는다.
특정 말단 모티프에 상응하는 종결 서열을 갖는 DNA 단편의 계수된 수는 계수 (예를 들어, 메모리의 어레이에 저장)되어 상대 빈도를 결정할 수 있다. 아래에서 더 자세히 설명하는 바와 같이, 무 세포 DNA 단편에 대한 말단 모티프의 상대 빈도를 분석할 수 있다. 상이한 유형의 조직 및 상이한 표현형, 예를 들어 상이한 수준의 병태에 대해 말단 모티프의 상대 빈도의 차이가 검출되었다. 상기 차이는, 예를 들어, 말단 모티프 세트 (예를 들어, 사용된 길이에 상응하는 k-mer의 모든 가능한 조합)에 걸친 변동 (예를 들어, 엔트로피, 모티프 다양성 점수라고도 함)과 같은 특정 말단 모티프 또는 전체적인 패턴을 갖는 DNA 단편의 양에 의해 정량화될 수 있다.
II.
유전형 차이에 기반한 접근 방식
상이한 조직 유형은 상이한 말단 모티프를 갖는다는 것을 확인하였다. 본원에서는 임상 관련 DNA, 예를 들어 태아 DNA, 종양 DNA, 이식된 장기의 DNA, 또는 특정 기관의 DNA의 분획 농도를 결정하는 데 말단 모티프를 사용하는 방법을 설명한다.
특정 유형의 임상 관련 DNA에 우선하는 말단 모티프를 식별하기 위해 유전자형 차이를 사용하여 DNA 단편이 임상 관련 조직으로부터 유래된 것으로서 식별될 수 있다. DNA 단편이 임상 관련 조직에서 유래된 것으로 감지되면 DNA 단편의 말단 모티프를 결정할 수 있다. 말단 모티프의 상대 빈도에 대한 분석은 상이한 조직에 대해 말단 모티프의 상대 빈도가 다르다는 것을 나타낸다. 하기 설명되는 바와 같이, 상대 빈도의 차이의 정량화를 임상 관련 DNA의 분획 농도가 알려진 (예를 들어, 조직 특이적 대립 유전자와 같은 별도의 기술로 측정됨) 보정 시료와 함께 사용하여, 생물학적 시료에서 임상 관련 DNA의 분획 농도 분류를 결정할 수 있다.
보정 시료에서 임상 관련 DNA의 분획 농도를 측정해야 할 수도 있지만, 임상 관련 DNA에 특이적인 대립 유전자를 식별할 필요없이 결과 보정값 (예를 들어, 보정 함수의 일부로서)을 사용하여 새 시료에 대한 분획 농도를 결정할 수 있다. 이러한 방식으로, 분획 농도는 보다 강력한 방식으로 결정될 수 있다.
A.
임신
모체와 태아 게놈 사이의 유전형 차이는 태아와 모체 DNA 분자를 구별하는 데 사용될 수 있다. 예를 들어, 어머니가 동형접합성 (AA)이고 태아가 이형접합성 (AB)인 정보를 갖는 단일 뉴클레오타이드 다형성 (SNP) 부위를 사용할 수 있다.
도 2는 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다. 도 2에 도시된 바와 같이, 태아 특이적 대립 유전자 (B)를 운반하는 태아 특이적 분자 (205)가 결정될 수 있다. 다른 한편으로, 공유 대립 유전자 (A)를 운반하는 공유 분자 (207)가 결정될 수 있는데, 이는 태아 DNA 분자가 일반적으로 모체 혈장 DNA 풀에서 소수일 것이기 때문에 주로 모계 유래 DNA 분자를 나타낼 것이다. 따라서 공유 분자에서 유래된 임의의 분자 특성은 모체 배경 DNA 분자 (즉, 조혈에서 유래된 DNA 분자)의 특성을 반영한다. 대립 유전자 외에도 다른 태아 특이적 마커 (예를 들어, 후생 유전학적 마커)를 사용할 수 있다.
도 1의 기술 (140)을 사용하여 4-mer 말단 모티프를 분석하였다. 256개의 말단 모티프가 분석되었다. 본 발명자들은 각 4-mer 모티프의 비율을 계산하고 막대 그래프 (220)로 묘사된 막대 그래프를 사용하여 256개 모티프에 걸친 빈도들을 비교하였다. 이러한 막대 그래프는 각 4-mer가 말단 모티프로서 발생하는 상대 빈도 (%)를 제공한다. 용이한 도시를 위해 단지 몇 개의 4-mer만 나타내었다. 상대 빈도 (때로는 단순히 "빈도"라고도 지칭함)는 잠재적으로 분모에 2의 인수를 갖고 (말단 모티프를 갖는 DNA 단편의 수) / (분석된 총 DNA 단편 수)에 의해 결정되어, 양 말단 모두에 대해 설명할 수 있다. 이러한 백분율은 하나 이상의 다른 모티프 (잠재적으로 첫 번째 말단 모티프를 포함함)에 대한 양 대비 첫 번째 말단 모티프에 대한 하나의 양 (예를 들어, 카운트)의 비와 관련되기 때문에 상대 빈도로 간주될 수 있다. 알 수 있는 바와 같이, 말단 모티프 (222)는 상이한 조직 유형의 DNA 단편 사이에 유의한 상대 빈도 차이를 갖는다. 이러한 차이는 다양한 목적, 예를 들어, 태아 DNA에 대한 시료를 농화하거나 태아 DNA 농도를 결정하기 위해 사용될 수 있다.
막대 그래프 (220)에 도시된 상대 빈도의 값은 256개의 값을 갖는 배열에 저장된 값일 수 있다. 카운터는 말단 모티프 세트의 각 말단 모티프에 대해 존재할 수 있으며, 여기서 특정 말단 모티프에 대한 카운터는 새로운 DNA 단편이 해당 카운터에 상응하는 말단 모티프를 가질 때마다 증가한다. 모티프 세트는 다양한 방식으로, 예를 들어 모든 말단 모티프 또는 더 작은 세트 (예컨대 기준 시료에서 가장 많이 발생하는 모티프 또는 기준 시료에서 가장 큰 분리를 나타내는 모티프)로 선택될 수 있다.
다양한 정량화 기술을 사용하여 시료의 상대 빈도 측정을 제공할 수 있으며, 이러한 정량화 기술을 사용하여 임상 관련 DNA에서 무 세포 DNA의 양을 분류할 수 있다. 하나의 예시적인 정량화 기술은 본원에서 결합 빈도라고도 지칭하는 말단 모티프 세트의 상대 빈도의 합을 포함한다. 예를 들어, 이러한 세트는 특정 조직 유형에서 가장 빈번하게 발생하거나 두 조직 유형간에 가장 큰 분리를 갖는 것으로 식별되는 말단 모티프일 수 있다. 가중 합계도 사용할 수 있다. 가중치는 미리 결정되거나 가변적일 수 있으며, 예를 들어 주어진 빈도에 대한 가중치는 빈도 자체에 따라 다를 수 있다. 엔트로피가 그러한 예이다.
또 다른 실시양태에서, 태아와 모체 DNA 분자 사이의 말단 모티프의 랜드스케이프 차이를 포착하기 위해 엔트로피 기반 분석 (230)이 사용될 수 있다. 엔트로피는 변이/다양성의 예이다. 모티프의 (예를 들어, 총 256개의 모티프에 대한) 빈도 분포를 분석하기 위해 엔트로피의 한 정의는 다음 방정식을 사용한다:
여기서 P i 는 특정 모티프의 빈도이고, 더 높은 엔트로피 값은 더 높은 다양성을 나타낸다 (즉, 더 높은 수준의 무작위성).
이러한 예에서 256개의 모티프가 이들의 빈도 측면에서 동일하게 존재할 때 엔트로피는 최대값 (즉, 5.55)을 달성할 것이다. 반대로 256개 모티프의 빈도 분포가 치우치면 엔트로피가 감소할 것이다. 다른 공식, 예컨대 로그 없이 또는 로그만 사용하는 공식이 사용될 수도 있음에도 불구하고, 예를 들어, 하나의 특정 모티프가 99%를 차지하고 다른 모티프가 나머지 1%를 구성하는 경우, 상기 공식에서 엔트로피는 0.11로 감소할 것이다. 따라서, 모티프 빈도의 감소하는 엔트로피는 말단 모티프에 걸친 빈도 분포의 왜곡이 증가함을 의미한다. 모티프 빈도의 증가하는 엔트로피는 모티프에 걸친 빈도가 해당 모티프에 대해 동일한 확률로 이동한다는 것을 암시한다. 따라서, 모티프 빈도의 엔트로피는 혈장 DNA에 말단 모티프 풍부도가 얼마나 고르게 존재하는지를 측정한다. 모티프 빈도의 균일도가 높을수록 더 높은 엔트로피 값이 예상될 것이다. 즉, 모티프 빈도의 감소된 엔트로피는 그의 빈도 측면에서 말단 모티프에 걸쳐 왜곡이 증가했음을 의미할 것이다.
다양한 다른 실시예에서, 상이한 모티프 빈도 사이의 표준 편차 (SD), 변동 계수 (CV), 사분위수 범위 (IQR) 또는 특정 백분위 수 컷오프 (예를 들어, 95번째 또는 99번째 백분위 수)가 태아와 모체 DNA 분자 사이의 말단 모티프 패턴의 랜드스케이프 변화를 평가하는 데 사용될 수 있다. 이러한 다양한 실시예는 말단 모티프 세트에 대한 상대 빈도의 변이/다양성의 측정치를 제공한다. 도 2에서 엔트로피의 정의를 볼 때, 하나의 말단 모티프만 0이 아닌 카운트를 갖는 경우 엔트로피는 최소값을 가질 것이다. 다른 말단 모티프가 일부 DNA 단편에 나타나면 엔트로피가 증가할 것이다. 선택이 없으면 (모든 말단 모티프에 대한 무작위 분포, 예를 들어 모두 동일한 빈도를 갖는 하나의 가상 시나리오에서) 엔트로피는 최대값으로 이동할 것이다. 이러한 방식으로 엔트로피는 말단 모티프에 대한 무 세포 DNA 단편의 종결 서열의 포괄적 선택성을 정량화한다.
그래프 (235)는 공유 서열 (주로 모계) 및 태아 서열에 대한 엔트로피 값을 나타낸다. 공유 서열은 유전형 측정에 대한 오차 허용 범위 내에서 태아 DNA가 거의 100%인 태아 서열보다 적은 태아 DNA (원래 시료에 10% 태아 DNA가 있는 경우 잠재적으로 약 5%)를 포함한다. 이러한 분리일 경우, 시료 내 태아 DNA 농도가 클수록 엔트로피 값의 차이가 커진다. 태아 DNA 농도와 엔트로피 사이의 이러한 관계는 예를 들어 하나 이상의 보정값을 사용하여 측정된 태아 DNA 농도를 결정하는 데 사용될 수 있다. 예를 들어, 임상 관련 DNA의 농도는 다른 기술을 통해 보정 시료에 대해 측정될 수 있고 (보정값이 생성되며), 이는 예컨대 남성 태아에 대해 Y 염색체 DNA를 사용하거나 또는 종양 조직에 대해 이전에 확인된 돌연변이를 사용하는데 일반적으로 적용되지 않을 수 있다. 보정 시료에 대해 엔트로피를 측정할 경우, 두 개의 엔트로피 값 (하나는 테스트 시료용, 다른 하나는 보정 시료용)을 비교하면 보정 시료에서 측정된 농도를 사용하여 테스트 시료에 대한 분획 농도를 제공할 수 있다. 이러한 보정값 및 보정 함수 사용에 대한 자세한 내용은 뒤에 설명된다.
또 다른 실시양태에서, 클러스터링 기반 분석 (240)이 사용될 수 있다. 세로축은 4-mer 모티프에 해당하고 가로축은 다른 시료, 예를 들어 태아 DNA 농도에 대해 상이한 분류를 갖는 것에 해당한다. 색상은 특정 시료에 대한 특정 4-mer 모티프의 상대 빈도에 해당하며, 예를 들어, 낮은값을 갖는 녹색 보정 시료 (244)보다 더 높은 농도를 갖는 적색 보정 시료 (242)을 갖는 것이다.
클러스터링 기반 분석은 256개의 4-mer 말단 모티프의 빈도 프로파일의 유사성이 태아와 모체 DNA 분자 사이 유사성 (즉, 그룹 내 분자 특성)에 비교하여 태아 DNA 분자 내 또는 모체 DNA 분자 내에서 (즉, 그룹 간 분자 특성 내에서) 상대적으로 높을 것이라는 가정을 활용할 수 있다. 따라서, 공유 서열 (예를 들어, 더 높은 농도의 공유 서열)에서 유래된 말단 모티프로 특징화된 개체의 보정 시료는 태아 특이적 서열 (예를 들어, 낮은 농도의 공유 서열, 따라서 높은 농도의 태아 서열)에서 유래된 말단 모티프로 특징화된 개체의 보정 시료와 상이할 것으로 예측되었다. 각 개체는 256개의 말단 모티프 및 이들의 해당 빈도 (즉, 256차원 벡터)를 포함하는 벡터에 상응하였다. 클러스터링 기술의 예에는 계층적 클러스터링, 중심 기반 클러스터링, 분포 기반 클러스터링, 밀도 기반 클러스터링이 포함되지만 이들로 제한되지는 않는다. 모체와 태아 DNA 단편 사이의 말단 모티프의 빈도 차이로 인해 상대 빈도의 패턴이 다르기 때문에, 상이한 클러스터는 시료 내 태아 DNA의 상이한 양에 상응할 수 있다.
태아와 모체 DNA 분자 사이의 말단 모티프의 차이를 평가하기 위해 마이크로 어레이 플랫폼 (Human Omni2.5, Illumina)을 사용하여 모체 버피 코트와 태아 시료를 각각 유전형 분석하고 일치하는 혈장 DNA 시료를 시퀀싱하였다. 본 발명에서 제1 임신 삼분기 (12주 내지 14주), 제2 임신 삼분기 (20주 내지 23주) 및 제3 임신 삼분기 (제38주 내지 제40주) 각각으로부터의 10명의 임신한 여성들로부터 말초 혈액 시료를 수득하고, 각 경우로부터의 혈장 및 모체 버피 코트를 수합하였다. 본 발명자들은 어머니가 동형접합성이고 태아는 이형접합성인 195,331개의 정보성 SNP (범위: 146,428 내지 202,800)의 중앙값을 수득하였다. 태아 특이적 대립유전자를 보유한 혈장 DNA 분자는 태아 특이적 DNA 분자로서 식별되었다. 공유 대립 유전자를 운반하는 혈장 DNA 분자가 확인되었고 주로 모체 유래 DNA 분자로 여겨졌다. 그러한 시료들 중에서 태아 DNA 분획의 중앙값은 17.1% (범위: 7.0% 내지 46.8%)였다. 1억 300만개 (범위: 5,200만개 내지 1억 8,600만개) 맵핑된 짝을 이룬 말단 판독값의 중앙값이 각각의 경우 수득되었다. 각 혈장 DNA 분자의 말단 모티프는 단편 말단에 가장 가까운 4-mer 서열을 생물 정보학적으로 조사하여 결정되었다. 이러한 시료 세트의 분석 결과는 하기에 제공된다.
1.
순위에 따른 상대 빈도 차이
본 발명자들은 태아와 모체 DNA 분자 사이의 모티프 빈도 순위 차이에서 최상위 말단 모티프가 태아 및 모체 DNA 분자를 검출하거나 농화하는 데 유용할 것이라고 생각하였다. 따라서, 시퀀싱 깊이가 270x인 한 임산부에서 태아와 모체 DNA 분자 간의 빈도 차이 측면에서 말단 모티프의 순위를 매겼다. 태아 및 공유 서열은 상기 언급한 것과 유사한 방식을 사용하여 정보성 SNP에 따라 확인되었다.
도 3은 본 개시내용의 실시양태에 따른 태아 및 모체 DNA 분자 사이의 말단 모티프 빈도의 막대 그래프를 나타낸다. 데이터는 시퀀싱 깊이가 270x인 한 임산부로부터 얻은 것이다. 세로축은 주어진 4-mer 모티프를 분석된 DNA 단편의 종결 서열의 총 수 (예를 들어, DNA 단편 수의 2배)로 나눈 DNA 단편의 수 (서열 판독으로부터 결정됨)로부터 결정된 주어진 4-mer 모티프에 대한 빈도 백분율에 해당한다. 가로축은 256개의 서로 다른 4-mer에 해당한다. 4-mer는 공유 서열에 대해 감소하는 빈도로 분류되고, 도 3은 세로축에 사용되는 상이한 스케일을 갖는 두 부분으로 나뉜다. 태아 DNA 분자 (태아 특이적 대립 유전자를 갖는 것)와 모체 DNA 분자 (공유 대립 유전자를 갖는 것) 사이에서 말단 모티프의 빈도 차이가 관찰될 수 있다.
도 4는 본 개시내용의 실시양태에 따른 태아 및 공유 (즉, 태아+산모) 서열에 대한 도 3의 상위 10개의 말단 모티프를 나타낸다. 세로축이 이동되고 1%의 빈도로 시작한다. 상위 10개의 말단 모티프는 CCCA, CCAG, CCTG, CCAA, CCCT, CCTT, CCAT, CAAA, CCTC, 및 CCAC이다. 알 수 있듯이 일부 말단 모티프는 공유 서열과 태아 특이적 서열 사이에 다른 것보다 더 큰 차이가 있다. 따라서, 모체 및 태아 DNA를 구별하기 위해 단순히 가장 높은 빈도를 갖는 말단 모티프와 달리 가장 큰 차이를 가진 말단 모티프를 사용하는 것이 바람직할 수 있다.
2.
엔트로피의 용도
다양한 시료에 대해, 공유 대립 유전자를 갖는 DNA 분자의 엔트로피와 태아 특이적 대립 유전자를 갖는 DNA 분자의 엔트로피를 분석하였다. 전자는 모체로 식별되고 후자는 태아로 식별된다. 각 시료에 대해, 태아 DNA 분자에 대한 엔트로피와 공유 DNA 분자("모체"로 표시됨)에 대한 엔트로피인 두 개의 데이터 포인트를 수득하였다.
도 5a는 태아 DNA 분자에서 말단 모티프의 엔트로피가 모체 DNA 분자에서의 것보다 낮다는 것을 보여주며 (p-값 < 0.0001), 이는 모체 DNA 분자에서 유래한 말단 모티프의 분포에 더 높은 왜곡이 있음을 시사한다. 주어진 시료 및 주어진 태아 DNA 또는 모체 DNA 분자 풀에 대해 4-mer가 이들 실시예에서 사용되었으므로 도 5a에서 엔트로피는 256개의 모티프 모두를 사용하여 결정된다.
도 2의 그래프 (235)와 유사하게, 두 조직 유형에 대한 엔트로피의 차이는 엔트로피가 무 세포 DNA 단편의 혼합물 (예를 들어, 혈장 또는 혈청)에서 태아 DNA의 분획 농도를 결정하는 데 사용될 수 있음을 보여준다. 상기 설명한 바와 같이, 태아 DNA로 식별된 풀은 모체 풀보다 태아 DNA 백분율이 더 높다 (예를 들어, 거의 100%). 풀 유형에 대해 결정된 엔트로피 값이 상이하다. 따라서 엔트로피와 태아 DNA 농도 사이에는 관계가 있다. 이러한 관계는 보정 시료의 태아 DNA 농도 측정치 (보정값) 및 상응하는 엔트로피 값 (상대 빈도의 예)을 기반으로 한 보정 함수로 결정될 수 있고, 여기서 보정값과 상대 빈도는 보정 데이터 포인트를 형성할 수 있다. 상이한 태아 DNA 농도를 갖는 보정 시료는 상이한 엔트로피 값을 갖는다. 보정 함수는 새로 측정된 상대 빈도 (예를 들어, 엔트로피)가 보정 함수에 대한 입력이어서 태아 DNA 농도의 출력을 제공할 수 있도록 보정 데이터 포인트에 적합할 수 있다.
도 5b는 도 4의 10개 모티프의 상대 빈도가 사용될 경우 엔트로피를 나타낸다. 도시된 바와 같이, 이러한 주어진 10개의 말단 모티프 세트에 대해 더 높은 엔트로피를 갖는 태아 서열과 함께 관계가 변한다. 태아 DNA의 분획 농도는 여전히 결정될 수 있지만 다른 보정 함수가 사용될 것이다. 따라서 보정에 사용되는 모티프 세트는 나중에 사용될 때, 즉, 엔트로피를 기반으로 분획 농도를 측정하거나 세트에 대한 상대 빈도의 다른 집계값을 측정할 때와 동일해야 한다.
3.
클러스터링
임산부에 대한 계층적 클러스터링 분석을 추가로 수행했으며, 임산부 각각은 모든 4-mer 말단 모티프 빈도를 포함하는 256차원 벡터에 의해 특징화되었다. 실제로, 태아 특이적 서열과 모체 DNA 분자에서 유래된 말단 모티프를 특징으로 하는 개체는 두 그룹으로 클러스터링될 수 있다.
도 6a 및 6b는 본 개시내용의 실시양태에 따른 제1 임신 삼분기 동안의 태아 및 모체 DNA 분자에 대한 계층적 클러스터링 분석을 보여준다. 도 6a는 256개의 4-mer 말단 모티프 빈도에 기초한 계층적 클러스터링 분석을 보여준다. 세로축은 4-mer 모티프에 해당하고 가로축은 다양한 시료의 상이한 부분 (즉, 태아 특이적 서열 (620) (노란색) 및 공유 서열 (610) (파란색))에 해당한다. 상기 색상은 시료의 특정 부분에 대한 특정 4-mer 모티프의 상대 빈도에 해당한다.
상기 상이한 부분 (태아 특이적 및 공유)은 태아 DNA 농도가 다르므로 태아 DNA 농도에 대해 다른 분류를 가질 것이다. 이러한 클러스터링이 보정 시료를 사용하여 수행될 때, 태아 DNA 농도는 예를 들어 상기 엔트로피 섹션에 설명된 바와 같이 측정될 수 있다. 각 보정 시료는 사용된 모티프의 수 (예를 들어, 다른 k-mer가 사용될 수도 있지만 모든 4-mer에 대해 256개 또는 잠재적으로 4-mer의 하위집합, 태아 서열 및 공유 서열 사이의 가장 큰 차이를 가질 수 있기 때문임)와 동일한 길이의 상응하는 벡터를 가질 것이다.
도 6b는 256개의 4-mer 말단 모티프 빈도에 기초한 계층적 클러스터링 분석을 위한 확대 시각화를 보여준다. 각 행은 말단 모티프의 한 유형 (즉, 상이한 말단 모티프)을 나타낸다. 각 열은 임신한 대상체를 나타낸다. 그라데이션 색상은 말단 모티프의 빈도를 나타낸다. 빨간색은 가장 높은 빈도를 나타내고 녹색은 가장 낮은 빈도를 나타낸다. 알 수 있듯이 태아 DNA 농도가 상이한 시료를 나타내는 두 부분 (태아 및 공유)은 두 개의 개별 클러스터로 깔끔하게 클러스터링되어 서로 다른 수준의 태아 DNA 농도로 시료를 구별할 수 있는 좋은 정확도를 보여준다.
4.
상이한 삼분기의 시료
분획 농도를 달리하여 시료를 차별화할 수 있는 것 외에도, 일부 실시양태에서는 재태 연령을 달리하여 (예를 들어, 임신 삼분기 중 어디에 속하는지 또는 제3 삼분기인지 여부로) 임신 대상체로부터의 시료를 차별화할 수 있다.
도 7a 및 7b는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대해 모든 모티프를 사용한 엔트로피 분포를 나타낸다. 흥미롭게도, 태아 특이적 단편을 사용하여 결정된 수많은 말단 모티프의 엔트로피 값은 재태 연령 (p 값: 0.024, 제2 및 제3 삼분기로부터 풀링된 데이터에 대한 제1 삼분기 데이터)과 관련된 것으로 나타났지만, 공유 단편 (주로 모체 DNA)으로부터의 엔트로피 값은 재태 연령 (P 값: 1, 제2 및 제3 삼분기로부터 풀링된 데이터에 대한 제1 삼분기 데이터)과 연관되지 않는 것으로 나타났다. 임신 후기에는 일반적으로 태아 DNA 농도가 더 높다. 따라서 농도와 재태 연령 사이에 상관 관계가 있을 수 있다.
태아 특이적 단편의 경우, 제1 임신 삼분기에 비해 제2 및 제3 임신 삼분기는 엔트로피가 감소한다. 따라서 태아 단편은 재태 연령을 전달할 수 있다. 그리고 공유 단편은 본질적으로 일정한 엔트로피를 갖기 때문에 (예를 들어, 대부분 모체 단편 및/또는 이러한 태아 신호를 제거하는 말단 모티프의 모체 생리학 관련 변화로 인해), 모든 단편에 대한 엔트로피의 변화는 태아 단편의 변화로 인한 재태 연령을 반영할 것이다. 상이한 임신 삼분기 사이의 엔트로피 관계는 모체 단편의 존재로 인한 변화를 적게 보여주지만, 관계는 여전히 존재한다. 하지만 태아 특이적 대립 유전자를 확인할 수 있는 경우 (예를 들어, 남성 태아, 또는 예상되는 태아 DNA 농도와 유사한 비율로 발생하는 대립 유전자를 확인하거나 부모 유전자형 정보를 사용함으로써) 더 뚜렷한 관계가 존재할 것이다 (예를 들어 도 7b에 도시된 바와 같음).
도 7c 및 7d는 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 임산부에 대해 10개의 모티프를 사용한 엔트로피 분포를 나타낸다. 10개의 모티프는 공유 단편에서 결정된 순위를 통해 선택되었다. 이들 도면은 특정 모티프 선택으로 인해 관계가 감소할 수 있더라도 (도 7b의 증가와 반대) 태아 특이적 단편에 대한 상이한 삼분기에 대해 엔트로피가 여전히 변화함을 보여준다.
도 8a는 본 개시내용의 실시양태에 따른 상이한 재태 연령에 걸친 모든 단편에 대한 엔트로피를 나타낸다. 엔트로피는 256개의 4-mer 말단 모티프를 모두 사용하여 결정된다. 제3 삼분기인 대상체에서의 혈장 DNA 단편의 엔트로피는 제1 및 제2 삼분기인 대상체에서의 엔트로피보다 낮은 것 (p 값=0.06)으로 나타났다. 그리고, 제2 삼분기에 대한 평균은 제1 삼분기보다 낮다. 따라서, 모든 태아 단편이 포함되는 경우 (도 7a의 공유 단편과 반대), 엔트로피는 재태 연령을 제공한다.
도 8b는 상이한 재태 연령에 걸친 Y 염색체 유래 단편에 대한 엔트로피를 나타낸다. 제3 삼분기인 대상체에서의 Y 염색체 유래 단편의 엔트로피는 제1 및 제2 삼분기에서보다 낮은 것 (p 값=0.01)으로 나타났다. 태아 분자에 대해 (Y 염색체로부터의 태아 특이적 서열을 사용하여) 필터링된 시료들은 제3 삼분기와 제2 삼분기 사이의 더 큰 분리를 보여준다.
도 9 및 10은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 모체 DNA 분자 사이의 상위 10개의 말단 모티프의 분포를 보여준다. 태아와 모체 DNA 분자 사이의 모티프 빈도 순위 차이에서 상위 10개의 말단 모티프는 하나의 단일 심층 시퀀싱 임신 사례로부터 채굴되었다. 그 후 이러한 상위 10개의 말단 모티프는 각 시료를 분석하는 데 사용되었다.
이러한 관심 말단 모티프를 운반하는 태아 및 공유 DNA 분자의 비율은 제1 임신 삼분기 (12주 내지 14주), 제2 임신 삼분기 (20주 내지 23주) 및 제3 임신 삼분기 (38주 내지 40주) 각각으로부터의 10명의 임신 여성을 포함하는 독립 코호트에서 계산되었다. 공유 분자에 비해 태아 DNA 분자에서 더 높은 것으로 밝혀진 다수의 말단 모티프가 있는데, 이는 이러한 말단 모티프가 기원 조직과의 특정 관계를 가짐을 시사한다. 예를 들어, CAAA%의 중앙값은 제1 임신 삼분기 (1.26% 대 1.11%), 제2 임신 삼분기 (1.24% 대 1.11%), 제3 임신 삼분기 (1.24% 대 1.15%)에 걸쳐 공유 분자 (주로 모체)보다 태아 DNA 분자에서 지속적으로 더 높은 것으로 나타났다. 따라서, 종결 모티프 CAAA는 CAAA의 종결 서열을 갖는 특정 DNA 단편이 태아로부터 유래된 것일 가능성이 증가됨을 나타내는 마커로서 확인될 수 있다.
특정 말단 모티프는 재태 연령과 더 뚜렷한 관계를 보여준다. 예를 들어, 말단 모티프 CCCA를 갖는 태아 DNA 분자는 CCAG, CCTG, CCAA, CCCT, 및 CCAC와 마찬가지로 재태 연령에 따라 지속적인 (단조) 증가를 나타낸다. 그러나 CCTT는 중앙값이 제2 임신 삼분기에서 떨어지는 것과 같이 지속적인 증가를 나타내지 않고, 그 후 제3 임신 삼분기에서 증가한다.
또 다른 실시양태에서, 상위 10개의 말단 모티프를 조합하여 상이한 임신 삼분기에 걸친 태아 및 모체 DNA 분자 사이의 차이를 볼 수 있다.
도 11은 본 개시내용의 실시양태에 따른 상이한 임신 삼분기에 걸친 태아 및 공유 분자 사이의 상위 10개의 모티프의 결합 빈도를 보여준다. 도 11에 도시된 바와 같이, 태아 및 모체 DNA 분자 사이의 상위 10개의 말단 모티프의 결합 빈도에서의 차이가 제1 임신 삼분기 (p 값: 0.92)와 비교할 때 제2 임신 삼분기 (p 값: 0.013) 및 제3 임신 삼분기 (p 값: 0.0019) 모두에서 비교적 더 컸다. 태아 분자에 대한 빈도는 제1 임신 삼분기에서 제2 임신 삼분기에서 제3 임신 삼분기로 갈수록 끊임없이 증가하는 반면에, 이러한 지속적인 관계는 공유 분자에 대해서는 나타나지 않는다. 이것은 상이한 생리적 조건 (예를 들어, 재태 연령)이 상이한 기원 조직으로부터 유래된 말단 모티프에 영향을 미칠 것이라는 것을 보여준다.
B.
종양학
임신과 관련하여 고안된 유전형 수단은 종양학의 맥락에서도 적용될 수 있다.
도 12는 본 개시내용의 실시양태에 따른 암 환자의 혈장 DNA에서 돌연변이 및 공유 분자 사이의 차별적인 말단 모티프 패턴을 분석하기 위한 유전형 차이 기반 접근법의 개략도를 나타낸다. 도 12에 도시된 바와 같이, 종양 특이적 대립 유전자 (B)를 운반하는 종양 특이적 분자 (1205)가 결정될 수 있다. 다른 한편으로, 공유 대립 유전자 (A)를 운반하는 공유 분자 (1207)가 결정될 수 있는데, 이는 종양 DNA 분자가 일반적으로 혈장 DNA 풀에서 소수이기 때문에 우세하게 건강한 유래 DNA 분자를 나타낼 것이다.
예를 들어, 돌연변이 서열 (즉, 암 관련 돌연변이를 운반하는 혈장 DNA) 및 공유 서열 (주로 조혈 유래 DNA)을 확인할 수 있다. 암 관련 돌연변이는 종양 조직 (간세포 암종, HCC)에 존재하지만 정상 세포에는 없는 변이체 (예를 들어, 버피 코트)로 정의될 수 있다. 예를 들어, HCC 환자에서 종양 조직의 유전자형이 특정 게놈 유전자좌에서 "AG"이고 버피 코트 세포의 유전자형이 "AA"라고 가정하면 종양 조직에 특이적으로 존재하는 "G"는 암 관련 돌연변이로 간주되고 "A"는 공유 야생형 대립 유전자로 간주될 것이다. 다양한 구현예에서, 돌연변이 서열은 종양으로부터 조직 생검을 시퀀싱하거나, 예를 들어 미국 특허 공개 2014/0100121에 기재된 바와 같이 혈장 또는 혈청과 같은 무 세포 시료를 분석함으로써 얻을 수 있다.
돌연변이 서열과 공유 서열 사이의 말단 모티프의 빈도 프로파일은 혈장 DNA가 깊이 220x로 시퀀싱된 HCC 환자에서 결정되었다. 막대 그래프 (1220)는 각 4-mer가 돌연변이 및 공유 서열에 대한 말단 모티프로서 발생하는 상대 빈도 (%)를 제공한다. 이러한 상대 빈도는 도 2의 막대 그래프 (220)에 대해 전술한 바와 같이 결정될 수 있다. 알 수 있듯이, 말단 모티프 (1222)는 서로 다른 조직 유형의 DNA 단편 사이의 상대 빈도에 상당한 차이가 있다. 이러한 차이는 다양한 목적을 위해, 예를 들어 종양 DNA에 대한 시료를 농화하거나 종양 DNA 농도를 결정하기 위해 사용될 수 있다.
또 다른 실시양태에서, 종양과 공유 DNA 분자 사이의 말단 모티프의 랜드스케이프 차이를 포착하기 위해, 도 2와 유사한 엔트로피 기반 분석 (1230)이 사용될 수 있다. 그래프 (1235)는 공유 서열 및 종양 서열에 대한 엔트로피 값을 보여준다. 엔트로피 또는 다른 분산 메트릭에서의 차이는 예를 들어 보정 함수를 사용하여 종양 분획 농도를 제공할 수 있다.
또 다른 실시양태에서, 도 2의 태아 분석과 유사하게 클러스터링 기반 분석 (1240)이 수행될 수 있다. 시료에서 종양 서열의 양에 대한 분류는 종양 분획의 분류가 알려진 기준 클러스터에 속하는 새로운 시료를 기반으로 결정될 수 있다.
1.
순위에 따른 상대 빈도 차이
도 13은 본 개시내용의 실시양태에 따른 간세포 암종에서 암 관련 돌연변이체 및 공유 분자의 혈장 DNA 말단 모티프의 랜드스케이프를 나타낸다. 돌연변이와 공유 서열 사이에서 이들로 제한되는 것은 아니지만 예를 들어 CCCA, CCAG, CCAA, CCTG, CCTT, CCCT, CAAA, CCAT, TAAA, AAAA 모티프로 변경되는 것으로 관찰된 다수의 말단 모티프가 있었다. 도 13은 도 3과 유사한 정보를 나타내지만, 임상 관련 DNA에 대해서는 태아 DNA와 반대로 종양 DNA이다.
도 14는 본 개시내용의 실시양태에 따른 간세포 암종에서 암 관련 돌연변이 및 공유 분자의 혈장 DNA 말단 모티프의 방사형 랜드스케이프를 나타낸다. 다른 말단 모티프는 외주에 나열되며 말단 모티프의 빈도는 다른 방사형 길이로 표시된다. 말단 모티프는 비-종양 (예를 들어, 건강한) 세포의 야생형 (wt) 대립 유전자의 빈도에 따라 분류된다. 빈도 값 (1410)은 wt 대립 유전자에 해당하고, 빈도 값 (1420)은 돌연변이 (mut) 대립 유전자에 상응한다. 이 방사형 뷰는 야생형 (공유) 서열과 비교하여 돌연변이 서열에 대한 말단 모티프의 상대 빈도에서 상당한 차이를 나타낸다.
도 15a는 본 개시내용의 실시양태에 따른 HCC 환자의 혈장 DNA에서 돌연변이 및 공유 서열 사이의 말단 모티프 빈도의 순위 차이에서 상위 10개의 말단 모티프를 보여준다. 기준 시료에서 공유 서열에 대해 최상위 말단 모티프가 결정된다. 나타낸 바와 같이, 최상위 말단 모티프는 CCCA, CCAG, CCAA, CCTG, CCTT, CCCT, CAAA, CCAT, TAAA, 및 AAAA이다. 상대 빈도의 차이는 말단 모티프에 따라 다르다. 예를 들어, 돌연변이 및 공유 서열 사이의 대부분의 차이를 나타내는 모티프 (CCCA)는 각각 1.9% 및 1.6%로 밝혀졌으며, 이는 공유 서열 (주로 혈액 세포 유래 야생형 서열)에 비해 그러한 모티프에 대한 돌연변이 서열에서의 15% 감소를 암시한다.
도 15b는 본 개시내용의 실시양태에 따른 HCC 환자 및 임산부에 대한 8개의 말단 모티프에 대한 결합 빈도를 나타낸다. 결합 빈도는 예를 들어, 말단 모티프 세트의 상대 빈도의 합과 같은 예시적인 집계값이다. 알 수 있듯이, 야생형 (WT)과 돌연변이, 및 모체와 태아 서열이라는 이러한 두 가지 시나리오 각각에서 두 유형의 서열들에 대한 결합 빈도에서의 분리가 있다. 야생형 (WT)과 돌연변이 사이의 결합 빈도에 대한 분리는 모체 및 태아 서열에 대한 분리보다 크다.
이 결합 빈도는 태아 분석을 위한 엔트로피 그래프와 유사한 행동방식을 보여준다. 따라서, 도 15b는 임상 관련 DNA의 분획 농도를 결정하는 데 사용될 수 있는 상대 빈도의 집계값의 또 다른 예를 보여준다. 그리고, 도 15b의 wt 대 돌연변이 관계는 다른 임상 관련 DNA (예를 들어, 종양 DNA)의 분획 농도도 또한 결정될 수 있음을 보여준다.
2.
엔트로피의 용도
도 16a 및 16b는 본 개시내용의 실시양태에 따른 HCC 사례에 대한 상이한 말단 모티프 세트에 대한 공유 및 돌연변이 단편의 엔트로피 값을 나타낸다. 태아 서열에서와 마찬가지로 두 가지 유형의 서열에 대한 엔트로피 사이의 관계는 사용된 말단 모티프 세트에 따라 달라질 수 있다. 도 16a는 4-mer에 대해 256개의 말단 모티프를 모두 사용한다. 돌연변이 단편에 대한 보다 균일한 빈도 분포 (예를 들어, 더 편평함)로 인해, 돌연변이 단편에 대한 엔트로피가 더 높다. 그리고 더 높은 왜곡 빈도 분포로 인해 공유 단편에 대한 엔트로피가 더 낮다.
도 16b는 공유 단편에 대해 HCC 대상체에서 발생하는 4-mer에 대한 상위 10개의 말단 모티프를 사용한다. 상위 10개 모티프의 경우 엔트로피의 관계는 반대이다. 도 16a 및 16b 둘 모두는 태아 DNA 농도를 결정하기 위한 보정 분석이 종양 DNA 농도를 결정하는 데에도 사용될 수 있음을 보여준다.
상기 설명한 바와 같이 엔트로피 값이 높을수록 말단 모티프의 다양성이 더 높아진다. 모티프 다양성 점수 (MDS)는 순환 무 세포 DNA의 생물학적 시료에서 임상 관련 DNA (예를 들어, 태아, 이식, 또는 종양)의 분획 농도를 추정하는 데 사용할 수 있다.
도 17은 본 개시내용의 실시양태에 따른 측정된 순환 종양 DNA 분획에 대한 모티프 다양성 점수의 그래프이다. 복수의 보정 시료 각각에 대해, 보정 데이터 포인트 (1705)가 측정되었다. 보정 데이터 포인트는 시료에 대한 모티프 다양성 점수와 임상 관련 DNA의 분획 농도 (이 경우 종양 DNA 분획)를 포함한다. 종양 DNA 분획은 암 관련 카피 수 수차를 이용하여 혈장 DNA의 종양 DNA 분획을 측정한 소프트웨어 패키지인 ichorCNA를 기반으로 추정되었다 (Adalsteinsson et al. 2017).
주어진 시료는 종양 DNA가 없는 건강한 대조군 시료이거나 종양이 있는 환자의 시료일 수 있으며, 여기서 종양 DNA 분획은 0이 아니고, 즉, 종양 DNA 및 기타 (예를 들어, 건강한) DNA가 있다. HCC 환자의 혈장 DNA MDS 값은 종양 DNA 분획과 양의 상관 관계가 있는 것으로 나타났다 (Spearman의 ρ:0.597; p값:0.0002). 이것은 보정 함수 (1710) (이 예에서는 선형 함수)으로 표시된다.
모티프 다양성 점수가 측정된 새로운 시험 시료에서 보정 함수 (1710)을 사용하여 종양 DNA 분획을 결정할 수 있다. 보정 함수 (1710)는 예를 들어 회귀를 사용하여 보정 데이터 포인트 (1705)에 대한 함수적 피팅에 의해 결정될 수 있다.
일부 실시예에서, 새로운 시료에 대한 MDS의 계산값 X는 함수 F(X)에 대한 입력으로 사용될 수 있으며, 여기서 F는 보정 함수 (곡선)이다. F(X)의 출력은 분획 농도이다. 각 X 값마다 다를 수 있는 오차 범위를 제공하여 값의 범위를 F(X)의 출력으로서 제공할 수 있다. 다른 실시예에서, 새로운 시료에서 MDS에 대한 측정치 0.95에 해당하는 분획 농도는 MDS 0.95에서 보정 데이터 포인트로부터 계산된 평균 농도로 결정될 수 있다. 다른 예로서, 보정 데이터 포인트 (1705)는 특정 보정 값에 대한 분획 DNA 농도의 범위를 제공하는 데 사용될 수 있으며, 여기서 상기 범위는 분획 농도가 역치를 초과하는지 결정하는 데 사용될 수 있다.
C.
이식
유전형 기술은 또한 간 이식과 같은 이식을 모니터링하는 데 적용될 수 있다. 수혜자가 동형접합성이고 공여자가 이형접합성인 SNP 부위는 이식 환자의 혈장에서 공여자 특이적 DNA 분자와 대부분이 조혈계인 DNA를 결정할 수 있게 할 것이다.
도 18a는 본 개시내용의 실시양태에 따른 공여자 특이적 단편을 사용한 엔트로피 분석을 나타낸다. 도 18b는 공여자 특이적 단편을 사용한 계층적 클러스터링 분석을 보여준다. 도 18a 및 18b에 도시된 바와 같이, 간 이식의 맥락에서, 간 특이적 DNA 분자는 공유 서열 (주로 혈액 유래 DNA)과 상이한 특성을 갖는 것으로 관찰되었다. 혈장 DNA 말단 모티프의 엔트로피는 일반적으로 공유 서열과 비교하여 공여자 특이적 DNA 분자 (간 DNA)에서 더 낮은 것으로 밝혀졌다 (도 18a). 간 특이적 DNA 분자에서 유래된 말단 모티프를 특징으로 하는 개체가 함께 클러스터링되었고, 공유 DNA 분자에서 유래된 말단 모티프를 특징으로 하는 개체는 다른 그룹으로 클러스터링되었다.
D.
분획 농도 분류
전술한 바와 같이, 하나 이상의 말단 모티프 세트의 상대 빈도를 사용하여 임상 관련 DNA의 분획 농도 분류를 결정할 수 있다.
도 19는 본 개시내용의 실시양태에 따른 대상체의 생물학적 시료에서 임상 관련 DNA의 분획 농도를 추정하는 방법 (1900)을 예시하는 흐름도이다. 생물학적 시료는 임상 관련 DNA 및 기타 무 세포 DNA를 포함할 수 있다. 다른 실시예에서, 생물학적 시료는 임상 관련 DNA를 포함하지 않을 수 있으며 추정 분획 농도는 0 또는 낮은 비율의 임상 관련 DNA를 나타낼 수 있다. 방법 (1900) 및 본원에 기재된 임의의 다른 방법의 양태는 컴퓨터 시스템에 의해 수행될 수 있다.
블록 (1910)에서, 생물학적 시료로부터의 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득한다. 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함할 수 있다. 예로서, 서열 판독은 시퀀싱 또는 프로브 기반 기술을 사용하여 얻을 수 있으며, 이들 기술 중 어느 하나는 예를 들어 증폭 또는 포획 프로브를 통한 농화를 포함할 수 있다.
시퀀싱은 여러 가지 방식으로, 예를 들어, 대규모 병렬 시퀀싱 또는 차세대 시퀀싱을 사용하여, 단일 분자 시퀀싱을 사용하여, 및/또는 이중 가닥 또는 단일 가닥 DNA 시퀀싱 라이브러리 제조 프로토콜을 사용하여 수행될 수 있다. 당업자는 사용될 수 있는 다양한 시퀀싱 기술을 이해할 것이다. 시퀀싱의 일부로서, 서열 판독 중 일부는 세포 핵산에 상응할 수 있는 것일 수 있다.
시퀀싱은 본원에 기재된 바와 같이 표적화된 시퀀싱일 수 있다. 예를 들어, 생물학적 시료는 특정 영역의 DNA 단편에 대해 농화될 수 있다. 농화는, 예를 들어 기준 게놈에 의해 정의된 바와 같이 게놈의 일부 또는 전체 게놈에 결합하는 포획 프로브를 사용하는 것을 포함할 수 있다.
통계적으로 유의한 수의 무 세포 DNA 분자가 분석되어, 분획 농도의 정확한 결정을 제공할 수 있다. 일부 실시양태에서, 적어도 1,000개의 무 세포 DNA 분자가 분석된다. 다른 실시양태에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개 이상의 무 세포 DNA 분자가 분석될 수 있다.
블록 (1920)에서, 복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대해 서열 모티프가 결정된다. 서열 모티프는 N개의 염기 위치 (예를 들어, 1, 2, 3, 4, 5, 6 등)를 포함할 수 있다. 예로서, 서열 모티프는, DNA 단편의 말단에 해당하는 말단에서 서열 판독을 분석하고, 신호를 특정 모티프 (예를 들어, 프로브가 사용되는 경우)와 연관시키고/시키거나 서열 판독을 기준 게놈에 정렬, 예를 들어, 도 1에 도시된 바와 같이 함으로써 결정될 수 있다.
예를 들어, 시퀀싱 장치에 의한 시퀀싱 후, 서열 판독은 컴퓨터 시스템에 의해 수신될 수 있으며, 상기 시스템은 시퀀싱을 수행하는 시퀀싱 장치에 예를 들어, 유선 또는 무선 통신을 통해 또는 탈착 가능한 메모리 장치를 통해 통신가능하게 커플링될 수 있다. 일부 구현예에서, 핵산 단편의 2개 말단 모두를 포함하는 하나 이상의 서열 판독이 수신될 수 있다. DNA 분자의 장소는, DNA 분자의 하나 이상의 서열 판독을 인간 게놈의 각각의 부분, 예를 들어, 특이적인 영역에 맵핑 (정렬)함으로써 결정될 수 있다. 다른 실시양태에서, 특정 프로브 (예를 들어, PCR 또는 다른 증폭 후)는 예컨대 특정 형광 색상을 통해 장소 또는 특정 말단 모티프를 나타낼 수 있다. 식별은 무 세포 DNA 분자가 서열 모티프 세트 중 하나에 해당한다는 것일 수 있다.
블록 (1930)에서, 복수의 무 세포 DNA 단편의 종결 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도가 결정된다. 서열 모티프의 상대 빈도는 서열 모티프에 상응하는 종결 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공할 수 있다. 하나 이상의 서열 모티프 세트는 하나 이상의 기준 시료의 기준 세트를 사용하여 식별될 수 있다. 임상 관련 DNA의 분획 농도는 기준 시료에 대해 공지될 필요가 없지만, 유전형 차이는 임상 관련 DNA의 말단 모티프와 다른 DNA (예를 들어, 건강한 DNA, 모체 DNA, 또는 이식된 장기를 수여받은 대상체의 DNA) 사이의 차이를 식별할 수 있도록 결정될 수 있다. 특정 말단 모티프는 상기 차이를 기준으로 선택될 수 있다 (예를 들어, 절대적 차이 또는 백분율 차이가 가장 큰 말단 모티프를 선택하기 위함). 상대 빈도의 예는 본 개시내용 전반에 걸쳐 설명된다.
일부 구현예에서, 서열 모티프는 N개의 염기 위치를 포함하고, 여기서 하나 이상의 서열 모티프 세트는 N개의 염기의 모든 조합을 포함한다. 일부 실시예에서, N은 2 또는 3 이상의 정수일 수 있다. 하나 이상의 서열 모티프 세트는 분획 농도를 보정하는 데 사용되지 않는 하나 이상의 보정 시료 또는 다른 기준 시료에서 발생하는 상위 M개 (예를 들어, 10) 가장 빈번한 서열 모티프일 수 있다.
블록 (1940)에서, 하나 이상의 서열 모티프 세트의 상대 빈도의 집계값이 결정된다. 예시적인 집계값은 본 개시내용 전반에 걸쳐 설명되고, 예를 들어, 엔트로피 값 (모티프 다양성 점수), 상대 빈도의 합, 및 모티프 세트에 대한 벡터 카운트 (예를 들어, 가능한 4-mer의 245개 모티프에 대한 벡터 256 카운트 또는 가능한 3-mer의 64개 모티프에 대한 벡터 64 카운트)에 상응하는 다차원 데이터 포인트를 포함한다. 하나 이상의 서열 모티프 세트가 복수의 서열 모티프를 포함할 때, 집계값은 세트의 상대 빈도의 합을 포함할 수 있다.
예를 들어, 하나 이상의 서열 모티프 세트가 복수의 서열 모티프를 포함할 때, 집계값은 세트의 상대 빈도의 합을 포함할 수 있다. 다른 예로, 집계값은 상대 빈도의 변이에 해당할 수 있다. 예를 들어 집계값에는 엔트로피 항이 포함될 수 있다. 상기 엔트로피 항은 항들의 합을 포함할 수 있으며, 각 항은 상대 빈도에 상대 빈도의 로그를 곱한 값을 포함한다. 다른 예로서, 집계값은 머신 러닝 모델, 예를 들어 클러스터링 모델의 말단 또는 중간 출력을 포함할 수 있다.
블록 (1950)에서, 생물학적 시료에서 임상 관련 DNA의 분획 농도의 분류는 집계값을 하나 이상의 보정값과 비교하여 결정된다. 상기 하나 이상의 보정값은 임상 관련 DNA의 분획 농도가 알려진 (예를 들어, 측정된 것) 하나 이상의 보정 시료로부터 결정될 수 있다. 상기 비교는 복수의 보정값에 대한 것일 수 있다. 상기 비교는 시료에서 임상 관련 DNA의 분획 농도의 변화에 대한 집계값의 변화를 제공하는 보정 데이터에 피팅되는 보정 함수에 집계값을 입력하여 발생할 수 있다. 다른 예로서, 상기 하나 이상의 보정값은 하나 이상의 보정 시료에서 무 세포 DNA 단편을 사용하여 측정되는 하나 이상의 서열 모티프 세트의 상대 빈도의 하나 이상의 집계값에 해당할 수 있다.
보정값은 각 보정 시료에 대한 집계값으로 계산할 수 있다. 보정 데이터 포인트는 각 시료에 대해 결정될 수 있으며, 상기 보정 데이터 포인트에는 보정값과 시료에 대해 측정된 분획 농도가 포함된다. 이러한 보정 데이터 포인트는 방법 (1900)에서 사용되거나 최종 보정 데이터 포인트를 결정하는 데 사용될 수 있다 (예를 들어 함수적 피팅을 통해 정의됨). 예를 들어 선형 함수는 분획 농도의 함수로서 보정값에 피팅될 수 있다. 선형 함수는 방법 (1900)에서 사용할 보정 데이터 포인트를 정의할 수 있다. 신규 시료의 신규 집계값은 출력 분획 농도를 제공하기 위한 비교의 일부로서 함수에 대한 입력으로 사용될 수 있다. 따라서, 상기 하나 이상의 보정값은 복수의 보정 시료의 임상 관련 DNA의 분획 농도를 사용하여 결정되는 보정 함수의 복수의 보정값일 수 있다.
또다른 예로서, 신규 집계값은 동일한 분획 농도 분류 (예를 들어, 동일한 범위)를 갖는 시료에 대한 평균 집계값과 비교될 수 있으며, 보정값이 또 다른 분류에 대한 평균에 대해 가까운 것보다 상기 신규 집계값이 상기 평균에 더 가까운 경우, 신규 시료는 가장 가까운 보정값과 동일한 농도를 갖는 것으로 결정될 수 있다. 이러한 기술은 클러스터링을 수행할 때 사용할 수 있다. 예를 들어, 보정값은 분획 농도의 특정 분류에 해당하는 클러스터의 대표값이 될 수 있다.
보정 데이터 포인트의 결정은 예를 들어 다음과 같은 분획 농도 측정을 포함할 수 있다. 하나 이상의 보정 시료의 각 보정 시료에 대해, 보정 시료에서 임상 관련 DNA의 분획 농도를 측정할 수 있다. 하나 이상의 서열 모티프 세트의 상대 빈도의 집계값은, 보정 데이터 포인트 수득 과정의 일부로서 보정 시료의 무 세포 DNA 단편을 분석하여 하나 이상의 집계값을 결정함으로써 결정될 수 있다. 각 보정 데이터 포인트는 보정 시료에서 임상 관련 DNA의 측정된 분획 농도와 보정 시료에 대해 결정된 집계값을 특정할 수 있다. 하나 이상의 보정값은 하나 이상의 집계값일 수 있거나 하나 이상의 집계값을 사용하여 결정될 수 있다 (예를 들어, 보정 함수를 사용할 때). 분획 농도의 측정은 예를 들어 임상 관련 DNA에 특이적인 대립 유전자를 사용하여 본원에 기재된 바와 같이 다양한 방식으로 수행될 수 있다.
다양한 실시양태서, 임상 관련 DNA의 분획 농도 측정은 조직 특이적 대립 유전자 또는 후생 유전학적 마커를 사용하거나, 예를 들어, 전문이 본원에 참조로 포함되는 미국 특허 공개 제2013/0237431호에 기술된 바와 같이 DNA에 단편의 크기를 사용하여 수행될 수 있다. 조직 특이적 후생 유전학적 마커는 시료에서 조직 특이적 DNA 메틸화 패턴을 나타내는 DNA 서열을 포함할 수 있다.
다양한 실시양태에서, 임상 관련 DNA는 태아 DNA, 종양 DNA, 이식된 장기의 DNA, 및 특정 조직 유형 (예를 들어, 특정 장기로부터의 것)으로 구성된 군으로부터 선택될 수 있다. 임상 관련 DNA는 특정 조직 유형일 수 있으며, 예를 들어 상기 특정 조직 유형은 간 또는 조혈이다. 대상체가 임신 여성인 경우 임상 관련 DNA는 태아 DNA에 해당하는 태반 조직일 수 있다. 또다른 예로서, 임상 관련 DNA는 암에 걸린 장기에서 유래된 종양 DNA일 수 있다.
일반적으로, 분획 농도가 측정되는 생물학적 (시험) 시료에 사용된 것과 유사한 분석을 사용하여 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값이 생성되는 것이 바람직하다. 예를 들어, 동일한 방식으로 시퀀싱 라이브러리를 생성할 수 있다. 처리 기술의 두 가지 예는 GeneRead (www.qiagen.com/us/shop/sequencing/generead-size-selection-kit/#orderinginformation) 및 SPRI (solid phase reversible immobilization, AAMPure bead, www.beckman.hk/reagents_depr/genomic_depr/cleanup-and-size-selection/pcr)이다. GeneRead는 대부분이 종양 단편인 짧은 DNA를 제거할 수 있으며, 이는 태아 및 이식 사례뿐만 아니라 야생형 및 돌연변이 단편에 대한 말단 모티프의 상대 빈도에 영향을 미칠 수 있다.
E.
재태 연령 결정
도 7a, 7b 및 8 내지 10에서 상기 설명한 바와 같이, 태아 특이적 단편 모티프를 사용하여 재태 연령을 추론할 수 있다.
도 20은 본 개시내용의 실시양태에 따른 태아를 임신한 여성 대상체의 생물학적 시료를 분석하여 태아의 재태 연령을 결정하는 방법 (2000)을 도시하는 흐름도이다. 상기 생물학적 시료는 여성 대상체 및 태아로부터의 무 세포 DNA 분자를 포함한다.
블록 (2010)에서, 생물학적 시료로부터의 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득한다. 상기 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함할 수 있다. 블록 (2010)은 도 19의 블록 (1910)과 유사한 방식으로 수행될 수 있다.
분석 전, 후 또는 분석의 일부로서, 복수의 무 세포 DNA 단편이 태아로부터 유래된 것으로 확인될 수 있고, 예를 들어, 도 2 및 5a에 대해 상기 기재된 바와 같다. 이것은 태아이거나 태아일 가능성이 가장 높은 DNA 단편을 필터링할 수 있다. 예로서, 복수의 무 세포 DNA 단편은 태아 특이적 대립 유전자 또는 태아 특이적 후생 유전학적 마커를 사용하여 확인될 수 있다. 또 다른 예로서, 각각의 서열 판독에 대해, 서열 판독이 태아에 상응할 가능성은 하나 이상의 서열 모티프 세트의 서열 모티프를 포함하는 서열 판독의 종결 서열에 기초하여 결정될 수 있다. 예를 들어 섹션 II.E에 기재된 바와 같이 다른 기준도 사용할 수 있다. 상기 가능성은 역치와 비교할 수 있으며, 상기 가능성이 역치를 초과할 때 서열 판독은 태아에서 유래된 것으로서 식별될 수 있다. 임상 관련 DNA에 대한 시료 농화의 추가적인 자세한 내용은 섹션 IV에서 확인할 수 있다.
블록 (2020)에서, 복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프가 결정된다. 블록 (2020)은 도 19의 블록 (1920)과 유사한 방식으로 수행될 수 있다.
블록 (2030)에서, 복수의 무 세포 DNA 단편의 종결 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도가 결정된다. 서열 모티프의 상대 빈도는 서열 모티프에 상응하는 종결 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공할 수 있다. 블록 (2030)은 도 19의 블록 (1930)과 유사한 방식으로 수행될 수 있다.
블록 (2040)에서, 하나 이상의 서열 모티프 세트의 상대 빈도의 집계값이 결정된다. 블록 (2040)은 도 19의 블록(1940)과 유사한 방식으로 수행될 수 있다.
블록 (2050)에서, 하나 이상의 보정 데이터 포인트를 수득한다. 각 보정 데이터 포인트는 집계값에 해당하는 재태 연령 (예를 들어, 상기 도면에 대해 기재된 바와 같은 임신 삼분기)을 특정할 수 있다. 전술한 바와 같이, 하나 이상의 보정 데이터 포인트는 재태 연령이 알려져 있고 무 세포 DNA 분자를 포함하는 복수의 보정 시료로부터 결정될 수 있다. 일부 구현예에서, 하나 이상의 보정 데이터 포인트는 알려진 재태 연령을 갖는 복수의 보정 시료에서 무 세포 DNA 분자로부터 결정된 측정 집계값에 근접하는 보정 함수를 형성하는 복수의 보정 데이터 포인트일 수 있다.
블록 (2060)에서, 상기 집계값을 적어도 하나의 보정 데이터 포인트의 보정값과 비교한다. 예를 들어, 도 8a에서 결정되는 바와 같이 신규 시료의 신규 집계값이 제3 임신 삼분기에 대한 평균과 비교될 수 있다. 다른 예로서, 적어도 하나의 보정 데이터 포인트의 보정값은 복수의 보정 시료 중 적어도 하나에서 무 세포 DNA 분자를 사용하여 측정된 집계값에 상응할 수 있다. 상기 집계값의 비교는 예를 들어, 각각이 복수의 보정 시료 중 하나에 상응하는 복수의 보정값에 대한 것일 수 있다. 재태 연령과 관련된 집계값의 변화를 제공하는 보정 데이터에 대한 함수 피팅 (보정 함수)에 집계값을 입력함으로써 상기 비교가 발생할 수 있다. 상기 비교는 예를 들어 블록 (1950)과 관련하여 방법 (1900)에 대해 설명된 유사한 방식으로 수행될 수 있다.
블록 (2070)에서, 태아의 재태 연령은 상기 비교를 기반으로 추정된다. 예를 들어, 신규 집계값이 제3 임신 삼분기 평균 (또는 사용된 다른 보정값)에 가장 가까운 경우, 신규 시료는 제3 임신 삼분기에 있는 것으로 결정될 수 있다. 다른 예로서, 신규 집계값은 도 8a 또는 기타 유사한 도면 중의 데이터에 피팅되는 보정 함수 (예를 들어, 선형 함수)와 비교할 수 있다. 상기 함수는 예를 들어 선형 함수의 Y 값으로서 재태 연령을 출력 할 수 있다. 보정 함수의 사용을 위한 본원에 제공되는 다른 예시도 재태 연령을 결정하는 맥락에서 사용될 수 있다.
III.
표현형 접근법
간 이식뿐만 아니라 임신 대상체, 암 대상체에 대한 유전형 기반 분석을 사용하여, 혈장 DNA 말단 모티프의 존재는 기원 조직과의 관계를 나타낸다. 암 환자에서 종양 DNA가 혈액 순환내로 방출되어 혈장 DNA 말단 모티프의 원래의 정상 표현을 변경한다고 추론하였다. 그러나 암 병태의 다른 측면, 예를 들어 종양 미세 환경 (T 세포, B 세포, 호중구 등에 침투)이 다른 말단 모티프를 생성하여 말단 모티프의 랜드스케이프에 영향을 미칠 가능성을 배제하지 않았다. 따라서 암 대상체와 비-암 대조군 대상체 사이의 혈장 DNA 말단 모티프 분석은 대조군 대상체로부터의 HCC를 분류력을 보여줄 것이다.
도 21은 본 개시내용의 실시양태에 따른 혈장 DNA 말단 모티프 분석을 위한 표현형 접근법의 개략도를 보여준다. 도 21은 도 2 및 도 12와 유사하고, 예를 들어, 상대 빈도가 플로팅되어 분산값 (예를 들어, 엔트로피)이 결정될 수 있으며, 클러스터링이 수행될 수 있다.
도 21에서, 혈장 DNA 분자에서 추론된 말단 모티프 (예를 들어, 4-mer)를 사용하고 암과 대조군 대상체 사이에서 비교하여 유전형 마커의 제한을 제거하고, 예를 들어, 자가 면역 질환 (예를 들어, 전신 홍반성 루푸스, SLE)의 검출 및 이식과 같은 많은 임상 시나리오에서 광범위하게 적용할 수 있다. 시퀀싱 혈장 DNA 단편 모두를 사용하는 표현형 접근 방식을 사용하여 유전형 차이 기반 접근 방식에서 수행된 것과 매우 유사한 분석 절차로 엔트로피 및 클러스터링 분석을 수행할 수 있다. 이러한 맥락에서 엔트로피 분석과 클러스터링 분석은 대조군과 질병을 앓는 대상체 사이에서 비교될 것이다.
질병 분자 (2105)는 병을 앓고 있는 것으로 결정된 하나 이상의 대상체로부터 나온 것이다. 대조군 분자 (2107)는 질병이 없는 하나 이상의 대상체로부터 나온 것이다. 말단 모티프 세트에 대한 상대 빈도는 두 개의 분자 풀에 대해 결정된다. 막대 그래프 (1220)는 각각의 4-mer가 대조군 및 질병 서열에 대한 말단 모티프로서 발생하는 상대 빈도 (%)를 제공한다. 이러한 상대 빈도는 도 2의 막대 그래프 (220)에 대해 전술한 바와 같이 결정될 수 있다. 알 수 있는 바와 같이, 말단 모티프 (2122)는 상이한 조직 유형의 DNA 단편 사이에 상대 빈도의 상당한 차이를 갖는다. 이러한 차이는 다양한 목적으로, 예를 들어 새로운 시료를 질병이 있거나 없는 것, 또는 질병의 일부 다른 수준으로 분류하기 위해 사용될 수 있다.
종양과 공유 DNA 분자 사이의 말단 모티프의 랜드스케이프 차이를 포착하기 위해, 도 2와 유사한 엔트로피 기반 분석 (2130)이 사용될 수 있다. 그래프 (2135)는 대조군 대상체 및 질병 대상체에 대한 엔트로피 값을 보여준다. 엔트로피 또는 기타 분산 메트릭의 차이는 질병과 관련된 병태 수준의 분류를 제공할 수 있다.
또 다른 실시양태에서, 도 2의 태아 분석 및 도 12의 종양 분석과 유사하게 클러스터링 기반 분석 (2140)이 수행될 수 있다. 병태 수준에 대한 분류는 분류가 알려진 기준 클러스터에 속하는 새로운 시료를 기반으로 결정할 수 있다.
따라서, 상대 빈도의 집계값의 한 예에서, 각 개체는 4-mer 말단 모티프에 관한 256개의 빈도를 포함하는 벡터 (즉, 256차원 벡터)로 특징화될 수 있다. 다른 예에서, 상이한 모티프 빈도 사이의 표준 편차 (SD), 변동 계수 (CV), 사분위수 범위 (IQR) 또는 특정 백분위수 컷오프 (예를 들어 95번째 또는 99번째 백분위수)는 질병군 및 대조군 사이의 말단 모티프 패턴의 랜드스케이프 변화를 평가하는 데 사용될 수 있다. 집계값의 다른 예가 다른 섹션에서도 제공되며 본원에 적용할 수 있다.
A.
종양학
일부 실시양태에서, 질병 (병태)은 암일 수 있다. 따라서, 일부 실시양태는 암의 수준을 분류할 수 있다.
1.
순위에 따른 상대 빈도 차이
도 22는 본 개시내용의 실시양태에 따른 모든 혈장 DNA 분자를 사용하는 간세포 암종 (HCC) 및 B형 간염 바이러스 (HBV) 대상체 사이의 4-mer 말단 모티프의 빈도 프로파일에 대한 예를 보여준다. 도 22는 하나의 HCC 환자에서의 256개의 말단 모티프의 빈도를 한 HBV 대상체와 비교한 것이다. 유사한 그래프들과 마찬가지로, 세로축은 모티프 빈도이고 가로축은 각 말단 모티프에 해당한다. 도 22에서, 비-HCC 대상체에서 모티프 빈도의 평균을 기반으로 오름차순으로 모티프 순위를 매겼다. 하단 그래프는 상단 그래프의 계속이지만, 용이한 설명을 위해 다른 스케일로 표시된다.
HCC 환자에서 수차를 나타내는 많은 말단 모티프가 있었다. 예를 들어, HBV 대상체와 비교했을 때 HCC 환자에서 빈도의 증가를 보여주는 상위 10개 말단 모티프 (TGGG, TAAA, AAAA, GAAA, GGAG, TAGA, GCAG, TGGT, GCTG, 및 GAGA)는 1.12배 내지 1.35배 변화 범위를 갖고 평균 1.22배 변화를 가졌고, HCC 환자에서 빈도가 감소한 상위 10개 말단 모티프 (CCCA, CCAG, CCAA, CCCT, CCTG, CCAC, CCAT, CCCC, CCTC, 및 CCTT)는 1.16배 내지 1.29배 변화 범위를 갖고 평균 1.23배 변화를 보였다. 비-암 그룹에 비해 HCC 그룹에서 빈도의 증가 (또는 별도의 세트에서 감소)를 보여주는 이러한 상위 모티프 세트를 사용하여 암에 관해 신규 대상체를 분류할 수 있다. 또 다른 예로, 순위화 절차에서 HCC에서 증가를 보이는 모티프를 모두 선택한 다음, HCC와 비 HCC 대상체 사이의 AUC에 따라 내림차순으로 모티프의 순위를 매길 수 있다. 그런 다음 AUC 값을 기반으로 상위 10개 모티프를 선택한다.
혈장 DNA 말단 모티프를 사용하여 진단 가능성을 시험하기 위해 20명의 건강한 대조군 대상체 (대조군), 22명의 만성 B형 간염 보균자 (HBV), 12명의 간경변 대상체 (Cirr), 24명의 초기 단계 HCC (eHCC), 11명의 즉각적 단계 HCC (iHCC) 및 7명의 진행된 단계 HCC (aHCC)를 2억 1천 5백만개 (범위: 9천7백만 내지 16억 8천 1백만)의 중앙값 짝을 이룬-판독값으로 시퀀싱하였다.
도 23a는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 다양한 대상체에 대해 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합된 빈도에 대한 박스형 그래프를 보여준다. 상위 10개의 혈장 DNA 4-mer 말단 모티프는 도 22의 데이터, 즉, HBV 대상체의 빈도를 기준으로 선택되었다. 결합 빈도는 주어진 대상체에 대한 10개의 말단 모티프 빈도의 합이다. 상위 10개의 말단 모티프의 결합 빈도가 비-암 대상체에 비해 HCC 환자에서 유의하게 감소했음을 발견하였다 (p-값 < 0.0001). 중요한 것은 이러한 말단 모티프 분석을 사용하여 eHCC 환자의 58.3%가 특이도 95%에서 식별될 수 있다는 것이다. 또한 다양한 단계의 암을 감지할 수 있다. 예를 들어, 진행된 HCC는 eHCC 및 iHCC보다 훨씬 낮은 값을 갖는다.
도 23b는 본 개시내용의 실시양태에 따른 HCC 및 비-암 대상체 사이의 상위 10개 혈장 DNA 4-mer 말단 모티프의 결합 빈도의 수신기 작동 특성 (ROC) 곡선을 도시한다. ROC 곡선의 곡선 아래 면적 (AUC)은 0.91로 밝혀졌으며, 이는 혈장 DNA 말단 모티프가 실제로 HCC를 비-암 대상체와 구별할 수 있는 임상적 잠재력을 가지고 있음을 보여준다. 다른 실시양태에서, HCC 대상체와 비-HCC 대상체 사이에 가장 큰 분리를 갖는 7개의 말단 모티프의 결합 빈도는 AUC 0.92를 제공한다.
도 24a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 CCA 모티프 빈도의 박스형 그래프를 도시한다. 비-HCC 그룹에서 가장 빈번한 3-mer 모티프 (CCA)는 HCC 그룹에서는 상당히 낮은 것으로 나타났다 (p-값 < 0.0001). 도 24b는 본 개시내용의 실시양태에 따른 비-HCC 대상체에 존재하는 가장 빈번한 3-mer 모티프 (CCA)를 사용하는 비-HCC 및 HCC 그룹 사이의 ROC 곡선을 나타낸다. AUC는 0.915로 확인되었다. 가장 빈번한 4-mer (CCCA)도 0.91의 유사한 AUC를 제공한다.
2.
엔트로피의 용도 (모티프 다양성 점수)
도 25a는 본 개시내용의 실시양태에 따른 256개의 4-mer 말단 모티프를 사용하는 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 도시한다. 4-mer의 모든 256개 모티프가 사용되었다. 도 25a에 도시된 바와 같이, HCC 환자 (평균: 5.242; 범위: 5.164 내지 5.29)에서 엔트로피 값은 비-HCC 대상체 (평균: 5.203; 범위: 5.124 내지 5.253)에 비해 유의하게 증가하였다 (p-값 < 0.0001). 중요한 것은 이러한 말단 모티프 분석을 사용하여 eHCC 환자의 41.7%가 특이도 95%에서 식별될 수 있다는 것이다. 엔트로피는 HCC, IHCC 및 진행된 단계 HCC 그룹에서 일반적으로 비-HCC 그룹에 비해 증가하였다. 또한 다양한 단계의 암을 감지할 수 있다. 예를 들어, 진행된 HCC는 eHCC 및 iHCC보다 상당히 높은 값을 갖는다.
도 25b는 본 개시내용의 실시양태에 따른 10개의 4-mer 말단 모티프를 사용한 상이한 그룹에 걸친 엔트로피 값의 박스형 그래프를 도시한다. 여기서 HCC 대상체는 비-HCC 대상체에 비해 엔트로피가 감소한다. 따라서 사용된 말단 모티프 세트는 관계를 증가에서 감소로 변경할 수 있다. 예를 들어 상위 10개 모티프를 사용하면 HCC 그룹의 엔트로피가 감소한다. 어느 쪽이든, 초기 단계 HCC에 비해 진행된 HCC뿐만 아니라 HCC와 비-HCC 사이에 진단 능력이 있다.
도 26a는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 3-mer 모티프를 사용한 엔트로피 값의 박스형 그래프를 도시한다. 3-mer 모티프 (총 64개 모티프)를 사용하는 HCC 대상체의 엔트로피는 비-HCC 대상체의 엔트로피보다 상당히 높은 것으로 나타났다 (p-값 < 0.0001). 도 26b는 본 개시내용의 실시양태에 따른 비-HCC 및 HCC 그룹 사이의 64개의 3-mer 모티프의 엔트로피를 사용한 ROC 곡선을 나타낸다. AUC는 0.872로 확인되었다.
전술한 바와 같이 엔트로피 값이 높을수록 말단 모티프의 다양성이 높아진다. 다양한 암 유형과 대조군 (예를 들어, 건강한) 시료를 구별하기 위해 모티프 다양성 점수를 사용하는 실시양태의 능력에 대한 추가 예시로서, 공개된 연구의 데이터가 사용되었다.
도 27a 및 27b는 본 개시내용의 실시양태에 따른 상이한 그룹에 걸친 4-mer를 사용한 모티프 다양성 점수의 박스형 그래프를 도시한다. 모티프 다양성 점수를 결정하기 위해 256개의 4-mer를 모두 사용하였다. 혈장 DNA 말단 다양성의 증가는 일반적으로 공개된 연구 (Song et al. 2017)에서 다운로드한 혈장 DNA의 시퀀싱 결과를 사용하여 MDS 분석을 수행할 때 다양한 암 유형에서 관찰될 수 있고, 이는 상이한 해부학적 부위로부터의 상이한 종양 세포가 그들의 DNA를 혈액 순환으로 배출함을 반영할 수 있다 (Bettegowda et al. 2014). 분석된 암은 간세포 암 (HCC), 폐암 (LC), 유방암 (BC), 위암 (GC), 다형성 교모세포종 (GBM), 췌장암 (PC) 및 대장암 (CRC)이었다.
다양한 암 유형에 걸친 MDS 변화의 일반화 가능성을 추가로 시험하기 위해 대장암 (n=10), 폐암 (n=10), 비인두 암종 (n=10), 및 두경부 편평세포 암종 (n=10) 환자를 포함하여 다른 암 유형의 40개의 혈장 DNA 시료로 독립 코호트를 4,200만개 (범위: 1,900만 내지 6,500만) 짝을 이룬된 말단 판독값의 중앙값으로 추가로 시퀀싱하였다. 도 27b에 도시된 바와 같이, 암 환자 그룹 (중앙값: 0.943; 범위: 0.939 내지 0.949)의 MDS 값은 암이 없는 대조군 (중앙값: 0.941, 범위: 0.933 내지 0.946; p-값 < 0.0001, Wilcoxon 합계 순위 검정)에 비해 상당히 높았다.
도 28은 본 개시내용의 실시양태에 따른 암으로부터 건강한 대조군을 구별하는 다양한 기술에 대한 수신기 작동 곡선을 도시한다. 건강한 대조군 (n=38), HBV 보균자 (n=17), 간세포 암종 환자 (n=34), 결장 직장암 (n=10), 폐암 (n=10), 비인두 암종 (n=10) 및 두경부 편평 세포 암종 (n=10)을 포함한 총 129개의 시료를 보유하였다. 흥미롭게도 MDS 기반 방법 (2801) (AUC = 0.85)이 단편 크기 (2803) (AUC=0.74, p-값=0.0040; DeLong 검정) (Yu et al. 2017b), 단편 선호 말단 (2804) (AUC=0.52, p-값 < 0.0001) (Jiang et al. 2018) 및 방향 인식 혈장 무 세포 단편화 신호, OCF, (2802) (AUC=0.68, p-값=0.0013) (Sun et al. al. 2019)을 포함한 다른 단편 메트릭과 비교할 때 최고의 성능을 갖는 것으로 나타났다. 결합 분석 (2805)는 기술들 중 어느 하나가 대상체를 암이 있는 것으로 분류한 경우 대상체를 암이 있는 것으로 식별하였다.
암과 비-암을 구별하기 위한 MDS 분석의 정확도는 상이한 길이의 모티프에 대해 상대적으로 잘 유지된다. 1-mer 내지 5-mer에 대해 MDS를 사용하여 분석을 수행하였다.
도 29는 본 개시내용의 실시양태에 따른 다양한 k-mer를 사용한 MDS 분석을 위한 수신기 작동 곡선을 도시한다. 1 내지 5-mer 모티프에서 추론된 MDS 값은 또한 암이 있는 환자와 없는 환자를 구별하는 능력을 가졌다. 1-mer 분석 (2901)은 0.81 AUC를 제공한다. 2-mer 분석 (2902)는 0.85 AUC를 제공한다. 3-mer 분석 (2903)는 0.85 AUC를 제공한다. 4-mer 분석 (2904)는 0.85 AUC를 제공한다. 5-mer 분석 (2905)는 0.81 AUC를 제공한다.
또한 컴퓨터 시뮬레이션에 따른 MDS 기반 암 검출 성능에 대한 종양 DNA 분획의 효과를 조사하였다.
도 30은 본 개시내용의 실시양태에 따른 다양한 종양 DNA 분획에 대한 MDS 기반 암 검출의 성능을 나타낸다. 도 30에 도시된 바와 같이, 혈장 DNA의 종양 DNA 분획이 증가함에 따라 암 검출 성능이 점진적으로 향상된다. 예를 들어, ROC 곡선 아래 면적 (AUC)은 종양 DNA 분획이 0.1%인 환자의 경우 0.52에 불과한 반면에, 종양 DNA 분획이 3%인 환자의 경우 AUC가 0.9까지 증가했으며 추가로 더 높은 농도까지 증가했으나 이미 5% 종양 분획에서 최대치에 근접하였다.
3.
머신 러닝 (SVM, 회귀 및 클러스터링)
혈장 DNA 말단 모티프를 사용하여 암 환자를 검출하기 위해 분류자를 구축할 수 있는지 여부를 추가로 조사하기 위해 256개의 혈장 DNA 말단 모티프를 사용하여 암이 있는 환자 (n=55)와 암이없는 환자 (n=74)를 각각 구별하는 분류자를 구축하였고, 각 말단 모티프의 크기와 방향을 고려한 SVM (Support Vector Machine) 및 로지스틱 회귀를 사용하였다. SVM 분석은 256차원 위치에서 암 환자와 비-암 환자를 가장 잘 구별하는 초평면을 식별하였고, 여기서 트레이닝 데이터 포인트는 4-mer의 256개 모티프 각각의 빈도이다. 로지스틱 회귀는 256개 빈도 각각을 곱하는 계수를 결정하고 또한 곱한 빈도의 가중 합이 될 수 있거나 가중 합을 입력으로 받을 수 있는 로지스틱 함수의 결과 출력에 대한 컷오프를 결정하였다. 이러한 로지스틱 함수는 당업자에게 친숙한 바와 같이 시그모이드 함수 또는 다른 활성화 함수일 수 있다.
오버 피팅 문제를 최소화하기 위해 수신기 동작 특성 (ROC) 곡선 분석을 사용하여 성능을 평가하기 위해 리브 원 아웃(Leave-One-Out) 절차를 채택하였다. 리브 원 아웃 절차는 다음 단계에 따라 수행되었다. 시료 크기 N 중에서 하나의 시료를 시험 시료로 남겨두고 나머지 시료 (N - 1)를 사용하여 256개의 혈장 DNA 말단 모티프를 사용하는 SVM 및 로지스틱 회귀를 기반으로 분류자를 트레이닝하였다. 그런 다음 트레이닝된 분류자를 사용하여 남은 시료가 암이 있는 대상체 혹은 암이 없는 대상체에서 채취한 것으로 분류되었는지 확인하였다. 트레이닝된 분류자를 테스트하기 위해 나머지 시료에서 하나의 시료를 테스트 시료로 체계적으로 남겨 두었다. 그에 따라 각 시료에 대한 예측 결과를 얻을 수 있었고 예측된 결과로부터 정확도를 계산하였다.
도 31은 본 개시내용의 실시양태에 따른 MDS, SVM, 및 로지스틱 회귀 분석에 대한 수신기 동작 곡선을 도시한다. MDS 기반 분석 (AUC=0.85)과 비교하여 256개의 말단 모티프를 분류자와 함께 사용하는 경우 AUC가 약간 증가하는 것을 관찰하였다 (SVM 및 로지스틱 회귀 모두에 대해 AUC=0.89).
또 다른 머신 러닝 기법으로 말단 모티프의 빈도를 기반으로 한 클러스터링을 사용하였다.
도 32는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 상위 10개 말단 모티프에 대한 계층적 클러스터링 분석을 나타낸다. 도시된 바와 같이, HCC 대상체 (eHCC: 초기 단계 HCC (3205); iHCC: 즉각적 단계 HCC (3230); 및 aHCC: 진행된 단계 HCC (3225))가 일반적으로 함께 클러스터링되고, 비-HCC (건강한 대조군 대상체, HBV: 만성 B형 간염 보균자)가 일반적으로 함께 클러스터링된다. 예를 들어 우측 클러스터는 초기 HCC (3205) (노란색)이다. 가운데에서 좌측은 대부분 대조군 (3210), HBV (3215) 및 간경변 (3220)이 있다. HCC 그룹과 비-HCC 그룹 사이의 뚜렷한 클러스터링 패턴은 말단 모티프가 혈장 DNA 말단 모티프에서 질병 관련 선호도를 반영할 것이라는 점과 혈장 DNA 말단 모티프에 대한 잠재적 진단 능력을 암시한다. 통계적 방법으로서 연결 기반 계층적 클러스터링 외에 다른 클러스터링 기술, 예컨대 중심 기반 클러스터링, 분포 기반 클러스터링, 및 밀도 기반 클러스터링이 사용될 수 있다.
도 33a 내지 33c는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸친 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 도시한다. 도 33a는 256개의 4-mer 말단 모티프 빈도에 기초한 계층적 클러스터링 분석을 보여준다. 도 33b는 256개의 4-mer 말단 모티프 빈도에 기초한 계층적 클러스터링 분석을 위한 확대 시각화를 보여준다. 각 행은 한 가지 유형의 말단 모티프를 나타낸다. 각 열은 개별 혈장 DNA 시료를 나타낸다. 그라디언트 색상은 말단 모티프의 빈도를 나타낸다. 빨간색은 가장 높은 빈도를 나타내고 녹색은 가장 낮은 빈도를 나타낸다. 도 33c는 말단 모티프를 사용한 HCC 및 비-HCC 대상체에 대한 주성분 분석 (PCA)을 나타낸다. 주성분은 예를 들어 빈도의 가중치 합에서 가장 큰 분산을 제공하는 256개 모티프의 선형 조합이다.
HCC 및 비-HCC 대상체가 두 개의 별개의 클러스터를 형성하는 것으로 나타났기 때문에, 모든 혈장 DNA 분자에서 유래된 말단 모티프는 HCC를 비-HCC 대상체와 구별하는 중요한 메트릭이 될 것이다. 도 33a 및 33b는 HCC 대상체 (3305) (빨간색)가 한 그룹으로 클러스터링는 경향이 있고 비-HCC 대상체 (3310) (파란색)이 다른 그룹으로 클러스터링되는 경향이 있음을 나타낸다. 도 33c에서 PCA 분석은 또한 HCC 및 비-HCC 대상체가 두 개의 상이한 그룹으로 클러스터링되는 경향이 있음을 보여준다. PC1 및 PC2는 상대 빈도의 주어진 히스토그램 패턴을 나타낼 수있는 상대 빈도의 다른 선형 조합 (예를 들어, 가중 평균)에 해당한다. 도 33c는 클러스터링을 수행하거나 컷오프 값 또는 컷오프 면을 사용하기 전에 선형 조합 (또는 다른 변환)이 수행될 수 있음을 보여준다. 따라서, 변환된 상대 빈도를 사용하여 집계값을 결정할 수 있다.
도 34는 본 개시내용의 실시양태에 따른 상이한 수준의 암을 갖는 상이한 그룹에 걸쳐 모든 혈장 DNA 분자를 사용하는 3-mer 모티프에 기초한 계층적 클러스터링 분석을 보여준다. 용이한 도시를 위해, 히트맵의 상단 부분만 표시된다. 도시된 바와 같이, HCC 대상체 (eHCC: 초기 단계 HCC (3405); iHCC: 즉각적 단계 HCC (3430); 및 aHCC: 진행된 단계 HCC (3425))가 일반적으로 함께 클러스터링되고, 비-HCC (건강한 대조군 대상체 (3410); HBV (3415): 만성 B형 간염 보균자; 및 간경변 (3420))가 일반적으로 함께 클러스터링된다.
이러한 발견을 기반으로, 머신 러닝 (예를 들어, 심층 학습(deep learning)) 모델은 서포트 벡터 머신(SVM), 결정 트리(decision tree), 나이브 베이즈 분류(naive Bayes classification), 로지스틱 회귀(logistic regression), 클러스터링 알고리즘(clustering algorithm), 주성분 분석(PCA), 특이값 분해(singular value decomposition)(SVD), t-분포 확률적 임베딩(t-distributed stochastic neighbor embedding; tSNE), 및 인공 신경망(artificial neural network)을 포함하지만 이들로 제한되지 않는 암 분류자(classifier), 뿐만 아니라 분류자 세트를 작제한 다음 이들의 예측의 가중 보트(weighted vote)를 취함으로써 새로운 데이터 포인트를 분류하는 앙상블 방법을 트레이닝하는 데 사용될 수 있을 것이다. 일련의 암 환자와 비-암 환자를 포함하는 "256차원 벡터 기반 매트릭스"를 기반으로 암 분류자가 트레이닝되면 새로운 환자의 암이 될 확률을 예측할 수 있다.
머신 러닝 알고리즘의 이러한 사용에서, 집계값은 기준 값과 비교할 수 있는 확률 또는 거리 (예를 들어, SVM 사용시)에 해당할 수 있다. 다른 실시양태에서, 집계값은 두 분류 사이의 컷오프와 비교되거나 주어진 분류의 대표값과 비교되는 모델의 초기 출력 (예를 들어, 신경망의 이전 계층)에 해당할 수 있다.
B.
면역 질환 모니터링
도 35a는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다. 도 35b는 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 모든 혈장 DNA 분자를 사용한 계층적 클러스터링 분석을 보여준다.
엔트로피 (도 35a, p-값: 0.00014) 및 클러스터링 분석 (도 35b)을 포함하는 혈장 DNA 말단 모티프에 대한 전체 랜드스케이프 수차 분석은 SLE 환자가 건강한 대조군 대상체와 구별될 수 있음을 보여준다. 예를 들어, SLE 대상체에 대해 엔트로피가 증가한다 (도 35a). 그리고 일반적으로 두 개의 클러스터가 좌측 (SLE (3510))과 우측 (대조군/정상 (3505))에 형성된다. 따라서 자가 면역 질환은 혈장 DNA 단편화 패턴을 변경하여 이에 따른 SLE와 대조군 대상체 사이의 혈장 DNA 말단 모티프의 구별력을 나타낸다.
도 36은 본 개시내용의 실시양태에 따른 건강한 대조군 대상체와 SLE 환자 사이의 10개의 선택된 말단 모티프를 갖는 혈장 DNA 분자를 사용한 엔트로피 분석을 나타낸다. 대조군 대상체에 대해 상위 10개의 가장 높은 상대 빈도를 갖는 모티프가 사용되었다. 다른 표현형과 마찬가지로 모티프 세트는 SLE 엔트로피가 더 높은지 더 낮은지에 영향을 줄 수 있다. 10개의 모티프가 대조군에 대해 가장 높은 값을 갖는 것으로 선택되면, 값들이 서로 유사하므로 (즉, 순위로 인해) 엔트로피가 더 높다. 그리고 SLE 엔트로피는 변동이 많을수록 낮고, 예를 들어 SLE 대상체에 대해 순위가 매겨지지 않기 때문이다. SLE 시료를 사용하여 상위 10개 모티프를 선택한 경우 반대 관계가 존재할 수 있다. 따라서, 자가 면역 질환 (예를 들어, SLE)의 수준은 상대 빈도의 집계값을 사용하여 결정될 수 있다.
C.
말단 모티프 및 기존 메트릭에 대한 시너지 분석
혈장 DNA 말단 모티프와 기타 메트릭 (카피 수 수차 (CNA), 저 메틸화 및 과메틸화)의 결합 분석이 비 침습적 암 검출 성능을 향상시킬 수 있는지 여부를 테스트하였다. 예를 들어, 의사 결정 트리 기반 분류를 결합 분석에 사용할 수 있다.
도 37은 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에 대한 말단 모티프와 카피 수 또는 메틸화를 포함하는 결합 분석에 대한 ROC 곡선을 나타낸다. 말단 모티프 분석은 4-mer의 모든 356개 모티프를 사용하여 결정된 모티프 다양성 점수를 사용한다. 결합 분석은 두 분석 중 어느 하나가 암으로 분류된 경우 암을 식별한다. 말단 모티프와 메틸화 분석의 결합 분석 (AUC: 0.94) 또는 말단 모티프와 CNA 분석의 결합 분석 (AUC: 0.93)이 말단 모티프만을 사용한 분석 (AUC: 0.86)보다 우수했다. 메틸화 분석에서는 저메틸화 (메틸화 밀도 z-점수 < -3으로 정의 됨)의 수를 사용하여 정상 대조군보다 높은 1-Mb 빈을 사용했으며, 암과 비-암을 구분하는 비정상 빈의 컷오프 수를 사용했다. CNA 분석은 3 이상 또는 -3 미만의 z-점수를 나타내는 1-Mb 빈의 수를 사용했으며, 암과 비-암을 구분하는 비정상 빈의 컷오프 수를 사용했다. 메틸화 분석에 대한 자세한 내용은 미국 특허 공개 2014/0080715에서 찾을 수 있으며 CNA 분석에 대한 자세한 내용은 미국 특허 공개 US 2013/0040824에서 찾을 수 있다.
결정 트리 기반 분류의 예가 설명된다. 예를 들어, CNA, 저메틸화, 과메틸화, 크기 (예를 들어, 미국 특허 공개 2013/0237431에 설명됨), 말단 모티프, 및 단편화 패턴 (예를 들어, 미국 특허 공개 2017/0024513 및 2019/0341127 및 미국 특허 출원 16 / 519,912에 설명됨)을 포함하는 각 메트릭에 대한 컷오프를 랜덤 포레스트 알고리즘을 사용하여 추론할 수 있다. 각 메트릭에는 특정 컷오프가 있다. 하나의 메트릭 (저메틸화)을 예로 들면, 메트릭이 컷오프 이하인지 이상인지에 따라 한 사례를 암 또는 비-암으로 분류할 수 있다. 하나의 메트릭은 의사 결정 트리에서 하나의 노드를 나타낸다. 예를 들어, 시료가 전체 트리의 모든 노드를 이동한 후, 다수의 보트 (예를 들어, 암을 나타내는 노드 수가 비-암을 나타내는 노드 수보다 큼)가 최종 분류를 제공할 수 있다.
D.
혈장 DNA의 말단 모티프를 정의하는 대체 방법의 예
혈장 DNA의 말단 모티프를 정의하는 대안적인 방법을 사용하는 타당성을 입증하기 위해, 도 1의 기술 (160)을 채택하여 시퀀싱된 20명의 건강한 대조군 대상체 (대조군), 22명의 만성 B형 간염 보균자 (HBV), 12명의 간경변 환자 (Cirr), 24명의 초기 단계 HCC (eHCC), 11명의 즉각적 단계 HCC (iHCC), 및 7명의 진행된 단계 HCC (aHCC)를 포함하는 HCC 및 비-HCC 대상체를 분석하였다.
도 38a는 본 개시내용의 실시양태에 따른 HCC 및 비-HCC 대상체에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer 기반 엔트로피 분석을 나타낸다. 엔트로피는 256개의 말단 모티프를 모두 사용하여 결정되었다. 도 1의 기술 (140)을 사용하여 모티프를 정의한 분석과 마찬가지로, HCC 대상체의 엔트로피는 비-암 대상체와는 다르다. 그리고 진행된 HCC는 eHCC 및 iHCC와 상당한 차이를 나타낸다. 도 38b는 본 개시내용의 실시양태에 따른 HCC 대상체 (3810) 및 비-HCC 대상체 (3805)에서 시퀀싱된 혈장 DNA 단편 및 이들의 인접한 게놈 서열의 말단으로부터 공동으로 구축된 4-mer 기반 클러스터링 분석을 나타낸다.
도 39는 도 1의 기술 (140) 및 (160)에 대한 ROC 비교를 도시하고 이는 본 개시내용의 실시양태에 따른 혈장 DNA의 말단 모티프를 정의하는데 사용된다. 도 38a와 동일한 대상체를 사용하고 4-mer를 사용한 엔트로피 분석을 수행하여 분류를 수행하였다. 방법 (i)는 기술 (140)에 해당하고 방법 (ii)는 기술 (160)에 해당한다. 도 1의 기술 (140)과 비교하여 도 1의 기술 (160)의 사용할 경우 약간 열등한 성능 (AUC: 0.815 대 0.856)이 관찰되었다.
E.
차별성 향상을 위한 필터링
특정 기준을 사용하여 특정 DNA 단편 (말단 모티프 제외)을 필터링하여 더 높은 정확도 (예를 들어, 감도 및 특이도)를 제공할 수 있다. 예를 들어, 말단 모티프 분석은 특정 조직의 개방형 염색질 영역에서 유래하는 DNA 단편으로 제한될 수 있고, 예를 들어, 복수의 개방형 염색질 영역 내에 전체적으로 또는 상기 영역에 대해 부분적으로 배열되는 판독에 의해 결정된 바와 같다. 예를 들어, 개방형 염색질 영역과 중첩되는 적어도 하나의 뉴클레오타이드가 있는 임의의 판독값은 개방형 염색질 영역 내의 판독값으로서 정의될 수 있다. 전형적인 개방형 염색질 영역은 DNase I 과민성 부위에 따라 약 300 bp이다. 개방형 염색질 영역의 크기는 개방형 염색질 영역을 정의하는 데 사용되는 기술, 예를 들어 ATAC-seq (트랜스포사제 접근성 염색질 시퀀싱 분석) 대 DNaseI-Seq에 따라 달라질 수 있다.
또 다른 예로서, 특정 크기의 DNA 단편이 말단 모티프 분석을 수행하기 위해 선택될 수 있다. 하기에 나타낸 바와 같이 이것은 말단 모티프의 상대 빈도의 집계값 분리를 증가시켜 정확도를 높일 수 있다.
추가적인 예는 DNA 단편의 메틸화 특성을 사용할 수 있다. 태아 및 종양 DNA는 일반적으로 저메틸화된다. 실시양태는 DNA 단편의 메틸화 메트릭 (예를 들어, 밀도)을 결정할 수 있다 (예를 들어, DNA 단편에서 메틸화되는 부위(들)의 비율 또는 절대 수로서). 또한 측정된 메틸화 밀도를 기반으로 말단 모티프 분석에 사용하기 위해 DNA 단편을 선택할 수 있다. 예를 들어, DNA 단편은 메틸화 밀도가 역치를 초과하는 경우에만 사용될 수 있다.
DNA 단편이 기준 게놈에 비해 서열 변동 (예를 들어, 염기 치환, 삽입 또는 결실)을 포함하는지 여부도 필터링에 사용될 수 있다.
다양한 필터링 기준을 함께 사용할 수 있다. 예를 들어, 각 기준이 충족되어야 하거나 적어도 특정 수의 기준이 충족되어야 할 수 있다. 또 다른 구현예에서, 단편이 임상 관련 DNA (예를 들어, 태아, 종양 또는 이식)에 해당할 확률이 결정될 수 있고, 역치가 확률에 이용되는데 이에 대해 DNA 단편은 말단 모티프 분석에서 사용되기 전에 충족시키기 위한 것이다. 추가의 예로서, 특정 말단 모티프의 빈도 카운터에 대한 DNA 단편의 기여는 확률에 기반하여 가중될 수 있다 (예를 들어, 1을 추가하는 대신 1보다 작은 값을 갖는 확률을 추가). 따라서, 특정 말단 모티프를 갖는 DNA 단편은 더 높은 가중치를 부여하거나 더 높은 확률을 가질 것이다. 이러한 농화는 아래에서 더 설명된다.
1.
조직 특이적 염색질 영역에 걸친 말단 모티프
다른 조직은 세포사멸(apotosis) 동안 선호되는 단편화 패턴을 갖기 때문에 (문헌 [Chan et al, Proc Natl Acad Sci USA. 2016;113:E8159-8168]; [Jiang et al, Proc Natl Acad Sci USA. 2018]; [doi:10.1073/pnas.1814616115]), 혈장 DNA 말단 모티프 분석을 위한 특정 게놈 영역의 선택이 질병 환자와 대조군 대상체를 분류할 때 차별력을 더욱 향상시킬 것이라고 추론하였다. HCC 환자의 검출을 예로 들어, 혈액과 간을 위한 개방형 염색질 영역을 사용하였다.
도 40은 조직 특이적 개방 염색질 영역이 본 개시내용의 실시양태에 따른 HCC 및 비-암 환자에 대한 혈장 DNA 말단 모티프의 식별력을 향상시키는 것을 보여주는 정확도의 비교를 도시한다. 분석은 4-mer와 상위 10개 모티프의 결합 빈도를 사용하여 256개 모티프 모두의 엔트로피에 대해 수행되었다. 간 개방 염색질 결과의 경우, 서열 판독이 간 개방 염색질 영역 중 하나와 겹치는 적어도 하나의 뉴클레오타이드를 가지면 판독 서열이 유지되었다 (즉, 필터링하지 않음).
간 개방 염색질 영역과 겹치는 혈장 DNA 분자에서 유래한 말단 모티프의 식별력은 상위 10개 순위 모티프의 결합 빈도를 사용하여 AUC 0.918로 최상의 성능까지 상승하였다. 대조적으로, 어떠한 선택도 하지 않은 256개의 모든 모티프에 대한 혈장 DNA 분자에서 유래된 말단 모티프의 식별력은 0.855로 최소 AUC였다.
따라서 특정 조직이 암에 대해 스크리닝되는 경우, 상기 특정 조직의 개방 염색질 (또는 적어도 종결 서열이 개방 염색질 영역에 있는 경우)의 DNA 단편을 사용하여 분석을 수행할 수 있는 반면, 이렇게 식별된 영역에 없는 DNA 단편은 사용되지 않는다. 암이 HCC였기 때문에 여기서는 간을 사용하였다. DNA 단편의 위치는 문헌 또는 데이터베이스에서 개방 염색질 영역을 식별할 수 있는 기준 게놈에 서열 판독값을 정렬하여 결정할 수 있다.
2.
크기 대역 기반 말단 모티프 분석
특정 말단 모티프의 빈도는 분석되는 크기 범위 (크기 대역)에 따라 달라지는 것으로 나타났고, 예를 들어 CCCA의 백분율이 이러한 행동을 나타낸다. 이는 크기 대역 기반 말단 모티프 분석이 혈장 DNA 말단 모티프를 사용하여 암 환자를 비-암 대상체와 구별하는 성능에 영향을 미칠 수 있음을 의미한다. 이러한 가능성을 예시하기 위해, 50-80 bp, 81-110 bp, 111-140 bp, 141-170 bp, 171-200 bp, 201-230 bp를 포함하되 이에 제한되지 않는 일련의 크기 범위를 시험하여 분석되는 크기 대역이 전체 진단 성능에 미치는 영향을 조사하였다.
도 41은 본 개시내용의 실시양태에 따른 크기 대역 기반 혈장 DNA 말단 모티프 분석을 나타낸다. 모티프 다양성 점수 (엔트로피)를 사용한 분류는 4-mer에 대해 256개의 모티프를 사용하여 결정된다. 다양한 범위가 도 41에 나열되지만, 다른 범위도 사용될 수 있다. 50-80 분석 (4101)은 0.826 AUC를 제공한다. 81-110 분석 (4102)는 0.537 AUC를 제공한다. 111-140 분석 (4103)은 0.551 AUC를 제공한다. 141-170 분석 (4104)는 0.716 AUC를 제공한다. 171-200 분석 (4105)는 0.769 AUC를 제공한다. 201-230 분석 (4106)은 0.756 AUC를 제공한다.
이러한 크기 범위는 임상 관련 DNA를 농화하는 기술에 사용될 수 있다. 예를 들어, 50-80 염기인 DNA 분자를 선택하면 종양 DNA 시료가 농화된다. 단일 크기 범위와 달리 다수의 분리된 크기 범위를 사용할 수 있다. 이러한 농화는 81-110 염기에 비해 50-80 염기의 크기 범위에서 더 나은 AUC가 발생하는 이유가 될 수 있다.
50 내지 80 bp 범위 내의 혈장 DNA 분자에서 유래된 말단 모티프는 비-HCC 대상체 (AUC: 0.83)에서 HCC를 검출하는 최고의 판별력을 제공하는 것으로 나타났다. 따라서, 실시양태는 DNA 단편을 필터링하여 특정 크기 범위의 단편을 선택한 다음, 선택된 DNA 단편 (판독)을 사용하여 상대 빈도 및 이후 작업을 결정할 수 있다. 예로서, 크기 필터는 물리적 분리를 통해, 또는 서열 판독을 사용하여 크기를 결정함으로써 수행될 수 있다 (예를 들어, 전체 단편이 시퀀싱된 경우의 길이 또는 짝을 이룬된 말단을 기준에 정렬함으로써). 짧은 DNA에 대한 물리적 농화의 예는 모세관 전기 영동시 특정 정체 시간에 용출액 수집을 통해, 액체 크로마토 그래피 후에, 또는 미세 유체에 의한, 겔 전기 영동시 대역 절단을 포함한다.
F.
병태 수준 분류
도 42는 본 개시내용의 실시양태에 따른 대상체의 생물학적 시료에서 병태 수준을 분류하는 방법 (4200)을 예시하는 흐름도이다. 무 세포 DNA를 포함하는 생물학적 시료. 방법 (4200)의 양태는 도 19의 방법 (1900) 및 도 20의 방법 (2000)과 유사한 방식으로 수행될 수 있다.
블록 (4210)에서, 생물학적 시료로부터의 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 획득한다. 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함한다. 블록 (4210)은 도 19의 블록 (1910)과 유사한 방식으로 수행될 수 있다.
블록 (4220)에서, 복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대해 서열 모티프가 결정된다. 블록 (4220)은 도 19의 블록(1920)과 유사한 방식으로 수행될 수 있다.
블록 (4230)에서, 복수의 무 세포 DNA 단편의 종결 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도가 결정된다. 서열 모티프의 상대 빈도는 서열 모티프에 상응하는 종결 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공할 수 있다. 블록 (4230)은 도 19의 블록 (1930)과 유사한 방식으로 수행될 수 있다. 예를 들어, 하나 이상의 서열 모티프 세트는 N개의 염기 위치를 포함할 수 있다. 하나 이상의 서열 모티프 세트는 N 염기의 모든 조합을 포함할 수 있다. N은 임의의 다른 정수뿐만 아니라 3 이상인 정수일 수 있다.
또 다른 예로서, 하나 이상의 서열 모티프의 세트는 하나 이상의 기준 시료에서 결정된 바와 같이 두 가지 유형의 DNA 사이에 가장 큰 차이를 갖는 상위 M개의 서열 모티프, 예를 들어 모두 가장 큰 양의 차이를 나타내는 모티프 (예를 들어 , 상위 10개 또는 기타 숫자) 또는 모두 가장 큰 음의 차이가 있는 모티프일 수 있다. M은 1 이상의 정수일 수 있다. 방법 (1900) 및 (2000)의 경우 두 가지 유형의 DNA는 임상 관련 DNA 및 기타 DNA 일 수 있다. 방법 (4200)의 경우, 상기 두 가지 유형의 DNA는 병태 수준에 대해 서로 다른 분류를 갖는 두 개의 기준 시료에서 유래할 수 있다. 추가의 예로서, 하나 이상의 서열 모티프의 세트는 예를 들어도 22에 도시된 바와 같이 하나 이상의 기준 시료에서 발생하는 상위 M개의 가장 빈번한 서열 모티프일 수 있고, 여기서 기준 시료는 HBV 시료과 같은 비-암 시료이다.
블록 (4240)에서, 하나 이상의 서열 모티프 세트의 상대 빈도의 집계값이 결정된다. 블록 (4240)은 도 19의 블록 (1940)과 유사한 방식으로 수행될 수 있다. 집계값의 예는 본 명세서 전반에 걸쳐 설명되며, 차이로부터 결정되는 값 (예를 들어, 확률) 또는 클러스터링 또는 SVM 사용에서 구현될 수 있는 바와 같이 상대 빈도의 기준 패턴과의 차이 (예를 들어, 거리), 결합 빈도, 엔트로피, 또는 두 분류 간의 컷오프 또는 주어진 분류의 대표값과 비교되는 머신 러닝 모델 (예를 들어, 신경망의 중간 또는 최종 계층)에서의 출력을 포함한다.
하나 이상의 서열 모티프 세트가 복수의 서열 모티프를 포함하는 경우, 집계값은 상기 세트의 상대 빈도의 합계를 포함할 수 있다. 합계는 가중 합계일 수 있다. 예를 들어, 집계값은 가중 합계를 구성하는 항의 합을 포함하는 엔트로피 항을 포함할 수 있다. 각 항은 상대 빈도의 로그를 곱한 상대 빈도를 포함할 수 있다. 집계값은 상대 빈도의 분산에 해당할 수 있다.
또 다른 예에서, 집계값은 머신 러닝 모델의 최종 또는 중간 출력을 포함한다. 다양한 구현예에서 머신 러닝 모델은 클러스터링, 지원 벡터 머신 또는 로지스틱 회귀를 사용한다.
블록 (4250)에서, 기준 값에 대한 집계값의 비교에 기반하여 대상체에 대한 병태 수준의 분류가 결정될 수 있다. 예를 들어, 병태는 암 또는 자가 면역 질환일 수 있다. 예를 들어, 수준은 암 없음, 초기 단계, 중간 단계 또는 진행된 단계일 수 있다. 그런 다음, 분류에서 상기 수준 중 하나를 선택할 수 있다. 따라서, 분류는 복수의 암의 단계를 포함하는 복수의 암의 수준으로부터 결정될 수 있다. 예를 들어, 암은 간세포 암종, 폐암, 유방암, 위암, 다형 교모세포종, 췌장암, 결장 직장암, 비인두 암종, 및 두경부 편평 세포 암종일 수 있다. 예를 들어, 자가 면역 장애는 전신성 홍반성 루푸스일 수 있다.
추가 예에서, 병태 수준은 병태와 관련된 임상 관련 DNA의 분획 농도에 해당한다. 예를 들어, 병태 수준은 암일 수 있고 임상 관련 DNA는 종양 DNA일 수 있다. 기준 값은 방법 (1900)에 대해 설명된 바와 같이 보정 시료에서 결정된 보정값일 수 있다.
일부 실시양태에서, 무 세포 DNA는 복수의 무 세포 DNA 단편을 확인하기 위해 필터링된다. 필터링의 예는 상기 섹션에서 제공된다. 예를 들어, 필터링은 메틸화 (밀도 또는 특정 부위가 메틸화되었는지 여부), 크기, 또는 DNA 단편이 유래된 영역을 기반으로 할 수 있다. 무 세포 DNA는 특정 조직의 개방형 염색질 영역에서 DNA 단편을 위해 필터링될 수 있다.
IV.
농화
특정 조직으로부터의 DNA 단편이 특정 세트의 말단 모티프를 나타내는 선호는 특정 조직으로부터의 DNA에 대한 시료를 농화하기 위해 사용될 수 있다. 따라서, 실시양태는 임상 관련 DNA에 대한 시료를 풍부하게 할 수 있다. 예를 들어, 특정 종결 서열을 갖는 DNA 단편만이 분석을 사용하여 시퀀싱, 증폭 및/또는 포획될 수 있다. 다른 예로서, 서열 판독의 필터링은 예를 들어 섹션 III.E에 설명된 것과 유사한 방식으로 수행될 수 있다.
A.
물리적 농화
물리적 농화는 특정 프라이머 또는 어댑터를 사용하여 수행할 수있는 것처럼 다양한 방식으로, 예를 들어 표적 시퀀싱 또는 PCR을 통해 수행할 수 있다. 종결 서열의 특정 말단 모티프가 감지되면 어댑터를 단편 말단에 추가할 수 있다. 그런 다음 시퀀싱이 수행될 때 어댑터가 있는 DNA 단편만 시퀀싱 (또는 적어도 대부분 시퀀싱)되므로, 표적화된 시퀀싱을 제공합니다.
또 다른 예로서, 특정 말단 모티프 세트에 혼성화하는 프라이머가 사용될 수 있다. 그런 다음 이러한 프라이머를 사용하여 시퀀싱 또는 증폭을 수행할 수 있다. 특정 말단 모티프에 해당하는 포획 프로브를 사용하여 추가 분석을 위한 해당 말단 모티프로 DNA 분자를 포획할 수도 있다. 일부 실시양태는 혈장 DNA 분자의 말단에 짧은 올리고뉴클레오타이드를 결찰할 수 있다. 그런 다음 부분적으로 말단 모티프이고 부분적으로 결찰된 올리고 뉴클레오타이드인 서열만 인식하도록 프로브를 설계할 수 있다.
일부 실시양태는 CRISPR 기반 진단 기술을 사용할 수 있고, 예를 들어, Cas-9 또는 CAS-12를 사용하여 수행할 수 있는 것과 같이 가이드 RNA를 사용하여 임상 관련 DNA에 대해 바람직한 말단 모티프에 해당하는 부위를 알아내고 뉴클레아제를 사용하여 DNA 단편을 절단할 수 있다. 예를 들어 어댑터를 사용하여 말단 모티프를 인식한 다음 CRISPR/Cas9 또는 Cas-12를 사용하여 말단 모티프/어댑터 하이브리드를 절단하고 원하는 말단을 가진 분자의 추가 농화를 위해 보편적으로 인식 가능한 말단을 생성할 수 있다.
도 43은 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법 (4300)을 예시하는 흐름도이다. 생물학적 시료에는 임상 관련 DNA 분자와 무 세포인 기타 DNA 분자가 포함된다. 방법 (4300)은 특정 분석을 사용하여 농화를 수행할 수 있다.
블록 (4310)에서, 생물학적 시료로부터의 복수의 무 세포 DNA 단편이 수신된다. 임상 관련 DNA 단편 (예를 들어, 태아 또는 종양)은 다른 DNA (예를 들어, 모체 DNA, 건강한 DNA, 또는 혈액 세포)보다 더 높은 상대 빈도로 발생하는 서열 모티프를 포함하는 종결 서열을 갖는다. 예를 들어, 도3 및 13의 데이터를 사용할 수 있다. 따라서 서열 모키프는 임상 관련 DNA를 농화하는 데 사용될 수 있다.
블록 (4320)에서, 복수의 무 세포 DNA 단편은 복수의 무 세포 DNA 단편의 종결 서열에서 서열 모티프를 검출하는 하나 이상의 프로브 분자에 적용된다. 이러한 프로브 분자를 사용하면 검출된 DNA 단편을 얻을 수 있다. 한 예에서, 하나 이상의 프로브 분자는 복수의 무 세포 DNA 단편을 조사하고 검출된 DNA 단편을 증폭하는 데 사용되는 새로운 서열이 추가되는 하나 이상의 효소를 포함할 수 있다. 또 다른 예에서, 하나 이상의 프로브 분자는 혼성화에 의해 종결 서열에서 서열 모티프를 검출하기 위해 표면에 부착될 수 있다.
블록 (4330)에서, 검출된 DNA 단편은 임상 관련 DNA 단편에 대한 생물학적 시료를 농화하는 데 사용된다. 예를 들어, 임상 관련 DNA 단편에 대한 생물학적 시료를 농화하기 위해 검출된 DNA 단편을 사용하는 것은 검출된 DNA 단편을 증폭하는 것을 포함할 수 있다. 또 다른 예로서, 검출된 DNA 단편은 포획될 수 있고 검출되지 않은 DNA 단편은 폐기될 수 있다.
B.
인실리코(In Silico) 농축
인실리코 농축은 다양한 기준을 사용하여 특정 DNA 단편을 선택하거나 폐기할 수 있다. 이러한 기준에는 말단 모티프, 개방 염색질 영역, 크기, 서열 변동, 메틸화 및 기타 후생적 특성이 포함될 수 있다. 후생적 특성에는 DNA 서열의 변화를 수반하지 않는 게놈의 모든 변형이 포함된다. 상기 기준은 예를 들어 특정 크기 범위, 특정 양 초과 또는 미만인 메틸화 메트릭, 하나 이상의 CpG 부위의 메틸화 상태의 조합 (예를 들어, 메틸화 단상형 (문헌 [Guo et al, Nat Genet. 2017; 49: 635-42]) 등과 같은 특정 특성을 요구하거나 또는 역치 초과인 결합된 확률을 갖는 컷오프를 명시할 수 있다. 이러한 농화는 또한 그러한 확률에 기초하여 DNA 단편에 가중치를 부여하는 것을 포함할 수 있다.
예로서, 농축된 시료는, 병태를 분류하기 위해서 뿐만 아니라 (상기 기술된 바와 같음) 종양 또는 태아 돌연변이를 식별하거나 염색체 또는 염색체 영역의 증폭/결실 검출을 위한 태그 계수에 사용될 수 있다. 예를 들어, 특정 말단 모티프 또는 말단 모티프 세트가 간암과 관련이 있는 경우 (즉, 비-암 또는 기타 암보다 상대 빈도가 더 높음), 암 스크리닝을 수행하는 실시양태는 그러한 DNA 단편에 이러한 바람직한 하나의 말단 모티프 또는 이러한 바람직한 말단 모티프 세트를 갖지 않는 DNA 단편보다 더 높은 가중치를 부여 할 수 있다.
도 44는 본 개시내용의 실시양태에 따른 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법 (4400)을 예시하는 흐름도이다. 생물학적 시료에는 임상 관련 DNA 분자와 무 세포인 기타 DNA 분자가 포함된다. 방법 (4400)은 농화를 수행하기 위해 서열 판독의 특정 기준을 사용할 수 있다.
블록 (4410)에서, 생물학적 시료로부터의 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 획득한다. 서열 판독은 복수의 무 세포 DNA 단편의 말단에 해당하는 종결 서열을 포함한다. 블록 (4410)은 도 19의 블록 (1910)과 유사한 방식으로 수행될 수 있다.
블록 (4420)에서, 복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프가 결정된다. 블록 (4420)은 도 19의 블록 (1920)과 유사한 방식으로 수행될 수 있다.
블록 (4430)에서, 기타 DNA 보다 더 큰 상대 빈도로 임상 관련 DNA에서 발생하는 하나 이상의 서열 모티프 세트가 확인된다. 서열 모티프(들) 세트는 본원에 기재된 유전형 또는 표현형 기술에 의해 확인될 수 있다. 보정 또는 기준 시료를 사용하여 임상 관련 DNA에 대해 선택적인 서열 모티프의 순위를 매기고 선택할 수 있다.
블록 (4440)에서, 종결 서열에 하나 이상의 서열 모티프 세트를 갖는 서열 판독 그룹이 확인된다. 이것은 필터링의 첫 번째 단계로 볼 수 있다.
블록 (4450)에서 역치를 초과하는 임상 관련 DNA에 상응할 가능성이 있는 서열 판독값이 저장될 수 있다. 상기 가능성은 말단 모티프 세트를 사용하여 결정할 수 있다. 예를 들어, 서열 판독 그룹의 각 서열 판독에 대해, 하나 이상의 서열 모티프 세트의 서열 모티프를 포함하는 서열 판독의 종결 서열에 기초하여 판독 서열이 임상 관련 DNA에 상응할 가능성을 결정할 수 있다. 상기 가능성은 역치와 비교할 수 있다. 예를 들어, 역치는 경험적으로 결정될 수 있다. 예를 들어, 임상 관련 DNA의 농도가 서열 판독 그룹에 대해 측정될 수 있는 시료에 대해 다양한 역치를 테스트할 수 있다. 최적의 역치는 총 서열 판독 수의 특정 비율을 유지하면서 농도를 최대화할 수 있다. 역치는 건강한 대조군 또는 유사한 병인학적 위험에 노출되었지만 질병은 없는 대조군에 존재하는 하나 이상의 말단 모티프의 하나 이상의 소정의 백분위수 (5번째, 10번째, 90번째, 또는 95번째) 농도에 의해 결정될 수 있었다. 역치는 회귀 또는 확률적 점수일 수 있다.
서열 판독값은 상기 가능성이 역치를 초과할 때 메모리 (예를 들어, 파일, 테이블, 또는 기타 데이터 구조)에 저장되어 저장된 서열 판독값을 얻을 수 있다. 역치 미만의 가능성이 있는 서열 판독값은 폐기되거나 또는 보존되는 판독 메모리 위치에 저장되지 않을 수 있거나, 또는 데이터베이스 필드는 상기 판독값이 더 낮은 역치를 가짐을 나타내는 플래그를 포함할 수 있어 나중의 분석에서 이러한 읽기를 제외할 수 있다. 예를 들어, 상기 가능성은 오즈비(odds ratio), z-점수, 또는 확률 분포와 같은 다양한 기술을 사용하여 결정될 수 있다.
블록 (4460)에서, 저장된 서열 판독값은 예를 들어, 본원에 기재된 바와 같이, 예컨대 다른 순서도에 기재된 바와 같이 생물학적 시료의 임상 관련 DNA의 특성을 결정하기 위해 분석될 수 있다. 방법 (1900), (2000) 및 (4200)이 그러한 예이다. 예를 들어, 생물학적 시료인 임상 관련 DNA의 특성은 임상 관련 DNA의 분획 농도일 수 있다. 또 다른 예로서, 상기 특성은 생물학적 시료를 획득한 대상체의 병태 수준일 수 있으며, 여기서 상기 병태 수준은 임상 관련 DNA와 연관된다. 또 다른 예로서, 상기 특성은 생물학적 시료를 획득한 임산부의 태아의 재태 연령일 수 있다.
다른 기준을 사용하여 가능성을 결정할 수 있다. 복수의 무 세포 DNA 단편의 크기는 서열 판독을 사용하여 측정할 수 있다. 특정 서열 판독이 임상 관련 DNA에 상응할 가능성은 특정 서열 판독에 상응하는 무 세포 DNA 단편의 크기에 추가적으로 기초할 수 있다.
메틸화도 사용할 수 있다. 따라서, 실시양태는 특정 서열 판독에 상응하는 무 세포 DNA 단편의 하나 이상의 부위에서 하나 이상의 메틸화 상태를 측정할 수 있다. 특정 서열 판독이 임상 관련 DNA에 상응할 가능성은 하나 이상의 메틸화 상태에 추가로 기초할 수 있다. 추가 예로서, 서열 판독이 식별된 개방형 염색질 영역 세트 내에 있는지 여부가 필터로서 사용될 수 있다.
도 45는 본 개시내용의 실시양태에 따른 CCCA 말단 모티프를 사용한 태아 DNA 분획의 증가를 도시하는 예시적인 그래프를 나타낸다. 세로축은 테스트된 시료의 태아 DNA 분획이다. 두 세트의 데이터는 (1) 정보성 SNP와 겹치는 모든 단편 (즉, 태아 특이적 대립 유전자가 있는 것) 및 (2) CCCA 말단 모티프를 갖고 정보성 SNP와 겹치는 단편에 대한 것이다. 따라서 좌측 데이터는 전체 시료의 실제 태아 DNA 분획을 제공하고, 우측 데이터는 인실리코 농화 시료에 대한 데이터를 제공한다. 이 예에서 종결 모티프가 CCCA일 때 가능성은 역치 초과로 결정될 수 있다. 더 많은 모티프가 유사한 방식으로, 예를 들어 가능성이 역치 초과임을 나타내는 그룹으로 사용될 수 있다.
태아 DNA 분획의 중앙값 상대적 증가는 3.2% (IQR: 1.3 내지 6.4%)이다. 태아 DNA 분획의 상대적 증가는 (ba)/a*100에 의해 정의되고, 여기서 a는 모체가 동형접합성이고 태아가 이형접합성일 때 정보성 SNP와 겹치는 모든 단편에 의해 계산되는 원래 태아 DNA 분획이고, b는 태아 DNA 분자에서 농화된 CCCA 모티프에 의해 태그된 단편에 의해 계산되는 DNA 분획이다.
본원에 기재된 임의의 방법에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각가에 대한 서열 모티프는 기준 게놈을 사용하여 수행될 수 있다 (예를 들어, 도 1의 기술 (160)을 통해). 그러한 기술은 다음을 포함할 수 있다: 무 세포 DNA 단편에 대응하는 하나 이상의 서열 판독을 기준 게놈에 정렬하고, 종결 서열에 인접한 기준 게놈에서 하나 이상의 염기를 확인하고, 말단 서열 및 하나 이상의 염기를 사용하여 서열 모티프를 결정하는 것.
V.
예시적 시스템
도 46은 본 발명의 실시양태에 따른 측정 시스템 (4600)을 예시한다. 도시된 바와 같은 시스템은 시료 (4605), 예컨대 시료 홀더 (4610) 내의 무 세포 DNA 분자를 포함하며, 여기서 상기 시료 (4605)는 검정물 (4608)과 접촉되어 물리적 특징 (4615)의 신호를 제공할 수 있다. 시료 홀더의 일례는, 검정물의 프로브 및/또는 프라이머 또는 액적이 이동하는 관 (상기 액적은 검정물을 포함함)을 포함하는 유동 세포일 수 있다. 시료로부터의 물리적 특징 (4615)(예를 들어, 형광 강도, 전압 또는 전류)은 검출기 (4620)에 의해 검출된다. 검출기 (4620)는 간격 (예를 들어, 주기적 간격)을 둔 측정을 수행하여, 데이터 신호를 구성하는 데이터 포인트를 얻을 수 있다. 일 실시양태에서, 아날로그-대-디지털 전환기는 검출기로부터의 아날로그 신호를 복수의 시점에서 디지털 형태로 전환시킨다. 시료 홀더 (4610) 및 검출기 (4620)는 검정 장치, 예를 들어 본원에 기재된 실시양태에 따른 시퀀싱을 수행하는 시퀀싱 장치를 형성할 수 있다. 데이터 신호 (4625)는 검출기 (4620)로부터 로직 시스템 (4630)으로 전송된다. 데이터 신호 (4625)는 로컬 메모리 (4635), 외장 메모리 (4640), 또는 저장 장치 (4645)에 저장될 수 있다.
로직 시스템 (4630)은 컴퓨터 시스템, ASIC, 마이크로프로세서 등일 수 있어나 또는 이들을 포함할 수 있다. 이것은 또한 디스플레이 (예를 들어, 모니터, LED 디스플레이 등) 및 사용자 입력 장치 (예를 들어, 마우스, 키보드, 버튼 등)를 포함하거나 이들과 커플링될 수 있다. 로직 시스템 (4630) 및 다른 구성요소는 독립형 또는 네트워크 연결 컴퓨터 시스템의 일부일 수 있거나, 이들은 검출기 (4620) 및/또는 시료 홀더 (4610)를 포함하는 장치 (예를 들어, 시퀀싱 장치)에 직접적으로 부착되거나 상기 장치에 통합될 수 있다. 로직 시스템 (4630)은 또한, 프로세서 (4650)에서 실행하는 소프트웨어를 포함할 수 있다. 로직 시스템 (4630)은 본원에 기재된 임의의 방법을 수행하도록 측정 시스템 (4600)을 제어하는 명령을 저장하는 컴퓨터 판독 가능 매체를 포함할 수 있다. 예를 들어, 로직 시스템 (4630)은, 시퀀싱 또는 다른 물리적 작동이 수행되도록, 시료 홀더 (4610)를 포함하는 시스템에 명령을 제공할 수 있다. 이러한 물리적 작동은 특정 순서로 수행될 수 있으며, 예를 들어 시약이 특정 순서로 첨가되고 제거된다. 이러한 물리적 작동은 시료를 수득하고 검정을 수행하는 데 사용될 수 있는 바와 같이 예를 들어 로봇 팔을 포함하는 로봇공학 시스템에 의해 수행될 수 있다.
본원에 언급된 컴퓨터 시스템 중 임의의 것이 임의의 적합한 수의 서브시스템을 이용할 수 있다. 이러한 서브시스템의 예는 도 47에서 컴퓨터 시스템 (10)으로 표현된다. 일부 실시양에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 서브시스템은 컴퓨터 장치의 구성요소일 수 있다. 다른 구현예에서, 컴퓨터 시스템은 내부 구성요소와 함께, 각각 서브시스템인, 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩탑 컴퓨터, 태블렛 PC, 휴대 전화 및 다른 모바일 장치를 포함할 수 있다.
도 47에 도시된 서브시스템은 시스템 버스(system bus) (75)를 통해서 서로 연결되어 있다. 디스플레이 어댑터 (82)에 커플링된, 프린터 (74), 키보드 (78), 저장 장치(들) (79), 모니터 (76)(예를 들어, 디스플레이 스크린, 예컨대 LED)와 같은 추가의 서브시스템, 및 다른 것이 도시된다. 입력/출력(I/O) 컨트롤러 (71)에 커플링된, 주변 및 입력/출력(I/O) 장치는, 입력/출력(I/O) 포트 (77)와 같이, 관련 기술 분야에 공지된 임의의 수의 수단 (예를 들어, USB, FireWire®)에 의해 컴퓨터 시스템에 연결될 수 있다. 예를 들어, I/O 포트 (77) 또는 외부 인터페이스 (81)(예를 들어, 이더넷, Wi-Fi 등)는 컴퓨터 시스템 (10)을 인터넷, 마우스 입력 장치, 또는 스캐너와 같은 광범위 네트워크에 연결시키도록 사용될 수 있다. 시스템 버스 (75)를 통한 상호연결은 중앙 처리 장치 (73)가 각각의 서브시스템과 통신하도록 하고 시스템 메모리 (72) 또는 저장 장치(들) (79)(예를 들어, 고정 디스크, 예컨대 하드 드라이브 또는 광 디스크)로부터의 복수의 명령어의 실행, 및 또한 서브시스템들 사이의 정보의 교환을 제어할 수 있도록 한다. 시스템 메모리 (72) 및/또는 저장 장치(들) (79)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 또 다른 서브시스템은 데이터 수집 장치 (85), 예컨대 카메라, 마이크로폰, 가속도계 등이다. 본원에 언급된 데이터 중 임의의 것이 하나의 성분으로부터 또 다른 성분으로 출력될 수 있고, 사용자에게 출력될 수 있다.
컴퓨터 시스템은, 예를 들어 외부 인터페이스 (81)에 의해, 내부 인터페이스에 의해, 또는 하나의 구성요소로부터 다른 구성요소로 연결되거나 제거될 수 있는 제거 가능한 저장 장치를 통해 함께 연결되는, 복수의 동일한 구성요소 또는 서브시스템을 포함할 수 있다. 일부 실시양태에서, 컴퓨터 시스템, 서브시스템, 또는 장치는 네트워크를 통해 통신할 수 있다. 이러한 예에서, 하나의 컴퓨터는 클라이언트로 여겨질 수 있고, 또 다른 컴퓨터는 서버로 여겨질 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 부분일 수 있다. 클라이언트 및 서버는 각각 다중 시스템, 서브시스템, 또는 구성요소를 포함할 수 있다.
실시양태의 구현예는 하드웨어 회로 (예를 들어, 주문형 반도체 또는 필드 프로그램 가능 게이트 어레이)를 사용하여 및/또는 모듈러 또는 집적 방식으로 일반적으로 프로그램 가능한 프로세서를 포함하는 컴퓨터 소프트웨어를 사용하여 제어 로직의 형태로 구현될 수 있다. 본원에 사용된 바와 같이, 프로세서는 전용 하드웨어뿐만 아니라, 단일 코어 프로세서, 동일한 집적 칩 상의 멀티 코어 프로세서, 또는 단일 회로 기판 상의 또는 네트워크화된 다수의 프로세싱 유닛을 포함할 수 있다. 본원에 제공된 개시내용 및 교시내용에 기초하여, 당업자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 발명의 실시양태를 실행하는 다른 방식 및/또는 방법을 알고 인지할 것이다.
본 출원에 기술된 소프트웨어 구성요소 또는 기능 중 임의의 것은 예를 들어, 종래의 또는 객체 지향 기술을 사용하는, 예를 들어, 자바, C, C++, C#, 오브젝티브(Objective)-C, 스위프트(Swift), 또는 펄(Perl)이나 파이썬(Python)과 같은 스크립팅 언어와 같은 임의의 적합한 컴퓨터 언어를 사용하여 프로세서에 의해 실행될 소프트웨어 코드로서 구현될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위해 컴퓨터 판독 가능 매체 상에 일련의 명령 또는 지령으로서 저장될 수 있다. 적합한 비일시적 컴퓨터 판독 가능 매체는 임의 접근 메모리(RAM), 읽기 전용 메모리(ROM), 하드-드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다기능 디스크) 또는 블루-레이 디스크(Blu-ray disk), 플래쉬 메모리 등과 같은 광학 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 이러한 저장 또는 전송 장치의 임의의 조합일 수 있다.
이러한 프로그램은 또한 인터넷을 비롯한, 각종 프로토콜에 따른 유선, 광학 및/또는 무선 네트워크를 통한 전송을 위해 채택된 캐리어 신호를 사용하여 암호화되고 전송될 수 있다. 이와 같이, 컴퓨터 판독 가능한 매체는 이러한 프로그램으로 암호화된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 코드로 암호화된 컴퓨터 판독 가능 매체는 호환 장치와 함께 (예를 들어, 인터넷 다운로드를 통해) 패키징될 수 있거나 다른 장치로부터 별도로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들어, 하드 드라이브, CD 또는 전체 컴퓨터 시스템) 상에 또는 그 내부에 있을 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상에 또는 그 내부에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본원에 언급된 결과 중 임의의 결과를 사용자에게 제공하기에 적합한 다른 디스플레이를 포함할 수 있다.
본원에 기술된 방법 중 임의의 방법은, 단계를 수행하도록 구성될 수 있는, 하나 이상의 프로세서를 포함하는 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 그러므로, 실시양태는, 잠재적으로는 각각의 단계 또는 단계의 각각의 그룹을 수행하는 상이한 구성요소와 함께, 본원에 기재된 방법 중 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있다. 번호 매긴 단계로서 제공되더라도, 본원의 방법의 단계는 동시에 또는 상이한 시간에 또는 상이한 순서로 수행될 수 있다. 추가로, 이들 단계의 일부는 다른 방법으로부터의 다른 단계의 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택적일 수 있다. 또한, 임의의 방법 중 임의의 단계는 이들 단계를 수행하기 위한 시스템의 모듈, 유닛, 회로, 또는 다른 수단에 의해 수행될 수 있다.
특정 실시양태의 구체적인 세부사항은 본 발명의 실시예의 사상 및 범주 내에서 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 실시양태는 각각의 개별적인 양태, 또는 이들 개별적인 양태의 특정 조합에 관한 특정 실시양태에 관한 것일 수 있다.
본 개시내용의 예시적인 실시양태의 상기 설명은 예시 및 설명의 목적으로 제시되었다. 이것은 철저하거나 본 개시내용을 설명된 정확한 형태로 제한하도록 의도되지 않으며, 상기의 교시내용에 비추어 많은 수정 및 변형이 가능하다.
단수형의 인용은 구체적으로 반대로 나타내지 않은 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 "포함하거나 또는"을 의미하고, 구체적으로 다르게 나타내지 않는 한 "배제하거나 또는"을 의미하도록 의도되지 않는다. "제1" 구성요소에 대한 언급은 반드시 제2 구성요소가 제공되어야 함을 요구하지는 않는다. 더욱이, "제1" 구성요소 또는 "제2" 구성요소에 대한 언급은 명시적으로 언급되지 않는 한 언급된 구성요소를 특정 위치로 제한하지 않는다. "기초하여(based on)"라는 용어는 "적어도 부분적으로 기초하여"를 의미하는 것으로 의도된다.
본원에 언급된 모든 특허, 특허 출원, 공개공보, 및 설명은 모든 목적을 위해서 그 전체 내용이 참조로 포함된다. 어느 것도 선행 기술로서 인정하는 것은 아니다.
Claims (53)
- 대상체의 생물학적 시료에서 병태 수준을 분류하는 방법으로서, 상기 생물학적 시료는 무 세포 DNA를 포함하며, 상기 방법은
생물학적 시료로부터 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득하는 단계로서, 여기서 상기 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함하는 것인 단계;
복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프를 결정하는 단계;
복수의 무 세포 DNA 단편의 종결 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도를 결정하는 단계로서, 여기서 서열 모티프의 상대 빈도는 상기 서열 모티프에 해당하는 말단 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공하는 것인 단계;
하나 이상의 서열 모티프 세트의 상대 빈도의 집계값을 결정하는 단계; 및
상기 집계값과 기준 값의 비교를 기반으로 대상체에 대한 병태 수준의 분류를 결정하는 단계를 포함하는, 방법. - 제1항에 있어서,
상기 무 세포 DNA를 여과하여 복수의 무 세포 DNA 단편을 식별하는 단계를 추가로 포함하는, 방법. - 제2항에 있어서, 상기 여과가 DNA 단편이 유래된 크기 또는 영역에 기반하는 방법.
- 제3항에 있어서, 상기 무 세포 DNA가 특정 조직의 개방 염색질 영역으로부터의 DNA 단편에 대해 여과되는 방법.
- 제1항에 있어서, 상기 병태가 암인, 방법.
- 제5항에 있어서, 상기 암이 간세포 암종, 폐암, 유방암, 위암, 다형 교모세포종, 췌장암, 결장 직장암, 비 인두 암종, 및 두경부 편평 세포 암종인, 방법.
- 제5항에 있어서, 상기 분류가 복수의 암의 단계를 포함하는 복수 암 수준으로부터 결정되는 방법.
- 제1항에 있어서, 상기 병태가 자가 면역 장애인, 방법.
- 제8항에 있어서, 상기 자가 면역 장애가 전신성 홍반성 루푸스인, 방법.
- 제1항에 있어서, 병태 수준이 상기 병태와 관련된 임상 관련 DNA의 분획 농도에 해당하는 방법.
- 대상체의 생물학적 시료에서 임상 관련 DNA의 분획 농도를 추정하는 방법으로서, 상기 생물학적 시료는 임상 관련 DNA 및 무 세포인 다른 DNA를 포함하며, 상기 방법은
생물학적 시료로부터 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득하는 단계로서, 여기서 상기 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함하는 것인 단계;
복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프를 결정하는 단계;
복수의 무 세포 DNA 단편의 말단 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도를 결정하는 단계로서, 여기서 서열 모티프의 상대 빈도는 상기 서열 모티프에 해당하는 종결 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공하는 것인 단계;
하나 이상의 서열 모티프 세트의 상대 빈도의 집계값을 결정하는 단계; 및
상기 집계값을 임상 관련 DNA의 분획 농도가 알려진 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함 으로써 생물학적 시료에서 임상 관련 DNA의 분획 농도의 분류를 결정하는 단계를 포함하는, 방법. - 제11항에 있어서, 상기 임상 관련 DNA가 태아 DNA, 종양 DNA, 이식된 장기의 DNA, 및 특정 조직 유형으로 이루어진 군으로부터 선택되는 것인 방법.
- 제11항에 있어서, 상기 임상 관련 DNA가 특정 조직 유형인, 방법.
- 제13항에 있어서, 상기 특정 조직 유형이 간 또는 조혈인, 방법.
- 제11항에 있어서, 상기 대상체가 임산부이고 상기 임상 관련 DNA가 태반 조직인, 방법.
- 제11항에 있어서, 상기 임상 관련 DNA가 암을 갖는 기관에서 유래된 종양 DNA인, 방법.
- 제11항에 있어서, 상기 하나 이상의 보정값이 복수의 보정 시료의 임상 관련 DNA의 분획 농도를 사용하여 결정되는 보정 함수의 복수의 보정값인, 방법.
- 제11항에 있어서, 상기 하나 이상의 보정값이 하나 이상의 보정 시료에서 무 세포 DNA 단편을 사용하여 측정된 하나 이상의 서열 모티프 세트의 상대 빈도의 하나 이상의 집계값에 해당하는 방법.
- 제11항에 있어서,
하나 이상의 보정 시료들 중 각 보정 시료에 대하여,
보정 시료에서 임상 관련 DNA의 분획 농도를 측정하는 단계; 및
보정 데이터 포인트를 수득하는 과정의 일부로서 보정 시료에서 무 세포 DNA 단편을 분석하여 하나 이상의 서열 모티프 세트의 상대 빈도의 집계값을 결정하고, 이에 따라 하나 이상의 집계값을 결정하는 단계를 추가로 포함하는 방법으로서, 여기서 각 보정 데이터 포인트는 보정 시료에서 임상 관련 DNA의 측정된 분획 농도 및 보정 시료에 대해 결정된 집계값을 특정하며, 여기서 하나 이상의 보정값은 하나 이상의 집계값이거나 하나 이상의 집계값을 사용하여 결정되는 방법. - 제19항에 있어서, 보정 시료에서 임상 관련 DNA의 분획 농도를 측정하는 것이 임상 관련 DNA에 특이적인 대립 유전자를 사용하여 수행되는 것인 방법.
- 태아를 임신 한 여성 대상체의 생물학적 시료를 분석하여 태아의 재태 연령을 결정하는 방법으로서, 상기 생물학적 시료는 여성 대상체와 태아의 무 세포 DNA 분자를 포함하고, 상기 방법은
생물학적 시료로부터 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득하는 단계로서, 여기서 상기 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함하는 것인 단계;
복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프를 결정하는 단계;
복수의 무 세포 DNA 단편의 종결 서열에 상응하는 하나 이상의 서열 모티프 세트의 상대 빈도를 결정하는 단계로서, 여기서 상기 서열 모티프의 상대 빈도는 서열 모티프에 해당하는 종결 서열을 갖는 복수의 무 세포 DNA 단편의 비율을 제공하는 단계;
하나 이상의 서열 모티프 세트의 상대 빈도의 집계값을 결정하는 단계;
하나 이상의 보정 데이터 포인트를 수득하는 단계로서, 여기서 각 보정 데이터 포인트는 집계값에 해당하는 재태 연령을 특정하고, 여기서 하나 이상의 보정 데이터 포인트는 재태 연령이 알려져 있고 무 세포 DNA 분자를 포함하는 복수의 보정 시료로부터 결정되는 단계;
상기 집계값을 적어도 하나의 보정 데이터 포인트의 보정값과 비교하는 단계; 및
상기 비교를 기반으로 태아의 재태 연령을 추정하는 단계를 포함하는, 방법. - 제21항에 있어서, 상기 하나 이상의 보정 데이터 포인트가, 알려진 재태 연령을 갖는 복수의 보정 시료에서 무 세포 DNA 분자로부터 결정된 측정된 집계값에 근접하는 보정 함수를 형성하는 복수의 보정 데이터 포인트인, 방법.
- 제21항에 있어서, 상기 집계값이, 복수의 보정 시료 중 하나에 각각 상응하는 복수의 보정값과 비교되는 방법.
- 제21항에 있어서, 적어도 하나의 보정 데이터 포인트의 보정값이, 복수의 보정 시료 중 적어도 하나에서 무 세포 DNA 분자를 사용하여 측정된 집계값에 상응하는 방법.
- 제21항에 있어서, 태아로부터 유래된 것으로서 복수의 무 세포 DNA 단편을 확인하는 단계를 추가로 포함하는, 방법.
- 제25항에 있어서, 상기 복수의 무 세포 DNA 단편이 태아 특이적 대립 유전자 또는 태아 특이적 후생 유전학적 마커를 사용하여 식별되는 것인 방법.
- 제25항에 있어서, 상기 복수의 무 세포 DNA 단편이
각 서열 판독에 대해,
하나 이상의 서열 모티프 세트의 서열 모티프를 포함하는 서열 판독의 종결 서열에 기초하여 서열 판독이 태아에 해당할 가능성을 결정하는 단계;
상기 가능성을 역치와 비교하는 단계; 및
상기 가능성이 역치를 초과할 경우 상기 서열 판독을 태아에서 유래된 것으로서 식별하는 단계에 의해 확인되는 방법. - 제1항 내지 제27항 중 어느 한 항에 있어서, 상기 하나 이상의 서열 모티프 세트가 N개의 염기 위치를 포함하고, 상기 하나 이상의 서열 모티프 세트가 N개의 염기의 모든 조합을 포함하고, 상기 N은 3 이상의 정수인, 방법.
- 제1항 내지 제27항 중 어느 한 항에 있어서, 하나 이상의 서열 모티프 세트가 하나 이상의 기준 시료에서 결정된 바와 같이 두 유형의 DNA 사이에서 가장 큰 차이를 갖는 상위 M개의 서열 모티프이고, 여기서 M은 1 이상의 정수인, 방법.
- 제29항에 있어서, 상기 두 유형의 DNA가 임상 관련 DNA 및 다른 DNA인, 방법.
- 제29항에 있어서, 상기 두 유형의 DNA가 병태 수준에 대해 서로 다른 분류를 갖는 두 개의 기준 시료로부터 유래하는 방법.
- 제1항 내지 제27항 중 어느 한 항에 있어서, 상기 하나 이상의 서열 모티프의 세트가 하나 이상의 기준 시료에서 발생하는 상위 M개의 가장 빈번한 서열 모티프이고, 여기서 M은 1 이상의 정수인, 방법.
- 제28항 내지 제32항 중 어느 한 항에 있어서, 상기 하나 이상의 서열 모티프 세트가 복수의 서열 모티프를 포함하고, 상기 집계값이 상기 세트의 상대 빈도의 합계를 포함하는, 방법.
- 제33항에 있어서, 상기 합계가 가중 합계인, 방법.
- 제34항에 있어서, 상기 집계값이 엔트로피 항을 포함하고, 상기 엔트로피 항은 가중 합계를 포함하는 항의 합을 포함하며, 각 항은 상대 빈도의 로그를 곱한 상대 빈도를 포함하는, 방법.
- 제1항 내지 제35항 중 어느 한 항에 있어서, 상기 집계값이 상대 빈도의 분산에 해당하는 방법.
- 제1항 내지 제35항 중 어느 한 항에 있어서, 상기 집계값이 머신 러닝 모델의 최종 또는 중간 출력값을 포함하는 방법.
- 제37항에 있어서, 상기 머신 러닝 모델이 클러스터링, 지원 벡터 머신, 또는 로지스틱 회귀를 사용하는 방법.
- 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법으로서, 상기 생물학적 시료는 임상 관련 DNA 및 무 세포인 다른 DNA를 포함하고, 상기 방법은
생물학적 시료로부터 복수의 무 세포 DNA 단편을 분석하여 서열 판독을 수득하는 단계로서, 여기서 상기 서열 판독은 복수의 무 세포 DNA 단편의 말단에 상응하는 종결 서열을 포함하는 단계;
복수의 무 세포 DNA 단편 각각에 대해, 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프를 결정하는 단계;
상기 다른 DNA보다 더 큰 상대 빈도로 임상 관련 DNA에서 발생하는 하나 이상의 서열 모티프 세트를 확인하는 단계;
종결 서열에 하나 이상의 서열 모티프 세트를 갖는 서열 판독 그룹을 확인하는 단계;
상기 서열 판독 그룹의 각 서열 판독에 대해,
상기 서열 판독이 하나 이상의 서열 모티프 세트의 서열 모티프를 포함하는 서열 판독의 종결 서열에 기초하여 임상 관련 DNA에 대응할 가능성을 결정하는 단계;
상기 가능성을 역치와 비교하는 단계; 및
상기 가능성이 역치를 초과하는 경우 서열 판독을 저장하여 저장된 서열 판독을 수득하는 단계; 및
저장된 서열 판독을 분석하여 생물학적 시료의 임상 관련 DNA의 특성을 결정하는 단계를 포함하는, 방법. - 제39항에 있어서, 상기 생물학적 시료인 임상 관련 DNA의 특성이 (1) 임상 관련 DNA의 분획 농도, (2) 생물학적 시료를 채취한 대상체의 병태 수준, 임상 관련 DNA와 연관된 병태 수준, 또는 (3) 생물학적 시료를 채취한 임산부의 태아의 재태 연령인, 방법.
- 제39항에 있어서,
상기 서열 판독을 사용하여 상기 복수의 무 세포 DNA 단편의 크기를 측정하는 단계를 추가로 포함하고, 여기서 특정 서열 판독이 임상 관련 DNA에 해당할 가능성을 결정하는 것은 특정 서열 판독에 해당하는 무 세포 DNA 단편의 크기에 추가로 기반하는 방법. - 제39항에 있어서,
특정 서열 판독에 해당하는 무 세포 DNA 단편의 하나 이상의 부위에서 하나 이상의 메틸화 상태를 측정하는 단계를 추가로 포함하고, 여기서 특정 서열 판독이 임상 관련 DNA에 해당할 가능성을 결정하는 것은 하나 이상의 메틸화 상태에 추가로 기반하는 방법. - 제1항 내지 제42항 중 어느 한 항에 있어서, 상기 무 세포 DNA 단편의 하나 이상의 종결 서열 각각에 대한 서열 모티프를 결정하는 단계가
무 세포 DNA 단편에 해당하는 하나 이상의 서열 판독을 기준 게놈에 정렬하는 단계;
종결 서열에 인접한 기준 게놈에서 하나 이상의 염기를 확인하는 단계; 및
종결 서열 및 하나 이상의 염기를 사용하여 서열 모티프를 결정하는 단계를 포함하는 방법. - 임상 관련 DNA에 대한 생물학적 시료를 농화하는 방법으로서, 상기 생물학적 시료는 임상 관련 DNA 및 무 세포인 다른 DNA를 포함하고, 상기 방법은
생물학적 시료로부터 복수의 무 세포 DNA 단편을 수신하는 단계로서, 여기서 임상 관련 DNA 단편은 다른 DNA보다 더 큰 상대 빈도로 발생하는 서열 모티프를 포함하는 종결 서열을 갖는 것인, 단계;
복수의 무 세포 DNA 단편을 복수의 무 세포 DNA 단편의 종결 서열에서 서열 모티프를 검출하는 하나 이상의 프로브 분자에 적용하여 검출된 DNA 단편을 수득하는 단계; 및
상기 검출된 DNA 단편을 사용하여 임상 관련 DNA 단편에 대한 생물학적 시료를 농화하는 단계를 포함하는, 방법. - 제44항에 있어서, 상기 검출된 DNA 단편을 사용하여 임상 관련 DNA 단편에 대한 생물학적 시료를 농화하는 단계가
상기 검출된 DNA 단편을 증폭시키는 단계를 포함하는, 방법. - 제45항에 있어서, 하나 이상의 프로브 분자가 복수의 무 세포 DNA 단편을 조사하고 검출된 DNA 단편을 증폭시키는데 사용되는 새로운 서열을 추가하는 하나 이상의 효소를 포함하는 방법.
- 제44항에 있어서, 상기 검출된 DNA 단편을 사용하여 임상 관련 DNA 단편에 대한 생물학적 시료를 농화하는 단계가
상기 검출된 DNA 단편을 포획하는 단계; 및
검출되지 않은 DNA 단편을 폐기하는 단계를 포함하는, 방법. - 제47항에 있어서, 하나 이상의 프로브 분자가 표면에 부착되고 혼성화에 의해 종결 서열에서 서열 모티프를 검출하는 방법.
- 제1항 내지 제48항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 시스템을 제어하기 위해 복수의 명령을 저장하는 컴퓨터 판독 가능 매체를 포함하는, 컴퓨터 제품.
- 제49항의 컴퓨터 제품; 및
상기 컴퓨터 판독 가능 매체 상에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는, 시스템. - 제1항 내지 제48항 중 어느 한 항의 방법을 수행하기 위한 수단을 포함하는 시스템.
- 제1항 내지 제48항 중 어느 한 항의 방법을 수행하도록 구성된 하나 이상의 프로세서를 포함하는 시스템.
- 제1항 내지 제48항 중 어느 한 항의 방법의 단계를 각각 수행하는 모듈을 포함하는 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862782316P | 2018-12-19 | 2018-12-19 | |
US62/782,316 | 2018-12-19 | ||
PCT/CN2019/126565 WO2020125709A1 (en) | 2018-12-19 | 2019-12-19 | Cell-free dna end characteristics |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210113237A true KR20210113237A (ko) | 2021-09-15 |
Family
ID=71099178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217022713A Pending KR20210113237A (ko) | 2018-12-19 | 2019-12-19 | 무 세포 dna 말단 특성 |
Country Status (12)
Country | Link |
---|---|
US (2) | US20200199656A1 (ko) |
EP (3) | EP4542551A3 (ko) |
JP (2) | JP7607264B2 (ko) |
KR (1) | KR20210113237A (ko) |
CN (2) | CN113366122B (ko) |
AU (1) | AU2019410635A1 (ko) |
CA (1) | CA3123474A1 (ko) |
DK (1) | DK3899018T3 (ko) |
ES (1) | ES2968457T3 (ko) |
SG (1) | SG11202106114XA (ko) |
TW (1) | TWI868095B (ko) |
WO (1) | WO2020125709A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023080586A1 (ko) * | 2021-11-03 | 2023-05-11 | 주식회사 지씨지놈 | 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3574108B1 (en) * | 2017-01-25 | 2024-08-28 | The Chinese University Of Hong Kong | Diagnostic applications using nucleic acid fragments |
EP3947717A4 (en) | 2019-03-25 | 2022-12-28 | The Chinese University Of Hong Kong | DETERMINATION OF LINEAR AND ROUND SHAPES OF CIRCULATION NUCLEIC ACIDS |
AU2021205853A1 (en) * | 2020-01-08 | 2023-11-23 | Grail, Inc. | Biterminal dna fragment types in cell-free samples and uses thereof |
JP2023537215A (ja) * | 2020-07-13 | 2023-08-31 | ザ チャイニーズ ユニバーシティ オブ ホンコン | 無細胞核酸についてのヌクレアーゼに関連する末端シグネチャ分析 |
JP2023540016A (ja) * | 2020-08-19 | 2023-09-21 | アキュラーゲン ホールディングス リミテッド | 選択的セルフリー核酸分析の方法 |
CA3205119A1 (en) * | 2020-12-15 | 2022-06-23 | Gateway Genomics, Llc | Methods, compositions, and devices for the rapid determination of fetal sex |
KR20220160806A (ko) | 2021-05-28 | 2022-12-06 | 주식회사 지씨지놈 | 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 |
US20230279498A1 (en) * | 2021-11-24 | 2023-09-07 | Centre For Novostics Limited | Molecular analyses using long cell-free dna molecules for disease classification |
KR20240144954A (ko) * | 2022-02-07 | 2024-10-04 | 센터 포 노보스틱스 | 메틸화 및 질환을 측정하기 위한 단편화 |
CN117316280B (zh) * | 2022-06-21 | 2025-03-21 | 上海思路迪生物医学科技有限公司 | 一种基于cfDNA末端序列特征的癌症无创早筛方法及系统 |
US20240011105A1 (en) * | 2022-07-08 | 2024-01-11 | The Chinese University Of Hong Kong | Analysis of microbial fragments in plasma |
CN114898802B (zh) * | 2022-07-14 | 2022-09-30 | 臻和(北京)生物科技有限公司 | 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置 |
US20240043935A1 (en) * | 2022-07-29 | 2024-02-08 | Centre For Novostics Limited | Epigenetics analysis of cell-free dna |
WO2025077915A1 (en) * | 2023-10-13 | 2025-04-17 | Centre For Novostics | Genomic origin, fragmentomics, and transcriptional correlation of long cell-free dna |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114678128A (zh) | 2010-11-30 | 2022-06-28 | 香港中文大学 | 与癌症相关的遗传或分子畸变的检测 |
US9892230B2 (en) * | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
US11261494B2 (en) | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
US9732390B2 (en) | 2012-09-20 | 2017-08-15 | The Chinese University Of Hong Kong | Non-invasive determination of methylome of fetus or tumor from plasma |
MY187444A (en) * | 2012-09-20 | 2021-09-22 | Univ Hong Kong Chinese | Non-invasive determination of methylome of fetus or tumor from plasma |
TWI758011B (zh) * | 2014-07-18 | 2022-03-11 | 香港中文大學 | Dna混合物中之組織甲基化模式分析 |
AU2015292311B2 (en) * | 2014-07-25 | 2022-01-20 | University Of Washington | Methods of determining tissues and/or cell types giving rise to cell-free DNA, and methods of identifying a disease or disorder using same |
US11242559B2 (en) * | 2015-01-13 | 2022-02-08 | The Chinese University Of Hong Kong | Method of nuclear DNA and mitochondrial DNA analysis |
EP4012715A1 (en) * | 2015-02-10 | 2022-06-15 | The Chinese University Of Hong Kong | Detecting mutations for cancer screening and fetal analysis |
AU2016295616B2 (en) * | 2015-07-23 | 2022-06-02 | The Chinese University Of Hong Kong | Analysis of fragmentation patterns of cell-free DNA |
ES2967443T3 (es) * | 2016-07-06 | 2024-04-30 | Guardant Health Inc | Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células |
CA3041647A1 (en) | 2016-10-24 | 2018-05-03 | The Chinese University Of Hong Kong | Methods and systems for tumor detection |
EP3548632A4 (en) * | 2016-11-30 | 2020-06-24 | The Chinese University Of Hong Kong | ANALYSIS OF CELLULAR DNA IN URINE AND OTHER SAMPLES |
CA3087001A1 (en) * | 2018-01-12 | 2019-07-18 | Claret Bioscience, Llc | Methods and compositions for analyzing nucleic acid |
US20190341127A1 (en) | 2018-05-03 | 2019-11-07 | The Chinese University Of Hong Kong | Size-tagged preferred ends and orientation-aware analysis for measuring properties of cell-free mixtures |
EP4524971A3 (en) * | 2019-12-18 | 2025-06-11 | The Chinese University of Hong Kong | Cell-free dna fragmentation and nucleases |
-
2019
- 2019-12-19 WO PCT/CN2019/126565 patent/WO2020125709A1/en unknown
- 2019-12-19 ES ES19898588T patent/ES2968457T3/es active Active
- 2019-12-19 EP EP25161060.6A patent/EP4542551A3/en active Pending
- 2019-12-19 US US16/721,619 patent/US20200199656A1/en active Pending
- 2019-12-19 TW TW108146736A patent/TWI868095B/zh active
- 2019-12-19 JP JP2021535750A patent/JP7607264B2/ja active Active
- 2019-12-19 EP EP23205094.8A patent/EP4300500B1/en active Active
- 2019-12-19 EP EP19898588.9A patent/EP3899018B1/en active Active
- 2019-12-19 CN CN201980091039.XA patent/CN113366122B/zh active Active
- 2019-12-19 SG SG11202106114XA patent/SG11202106114XA/en unknown
- 2019-12-19 CN CN202311817532.XA patent/CN117778576A/zh active Pending
- 2019-12-19 CA CA3123474A patent/CA3123474A1/en active Pending
- 2019-12-19 KR KR1020217022713A patent/KR20210113237A/ko active Pending
- 2019-12-19 DK DK19898588.9T patent/DK3899018T3/da active
- 2019-12-19 AU AU2019410635A patent/AU2019410635A1/en active Pending
-
2024
- 2024-01-16 US US18/414,406 patent/US20240376527A1/en active Pending
- 2024-12-06 JP JP2024213309A patent/JP2025029179A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023080586A1 (ko) * | 2021-11-03 | 2023-05-11 | 주식회사 지씨지놈 | 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법 |
Also Published As
Publication number | Publication date |
---|---|
CA3123474A1 (en) | 2020-06-25 |
TWI868095B (zh) | 2025-01-01 |
JP2025029179A (ja) | 2025-03-05 |
EP4300500C0 (en) | 2025-04-09 |
EP3899018B1 (en) | 2023-12-06 |
DK3899018T3 (da) | 2024-01-08 |
CN113366122A (zh) | 2021-09-07 |
EP3899018A4 (en) | 2022-09-14 |
CN113366122B (zh) | 2024-01-12 |
US20200199656A1 (en) | 2020-06-25 |
EP3899018A1 (en) | 2021-10-27 |
CN117778576A (zh) | 2024-03-29 |
EP4542551A3 (en) | 2025-07-16 |
AU2019410635A1 (en) | 2021-06-17 |
JP7607264B2 (ja) | 2024-12-27 |
EP4300500A3 (en) | 2024-03-27 |
SG11202106114XA (en) | 2021-07-29 |
EP4300500B1 (en) | 2025-04-09 |
EP4542551A2 (en) | 2025-04-23 |
WO2020125709A1 (en) | 2020-06-25 |
TW202039860A (zh) | 2020-11-01 |
ES2968457T3 (es) | 2024-05-09 |
US20240376527A1 (en) | 2024-11-14 |
EP4300500A2 (en) | 2024-01-03 |
JP2022514879A (ja) | 2022-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4300500B1 (en) | Cell-free dna end characteristics | |
TWI828637B (zh) | 利用核酸長度範圍於非侵入性產前檢測及癌症偵測 | |
JP2021061861A (ja) | 癌スクリーニング及び胎児分析のための変異検出 | |
WO2021139716A1 (en) | Biterminal dna fragment types in cell-free samples and uses thereof | |
CN111051536A (zh) | 利用不含细胞的病毒核酸改善癌症筛选 | |
TW202217009A (zh) | 游離核酸之核酸酶相關末端標籤分析 | |
CN119301278A (zh) | 用于测量甲基化和疾病的片段化 | |
WO2024022529A1 (en) | Epigenetics analysis of cell-free dna | |
HK40054633B (en) | Cell-free dna end characteristics | |
HK40054633A (en) | Cell-free dna end characteristics | |
WO2025113619A1 (en) | Enrichment of clinically-relevant nucleic acids | |
HK40058434A (en) | Cell-free dna end characteristics | |
WO2025045135A1 (en) | Eccdna remnants as a cancer biomarker | |
WO2025061097A1 (en) | Uses of cell-free dna fragmentation patterns associated with epigenetic modifications | |
HK40080623A (en) | Biterminal dna fragment types in cell-free samples and uses thereof | |
TW202519666A (zh) | 與表觀遺傳修飾相關的游離dna片段化模式的用途 | |
HK40023330A (en) | Enhancement of cancer screening using cell-free viral nucleic acids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20210719 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PG1501 | Laying open of application | ||
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20230531 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20250328 Patent event code: PE09021S01D |