CN105653898A - 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 - Google Patents
一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 Download PDFInfo
- Publication number
- CN105653898A CN105653898A CN201610018232.9A CN201610018232A CN105653898A CN 105653898 A CN105653898 A CN 105653898A CN 201610018232 A CN201610018232 A CN 201610018232A CN 105653898 A CN105653898 A CN 105653898A
- Authority
- CN
- China
- Prior art keywords
- cancer
- carcinoma
- data
- chromosome
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 210
- 201000011510 cancer Diseases 0.000 title claims abstract description 140
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000007418 data mining Methods 0.000 title description 2
- 210000000349 chromosome Anatomy 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 35
- 239000003153 chemical reaction reagent Substances 0.000 claims abstract description 24
- 238000012163 sequencing technique Methods 0.000 claims abstract description 18
- 210000005259 peripheral blood Anatomy 0.000 claims abstract description 17
- 239000011886 peripheral blood Substances 0.000 claims abstract description 17
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 15
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 11
- 238000007400 DNA extraction Methods 0.000 claims abstract description 8
- 230000003321 amplification Effects 0.000 claims abstract description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 6
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims abstract description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims abstract description 4
- 210000001519 tissue Anatomy 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 40
- 238000005516 engineering process Methods 0.000 claims description 21
- 230000002759 chromosomal effect Effects 0.000 claims description 14
- 238000007405 data analysis Methods 0.000 claims description 11
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 208000016847 malignant urinary system neoplasm Diseases 0.000 claims description 9
- 210000000056 organ Anatomy 0.000 claims description 9
- 208000015608 reproductive system cancer Diseases 0.000 claims description 9
- 201000004435 urinary system cancer Diseases 0.000 claims description 9
- 208000005016 Intestinal Neoplasms Diseases 0.000 claims description 6
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 201000002313 intestinal cancer Diseases 0.000 claims description 6
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 6
- 206010005003 Bladder cancer Diseases 0.000 claims description 5
- 208000003174 Brain Neoplasms Diseases 0.000 claims description 5
- 206010006187 Breast cancer Diseases 0.000 claims description 5
- 208000026310 Breast neoplasm Diseases 0.000 claims description 5
- 201000009030 Carcinoma Diseases 0.000 claims description 5
- 208000017897 Carcinoma of esophagus Diseases 0.000 claims description 5
- 206010008342 Cervix carcinoma Diseases 0.000 claims description 5
- 208000003445 Mouth Neoplasms Diseases 0.000 claims description 5
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 claims description 5
- 206010061306 Nasopharyngeal cancer Diseases 0.000 claims description 5
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 5
- 206010038389 Renal cancer Diseases 0.000 claims description 5
- 208000006265 Renal cell carcinoma Diseases 0.000 claims description 5
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 5
- 206010043966 Tongue neoplasm malignant stage unspecified Diseases 0.000 claims description 5
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 claims description 5
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 claims description 5
- 201000008275 breast carcinoma Diseases 0.000 claims description 5
- 201000010881 cervical cancer Diseases 0.000 claims description 5
- 201000005619 esophageal carcinoma Diseases 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 206010017758 gastric cancer Diseases 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 5
- 201000005264 laryngeal carcinoma Diseases 0.000 claims description 5
- 208000032839 leukemia Diseases 0.000 claims description 5
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 claims description 5
- 230000001926 lymphatic effect Effects 0.000 claims description 5
- 201000011216 nasopharynx carcinoma Diseases 0.000 claims description 5
- 201000001514 prostate carcinoma Diseases 0.000 claims description 5
- 201000010174 renal carcinoma Diseases 0.000 claims description 5
- 201000000849 skin cancer Diseases 0.000 claims description 5
- 201000008261 skin carcinoma Diseases 0.000 claims description 5
- 201000011549 stomach cancer Diseases 0.000 claims description 5
- 210000001550 testis Anatomy 0.000 claims description 5
- 201000005112 urinary bladder cancer Diseases 0.000 claims description 5
- 208000012991 uterine carcinoma Diseases 0.000 claims description 5
- 238000001712 DNA sequencing Methods 0.000 claims description 3
- 230000003902 lesion Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 abstract description 2
- 238000012177 large-scale sequencing Methods 0.000 abstract description 2
- 238000002864 sequence alignment Methods 0.000 abstract description 2
- 206010052428 Wound Diseases 0.000 abstract 1
- 208000027418 Wounds and injury Diseases 0.000 abstract 1
- 238000005065 mining Methods 0.000 abstract 1
- 238000002360 preparation method Methods 0.000 abstract 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 30
- 108020004414 DNA Proteins 0.000 description 21
- 239000007788 liquid Substances 0.000 description 18
- 210000004369 blood Anatomy 0.000 description 9
- 239000008280 blood Substances 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 7
- 238000000746 purification Methods 0.000 description 7
- 239000006228 supernatant Substances 0.000 description 6
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 description 5
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 description 5
- 238000011528 liquid biopsy Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 239000011541 reaction mixture Substances 0.000 description 5
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 4
- 239000011324 bead Substances 0.000 description 4
- 239000012149 elution buffer Substances 0.000 description 4
- 238000012268 genome sequencing Methods 0.000 description 4
- 230000007067 DNA methylation Effects 0.000 description 3
- 108700019961 Neoplasm Genes Proteins 0.000 description 3
- 102000048850 Neoplasm Genes Human genes 0.000 description 3
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 238000010009 beating Methods 0.000 description 3
- 238000007664 blowing Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 239000003292 glue Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011534 incubation Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 210000002381 plasma Anatomy 0.000 description 3
- 238000010926 purge Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 2
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 2
- 238000000246 agarose gel electrophoresis Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009514 concussion Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000539 dimer Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000003480 eluent Substances 0.000 description 2
- 201000006585 gastric adenocarcinoma Diseases 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010257 thawing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010052747 Adenocarcinoma pancreas Diseases 0.000 description 1
- 206010052360 Colorectal adenocarcinoma Diseases 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 241000417413 Gentiana cephalantha Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 229940127219 anticoagulant drug Drugs 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003150 biochemical marker Substances 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 201000010897 colon adenocarcinoma Diseases 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000005213 imbibition Methods 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 201000002094 pancreatic adenocarcinoma Diseases 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 201000007094 prostatitis Diseases 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 201000001281 rectum adenocarcinoma Diseases 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000007616 round robin method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于大规模数据挖掘的癌症检测试剂盒及检测方法,属于生物医学检测技术领域;本发明所述试剂盒包括DNA提取试剂、高通量测序文库制备试剂、基因序列比对软件和染色体覆盖度计算软件;本发明首先从受试者采集外周血并分离血浆;用DNA聚合酶扩增并制备测序文库;对所制备的文库进行大规摸测序;测序结果通过序列比对,统计其在基因组上的分布情况,判断是否有来源于肿瘤组织的癌细胞基因组序列,从而判断检测对象是否携带癌症;本发明克服了现有肿瘤筛查技术特异性和敏感度的不足;该方法无辐射、无创伤,只需要4-10mL外周血就可以实现对癌症的检测。
Description
技术领域
本发明涉及一种基于大规模数据挖掘的癌症检测试剂盒及检测方法,具体涉及一种基于高通量测序数据挖掘和无创癌症检测盒及检测方法,属于生物医学检测技术。
技术背景
恶性肿瘤往往同染色体的数目和结构的变异相联系,因为细胞中一般都存在两类染色体,一些染色体带有表达恶性肿瘤的基因,另一些染色体则带有抑制恶性肿瘤的基因。如果染色体发生变异,则会导致染色体上基因的不平衡,而出现肿瘤。
目前的癌症检测主要依赖于血液生化标记物和影像学技术。生化标记物包括CEA,AFP,PSA等等,这些标记物的主要缺陷是:(1)覆盖的癌症种类有限,多数癌症还不能有效的检测;(2)特异性差,一些基础疾病,如肝炎会导致AFP上升而引起误判,前列腺炎也会导致PSA上升导致误判等等;(3)在血液中半衰期过长,如AFP蛋白在血液中可以存活7到28天或者更长时间,很难用于特异性的实时的跟踪手术治疗,放疗、药物治疗的效果。影像学技术包括B-超,CT和PET,只要的缺陷是:(1)多数检测包含一定的辐射危害,不能够太过频繁的使用,也就不能用于癌症的实时发现;(2)操作起来比较复杂,很难实现大规模的人群肿瘤筛查。
另一种监测方法是液体活检,其实是利用高通量测序技术来测定肿瘤患者中ctDNA片段,根据分析得到的ctDNA所携带的肿瘤基因信息,就能够全面地反映肿瘤的特征。这一技术凭借着准确、灵敏、无创、高通量等特点,液体活检能够在从肿瘤防治诊断、治疗参考、用药指导、病情监控、复发预警等方面为医生及患者提供有效助力。近年来,越来越多的生物医药研究者发现,可以通过对外周血DNA进行NGS测序,检测癌症是否发生并且预测癌症风险。通过全基因组ctDNA测序,可以计算出染色体的拷贝数变化情况,从而判断是否患有肿瘤。
这样一个基于大规模高通量测序技术的方法,将不仅仅限于若干个已知位点的测序,而将是针对患者癌症细胞DNA序列上大量的已知片段和未知片段进行同时检测。面对如此大的数据量,如何精准地计算并解读形成有用信息成为肿瘤液体活检的关键。
当前国内的方法包括基于靶位点捕获的技术和基于癌症基因组的甲基化检测技术。基于靶位点捕获的技术普遍存在测序覆盖范围过低,从而导致敏感度不足。基于甲基化的检测技术在早期癌症中,由于ctDNA含量过低存在着特异性不高的问题(不足),直接影响并制约了液体活检在临床、市场、科研等级别的应用。
本技术通过根据癌症生物学原理开发了一种稳定的数据计算方法,在数据解读和临床应用等方面做出了创新性的突破,依托这些国际前沿研究,着眼于中国人群,本发明所公开的新技术,旨在为这一国际前沿技术在中国人群的癌症检测以及风险提示。由于血液DNA检测无创无辐射,检测成本可控,对中国癌症早期发现率的提升和整体人群健康水平的改善势必起到推动作用。
发明内容
本发明为了克服现有肿瘤筛查技术特异性和敏感度的不足,提供了一种基于外周血游离DNA高通量测序的无创肿瘤检测试剂盒及检测方法。基于该试剂盒的检测方法无辐射、无创伤,只需要4-10mL外周血就可以实现对癌症的检测。适用于包括头颈部癌症(口腔癌,鼻咽癌,舌癌,喉癌),消化道癌症(食管癌,胃癌,肝癌,胰腺癌,肠癌),脑癌,肺癌,生殖系统癌症(乳腺癌,宫颈癌,子宫癌,前列腺癌,睾丸癌等),泌尿系统癌症(膀胱癌,肾癌),皮肤癌、淋巴癌,白血病早期诊断。
本发明提供一种基于大规模数据挖掘的癌症检测试剂盒,所述试剂盒包括:DNA提取试剂盒、高通量测序文库制备试剂、基因序列比对软件、染色体覆盖度计算软件。
其中所述DNA提取试剂用于提取外周血游离DNA,通过所述高通量测序文库制备试剂制备高通量测序文库,通过对测序文库高通量测序,利用所述基因序列比对软件将测序数据与人类参考基因组作比较,通过染色体覆盖度计算软件进行数据分析以区分癌症和非癌症病人,进一步分析判断肿瘤类型和可能原发灶器官。
其中,所述的通过数据分析以区分癌症和非癌症病人,具体操作为:通过计算每一条染色体测序覆盖度,除以总测序量,来计算相对覆盖度;健康情况下,人每条染色体均为两个拷贝,染色体之间的拷贝数差异非常小;反之,如果相对覆盖度超过一定的阈值,则判断为疑似癌症患者。
其中,所述每条染色体的相对覆盖度根据以下公式计算得出:
式中的Chr_size表示染色体的长度,Genome_size表示人基因组总长度,也就是所有染色体加在一起的总长度;Covi表示基因组或者染色体在位置i上的测序次数。
其中,所述的区分癌症和非癌症病人的方法为:比较肿瘤基因组拷贝数和健康人参考拷贝数得到z-score:
式中的score(sample)表示测试样本的染色体相对覆盖度,score(reference)表示健康人参照的染色体相对覆盖度,average表示求均值,SD表示求方差。
z-score超过一定的阈值(+3/-3或者+6/-6)即判断为疑似癌症;反之判断为非癌症样本。
其中,所述判断肿瘤类型和可能原发灶器官的具体方法为:通过搜索癌症病人基因组拷贝数数据库,判断疑似癌症的肿瘤类型;测试对象和癌症患者数据库数据的相似度计算公式为:
Similarity(sample,dbi)=pearson_cor(sample,dbi).;
式中的sample表示测试对象,dbi表示数据库的数据项i,pearson_cor表示求皮尔森系数,Similarity表示测试对象和数据库记录行的相似度。该计算公式还可以是pearson相关系数,spearman秩相关系数,或者其他统计学相关系数计算方法。
测试对象的肿瘤类型判断为数据库记录中最相似的前1-5个肿瘤类型:
Type(query)=Type(dbi):i=maxi(pearson_cor(query,db_i));
其中,式中的dbi表示数据库的数据项i,max表示求最大值,Type表示所求的癌症类型,maxi表示皮尔森相关系数最大的记录项i。
具体算法描述为,挑选数据库搜索结果中前1-10000个记录,统计这些记录的肿瘤类型出现频数,选择频数最高的1-5个肿瘤类型,作为最终判读。
其中,所使用的癌症患者基因组参考数据库是基于芯片技术(affymetrixSNParray,Agilent拷贝数芯片)的全基因组拷贝数数据库或全基因组测序(WGS)数据库;其中全基因组测序数据库为来自于组织测序(如1000genome数据和TCGA全基因组数据)或者是外周血游离DNA测序数据;具体如TCGA癌症基因组数据库(http://cancergenome.nih.gov/)或GenomeSpace数据库(http://www.genomespace.org/);
其中,所述癌症为实体瘤或血液病,包括头颈部癌症、消化道癌症、脑癌、肺癌、生殖系统癌症、泌尿系统癌症、皮肤癌、淋巴癌、白血病;其中所述头颈部癌症为口腔癌、鼻咽癌、舌癌或喉癌;所述消化道癌症为食管癌、胃癌、肝癌、胰腺癌或肠癌;所述生殖系统癌症为乳腺癌、宫颈癌、子宫癌、前列腺癌或睾丸癌;所述泌尿系统癌症为膀胱癌或肾癌。
其中,所述高通量测序技术选Roche/454、Illumina测序仪(NextSeq系列,Hiseq系列,MiSeq系列,XTen,以及后续测序仪系列)、BGI(华大公司,BGI500系列以及后续测序仪)的测序仪、LifeTech测序仪器(Ion,Proton以及后续测序仪器系列)、PacBio测序仪器(RSII,Sequel以及后续测序仪器)或基于Nanopore的测序仪器(Genia,Nanopore以及类似的第三代测序仪)。
本发明还提供一种基于大规模数据挖掘的癌症检测技术,采用的技术方案主要包括以下步骤:
(1)从受试者采集外周血,分离血浆并用DNA提取试剂提取游离DNA;
(2)利用高通量测序文库制备试剂进行DNA聚合酶扩增并建立测序文库;
(3)对所制备的文库进行高通量测序;
(4)利用基因序列比对软件将测序数据与人类参考基因组作比较;
(5)通过染色体覆盖度计算软件进行数据分析以区分癌症和非癌症病人;
(6)通过进一步数据分析判断肿瘤类型和可能原发灶器官。
其中,步骤(5)中所述的通过数据分析以区分癌症和非癌症病人,具体操作为:通过计算每一条染色体测序覆盖度,除以总测序量,来计算相对覆盖度;健康情况下,人每条染色体均为两个拷贝,染色体之间的拷贝数差异非常小;反之,如果相对覆盖度超过一定的阈值,则判断为疑似癌症患者。
其中,所述每条染色体的相对覆盖度根据以下公式计算得出:
式中的Chr_size表示染色体的长度,Genome_size表示人基因组总长度,也就是所有染色体加在一起的总长度。Covi表示基因组或者染色体在位置i上的测序次数。
其中,步骤(5)中所述的区分癌症和非癌症病人的方法为:比较肿瘤基因组拷贝数和健康人参考拷贝数得到z-score:
式中的score(sample)表示测试样本的染色体相对覆盖度,score(reference)表示健康人参照的染色体相对覆盖度,average表示求均值,SD表示求方差。
z-score超过一定的阈值,即z-score≥3或≤-3或者z-score≥6或≤-6即判断为疑似癌症;反之判断为非癌症样本。
其中,步骤(6)中所述判断肿瘤类型和可能原发灶器官的具体方法为:通过搜索癌症病人基因组拷贝数数据库,判断疑似癌症的肿瘤类型;测试对象和癌症患者数据库数据的相似度计算公式为:
Similarity(sample,dbi)=pearson_cor(sample,dbi);
式中的sample表示测试对象,dbi表示数据库的数据项i,pearson_cor表示求皮尔森系数,Similarity表示测试对象和数据库记录行的相似度。该计算公式还可以是pearson相关系数,spearman秩相关系数,或者其他统计学相关系数计算方法。
测试对象的肿瘤类型判断为数据库记录中最相似的前1-5个肿瘤类型:
Type(query)=Type(dbi):i=maxi(pearson_cor(query,db_i));
其中,式中的dbi表示数据库的数据项i,max表示求最大值,Type表示所求的癌症类型,maxi表示皮尔森相关系数最大的记录项i。
具体算法描述为,挑选数据库搜索结果中前1-10000个记录,统计这些记录的肿瘤类型出现频数,选择频数最高的1-5个肿瘤类型,作为最终判读。
其中,所使用的癌症患者基因组参考数据库是基于芯片技术(affymetrixSNParray,Agilent拷贝数芯片)的全基因组拷贝数数据库或全基因组测序(WGS)数据库;其中全基因组测序数据库为来自于组织测序(如1000genome数据和TCGA全基因组数据)或者是外周血游离DNA测序数据;具体如TCGA癌症基因组数据库(http://cancergenome.nih.gov/)或GenomeSpace数据库(http://www.genomespace.org/);
其中,所述癌症为实体瘤或血液病,包括头颈部癌症、消化道癌症、脑癌、肺癌、生殖系统癌症、泌尿系统癌症、皮肤癌、淋巴癌、白血病;其中所述头颈部癌症为口腔癌、鼻咽癌、舌癌或喉癌;所述消化道癌症为食管癌、胃癌、肝癌、胰腺癌或肠癌;所述生殖系统癌症为乳腺癌、宫颈癌、子宫癌、前列腺癌或睾丸癌;所述泌尿系统癌症为膀胱癌或肾癌。
其中,步骤(3)中所述高通量测序技术选Roche/454、Illumina测序仪(NextSeq系列,Hiseq系列,MiSeq系列,XTen,以及后续测序仪系列)、BGI(华大公司,BGI500系列以及后续测序仪)的测序仪、LifeTech测序仪器(Ion,Proton以及后续测序仪器系列)、PacBio测序仪器(RSII,Sequel以及后续测序仪器)或基于Nanopore的测序仪器(Genia,Nanopore以及类似的第三代测序仪)。
本发明产生的有益效果是:
(1)相较于同类方法,本发明首次采用了外周血ctDNA全基因组测序检测出染色体拷贝数检测技术方法,在肿瘤检测方面做出了开创性的改进,使其产生了安全性、准确性的提高和改进。
(2)相对于生化指标,本发明覆盖更多地肿瘤类型和肿瘤病患。
(3)相对于影像学(PET,CT),本发明无辐射危害,可反复多次频繁使用,能够用于肿瘤的实时跟踪。
(4)相对于甲基化检测技术,染色体拷贝数变化具有更高的肿瘤特异性。在临床使用中能够大大降低假阳性率。
(5)相对于甲基化检测技术,本发明操作更加简单,在各个临床实验室或者医院环境使用更加稳定。
(6)相对于靶位点检测技术,本发明采用全基因组测序,肿瘤的覆盖度大大增加。
(7)在本发明中,ctDNA大规模测序和数据处理环节具有无创、快速、广谱筛查等技术特点,这一特点的应用,具有显著改善肿瘤诊断、筛查,提高广大人群健康状况的效果,在液体活检方面具有积极的临床应用价值。
(8)本发明能够应用于癌症筛查诊断,癌症治疗后(术后,用药)效果评估,以及肿瘤复发提醒等方面,适用于医院、高校、及相关领域企业的研发性或应用性工作。
(9)相对于其他血液检测方法,本发明可以进一步判别肿瘤类型和可能的肿瘤原发器官。帮助进一步肿瘤确诊。
附图说明
图1为本发明的方法操作流程;
图2为本发明的算法实现过程;
图3为肿瘤病人外周血score和健康人比较结果。
具体实施方式
为了更好的理解本发明,下面结合具体实施例和附图对本发明进一步解释说明。
实施例1:外周采血,用DNA提取试剂提取游离DNA
1.采集受试者外周血4mL至EDTA抗凝管。受试者均采用自愿原则,癌症样品来自于江苏大学附属医院。
2.新鲜血液4小时内,1600g离心10分钟,取上清转移到1.5mLEP管中,枪头避免碰到中间层和底层红细胞。
3.16000g离心10分钟,取上清移至新的1.5mLEP管,放-80度冰箱冷冻保存。
4.游离DNA提取:采用标准Qiagen游离DNA提取试剂盒(QIAGEN,QiaAmpDNABloodMiniKit,55114),按照说明书操作,每4mL外周血提取1-50ngDNA。
具体操作步骤如下:
(1)取1管血浆冰上融解后,加入100μL的QIAGEN蛋白酶K。
(2)加入0.8mLBufferACL(事先加入1.0μgcarrierRNA),盖上管盖,涡旋30s,直至管内液体呈均相。
(3)60℃孵育15~20min。
(4)加入1.8mL的BufferACB,涡旋混匀15~30s;冰置5min。
(5)将QIAamp微柱插入置于QIAvac24Plus的Vac连接器内,将20mL管扩展器插入QIAamp微柱内。
(6)将第(4)步所得的裂解混合液小心加入QIAamp微柱的管扩展器内,打开真空泵,待所有裂解液均从管内完全渗下,关闭真空泵,释压至0mbar,小心取出管扩展器并弃去。
(7)向管内加入600μLBufferACW1,保持管盖打开,打开真空泵,让BufferACW1完全渗透过QIAamp微柱,关闭真空泵,释压至0mba。
(8)向QIAamp微柱内加入750μLBufferACW2;保持管盖打开,开启真空泵,让ACW2buffer完全渗过QIAamp微柱,关闭真空泵,释压至0mbars。
(9)加入750μL乙醇(96–100%)至QIAamp微柱,保持管盖开启,打开真空泵使所有乙醇完全渗下,关闭真空泵,释压至0mbars。
(10)关闭管盖;将QIAamp微柱从真空歧管上取下,丢弃Vac连接器;将QIAamp微柱放置于新的2mL连接管上,全速离心(20,000xg;14,000rpm)3min。
(11)将QIAamp微柱放置于新的2mL收集管,打开管盖,56℃孵育10min。
(12)将QIAamp微柱放置于新的1.5mL洗脱管上,弃去上一步的收集管;小心向膜中间加入20~150μL的BufferAVE。关上管盖,室温孵育3min。
(13)全速离心(20,000xg;14,000rpm)1min以洗脱核酸,收集得到血浆游离双链DNA。
实施例2:利用高通量测序文库制备试剂进行DNA聚合酶扩增并建立测序文库
采用标准的KAPA二代测序文库试剂盒(KAPAHyperPlus文库准备试剂盒,28100),在所获取的游离DNA产物上建库,并上机测序(采用illumina公司的高通量测序仪)。
本实施例中具体操作步骤如下
(1)末端修复反应:
制备如下反应混合液:
将反应混合液放置20℃温育30min;立即进行纯化(使用AgencourtAMPureXPBeads试剂盒,货号A63882),得到完成末端修复反应的产物;
确保AMPureXPBeads平衡到室温;添加AMPureXPBeads到末端修复与反应中,制备如下反应混合液:
末端修复反应产物100μL
AMPureXPBeads160μL
将混合液用枪头吹打10次以上,漩涡震荡;室温下放置15min使DNA与beads结合;将管放在配套的磁力架上15min或等液体完全澄清;小心吸掉255μL液体(不要碰到任何珠子),一些液体可能仍会残留在管中;将管放在磁场里不要碰到珠子,用200μL80%乙醇清洗至少30s;小心吸掉乙醇(不要碰到珠子),重复用80%乙醇洗两次;把管从磁场离开,室温15min晾干珠子;再用32.5μL洗脱缓冲液洗脱,室温放置2min释放DNA;将管放在适当的磁场15min等液体完全澄清;将上清30μLDNA移到要迸行加A反应的管中。
(2)加A反应:
制备如下反应混合液:
30℃温育30min;立即进行纯化(使用AgencourtAMPureXPBeads试剂盒):
确保AMPureXPBeads平衡到室温,添加AMPureXPBeads:
加A反应产物50μL
AMPureXPBeads90μL
总140μL
用枪头吹打10次以上,涡旋震荡;室温下放置15min使DNA与beads结合;将管放在配套的磁力架上15min或等液体完全澄清;小心吸掉135μL液体(不要碰到任何珠子),一些液体可能仍会残留在管中;将管放在磁场里不要碰到珠子,用200μL80%乙醇清洗至少30s;小心吸掉乙醇(不要碰到珠子),重复用80%乙醇洗两次;把管从磁场离开,室温15min晾干珠子;加32.5μL洗脱缓冲液,室温放置2min释放DNA;将管放在适当的磁场里15min或等液体完全澄清;将上清30μLDNA移到要进行接头连接反应的管中。
添加MinElut:
加A反应产物50μL
ERC缓冲液300μL
将混合体系加入柱中,离心,丢弃洗脱液;用750μLPE缓冲液清洗,丢弃洗脱液;10000g离心2min,移除乙醇;洗提、转移柱子到一个干净无菌的微离心管里,加31μLEB缓冲液。室温下放置1min,离心,回收约30μL液体。
(3)接头连接
接头连接反应,制备如下反应混合液:
放在20℃温育15min,立即进行纯化:
第一步:AMPureXPBeads纯化:
确保AMPureXPBeads平衡到室温;添加AMPureXPBeads:
接头连接反应产物50μL
AMPureXPBeads50μL
总100μL
用枪头吹打10次以上,涡旋震荡;室温下放置15min使DNA与beads结合;将管放在配套的磁力架上15min或等液体完全澄清;小心吸掉95μL液体(不要碰到任何珠子),一些液体可能仍会残留在管中;将管放在磁场里不要碰到珠子,用200μL80%乙醇消洗至少30s;小心吸掉乙醇(不要碰到珠子),重复用80%乙醇洗两次;把管从磁场离开,室温15min晾干珠子;加52.5μL洗脱缓冲液,室温放置2min释放DNA;将管放在适当的磁场里l5min或等液体完全澄清;将上清50μLDNA移到要进行加第二步AMPureXPBeads纯化步骤的管中;
第二步:AMPureXPBeads纯化
确保AMPureXPBeads平衡到室温,添加AMPureXPBeads:
第一步纯化得到的文库DNA50μL
AMPureXPBeads50μL
总100μL
用枪头吹打10次以上,涡旋震荡;室温下放置l5min使DNA与beads结合;将管放在配套的磁力架上15min或等液体完全澄清;小心吸掉95μL液体(不要碰到任何珠子),一些液体可能仍会残留在管中;将管放在磁场里不要碰到珠子,用200μL80%乙醇清洗至少30s;小心吸掉乙醇(不要碰到珠子),重复用80%乙醇洗两次;把管从磁场离开,室温15min晾干珠子;加52.5μL洗脱缓冲液,室温放置2min释放DNA;将管放在适当的磁场里15min或等液体完全澄清;将上清50μLDNA移到要存储文库DNA的管中。
(4)片段大小选择
文库扩增之前移除未连接的接头分子,防止接头二聚体和其他短接头衍生分子的形成,影响下游的扩增和测序过程,本实施例中通过手动琼脂糖凝胶电泳、切胶、纯化来适应片段大小的选择。
本实施例在2%的琼脂糖凝胶中进行电泳,选取片段大小为280到320bp条带(因为ctDNA的大小为150-180bp,接头的大小为120bp,所以建库后片段加上接头的条带大小为280-320bp)进行切胶回收,利用QIAquick胶回收试剂盒(QIAGEN,28706)来回收目的片段。
(5)文库富集/扩增
A.准备阶段:
完全解冻、短暂震荡、离心KAPA高保真热启动准备体系(2×)和PCR引物。
完全解冻、短暂震荡、离心连接好的接头和经过大小分离纯化的文库DNA。
用特有的循环方法在热循环仪上预实验。
B.反应体系:
配置PCR体系,反应体系为:
每次吸液后都要换枪头。闭管反应,轻轻混匀,短暂离心。
C.循环反应参数:98℃反应2min;98℃,30s;65℃,30s;72℃,1min,17个循环;72℃,5min。
D.PCR纯化:
用AMPureXPBeads纯化。
E.文库验证:
用琼脂糖凝胶电泳及Bioanalyzer(Agilent2100,安捷伦科技公司上海分公司)验证PCR富集片段的大小,查验片段大小分布。检测结果显示文库主峰分别在300bp左右,峰型单一,无杂峰,无接头和无引物二聚体,可判断插入片段大小合格。
采用realtimePCR方法对构建文库进行定量,文库浓度在1ng/μL以上可判断为满足上机要求。
实施例2:高通量测序、大规模数据分析及肿瘤的检测
(1)序列比对
Illumina测序仪所得到的测序数据(50,75,100,150等各种读长),去除测序接头,去除样本标签(barcode),剪切低质量区域等步骤,得到有效数据。
通过使用软件bwa-mem(http://bio-bwa.sourceforge.net/),比对到标准人参考基因组hg19,比对文件保留在.bam文件中。
(2)统计染色体覆盖度
使用软件samtools(samtools.sourceforge.net)将bam文件转化成.mpileup文件,获取.mpileup文件中基因组每一个位点的测序覆盖度数据,根据每一个基因组每一个位点的覆盖度,计算染色体范围内的均值;也就是本算法通过计算每一条染色体测序覆盖度(基因组上单个碱基被测序的平均次数),除以总测序量,来计算相对覆盖度(基因组上单个碱基被测序的平均次数除以所有位点的平均被测序次数)。计算方法如下:
其中,式中的Chr_size表示染色体的长度,Genome_size表示人基因组总长度,也就是所有染色体加在一起的总长度。Covi表示基因组或者染色体在位置i上的测序次数。
(3)判断是否为癌症
健康情况下,人每条染色体均为两个拷贝,染色体之间的拷贝数差异非常小。反之,如果相对覆盖度超过一定的阈值,则判断为疑似癌症患者。
具体步骤如下:
根据步骤(2),计算每一个染色体的z-score,比较肿瘤基因组相对覆盖度和健康人参考相对覆盖度得到z-score。
其中,式中的score(sample)表示测试样本的染色体相对覆盖度,score(reference)表示健康人参照的染色体相对覆盖度,average表示求均值,SD表示求方差。
计算结果数值如下:
表1.本实施例中各样本和健康人对照的每一条染色体的z-score结果
z-score大于等于3或者小于等于负3的样本判断为疑似癌症。
如图3所示,每一个柱状图数据代表每一个样本的21条常染色的得分,从左至右依次是肺癌、肝癌和健康对照。
每一个癌症样本均有多条染色体z-score超出阈值;每一个健康对照,每条染色体都在阈值范围内。可以看到,本实施例中,6/6=100%癌症样本z-score高于3或者低于-3,其中5/6=83%例癌症血样各个染色体z-score大大超出正常值范围,0/5正常人血样超出正常值范围,所以本次测试敏感度为100%,特异性为100%。
(4)肿瘤类别判断
通过搜索癌症病人基因组拷贝数数据库TCGA(http://cancergenome.nih.gov/),判断疑似癌症的肿瘤类型。测试对象和癌症患者数据库数据的相似度计算公式为:
Similarity(sample,dbi)=pearson_cor(sample,dbi);
其中,式中的sample表示测试对象,dbi表示数据库的数据项i,pearson_cor表示求皮尔森系数,Similarity表示测试对象和数据库记录行的相似度。
测试对象的肿瘤类型判断为数据库记录中最相似的前1-5个肿瘤类型:
Type(query)=Type(dbi):i=maxi(pearson_cor(query,db_i));
其中,式中的dbi表示数据库的数据项i,max表示求最大值,Type表示所求的癌症类型,maxi表示皮尔森相关系数最大的记录项i。
通过搜索比对TCGA癌症病人基因拷贝数数据库搜索,肺癌-005的数据库命中分别为LUSC(lungsquamouscellcarcinoma,肺鳞癌)、HNSC(head&necksquamouscellcarcinoma,头颈部鳞癌)、LUSC、LUSC、ESCC(Esophagealsquamouscellcarcinoma,食管鳞癌)、HNSC、LUSC、LUSC、LUSC和ESCC,其中多数命中是肺鳞癌,癌症类别判读为肺鳞癌(概率50%)、食管鳞癌(概率20%)和其它鳞癌(概率20%)。
肺癌-004的数据库命中分别为LUAD(lungadenocarcinoma,肺腺癌)、STAD(stomachadenocarcinoma,胃腺癌)、LUAD、CRC(colorectaladenocarcinoma,结直肠腺癌)、PRAD(pancreaticadenocarcinoma,胰腺癌)、STAD、LUAD、LUAD、CRC。数据库多数命中为肺腺癌,最终判读结果为肺腺癌(概率50%),肠癌(概率20%),其它腺癌概率30%。
肝癌-002的数据库命中为LIHC(liverhepatocellularcarcinoma,肝细胞癌)、LIHC、LIHC、LIHC、LUAD、LIHC、LIHC、LIHC、LIHC、STAD和LIHC。多数命中为肝细胞癌,最终判读为肝细胞癌(概率80%),其他癌症概率为20%。
判别规则适合其他样本的判读,肺癌-003、肺癌-002和肝癌002,不再赘述。
表2.本发明的方法在各类癌症的检测结果
Claims (14)
1.一种基于大规模数据挖掘的癌症检测试剂盒,其特征在于,所述试剂盒包括:DNA提取试剂、高通量测序文库制备试剂、基因序列比对软件、染色体覆盖度计算软件;其中所述DNA提取试剂用于提取外周血游离DNA,通过所述高通量测序文库制备试剂制备高通量测序文库,通过对测序文库高通量测序,利用所述基因序列比对软件将测序数据与人类参考基因组作比较,通过染色体覆盖度计算软件进行数据分析以区分癌症和非癌症病人,进一步分析判断肿瘤类型和可能原发灶器官。
2.根据权利要求1所述的一种基于大规模数据挖掘的癌症检测试剂盒,其特征在于,所述的通过数据分析以区分癌症和非癌症病人,具体操作为:计算每一条染色体测序覆盖度,除以总测序量,来计算相对覆盖度;健康情况下,人每条染色体均为两个拷贝,染色体之间的拷贝数差异非常小;反之,如果相对覆盖度超过一定的阈值,则判断为疑似癌症患者;所述每条染色体的相对覆盖度根据以下公式计算得出:
式中的Chr_size表示染色体的长度,Genome_size表示人基因组总长度,也就是所有染色体加在一起的总长度;Covi表示基因组或者染色体在位置i上的测序次数。
3.根据权利要求1或2所述的一种基于大规模数据挖掘的癌症检测试剂盒,其特征在于,区分癌症和非癌症病人的方法为:比较肿瘤基因组拷贝数和健康人参考拷贝数得到z-score,z-score超过一定的阈值即z-score≥3或≤-3或者z-score≥6或≤-6即判断为疑似癌症;反之判断为非癌症样本;
式中的score(sample)表示测试样本的染色体相对覆盖度,score(reference)表示健康人参照的染色体相对覆盖度,average表示求均值,SD表示求方差。
4.根据权利要求1所述的一种基于大规模数据挖掘的癌症检测试剂盒,其特征在于,所述判断肿瘤类型和可能原发灶器官的具体方法为:通过搜索癌症参考数据库,判断疑似癌症的肿瘤类型;测试对象和癌症患者数据库数据的相似度计算公式为:
Similarity(sample,dbi)=pearson_cor(sample,dbi);
式中的sample表示测试对象,dbi表示数据库的数据项i,pearson_cor表示求皮尔森系数,Similarity表示测试对象和数据库记录行的相似度;测试对象的肿瘤类型判断为数据库记录中最相似的前1-5个肿瘤类型:
Type(query)=Type(dbi):i=maxi(pearson_cor(query,db_i));
式中的dbi表示数据库的数据项i,max表示求最大值,Type表示所求的癌症类型,maxi表示皮尔森相关系数最大的记录项i;
具体算法描述为,挑选数据库搜索结果中前1-10000个记录,统计这些记录的肿瘤类型出现频数,选择频数最高的1-5个肿瘤类型,作为最终判读。
5.根据权利要求1-4任一项所述的一种基于大规模数据挖掘的癌症检测试剂盒,其特征在于,所述癌症为实体瘤或血液病,包括头颈部癌症、消化道癌症、脑癌、肺癌、生殖系统癌症、泌尿系统癌症、皮肤癌、淋巴癌、白血病。
6.根据权利要求5所述的一种癌症检测试剂盒,其特征在于,所述头颈部癌症为口腔癌、鼻咽癌、舌癌或喉癌;所述消化道癌症为食管癌、胃癌、肝癌、胰腺癌或肠癌;所述生殖系统癌症为乳腺癌、宫颈癌、子宫癌、前列腺癌或睾丸癌;所述泌尿系统癌症为膀胱癌或肾癌。
7.一种基于大规模数据挖掘的癌症检测方法,其特征在于,所述方法是基于外周血游离DNA高通量测序、通过大规模数据挖掘、稳定的数据计算的无创肿瘤检测的方法,具体包括以下步骤:
(1)从受试者采集外周血,分离血浆并用DNA提取试剂提取游离DNA;
(2)利用高通量测序文库制备试剂进行DNA聚合酶扩增并建立测序文库;
(3)对所制备的文库进行高通量测序;
(4)利用基因序列比对软件将测序数据与人类参考基因组作比较;
(5)通过染色体覆盖度计算软件进行数据分析以区分癌症和非癌症病人;
(6)通过进一步数据分析判断肿瘤类型和可能原发灶器官。
8.根据权利要求7所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,步骤(5)中所述的通过数据分析以区分癌症和非癌症病人,具体操作为:通过计算每一条染色体测序覆盖度,除以总测序量,来计算相对覆盖度;健康情况下,人每条染色体均为两个拷贝,染色体之间的拷贝数差异非常小;反之,如果相对覆盖度超过一定的阈值,则判断为疑似癌症患者;
所述每条染色体的相对覆盖度根据以下公式计算得出:
式中的Chr_size表示染色体的长度,Genome_size表示人基因组总长度,也就是所有染色体加在一起的总长度;Covi表示基因组或者染色体在位置i上的测序次数。
9.根据权利要求7或8所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,区分癌症和非癌症病人的方法为:比较肿瘤基因组拷贝数和健康人参考拷贝数得到z-score:
式中的score(sample)表示测试样本的染色体相对覆盖度,score(reference)表示健康人参照的染色体相对覆盖度,average表示求均值,SD表示求方差;
z-score超过一定的阈值即z-score≥3或≤-3或者z-score≥6或≤-6即判断为疑似癌症;反之判断为非癌症样本。
10.根据权利要求7所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,步骤(6)中所述判断肿瘤类型和可能原发灶器官的具体方法为:通过搜索癌症参考数据库,判断疑似癌症的肿瘤类型;测试对象和癌症患者数据库数据的相似度计算公式为:
Similarity(sample,dbi)=pearson_cor(sample,dbi);
式中的sample表示测试对象,dbi表示数据库的数据项i,pearson_cor表示求皮尔森系数,Similarity表示测试对象和数据库记录行的相似度;测试对象的肿瘤类型判断为数据库记录中最相似的前1-5个肿瘤类型:
Type(query)=Type(dbi):i=maxi(pearson_cor(query,db_i));
式中的dbi表示数据库的数据项i,max表示求最大值,Type表示所求的癌症类型,maxi表示皮尔森相关系数最大的记录项i;
具体算法描述为,挑选数据库搜索结果中前1-10000个记录,统计这些记录的肿瘤类型出现频数,选择频数最高的1-5个肿瘤类型,作为最终判读。
11.根据权利要求7-10任一项所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,所述癌症为实体瘤或血液病,包括头颈部癌症、消化道癌症、脑癌、肺癌、生殖系统癌症、泌尿系统癌症、皮肤癌、淋巴癌、白血病。
12.根据权利要求11所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,所述头颈部癌症为口腔癌、鼻咽癌、舌癌或喉癌;所述消化道癌症为食管癌、胃癌、肝癌、胰腺癌或肠癌;所述生殖系统癌症为乳腺癌、宫颈癌、子宫癌、前列腺癌或睾丸癌;所述泌尿系统癌症为膀胱癌或肾癌。
13.根据权利要求7所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,所述高通量测序技术选Roche/454;Illumina测序仪,如NextSeq系列、Hiseq系列、MiSeq系列、XTen以及后续测序仪系列;BGI测序仪,如华大公司测序仪、BGI500系列以及后续测序仪;LifeTech测序仪器,如Ion、Proton以及后续测序仪器系列、PacBio测序仪器,如RSII、Sequel以及后续测序仪器;或基于Nanopore的测序仪器,如Genia、Nanopore以及类似的第三代测序仪。
14.根据权利要求10所述的一种基于大规模数据挖掘的癌症检测方法,其特征在于,所述的癌症患者基因组参考数据库是基于芯片技术的全基因组拷贝数数据库或全基因组测序数据库;其中全基因组测序数据库为来自于组织测序或者是外周血游离DNA测序数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610018232.9A CN105653898A (zh) | 2016-01-12 | 2016-01-12 | 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610018232.9A CN105653898A (zh) | 2016-01-12 | 2016-01-12 | 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105653898A true CN105653898A (zh) | 2016-06-08 |
Family
ID=56486555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610018232.9A Pending CN105653898A (zh) | 2016-01-12 | 2016-01-12 | 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653898A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372459A (zh) * | 2016-08-30 | 2017-02-01 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序拷贝数变异检测的方法及装置 |
CN107992719A (zh) * | 2017-11-23 | 2018-05-04 | 南方医科大学 | 一种基于高通量测序的膀胱癌检测试剂盒 |
CN108624584A (zh) * | 2017-03-16 | 2018-10-09 | 上海融享生物科技有限公司 | 一种针对ctDNA低频检测的文库构建方法 |
CN109680049A (zh) * | 2018-12-03 | 2019-04-26 | 东南大学 | 一种基于血液游离DNA高通量测序分析cfDNA所属个体生理状态的方法及其应用 |
WO2019128233A1 (zh) * | 2017-12-29 | 2019-07-04 | 南京格致基因生物科技有限公司 | 宫颈癌的判断方法及系统 |
CN109988835A (zh) * | 2017-12-29 | 2019-07-09 | 南京格致基因生物科技有限公司 | 基于高通量测序法筛查和诊断卵巢高级别浆液性癌的方法和装置 |
CN110272985A (zh) * | 2019-06-26 | 2019-09-24 | 广州市雄基生物信息技术有限公司 | 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法 |
CN110580934A (zh) * | 2019-07-19 | 2019-12-17 | 南方医科大学 | 一种基于外周血游离dna高通量测序预测妊娠期相关疾病的方法 |
CN110736834A (zh) * | 2018-07-19 | 2020-01-31 | 南京格致基因生物科技有限公司 | 基于高通量测序法筛查和诊断肝癌的方法、装置和系统 |
CN110791564A (zh) * | 2018-10-10 | 2020-02-14 | 杭州翱锐基因科技有限公司 | 早期癌症的分析方法和设备 |
CN110880356A (zh) * | 2018-09-05 | 2020-03-13 | 南京格致基因生物科技有限公司 | 对卵巢癌进行筛查、诊断或风险分级的方法和装置 |
WO2021077411A1 (zh) * | 2019-10-25 | 2021-04-29 | 苏州宏元生物科技有限公司 | 染色体不稳定性检测方法、系统及试剂盒 |
CN113969316A (zh) * | 2021-10-15 | 2022-01-25 | 上海缘悉生物科技有限公司 | 染色体不稳定性评分的应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104428425A (zh) * | 2012-05-04 | 2015-03-18 | 考利达基因组股份有限公司 | 测定复杂肿瘤全基因组绝对拷贝数变异的方法 |
CN104560697A (zh) * | 2015-01-26 | 2015-04-29 | 上海美吉生物医药科技有限公司 | 一种基因组拷贝数不稳定性的检测装置 |
CN104611410A (zh) * | 2013-11-04 | 2015-05-13 | 北京贝瑞和康生物技术有限公司 | 一种无创癌症检测方法及其试剂盒 |
CN105112569A (zh) * | 2015-09-14 | 2015-12-02 | 中国医学科学院病原生物学研究所 | 基于宏基因组学的病毒感染检测及鉴定方法 |
-
2016
- 2016-01-12 CN CN201610018232.9A patent/CN105653898A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104428425A (zh) * | 2012-05-04 | 2015-03-18 | 考利达基因组股份有限公司 | 测定复杂肿瘤全基因组绝对拷贝数变异的方法 |
CN104611410A (zh) * | 2013-11-04 | 2015-05-13 | 北京贝瑞和康生物技术有限公司 | 一种无创癌症检测方法及其试剂盒 |
CN104560697A (zh) * | 2015-01-26 | 2015-04-29 | 上海美吉生物医药科技有限公司 | 一种基因组拷贝数不稳定性的检测装置 |
CN105112569A (zh) * | 2015-09-14 | 2015-12-02 | 中国医学科学院病原生物学研究所 | 基于宏基因组学的病毒感染检测及鉴定方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372459B (zh) * | 2016-08-30 | 2019-03-15 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序拷贝数变异检测的方法及装置 |
CN106372459A (zh) * | 2016-08-30 | 2017-02-01 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序拷贝数变异检测的方法及装置 |
CN108624584A (zh) * | 2017-03-16 | 2018-10-09 | 上海融享生物科技有限公司 | 一种针对ctDNA低频检测的文库构建方法 |
CN107992719B (zh) * | 2017-11-23 | 2021-08-06 | 南方医科大学 | 一种基于高通量测序的膀胱癌检测试剂盒 |
CN107992719A (zh) * | 2017-11-23 | 2018-05-04 | 南方医科大学 | 一种基于高通量测序的膀胱癌检测试剂盒 |
CN109988835A (zh) * | 2017-12-29 | 2019-07-09 | 南京格致基因生物科技有限公司 | 基于高通量测序法筛查和诊断卵巢高级别浆液性癌的方法和装置 |
WO2019128233A1 (zh) * | 2017-12-29 | 2019-07-04 | 南京格致基因生物科技有限公司 | 宫颈癌的判断方法及系统 |
CN110736834A (zh) * | 2018-07-19 | 2020-01-31 | 南京格致基因生物科技有限公司 | 基于高通量测序法筛查和诊断肝癌的方法、装置和系统 |
CN110880356A (zh) * | 2018-09-05 | 2020-03-13 | 南京格致基因生物科技有限公司 | 对卵巢癌进行筛查、诊断或风险分级的方法和装置 |
CN110791564A (zh) * | 2018-10-10 | 2020-02-14 | 杭州翱锐基因科技有限公司 | 早期癌症的分析方法和设备 |
CN109680049A (zh) * | 2018-12-03 | 2019-04-26 | 东南大学 | 一种基于血液游离DNA高通量测序分析cfDNA所属个体生理状态的方法及其应用 |
CN110272985A (zh) * | 2019-06-26 | 2019-09-24 | 广州市雄基生物信息技术有限公司 | 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法 |
CN110272985B (zh) * | 2019-06-26 | 2021-08-17 | 广州市雄基生物信息技术有限公司 | 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法 |
CN110580934A (zh) * | 2019-07-19 | 2019-12-17 | 南方医科大学 | 一种基于外周血游离dna高通量测序预测妊娠期相关疾病的方法 |
CN110580934B (zh) * | 2019-07-19 | 2022-05-10 | 南方医科大学 | 一种基于外周血游离dna高通量测序的妊娠期相关疾病预测方法 |
WO2021077411A1 (zh) * | 2019-10-25 | 2021-04-29 | 苏州宏元生物科技有限公司 | 染色体不稳定性检测方法、系统及试剂盒 |
CN113969316A (zh) * | 2021-10-15 | 2022-01-25 | 上海缘悉生物科技有限公司 | 染色体不稳定性评分的应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105653898A (zh) | 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 | |
CN106047998B (zh) | 一种肺癌基因的检测方法及应用 | |
CN105219844B (zh) | 一种筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型 | |
CN102939389B (zh) | 基于体细胞获得性重排的诊断方法 | |
CN109097471A (zh) | 一种用于结直肠癌及癌前病变检测的试剂盒及其使用方法 | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN107523563A (zh) | 一种用于循环肿瘤dna分析的生物信息处理方法 | |
CN107475403A (zh) | 从外周血游离dna中检测循环肿瘤dna的方法、试剂盒及其测序结果的分析方法 | |
CN107663533A (zh) | 一种肺癌EGFR L858R和19Del的ddPCR检测方法及应用 | |
CN114694750B (zh) | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 | |
EP3249051B1 (en) | Use of methylation sites in y chromosome as prostate cancer diagnosis marker | |
CN116064755B (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN110452981A (zh) | 基于外周血的肺癌早筛用的试剂盒 | |
CN105132407A (zh) | 一种脱落细胞dna低频突变富集测序方法 | |
CN109616198A (zh) | 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法 | |
CN108300787A (zh) | 特异甲基化位点作为乳腺癌早期诊断标志物的应用 | |
CN108070658A (zh) | 检测msi的非诊断方法 | |
CN108949979A (zh) | 一种通过血液样本判断肺结节良恶性的方法 | |
CN105821147A (zh) | 一种用于检测直肠癌易感性相关的snp位点的引物及检测方法 | |
CN112951325A (zh) | 一种用于癌症检测的探针组合的设计方法及其应用 | |
CN111968702A (zh) | 一种基于循环肿瘤dna的恶性肿瘤早期筛查系统 | |
CN116083581B (zh) | 一种用于检测早期消化道肿瘤的试剂盒 | |
US20240312563A1 (en) | Method for preparation of multi-analytical prediction model for cancer diagnosis | |
Wilmott et al. | Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes | |
CN106755330B (zh) | 癌症相关基因表达差异检测试剂盒及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160608 |