[go: up one dir, main page]

CN112840037A - 年龄确定方法和装置 - Google Patents

年龄确定方法和装置 Download PDF

Info

Publication number
CN112840037A
CN112840037A CN201980066591.3A CN201980066591A CN112840037A CN 112840037 A CN112840037 A CN 112840037A CN 201980066591 A CN201980066591 A CN 201980066591A CN 112840037 A CN112840037 A CN 112840037A
Authority
CN
China
Prior art keywords
age
genomic dna
dna sequences
individual
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980066591.3A
Other languages
English (en)
Other versions
CN112840037B (zh
Inventor
蒂姆·斯徹德瑞格
师社瑞斯·古尔
安德利亚·扎利亚尼
劳拉·查丘尔斯基
卡斯滕·克劳森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomas JC Mattson Inc
Original Assignee
Thomas JC Mattson Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomas JC Mattson Inc filed Critical Thomas JC Mattson Inc
Publication of CN112840037A publication Critical patent/CN112840037A/zh
Application granted granted Critical
Publication of CN112840037B publication Critical patent/CN112840037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/30Microarray design
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/124Animal traits, i.e. production traits, including athletic performance or the like
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及年龄的确定。具体地,本发明涉及一种确定年龄指示物的方法,和一种确定个体年龄的方法。所述方法基于包含基因组DNA序列集之DNA甲基化水平的数据。优选地,所述年龄指示物是通过在该数据上应用包括最小绝对收缩和选择算子(LASSO)的回归方法、优选地通过将该方法与后续逐步回归进行组合而确定的。此外,本发明涉及一种基因组DNA序列的集合和一种基因集,及其在诊断个体的健康状态和/或体质状况和鉴定影响衰老的分子中的用途。在另一些方面中,本发明涉及一种芯片或试剂盒,特别是可用于检测所述基因组DNA序列之集合的DNA甲基化水平的芯片或试剂盒。

Description

年龄确定方法和装置
本发明涉及年龄的确定。具体地,本发明涉及一种确定年龄指示物的方法,和一种确定个体年龄的方法。所述方法基于包括基因组DNA序列集的DNA甲基化水平的数据。优选地,所述年龄指示物是通过在该数据上应用包括最小绝对收缩和选择算子(LeastAbsolute Shrinkage and Selection Operatior,LASSO)的回归方法、优选地通过将该方法与后续逐步回归进行组合而确定的。此外,本发明涉及一种基因组DNA序列的集合(ensemble)和一种基因集(gene set),及其在诊断个体的健康状态和/或体质状况和鉴定影响衰老的分子中的用途。在另一些方面中,本发明涉及一种芯片或试剂盒,特别是可用于检测所述基因组DNA序列之集合的DNA甲基化水平的芯片或试剂盒。
背景技术
当人变老时,他们的身体会在很多方面发生变化,例如会在牙齿磨损、关节磨损、肌肉无力、思维能力下降等方面。但是,虽然一个人变老时健康一般可能会每况愈下,但即使对于出生日期相同的人来说,个体之间在健康方面仍然存在很大差异。因此,一些人会比其他人老得快。
而且,在一项观察双胞胎年龄的研究中发现,只有大约25%的平均寿命是由基因遗传决定的,而生活方式和环境因素则导致剩余75%的寿命的变异度。
已经发现,随着实足年龄(chronological age)的增长,一些疾病在人类中更常见。但是,实足年龄并不是个体年龄相关健康状态(通常将其称为“生物学年龄”)的理想指示物。确定出与生物学年龄更相似的年龄可能有助于评估个体是否有更高风险罹患衰老相关疾病(诸如阿尔茨海默氏病)。如果确定的年龄大于实足年龄,可能指示需要采取预防措施,例如改变生活方式,以预防或减缓衰老相关疾病的进程。确定出替代年龄也可能有助于改进诊断,例如有助于评价是否应关注衰老相关疾病。
此外,如果不知道个体的实足年龄,则可以使用替代年龄(尽管不同)作为实足年龄的指示物。如果替代年龄的确定是基于生物样品进行的,它还可以用于例如法医学中在犯罪现场找到犯罪者的血液痕迹的情况。
已经进一步提出,某些个体群体比其他人老得慢,例如,某些在营养等方面具有特定当地习惯的国家中的人们,诸如此类。确定出不同群体的个体年龄可有助于鉴定影响生物学年龄的因素。参考Alegria-Torres等人,Epigenomics,2011年6月;3(3):267-277。
应注意,在既知道实足年龄又知道不同于实足年龄的年龄的情况下,可以指示出与实足年龄的差异而不是绝对值。
已经提出基于人类个体中发现的基因组DNA序列的甲基化水平来确定该个体的年龄。特别地,参考WO2012/162139。在WO2012/162139中,已经提出对选自一大组CG基因座名称中的一个或多个的基因组DNA的胞嘧啶甲基化进行观察。
也可以参考WO2015/48665,其中列出了其他的CpG位点。
在文献WO 2012/162139中还提出,可以使用特定的技术平台和组织收集例如100个实足年龄不同的个体的参考(训练)数据集,然后设计出针对该参考数据集拟合的特定的多元线性模型,该参考数据集包括针对每个个体获得的CpG基因座的甲基化水平。为了估算系数,例如,已经提出了最小二乘回归。然后使用分配给每个CpG基因座的系数,来确定这些个体的不包括在训练数据集(training data set)中的未知替代年龄。已经提出使用“留一法分析(leave-one-out analysis)”来确定这些系数。在这种“留一法分析”中,将对参考数据集中除一个对象以外的其他所有对象进行多元回归模型拟合,然后将预测值与留下的对象的实足年龄进行比较。另外,WO 2012/162139已经提出了进行测试以筛选出最佳预测器,以便提高模型的精确度。
尽管如此,虽然通过使用极大量的CpG基因座并且进行大量实验和计算工作而从极大量相应的甲基化水平测量值中得出了年龄指示物,但据称WO 2012/162139所获得的平均精确度仍仅在3至5年的范围内。这一点表明,当前年龄确定方法的精确度和/或效率没有达到最佳。
此外,测量和评价大量甲基化水平的成本较高。
在这方面,要注意的是,在人类基因组中可以找到大约2800万个CpG基因座。即使考虑到其中某些CpG基因座的甲基化水平可能不受衰老的影响,但是仍然存在极大量的甲基化水平受年龄影响的CpG基因座。尽管人们相信,用于确定甲基化水平的检测方法可能会随着时间得到改善,从而可以确定出越来越多的CpG基因座的甲基化水平,目前使用可商购的仪器和方法已能够确定出至少约800,000(800000)个CpG基因座的甲基化水平。尽管如此,这种测量的成本高昂,因此,基于测量极大量CpG基因座来确定年龄将是非常昂贵的。因此,当前的年龄确定方法是仅基于数百个CpG基因座的。但是,基于数百个CpG基因座确定年龄所需要的成本、设备和专业知识仍然是当前年龄确定方法推广使用方面的障碍。
因此,需要改进的年龄确定方法。特别地,需要要求较少数据输入同时具有至少大致相同精确度的改进的年龄确定方法。
还需要用于筛选治疗或预防衰老相关疾病或癌症,或与衰老相关疾病或癌症相关联的表型的药物的改进手段。特别地,还期望用于诊断个体健康状态或保健状态的类似手段。
还期望以成本有效的方式确定年龄。
还期望以即使不非常具有成本效益和/或不是非常精确,也至少可允许独立于评价其他年龄确定方法的评价方式来确定年龄。换言之,需要一种替代年龄指示物,其可被用于验证由其他年龄指示物确定的年龄。这种交叉验证在诊断学中非常重要。
发明内容
在权利要求中提供了解决上述技术问题的手段,并在下文中对这些手段进行了概述。
在最广的方面中,本发明涉及一种确定年龄指示物的方法,一种确定个体年龄的方法,和/或一种基因组DNA序列的集合。
特别地,本文所提供的本发明的确定年龄指示物的方法包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,以及
(b)在训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定年龄指示物和缩减的训练数据集,
其中自变量为基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,其中年龄指示物包括:
(i)基因组DNA序列集的作为集合的子集,和
(ii)包含在集合中的每个基因组DNA序列的至少一个系数,并且
其中,缩减的训练数据集包括训练数据集中,除了被LASSO消除的基因组DNA序列的DNA甲基化水平以外的所有数据。
特别地,所述确定个体年龄的方法包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定年龄指示物和缩减的训练数据集,
其中自变量为基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,其中年龄指示物包括:
(i)基因组DNA序列集的作为集合的子集,和
(ii)包含在集合中的每个基因组DNA序列的至少一个系数,并且
其中,缩减的训练数据集包括训练数据集中,除了被LASSO消除的基因组DNA序列的DNA甲基化水平以外的所有数据,和
(c)提供待确定其年龄的个体的DNA甲基化水平,DNA甲基化水平为年龄指示物中包括的至少80%、优选100%的基因组DNA序列的DNA甲基化水平,以及
(d)基于个体的DNA甲基化水平和年龄指示物确定个体的年龄,
优选地,其中,所确定的年龄可以与个体的实足年龄不同。
特别地,所述基因组DNA序列的集合包括以下各项中的至少1个,优选至少10个、优选至少50个、优选至少70个、优选全部:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
优选地,所述基因组DNA序列的集合被包含在缩减的训练数据集中和/或由所述确定年龄指示物的方法获得的年龄指示物中。
在另一个优选的方面中,本发明涉及一种基因集,其包括以下各项中的至少1个、优选至少10个、优选至少30个、优选至少50个、优选至少70个、优选全部:SIM bHLH转录因子1(SIM1)、微管相关蛋白4(MAP4)、蛋白激酶Cζ(PRKCZ)、谷氨酸离子受体AMPA型亚基4(GRIA4)、BCL10、免疫信号结合子(BCL10)、含5'核苷酸酶结构域的蛋白1(NT5DC1)、抑制致肿瘤性7(ST7)、蛋白激酶Cη(PRKCH)、胶质细胞源性神经营养因子(GDNF)、muskelin 1蛋白(MKLN1)、exocyst复合体成分6B(EXOC6B)、蛋白S(PROS1)、钙电压门控通道亚基α1D(CACNA1D)、kelch式家族成员42(KLHL42)、OTU去泛素酶7A(OTUD7A)、死亡相关蛋白(DAP)、含卷曲螺旋结构域的蛋白179(CCDC179)、碘甲腺原氨酸脱碘酶2(DIO2)、瞬时受体电位阳离子通道亚家族V成员3(TRPV3)、MT-RNR2样蛋白5(MTRNR2L5)、细丝蛋白B(FLNB)、弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN)、溶质载体家族25成员17(SLC25A17)、含G-patch结构域的蛋白1(GPATCH1)、UDP-GlcNAc:βGalβ-1,3-N-乙酰基葡糖胺转移酶9(B3GNT9)、zyg-11家庭成员A、细胞周期调控因子(ZYG11A)、癫痫样相关蛋白6(SEZ6L)、肌球蛋白X(MYO10)、乙酰-CoA羧化酶α(ACACA)、G蛋白亚基αi1(GNAI1)、含CUE结构域的蛋白2(CUEDC2)、同源框D13(HOXD13)、Kruppel样因子14(KLF14)、溶质载体家族1成员2(SLC1A2)、乙酰乙酰-CoA合成酶(AACS)、含锚蛋白重复序列和无菌α基序结构域的蛋白1A(ANKS1A)、微小RNA7641-2(MIR7641-2)、胶原蛋白Vα1链(COL5A1)、亚砷酸盐甲基转移酶(AS3MT)、溶质载体家族26成员5(SLC26A5)、核孔蛋白107(NUP107)、基因间非蛋白长编码RNA 1797(LINC01797)、肌球蛋白IC(MYO1C)、锚蛋白重复序列结构域37(ANKRD37)、磷酸二酯酶4C(PDE4C)、含EF-hand结构域的蛋白1(EFHC1)、未特征的LOC375196(LOC375196)、ELOVL脂肪酸延伸酶2(ELOVL2)、WAS蛋白家族成员3(WASF3)、染色体17开放阅读框82(C17orf82)、G蛋白偶联受体158(GPR158)、F-box和富含亮氨酸的重复序列蛋白7(FBXL7)、波纹状转录抑制因子3(RIPPLY3)、ESCRT-1的VPS37C亚基(VPS37C)、多肽N-乙酰半乳糖胺基转移酶样蛋白6(GALNTL6)、含DENN结构域的蛋白3(DENND3)、核受体协同抑制因子2(NCOR2)、含内皮PAS结构域蛋白1(EPAS1)、PBX同源异形框蛋白4(PBX4)、基因间非蛋白长编码RNA 1531(LINC01531)、序列相似性家族110成员A(FAM110A)、含糖基转移酶8结构域的蛋白1(GLT8D1)、G蛋白亚基γ2(GNG2)、MT-RNR2样蛋白3(MTRNR2L3)、锌指蛋白140(ZNF140)、激酶抑制因子1(KSR1)、蛋白二硫键异构酶家族A成员5(PDIA5)、精子发生相关蛋白7(SPATA7)、泛酸激酶1(PANK1)、泛素特异性蛋白酶4(USP4)、G蛋白亚基αq(GNAQ)、钾电压门控通道修饰因子亚家族S成员1(KCNS1)、DNA聚合酶γ2,辅助亚基(POLG2)、叉头框2(STOX2)、轴突蛋白3(NRXN3)、BMS1,核糖体生物发生因子(BMS1)、鹳头盒E3(FOXE3)、NADH:泛醌氧化还原酶亚基A10(NDUFA10)、松弛素家族肽受体3(RXFP3)、GATA结合蛋白2(GATA2)、含类异戊二烯合酶结构域的蛋白(ISPD)、腺苷脱氨酶,RNA特异性B1(ADARB1)、Wnt家庭成员7B(WNT7B)、含普列克底物蛋白和Sec7结构域的蛋白3(PSD3)、膜锚定连接蛋白(MAJIN)、吡啶核苷酸-二硫化物氧化还原酶结构域1(PYROXD1)、扣带蛋白样蛋白1(CGNL1)、染色体7开放阅读框50(C7orf50)、含MORN重复序列的蛋白1(MORN1)、atlastin GTP酶蛋白2(ATL2)、含WD重复序列和FYVE结构域的蛋白2(WDFY2)、跨膜蛋白136(TMEM136)、肌醇聚磷酸-5-磷酸酶A(INPP5A)、TBC1结构域家族成员9(TBC1D9)、干扰素调控因子2(IRF2)、去乙酰化酶7(SIRT7)、XXIII型胶原蛋白α1链(COL23A1)鸟嘌呤单磷酸合酶(GMPS)、钾双孔结构域钾通道亚家族K成员12(KCNK12)、SIN3-HDAC复合体相关因子(SINHCAF)、血红蛋白亚基ε1(HBE1)以及含tudor结构域的蛋白1(TDRD1)。
优选地,所述基因集是通过从基因组DNA序列的集合中选择编码蛋白质或微小RNA或长链非编码RNA的基因组DNA序列而获得的。
在另一些优选的方面中,本发明涉及根据本发明的基因组DNA序列的集合或基因集在诊断个体的健康状态和/或保健状态中的用途。
在另一些优选的方面中,本发明涉及一种用于鉴定影响衰老的分子的计算机模拟(in silico)和/或体外筛选方法,其包括提供根据本发明的基因组DNA序列的集合或基因集的步骤,其中当给予至个体时,所述分子改善、预防和/或逆转至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症。
在另一些优选的方面中,本发明涉及一种芯片或试剂盒,特别是可用于检测根据本发明的基因组DNA序列的集合或基因集的DNA甲基化水平的芯片或试剂盒。
特别地,所述芯片包括根据本发明的基因组DNA序列或基因集,其中每个序列都被包含在单独的斑点中。
特别地,所述试剂盒包括:
(a)至少一个独特引物对,
其中在每个引物对中,一个引物是与基因组DNA序列的集合中包括的一个基因组DNA序列的反向链结合、或是与根据本发明的基因集中包括的一个基因的反向链结合的正向引物,并且另一个引物是与该基因组DNA序列的正向链结合、或是与该基因的正向链结合的反向引物,
并且,其中与正向引物和反向引物的3’端互补的两个核苷酸相距多于30个且少于3000个、优选少于1000个核苷酸,或
(b)至少一个探针,所述探针与基因组DNA序列的集合中包括的一个基因组DNA序列或与根据本发明的基因集中包括的一个基因互补。
本发明至少部分地基于以下令人惊讶的发现,即可以通过应用包括最小绝对收缩和选择算子(LASSO)的回归方法来确定包括进一步缩减的基因组DNA序列集的年龄指示物,但仍具有可接受的质量,其中自变量为基因组DNA序列的甲基化水平,并且因变量是年龄。这特别令人惊讶,因为省略了先前方法中所需的岭回归(Ridge regression)(L2参数)。进一步令人惊讶的是,在本发明中确定的基因组DNA序列集与先前确定的基因组DNA序列集之间的重叠微乎其微。因此,进一步令人惊讶的是,可以找到一种年龄指示物,其与已知的年龄指示物相比包括非常不同的基因组DNA序列但性能良好。
在确保年龄确定精确度的同时减少基因组DNA序列的数量具有许多优点。一个优点是减少了确定基因组DNA序列的DNA甲基化水平的成本、工作量和/或必要的专业知识,特别是因为它允许使用更简单的实验室方法。另一个优点是使得由缩减的基因组DNA序列的集合编码的候选药物靶标的范围得以缩小。再一个优点是提供了一种用于诊断个体健康状态的替选或改进的工具。因此,一种用于确定替选或改进的年龄指示物的方法也可用于验证通过其他方法(即诊断或候选药物)获得的结果。
一般术语
除非另外定义,否则本文所使用的所有技术和科学术语的含义与本发明所属领域的技术人员所通常理解的含义相同。描述了优选的方法和材料,然而,在本发明的实践或测试中可以使用与本文所述的那些方法和材料类似或等效的任何方法和材料。就本发明的目的而言,下列术语的定义如下。
本文使用的冠词“一”和“一个”是指该冠词的一个或多个(即,至少一个)语法对象。举例来说,“元件”是指一个元件或多于一个元件。
如本文中所使用的,“和/或”是指并且涵盖一个或多个相关联的所列项目的任何和所有可能的组合,并且在解释替选方案(或)时不包括组合。
本发明的目的是为工业应用提供新颖性。
该目的是通过独立权利要求中所要求保护的内容实现的。
从属权利要求中描述了一些优选实施方案。对本领域技术人员明显的是,在说明书中可以找到当前未要求保护的优选实施方案。此外,应当注意,尽管目前没有在独立权利要求中要求保护本发明的某些方面,但这些方面仍可以在说明书中找到并且可能会在以后进行引用。
具体实施方式
以下描述了与以下相关的实施方案和定义:根据本发明的确定年龄指示物的方法、由所述方法获得的年龄指示物、所述年龄指示物中包括的基因组DNA序列的集合、以及根据本发明的确定个体年龄的方法。
如本文所用,年龄指示物是指这样的统计模型:其可用于基于个体的某些基因组DNA序列的DNA甲基化水平来确定所述个体的年龄。
如本文所用,个体的确定年龄不一定与所述个体的实足年龄相同。通常,个体的确定年龄和实足年龄是不同的,并且二者相同的情况只是巧合。确定年龄在本文中也被称为“替选年龄”。任何年龄都可以以“年”计,和/或优选地以“天”计。如本文所用,个体的确定年龄比其实足年龄更能指示所述个体的生物学年龄。个体的实足年龄是指自该个体出生以来已经过去的时间。如本文所用,生物学年龄与个体的健康状态有关。优选地,健康状态涉及至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,其中该状态指示疾病或与疾病相关的表型是否存在、或其所处阶段。因此,本发明的年龄指示物可以用于诊断个体的健康状态。
特别地,如本文所用的年龄指示物是指包括自变量的线性模型。在本文中,年龄指示物或用于生成年龄指示物的线性模型中包括的自变量是指某个基因组DNA序列的DNA甲基化水平。
优选地,本发明的年龄指示物和/或用于生成本发明的年龄指示物的线性模型的的因变量为年龄。
在线性模型中,通过一组自变量(某些基因组DNA序列的甲基化水平)来预测多个个体的年龄,其中每个自变量具有至少一个系数。优选地,预测年龄和实足年龄有很好的相关性,或者换言之,优选地在平均数上非常相似。但是,一个个体的预测年龄(在本文中也称为“确定年龄”)可能与他的实足年龄不同,例如相差几年。
具体地,如本文所用的甲基化水平是指β值。如本文所用,β值描述了一个比值,该比值是样品中包含的所有细胞的所有等位基因的基因组DNA的特定部分中的所有相关胞嘧啶中,甲基化胞嘧啶与甲基化和未甲基化胞嘧啶之和的比。一个特定胞嘧啶分子的甲基化状态是二元的,要么是未甲基化状态(0;0%),要么是甲基化状态(1;100%)。甲基化胞嘧啶也称为“5'mC”。由此,在具有两个等位基因的单细胞基因组DNA的特定位置处的胞嘧啶的β值因此通常为0、0.5或1。因此,细胞群的基因组DNA中特定CpG位置处的β值(与等位基因数无关)可以取0到1之间的值。此外,在考虑单个等位基因的某个基因组DNA序列中的所有CpG时,β值可以取0到1之间的值。在本文中优选地,在某个基因组DNA序列中仅考虑一个CpG。在本文中,样品优选包含多于一个细胞,该细胞可以包含多于一个等位基因。因此,明显的是,如本文所用的基因组DNA序列的β值实际上可以取0至1之间的任何值。在本文中,CpG的甲基化水平是由所述CpG中包含的胞嘧啶定义的,而不是鸟嘌呤。
在本文中优选地,CG/CpG对应于CG簇(Cluster CG)编号(IlluminaTM甲基化探针ID号)规定的IlluminaTM探针。使用IlluminaTM DNA甲基化阵列可以测量预选CpG集的甲基化水平。要量化CpG的甲基化水平,可以使用软件计算甲基化的β值。IlluminaTM甲基化探针的ID以在术语“cg”后跟随编号作为特征,例如cg11330075或cg25845463。术语“CG”、“cg”、“CpG”、“CpG基因座”、“CpG位点”和“cg位点”在本文中可互换使用。用IlluminaTM DNA甲基化阵列确定DNA甲基化水平是公知且得到认同的,而且可以用在本发明中,然而,还将会描述其他方法,并且这些方法由于所指出的原因而可能是优选的。因此,可替选地或另外地,CpGs的甲基化水平也可以使用本领域已知的其他方法进行定量。虽然如此,但除非另有说明,否则本发明中鉴定出的CG/CpG对应于IlluminaTM甲基化探针ID。
此外,尽管有可能,但对于基因组DNA序列的甲基化水平的确定不需要确定在单核苷酸分辨率下的胞嘧啶甲基化,所述序列中相关胞嘧啶的平均甲基化信号就足够了。优选地,在本文中仅将随后是鸟嘌呤的胞嘧啶(CpG二核苷酸)视为相关的。碱基和核苷酸的通用名称(例如胞嘧啶和胞嘧啶核苷)分别在本文可互换使用,并且是指包含相应碱基的特定核苷酸。在本文中,术语“甲基化水平”和“DNA甲基化水平”可互换使用。当提及甲基化水平时,范围0%至100%和0至1在本文中可互换使用。
如本文所用,基因组DNA序列是指个体的基因组DNA的连贯部分。在本文中,某个基因组DNA序列不一定非要与其所涉及的基因组DNA序列的参考序列相同,但可以是其变体。优选地,基因组DNA序列是独特的序列。通过询问诸如“GenBank”或“EMBL-NAR”之类的数据库并使用常识,技术人员可以容易地确定出一个序列是否为特定参考基因组DNA序列的变体。
在本文中,基因组DNA序列的甲基化水平是指所述基因组DNA序列中包含的至少一种CpG二核苷酸内的至少一个胞嘧啶的甲基化水平。
在本文中优选地,基因组DNA序列的甲基化水平是指所述基因组DNA序列中包含的仅一个CpG二核苷酸内仅一个胞嘧啶的甲基化水平。优选地,所述基因组DNA序列包含其他核苷酸,这些核苷酸的甲基化水平不被考虑,但其可用于鉴定所述CpG二核苷酸。因此,本文中,基因组DNA序列可以由CpG基因座定义。
在本文中非常优选地,用IlluminaTM定义基因组DNA序列。术语“IlluminaTM甲基化探针ID”、“IlluminaTM CpG簇ID”、“IlluminaTM簇CG编号”、“IlluminaTM探针”、IlluminaTM甲基化探针ID编号及其等同物(无论有没有术语“IlluminaTM”或“TM”)在本文中可互换使用。
如本文所用,多个个体是指多于一个个体。如本文所用,个体是指在其基因组DNA内具有5'-甲基化胞嘧啶(5'-mc)的生物。优选地,生物是脊椎动物,更优选哺乳动物,最优选人。优选地,个体的至少一个基因组DNA序列的甲基化水平可与该个体的衰老和/或健康状态相关联。如本文所用,个体可以具有任何性别,例如,可以是雄性、雌性、雌雄同体等等。因此,在本文中个体的上下文中,可以互换地使用术语“他”、“她”、“它”或“他的”、“她的”、“它的”。
通常,个体的身份是已知的,但这不是必需的。特别地,即使个体的身份和/或实足年龄是未知的,也可以通过本发明的方法确定出该个体的年龄。因此,根据本发明的个体年龄确定方法可允许在仅可获得个体生物样品的情况下预测个体的实足年龄。这样的生物样品包括例如毛细胞、颊细胞、唾液、血液和/或精子。因此,所述个体年龄的确定方法可用于估算个体的实足年龄,该个体在犯罪现场出现并且其一些生物材料留在那里。此外,在尚未记录或没有可用的关于某个个体的实足年龄的数据时,所述个体年龄的确定方法可用于估算所述个体的实足年龄。
如本文所用,回归方法是指用于估算变量之间的关系、特别是因变量与一个或多个自变量之间的关系的统计过程。回归分析还用于理解自变量之中哪些与因变量相关,并探讨这些关系的形式。优选地,所述回归方法包括线性回归。优选地,所述回归方法包括使用收缩的线性回归。收缩是指数据值向中心点(如均值)收缩。在本文中,所述回归方法包括最小绝对收缩和选择算子(LASSO)。
LASSO鼓励使用简单、稀疏的模型(即参数较少的模型)。这种特定类型的回归非常适合于多重共线性水平较高的模型或者模型选择的某些部分(如变量选择和/或参数消除)期望自动化实现的模型。LASSO回归执行L1正则化(regularization),即加入等于系数幅度(magnitude)绝对值的惩罚项。这种类型的正则化可生成系数较少的稀疏模型;一些系数可以变为零并从模型中消除。惩罚越大,系数值就越接近零,这是生成更简单模型的理想选择。换言之,LASSO可用于减少线性模型的自变量的数量。在本文中,术语“LASSO”、“lasso”和“Lasso回归”作为同义词使用。
在优选的实施方案中,LASSO是用biglasso R软件包进行的,优选通过应用“cv.biglasso”命令进行。优选地,“nfold”为20。
在优选的实施方案中,LASSO L1正则化参数/α参数为1。
优选地,本发明的回归方法不包括岭回归(L2正则化)或L2正则化参数/λ参数为0。
相反,在弹性网络(Elastic Net)方法中,L1正则化参数或α参数不为1,而大约为0.1至0.9。此外,弹性网络方法包括岭回归。因此,优选地,本发明的回归方法不包括弹性网络方法。此外,优选地,本发明的年龄指示物不是通过应用弹性网络法确定。
优选地,本发明的回归方法进一步包括在LASSO之后应用逐步回归。优选地,将逐步回归应用于缩减的训练数据集。
因此,在特别优选的实施方案中,所述确定年龄指示物的方法包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,以及
(b)在训练数据集上应用包括以下各项的回归方法:
(i)最小绝对收缩和选择算子(LASSO),从而确定缩减的训练数据集,和
(ii)后续逐步回归,从而确定年龄指示物,优选地,其中将所述逐步回归应用于所述缩减的训练数据集,
其中自变量为基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,其中年龄指示物包括:
(i)基因组DNA序列集的作为集合的子集,和
(ii)包含在集合中的每个基因组DNA序列的至少一个系数,并且
其中缩减的训练数据集包括训练数据集中,除了被LASSO消除的基因组DNA序列的DNA甲基化水平之外的所有数据。
因此,在特别优选的实施方案中,所述确定个体年龄的方法包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在训练数据集上应用包括以下各项的回归方法:
(i)最小绝对收缩和选择算子(LASSO),从而确定缩减的训练数据集,以及
(ii)后续逐步回归,从而确定年龄指示物,优选地,其中将所述逐步回归应用于所述缩减的训练数据集,
其中自变量为基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,其中年龄指示物包括:
(i)基因组DNA序列集的作为集合的子集,和
(ii)包含在集合中的每个基因组DNA序列的至少一个系数,并且
其中缩减的训练数据集包括训练数据集中,除了被LASSO消除的基因组DNA序列的DNA甲基化水平以外的的所有数据,和
(c)提供待确定其年龄的个体的DNA甲基化水平,DNA甲基化水平为年龄指示物中包括的至少80%、优选100%的基因组DNA序列的DNA甲基化水平,以及
(d)基于个体的DNA甲基化水平和年龄指示物确定个体的年龄,
优选地,其中所确定的年龄可以与个体的实足年龄不同。
如本文所用,逐步回归是一种回归模型的拟合方法,其中通过自动程序选择预测变量。在每个步骤中,都会基于一定的预定准则,考虑在解释变量集中增加或减少一个变量。这可以采取一系列F检验或t检验的形式,但是其他技术也是可行的,诸如调整后的R2、赤池信息准则(Akaike information criterion,AIC)、贝叶斯信息准则、马洛斯的Cp(Mallows's Cp)、PRESS或错误发现率。主要方法为前向选择(forward selection)、后向消除(backward elimination)和双向消除(bidirectional elimination)。前向选择包括:使用选定的模型拟合准则测试每个变量的添加;添加变量(如果有),该变量的添加能为该拟合在统计学上带来最显著的改善;并重复该过程,直到没有任何变量可以在统计学上显著改善该模型为止。
后向消除包括:使用选定的模型拟合准则测试每个变量的删除;删除变量(如果有),该变量的失去为该模型拟合带来统计学上最不显著的退化;并重复该过程,直到任何变量的删除都不会造成统计学上显著损失为止。双向消除是前向选择和后向消除的组合,在每个步骤中测试要加入或排除的变量。在本文中,优选地,逐步回归考虑的变量是由LASSO回归选择的那些变量。
在一个优选实施方案中,所述逐步回归是双向消除。优选地,当应用所述逐步回归时,移除统计学上不显著的自变量。优选地,确定是否添加/包含或移除/排除变量的显著性水平为0.05。
为了确定根据本发明的年龄指示物,通过根据本发明的回归方法,在至少一个步骤中、优选在两个步骤中,缩减基因组DNA序列集。优选地,从其甲基化水平可与实足年龄相关联的基因组DNA序列中预选出基因组DNA序列的起始集。例如,这样的预选集是IlluminaTMDNA甲基化阵列。然后,应用LASSO,从而确定年龄指示物和缩减的训练数据集,二者均包括基因组DNA序列的集合。
在某些实施方案中,从其甲基化水平可与实足年龄相关联的基因组DNA序列中预选出训练数据集中包括的基因组DNA序列集。优选地,所预选的集包括至少400000个、优选至少800000个基因组DNA序列。尤其适合的是通过Infinium MethylationEPIC BeadChip试剂盒测定的序列。
在某些实施方案中,训练数据集中包括的基因组DNA序列彼此不重叠和/或每个等位基因仅出现一次。当仅预选相对较小的基因组DNA序列集(即少于10000个基因组DNA序列)时,这是特别优选的。
在优选的实施方案中,将逐步回归应用于缩减的训练数据集,从而确定出包括基因组DNA序列的集合的年龄指示物。
已经进一步令人惊讶地发现,通过应用LASSO和后续的逐步回归而确定的基因组DNA序列的集合较小,并且相应的年龄指示物的性能优于通过仅应用LASSO而没有应用逐步回归而确定的基因组DNA序列的集合或年龄指示物的性能。
进一步令人惊讶地发现,尽管变量减少,但与诸如Horvath,Genome Biology,2013,14:R115中的现有技术方法相比,通过应用LASSO和后续的逐步回归确定的年龄指示物具有至少一样高或者甚至是更高的精确度。
在本文中,年龄指示物中包括的子集又称为“集合”或“基因组DNA序列的集合”。如本文所用,基因组DNA序列的子集(集合)最大与基因组DNA序列集一样大。
优选地,本发明的年龄指示物中包括的集合小于用于确定所述年龄指示物的基因组DNA序列集。
优选地,本发明的年龄指示物中包括的集合小于用于确定所述年龄指示物的缩减的训练数据集中包括的基因组DNA序列集。
在某些实施方案中,缩减的训练数据集包括至少90个、优选至少100个、优选至少140个基因组DNA序列。
在某些实施方案中,缩减的训练数据集包括少于5000个、优选少于2000个、优选少于500个、优选少于350个、优选少于300个基因组DNA序列。
与预选的基因组DNA序列集相比,缩减的训练数据集中包括的基因组DNA序列集优选大幅缩小,优选减少缩小90%、优选缩小大于99%、优选缩小大于99.9%。但是,所述基因组DNA序列集必须足够大,从而避免过早地限制后续的逐步回归的优化潜力和/或避免获得性能较弱的年龄指示物。在本文中,构想的是,与包括至少30个、优选至少50个、优选至少60个、优选至少80个基因组DNA序列的年龄指示物相比,包括少于30个基因组DNA序列的年龄指示物具有较弱的性能。但是,优选包括尽可能少的基因组DNA序列的年龄指示物。
因此,在某些实施方案中,年龄指示物包括至少30个、优选至少50个、优选至少60个、优选至少80个基因组DNA序列。
在优选的实施方案中,年龄指示物包括少于300个、优选少于150个、优选少于110个、优选少于100个、优选少于90个基因组DNA序列。
在非常优选的实施方案中,年龄指示物包括80至100个、优选80至90个、优选88个基因组DNA序列。
此外,本发明的年龄指示物针对每个包含在集合中的基因组DNA序列包含至少一个系数。由于一个系数即可,因此优选地,对于每个包含在集合中的基因组DNA序列,年龄指示物仅包括一个系数。
如本文所用,系数是指自变量(在本文中是某个基因组DNA序列的甲基化水平)的权重。为预测或确定个体年龄,将系数乘以基因组DNA序列的甲基化水平,或者换言之,对每个基因组DNA序列及其甲基化水平施以权重;然后对所有加权的甲基化水平求和。优选地,甲基化水平在0和1之间(分别为未甲基化和完全甲基化)。
在本文中,用于生成年龄指示物的数据集也称为“训练数据集”。如本文所用,缩减的训练数据集是指其中消除或不考虑某些基因组DNA序列的数据的训练数据集。在本文中,通过在训练数据集上应用包含LASSO的回归方法,来确定缩减的训练数据集。
在优选的实施方案中,训练数据集包括矩阵,该矩阵的列为包含在基因组DNA序列集中的基因组DNA序列的甲基化水平,并且该矩阵的行为多个个体。优选地,所述个体的实足年龄被包含在矩阵的另一列中。
在某些实施方案中,本发明的年龄指示物被迭代更新,所述迭代更新包括在每次迭代中将至少一个其他个体的数据添加到训练数据中,从而迭代地扩展训练数据集。
可以预期,所述对年龄指示物的迭代更新迭代地改善了年龄指示物的性能,特别是其精确度。
在本文中,迭代更新是指连续多轮更新年龄指示物。如本文所用,在本发明的某些或优选实施方案中提到一轮更新或一个更新轮次。如本文所用,不同轮次的更新可以指相同或不同的实施方案。优选地,每个迭代更新轮次是由本发明的相同实施方案提及的。关于更新年龄指示物的其他个体是指尚未向训练数据集贡献数据的个体,但其数据被添加至一个更新轮次中。如本文所用,对训练数据集的扩展是指将至少一个其他个体的数据添加至训练数据集中。
在某些实施方案中,在一个更新轮次中,每个其他个体的添加数据包括个体的以下DNA甲基化水平:
(i)初始训练数据集或任一扩展训练数据集中包括的基因组DNA序列集的至少5%、优选50%、更优选100%的DNA甲基化水平,和/或
(ii)缩减的训练数据集中包含的基因组DNA序列的DNA甲基化水平。
特别地,所述选择方案(i)是指基因组DNA序列的起始集,特别是基因组DNA序列的预选集。通常,该基因组DNA序列的起始集很大,并且包括例如至少800000个基因组DNA序列。因此,向训练数据集中添加至少5%的起始集的甲基化水平,这提供了足够大的、可用于确定年龄指示物的训练数据集。优选地,训练数据集被限缩为这样的基因组DNA序列:包含于该集中的所有个体的该基因组DNA序列的DNA甲基化水平都存在。
因此,在优选的实施方案中,并非在所有向扩展训练数据集贡献数据的个体中均存在的所有基因组DNA序列(自变量)均被从该扩展训练数据集移除。优选地,根据所述选择方案(i)对年龄指示物的更新包括:添加初始或任何扩展训练数据集中包含的至少50%、优选100%的基因组DNA序列集,特别是在完成了几轮或多轮更新的情况下进行。
在优选的实施方案中,在一个更新轮次中,对于其他个体中的每一个,所添加的甲基化水平所属的基因组DNA序列集是相同的。这对于在一轮更新中避免过量去除基因组DNA序列特别有用。
在本文中,对年龄指示物的更新可以改变其中包括的基因组DNA序列(自变量)的集合和/或每个所述基因组DNA序列的系数。值得注意的是,所述选择方案(i)允许扩展、限制和/或更改所述基因组DNA序列的集合,而选择方案(ii)仅允许限制所述基因组DNA序列的集合。选择方案(i)和(ii)二者都允许所述系数变化。但是,选择方案(ii)的优点在于,只必需提供至少一个其他个体的缩减的基因组DNA序列集的甲基化水平。此外,所述选择方案(ii)对于进一步减小所述基因组DNA序列的集合的大小特别有用。换言之,选择方案(i)特别有用的方面在于,生成用于不同目的的不同年龄指示物(例如某些个体组的年龄指示物),或确定不同的年龄指示物以作为进一步完善的基础;选择方案(ii)对于微调和优化已经通用的年龄指示物(即用于进一步减少自变量的数量)特别有用,例如它的非个性化的现成应用(non-personalized off-the-shelf use)。选择方案(i)和(ii)二者可以进行组合,以将选择方案(i)的灵活性和选择方案(ii)的简洁性结合起来。
在某些实施方案中,一个更新轮次包括在扩展训练数据集上应用LASSO,从而确定更新的年龄指示物和/或更新的缩减的训练数据集。
在某些实施方案中,被添加了至少一个其他个体的数据的训练数据集是缩减的训练数据集,该缩减的训练数据集可以是初始的或任何更新的缩减的训练数据集。优选地,缩减的训练数据集是迭代中先前的缩减的训练数据集。
因此,通过将LASSO应用于扩展训练数据集和/或通过将至少一个其他个体的数据添加到缩减的训练数据集,可以得到更新的缩减的训练数据集。
在优选的实施方案中,一个更新轮次包括对缩减的训练数据集应用逐步回归,从而确定更新的年龄指示物。
在某些实施方案中,在一个更新轮次中,从训练数据集和/或缩减的训练数据集中移除至少一个个体的数据。
在某些实施方案中,训练数据集、缩减的训练数据集和/或添加的数据进一步包括至少一个与可与个体和/或个体的特征相关联的生活方式或风险模式有关的因素。优选地,因素选自药物消耗、环境污染物、轮班工作和压力。
在某些实施方案中,基因组DNA序列的预选和/或个体数据的添加和/或移除取决于个体的至少一个特征。在本文中,个体的特征例如为民族、性别、实足年龄、住所、出生地、至少一种疾病和/或至少一种生活方式因素。如本文所用,生活方式因素选自药物消耗、对环境污染物的暴露、轮班工作或压力。
在某些实施方案中,训练数据集和/或缩减的训练数据集被限制于其DNA甲基化水平和/或编码蛋白的活性/水平与所述特征和/或生活方式因素中的至少一个相关联的基因组DNA序列。
基于生活方式因素和/或个体的特征,在任何步骤(即在预选基因组DNA序列期间和/或更新所述数据集和/或年龄指示物期间的起始)中从训练数据集和/或缩减的训练数据集中选择数据,可允许确定特别适合用于确定具有上述特征和/或生活方式因子的某种组合的个体或某个个体组的年龄的年龄指示物。此外,应用不同的年龄指示物进行年龄确定可以有助于确定个体或个体组的某些倾向,例如压力或药物消耗的主要影响。例如,如果相对于使用针对轮班工作相关的衰老进行优化的年龄指示物,使用针对吸烟相关的衰老进行优化的年龄指示物确定的个体年龄比预期高得多,这可能表明对于个体衰老相关健康状态而言,与轮班工作相比,吸烟是一个更重要的因素。
在某些实施方案中,确定年龄指示物的质量,其中确定所述质量包括以下步骤:
(a)提供尚未向训练数据集贡献数据的多个个体的测试数据集,每个个体的测试数据集包括:
(i)所述年龄指示物中包括的基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄;和
(b)通过统计学评价和/或域边界评价确定年龄指示物的质量,
其中所述统计学评价包括:
(i)确定测试数据集中包括的个体的年龄,
(ii)将所确定的年龄与该个体的实足年龄相关联,并确定描述该相关性的至少一个统计参数,以及
(iii)判断统计参数是否指示年龄指示物具有可接受的质量,优选地,其中统计参数选自确定系数(R2)和平均绝对误差(mean absolute error,MAE),其中,R2大于0.50、优选大于0.70、优选大于0.90、优选大于0.98和/或MAE小于6年、优选小于4年、优选至多1年指示了可接受的质量,并且
其中所述域边界评价包括:
(iv)确定年龄指示物的域边界,
其中所述域边界是年龄指示物中包括的每个基因组DNA序列的最小和最大DNA甲基化水平,并且
其中该最小和最大DNA甲基化水平存在于已经用于确定年龄指示物的训练数据集中,以及
(v)确定测试数据集是否超出域边界,其中不超出域边界指示了可接受的质量。
如本文所用,测试数据集是可以用于评价已经基于训练数据集确定出的年龄指示物的数据集。通常,所述训练数据集和测试数据集具有相同的结构。特别地,测试数据集和训练数据集包括相同的基因组DNA序列集。但本质区别是,测试数据集仅包含尚未向相应的训练数据集贡献数据的个体数据。
如本文所用,对年龄指示物的评价包括统计学评价和/或域边界评价。
对于统计学评估,确定测试数据集的个体年龄并将其与所述个体的实足年龄进行比较。可以应用通常用于描述两个变量的相关性的任何统计度量或参数。优选地,统计参数选自确定系数(R2)和平均绝对误差(MAE)。优选地,R2大于0.50、优选大于0.70、优选大于0.90、优选大于0.98和/或MAE小于6年、优选小于4年、优选至多1年指示了可接受的质量。如果本文中未指定,技术人员可以基于常识评价测量结果或参数。若存在疑问,则应将其质量判断为不可接受。
如果测试数据集未完全包含在年龄指示物的域边界内,则判断该年龄指示物不具有可接受的质量。如本文所用,年龄指示物的域边界是指年龄指示物中包括的每个基因组DNA序列的最小和最大DNA甲基化水平。更具体地,所述最小和最大DNA甲基化水平存在于已经用于确定年龄指示物的训练数据集中。
测试数据集应具有合理的大小。特别是对于统计评价,它不应过小,但应包括至少10个、优选至少30个、优选至少200个个体。此外,对于域边界的确定,测试数据集也不应过大,因此包括至多1000个个体、优选至多200个个体。如果更大,则可以允许一些违背域边界的情况,例如,对于测试数据集个体的5%、优选1%。
在某些实施方案中,训练数据集和/或测试数据集包括至少10个、优选至少30个个体、优选至少200个个体。优选地,训练数据集包括至少200个个体,并且测试数据集包括至少30个个体。
值得注意的是,已被判断为质量不可接受的年龄指示物仍可用于确定个体的年龄。如本文所用,术语“可接受的质量”是指确定的最佳年龄指示物,特别是通过更新确定的最佳年龄指示物。因此,如本文所用,年龄指示物的可接受或不可接受的质量与年龄指示物的绝对质量无关,而是与其他年龄指示物(特别是与在根据本发明的方法的不同轮次更新中确定的年龄指示物)相比的相对质量有关。
在优选的实施方案中,当年龄指示物的质量不可接受时更新年龄指示物。如上述在评价年龄指示物的上下文中所解释的,将质量判断为可接受的或不可接受的。
在某些实施方案中,当数据中包括的个体的数量已达到预定值和/或自上次更新以来已经过预定时间时,不进一步更新年龄指示物。预定时间还可以指针对潜在更新轮次的质量评价的次数。
例如,如果年龄指示物已经包含了数千或者甚至数百万个个体的数据,或者使用新的测试数据集进行的最后10次或者甚至100次评价已经表明质量是可以接受的,那么不需要对年龄指示物进行进一步的优化,并且可能会停止更新。
在某些实施方案中,个体的基因组DNA序列的DNA甲基化水平是在所述个体的包含所述基因组DNA序列的生物材料样品中进行测量的。优选地,样品包含颊细胞。
适用于确定DNA甲基化水平的方法为,例如,甲基化测序、硫酸氢盐测序、PCR方法(polymerase chain reaction,PCR)、高分辨率熔解曲线分析(high resolution melting,HRM)、甲基化敏感性单核苷酸引物延伸(methylation-sensitive single-nucleotideprimer extension,MS-SnuPE)、甲基化敏感性单链构象分析、甲基敏感性酶切计数(methyl-sensitive cut counting,MSCC)、碱基特异性裂解/MALDI-TOF、结合硫酸氢盐限制性酶切分析(combined bisulfate restriction analysis,COBRA)、甲基化DNA免疫共沉淀(methylated DNA immunoprecipitation,MeDIP)、基于微阵列的方法、基于微珠阵列的方法、焦磷酸测序和/或无硫酸氢盐处理的直接测序(纳米孔道技术)。
在优选的实施方案中,个体的DNA甲基化水平用DNA甲基化阵列测量,诸如IlluminaTM DNA甲基化阵列,优选Infinium MethylationEPIC BeadChip试剂盒。当要测量非常大量的基因组DNA序列的DNA甲基化水平时,特别是对于起始和/或预选的基因组DNA序列,DNA甲基化阵列是特别合适的。
在优选的实施方案中,个体的基因组DNA序列的DNA甲基化水平是通过碱基特异性裂解/MALDI-TOF和/或PCR方法测量的,优选地,其中碱基特异性裂解/MALDI-TOF是Agena技术并且PCR方法是甲基化特异性PCR。当要测量缩减的基因组DNA序列集的DNA甲基化水平时,特别是在将数据添加到缩减的训练数据集中和/或提供待利用本发明的年龄指示物确定年龄的个体的甲基化水平时,碱基特异性裂解/MALDI-TOF和/或PCR方法特别适合。
关于DNA甲基化水平的确定的其他细节在以下本发明的其他方面和实施例中进一步解释。
在某些实施方案中,根据本发明的确定年龄指示物的方法和/或确定个体年龄的方法进一步包括获得个体的生物材料样品的步骤。生物材料可以来自个体的任何部位,但优选地,样品是无创获得的。优选地,个体不是胚胎。
在优选的实施方案中,样品由颊拭子获得。
在本文中,本发明的年龄指示物可以用作确定个体年龄的工具。因此,根据本发明的确定个体年龄的方法包括本发明的确定年龄指示物的方法的所有步骤,或者包括提供根据本发明的年龄指示物的步骤。此外,所述确定个体年龄的方法包括以下步骤:提供待确定其年龄的个体的DNA甲基化水平,所述DNA甲基化水平为该年龄指示物中包括的至少80%、优选100%的基因组DNA序列的DNA甲基化水平;并且基于所述个体的DNA甲基化水平和所述年龄指示物确定所述个体的年龄。
换言之,必须针对待确定其年龄的个体提供包含在所提供的年龄指示物中的至少80%、优选100%的基因组DNA序列的甲基化水平。可以推算出所述个体的缺失的基因组DNA序列的甲基化水平,例如通过使用所提供的甲基化水平的中值或平均值。
在某些实施方案中,个体的年龄是基于个体的DNA甲基化水平和更新的年龄指示物而确定的。特别地,当最初提供的年龄指示物的质量不可接受时,依据更新的年龄指示物确定年龄。
在优选的实施方案中,只有当个体尚未向用于或已经用于生成年龄指示物的训练数据集贡献数据时,才用该年龄指示物确定该个体的年龄。
在某些实施方案中,所述个体年龄的确定方法进一步包括:确定至少一个与个体的所确定的年龄和实足年龄的差异相关联的生活方式因素的步骤。
在优选的实施方案中,根据本发明的基因组DNA序列的集合不包括cg27320127。
在某些实施方案中,根据本发明的基因组DNA序列的集合包括以下各项中的至少1个、优选至少4个、优选至少10个、优选至少30个、优选至少70个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
优选地,所述基因组DNA序列的集合被包含在由年龄指示物确定方法获得的年龄指示物中,其中所述方法包括在LASSO之后应用逐步回归。
在本文中,基因是指编码蛋白质(编码序列;CDS)、或微小RNA或长链非编码RNA的基因组DNA序列。在本文中,编码蛋白质的基因组DNA序列也编码用于翻译所述蛋白质的mRNA。微小RNA(miRNA)是小的非编码RNA分子(包含约22个核苷酸),其在RNA沉默和基因表达的后转录调控中起作用。长链非编码RNA(长链ncRNA,lncRNA)是一种转录物,通常具有200个以上的核苷酸,这些核苷酸不会被翻译成蛋白质(但可能会被翻译成肽)。然而,大多数长链非编码RNA可能是功能性的,即在转录调控中有功能。
在优选的实施方案中,本发明的基因集不包括KCNK12。
在某些实施方案中,本发明的基因集包括以下各项中的至少一个、优选至少5个、优选至少10个、优选至少30个、优选全部:ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS以及WDFY2。
优选地,所述基因集是通过从基因组DNA序列的集合中选择编码蛋白质、或微小RNA或长链非编码RNA的那些基因组DNA序列中而获得的,其中所述基因组DNA序列的集合被包含在由年龄指示物确定方法获得的年龄指示物中,其中所述方法包括在LASSO之后应用逐步回归。
在优选的实施方案中,根据本发明的基因组DNA序列的集合包括以下各项中的至少1个、优选至少4个、优选至少10个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025。
优选地,所述基因组DNA序列的集合被包含在由年龄指示物确定方法获得的年龄指示物中,其中所述方法包括在LASSO之后应用逐步回归,并且其中所述年龄指示物中包含的每个所述基因组DNA序列的系数的绝对值都大于20。
在非常优选的实施方案中,根据本发明的基因组DNA序列的集合包括以下各项中的至少1个、优选至少4个、优选全部:cg11330075、cg00831672、cg27320127、cg10240079、cg02536625以及cg23128025。
优选地,所述基因组DNA序列的集合被包含在由年龄指示物确定方法获得的年龄指示物中,其中所述方法包括在LASSO之后应用逐步回归,并且其中所述年龄指示物中包含的每个所述基因组DNA序列的系数的绝对值都大于40。
在优选的实施方案中,包含在根据本发明的基因组DNA序列的集合中的基因组DNA序列是完整序列,而不是其片段。
在优选的实施方案中,根据本发明的基因组DNA序列的集合包含除所述基因组DNA序列的集合之外的和/或代替所述基因组DNA序列的集合的互补序列。在本文中,基因组DNA序列是指所描述的序列和/或其反向互补序列。技术人员可以容易地判断出应使用所描述的序列还是其反向互补序列。在默认情况下,并且对于大多数应用,将使用所描述的序列;但是对于某些应用,例如,在使用探针确定所述序列的甲基化水平的情况下,会针对探针使用其互补序列。
在优选的实施方案中,本发明的基因集包括以下各项中的至少1个、优选至少5个、优选至少10个、优选至少20个、优选全部:
微管相关蛋白4(MAP4)、蛋白激酶Cζ(PRKCZ)、谷氨酸离子受体AMPA型亚基4(GRIA4)、抑制致肿瘤性7(ST7)、蛋白激酶Cη(PRKCH)、钙电压门控通道亚基α1D(CACNA1D)、死亡相关蛋白(DAP)、瞬时受体电位阳离子通道亚家族V成员3(TRPV3)、弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN)、乙酰-CoA羧化酶α(ACACA)、G蛋白亚基αi1(GNAI1)、溶质载体家族1成员2(SLC1A2)、磷酸二酯酶4C(PDE4C)、ELOVL脂肪酸延伸酶2(ELOVL2)、核受体协同抑制因子2(NCOR2)、含内皮PAS结构域蛋白1(EPAS1)、G蛋白亚基γ2(GNG2)、泛酸激酶1(PANK1)、泛素特异性蛋白酶4(USP4)、G蛋白亚基αq(GNAQ)、钾电压门控通道修饰子亚家族S成员1(KCNS1)、DNA聚合酶γ2,辅助亚基(POLG2)、NADH:泛醌氧化还原酶亚基A10(NDUFA10)、松弛素家族肽受体3(RXFP3)、含类异戊二烯合酶结构域的蛋白(ISPD)、肌醇聚磷酸-5-磷酸酶A(INPP5A)、去乙酰化酶7(SIRT7)、鸟嘌呤单磷酸合酶(GMPS)、SIN3-HDAC复合体相关因子(SINHCAF)、含tudor结构域的蛋白1(TDRD1)。
优选地,所述基因集是通过在编码蛋白质的基因上进一步过滤本发明的基因集而获得的,所述蛋白质的水平和/或活性可以通过可用的测定进行确定。换言之,所述基因集被进一步富集以用于候选药物靶标。
一般而言,根据本发明的确定年龄指示物的方法和根据本发明的基因组DNA序列的集合紧密地联系在一起,并且基于共同的发明构思。因此,本文中根据本发明的基因组DNA序列的集合的描述和定义可以用于进一步限定本发明的年龄指示物和/或缩减的训练数据集,年龄指示物和缩减的训练数据集二者均包括基因组DNA序列的集合。此外,所述年龄指示物和/或缩减的训练数据集可以用于进一步限定确定年龄指示物的方法和/或确定个体年龄的方法。类似地,优选通过根据本发明的确定年龄指示物的方法,获得可以包含在本发明的年龄指示物中的根据本发明的基因组DNA序列的集合。而且,这也适用于本发明的基因集,该基因集优选选自根据本发明的基因组DNA序列的集合。
在另一些优选的方面中,本发明涉及由根据本发明的年龄指示物确定方法获得的年龄指示物,和/或由所述方法获得的所述年龄指示物中包含的基因组DNA序列的集合。
在另一些优选的方面中,本发明涉及如本文的实施例中所述的年龄指示物。
关于实施例中所述的年龄指示物、由年龄指示物确定方法获得的年龄指示物和/或其中包含的基因组DNA序列的集合的用途,其与本文所述的根据本发明的基因组DNA序列的集合和/或基因集的用途相同,特别是与用于诊断个体的健康状态和/或体质状况的方法中和/或用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法中的用途相同。
在另一些优选的方面中,本发明涉及一种诊断个体健康状态和/或体质状况的方法,其包括提供根据本发明的基因组DNA序列的集合或根据本发明的基因集的步骤。
在本文中优选地,健康状态包括至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,其中所述状态指示疾病或与疾病相关的表型是否存在、或其所处阶段。因此,如本文所用,健康状态优选与衰老有关。
在本文中,与衰老相关疾病相关联的表型优选是指衰老相关疾病的至少一种症状。此外,衰老相关疾病或癌症或与其相关联的表型通常处在在某些发展阶段。因此,在本文中,衰老相关疾病或癌症或与其相关的表型可能不存在或存在,或处于某个阶段。
在优选的实施方案中,衰老相关疾病为阿尔茨海默氏病、帕金森氏病、动脉粥样硬化、心血管疾病、癌症、关节炎、白内障、骨质疏松症、2型糖尿病、高血压、与年龄有关的黄斑变性和/或良性前列腺增生。
在本文中优选地,体质状况包括血压、体重、免疫细胞水平、炎症水平和/或个体的认知功能。
在本文中优选地,个体的健康状态和/或体质状况与其生物学年龄有关。而且,与个体的实足年龄相比,根据本发明确定的个体年龄更好地描述了所述生物学年龄和/或所述健康状态和/或体质状况。
特别地,诊断个体的健康状态和/或体质状况与诊断一种特定疾病和/或健康/体质参数是互补的。首先,诊断健康状态和/或体质状况状态可以提供对个体的整体或综合的观点。例如,在诊断为负面的情况下,这可能对该个体改变了他的生活方式和/或他的环境进行了指示。而且,诊断健康状态和/或体质状况,对于评价个体的某种医学治疗或生活方式或环境的改变是否改善了个体的整体健康状态和/或体质状况特别有用。显然,个体的整体健康状态和/或体质状况,特别是与衰老有关时的整体健康状态和/或体质状况,是所述个体的幸福感的关键因素。换言之,根据本发明的健康状态和/或体质状况的诊断方法不仅测定了个体的疾病状态,还可以在生物学上诊断出个体是年轻还是年老。
在某些实施方案中,诊断个体的健康状态和/或体质状况的方法进一步包括确定所述个体的包含所述基因组DNA序列的生物样品中的基因组DNA序列的甲基化水平的步骤。
关于确定基因组DNA序列的甲基化水平和生物样品的步骤,其与上文在本发明的确定年龄指示物的方法和/或确定个体年龄的方法的上下文中已经描述的内容相同。
根据本发明的个体的健康状态和/或体质状况的诊断方法包括所述方法的医学应用和/或非医学应用。
在另一些优选的方面中,本发明涉及一种用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法,该方法包括提供根据本发明的基因组DNA序列的集合或本发明的基因集的步骤。优选地,当给予至个体时,该分子改善、预防和/或逆转至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症,优选地,所述筛选方法是体外方法。
关于衰老相关疾病和与其相关的表型,其与上文在个体的健康状态和/或保健状态的诊断方法的上下文中已经描述的内容相同。此外,预防衰老相关疾病和/或与其相关的表型涉及保持疾病不存在;改善涉及延缓疾病各个阶段的进展、维持疾病的阶段和/或使疾病消退到较早阶段;逆转涉及使疾病消退到较早阶段,优选涉及消退到不存在疾病和/或与其相关的表型。
在本文中,癌症是优选的衰老相关疾病。
在某些实施方案中,本发明的筛选方法进一步包括确定基因组DNA序列的集合中包括的至少一种基因组DNA序列和/或基因集中包括的至少一种基因的DNA甲基化水平的步骤。
在优选的实施方案中,当给予至个体时,所鉴定的分子提高和/或降低个体中至少一个所述基因组DNA序列或基因的DNA甲基化水平。优选地,DNA甲基化水平被改变,使得其与比改变之前更年轻的实足年龄相关联。
因此,根据本发明的基因组DNA序列的集合或基因集可用于筛选分子,即候选药物,该分子通过一种方式改变所述序列或基因的甲基化水平,使其与比改变之前更年轻的实足年龄相关联。例如,当基因组DNA序列的甲基化水平随实足年龄的增长而增加时,药物应降低所述基因组DNA序列的甲基化水平。类似地,当基因组DNA序列的甲基化水平随实足年龄的增长而降低时,药物应提高所述基因组DNA序列的甲基化水平。
在某些实施方案中,在已提供了本发明的基因集的情况下,本发明的筛选方法进一步包括确定由该基因集编码的至少一种蛋白质的活性的步骤。优选地,所述基因集仅包括编码蛋白质的基因。
在优选的实施方案中,所鉴定的分子抑制和/或增强由基因集编码的至少一种蛋白质的活性。优选地,蛋白质的活性被改变,使得其与比改变之前更年轻的实足年龄相关联。例如,当由基因组DNA序列编码的蛋白质的蛋白活性随实足年龄的增长而增加时,药物应降低/抑制所述蛋白质的活性。类似地,当由基因组DNA序列编码的蛋白质的蛋白活性随实足年龄的增长而降低时,药物应增加/增强所述蛋白质的活性。
如本文所用,蛋白质的活性还涵盖所述蛋白质的水平,特别是所述蛋白质的活性形式的水平。
在另一些优选的方面中,本发明涉及一种芯片,该芯片包含作为斑点的根据本发明的基因组DNA序列的集合,或本发明的基因集,其中每个序列包含在单独的斑点中。优选地,芯片是微阵列芯片。
在另一些优选的方面中,本发明涉及一种试剂盒,其包括:
(a)至少一个独特引物对,其中在每个引物对中,一个引物是与根据本发明的基因组DNA序列的集合中包括的一个基因组DNA序列的反向链结合、或是与本发明的基因集中包括的一个基因的反向链结合的正向引物,并且另一个引物是与该一个基因组DNA序列的正向链结合、或是与该一个基因的正向链结合的反向引物;并且,其中与正向引物和反向引物的3’端互补的两个核苷酸相距多于30个且少于3000个、优选少于1000个核苷酸;
(b)至少一个探针,其与根据本发明的基因组DNA序列的集合中包括的一个基因组DNA序列互补,或与本发明的基因集中包括的一个基因互补;和/或
(c)根据本发明的芯片。
优选地,所述引物对用于聚合酶链反应(PCR)。所述引物可以具有或不具有DNA甲基化特异性。优选地,所述引物用于甲基化特异性PCR方法。DNA甲基化水平可以通过测定扩增的PCR产物进行确定,例如通过测序或通过比较采用与甲基化或未甲基化序列结合的引物所进行的不同PCR所得到的产物的数量。优选地,所述探针用于杂交方法,例如原位杂交方法或微阵列方法。
在某些实施方案中,引物或探针与甲基化或未甲基化的DNA特异性结合,其中未甲基化的胞嘧啶已被转化为尿嘧啶。
在本文中,未甲基化的胞嘧啶向尿嘧啶的转化优选通过亚硫酸氢盐处理完成。
在某些实施方案中,所述试剂盒进一步包括用于生物材料和/或颊拭子材料的容器。
在某些实施方案中,所述试剂盒进一步包括用于从生物样品中提取、纯化和/或扩增基因组DNA的材料,其中所述材料是离心柱和/或酶。
在某些实施方案中,试剂盒进一步包含亚硫酸氢盐。
在另一些优选的方面中,本发明涉及本发明的芯片和/或本发明的试剂盒用于确定根据本发明的基因组DNA序列的集合中包括的至少一个基因组DNA序列和/或本发明的基因集中包括的一个基因的DNA甲基化水平的用途。
在另一些优选的方面中,本发明涉及本发明的芯片和/或本发明的试剂盒用于诊断个体的健康状态和/或体质状况的用途。
在另一些优选的方面中,本发明涉及本发明的芯片和/或本发明的试剂盒在用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法中的用途。
关于个体的健康状态和/或体质状况的诊断以及用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法,其与上文在个体的健康状态和/或体质状况的诊断方法以及用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法的上下文中已经描述的内容相同。
在另一些优选的方面中,本发明涉及一种包括本发明的年龄指示物的数据载体、根据本发明的基因组DNA序列的集合、和/或本发明的基因集。
在某些实施方案中,本发明的试剂盒和/或数据载体进一步包括针对待确定其年龄的个体的问卷,其中所述问卷可以为空白的或包含关于该个体的信息。
本发明进一步涉及以下其他方面和实施方案。
在另一方面中,本发明涉及一种基于在个体中发现的基因组DNA序列的甲基化水平的个体年龄确定方法,该方法包括以下步骤:从具有可与个体年龄相关联的甲基化水平的基因组DNA序列中预选出基因组DNA序列集;针对多个个体确定所述预选的基因组DNA序列的甲基化水平;从预选的集中选择基因组DNA序列的集合,从而使所述集合中的基因组DNA序列的数量小于所述预选的集中的所述基因组DNA序列的数量,其中可以基于所述集合中的序列的甲基化水平计算所述多个个体的年龄,并且对计算出的年龄的统计学评价指示计算出的年龄的质量是可接受的;确定来自个体的生物材料样品中的所述集合中的序列的甲基化水平;基于所述集合中的序列的甲基化水平计算个体的年龄;确定计算出的年龄的质量的量度;判断所确定的质量是否可接受;如果判断所述质量是可接受的,输出计算出的个体年龄;鉴于判断重新为集合选择基因组DNA序列;以及根据判断,修改个体组以包括所述个体;基于所确定的被修改的组的个体的甲基化水平,从预选的子集中重新选择基因组DNA序列的集合。
在一些实施方案中,最初使用从具有可与个体年龄相关联的甲基化水平的大量基因组DNA序列中选择的基因组DNA序列的集合;通常,集合中的基因组DNA序列的数量小于其所来自的集合中的序列数量;然后,获得集合的基因组DNA序列的甲基化水平,并由此确定年龄。在一系列确定年龄的过程中,会基于在该一系列确定期间产生或获得的附加信息,特别是基于另外确定的甲基化水平,反复改变集合的组成和/或基于针对集合的基因组DNA序列获得的甲基化水平确定年龄的方式。请注意,在本发明的一些实施方案中,年龄的确定将基于对来自多个个体的特定基因组DNA序列(或CpG基因座)的甲基化水平的评价进行,其中所述多个个体包括该待确定其年龄的个体,尽管并非必须如此。
令人惊讶的是,已经发现通过这种方式,可以实现与现有技术相比的显著改进。
一般而言,这种对于集合和/或对于基于针对当前所考虑的集合的基因组DNA序列所获得的相应甲基化水平而确定年龄的(最佳)方式的调整,可以利用任何已知甲基化水平并且优选实足年龄的其他个体来进行改变。有时,可能不是对每一个体都这样做,而是仅对其中一些个体才这样做。
所述调整仅在已经确定了多于一个的多个另外个体(诸如5、8、10、20、50或100个个体)的基因组DNA序列的甲基化水平之后才能进行。这将对以下情况特别有利:将某些基因组DNA序列选入集合和/或基于某些基因组DNA序列的甲基化水平确定最佳年龄确定方式所进行的统计学评价工作需要的工作量非常大的情况。
因此,没有必要仅对集合的组成和/或基于甲基化水平的最佳年龄确定方法进行重新迭代,以免测量到离群点。
相反,存在这样的可能:仅因为(统计)量度指示出多个参考个体的规模小于某个数量(例如小于已确定其甲基化水平和/或已确定所选基因组DNA序列的甲基化水平且已知实足年龄的所有个体的总数),就根据该(统计)量度判断质量是不可接受的。
在确定特定个体的年龄之前,可以首先对集合的组成和/或基于针对基因组DNA序列获得的甲基化水平的最佳年龄确定方式进行重新迭代;和/或可以首先计算出另外的个人的年龄,然后对集合和/或最佳方式进行重复迭代。
在本文中,“个人(individuum)”和“个体”可互换使用。
如果要在输出个体的年龄后实现集合的组成和/或基于相应的甲基化水平获得年龄的最佳方式,可以将甲基化水平与有关个体的附加信息,诸如其实足年龄(如果已知),一起存储,以便稍后可以在统计(重新)评价中使用存储的信息。因此,有可能在对集合和/或最佳方式进行重复迭代之前,针对多个另外的个体收集这种甲基化水平信息。
根据上文明显可见的是,本发明基本上在一个实施方案中提出了对未知年龄确定过程的改进,这种改进是基于产生该待确定的未知结果的测量的统计学评价而实现的。令人惊讶的是,这本身并不矛盾,因为通过将这样的信息包含在参考组中,可以从整体上改进方法的可靠性。因此,已经发现可以很容易地实现一种自学习方法。
平均而言,对于较大的个体组而言,通过该方法确定的年龄应对应于其实足年龄的平均值。请注意,所确定的年龄将为生物学年龄或者至少更接近生物学年龄,该生物学年龄可能与实足年龄不同并且通常仅在其相与实足年龄有可比性时才有用,因为之后,其可以用于确定特定个体的衰老是否快于平均值。
因此,根据可用的最佳信息确定出的年龄相对于实足年龄的任何偏差都是很重要的。可以对该方法进行总结或重述,使其与在已知的生物学年龄和实足年龄之间确立年龄差异的方法相关,或评估通过不同的测量和/或方法获得的生物学年龄之间的差异。
已经发现,可用于这种比较的最佳信息的使用通常将包括可用个体的最大数量,而不是预定的固定数量。总体而言,如果集合和/或基于针对基因组序列获得的甲基化水平的最佳年龄确定方式发生变化,将会更改通过从一个个体获得的同一样本确定的年龄。
由于这样的变化,总精确度和/或变异度会受到影响,但本发明因此为总精确度和/或变异度提供了改善方法。
请注意,通过用避免甲基化水平改变的方式存储样本,若测量结果充分去噪并且重新迭代所带来的变化足够大,则可以容易地检测出所确定的年龄的变化。因此,已经发现,能够容易地检测到本发明自学习方法的频繁实施。
在一般方法中,没有必要从全部2800万个已知其甲基化水平可与个体的年龄或不利健康状况相关联的基因组DNA序列中主动预选出小于该已知的约2800万个位点的基因组DNA序列集。相反,只要所选的方法仅对有限数量的已知位点进行了评估,则应认为已经完成了这种主动预选。
可以通过以下方式进行预选:选择特定的甲基化水平确定方法,诸如由IlluminaTM所提供的方法,和/或,选择具有有限数量的斑点集的DNA芯片,其中每个斑点能够用于确定仅一个或一些、而非全部的个体中存在且其甲基化水平可与年龄相关联的基因组DNA序列。因此,使用特定检测方法的判定是隐式预选。
同样,只要对以这种方式获得的数据进行了评估(即,对来自少于作为集合和/或预选集的基础的所有约2800万个位点的位点的数据进行了评估),则可认为已经进行了预选。
通常,预选集将显著小于2800万个不同的基因组DNA序列。特别地,尽管商业上可用的方法允许确定800,000(800000)个或更多个不同的基因组DNA序列的甲基化水平,但应理解,使用芯片的方法允许使用特定位点或“斑点”的集合确定非常有限数量的不同基因组DNA序列的甲基化水平,因此使用该方法确定个体的年龄更加便宜。
例如,在某些方法中,可以使用允许确定仅一个或几千个不同基因组DNA序列,优选甚至更少、特别是不超过1000个CpG基因座、优选500个不同基因组DNA序列或CpG基因座、优选少于200个不同基因组DNA序列或CpG基因座、优选不超过150个不同基因组DNA序列或CpG基因座的甲基化水平的芯片。
可以仅确定构成集合的一部分的那些基因组DNA序列的甲基化水平。在这种情况下,在重复迭代期间,集合的组成可能仅在以下方面更改:重复迭代之后不再考虑先前已考虑的某些基因组DNA序列,和/或基于针对集合本身的基因组序列获得的甲基化水平的最佳年龄确定方式已被更改,例如,在从由集合的基因组DNA序列得到的甲基化水平与个体的实足年龄之间多元(线性)相关性得到的回归系数被改变的情况下。而且,将有可能在重复迭代之前进行其他序列的甲基化水平的确定。
可以在每次确定个体的甲基化水平的过程中,包含比当前构成集合的一部分的那些基因组DNA序列(或CpG基因座)更多的(一些)基因组DNA序列(或CpG基因座),例如,大约或至少10个、或者大约或至少20个、或者大约或至少50个额外序列或CpG基因座。
尽管如此,具有可与个体年龄相关联且针对每个个体或一些个体而确定出的甲基化水平并且不构成当前集合部分的基因组DNA序列的数量通常将会非常小。例如,可以针对不超过5倍的当前构成集合部分的基因组DNA序列数量,确定当前不构成集合部分的基因组DNA序列的甲基化水平。因此,例如,在集合包括100个不同的基因组DNA序列的情况下,不同基因组序列的总数通常将小于500。通常,另外的基因组DNA序列或CpG基因座的数量甚至更少。
在一些实施方案中,可确定甲基化水平可与年龄相关的另外的基因组DNA序列,然而,不构成由其确定年龄的基因组DNA序列的集合的一部分的各个基因组DNA序列为少于400个、优选少于300个、特别是少于100个并且特别是少于60、50或40个CpG基因座。另外和/或替选地,不构成集合的一部分的基因组DNA序列与集合中的基因组DNA序列的比值优选小于5、优选小于4、优选小于3、优选小于2。应当注意,对于当前不构成集合的一部分、但仅在其可能有助于重复迭代的情况下用于提供附加甲基化水平的那些另外的序列,通常也会进行仔细选择。这可以在预选中完成。
例如,可以将CpG基因座选择到甲基化水平与这样的CpG基因座的甲基化水平高度相关的集中,尽管该CpG也被选择到集合中,但其具有极低的总体甲基化水平或较高的方差。而且,也可以将已知指示特定的不良生活方式的CpG基因座包括在内,即使这些基因座在统计多元分析中不是主要的。此外,可以另外选择与初始参考组的子集相关的CpG基因座。
从上文将明显可见的是,整个集和/或集合的确切数量将取决于可负担的测量方法(诸如足够便宜的芯片)的可用性。而且,数据处理成本可能非常高昂。可优选使用适于确定基因组DNA序列的甲基化水平的具有不超过1000、500、200个斑点的芯片,每个斑点被调适用于确定不同CpG基因座的甲基化水平。
特别优选的是,所述芯片包括至少1个斑点、优选至少10个、特别是至少20、30、40、50、60、70、80、90或100个,并且特别是全部斑点,以允许确定以下基因组DNA序列或CpG基因座中的一个或多个、特别是至少20、30、40、50、60、70、80、90或100个,并且特别是全部的甲基化水平:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545。
特别地,每个所述基因组DNA序列或CpG基因座都被包含在所述芯片的单独斑点中。换言之,所述芯片的一个斑点是由所述基因组DNA序列或CpG基因座中的一个定义的。将明显可见的是,当使用芯片测量甲基化水平时,至少参考多个这些CpG基因座是有用的。特别地,至少10个、优选至少20个、优选至少50个并且特别优选全部的CG基因座将构成甲基化水平可与个人年龄相关联的基因组DNA序列的预选集的一部分,因此可以容易地获得包含上述所有CG基因座的、或者在一个优选的实施方案中至少包含大量或部分上述CG基因座的基因组DNA序列的集合。在本发明的优选实施方案中,所述芯片可以用于确定基因组DNA序列集的DNA甲基化水平,特别是包括在根据本发明的缩减的训练数据集中的基因组DNA序列的DNA甲基化水平。
在某些情况下,CpG基因座将另外包含cg27320127,该CpG基因座特别是从WO2012/162139中获知的。使用IlluminaTM甲基化探针ID可以鉴定出以上CpG。
在某些实施方案中,芯片将包括允许确定以下基因组DNA序列的甲基化水平的总数较少的斑点,特别是少于1600个斑点、特别是少于800个斑点、特别是少于400个斑点、优选少于200个斑点。
应当注意,当定义其甲基化水平可与个人的年龄相关联的基因组DNA序列集时,所述集与甲基化水平可与个人年龄相关联的人类基因组DNA序列的整体不同,因为所述集可以包括在本领域中已知甲基化水平可与个人年龄相关联的本领域认为已知的CpG基因座(例如WO2012/162139A1中列出的那些基因座)中的一些或者全部。但是,认为至少10个、优选20个、特别优选50、100个,并且特别是所有上文列出的被认为是比本领域已知的更新颖的CpG基因座,可以构成以下基因组DNA序列的预选集的一部分:甲基化水平可与个人的年龄相关联,并且特别地包括不超过5000个、特别地不超过2000个、特别地不超过1000个、特别地不超过250个基因组DNA序列或CpG基因座,和/或构成了预选集中占基因组DNA序列总数的至少10%、优选至少10%、特别优选其至少15%、20%、25%、33%、50%、66%、75%、80%、100%的一部分。因此,在优选的情况下,本文中列出和新公开的相关的CpG基因座将构成集合的重要部分。
应当注意,所选集合所来自的集中的CG基因座的总数将取决于易于测量的不同基因座的数量,并且是根据相应地最先进的技术并且以成本有效的方式。例如,具有在测量过程中与包含各个CpG基因座的DNA片段结合的寡核苷酸的DNA芯片的价格随不同位点的数量而发生大幅变化,从具有1000个或更多位点的芯片到具有500、384、192或96个位点的不同芯片,成本明显下降。
应当注意,不受任何形式的限制,96或384的数量是指当前实验室程序中经常使用的数量。已经指出,一旦已决定不使用人类已知的所有CpG基因座,而是仅使用那些可易于获得的CpG基因座,通常即可认为已完成预选的步骤。因此,这样的预选步骤可以通过参考仅包括相应少量的甲基化水平的数据集来完成。
而且,还应注意,可以通过参考已经对样品进行的测量来实现在来自个体的生物材料的样品中确定集合中序列的甲基化水平。因此,可以通过打开相应的数据文件来实现对某些序列的甲基化水平的确定。从预选集中以特定方式选择基因组DNA序列的集合也是如此。在已参考了包含通过先前对个体的参考数据进行分析而确定的该种集合的数据基础的情况下,应认为已完成这种选择。
关于年龄的计算,应当注意,最常见的是,所述集和/或多个中的基因组DNA序列的数量相当大,例如由于其包含多于5个、特别是多于10个、特别是至少50个不同的基因组DNA序列。而且,组中的个体数量也相当大,所述组优选包括至少10个、优选至少50个、特别是至少100个、特别是至少200个、并且在优选的实施方案中,至少1000个个体。因此,通常需要数学分析,特别是统计分析,以便基于所确定的甲基化水平确定计算个体年龄的最佳方式。应该注意,这种计算的“最佳”方式可能不是绝对的最佳方式,而是可以指的是一些非常好的方式。换言之,若一种确定方法计算特别简单和/或因为其已经使用了统计函数的局部极值而非绝对极值,则该确定方法也可以说成是“最佳”方式。
从上文可以明显看出,基于集合的序列的甲基化水平计算个体年龄通常以下列方式完成:基于也使用来自多元回归特别是来自多元线性回归的回归系数,使用与甲基化水平相关的值(诸如百分比)计算年龄。可以以不同的方式实现对量度(诸如统计量度)的计算。例如,可以确定序列本身的甲基化水平是否应被认为是可靠的。在甲基化水平极低的情况下,可能不建议使用相应的序列和/或甲基化水平,因为例如可能已经出现了确定误差(例如,由甲基化水平测量中的噪声所致),因此与其他甲基化水平相比,应忽略该测量值或使用较低的权重对该测量值进行加权。而且,在甲基化水平特别高或特别低的情况下,初始计算时的假设,例如多元线性回归假定甲基化水平与年龄线性相关,将不再适用。
应当注意,一般来说,虽然甲基化水平与个体年龄线性相关的假设很有用,但在观察到极高或极低的甲基化水平的情况下或在个体的实足年龄比参考组中个体的平均年龄显著小或大的情况下不需要该假设。在确定如何能够基于在参考集合中发现的序列的甲基化水平而以最佳方式计算个体年龄之前,通过对某些个体进行分组来确定更显著的线性相关可能会非常有用。例如,可能建议区分男性和女性个体、儿童、青少年、年轻人、中年人和老年人。而且,可能会有用的区分包含:例如区分吸烟者和不吸烟者、具有特定的不同营养习惯的人(例如经常吃得很油腻或不油腻、经常吃鱼与经常吃红肉、经常和/或定期饮酒或特定酒精类(例如酒精饮料,如啤酒或葡萄酒))、定期运动或不运动的人、在暴露于污染物或危险物质(例如放射性物质和/或某些化学物质)的恶劣环境中工作的人。
因此,计算所计算年龄的质量的统计量度时,可以考虑已知的实足年龄偏离计算出的生物学年龄的程度是否显著大于针对参考集获得的整体偏差,和/或是否大于已经测量了集合的序列的甲基化水平的多个另外的个体。如果显著性至少为2σ、3σ、4σ、5σ或6σ,可以认为差异是显著较大的。
而且,质量的统计量度可以通过确定个体参考集是否足够大进行估算。例如,在斯皮尔曼相关小于0.85、优选小于0.90、优选小于0.91且优选为0.92且均方差(MAE)大于6年、优选大于5年、特别是大于4年情况下进行回归时,情况并非如此。将理解的是,还可以针对计算出的每个单独的年龄来估算置信区间,并且统计量度的计算可以包括确定计算出的年龄的置信区间。但是,例如通过确定潜在的参考组是否足够大,也可以更容易地计算出所计算年龄的质量的统计量度。如果这个组被认为过小,则可以确定质量不够高。如果参考组中总体个体数量过少,和/或如果分别相对于基因组DNA序列的预选集中或所选集合中的基因组DNA序列或CpG基因座的数量,参考组中的个体数量过少,则正是这种情况。
在确定最佳估算方式和计算年龄时,如果没有参考所有的已确定其甲基化水平的个体、或所有的具有特定属性(诸如吸烟者或女性等等)的个体,还可以判定所计算出的年龄的质量不会足够高。在这种情况下,(统计)量度将是参考组中成员的数量,相对于甲基化水平可以使用且其他信息可用(如果适用)的个体的数量。
通过确定即使在计算个体年龄之前,新数据还尚未被输入到参考组中,即可完成这种差异的计算。然后,应当注意,虽然是在将个体质量判断为可接受的情况下至少输出了个体的年龄,但是即使在计算的质量被认为是可疑或不充分的情况下,也可以输出该年龄。例如,无论如何,输出个体的年龄可能还是有益的,因为这允许操作员检查是否可以检测到任何特定问题,该问题轻松解释了为何将计算出的年龄的质量认为是低于标准的。例如,可能是因为个体分组错误,导致使用了针对年轻男性重度吸烟者(然而这是一名不吸烟的老年女性)获得的基因组DNA序列的集合和回归系数来确定年龄。在一些实施方案中,基于所述集定义了CpG基因座的多个集合,并且这些集合中的一个是基于特定的信息选择的,这些信息源自被分析的CpG基因座的一个或多个特定甲基化水平的特定信息和/或独立于其提供的附加信息。预选集中的某些CpG基因座可以被选择,从而可选出特定的集合。这种从多个集合中提供和/或选择特定集合的过程本身应被认为具有创造性。而且,可以输出计算出的年龄以及向个体进行解释说明,并因为未达到标准或保证的质量而提供退款。
而且,可能的是,一旦已经完成了对所述集合的重复迭代和/或得到了基于序列的甲基化水平获得年龄的最佳方式,则可重新计算年龄,然后再输出以修改的方式计算出的个体年龄。
通常通过包含一个或多个已经另外确定其个体甲基化水平的个体,从而完成对个体组的修改。但是,也有可能通过拆分组等方式交换个体或修改个体组。例如,可能会出现这样的情况:即最初的个体组非常小,因此不建议在吸烟者与不吸烟者之间、男女之间、老幼之间、饮酒者与不饮酒者之间进行区分,或者这种区分是不可行或不合理的。然后,在一段时间后大量测量将已经进行完毕,在一些情况下,将已确定其他属性(诸如,个体是否为吸烟者),因此,随后,可以通过基于其特性添加一个或一些个体,并且根据这些特性拆分组来对组进行修改。
应当注意,在许多生物体中,甲基化水平将以与生物体的年龄有关的方式发生变化。但是,通常将使用年龄确定方法确定哺乳动物的年龄,特别是灵长类动物、特别是人类的年龄。并且,例如对于买卖特别昂贵的动物而言,至少粗略地估算年龄可能还是有益的。
在优选实施方案中,所述个体是人。当然,这也将适用于参考组的个体。上文已经表明,上文列出的诸多步骤将需要大量的计算。因此,以计算机执行的自动化方式实施这些步骤是至关重要的。应当注意,对于在集或集合中考虑至少20种不同的基因组DNA序列的情况,以及至少有20个、优选100个个体构成参考组的情况,在没有计算机实现的情况下进行的计算特别容易出错,因此必须将整个结果视为完全无用和不可靠。而且,鉴于人类完成计算的成本,这样的计算既无法负担得起,其等待结果的时间也无法被任何个体接受。因此,由计算机执行至少一个并且优选所有的计算和评价步骤被认为是至关重要的。
关于确定个体中存在的基因组DNA序列的甲基化水平所依据的方式,请参考本领域本身已知的以下方法:甲基化测序/硫酸氢盐测序;PCR方法,特别是甲基化特异性PCR(MSP)、实时甲基化特异性PCR、定量甲基化特异性PCR(quantitative methylationspecific PCR,QMSP)、COLD-PCR、使用甲基化DNA特异性结合蛋白的PCR、靶向多重PCR、实时PCR和基于微阵列的PCR中的至少一种;高分辨率熔解曲线分析(HRM);甲基化敏感性单核苷酸引物延伸(MS-SnuPE);甲基化敏感性单链构象分析;甲基敏感性酶切计数(MSCC);碱基特异性裂解/MALDI-TOF(例如Agena);结合硫酸氢盐限制性酶切分析(COBRA);甲基化DNA免疫共沉淀(MeDIP);基于微阵列的方法;基于磁珠阵列的方法;焦磷酸测序;无硫酸氢盐处理的直接测序(纳米孔道技术)。
发明人预期,通过使用未来的技术或迄今为止已知但很少应用或不被市场认可的技术,另一些确定甲基化水平的方法变得可用。因此,所给出的方法列表不是排他性的。而且,可以使用不同的方法确定不同CpG的甲基化水平。并且,可以使用不同的方法确定甲基化水平,以进行预选和选择。
在以可用于本发明的方式检测甲基化水平的那些方法中,目前特别优选以下方法:甲基化测序/硫酸氢盐测序、甲基化特异性PCR(MSP)、实时甲基化特异性PCR、定量甲基化特异性PCR(QMSP)、COLD-PCR、碱基特异性裂解/MALDI-TOF(例如Agena)、基于微阵列的方法、基于微珠阵列的方法、焦磷酸测序。
在一些实施方案中,首先确定其甲基化水平的个体组要足够大,从而使得由此获得的计算出的年龄即使在自我学习仍引起大量过程的情况下也能保持稳定。换言之,虽然通过重复迭代集合的选择和/或获得结果的最佳方式对过程进行的初始训练应涉及至少50个体,以便具有足够稳定的值供初始参考,但通常优选在开始实际测量之前,在参考组中使用更大的数量,诸如100或200个个体。如上所述,在可以额外考虑足够多的另外的个体或将其添加到参考组之后,可以推迟重复迭代该集合的组成以及由其计算年龄的所有最佳方式。
在一些实施方案中,可以使预选集中的基因组DNA序列的数目相当小,同时仍然允许以有益的方式修改集合。
在一些实施方案中,预选集一方面将包括至少90个CpG基因座、优选至少100个CpG基因座、特别优选至少140个CpG基因座、特别是至少150个CpG基因座。
应当注意,在要检查广泛类别的个体的情况下,建议在预选集中使用较大量的CpG基因座,而在明确指定且良好定义的组中测量甲基化水平可能依赖于在预选集中较少数量的CpG基因座,有时甚至需要90个CpG基因座或更少。另一方面,由于各种原因,预选集不应过量。首先,如果检查更多的CpG基因座的甲基化水平,那么CpG基因座的甲基化水平的确定过程将会成本更高并且更加复杂。
因此,依赖大量CpG基因座的方法成本高昂,而减少集合或预选集中的CpG基因座的数量确实会显著降低成本。而且,如果需要考虑较少的CpG基因座,则可以大大简化数据处理。这对于在集合中重复迭代CpG基因座以及对于处理针对这些基因座获得的甲基化的最佳方式而言都是如此。应当注意,一般来说,对重复迭代集合和最佳方式的具体细节进行扩展所涉及的计算应被认为会以高度非线性的方式随所考虑的基因组DNA序列数量而增加。因此,从数据分析的角度来看,缩减所考虑的CpG基因座的数量也是优选的。但是,即使在预选集合中仅考虑了350、170、150甚至100个CpG基因座的情况下,如果不采用计算机实现,在不使系统超定的情况下,用来确定最重要的CpG基因座甲基化水平的多元分析(诸如多线性回归、主成分分析、偏最小二乘分析等)的总体计算工作量在任何速率下都将是无法处理的。
认为有必要以电子、自动化方式提供确定的甲基化水平,例如为甲基化水平建立电子记录或文件,从而在处理数据甚至是在确定甲基化水平后没有立即进行这种数据处理时使用该电子记录或文件;在用于从样品获得甲基化水平的最后阶段与用于数据分析的阶段之间不使用计算机接口进行数据传输,将会引入必将被视为不可接受的误差来源。
因此,应当注意,该方法通常是具有计算机实现步骤的计算机实现的方法,并且必须使用计算机执行至少某些步骤。
在一些实施方案中,所选集合将具有相当小的CpG基因座数量,特别是包括少于150个CpG基因座、特别是少于110个CpG基因座、特别是少于100个CpG基因座、特别是少于90个CpG基因座、特别是少于80个CpG基因座、并且特别是少于70个CpG基因座。已经发现,所考虑的这种数量相对较少的CpG基因座仍然允许计入许多不同的影响因素,例如来自生活方式的影响,如由食物、叶酸和维生素的摄入(诸如维生素B12的摄入)、多酚和硒的摄入、肥胖和/或体育活动、香烟烟雾、饮酒、诸如砷之类的环境污染物和空气污染、芳烃和其他有机污染物、心理压力、轮班工作等带来的影响。在这一方面,参考以下论文:“Alegria-Torres等人,Epigenomics,2011年6月;3(3):267-277”。这些作者已经表明,生活方式在许多因素上对表观遗传学有着重大影响,而DNA甲基化则受生活方式的影响。
另一方面,虽然在集合中考虑数量相对较少的CpG基因座即可,但是该集合不应过小。否则,会存在以下风险:年龄或实足年龄与确定的年龄之间的偏差会受到测量误差、参考组中数据库不足等的影响。因此,在一些实施方案中,建议在集合中包括至少30个CpG基因座、优选至少50个CpG基因座、并且特别是至少60个CpG基因座。
应当指出,在对根据集合的可见CpG基因座的甲基化水平确定数据的最佳方式进行一次或多次重复迭代后,上述适用于集合的数量才是有效的。
在一些实施方案中,当重复迭代集合时,重复迭代后的集合中的成员数量可能与重复迭代前的集合中的成员数量不同。
但是,在一些实施方案中,通过这种重复迭代,集合中的CpG基因座的数量可以任选地发生变化,即,仅用集合中的一个或多个CpG基因座替换集合中的一个或多个CpG基因座是不被禁止的。
如上文所指出的,由集合的CpG位点的甲基化水平确定年龄的最佳方式,通常可能取决于通过由组中个体的甲基化水平相对于已知实足年龄而进行的多元回归(优选:多元线性回归)而获得的系数。在一些实施方案中,通过在给定CpG基因座的最小甲基化0%与给定CpG基因座的100%之间变化的数值来使用甲基化水平,当甲基化水平对应于给定CpG基因座的可能的最大甲基化时使用在后的数值100%。换言之,对甲基化水平的值进行了中心化和归一化。当然,也可以使用介于0和1之间的值,而不是使用介于0%和100%之间的百分比。虽然可以使用其他范围的值,但是在评估结果等时,使用0到1或0%到100%之间的值特别直观。
如上所述,在一些实施方案中,独立于对测量质量的判断,在重新选择集合之前输出计算出的个体年龄。
此外,存在这样的实施方案:其中如果计算出的个体年龄被判断为不可接受;并且仅在对基因组DNA序列的集合进行了重新选择之后,并且在已针对重新选择的集合重新计算了年龄之后,才会输出年龄。
关于甲基化水平或与甲基化水平有关的值的统计分析,原则上可以使用不同的方法。但是,已经发现使用至少一种回归方法进行统计分析是合适的,例如,用于寻找造成计算出的年龄的偏差的主要成分的主成分分析;用于鉴定相关的CpG的最小二乘回归、偏最小二乘回归、LASSO/弹性网络回归和/或XPG Boost方法。值得注意的是,如上所解释的,LASSO和弹性网络是不同的回归方法,至少因为LASSO不包含岭回归,和/或在弹性网络中,L1正则化参数不为1。
应当注意,不仅要为该方法本身寻求保护,而且还要为当要执行根据本发明的方法时可以使用的试剂盒寻求保护,该试剂盒是用于这种方法的试剂盒。
特别地,这样的试剂盒将至少包括用于个体的生物材料的容器,该生物材料是以允许根据本文公开的方法确定年龄的方式获得和/或制备的;该试剂盒还包括信息载体,该信息载体携带与鉴别患者或个体有关的信息;该试剂盒进一步包括执行本发明的方法的说明和/或如何执行本发明这种方法(例如,通过使用凭证将探针寄送到特定实验室)的说明,和/或如何为数据载体的生产提供数据的说明,该数据载体包括根据本发明的方法确定的年龄相关的数据,和/或如何提供数据载体的说明,该数据载体包括根据本发明的方法确定的年龄相关的数据。
如上所指出的,虽然经常需要确定个体的绝对年龄,例如,在犯罪现场已经对犯罪者的含DNA的生物材料进行了采样以便估算犯罪者的实足年龄的情况下,然而也经常优选将确定的年龄与已知的实足年龄进行比较。
而且,鉴于针对特定CpG基因座已经确定的甲基化水平,对实足年龄和生物学年龄之间的差异进行评估可能是有益的。应当注意,这些特定的CpG基因座不必构成集合的一部分。例如,某些CpG基因座的甲基化水平可能高度取决于这个人是否吸烟,以及吸烟者是否是特别重度的吸烟者。
在计算个体的标准生物学年龄时,可能不建议在集合中包含这样的甲基化水平,但向个体指示某些甲基化水平可指示个体的环境或其他压力时可能是有益的。
例如,可通过使用对于不吸烟者特别有益的CpG基因座的集合来确定个体的生物学年龄;在个体已表明并非吸烟者的情况下,这可能会很有益。但是,可能会发生以下情况,例如由于在吸烟父母的陪伴下长大,非吸烟者被迫长时间被动吸烟。在那种情况下,相对于真正的非吸烟者,特定CpG基因座的甲基化水平可能已经发生了实质性变化,因此,即使以其他方式确定了正确的生物学年龄,但向个体指出,指示了吸烟行为的某些CpG甲基化水平表明这个人已经严重受到(被动)吸烟的影响,也可能是非常有益的。
这表明在某些情况下,预选集可以包括另外的CpG基因座,虽然这些基因座不能代表较大的参考组中的生物学年龄,但仍可能与特定个体有关。
应当注意,考虑到衰老行为和甲基化水平的关联,更改甲基化水平的行为可能会有所帮助。可以使用适当的手段来完成;除其他外,假设药物可能是这种手段的一部分是可以理解的。因此,在某个CpG基因座的甲基化水平相对于对照组发生了变化,并且发现这种变化涉及不良影响时,药物可能有助于避免导致甲基化水平的变化的生化不良影响或是阻止这些变化。
理解这一点后,还提出了一种药物筛选方法,其中筛选了许多影响衰老的分子,该方法包括针对特定CpG基因座确定从许多筛选分子中的一个分子是否对CpG基因座的甲基化水平有积极影响。特别地,这可以通过至少部分计算机模拟进行的确定来完成。
因此,在根据本发明的年龄确定方法中,可以在已经选择了第一个基因组DNA序列集合并确定了一系列个体的年龄,并且为该系列的至少一些个体确定了除集合中的那些基因组DNA序列之外的基因组DNA序列的甲基化水平之后,将该个体组修改为包括该系列中的至少一些个体,并鉴于针对该系列的至少一些个体确定的其他基因组DNA序列获得的甲基化水平,确定是否应修改基因组DNA序列的集合。
因此,即使该系列的每个单次确定都产生了可接受的结果,即具有相当小且易于接受的置信区间的结果,也会在测量过程中,使用在该系列中获得的越来越多的数据反复修改生物学年龄的确定。如前文所指出的,反复执行的重复迭代可能仅涉及使用针对个体获得的甲基化水平来修改从统计分析中得到并用于计算个体的年龄的回归参数;或者该重复迭代可判定总的集合应被修改,即应添加另外的DNA序列和/或当前考虑的DNA序列应被废弃。
应理解,即使在结果本身是可以接受的情况下,这也将提高整体质量。但是,在要通过添加另外的DNA序列来改变集合本身的情况下,并且在可向集合中选入的可用基因组DNA序列的数量很少的情况下,应谨慎限定选择所针对做出的池或集中的DNA序列,从而使得添加的另外的序列真正是有帮助的。因此,至少在一些情况下,认为有益的是,从具有可与年龄相关联的甲基化水平的极大量基因组DNA序列开始,然后减少要考虑的该大量基因组DNA序列,以便选择,特别是在标准测量期间反复并经常进行选择(诸如,每次可以是第8个、第10个或第100个个体),或者在有x%(诸如x=10%、20%、25%、33%、50%、66%、75%、100%)个另外的个体可以添加到参考组中的情况下。因此,应该仔细选择集,并且通常建议采用多次选择的步骤确定有用的预选。
例如,首先,可以针对大约800,000(800000)个不同的基因组DNA序列测量数百个个体的基因组DNA序列的甲基化水平。从所获得的数据集中,可以选择数千个基因组DNA序列,例如根据主成分分析,相对于患者的实际年龄确定获得的甲基化水平数据集的主要成分。然后,对于所选择的数千个基因组DNA序列,可以对几百个或更多个(例如数千个)个体进行另外的测量,并且从由此产生的数据集中,可以选择数百个基因组DNA序列,例如384个DNA序列,这些序列的甲基化水平可被具有384个不同或寡核苷酸斑点的DNA芯片检测到。
同样,鉴于进一步的主成分分析、鉴于各个甲基化水平的值、鉴于高度相关的不同基因组DNA序列的数个甲基化水平等等,可以将基因组DNA序列的数量从数千个减少到384个基因组DNA序列。
在进行最终选择并且在基因组DNA序列集小到足以经济地确定所有甲基化水平(对于384种不同的基因组DNA序列或96种基因组DNA序列而言均是这种情况)后,可以从剩余的基因组DNA序列中确定集合,但也可以在不产生过多花费的情况下,确定所有剩余甲基化DNA序列甲基化水平。
在本发明的一些实施方案中,当根据获得的甲基化水平判定是否应修改集合或最佳年龄确定方式时,基于尽可能大的个体集来做出判定。因此还可以针对除了当前使用的参考组的个体之外的至少一些个体提供除集合的甲基化水平以外的另外的数据。然后,鉴于针对另外个体获得的甲基化水平,决定是否应该修改集合或最佳年龄确定方式。
应当注意,与另外的个体有关的信息通常用于以下判定中,即关于最佳年龄计算方式进行的判定,或关于通过简单地扩大给定个体组而将基因组DNA序列选入或移出集合进行的判定。但是,在某些情况下,同时从参考组中删除个体或将参考组分为几个组可能是有益的,其中每个组具有特定属性的个体。将个体从先前使用的参考组中排除的一个原因可以是因为将大量另外的个体添加到参考组中,如此,在分析先前的整个组和添加个体后的整个组时,可能会发现先前存在的个体的甲基化水平现在构成了统计离群点。
此外,可能会发生以下情况:已经使用了用于检测甲基化水平的第一检测方法(诸如测量大约850000个CpG基因座的甲基化水平的检测方法)进行预选,而实际测量则使用的是仅能够确定少得多的CpG基因座的甲基化水平的方法进行的;并且这些CpG基因座的甲基化水平在交叉比较中显示出与相同的CpG具有不同的甲基化水平。在这种情况下,虽然依靠通过第一手段获得的初始测量值可能最初会有用,但是一旦可以获得实际用于提供集合的甲基化水平的第二方法的足够大的数据库,则可删除采用更复杂的第一种方法获得的那些数据。删除之所以有益的其他原因在于:若已经最终采样到数量足够大的具有共同属性的个体,则要从参考组中删除不具有此属性的个体。例如,如果在一段时间后判定应将集合和最佳年龄确定方式确定为使不肥胖的经完美训练的运动员获得最佳结果,则可以从初始参考组中删除肥胖的个体。
虽然可仅在获得大量个体数据后才修改集合和/或基于甲基化水平的最佳年龄确定方式,但可以另外地和/或替选地做出以下判定:即如果至少满足以下条件之一,则应针对特定个体的甲基化水平,对集合和/或最佳方式进行重新评价:在基因组DNA序列中检测到的一些或全部甲基化水平被认为过低;单个个体的预期年龄与个体的已知实足年龄偏离过远;多个个体的预测年龄显示出与多个个体的已知实足年龄存在系统性偏差;多个个体的预测年龄分散在所述个体的已知实足年龄周围,且方差被认为过大;多个个体的预测年龄显示出与所述个体的已知实足年龄存在系统性偏差;已经基于给定的集合确定年龄的个体的数量已达到预定数量;自上次重新选择以来已过了指定的时间。
在满足上述条件的情况下,可以立即判定需要对集合和/或最佳方式进行重复迭代或重新评价,和/或可以判定延迟这种重复迭代,直到可以从数量足够多的此类个体中获得数据。延迟重复迭代的另一个原因在于,这样的重复迭代只能在特定的时间间隔内进行;基本上,在所有这些情况下,在重复迭代之前先存储与个体有关的信息,特别是在基因组DNA序列中检测到的甲基化水平以及优选个体的已知实足年龄;然后,使用所有存储的信息进行重复迭代。
在一些实施方案中,对所确定的年龄的质量的判断是通过与已知的实足年龄进行比较来进行的。在大多数情况下,已知置信区间可以作为质量的度量。置信区间非常大可表明确定的年龄不可靠。而且,一旦已检查了一个较大的个体组,所确定的年龄很可能不会与先前确定的其他个体的年龄相差太远。换言之,一旦已经检查了一个较大的参考组并且一个新个体的确定的生物学年龄显示出其衰老行为远快于或远慢于其他之前已进行过数据分析的衰老较快或较慢的个体,这不太可能出现错误,特别是在尚不知晓存在另外的影响衰老的因素的情况下。在这种情况下,可以判定虽然年龄可能正确,但其质量无法以令人满意的方式评估。尽管如此,在这种情况下,将向该个体指出所确定的年龄,即使不能确保所确定的年龄是可靠的,但可以假设所确定的年龄是可靠的,并可建议该个体采取行动。例如,若观察到了之前在一大组个体中从未观察到的特别快的衰老行为,因此无法评估高龄相对于真实实足年龄的质量,则所述个体可能有必要咨询医生。
因此,本发明涉及以下项目:
1.一种确定年龄指示物的方法,其包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在所述训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定所述年龄指示物和缩减的训练数据集,
其中自变量为所述基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,
其中所述年龄指示物包括:
(i)所述基因组DNA序列集的子集,和
(ii)包含在所述集合中的每个基因组DNA序列的至少一个系数,并且其中所述缩减的训练数据集包括所述训练数据集中,除了被所述LASSO消除的基因组DNA序列的所述DNA甲基化水平以外的所有数据。
2.一种确定个体年龄的方法,其包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在所述训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定所述年龄指示物和缩减的训练数据集,
其中自变量为所述基因组DNA序列的甲基化水平,并且优选地,其中因变量是年龄,
其中所述年龄指示物包括:
(i)所述基因组DNA序列集的作为集合的子集,和
(ii)包含在所述集合中的每个基因组DNA序列的至少一个系数,并且其中所述缩减的训练数据集包括所述训练数据集中,除了被所述LASSO消除的基因组DNA序列的DNA甲基化水平以外的所有数据,和
(c)提供待确定其年龄的个体的DNA甲基化水平,所述DNA甲基化水平为所述年龄指示物中包括的至少80%、优选100%的所述基因组DNA序列的DNA甲基化水平,以及
(d)基于所述个体的所述DNA甲基化水平和所述年龄指示物确定所述个体的年龄,
优选地,其中所确定的年龄可与所述个体的实足年龄不同。
3.根据项目1或2所述的方法,其中所述回归方法还包括在所述LASSO之后,应用逐步回归。
4.根据项目3所述的方法,其中将所述逐步回归应用于所述缩减的训练数据集。
5.根据项目1至4中任一项所述的方法,其中所述年龄指示物中包括的所述集合小于所述基因组DNA序列集。
6.根据项目1至5中任一项所述的方法,其中所述年龄指示物中包括的所述集合小于所述缩减的训练数据集中包括的所述基因组DNA序列集。
7.根据项目3至6中任一项所述的方法,其中所述逐步回归为双向消除,其中移除了统计学上不显著的自变量,优选地,其中显著性水平为0.05。
8.根据项目1至7中任一项所述的方法,其中使用biglasso R软件包进行所述LASSO,优选地,通过应用“cv.biglasso”命令进行所述LASSO,优选地,其中“nfold”为20。
9.根据项目1至8中任一项所述的方法,其中所述回归方法不包括岭回归(L2正则化)或L2正则化参数/λ参数为0。
10.根据项目1至9中任一项所述的方法,其中LASSO L1正则化参数/α参数为1。
11.根据项目1至10中任一项所述的方法,其中所述年龄指示物被迭代更新,所述迭代更新包括在每次迭代中将至少一个其他个体的数据添加到训练数据中,从而迭代地扩展所述训练数据集。
12.根据项目11所述的方法,其中在一个更新轮次中,每个其他个体的添加数据包括所述个体的以下DNA甲基化水平:
(i)初始训练数据集或任一扩展训练数据集中包括的所述基因组DNA序列集的至少5%、优选50%、更优选100%的DNA甲基化水平,和/或
(ii)所述缩减的训练数据集中包含的所述基因组DNA序列的DNA甲基化水平。
13.根据项目11或12所述的方法,其中并非在所有向所述扩展训练数据集贡献了数据的个体中均存在的所有基因组DNA序列(自变量)均被从所述扩展训练数据集移除。
14.根据项目11至13中任一项所述的方法,其中在一个更新轮次中,对于所述其他个体中的每一个,所添加的甲基化水平所属的基因组DNA序列集是相同的。
15.根据项目11至14中任一项所述的方法,其中一个更新轮次包括在所述扩展训练数据集上应用所述LASSO,从而确定更新的年龄指示物和/或更新的缩减的训练数据集。
16.根据项目11至15中任一项所述的方法,其中被添加了至少一个其他个体的数据的训练数据集是所述缩减的训练数据集,所述缩减的训练数据集可以是初始训练数据集或更新的缩减的训练数据集中的任一个。
17.根据项目16所述的方法,其中所述缩减的训练数据集是迭代中先前的缩减的训练数据集。
18.根据项目11至17中任一项所述的方法,其中一个更新轮次包括对所述缩减的训练数据集应用逐步回归,从而确定更新的年龄指示物。
19.根据项目1至18中任一项所述的方法,其中在一个更新轮次中,从所述训练数据集和/或所述缩减的训练数据集中移除至少一个个体的数据。
20.根据项目11至19中任一项所述的方法,其中个体数据的添加和/或移除取决于所述个体的至少一个特征,其中所述特征为民族、性别、实足年龄、住所、出生地、至少一种疾病和/或至少一种生活方式因素,其中所述生活方式因素选自药物消耗、对环境污染物的暴露、轮班工作或压力。
21.根据项目1至20中任一项所述的方法,其中对所述年龄指示物的质量进行确定,其中所述确定所述质量包括以下步骤:
(a)提供尚未向所述训练数据集贡献数据的多个个体的测试数据集,每个所述个体的测试数据集包括:
(i)所述年龄指示物中包括的所述基因组DNA序列集的所述DNA甲基化水平,和
(ii)实足年龄;和
(b)通过统计学评价和/或域边界评价来确定所述年龄指示物的所述质量,
其中所述统计学评价包括:
(i)确定所述测试数据集中包括的所述个体的年龄,
(ii)将所确定的年龄与所述个体的实足年龄相关联,并确定描述所述相关性的至少一个统计参数,以及
(iii)判断所述统计参数是否指示所述年龄指示物具有可接受的质量,优选地,其中所述统计参数选自确定系数(R2)和平均绝对误差(MAE),其中,R2大于0.50、优选大于0.70、优选大于0.90、优选大于0.98和/或MAE小于6年、优选小于4年、优选至多1年指示了可接受的质量,并且
其中所述域边界评价包括
(iv)确定所述年龄指示物的所述域边界,
其中所述域边界是所述年龄指示物中包括的每个基因组DNA序列的最小和最大DNA甲基化水平,并且
其中所述最小和最大DNA甲基化水平存在于已经用于确定所述年龄指示物的所述训练数据集中,以及
(v)确定所述测试数据集是否超出所述域边界,其中不超出所述域边界显示为可接受的质量。
22.根据项目1至21中任一项所述的方法,其中所述训练数据集和/或所述测试数据集包括至少10个、优选至少30个个体、优选至少200个个体,优选地,其中所述训练数据集包括至少200个个体,并且所述测试数据集包括至少30个个体。
23.根据项目21或22所述的方法,其中当所述年龄指示物的质量为不可接受时更新所述年龄指示物。
24.根据项目11至23中任一项所述的方法,其中所述个体的所述年龄是基于所述个体的DNA甲基化水平和所述更新的年龄指示物而确定的。
25.根据项目2至24中任一项所述的方法,其中当所述个体尚未向用于生成所述年龄指示物的所述训练数据集贡献数据时,仅用所述年龄指示物确定所述个体的所述年龄。
26.根据项目1至25中任一项所述的方法,其中当所述数据中包括的个体数量已达到预定值和/或自上次更新以来已经过预定时间时,不再进一步更新所述年龄指示物。
27.根据项目1至26中任一项所述的方法,其中从甲基化水平可与所述实足年龄相关联的基因组DNA序列中预选出所述训练数据集中包括的所述基因组DNA序列集。
28.根据项目27所述的方法,其中,经预选的集包括至少400000个、优选至少800000个基因组DNA序列。
29.根据项目1至28中任一项所述的方法,其中所述训练数据集中包括的所述基因组DNA序列彼此不重叠和/或每个等位基因仅出现一次。
30.根据项目1至29中任一项所述的方法,其中所述缩减的训练数据集包括至少90个、优选至少100个、优选至少140个基因组DNA序列。
31.根据项目1至30中任一项所述的方法,其中所述缩减的训练数据集包括少于5000个、优选少于2000个、优选少于500个、优选少于350个、优选少于300个基因组DNA序列。
32.根据项目1至31中任一项所述的方法,其中所述年龄指示物包括至少30个、优选至少50个、优选至少60个、优选至少80个基因组DNA序列。
33.根据项目1至32中任一项所述的方法,其中所述年龄指示物包括少于300个、优选少于150个、优选少于110个、优选少于100个、优选少于90个基因组DNA序列。
34.根据项目1至33中任一项所述的方法,其中个体的所述基因组DNA序列的所述DNA甲基化水平是在所述个体的包含所述基因组DNA序列的生物材料样品中进行测量的。
35.根据项目34所述的方法,其中所述样品包含颊黏膜细胞。
36.根据项目34或35中任一项的所述的方法,其还包括获得所述样品的步骤,其中所述样品为无创获得。
37.根据项目34至36中任一项所述的方法,其中所述DNA甲基化水平是通过以下方式测量的:甲基化测序、硫酸氢盐测序、PCR方法、高分辨率熔解曲线分析(HRM)、甲基化敏感性单核苷酸引物延伸(MS-SnuPE)、甲基化敏感性单链构象分析、甲基敏感性酶切计数(MSCC)、碱基特异性裂解/MALDI-TOF、结合硫酸氢盐限制性酶切分析(COBRA)、甲基化DNA免疫共沉淀(MeDIP)、基于微阵列的方法、基于微珠阵列的方法、焦磷酸测序和/或无硫酸氢盐处理的直接测序(纳米孔道技术)。
38.根据项目34至37中任一项所述的方法,其中个体的基因组DNA序列的所述DNA甲基化水平是通过碱基特异性裂解/MALDI-TOF和/或PCR方法测量的,优选地,其中所述碱基特异性裂解/MALDI-TOF是Agena技术并且所述PCR方法是甲基化特异性PCR。
39.根据项目34至38中任一项所述的方法,其中所述年龄指示物中包括的所述基因组DNA序列的所述DNA甲基化水平是在所述待确定其年龄的个体的包含所述基因组DNA序列的生物材料样品中确定的。
40.一种基因组DNA序列的集合,其包括以下各项中的至少10个、优选至少50个、优选至少70个、优选全部:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
41.根据项目39所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选至少10个、优选至少30个、优选至少70个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
42.根据项目41所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选至少10个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025。
43.根据项目41或42所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选全部:cg11330075、cg00831672、cg27320127、cg10240079、cg02536625以及cg23128025。
44.根据项目40至43中任一项所述的基因组DNA序列的集合,其包括除所述基因组DNA序列的集合之外的和/或代替所述基因组DNA序列的集合的互补序列。
45.一种基因集,其包括以下各项中的至少10个、优选至少30个、优选至少50个、优选至少70个、优选全部:
SIM bHLH转录因子1(SIM1);微管相关蛋白4(MAP4);蛋白激酶Cζ(PRKCZ);谷氨酸离子受体AMPA型亚基4(GRIA4);BCL10,免疫信号接合子(BCL10);含5'核苷酸酶结构域的蛋白1(NT5DC1);抑制致肿瘤性7(ST7);蛋白激酶Cη(PRKCH);胶质细胞源性神经营养因子(GDNF);muskelin 1蛋白(MKLN1);exocyst复合体成分6B(EXOC6B);蛋白S(PROS1);钙电压门控通道亚基α1D(CACNA1D);kelch式家族成员42(KLHL42);OTU去泛素酶7A(OTUD7A);死亡相关蛋白(DAP);含卷曲螺旋结构域的蛋白179(CCDC179);碘甲腺原氨酸脱碘酶2(DIO2);瞬时受体电位阳离子通道亚家族V成员3(TRPV3);MT-RNR2样蛋白5(MTRNR2L5);细丝蛋白B(FLNB);弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN);溶质载体家族25成员17(SLC25A17);含G-patch结构域的蛋白1(GPATCH1);UDP-GlcNAc:βGalβ-1,3-N-乙酰基葡糖胺转移酶9(B3GNT9);zyg-11家庭成员A,细胞周期调控因子(ZYG11A);癫痫样相关蛋白6(SEZ6L);肌球蛋白X(MYO10);乙酰-CoA羧化酶α(ACACA);G蛋白亚基αi1(GNAI1);含CUE结构域的蛋白2(CUEDC2);同源框D13(HOXD13);Kruppel样因子14(KLF14);溶质载体家族1成员2(SLC1A2);乙酰乙酰-CoA合成酶(AACS);含锚蛋白重复序列和无菌α基序结构域的蛋白1A(ANKS1A);微小RNA 7641-2(MIR7641-2);胶原蛋白Vα1链(COL5A1);亚砷酸盐甲基转移酶(AS3MT);溶质载体家族26成员5(SLC26A5);核孔蛋白107(NUP107);基因间非蛋白长编码RNA 1797(LINC01797);肌球蛋白IC(MYO1C);锚蛋白重复序列结构域37(ANKRD37);磷酸二酯酶4C(PDE4C);含EF-hand结构域的蛋白1(EFHC1);未特征的LOC375196(LOC375196);ELOVL脂肪酸延伸酶2(ELOVL2);WAS蛋白家族成员3(WASF3);染色体17开放阅读框82(C17orf82);G蛋白偶联受体158(GPR158);F-box和富含亮氨酸的重复序列蛋白7(FBXL7);波纹状转录抑制子3(RIPPLY3);ESCRT-1的VPS37C亚基(VPS37C);多肽N-乙酰半乳糖胺基转移酶样蛋白6(GALNTL6);含DENN结构域的蛋白3(DENND3);核受体协同抑制因子2(NCOR2);含内皮PAS结构域蛋白1(EPAS1);PBX同源异形框蛋白4(PBX4);基因间非蛋白长编码RNA 1531(LINC01531);序列相似性家族110成员A(FAM110A);含糖基转移酶8结构域的蛋白1(GLT8D1);G蛋白亚基γ2(GNG2);MT-RNR2样蛋白3(MTRNR2L3);锌指蛋白140(ZNF140);激酶抑制因子1(KSR1);蛋白二硫键异构酶家族A成员5(PDIA5);精子发生相关蛋白7(SPATA7);泛酸激酶1(PANK1);泛素特异性蛋白酶4(USP4);G蛋白亚基αq(GNAQ);钾电压门控通道修饰子亚家族S成员1(KCNS1);DNA聚合酶γ2,辅助亚基(POLG2);鹳头盒2(STOX2);轴突蛋白3(NRXN3);BMS1,核糖体生物发生因子(BMS1);叉头框E3(FOXE3);NADH:泛醌氧化还原酶亚基A10(NDUFA10);松弛素家族肽受体3(RXFP3);GATA结合蛋白2(GATA2);含类异戊二烯合酶结构域的蛋白(ISPD);腺苷脱氨酶,RNA特异性B1(ADARB1);Wnt家庭成员7B(WNT7B);含普列克底物蛋白和Sec7结构域的蛋白3(PSD3);膜锚定连接蛋白(MAJIN);吡啶核苷酸-二硫化物氧化还原酶结构域1(PYROXD1);扣带蛋白样蛋白1(CGNL1);染色体7开放阅读框50(C7orf50);含MORN重复序列的蛋白1(MORN1);atlastin GTP酶蛋白2(ATL2);含WD重复序列和FYVE结构域的蛋白2(WDFY2);跨膜蛋白136(TMEM136);肌醇聚磷酸-5-磷酸酶A(INPP5A);TBC1结构域家族成员9(TBC1D9);干扰素调控因子2(IRF2);去乙酰化酶7(SIRT7)XXIII型胶原蛋白α1链(COL23A1);鸟嘌呤单磷酸合酶(GMPS);钾双孔结构域通道亚家族K成员12(KCNK12);SIN3-HDAC复合体相关因子(SINHCAF);血红蛋白亚基ε1(HBE1);以及含tudor结构域的蛋白1(TDRD1)。
46.根据项目45所述的基因集,其包括以下各项中的至少5个、优选至少10个、优选至少30个、优选全部:ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS以及WDFY2。
47.根据项目45所述的基因集,其包括以下各项中的至少5个、优选至少10个、优选至少20个、优选全部:
微管相关蛋白4(MAP4);蛋白激酶Cζ(PRKCZ);谷氨酸离子受体AMPA型亚基4(GRIA4);抑制致肿瘤性7(ST7);蛋白激酶Cη(PRKCH);钙电压门控通道亚基α1D(CACNA1D);死亡相关蛋白(DAP);瞬时受体电位阳离子通道亚家族V成员3(TRPV3);弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN);乙酰-CoA羧化酶α(ACACA);G蛋白亚基αi1(GNAI1);溶质载体家族1成员2(SLC1A2);磷酸二酯酶4C(PDE4C);ELOVL脂肪酸延伸酶2(ELOVL2);核受体协同抑制因子2(NCOR2);含内皮PAS结构域蛋白1(EPAS1);G蛋白亚基γ2(GNG2);泛酸激酶1(PANK1);泛素特异性蛋白酶4(USP4);G蛋白亚基αq(GNAQ);钾电压门控通道修饰子亚家族S成员1(KCNS1);DNA聚合酶γ2,辅助亚基(POLG2);NADH:泛醌氧化还原酶亚基A10(NDUFA10);松弛素家族肽受体3(RXFP3);含类异戊二烯合酶结构域的蛋白(ISPD);肌醇聚磷酸-5-磷酸酶A(INPP5A);去乙酰化酶7(SIRT7);鸟嘌呤单磷酸合酶(GMPS);SIN3-HDAC复合体相关因子(SINHCAF);含tudor结构域的蛋白1(TDRD1)。
48.根据项目40至44中任一项所述的基因组DNA序列的集合或根据项目45至47中任一项所述的基因集,其是通过项目2至39所述的方法获得的,
其中根据所述方法,将所述基因组DNA序列的集合包括在所述缩减的训练数据集中和/或所述年龄指示物中,并且
其中所述基因集是通过从所述基因组DNA序列的集合中选择编码蛋白质或微小RNA或长链非编码RNA而获得的。
49.根据项目40至44或48中任一项所述的基因组DNA序列的集合,或根据项目45至48中任一项所述的基因集,其用于诊断个体的健康状态。
50.根据项目49所使用的所述基因组DNA序列的集合或基因集,其中所述健康状态包括至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,
其中所述状态指示了所述疾病或与疾病相关的所述表型是否存在、或其所处阶段。
51.根据项目50所使用的所述基因组DNA序列的集合或基因集,其中所述衰老相关疾病为阿尔茨海默氏病、帕金森氏病、动脉粥样硬化、心血管疾病、癌症、关节炎、白内障、骨质疏松症、2型糖尿病、高血压、与年龄有关的黄斑变性和/或良性前列腺增生。
52.一种根据项目40至44或48中任一项所述的基因组DNA序列的集合、或根据项目45至48中任一项所述的基因集在确定个体的保健状态中的用途。
53.根据项目52所述的用途,其中所述保健状态包括血压、体重、免疫细胞水平、炎症水平和/或个体的认知功能。
54.一种诊断个体健康状态和/或保健状态的方法,其包括提供根据项目40至44或48中任一项所述的基因组DNA序列的集合或根据项目45至48中任一项所述的基因集的步骤。
55.根据项目54所述的方法,其还包括在所述个体包含所述基因组DNA序列的生物样品中确定所述基因组DNA序列的所述甲基化水平。
56.根据项目54或55中任一项所述的方法,其中所述健康状态包括至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,
优选地,其中所述衰老相关疾病为阿尔茨海默氏病、帕金森氏病、动脉粥样硬化、心血管疾病、癌症、关节炎、白内障、骨质疏松症、2型糖尿病、高血压、与年龄有关的黄斑变性和/或良性前列腺增生,和/或
所述保健状态包括血压、体重、免疫细胞水平、炎症水平和/或个体的认知功能。
57.根据项目55或56中任一项所述的方法,其中所述生物样品为无创获得,优选通过颊拭子无创获得。
58.一种用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法,其包括提供根据项目40至44或48中任一项所述的基因组DNA序列的集合或根据项目45至48中任一项所述的基因集的步骤,
其中当施用至个体时,所述分子改善、预防和/或逆转至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症。
59.根据项目58所述的方法,其还包括确定至少一个所述基因组DNA序列的所述DNA甲基化水平的步骤。
60.根据项目58或59所述的方法,其中当施用至个体时,所鉴定的分子增加和/或降低所述个体中至少一个所述基因组DNA序列的所述DNA甲基化水平。
61.根据项目60所述的方法,其中所述DNA甲基化水平被改变,使得其与比改变之前更年轻的实足年龄相关联。
62.根据项目58至61中任一项所述的方法,其中提供了根据项目45至48所述的基因集,并且其中所述方法还包括确定由所述基因集编码的至少一种蛋白质的活性的步骤。
63.根据项目62所述的方法,其中所鉴定的分子抑制和/或增强由所述基因集编码的至少一种蛋白质的活性。
64.根据项目63所述的方法,其中所述蛋白质的活性被改变,使得其与比改变之前更年轻的实足年龄相关联。
65.一种芯片,其包括作为斑点的根据项目40至44或48中任一项所述的基因组DNA序列的集合或根据项目45至48中任一项所述的基因集,其中每个序列都被包含在单独的斑点中。
66.一种试剂盒,其包括至少一个独特引物对,
其中在每个引物对中,一个引物是与根据项目40至44或48中任一项所述的基因组DNA序列的集合中包括的一个基因组DNA序列的反向链结合、或与根据项目45至48中任一项所述的基因集中包括的一个基因的反向链结合的正向引物,并且另一个引物是与所述一个基因组DNA序列的正向链结合、或与所述一个基因的正向链结合的反向引物,
并且,其中与所述正向和反向引物的3’端互补的两个核苷酸相距多于30个且少于3000个、优选少于1000个核苷酸。
67.一种试剂盒,其包括至少一个探针,所述探针与根据项目40至44或48中任一项所述的基因组DNA序列的集合中包括的所述基因组DNA序列中的一个或根据项目45至48中任一项所述的基因集中包括的所述基因中的一个互补。
68.根据项目65或66所述的试剂盒,其中所述引物或探针与甲基化或未甲基化的DNA特异性结合,其中未甲基化的胞嘧啶已被转化为尿嘧啶。
69.一种试剂盒,其包括根据项目65所述的芯片。
70.根据项目51至57中任一项所述的试剂盒,其还包括用于生物材料和/或颊拭子材料的容器。
71.根据项目66至70中任一项所述的试剂盒,其还包括用于从生物样品中提取、纯化或扩增基因组DNA的材料,其中所述材料是离心柱和/或酶。
72.根据项目66至71中任一项所述的试剂盒,其还包括亚硫酸氢盐。
73.一种数据载体,其包括通过根据项目2至39中任一项所述的方法获得的所述年龄指示物.根据项目40至44或48中任一项所述的基因组DNA序列的集合,和/或根据项目45至48中任一项所述的基因集。
74.根据项目66至72中任一项所述的试剂盒或根据项目73所述的数据载体,其还包括针对待确定其年龄的所述个体的问卷,其中所述问卷可以为空白的或包括关于所述个体的信息。
75.根据项目1至39中任一项所述的方法,其中所述训练数据集、缩减的训练数据集和/或添加的数据还包括至少一个与同所述个体相关联的生活方式或风险模式有关的因素。
76.根据项目75所述的方法,其中所述因素选自药物消耗、环境污染物、轮班工作和压力。
77.根据项目75或76中任一项所述的方法,其中所述训练数据集和/或所述缩减的训练数据集限制于这样的序列:其DNA甲基化水平和/或编码蛋白的活性/水平与生活方式因素中的至少一个相关联。
78.根据75至77中任一项所述的方法,其还包括确定至少一个与所述个体的所确定年龄和实足年龄的差异相关联的生活方式因素的步骤。
在另一些方面,本发明涉及以下项目:
第79项项目涉及一种确定个体年龄的方法:
其基于在个体中发现的基因组DNA序列的甲基化水平,
包括以下步骤:
预选:
从具有可与个体年龄相关联的甲基化水平的基因组DNA序列中预选出基因组DNA序列集;
针对多个个体确定所述预选的基因组DNA序列的甲基化水平;
从所述预选的集中选择基因组DNA序列的集合,
从而使:
所述集合中的基因组DNA序列的数量小于所述预选的集中的基因组DNA序列的数量,
可以基于所述集合中的序列的甲基化水平计算所述多个个体的年龄,以及
对计算出的年龄的统计学评价指示了计算出的年龄的质量是可接受的;
确定个体的生物材料样品中的所述集合中的序列的甲基化水平;
基于所述集合中的序列的甲基化水平计算个体的年龄;
计算所计算出的年龄的质量的统计量度;
根据所述统计量度判断质量是否是可接受的;
如果判断所述质量是可接受的,输出个体的年龄;
如果判断所述质量是不可接受的,确定是否需要重新选择基因组DNA序列,修改个体组以包括该个体;
基于所确定的修改组的个体的甲基化水平,从预选的子集中重新选择基因组DNA序列的集合。
此外,本发明已经公开了与根据上文列出的编号第79项的项目的年龄确定方法相关的第80项项目,其中所述个体为人。
此外,本发明已经公开了与根据上文列出的在前编号的项目的年龄确定方法相关的第81项项目,其中至少一个步骤是计算机实现的步骤,
特别是至少一个以下步骤:
并且优选所有以下步骤:
从所述预选的集中选择基因组DNA序列的集合,
从而使:
所述集合中的基因组DNA序列的数量小于所述预选的集中的基因组DNA序列的数量,
可以基于所述集合中的序列的甲基化水平计算所述多个个体的年龄,
以及
对计算出的年龄的统计学评价指示了计算出的年龄的质量是可接受的;
确定个体的生物材料样品中的所述集合中的序列的甲基化水平;
基于所述集合中的序列的甲基化水平计算个体的年龄;
计算所计算出的年龄的质量的统计量度;
根据所述统计量度判断质量是否是可接受的;
如果判断所述质量是可接受的,输出个体的年龄;
如果判断所述质量是不可接受的,确定需要重新选择基因组DNA序列,
修改个体组以包括个体;
基于所确定的修改组的个体的甲基化水平,从预选的子集中重新选择基因组DNA序列的集合。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第82项项目,其中在个体中发现的基因组DNA序列的甲基化水平通过以下至少一项进行测量:
甲基化测序/硫酸氢盐测序;一种PCR方法,特别是甲基化特异性PCR(MSP)、实时甲基化特异性PCR、定量甲基化特异性PCR(QMSP)、COLD-PCR、使用甲基化DNA特异性结合蛋白的PCR、靶向多重PCR、实时PCR和基于微阵列的PCR中的至少一种;高分辨率熔解曲线分析(HRM);甲基化敏感性单核苷酸引物延伸(MS-SnuPE);甲基化敏感性单链构象分析;甲基敏感性酶切计数(MSCC);碱基特异性切割/MALDI-TOF,例如Agena;结合硫酸氢盐限制性酶切分析(COBRA);甲基化DNA免疫共沉淀(MeDIP);基于微阵列的方法;基于磁珠阵列的方法;焦磷酸测序;无硫酸氢盐处理的直接测序(纳米孔道技术)。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第83项项目,其中基因组DNA序列的甲基化水平是通过以下至少一项测量的:
甲基化测序/硫酸氢盐测序、甲基化特异性PCR(MSP)、实时甲基化特异性PCR、定量甲基化特异性PCR(QMSP)、COLD-PCR、碱基特异性裂解/MALDI-TOF(例如,Agena)、基于微阵列的方法、基于微珠阵列的方法、焦磷酸测序。
此外,本发明已经公开了第84项项目,其提出了一种根据上文列出的在前编号的项目中的一项所述的年龄确定方法,其中,
确定其预选基因组DNA序列的甲基化水平的多个个体包括至少50个、优选至少100个、特别是至少200个个体。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第85项项目,其中通过将个体添加到该组中来修改该个体组。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第86项项目,其中修改所述个体组以包括所述个体包括:从该组中消除至少一个其他个体,特别是鉴于与其年龄和/或某些或全部其基因组DNA序列的甲基化水平无关的因素,从该组中消除至少一个其他个体。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第87项项目,
其中在已经选择了基因组DNA序列的第一集合后,确定了一系列个体的年龄,
并且其中对于该系列的至少某些个体,确定除了集合中的那些基因组DNA序列之外的基因组DNA序列的甲基化水平,
修改所述个体组以包括该系列中的至少一些个体,并且鉴于针对所述系列的至少一些个体确定的另一些基因组DNA序列获得的甲基化水平,确定是否应修改基因组DNA序列的集合。
此外,本发明已经公开了与根据上文列出的在前编号的项目所述的年龄确定方法相关的第88项项目,其中,
对于至少一些个体,确定预选集中所有基因组DNA序列的甲基化水平,
并且其中鉴于针对至少一些个体获得的所有这些甲基化水平中的甲基化水平,确定是否应该修改基因组DNA序列的集合。
此外,本发明已经公开了与根据上文列出的在前编号的项目所述的年龄确定方法相关的第89项项目,其中如果已经满足至少一个或优选数个以下条件,则确定基于针对另外的个体获得的甲基化水平修改所述集合:
在所述基因组DNA序列中检测到的一些或全部甲基化水平被认为过低,
单个个体的预测年龄与个体的已知实足年龄偏离过远,
多个个体的预测年龄显示出与多个个体的已知实足年龄存在系统性偏差,
多个个体的预测年龄分散在所述个体的已知实足年龄周围,且方差被认为过大,多个个体的预测年龄显示出与所述个体的已知实足年龄存在系统性偏差,
基于给定的集合确定年龄的个体的数量已达到预定数量,
自上次重新选择以来已过了指定的时间。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的任一项所述的年龄确定方法相关的第90项项目,其中根据统计量度判断质量是否可接受包括:在考虑到至少部分个体的已知的实足年龄的情况下,对年龄进行统计学评价,特别是在考虑了单个个体的预测年龄是否与所述个体的已知的实足年龄偏离过大的情况下,特别是相对于已知的异常值行为而言,进行统计学评价。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第91项项目,其中所述预选的集包括至少90个基因组DNA序列,优选至少100个基因组DNA序列,特别优选至少140个基因组DNA序列和/或所述预选的集包括少于2000个基因组DNA序列,特别是少于500个基因组DNA序列,特别是少于350个基因组DNA序列,特别是少于170个基因组DNA序列,特别是少于150个基因组DNA序列。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第92项项目,其中所选择的集合包括至少30个基因组DNA序列,优选至少50个基因组DNA序列,特别优选至少60个基因组DNA序列和/或所选择的集合包括少于150个基因组DNA序列,特别是少于110个基因组DNA序列,特别是少于100个基因组DNA序列,特别是少于90个基因组DNA序列,特别是少于80个基因组DNA序列,特别是少于70个基因组DNA序列。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第93项项目,其中所述重新选择的集合包括至少30个基因组DNA序列,优选至少50个基因组DNA序列,特别优选至少60个基因组DNA序列和/或所选择的集合包括少于150个基因组DNA序列,特别是少于110个基因组DNA序列,特别是少于100个基因组DNA序列,特别是少于90个基因组DNA序列,特别是少于80个基因组DNA序列,特别是少于70个基因组DNA序列。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第94项项目,其中所述重新选择的集合中的基因组DNA序列的数量与初始选择的集合中的基因组DNA序列的数量不同。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第95项项目,其中所选择的集合中包括的至少一个基因组DNA序列不包括在所述重新选择的集合的基因组DNA序列中。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第96项项目,其中鉴于所述组中的个体的已知年龄,由所述集合中的基因组DNA序列的甲基化水平的统计分析来确定年龄,特别是通过使用在依据所述组中的个体已知年龄对甲基化水平值的多元线性回归中针对所述集合中的各个基因组DNA序列获得的系数进行。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第97项项目,其中甲基化水平值是根据通过对获得的水平进行中心化和/或归一化后的甲基化水平确定的,并且其中对所述甲基化水平值进行统计分析。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第98项项目,其中独立于测量质量的判断,在重新选择所述集合之前输出计算出的个体年龄。
此外,本发明已经公开了与根据上文列出的在前编号的项目中的一项所述的年龄确定方法相关的第99项项目,其中将计算出的个体的年龄判断为不可接受的,并且仅在已经对基因组DNA序列的集合执行重新选择并且已经针对所述重新选择的集合重新计算了年龄之后,才输出年龄。
此外,本发明已经公开了第100项项目,该项目提出了根据上面列出的在前编号的项目中的一项所述的年龄确定方法,其中,基因组DNA序列的选择是基于对与多个个体的基因组DNA序列的甲基化水平相关的值的统计分析而进行的,特别是使用至少一种回归方法鉴定相关CpG基因座的统计分析,特别是用于鉴定相关CpG的主成分分析法、LASSO/弹性网络回归法和/或XPG Boost法中的至少一种而进行的。
此外,本发明已经公开了第101项项目,该项目涉及一种试剂盒,所述试剂盒至少包括用于个体的生物材料的容器,所述生物材料是以允许根据上面列出的在前编号的项目中的一项所述的年龄确定方法的方式获得和/或制备的;所述试剂盒还包括一种信息载体,所述信息载体携带与患者识别相关的信息;所述试剂盒还包括用于执行或如何执行以下各项的说明根据上文列出的编号项目的在前方法中的一项所述的方法,和/或为数据载体的产生提供数据,所述数据载体包含通过根据上文列出的编号项目的在前方法所述的方法确定年龄相关数据。
和/或提供一种数据载体,所述数据载体包含通过根据上面列出的在前编号的项目的前述方法的方法确定的年龄相关数据。
此外,本发明已经公开了第102项项目,该项目涉及一种评估实足年龄和生物学年龄之间的差异的方法,所述方法包括根据上面列出的在前编号的项目中的一项所述的方法,基于甲基化水平确定年龄,并将所确定的生物学年龄与已知的实足年龄进行比较。
此外,本发明已经公开了第103项项目,该项目涉及一种根据上面列出的在前编号的项目来评估实足年龄和生物学年龄之间的差异的方法,其中确定所述多个个体的差异,确定所述多个个体的可能影响或可能不影响所述差异的因素的值,并且确定了大量个体中对实足年龄和生物学年龄之间的差异有较大影响的因素。
此外,本发明已经公开了第104项项目,其涉及一种筛选多种影响衰老的分子的方法,所述方法包括以下步骤:确定与生物学年龄密切相关的多种基因组DNA序列,特别是通过参考上文列出的编号第79项项目的方法中为集合选择的基因组DNA序列,和确定所述多种分子中的一个分子对于所述基因组DNA序列的甲基化水平是否有积极的影响,特别是通过计算机模拟确定。
此外,本发明已经公开了第105项项目,该项目涉及一种基于对从多个个体中选择的基因组DNA序列的甲基化水平的评价确定一个体年龄的方法,其中所述多个个体包括该个体。
此外,本发明已经公开了第106项项目,其涉及一种芯片,所述芯片包括适用于确定甲基化水平的多个斑点,特别是少于500个、优选少于385个、特别是少于193个、特别是少于160个斑点,所述斑点包括至少一个并且优选数个特异性适用于确定以下各项中至少一项的甲基化水平的斑点:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545。
此外,本发明已经公开了第107项项目,该项目涉及一种在一系列个体中确定一个体的年龄指示物的方法,所述确定是基于在所述个体中发现的基因组DNA序列的甲基化水平而进行的,其中基于以下基因组DNA序列的集合的甲基化水平:选自具有可与多个个体的年龄相关联的甲基化水平的基因组DNA序列集,以下述方式,提供所述个体的年龄指示物:依赖于对所述多个个体的基因组DNA序列的甲基化水平的统计学评价的方式,其特征在于以下述方式,提供所述个体的所述年龄指示物:依赖于对多个个体的基因组DNA序列的甲基化水平的统计学评价的方式,所述多个个体与在前统计学评价涉及的同样用于确定该系列中的在前个体的年龄指示物的所述多个个体不同,所述多个个体的不同之处在于,至少通过引入所述系列中的至少一个另外的在前个体而修改了用于第一统计学评价的多个个体,并且,其中,优选地,通过以下方式提供所述个体的年龄指示物:对所述两种不同的多个个体的至少两次不同的统计学评价导致在由集合的甲基化水平计算所述年龄指示物时使用的至少一个系数发生变化,和/或导致不同基因组DNA序列或发现的CgP基因座的甲基化水平被考虑到。
在一些方面,公开了一种基于基因组DNA序列的甲基化水平确定一系列个体中的某个个体的年龄指示物的方法,其中选择基因组DNA序列的集合,并以一种持续改进先前测量的统计学评价以获得更好的模型的方式来提供所述个体的年龄指示物。
附图说明
图1:LASSO的性能。一组148个cg位点被确定为最佳。四个图示出了Lasso回归及其性能。在所有四个图中,垂直虚线代表针对所选变量的数量选择的自动阈值。所有图均报告了平均值以及20次交叉验证运行产生的范围间隔。根据biglasso软件包,不同的轴显示不同的模型度量。上面两个图报告了交叉验证误差和确定系数(R2)的概述,下面两个图报告了LASSO回归的R实现中的两个特定参数:信噪比和<bs>。详细信息在https://cran.rstudio.com/web/packages/biglasso/biglasso.pdf中。
图2:通过LASSO和后续逐步回归获得的年龄指示物的性能。显示的是训练数据集的259个体和测试数据集的30个体的实足年龄(实际年龄)和确定年龄(预测年龄)。在训练数据集和测试数据集之间未观察到相关或显著差异。所示的变化系数R2基于合并的训练数据和测试数据。
图3:代表性CpG位点与实足年龄的相关性。合并的训练数据和测试数据的个体基于其实足年龄进行分组(>48岁、25-48岁和<25岁;分别为“老年”、“中年”和“青年”)。显示了每个年龄组的8个代表性CpG位点的DNA甲基化水平(“值”)的分布。CpG位点中包含的基因附有注释。
图4:CG位点与如Horvath在“Genome Biology,2013,14:R115”中所述的CG位点集 的重叠。维恩图报道了本文通过应用LASSO(IME-Cerascreen)确定的148个基因组DNA序列(CpG)与Horvath在“Genome Biology,2013,14:R115”中报告的353个CpG的列表之间的重叠量。另见图5。
图5:本文通过应用LASSO(IME-Cerascreen)和后续逐步回归(IME_Cerascreen_8) 确定的CG位点重叠。还显示了与Horvath在“Genome Biology,2013,14:R115”中所述的CG位点集的重叠。另见图4。
实施例
实施例1:测量生物样品的DNA的CpG甲基化水平
对于极大数量的CpG(约850,000(850000)个),已经通过以下方式测量其各自的甲基化水平:
使用颊拭子从多个测试人员中采集颊细胞,并使用QIAamp 96DNA Swab BioRobot试剂盒(Qiagen,德国希尔登)从颊细胞中纯化出基因组DNA。使用Zymo EZ DNA甲基化试剂盒(Zymo,Irvine,加利福尼亚州,美国),通过亚硫酸氢钠处理纯化的基因组DNA。该处理将未甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶则保持不变。
根据制造商的说明,使用Infinium MethylationEPIC试剂盒(IlluminaTM,美国加利福尼亚圣地亚哥)中的组分执行所有后续步骤。简而言之,将经亚硫酸氢盐处理的样品变性并中和以准备对其进行扩增。然后使经扩增的DNA等温扩增过夜,并通过酶促方式使其片段化。用异丙醇沉淀片段化的DNA,在4℃下离心收集,并重悬于杂交缓冲液中。然后将片段化的、重悬的DNA样品分配到Infinium MethylationEPIC微珠芯片(IlluminaTM)上,并将微珠芯片在IlluminaTM杂交烘箱中孵育过夜,通过将片段退火至与所述微珠共价连接的基因座特异性50mer上,从而将样品杂交到微珠芯片上。
冲洗掉未杂交的和非特异性杂交的DNA,并准备微珠芯片以在毛细管流动室中进行染色和延伸。使用捕获的DNA作为模板,在微珠芯片上进行的寡核苷酸单碱基延伸,使得微珠芯片上掺入荧光标记,从而确定所查询的CpG位点的甲基化水平。用iScan系统扫描微珠芯片,使用激光激发微珠上单碱基延伸产物的荧光团,并记录从荧光团发出的光的高分辨率图像。使用GenomeStudio甲基化模块(IlluminaTM)分析数据,该模块允许计算每个所分析CpG的β值。
通过这一程序,每个样品和每个人都测得了多于850'000(850000)个不同的IlluminaTM定义的CpG的甲基化水平,并提供了该多于850'000(850000)个不同CpG的每一种的甲基化水平的数值。这是针对大量样品完成的,每个样品来自不同的个体。已将数值归一化,使得0对应于CpG可能的最小甲基化值并且1对应于CpG的最大甲基化值。值得注意的是,1也对应于100%或完全甲基化。
实施例2:通过碱基特异性裂解/MALDI-TOF(Agena)测量CpG甲基化水平
为了确定几百个不同的CpG的预选集的甲基化水平,使用了Agena Bioscience(美国加利福尼亚州圣地亚哥)的EpiTYPER DNA甲基化分析试剂盒。在该实施例中,已经确定了384个不同的CpG的384种甲基化水平。
同样,使用颊拭子从多个人员中采集颊细胞,并使用QIAamp 96DNA SwabBioRobot试剂盒(Qiagen,德国希尔登)从颊细胞中纯化出基因组DNA。使用Zymo EZ DNA甲基化试剂盒(Zymo,Irvine,加利福尼亚州,美国),用亚硫酸氢钠处理纯化的基因组DNA。该处理将未甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶则保持不变。
随后,每个靶区域使用一个特异性引物对,通过PCR扩增含有目标CpG的靶区域,每个PCR分别含有T7启动子标记的反向引物。
然后采用虾碱性磷酸酶处理PCR产物,以从样品中去除未反应的核苷酸,并使用T7RNA聚合酶进行体外转录。将所得的RNA转录物在尿嘧啶残基处进行特异性切割,并分配到SpectroCHIP阵列上。将该芯片放入MALDI-TOF质谱仪中进行数据采集,并使用EpiTYPER软件分析所得数据。
根据结果,提供了384种不同CpG的每个甲基化水平的数值。再次将数值归一化,使得0对应于CpG可能的最小甲基化值并且1(100%)对应于CpG的最大甲基化值。
通过实施例2的方法确定了384个不同的基因组DNA序列的甲基化水平,与约850,000(850000)个不同的基因组DNA序列相比,注意到,根据实施例2的分析成本显著更低,不到应用时成本的1/5。
实施例3:通过甲基化特异性PCR(msPCR)测量CpG甲基化水平
为了确定192个不同的CpG的预选集的甲基化水平,根据以下方式进行了实时定量甲基化特异性PCR(msPCR):
对于要分析的192种含CpG的靶区域中的每一个,设计了三个寡核苷酸的特定组,其中包含一个正向引物和两个反向引物。设计两个反向引物,使得一个反向引物在3’端具有与甲基化的未改变的C互补的G,而第二个正向引物在3’端具有与转化的尿嘧啶互补的A。
然后,使用颊拭子从多个人员中采集颊细胞,并使用QIAamp 96DNA SwabBioRobot试剂盒(Qiagen,德国希尔登)从颊细胞中纯化出基因组DNA。使用Zymo EZ DNA甲基化试剂盒(Zymo,Irvine,加利福尼亚州,美国),用亚硫酸氢钠处理纯化的基因组DNA。该处理将未甲基化的胞嘧啶转化为尿嘧啶,而甲基化的胞嘧啶则保持不变。
为了确定样品中含有的CpG的甲基化水平,对于每组三个寡核苷酸引发两次PCR反应,第一次PCR反应使用正向引物和两个反向引物中的第一个,第二次PCR反应使用正向引物和两个反向引物中的第二个。使用实时定量msPCR和特异于每个扩增靶区域的TaqMan探针,确定每个CpG的甲基化水平。
根据结果,提供了192种不同CpG的每一种的甲基化水平的数值。再次将数值归一化,使得0对应于CpG可能的最小甲基化值并且1(100%)对应于CpG的最大甲基化值。
由于不同基因组DNA序列的数量比实施例2的方法中的基因组DNA序列的数量少,该方法在成本方面极具竞争力。
实施例4:使用LASSO生成年龄预测器
除非另外说明,否则已经如实施例1中所述确定了289个体(训练数据集为259个,测试数据集为30个)的DNA甲基化水平。简而言之,已经使用Infinium MethylationEPIC微珠芯片(IlluminaTM)从颊拭子样品中确定了850,000种不同的基因组DNA序列的DNA甲基化水平。使用程序R v3.4.2将甲基化水平归一化为β值,因此其值可以在0到1之间。数据集,即训练数据集,是一个具有表1结构的数据矩阵。
表1
ID 实足年龄 CG1 CG2 CG850000
个体1 28 0.2 1.0 0.1
个体2 8
个体259 65
使用统计软件R v3.4.1和biglasso软件包,使用以下命令执行LASSO回归:
cvfit<-cv.biglasso(Vars800bm,Age,seed=2401,nfolds=20),
其中,Vars800bm是与表1所示的示例性矩阵相关的训练数据集,其中cg位点为自变量,并且年龄(Age)为要建模的因变量;种子(seed)是随机生成器使用的数字;nfolds是必须用来构建模型的交叉验证重复的次数。使用值20进行交叉验证。Biglasso软件包如下:“The biglasso Package:A Memory-and Computation-Effic Solver for LASSO ModelFitting with Big Data in R”由Yaohui Zeng和Patrick Breheny在arXiv:1701.05936v2[statCO]中于2018年3月11日发表。
通过LASSO回归获得的模型(年龄指示物)的公式为:
年龄(Age)=+53.9126*cg27320127+43.1588*cg16267121+31.5464*cg00831672+30.4384*cg27173374+26.5197*cg16867657+20.9302*cg14681176+19.0975*cg25606723+16.8674*cg11607603+16.6092*cg08097417+15.0595*cg11330075+14.5786*cg12333719+14.1955*cg10543136+13.6743*cg21807065+12.4988*cg19851481+12.1954*cg08224787+11.7822*cg19702785+11.7706*cg13759931+11.6845*cg19112204+11.4521*cg07955995+10.869*cg18815943+10.829*cg24724428+10.7537*cg22101188+10.4571*cg19215678+9.551*cg22519947+9.5225*cg06161948+9.3932*cg16677512+9.2647*cg05396610+8.9059*cg21628619+8.7864*cg15609017+8.6846*cg24954665+8.5015*cg25642673+8.284*cg07802350+7.9408*cg05087008+7.8335*cg12548216+7.7144*cg09965557+7.6203*cg16999154+7.6057*cg12238343+7.5126*cg08044253+7.0673*cg16465695+6.939*cg13206721+6.6733*cg09001642+6.1215*cg11176990+6.0675*cg07625177+6.0657*cg05292016+5.9961*cg16593468+5.9511*cg07291317+5.5409*cg18506897+5.4739*cg07120630+5.2279*cg08662753+5.1938*cg24088134+5.1655*cg00097800+4.8623*cg16950671+4.6431*cg16245716+4.6364*cg06279276+4.6224*cg08686931+4.1089*cg27540719+4.0082*cg07529089+3.9294*cg06945504+3.8147*cg23677767+3.7304*cg07766948+3.7296*cg00876345+3.541*cg05972734+3.5305*cg22540792+3.4169*cg08118942+3.1845*cg02032962+3.1329*cg09460489+3.0723*cg22444338+3.0498*cg08856941+2.8317*cg03741619+2.7707*cg03230469+2.6979*cg06153788+2.6678*cg10522765+2.6533*cg14911690+2.5934*cg06186727+2.5488*cg03526652+2.5152*cg01520297+2.4409*cg09805798+2.3836*cg07513002+2.3539*cg08960065+2.3285*cg06335143+2.3044*cg16673857+2.2379*cg05990274+2.0254*cg04525002+1.9303*cg13154327+1.8016*cg07494888+1.7889*cg03388189+1.7543*cg08478427+1.7476*cg18768299+1.6312*cg21165089+1.6196*cg17665505+1.613*cg13460409+1.5347*cg14305139+1.4346*cg12804730+1.2032*cg04875128+1.2025*cg05211227+1.1767*cg18737844+1.1712*cg21460868+1.15*cg26430984+1.135*cg10321869+1.0067*cg14756158+1.0021*cg16322747+0.9948*cg17343879+0.9605*cg22077936+0.7994*cg18339380+0.5436*cg00087368+0.3003*cg05812299+0.281*cg12732998+0.0507*cg16456442+0.0277*cg17760405+0.0165*cg12658720–0.2038*cg08457029–0.4098*cg21962791–0.4232*cg15761531–0.4506*cg19810954–0.4626*cg20425444–0.5866*cg23128025–0.6731*cg25845463–0.6945*cg03324695–1.0445*cg01636910–1.4555*cg12650870–1.8012*cg01820962–2.2813*cg07782620–2.4468*cg04320377–2.6024*cg09275691–2.6286*cg15008041–2.7124*cg20576243–3.4046*cg13973351–3.5199*cg08194377–3.5713*cg07381960–4.0608*cg10240079–4.2758*cg14231565–4.8117*cg24319133–4.8449*cg03680898–5.694*cg19301963–6.83*cg03473532–7.515*cg13333913–8.0702*cg05106770–8.3397*cg04287203–9.4713*cg27394136–9.4931*cg10501210–10.8424*cg19432688–12.9786*cg02536625–13.2229*cg04028695–14.2271*cg16781885–14.728*cg15743533–14.9252*cg04733826–15.7917*cg20088545–16.5954*cg06831571–367.4866。
该年龄指示物包括148个词,诸如+16.6092*cg08097417,其中正号指示甲基化水平与年龄呈正相关,而负号指示甲基化水平与年龄呈负相关。带编号的cg是指根据nfiniumMethylationEPIC微珠芯片的基因组DNA序列;而cg乘以的系数的绝对值指示该cg的重要性。
多种模型性能检查证实了:选择148个cg位点是最佳的(图1)。
该年龄指示物具有以下性能:R2=0.72,所选变量=148(非零系数),其中R2是确定系数。统计数据是由独立的测试数据集确定的,该测试数据集由30个个体(约10%)的数据组成,这些数据与用于训练数据集的259(289-30)个个体不同,但均从上述相同的289个个体的群体中获取。
此外,已将LASSO应用于289个个体中的64个或150个个体的数据上(表2)。
表2
Figure BDA0003012432770000511
这表明,在将另一些个体的数据迭代地添加到数据集中并且迭代更新年龄指示物时,会提高LASSO的性能。
实施例5:使用LASSO和后续逐步回归生成年龄预测器
对执行LASSO之后获得的缩减的训练数据集进行逐步回归(实施例4),以提取cg位点/CpG的最具显著性的集,从而优化模型。缩减的训练数据集(IME_blasso[,-1])与实施例4中使用的训练数据集相同,不同之处在于它仅保留了与LASSO选择的148个cg位点相关的148列。
使用统计软件R v3.4.1和以下命令执行逐步回归:
model_blasso<-step(lm(Age~.,data=IME_blasso[,-1]),direction=“both”),其中移除无显著性变量的方向为“both”,这意味着既允许添加变量又允许移除变量。
在LASSO回归和后续逐步回归后,获得的模型(年龄指示物)的公式为:
年龄(Age)=+66.2822*cg11330075+65.203*cg00831672+55.7265*cg27320127+44.4116*cg27173374+38.3902*cg14681176+37.8069*cg06161948+36.6564*cg08224787+31.9397*cg05396610+30.1919*cg15609017+28.089*cg09805798+27.9392*cg19215678+27.8502*cg12333719+27.226*cg03741619+27.0323*cg16677512+25.9599*cg03230469+25.3932*cg19851481+24.5374*cg10543136+22.5525*cg07291317+21.8666*cg26430984+20.3621*cg16950671+20.3269*cg16867657+19.7973*cg22077936+18.7137*cg08044253+18.2047*cg12548216+18.1936*cg05211227+18.0812*cg13759931+17.6857*cg08686931+17.5303*cg07955995+16.1143*cg07529089+14.8703*cg01520297+14.6684*cg00087368+14.4397*cg05087008+14.4361*cg24724428+14.3055*cg19112204+14.2968*cg04525002+14.2302*cg08856941+13.3831*cg16465695+11.8127*cg08097417+11.7798*cg21628619+11.3523*cg09460489+11.2461*cg13460409+10.6268*cg25642673+10.4347*cg19702785+9.7844*cg18506897+9.5931*cg21165089+9.093*cg27540719+8.9361*cg21807065+8.8577*cg18815943+8.6138*cg23677767+7.1699*cg07802350+7.0528*cg11176990+6.5416*cg10321869+6.5049*cg17343879+5.8296*cg08662753+5.696*cg14911690+3.2983*cg12804730+3.1388*cg16322747–4.8653*cg14231565–5.5608*cg10501210–6.047*cg09275691–6.35*cg15008041–9.1942*cg05812299–9.3144*cg24319133–9.4566*cg12658720–9.8704*cg20576243–10.4082*cg03473532–10.6429*cg07381960–11.1592*cg05106770–12.0021*cg04320377–12.3296*cg19432688–12.9858*cg22519947–13.7116*cg06831571–13.8029*cg08194377–13.8668*cg01636910–14.6975*cg14305139–15.0408*cg04028695–16.3295*cg15743533–16.3314*cg03680898–18.6196*cg20088545–19.0952*cg13333913–19.3068*cg19301963–21.5752*cg13973351–23.0892*cg16781885–26.0415*cg04287203–32.3606*cg27394136–48.0918*cg10240079–50.0227*cg02536625–63.4434*cg23128025–519.3495。
术语和统计数据的含义如实施例4中所解释的。有关cg序列和系数的更多详细信息,参见表6。
因此,在应用逐步回归后,将进一步减少所选变量的数量。实际上,年龄指示物仅包含88个基因组DNA序列(cg位点/CpG)。
而且,通过LASSO和后续逐步回归获得的年龄指示物的性能为:
R2=0.9884(训练数据);R2=0.9929(包含30个测试个体数据的测试数据集,如实施例4中所解释的)。因此,通过与未进行逐步回归的LASSO获得的年龄指示物相比,性能有所增强。
对测试数据的性能与对训练数据集的性能一样好,这表明年龄指示物具有出色的性能(图2)。而且,这种较高的确定系数值表明,与现有技术中的年龄指示物相比有显著的改善。
通过基于个体的实足年龄对其进行分组(合并的训练和测试数据集),可以证实,通过回归分析选择的代表性cg位点的甲基化水平与年龄组具有良好的相关性(图3)。
然后在表3中,将年龄指示物及其确定值与Horvath,Genome Biology,2013,14:R115中的年龄指示物进行了比较:
表3
Figure BDA0003012432770000521
这证实了:尽管仅约占基因组DNA序列(自变量)的数量的25%,但通过LASSO+逐步回归获得的年龄指示物的性能至少与相关现有技术的年龄指示物一样好,甚至更好。
年龄指示物中包括的小的基因组DNA序列集允许使用替代方法(即更简单的方法)(参见实施例2和3)确定待确定其年龄的个体的DNA甲基化水平。
而且,仅通过LASSO或通过LASSO+后续逐步回归确定的cg位点集,与Horvath,Genome Biology,2013,14:R115中确定的cg位点几乎没有重叠(图4和5)。
实施例6:由cg位点/CpG集确定基因集
将通过应用LASSO(实施例4)或LASSO+逐步回归(实施例5)确定出的cg位点列表进行过滤,过滤出那些完全包含在基因中的cg位点。在第一个列表(表4)中,基于由LASSO确定的148个CpG选择了106个(部分冗余的)编码序列和非编码序列,诸如微小RNA或长链非编码RNA:
表4
Figure BDA0003012432770000531
Figure BDA0003012432770000541
Figure BDA0003012432770000551
Figure BDA0003012432770000561
Figure BDA0003012432770000571
Figure BDA0003012432770000581
Figure BDA0003012432770000591
在缩减的基因集中(表5),从表4中选择了可用于药物治疗的基因靶标。特别地,如果用于确定编码蛋白活性或功能的体外测定是本领域已知的,则选择该基因。
表5
Figure BDA0003012432770000592
Figure BDA0003012432770000601
Figure BDA0003012432770000611
最后,从通过LASSO+逐步回归确定的88个CpG中,选择了具有68个(部分冗余的)编码序列和非编码序列(诸如微小RNA或长链非编码RNA)的列表(表6)。该表进一步显示了各个年龄指示物的系数及其标准误差(参见实施例5)。
表6
Figure BDA0003012432770000612
Figure BDA0003012432770000621
Figure BDA0003012432770000631
Figure BDA0003012432770000641
实施例7:年龄指示物的迭代更新
基于测试数据的域边界是否在年龄指示物训练集域边界之外这一判定,根据情况(先证者;个体)自动更新年龄指示物。域边界是年龄指示物中包括的每个基因组DNA序列的最小和最大DNA甲基化水平。最小和最大DNA甲基化水平存在于已被用于确定年龄指示物的原始训练数据集中。如果有其他个体的值输入并替换每个CpG的原始的最小值和最大值,则这些值随时会改变。因此,每个CpG的最小值将会减小(如果最小值尚未为0),并且最大值将会增大(如果尚未为1)。如此,年龄指示物的域边界将扩展到最佳值,而且进一步更新年龄指示物的可能性将越来越小。
更新是通过以下R代码完成的:
##%######################################################%##
##
####Predictions with a test data set####
##
##%######################################################%##
prdct<-data.frame(SampleID=newsamlesdf$SampleID,
pred_age=predict(model_blasso,newsamplesdf),stringsAsFactors=F)
plot(newsamplesdf$Age,prdct$pred_age,pch=16,col="red",xlab="RealAge",ylab=
"Predicted Age")
abline(0,1,col="red")
##%######################################################%##
##
####If the predictions this way are####
####not satisfactory need to run this####
##
##%######################################################%##
IME_blasso<-IME_blasso%>%dplyr::select(Age,everything())
domain<-data.frame(min=apply(as.matrix(IME_blasso[,-1]),2,min),
max=apply(as.matrix(IME_blasso[,-1]),2,max))
#calculate domain for new samples
domain_curr<-data.frame(min=apply(as.matrix(newsamplesdf),2,min),
max=apply(as.matrix(newsamplesdf),2,max))
##%######################################################%##
##
####operative check for prediction####
##
####%######################################################%##
if(sum((domain$min-domain_curr$min)<0&(domain$max-domain_curr$max)>0)){
nnew<-NROW(newsamplesdf)
nn<-NROW(IME_blasso)
#add new probands to the training set
newIME_blasso<-rbind(IME_blasso,newsamplesdf)#concatenate the two set
#rerun the model
model_blasso_new<-step(lm(Age~.,data=newIME_blasso),direction="both")
sstep<-summary(model_blasso_new)
sstep
##check
par(mfrow=c(1,1))
plot(newIME_blasso$Age,model_blasso_new$fitted.values,
xlab="Real Age[red points=new points]",ylab="Predicted Age",
main=paste("Stepwise Regression with IME_newModel CpGs R2=",
round(sstep$r.squared,3),sep=""),pch=1)
abline(0,1,col="red")
errs<-newIME_blasso$Age-model_blasso_new$fitted.values
mae(errs)
postResample(newIME_blasso$Age,
as.vector(model_blasso_new$fitted.values))
points(newIME_blasso$Age[nn:(nn+nnew)],
as.vector(model_blasso_new$fitted.values[nn:(nn+nnew)]),col="red",
pch=16)
##
predictions<-data.frame(Age=newIME_blasso$Age[nn:(nn+nnew)],
PredAge=model_blasso_new$fitted.values[nn:(nn+nnew)])
write.csv(predictions,"predictions.csv")
save(model_blasso_confy_new,file="model_blasso_new.lm")
#rm(newIME_blasso)
}else{
predicted<-predict.lm(model_blasso_confy,newsamplesdf)
plot(newsamplesdf$Age,predicted,pch=12,main="Predictions with IME_model")
abline(coef=c(model_blasso_new,1),col="red")
external_pred<-data.frame(PredAge=predicted,RAge=newsamplesdf$Age)
postResample(predicted,newsamplesdf$Age)
}
实施例8:进一步的数据统计分析和年龄预测
已从约200个个体中采集DNA。这些样品都是在德国北部获得的,但为了使数据库范围更宽,已注意不因以下因素而排除任何个体:诸如实足年龄、总体健康状态、肥胖、身体保健水平、药物消耗(包括诸如尼古丁和酒精等药物)等。因此,该组被认为代表了一般人群。
已经使用实施例1的方法确定了约100个个体的生物样品中DNA的CpG甲基化水平,针对每个个体都得到了较大量的CpG,约850,000(850000)个。
鉴于数据量及其分析的计算成本,将数据任意分成较小的组,然后对这些较小的组的数据进行分析。
使用第一组16个个体的数据进行了主成分分析,并且发现了导致了在各组样品CpG的甲基化水平中观察到的几乎所有方差的10个主要成分,其中前两个成分已经造成98%的变异,这清楚地表明,尽管所考虑的不同CpG甲基化水平的量非常大,但仍建议减少数量。基于主成分分析并使用回归技术,为每个组建立了一个预测器模型,基本上显示出所构建的模型仍冗杂有一些无意义的系数。
还确定了,除此以外,发现所确定的许多系数也没有统计学意义。
考虑到这一点,分析了来自第一大组(98个个体)的数据,旨在建立这样的模型:该模型要考虑的CpG数量显著降低,同时保持所有参数的高统计学显著性。为此,首先执行LASSO回归;请注意,LASSO回归是本领域公知的技术,并且可以容易地获得用于实现Lasso回归的软件包。需要注意的是,可以区分给定CpG的甲基化水平是否具有特定的统计学相关性;这使得能够仅考虑具有一定相关性的CpG。特别地,在这一方面,参考了Yaohui Zeng和Patrick Breheny在arXiv:1701.05936v2[statCO]中于2018年3月11日发表的“Thebiglasso Package:A Memory-and Computation-Effic Solver for LASSO ModelFitting with Big Data in R”。使用通过LASSO回归选择的仅50个不同的确定的CpG构成的最佳集,尝试进一步优化所得到的模型。使用XgBoost算法完成该步骤。请注意,XgBoost是一个公知的开源软件库,它提供了多种语言的梯度提升框架。需要注意的是,XgBoost用于修改统计模型中使用的系数。有关XgBoost算法及其实现的更多详细信息,请参考T.Chen和C.Guestrin在arXiv:1603.02754v3中于2016年6月10日发表的“XGBoost:A ScalableTree Boosting System”。出于公开的目的,所引用文献的内容以其整体全部并入本文中。
发现可以获得产生了良好的回归系数的高性能模型。
但是,并未满足于已考虑的组所获得的高回归系数,也未满足于保持该高性能模型不变,而是以与前文相同的方式分析了来自另外98个个体的数据。发现对于第二组,约78个CpG应在模型中考虑,并且78个CpG中有8个与选择用于第一个任意组(98个个体)的50个CpG重叠。
然后,进行了另一轮运行,并确定出:在合并的组中,在最初考虑的约850000个不同的CpG中,70个CpG的选择非常有益。在这70个CpG中,只有10个与第一组的CpG重叠,只有12个与第二组的CpG重叠,并且有8个与两个组同时重叠。
使用XgBoost进行的回归允许在20轮交叉验证后仍保持同样高的性能。
这表明,通过统计手段(特别是LASSO回归、PCA或者用于区分大量CpG中的特定CpG是否具有统计相关性的其他手段),可以将CpG的数量从总体极大的集显著缩小成相当小的集,从而允许使用上文实施例2和3中提到的方法进行便宜的检测。
而后,可以仅对该较小的集建立可用的模型,尽管所考虑的CpG数量较少,但仍可以以高精度和较小的置信区间确定出年龄,特别是通过对所建立的统计模型的参数进行重复迭代的情况下。
以这种方式,尽管所考虑的CpG数量在整体上很少,但最初确定的年龄将非常精确,而且可靠性会随着时间而增加。

Claims (93)

1.一种确定年龄指示物的方法,其包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在所述训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定所述年龄指示物和缩减的训练数据集,
其中自变量为所述基因组DNA序列的甲基化水平,并且优选地,其中因变量为年龄,其中所述年龄指示物包括:
(i)所述基因组DNA序列集的子集,和
(ii)包含在所述集合中的每个基因组DNA序列的至少一个系数,并且
其中所述缩减的训练数据集包括所述训练数据集中,除了被所述LASSO消除的基因组DNA序列的所述DNA甲基化水平以外的所有数据。
2.一种确定个体年龄的方法,其包括以下步骤:
(a)提供多个个体的训练数据集,每个个体的训练数据集包括:
(i)基因组DNA序列集的DNA甲基化水平,和
(ii)实足年龄,和
(b)在所述训练数据集上应用包括最小绝对收缩和选择算子(LASSO)的回归方法,从而确定所述年龄指示物和缩减的训练数据集,
其中自变量为所述基因组DNA序列的甲基化水平,并且优选地,其中因变量是年龄,其中所述年龄指示物包括:
(i)所述基因组DNA序列集的作为集合的子集,和
(ii)包含在所述集合中的每个基因组DNA序列的至少一个系数,并且
其中所述缩减的训练数据集包括所述训练数据集中,除了被所述LASSO消除的基因组DNA序列的DNA甲基化水平以外的所有数据,和
(c)提供待确定其年龄的个体的DNA甲基化水平,所述DNA甲基化水平为所述年龄指示物中包括的至少80%、优选100%的所述基因组DNA序列的DNA甲基化水平,以及
(d)基于所述个体的所述DNA甲基化水平和所述年龄指示物确定所述个体的年龄,
优选地,其中所确定的年龄可与所述个体的实足年龄不同。
3.根据权利要求1或2所述的方法,其中所述回归方法还包括在所述LASSO之后,应用逐步回归。
4.根据权利要求3所述的方法,其中将所述逐步回归应用于所述缩减的训练数据集。
5.根据权利要求1至4中任一项所述的方法,其中所述年龄指示物中包括的所述集合小于所述基因组DNA序列集。
6.根据权利要求1至5中任一项所述的方法,其中所述年龄指示物中包括的所述集合小于所述缩减的训练数据集中包括的所述基因组DNA序列集。
7.根据权利要求3至6中任一项所述的方法,其中所述逐步回归为双向消除,其中移除了统计学上不显著的自变量,优选地,其中显著性水平为0.05。
8.根据权利要求1至7中任一项所述的方法,其中使用biglasso R软件包进行所述LASSO,优选地,通过应用“cv.biglasso”命令进行所述LASSO,优选地,其中“nfold”为20。
9.根据权利要求1至8中任一项所述的方法,其中所述回归方法不包括岭回归(L2正则化)或L2正则化参数/λ参数为0。
10.根据权利要求1至9中任一项所述的方法,其中LASSO L1正则化参数/α参数为1。
11.根据权利要求1至10中任一项所述的方法,其中所述年龄指示物被迭代更新,所述迭代更新包括在每次迭代中将至少一个其他个体的数据添加到训练数据中,从而迭代地扩展所述训练数据集。
12.根据权利要求11所述的方法,其中在一个更新轮次中,每个其他个体的添加数据包括所述个体的以下DNA甲基化水平:
(i)初始训练数据集或任一扩展训练数据集中包括的所述基因组DNA序列集的至少5%、优选50%、更优选100%的DNA甲基化水平,和/或
(ii)所述缩减的训练数据集中包含的所述基因组DNA序列的DNA甲基化水平。
13.根据权利要求11或12所述的方法,其中并非在所有向所述扩展训练数据集贡献了数据的个体中均存在的所有基因组DNA序列(自变量)均被从所述扩展训练数据集移除。
14.根据权利要求11至13中任一项所述的方法,其中在一个更新轮次中,对于所述其他个体中的每一个,所添加的甲基化水平所属的基因组DNA序列集是相同的。
15.根据权利要求11至14中任一项所述的方法,其中一个更新轮次包括在所述扩展训练数据集上应用所述LASSO,从而确定更新的年龄指示物和/或更新的缩减的训练数据集。
16.根据权利要求11至15中任一项所述的方法,其中被添加了至少一个其他个体的数据的训练数据集是所述缩减的训练数据集,所述缩减的训练数据集可以是初始训练数据集或更新的缩减的训练数据集中的任一个。
17.根据权利要求16所述的方法,其中所述缩减的训练数据集是迭代中先前的缩减的训练数据集。
18.根据权利要求11至17中任一项所述的方法,其中一个更新轮次包括对所述缩减的训练数据集应用逐步回归,从而确定更新的年龄指示物。
19.根据权利要求1至18中任一项所述的方法,其中在一个更新轮次中,从所述训练数据集和/或所述缩减的训练数据集中移除至少一个个体的数据。
20.根据权利要求11至19中任一项所述的方法,其中个体数据的添加和/或移除取决于所述个体的至少一个特征,其中所述特征为民族、性别、实足年龄、住所、出生地、至少一种疾病和/或至少一种生活方式因素,其中所述生活方式因素选自药物消耗、对环境污染物的暴露、轮班工作或压力。
21.根据权利要求1至20中任一项所述的方法,其中对所述年龄指示物的质量进行确定,其中所述确定所述质量包括以下步骤:
(a)提供尚未向所述训练数据集贡献数据的多个个体的测试数据集,每个所述个体的测试数据集包括:
(i)所述年龄指示物中包括的所述基因组DNA序列集的所述DNA甲基化水平,和
(ii)实足年龄;和
(b)通过统计学评价和/或域边界评价来确定所述年龄指示物的所述质量,
其中所述统计学评价包括:
(i)确定所述测试数据集中包括的所述个体的年龄,
(ii)将所确定的年龄与所述个体的实足年龄相关联,并确定描述所述相关性的至少一个统计参数,以及
(iii)判断所述统计参数是否指示所述年龄指示物具有可接受的质量,优选地,其中所述统计参数选自确定系数(R2)和平均绝对误差(MAE),其中,R2大于0.50、优选大于0.70、优选大于0.90、优选大于0.98和/或MAE小于6年、优选小于4年、优选至多1年指示了可接受的质量,并且
其中所述域边界评价包括
(iv)确定所述年龄指示物的所述域边界,
其中所述域边界是所述年龄指示物中包括的每个基因组DNA序列的最小和最大DNA甲基化水平,并且
其中所述最小和最大DNA甲基化水平存在于已经用于确定所述年龄指示物的所述训练数据集中,以及
(v)确定所述测试数据集是否超出所述域边界,其中不超出所述域边界显示为可接受的质量。
22.根据权利要求1至21中任一项所述的方法,其中所述训练数据集和/或所述测试数据集包括至少10个、优选至少30个个体、优选至少200个个体,优选地,其中所述训练数据集包括至少200个个体,并且所述测试数据集包括至少30个个体。
23.根据权利要求21或22所述的方法,其中当所述年龄指示物的质量为不可接受时更新所述年龄指示物。
24.根据权利要求11至23中任一项所述的方法,其中所述个体的所述年龄是基于所述个体的DNA甲基化水平和所述更新的年龄指示物而确定的。
25.根据权利要求2至24中任一项所述的方法,其中当所述个体尚未向用于生成所述年龄指示物的所述训练数据集贡献数据时,仅用所述年龄指示物确定所述个体的所述年龄。
26.根据权利要求1至25中任一项所述的方法,其中当所述数据中包括的个体数量已达到预定值和/或自上次更新以来已经过预定时间时,不再进一步更新所述年龄指示物。
27.根据权利要求1至26中任一项所述的方法,其中从甲基化水平可与所述实足年龄相关联的基因组DNA序列中预选出所述训练数据集中包括的所述基因组DNA序列集。
28.根据权利要求27所述的方法,其中,经预选的集包括至少400000个、优选至少800000个基因组DNA序列。
29.根据权利要求1至28中任一项所述的方法,其中所述训练数据集中包括的所述基因组DNA序列彼此不重叠和/或每个等位基因仅出现一次。
30.根据权利要求1至29中任一项所述的方法,其中所述缩减的训练数据集包括至少90个、优选至少100个、优选至少140个基因组DNA序列。
31.根据权利要求1至30中任一项所述的方法,其中所述缩减的训练数据集包括少于5000个、优选少于2000个、优选少于500个、优选少于350个、优选少于300个基因组DNA序列。
32.根据权利要求1至31中任一项所述的方法,其中所述年龄指示物包括至少30个、优选至少50个、优选至少60个、优选至少80个基因组DNA序列。
33.根据权利要求1至32中任一项所述的方法,其中所述年龄指示物包括少于300个、优选少于150个、优选少于110个、优选少于100个、优选少于90个基因组DNA序列。
34.根据权利要求1至33中任一项所述的方法,其中个体的所述基因组DNA序列的所述DNA甲基化水平是在所述个体的包含所述基因组DNA序列的生物材料样品中进行测量的。
35.根据权利要求34所述的方法,其中所述样品包含颊黏膜细胞。
36.根据权利要求34或35中任一项的所述的方法,其还包括获得所述样品的步骤,其中所述样品为无创获得。
37.根据权利要求34至36中任一项所述的方法,其中所述DNA甲基化水平是通过以下方式测量的:甲基化测序、硫酸氢盐测序、PCR方法、高分辨率熔解曲线分析(HRM)、甲基化敏感性单核苷酸引物延伸(MS-SnuPE)、甲基化敏感性单链构象分析、甲基敏感性酶切计数(MSCC)、碱基特异性裂解/MALDI-TOF、结合硫酸氢盐限制性酶切分析(COBRA)、甲基化DNA免疫共沉淀(MeDIP)、基于微阵列的方法、基于微珠阵列的方法、焦磷酸测序和/或无硫酸氢盐处理的直接测序(纳米孔道技术)。
38.根据权利要求34至37中任一项所述的方法,其中个体的基因组DNA序列的所述DNA甲基化水平是通过碱基特异性裂解/MALDI-TOF和/或PCR方法测量的,优选地,其中所述碱基特异性裂解/MALDI-TOF是Agena技术并且所述PCR方法是甲基化特异性PCR。
39.根据权利要求34至38中任一项所述的方法,其中所述年龄指示物中包括的所述基因组DNA序列的所述DNA甲基化水平是在所述待确定其年龄的个体的包含所述基因组DNA序列的生物材料样品中确定的。
40.一种基因组DNA序列的集合,其包括以下各项中的至少10个、优选至少50个、优选至少70个、优选全部:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg27320127、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
41.根据权利要求39所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选至少10个、优选至少30个、优选至少70个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg16677512、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg22077936、cg08044253、cg12548216、cg05211227、cg13759931、cg08686931、cg07955995、cg07529089、cg01520297、cg00087368、cg05087008、cg24724428、cg19112204、cg04525002、cg08856941、cg16465695、cg08097417、cg21628619、cg09460489、cg13460409、cg25642673、cg19702785、cg18506897、cg21165089、cg27540719、cg21807065、cg18815943、cg23677767、cg07802350、cg11176990、cg10321869、cg17343879、cg08662753、cg14911690、cg12804730、cg16322747、cg14231565、cg10501210、cg09275691、cg15008041、cg05812299、cg24319133、cg12658720、cg20576243、cg03473532、cg07381960、cg05106770、cg04320377、cg19432688、cg22519947、cg06831571、cg08194377、cg01636910、cg14305139、cg04028695、cg15743533、cg03680898、cg20088545、cg13333913、cg19301963、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025,或其包含至少70%、优选至少90%的连续核苷酸序列的片段。
42.根据权利要求41所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选至少10个、优选全部:cg11330075、cg00831672、cg27320127、cg27173374、cg14681176、cg06161948、cg08224787、cg05396610、cg15609017、cg09805798、cg19215678、cg12333719、cg03741619、cg03230469、cg19851481、cg10543136、cg07291317、cg26430984、cg16950671、cg16867657、cg13973351、cg16781885、cg04287203、cg27394136、cg10240079、cg02536625以及cg23128025。
43.根据权利要求41或42所述的基因组DNA序列的集合,其包括以下各项中的至少4个、优选全部:cg11330075、cg00831672、cg27320127、cg10240079、cg02536625以及cg23128025。
44.根据权利要求40至43中任一项所述的基因组DNA序列的集合,其包含除所述基因组DNA序列的集合之外的和/或代替所述基因组DNA序列的集合的互补序列。
45.一种基因集,其包括以下各项中的至少10个、优选至少30个、优选至少50个、优选至少70个、优选全部:
SIM bHLH转录因子1(SIM1);微管相关蛋白4(MAP4);蛋白激酶Cζ(PRKCZ);谷氨酸离子受体AMPA型亚基4(GRIA4);BCL10,免疫信号接合子(BCL10);含5'核苷酸酶结构域的蛋白1(NT5DC1);抑制致肿瘤性7(ST7);蛋白激酶Cη(PRKCH);胶质细胞源性神经营养因子(GDNF);muskelin 1蛋白(MKLN1);exocyst复合体成分6B(EXOC6B);蛋白S(PROS1);钙电压门控通道亚基α1D(CACNA1D);kelch式家族成员42(KLHL42);OTU去泛素酶7A(OTUD7A);死亡相关蛋白(DAP);含卷曲螺旋结构域的蛋白179(CCDC179);碘甲腺原氨酸脱碘酶2(DIO2);瞬时受体电位阳离子通道亚家族V成员3(TRPV3);MT-RNR2样蛋白5(MTRNR2L5);细丝蛋白B(FLNB);弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN);溶质载体家族25成员17(SLC25A17);含G-patch结构域的蛋白1(GPATCH1);UDP-GlcNAc:βGalβ-1,3-N-乙酰基葡糖胺转移酶9(B3GNT9);zyg-11家庭成员A;细胞周期调控因子(ZYG11A);癫痫样相关蛋白6(SEZ6L);肌球蛋白X(MYO10);乙酰-CoA羧化酶α(ACACA);G蛋白亚基αi1(GNAI1);含CUE结构域的蛋白2(CUEDC2);同源框D13(HOXD13);Kruppel样因子14(KLF14);溶质载体家族1成员2(SLC1A2);乙酰乙酰-CoA合成酶(AACS);含锚蛋白重复序列和无菌α基序结构域的蛋白1A(ANKS1A);微小RNA 7641-2(MIR7641-2);胶原蛋白Vα1链(COL5A1);亚砷酸盐甲基转移酶(AS3MT);溶质载体家族26成员5(SLC26A5);核孔蛋白107(NUP107);基因间非蛋白长编码RNA 1797(LINC01797);肌球蛋白IC(MYO1C);锚蛋白重复序列结构域37(ANKRD37);磷酸二酯酶4C(PDE4C);含EF-hand结构域的蛋白1(EFHC1);未特征的LOC375196(LOC375196);ELOVL脂肪酸延伸酶2(ELOVL2);WAS蛋白家族成员3(WASF3);染色体17开放阅读框82(C17orf82);G蛋白偶联受体158(GPR158);F-box和富含亮氨酸的重复序列蛋白7(FBXL7);波纹状转录抑制子3(RIPPLY3);ESCRT-1的VPS37C亚基(VPS37C);多肽N-乙酰半乳糖胺基转移酶样蛋白6(GALNTL6);含DENN结构域的蛋白3(DENND3);核受体协同抑制因子2(NCOR2);含内皮PAS结构域蛋白1(EPAS1);PBX同源异形框蛋白4(PBX4);基因间非蛋白长编码RNA 1531(LINC01531);序列相似性家族110成员A(FAM110A);含糖基转移酶8结构域的蛋白1(GLT8D1);G蛋白亚基γ2(GNG2);MT-RNR2样蛋白3(MTRNR2L3);锌指蛋白140(ZNF140);激酶抑制因子1(KSR1);蛋白二硫键异构酶家族A成员5(PDIA5);精子发生相关蛋白7(SPATA7);泛酸激酶1(PANK1);泛素特异性蛋白酶4(USP4);G蛋白亚基αq(GNAQ);钾电压门控通道修饰子亚家族S成员1(KCNS1);DNA聚合酶γ2,辅助亚基(POLG2);鹳头盒2(STOX2);轴突蛋白3(NRXN3);BMS1,核糖体生物发生因子(BMS1);叉头框E3(FOXE3);NADH:泛醌氧化还原酶亚基A10(NDUFA10);松弛素家族肽受体3(RXFP3);GATA结合蛋白2(GATA2);含类异戊二烯合酶结构域的蛋白(ISPD);腺苷脱氨酶,RNA特异性B1(ADARB1);Wnt家庭成员7B(WNT7B);含普列克底物蛋白和Sec7结构域的蛋白3(PSD3);膜锚定连接蛋白(MAJIN);吡啶核苷酸-二硫化物氧化还原酶结构域1(PYROXD1);扣带蛋白样蛋白1(CGNL1);染色体7开放阅读框50(C7orf50);含MORN重复序列的蛋白1(MORN1);atlastin GTP酶蛋白2(ATL2);含WD重复序列和FYVE结构域的蛋白2(WDFY2);跨膜蛋白136(TMEM136);肌醇聚磷酸-5-磷酸酶A(INPP5A);TBC1结构域家族成员9(TBC1D9);干扰素调控因子2(IRF2);去乙酰化酶7(SIRT7);XXIII型胶原蛋白α1链(COL23A1);鸟嘌呤单磷酸合酶(GMPS);钾双孔结构域通道亚家族K成员12(KCNK12);SIN3-HDAC复合体相关因子(SINHCAF);血红蛋白亚基ε1(HBE1)以及含tudor结构域的蛋白1(TDRD1)。
46.根据权利要求45所述的基因集,其包括以下各项中的至少5个、优选至少10个、优选至少30个、优选全部:ISPD、KCNK12、GNG2、SIRT7、GPATCH1、GRIA4、LINC01531、LOC101927577、NCOR2、WASF3、TRPV3、ACACA、GDNF、EFHC1、MYO10、COL23A1、TDRD1、ELOVL2、GNAI1、MAP4、CCDC179、KLF14、ST7、INPP5A、SIM1、SLC1A2、AS3MT、KSR1、DSCR6、IRF2、KCNS1、NRXN3、C11orf85、HBE1、FOXE3、TMEM136、HOXD13、LOC375196、PANK1、MIR107、COL5A1、PBX4、ZNF140、GALNTL6、NUP107、LOC100507250、MTRNR2L5、C17orf82、MKLN1、FURIN、KLHL42、MORN1、ANKS1A、BCL10、DENND3、FAM110A、PROS1、WNT7B、FBXL7、GATA2、VPS37C、NRP1、POLG2、ANKRD37、GMPS以及WDFY2。
47.根据权利要求45所述的基因集,其包括以下各项中的至少5个、优选至少10个、优选至少20个、优选全部:
微管相关蛋白4(MAP4);蛋白激酶Cζ(PRKCZ);谷氨酸离子受体AMPA型亚基4(GRIA4);抑制致肿瘤性7(ST7);蛋白激酶Cη(PRKCH);钙电压门控通道亚基α1D(CACNA1D);死亡相关蛋白(DAP);瞬时受体电位阳离子通道亚家族V成员3(TRPV3);弗林蛋白酶,配对碱性氨基酸裂解酶(FURIN);乙酰-CoA羧化酶α(ACACA);G蛋白亚基αi1(GNAI1);溶质载体家族1成员2(SLC1A2);磷酸二酯酶4C(PDE4C);ELOVL脂肪酸延伸酶2(ELOVL2);核受体协同抑制因子2(NCOR2);含内皮PAS结构域蛋白1(EPAS1);G蛋白亚基γ2(GNG2);泛酸激酶1(PANK1);泛素特异性蛋白酶4(USP4);G蛋白亚基αq(GNAQ);钾电压门控通道修饰子亚家族S成员1(KCNS1);DNA聚合酶γ2,辅助亚基(POLG2);NADH:泛醌氧化还原酶亚基A10(NDUFA10);松弛素家族肽受体3(RXFP3);含类异戊二烯合酶结构域的蛋白(ISPD);肌醇聚磷酸-5-磷酸酶A(INPP5A);去乙酰化酶7(SIRT7);鸟嘌呤单磷酸合酶(GMPS);SIN3-HDAC复合体相关因子(SINHCAF);含tudor结构域的蛋白1(TDRD1)。
48.根据权利要求40至44中任一项所述的基因组DNA序列的集合或根据权利要求45至47中任一项所述的基因集,其是通过权利要求2至39所述的方法获得的,
其中根据所述方法,将所述基因组DNA序列的集合包括在所述缩减的训练数据集中和/或所述年龄指示物中,并且
其中所述基因集是通过从所述基因组DNA序列的集合中选择编码蛋白质或微小RNA或长链非编码RNA而获得的。
49.根据权利要求40至44或48中任一项所述的基因组DNA序列的集合,或根据权利要求45至48中任一项所述的基因集,其用于诊断个体的健康状态。
50.根据权利要求49所使用的所述基因组DNA序列的集合或基因集,其中所述健康状态包括至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,
其中所述状态指示了所述疾病或与疾病相关的所述表型是否存在、或其所处阶段。
51.根据权利要求50所使用的所述基因组DNA序列的集合或基因集,其中所述衰老相关疾病为阿尔茨海默氏病、帕金森氏病、动脉粥样硬化、心血管疾病、癌症、关节炎、白内障、骨质疏松症、2型糖尿病、高血压、与年龄有关的黄斑变性和/或良性前列腺增生。
52.一种根据权利要求40至44或48中任一项所述的基因组DNA序列的集合、或根据权利要求45至48中任一项所述的基因集在确定个体的保健状态中的用途。
53.根据权利要求52所述的用途,其中所述保健状态包括血压、体重、免疫细胞水平、炎症水平和/或个体的认知功能。
54.一种诊断个体健康状态和/或保健状态的方法,其包括提供根据权利要求40至44或48中任一项所述的基因组DNA序列的集合或根据权利要求45至48中任一项所述的基因集的步骤。
55.根据权利要求54所述的方法,其还包括在所述个体包含所述基因组DNA序列的生物样品中确定所述基因组DNA序列的所述甲基化水平。
56.根据权利要求54或55中任一项所述的方法,其中所述健康状态包括至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症的状态,
优选地,其中所述衰老相关疾病为阿尔茨海默氏病、帕金森氏病、动脉粥样硬化、心血管疾病、癌症、关节炎、白内障、骨质疏松症、2型糖尿病、高血压、与年龄有关的黄斑变性和/或良性前列腺增生,和/或
所述保健状态包括血压、体重、免疫细胞水平、炎症水平和/或个体的认知功能。
57.根据权利要求55或56中任一项所述的方法,其中所述生物样品为无创获得,优选通过颊拭子无创获得。
58.一种用于鉴定影响衰老的分子的计算机模拟和/或体外筛选方法,其包括提供根据权利要求40至44或48中任一项所述的基因组DNA序列的集合或根据权利要求45至48中任一项所述的基因集的步骤,
其中当施用至个体时,所述分子改善、预防和/或逆转至少一种衰老相关疾病、与至少一种衰老相关疾病相关联的至少一种表型、和/或癌症。
59.根据权利要求58所述的方法,其还包括确定至少一个所述基因组DNA序列的所述DNA甲基化水平的步骤。
60.根据权利要求58或59所述的方法,其中当施用至个体时,所鉴定的分子增加和/或降低所述个体中至少一个所述基因组DNA序列的所述DNA甲基化水平。
61.根据权利要求60所述的方法,其中所述DNA甲基化水平被改变,使得其与比改变之前更年轻的实足年龄相关联。
62.根据权利要求58至61中任一项所述的方法,其中提供了根据权利要求45至48所述的基因集,并且其中所述方法还包括确定由所述基因集编码的至少一种蛋白质的活性的步骤。
63.根据权利要求62所述的方法,其中所鉴定的分子抑制和/或增强由所述基因集编码的至少一种蛋白质的活性。
64.根据权利要求63所述的方法,其中所述蛋白质的活性被改变,使得其与比改变之前更年轻的实足年龄相关联。
65.一种芯片,其包括作为斑点的根据权利要求40至44或48中任一项所述的基因组DNA序列的集合或根据权利要求45至48中任一项所述的基因集,其中每个序列都被包含在单独的斑点中。
66.一种试剂盒,其包括至少一个独特引物对,
其中在每个引物对中,一个引物是与根据权利要求40至44或48中任一项所述的基因组DNA序列的集合中包括的一个基因组DNA序列的反向链结合、或与根据权利要求45至48中任一项所述的基因集中包括的一个基因的反向链结合的正向引物,并且另一个引物是与所述一个基因组DNA序列的正向链结合、或与所述一个基因的正向链结合的反向引物,
并且,其中与所述正向和反向引物的3’端互补的两个核苷酸相距多于30个且少于3000个、优选少于1000个核苷酸。
67.一种试剂盒,其包括至少一个探针,所述探针与根据权利要求40至44或48中任一项所述的基因组DNA序列的集合中包括的所述基因组DNA序列中的一个或根据权利要求45至48中任一项所述的基因集中包括的所述基因中的一个互补。
68.根据权利要求65或66所述的试剂盒,其中所述引物或探针与甲基化或未甲基化的DNA特异性结合,其中未甲基化的胞嘧啶已被转化为尿嘧啶。
69.一种试剂盒,其包括根据权利要求65所述的芯片。
70.根据权利要求51至57中任一项所述的试剂盒,其还包括用于生物材料和/或颊拭子材料的容器。
71.根据权利要求66至70中任一项所述的试剂盒,其还包括用于从生物样品中提取、纯化或扩增基因组DNA的材料,其中所述材料是离心柱和/或酶。
72.根据权利要求66至71中任一项所述的试剂盒,其还包括亚硫酸氢盐。
73.一种数据载体,其包括通过根据权利要求2至39中任一项所述的方法获得的所述年龄指示物.根据权利要求40至44或48中任一项所述的基因组DNA序列的集合,和/或根据权利要求45至48中任一项所述的基因集。
74.根据权利要求66至72中任一项所述的试剂盒或根据权利要求73所述的数据载体,其还包括针对待确定其年龄的所述个体的问卷,其中所述问卷可以为空白的或包括关于所述个体的信息。
75.根据权利要求1至39中任一项所述的方法,其中所述训练数据集、缩减的训练数据集和/或添加的数据还包括至少一个与同所述个体相关联的生活方式或风险模式有关的因素。
76.根据权利要求75所述的方法,其中所述因素选自药物消耗、环境污染物、轮班工作和压力。
77.根据权利要求75或76中任一项所述的方法,其中所述训练数据集和/或所述缩减的训练数据集限制于这样的序列:其DNA甲基化水平和/或编码蛋白的活性/水平与生活方式因素中的至少一个相关联。
78.根据权利要求75至77中任一项所述的方法,其还包括确定至少一个与所述个体的所确定年龄和实足年龄的差异相关联的生活方式因素的步骤。
79.一种确定一系列个体中的一个的年龄指示物的方法,所述确定是基于在所述个体中发现的基因组DNA序列的甲基化水平进行的,
其中
基于以下基因组DNA序列的集合的甲基化水平:
选自具有可与所述多个个体的年龄相关联的甲基化水平的基因组DNA序列集,以下述方式,提供所述个体的年龄指示物:
依赖于对所述多个个体的基因组DNA序列的甲基化水平的统计学评价的方式,其特征在于,
以下述方式,提供所述个体的所述年龄指示物:
依赖于对多个个体的基因组DNA序列的甲基化水平的统计学评价的方式,所述多个个体与在前统计学评价涉及的同样用于确定该系列中的在前个体的年龄指示物的所述多个个体不同,
所述多个个体的不同之处在于,至少通过引入所述系列中的至少一个另外的在前个体而修改了用于第一统计学评价的多个个体,并且,其中,优选地,
通过以下方式提供所述个体的年龄指示物:对所述两种不同的多个个体的至少两次不同的统计学评价导致在由集合的甲基化水平计算所述年龄指示物时使用的至少一个系数发生变化,和/或导致不同基因组DNA序列或发现的CgP基因座的甲基化水平被考虑到。
80.根据权利要求79所述的基于在所述个体中发现的基因组DNA序列甲基化水平的个体年龄的确定方法,
其包括:
从具有可与所述个体的年龄相关联的甲基化水平的基因组DNA序列中提供基因组DNA序列集;
针对多个个体确定所述集中的所述基因组DNA序列的甲基化水平;
从所述集中选择基因组DNA序列的集合,
从而使:
所述集合中的基因组DNA序列的数量小于或等于所述集中的基因组DNA序列的数量,
并且
所述个体的年龄可以基于所述集合中的序列的甲基化水平进行计算;
确定所述个体的生物材料样品中的至少所述集合中的序列的所述甲基化水平;
基于所述集合中的序列的所述甲基化水平计算所述个体的年龄;
判断是否:
需要重新选择所述集合的基因组DNA序列和/或要改变基于甲基化水平计算所述个体的年龄的方式,特别是在考虑统计学评估的情况下,
根据所述判断,
修改个体组以包括所述个体;
并且进行以下至少一项:
基于所确定的所述修改组的个体的甲基化水平,从所述集中重新选择基因组DNA序列的集合,
和/或
当由集合的甲基化水平计算所述年龄指示物时,更改至少一个系数。
81.根据权利要求80所述的个体年龄的确定方法,其包括以下步骤:
从具有可与所述个体年龄相关联的甲基化水平的基因组DNA序列中预选出基因组DNA序列集;
针对多个个体确定所述预选的基因组DNA序列的甲基化水平;
从所述预选的集中选择基因组DNA序列的集合,
从而使:
所述集合中的基因组DNA序列的数量小于所述预选的集中的所述基因组DNA序列的数量,
可基于所述集合中的序列的甲基化水平计算所述多个个体的年龄,
以及
对计算出的年龄的统计学评价指示了计算出的年龄的质量是可接受的;
确定所述个体的生物材料样品中的所述集合中的所述序列的所述甲基化水平;
基于所述集合中的所述序列的所述甲基化水平计算所述个体的年龄;
计算所计算出的年龄的质量的统计量度;
根据所述统计量度判断所述质量是否是可接受的;
如果判断所述质量是可接受的,输出计算出的所述个体的所述年龄;
如果判断所述质量是不可接受的,确定需要重新选择基因组DNA序列,
修改所述个体组以包括所述个体;
基于所确定的所述修改组的个体的甲基化水平,从预选的子集中重新选择基因组DNA序列的集合。
82.一种根据前述权利要求中的一项所述的年龄确定方法,其中对所述基因组DNA序列的选择是基于对与所述多个个体的基因组DNA序列的甲基化水平相关的值的统计分析,特别是使用至少一种回归方法来鉴定相关CpG基因座的统计分析,特别是通过主成分分析法、LASSO/弹性净回归法和/或XPG Boost法中的至少一种来鉴定相关CPG。
83.根据前述权利要求中的一项所述的年龄确定方法,其中,
所述预选的集包括
至少90个基因组DNA序列,
优选至少100个基因组DNA序列,
特别优选至少140个基因组DNA序列;
和/或
所述预选的集包括:
少于2000个基因组DNA序列,
特别是少于500个基因组DNA序列,
特别是少于350个基因组DNA序列,
特别是少于170个基因组DNA序列,
特别是少于150个基因组DNA序列;
和/或
其中所选择的集合包括:
至少30个基因组DNA序列,
优选至少50个基因组DNA序列,
特别优选至少60个基因组DNA序列;
和/或
所选择的集合包括:
少于150个基因组DNA序列,
特别是少于110个基因组DNA序列,
特别是少于100个基因组DNA序列,
特别是少于90个基因组DNA序列,
特别是少于80个基因组DNA序列,
特别是少于70个基因组DNA序列。
84.一种评估实足年龄和生物学年龄之间差异的方法,所述方法包括
基于根据在前方法权利要求中的一项所述的甲基化水平确定年龄,
并将所确定的生物学年龄与已知的实足年龄进行比较,
特别地
其中确定了多个个体的差异,确定了所述多个个体中可能影响或不影响所述差异的因素,并且确定了大量个体中对实足年龄和生物学年龄之间的差异产生重大影响的因素。
85.根据前述权利要求中的一项所述的方法,其中确定了比一个固定集合的CpG基因座更多的CpG基因座的甲基化水平
其中,对于一个以上的集合,提供允许确定年龄指示物的数据,使得可以基于相应的数据计算年龄
并且其中基于所测量的个体的特定甲基化水平或基于可与所述个体相关联的生活方式或风险模式相关的因素来选择计算所述年龄的一个集合。
86.一种根据在前权利要求中的一项所述的年龄确定方法,其中在所述个体中发现的基因组DNA序列的甲基化水平通过以下至少一种方式测量:
甲基化测序/硫酸氢盐测序,
一种PCR方法,特别是甲基化特异性PCR(MSP)、实时甲基化特异性PCR、定量甲基化特异性PCR(QMSP)、COLD-PCR、使用甲基化DNA特异性结合蛋白的PCR、靶向多重PCR、实时PCR和基于微阵列的PCR中的至少一种,
高分辨率熔解曲线分析(HRM),
甲基化敏感性单核苷酸引物延伸(MS-SnuPE),
甲基化敏感性单链构象分析,
甲基敏感性酶切计数(MSCC),
碱基特异性切割/MALDI-TOF,例如Agena,
结合硫酸氢盐限制性酶切分析(COBRA),
甲基化DNA免疫共沉淀(MeDIP),
基于微阵列的方法,
基于磁珠阵列的方法,
焦磷酸测序,
无硫酸氢盐处理的直接测序(纳米孔道技术)。
87.一种根据在前权利要求中的一项所述年龄确定方法,其中通过将所述个体添加到个体的组中来修改所述组。
88.一种根据在前权利要求中的一项所述的年龄确定方法,其中修改所述个体组以包括所述个体包括:从所述组中消除至少一个其他个体,特别是在考虑与他们的年龄和/或他们的某些或全部基因组DNA序列的甲基化水平无关的因素的情况下。
89.一种根据在前权利要求中的一项所述的年龄确定方法,其中如果满足至少一个或优选数个以下条件,则基于从另外的多个个体得到的甲基化水平来进行确定以改变所述集合:
在所述基因组DNA序列中检测到的一些或全部甲基化水平被认为过低,
单个个体的预测年龄与所述个体的已知实足年龄相差太远,
大量个体的预测年龄显示出与大量个体的已知实足年龄存在系统性偏差,
大量个体的预测年龄分散在所述个体的已知实足年龄周围,且方差被认为过大,
大量个体的预测年龄显示出与所述个体的已知实足年龄存在系统性偏差,
基于给定的集合确定年龄的个体的数量已达到预定数量,
自上次重新选择以来已过了指定的时间。
90.一种试剂盒,其至少包括用于个体的生物材料的容器,所述生物材料是以允许根据在前方法权利要求中的一项所述的确定年龄的方式获得和/或制备的;所述试剂盒还包括信息载体,所述信息载体携带与患者识别相关的信息;所述试剂盒还包括用于执行或如何执行以下各项的说明:
根据在前方法权利要求中的一项所述的方法,和/或为数据载体的产生提供数据,所述数据载体包含通过根据前述方法权利要求所述的方法确定的年龄相关数据,
和/或,提供一种数据载体,所述数据载体包含通过根据前述方法权利要求所述的方法确定的年龄相关数据。
91.一种筛选多种影响衰老的分子的方法,所述方法包括以下步骤:确定与生物学年龄密切相关的多种基因组DNA序列,特别是通过参考在权利要求79的方法中为集合选择的基因组DNA序列,和确定所述多种分子中的一个分子对于所述基因组DNA序列的甲基化水平是否有积极的影响,特别是通过计算机模拟确定。
92.一种芯片,其包含适用于确定甲基化水平的多个斑点,特别是少于500个、优选少于385个、特别是少于193个、特别是少于160个斑点,所述斑点包括至少一个并且优选数个特异性适用于以下各项中至少一项的甲基化水平确定的斑点:cg11330075、cg25845463、cg22519947、cg21807065、cg09001642、cg18815943、cg06335143、cg01636910、cg10501210、cg03324695、cg19432688、cg22540792、cg11176990、cg00097800、cg09805798、cg03526652、cg09460489、cg18737844、cg07802350、cg10522765、cg12548216、cg00876345、cg15761531、cg05990274、cg05972734、cg03680898、cg16593468、cg19301963、cg12732998、cg02536625、cg24088134、cg24319133、cg03388189、cg05106770、cg08686931、cg25606723、cg07782620、cg16781885、cg14231565、cg18339380、cg25642673、cg10240079、cg19851481、cg17665505、cg13333913、cg07291317、cg12238343、cg08478427、cg07625177、cg03230469、cg13154327、cg16456442、cg26430984、cg16867657、cg24724428、cg08194377、cg10543136、cg12650870、cg00087368、cg17760405、cg21628619、cg01820962、cg16999154、cg22444338、cg00831672、cg08044253、cg08960065、cg07529089、cg11607603、cg08097417、cg07955995、cg03473532、cg06186727、cg04733826、cg20425444、cg07513002、cg14305139、cg13759931、cg14756158、cg08662753、cg13206721、cg04287203、cg18768299、cg05812299、cg04028695、cg07120630、cg17343879、cg07766948、cg08856941、cg16950671、cg01520297、cg27540719、cg24954665、cg05211227、cg06831571、cg19112204、cg12804730、cg08224787、cg13973351、cg21165089、cg05087008、cg05396610、cg23677767、cg21962791、cg04320377、cg16245716、cg21460868、cg09275691、cg19215678、cg08118942、cg16322747、cg12333719、cg23128025、cg27173374、cg02032962、cg18506897、cg05292016、cg16673857、cg04875128、cg22101188、cg07381960、cg06279276、cg22077936、cg08457029、cg20576243、cg09965557、cg03741619、cg04525002、cg15008041、cg16465695、cg16677512、cg12658720、cg27394136、cg14681176、cg07494888、cg14911690、cg06161948、cg15609017、cg10321869、cg15743533、cg19702785、cg16267121、cg13460409、cg19810954、cg06945504、cg06153788以及cg20088545。
93.一种根据在前权利要求所述的芯片,其中所述斑点包括至少10个在前权利要求中列出的CpG基因座的斑点,优选20个在前权利要求中列出的CpG基因座的斑点,特别是至少50个在前权利要求中列出的CpG基因座的斑点,并且特别是在前权利要求中列出的所有CpG基因座的斑点。
CN201980066591.3A 2018-10-08 2019-10-08 年龄确定方法和装置 Active CN112840037B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18199156.3 2018-10-08
EP18199156 2018-10-08
PCT/EP2019/077252 WO2020074533A1 (en) 2018-10-08 2019-10-08 Method and devices for age determination

Publications (2)

Publication Number Publication Date
CN112840037A true CN112840037A (zh) 2021-05-25
CN112840037B CN112840037B (zh) 2025-02-25

Family

ID=63857691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980066591.3A Active CN112840037B (zh) 2018-10-08 2019-10-08 年龄确定方法和装置

Country Status (6)

Country Link
US (1) US20210388442A1 (zh)
EP (1) EP3864174B1 (zh)
JP (2) JP7652698B2 (zh)
CN (1) CN112840037B (zh)
CA (1) CA3113551A1 (zh)
WO (1) WO2020074533A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114214363A (zh) * 2021-12-03 2022-03-22 浙江大学 一种抗间充质干细胞衰老修饰方法及其应用
CN115841872A (zh) * 2023-02-22 2023-03-24 中国疾病预防控制中心环境与健康相关产品安全所 老年人寿命预测方法、设备及计算机可读存储介质
CN116218997A (zh) * 2023-02-10 2023-06-06 首都医科大学宣武医院 Klf14在制备诊断衰老的制剂和抗衰老制剂中的应用
CN117393044A (zh) * 2023-12-11 2024-01-12 四川大学华西医院 一种用于轻度认知障碍症早期筛查的试剂盒及诊断系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022058980A1 (en) 2020-09-21 2022-03-24 Insilico Medicine Ip Limited Methylation data signatures of aging and methods of determining a methylation aging clock
JP7684545B2 (ja) * 2020-12-04 2025-05-28 学校法人順天堂 軽度認知障害の検出方法
JP7479317B2 (ja) * 2021-03-16 2024-05-08 Kddi株式会社 情報処理装置、方法及びプログラム
GB202110825D0 (en) * 2021-07-28 2021-09-08 Ucl Business Ltd Methods for assessing epigenetic age and cancer risk
US20250210133A1 (en) * 2022-03-15 2025-06-26 Genknowme S.A. Method Determining the Difference Between the Biological Age and the Chronological Age of a Subject
WO2024050119A1 (en) * 2022-09-01 2024-03-07 The Brigham And Women's Hospital, Inc. Transcriptomic clocks of biological age and lifespan
WO2024091451A1 (en) * 2022-10-28 2024-05-02 Biovie Inc. Methods for the treatment of biological aging
JP7442221B1 (ja) 2022-11-15 2024-03-04 学校法人 岩手医科大学 生物学的年齢の計算方法、老化状態の評価方法、CpGサイトの評価方法、プログラム、およびコンピュータ可読記憶媒体
US12142380B2 (en) * 2023-01-23 2024-11-12 Genesis Longevity Bioscience Method and an apparatus for building a longevity profile
KR102826614B1 (ko) * 2023-02-06 2025-06-27 조선대학교산학협력단 생물학적 연령 예측 시스템 및 생물학적 연령 예측에 필요한 정보 제공 방법
US12193739B2 (en) * 2023-05-24 2025-01-14 Toku Eyes Limited Systems and methods for processing of fundus images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2711431A1 (en) * 2012-09-24 2014-03-26 Rheinisch-Westfälische Technische Hochschule (RWTH) Aachen Method for determining the age of a human individual
US20140228231A1 (en) * 2011-05-20 2014-08-14 The Regents Of The University Of California Method to estimate age of individual based on epigenetic markers in biological sample
CN105765083A (zh) * 2013-09-27 2016-07-13 加利福尼亚大学董事会 基于表观遗传学标记物来估计组织和细胞类型的年龄的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2488659B1 (en) * 2009-10-15 2019-12-11 Crescendo Bioscience, Inc. Biomarkers and methods for measuring and monitoring inflammatory disease activity
US20160327578A1 (en) * 2015-05-07 2016-11-10 Boston Heart Diagnostics Corporation Cholesterol efflux capacity assessment
WO2017059003A1 (en) * 2015-09-29 2017-04-06 Crescendo Bioscience Biomarkers and methods for assessing psoriatic arthritis disease activity
EP3481951A4 (en) * 2016-07-06 2020-08-05 Youhealth Biotech, Limited COLON CANCER SPECIFIC METHYLATION MARKERS AND USES OF THESE MARKERS
KR101873303B1 (ko) * 2017-01-24 2018-07-02 연세대학교 산학협력단 타액 내 dna 메틸화를 이용한 연령 예측 방법
WO2018150042A1 (en) * 2017-02-20 2018-08-23 Deutsches Krebsforschungszentrum Dna methylation signatures for determining a survival probability
CN106947830B (zh) * 2017-05-16 2019-10-08 中山大学附属肿瘤医院 用于诊断、预测肝癌疗效和预后的基因甲基化面板

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140228231A1 (en) * 2011-05-20 2014-08-14 The Regents Of The University Of California Method to estimate age of individual based on epigenetic markers in biological sample
EP2711431A1 (en) * 2012-09-24 2014-03-26 Rheinisch-Westfälische Technische Hochschule (RWTH) Aachen Method for determining the age of a human individual
CN105765083A (zh) * 2013-09-27 2016-07-13 加利福尼亚大学董事会 基于表观遗传学标记物来估计组织和细胞类型的年龄的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聂燕钗 等: "DNA甲基化检测方法及其法医学应用研究进展", 《法医学杂志》, vol. 33, no. 3, pages 293 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114214363A (zh) * 2021-12-03 2022-03-22 浙江大学 一种抗间充质干细胞衰老修饰方法及其应用
CN114214363B (zh) * 2021-12-03 2024-04-19 浙江大学 一种抗间充质干细胞衰老修饰方法及其应用
CN116218997A (zh) * 2023-02-10 2023-06-06 首都医科大学宣武医院 Klf14在制备诊断衰老的制剂和抗衰老制剂中的应用
CN115841872A (zh) * 2023-02-22 2023-03-24 中国疾病预防控制中心环境与健康相关产品安全所 老年人寿命预测方法、设备及计算机可读存储介质
CN117393044A (zh) * 2023-12-11 2024-01-12 四川大学华西医院 一种用于轻度认知障碍症早期筛查的试剂盒及诊断系统
CN117393044B (zh) * 2023-12-11 2024-02-27 四川大学华西医院 一种用于轻度认知障碍症早期筛查的试剂盒及诊断系统

Also Published As

Publication number Publication date
CA3113551A1 (en) 2020-04-16
WO2020074533A1 (en) 2020-04-16
CN112840037B (zh) 2025-02-25
EP3864174C0 (en) 2024-12-04
EP3864174A1 (en) 2021-08-18
JP2025010225A (ja) 2025-01-20
JP2022508597A (ja) 2022-01-19
JP7652698B2 (ja) 2025-03-27
US20210388442A1 (en) 2021-12-16
EP3864174B1 (en) 2024-12-04

Similar Documents

Publication Publication Date Title
CN112840037B (zh) 年龄确定方法和装置
Naue et al. Chronological age prediction based on DNA methylation: massive parallel sequencing and random forest regression
EP3256605B1 (en) Detecting mutations for cancer screening and fetal analysis
JP6995622B2 (ja) 敗血症の診断法
CN110257494B (zh) 一种获得中国人群个体年龄的方法、系统及扩增检测体系
JP2024119880A (ja) 合成トレーニングサンプルによるがん分類
CN113362891A (zh) 用短读测序数据检测重复扩增
CN106661609B (zh) 用于预测先天性心脏缺陷的方法
KR20140051461A (ko) 흡연 상태를 결정하기 위한 방법 및 조성물
US11257569B1 (en) Methods of assessing risk of developing a severe response to coronavirus infection
Alsaleh et al. Identifying blood-specific age-related DNA methylation markers on the Illumina MethylationEPIC® BeadChip
AU2011265523A1 (en) Alzheimer&#39;s probe kit
CN110656168A (zh) 一种copd早期诊断标志物及其应用
CN116348615A (zh) 评估患病风险的方法
JPWO2020074533A5 (zh)
Dørum et al. Selecting mRNA markers in blood for age estimation of the donor of a biological stain
EP3274477A1 (en) Method of identifying risk for autism
CA2932649C (en) Systems and methods for predicting a smoking status of an individual
Faiz et al. How can microarrays unlock asthma?
Yang et al. Temporal stability of human sperm mosaic mutations results in life-long threat of transmission to offspring
Melzer et al. Gene expression biomarkers and longevity
WO2025078620A1 (en) Autism spectrum disorder assessment via alternative polyadenylation analysis
HK40058694A (zh) 用短读测序数据检测重复扩增
WO2024192076A1 (en) Sample barcode in multiplex sample sequencing
Alsaleh Forensic age estimation using DNA methylation analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant