CN108603234A

CN108603234A - 基于变体的疾病诊断和追踪

Info

Publication number: CN108603234A
Application number: CN201780007871.8A
Authority: CN
Inventors: 奥利弗·克劳德·维恩
Original assignee: Grier Co
Current assignee: Greer Co ltd
Priority date: 2016-01-22
Filing date: 2017-01-20
Publication date: 2018-09-28
Also published as: HK1256412A1; EP3405574A4; AU2017209330B2; EP3405574A1; US20170213008A1; AU2023204105A1; US20240331873A1; AU2017209330A1; JP2024009859A; JP2022031683A; WO2017127742A1; CA3010418A1; JP2019509018A

Abstract

本发明的方面涉及通过纵向追踪患者中的遗传变体来追踪患者健康的方法，使得可以提供肿瘤或突变分类标志。纵向追踪提高了检测微小残留病变(MRD；治疗后和/或缓解期间患者体内保留的少量细胞)和/或早期治疗响应的能力，这两者可帮助指导治疗决策和防止遗漏患者中不同的肿瘤内/肿瘤间响应。

Description

基于变体的疾病诊断和追踪

相关申请的交叉引用

本申请要求于2016年1月22日提交的美国临时专利申请序列号62/286,103的优先权权益，该申请的公开内容通过引用以其整体并入本文。

发明领域

本发明的方面涉及使用患者突变标志和端粒特异性串联重复序列追踪患者健康的方法。

背景

癌症是一种每年影响数百万人的毁灭性疾病。该疾病的特征在于基因组改变或突变的复杂谱系，表现为肿瘤内和肿瘤间遗传异质性。参见例如，Knudson Proc Natl AcadSci,68:820-823(1971)；Gerlinger等人,N Engl J Med,366:883-892(2012)；Campbell等人,Proc Natl Acad Sci,105:13081-13086(2008)；Robbins等人,Nature Medicine,19:747-752(2013)；Murtaza等人,Nature Communications,6:8760(Nov 2015)；和Hong等人,Nature Communications 6:6605(Apr 2015)。

一些改变是原因并且推动肿瘤进展，而其他事件几乎没有功能后果并且被称为乘客突变(passenger mutation)。观察到改变的累积是肿瘤内和/或个体患者的肿瘤之间和患者之间的遗传异质性。在图1中可以看到这种情况的一个实例，其中示出了起始肿瘤细胞的谱系。祖先细胞在时间t0出现，并且遗传上不同的亚群(亚克隆)在细胞分裂期间出现，向树中添加新的分支。每个亚克隆的相对群体大小由每个分支的宽度表示。随着时间，生成三个亚克隆S(0,1)、S(0,2)和S(0,3)，每个由它自己的一组体细胞改变来区分。如果没有发生回复突变并且不存在重组，则突变可以表示为嵌套的树对象(例如S(0,3)中包含的S(0,1))。转移S(3,0)来源于快速扩张的亚克隆S(0,3)。在该特定实例中，S(0,2)中的细胞数减少，S(0,1)中的细胞数保持稳定，并且S(0,3)中的细胞数增加。

然而，体细胞遗传异质性在肿瘤分类中产生两个挑战：肿瘤随着时间经历快速进化，并且尽管在两个+个体中的相同组织中出现，肿瘤可以在遗传上不同，具有不同的预后和治疗响应。

专注于单个基因座的遗传测试，例如KRAS突变状态测试，已经证明在治疗选择中有用，例如告知是否使用酪氨酸激酶抑制剂的决定。参见例如，Plesec等人,Adv.AnalPathol.(2009)。然而，单个基因座测试不足以捕获癌症中的遗传异质性，且因此在分类中具有有限的效用。一些研究已经在一个时间点使用多区域测序评估异质性，而其他研究已经追踪随着时间预定义的突变。因此，需要开发一种方法，通过对患者中的部分或全部遗传变异进行随时间的取样来创建肿瘤分类标志。

概述

本发明的方面涉及通过纵向追踪患者中的遗传变体来追踪患者健康的方法，使得可以提供肿瘤或突变分类标志。纵向追踪提高了在早期检测微小残留病变(MRD；治疗后和/或缓解期间患者体内保留的少量细胞)和/或治疗响应的能力，这两者可帮助指导治疗决策和防止遗漏患者中不同的肿瘤内/肿瘤间响应。本发明的系统和方法涉及鉴定和追踪单个肿瘤和/或患者的遗传多样性，以便预测和理解治疗抗性并生成可以作为宿主免疫应答的靶的新抗原。这些改变代表了肿瘤的区别和基本标志，其最终可用于对肿瘤进行分类并预测进展和治疗功效。

根据本发明的方法，突变标志可以通过随着时间对患者中的部分或全部遗传变异取样来创建。然后可以使用这些纵向标志将患者状态针对已知的健康和患病个体的标志的一个或更多个数据库进行分类。随着每个另外的患者的标志和健康状况随着时间的推移而被完善，下一个患者受益于分类数据库的提高的区别力。

根据本发明的一个实施方案，患者的健康状态可以通过为患者创建突变标志来追踪。突变标志由许多变量确定，所述变量包括患者的核酸样品中观察到的变体的总数、每个观察到的变体的序列背景因子、每个观察到的变体的等位基因频率、核酸聚合物片段大小、推断的DNA复制时机、染色质结构(例如，开放对闭合的染色质结构)、DNA甲基化状态、突变间距离、预测的突变的功能后果、选择的估计(例如，患者中的非同义突变与同义突变的比)、和变体类型分类。然后将患者的突变标志与包含具有已知健康状态的患者的突变标志的参考数据库进行比较，其中可以为患者确定诊断或疗法。变体类型分类可包括端粒序列拷贝数变异、染色体不稳定性、易位、倒位、插入、缺失、杂合性的丧失、扩增、kataegis和微卫星不稳定性。

在本发明的一个方面，通过在确定诊断或疗法之前将患者的多于一个突变标志随时间与参考数据库进行比较，可以为患者确定纵向突变标志，其中参考数据库还包含具有已知健康状态的患者的纵向突变标志。在一些实施方案中，纵向突变标志包括来自第一时间点的患者的第一突变标志，以及来自第二时间点的患者的第二突变标志。在一些实施方案中，第一时间点在治疗之前，且第二时间点在治疗之后。在一些实施方案中，治疗包括肿瘤切除手术。在一些实施方案中，治疗包括施用抗癌治疗剂。

在本发明的另一方面，获得患者的健康状态，并将其与患者的突变标志一起添加到数据库中。可以获得来自患者的信息，例如年龄、性别、人种、种族、家族疾病史(例如，Lynch综合征的存在、遗传的BRCA 1/2突变等)、体重、体重指数、身高、先前和/或并发感染、环境暴露和抽烟史，并且还将信息与具有已知健康状态的患者的一个或更多个数据库进行比较。此外，基因产物水平，例如蛋白生物标志物水平，也可以从患者获得，并与具有已知健康状态的患者的一个或更多个数据库中的具有已知健康状态的患者的水平进行比较。

为了从患者的核酸确定突变标志，可以从患者获得样品。样品可包括例如组织样品、体液、细胞样品或粪便样品。在某些实施方案中，样品包括体液，例如全血、唾液、泪、汗、痰或尿。在一些实施方案中，仅使用全血的部分，例如血浆或无细胞核酸。在其他实施方案中，样品是组织样品，例如福尔马林固定石蜡包埋的(FFPE)组织样品、新鲜冷冻的(FF)组织样品、或其组合。

本发明的方法还可用于确定观察到的变体随时间的肿瘤内或肿瘤间的异质性。此外，还可以通过在治疗患者之前和之后随时间监测观察的变体来确定治疗效力。以这种方式，可以监测患者的微小残留病变。

在另一个实施方案中，可以通过以下来追踪患者健康：对从患者获得的核酸进行测定以确定端粒特异性串联重复序列，创建包含端粒串联重复的频率分布的端粒完整性评分，产生在两个或更多个时间点从患者获得的核酸的端粒完整性评分的纵向轨迹，将纵向轨迹与包含具有已知的健康状态的患者的纵向轨迹的参考数据库进行比较，并为患者确定诊断或疗法。

在本发明的一个方面，无细胞核酸从体液，例如全血、唾液、泪、汗、痰和尿获得。当体液是全血时，可以使用全血的部分，例如血浆。

在本发明的另一方面，获得患者的健康状态，并将其与患者的纵向轨迹一起添加到数据库中。可以获得来自患者的信息，例如年龄、性别、人种、种族、家族疾病史、体重、体重指数、身高、先前和/或并发感染、环境暴露和抽烟史，并且还将信息与具有已知健康状态的患者的一个或更多个数据库进行比较。基因产物水平，例如蛋白生物标志物水平，也可以从患者获得，并与具有已知健康状态的患者的一个或更多个数据库中的具有已知健康状态的患者的水平进行比较。此外，可以从患者获得TERT启动子突变谱，并将其与具有已知健康状态的患者的一个或更多个数据库中的TERT启动子突变谱进行比较。

也可以将端粒串联重复的频率分布归一化。这可以通过将频率分布与对照序列进行比较来完成，所述对照序列具有与端粒特异性串联重复序列相同比例的单个核碱基。频率分布也可以通过将端粒串联重复的频率分布与频率分布的参考数据库进行比较来归一化。

在本发明的一个方面，测定可以是测序，例如全基因组测序。测序也可以是靶向测序，例如靶向PCR扩增或使用可选择的寡核苷酸的杂合体捕获。

在另一个方面，端粒特异性串联重复序列可以通过与端粒参考序列比对或k-mer频率分析来鉴定。

附图简述

图1示出了起始肿瘤细胞随时间的谱系。

图2是描绘了来自cfDNA相对于组织活检的全基因组测序(WGS)的序列覆盖深度的图。

图3是描绘了全基因组测序(WGS)鉴定的突变的图，其由来自转移性黑素瘤癌症患者(PT0001)的三联体序列背景分层。第一个和第二个图分别示出了在第一时间点和第二时间点所鉴定的突变。第二个时间点是在多种疗法方案后获取的。第三个图示出了时间点之间频率的相对变化。

图4是示出了在切除手术之前和之后胸部癌症患者中经验证的肿瘤突变的等位基因频率的图。

图5A-K是示出了在转移性黑素瘤癌症患者的治疗期间蛋白编码区中100个体细胞突变的等位基因频率的图。

图6是描绘了根据本发明的实施方案的方法的流程图。

图7是示出了来自含有来自黑素瘤癌症患者PT0001的重复端粒序列的cfDNA的全基因组测序读段的数量的经验分布的图。

图8是根据本发明的实施方案的系统的图解。

图9是示出了在手术肿瘤切除之前和之后在结肠直肠癌(CRC)患者中测量的体细胞变体等位基因频率的图。

图10是示出了在手术肿瘤切除之前和之后在CRC患者中测量的体细胞变体等位基因频率的图。

图11是示出了在手术肿瘤切除之前和之后在CRC患者中测量的体细胞变体等位基因频率的图。右侧的树代表患者中癌细胞的潜在基础谱系；该树与手术下的等位基因频率轨迹一致。

图12是示出了来自不同患者的cfDNA测序的微卫星重复的等位基因频率的条形图的系综。

图13是示出了对于包括癌症患者和合成的对照的多种样品类型，使用WGS和靶向测序，来自cfDNA和基因组DNA测序的微卫星重复的等位基因频率的条形图的系综。

图14是示出了以碱基对计的提取的cfDNA的片段大小的生物分析仪痕迹的系综。

图15是示出了在PCR扩增之前以碱基对计的cfDNA文库片段大小的生物分析仪痕迹的系综。

图16是示出了在8个循环的PCR扩增后以碱基对计的cfDNA文库片段大小的生物分析仪痕迹的系综。

图17是示出了在12个循环的PCR和净化后以碱基对计的cfDNA文库片段大小的生物分析仪痕迹的系综。

图18是患者的疾病进展的时间过程的时间过程表示，并且示出了治疗、观察和样品收集时间点。

图19A是在端粒酶逆转录酶(TERT)的核心启动子处，来自PT0001的测序读段的一组堆积视图。四个图(从上到下)：白细胞衍生的基因组DNA测序、在时间点1的cfDNA测序、cfDNA时间点2测序、和肿瘤活检测序。在垂直虚线之间，A字母代表已知活化的C>T突变的突变等位基因拷贝的反向互补。

图19B是总结图19A中的数据的表，示出了对于所示样品，在chr5:129,250处的读段计数。

图20A-C提供了结肠直肠癌患者信息和来自cfDNA分析的预测疾病复发的汇总表。

详细说明

本发明的方法涉及纵向追踪多个体细胞改变，使得可以防止遗漏患者中不同的肿瘤内/肿瘤间响应，并提高检测微小残留病变和/或治疗响应的能力。这可以通过创建一种或更多种突变标志和/或创建从由患者获得的核酸确定的端粒完整性评分来实现，这两者都可以纵向追踪。

该方法最初涉及获得怀疑包括癌症相关基因或基因产物的样品，例如组织或体液。样品可以以任何临床上可接受的方式收集。组织是衍生自例如人或其他哺乳动物的大量连接的细胞和/或细胞外基质材料，例如皮肤组织、毛发、指甲、子宫内膜组织、鼻腔通道组织、CNS组织、神经组织、眼组织、肝组织、肾组织、胎盘组织、乳腺组织、胎盘组织、胃肠组织、肌肉骨骼组织、泌尿生殖组织、骨髓等，并且包括与细胞和/或组织相关的连接物质和液体物质。组织可以制备和提供为本领域已知的任何一种组织样品类型，诸如，例如但不限于福尔马林固定石蜡包埋的(FFPE)和新鲜冷冻的(FF)组织样品。

体液是衍生自例如人或其他哺乳动物的液体物质。这样的体液包括但不限于黏液、血液、血浆、血清、血清衍生物、胆汁、母体血液、痰液(phlegm)、唾液、汗、泪、痰(sputum)、羊水、月经液、尿和脑脊液(CSF)，诸如腰椎或脑室CSF。样品也可以是细针抽吸物或活检组织。样品也可以是含有细胞或生物材料的培养基。样品也可以是血块，例如，在去除血清后从全血获得的血块。样品也可以是粪便。在某些实施方案中，样品是抽取的全血。在一个方面，仅使用全血的部分，例如血浆、红细胞、白细胞和血小板。

样品不仅可以包括从中来自采集样品的受试者的核酸，还可以包括来自其他物种的核酸，例如病毒DNA/RNA。可以根据本领域已知的方法从样品提取核酸。参见例如，Maniatis等人,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor,N.Y.,pp.280-281,1982，其内容通过引用以其整体并入本文。在某些实施方案中，无细胞核酸从样品提取。

在一些实施方案中，无细胞DNA(cfDNA)从样品提取。无细胞DNA是存在于几种体液(例如血浆、粪便、尿)中的短碱基核衍生DNA片段。参见例如，Mouliere和Rosenfeld,PNAS112(11):3178-3179(Mar 2015)；Jiang等人,PNAS(Mar 2015)；和Mouliere等人,MolOncol,8(5):927-41(2014)。肿瘤衍生的循环肿瘤DNA(ctDNA)构成cfDNA的少数群体，在一些实施方案中，变化多达约50％。在一些实施方案中，ctDNA根据肿瘤阶段和肿瘤类型而变化。在一些实施方案中，ctDNA从约0.001％多达约30％变化，诸如约0.01％多达约20％，诸如约0.01％多达约10％。ctDNA的协变量尚未完全了解，但表现为与肿瘤类型、肿瘤大小和肿瘤阶段正相关。例如，Bettegowda等人,Sci Trans Med,2014；Newmann等人,Nat Med,2014。尽管存在与cfDNA中ctDNA的低群体相关的挑战，已经跨广泛的癌症在ctDNA中鉴定了肿瘤变体。例如，Bettegowda等人,Sci Trans Med,2014。此外，cfDNA分析相对于肿瘤活检是较少侵入性的，且分析方法诸如测序，使得能够鉴定亚克隆异质性。如图2所示，cfDNA分析还提供了比组织肿瘤活检更均匀的基因组范围测序覆盖。

下面是用于从血液制备核酸的示例性程序。可以将血液收集在10ml EDTA管中(例如，可从Becton Dickinson获得)。Streck cfDNA管(Streck,Inc.,Omaha,Nebraska)可用于通过有核细胞的化学固定使污染最小化，但是当在2小时或如一些实施方案中更短时间内处理样品时，观察到来自基因组DNA的很少的污染。从血液样品开始，血浆可以通过在室温以3000rpm离心10分钟(减去制动)来提取。然后可将血浆以1ml等分试样转移至1.5ml试管，并在室温以7000rpm再次离心10分钟。然后可将上清液转移到新的1.5ml试管中。在这个阶段，样品可以保存在-80℃。在某些实施方案中，样品可以储存在血浆阶段用于后续处理，因为血浆可以比储存提取的cfDNA更稳定。

可以使用任何合适的技术提取血浆DNA。例如，在一些实施方案中，血浆DNA可以使用一种或更多种商购可得的测定提取，例如，Qiagen QIAmp循环核酸试剂盒(Qiagen N.V.,Venlo Netherlands)。在某些实施方案中，可以使用以下修改的洗脱策略。可以使用QiagenQIAmp循环核酸试剂盒按照制造商的说明提取DNA(每柱允许的最大血浆量为5ml)。当在Streck管中收集血液时，如果从血浆提取cfDNA，则与蛋白酶K的反应时间可以从30分钟加倍到60分钟。优选地，应使用尽可能大的体积(即5mL)。在各种实施方案中，可以使用两步洗脱来使cfDNA产率最大化。首先，对于每个柱，可以使用30μl缓冲液AVE洗脱DNA。为了增加cfDNA浓度，洗脱中可以使用完全覆盖膜必需的最少量缓冲液。通过用少量缓冲液减少稀释，可以避免样品的下游干燥，以防止双链DNA解链或物质损失。随后可以洗脱每个柱约30μl的缓冲液。在一些实施方案中，可以使用第二洗脱来增加DNA产率。

在某些实施方案中，从受试者收集基因组样品，然后富集感兴趣的遗传区域或遗传片段。例如，在一些实施方案中，可以通过与包含感兴趣的癌症相关基因或基因片段的核苷酸阵列杂交富集样品。在一些实施方案中，可以使用本领域已知的其他方法例如杂合体捕获来富集样品的感兴趣的基因(例如，癌症相关基因)。参见例如，Lapidus(美国专利第7,666,593号)，其内容通过引用整体并入本文。在一种杂合体捕获方法中，使用基于溶液的杂交方法，其包括使用生物素化的寡核苷酸和链霉抗生物素包被的磁珠。参见例如，Duncavage等人,J Mol Diagn.13(3):325-333(2011)；和Newman等人,Nat Med.20(5):548-554(2014)。

根据本发明的方法从样品分离核酸可以根据本领域已知的任何方法进行。例如，RNA可以通过包括裂解细胞和变性其中包含的蛋白的程序从真核细胞分离。感兴趣的组织包括配子细胞、性腺组织、子宫内膜组织、受精胚胎和胎盘。RNA可以通过包括变性其中包含的蛋白的程序从感兴趣的流体分离。感兴趣的流体包括上面列出的那些流体。可以采用另外的步骤来除去DNA。细胞裂解可以用非离子洗涤剂来完成，然后微量离心以除去细胞核，并从而除去大部分细胞DNA。在一个实施方案中，使用硫氰酸胍裂解从感兴趣的各种类型细胞提取RNA，然后进行CsCl离心以将RNA与DNA分离(Chirgwin等人,Biochemistry 18:5294-5299(1979))。聚(A)+RNA通过用寡dT纤维素选择来选择(参见Sambrook等人,MOLECULARCLONING--A LABORATORY MANUAL(2ND ED.),Vols.1-3,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y.(1989)。可选地，RNA与DNA的分离可以通过有机提取来完成，例如，用热苯酚或苯酚/氯仿/异戊醇。如果需要，可以将RNA酶抑制剂加入裂解缓冲液。同样，对于某些细胞类型，可能期望在方案中添加蛋白变性/消化步骤。

一旦提取了核酸，可对其进行测定以确定遗传变体。本文中可互换使用的术语“变体”、“变异”和“突变”是指与野生型或对照序列不同的遗传序列。可以使用本领域已知的任何测定来确定遗传变异的存在或不存在。可以使用常规方法，如用于制造和使用核酸阵列、扩增引物、杂交探针的那些，并且可以在标准实验室手册中找到，诸如：Genome Analysis:ALaboratory Manual Series(Vols.I-IV),Cold Spring Harbor Laboratory Press；PCRPrimer:A Laboratory Manual,Cold Spring Harbor Laboratory Press；和Sambrook,J等人,(2001)Molecular Cloning:A Laboratory Manual,2nd ed.(Vols.1-3),Cold SpringHarbor Laboratory Press。定制核酸阵列可从例如Affymetrix(Santa Clara,CA)、Applied Biosystems(Foster City,CA)、和Agilent Technologies(Santa Clara,CA)商购获得。

在本发明的一些实施方案中，将核酸测序以检测核酸中的变体(即突变)。核酸可包括衍生自多于一种遗传元件的多于一个核酸。检测序列变体的方法是本领域已知的，并且序列变体可以通过本领域已知的任何测序方法例如系综测序(ensemble sequencing)(其中共有测序通过整合跨PCR重复的测序/PCR错误来进行)或单分子测序检测。

测序可通过本领域已知的任何方法进行。DNA测序技术包括使用标记的终止子或引物和在平板(slab)或毛细管中凝胶分离的经典的双脱氧测序反应(Sanger方法)、使用可逆终止的标记核苷酸的合成测序、焦磷酸测序、454测序、与标记的寡核苷酸探针文库的等位基因特异性杂交、使用与标记的克隆文库的等位基因特异性杂交然后连接的合成测序、在聚合步骤期间实时监测标记的核苷酸的掺入、聚合酶克隆测序(polony sequencing)和SOLiD测序。最近已经通过使用聚合酶或连接酶的连续或单一延伸反应以及通过与探针文库的单一或顺序差异杂交证明了分离的分子的测序。

进行测序的一种常规方法是通过链终止和凝胶分离，如由Sanger等人,ProcNatl.Acad.Sci.U S A,74(12):5463 67(1977)描述的。另一种常规测序方法包括核酸片段的化学降解。参见，Maxam等人,Proc.Natl.Acad.Sci.,74:560 564(1977)。还已经基于杂交测序开发了方法。参见例如，Harris等人,(美国专利申请第2009/0156412号)。每篇参考文献的内容通过引用以其整体并入本文。

可以在所提供的发明的方法中使用的测序技术包括，例如，Helicos True SingleMolecule测序(tSMS)(Harris T.D.等人.(2008)Science320:106-109)。tSMS的进一步描述例如在以下中示出：Lapidus等人.(美国专利第7,169,560号)、Lapidus等人.(美国专利申请第2009/0191565号)、Quake等人.(美国专利第6,818,395号)、Harris(美国专利第7,282,337号)、Quake等人.(美国专利申请第2002/0164629号)、和Braslavsky等人,PNAS(USA),100:3960-3964(2003)，这些参考文献的每一篇的内容通过引用以其整体并入本文。

可以在所提供的发明的方法中使用的DNA测序技术的另一个实例是454测序(Roche)(Margulies,M等人.2005,Nature,437,376-380)。可以在所提供的发明的方法中使用的DNA测序技术的另一个实例是SOLiD技术(Applied Biosystems)。可以在所提供的发明的方法中使用的DNA测序技术的另一个实例是Ion Torrent测序(美国专利申请第2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398和2010/0304982号)，其每一篇的内容通过引用以其整体并入本文。

在一些实施方案中，测序技术是Illumina测序。Illumina测序是基于使用折回PCR(fold-back PCR)和锚定引物在固体表面上扩增DNA。基因组DNA可被片段化，或者在cfDNA的情况下，由于片段已经很短，不需要片段化。将衔接子连接到片段的5'和3'末端。附着于流通池通道的表面的DNA片段被延伸并被桥式扩增。片段变成双链的，且双链分子被变性。固相扩增随后变性的多个循环可在流通池的每个通道中产生相同模板的约1,000个拷贝的单链DNA分子的几百万个簇。使用引物、DNA聚合酶和四种荧光团标记的可逆终止核苷酸进行顺序测序。掺入核苷酸后，使用激光激发荧光团并捕获图像并记录第一个碱基的身份。3'终止子和来自每个掺入的碱基的荧光团被去除并且重复掺入、检测和鉴定步骤。

可以在所提供的发明的方法中使用的测序技术的另一个实例包括PacificBiosciences的单分子实时(SMRT)技术。可以在所提供的发明的方法中使用的测序技术的又另一个实例是纳米孔测序(Soni G V和Meller A.(2007)Clin Chem 53:1996-2001)。可以在所提供的发明的方法中使用的测序技术的另一个实例包括使用化学敏感的场效应晶体管(chemFET)阵列将DNA测序(例如，如美国专利申请公布第20090026082号中描述的)。可以在所提供的发明的方法中使用的测序技术的另一个实例包括使用电子显微镜(Moudrianakis E.N.和Beer M.Proc Natl Acad Sci USA.1965March；53:564-71)。

如果来自样品的核酸降解或者只能从样品获得最少量的核酸，可以对核酸进行PCR以获得足够量的核酸用于测序(参见例如，Mullis等人.美国专利第4,683,195号，其内容通过引用以其整体并入本文)。

虽然遗传变体的潜在序列与它们的出现序列的组合(除了它们的相对频率以外)允许基本上无限的组合，通过建立框架(在该框架内对变体进行分类)来实现突变标志的创建。

在一些实施方案中，在单个时间点测量变异以确定患者的突变标志。在一些实施方案中，变异被随着时间纵向追踪以便于为患者生成纵向突变标志。例如，在一些实施方案中，可以随时间从患者收集两个或更多个样品，并且所收集的样品可以用于为患者生成纵向突变标志。在一些实施方案中，在第一时间点收集第一样品，且在第二时间点收集第二样品。研究表明，根据清除率，cfDNA可具有范围从大约15分钟至多达几小时的清除时间(Forte VA,等人,The potential for liquid biopsies in the precision medicaltreatment of breast cancer,Cancer Biology&Medicine.2016；13(1):19-40.doi:10.28092/j.issn.2095-3941.2016.0007)。因此，在一些实施方案中，第一和第二时间点间隔一定量的时间，其范围从约15分钟至多达约25年，诸如约30分钟，诸如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时，诸如约1、2、3、4、5、10、15、20、25或约30天，或诸如约1、2、3、4、5、6、7、8、9、10、11或12个月，或诸如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5或约25年。

在一些实施方案中，第一时间点在治疗开始之前，且第二时间点在治疗开始之后。在一些实施方案中，第一时间点在治疗开始之前，且第二时间点在治疗完成之后。在一些实施方案中，第一时间点在肿瘤切除手术之前，且第二时间点在肿瘤切除手术之后。在一些实施方案中，第一时间点在肿瘤切除手术之前，且第二时间点在肿瘤切除手术之后大约5、10、15、20、25或30天。在一些实施方案中，第一时间点在肿瘤切除手术之前，且第二时间点在肿瘤切除手术之后大约1、2、3、4、5、6、7、8、9、10、11或12个月。在一些实施方案中，第一时间点在肿瘤切除手术之前，且第二时间点在肿瘤切除手术之后大约1、2、3、4、5、6、7、8、9、或大约10年。

在一些实施方案中，根据突变标志分类，在施用治疗之前和之后突变标志的一种或更多种变化可用于鉴定对治疗响应更好或更差的患者群体。因此，随着时间追踪突变标志可以用于鉴定疗法无效的病例，并且可以用于鉴定可能需要改变治疗干预的病例(例如，可能需要施用不同的疗法)。

在某些实施方案中，纵向突变标志包括多于一个不同的时间点，其中第一时间点在治疗开始之前，并且在治疗之后以特定时间间隔收集多于一个另外的时间点，例如，治疗后约1、2、3、4、5、6、7、8、9、10、11或12个月。在一些实施方案中，治疗包括具有治愈目的的肿瘤切除手术。在一些实施方案中，治疗包括施用治疗剂。在一些实施方案中，治疗剂是抗癌治疗剂。

在一些实施方案中，纵向突变标志包括多个不同的时间点，其中第一时间点在具有治愈目的的肿瘤切除手术之前，并且多于一个另外的时间点在肿瘤切除手术之后的特定时间点收集，例如，肿瘤切除手术后约1、2、3、4、5、6、7、8、9、10、11或12个月或更久，诸如肿瘤切除手术后约1、2、3、4、5、6、7、8、9或10年。在一些实施方案中，纵向突变标志包括多个不同的时间点，其中第一时间点在施用抗癌治疗剂之前，并且多于一个另外的时间点在施用抗癌治疗剂之后以特定时间点收集，例如，施用抗癌治疗剂后约1、2、3、4、5、6、7、8、9、10、11或12个月或更久，诸如施用抗癌治疗剂后约1、2、3、4、5、6、7、8、9或10年。

方法的方面包括从无症状患者随时间收集突变标志，以促进癌症的早期检测和/或预测与发展癌症相关的风险水平。在一些实施方案中，对于无症状的患者，在多个时间点建立了突变标志。突变标志可用于通过例如以下来估计癌症或疾病风险：确定某些遗传标志物的状态(例如，BRCA种系状态和体细胞状态)和/或存在或不存在癌症(例如，与癌症的存在或不存在一致的体细胞突变标志)和/或癌症的分子分类(例如，与种系状态确定偶联的体细胞标志)。

用于创建根据本发明的实施方案的突变标志的变量包括但不限于，观察到的遗传变体或改变的总数、其中发生变体的序列环境、突变相对于其他体细胞突变或种系基因组的普遍性、遗传改变的类型、cfDNA片段的一个或更多个片段化模式(例如，cfDNA片段大小分布模式、和/或片段起点和终点的位置)、染色质结构(例如，开放相比于闭合的染色质结构)、甲基化状态和突变间距离(例如，突变的聚簇)。

序列环境是指突变周围的核苷酸。参见例如，Sung等人,"Asymmetric Context-Dependent Mutation Patterns Revealed Through Mutation-AccumulationExperiments,"Mol.Biol.Evol.,Apr 2015。通过包括其中发生变体的序列环境，可以区分具有相同的取代、但在不同的序列环境中的突变标志。例如，与UV损伤相关的遗传标志证明具有三联体环境依赖性的C>T突变的数量增加(例如，突变3'和5'的取代和核苷酸)。参见Alexandrov等人.2013。在一些实施方案中，序列环境可以包括在突变的位置3'和5'中的任一个或两个的至少一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个核苷酸。在一些实施方案中，序列环境包括突变3'的至少一个核苷酸和5'的至少一个核苷酸。在一些实施方案中，突变标志可以考虑其上发生突变的链。例如，在一些实施方案中，突变可以在转录链上比在非转录链上更普遍。参见Alexandrov的第6页。

纵向轨迹可以被分析为由序列环境分层的改变的进化。例如，图3显示了使用应用于具有可靶向的体细胞BRAF突变V600R的转移性黑素瘤患者的全基因组测序(WGS)，来自cfDNA的动态黑素瘤突变标志。使用WGS，鉴定突变并通过三联体环境分层(N_时间点1＝24377、N_时间点2＝35036)。如第一图中所示，在治疗过程之前的第一时间点采集样品并使用WGS分析，且然后如第二图中所示，在治疗过程之后的第二时间点再次进行采集样品和分析(95％Cl,自助法)。观察到的谱与Alexandrov等人(2013)(本文引用)报道的2型黑素瘤一致，并且与UV诱导的DNA损伤相容。该谱表现出丰富的C>T突变，如图3的C>T列所示。然后计算时间点之间频率的相对变化，如第三图所示，其中星形代表显著变化(p<0.05,FET)。可以看出，在用威罗菲尼(靶向BRAF)和易普利姆玛(抗CTLA4检查点抑制剂)治疗一年的过程中，在显示黑素瘤的患者中观察到T>C突变的系统且一致的降低。这种突变的相对频率的系统且一致的变化表明了亚克隆和或患者中的转移之间的潜在差异响应。参见例如，Venn等人,"Genome-wide cfDNA Sequencing of Melanoma Progression,"2015年5月12日在伦敦的BioTrinity 2015研讨会上展示，通过引用以其整体并入本文。

此外，突变的普遍性在癌症类型之间且甚至在癌症类型内是高度可变的。例如，某些儿童癌症与最少的突变有关，且与导致突变的慢性暴露相关的癌症与最高数量的突变有关。参见例如Alexandrov的第221页。此外，一种突变的普遍性相对于癌症类型中的其他体细胞突变是可变的。根据本文所述的方法，通过变体等位基因频率测量突变的普遍性。然后可以将频率或普遍性与其他突变或种系基因组进行比较(例如，循环肿瘤DNA(ctDNA)与无细胞DNA(cfDNA)的比)。

变体等位基因频率是等位基因在群体中特定基因座的相对频率。例如，为了计算跨个体群体的等位基因频率，人们将计算在具有倍性n的N个个体的群体中的i个染色体中等位基因的所有出现的分数，以及跨群体的染色体拷贝的总数，由以下等式表示：等位基因频率＝i/(nN)。

对于个体内体细胞突变等位基因的频率，频率计算为观察到的突变等位基因拷贝(除以)个体中非突变等位基因拷贝的商。在一些实施方案中，观察到的频率可以针对倍性、噪声率和/或亚克隆复杂性校正。

图5A-K示出了在整个治疗过程中100个体细胞突变的等位基因频率轨迹。在PGM(Life Tech)上使用cfDNA样品的基于扩增子的测序对变体进行追踪。基于分层聚簇(欧几里德距离)，将基因座分配到8个簇中的一个。在图5A-K中示出了威罗菲尼(位于“治疗”行中的前两个矩形，位于x轴上方)和易普利姆玛(“治疗”行中的第三个矩形，位于x轴上方)的治疗周期。还示出了使用CT成像获得的血管周淋巴结(“血管周LN”行，位于x轴上方)和气管旁淋巴结(“气管旁LN”行，位于x轴上方)的肿瘤直径。在这里，通过追踪体细胞突变的等位基因频率，将可以早期观察到易普利姆玛的治疗无效。在第三次CT成像扫描之前88天等位基因频率的增加是可检测的。变体等位基因频率轨迹与聚集的成像淋巴结直径高度相关(86％Pearson相关性)。

此外，遗传变异的类型也将有助于肿瘤的分类。可用于对肿瘤进行分类的遗传变异的实例包括但不限于，端粒序列拷贝数状态(下文进一步详细解释)、单核苷酸多态性、染色体不稳定性、易位、倒位、插入、缺失、杂合性的丧失、扩增、kateagis(定位于小基因组区域的超突变；参见Alexandrov)、和微卫星不稳定性。

除了观察到的遗传变体之外，分类还可以包括确定一种或更多种基因产物生物标志物，其提供潜在基因组信息的不同变换。生物标志物通常是指充当生物状态指标的分子。在一些实施方案中，基因产物可以是RNA分子或蛋白。

根据本发明实施方案的蛋白生物标志物可包括参与以下的那些蛋白：肿瘤发生、血管生成、发育、分化、增殖、细胞凋亡、造血、免疫和激素响应、细胞信号传导、核苷酸功能、水解、细胞归巢、细胞周期和结构、急性期反应和激素控制。参见例如，Polanski和Anderson,"A List of Candidate Cancer Biomarkers for Targeted Proteomics,"Biomark Insights,1:1-48(2007)。由FDA批准并被包括在本发明中的癌症蛋白生物标志物的实例包括但不限于，CEA(癌胚抗原)；Her-2/neu；膀胱肿瘤抗原；甲状腺球蛋白；α-甲胎蛋白；PSA；CA 125；CA 19.9；CA 15.3；瘦素、prolactic、骨桥蛋白和IGF-II；CD98、fascin、sPIgR和14-3-3eta；肌钙蛋白I和B型利尿钠肽。参见以上；和Dawson等人,N Engl J Med368:1199/1209(March 2013)。

可以使用本领域已知的任何测定来分析基因产物。在某些实施方案中，测定涉及确定基因产物的量并将确定的量与参考进行比较。在一个实施方案中，从来自患者的样品获得一种或更多种蛋白生物标志物的水平。然后将从患者获得的水平与具有已知健康状态的患者的患者信息的数据库进行比较。

检测基因产物(例如RNA或蛋白)水平的方法是本领域已知的。本领域已知的用于定量样品中mRNA表达的常用方法包括RNA印迹法和原位杂交(Parker&Barnes,Methods inMolecular Biology 106:247 283(1999)，其内容通过引用以其整体并入本文)；RNA酶保护测定(Hod,Biotechniques 13:852 854(1992)，其内容通过引用以其整体并入本文)；和基于PCR的方法，诸如逆转录聚合酶链式反应(RT-PCR)(Weis等人,Trends in Genetics 8:263 264(1992)，其内容通过引用以其整体并入本文)。可选地，可以使用能够识别特定双链体，包括RNA双链体、DNA-RNA杂合双链体或DNA-蛋白双链体的抗体。本领域已知的用于测量基因表达(例如，RNA或蛋白量)的其他方法在Yeatman等人.(美国专利申请第2006/0195269号)中示出，其内容通过引用以其整体并入本文。

术语“差异表达的基因”或“差异基因表达”是指相对于其在正常或对照受试者中的表达，其在患有疾病诸如癌症的受试者中的表达被激活至更高或更低水平的基因。这些术语还包括其表达在相同疾病的不同阶段被激活至更高或更低水平的基因。还应理解，差异表达的基因可以在核酸水平或蛋白水平被激活或抑制，或者可以经受可变剪接以产生不同的多肽产物。例如，这种差异可以通过多肽的mRNA水平、表面表达、分泌或其他分配的变化来证明。

差异基因表达可以包括两个或更多个基因或其基因产物之间的表达的比较，或两个或更多个基因或其基因产物之间的表达比的比较，或甚至同一基因的两种不同地加工的产物(其在正常受试者和患有病症例如不育症的受试者之间不同，或在同一病症的各个阶段之间不同)的比较。差异表达包括基因或其表达产物中的时间或细胞表达模式的定量以及定性差异二者。差异基因表达(表达的增加和减少)是基于正常细胞中表达的百分比或变化倍数。相对于正常细胞中的表达水平，增加可以是1％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％、120％、140％、160％、180％、或200％。可选地，增加倍数可以是正常细胞中的表达水平的1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍。减少可以是相对于正常细胞中的表达水平的1％、5％、10％、20％、30％、40％、50％、55％、60％、65％、70％、75％、80％、82％、84％、86％、88％、90％、92％、94％、96％、98％、99％或100％。

在某些实施方案中，逆转录酶PCR(RT-PCR)用于测量基因表达。RT-PCR是一种定量方法，其可用于比较不同样品群体中的mRNA水平，以表征基因表达模式、区分密切相关的mRNA、和分析RNA结构。

在另一个实施方案中，基于MassARRAY的基因表达谱系分析方法用于测量基因表达。进一步细节参见例如Ding和Cantor,Proc.Natl.Acad.Sci.USA 100:3059 3064(2003)。另外的基于PCR的技术包括例如，差异展示(Liang和Pardee,Science 257:967 971(1992))；扩增片段长度多态性(iAFLP)(Kawamoto等人,Genome Res.12:1305 1312(1999))；BeadArrayTM技术(Illumina,San Diego,Calif.；Oliphant等人,Discovery ofMarkers for Disease (Supplement to Biotechniques),June 2002；Ferguson等人,Analytical Chemistry 72:5618(2000))；用于检测基因表达的BeadsArray(BADGE),在用于基因表达的快速测定中使用市售的Luminex100LabMAP系统和多个颜色编码的微球(Luminex Corp.,Austin,Tex.)(Yang等人,Genome Res.11:1888 1898(2001))；和高覆盖表达谱分析(HiCEP)分析(Fukumura等人,Nucl.Acids.Res.31(16)e94(2003))。每篇参考文献的内容通过引用以其整体并入本文。

在某些实施方案中，也可以使用微阵列技术鉴定或证实差异基因表达。在该方法中，将感兴趣的多核苷酸序列(包括cDNA和寡核苷酸)铺板或排列在微芯片基底上。然后将排列的序列与来自感兴趣的细胞或组织的特定DNA探针杂交。用于制备微阵列和确定基因产物表达(例如RNA或蛋白)的方法在Yeatman等人.(美国专利申请第2006/0195269号)中示出，其内容通过引用以其整体并入本文。

可选地，可以通过构建抗体微阵列来确定蛋白水平，其中结合位点包含对由细胞基因组编码的多于一个蛋白质种类特异的固定的、优选单克隆的抗体。优选地，对于大部分的感兴趣蛋白存在抗体。用于制备单克隆抗体的方法是周知的(参见例如，Harlow和Lane,1988,ANTIBODIES:A LABORATORY MANUAL,Cold Spring Harbor,N.Y.，其为了所有目的以其整体并入)。

可选地，可以使用“组织阵列”(Kononen等人,Nat.Med 4(7):844-7(1998))表征许多组织样本中标记基因的转录物水平。在组织阵列中，在同一微阵列上估计多个组织样品。阵列允许原位检测RNA和蛋白水平；连续的切片允许同时分析多个样品。

在一些实施方案中，基因表达系列分析(SAGE)被用于测量基因表达。更多细节参见例如Velculescu等人,Science 270:484 487(1995)；和Velculescu等人,Cell 88:24351(1997，其每一篇的内容通过引用以其整体并入本文)。

在一些实施方案中，大规模平行标志测序(MPSS)用于测量基因表达。参见例如，Brenner等人,Nature Biotechnology 18:630 634(2000)。

免疫组织化学方法也适用于检测本发明基因产物的表达水平。因此，对每种标志物特异的抗体(单克隆或多克隆)或抗血清，如多克隆抗血清用于检测表达。可以通过例如，用放射性标记物、荧光标记物、半抗原标记物如生物素、或酶如辣根过氧化物酶或碱性磷酸酶直接标记抗体本身来检测抗体。可选地，未标记的第一抗体与对第一抗体特异的标记的第二抗体结合使用，所述第二抗体包括抗血清、多克隆抗血清或单克隆抗体。免疫组织化学方案和试剂盒是本领域周知的并且是商购可得的。

在某些实施方案中，蛋白组学方法用于测量基因表达。蛋白质组是指在某个时间点存在于样品(例如组织、生物体或细胞培养物)中的蛋白的总体。蛋白质组学包括，除了其他以外，研究样品中蛋白表达的全局变化(也称为表达蛋白质组学)。蛋白质组学通常包括以下步骤：(1)通过2-D凝胶电泳(2-D PAGE)分离样品中的单个蛋白；(2)鉴定从凝胶回收的单个蛋白，例如，通过质谱或N末端测序，以及(3)使用生物信息学分析数据。蛋白质组学方法是其他基因表达谱系分析的有价值的补充，并且可以单独使用或与其他方法组合使用，以检测本发明的预后标志物的产物。

在一些实施方案中，质谱(MS)分析可以单独使用或与其他方法(例如，免疫测定或RNA测量测定)组合使用，以确定生物样品中本文公开的一种或更多种生物标志物的存在和/或数量。用于利用MS分析(包括MALDI-TOF MS和ESI-MS)检测生物样品中生物标志物肽的存在和数量的方法是本领域已知的。对于进一步的指导参见例如美国专利第6,925,389；6,989,100；和6,890,763号，其每一个通过引用以其整体并入本文。

在本发明的一个方面，方法包括并入患者信息，所述患者信息可用作协变量以辅助分类。可以并入的患者信息的非限制性实例包括：年龄、性别、人种、种族、家族疾病史、体重、体重指数、身高、既往和并发感染(例如，HPV、HCV、EBV和HHV-6)、潜在毒素的环境暴露(例如，石棉暴露、从塑料摄取BPA等)、酒精摄入、抽烟史、胆固醇水平、药物使用(非法或合法)、睡眠模式、饮食、压力和运动史。

患者信息可通过本领域已知的任何方式获得。在一些实施方案中，患者信息可以获自由患者完成的问卷调查。信息还可以从患者的医疗史以及血亲和其他家庭成员的医疗史获得。可以通过分析电子医疗记录、纸质医疗记录、包括在调查问卷中的关于医疗史的一系列问题或其组合来获得医疗史信息。在一些实施方案中，患者信息可以通过分析从患者、患者的性伴侣、患者的血亲或其组合收集的样品来获得。在一些实施方案中，样品可包括人组织或体液。

在一些实施方案中，评估每个患者的健康结果。健康结果可包括疾病或病症的一种或更多种诊断以及一种或更多种疾病或病症的阶段或进展，或者结果可以是，患者本来是健康的。诊断通常由执业医师/临床医生进行，并且可以基于症状或临床观察和/或实验室结果。

根据本发明方法的一些实施方案，并且如图6所示，可以在各个时间点收集患者数据，其包括观察到的遗传改变、生物标志物标志、患者协变量信息和健康结果。该数据用于为患者生成突变标志(例如，如图6所示的“分类标志”)。然后将突变标志与健康个体和患病个体的数据库进行比较，以计算该个体的健康状态。

随着随时间追踪患者，可以根据一个或更多个数据库或根据患者的临床信息来完善计算的健康状态。这允许随时间鉴定和完善新的疾病标志。分类数据库受益于网络效应，因为一个或更多个数据库的区别力随着每个添加的患者和随着随时间追踪患者而改进。随着每个另外患者的分类标志和健康状态随时间完善，这些信息可以输入到一个或更多个数据库中，从而提高分类数据库的区别力。

如图6所示，基于从公共数据库获得的信息以及从包含直接从患者观察到的信息的数据库获得的信息，可以计算分类标志。例如，从公共数据库获得的信息最初可用于为健康和患病个体二者确定突变标志。这些标志将被存储在一个数据库中，或者可以被存储在单独的数据库中。当从患者观察和/或获得遗传数据和/或其他患者信息(例如，观察到的遗传变体、蛋白生物标志物水平、临床医生确定的健康结果和患者信息，如上所述)时，根据本发明方法的实施方案创建突变标志。信息、数据和突变标志可被包含在单独的患者数据库中或包含在多个数据库中。可以从患者数据库提取患者的突变标志，并将其与健康和患病个体的突变标志的数据库进行比较。然后可以将患者分配给健康或患病个体种类中的一个。任选地，可以基于标志是从公共数据库信息计算的还是直接从患者观察到的来加权它们。随着时间，来自公共数据库和患者信息数据库的信息被用于通知健康和患病个体的突变标志。

在一些实施方案中，直接从患者获得的信息在获得信息的每个时间点被输入到数据库中。这些条目用于创建纵向轨迹或标志，使得每个时间点的突变标志可以被分析并与健康和患病个体的一个或更多个数据库中的突变标志经时间段进行比较以确定患者的纵向突变标志。此外，随着在一个时间点来自患者的每个观察被比较并且被添加到患病和健康个体的一个或更多个数据库中，可以随时间完善患者和疾病状态二者的纵向标志。

在一些实施方案中，可以使用患者的突变标志并基于该标志与健康和患病个体的突变标志的数据库的比较来确定患者的计算健康状态。如上所述，健康状态计算可以并入患者的健康结果，如由医疗从业者/临床医生在各个时间点确定的。临床医生确定的健康结果和对健康和患病个体的突变标志数据库的持续比较二者用于随时间完善患者的计算健康状态。

根据本发明的方法完善突变标志和患者健康状态允许早期检测疾病过程，包括肿瘤内和肿瘤间异质性，和/或鉴定治疗后微小残留病变(使用本领域目前使用的其他方法将不可检测)。早期检测是重要的，因为它提供了治愈性手术和/或治疗的机会，而不是在更晚期阶段例如在转移中检测疾病。

在一些实施方案中，本发明的方法可用于追踪个体的衰老过程。在个体中随着个体衰老观察到突变；这些突变不一定导致癌性的发展。通过追踪患者的遗传变异、表型性状和环境暴露、生物标志物水平以及医学从业者/临床医生确定的健康结果，可以创建和完善与衰老有关的纵向分类标志(例如体细胞负荷评分)。

如上讨论的，肿瘤可以部分地基于遗传改变的类型，如端粒序列拷贝数状态进行分类。端粒序列拷贝数状态也可以单独用于确定患者的诊断和/或提议的疗法，或者该状态可以与患者信息、基因产物生物标志物和健康结果的一个或更多个组合，如上面关于分类标志所讨论的。

端粒是DNA序列和相关蛋白的复杂结构，其覆盖染色体的末端并且对于维持基因组完整性是至关重要的。端粒DNA序列包括在不同生物之间变化的重复的DNA基序。在人类中，端粒通常是3-18千碱基的(TTAGGG)n串联重复，其逐渐被细胞倍增磨损。端粒序列磨损导致该细胞的细胞衰老。

磨损通过端粒酶补偿，端粒酶是一种具有逆转录酶活性的核糖核苷酸-蛋白质复合物，使用其RNA组分作为模板，将TTAGGG重复序列添加到染色体的3’DNA末端。端粒酶通常不在体细胞中表达，而是存在于干细胞和永生化细胞中。

端粒酶逆转录酶功能的重新激活被认为是肿瘤发生的基本步骤(该酶在85％-90％的肿瘤细胞中过表达)。例如，Akincilar等人,Cell Mole Life Sci,2016。在癌症患者中也已观察到其他形式的端粒延长，诸如交替端粒延长。因此，使用端粒串联重复拷贝数作为疾病和衰老的生物标志物已引起很大兴趣。

存在几种方法以检测端粒的失调。这些包括使用聚合酶链式反应(PCR)、限制酶消化、放射性标记的寡核苷酸的连接、端粒酶活性的直接检测和免疫组织化学技术。最近，已经描述了从基因组DNA的WGS估计端粒长度的方法。参见例如，Zhihao Ding等人,Estimating telomere length from whole genome sequence data.Nucl.Acids Res.(14May 2014)42(9):e75，最初在2017年3月7日在线发表doi:10.1093/nar/gku181；Nersisyan L等人,(2015)Computel:Computation of Mean Telomere Length fromWhole-Genome Next-Generation Sequencing Data.PLOS ONE 10(4):e0125201.doi:10.1371/journal.pone.0125201；和Lars Feuerbach等人,TelomereHunter:telomerecontent estimation and characterization from whole genome sequencingdata.2016.bioRxiv 065532；doi:https://doi.org/10.1101/065532。

然而，所有上述方法受到限制，因为它们仅应用于横断面研究与纵向研究。在不同疾病、病症和衰老研究中的横断面队列研究的文献中存在很多矛盾。此外，所描述的方法仅应用于来自外周血单核细胞(PBMC)的基因组DNA。这种方法仅反映了白细胞谱系中的端粒完整性。

相比而言，根据本发明实施方案的方法随时间估计来自患者中无细胞核酸(例如，DNA、RNA)的端粒长度。使用无细胞核酸来估计端粒长度反映了个体中所有组织的共有端粒完整性，而不仅仅是特定的群体，诸如使用PBMC时会发生的。

根据本发明的一个实施方案，通过从cfDNA的测序计算完整性评分来推断来自无细胞DNA(cfDNA)的端粒完整性。用于将cfDNA测序的任何适合的方法可根据本发明的实施方案使用。例如，WGS可用于将cfDNA测序。由于GC含量对PCR扩增偏倚和杂合体捕获的强烈影响，这种方法可以是优选的。可选地，端粒完整性评分可以通过将已经富集一种或更多种特定端粒序列的cfDNA进行测序(另外称为靶向测序)来计算。端粒测序可以使用PCR扩增、杂合体捕获、与端粒序列结合的小分子、G-四联体(quadruplex)标志或ChIP-seq以及针对端粒相关蛋白的抗体来富集。

在一些实施方案中，可以使用各种比对方法比对多于一个序列，如在以下中描述的那些比对方法：Zhihao Ding等人,Estimating telomere length from whole genomesequence data.Nucl.Acids Res.(14May 2014)42(9):，最初在2017年3月7日在线发表doi:10.1093/nar/gku181；和Nersisyan L等人,(2015)Computel:Computation of MeanTelomere Length from Whole-Genome Next-Generation Sequencing Data.PLOS ONE 10(4):e0125201.doi:10.1371/journal.pone.0125201，其二者通过引用以其整体并入本文。Ding和Nersisyan都使用全基因组下一代测序(NGS)来生成短读段。在Ding中，端粒长度通过TelSeq算法使用公式l＝t_ksc计算，其中l是平均端粒长度，t_k是端粒读段的丰度，s是GC组成在48％和52％之间的所有读段的分数，且c是基因组长度除以端粒末端数量的常数。Ding的第2页。在Nersisyan中，短读段用作Computel算法的输入，然后将其映射到基于用户定义的端粒重复模式和读段长度构建的端粒索引。然后Computel算法基于端粒的比和参考基因组覆盖、染色体数量和读段长度计算平均端粒长度。Nersisyan的第2-4页和Nersisyan的图1。

还应理解，本领域已知的用于鉴定端粒序列的其他方法也可用于实施本发明方法。这些包括但不限于，分析来自从头组装方法的k-mer频率。参见例如，Li等人,GenomeRes 20(2):265-272(2010)；和Liu等人,在http://arxiv.org/abs/1308.2012(2013)在线发表，其二者通过引用以其整体并入本文。使用任何上述方法，可以(直接或间接)询问序列读段的端粒特异性串联重复。

在一些实施方案中，可以将端粒频率对每个个体归一化。在一个实施方案中，使用与端粒特异性串联重复序列具有相同比例的单个核苷酸的对照序列的频率来将频率归一化。例如，TTAGGG串联重复的频率可以使用与TTAGGG串联重复具有相同的A、C、G和T比例、但具有变更的序列的对照序列的频率来归一化。在一些实施方案中，通过将确定的频率分布与频率分布的参考数据库进行比较，将频率归一化。在每种情况下，对照提供参考频率，可以将观察到的端粒频率与其进行比较，并且其可以说明DNA输入量的变化。

在一些实施方案中，一旦确定了端粒特异性串联重复序列，可以创建完整性评分。完整性评分可以包含端粒串联重复序列的频率分布作为重复长度的函数。如同上面讨论的分类标志，分层可以通过序列环境来完成，例如，通过鉴定与每个染色体臂上的端粒相邻的序列。该分布在任何时间点的拓扑结构，或其在时间点之间的变化可以用作鉴定特征。图7示出了来自含有来自黑素瘤癌症患者的重复端粒序列的cfDNA的全基因组测序读段的数量的经验分布。呈现了治疗期间的两个时间点，用箭头表示。对于每个时间点，计算每个测序通道的读段的数目。

如同上面讨论的分类标志，也可以从端粒完整性评分构建每个患者的纵向轨迹。然后可以将该轨迹与具有已知健康状态的患者的一个或更多个数据库中包含的纵向轨迹进行比较，以确定诊断和可能的疗法。此外，如上面关于分类标志所讨论的，患者信息、基因产物生物标志物和健康结果也可以与完整性评分整合。

将用作例如协变量的可从患者获得的信息可包括但不限于年龄、性别、人种、种族、家族疾病史、体重、体重指数、身高、既往和并发感染(例如，HPV、HCV、EBV和HHV-6)、潜在毒素的环境暴露(例如，石棉暴露、从塑料摄取BPA等)、酒精摄入、抽烟史、胆固醇水平、药物使用(非法或合法)、睡眠模式、饮食、压力和运动史。然后可以将该信息与具有已知健康状态的患者的一个或更多个数据库进行比较。

其他协变量可包括但不限于，输入核苷酸质量和测定动态范围。可选地或另外地，可以包括患者的遗传背景诸如患者的TERT启动子突变谱作为协变量。

根据本发明方法的基因产物生物标志物可包括蛋白表达水平。优选蛋白的实例是端粒酶蛋白。如上所述，生物标志物的水平可以根据本领域已知的任何测定方法从患者获得。一旦获得，可以将该水平与具有已知健康状态的患者的数据库进行比较。

本文描述的本发明的各方面可以使用任何类型的计算设备来执行，例如计算机，其包括处理器，例如中央处理单元，或者计算设备的任何组合，其中每个设备执行该过程或方法的至少一部分。在一些实施方案中，本文描述的系统和方法可以用手持设备执行，例如智能平板电脑、或智能电话、或者为该系统生产的专用设备。

可以使用软件、硬件、固件、硬连线或这些中的任一种的组合来执行本发明的方法。实现功能的特征也可以物理地位于各种位置，包括被分布使得功能的各部分在不同的物理位置处实现(例如，成像装置在一个房间且主机工作站在另一个房间，或者在单独的建筑物中，例如，用无线的或有线连接)。

作为示例，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一种或更多种处理器。通常，处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或更多个存储器设备。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或更多个大容量存储设备接收数据或将数据传输到用于存储数据的一个或更多个大容量存储设备，或二者，所述大容量存储设备例如磁盘、磁光盘或光盘。适用于体现计算机程序指令和数据的信息载体包括非易失性存储器的所有形式，包括例如半导体存储器设备(诸如EPROM、EEPROM、固态硬盘(SSD)和闪存设备)；磁盘(诸如内置硬盘或可移动磁盘)；磁光盘；和光盘(例如CD和DVD盘)。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本文描述的主题可以在具有用于向用户展示信息的I/O设备例如CRT、LCD、LED或投影设备以及输入或输出设备诸如键盘和指示设备(例如，鼠标或追踪球)的计算机上实现，用户可通过该设备向计算机提供输入。其他类型的设备也可用于提供与用户的交互。例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)，并且来自用户的输入可以以任何形式接收，包括声学、语音或触觉输入。

本文描述的主题可以在包括以下的计算系统中实现：后端组件(例如，数据服务器)、中间件组件(例如，应用服务器)或前端组件(例如，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过其与本文所述主题的实现方式进行交互)，或者此类后端、中间件和前端组件的任何组合。系统的各组件可以通过任何形式或介质的数字数据通信(例如通信网络)通过网络互连。例如，参考数据集可以存储在远程位置，并且计算机通过网络通信访问参考集，以将从女性受试者导出的数据与参考集进行比较。然而，在其他实施方案中，参考集本地存储在计算机内，并且计算机访问CPU内的参考集以将受试者数据与参考集进行比较。通信网络的实例包括蜂窝网络(例如，3G或4G)、局域网(LAN)和广域网(WAN)，例如因特网。

本文描述的主题可以实现为一个或更多个计算机程序产品，诸如有形地体现在信息载体(例如，在非暂时性计算机可读介质中)用于由数据处理设备(例如，可编程处理器、计算机或多个计算机)执行或者控制其操作的一个或更多个计算机程序。计算机程序(也称为程序、软件、软件应用程序、应用程序、宏或代码)可以用任何形式的编程语言，包括编译或解释语言(例如，C、C++、Perl)编写，且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适用于计算环境中的其他单元。本发明的系统和方法可以包括用本领域已知的任何合适的编程语言编写的指令，所述编程语言包括但不限于C、C++、P_erl、J_ava、A_cti_veX、HTML5、Vi_sual B_asi_c或JavaScript。

计算机程序不一定对应于文件。程序可以存储在文件或保存其他程序或数据的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或存储在多个协调文件中(例如，存储一个或更多个模块的文件、子程序或代码的部分)。可以部署计算机程序以在一个计算机上或在一个站点的多个计算机上执行，或者分布在多个站点上并通过通信网络互连。

文件可以是数字文件，例如，存储在硬盘驱动器、SSD、CD或其他有形的、非暂时性介质上。文件可以通过网络从一个设备发送到另一个设备(例如，作为数据包从服务器发送到客户端，例如，通过网络接口卡、调制解调器、无线卡或类似物)。

编写根据本发明的文件涉及转换有形的、非暂时性的计算机可读介质，例如，通过添加、移除或重新排列粒子(例如，通过读/写头将净电荷或偶极矩转换成磁化模式)，然后所述模式代表关于用户期望并且对用户有用的客观物理现象的信息的新排列。在一些实施方案中，编写涉及物理转换有形的、非暂时性计算机可读介质中的材料(例如，具有某些光学性质，使得光学读/写设备然后可以读取新的和有用的信息排列，例如，运行CD-ROM)。在一些实施方案中，编写文件包括转换物理闪存设备诸如NAND闪存设备并通过转换由浮栅晶体管制成的存储单元阵列中的物理元件来存储信息。编写文件的方法在本领域中是周知的，例如，可以手动或由程序或通过软件的保存命令或来自编程语言的写入命令自动调用。

合适的计算设备通常包括大容量存储器、至少一个图形用户界面、至少一个显示设备，并且通常包括各设备之间的通信。大容量存储器示出了一种类型的计算机可读介质，即计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性、非易失性、可移动和不可移动的介质，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的实例包括RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多用光盘(DVD)或者其他光学存储器、磁盒、磁带、磁盘储存器或者其他磁存储设备、射频鉴别标签或芯片、或者可用于储存期望的信息并且可由计算设备存取的任何其他介质。

可以使用软件、硬件、固件、硬连线或这些中的任何组合来实现以上描述的功能。软件的任一个可以物理地位于各个位置，包括被分布使得功能的各部分在不同的物理位置处实现。

如本领域技术人员将认识到必要或最适合于执行本发明的方法，用于实现本发明描述的方法的一些或所有的计算机系统501可包括一个或更多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)或二者)、主存储器和静态存储器，其经由总线彼此通信。

图8提供了根据本发明的实施方案的系统501的图解。系统501可以包括分析仪器503，其可以是例如测序仪器。仪器503包括数据采集模块505，以获得结果数据诸如序列读段数据。仪器503可以任选地包括或可操作地偶联到其自己的、例如专用分析计算机533(包括输入/输出机构、一个或更多个处理器和存储器)。另外地或可选地，仪器503可以经由网络509可操作地偶联到服务器513或计算机549(例如，膝上型计算机、台式计算机或平板电脑)。

计算机549包括一个或更多个处理器和存储器以及输入/输出机制。在本发明的方法采用客户机/服务器结构的情况下，本发明的方法的步骤可以使用服务器513来执行，该服务器513包括能够获得数据、指令等的处理器和存储器中的一个或更多个，或者通过接口模块提供结果或将结果作为文件提供。服务器513可以由计算机549或终端567通过网络509参与，或者服务器513可以直接连接到终端567，终端567可以包括一个或更多个处理器和存储器以及输入/输出机制。

在系统501中，每个计算机优选地包括耦合到存储器的至少一个处理器和至少一个输入/输出(I/O)机制。

处理器通常将包括芯片，例如单核或多核芯片，以提供中央处理单元(CPU)。该过程可由Intel或AMD的芯片提供。

存储器可以包括一个或更多个机器可读设备，其上存储有一组或更多组指令(例如，软件)，当由任何一个所公开的计算机的处理器执行时，可以完成本文描述的一些或所有方法或功能。在由计算机系统执行软件期间，软件也可以完全或至少部分地驻留在主存储器内和/或处理器内。优选地，每个计算机包括非暂时性存储器，例如固态驱动器、闪存驱动器、磁盘驱动器、硬盘驱动器等。

尽管机器可读设备可以在示例性实施方案中被示为是单个介质，但是术语“机器可读设备”应该被认为包括存储一组或更多组指令和/或数据的单个介质或多个介质(例如，集中式或分布式数据库、和/或相关联的高速缓存和服务器)。还应当认为这些术语包括能够储存、编码或保持指令集的任何一种或更多种介质，其中这些指令集由机器执行或使机器执行本发明的任何一种或更多种方法。因此，这些术语应被视为包括但不限于一种或更多种固态存储器(例如，用户身份模块(SIM)卡、安全数字卡(SD卡)、微型SD卡或固态驱动器(SSD))、光学和磁性介质、和/或任何其他有形的一种或更多种存储介质。

本发明的计算机将通常包括一个或更多个I/O设备，诸如例如以下的一个或更多个：视频显示单元(例如，液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入设备(例如，键盘)、光标控制设备(例如，鼠标)、磁盘驱动器单元、信号发生设备(例如，扬声器)、触摸屏、加速度计、麦克风、蜂窝射频天线和网络接口设备，其可以是例如网络接口卡(NIC)、Wi-Fi卡或蜂窝调制解调器。

软件的任一个可以物理地位于各个位置，包括被分布为使得功能的各部分在不同的物理位置处实现。

另外，本发明的系统可以提供为包括参考数据。可以存储任何合适的基因组数据以供在系统内使用。实例包括但不限于：来自癌症基因组图谱(The Cancer Genome Atlas,TCGA)的癌症主要类型和亚型的关键基因组变化的综合、多维图谱；来自国际癌症基因组联合会(The International Cancer Genome Consortium,ICGC)的基因组异常目录；来自COSMIC的癌症中的体细胞突变目录；最新建立的人基因组和其他流行的模式生物；来自dbSNP的最新参考SNP；来自1000基因组项目(1000Genomes Project)和the BroadInstitute的金标准得失位；来自Illumina、Agilent、Nimblegen和Ion Torrent的外显子组捕获试剂盒注释；转录物注释；用于试验管道的小型测试数据(例如，对于新用户)。

在一些实施方案中，数据在被包括在系统中的数据库580的环境内可用。可以使用任何合适的数据库结构，包括关系数据库、面向对象的数据库等。在一些实施方案中，参考数据被存储在关系数据库，例如“非唯一SQL”(NoSQL)数据库中。在某些实施方案中，图形数据库被包括在本发明的系统中。还应理解，数据库580不限于一个数据库；系统中可以包括多个数据库。例如，根据本发明的实施方案，数据库580可以包括两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个或更多个数据库，包括其中的任何整数个数据库。例如，一个数据库可以包含公共参考数据，第二数据库可以包含观察到的遗传变体、基因产物生物标志物水平、临床评估的健康结果和来自患者的患者信息，第三数据库可以包含健康个体的变体标志，且第四数据库可以包含患病个体的变体标志。在另一个实施方案中，观察到的遗传变体、基因产物生物标志物水平、临床评估的健康结果和患者信息可各自被包含在单独的数据库中。在又另一个实施方案中，健康和患病个体的变体标志被包含在一个数据库中。应当理解，关于其中包含的数据的数据库的任何其他配置也通过本文描述的方法设想。

癌症是一种以基因组改变的复杂谱系为特征的疾病，在图1示意地描绘。体细胞突变和体细胞重组过程在肿瘤细胞谱系内生成遗传多样性。这些改变代表了肿瘤的区别和基本标志——分子条形码。

一些改变是原因，推动肿瘤进展，而其他事件几乎没有功能后果并且被称为乘客突变。观察到改变的累积是肿瘤内和/或个体患者的肿瘤之间和患者之间的遗传异质性。遗传多样性是治疗抵抗的重要贡献者，但也可以生成可以是宿主免疫响应的靶的新抗原。

体细胞遗传异质性在肿瘤分类中产生两个挑战：肿瘤随着时间经历快速进化，并且尽管在两个或更多个个体中的相同组织中出现，肿瘤可以在遗传上不同，具有不同的预后和治疗响应。图1描绘起始肿瘤细胞的谱系。祖先细胞在时间t0出现，在细胞分裂期间出现遗传上不同的亚群(亚克隆)，并向树中添加新的分支。每个亚克隆的相对群体大小由每个分支的宽度表示。随着时间，生成三个亚克隆S(0,1)、S(0,2)和S(0,3)，每个由它的一组体细胞改变来区分。如果没有发生回复突变并且没有重组(重组产生图)，则突变可以表示为嵌套的树对象(例如S(0,3)中包含的S(0,1))。转移S(3,0)来源于快速扩张的亚克隆S(0,3)。S(0,2)中的细胞数减少，相反，S(0,1)保持稳定，且S(0,3)增加。因此，突变等位基因的频率将是其在亚克隆和健康组织以内和之间的相对频率的函数。通过测量条形码，肿瘤可以在症状表现之前检测，而症状仅在多次亚克隆出现后才出现。

遗传测试，诸如KRAS或BRAF突变状态，已经证明在疗法选择中有用，例如，在诸如所描述的病例(PT0001，其中BRAF突变状态用于选择威罗菲尼疗法)的病例中，告知是否使用酪氨酸激酶抑制剂的决定。然而，单个基因座测试不足以捕获癌症中的遗传异质性，且因此在分类中具有有限的效用。一些研究已经使用多区域测序评估异质性，而其他研究已经随着时间追踪预定义的突变。

本发明的方面包括一种方法，通过对患者中的部分或全部遗传变异进行随时间的取样来创建肿瘤分类标志。这一纵向标志可被用于将患者状态针对从已知的健康和患病个体收集的标志的数据库进行分类。随着每个另外的患者的标志和健康状况随着时间的推移而被完善，下一个患者受益于分类数据库的提高的区别力(图6)。在图6中，流程图描绘了观察到的遗传改变、生物标志物标志、患者信息和健康结果的转换，以生成假设患者的分类条形码。一旦确定，然后使用分类条形码根据健康和患病个体的数据库计算健康状态。随着随时间追踪患者，可以根据数据库和/或根据来自患者的临床信息来完善健康状态。这允许随时间鉴定和完善新的疾病标志。分类数据库受益于网络效应，因为数据库的区别力随着每个添加的患者和随着随时间追踪患者而改进。

在实际意义上，改变的潜在序列及其发生的顺序的组合复杂性是无限的，由它们的相对频率进一步复杂化。因此，需要构造抽象的表示即条形码轨迹以在先前观察到的病例与所考虑的患者之间进行比较。

可用于分类的变量或特征的非限制性实例包括：观察到的变体的总数；其中出现变体的序列环境(例如，UV损伤具有增加的C>T突变的标志，具有三联体环境依赖性(Alexandrov等人,(2013)Signatures of mutational processes in humancancer.Nature,500(7463),415–421.http://doi.org/10.1038/nature12477))；突变相对于其他体细胞突变或种系基因组的流行(例如，变体等位基因频率)(例如，循环肿瘤DNA与cfDNA的比)；遗传改变的类型；端粒序列拷贝数状态；染色体不稳定性；易位；倒位；插入；缺失；杂合性的丧失；扩增；和微卫星不稳定性。

这些基因组变量可以与蛋白生物标志物例如CEA或RNA标志组合，这提供潜在基因组信息的不同转换。从观察到的标志轨迹、患者协变量(例如年龄、性别、抽烟史)和健康结果(解释变量)的数据库，可以对个体的肿瘤进行分类、推断其预后，并且可以推断潜在的治疗干预。

癌症的特征在于遗传异常的谱系，表现为肿瘤内和肿瘤间遗传异质性。这种多样性支持治疗抵抗，同时也为癌症免疫疗法生成新表位靶的储库。因此，构建异质性的量度在患者护理中具有重要的用途。本发明的方面包括通过在患者中鉴定和追踪异质性标志来监测全局治疗响应的方法。追踪多个体细胞改变可帮助防止遗漏患者中不同的肿瘤内和/或肿瘤间响应，这提高了检测微小残留病变或治疗响应的能力(图10)。例如，聚簇可以使用频率-域和/或时间-域方法来完成。肿瘤异质性的临床影响是，如果只追踪一个轨迹，临床医生可能会得出部分响应。然而，在所描述的病例中，患者在手术后6个月进行随访时出现阴茎、肝和肺转移。初始分类pT3N0(0/14)M0 L0 V0 R0(其中“pT3”表示阶段编号为3的病理分期；“N0”表示阳性淋巴结的数目为零(测试的14个中)；“M0”表示零转移；“L0”表示零淋巴管侵入；且“R0”表示切除后无残留肿瘤)。尽管残留肿瘤分类为没有残留的肿瘤以及既没有阳性淋巴结也没有转移，所描绘的轨迹与手术时的至少一个转移相容并证明其存在。

此外，轨迹可以被分析为由序列环境分层的改变的进化。图3描绘了从患者的cfDNA的全基因组测序(WGS)获得的动态黑素瘤突变标志。图3示出了在用威罗菲尼和易普利姆玛治疗1年的过程中，观察到T>C突变的系统性和持续性降低，表明亚克隆和/或患者中转移之间可能的差异响应。图3描绘了通过三联体环境分层的WGS鉴定的突变(N_时间点1＝24377、N_时间点2＝35036)。观察到的谱与Alexandrov等人(2013),Signatures of mutationalprocesses in human cancer.Nature,500(7463),415–421.http://doi.org/10.1038/nature12477报道的2型谱一致，与UV诱导的DNA损伤相容(丰富的C>T，参见右上侧插图)。第一和第二图示出了突变cfDNA WGS(自助法,95％CI)。第三图示出了时间点之间的频率的相对变化，星形代表显著变化(p<0.05,FET)。

本发明的方面包括使用来自cfDNA的端粒基序拷贝数检测癌症的方法。端粒是DNA序列和相关蛋白的复杂结构，其覆盖染色体的末端并且对于维持基因组完整性是至关重要的。端粒DNA序列包括重复的DNA基序，这些基序在不同生物之间变化。在人类中，端粒通常是3-18千碱基的(TTAGGG)n串联重复，其逐渐被细胞倍增磨损。端粒序列磨损导致该细胞的细胞衰老。

磨损通过端粒酶补偿，端粒酶是一种具有逆转录酶活性的核糖核苷酸-蛋白质复合物，使用其RNA组分作为模板，将TTAGGG重复序列添加到染色体的3’DNA末端。端粒酶通常不在体细胞中表达，而是存在于干细胞和永生化细胞中。端粒酶逆转录酶功能的重新激活被认为是肿瘤发生的基本步骤(该酶在85％-90％的肿瘤细胞中过表达)。也已观察到其他形式的端粒延长，诸如交替端粒延长。因此，使用端粒串联重复拷贝数作为衰老和疾病的生物标志物已引起很大兴趣。

存在用于检测端粒失调的许多方法，例如使用PCR、限制酶消化、放射性标记的寡核苷酸的连接、端粒酶活性的直接检测和免疫组织化学技术。最近，已经描述了从基因组DNA的WGS估计端粒长度的方法(Ding等人，2014；Nersisyan等人，2015，两者均在上文引用)。

然而，所有上述方法具有的局限性在于它们已经被描述用于a)横断面研究并且b)已经应用于来自PBMC的基因组DNA，这仅仅是白细胞谱系中端粒完整性的反映。在不同疾病、病症和衰老研究中的横断面队列研究文献中存在很多矛盾。从cfDNA估计端粒长度反映了个体中跨所有组织的共有端粒完整性。本发明的方面包括用于从cfDNA的测序构建推断的端粒完整性评分的方法。在一些实施方案中，从cfDNA的全基因组测序(WGS)计算端粒完整性评分。由于GC含量对PCR扩增偏倚和杂合体捕获的强烈影响，WGS可提供更准确的结果。在一些实施方案中，从已经富集了端粒序列的测序cfDNA(即靶向测序)计算端粒完整性评分。端粒序列可以使用PCR扩增、使用可选择的寡核苷酸(例如生物素化的)的杂合体捕获、使用与端粒序列和/或G-四联体标志结合的小分子、或使用ChIP-seq以及针对端粒相关蛋白的抗体来富集。

在一些实施方案中，可以使用基于比对的方法鉴定端粒序列，如Ding等人(2014)或Nersisyan等人(2015)所述，均在上文引用，或者通过从本领域已知的从头组装方法分析k-mer频率。在两种情况下，对于端粒特异性串联重复，(直接或间接)询问测序读段。端粒频率可以如下对每个个体归一化：使用在TTAGGG串联重复具有相同的A、C、G和T比例、但是具有变更的序列的对照序列的频率，或者通过靶向基因组中的独特的纯合基因座。这些对照提供了可以针对其评价端粒频率的参考频率，并且说明了DNA输入量的变化。

本发明的方面包括为每个患者构建端粒完整性评分的纵向轨迹的方法。然后可以针对具有已知健康结果的其他个体的参考数据库对个体的轨迹进行分类。完整性评分可以包含端粒串联重复的频率分布作为重复长度的函数，可能通过鉴定与每个染色体臂上的端粒相邻的序列进行分层。该分布在任何时间点的拓扑结构，或其在时间点之间的变化可以用作鉴定特征。

在一个优选的实施方案中，本主题方法包括从患者的血浆样品分离cfDNA，并使用Illumina测序进行cfDNA的测序。

通过引用并入

在本公开内容中，已经对其他文献，诸如专利、专利申请、专利出版物、期刊、书籍、论文、网页内容进行了参考和引用。所有此类文件为了所有目的通过引用整体并入本文。

等同物

除了本文所示和所述的那些之外，本发明的各种修改及其许多其他实施方案对于本领域技术人员来说将从本文件的全部内容(包括对本文引用的科学和专利文献的参考)变得明显。本文的主题包含重要的信息、示例和指导，其可以适应于本发明在其各种实施方案及其等同物中的实践。

提供以下实施例仅用于说明目的，并且不意图以任何方式限制本发明的范围。虽然已经在本公开内容中提供了若干实施方案，应当理解，所公开的系统和方法可以以许多其他具体形式实施，而不脱离本公开内容的精神或范围。本实施例将被认为是说明性的而非限制性的，并且本发明不意图限于本文提供的细节。变化、替换和改变的各种实例是本领域技术人员可以确定的，并且可以进行而不脱离本文公开的精神和范围。

整个说明书中引用的所有参考文献通过引用明确地并入本文。

材料和方法

以下材料和方法用于以下描述的实施例。

设计：将来自10名结肠直肠癌患者、一名肾癌症患者(#004)和一名乳腺癌症患者(#009)的血液样品的cfDNA在手术前后测序(列于表1)。患者的临床信息报道于表1。

测序方法：测序文库从70ng的cfDNA生成，该cfDNA根据方案SENTRYSEQ版本1从手术前和手术后的血浆样品中分离。该方案包括七个阶段：从血液中分离血浆，从血浆中提取cfDNA，测序文库制备，质量控制检查，PCR扩增，靶标富集和测序。各阶段按顺序描述。

将血液收集在10mL EDTA管中，并在抽血2小时内处理样品以分离血浆，以使来自基因组DNA的污染最小化。使用离心提取血浆：首先，将血液在室温以3000rpm离心10分钟减去制动；第二，将血浆以1mL等分试样转移至1.5mL管中，并在室温以7000rpm进行第二次旋转10分钟。然后将上清液转移到新的1.5mL管中，其可以在-80℃储存。使用Qiagen QIAmp循环核酸试剂盒提取无细胞DNA，修改洗脱方案以使输入材料的cfDNA产率最大化。按照制造商的说明使用Qiagen QIAmp循环核酸试剂盒提取cfDNA(每柱允许的最大血浆量为5mL)。如果在Streck管中从收集血液的血浆提取cfDNA，则与蛋白酶K的反应时间从30分钟加倍到60分钟。如果存在足够的材料，填充5mL的最大允许体积。然后将方案修改为两步洗脱以使cfDNA产率最大化：首先，对于每个柱，使用30μl(官方方案20-150uL)缓冲液AVE洗脱DNA。将在洗脱中使用的缓冲液的量最小化，同时确保膜的完全覆盖。这限制了稀释以使cfDNA浓度最大化，避免了对样品的下游干燥的要求，样品的下游干燥可能导致双链DNA解链和/或物质损失。第二，每柱洗脱30uL缓冲液AVE。第二次洗脱增加了DNA产率，如表1所示。必须通过降低洗脱液中的最终DNA浓度来平衡另外的洗脱。然后合并洗脱液。使用Qubit DNA HS试剂盒一式三份地定量提取的DNA。修改用于WGS的Illumina的TruSeq Nano试剂盒(部件#15041110，版本B)。供应商提供的Illumina的TruSeq Nano试剂盒用于制备文库。这一试剂盒被设计用于全基因组测序，但修改试剂化学计量和孵育时间以增加通过该过程具有正确的测序衔接子连接的分子的数量(文库转换效率)。没有对取样的DNA进行片段化(例如超声处理)，因为cfDNA已经是片段化的(cfDNA群体的平均长度为约167个碱基，且片段大小的分布因个体而异)。在末端修复之前没有SPRI珠净化步骤，以使cfDNA的损失最小化。这消除了乙醇携带进入PCR的风险；乙醇是周知的PCR的抑制物，且在SPRI珠开始破裂之前去除所有乙醇液滴是挑战性的。还减少了操作时间。基于样品中DNA片段的估计数量，通过因子A调整Illumina试剂体积，以说明相对于来自TruSeq Nano方案中规定的超声处理的基因组DNAN_g的片段的cfDNA片段N_f的不同数量。调整应用于末端修复、3’末端腺苷酸化和衔接子连接步骤中使用的试剂。群体i中分子的数量N_i通过将群体的质量m_i除以一个双脱氧核糖核苷酸的平均分子量(w＝6.5E+11ng/摩尔)与每个分子中的平均碱基数L_i的乘积，然后将此值乘以Avogadro常数来计算，N_i＝m_i/(w×L_i)×N_A。调整因子A是N_f除以N_g的商，A＝m_f/m_g×L_g/L_f。Illumina TruSeq Nano试剂盒方案规定m_g＝100ng输入DNA，并指定超声处理至L_g＝350个碱基的片段长度。为了使具有用于末端配对测序的连接的至少两个Y形Illumina测序衔接子的cfDNA片段的数量最大化，衔接子连接反应时间增加到16小时并且使用16C的较低孵育温度降低溶液中分子的动能。

衔接子连接导致‘堆叠’，在PCR扩增后多个堆叠的衔接子通过空间位阻在分子的每一末端上转化为单个衔接子拷贝。使用1:1.6，然后是1:1的样品:珠的比的SPRI样品纯化珠来净化样品，其被优化以去除游离的衔接子。在文库制备的最后步骤，将混合物洗脱到27.5μl的推荐体积。文库制备步骤到此结束。

接下来，使用Bioanalyzer(或等同的)仪器记录DNA群体的片段大小分布。在测序文库的PCR扩增之前和之后来自该机器的读出显示堆叠的衔接子发生并且通过PCR有效地解析，导致与配对末端测序相容的分子(其被称为“可测序的”分子)的更高产率。对于片段大小确定，在文库制备之前和之后输入1μl cfDNA以鉴定平均片段长度。测序文库制备前cfDNA分子长度的分布可近似为正态分布的取样，X_pre～N(μ_pre,σ^2)，平均长度μ_0为约150-180个碱基，且样品方差σ^2。文库制备后分子长度的分布X_post可近似为由连接的测序衔接子的数量偏移的正态分布的叠加，每个测序衔接子具有固定的长度A，对于Illumina平台通常为60个碱基(P5和P7衔接子)。可被测序(可测序)的分子具有连接到cfDNA片段的每一端的至少1个衔接子，因此具有平均值μ_0,+kA，其中k≥2。如在衔接子连接部分描述的，如果文库被PCR扩增，如果连接的衔接子的数目k为至少2，生成可测序的分子：X_post～∑_(k＝0)^4Y_k×N((μ_pre+kA),σ^2)，k∈N_0，其中Y_k是连接有k个衔接子的分子贡献的权重。在使用P5和P7PCR引物进行PCR扩增后，群体中主要是群体μ_pre+2A。

然后，将文库定量。使用Kapa文库定量试剂盒(Kapa Biosystems)定量文库的质量。定量对于通过文库制备过程确定文库产率和计算方案中后续步骤的反应体积是重要的。Kapa HiFi Hotstart扩增(Kapa Biosystems,KR0370-v5.13)用于扩增。使用跨GC含量具有稳健性能的高保真PCR酶。高保真酶诸如Kapa HiFi Hotstart具有比Taq低100X的错误率。重复读段的水平影响所需的测序总量。模拟机用于评估最佳过度扩增因子，以检测在指定频率的变体、文库制备期间共同掺入的损失、诱导误差和调用算法依赖性。系综中读段与潜在原始分子的比称为过度扩增因子。为了计算一个测试运行中可以分析的样品的数量，应用以下公式：(样品/运行)＝(读段/运行)÷((#基因组等同物/样品)×(组大小)×(过度扩增因子))/平均文库分子长度」。这确保了每个测试运行的有效利用，同时确保存在足够的读段用于在测序中代表系综。PCR扩增如下。实现所期望的冗余度所需的PCR循环数使用与先前PCR运行拟合的模型来计算。首先通过将指数模型拟合到已知的cfDNA输入量来计算PCR效率。然后使用估计的参数计算实现期望的过度扩增所需的扩增的总数(每个原始输入分子的PCR重复平均数)。在随后的8个循环PCR中使用20ul每种样品：25uL KAPA HiFiMastermix 25uL、2.5uL 10uM正向引物、2.5uL 10uM反向引物、20uL模板DNA。

样品使用样品纯化珠以1:1.6的比进行净化，并洗脱到22uL的体积中。1ul在Bioanalyzer上运行，且3μL用于通过qPCR一式三份地定量文库浓度。

接下来，下拉通过杂交捕获进行。鉴定跨癌症类型的突变热点，并结合使用IDT协议(DNA探针杂交和靶捕获，2.0版)的杂合体捕获性能的决定因素模型来设计定制杂合体捕获组。为了进一步优化杂合体捕获组的性能，优化了杂合体捕获探针与输入测序文库的化学计量比。在限制输入探针量将减少脱靶下拉从而增加特异性的假设下，减少了探针的输入量。观察到捕获对于杂合体捕获探针浓度相当稳健。用于杂合体捕获的孵育时间在60℃孵育温度为从4至16小时。组合的生物信息学优化和反应条件优化使产率增加至47％，命中率为80％，均匀性为1.6(对于测序群体的95％，估计为读段的测序深度的最大变化倍数)。由于每个分子由大约8个拷贝表示，考虑到一致的覆盖均匀性，在整个组中保留平均4个拷贝。

杂合体捕获的方案在下文说明：将500ng制备的测序文库、5ug Cot-1DNA和1μL每种通用寡核苷酸在speedvac中干燥。不将文库干燥(因为这会使DNA解链)是至关重要的。在2X 7.5ul杂交缓冲液、3uL杂交组分和2.5uL无核酸酶水中重悬管内容物。将重悬的材料在热循环仪中在95℃孵育10分钟。向该溶液添加3pmol Lockdown Xgen探针(IDT,CA)。在60℃孵育杂交反应16小时。遵循IDT方案用于将靶与链霉抗生物素蛋白珠结合和洗涤步骤。对于每种样品，取等分试样并通过qPCR定量，然后对20ul文库进行12个PCR循环(与上述相同的条件)。用Agencourt Ampure XP珠进行净化。将最终的文库洗脱到22μL IDTE中。然后在Bioanalyzer上运行1uL以确定大小分布，并使用P5、P7引物一式三份地通过qPCR定量。测序。最初将样品稀释至2nM，且然后将600μL中19pM的最终浓度上样到HiSeq上。这导致HiSeq2500上的最佳簇生成。然而，如果未获得在快速运行中所需的簇生成为850-1000K/mm2，则上样浓度可能必须改变。

表1：来自Qiagen QIAmp循环核酸试剂盒的第二次洗脱的cfDNA产率。cfDNA样品来自六名黑素瘤患者。洗脱体积均为30uL的AVE。

样品ID	血浆体积(mL)	洗脱1(ng)	洗脱2(ng)
				血浆009	3	12.63	5.22
血浆010	3	11.76	6.12
				血浆045	3	21	4.14
血浆020	3	20.94	5.7
				血浆062	3	17.1	5.88
血浆063	3	18.9	6.6

该方案应用PCR扩增以创建原始cfDNA分子的多个拷贝，然后进行利用靶向基因组区域的下拉捕获富集的杂交捕获步骤。将样品在HiSeq2500仪器(Illumina,CA)上以HT模式进行配对末端测序。

测序数据：手术前和手术后的样品由带有“前(pre)”或“后(pose)”后缀的数字样品ID识别。FASTQ文件从BaseSpace下载。使用样品BWA(版本0.7.8)将读段与人参考基因组，即“1000基因组人参考基因组(1000Genomes Human Reference Genome)”，(构建37)比对。使用Samtools(版本1.2)和Picard(版本1.111)对比对BAM进行分选、合并和索引。测序概要统计数据使用Picard(版本1.111)生成。候选体细胞变体从cfDNA中的比对调用。以下表2提供了九种样品及其特性的列表。

表2：样品的列表。

实施例：

实施例1：在患者ID号034中使用cfDNA体细胞变体频率轨迹检测疾病复发和转移的存在

结肠直肠癌(CRC)患者ID号034经受了治愈意图的手术。收集手术前和手术后的血液样品，且将其中的cfDNA如上所述地测序。手术前测序数据揭示了13个检测到的体细胞变体。所有13个检测到的体细胞变体的等位基因频率在手术后样品中降低至不可检测的水平，表明肿瘤完全切除。结果在图9中示出。图9示出了在手术前和手术后含有体细胞突变的读段分数的变化。每个圆和连接线代表单独的体细胞突变。鉴定了具有计算推断的功能影响的突变的基因。一种鉴定的突变是在TGFBR2中，具有高功能影响。研究人员已经研究了TGF-β受体的失活是否是人类结肠癌细胞失去对TGF-β的响应性的机制。参见例如，Markowitz等人.(1995),Inactivation of the type a TGF-βreceptor in colon cancercells with microsatellite instability,Science 268(1995):1336-1338。结果表明，TGFBR2基因在结肠癌细胞系的子集(称为RER+，代表“复制错误阳性”)中被灭活，表现出微卫星不稳定性，但在RER(-)细胞中没有。

实施例2：在患者ID号020中使用cfDNA体细胞变体频率轨迹检测疾病复发和转移的存在

结肠直肠癌(CRC)患者ID号020经受了治愈意图的手术。收集手术前和手术后的血液样品，且将其中的cfDNA如上所述地测序。手术前测序数据揭示了多于一个检测到的体细胞变体。然而，在手术后，检测到的体细胞变体的等位基因频率没有降低到不可检测的水平(不同于患者034，实施例1)。结果示于图10中。图10示出了在手术前和手术后含有体细胞突变的读段数目的变化。每个圆和连接线代表单独的体细胞突变。鉴定了具有计算推断的功能影响的突变的基因。

手术后9个月，检测到继发性肿瘤。12个月后，检测到肝和肺转移。图10中图上的轨迹表明，原发性肿瘤和转移是克隆均一的，意味着它们包含相同体细胞变体的相同等位基因频率。这些结果证明了在对患者内的多个肿瘤取样时，使用cfDNA测序分析来确定给定体细胞突变的轨迹的价值。对于这个患者，轨迹表明残留病变仍然存在。

实施例3：在患者ID号187中使用cfDNA体细胞变体频率轨迹检测疾病复发和转移的存在

结肠直肠癌(CRC)患者ID号187经受了治愈意图的手术。收集手术前和手术后的血液样品，且将其中的cfDNA如上所述地测序。患者187在手术前和手术后显示对9种体细胞变体的多样轨迹响应，反映了遗漏的转移性结肠直肠癌的转移发展史。结果示于图11中。图11示出了在手术前和手术后含有体细胞突变的读段数目的变化。每个圆和连接线代表单独的体细胞突变。鉴定了具有计算推断的功能影响的突变的基因。

在图11的上图中提供了在多于一个不同时间点的临床历史。在治愈意图的手术前，治疗外科医生并不知道转移。手术前cfDNA样品中的三个等位基因频率簇表明存在三种不同的癌细胞群体。手术后等位基因频率的差异变化证实，三个簇来自三个不同的肿瘤群体。图11右侧图中的树代表患者内癌细胞的可能潜在谱系，时间从上到下进行，且树中最左边的谱系代表手术切除的肿瘤。PXDNL中的祖先突变被鉴定为接近中间谱系中突变频率的频率。最右边的谱系与切除的肿瘤不共有任何肿瘤突变，且因此在手术后没有变化，表明残留病变仍然存在。

实施例4：cfDNA样品中的微卫星不稳定性(MSI)

使用lobSTR程序(Gymrek等人,(2012),lobSTR:a short tandem repeatprofiler for personal genomes,Genome research 22.6(2012):1154-1162.)对来自具有微卫星不稳定性(MSI)的患者的cfDNA分析示出了在基因座chr20:3,345,703(图12，图B)处多于两个等位基因的证据，证明可以在cfDNA中直接观察到MSI。相比而言，来自无MSI的癌症患者的样品(阴性对照)在cfDNA中没有显示MSI的证据。图12，图A中的频率差异可以通过非参考重复元件的差示杂交捕获效率来驱动。微卫星不稳定性被鉴定为短串联重复(STR)，其存在于cfDNA中的多于2个等位基因中。

图12，图A和B示出了在通过临床测试无MSI证据的患者(图12，图A)和通过临床测试确认MSI的患者(图12，图B)中，在chr20:3,3345,703(人类参考B37)处(TGC)n重复等位基因频率的分布。Y轴表示重复数的相对变化：重复数为零表示与人基因组参考中观察到相同的重复数，而小于零的值表示拷贝数的减少(缺失)，并且大于零的值表示在该基因座的重复拷贝数的相对增加。

图13示出了例证PCR扩增和杂交捕获后推断的STR重复数中增加的变化的数据。所呈现的数据是来自四个cfDNA样品和来自外周血单核细胞(PBMC)的基因组DNA样品的测序数据的推断STR拷贝数。图A：来自转移性黑素瘤患者的cfDNA的无PCR全基因组测序(WGS)；图B：来自相同转移性黑素瘤患者的PBMC基因组DNA的无PCR WGS；图C：施加于健康供体“A”DNA的SENTRYSEQ(30纳克输入DNA)；图D：施加于健康供体“B”DNA的SENTRYSEQ(30纳克输入)；和图E：健康供体“A”与健康供体“B”以1:1000比的混合物(20纳克输入)。

实施例5：cfDNA片段大小分布的分析

在跨2个流通池的快速运行模式，在HiSeq 2500仪器上运行三个测序文库。文库从在开始治疗之前从癌症患者ID号009、031和045获得的cfDNA样品制备。在SENTRYSEQ文库制备方案中使用70纳克提取的cfDNA(参见上文的材料和方法部分)。由Qubit定量确定的浓度在下表3中提供：

表3：从样品提取的cfDNA的量。

将每种样品在生物分析仪仪器上运行以确定cfDNA的片段大小分布。结果在图14的图A、B和C中示出，其提供生物分析仪迹线，示出了以碱基对计的提取的cfDNA的片段大小。在所有样品中存在在约167bp的特征性cfDNA峰；然而，来自患者ID号009的样品表现为具有来自更长片段长度的贡献，可能暗示来自白细胞基因组DNA的污染。

如SENTRYSEQ方案中所述地进行末端修复和加A尾。衔接子的连接使用16℃持续16小时的改进方案进行。样品使用样品纯化珠以1:1.6的样品:珠比进行净化，并然后再次以1:1的比净化。然后将样品洗脱到27.5μL重悬浮缓冲液中。将1微升的每种样品在生物分析仪仪器上运行以确定cfDNA的片段大小分布。结果在图15的图A、B和C中示出，其提供显示PCR扩增前的文库片段大小的生物分析仪迹线。观察到的三态分布模式与衔接子堆叠(cfDNA片段长度+(4x衔接子长度))相容。

对每种样品进行扩增。在8个循环的PCR反应中使用20微升的各样品。反应组分在以下表4中提供：

表4：8个循环的PCR反应混合物组分。

在PCR反应后，样品使用样品纯化珠以1:1.6的比进行净化，并洗脱到22μL的体积中。然后在生物分析仪仪器上运行1微升的每种样品，并使用3μL的每种样品通过定量PCR(qPCR)一式三份地定量文库浓度。结果在图16的图A、B和C中提供，其显示8个PCR扩增循环后的文库片段大小。观察到的三态分布模式朝向片段长度+(2x衔接子长度)位移。这证明了在PCR期间通过空间位阻解析菊花链状的y形测序衔接子，产生在分子的每一末端具有一个衔接子的测序相容的分子的大多数群体。在下面的表5中提供了8个PCR扩增循环后每个文库的浓度：

表5：8个PCR扩增循环后的文库浓度。

然后对每个文库进行下拉和杂交。将来自每个文库的500ng cfDNA、50μg Cot-1DNA和1μL每种通用寡核苷酸在speedvac中干燥。将每个管的内容物在2X 7.5μL杂交缓冲液、3μL杂交组分和2.5μL无核酸酶水中重悬。将重悬的材料在热循环仪中于95℃温育10分钟，且然后加入3皮摩尔的Lockdown探针(IDT,Iowa)。使用组选择器鉴定了200千碱基的靶区域，该组选择器使用交叉折叠验证和说明参考序列独特性来使TCGA和COSMIC数据库中预期的患者突变的数量最大化。组优化方法使用greedy方法鉴定复发的体细胞突变。首先，体细胞变体调用从外部和/或内部癌症基因组学数据集获得。其次，基因组区域基于预测的富集性能模型进行加权。第三，greedy优化鉴定组区域，其在一定的总组大小和/或预先指定的区域或感兴趣的变体的约束下使观察数据中的预期突变的总数最大化。第四，任选地在交叉折叠验证框架中评价设计的组，以考虑防止过度拟合观察到的训练数据。这些和其他相关技术在美国临时专利申请第62/286,110号中描述，其公开内容通过引用以其整体并入本文。然后订购覆盖这些目标区域的Lockdown探针。将杂交混合物在60℃孵育16小时，且然后使用IDT方案将靶与链霉抗生物素蛋白珠结合并洗去未结合的靶。对于每个样品，获取等分试样并通过qPCR定量。结果在以下表6中提供：

表6：下拉后的文库浓度。

文库名称	12个PCR循环前的文库浓度(pM)
		009	0.7
031	1.6
		045	1.2

然后对来自每个文库的20μL样品进行12个循环的PCR。根据标准程序用Agencourtampure XP珠进行净化。然后将最终的文库洗脱到22μL的IDTE中，并且在生物分析仪上运行来自每个文库的样品以确定cfDNA片段大小分布。样品也使用qPCR一式三份地定量。结果在图17的图A和B中提供，其示出了009和031文库的cfDNA片段大小分布。由qPCR确定的最终文库浓度在下表7中显示：

表7：最终文库浓度。

文库名称	12个PCR循环后的文库浓度(nM)
		009	4.1
031	5.6
		045	3.9

对每个文库样品进行测序。最初将样品稀释至2nM，且然后稀释至13.5pM的最终浓度。然后将600μL每个样品上样到HiSeq仪器中。快速运行上所需的簇生成为850-1000K/mm²。在两个流通池上观察到的簇生成非常低，为120K/mm²，导致运行中止。使用一个流通池重复运行，并使用浓度为20pM的600μL样品。从该运行，在泳道1和2上观察到的簇生成分别为1031K/mm²和926K/mm²。从这些结果，确定在快速运行模式下HiSeq仪器中浓度为20pM的600μL样品提供了最佳结果。

实施例6：经历具有治愈意图的手术切除的结肠直肠癌患者中癌症复发的鉴定

收集经历了具有治愈意图的手术切除的15名结肠直肠癌患者的临床信息。三名患者在研究期内具有临床证实的复发。十名患者在手术后被发现有转移性癌症。体细胞轨迹追踪用于鉴定证实的复发病例和另外两个预测的癌症复发。患者信息和来自cfDNA分析的预测复发在图20A-C中提供。结果表明，根据本发明方法的体细胞轨迹追踪可用于检测疾病复发和/或MRD。

实施例7：黑素瘤进展的基因组范围cfDNA测序

追踪单一转移性黑素瘤患者的疾病进展过程。在疾病进展的早期进行肿瘤的活组织检查，并制备福尔马林固定石蜡包埋的(FFPE)样品用于分析。随着疾病的进展，进行连续血浆采集和CT成像。图18阐明患者的疾病进展的时间过程，并且示出了治疗、观察和样品收集时间点。

分析样品以比较cfDNA和FFPE样品的检验价值。结果在图2中提供。FFPE块被广泛使用，保留组织形态但损害核酸。最常见的伪象是由胞嘧啶碱基的脱氨引起的C>T碱基置换和链断裂。C>T碱基置换诱导体细胞点突变的假信号，而胞嘧啶碱基的脱氨增加了模板分子基因组范围覆盖的变异。该研究的结果表明，与cfDNA分析相比，FFPE样品制备严重影响了覆盖均匀性。例如，图2示出了与FFPE WGS相比，cfDNA WGS具有优越得多的测序均匀性。如果覆盖跨基因组完全均匀，则痕迹会追踪对角线。偏离对角线表示不均匀性。

图3提供由cfDNA WGS获得的动态黑素瘤突变标志。示出了由三联体环境分层的WGS鉴定的突变(N时间点1＝24377,N时间点2＝35036)。观察到的谱与Alexandrov等人,(2013)Signatures of mutational processes in human cancer,Nature 500.7463(2013):415-421报道的2型谱一致，与UV诱导的DNA损伤(大量的C>T)相容。第一和第二图示出了突变cfDNAWGS(自助法,95％CI)。第三图示出了时间点之间频率的相对变化，星形代表显著变化(p<0.05,FET)。图3阐明黑素瘤突变标志的基于时间的进展的实例。

图19阐明在端粒酶逆转录酶(TERT)的核心启动子中激活转录的C>T突变。突变生成ETS转录因子的共有结合位点，导致与野生型启动子状态相比转录增加2-4倍，如Huang等人,(2013),Highly recurrent TERT promoter mutations in human melanoma,Science339.6122(2013):957-959报道的。

图5A-K说明了在整个治疗过程中100个体细胞突变的等位基因频率轨迹。通过在PGM(Life Tech)上基于扩增子的cfDNA样品测序对变体进行追踪。基于跨10个时间点测量的变体等位基因频率(VAF)轨迹的分层聚簇(欧几里得距离)，基因座被分配8个簇中的一个。本领域已知的可选的时间序列聚簇方法可用于聚类VAF轨迹并且任选地包括在聚类程序中变体的功能注释。在图5A-K中示出了威罗菲尼(位于“治疗”行中的前两个矩形，位于x轴上方)和易普利姆玛(“治疗”行中的第三个矩形，位于x轴上方)的治疗周期。还示出了使用CT成像获得的血管周淋巴结(“血管周LN”行，位于x轴上方)和气管旁淋巴结(“气管旁LN”行，位于x轴上方)的肿瘤直径。

图5A示出了在同一图表上一起绘制的所有100种变体。

图5B示出了54种体细胞突变。

图5C示出了1种体细胞突变(C1orf43)。

图5D示出了包括BRAF V600R的24种体细胞突变。

图5E示出了10种体细胞突变。这种低频率变体的群体不会随着肿瘤负荷的增加而增加。因此，该群体被解释为包含非肿瘤来源的体细胞突变。假阳性结果也可能生成这种性质的变体，但在图示的实例中，这些变体(突变)在两种不同的测序技术中得到验证，从而降低了它们是假阳性结果所导致的可能性。

图5F示出了3种体细胞突变。(ADAMDEC1；CSMDI；BFSP1)。

图5G示出了与其他100种追踪变体的轨迹无关的单个体细胞变体(BLACE)的轨迹。这个变体不追踪所处理的其他突变轨迹。因此，该变体被解释为非肿瘤来源的体细胞突变。

图5H示出了4种体细胞突变。这些体细胞变体在任何给定的时间点倾向于具有最高的VAF(CSMD1；PKHD1L1；CSMD3；UNCSD)。

图5I示出了2种体细胞突变(ST18；ADAM2)。

图5J示出了1种体细胞突变(TRPS1)。

图5K示出了单个临床可操作的(clinically actionable)体细胞非同义变体BRAFV600R驱动物突变的VAF轨迹。预测BRAF V600R突变对BRAF抑制剂威罗菲尼敏感McArthur,Grant A.,等人."Safety and efficacy of vemurafenib in BRAF V600E and BRAFV600K mutation-positive melanoma (BRIM-3):extended follow-up of a phase 3,randomised,open-label study."The lancet oncology 15.3(2014):323-332。cfDNA的WGS鉴定活化突变BRAF V600R为6％VAF，与从PGM仪器上的扩增子测序估计的5％的VAF一致。在威罗菲尼治疗下，使用扩增子测序方法，BRAF V600R突变VAF降至不可检测的水平。CT成像示出了在同一时间段期间肿瘤体积减小。重要的是，其他追踪的突变在治疗期间持续处于可检测的水平，表明追踪多个体细胞变体以改善治疗响应的估计的价值。在患者中检测对检查点抑制疗法缺乏响应(变体BRAF V600R)时，进一步证实了这一点。

通过追踪来自cfDNA的体细胞突变的等位基因频率，将可以早期观察到易普利姆玛的治疗在该患者中无效。在第三次CT成像扫描之前88天，等位基因频率的增加是可检测的。变体等位基因频率轨迹与聚集的成像结直径高度相关(86％Pearson相关性)。通过随时间追踪多于一个等位基因频率，本发明方法促进检测患者的各种不同的响应，包括但不限于疾病进展和对疗法的响应。例如，如图5A-K所示，在患者中观察到对疗法的响应减弱，并且随着疾病的进展，体细胞突变的聚集等位基因频率增加。在一些实施方案中，观察到在肿瘤大小和聚集的体细胞突变的等位基因频率之间的相关性。因此，在所描绘的实施例中，本发明方法通过随时间追踪单个突变以及突变的聚集等位基因频率来促进监测疾病进展以及对疗法的响应。

该实施例证明，cfDNA WGS容易应用于具有高系统肿瘤负荷的患者，并且使得能够综合评价与治疗响应和抗性相关的克隆基因组演化。此外，cfDNA产生比来自FFPE活检的文库更均匀的WGS文库。

尽管已参考其具体实施方案描述了本发明，但是本领域技术人员应理解可进行多种改变并且等同物可替代而不脱离本发明的真实精神和范围。此外，可以进行许多修改来使特定的情况、材料、物质的组成、过程、过程的步骤或步骤适应于本发明的目标、精神和范围。所有这样的修改被意图在所附权利要求的范围内。

Claims

1.一种追踪患者健康的方法，所述方法包括：

创建患者的突变标志，所述突变标志包括：

在所述患者的核酸样品中观察到的变体的总数；

每个观察到的变体的序列环境因子；

每个观察到的变体的等位基因频率；和

变体类型分类；

将所述患者的突变标志与具有已知健康状态的患者的一个或更多个数据库中的突变标志进行比较；和

为所述患者确定诊断或疗法。

2.根据权利要求1所述的方法，还包括在确定诊断或疗法之前确定所述患者的纵向突变标志，并将所述患者的所述纵向突变标志与具有已知健康状态的患者的一个或更多个数据库中包含的纵向突变标志进行比较，所述纵向突变标志包括所述患者的随时间的多于一个突变标志。

3.根据权利要求2所述的方法，其中所述纵向突变标志包括来自第一时间点的所述患者的第一突变标志，以及来自第二时间点的所述患者的第二突变标志。

4.根据权利要求3所述的方法，其中所述第一时间点在治疗之前，且所述第二时间点在所述治疗之后。

5.根据权利要求4所述的方法，其中所述治疗包括肿瘤切除手术。

6.根据权利要求4所述的方法，其中所述治疗包括施用抗癌治疗剂。

7.根据权利要求1所述的方法，还包括获得所述患者的健康状态，并将所述健康状态与所述患者的突变标志添加到所述一个或更多个数据库中。

8.根据权利要求1所述的方法，还包括获得来自所述患者的患者信息，并将所述患者信息与具有已知健康状态的患者的一个或更多个数据库中包含的患者信息进行比较，所述信息包括以下中的至少一种：年龄、性别、人种、种族、家族疾病史、体重、体重指数、身高、先前和/或并发感染、环境暴露和抽烟史。

9.根据权利要求1所述的方法，还包括获得所述患者中的蛋白生物标志物水平，并将所述蛋白生物标志物水平与具有已知健康状态的患者的一个或更多个数据库中包含的蛋白生物标志物水平进行比较。

10.根据权利要求1所述的方法，其中所述核酸从患者样品获得。

11.根据权利要求1所述的方法，其中所述患者样品包括受试者的组织样品、受试者的体液、受试者的细胞样品、或受试者的粪便样品。

12.根据权利要求11所述的方法，其中所述体液选自：全血、唾液、泪、汗、痰或尿。

13.根据权利要求12所述的方法，其中所述体液是全血，且其中所述患者样品包括所述全血的部分。

14.根据权利要求13所述的方法，其中所述全血的部分包括血浆或无细胞核酸。

15.根据权利要求11所述的方法，其中所述组织样品选自由以下组成的组：福尔马林固定石蜡包埋的(FFPE)组织样品、新鲜冷冻的(FF)组织样品、及其任何组合。

16.根据权利要求1所述的方法，其中所述变体类型分类选自由以下组成的组：端粒序列拷贝数变异、染色体不稳定性、易位、倒位、插入、缺失、杂合性的丧失、扩增、kataegis、微卫星不稳定性、及其任何组合。

17.根据权利要求2所述的方法，还包括随时间确定来自观察到的变体的肿瘤内或肿瘤间的异质性。

18.根据权利要求17所述的方法，还包括通过在治疗所述患者之前和之后随时间监测观察的变体来确定治疗功效。

19.根据权利要求18所述的方法，其中所述监测包括监测微小残留病变。

20.一种追踪患者健康的方法，所述方法包括：

从患者获得无细胞核酸；

对所述无细胞核酸进行测定以确定所述无细胞核酸中的端粒特异性串联重复序列；

对所述患者创建端粒完整性评分，所述评分包括端粒串联重复的频率分布；

产生在两个或更多个时间点从所述患者获得的无细胞核酸的端粒完整性评分的纵向轨迹；

将所述纵向轨迹与具有已知健康状态的个体的一个或更多个数据库中的一个或更多个纵向轨迹进行比较；和

为所述患者确定诊断或疗法。

21.根据权利要求20所述的方法，其中所述无细胞核酸从体液获得。

22.根据权利要求21所述的方法，其中所述体液选自：全血、全血的部分、唾液、泪、汗、痰或尿。

23.根据权利要求20所述的方法，还包括获得所述患者的健康状态，并将所述健康状态与所述患者的纵向轨迹添加到所述一个或更多个数据库中。

24.根据权利要求20所述的方法，还包括将所述患者的端粒串联重复的频率分布归一化。

25.根据权利要求24所述的方法，其中将所述患者的端粒串联重复的频率分布归一化包括将所述频率分布与对照序列进行比较，所述对照序列具有与所述端粒特异性串联重复序列相同比例的单个核碱基。

26.根据权利要求24所述的方法，其中将所述患者的端粒串联重复的频率分布归一化包括将所述端粒串联重复的频率分布与所述一个或更多个数据库中的一个或更多个频率分布进行比较。

27.根据权利要求20所述的方法，还包括从所述患者获得信息并将所述信息与具有已知健康状态的患者的数据库进行比较，所述信息包括以下中的至少一种：患者种族、年龄、性别或环境暴露。

28.根据权利要求20所述的方法，还包括确定所述患者的端粒酶逆转录酶(TERT)启动子突变谱并将所述谱与具有已知健康状态的个体的一个或更多个数据库中包含的一个或更多个谱进行比较。

29.根据权利要求20所述的方法，其中进行所述测定包括进行测序程序。

30.根据权利要求29所述的方法，其中所述测序程序包括全基因组测序。

31.根据权利要求29所述的方法，其中所述测序程序包括靶向测序。

32.根据权利要求31所述的方法，其中所述靶向测序包括靶向PCR扩增。

33.根据权利要求31所述的方法，其中所述靶向测序包括使用一种或更多种可选择的寡核苷酸的杂合体捕获。

34.根据权利要求20所述的方法，其中所述端粒特异性串联重复序列通过与端粒参考序列比对来鉴定。

35.根据权利要求20所述的方法，其中所述端粒特异性串联重复序列通过分析k-mer频率来鉴定。