用于检测早期癌症中体细胞突变特征的识别方法
相关申请
本申请主张于2016年11月7日提交的美国临时专利申请号62/418,639的申请日的优先权,其申请的全部公开内容通过引用方式并入本文中。本申请还主张于2017年3月10日提交的美国临时专利申请号62/469,984的申请日的优先权,其申请的全部公开内容通过引用方式并入本文中。本申请还主张于2017年10月7日提交的美国临时专利申请号62/569,519的申请日的优先权,其申请的全部公开内容通过引用方式并入本文中。
技术领域及背景技术
循环的游离核酸(例如:游离DNA(cfDNA)、游离RNA(cfRNA))的分子分析逐渐地被认为是一种有助于检测、诊断、监测及分类癌症的有价值方法。在过去的几年中,对癌症基因组的DNA序列分析揭示了多种不同的突变特征,其代表癌症发展的多种突变过程。在一受试者的cfDNA样品中识别潜在的突变特征可以为癌症患者提供有价值的诊断信息,并且为癌症的早期检测提供一个平台。因此需要多种新的方法来分析一cfDNA样品,以检测、诊断、监测及/或分类癌症。
发明内容
本发明的各个方面包括识别多个体细胞突变特征的多种方法及系统,所述方法及系统用于检测、诊断、监测及/或分类已知患有或疑似患有癌症的一患者的癌症。在各种实施例中,本发明的方法使用一非负矩阵分解(NMF)方法以建构可用于识别一患者样品中的多个潜在特征的一特征矩阵,从而用于检测及分类癌症。在一些实施例中,本发明的方法可以使用主成分分析(PCA)或矢量量化(VQ)方法来建构一特征矩阵。在一个示例中,所述患者样品是一游离核酸样品(例如:游离DNA(cfDNA)及/或游离RNA(cfRNA))。
使用非负矩阵分解法建构一特征矩阵可以被广泛应用于癌症检测及/或分类的多个特征。在一些实施例中,一特征矩阵包括多个特征,其中显示所述多个特征中的每一个特征的出现概率。相关特征的多个示例包括,但不限于:一碱基置换突变的一上游局域序列、一碱基置换突变的一下游局域序列、一插入、一缺失、一体细胞复制数改变(SCNA)、一易位、一基因组甲基化状态、一染色质状态、一覆盖的测序深度、一早期与晚期复制区、一有义与反义链、一突变间距离、一变异等位基因频率、一片段的起始/终止、一片段的长度、以及一基因表达状态,或其任意组合。在一个实施例中,所述上游局域序列及/或下游局域序列可包括一核酸的一区域,所述核酸区域的范围为约2个碱基对至约40个碱基对的局域序列的一碱基置换突变,例如:从约3个碱基对到约30个碱基对、如从约3个碱基对到约20个碱基对,或从约2个碱基对到约10个碱基对的局域序列的一碱基置换突变。在一个实施例中,所述上游局域序列及/或下游局域序列包括多个碱基置换突变的一个三联体局域序列、一个四联体局域序列、一个五联体局域序列、一个六联体局域序列或一个七联体局域序列。在一些实施例中,所述上游局域序列及/或下游局域序列可以是一碱基置换突变的所述三联体局域序列。
在一个实施例中,本发明的所述多种方法用于识别一受试者(例如:一无症状的受试者)的cfDNA样品中的潜在体细胞突变特征,以用于癌症的早期检测。
在另一个实施例中,本发明的所述多种方法基于所述患者的cfDNA样品中所识别的多个潜在突变特征来推断一患者癌症的起源组织。
在另一个实施例中,本发明的所述多种方法用于识别一患者的cfDNA样品中的潜在突变特征,其可用于将所述患者在治疗上分类成不同的治疗类别。
在另一个实施例中,应用非负矩阵分解来学习一体细胞变异(突变)侦测测定(somatic variant(mutation)calling assay)中的多个误差模式。例如:可以识别构成所述测定基础的多个分析系统性误差(例如:测序库制备、一PCR、杂交捕获及/或测序过程中产生的误差)并且分配独特的特征,以用于区分在所述测定的所述多个技术过程中产生的多个真正的体细胞变异及人为变异。
在另一个实施例中,非负矩阵分解可用于识别与健康老化相关的多个突变特征。与老化相关的多个突变过程被指定为多个突变特征,所述多个突变特征可用于区分与患者年龄相关的多个健康体细胞突变及由所述患者中的一癌症过程所贡献及指示的多个体细胞突变。
在另一个实施例中,随着时间的推移,可以监测一个或多个突变特征,并且用于诊断、监测及/或分类癌症。例如:可以评估在两个或更多时间点上从多个患者样本中观察到的cfDNA突变的情况。在一些实施例中,可以将两个或多个突变特征的过程评估为不同突变特征的一组合。在又一实施例中,可随时间监测一个或多个突变特征(例如:在多个时间点上监测),以监测一治疗方案或其他癌症治疗方式的有效性。
在一癌症基因组中的多种体细胞突变(例如:驱动突变及随附突变)通常是一个或多个DNA损伤及修复过程的累积结果。虽然不希望被理论所束缚,但据信曝露于每一个突变过程(例如:环境因素及DNA修复过程)的所述强度及持续时间导致一受试者(例如:癌症患者)的多种体细胞突变的一单一特征。这些突变类型的多个独特组合形成所述癌症患者的一独特的「突变特征」。此外,既然在先前技术中是很熟悉的,一体细胞突变或突变图谱,可能取决于所述突变的具体局域序列。例如:当所述碱基改变发生在(–T|C|–)C(A|T|C|G)的一局域序列中时,UV伤害通常导致C到T的一碱基变化。在这个示例中,C是所述突变的碱基,并且C的上游(T或C)及下游(A,T,C或G)的所述多个碱基影响在UV辐射下一突变的概率。在其他示例中,当所述碱基变化发生在(A|T|C|G)C(–|–|–|G)的一局域序列时,5-甲基胞嘧啶的自发性脱氨基通常导致C到T的一碱基变化。因此,在一个实施例中,可将已识别突变的所述局域序列用作分析癌症检测及/或分类中的多个体细胞突变的一特征。
图示说明
图1示出根据本发明中用于识别体细胞突变特征以检测癌症的一方法的一流程图;
图2是显示来自一患者的cfDNA样品的一突变图谱的一示例的一条形图;
图3示出用于推断癌症的潜在突变特征的一矩阵的一示意图;
图4是显示一特征矩阵P的一示例的一图表;
图5是显示所述TCGA数据集中不同癌症类型的多个突变特征的一示例的一图表;
图6是根据其推断的多个突变特征曝露显示各别TCGA患者样品的层次聚类的一示例的一图表;
图7是图6的所述图表的一部份的一放大图,其显示一肺鳞状细胞癌患者样品(TCGA-18-3409)与所有黑色素瘤患者样品的聚类情况;
图8是根据本发明的另一个实施例中,用于识别多个体细胞突变特征以用于检测癌症的一流程图;
图9是显示作为一年龄函数的cfDNA中的特征1突变的估计数量的一图表,所述cfDNA来自多名癌症患者及健康受试者;
图10是显示来自一患者cfDNA样品的一突变图谱的一示例的一条形图;
图11是显示图10中观察到的每个潜在突变特征局域的多个碱基置换突变的数量的一条形图;
图12A是显示一患者样品cfDNA中所述SNV及indel负荷的一图表;
图12B是显示一患者样品中C>T的碱基置换的数量的一图表;
图12C是显示一患者样品及其他群组的cfDNA患者样本中,突变间距小于100个碱基对的多个突变分布的一条形图;
图13显示样品MSK11591A中相对于多个SNV的局域序列及基序位置的多个图表;
图14显示特征2的一图表;
图15是根据本发明的另一个实施例说明在两个或多个时间点监测多个突变特征的一方法的一流程图,所述方法用于检测、诊断、监测及/或分类癌症;
图16是根据图15的所述实施例,显示在多个时间点上监测三个突变特征的一模拟图;
图17A至图17C是根据本发明中,从96个三核苷酸突变局域到6个单碱基改变局域的所述聚集而确认的多个突变计数柱状图,以用于:(A)AID/APOBEC过度突变;(B)香烟烟雾曝露;及(C)自发性脱氨基;
图18A至图18C是根据本发明的多个突变特征的所述重迭而确认的多个突变计数柱状图,以用于:(A)在一第一时间点(T1)的AID/APOBEC过度突变;(B)在一第二时间点(T2)的AID/APOBEC过度突变及香烟烟雾曝露;以及(C)在一第三时间点(T3)的AID/APOBEC过度突变、香烟烟雾曝露,15是根据一个实施例中制备用于测序的一核酸样品的一方法的一流程图;
图19是根据一个实施例中用于处理多个序列读取值的一处理系统的一方框图;
图20是根据一个实施例中用于确认多个序列读取值的变异的一方法的一流程图;
图21显示根据本发明的一个实施例中应用于一模拟突变图谱的一不同回归分析方法;
图22是显示Y轴上的预估曝露计数及X轴上的模拟曝露计数的一图。所述图例中指出了三种不同的回归分析方法;
图23是一条形图,显示突变计数作为一MSI患者白细胞及cfDNA的多个SNV的三核苷酸局域的一函数;
图24是一条形图,显示突变计数作为仅用于一MSI患者的cfDNA的多个SNV的三核苷酸局域的一函数;
图25是一条形图,显示突变计数作为用于一85岁患者的白细胞及cfDNA的多个SNV的三核苷酸局域的一函数;
图26是一条形图,显示突变计数作为仅用于一85岁患者的cfDNA的多个SNV的三核苷酸局域的一函数;
图27是一条形图,显示一68岁患者的白细胞及cfDNA的多个SNV的突变计数作为三核苷酸局域的一函数;
图28是一条形图,显示一68岁患者的白细胞及cfDNA的多个SNV的突变计数作为三核苷酸局域的一函数;
图29是显示所述CCGA数据集中不同癌症类型的COSMIC突变特征1至30的一图;
图30是显示每个COSMIC突变特征在多个样品中除以癌症类型的所述比例的一图;
图31是显示所述多个样品中所有SNV的三种不同样品的cfDNA片段长度分布的一图;
图32是显示在所述多个样品中,仅T>C突变的三种不同样品的cfDNA片段长度分布的一图;
图33是显示特征4除以癌症类型、再除以吸烟状态的所述比例的一图;
图34是显示不同癌症类型的特征6除以癌症阶段的所述比例的一图。
图35是显示对于多种癌症类型作为特征6曝露的一函数所绘制的indel频率的一图。
图36是SNV及indel频率的一直方图。
名词定义:
在更详细地描述本发明之前,应当理解本发明不限于所描述的特定实施方案,因此当然可以改变。还应理解,本文使用的术语仅用于描述特定实施例为目的,而不是限制性的,因为本发明的所述范围仅受所述多个权利要求限制。
在提供多个数值范围的情况下,应当理解,除非上下文中另有明确规定,否则在所述范围的上限及下限与任何其他规定之间的每个中间值至所述下限单位的十分之一或者其他在所述范围内的陈述或中间值都包含在本发明的范围内。这些较小范围的上限及下限可以独立地包括在本发明所涵盖的较小范围内,但须受规定范围内任何特别排除的限制。
除非另外定义,否则本文使用的技术及科学术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。Singleton等人的Dictionary of Microbiology andMolecular Biology 2nd ed,J.Wiley&Sons(New York,NY 1994),为本领域技术人员提供了本申请中使用的许多术语的一般指南,如进行以下操作时,每篇文献均以引用整体的方式并入本文:Kornberg及Baker的第二版DNA Replication(WHFreeman,纽约,1992);Lehninger的第二版Biochemistry(Worth Publishers,纽约,1975);Strachan及Read的第二版Human Molecular Genetics(Wiley-Liss,纽约,1999);Abbas等人的第六版Cellularand Molecular Immunology(Saunders,2007)。
本文提及的所有出版物都通过明确的引用方式并入本文中,并且以公开及描述的方式引用与所述出版物相关的方法及/或材料。
本文所用的术语「扩增子」是指一多核苷酸扩增反应的产物;即,多核苷酸的一克隆群(clonal population),其可以是单链或双链的,并且从一个或多个起始序列开始复制。所述一个或多个起始序列可以是相同序列的一个或多个拷贝(copies),或者它们可以是不同序列的一混合物。优选地,多个扩增子是通过扩增一单个起始序列所形成的。多个扩增子可以通过多种扩增反应而产生,其产物包含一种或多种起始核酸或靶核酸的复制物。在一个方面,产生多个扩增子的多个扩增反应是「模板驱动」的,因为多个反应物(核苷酸或寡核苷酸)的碱基配对在一模板多核苷酸中具有产生多个反应产物所需的多个互补物。在一个方面,多个模板驱动反应是具有一核酸聚合酶的多个引物延伸,或具有一核酸连接酶的寡核苷酸连接。此类反应包括但不限于:多种聚合酶链反应(PCR)、多种线性聚合酶反应、基于核酸序列的多个扩增反应(NASBA)、多种滚环式扩增反应(rolling circleamplifications)及其相似反应,并且在以下参考文献中公开,其中每一个参考文献都通过引用整体的方式并入本文中:Mullis等人的美国专利4,683,195;4,965,188;4,683,202;4,800,159(PCR);Gelfand等人的美国专利5,210,015(使用「taqman」探针进行实时PCR);Wittwer等人的美国专利6,174,670;Kacian等人的美国专利5,399,491(「NASBA」);Lizardi的美国专利5,854,033;Aono等人的日本专利公告号JP 4-262799(滚环扩增);及其相似参考文献。在一个方面,本发明的多个扩增子通过多次PCR产生。如果一检测化学物质可以随着所述扩增反应的进行而测量一反应产物,则所述扩增反应可以是「实时」扩增的,例如:Leone等人的Nucleic Acids Research,26:2150-2155(1998)及类似的参考文献中所描述的「实时PCR」或「实时NASBA」。
所述术语「扩增」意指进行一扩增反应。一「反应混合物」是指含有用于进行一反应的所有必需反应物的一溶液,其可包括但不限于多种缓冲剂以在一反应期间将pH值维持在一选定水平,例如:盐、辅因子、清除剂及其相似物。
如本文中可互换使用的所述术语「片段(fragment)」或「区段(segment)」是指一较大的多核苷酸分子的一部分。例如:一多核苷酸可以通过多个自然过程破碎或片段化成多个区段,例如:可以在一生物样品中天然存在或通过体外操作的多个cfDNA片段。将核酸进行片段化的各种方法是本领域熟知的。这些方法可以是例如:化学的或物理的或酶促的。酶促片段化可包括用一DNA酶部分进行降解;用酸进行部分脱嘌呤(depurination);限制酶的使用;内含子编码的内切核酸酶;基于DNA的多种切割方法,例如:三链体及杂交体形成的多种方法,其依赖于一核酸区段的特异性杂交以将一切割剂定位于所述核酸分子中的一特定位置;或者在多个已知或未知的位置切割一多核苷酸的其他酶或化合物。多种物理片段化方法可以包括使一多核苷酸经受一高剪切速率。高剪切速率可以通过以下方法产生,例如:通过将DNA移动通过具有多个凹陷(pits)或多个尖刺(spikes)的一腔室或通道,或迫使一DNA样品通过一限制尺寸的流动通道,例如:具有在微米或亚微米范围内的一横截面尺寸的一孔洞。其他多种物理方法包括超声波处理及雾化处理。同样地,可以采用物理及化学片段化方法的组合,例如:通过加热及离子介导水解来进行片段化。参见,例如:Sambrook等人的第三版「Molecular Cloning:A Laboratory Manual」。Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y(2001)(「Sambrook等人」),出于所有的目的其内容通过引用方式并入本文中。可以优化这些方法以将一核酸消化(digest)成一选定尺寸范围的多个片段。
如本文中可互换使用的术语「聚合酶链式反应」或「PCR」是指通过DNA互补链的所述引物进行同时延伸的体外扩增特定DNA序列的反应。换句话说,PCR是用于制备一靶核酸的多个拷贝或复制的一反应,所述靶核酸两侧具有多个引物结合位点,所述反应包括一个或多个以下步骤的多个重复:(i)使所述靶核酸变性,(ii)将多个引物黏接到所述引物结合位点,以及(iii)在核苷三磷酸的存在下通过一核酸聚合酶延伸所述多个引物。通常,所述反应会在不同的温度下循环,并且在一热循环仪中对每个步骤进行优化。多个具体的温度、每个步骤的持续时间及步骤之间的变化率取决于本领域中普通技术人员所熟知的许多因素,例如,参考文献如下:McPherson等人编辑的PCR:A Practical Approach and PCR2:APractical Approach:A Practical Approach(IRL Press,Oxford,分别在1991年及1995年发表)。例如,在使用Taq DNA聚合酶的一常规PCR中,一双链靶核酸可以在大于90℃的温度下变性,多个引物在50℃至75℃的温度范围内黏接,并且多个引物在72℃至78℃的温度范围内延伸。所述术语「PCR」包括所述反应的多个衍生形式,包括但不限于:RT-PCR、实时PCR、巢式PCR、定量PCR、多重PCR及其相似形式。本领域技术人员从申请的上下文中可以看出所采用的特定PCR方式。反应体积可以从几百纳升,例如:200纳升到几百微升,例如:200微升。「逆转录PCR」或「RT-PCR」是指在一逆转录反应之前进行的PCR,其将一靶RNA转化为一互补的单链DNA,然后将其扩增,其示例在Tecott等人的美国专利5,168,038中描述,其公开内容通过引用整体的方式并入本文。「实时PCR」是指在反应进行过程中监测反应产物量(即扩增子)的PCR。存在许多形式的实时PCR,其主要区别在于用于监测所述反应产物的所述检测化学物质,例如:Gelfand等人的美国专利5,210,015(「taqman」);Wittwer等人的美国专利6,174,670及6,569,627(多种嵌入染料);Tyagi等人的美国专利5,925,517(多种分子信标);其公开内容通过引用整体的方式并入本文中。在Mackay等人的Nucleic AcidsResearch,30:1292-1305(2002)中综述了用于实时PCR的检测化学,其内容也通过引用方式并入本文。「巢式PCR」意指两阶段PCR,其中一第一PCR的所述扩增子使用一组新的引物组成为一第二PCR的样品,其中至少一个引物结合到所述第一扩增子的一内部位置。如本文所用,关于一巢式扩增反应的「初始引物」是指用于产生一第一扩增子的所述多个引物,以及「第二引物」是指用于产生一第二或巢式扩增子的一种或多种引物。「不对称PCR(AsymmetricPCR)」是指一种聚合酶链反应,其中所用的两个引物中的一个引物具有过量的浓度,使得所述反应主要以一线性扩增,其中一靶核酸的两条链中的一条优先被复制。不对称PCR引物的所述过量浓度可以用一浓度比表示。多种典型的比率在10到100之间。「多重PCR(Multiplexed PCR)」是指在相同的反应混合物中同时进行多个靶序列(或一单个靶序列及一个或多个参考序列)的一PCR,例如:Bernard等人的Anal.Biochem.,273:221-228(1999)(双色实时PCR)。通常,每一个被扩增的序列都使用不同的引物组。通常,一多重PCR中的靶序列的数量在2到50、2到40或2到30之间的范围。「定量PCR」是指设计用于测量一样品或样本中一个或多个特定靶序列的丰度(abundance)的一PCR。定量PCR包括这些靶序列的绝对定量及相对定量。使用一种或多种参考序列或多种内部标准进行定量测量,所述参考序列或内部标准可以单独测定或一起测定一靶序列。相对于一样品或一样本,所述参考序列可以是内源性或外源性,并且在后一种情况下,可以包括一种或多种竞争模板。典型的多种内源性参考序列包括以下多种基因的多个转录物区段:β-肌动蛋白、GAPDH、β2-微球蛋白、核糖体RNA及其相似物。用于定量PCR的多种技术是本领域普通技术人员所熟知的,如以下参考文献中所例示的内容,其通过引用整体并入本文:Freeman等人的Biotechniques,26:112-126(1999);Becker-Andre等人的Nucleic Acids Research,17:9437-9447(1989);Zimmerman等人的Biotechniques,21:268-279(1996);Diviacco等人的Gene,122:3013-3020(1992);以及Becker-Andre等人的Nucleic Acids Research,17:9437-9446(1989)。
本文所用术语「引物(primer)」是指天然或合成的一寡核苷酸,其在与一多核苷酸模板形成一二倍体时能够作为核酸合成的一起始点,并且能够沿着所述模板从其3'端延伸以形成一延伸的二倍体。一引物的延伸通常使用核酸聚合酶来进行,例如:一DNA聚合酶或RNA聚合酶。延伸过程中所添加的核苷酸序列由所述模板多核苷酸的所述序列决定。通常,引物由一DNA聚合酶延伸。引物的长度通常在14个到40个核苷酸之间,或者在18个到36个核苷酸之间。引物可用于多种核酸扩增反应,例如,使用一单一引物的多种线性扩增反应或使用两个或更多引物的多种聚合酶链反应。选择特定应用的引物长度及序列的指导是本领域普通技术人员所熟知的,如以下参考文献所证明的内容,其通过引用整体的方式并入本文中:Dieffenbach编辑的PCR引物:第2版实验室手册(Cold Spring Harbor Press,NewYork,2003)。
所述术语「受试者」及「患者」在本文中可互换使用,并且是指已知患有或可能患有一医学病症或疾病(例如:癌症)的一人类或非人类的动物。
如本文所用的所述术语「序列读取值」是指从一受试者获得的一样品中的核苷酸序列读取值。序列读取值可通过本领域已知的各种方法获得。
如本文所用的所述术语「读取区段」或「读取值」是指任何核苷酸序列,包括从一受试者及/或核苷酸序列获得的多个序列读取值,所述多个序列读取值衍生自从一样品中读取的一初始序列。例如:一读取区段可以是一比对序列的读取值、一折叠序列的读取值或一拼接序列的读取值。此外,一读取区段可以是单个核苷酸碱基,例如:一单核苷酸变异。
所述术语「单核苷酸变异」或「SNV」是指在一核苷酸序列的一位置(例如:位点)处将一个核苷酸置换为一不同的核苷酸,例如:从一样品中读取的一序列。从一第一碱基X到一第二碱基Y的一置换可以表示为「X>Y」。例如:一胞嘧啶置换成一胸腺嘧啶的SNV可以表示为「C>T」。
如本文所用的所述术语「indel」是指在一序列读取值中具有一长度及一位置(其也可以称为一锚定位置)的一个或多个碱基对的任何插入或缺失。一插入对应于一正长度,而一缺失对应于一负长度。
所述术语「突变」是指一种或多种SNV或多种indel。
所述术语「真阳性」是指真实生物学的一突变,例如:一受试者中存在一潜在的癌症、疾病或种系突变。多种真阳性不是由多个健康受试者中天然存在的突变(例如:复发性突变)或其他人工因素所引起的,例如:在多个核酸样品的测定制备程序中的程序错误。
所述术语「假阳性」是指错误地将一突变认定为真阳性的突变。一般来说,当处理与更大的平均噪声率或更大的不确定性噪声率相关的序列读取值时,可能更容易出现假阳性的情况。
所述术语「游离DNA」或「cfDNA」是指在一受试者体内循环(例如:血流)并起源于一个或多个健康细胞及/或一个或多个癌细胞的多种核酸片段。
所述术语「循环肿瘤DNA」或「ctDNA」是指源自肿瘤细胞或其他类型癌症细胞的核酸片段,其可因生物过程(例如:死亡细胞的凋亡或坏死)而释放至一受试者的血液中,或可由多个活的肿瘤细胞主动释放。
所述术语「交替等位基因(alternative allele)」或「ALT」是指相对于一参考等位基因具有一个或多个突变的一等位基因,例如:对应于一已知基因。
所述术语「序列深度」或「深度」是指从一个受试者获得的一样本中的多个读取区段的一总数。
所述术语「交替深度」或「AD」是指支持一ALT的一样品中的若干读取区段的一数量,例如:包括所述ALT的多种突变。
所述术语「交替频率」或「AF」是指一给定ALT的频率。可通过将一样品的所述相应AD除以所述给定ALT的所述样品的所述深度来确定所述AF。
所述术语「体细胞突变(somatic mutation)」是指在受孕后发生的一受试者的一细胞DNA的改变,且不会遗传给所述受是者的后代。
所述术语「种系突变(germline mutation)」是指一受试者的一生殖细胞(例如:一精子或一卵细胞)的所述DNA的一改变,所述改变被纳入所述受试者后代的所述身体的每个细胞的DNA中。
所述术语「体细胞突变图谱」是指与一受试者中的一种或多种体细胞突变有关的序列信息的一集合,其显示所述受试者的局域序列的变异的一量化。
所述术语「突变特征」是指从一个或多个突变过程产生的多种突变的一区别组合。本文所用的所述术语「癌症相关的突变特征」是指已知与一种或多种特定癌症相关的一突变特征。
所述术语「特征矩阵」表示以一可存取的方式排列及储存在一计算机可读介质上的一个或多个单独的突变特征的一集合。
具体实施方式
本发明的各个方面包含识别多个体细胞突变特征的多种方法及系统,所述方法及系统用于检测、诊断、监测及/或分类已知患有或疑似患有癌症的一患者的癌症。在各种实施例中,本发明的所述多种方法使用一非负矩阵分解(NMF)方法以建构可用于识别一患者样品中的多个潜在特征的一特征矩阵,从而用于检测及分类癌症。在一些实施例中,本发明的方法可以使用主成分分析(PCA)或矢量量化(VQ)方法来建构一特征矩阵。在一个实施例中,所述患者样品是一游离核酸样品(例如:游离DNA(cfDNA)及/或游离RNA(cfRNA))。
图1示出了一方法100的一流程图,所述流程图说明用于本发明的检测、诊断、监测及/或分类多种体细胞突变特征的癌症鉴定方法。方法100包括但不限于以下步骤。
如图1所示,在一方法110中,多个序列读取值是从一患者的样品中获得以鉴定多种体细胞突变。在一个实施例中,样品的序列读取值与鉴定体细胞突变的基因组一致。在其他实施例中,重新组装程序(de novo assembly procedure)可用于鉴定体细胞突变。序列读取值可以通过本领域任何已知的方法从患者试验样品中获得。例如,一实施例中,可以使用次世代定序(NGS)获得游离DNA(cfDAN)样品的测序数据或序列读取值。次世代定序(NGS)方法包括,例如:合成测序(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrentsequencing)、单分子实时测序(Pacific Biosciences)、连接测序(SOLiD sequencing)及奈米孔测序(Oxford Nanopore Technologies)。在一些实施例中,使用可逆染终止子(reversible dye terminators)进行合成测序(sequencing-by-synthesis)以进行大规模的平行测序。在其他实施例中,测序是通过连接测序。在其他实施例中,测序是单分子测序。在一实施例中,测序是末端配对测序(paired-end sequencing)。在测序之前可选择性地进行扩增步骤。本发明描述了额外的测序及生物信息学的方法。
一实施例中,从疑似患有或已知患有癌症的一受试者的试验样品中,可获得癌细胞及正常整倍体(normal euploid)(例如,非癌)细胞的一核酸混合体。例如,可以从一患者血液中取得的一游离DNA(cfDNA)的所述患者试验样品。一实施例中,一血浆样品是来自一位自癌症患者。在其他实施例中,所述生物样品可以选自血液中的血浆、血清、尿液及唾液样品。或者,所述生物样品可以选自全血、血液成分、唾液/口腔液、尿液、组织活体、胸膜液、心包液、脑脊髓液及腹膜液。
在步骤115中,体细胞突变图谱可以由游离DNA(cfDNA)中的体细胞突变鉴定得知。在一些实施例中,突变图谱包含从患者的测试样品中鉴定的多种突变,并且可包含衍生自与一种或多种突变过程或曝露相关的一种或多种突变特征的一个或多个体细胞突变。在一些实施例中,进行去卷积(deconvolution)之前,在一样品中需要存在一最小数量的SNV。例如,在一些实施例中,所述方法需要在进行去卷积(deconvolution)之前存在至少20个SNV,例如至少需要25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或至少100个或更多的SNV。在一些实施例中,在任何现存的一分析中,包含所述方法需要给一定突变特征的阈值曝露比例。例如,在一些实施例中,对于一给定的突变特征,所述方法需要至少0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55或至少0.6的曝露比例以包含在一分析中。
一种或多种突变过程相关的突变特征是本领域已知的,并且包含但不限于Nik-Zainal S等人的Cell(2012);Alexandrov LB等人的Cell Reports(2013);Alexandrov LB等人的Nature(2013);Helleday T等人的Nat Rev Genet(2014);以及Alexandrov LB及Stratton MR的Curr Opin Genet Dev(2014),其公开内容通过引用整体的方式并入本发明,也可以在癌症体细胞突变目录(COSMIC)网站:http://cancer.sanger.ac.uk/cosmic/signatures上获取所述内容。在所述COSMIC网站上报告的所述分析利用了30个已知的突变特征及96个三核苷酸局域序列。本发明描述的方法不限于在COSMIC网站上报告的30个突变特征或96个三核苷酸局域序列,但这些仅作为范例提供。本领域的普通技术人员能容易理解,其他突变特征及/或局域序列可以与本发明描述的方法结合使用。
在一实施例中,一观察到的突变图谱可以包含所述患者的cfDNA中的碱基置换的局域序列,更详细的描述如图2所示。
在一步骤120中,评估将来自所述患者样品的cfDNA中,观察到的突变图谱被认为是特征矩阵P中不同突变特征的组合。特征矩阵P是训练模块中潜在突变特征的表现。例如,在一实施例中,特征矩阵P是从具有不同癌症类型且已知癌症状态的患者样品中取得的多个突变图谱中鉴定或衍生的突变特征的一表现。如本文所用,所述术语「癌症状态」是指癌症的存在或不存在、癌症的阶段、癌细胞类型及/或癌症源起的突变组织。根据所述实施例,特征矩阵P表示具有已知癌症状态的癌症患者样品,其具有不同突变过程相关联的多种独特突变特征。图3更详细地描述一特征矩阵P的构造。
在一步骤125中,通过推论每个突变特征的所述潜在曝露权重,从患者的独特突变图谱推论出患者的癌症状态。所述推论可以建构出一混合模型或在数学上进行最优化。例如,在一个实施例中,非线性回归可从所述患者的独特突变图谱中决定或推论患者的癌症状态。另一个例子是应用非线性优化以最大化特征曝露权重之间的正交性(orthogonality)。另一实施例中,可以通过推论由一种或多种突变特征的潜在曝露权重,从患者的独特突变图谱推论出癌细胞类型或起源组织。另一实施例中,可以通过推论由一种或多种突变特征的潜在曝露权重,从所述患者的独特突变图谱中推论出一种或多种致病突变过程。
图2是一条状图200,其显示从一患者测试样品中,获得确定的测序数据的突变图谱。根据所述实施例,所述识别的体细胞突变及所述突变特征是以所述患者试验样品中所识别的碱基置换突变的三重局域序列为条件的。所述患者样品中约有400个突变。在所述实施例中,所述突变图谱包含针对每个局域序列进行识别的突变的频率,并且基于识别的六个碱基置换亚型显示为:C>A、C>G、C>T、T>A、T>C及T>G。如图2所示,对于所鉴别出的6种置换碱基的亚型,16个可能的局域序列中大约有400种经识别的突变。因为每个突变碱基具有6个亚型,以及16种可能的局域序列中有96种可能的三核苷酸局域。记录每个突变的局域序列,并且统计每个突变的频率。
应用非负矩阵分解(NMF)推论潜在突变特征的癌症检测、诊断及分类。
根据本发明,一机器学习方法可用于推论一患者测试样品(例如:一游离核酸试验样品)中经识别的潜在突变特征。一般来说,任何已知的机器学习方法都可用于实践本发明。例如,在一个实施例中,非负矩阵分解可以用作机器学习方法来解析或去卷积一观察到的矩阵,并且识别数据集中普遍存在的潜在特征。为了推论潜在的突变特征,本发明分析了由患者样品建构的一矩阵,以解释观察到的突变频率局域作为所述潜在突变特征(即,r突变特征)的一组合,以及每个患者对那些r突变特征的曝露(即,E曝露权重)。另一实施例中,可以使用主成分分析(principal components analysis)或矢量量化(vectorquantization)。
图3示出了根据本发明一个施例中,推论癌症潜在突变特征的一过程300的一示意图。如图3所示,样品矩阵「M」是由96个特征(n个局域;以行表示)组成的一数据集,包含所识别的每个突变类型的计数(C>A、C>G、C>T、T>A、T>C),所述突变类型来自m个癌症患者样品(m个样品;以列表示)。在一个实施例中,样品矩阵M可以由约50个或更多个患者样品来建构。在其他实施例中,样品矩阵M可包含来自癌症患者的超过100、超过1,000、超过10,000或超过100,000的突变图谱。在其他实施例中,样品矩阵M可包含从癌症患者中识别的约10至超过1百万、约10至约100000、约50至约10000、约100至约1000个突变图谱。如上面更详细描述的内容,图2提供一单一患者突变图谱的一示例,其代表样品矩阵M中的一列。
如图3所示,样品矩阵M可以使用非负矩阵分解分析或去卷积成两个非负矩阵:由n个局域(或特征)(其中P的元素取[0,1]中的值)的r个突变特征所建构的一矩阵「P」以及每个患者对所述r突变特征具有的曝露权重的一矩阵「E」。用于一患者样品的特征矩阵P及曝露矩阵E(P×E)的乘积是对一给定的患者测试样品的所述观察突变的一近似重建。如上所述,相关特征(或n个局域)的示例包含但不限于:一碱基置换突变的一上游局域序列、一碱基置换突变的一下游局域序列、一插入、一缺失、一体细胞复制数改变(SCNA)、一易位、一基因组甲基化状态、一染色质状态、一覆盖的测序深度、一早期与晚期复制区、一有义与反义链、一突变间距离、一变异等位基因频率、一片段的起始/终止、一片段的长度、一基因表达状态,或其任意组合。
根据本发明,非负矩阵分解可用于重建潜在的突变特征(即r个突变特征),其构成癌症患者样品中的突变特征(即突变频率局域)。在癌症检测、诊断、分类,或者潜在突变特征的重建,包含针对在一新患者测试样品中观察到的曝露权重,可用于推论癌症状态是否存在。所述方法可以用生物学解释(例如:由内源或外源DNA损伤、DNA修饰、DNA编辑、DNA修复、DNA复制所引起的已知突变过程的特征),并观察一新患者测试样品的突变图谱。
特征矩阵P的结构是一重复的过程。例如,一现有的体细胞突变数据集可用于建立或建构m个已知癌症数据集的突变局域的矩阵M。所述矩阵M可以用于使用非负矩阵分解以建构特征矩阵P,且针对一新患者测试样品观察到的潜在突变特征,可推论或确定未知测试样品的癌症状态。在一个实施例中,所述突变数据集可以通过所述癌症基因组图谱(TCGA)、国际癌症基因组协会(ICGC)或其他公开可用的数据库建构,或可用于已知癌症的测序数据。在一个实施例中,取得额外的新患者测试样品(例如:cfDNA)进行测序数据时,可以用所述新数据更新样品矩阵M,且可以重新评估特征矩阵P的性能,或者生成一新的矩阵P。所述过程可以重复任何次,以建构最佳(最稳健)性能的一矩阵。随着样品尺寸的增加,特征矩阵P能获得改善,因为一患者群组的子样品分析已经证明非负矩阵分解的性能会随样品尺寸而减小(数据未示出)。使用多种仿真模型(数据未显示)也可以证明样品尺寸减小后,性能下降。一旦建构一稳健的特征矩阵P,就能单独使用完成的特征矩阵P(即,不需要非负矩阵分解)来评估新的患者样品。
图4是根据本发明使用非负矩阵分解所呈现的一示例特征矩阵P的一图表400。特征矩阵P的所述多个元素是从所述样品矩阵M导出的突变特征。如图4所示,30个突变特征与突变局域相结合。每个突变特征的特色在于96个三核苷酸突变局域的一不同图谱。
在其他实施例中,除本发明所述的一碱基置换突变的局域序列(例如:三联体局域序列)之外,非负矩阵分解可以应用于体细胞复制数改变(SCNA)、基因组甲基化状态及/或基因转录(例如:分析游离RNA)。
图8是一流程图,说明本发明的另一实施例,用于识别在癌症的检测、诊断、监测及/或分类中的体细胞突变特征的一方法800。如图8所示,方法800可以包含但不限于以下步骤。
步骤810中,从一患者测试样品获得多个序列读取值,并用于识别多种体细胞突变。在一个实施例中,将来自一测试样品的多个序列读取值与识别的体细胞突变的参考基因组比对。另一实施例中,一重新组装程序(de novo assembly procedure)可用于识别体细胞突变。如本发明更详细探讨的内容,可以通过任何合适的方法,从一患者测试样品中获得多个序列读取值。此外,如本发明所述,一患者测试样品可包含来自癌细胞的核酸,亦或是从疑似患有或已知患有癌症的受试者获得的正常整倍体(normal euploid)(即,非癌性)细胞的一混合物。例如,在一些实施例中,一患者测试样品可以是取自一患者血液的一游离DNA样品。
在步骤815中,所述cfDNA中的体细胞突变被识别以建立一观察的体细胞突变图谱。在一个实施例中,所述观察的突变图谱包含所述患者的cfDNA中的碱基置换突变,细节部分如图2所示。
任选地,在步骤825中,所述聚类的突变图谱可以与其他基因组或生物学数据整合。例如,一个或多个功能注释(annotations)可用于分类患者特定样品。一个或多个功能注释可以包含但不限于:受试者之间及受试者内部的一特征分类内的空间聚类、与组织间系统性差异的染色质状态的统计关联、与早期及晚期复制区域的统计关联(例如:与修复相关的复制)、统计关联、与表达或炼型的理论关联(例如:与转录偶联修复相关的缺陷)、与种系变异/体细胞变异及体细胞特征的统计关联(例如:聚合酶ε或聚合酶δ的校对功能突变缺失),或根据片段长度分层。
在步骤830中,将所述观察到的突变图谱与先前在多个样品中所识别出的突变特征互相聚类(例如:利用一聚类程序)。
在步骤835中,基于所述患者的独特突变图谱,确定一患者特异的分类。例如,在一些实施例中,可以通过推论来自患者的每个突变特征的潜在曝露权重、突变图谱来评估患者的癌症状态。所述推论可以架构出一混合模型或在数学上的最优化。例如,在一个实施例中,可以利用非负线性回归,从所述患者独特的突变图谱及一突变特征矩阵中,确定或推论癌症状态。在一些实施例中,可以应用一非线性优化协议(nonlinear optimizationprotocol)以推论最大化的组合突变特征之间的正交性(orthogonality)。另一实施例中,可以通过推论由一个或多个突变特征贡献的潜在曝露权重,从患者独特的突变图谱推论出癌细胞类型或起源组织。在另一实施例中,可以通过推论由一个或多个突变特征的潜在曝露权重,从患者独特的突变图谱推论出一个或多个致突变过程。
在另一实施例中,可以应用非负矩阵分解以学习一体细胞变异测定(somaticvariant calling assay)中的误差模式。非负矩阵分解的过程不会对一变异的潜在(underlying)生物学做出假设。可以识别作为所述测定基础的多个系统误差(例如:来自测序库制备的多个误差、PCR误差、杂交捕获误差及/或测序的误差),并且分析结果中指出,选定的独特特征可以用于区分真实体细胞突变及在来自技术过程中的人工突变。然后,可以在分析在候选的体细胞突变时所考虑的学习错误信号,以减少假阳性的误认。
在另一实施例中,非负矩阵分解可用于解释与健康老化相关的多种体细胞突变。已知某些累积的突变过程(例如:五甲基胞嘧啶(5-methylcytosine)的自发性脱氧)与细胞分裂的数量相关。在每个过程中可能与一突变特征相关,所述突变特征可用于区分患者年龄相关的健康体细胞突变、与癌症过程相关的体细胞突变。
图15示出根据本发明的一种用于监测多种突变特征以检测、诊断、监测及/或分类癌症的一方法1500的一流程图。方法1500包括但不限于以下步骤。
如图15所示,一步骤1510中,在两个或更多个时点(例如:一第一时间点及一第二时间点)从患者测试样品获得序列读取值,并用于识别一个或多个突变特征。如上所述,可利用本领域中任何已知的方法获得多个序列读取值或测序数据,并且比对序列读取值与一参考基因组,或利用重新组装程序,可识别出一种或多种体细胞突变。如本发明所述,在每个时间点,所述多种体细胞突变可用于确认一突变图谱,或识别一突变特征。在一些实施例中,所述第一及第二时间点的时间量分别为约从15分钟至30年,例如:约30分钟、约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时,又例如约1、2、3、4、5、10、15、20、25或约30天,或例如约1、2、3、4、5、6、7、8、9、10、11或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其他实施例中,可以至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次,从所述患者获得测试样品。
在步骤1515中,识别在两个或更多个时间点中每一时间点的所述cfDNA中的体细胞突变,以建立一观察的体细胞突变图谱或识别多种突变特征。如前所述,所述术语突变图谱可以包含来自患者的测试样品中的一个或多个突变的集合。在一些实施例中,所述突变图谱包含从一患者测试样品中识别的多个突变,并且包含衍生自与一个或多个突变过程,或与曝露相关的一个或多个突变特征的一个或多个体细胞突变。在一实施例中,观察的突变图谱可能包含所述患者cfDNA中的碱基置换突变的局域序列,更详细的描述如图2所示。
在一步骤1520中,在两个或更多个时间点可以从所述患者测试样品中,评估观察到的突变图谱及/或突变特征。在一些实施例中,在每个时间点获得的所述多个突变图谱,可能包含不同的突变特征过程的一组合。例如,每个时间点的所述突变图谱可能包含两种或更多种已知突变过程(例如:两种或更多种已知的COSMIC突变过程)。在其他实施例中,可从每个试验样品中识别突变图谱或两个或更多突变过程中的突变图谱的一组合,并随着时间监控。
在一步骤1525中,可以通过比较在两个,或更多个时间点上所获得的突变特征来确定或监测所述患者癌症的一评估状态。例如,通过推论每个时间点的每个突变特征的潜在曝露权重,可以在两个或更多个时间点上确定所述患者的独特突变特征。如前所述,所述推论可以架构出一混合模型或进行数学优化。在其他实施例中,可以随时间(例如:在多个时间点)监测一个或多个突变特征,以监测治疗方案或其他癌症治疗的有效性。
测定方案的示例
图19是根据一个实施例的一种用于制备用于测序的一核酸样品的方法1900的一非限制性示例的一流程图。所述方法1900包括但不限于以下步骤。例如:所述方法1900的任何步骤可包括用于质量控制或本领域技术人员已知的其他实验室测定程序的一定量子步骤(quantitation sub-step)。
在步骤1910中,从一受试者中提取一核酸样品(DNA或RNA)。在本发明中,除非另有说明,否则DNA及RNA可互换使用。即,在变异侦测(variant calling)及质量控制中使用错误来源信息的以下多个实施例可同时适用于多种DNA及RNA类型的核酸序列。然而,出于清楚及解释的目的,本文描述的多个示例可能集中于DNA。所述样品可包含所述人类基因组的任何子集,包括所述全基因组。可以从已知患有或疑似患有癌症的一受试者中提取所述样品。如本文进一步描述的内容,所述样品可包括一组织、一体液或其组合。在一些实施例中,用于抽取一血液样品(例如:注射器或手指穿刺)的多种方法可能比用于获得一组织活检的多个程序具有更小的侵入性,所述组织活检可能需要进行手术。所述提取的样品可包含cfDNA及/或ctDNA。对于健康的个体,所述人体可以自然清除cfDNA及其他细胞碎片。如果一受试者患有一癌症或疾病,则一提取样品中的ctDNA可能以一可检测的程度存在并且用于诊断。
在步骤1920中,制备一测序文库。在文库制备期间,通过衔接子(adapter)的连接将独特的多种分子标识标记(UMI)添加到所述多个核酸分子(例如:DNA分子)中。所述多种UMI是短核酸序列(例如:4个至10个碱基对),所述多种UMI在衔接子连接期间添加到多个DNA片段的末端。在一些实施例中,多种UMI是简并碱基对(degenerate base pairs),其可用于识别源自一特定DNA片段的序列读数以作为一独特标签。在衔接子连接后的PCR扩增过程中,所述多种UMI与附着的DNA片段一起复制,这提供了识别在下游分析中来自相同原始片段的序列读取值的一方法。
在步骤1930中,从所述文库中富集多个靶DNA序列。在富集期间,多种杂交探针(在本文中也称为「探针」)用于靶向及下拉多个核酸片段,这些核酸片段可提供癌症(或疾病)、癌症状态或一癌症分类(例如:癌症细胞类型或起源组织)的信息。对于一给定的工作流程,所述探针可以设计成与DNA或RNA的一靶(互补)链黏接(或杂交)。所述靶链可以是「阳性」链(例如:转录成mRNA且随后转译成一蛋白质的所述链)或所述互补的「阴性」链。所述探针的长度范围可以是10s、100s或1000s的碱基对。在一个实施例中,根据一基因套组,设计所述探针以分析疑似对应于某些癌症或其他类型疾病的所述基因组(例如:所述人类或其他生物体的基因组)的特定突变或靶区域。此外,所述探针可以覆盖一靶区域的多个重叠部分。通过使用一靶向基因套组而不是对一基因组的所有表达基因进行测序,也称为「全外显子组测序」,所述方法100可以用于增加所述靶区域的测序深度,所述测序深度是指所述样品中一给定靶序列被测序的次数。增加测序的深度以减少所述核酸样品所需的输入量。在一杂交步骤后,捕获所述杂交的核酸片段,并且还可以使用PCR扩增所述核酸片段。
在步骤1940中,从所述富集的DNA序列产生序列读取值。可以通过本领域已知的方法从富集的DNA序列中获得测序数据。例如,所述方法1900可以包括次世代测序(NGS)技术,包括:合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(IonTorrent测序)、单分子实时测序(Pacific Biosciences)、接合测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或双边测序(paired-end sequencing)。在一些实施例中,使用多种可逆染终止子的合成测序以进行大规模的平行测序。
在一些实施例中,可以使用本领域已知的多种方法将所述序列读取值与一参考基因组比对,以确定比对位置的信息。所述比对位置的信息可以指示所述参考基因组中的一区域的一起始位置及一终止位置,所述起始位置及所述终止位置对应于一给定序列读取值的一起始核苷酸碱基及末端核苷酸碱基。比对位置的信息还可以包括序列读取值的长度,其可以从所述起始位置及终止位置确定。所述参考基因组中的一区域可以与一基因或一基因的一区段相关联。
在各种实施例中,一序列读取值由表示为R1及R2的读取对(read pair)所组成。例如,所述第一读取R1可以从一核酸片段的一第一端进行测序,而所述第二读取R2可以从所述核酸片段的所述第二端进行测序。因此,所述第一读取R1及第二读取R2的多个核苷酸碱基对可与所述参考基因组的多个核苷酸碱基以一致的方式(例如:在相反方向上)比对。从所述读取对R1及R2获得的比对位置的信息可以包括所述参考基因组中对应于一第一读取(例如:R1)结束时的一起始位置以及所述参考基因组中对应于一第二读取(例如:R2)结束时的一终止位置。换句话说,所述参考基因组中的所述起始位置及终止位置代表所述核酸片段对应的所述参考基因组中的所述可能位置。可以生成一个具有SAM(序列比对图(sequence alignment map))格式或BAM(二进制)格式的一输出文件,并将其输出以便进行后续分析,例如:变异侦测,如下图19所示。
处理系统的示例
图20是根据一个实施例中,用于处理序列读取值的一处理系统1600的方框图。所述处理系统1600包括一序列处理器1605、一序列数据库1610、已知真阳性(TP)及假阳性(FP)变异1615的一数据库以及变异侦测器1620。图21是根据一个实施例中,用于确认序列读取值的变异的一方法1700的一流程图。在一些实施例中,所述处理系统1600执行所述方法1700以基于输入的序列数据来执行变异侦测(例如:用于侦测多种SNV及/或多种indel)。此外,所述处理系统1600可以从与使用上述方法1500制备的核酸样品相关的一输出文件中获得所述输入测序的数据。所述方法1700包括但不限于以下步骤,这些步骤描述关于所述处理系统1600的组件。在其他的多个实施例中,所述方法1700的一个或多个步骤可以替换为用于产生变异侦测的一不同过程的一步骤,例如:使用变异侦测格式(VCF),例如:HaplotypeCaller、varscan、strelka或somaticsniper。
在步骤1705中,所述序列处理器1605折叠所述输入的测序数据的比对序列读取值。在一个实施例中,折叠序列读取值包括使用多种UMI,并且任选地从一输出文件的测序数据(例如:来自图19中所示的所述方法1500)的比对位置的信息中将多个序列读取值折叠成一共识序列(consensus sequence)以确定最可能的一核酸片段的序列或其部分。由于所述多种UMI通过富集及PCR与连接的多个核酸片段一起复制,所述序列处理器1605可以确认某些序列读取值源自一核酸样品中的相同分子。在一些实施例中,折叠具有相同或相似的比对位置的信息(例如:一阈值偏移内的起始位置及终止位置)并且包括折迭的一共同UMI的序列读取值,以及所述序列处理器1605产生一折叠读取值(在本文中也称为一致的读取值)以代表所述核酸片段。如果相应的一对折叠读取值具有一共同UMI,则所述序列处理器1605将一共识读取值指定为「双链体(duplex)」,其指示捕获所述起源核酸分子的正链及负链;否则,所述折叠读取值被指定为「非双链体(non-duplex)」。在一些实施例中,所述序列处理器1605可以对序列读取值执行其他类型的误差校正,以作为折叠序列读取值的一替代或补充。
在步骤1710中,所述序列处理器1605基于所述对应的比对位置的信息来缝补(stiches)所述折叠读取值。在一些实施例中,所述序列处理器1605比较一第一读取及第二读取之间的比对位置的信息,以确认所述第一读取及第二读取的多个核苷酸碱基对是否在所述参考基因组中重叠。在一个使用例子中,响应于确认所述第一读取及第二读取之间的一重叠(例如:一给定数目的核苷酸碱基)大于一阈值长度(例如:核苷酸碱基的阈值数量),所述序列处理器1605指定所述第一读取及第二读取作为「缝补」;否则,所述折叠读取值被指定为「未缝补」。在一些实施例中,如果所述重叠大于所述阈值长度且如果所述重叠不是一滑动重叠,则缝补一第一读取及第二读取。例如,一滑动重叠可以包括一均聚物运行(例如:一单个重复核苷酸碱基)、一二核苷酸运行(例如:双核苷酸碱基序列),或一三核苷酸运行(例如:三核苷酸碱基序列),其中所述均聚物运行、二核苷酸运行或三核苷酸运行都至少具有多个碱基对的至少一阈值长度。
在步骤1715中,所述序列处理器1605将多个读取值组装成多个路径。在一些实施例中,所述序列处理器1605组装所述读取值以生成针对一靶区域(例如:一基因)的一有向图(directed graph),例如一de Bruijn图。所述有向图的多个单向边缘表示所述靶区域中的k个核苷酸碱基(本文中也称为「k-mers」)的序列,并且所述多个边缘通过多个顶点(或多个节点)连接。所述序列处理器1605将折叠读取值与一有向图进行比对,使得任何折叠读取值都可以由所述多个边缘及对应的多个顶点的一子集的顺序表示。
在一些实施例中,所述序列处理器1605确认描述有向图及处理有向图的多个参数集。此外,所述参数集可以包括从折叠读取值到由所述有向图中的节点或边表示的一k-mer成功比对的一k-mer的计数。例如,所述序列处理器1605在所述序列数据库1610中储存多个有向图及多个对应的参数集,其可被检索以更新多个图或生成多个新的图。例如,所述序列处理器1605可以基于所述参数组而生成一有向图的一压缩版本(例如:或修改一现有图)。在一个使用的示例中,为了滤除具有较低重要性级别的一有向图的数据,所述序列处理器1605移除(例如:「修整」或「修剪」)具有小于一阈值的一计数的多个节点或多个边缘,并且维持具有大于或等于所述阈值的多个计数的多个节点或多个边缘。
在步骤1720中,变异侦测器1620从所述序列处理器1605汇编的所述多个路径中生成多个候选变异。在一个实施例中,所述变异侦测器1620通过比较一有向图(在步骤1715中,可能已经通过修剪多个边缘或多个节点来压缩)与一基因组的一靶区域的一参考序列以生成所述多个候选变异。所述变异侦测器1620可将所述有向图的多个边缘与所述参考序列进行比对,并记录多个错配边缘(mismatched edges)的所述基因组位置以及邻近作为多个候选变异位置的所述边缘的多个错配核苷酸碱基。另外,所述变异侦测器1620可以基于一靶区域的所述测序深度来生成多个候选变异。特别地,所述变异侦测器1620可以更自信地识别具有更大测序深度的多个靶区域中的变异,例如,因为更多数量的序列读取值有助于解决(例如:使用冗余(redundancies))错配或序列之间的其他碱基对的变异。
在步骤1725中,所述处理系统1600输出所述多个候选变异。在一些实施例中,所述处理系统1600输出一些或所有确定的候选变异。在其他实施例中,任选地,可以过滤所述多个候选变异以移除已知的多种假阳性变异。例如,可以将所述多个候选变异与已知的假阳性变异、假阳性变异及经过滤的变异侦测输出结果进行比较。例如,所述处理系统1600的外部或所述处理系统1600的其他组件的下游系统可以将所述多个候选变异用于各种应用,包括但不限于:预测癌症、疾病或种系突变的存在。
测序及生物信息学
本发明的多个方面包括经由核酸分子的测序以产生多个序列读取值,并且对所述多个序列读取值进行生物信息学操作以实施本发明的方法。
在某些实施例中,从一受试者收集一样品,然后富集感兴趣的多个遗传区域或多个遗传片段。例如,在一些实施例中,可以通过与一核苷酸阵列杂交来富集一样品,所述核苷酸阵列包含多个癌症相关基因或多个感兴趣的基因片段。在一些实施例中,可以使用本领域已知的其他方法来富集具有感兴趣的基因(例如:癌症相关基因)的一样品,例如:杂交捕获。参见,例如:Lapidus(美国专利号7,666,593),其内容通过引用整体的方式并入本文中。在一种杂交捕获方法中,使用基于杂交方法的一溶液,所述溶液包括使用生物素化的寡核苷酸及链霉抗生物素蛋白包被的磁珠。参见,例如,Duncavage等人的J Mol Diagn.13(3):325-333(2011);及Newman等人的Nat Med.20(5):548-554(2014)。可以根据本领域已知的任何方法来完成本发明的方法以从一样品中分离核酸。
可以通过本领域已知的任何方法或方法的组合来进行测序。例如,已知的DNA测序技术包括但不限于:使用多种标记的终止子或引物的经典双脱氧测序反应(Sanger方法)及平板或毛细管中的凝胶分离、利用可逆终止的标记核苷酸来进行合成测序、焦磷酸测序、454测序、等位基因与标记的寡核苷酸探针文库的特异性杂交、利用等位基因特异性杂交对标记的克隆库进行合成以进行测序然后进行连接、实时监测一聚合步骤中标记的核苷酸的所述掺合(incorporation)、Polony测序及SOLiD测序。最近已经通过使用聚合酶或连接酶的连续延伸反应或单延伸反应以及与探针库的单差分杂交或连续差分杂交来证明分离多个分子的测序。
执行测序的一种常规方法是通过链终止(chain termination)及凝胶分离(gelseparation),如Sanger等人的Proc Natl.Acad.Sci.U S A,74(12):5463 67(1977),其内容通过引用整体的方式并入本文中。另一种常规测序方法涉及核酸片段的化学降解。参见,Maxam等人的Proc.Natl.Acad.Sci.,74:560 564(1977),其内容通过引用整体的方式并入本文中。基于通过杂交测序开发了多种方法。参见,例如:Harris等人(美国专利申请号2009/0156412),其通过引用整体的方式并入本文中。
可用于本发明方法中的一测序技术包括,例如:Helicos真单分子测序(tSMS)(Harris T.D.等人(2008)Science 320:106-109),其内容通过引用整体的方式并入本文中。例如,在Lapidus等人(美国专利号7,169,560)中描述了tSMS的进一步内容,其内容通过引用整体的方式并入本文中,Lapidus等人(美国专利号6,818,395,其内容通过引用整体的方式并入本文中)、Quake等人(美国专利申请公开号2009/0191565,其内容通过引用整体的方式并入本文中)、Harris(美国专利号7,282,337,其内容通过引用整体的方式并入本文中)、Quake等人(美国专利申请公开号2002/0164629,其内容通过引用整体的方式并入本文中),以及Braslavsky等人,PNAS(USA),100:3960-3964(2003),其内容通过引用整体的方式并入本文中。
可用于本发明方法中的一DNA测序技术的另一个示例是454测序(Roche)(Margulies,M等人2005,Nature,437,376-380,其内容通过引用整体的方式并入本文中)。可用于本发明方法中的一DNA测序技术的另一个示例是SOLiD技术(应用生物系统)。可用于本发明方法中的一DNA测序技术的另一个示例是Ion Torrent测序(美国专利申请公开号2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398及2010/0304982),其中每一项申请案的内容均通过引用整体的方式并入本文中)。
在一些实施例中,所述测序技术是Illumina测序(Illumina sequencing)。所述Illumina测序是基于使用折回PCR(fold-back PCR)及锚定引物而在一固体表面上扩增DNA。基因组DNA可以是片段化的,或者在cfDNA的情况下由于已经是很短的片段,因此不需要片段化。将多个衔接子连接到所述多个片段的5'及3'末端。附着于流动细胞通道表面的多个DNA片段被延伸及桥式扩增(bridge amplified)。所述多个片段变成双链,并且所述双链分子变性。在所述流动细胞的每个通道中,所述固相扩增(olid-phase amplification)的多个循环以及随后的变性可以产生约1000份具有相同模板的单链DNA分子的数百万团簇(clusters)。使用引物、DNA聚合酶及四种荧光团标记的可逆终止核苷酸来进行连续的测序。在核苷酸掺入后,使用一激光激发所述荧光团、捕获一图像并记录所述第一碱基的特性。移除每个掺入的碱基的所述3'终止子及多个荧光团,并请重复所述掺入、检测及确认的步骤。
可用于本发明方法的一测序技术的另一个示例包括Pacific Biosciences的所述单分子实时(SMRT)技术。可用于本发明方法的一测序技术的另一个示例是纳米孔测序(Soni GV及Meller A.(2007)Clin Chem 53:1996-2001,其内容通过引用整体的方式并入本文中)。可用于本发明方法的一测序技术的另一个例子涉及使用化学敏感的场效应晶体管(chemFET)阵列来对DNA进行测序(例如:如美国专利申请公开号20090026082中所述,其内容通过引用整体的方式并入本文中)。可用于本发明方法的一测序技术的另一个示例涉及使用一电子显微镜(Moudrianakis EN及Beer M.Proc Natl Acad Sci USA.1965March;53:564-71,其内容通过引用整体的方式并入本文中)。
如果来自所述样品的所述核酸被降解或仅可从所述样品中获得一最少量的核酸,则可对所述核酸进行PCR以获得足够用于测序的一核酸量(参见,例如:Mullis等人的美国专利号4,683,195,其内容通过引用整体的方式并入本文中)。
多种生物样品
本发明的多个方面涉及从一受试者中获得一样品,例如:一生物样品,例如:一组织及/或体液样品,以用于分析所述样品中的多种核酸(例如:多种cfDNA分子)。可以以任何临床上可接受的方式收集根据本发明实施例的多种样品。疑似含有多种核酸的任何样品都可以与本发明的所述多种方法一起结合使用。在一些实施例中,一样品可包刮一组织、体液或其组合。在一些实施例中,从一健康受试者中收集一生物样品。在一些实施例中,从已知患有一特定疾病或病症(例如:一特定癌症或肿瘤)的一受试者中收集一生物样品。在一些实施例中,从疑似患有一特定疾病或病症的一受试者中收集一生物样品。
如本文所用,所述术语「组织」是指大量连接的多个细胞及/或细胞外基质材料。通常与本方法结合使用的多种组织的多个非限制性示例包括:皮肤、毛发、指甲、子宫内膜组织、鼻腔通道组织、中枢神经系统(CNS)组织、神经组织、眼组织、肝组织、肾组织、胎盘组织、乳腺组织、胃肠组织、肌肉骨骼组织、泌尿生殖组织、骨髓及其相似的组织、所述多种组织衍生自例如:一人类或非人类的哺乳动物。可以使用本领域已知的任何组织样品类型的形式来制备及提供根据本发明实施例的多种组织样品,例如但不限于:福尔马林固定的石蜡包埋(FFPE)、新鲜及新鲜冷冻(FF)的组织样品。
如本文所用,所述术语「体液」是指衍生自一受试者(例如:一人类或非人类的哺乳动物)的一液体材料。通常与本方法结合使用的多种体液的多个非限制性示例包括:粘液、血液、血浆、血清、血清衍生物、滑液、淋巴液、胆汁、痰、唾液、汗液、泪液、痰液、羊水、月经液、阴道液、精液、尿液、脑脊液(CSF)、如腰椎或心室脑脊液、胃液,一液体样品包括:一种或多种源自一鼻腔、咽喉或口腔拭子的物质,一液体样品包括:一种或多种源自一灌洗程序的材料,例如:一腹膜灌洗程序、胃灌洗程序、胸灌洗程序或导管灌洗程序及其相似灌洗程序的材料。
在一些实施例中,一样品可包括一细针抽吸物(fine needle aspirate)或活检组织。在一些实施例中,一样品可包括含有多种细胞或生物材料的培养基。在一些实施例中,一样品可包含一血凝块,例如:在去除所述血清后从全血中获得的一血凝块。在一些实施例中,一样品可包括粪便。在一个优选的实施例中,一样品是抽取的全血。在一个方面,仅使用一全血样品的一部分,例如:血浆、红细胞、白细胞及血小板。在一些实施例中,结合本发明的方法将一样品分成两个或更多个组成部分。例如,在一些实施例中,将一全血样品分离成血浆、红细胞、白细胞及血小板组分。
在一些实施例中,一样品包括多种核酸,所述多种核酸不仅来自取样的所述受试者,而且还来自一种或多种其他生物体,例如:在取样时存在于所述受试者体内的病毒DNA/RNA。
可以根据本领域已知的任何合适的方法从一样品中提取核酸,并且可以将提取的核酸与本文描述的方法结合使用。参见,例如:Maniatis等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor,N.Y。,pp.280-281,1982,其内容通过引用整体的方式并入本文中。
在一个优选的实施例中,从一样品中提取游离核酸(例如:cfDNA)。cfDNA是存在于几种体液(例如:血浆、粪便、尿液)中的短碱基核衍生DNA片段。参见,例如:Mouliere及Rosenfeld,PNAS 112(11):3178-3179(2015年3月);Jiang等人,PNAS(2015年3月);及Mouliere等人,Mol Oncol,8(5):927-41(2014)。肿瘤来源的循环肿瘤DNA(ctDNA)构成cfDNA的少数群体,在一些情况下,变异高达约50%。在一些实施例中,ctDNA根据肿瘤阶段及肿瘤类型而产生变异。在一些实施例中,ctDNA具有约0.001%至约30%的变异,例如:约0.01%至约20%、例如:约0.01%至约10%。ctDNA的所述协变量尚未完全了解,但似乎与肿瘤类型、肿瘤尺寸及肿瘤阶段呈现正相关。例如:Bettegowda等人,Sci Trans Med,2014;Newmann等人,Nat Med,2014。尽管在cfDNA中具有与ctDNA的低群体相关的挑战,但已在多种癌症中的ctDNA中识别出多种肿瘤变异。例如:Bettegowda等人,Sci Trans Med,2014。此外,cfDNA与肿瘤活检的分析具有较低侵入性以及用于分析的多种方法使得能够识别亚克隆异质性,例如:测序。相较于肿瘤组织活检,cfDNA的分析也显示出能够提供更均匀的全基因组测序覆盖率。在一些实施例中,利用减少或消除cfDNA及基因组DNA的一共混的方式从一样品中提取多个所述cfDNA。例如,在一些实施例中,处理一样品以在少于约2小时内分离多个cfDNA,例如:少于约1.5小时、1小时或0.5小时。
以下是从一血液样品中制备核酸的一程序的一非限制性示例。可以将血液收集在10毫升的EDTA管(例如:来自Becton Dickinson,Franklin Lakes,New Jersey的系列产品)中,或收集在适于分离cfDNA的多个收集管中(例如:来自Streck,Inc.,Omaha,Nebraska的CELL FREE DNA 系列产品)并且可用于通过化学固定有核细胞来减少污染,但当样品在2小时或更短时间内处理时,很少观察到来自基因组DNA的污染,如本方法的一些实施例中的情况。从一血液样品开始,可以通过离心来提取血浆,例如:在室温下以3000rpm离心10分钟以减少制动(brake)。然后可将血浆以1毫升等分转移至1.5毫升的多个管中,并在室温下以7000rpm再次离心10分钟。然后可以将上清液转移到新的1.5毫升的管中。在此阶段,多个样品可以在-80℃下储存。在某些实施例中,多个样品可以储存在所述血浆阶段以用于后续处理,因为血浆可以比储存提取的cfDNA更稳定。
可以使用任何合适的技术提取血浆DNA。例如,在一些实施例中,可以使用一种或多种市售测定法来提取血浆DNA,例如:QIAmp Circulating Nucleic Acid Kit产品系列(Qiagen N.V.,Venlo Netherlands)。在某些实施例中,可以使用以下修改的洗脱策略(elution strategy)。可以使用例如:一QIAmp Circulating Nucleic Acid Kit,并且按照制造商的说明(每柱允许的最大血浆量为5毫升)提取DNA。如果从在Streck管中采集血液的血浆中提取cfDNA,则与蛋白酶K的反应时间可以从30分钟加倍至60分钟。优选地,应使用一尽可能大的体积(即,5毫升)。在各种实施例中,可以使用一两步骤洗脱来最大化cfDNA的产量。首先,每个柱使用30微升的缓冲液AVE来洗脱DNA。在洗脱过程中,可以使用完全覆盖所述膜所需的一少量缓冲液,以提高cfDNA的浓度。通过使用一少量缓冲液来减少稀释,从而避免多个样品的下游产生干燥的情形,以防止双链DNA的熔化或材料损失。随后,可以洗脱每个柱约30微升的缓冲液。在一些实施例中,一第二次洗脱可用于增加DNA产量。
电脑系统及装置
本文所述的本发明的各个方面可以使用任何类型的计算装置,例如一计算机,所述计算机包括一处理器,例如:一中央处理单元或多种计算装置的任意组合,所述组合中的每个装置执行至少部分过程或方法。在一些实施例中,可以使用一手持装置来执行本文所述的多个系统及多个方法,例如:一智能平板电脑或一智能电话或用于所述系统生产的一专用装置。
可以使用软件、硬件、固件、硬接线(hardwiring)或任何这些方法的组合来执行本发明的方法。实现多种功能的特性也可以物理地定位在不同的位置,包括分布在不同的物理位置以实现部分的功能(例如:一个房间中的成像设备及另一个房间中的主机工作站,或在多个单独的建筑物中,例如:通过无线或有线连接)。
例如,适用于执行计算机程序的处理器包括:通用及专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,一处理器将从一唯读存储器(read-onlymemory)或一随机存取存储器(random access memory)或两者中接收指令及数据。一计算机的所述多个基本元件是执行指令的一处理器及存储指令及数据的一个或多个存储器装置。一般来说,一计算机还包括一个或多个用于存储数据的大容量存储装置,例如:磁盘、磁光盘或光盘,或通过操作耦接来接收数据或将数据传输到一个或多个大容量存储装置,或两者兼有。适用于体现计算机程序指令及数据的信息载体包括各种形式的非易失性存储器(non-volatile memory),包括:半导体存储器装置(例如:EPROM、EEPROM、固态驱动器(SSD)及闪存装置);磁盘(例如:内部硬盘或可移动磁盘);磁光磁盘;及光盘(例如:CD及DVD光盘)。所述处理器及存储器可以由专用逻辑电路来补充或合并。
为了提供与一用户的交互,本文所述的主题可以在具有一I/O装置(例如:用于向所述用户显示信息的CRT、LCD、LED或投影装置)及输入或输出设备(例如,一键盘及一指向设备(例如:一鼠标或一轨迹球))一的计算机上实现,通过所述计算机,所述用户可以向所述计算机提供输入。其他类型的装置也可以用来提供与一用户的交互。例如,提供所述用户的反馈可以是任何形式的感官反馈(例如:视觉反馈、听觉反馈或触觉反馈),以及所述用户的输入可以是任何形式的,包括声音、语音或触觉输入。
本文所述的主题可以在一计算系统中实现,所述计算系统包括一后端组件(例如:一数据服务器)、一中间件组件(例如:一应用服务器)或一前端组件(例如:具有一图形用户界面的一客户计算机或一用户可以通过所述计算机与如本文所述主题的一实现器进行交互的一Web浏览器),或此类后端、中间件及前端组件的任何组合。所述系统的所述组成部分可以通过一网络以数字数据通信的任何形式或媒介(例如:一通信网络)相互连接。例如,一参考数据集可以存储在一远程位置,并且一计算机可以通过一网络进行通信以存取所述参考数据集从而进行比较。然而,在其他实施例中,一参考数据集可以局部地存储在所述计算机内,并且所述计算机存取所述CPU内的所述参考数据集以进行比较。通信网络的多个示例包括但不限于:蜂巢式网络(例如:3G或4G)、一局域网(LAN)及一广域网(WAN),例如:互联网。
本文所述的所述主题可以实现为一个或多个计算机程序产品,例如一个或多个计算机程序有形地包含在一信息载体(例如:在一非暂时性计算机可读介质中)中,以用于执行或控制一数据处理设备(例如:一可编程处理器、一个或多个计算机)。一计算机程序(也称为一程序、软件、软件应用程序、应用程序、宏指令或代码)可以以任何形式的编程语言编写,包括编译或解释的语言(例如:C、C++、Perl),并且它可以以任何的形式部署,包括作为一独立程序或作为一模块、组件、子程序或其他适合的单元以用于一计算环境。本发明的多个系统及多个方法可以包括以本领域已知的任何合适的编程语言编写的指令,包括但不限于:C、C++、Perl、Java、ActiveX、HTML5、Visual Basic或JavaScript。
一计算机程序不一定与一文件对应。一程序可以存储在一文件或保存其他程序或数据的一文件的一部分中,也可以存储在一个专用于相关程序的一单个文件中,或者存储在多个协调的文件中(例如:存储一个或多个模块、子程序或部分代码的文件)。一个计算机程序可以部署在一台计算机上执行,也可以部署在一个站点上的多台计算机上执行,或者部署在多个站点上,并通过一通信网络互相连接。
一文件可以是一数字文件,例如:存储在一硬盘驱动器、SSD、CD或其他有形的非暂时性介质上。一文件可以通过一网络从一个设备发送到另一个设备(例如:通过一网络接口卡、调制解调器、无线卡或类似的方式,从衣服务器发送到一客户端的多个数据包)。
根据本发明编写的一文件涉及将一有形的、非暂时性的计算机可读介质进行转换,例如,通过添加、移除或重新排列粒子(例如:通过多个读/写头将一净电荷或偶极矩转换为磁化模式),这些模式表示将有关所述用户期望及有用的客观物理现象的新信息搭配在一些实施例中。在一些实施例中,书写涉及物质在有形的、非暂时性的计算机可读介质中的一物理转换(例如:具有某些光学特性,以便光学读/写装置随后可以读取所述新的且有用的信息搭配,例如:烧录一CD-ROM)。在一些实施例中,写入一文件包括转换一物理闪存设备,例如:NAND闪存装置,并通过转换由浮栅晶体管制成的一存储单元阵列中的物理元件来存储信息。写入一文件的多个方法在本领域内是众所周知的,例如,可以通过一程序或软件的一存储命令或一编程语言的写入命令来进行手动或自动调用。
多种适当的计算装置通常包括大容量存储器、至少一个图形用户界面、至少一个显示设备,并且通常包括多个装置之间的通信。所述大容量存储器说明了一种计算机可读介质,即计算机存储介质。计算机存储介质可以包括以任何方法或技术所实现的用于存储信息的易失性、非易失性、可移动及不可移动介质,例如:计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的多个示例包括:RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能磁盘(DVD)或其他光学存储、磁带、磁带、磁盘存储或其他磁存储设备、射频识别(RFID)标签或芯片或任何其他可用于存储所需信息并可由一计算装置存取的介质。
可以使用软件、硬件、固件、硬接线或这些方式的组合来实现本文所述的功能。任何软件都可以物理地定位于不同的位置,包括分布在不同的物理位置以实现部分功能。
作为本领域技术人员将认识到对本发明方法的性能是必要的或最适合的,用于实现部分或全部所述发明方法的一计算机系统可以包括一个或多个处理器(例如:一中央处理器(CPU)、一图形处理单元(GPU)或两者)、主存储器及通过一总线而相互通信的静态存储器。
一处理器通常包括一个芯片,例如:一单核或多核芯片以提供一中央处理器(CPU)。一过程可以由Intel或AMD的一芯片提供。
存储器可以包括一个或多个机器可读装置,在所述装置上存储一组或多组指令(例如:软件),当由任何一台本发明的计算机的处理器执行所述指令时,这些指令可以完成如本文所述的部分或全部方法或功能。在所述计算机系统执行期间,所述软件也可以全部或至少部分地驻留在所述主存储器及/或所述处理器内。优选地,每台计算机包括一非暂时性存储器,例如:一固态驱动器、闪存驱动器、磁盘驱动器、硬盘驱动器及其相似物。
虽然所述机器可读装置在一示例性实施例中可以是一单个介质,但是所述术语「机器可读装置」应当被视为包括用于存储一组或多组指令及/或数据的一单个介质或多个介质(例如:一集中式或一分布式数据库及/或多个相关的高速缓存器及服务器)。这些术语还应被视为包括能够存储、编码或保持一组指令以供所述机器执行并使所述机器执行本发明的任何一种或多种方法的任何介质或媒体。因此,这些术语应被视为包括但不限于一个或多个固态存储器(例如:用户识别模块(SIM)卡、安全数字卡(SD卡)、微型SD卡或固态驱动器(SSD))、光学及磁性媒体,及/或任何其他有形的存储介质或媒体。
本发明的一计算机通常包括一个或多个I/O装置,例如:一视频显示单元中的一个或多个(例如:一液晶显示器(LCD)或一阴极射线管(CRT))、一字母数字输入装置(例如:一键盘)、一光标控制装置(例如:一鼠标)、一磁盘驱动单元、一信号产生装置(例如:一扬声器)、一触摸屏、一加速度计、一麦克风、一蜂巢式射频天线及一网络接口装置,例如,可以是一网络接口卡(NIC)、Wi-Fi卡或蜂巢式调制解调器。
任何所述软件可以物理地定位于各种位置,包括在不同的物理位置实现部分功能。
另外,本发明的多个系统可以包括参考数据。任何合适的基因组数据可以被存储以供在所述系统内使用。多个示例包括但不限于:所述癌症基因组图谱(TCGA)中癌症主要类型及亚型的关键基因组变化的多个全面、多维图;所述国际癌症基因组联盟(ICGC)的一基因组异常目录;来自COSMIC的一癌症体细胞突变目录;最新建构的所述人类基因组及其他流行的模式生物;来自dbSNP的多种新式参考SNP;来自所述千人基因组计画及博劳德研究所的黄金标准的缺失突变;来自Illumina、Agilent、Nimblegen及Ion Torrent的外显子组捕获试剂盒(exome capture kit);转录注释;用于试验多个管道的小测试数据(例如:用于新用户)。
在一些实施例中,数据在包含一数据库的一系统中的所述局域中是可取得的。可以使用任何合适的数据库结构,包括多个相关的数据库、物件导向的数据库及其他的数据库。在一些实施例中,参考数据存储在诸如一「非关联性SQL」(NoSQL)数据库的关系数据库中。在某些实施方案中,一图形数据库包括在本发明的系统内。应当理解,这里使用的所述术语「数据库」不限于单个数据库;相反地,一系统中可以包含多个数据库。例如,根据本发明的多个实施例,一数据库可以包括两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个或更多个各别的数据库,包括其中任何整数的数据库。例如,一个数据库可以包含公共参考数据、一第二个数据库可以包含来自一患者的测试数据、一第三个数据库可以包含来自多个健康受试者的数据、以及一第四个数据库可以包含来自具有一已知病状或病症的多个病人的数据。应当理解,本文描述的方法也涵盖关于其中包含的数据的任何其他数据库的配置。
在本发明中已经对其他文献进行参考及引用,例如:专利、专利申请案、专利出版物、期刊、书籍、论文、网页内容。出于所有的目的,所有这些文件都通过引用整体的方式并入本文中。
除了本文所示及所述的那些内容之外,对于本领域技术人员来说,本发明的各种修改及其许多其他的实施例将通过本文的全部内容而变得显而易见,所述内容包括参考本文引用的科学文献及专利文献。本文的主题包含重要信息、示例及指南,这些信息、示例及指南可适用于本发明在其各种实施例及等效实施例中的实践。本说明书中引用的所有参考文献均以引用方式明确地并入本文中。
上述实施例的详细描述是指所述多个附图,所述多个附图说明了本发明的多个具体实施例。具有不同结构及操作的其他实施例皆不偏离本发明的范围。所述术语「发明」或其类似物是参考本说明书中申请人的发明的许多可选方面或实施例的某些具体示例而使用的术语,并且所述术语的使用及存在都非旨在限制本发明的范围。为了方便读者阅读,本说明书分为几个部分。标题不应被解释为限制本发明的范围。所述多个定义旨在作为本发明说明书的一部分。应当理解,在不脱离本发明的范围的情况下,可以改变本发明的各种细节。此外,前面的描述仅用于说明的目的,而不是为了限制的目的。
虽然已经参考本发明的多个特定实施例来描述本发明,但是本领域的技术人员应当理解,在不脱离本发明的真实精神及范围的情况下,可以进行各种修改并且可以替换等同物。另外,可以进行许多修改以适应特定的情况、材料、物质组成、过程、过程步骤或多个步骤以适应本发明的目的、精神及范围。所有这些修改都在所附权利要求的范围内。
多个示例
示例1:非负矩阵分解在TCGA数据集中的应用
为了根据潜在的突变特征来评估非负矩阵分解在多种癌症亚型分类中的应用,可以使用所述TCGA数据集。
图5是显示来自所述TCGA数据集的不同癌症类型的多个突变特征的一图表500。如图表500所示,多种癌症类型(即TCGA群组)表示为行、多种突变特征表示为列。使用针对多种特定癌症类型(首字母缩略词)的所述TCGA标识符号来识别所述多个群组。例如,如本领域已知的,BRCA是乳癌、LUSC是肺鳞状细胞癌、LUAD是肺腺癌、COAD是结肠直肠腺癌、COADREA是COAD的子集,而HNSC是头颈癌。如图5所示,30个突变特征聚集在不同的癌症类型中。一些突变特征已被注释。例如,已知特征1与5-甲基胞嘧啶的自发脱氨作用有关,已知特征6与微卫星不稳定性有关,并且已知特征4与吸烟有关。对于每个TCGA群组,确定了具有任何潜在突变特征的患者的患病率。所述群组中一高流行率的一突变特征以白色表示,一中度流行率的突变特征以黄色及橙色表示,以及一低流行率的突变特征以红色表示。在所述聚类图谱中,可以从所述潜在的多个突变特征中推断或确定癌症类型。如图5所示,特征1(5-甲基胞嘧啶的自发脱氨基)与高转换组织相关,例如:COAD及COADREA;特征6(缺陷DNA错配修复及微卫星不稳定性)与结直肠癌(COAD)相关;以及特征4(吸烟)与HNSC、LUSC及LUAD相关。
根据本发明,将非负线性回归应用于图5中的每个单独的TCGA患者样品。图6是显示根据识别的突变样品的各个TCGA患者样品的分级聚类的一图表600。在图表600中,TCGA患者样品表示为行,突变特征表示为列。根据突变特征对每个TCGA患者样本进行聚类。
图7是图6的图表600的一部分的一放大视图,其显示了一组已知黑色素瘤患者样品中的一肺鳞状细胞癌患者样品(在图7中识别为TCGA-18-3409)。与所述TCGA-18-3409样品相关的所述多个突变特征表明,所述癌症类型与皮肤癌的关系比与肺癌的关系更密切。
所述TCGA-18-3409患者的所述临床注释(未显示)表明所述TCGA-18-3409患者具有一先前的基底细胞癌(一非黑素瘤)的恶性肿瘤。在所述TCGA-18-3409患者样品中受影响的各个基因的分析(数据未显示)显示所述PTCHD1、2及4基因都包括错义突变。PTCHD1疑似具有与PTCH1相似的一抑制功能,PTCH1是基底细胞癌中常见的一突变基因。根据报导估计恶性基底细胞癌具有很广泛的变异,在所有基底细胞癌中从约0.0028%到约0.55%、约28%的部位转移到肺、以及约11%转移到皮肤/软组织。这与在所述TCGA-18-3409患者样品中观察到的情况一致,并在临床记录中被报导。这个示例表明根据所述突变特征对患者进行分类,可以更稳健地识别患者罹患的癌症类型,而不是仅报告检测及切除一恶性肿瘤的位置。
本发明的各个方面包括在多个健康患者中识别多个突变特征,并且利用突变特征来检测、诊断及/或分类癌症。例如,图9是一个图表900,其显示癌症患者及健康受试者的cfDNA样品中作为一年龄函数识别的特征1突变的估计数量。如图9所示,健康受试者(红点)的特征1突变与年龄间具有一强相关性。特征1突变与年龄的所述强相关性表明,所述特征1可用于固有地解释cfDNA样品中变异侦测中的衰老过程。
同样地,如图9所示,在癌症患者(黑点)及健康受试者(红点)中,特征1突变与年龄有很强的相关性。虽然不希望受到理论的约束,但据信如果一受试者的一特征1的贡献度与多个健康受试者的所述特征1的贡献度在年龄上存在显着差异,则细胞周期转换会加速或减缓。因此,在一些实施例中,由一特定年龄的多位健康受试者所决定的的一受试患者的特征1图谱及一特有特征1图谱之间的所述差异或变化可用作一分类特征,以区分健康受试者及患病受试者之间的差异(即,所述特征1的贡献度可以是做一个癌症测试)。
示例2:从一个新的患者样品中观察到的一突变特征来识别癌症
图10是一条形图1000,其显示来自一患者的cfDNA样品(MSK10155A)的一突变图谱的一示例。所述突变图谱是根据所述患者cfDNA中碱基置换突变的三联体局域序列所建构的,如图2所述。
图11是一条形图1100,其显示图10中观察到的每个潜在突变特征局域的碱基置换突变的数量。图1000中显示的所述突变特征是考虑所述患者的cfDNA突变特征的所述30个潜在突变特征的一组合。所述图表上的每个条形代表一潜在的突变特征。例如,所述图表上的所述第四个条形代表特征4,其与吸烟引起的突变相关。基于相对较低的突变计数而映射到特征4的一预测是所述患者没有吸烟史。所述图表上的所述第一个柱表示特征1,其与5-甲基胞嘧啶的所述自发性脱氨基相关,并且是细胞周期转换次数的一贡献。在肿瘤组织活检测序中,据报道所述特征1的过程是随时间在人体细胞中发生的类似一时钟的突变过程(clock-like mutational process)。
示例3:检测APOBEC特征
在来自一乳癌患者(患者样品MSK11591A)的cfDNA中检测到所述APOBEC突变特征。患者样品MSK11591A不同于其他群组患者样品的多个特征。
图12A是显示来自样品MSK11591A的cfDNA中的所述SNV及indel负荷的一图表1200。所述数据显示样品MSK11591A中的一大量点突变(SNV)及多个indel。
图12B是显示样品MSK11591A中C>T碱基置换数的一图表1210。所述数据显示样品MSK11591A中的多个点突变(SNV)主要是C>T突变。
图12C是一柱状图1220,其显示样品MSK11591A及其他群组cfDNA患者样品中突变间距离<100个碱基对的所述突变分布。对于每个样品,计算所述突变间距离(即,从任何给定突变到下一个最接近的体细胞突变的距离)。在样品MSK11591A中,与其他cfDNA患者样品中突变的突变间距离分布相比,大约50%的突变位于彼此的100个碱基内。所述数据显示样品MSK11591A中的突变是高度聚类的。
样品MSK11591A中的所述高突变负荷源自于多个生物信号,并且不是多个技术性人工产物的一贡献(例如:样品通过的质量控制指标;数据未示出)。
采用一基序检测(motif detection)方法,通过识别MSK11591A中所述多个体细胞突变区域之间共享的序列来确认每个突变局域序列的富集,这些序列的发生频率高于预期。图13显示局域序列的一图表1300以及相对于样品MSK11591A中的多个SNV的基序位置的一图表1310。参考图表1300,所述突变富含多个TCA序列基序。图表1300中每个基部(ATCG)的所述高度表示所述基序的所述信息内容。参考图表1310,所述TCA基序相对于样品MSK11591A中的所述多个SNV而集中定位。
样品MSK11591A中的多个突变主要是C>T突变,其聚集且富含TCA序列基序。样品MSK11591A中的这种突变模式的一可能解释是APOBEC介导的超突变(hypermutation)。APOBEC(载脂蛋白B mRNA编辑酶、催化多肽样(catalytic polypeptide-like))参与针对病毒感染及RNA编辑的先天免疫,通常在所述细胞核外。APOBEC是单链DNA特异性胞苷脱氨酶的一家族。APOBEC优先在所述TCW基序(W=A或T)处使胞嘧啶脱氨基,并且引入C>T及C>G的置换。APOBEC活性具有一系统链偏差并且诱导多种突变的空间聚类。已经显示所述APOBEC突变模式(TCW突变局域;W=A或T)发生在多种癌症类型(例如:乳癌、肺癌及头颈癌)中。
从所述cfDNA样品MSK11591A的所述分析中,所述患者可能具有一ABOPEC驱动过程作为多种突变的一潜在贡献。在MSK11591A的cfDNA样品中,检测到所述APOBEC特征,并且所述特征可以追溯到所述非负矩阵分解,在所述矩阵分配中被称为特征2。
图14是一图表1400,其显示标记了MSK11591A的多个cfDNA样品中所述推断的特征2(APOBEC)的点突变计数与indel计数。样品MSK11591A通过一高度特征2曝露及Indel曝露与剩余的多个样品区别,相对于图12A改良了分层。
样品MSK11591A中约80%的突变可归因于所述APOBEC特征2。对来自所述MSK11591A患者的一外周血单核细胞(PBMC)样品进行测序的数据分析显示在cfDNA中发现的大约9%的变异也存在于多个PBMC中(数据未显示),这表明在这个患者的发育早期出现了一APOBEC突变。
与所述APOBEC突变特征2相关的其他生物学特征可与所述突变特征数据结合,以优化一患者样品的分配/分类。例如,所述APOBEC特征2可能与多个乳癌患者中HER2的过度表达(例如:扩增)相关。
通过对MSK11591A的cfDNA样品的分析,预测所述患者具有Kataegis突变。Kataegis是在癌症中观察到的一突变过程,导致多个局部基因组区域的超突变。参考图12A、12B、12C,描述了MSK11591A的cfDNA样品的一高突变负担及多个突变聚类。超突变可在一患者体内产生一高的新表位(neoepitope)负载。新表位是免疫治疗的多个靶点。从一患者样品中识别cfDNA中的所述APOBEC突变特征可用于对不同类型治疗(例如:免疫治疗)的患者进行分类。
示例4:在多个时间点监测突变特征
可监测一个体在时间内的突变特征比例的变化以用于检测癌症、监测癌症进展及/或监测癌症治疗。图16表示一模拟(simulation),其显示随着时间变化的三个突变特征的监测,自发性脱氨基1501(COSMIC特征1);香烟烟雾曝露1502(COSMIC特征4);以及AID/APOBEC超突变1503(COSMIC特征2)。随着时间的推移,多种突变作为多个内源性及外源性突变过程的一函数在所述个体内累积。结果,多种突变的累积数量随着时间而单调增加。如图16所示,其中每个条带(band)的所述宽度表示所述个体在时间内的所述累积突变负载或突变特征负载。
通过在多个时间点从一患者获得多个测试样品以识别突变或突变图谱(如图18A、18B及18C中所示),并且通过时间监测其中的变化。例如,如图16所示,可在一第一时间点(T1)、一第二时间点(T2)及一第三时间点(T3)(如多条虚垂直线所示)从一患者处获得多个试验样品以及将由此获得的多种核酸进行测序,并且用于在每个时间点用于确认突变或变异。对于每个时间点,可以确定来自多个突变特征叠加的一突变计数柱状图(如图18A、18B及18C所示)。这些变异计数柱状图可能是多种预期柱状图的一组合(如图17A、17B及17C所示)(图17A至图17C显示从96个三核肽突变局域到所述6个单碱基变化局域的突变计数柱状图,其用于:(A)AID/APOBEC超突变;(B)香烟烟雾曝露;及(C)自发性脱氨基。例如,如图所示,时间点T2的所述突变计数柱状图(图18B)是预期自发性脱氨基(图17C)及香烟烟雾曝露(图17B)的所述多个突变特征的一组合。同样地,如图所示,在时间点T3(图18C)的所述突变计数柱状图是预期自发脱氨基(图17C)、香烟烟雾曝露(图17B)及AID/APOBEC超突变(图17A)的所述多个突变特征的一组合。
如图16所示,自发性脱氨基1501以与细胞分裂数量成比例的一速率发生。在一肿瘤增殖开始时,随着细胞分裂率的增加,自发性脱氨基1501的所述突变累积量增加。自发性脱氨基的所述增加可能是细胞周期失调的一个显着特征,它可以区分癌症个体及无癌症个体。通过评估个体报告的年龄、种族、遗传背景、白细胞的体细胞变异、性别、已知的多种突变曝露及临床病史,失调将由以下方式进行检测:给出一个自发性脱氨基突变过程的模型并且作为一时间函数用于识别游离核酸(例如:cfDNA)中细胞分裂率的增加率。
在时间点T3,可以检测到AID/APOBEC超突变1503的过程,这可能预示着癌症的发展。在一癌症患者中,所述AID/APOBEC超突变1503特征将比在单位时间内的所述香烟烟雾曝露1502特征显示出更大的强度。在T3检测到的强度增加反映一细胞内的超突变及/或增殖的增加。比较T3处的自发性脱氨突变过程1501的速度与在较早时间点T1及T2测定的速度,显示细胞增殖并没有增加(因为T3处的自发性脱氨突变特征与细胞分裂率成正比)。因此,我们可以得出结论,超突变是导致在T3观察到的突变率增加的根本原因。
香烟烟雾曝露1502(突变特征4)是一种环境曝露,与一个人吸烟曝露成比例增加。在这个模拟中,所述个体停止吸烟,因此由吸烟引起的突变不会从时间点T2增加到T3。
示例5:监督变异特征的去卷积
监督突变特征的去卷积涉及确认一突变图谱在多个突变特征的一基础上的一投影,例如但不限于:所述COSMIC网站上描述的多种已知突变特征1至30(参考上文)。由于多种突变过程是活动的或非活动的,并且在任何患者中只有一部分的突变过程是活动的,因此分析涉及确认所述估计的曝露是否具有非负的数值。此外,由于多种变异特征可以共享局域序列,因此分析还涉及「正则化(regularizing)」所述系数估计值,以将估计值缩小到零。换句话说,本文描述的所述分析试图执行可变的选择及收缩,以将重要的突变过程从特定的突变特征组中分离出来。已知的两种技术包括岭回归(ridge regression)及套索算法(lasso)。在这个示例中,使用弹性净非负的最小二乘回归(Mandal&MA,ComputationalStatistics and Data Analysis,2016,其公开内容以引用方式并入本文中)。在统计学中,尤其是在线性或逻辑回归模型的拟合中,所述弹性网是一种正则化回归方法,它线性地结合了所述套索算法及所述岭回归方法的L1及的多种惩罚值(penalties)。例如,Zou、Hui及Trevor Hastie在英国皇家统计学会杂志:B系列(统计方法论)67.2(2005):301-320「Regularization and variable selection via the elastic net」一书中提供了进一步的细节,其公开内容以引用方式并入本文中。
在图22中,提供了应用于一模拟突变图谱的不同回归方法的一示例。在所述模拟中,一单独的受试者具有100个突变,表现为0.3(30%)×特征1;0.5(50%)×特征2;及0.2(20%)×特征13的一组合,在96个三核苷酸局域下的单核苷酸突变中有一些一致的杂讯(noise)。应用最小二乘线性回归(lsq)的所述结果是估计了某些特征的多个拟合负系数(曝露值)。非负最小二乘回归(nnlsq)消除了多个负系数,但可能导致总突变负荷及多个伪非零系数的高估。弹性净非负最小二乘回归(NNEN),防止这两种属性。
图22中提供的结果表明显示:回归分析可成功用于证明回归分析可成功地用于确定样品中每个突变特征的曝露权重或百分比(即,将突变图谱去卷积为多种突变特征的一组合)。因此,所述多个受试者方法有助于确认每个突变特征对患者突变特征的相对贡献,从而有助于识别在所述患者体内操作的多个突变过程的类型,并且量化每个突变过程的相对贡献值。
示例6:白细胞及cfDNA局域序列的比较
不同的组织类型具有多种不同的体细胞突变体图谱,并且多种白细胞(WBC)体细胞变异可以用作与其他组织比较的一基础。在这个实施例中,评估三个不同的受试者以确定不同组织的所述体细胞变异含量,并且比较多种cfDNA体细胞变异及WBC体细胞变异的相对程度。所述第一受试者是患有结肠直肠癌及微卫星不稳定性(MSI)的一72岁人类患者(「所述MSI患者」)。所述第二受试者是一85岁未患癌症的人类患者(「所述85岁患者」),以及所述第三受试者是未患癌症的一68岁人类患者(「所述68岁患者」)。
图23显示在所述x轴上表示的多种突变的所述三核苷酸局域,以及在所述y轴上表示的所述MSI患者的WBC及cfDNA的多个SNV的的突变数量。图24显示相同的数据,但仅针对cfDNA的多个SNV(WBC的多个SNV已移除)。相对于GRCh37的所述参考局域序列而呈现突变(在考虑反向互补性后存在64种不同的三核苷酸局域;多种突变不是反向互补的)。这个比较显示所述MSI患者具有更多的cfDNA的多个SNV,所述多个SNV不是所述WBC的多个SNV共有或共享的。所述85岁患者及所述68岁患者的所述数据如图25、图26、图27及图28所示,在考虑WBC的多个SNV后,非癌症患者具有一较低数量的多个SNV。
示例7:多个患者样品的分子分类
本发明的多种方法有助于确定一个体内活跃的多种特定突变过程,从而允许疾病的分子分类,以及基于所述分子分类选择适当的治疗,其可用于代替或与其他指标结合使用,例如:肿瘤位置、组织类型等。重要地,本发明的所述多种方法可以在传统上可观察到的多种临床症状出现之前促进一患者体内的一活性突变过程的识别。此外,即使存在多种临床症状,本发明的所述多种方法仍是有价值的,例如:检查点抑制剂治疗(checkpointinhibitor therapy)的情况,其目前施用于患有MSI的个体,所述个体通常是晚期患者。
图29是一「热图(heat map)」,其显示沿所述x轴的30个不同的已知突变特征,并且显示每个个体中每个特征的相对丰度,包括来自不同组织的癌症,并使用欧几里德距离为cfDNA测试样品提供推断的多个突变特征曝露的一层次聚类(hierarchical clustering)。图29包括来自一个自我认定为健康的个体的数据,因此被标记为「非癌症」。然而,所述个体具有一极高的SNV负荷,这表明可能存在疾病,即使可观察到的临床症状尚未浮现。
还观察到与环境曝露相关的一些特征的全面行为。例如,在肺癌样品中清楚地观察到与曝露于香烟烟雾相关的特征4(图30)。这表明在不同的样品中不同的突变过程是活跃的,并且为不同的癌症提供了一分子分类。例如,表现出高活性的特征4(吸烟)的患者可以受益于针对这个突变过程的多种治疗方法。值得注意的是,这个分析中包括的所述健康个体显示出高活性的特征12,表明在临床症状出现之前所述个体可能处于疾病的早期阶段。当治疗性干预具有一更大的成功机会时,本发明的多种方法有助于在疾病的早期阶段识别这些个体。
为了说明在估计每个特征的特征曝露值时的不同确定性,应用了每个特征的证据阈值。例如,特征3在几乎所有96个三核苷酸局域中具有一广泛的概率分布,因此很容易被高估其系数的大小。此外,可以应用与高突变负荷相关的多个特征的证据阈值,如特征7(UV曝露)及特征10(缺陷POLE),以匹配这些特征的预期生物学。一曝露比例小于0.1的多个特征(从0到1的一数值范围)可以设置为零的一曝露比例。在这个实施例中,具有少于30个支持突变的特征3、7及10被设定为零的一曝露比例。
示例8:结合片段长度分析以检测突变信号
在COSMIC分析中仅在肝癌中观察到特征12。特征12显示了T>C置换的一强转录链偏倚。在这个示例中,在自我报告为健康(即没有癌症)的受试者及肝癌以外的癌症受试者中观察到曝露于特征12。为了评估这些观察到的变异是否可能来自实体组织或潜在的肿瘤,将支持突变等位基因的读取的中间片段长度与候选突变体的参考等位基因进行比较。所有样品的长度都向较短的片段转移,增加了观察到的多个SNV是由突变过程引起的,而不是由一测序伪影(sequencing artifact)引起的所述信心度。本领域已知cfDNA样品的片段长度图谱的多种使用方式,并且包括例如:美国专利申请公告号2013/0237431号及2016/0201142号中所述的技术,其公开的内容以引用整体的方式并入本文中。
图31显示了从高特征12曝露的受试者获得的所有SNV的cfDNA片段长度的数据。从患有乳癌的一受试者身上获得了最低的分布,并显示所述片段长度分布向左移动、远离垂直虚线(这表示健康对照样品中预期片段长度分布峰值的位置)。最上面的分布是从一个自我报告为健康的受试者身上获得的,但是他们的分析结果显示他们曝露在高水平的特征12下。与特征12曝露的观察一致,所述受试者的片段长度分布向左移动,这表明cfDNA片段长度较短,可能存在癌症。所述中间分布来自一阴性对照样品(即一非癌症样品),并且显示所述片段长度分布与预期的垂直虚线一致。
图32显示了相同的分析,但仅T>C的突变。这是特征12中概率最大的突变。当T>C突变与所有SNV分开分析时,所述片段长度分布图的所述差异更为明显,并且清楚地显示出从高特征12曝露的样品向较短片段长度的转变。这些数据表明,片段长度分析可以与所述主题方法结合使用,以提供对主动突变过程检测的进一步信心。
示例9:检测吸烟相关的特征4
特征4与吸烟(及烟草吸烟致癌物,如苯并[a]芘)有关。在头颈癌、肝癌、肺腺癌、肺鳞状细胞癌、小细胞肺癌及食管癌中均有发现所述特征4。特征4显示了C>A突变的一转录链偏倚(transcriptional strand bias),与转录偶联核苷酸切除修复鸟嘌呤损伤的概念一致。特征4也与CC>AA置换相关。更多关于特征4(及其他特征)的信息可以在癌症(COSMIC)体细胞突变图谱上找到,网址为:http://cancer.sanger.ac.uk/cosmic/signatures。
图33显示了不同个体的特征4曝露程度,绘制为吸烟曝露及吸烟史的一函数。所述包年(pack year)(X轴标签)是测量一个人长期吸烟量的单位。计算方法是将每天吸烟的包数乘以所述人吸烟的年数。例如,一包年等于一年内每天吸烟20支(1包),或半年内每天吸烟40支。这一数据表明,有吸烟史或吸烟史的肺癌患者具有特征4曝露。
图33中的所述数据显示,如预期的那样,当前或以前吸烟者的多个受试者具有高的特征4曝露。这在多种癌症类型中得到证实。这些数据表明,临床数据(如患者报告的吸烟史)可与受试者的方法结合使用,以提供对主动突变过程检测的进一步信心。
示例10:检测与缺陷DNA错配修复相关特征6
在17种癌症类型中发现特征6,最常见于结直肠癌及子宫癌。在大多数其他类型的癌症中,只有不到13%的受检样品含有特征6。特征6与单核苷酸或多核苷酸重复的大量小(小于3个碱基对)插入及缺失有关。特征6是与缺陷DNA错配修复相关的4个突变特征之一,并且经常发现与特征15、20及26共存。散发性结直肠癌中15%的微卫星不稳定(MSI)肿瘤是由MLH1基因启动子的高度甲基化引起的,而Lynch综合征中的MSI肿瘤是由MLH1、MSH2、MSH6及PMS2的种系突变引起的。更多与特征6(及其他特征)相关的信息可在癌症(COSMIC)体细胞突变目录网站(http://cancer.sanger.ac.uk/cosmic/signals)上在线找到。
图34显示了不同癌症类型的特征6曝露。正如预期的那样,在一结直肠癌样品中发现高曝露水平的特征6(>60%)。图35显示特征6曝露与大量Indel的关联性,图35显示观察到的多个Indel(y轴)数与绝对SNV计数(x轴)中的特征6的曝露数。图36显示SNV及indel频率的一柱状图(ALT读取值/(ALT读取值+REF读取值)),它与多个SNV及indel的相同生成过程相同。由于特征6及增加的Indel之间的已知关联,此观察增加了特征6曝露的观察程度的信心度。Indels的共享序列局域(表1)与微卫星不稳定性兼容,并且支持缺陷DNA错配修复的一突变特征。下表1显示了与所述参考等位基因、所述替代等位基因及出现次数相对应的所述数据。
表格:1
表格1(接续):
上述实施例的详细描述是指所述多个附图,其说明了本发明的具体实施例。具有不同结构及操作的其他实施例都不偏离本发明的范围。所述术语「发明」或类似物是参照本说明书中所述的申请人发明的许多替代方面或实施例的某些具体实例使用的,其使用或不使用均无意限制申请人发明的范围或权利要求的范围。为了方便读者阅读,本说明书分为几个章节。标题不应解释为限制发明的范围。定义是本发明说明书的一部分。可以理解,本发明的各种细节可以在不脱离本发明范围的情况下进行更改。此外,上述描述仅用于说明,不用于限制。