CN103370423A

CN103370423A - 核酸模板的分类

Info

Publication number: CN103370423A
Application number: CN2011800646390A
Authority: CN
Inventors: B·弗卢斯贝格; J·科拉奇; J·韦格纳; T·A·克拉克; I·维尔凡; A·基思柳克; S·特纳; J·索伦森; K·特拉弗斯; C·海纳; A·B·托曼尼; P·马克斯; J·李; 贾磊; D·韦伯斯特; J·莱尔; J·哈尼斯; J·普格利希
Original assignee: Pacific Biosciences of California Inc
Current assignee: Pacific Biosciences of California Inc
Priority date: 2010-11-12
Filing date: 2011-11-11
Publication date: 2013-10-23
Also published as: US20170233802A1; AU2011326026A1; US10294523B2; US20110183320A1; CA2817587A1; US20170037464A1; US20160153038A1; US9175338B2; US10793903B2; EP2638177A2; US9951383B2; WO2012065043A3; WO2012065043A2; WO2012065043A9

Abstract

本发明提供了用于表征经修饰的核酸的方法、组合物和系统。在某些优选的实施方案中，提供了用于鉴定核酸序列内的经修饰的核苷酸的单分子测序方法。通过本发明提供的方法可检测的修饰包括：化学修饰的碱基、酶修饰的碱基、脱碱基位点、非天然的碱基、二级结构以及与模板核酸结合的试剂。

Description

核酸模板的分类

相关申请的交叉引用

本申请是2009年12月10日提交的美国专利申请号12/635,618的部分继续申请，后者要求2008年12月11日提交的临时美国专利申请号61/201,551、2009年3月21日提交的临时美国专利申请号61/180,350和2009年6月12日提交的临时美国专利申请号61/186,661的权益，它们的完整公开内容特此通过引用整体并入本文用于所有目的。

关于联邦资助研究的声明

美国政府在本发明中拥有付费的许可证，以及在特定场合下要求专利所有人根据合理的条件向其它人发放许可证的权利，所述合理条件由国立卫生研究院(NIH)的国立人类基因组研究所(NHGRI)颁布的授权编号5RC2HG005618-02中的条款提供。

背景技术

为各种所需应用开发生物学过程的分析试验。例如对关键生物学通路活性的监测可导致更好地了解这些系统的功能以及可能破坏这些系统正常功能的因素。事实上，由于特定生物学通路的运行或中断所引起的各种疾病是许多医学研究的焦点。通过对这些通路的了解，就可模拟出影响它们的方法来预防疾病发生或在其有所表现时减轻征状。

开发生物学过程监测方法的一个典型例子存在于药学研究和开发领域。具体地，为促进分析，常常在体外系统中重现或模拟这些通路中与治疗有关的生物学通路，或其中的各步骤或各步骤的某些亚组。通过观察存在和没有潜在治疗组合物，如药物组合物或其它物质时，这些步骤或整个通路的进程，可以鉴定这些组合物影响体外系统，和可能有益地影响正有通路在以有害方式发挥作用的生物体的能力。具体的例子有，甲基转移酶对胞嘧啶5’位点的可逆甲基化是最为广泛研究的后天修饰之一。在哺乳动物中，5-甲基胞嘧啶(5-MeC)常见于CpG二核苷酸，后者常簇集存在于转录起始位点处或其附近被称为CpG岛的区域内。CpG岛区内胞嘧啶的甲基化可干扰转录因子结合，并与转录抑制和基因调节相关。此外，已知DNA甲基化是哺乳动物发育所必需，并且与癌症和其它疾病过程相关。近来，在脑的某些类型细胞中已经鉴定出新的5-羟甲基胞嘧啶表现遗传标志，提示其在神经元功能的表现遗传控制中具有作用(S.Kriaucionis,等人,Science 2009,324(5929):929-30，其通过引用整体并入本文用于所有目的)。本领域的以下文献提供了关于胞嘧啶甲基化及其对基因调控、发育及疾病过程的影响的进一步信息：例如，A.Bird,Genes Dev 2002,16,6;M.Gardiner-Garden,等人,J MolBiol 1987,196,261;S.Saxonov,等人,Proc Natl Acad Sci U S A 2006,103,1412;R.Jaenisch,等人,Nat Genet 2003,33 Suppl,245;E.Li,等人,Cell 1992,69,915;A.Razin,等人,Hum Mol Genet 1995,4 Spec No,1751;P.A.Jones,等人,Nat Rev Genet 2002,3,415;P.A.Jones,等人,Nat Genet 1999,21,163；和K.D.Robertson,Nat Rev Genet 2005,6,597，它们都通过引用整体并入本文用于所有目的。

人类基因甲基化绘图是比确定人类基因组更复杂的任务，因为甲基化状态在组织类型之间不同，随年龄变化，使甲基化状态有所不同，并被环境因素该变(P.A.Jones,等人,Cancer Res 2005,65,11241，其通过引用整体并入本文用于所有目的)。因为现有的DNA测序技术对样品制备的要求和短读出长度的特点，全面、高分辨率地分析给定样品的全基因组甲基化模式是很有难度的(K.R.Pomraning,等人,Methods 2009,47,142，其通过引用整体并入本文用于所有目的)。

亚硫酸氢盐测序法是现有单核苷酸分辨率的甲基化分析方法中的上选(S.Beck,等人,Trends Genet 2008,24,231；和S.J.Cokus,等人,Nature 2008,452,215，它们的公开内容通过引用整体并入本文用于所有目的)。用亚硫酸氢盐处理DNA可使未甲基化的胞嘧啶转化成尿嘧啶，但不转化5-MeC(M.Frommer,等人,Proc Natl Acad Sci U S A 1992,89,1827，其通过引用整体并入本文用于所有目的)。然后扩增该DNA(将所有的尿嘧啶转化成胸腺嘧啶)，再用各种方法分析，包括基于微阵列的技术(R.S.Gitan,等人,Genome Res 2002,12,158，其通过引用整体并入本文用于所有目的)或第二代测序技术(K.H.Taylor,等人,Cancer Res2007,67,8511；和R.Lister,等人,Cell 2008,133,523，它们二者通过引用整体并入本文用于所有目的)。虽然基于亚硫酸氢盐的技术已经极大地促进了甲基化DNA的分析，但它们也有几种缺点。首先，亚硫酸氢盐测序要求大量时间制备样品(K.R.Pomraning,等人,出处同上)。其次，使未甲基化胞嘧啶完全转化成尿嘧啶的苛刻反应条件会导致DNA的降解(C.Grunau,等人,Nucleic Acids Res 2001,29,E65，其通过引用整体并入本文用于所有目的)，因此，需要样品的起始用量很大，这对某些应用可能成为问题。

此外，由于亚硫酸氢盐测序依赖于微阵列或第二代DNA测序技术来读出甲基化状态，它也有这些方法具有的相同局限性。对基于阵列的过程，亚硫酸氢盐导致的序列复杂性降低使得难于设计出进行全基因组分析所需的独特探针(S.Beck,等人,出处同上)。大多数第二代DNA测序技术采用短读出(short reads)，因此难以对高度重复基因组区域进行排列比对(K.R.Pomraning,等人,出处同上)。因为许多CpG岛位于这种区域内，这就特别成问题。鉴于这些局限，亚硫酸氢盐测序也不太适合甲基化的从头分析(S.Beck,等人,出处同上)。

在另一广泛应用的技术即甲基化DNA免疫沉淀(MeDIP)中，采用抗5-MeC的抗体来富集甲基化DNA序列(M.Weber,等人,Nat Genet2005,37,853，其通过引用整体并入本文用于所有目的)。MeDIP对于全基因组甲基化状态的评估有许多优点，但它提供的碱基分辨率不如基于亚硫酸氢盐的处理方法那样高。此外，它也受现有微阵列和第二代测序技术的相同局限的限制。

旨在提高我们对于人类甲基化组认识的研究努力会极大地受益于新的、不再受限于上述局限的甲基化分析技术的开发。因此，存在对于核酸序列中的修饰，特别是核酸甲基化修饰的改进检测技术的需要。

通常，模拟的生物学系统依赖于大宗反应确定生物反应的总体趋势并提供该大宗系统如何与不同效应器反应的指示。虽然这类系统可用作体内大宗反应的模型，但在对这些大宗反应结果进行平均时丢失了大量信息。具体地，个别分子复合物的活性和其所受影响的信息通常不能从这类大宗数据收集方法中得到。

核酸合成的单分子实时分析已显示能提供胜过测序方法中常用的核酸合成监测法的有力优势。具体地，在监测核酸聚合酶复制核酸的同时监测其合成过程，可获得经数百万年进化而完善的系统的优点。特别是，天然的DNA合成过程能够在极短时间内以对于被复制模板的极高保真度复制全基因组。

本发明涉及用于监测生物学反应的进程和效应、特别是检测核酸序列中的修饰的多种不同单分子实时分析。例如，本发明提供了包括对单个聚合酶分子动力学的实时、高多重性观察的直接甲基化测序技术。该技术将提供快速、经济的甲基化模式分析，即使是基因组的重复区域。

发明内容

本发明一般涉及对修饰核酸序列的检测，特别是采用实时直接检测方法对核酸序列中甲基化碱基的检测。预期本发明将对旨在阐明DNA甲基化在人类健康中作用的研究有重大影响。

在本发明的某些方面，提供了用于鉴定核酸分子中的修饰的方法。一般而言，提供包含所述修饰的模板核酸和能加工该模板的酶。使模板核酸与酶接触，然后监测酶对模板的加工。检测加工过程中的改变或扰乱，这种改变是模板中存在修饰的指示。可用本发明方法检测的示例性修饰包括、但不限于：甲基化的碱基(例如，5-甲基胞嘧啶、N⁶-甲基腺苷等)，假尿苷碱基，7,8-二氢-8-氧代鸟嘌呤碱基，2’-O-甲基衍生物碱基，碱基J，碱基P，碱基Z，s4U，s6G，缺口，脱嘌呤位点，脱嘧啶位点，不规范的碱基或碱基对，嘧啶二聚体，顺式模板(cis-platen)交联产物，氧化损伤，水解损伤，大碱基加合物(bulky base adducts)，胸腺嘧啶二聚体，光化学反应产物，链间交联产物，错配碱基，二级结构和结合剂。在优选的实施方案中，掺入酶合成的新生链中的核苷酸或其类似物被显著标记，使得能鉴定掺入特定核苷酸或核苷酸类似物的序列。在某些优选实施方案中，通过磷酸基团，如α磷酸基团以外的磷酸基团连接标记与核苷酸或核苷酸类似物。如此可在掺入新生链时从核苷酸或核苷酸类似物上除下标记。

在某些实施方案中，模板核酸用酶加工前经过处理，例如改变其修饰。这种处理可以是化学或酶处理，包括，例如糖基化酶修饰、亚硫酸氢盐修饰、DMS修饰、胞嘧啶甲基转移酶修饰、羟基化、TET1修饰和胞苷脱氨酶修饰。在某些实施方案中，通过酶将非天然核苷酸类似物(例如，芘类似物)掺入到合成的新生链中。在某些实施方案中，所述方法包括处理模板和非天然核苷酸类似物掺入到新生链中。在某些实施方案中，非天然核苷酸类似物掺入新生链中的位置与模板的修饰配对。例如，模板中的甲基化胞嘧啶可与修饰的鸟嘌呤核苷酸类似物配对；模板修饰可与非天然核苷酸类似物配对以形成非天然碱基对，如异胞嘧啶与异鸟嘌呤；5-甲基异胞嘧啶与异鸟嘌呤；Im-N^O与Im-O^N；A^*与T^*；和8-氧代鸟嘌呤（8-oxoG）与腺嘌呤。在某些实施方案中，非掺入性的核苷酸类似物与模板/酶复合物结合，但不掺入新生链中，这种“无效”结合作用的检测作为模板中有修饰的指示。这种非掺入性的核苷酸类似物优选被显著标记以利于监测，并任选地，用以区分这种结合与含标记的可掺入核苷酸类似物的掺入。

在某些实施方案中，模板核酸包含内部互补区(例如，双链部分)和至少一个单链部分，优选其修饰位于至少一个内部互补区中。在某些实施方案中，模板是环形模板。在某些实施方案中，模板是包含至少二个内部互补区的环形模板。在某些实施方案中，所述酶是聚合酶，如DNA聚合酶、RNA聚合酶、逆转录酶或它们的衍生物或变体。在优选的实施方案中，所述酶是能链置换的聚合酶。在特定实施方案中，所述酶是Φ29聚合酶，任选地，包含至少一个选自以下位点的突变：K392、K422、I93、M188、K392、V399、T421、K422；S95、Y101、M102；Q99、L123、K124、T189、A190；G191、S388；P127、L384、N387、S388；和L389、Y390和G391。

在本发明各种实施方案中所监测的酶对模板的加工过程中的改变的例子包括、但不限于：动力学、持续合成能力(processivity)、亲和力、速率、链置换活性、信号特征、差错度量(error metrics)、信号背景等。在某些实施方案中，酶活性的改变或扰乱只发生在修饰处，在其它实施方案中，所述改变或扰乱发生在靠近修饰的一个或多个位置，也可包括修饰位点。

在某些方面，所述方法还包括绘制修饰图谱。在某些优选实施方案中，绘制修饰图谱包括：分析在即将检测加工中的变化之前、在所述检测期间和/或在所述检测之后不久所产生的一部分序列读出，以确定与模板核酸互补的序列；测定与模板核酸互补序列的补体；绘制靠近与所述模板核酸互补的序列的补体处的模板核酸位置上的修饰。在模板是双链核酸的情况下，所述修饰可以是在聚合酶用于产生互补新生链的模板链上或内部，或者可以是在聚合酶在新生链合成过程中置换的链上或内部。在任一种情况下，可以将修饰映射至这样的模板区域：在该区域中观察到加工中的这种改变或扰乱。

在某些实施方案中，所述加工中可指示修饰的改变或扰乱是：加工中的动力学差异(例如，检测为脉冲间隔期、脉冲宽度、持续合成能力、加工停止(例如，暂停或失速)等中的一个或多个的改变)和/或差错度量的改变(例如，准确度、不导致掺入的结合事件(例如，同源的或非同源的采样)的增加等)。加工过程中的改变可指示模板核酸中存在的修饰类型，因为不同类型的修饰对酶的活性和/或保真度有不同影响，从而导致在反应过程中观察到的不同的改变或扰乱。

在优选的实施方案中，在酶加工模板过程中进行实时监测。在优选的实施方案中，将模板核酸与酶形成的复合物固定在基质的反应位置，在更优选的实施方案中，将多个复合物固定在基质上可光学区分的反应位置，其中固定在反应位置之一处的一个复合物可与固定在其它反应位置的其它复合物可光学区分。在某些实施方案中，可光学区分的反应位置是基质中的纳米级孔，可以是光学限制件，如零模式波导。在优选的实施方案中，所述模板核酸是监测期间彼此可光学区分的多种模板核酸。优选模板核酸在接触酶之前不经扩增。

在某些实施方案中，所述修饰是模板核酸中的二级结构，例如，发夹环、超螺旋、内部杂交等，且所述修饰的变化是动力学变化，例如，脉冲间隔期延长或脉冲宽度增加。用于鉴定这样的二级结构的某些方法通常包括：产生模板核酸在动力学变化之前、过程中和之后的序列读出；鉴定在动力学变化之前和/或过程中产生的第一部分序列读出，后者与在动力学变化过程中和/或之后产生的第二部分序列读出互补；和至少基于所述第一部分与所述第二部分的核苷酸组成，确定在加工过程中所述第一部分与所述第二部分对合例如形成发夹环的可能性。

在本发明的另一方面，提供了检测单个核酸模板上试剂结合的方法。在某些实施方案中，这种方法通常包括：提供单个核酸模板与聚合酶的复合物；将反应混合物引入该复合物，其中所述反应混合物包含所述试剂；监测聚合酶合成的多核苷酸，其中所述多核苷酸与所述单个核酸模板互补，合成中的变化可指示所述试剂与单个核酸模板结合。适用于这种方法的试剂的例子包括、但不限于：转录因子、聚合酶、逆转录酶、组蛋白、限制性酶、抗体、核酸结合蛋白和核酸结合剂。适用于这种方法的单个核酸模板的例子包括、但不限于：双链DNA、双链RNA、单链DNA、单链RNA、DNA/RNA杂交体，和包含双链与单链区的模板。

在本发明的某些方面，测定了所述试剂的一致结合位点。这种测定包括，例如，在存在该试剂时对一组单个核酸模板进行多重合成测序反应产生一组受结合影响的新生多核苷酸序列；在缺少该试剂时对该组单个核酸模板进行多重合成测序反应产生一组全长新生多核苷酸序列；分析受结合影响的新生多核苷酸序列，以确定在存在所述试剂进行合成测序反应期间所述试剂与单个核酸模板结合的位置；和鉴定该位置处与全长新生多核苷酸序列的共有序列，从而鉴定所述试剂的一致结合位点。在某些实施方案中，所述受结合影响的新生多核苷酸序列是截短的新生多核苷酸序列；在其它实施方案中，所述受结合影响的新生多核苷酸序列是其合成在所述试剂结合位置处暂停以其它方式扰乱的新生多核苷酸序列。

在本发明的其它方面，提供了用于检测合成测序反应期间单个核酸模板中的修饰的方法。例如，这种方法可包括：提供单个核酸模板，其包含所述修饰，且与聚合酶形成复合物；将反应混合物引入该复合物，其中所述反应混合物包含能特异性结合所述修饰的试剂；和监测聚合酶对多核苷酸的合成，其中所述多核苷酸与该单个核酸模板互补，并且其中该多核苷酸的合成的暂停、停止或其它扰乱会指示所述试剂与所述单个核酸模板的结合，从而检测出所述单个核酸模板中的修饰。在某些实施方案中，所述修饰是8-氧代鸟嘌呤损伤，和/或所述试剂是选自下述的蛋白质：hOGG1、FPG、yOGG1、AlkA、Nth、Nei、MutY、UDG、SMUG、TDG、NEIL、抗8-氧代鸟嘌呤的抗体或其结合域。在其它实施方案中，所述修饰是甲基化碱基，和/或所述试剂是选自下述的蛋白质：MECP2、MBD1、MBD2、MBD4、UHRF1、抗甲基化碱基的抗体、或其结合域。在其它实施方案中，所述修饰是核酸模板中二级结构的形成。优选所述复合物被固定在光学限制件中。所述模板可包括，例如，线形单链核酸、环形单链核酸、线形双链核酸、环形双链核酸、或它们的组合。

在某些实施方案中，通过例如合成测序反应中，在反应混合物中包括损伤修复机制所需的组分，可以修复模板核酸中的修饰。在某些实施方案中，与用所述单个核酸模板和聚合酶的复合物、但缺少所述损伤修复机制进行的其它合成测序反应的读出长度相比，合成测序反应的读出长度更长。

在本发明另一方面，提供了在合成测序反应期间绕过单个核酸模板中一个或多个修饰处的方法。某些示例性方法包括：提供所述单个核酸模板与测序引擎的复合物；将反应混合物引入该复合物，所述反应混合物包含绕道聚合酶；启动合成测序反应，监测测序引擎合成多核苷酸，其中所述多核苷酸与单个核酸模板互补，多核苷酸合成的暂停或中止表明测序引擎遇到单个核酸模板的修饰处；随后监测绕道聚合酶合成的多核苷酸，其表明该修饰处被绕过；每次遭遇到单个核酸模板中的下一修饰处时，重复此监测步骤，从而在合成测序反应期间绕过单个核酸模板中的一个或多个修饰处。在某些实施方案中，绕道聚合酶包含可检测标记，合成测序反应期间检测到该可检测标记的信号表明绕道聚合酶在活跃地合成多核苷酸。在优选的实施方案中，合成测序反应的序列读出长度比采用单个核酸模板与聚合酶复合物但缺少绕道聚合酶进行的另外合成测序反应的更长。在特定实施方案中，所述反应混合物包含多个不同的绕道聚合酶和持续合成因子(processivity factor)。优选将单个核酸模板、测序引擎和绕道聚合酶中至少一种直接或间接地固定在光学限制件中。例如，可通过与固定在光学限制件中的寡核苷酸引物杂交固定所述模板。在某些实施方案中，用测序引擎在单个反应位点处多次加工单个核酸模板，进一步产生冗余的序列数据。用于本方法的核酸模板可以是环形和/或可包含感兴趣核酸区段的多个拷贝。此外，在某些实施方案中，合成测序反应产生的多核苷酸包含与所述感兴趣区段互补区段的多个拷贝，从而可进一步产生冗余的序列数据。

在其它方面，提供了新型组合物。例如，在某些实施方案中，本发明的组合物包含基质，其上具有的反应位点能与基质上其它反应位点可光学区分；固定在该反应位点上的模板与测序引擎的单个复合物；可掺入核苷酸或核苷酸类似物的混合物；模板核酸含有至少一个修饰，模板的修饰处或修饰附近的加工与模板远离修饰处不同。在某些实施方案中，所述修饰是模板中的非天然碱基。修饰可位于模板核酸中与测序引擎合成的新生链互补的那条链中，或模板核酸中被测序引擎置换的那条链中。在某些优选实施方案中，模板核酸包含内部互补区域，任选地，所述修饰位于该内部互补区域之一中。某些实施方案还包括至少一种类型的非掺入性核苷酸类似物。某些实施方案包括至少一种类型的非天然可掺入性核苷酸类似物。优选本发明组合物中的一个或多个或所有的核苷酸或核苷酸类似物含有可将不同类型的核苷酸或核苷酸类似物彼此区分的不同标记。本发明的组合物也可包含测序引擎以外的能结合所述修饰和/或能化学或酶促改变所述修饰的试剂。优选本发明的组合物包含测序引擎产生的新生链，所述新生链与模板核酸互补，任选地，包含与模板核酸互补区域的多个拷贝。此外，某些组合物包含基质中的纳米级孔，反应位点安置在该纳米级孔中，如零模式波导中。

在本发明的其它方面，提供了用于鉴定核酸模板中的修饰的系统。在某些优选的实施方案中，本发明的系统包括：固体支持物，其上(例如，在反应位点，例如，在纳米级孔中，例如，在零模式波导中)安置有聚合酶复合物，所述聚合酶复合物包含含有修饰的核酸模板；固定平台，其构造成容纳所述固体支持物；光学系统，其定位成与所述固体支持物的至少一部分进行光通信，以检测从其发射的信号；平移系统，其与固定平台或光学系统可操作地联接，用于使光学系统和固体支持物之一相对于另一个移动；和数据处理系统，其与光学系统可操作地联接。优选地，所述聚合酶复合物包含具有加工核酸模板活性的聚合酶。更优选地，所述聚合酶复合物包含能通过模板指导的合成持续合成新生链的聚合酶，例如，在有超过一类可掺入的核苷酸或核苷酸类似物存在下。在优选的实施方案中，所述光学系统会检测在核酸模板加工期间从固体支持物发出的信号。

在某些方面，本发明提供了用于鉴定核酸分子内的修饰的方法，所述方法包括：将其它修饰引入已经包含目标修饰的模板核酸中。用酶加工所述模板核酸，并监测所述酶对模板的加工。加工中的变化指示所述其它修饰，并因此间接地鉴定目标修饰。所述目标修饰可以是可用于指导或标记模板以促进其它修饰的引入的任何修饰。例如，所述目标修饰可以选自下述的：甲基化的碱基、羟甲基化的碱基、HOMedU、β-D-葡萄糖基-HOMedU、胞嘧啶-5-亚甲基磺酸、假尿苷碱基、7,8-二氢-8-氧代鸟嘌呤碱基、2’-O-甲基衍生物碱基、缺口、脱嘌呤位点、脱嘧啶位点、嘧啶二聚体、顺式模板交联产物、氧化损伤、水解损伤、大碱基加合物、胸腺嘧啶二聚体、光化学反应产物、链间交联产物、错配碱基、二级结构和结合剂。在某些优选的实施方案中，所述模板核酸包含单链部分和双链部分，且在有些情况下，所述双链部分是模板核酸的2个单独部分之间的互补性的结果。在某些实施方案中，所述模板核酸包含含有修饰的第一多核苷酸区域和与所述第一多核苷酸区域互补的第二多核苷酸区域，其中所述第一多核苷酸区域和所述第二多核苷酸区域是在模板核酸的单条链上，例如，在环形单链模板核酸的不同区域中。通常，对模板核酸进行处理以引入其它修饰，且这样的处理可以包括暴露于修饰剂，例如，糖基化酶、亚硫酸氢盐、DMS、胞嘧啶甲基转移酶、羟化酶(例如，TET1蛋白)、限制性酶、葡萄糖基转移酶、NMIA、CDI和胞苷脱氨酶。例如，所述处理可以包括暴露于亚硫酸氢盐，所述亚硫酸氢盐将模板中的5-hmC转化为CMS。所述处理还可以包括：向包含所述修饰的核苷碱基添加糖部分(例如，蔗糖、葡萄糖、麦芽糖、半乳糖、右旋糖、乳糖等)或基团。所述糖部分的添加用于增加酶（例如，聚合酶）的应答，从而导致比在没有糖部分存在下更大的加工变化。例如，所述核苷碱基可以是羟甲基胞嘧啶核苷碱基，其通过糖部分的添加而转化成β-葡萄糖基-5-羟甲基胞嘧啶。糖部分的添加可以经由α或β连接而发生。此外，可以添加多个糖部分。在其它实施方案中，所述处理包括：用其它修饰替换所述修饰，例如，当所述修饰是甲基化的碱基且所述其它修饰是脱碱基位点或芘类似物时。在某些优选的实施方案中，监测模板的加工中的动力学改变或扰乱，其可以指示一种修饰或其它修饰。所述核酸模板可以是RNA或DNA，或者可以包含核糖核苷酸和脱氧核糖核苷酸，且优选地未经过扩增。所述酶优选地是聚合酶，例如，DNA聚合酶和RNA聚合酶、逆转录酶或其衍生物。优选地，所述加工是测序反应(例如，单分子测序反应)，且其中所述模板是封闭的环形模板，所述聚合酶能够进行链置换，所述加工可以包括模板的滚环复制，后者可以产生模板的冗余序列数据。加工中的变化可以发生在所述修饰或其它修饰处，或者可以发生在所述修饰或其它修饰的上游或下游的一个或多个位置处，且可以是动力学变化，诸如脉冲间隔期或脉冲宽度的改变。所述加工中的变化优选地指示在模板中存在的修饰和/或其它修饰的类型。在某些实施方案中，绘制修饰图谱另外包括：分析在即将检测加工中的变化之前、在所述检测期间或在所述检测之后不久所产生的一部分序列读出，以确定与模板核酸互补的序列；测定与所述模板核酸互补的序列的补体；和绘制靠近与所述模板核酸互补的序列的补体处的模板核酸位置上的修饰。在优选的实施方案中，所述监测在所述加工过程中实时进行。在其它方面，所述模板核酸和酶形成复合物，所述复合物被固定化在基质上的反应位点处，且多个这样的复合物可以固定化在基质上的可光学区分的反应位点处。任选地，这些可光学区分的反应位点是在基质中的纳米级孔，其优选地具有光学限制件性能，例如，零模式波导。

还提供了用于绘制与核酸模板结合的或以前与核酸模板结合的结合剂的结合位点图谱的方法。在某些实施方案中，绘制结合位点图谱的方法包括：将单个核酸模板暴露于结合剂，对所述模板进行模板指导的合成反应，和监测所述反应中指示结合位点的变化。所述结合剂可以是结合模板的任意试剂，包括转录因子、聚合酶、逆转录酶、组蛋白、限制性酶、抗体、核酸结合蛋白、核酸结合剂和核酸损伤结合剂。所述单个核酸模板通常是双链的DNA、双链的RNA、单链的DNA、单链的RNA、DNA/RNA杂交体和它们的组合之一。在某些实施方案中，所述方法另外包括：在模板指导的合成之前，使结合剂与单个核酸模板交联，和在有些情况下，所述交联是光可活化的交联。任选地，在模板指导的合成之前，可以从单个核酸模板除去交联的结合剂，例如，通过蛋白酶或其它降解处理。在某些实施方案中，在除去结合剂以后剩余在核酸模板上的交联残余物处或附近，检测合成反应中的变化。在某些实施方案中，进行亲和纯化来分离结合剂与其结合的核酸模板的某些部分，例如，在交联以后。任选地，所述单个核酸模板可以包含硫醇修饰的核苷，例如，4-硫代尿苷、6-硫代鸟苷、2-硫代胞嘧啶或4-硫代胸苷。在某些实施方案中，所述结合剂与修饰剂连接，所述修饰剂将修饰引入单个核酸模板中的结合位点附近，且进一步，其中所述修饰会造成合成中的变化。与结合剂连接的修饰剂可以是将修饰引入核酸中的一种或多种反应物，例如，甲基转移酶、糖基化酶、葡萄糖基转移酶、羟化酶(例如，TET1)和核酸损伤剂。例如，与转录因子连接的Dam腺嘌呤甲基转移酶会在转录因子的结合位点附近的部位将腺苷转化成N6-甲基腺苷。在某些实施方案中，可以同时测定多种不同的结合剂，例如，每种结合剂连接至不同的修饰剂，使得模板中的特定修饰的检测会指示在该修饰附近的结合剂中的特定一种的结合。任选地，在多种不同结合剂的结合位点的核苷酸序列彼此不同的情况下，相同的修饰剂可以连接至不同的结合剂。在这样的一个实施方案中，修饰的存在指示，存在结合事件，且与结合剂的共有结合位点的现有知识相结合的得自该区域的核苷酸序列信息会提示结合哪种结合剂。所述序列数据优选地在监测模板指导的合成反应过程中产生，例如，实时产生。在其它实施方案中，联合使用序列数据以及修饰检测和鉴定，以确定与修饰剂连接的结合剂的结合位点。优选地，所述单个核酸模板是在光学限制件中，例如，零模式波导。

在其它方面，本发明提供了用于绘制单一核酸样品中的修饰图谱的方法，所述方法包括：分割样品，并对样品的不同部分进行不同的处理和/或操作。例如，可以将包含具有在特定基因座处的修饰的多个核酸分子的单一核酸样品分成2个等分试样。对第一等分试样进行不会维持扩增子中的修饰的扩增反应，且不扩增第二等分试样。对两个等分试样一起或者分别进行测序反应，并分析产生的核苷酸序列读出，以确定在其中发生修饰的基因座，也就是说，“绘制”修饰图谱。可以采用任选的操作来富集包含在单一核酸样品中的修饰的核酸。例如，可以使用特异性地结合所述修饰的结合剂，通过形成结合剂/修饰复合物来选择具有所述修饰的分子，所述复合物通过例如固定化得到保留，而未与结合剂结合的核酸(例如，不包含修饰的那些)被除去。随后对选择的核酸进行测序，例如，在从结合剂释放以后，或任选地，仍然与结合剂结合，以增强聚合酶对修饰位点的应答。所述富集操作可以在扩增第一等分试样之前或之后进行。在其它实施方案中，将条形码序列添加至在一种或两种等分试样中的核酸上。对这些条形码与模板一起测序，它们用于鉴定特定模板的来源，例如，它是否来自第一或第二等分试样。例如，可以在第一等分试样的核酸模板中包括第一条形码(例如，在扩增之前或之后)，且可以在第二等分试样的核酸模板中包括第二条形码。混合2个等分试样，并在单一测序反应混合物中测序，产生的序列数据不仅会提供关于任意修饰的位置的信息，而且会提供条形码序列数据来鉴定模板的来源。优选地，对单一可光学区分的模板进行测序反应，以产生每种模板分子的单独的单个序列读出。

在其它方面，本发明提供了用于将反应数据转化成修饰检测数据的机器实现方法，其中反应数据代表了根据模板核酸的核苷酸序列合成新生链的合成测序反应期间的一系列活动，而修饰检测数据代表一个或多个修饰在模板核酸中的存在。优选通过在机器用户介面中实施该机器实现方法的一个或多个步骤，所述机器装有存储在机器可读介质中的指令和执行所述指令的处理器。在本发明的最后方面，提供了计算机程序产品。在某些实施方案中，转化反应数据的机器实现方法包括：区分真正掺入与随机脉冲的分类器，基于隐藏Markov模型体系结构的分割算法，和/或基于条件随机场框架的分割算法，进行分类。在某些特定实施方案中，所述方法可鉴定模板中随机脉冲密度高于真正掺入的区域。在某些特定实施方案中，所述方法可鉴定模板中IPD较高的区域。本发明的示例性计算机程序产品通常包括计算机可用介质，该介质中载有计算机可读的程序代码，所述计算机可读的程序代码适合于被运行以执行本发明的机器实现方法；和机器可读介质，在其上面储存所述机器实现方法的一个或多个步骤的结果。

在某些方面，本发明提供了用于鉴定修饰的方法，所述方法包括：提供包含修饰的模板核酸和酶(例如，聚合酶)，所述酶能够加工所述模板核酸；使所述模板核酸与所述酶接触；监测所述酶对所述模板核酸的加工；和检测所述加工的动力学的变化，其中所述动力学包括同源采样，且其中所述变化指示所述修饰，由此鉴定所述修饰。在某些实施方案中，所述修饰是甲基化的胞嘧啶碱基、甲基化的腺嘌呤碱基或二级结构(例如，发夹环、茎环、内部环、凸起、假结体、碱基三联体、超螺旋、内部杂交等)。在某些实施方案中，所述模板核酸包含含有修饰的第一多核苷酸区域和与所述第一多核苷酸区域互补的第二多核苷酸区域，其中所述第一多核苷酸区域和所述第二多核苷酸区域是在模板核酸的单条链上。任选地，在所述接触之前或同时，可以对所述模板核酸进行处理，以改变所述修饰。在优选的实施方案中，所述加工会导致新生核酸链的合成，且进一步，其中所述监测会检测单个核苷酸向新生核酸链中的掺入，以产生与模板核酸互补的序列读出。例如，可以对单个核苷酸差别地标记以在所述监测过程中可彼此辨别，且优选地，所述单个核苷酸可以包含与磷酸酯基团连接的标记，其中所述磷酸酯基团在加工过程中被除去。所述监测优选地在加工过程中实时进行，使得所述监测在结合和掺入过程中进行。所述监测通常包括：监测掺入的碱基的序列和掺入事件的动力学。可以监测的反应动力学包括、但不限于：脉冲宽度、脉冲高度、脉冲间距离/持续时间、同源或非同源采样的动力学、差错度量、掺入速率、暂停等。进一步，在优选的实施方案中，允许所述酶在所述监测过程中向新生链中持续地和连续地掺入碱基(例如，不包含阻断基团的碱基)。在所述酶是聚合酶的情况下，所述加工通常是新生链合成，且在某些实施方案中，是与模板核酸互补的新生核酸链的滚环合成。在某些实施方案中，所述模板核酸和酶形成被固定化在基质上的反应位点处的复合物，且在有些情况下，多个复合物被固定化在基质上的可光学区分的反应位点处，其中被固定化在反应位点之一处的单个复合物是与被固定化在任意其它反应位点处的任意其它复合物可光学区分的。

附图说明

图1提供了单分子实时(SMRT^TM)核酸测序的示例性说明。

图2提供了在脉冲迹线背景下的不同类型的反应数据的示例性实施例。

图3示意地解释了相对于DNA聚合酶活性部位位于其5′方向1个碱基处的5-MeC的结构模型。

图4解释了5-碱基DNA甲基化测序的示例性实施方案。图4A描述基因组DNA片段化以产生DNA模板。图4B解释DNA糖基化酶从模板切去5-MeC。

图5提供了通过用NMIA(A)和CDI(B)处理来向5-hmC添加大体积加合物的示意图。

图6提供了反应的示例性实施方案，所述反应包含线形模板和能识别单链模板中损伤的损伤结合剂。

图7解释了本发明的一种实施方案，其包含环形模板和能识别双链模板中损伤的损伤结合剂。

图8解释了真正掺入(实线)相对于随机脉冲(虚线)的观察随时间的变化。

图9提供了用于分类测序迹线内的暂停(P)状态与测序状态的简单隐藏Markov模型的示例性实施例。

图10提供了本发明系统的示例性实施例。

图11A提供了本发明的示例性模板核酸的示意图。图11B提供了如图11A描述的模板核酸的脉冲间隔期的绘图。

图12提供了含5-甲基胞嘧啶修饰的模板核酸中IPD比例相对于模板位置所作的图。

图13提供了含5-甲基胞嘧啶修饰的模板核酸中IPD比例相对于模板位置所作的图。

图14A提供了本发明的示例性模板核酸的示意图。图14B提供了图14A描述的模板核酸的脉冲间隔期图。图14C提供了图14B中数据的ROC曲线。

图15提供了含N⁶-甲基腺苷修饰的模板核酸中IPD比例相对于模板位置所作的图。

图16提供了含5-羟甲基胞嘧啶修饰的模板核酸中IPD比例相对于模板位置所作的图。

图17提供了含5-羟甲基胞嘧啶修饰的模板核酸中脉冲宽度比例相对于模板位置所作的图。

图18提供了含8-氧代鸟苷修饰的模板核酸中IPD比例相对于模板位置所作的图。

图19提供了含8-氧代鸟苷修饰的模板核酸中脉冲宽度比例相对于模板位置所作的图。

图20提供了用于产生图21-24所示的数据的模板的核酸序列。

图21提供了包含腺苷核糖核苷的模板脱氧核糖核酸中IPD比例相对于模板位置所作的图。

图22提供了包含胞苷核糖核苷的模板脱氧核糖核酸中IPD比例相对于模板位置所作的图。

图23提供了包含鸟苷核糖核苷的模板脱氧核糖核酸中IPD比例相对于模板位置所作的图。

图24提供了包含尿苷核糖核苷的模板脱氧核糖核酸中IPD比例相对于模板位置所作的图。

图25提供了包含葡萄糖修饰的5-羟甲基胞嘧啶的模板脱氧核糖核酸中IPD比例相对于模板位置所作的图。

图26提供了包含N⁶-甲基腺苷的模板核糖核酸和缺少N⁶-甲基腺苷的模板核糖核酸的块时间（block time）的绘图。

图27提供了在RNA模板中有和没有N⁶-甲基腺苷修饰存在下的IPD的绘图。

具体实施方式

I.概述

本发明总体涉及用于检测核酸序列中修饰的方法、组合物和系统，在特别优选的方面，它们用于通过单分子核酸分析检测模板序列中的甲基化核苷酸。在核酸序列中检测出修饰的能力有助于绘制各种类型修饰和/或多组核酸序列，如跨越一组mRNA转录物、跨越感兴趣染色体区域或跨越全基因组的图谱。所绘制的修饰图谱然后可以与核酸的转录活性、核酸二级结构、siRNA活性、mRNA翻译动态、DNA和RNA结合蛋白的动力学和/或亲和力、及核酸(例如，DNA和/或RNA)代谢的其它方面相关联。

虽然就单链DNA分子(例如，单链模板DNA)中的修饰核苷酸或其它修饰的检测对本发明的某些实施方案进行描述，但本发明的多个方面可应用于许多不同类型的核酸，包括，例如单链和双链核酸，可包括DNA(例如，基因组DNA、线粒体DNA、病毒DNA等)、RNA(例如，mRNA、siRNA、微RNA、rRNA、tRNA、snRNA、核酶等)、RNA-DNA杂交体、PNA、LNA、吗啉代和其它RNA和/或DNA杂交体、它们的类似物、模拟物和衍生物、以及上述的任意组合。与本文提供的方法、组合物和系统一起使用的核酸可以全部由天然核苷酸组成，或可以包含能与天然核苷酸配对或能与相同或不同的非天然碱基/核苷酸配对的非天然碱基/核苷酸(例如，合成的和/或工程改造的)。在某些优选的实施方案中，所述核酸包含单链与双链区域的组合，如2009年3月27日提交的U.S.S.N.12/383,855和12/413,258中所述的模板，它们通过引用整体并入本文用于所有目的。具体地，需要逆转录酶PCR扩增的技术因为所作处理不能在扩增子中保留修饰，因此难以检测mRNA的修饰。本发明提供了不需要进行这种扩增而能分析RNA分子的修饰的方法。更一般地，在某些实施方案中，提供了不需要扩增含有修饰的核酸的方法。在其它实施方案中，提供了用于扩增含有修饰的核酸使得所述修饰在扩增子中得以保留的方法。

一般而言，本发明的方法包括监测分析反应以收集“反应数据”，其中所述反应数据可指示反应的进展。反应数据包括从反应直接收集的数据，以及对该直接收集数据作不同处理所得到的结果，它们的任何一种或组合可作为模板核酸中存在修饰的信号。分析在反应过程中收集的反应数据，以鉴定可指示修饰存在的特征，且通常这样的数据包括与在没有修饰存在下产生的数据相比的改变或扰乱。例如，某些类型的数据是在反应过程中实时收集，例如与反应动力学、亲和力、速率、持续合成能力、信号特征等相关的度量。本文使用的酶(或其它反应组分，或反应整体)的“动力学”、“动力学特性”、“动力学应答”、“活性”和“行为”通常表示，与被研究的酶(或组分或反应)的功能/进展有关的反应数据，且经常在本文中互换使用。信号特征随所监测的分析反应的类型而不同。例如，一些反应采用可检测标记来标记一种或多种反应组分，可检测标记的信号特征包括、但不限于：信号的类型(例如，波长、电荷等)和信号的形状(例如，高度、宽度、曲线等)。另外，也可采用多种信号的信号特征(例如，瞬时靠近的信号)，包括，例如，反应期间信号之间的距离、额外信号(例如，其不与反应进程对应，诸如同源或非同源采样)的数目和/或动力学、内部互补性和局部信号背景(即给定信号之前和/或之后的一种或多种信号)。例如，模板指导的测序反应常常联合多个核苷酸掺入事件的信号数据以产生所合成新生链的序列读出，利用这种序列读出产生模板链序列，例如通过互补性。对实时反应数据作统计学分析，产生其它类型的反应数据，包括，例如，准确度、精确度、一致性等。在某些实施方案中，也可利用所监测反应以外来源的数据。例如，可将核酸测序反应产生的序列读出与重复实验产生的序列读出作比较，或与来自相同或相关生物学来源的已知或衍生的参照序列作比较。可替换地或额外地，可用未修饰的核苷酸扩增一部分模板核酸制品然后测序以提供实验参照序列，与没有扩增的原模板序列作比较。虽然本文详细描述了利用特定类型反应数据检测某种类型修饰的某些具体实施方案，但应理解所述方法、组合物和系统不限于这些具体实施方案。可组合不同类型的反应数据以检测各种修饰，在某些实施方案中，可在对单个模板的单次反应中检测和鉴定一种以上的修饰。基于本文提供的教导，普通技术人员显而易见本发明详述实施方案的这些变化。

在某些实施方案中，产生和分析冗余的序列信息以检测模板核酸中的一种或多种修饰。可用各种方法实现这种冗余度，包括用同一初始模板进行多次测序反应，例如采用阵列形式，如ZMW阵列。在某些实施方案中，不太可能在给定模板的所有拷贝中发生损伤，可组合所述多次反应产生的反应数据(例如，序列读出、动力学、信号特征、信号背景和/或进一步统计学分析的结果)，并进行统计学分析以确定模板的共有序列。以此方式，模板第一拷贝中某区域的反应数据可以用模板第二拷贝中同一区域的反应数据进行补充和/或校正。类似地，可扩增模板(例如，通过滚环扩增)产生含模板的多个拷贝的多联体，并测定该多联体的序列，从而产生内在冗余的测序读出。如此，该多联体第一区段(对应于模板第一区)的序列数据可利用多联体也对应于模板第一区的第二区段的序列数据进行补充和/或校正。可替换地或额外地，对模板进行重复测序反应以产生冗余的序列信息，可以分析该信息以更全面地表征模板中所存在的修饰。

本文所用术语“修饰”意图不仅指核酸的化学修饰，而且指核酸构象或组成的变化、试剂与核酸的相互作用(例如，与核酸结合)和与核酸相关的其它扰乱。因此，修饰的位置或位点是在核酸内发生这种修饰的基因座(例如，单个核苷酸或多个相邻或不相邻的核苷酸)。对于双链模板，这样的修饰可发生在与加工模板的聚合酶所合成的新生链互补的链中，或可发生在被置换链中。虽然本发明的某些具体实施方案就5-甲基胞嘧啶的检测作了描述，但也预见到其它类型的经修饰的核苷酸(例如，N⁶-甲基腺苷、N³-甲基腺苷、N⁷-甲基鸟苷、5-羟甲基胞嘧啶、其它甲基化的核苷酸、假尿苷、硫代尿苷、异鸟苷、异胞嘧啶、二氢尿苷、辫苷、怀俄苷、肌苷、三唑、二氨基嘌呤、β-D-吡喃葡萄糖基氧基甲基尿嘧啶(又名β-D-葡萄糖基-HOMedU、β-葡萄糖基-羟甲基尿嘧啶、“dJ”或“碱基J”)、8-氧代鸟苷以及腺苷、胞苷、鸟苷和尿苷的2’-O-甲基衍生物)的检测。进一步，尽管主要就DNA模板进行了描述，这样的修饰碱基可以是经修饰的RNA碱基，且可以在RNA模板(或主要在RNA模板)中检测出。本领域普通技术人员知晓这些和其它的修饰，它们的进一步描述参见，例如，Narayan P,等人.(1987)Mol Cell Biol 7(4):1572-5;Horowitz S,等人.(1984)Proc Natl Acad Sci U.S.A.81(18):5667-71；“RNA’s Outfits:The nucleic acid has dozens of chemicalcostumes,”(2009)C&EN;87(36):65-68;Kriaucionis,等人.(2009)Science 324(5929):929–30；和Tahiliani,等人.(2009)Science 324(5929):930–35;Matray,等人.(1999)Nature 399(6737):704-8;Ooi,等人.(2008)Cell 133:1145-8;Petersson,等人.(2005)J Am Chem Soc.127(5):1424-30;Johnson,等人.(2004)32(6):1937-41;Kimoto,等人.(2007)Nucleic Acids Res.35(16):5360-9;Ahle,等人.(2005)NucleicAcids Res 33(10):3176;Krueger,等人,Curr Opinions in Chem Biology2007,11(6):588);Krueger,等人.(2009)Chemistry&Biology16(3):242;McCullough,等人.(1999)Annual Rev of Biochem 68:255;Liu,等人.(2003)Science 302(5646):868-71;Limbach,等人.(1994)Nucl.Acids Res.22(12):2183-2196;Wyatt,等人.(1953)Biochem.J.55:774-782;Josse,等人.(1962)J.Biol.Chem.237:1968-1976;Lariviere,等人.(2004)J.Biol.Chem.279:34715-34720；和国际申请公开号WO/2009/037473，它们的公开内容通过引用整体并入本文用于所有目的。修饰还包括在模板核酸中存在非天然的(例如，非标准的、合成的等)碱基对，包括、但不限于：羟基吡啶酮与吡啶并嘌呤的同质或异质碱基对、吡啶-2,6-二甲酸与吡啶金属碱基对、吡啶-2,6-二甲酰胺与吡啶金属碱基对、金属介导的嘧啶碱基对T-Hg(II)-T和C-Ag(I)-C、2,6-双(乙基硫基甲基)吡啶核苷碱基的金属-同质碱基对Spy、6-氨基-5-硝基-3-(1′-β-D-2′-脱氧核糖呋喃糖基)-2(1H)-吡啶酮(dZ)、2-氨基-8-(1′-β-D-2′-脱氧核糖呋喃糖基)-咪唑并[1,2-a]-1,3,5-三嗪-4(8H)-酮(dP)、以及嘌呤或嘧啶碱基的炔基、烯胺基、醇基、咪唑基、胍基和吡啶基置换产物(Wettig,等人.(2003)J Inorg Biochem 94:94-99;Clever,等人.(2005)Angew Chem Int Ed 117:7370-7374;Schlegel,等人.(2009)Org Biomol Chem 7(3):476-82;Zimmerman,等人.(2004)Bioorg Chem32(1):13-25;Yanagida,等人.(2007)Nucleic Acids Symp Ser(Oxf)51:179-80;Zimmerman(2002)J Am Chem Soc 124(46):13684-5;Buncel,等人.(1985)Inorg Biochem 25:61-73;Ono,等人.(2004)Angew Chem 43:4300-4302;Lee,等人.(1993)Biochem Cell Biol71:162-168;Loakes,等人.(2009),Chem Commun 4619-4631;Yang,等人.(2007)Nucleic Acids Res.35(13):4238-4249;Yang,等人.(2006)Nucleic Acids Res.34(21):6095-6101;Geyer,等人.(2003)Structure 11:1485-1498；和Seo,等人.(2009)J Am Chem Soc 131:3246-3252，都通过引用整体并入本文用于所有目的)。其它类型的修饰包括，例如，缺口、丢失碱基(例如，脱嘌呤或脱吡啶位点)、在基于脱氧核糖核苷的核酸内的核糖核苷(或经修饰的核糖核苷)、在基于核糖核苷的核酸内的脱氧核糖核苷(或经修饰的脱氧核糖核苷)、嘧啶二聚体(例如，胸腺嘧啶二聚体或环丁烷嘧啶二聚体)、顺铂交联、氧化损伤、水解损伤、其它甲基化碱基、大量DNA或RNA碱基加合物、光化学反应产物、链间交联产物、错配碱基和其它类型的核酸“损伤”。如此，本文描述的某些实施方案涉及“损伤”，且这种损伤也可视为根据本发明的核酸的修饰。使DNA暴露于辐射(例如，UV)、致癌化学物、交联剂(例如，甲醛)、某些酶(例如，切口酶、糖基化酶、核酸外切酶、甲基化酶、其它核酸酶、葡萄糖基转移酶等)、病毒、毒素和其它化学剂、热破坏剂等等，可导致核苷酸修饰。在体内，DNA损伤是突变的主要原因，可导致各种疾病，包括癌症、心血管疾病和神经系统疾病(参见，例如，Lindahl,T.(1993)Nature 362(6422):709-15，其通过引用整体并入本文用于所有目的)。本文提供的方法和系统也可用于检测DNA的不同构象，具体可检测其二级结构形式，诸如发夹环、茎环、内部环、凸起、假结体、碱基三联体、超螺旋、内部杂交等；也可用于检测与核酸相互作用的试剂，例如，结合的蛋白或其它部分。

在某些方面，提供了用于在单分子测序中检测和/或逆转模板中的修饰、以及确定它们在核酸分子中的位置(即“绘图”)的方法、组合物和系统。在某些优选的实施方案中，采用高通量、实时、单分子、模板指导的测序试验来检测这样的修饰位点的存在和确定它们在DNA模板中的位置，例如通过监测加工模板的聚合酶的推进和/或动力学。例如，当聚合酶遇到DNA模板中的某些类型的损伤或其它修饰时，聚合酶的推进可能被暂时或永久阻断，如导致聚合酶停止推进或解离。如此，检测到新生链合成的暂停或终止，即表明存在这种损坏或损伤。类似地，某些类型的修饰会造成聚合酶活性的其它扰乱，诸如新生链合成动力学的变化，例如，脉冲宽度或脉冲间隔期的变化。进一步，有些修饰会造成酶活性的变化，所述变化可检测为酶在模板指导的聚合过程中的差错度量的变化。通过分析在聚合酶活性的改变或扰乱之前（和可替换地或额外地，在合成重新开始以后）产生的序列读出，可绘出在模板上的损坏或损伤的位点。因为不同类型的损伤对聚合酶在底物上的推进有不同的影响，在某些情况下，聚合酶在模板上的行为不仅告知何处有损伤，而且告知存在何种类型损伤。此外，在某些实施方案中，通过掺入具有模板链损伤的非核苷酸结合配偶体，可以绕过修饰位点。例如，脱碱基位点(例如，用糖基化酶产生的)可与芘或其它相似的类似物“配对”(参见，例如，Matray,等人.(1999)Nature 399(6737):704-8，其通过引用整体并入本文用于所有目的)。也可用能与反应混合物中的核苷酸上的标记光学区分的可检测标记来标记这种类似物，以便光检测其掺入。本发明的某些方面提供了实时逆转这类修饰的方法，从而能再启动测序反应和继续产生模板核酸的序列信息。这种方法还可用于研究各种试剂(例如，药物、化学剂、酶等)和反应条件对产生、结合和/或修复这类损坏和/或损伤的影响，如本文别处所述。在以下描述和实施例中更加详细地说明了本发明的这些方面和其它方面。

II.单分子测序

在本发明的某些方面，采用单分子实时测序系统，通过分析这类系统产生的序列和/或动力学数据来检测核酸模板的修饰。具体地，模板核酸链的修饰可以各种方式改变核酸聚合酶的酶活性，例如延长了使结合的核苷碱基掺入的时间和/或延长掺入事件间的间隔时间。在某些实施方案中，用单分子核酸测序技术检测聚合酶的活性。在某些实施方案中，利用核酸测序技术实时检测新生链中核苷酸的掺入，来检测聚合酶活性。在优选的实施方案中，单分子核酸测序技术能实时检测核苷酸的掺入。本领域已知这些测序技术，包括，例如SMRT^TM测序和纳米孔测序技术。关于纳米孔测序的更多信息参见，例如美国专利号5,795,782;Kasianowicz,等人.(1996)Proc Natl Acad Sci USA 93(24):13770-3;Ashkenas,等人.(2005)Angew Chem Int Ed Engl 44(9):1401-4;Howorka,等人.(2001)Nat Biotechnology 19(7):636-9；和Astier,等人.(2006)J Am Chem Soc 128(5):1705-10，它们都通过引用整体并入本文用于所有目的。关于核酸测序，术语“模板”表示进行模板指导的新生链合成的核酸分子。模板可包括例如，DNA、RNA或类似物、模拟物、衍生物或它们的组合，如本文别处所述。此外，模板可以是单链、双链，或可包含单链和双链区域。双链模板中的修饰可以位于与新合成的新生链互补的链中，或可以位于与新合成链相同的链（即被聚合酶置换的链）中。

本文所述的优选直接甲基化测序技术通常可采用单分子实时测序系统来实施，即其连续地随时间显示和观察各反应复合物，例如为SMRT^TMDNA测序开发的那些(参见，例如，P.M.Lundquist,等人,Optics Letters 2008,33,1026，其通过引用整体并入本文用于所有目的)。前述SMRT^TM测序仪器通常同时检测由数千种ZMW所组成阵列发出的荧光信号，产生高度平行的操作。各ZMW与其它ZMW相隔几微米的距离，各代表一个独立的测序室。

单个分子或分子复合物的实时检测，例如在分析反应过程中，通常涉及直接或间接处理分析反应物使每种待检测的分子或分子复合物单独可辨。以此方式，可分别监测各分析反应物，即使单个基质上固定有多种这类反应。可通过一些机制实现各分析反应物的单独可辨设置，通常包括将反应的至少一种反应组分固定在反应位点上。本领域已知提供单独可辨设置的各种方法，例如，可参见Balasubramanian等人的欧洲专利号1105529和已公开的国际专利申请号WO 2007/041394，它们的整个公开内容通过引用整体并入本文用于所有目的。基质上的反应位点一般是基质上进行和监测单个分析反应的位置，监测优选是实时监测。反应位点可以在基质的平坦表面上，或可在基质表达的凹孔内，如孔、纳米孔或其它孔内。在优选的实施方案中，这种孔是“纳米孔”，这种纳米级洞或孔能提供将感兴趣分析材料结构性限制在纳米级的直径内，例如约1-300nm。在某些实施方案中，这种孔具有光学限制件特征，如零模式波导特征(也是纳米级孔)，其在本文中另有进一步描述。通常这种孔的观察容积(即在其中进行反应检测的体积)为阿升(10^-18L)至仄升(10^-21L)规模，此容积适合单分子和单分子复合物的检测和分析。

分析反应组分的固定可设计为各种方式。例如，可使酶(例如，聚合酶，逆转录酶、激酶等)结合在基质的反应位点，如光学限制件或其它纳米孔内。在其它实施方案中，可使分析反应中的底物(例如，模板核酸，如DNA、RNA或它们的杂交体、类似物、衍生物和模拟物，或激酶的靶分子)结合在基质的反应位点。例如，2009年9月18日提交的美国专利申请号12/562,690中提供了模板固定的某些实施方案，其通过引用整体并入本文用于所有目的。本领域技术人员知晓有许多方法可以共价或非共价地、通过接头部分或连接于固定部分将核酸和蛋白质固定在光学限制件中。这些方法是固相合成和微阵列领域熟知的(Beier等人,Nucleic Acids Res.27:1970-1-977(1999))。用于使核酸或聚合酶附着于固体支持物的非限制性的示例性结合部分包括：抗生蛋白链菌素或抗生物素蛋白/生物素连接、氨基甲酸酯连接、酯键、酰胺键、硫羟酸酯键、(N)--官能化的硫脲键、官能化的马来酰亚胺键、氨基、二硫键、酰胺键、腙键等。也可采用能特异性结合一种或多种反应组分的抗体作为结合部分。此外，可用本领域已知方法，通过甲硅烷基使核酸直接附着于基质如玻璃。

在某些实施方案中，通过将包含互补区、能与模板杂交的引物的引物附着在反应位点，可将模板核酸固定在反应位点上(例如，光学限制件中)，使其位于适合监测的位置。在某些实施方案中，例如通过先固定酶，将酶复合物组装在光学限制件中。在其它实施方案中，先配制酶复合物溶液再固定。需要时，可修饰待固定的酶或其它蛋白反应组分使之含市售抗体特异性识别的一个或多个表位。此外，可修饰蛋白质使之含异源结构域，例如谷胱苷肽S-转移酶(GST)、麦芽糖-结合蛋白(MBP)、特异性结合肽区域(参见如美国专利号5,723,584、5,874,239和5,932,433)或免疫球蛋白的Fc部分。可购得这些结构域的各自结合剂（即谷胱苷肽、麦芽糖、和抗免疫球蛋白Fc部分的抗体），并可用于包被本发明光学限制件的表面。所述结合部分或其固定的反应组分的试剂可采用本领域熟知常规化学技术施用于支持物。一般而言，这些方法涉及支持物表面的标准化学修饰，以不同温度在含有结合部分或试剂的不同介质中培育支持物，可能的后续步骤为洗涤和清洁。

在某些实施方案中，基质包含用于监测多种生物学反应的反应位点阵列，每种反应在单个反应位点进行。本领域普通技术人员已知在阵列基质上加载多种生物学反应的各种方法，方法的进一步描述可参见如USSN 61/072,641，其通过引用整体并入本文用于所有目的。例如，基本方法包括：在反应位点处产生某反应组分的单个结合位点；通过催化或后继结合方法去除该反应位点处多余的结合位点；调整待固定反应组分的尺寸或电荷；将该反应组分包裹在粒子内(例如，病毒衣壳内)或与之结合，相应的反应位点可容纳一个粒子(由于粒子的尺寸或电荷和/或观察容积)；采用非扩散受限式加载法可控地加载反应组分(例如用微流体计或光或电控制)；反应位点/观察容积内的尺寸筛分和电荷选择(例如，阵列中光学限制件的尺寸)以控制哪一反应组分可容纳入(从空间或静电上)哪个反应位点/观察容积中；迭代加载反应组分，例如通过在循环加载之间遮蔽活性部位；富集已加载反应组分的活性；利用自装配核酸进行空间控制加载；调整反应位点/观察容积的尺寸等等。提供的这类方法和组合物可用各单独反应组分(例如，分子复合物)完全加载单分子阵列的反应位点(而非“泊松限制”加载法产生的约30％位点加载)。

在优选方面，本文提供的方法、组合物和系统采用光学限制件以促进分析反应的单分子分辨。在优选的实施方案中，所述光学限制件设置为提供密闭的光学限制件，反应混合物只有很小体积可供观察。这样的一些光学限制件和其制作方法及应用的详述参见，例如美国专利号7,302,146、7,476,503、7,313,308、7,315,019、7,170,050、6,917,726、7,013,054、7,181,122和7,292,742；美国专利公开号20080128627、20080152281和200801552280；和U.S.S.N.11/981,740和12/560,308，它们都通过引用整体并入本文用于所有目的。

当反应位点位于光学限制件中时，可以不同方式为感兴趣的分析反应进一步定制光学限制件。具体地，可将光学限制件设计为容纳某给定酶复合物和所用具体标记及光照方案专用的尺寸、形状和组成。

在本发明的某些优选实施方案中，已开发的单分子实时测序系统通过分析该系统产生的序列和动力学数据，用于检测核酸模板的修饰。如下文所述，模板核酸中的甲基化胞嘧啶和其它修饰将改变聚合酶加工该模板核酸时的酶活性。在某些实施方案中，采用单分子核酸测序技术，例如Pacific Bioscience公司开发的SMRT^TM测序技术(Eid,J.等人.(2009)Science 2009,323,133，其公开内容通过引用整体并入本文用于所有目的)，检测除序列读出数据以外的聚合酶动力学数据。此技术能提供长序列读出和提供高通量甲基化分析，即使是基因组中的高度重复区，促进修饰序列，如甲基化碱基的从头测序。SMRT^TM测序系统通常采用最先进的单分子检测仪，纳米加工芯片制造生产线，有机化学试剂，蛋白质诱变、选择和生产设施，以及软件和数据分析架构。

本发明的某些优选方法采用单个DNA分子实时测序技术(Eid,等人,出处同上)，其固有测序速度为每秒几个碱基，平均读出长度在千碱基范围。在这样测序中，用荧光地标记的核苷酸检测被DNA聚合酶催化的碱基向延伸中的互补核酸链中的添加。碱基添加和聚合酶移位的动力学对DNA双螺旋结构敏感，该结构受碱基修饰在模板中存在的影响，所述碱基修饰例如5-MeC、5-hmC、碱基J等和其它扰乱(二级结构、试剂结合等)。通过监测测序期间DNA聚合酶的活性，可同时检测序列读出信息和碱基修饰。用SMRT^TM测序技术不难实现长连续序列读出，从而促进低复杂度区域中的修饰(例如，甲基化)分析，这在一些技术如某些短读出测序技术中是无法做到的。高度并行的运行方式使甲基化组的直接测序能以单碱基对分辨率和高通量进行。

图1说明了SMRT^TM测序的原理。此法某些实施方案的二项重要技术组成是：(i)允许采用与所用酶相关的标记核苷酸浓度进行单分子检测的光学限制件技术，和(ii)能观察不间断聚合的磷酸连接核苷酸。

在优选的实施方案中，光学限制件是ZMW纳米结构，优选阵列形式。ZMW阵列通常为密集孔阵列，孔的直径约100nm，制作在透明基质(例如，二氧化硅)上约100nm厚的金属膜中。本领域对这种结构的有进一步描述，参见，例如M.J.Levene,等人,Science 2003,299,682；和M.Foquet,等人,J.Appl.Phys.2008,103,034301，它们的公开内容通过引用整体并入本文用于所有目的。每个ZMW结构成为纳米光子可显现的腔室，用以记录各聚合反应，提供的检测容积仅100仄升(10^-21升)。此容积代表比衍射限光共聚焦显微镜改善了约1000倍，有利于在较高浓度荧光地标记的核苷酸产生的背景下观察单个核苷酸的掺入。焦磷酸和甲硅烷表面涂层可介导酶固定于ZMW的透明底板同时阻断酶与金属顶和侧壁表面的非特异附着(Eid,等人,出处同上；和J.Korlach,等人,Proc Natl Acad Sci U S A 2008,105,1176，它们的公开内容通过引用整体并入本文用于所有目的)。虽然本文所述的某些方法涉及ZMW限制的使用，但本领域普通技术人员阅读本文的教导后不难理解，这些方法也可采用其它反应形式实现，如在平面基质上或在非零模式波导的纳米级孔中(参见，例如，2009年9月15日提交的U.S.S.N.12/560,308和美国专利公开号20080128627，在上面并入本文)。

第二种重要组分是磷酸连接的核苷酸，其可检测标记(例如，含荧光染料)连接至末端磷酸而非碱基(图1)(参见，例如，J.Korlach,等人,Nucleos.Nucleot.Nucleic Acids 2008,27,1072，其通过引用整体并入本文用于所有目的)。未修饰的核苷酸被磷酸连接的核苷酸100％置换，且作为掺入过程的一部分，酶切去标记物，留下完整的天然双链核酸产物。四种不同核苷碱基的每一种标记有不同的可检测标记，用以区别掺入事件中的碱基身份，从而能确定互补DNA模板的序列。在掺入过程中，酶使标记的核苷酸在ZMW检测孔中停留几十毫秒，此数量级长于存在的核苷酸扩散平均值。在掺入的持续时间中，可检测标记持续发射信号(例如，荧光)，导致相应颜色通道中可检测的荧光脉冲增强。释放焦磷酸接头标记基团的聚合酶会自然地终止脉冲。优选地，在掺入过程中的接头和标记的除去是完全的，使得掺入的核苷酸没有剩下接头或标记的残余物。聚合酶然后移位至下一个碱基，并重复此过程。

如图1A所示，与DNA模板结合的单个DNA聚合酶分子附着于基质，例如，在每个零模式波导底处。通过检测荧光地标记的核苷酸，可实时观察互补DNA链的聚合。在SMRT^TM测序中涉及的反应步骤如下：步骤1：DNA模板/引物/聚合酶复合物被探测活性部位的扩散的荧光地标记的核苷酸围绕；步骤2：标记的核苷酸与DNA模板中的下一个碱基发生同源结合相互作用，其持续几十毫秒，这期间持续发射荧光。步骤3：聚合酶将核苷酸掺入延伸的核酸链中，从而切断α-β磷酸二酯键，随后释放该核苷酸。步骤4-5：重复此过程。图1B显示的预计迹线包括图1A所示的每个步骤。在步骤2和4中，在核苷酸结合和掺入延伸的核酸链中时，发射出荧光信号，这些荧光信号的监测可提供核苷酸掺入的序列，后者可用于推导模板核酸的序列。例如，延伸链中的5’-G-A-3’序列表示在互补模板链中的5’-T-C-3’序列。

如上所述，反应数据指示反应的进程，可作为模板核酸中存在修饰的信号。采用荧光标记碱基单分子测序反应的反应数据通常围绕特征性检测荧光脉冲，一系列连续脉冲(“脉冲迹线”或其一部分或多部分)，以及对脉冲和迹线数据的其它下游统计学分析。对荧光脉冲的鉴定不单通过它们的光谱，还通过其它度量，包括它们的持续时间、形状、强度和连续脉冲之间的间隔时间(参见，例如，Eid,等人,出处同上；和美国专利公开号20090024331，其通过引用整体并入本文用于所有目的)。虽然确定序列通常不需要所有这些度量，但它们增加了关于模板加工的有价值信息，如核苷酸掺入的动力学和DNA聚合酶持续合成能力及反应的其它方面内容。另外，测得脉冲的情境(即某脉冲之前和/或之后的一个或多个脉冲)可有助于鉴定该脉冲。例如，某些修饰的存在不仅会改变模板修饰处的加工过程，而且会改变修饰处上游和/或下游的模板加工过程。例如，已经证实，修饰碱基在模板核酸中的存在会改变在修饰碱基处或在临近该处的一个或多个位置的脉冲宽度和/或脉冲间隔期(IPD)。脉冲宽度的改变可伴有或不伴有IPD改变。另外，掺入新生链中的核苷酸或核苷酸类似物的类型还可以影响聚合酶对修饰的敏感性和应答。例如，与在有天然核苷酸或不同的核苷酸类似物存在下相比，某些核苷酸类似物会增加所述酶的敏感性和/或应答，从而促进修饰的检测。具体地，已经证实，包含不同类型的接头和/或荧光染料的核苷酸类似物对聚合酶活性具有不同的影响，且可以影响碱基向修饰相对的新生链中的掺入，和/或可以影响在修饰附近(例如，上游或下游)的多核苷酸区域的掺入动力学。在某些实施方案中，在修饰附近的区域对应于与新生链的一部分互补的模板区域，所述部分在聚合酶的足迹与修饰位置重叠时合成。聚合酶敏感性和应答的这些基于类似物的差异可以用于冗余测序策略中，以进一步增强修饰的检测。例如，在反复的测序反应的重复之间交换核苷酸类似物，会引起在所述重复之间的聚合酶活性的改变。与每类核苷酸类似物如何影响聚合酶活性的知识相结合的、对得自每个重复的测序读出中的差异的统计分析，可以促进在反应中存在的修饰的鉴定。图2提供了在脉冲迹线背景下的不同类型反应的数据的示例性实施例，包括IPD、脉冲宽度(PW)、脉冲高度(PH)和背景。图2A显示的脉冲迹线反应数据得自未修饰的模板，图2B说明修饰(5-MeC)的存在如何引起这些反应数据之一(IPD)的改变从而产生指示修饰存在的信号(IPD增加)。

在其它实施方案中，通过分析脉冲和迹线数据产生反应数据，以确定该反应的差错度量。这种差错度量不仅包括原始差错率，而且包括更具体的差错度量，例如，识别与掺入事件不相应的脉冲(例如，由于“采样”)、不伴有可检测脉冲的掺入、不正确的掺入事件等。这些差错度量的任一种或它们的组合可作为指示模板核酸中存在一个或多个修饰的信号。在某些实施方案中，这种分析包括：与参照序列比较和/或与得自相同或同一模板的复制序列信息比较，例如采用标准的或改进的多重序列比对法。某些类型的修饰会导致一种或多种差错度量增加。例如，某些修饰可与超过一种输入核苷酸或其类似物“配对”，致使包含修饰的区域的重复序列读出将显示在该修饰的相对位置的可变碱基掺入。这种可变掺入由此指示修饰的存在。某些类型的修饰会造成临近该修饰处（例如紧接其上游或下游）的一种或多种差错度量的增加。在基因座处或模板区内的差错度量通常指示在该基因座处或在模板区内存在的修饰的类型，并因此可作为这类修饰的信号。在优选的实施方案中，至少一些反应数据是在反应期间实时采集得到，例如，脉冲和/或迹线特征。

虽然本文主要针对荧光地标记的核苷酸进行了描述，但其它类型的可检测标记和标记系统也可以与本文描述的方法、组合物和系统一起使用，包括，例如量子点、表面增强的拉曼散射粒子、散射金属纳米粒子、FRET系统、固有荧光、非荧光生色团等。这类标记是本领域公知的，并在以下文献中有进一步描述：2009年6月12日提交的临时美国专利申请号61/186,661；美国专利号6,399,335、5,866,366、7,476,503和4,981,977；美国专利公开号2003/0124576；U.S.S.N.61/164567；WO01/16375；Mujumdar,等人Bioconjugate Chem.4(2):105-111,1993;Ernst,等人,Cytometry 10:3-10,1989;Mujumdar,等人,Cytometry10:1119,1989;Southwick,等人,Cytometry 11:418-430,1990;Hung,等人,Anal.Biochem.243(1):15-27,1996;Nucleic Acids Res.20(11):2803-2812,1992；和Mujumdar,等人,Bioconjugate Chem.7:356-362,1996;Intrinsic Fluorescence of Proteins,第6卷，出版社：Springer US,

2001;Kronman,M.J.和Holmes,L.G.(2008)Photochem and Photobio 14(2):113-134;Yanushevich,Y.G.,等人.(2003)Russian J.Bioorganic Chem 29(4)325-329；和Ray,K.,等人.(2008)J.Phys.Chem.C 112(46):17957-17963，它们都通过引用整体并入本文用于所有目的。许多这类标记基团为商购可得的，例如从GE Healthcare下属的Amersham Biosciences，和Molecular Probes/Invitrogen Inc.(Carlsbad,CA)，并描述在“The Handbook—A Guide to FluorescentProbes and Labeling Technologies”第10版(2005)(可从Invitrogen,Inc./Molecular Probes获得，其整体并入本文用于所有目的)中。此外，可联用本文所述和本领域已知的标记反应组分的标记策略。

本文提供了用于检测核酸中所含修饰（例如，在实时新生链合成过程中）的各种策略、方法、组合物和系统。例如，因为DNA聚合酶通常能绕过模板核酸中的5-MeC，并将鸟嘌呤适当掺入到互补链的5-MeC对应处，因此需要其它方法检测模板中的这种核苷酸改变。本文提供各种此类方法，例如，a)修饰聚合酶引入与所述修饰核苷酸特异性相互作用；b)检测酶动力学的改变，如暂停、保留时间等；c)采用可掺入新生链中与所述修饰特异性配对的可检测和任选的经修饰的核苷酸类似物；d)测序前化学处理模板以特异性改变模板中的5-MeC位点；e)利用能特异性结合模板核酸中所述修饰的蛋白质，例如延缓或阻断复制期间聚合酶的推进；和f)利用测序结果(例如，CpG岛内的高频率5-MeC核苷酸)将修饰检测集中于更可能含这类修饰的区域(例如，检测5-MeC时集中于富含GC的区域)。可单用或联用这些方法在新生链合成期间检测模板核酸中的5-MeC位点。

III.聚合酶修饰

在模板指导的测序反应中可采用各种不同的聚合酶，如在美国专利号7,476,503中详述的那些，其公开内容通过引用整体并入本文用于所有目的。简言之，适合本发明的聚合酶可以是能以合理的合成保真度催化模板指导的聚合的任何核酸聚合酶。该聚合酶可以是DNA聚合酶或RNA聚合酶(包括，例如逆转录酶)、DNA依赖性的或RNA依赖性的聚合酶、热稳定的聚合酶或可热降解的聚合酶、以及野生型或修饰的聚合酶。在某些实施方案中，所述聚合酶显示能以比野生型酶增强的效率掺入非常规或修饰的核苷酸，如连接荧光团的核苷酸。在某些优选实施方案中，采用具有高度持续合成能力（即能通过维持核酸/酶复合物稳定而合成长核酸链(例如，超过约10千碱基)）的聚合酶实施所述方法。在某些优选实施方案中，采用能滚环复制的聚合酶进行测序。优选的滚环聚合酶显示链置换活性，因此，通过置换移位聚合酶前方的新生链可反复测定单个环形模板的序列，以产生包含模板链补体的多个拷贝的序列读出。因为本发明方法能通过去除阻碍连续聚合的损伤而提高聚合酶的持续合成能力，这些方法特别有助于需要长新生链的应用，例如在滚环复制的情况中。适合本发明的滚环聚合酶的非限制性例子包括、但不限于：T5 DNA聚合酶、T4 DNA聚合酶全酶、噬菌体M2 DNA聚合酶、噬菌体PRD1 DNA聚合酶、DNA聚合酶的克列诺片段、和经修饰或未经修饰的且选自或衍生自下述酶的某些聚合酶：噬菌体Φ29(Phi29)、PRD1、Cp-1、Cp-5、Cp-7、Φ15、Φ1、Φ21、Φ25、BS 32 L17、PZE、PZA、Nf、M2Y(或M2)、PR4、PR5、PR722、B103、SF5、GA-1和和短尾病毒科的有关成员。在某些优选实施方案中，所述聚合酶是修饰的Phi29 DNA聚合酶，例如，如在美国专利公开号20080108082中所述，其通过引用整体并入本文用于所有目的。例如，在下述文献中提供了其它聚合酶：2006年12月21日提交的U.S.S.N.11/645,125；2006年12月21日提交的U.S.S.N.11/645,135；2009年3月30日提交的U.S.S.N.12/384,112，和2008年9月5日提交的U.S.S.N.61/094,843；以及美国专利公开号20070196846，它们的公开内容通过引用整体并入本文用于所有目的。

通过筛选聚合酶库和/或工程改造聚合酶来改进酶的动力学可实现聚合酶的进一步优化，包括，例如DNA聚合酶、RNA聚合酶、逆转录酶等。具体地，可筛选DNA聚合酶以鉴定具有检测本文所述核酸修饰所需性能的聚合酶。此外，可通过参与模板指导新生链合成不同方面的一个或多个残基的直接突变工程改造聚合酶。例如，仔细检查某些聚合酶形成的聚合酶-DNA核苷酸复合物的晶体结构，显示聚合酶将模板DNA单链区相邻5’取向的活性部位的碱基(即“-1”位碱基)旋转翻出。在后续DNA移位过程中此碱基翻入所述活性部位。如此，可改变或置换在-1位或在后续移位过程与修饰碱基相互作用的氨基酸以提高酶对修饰碱基的灵敏度。事实上，任何与模板修饰处密切接触的蛋白质残基都是进行取代或改变的候选残基。例如，家族B聚合酶大多数含复制性聚合酶，包括主要的真核DNA聚合酶α、δ、ε，也包括DNA聚合酶ζ，家族B还包括某些细菌和噬菌体，如T4、Phi29和RB69噬菌体编码的DNA聚合酶。家族B聚合酶的大多数都有结合DNA的共同特征结构，沿DNA引物-模板接合处的残基及围绕-1位(插入前位点)碱基结合口袋处的残基可被突变，从所得到的突变株中筛选对感兴趣修饰的反应增强的突变。具体地，当被“翻”(-1)位是5-MeC时，它被Φ29聚合酶中的位置靠近甲基的几个氨基酸残基，如K392和K422所围绕(图3)。用大侧链氨基酸(例如，精氨酸、色氨酸或甲硫氨酸)取代天然赖氨酸残基的突变，如K392R/W/M和K422R/W/M可增强聚合酶对修饰碱基的灵敏度，潜在地延迟移位步骤并减慢互补dGTP的掺入。这可参见图3的示意图，该图显示5-MeC位于Φ29 DNA聚合酶活性部位5’方向一个碱基处的结构模型。如图3所示，二个聚合酶残基K392和K422靠近5-MeC的甲基。这二个残基是定点诱变成能与所述甲基空间相互作用的大侧链氨基酸的潜在目标。5-MeC显示为右侧中心的化学结构，而K392和K422残基在中心左侧。

能与修饰碱基密切接触的任何残基都是突变的候选残基。例如，利用分子变形和能量最小化来模拟5-MeC的移位途径，已经鉴定出Φ29聚合酶中的许多蛋白质残基是在甲基部分的

内，因为它在移位步骤中被翻入活性部位中。以下残基(按移位途径的顺序列出)是突变成具有大侧链的残基的靶标：I93、M188、K392、V399、T421、K422;S95、Y101、M102;Q99、L123、K124、T189、A190;G191、S388;P127、L384、N387、S388；和L389、Y390、G391。具体地，I93Y和V399Y可引入5-甲基胞嘧啶特异性的结合区，与SRA/5-甲基胞嘧啶结合复合物的晶体结构所显示的类似。例如，参见G.V.Avvakumov,等人,Nature2008,455,822；和H.Hashimoto,等人,Nature 2008,455,826，它们二者的公开内容通过引用整体并入本文用于所有目的。虽然以上鉴定的残基对Φ29聚合酶是特异性的，但普通技术人员不难认识到家族B聚合酶之间的结构相似性，以及家族A聚合酶和其它聚合酶与其较低的相似性，使得能根据本文的教导识别相关聚合酶的相应位置作为突变目标。

除以上所述外，可利用这些聚合酶通过分子进化程序产生其它改进，以提高它们的感知5-MeC和其它修饰的能力。已利用这种程序成功地为各种应用改进了大量不同的酶，包括改进测序用的DNA聚合酶。这类方法可以包括，通过致突变的PCR和DNA改组、和/或酵母菌对表达和选择的展示，产生氨基酸序列间隔的多样化，参见，例如，S.A.Gai,等人,Curr Opin Struct Biol 2007,17,467；和D.Lipovsek,等人,Chem Biol 2007,14,1176,它们通过引用整体并入本文用于所有目的，在所述酵母菌展示中，在含蛋白质转基因的单个酵母菌细胞表面上展示约10⁴个拷贝的重组蛋白质。酵母菌细胞可提供基因型-表型连接，但无需蛋白质纯化，因为展示的蛋白质具有与聚合酶主体溶液相同的性质。由于内部已有基本架构，一旦出现候选的聚合酶，无需启动费用即可启动此程序。

IV.二级结构检测

在上述单分子测序期间，原本高度持续的迹线有时被测序的长暂停或完全停止或者反应动力学的其它改变打断。这样的动力学变化可由模板链中的二级结构（例如，发夹环、超螺旋、内部杂交等）引起。在某些方面，本发明提供了不仅能鉴定模板核酸中的二级结构、而且能改善单分子测序的总体准确度的方法。

在某些实施方案中，通过对模板核酸进行实时的、模板指导的测序反应，产生测序读出或“迹线”。如下检查迹线以鉴定出长暂停：发现脉冲间隔期(IPD)显著长于平均IPD的迹线部分，例如，发现时间比平均IPD长至少2、3、5、10或20倍的暂停。在某些实施方案中，采用几个相邻碱基的平均IPD，在其它实施方案中，采用约20、30、50、70或100个碱基窗口的平均IPD，在其它实施方案中，采用模板的所有或基本上所有碱基的平均IPD。应该理解，本文使用的“暂停”包括这样的情况：其中反应不重开始，例如，其中反应被有效地终止。例如，聚合酶可能脱离，或可能不能够移动经过修饰，且测序中的产生的中断的检测会指示修饰在模板核酸中的存在。

分析暂停前后在暂停中心和侧接暂停位点区域约20、30、50、70、或100个碱基窗口所产生的序列读出，鉴定彼此互补的序列。根据该互补序列，它们的间距和影响二级结构形成的其它已知因素(例如，GC含量、pH、盐浓度等)，确定模板在该位置形成发夹环的可能性。如果这种可能性高，重新检查侧接暂停位点的序列读出，以鉴定在一段互补碱基判定(basecall)内的不匹配发夹互补性的碱基判定，例如，非互补的碱基判定或丢失的碱基判定。这类非互补的或丢失的碱基判定比不打断暂停位点上下游区域之间互补性的区域内的碱基判定出现差错的概率更高。因此，重新评价这些位置的碱基判定以确定最初的碱基判定是否错误。另外，在未来几轮模板指导的模板测序中，可利用给定模板形成干扰聚合酶持续合成能力的二级结构的倾向，以更好判定干扰性二级结构临近处的碱基位置，从而改进未来几轮碱基判定的准确度。

另外，由于暂停的持续时间可能与模板内形成的二级结构的强度有关，可利用该持续时间作为量度确定模板分子中的二级结构的类型、尺寸、组成和可能性。此外，可指示模板中的二级结构的动力学变化的其它非限制性例子包括：速率、保真度、持续合成能力和在掺入事件之前的非同源结合的量的变化。此外，就其中对单个模板反复进行模板指导合成的应用而言，互相比较所产生的重复序列读出，以确定模板的某个给定部分是否一贯地引起在合成反应中的暂停，这会提供由于序列背景（例如，模板中自发形成的二级结构）而暂停的进一步证据。

V.修饰的和非天然的核苷酸类似物及碱基配对

在某些方面，提供了利用修饰的和/或非天然的(例如，非标准的或非同源的)核苷酸类似物和/或碱基配对的方法、组合物和系统。例如，可通过聚合酶将某些非天然核苷酸类似物掺入到新生链中相对修饰（例如丢失或损伤碱基）处。在某些实施方案中，这类非天然核苷酸类似物被可检测地标记，使它们的掺入能与天然的或同源的核苷酸或核苷酸类似物的掺入区分，例如在模板指导的新生链合成期间。此方法允许实时测序产生的读出不仅能提供模板中天然碱基的序列信息，而且能不需要对标准方法作进一步改进而提供带修饰碱基的信息(Eid,等人,出处同上)。此法促进了在不对各DNA模板进行重复测序时的修饰分析，特别适合从头测序应用。在某些实施方案中，不将修饰的或非天然核苷酸类似物掺入新生链，聚合酶可利用标记或未标记的天然核苷酸或核苷酸类似物绕过修饰处。由于这种修饰的或非天然的类似物对修饰的亲和力比对天然类似物更高，在掺入天然类似物之前它会多次结合于聚合酶复合物(被聚合酶重复地“采样”)，从而产生单个掺入事件的多个信号，并从而增加准确检测修饰的可能性。对用于未修饰模板核酸测序的类似方法的更具体描述，参见2009年6月12日提交的U.S.S.N.61/186,661、2009年2月12日提交的U.S.S.N.12/370,472、2011年2月22日提交的U.S.S.N.13/032,478,和2010年4月26日提交的U.S.S.N.12/767,673，它们都通过引用整体并入本文用于所有目的。

由于5-MeC保留了与鸟嘌呤的Watson-Crick氢键，可利用经修饰的鸟嘌呤核苷酸类似物检测模板链中的5-MeC。例如，鸟嘌呤核苷酸类似物可构建为跨越大沟并能感知其中的带修饰胞嘧啶。在具体实施方案中，稠合的芳族环连接于鸟嘌呤核苷酸类似物的N7原子。这种修饰的鸟嘌呤核苷酸类似物与未修饰的鸟嘌呤核苷酸类似物相比，能“感知”5-MeC的甲基和影响碱基配对。对这种鸟嘌呤核苷酸类似物另有进一步描述，例如国际申请公开号WO/2006/005064和美国专利号7,399,614。可对适合SMRT^TM测序应用的核苷酸类似物作类似的修饰，例如含末端磷酸标记的那些核苷酸类似物，例如美国专利号7,056,661和7,405,281；美国专利公开号20070196846和20090246791及U.S.S.N.12/403,090中的描述，它们都通过引用整体并入本文用于所有目的。在某些实施方案中，采用上述带有可检测标记的修饰的鸟嘌呤核苷酸类似物进行5-MeC的检测，该可检测标记可区别于其它反应组分如掺入的其它核苷酸类似物上的可检测标记。这种方法允许通过观察信号而非改变聚合酶动力学或者作为改变动力学的补充来检测5-MeC，有利于甲基化分析，即使所述模板缺少冗余或重复测序。

某些实施方案利用与天然核苷碱基对正交的其它非天然碱基对。例如，聚合酶可将异鸟嘌呤(isoG)掺入到与异胞嘧啶(isoC)或5-甲基异胞嘧啶(MeisoC)互补的DNA位点，且反之亦然，如以下化学结构所示，和在A.T.Krueger,等人,“Redesigning the Architecture of the Base Pair:Toward Biochemical and Biological Function of New GeneticSets.”Chemistry&Biology 2009,16(3),242中所述，其通过引用整体并入本文用于所有目的。

也可利用与天然核苷碱基对正交的其它非天然碱基对，例如，Im-N^O/Im-O^N、dP/dZ或A^*/T^*(进一步描述在Yang,等人.(2007)Nucleic Acids Res.35(13):4238-4249;Yang,等人.(2006)Nucleic AcidsRes.34(21):6095-6101;Geyer,等人.(2003)Structure 11:1485-1498;J.D.Ahle,等人,Nucleic Acids Res 2005,33(10),3176;A.T.Krueger,等人,出处同上；和A.T.Krueger,等人,Curr Opinions in Chem Biology 2007,11(6),588)。

在某些实施方案中，要用本文方法检测的核酸修饰是7,8-二氢-8-氧代鸟嘌呤(“8-氧代鸟嘌呤”)(也被称作8-氧代-7,8-二氢鸟嘌呤、8-氧代鸟嘌呤和8-羟基鸟嘌呤)。8-氧代鸟嘌呤是人组织中所见的主要氧化性DNA损伤。由于8-氧代鸟嘌呤中鸟嘌呤的修饰较细微，复制性DNA聚合酶可绕过它而将腺嘌呤核苷优先掺入到新生核酸链中应掺入互补胞嘧啶的位置，从而导致新生链中的突变(参见，例如，Hsu,等人.(2004)Nature 431(7005):217-21；和Hanes,等人.(2006)J.Biol.Chem.281:36241-8,它们通过引用整体并入本文用于所有目的)。与在体内引入突变一样，通过聚合酶绕过这类损伤在模板依赖的测序反应中，将差错引入产生的序列读出中，受损鸟嘌呤核苷酸的存在也可能引起碱基的对齐偏差，可能在产生的序列读出中进一步加入错误。正对于8-氧代鸟嘌呤损伤的DNA合成的特异性(kcat/Km)相对很低，比正对于未修饰的G掺入C低约10⁶倍。参见，例如，Hsu,等人,出处同上。另外，由于它的非常低的氧化还原电位，8-氧代鸟嘌呤比未修饰的鸟嘌呤更易氧化，且8-氧代鸟嘌呤氧化产物是DNA聚合酶的非常有效的阻断剂。参见，例如，Duarte,等人.(1999)Nucleic Acids Res 27(2):496-502；和Kornyushyna,等人.(2002)Biochemistry 41(51):15304-14，它们的公开内容通过引用整体并入本文用于所有目的。

已证明，8-氧代鸟嘌呤会改变稳态掺入动力学的k_cat和K_m，这可能在模板指导的测序反应期间引起核苷酸(G或A)掺入新生链的互补位置之前脉冲宽度和IPD的改变(参见，例如，Hsu,等人.和Hanes,等人,出处同上)。可利用这些改变的动力学特征在实时测序反应期间检测模板核酸中的8-氧代鸟嘌呤。此外，可利用包含目标区域的二条互补链的环形模板(例如，在2009年3月27日提交的U.S.S.N.12/383,855和12/413,258中所述，其通过引用整体并入本文用于所有目的)，对目标区域的二条链重复测序，从而产生冗余的序列信息，可以对所述信息进行分析，以统计学地确定该模板中的某给定位置出现A-G错配的频率，与在该位置掺入正确碱基的频率作比较。冗余的序列信息提高了正确判定某位置为G或8-氧代鸟嘌呤的准确性。例如，如果错配率为100％，那么若该位置测得是A，但互补位置测得是G，测得的A很可能与模板中8-氧代鸟嘌呤为Hoogsteen碱基配对。这种方法类似于检测中在测序前将5-MeC修饰脱氨基成为尿嘧啶，如下文详述。

正对8-氧代鸟嘌呤位点的错配掺入率及IPD和脉冲宽度受8-氧代鸟嘌呤影响的程度取决于反应所用聚合酶的类型(参见，例如，Hsu,等人.和Hanes,等人,出处同上)。因此，可设计对8-氧代鸟嘌呤动力学灵敏度提高，或正对8-氧代鸟嘌呤的错误掺入率提高/降低的聚合酶突变体。用于本发明不同实施方案的聚合酶设计方法是本领域已知的，在本文中另有提供。另外，修饰位点极可能发生多重结合，而产生与掺入新生链无关的一个或多个信号，这些多重结合也可能发生在靠近修饰的位置，如在损伤位点后面的连续几个碱基。这些额外的信号将提供修饰位点的强力指示。此外，包含修饰的模板区的多个测序读出预计在修饰处或靠近修饰处含有可变数量的额外信号。因此，比较这种冗余序列信息将有助于鉴定包含该修饰的基因座。

在某些方面，对样品核酸中的碱基J进行检测和/或绘图谱。碱基J是在锥虫的某些物种中发现的DNA修饰，所述锥虫包括引起非洲昏睡病的锥虫，后者每年使数十万人患病。它是2个酶促步骤的结果。首先，胸苷-羟化酶将dT转化成羟甲基尿嘧啶(HOMedU)；其次，β-葡萄糖基-转移酶将HOMedU转化成碱基J(β-D-葡萄糖基-HOMedU或“dJ”)。碱基J主要存在于末端着丝粒的重复基因组区域中，且参与变体表面糖蛋白(VSG)的表达，所述VSG对于哺乳动物宿主感染而言是重要的。本发明提供了用于精确绘制碱基J的基因组位置图谱的方法，其不需要薄层色谱法、质谱法或碱基J-特异性抗体的常规检测方法。本文描述的通过掺入来测序的单分子方法会促进在聚合酶介导的新生链合成期间模板中的碱基J的实时检测。碱基J对聚合酶活性的影响会允许检测模板核酸中的碱基，且在反应过程中产生的序列数据会提供包含修饰碱基的区域的核苷酸序列。此外，测序动力学还可以区分模板中的HOMedU和碱基J，从而提供关于从一种修饰碱基向另一种碱基的酶促转化的效率和速率的信息。如此，这样的测序运行可以用于绘制锥虫基因组中的碱基J和HOMedU的精确位置图谱，且该信息将帮助阐明它在疾病中的作用。关于碱基J的更多信息，参见Borst,等人.(2008)Annu.Rev.Microbiol.62:235-51，其通过引用整体并入本文用于所有目的。

VI.模板的化学修饰

不预先处理DNA样品而直接检测修饰(例如上述的甲基化碱基)有许多优点。替代或补充地，可利用互补技术，如利用本文另述的非天然或修饰的核苷酸类似物和/或碱基配对。一般而言，这种互补技术能提高所述修饰的检测(效率)，例如通过扩增可指示该修饰的信号。此外，虽然本文所述方法主要集中于检测5-MeC核苷酸，但本领域普通技术人员明白这些方法也可扩展至检测其它类型的核苷酸修饰或损伤。此外，由于某些测序技术(例如，SMRT^TM测序)不需要扩增模板，例如通过PCR，可采用5-MeC的其它化学修饰或其它修饰促进模板中这些修饰核苷酸的检测，例如，通过采用将额外修饰引入模板的经修饰核苷酸处或附近的修饰剂。例如，正常胞嘧啶与5-MeC之间的氧还电势差异可用于选择性氧化5-MeC并进一步区别5-MeC与未甲基化碱基。这类方法另有进一步说明，包括卤素修饰(S.Bareyt,等人,Angew Chem IntEd Engl 2008,47(1),181)和选择性锇氧化(A.Okamoto,NucleosidesNucleotides Nucleic Acids 2007,26(10-12),1601；和K.Tanaka,等人,JAm Chem Soc 2007,129(17),5612)，这些参考文献通过引用整体并入本文用于所有目的。

糖基化酶修饰

例如，DNA糖基化酶是能切除DNA中改变的(例如，甲基化的)、损伤的或错配的核苷酸残基同时留下完整糖-磷酸骨架的修复酶家族。现有技术中提供了关于糖基化酶作用机制和结构的其它信息，例如，A.K.McCullough,等人,Annual Rev of Biochem 1999,68,255。具体地，已经在拟南芥中鉴定出能除去双链DNA中甲基化胞嘧啶留下脱碱基位点的4种DNA糖基化酶(ROS1、DME、DML2和DML3)(参见，例如，S.K.Ooi,等人,Cell 2008,133,1145，其通过引用整体并入本文用于所有目的)。此外，已经证实，某些DNA聚合酶能将芘核苷的5′-三磷酸衍生物(dPTP)通过空间互补有效地且特异性地插入到脱碱基的DNA位点中(参见，例如，T.J.Matray,等人,Nature 1999,399(6737),704，其通过引用整体并入本文用于所有目的)。

在单分子五色DNA甲基化测序的某些实施方案中，DNA糖基化酶的活性可与聚合酶联合掺入非天然核苷酸类似物(例如，如图4所示的芘类似物dPTP)。例如，在某些实施方案中，可用拟南芥的DNA糖基化酶处理DNA样品切除甲基化胞嘧啶。共价连接于dPTP末端磷酸的第5荧光团可允许在聚合酶介导的DNA合成中检测脱碱基位点。

图4显示了五碱基DNA甲基化测序的原理。如图4A所示，基因组DNA被切成数kb长度的片段作为模板。图4B说明DNA糖基化酶切去模板的5-MeC(黑色)，留下脱碱基位点。在SMRT^TM测序时，DNA聚合酶合成互补链并在正对该脱碱基位点处优先掺入磷酸连接荧光团的芘类似物。此荧光团的光谱特征不同于其它4种标记核苷酸荧光团的特征，可表示原模板中存在5-MeC。此外，也可利用差错度量鉴定该修饰，如在后续掺入期间由于掺入的芘类似物被“埋入”新生链中，该脱碱基位点及下游位置的芘类似物结合事件可能增加。在某些实施方案中，所用带可检测标记的非水解性芘类似物的浓度足以在可水解(优选带不同标记)性类似物掺入前多次结合在该脱碱基位点(并被检测)。下文将进一步描述采用非水解性类似物的方法。

执行上述方法的潜在困难是许多DNA糖基化酶显示有某些裂解酶活性，如双功能DNA糖基化酶/AP裂解酶。这些酶可切断糖基化酶活性所产生AP(脱碱基)位点3’方向的磷酸二酯键，在该位点产生脱碱基和不饱和的核糖衍生物，阻止聚合酶在该位点掺入互补的芘类似物。在某些情况下，可能需要抑制拟南芥修复酶的任何裂解酶活性并提高所需的糖基化酶活性。达到此目的的方法包括定点诱变和在糖基化酶反应中加入催化灭活的AP内切核酸酶(参见，例如，A.E.Vidal,等人,NucleicAcids Res 2001,29,1285，其通过引用整体并入本文用于所有目的)。一种并行的蛋白质诱变程序旨在提高存在dPTP类似物时聚合酶的持续合成能力。其它不同的开发方式中，荧光团本身、芘类似物结合的磷酸数量和连接荧光团与末端磷酸基团的接头物结构会影响芘掺入脱碱基位点的动力学。

在单分子五色DNA甲基化测序的其它实施方案中，DNA糖基化酶的活性可与非天然碱基(例如，以其它方式修饰的胞嘧啶)的添加相组合，以置换甲基化碱基。简言之，糖基化酶催化切除5-MeC(切断或不切断磷酸二酯骨架)后，加入I类或II类AP内切核酸酶，通过切断脱碱基位点3’和5’磷酸基团除去脱碱基核糖衍生物，由此留下3’-OH和5’-磷酸末端。加入能从游离3’-OH延伸的聚合酶(例如，Pol I或人polβ)和非天然碱基(例如，isoC、isoG或^MeisoC)，使所述非天然碱基掺入该脱碱基位点。加入DNA连接酶(例如，LigIII)，以在游离3’-OH和5’磷酸之间通过ATP水解形成共价磷酸二酯键闭合磷酸二酯骨架。最后利用加工酶(例如，Φ29DNA聚合酶)合成与模板链互补的新生核酸链，其第5个核苷酸类似物与模板中替代5-MeC的非天然碱基互补。例如，如果替代碱基是isoC或^MeisoC，第5个类似物应是isoG。如此，第5个类似物将只掺入到新生链中与模板核酸5-MeC位点互补的位置。在优选的实施方案中，第5个类似物含可检测标记(例如，荧光染料)，该标记不同于其它反应组分上的标记，如反应混合物中其它核苷酸类似物上的可检测标记。此外，在某些实施方案中，可以使用可与4种核苷酸类似物之一（例如，A、G、C或T）碱基配对的非天然的或改变的核苷酸来替代模板中的切离的碱基。在这样的实施方案中，不需要第5个荧光团，且主要通过模板指导的合成中的聚合酶行为来检测模板中的非天然的或改变的核苷酸，如在本文别处所详述的。在切离的碱基的存在会造成聚合酶的更小应答（与它所替代的碱基存在时相比）的情况下，这是特别有益的。如此，通过除去最初的修饰碱基和用不同的修饰碱基（聚合酶对在该处具有更独特的或极端的动力学特性）替代它，从业人员会增强模板中的经修饰的基因座的检测。

另外，存在或可以工程改造用于不同DNA修饰、损伤或错配的糖基化酶，因此上述方法不仅可用于检测5-MeC而且可提供检测其它类型修饰的方法。用糖基化酶检测其它DNA损伤方法的描述可参见2009年6月12日提交的U.S.S.N.61/186,661，其通过引用整体并入本文用于所有目的。在某些实施方案中，芘(或类似的)核苷酸类似物可以是非水解性类似物，以延长其驻留时间从而延长其发射的表示存在特定感兴趣损伤的信号。非水解性的第5碱基最终被可水解类似物替代，新生链的合成继续。可替换地，第5碱基可以是可水解碱基，但在掺入前能产生多个离散信号以提高其检测可能性。

亚硫酸氢盐修饰

在某些实施方案中，用亚硫酸氢盐处理修饰模板。亚硫酸氢盐测序是分析DNA中CpG甲基化模式的常用方法。亚硫酸氢盐处理可使单链核酸中的未甲基化胞嘧啶脱氨基形成尿嘧啶(P.W.Laird,Nat RevCancer 2003,3(4),253；和H.Hayatsu,突变Research 2008,659,77，其通过引用整体并入本文用于所有目的)。相反，修饰的5-MeC碱基能抵抗亚硫酸氢盐的处理。因此，用亚硫酸氢盐预先处理模板DNA可将胞嘧啶转化成尿嘧啶，后面的模板测序读出将含正对于5-MeC核苷酸的鸟嘌呤掺入和正于尿嘧啶(先前是未甲基化的胞嘧啶)核苷酸的腺嘌呤掺入。如果用亚硫酸氢盐处理的核酸是双链核酸，处理前应变性。在常规方法中，通常在测序前进行的扩增如PCR，扩增了修饰的核酸，但不保存互补链的信息。相反，本发明的某些实施方案包括利用含双链核酸两条链的模板分子，可通过调整pH、温度等使双链核酸变成单链分子。用亚硫酸氢盐处理单链分子后进行单分子测序，因为该模板保留了原先核酸的双链，故产生两条链的序列信息。比较双链核酸各条链所得到的序列读出，将能鉴定原先模板中未甲基化胞嘧啶转化成尿嘧啶的位点，因为这二个模板的序列读出在该位点不互补(A-C错配)。相似的，这二个模板的序列读出在原始模板中胞嘧啶被甲基化的胞嘧啶位点互补(G-C匹配)。在某些优选的实施方案中，采用环形模板，优选含有能杂交形成双链区的内部互补区域，参见2009年3月27日提交的U.S.12/383,855和U.S.12/413,258二者中所述，它们二者通过引用整体并入本文用于所有目的。

如本文别处所述，与未甲基化胞嘧啶相比，甲基化胞嘧啶能影响多个相邻位置的IPD。尿嘧啶与胸腺嘧啶的比较和未甲基化胞嘧啶与甲基化胞嘧啶的比较相似(即U与T之间的唯一差异是T含有一个额外的甲基)。因此，本发明提供亚硫酸氢盐测序方法，该方法除监测被掺入的真正核苷酸外还监测聚合酶的动力学(例如，IPD和脉冲宽度)或错配掺入率。检测所述位点或临近位点处动力学参数或错配率的变化，可确定该位点是否总是T或U，其原先是未甲基化胞嘧啶。

在某些实施方案中，设计对胸腺嘧啶与尿嘧啶之间的差异更为灵敏的聚合酶突变体以提高上述效力。上面详述了设计聚合酶变体的方法，在此不需要重复。

额外地或可替换地，含尿嘧啶的寡核苷酸的PCR未必象不含尿嘧啶的PCR那样有效。这一点会偏向于PCR扩增经亚硫酸氢盐转化的DNA。本文所述的采用亚硫酸氢盐修饰过的模板的某些合成测序方法通过不用PCR扩增而绕过此问题。然而，可监测这些合成测序反应的动力学，检测由于存在尿嘧啶残基引起的动力学变化。

此外，本文提供的方法可用于检测PCR扩增亚硫酸氢盐处理核酸中的偏差。例如，可对一些含有、一些不含有尿嘧啶的各种寡核苷酸(包括含相同序列但尿嘧啶位置为胸腺嘧啶的对照)进行几轮PCR扩增。对产生的所有寡核苷酸进行合成测序后，可以定仍含尿嘧啶寡核酸苷的百分比，如果与理想(无偏向的)PCR扩增的预计百分比不同，则检测到偏向。

在其它实施方案中，使模板核酸与能将修饰的核苷酸转化为不同核苷酸结构的试剂接触。例如，细菌的胞嘧啶甲基转移酶能将5-MeC转化为胸腺嘧啶(M.J.Yebra,等人,Biochemistry 1995,34(45),14752，其通过引用整体并入本文用于所有目的)。可替换地，所述试剂可将甲基胞嘧啶转化为5-羟基-甲基胞嘧啶，例如，羟化酶TET1(M.Tahiliani,等人,Science 2009,324(5929),930，其通过引用整体并入本文用于所有目的)。在其它实施方案中，所述试剂可包括能将甲基胞嘧啶转化成胸腺嘧啶的胞嘧啶脱氨酶(H.D.Morgan,等人,J Biological Chem 2004,279,52353，其通过引用整体并入本文用于所有目的)。在其它实施方案中，利用能特异性改变感兴趣修饰的限制性酶来产生修饰位点的损伤。例如，用DPNI切割含甲基腺嘌呤的识别位点。可选在反应混合物中包含连接酶于分析反应期间修复被切割的模板。如本文另外提及的，也可用本文提供的方法修饰5-MeC以外的其它核苷酸并检测。例如，可通过脱氨将腺嘌呤转化成肌苷，这一转化受腺嘌呤甲基化影响，得以差异性处理和检测腺嘌呤和MeA。

可利用本文提供的方法来检测的另一种修饰碱基是5-羟甲基胞嘧啶(5-hmC)。近年发现，它在人和小鼠脑及胚胎干细胞中含量丰富(参见，例如，Kriaucionis,等人.(2009)″The nuclear DNA base5-hydroxymethylcytosine is present in Purkinje neurons and the brain″Science 324(5929):929–30;Tahiliani M等人.(May2009)″Conversionof 5-methylcytosine to 5-hydroxymethylcytosine in mammalian DNA byMLL partner TET1″Science 324(5929):930–35；和WO/2010/037001，其通过引用整体并入本文用于所有目的)。在哺乳动物中，它可以通过通过5-甲基胞嘧啶氧化（由Tet酶家族介导的反应）而产生。常规的亚硫酸氢盐测序不能有效地区分5-hmC与5-MeC，因为像5-MeC一样，5-hmC倾向维持未修饰状态。因此，质谱法是检测核酸样品中的5-hmC的典型方式。本文所述的方法提供了通过监测相对于正常聚合酶动力学（包括IPD和脉冲宽度）的偏离来区分C、5-MeC与5-hmC的高通量实时方法。

在某些实施方案中，亚硫酸氢盐转化可以用于区分5-MeC与5-羟甲基胞嘧啶(5-hmC)的方法中。如上面所指出的，亚硫酸氢盐转化会将胞嘧啶转化成尿嘧啶，且不会改变5-MeC。亚硫酸氢盐转化也会将羟甲基-胞嘧啶(5-hmC)改变成胞嘧啶-5-亚甲基磺酸(CMS)，后者含有大体积的SO₃加合物来替代5-hmC的OH加合物。象甲基-胞嘧啶一样，CMS与鸟嘌呤碱基配对。如此，仅仅知晓在与经修饰的碱基互补的位置处掺入的碱基(G)的身份，不会单独地区分5-MeC修饰碱基和5-hmC修饰碱基。此外，含有hmC的寡核苷酸的PCR扩增是非常无效的，这会阻碍通过需要在检测前进行PCR扩增的方法来鉴定模板中的hmC，至少部分地因为，将产生更少的含有hmC的扩增子。本发明提供了这样的策略，其通过将亚硫酸氢盐转化与模板指导的新生链合成过程中聚合酶活性变化的检测相组合，克服了这些问题。例如，可以对疑似含有5-MeC和/或5-hmC的双链体核酸进行亚硫酸氢盐转化，这会将胞嘧啶转化成尿嘧啶，而不改变5-MeC，并将5-hmC转化成CMS。随后对模板进行单分子的模板指导的测序反应。使用聚合酶行为，例如，脉冲间隔期、脉冲宽度、同源采样频率、配对准确度等，可以将存在于模板中的尿嘧啶(由于亚硫酸氢盐转化)与胸腺嘧啶区分开。如果也对互补链测序，那么还可以使用互补核苷酸序列信息来鉴定碱基，如上所述。此外，在将5-hmC转化为CMS的过程中添加的SO₃加合物会增强聚合酶对修饰碱基的应答(例如，造成暂停增加)，并由此促进模板中的CMS相对于5-MeC的鉴定。

如此，在某些实施方案中，将核酸样品片段化，并将通用引物连接至每个得到的片段。进行亚硫酸氢盐转化；核酸片段为单链的，且包含引物位点，所述引物位点会促进所述片段的随后引发和测序。基于聚合酶动力学和标准的亚硫酸氢盐测序算法，将U与T区分开，已知被检测为U的那些碱基最初为C。已知基于它们与G的碱基配对而被检测为C的碱基是5-MeC或CMS(最初是5-hmC)。基于它们的相对不同的动力学，至少部分地由于在CMS中存在且在5-MeC中缺少的SO₃加合物，区分开5-MeC和CMS。此外，与其它修饰-检测方法一样，可以靶向已知具有或疑似具有一个或多个目标修饰的核酸，例如，使用对一种或多种修饰特异性的抗体或其它结合剂，且通过本领域已知的多种方法，例如，免疫沉淀、柱色谱法、珠分离等，可以选择或“捕获”含有所述一种或多种修饰的核酸。除去不含有一种或多种修饰的核酸（例如，通过洗涤、缓冲液更换等）以后，可以对选择的核酸进行模板指导的测序，以鉴定一种或多种修饰和/或绘制其图谱。关于5-羟甲基胞嘧啶在常规亚硫酸氢盐测序中的行为的其它信息，参见Huang,等人.(2010)PLoS ONE 5(1):e8888，其公开内容通过引用整体并入本文用于所有目的。

尽管描述了在其中使用亚硫酸氢盐转化来对未扩增的核酸模板测序的方法，本发明也预见到用于改善亚硫酸氢盐转化的核酸的扩增的方法。具体地，亚硫酸氢盐转化的DNA的扩增是挑战性的，至少部分地因为难以设计出可与转化的DNA对合的引物。这会导致从原始核酸样品的某些区域的扩增偏倚和更低的扩增子产量。多置换扩增(MDA)是一种等温的、高支化的扩增技术，其使用随机六聚体引物和链置换聚合酶(例如，phi29)。在某些方面，本发明提供了一种使用MDA来扩增亚硫酸氢盐转化的核酸的方法。这会避免设计PCR引物的需要，因为使用的引物随机地产生。在某些实施方案中，通过用G替代T，可以修饰引物以结合亚硫酸氢盐转化的片段(这样的修饰的引物也可用于常规PCR中)。该策略会提高使用亚硫酸氢盐转化后的核酸的效率，并减少在MDA中的偏倚。可以对得到的扩增子测序，例如，使用本文所述的单分子测序方法，并与使用未转化的和任选地扩增的核酸产生的序列进行对比，以鉴定在原始核酸中的修饰碱基(例如，5-MeC或5-hmC)。此外，可以将扩增子掺入用于反复的测序反应的环形构建体中(例如，参见2009年3月27日提交的U.S.S.N.12/383,855和12/413,258，二者通过引用整体并入本文用于所有目的)，以产生冗余序列信息。

5-hmC的亲电体修饰

在某些实施方案中，通过向5-hmC添加大体积基团来修饰模板，会促进5-hmC的检测和它与5-MeC和未修饰的胞嘧啶的区分。具体地，已经证实，某些亲电子化合物会与核酸的羟基在温和条件下在水溶液中特异性地反应，从而导致大体积加合物向核酸的添加。例如，已经证实了使用N-甲基靛红酸酐(NMIA)对核糖2‘-羟基位置的选择性酰化，和通过引物延伸(SHAPE)分析的选择性2’-羟基酰化以分析酵母tRNA^Asp中的局部的tRNA^Asp转录物结构(参见，例如，Merino,等人.(2005)J.Am.Chem.Soc.127:4223-4231，其通过引用整体并入本文用于所有目的)。另外，已经开发了用自旋标记N-(2,2′,5,5′)四甲基-3-羧基吡咯烷-1-氧基自由基)-咪唑对RNA进行选择性修饰的规程。经证实，该自旋标记会与5-羟甲基-2脱氧胞苷的羟基和多核苷酸的2′OH核糖基团相互作用，并将大体积加合物转移至所述碱基。所述修饰不会影响无细胞系统的二级结构、构象或模板性能(参见，例如，Petrov,A.I.(1980)Nuc.Ac.Res.8(23):5913-5929;Petrov,等人.(1980)Nuc.Ac.Res.8(18):4221-4234；和Kamzolova,S.G.(1987)Biokhimiia 52(9):1577-82，它们的公开内容通过引用整体并入本文用于所有目的)。另外，羰基二咪唑酮(CDI)也会与羟甲基反应以转移大体积加合物。图5提供的示意图显示了通过用NMIA(A)和CDI(B)处理向5-hmC添加大碱基加合物。本发明的方法的一种可能结果是，核苷的末端磷酸或其它羟基的额外修饰。大体积基团在5-hmC的OH基团处的添加，会改变DNA聚合酶介导的核苷向新生链中的掺入的动力学（相对于修饰的5-hmC），且该改变会促进在模板核酸内的5-hmC的检测和绘制图谱。这些和本领域已知的其它亲电子化合物可以类似地用于上述的那些，以向核酸添加大体积加合物，并由此提供在单分子测序反应过程中的特征性动力学特性，其指示如此修饰的给定碱基的存在。

葡萄糖基转移酶修饰

在某些实施方案中，使用DNA葡萄糖基转移酶将葡萄糖基转移给5-hmC。在噬菌体感染的大肠杆菌中发现的DNA葡萄糖基转移酶会将葡萄糖从二磷酸尿苷葡萄糖(UDP-葡萄糖)转移给DNA中的hmC核苷酸。这些酶类似于如上所述的锥虫中的将羟甲基尿嘧啶转化成碱基J的葡萄糖基转移酶。所述酶可以通过如下所示的α或β连接将葡萄糖连接至hmC：

用于将葡萄糖基转移给hmC的示例性酶包括、但不限于：T2-hmC-α-葡萄糖基转移酶、T4-hmC-α-葡萄糖基转移酶、T6-hmC-α-葡萄糖基转移酶和T2-hmC-β-葡萄糖基转移酶。可以使用其它酶来产生二葡萄糖基化的hmC，诸如T6-葡萄糖基-hmC-β-葡萄糖基转移酶，该酶会产生具有在2个葡萄糖基之间的β连接的二葡萄糖基化的hmC。这些酶通常是对hmC特异性的，且通常不会改变其它碱基诸如A、C、MeC、T或G。如此，用这样的酶处理含有hmC的核酸会产生其中hmC残基已经被转化成单葡萄糖基化的-hmC或多葡萄糖基化的-hmC的核酸。葡萄糖基化的-hmC比hmC远远更大和庞大，且因此当存在于模板核酸中时对聚合酶活性具有特殊影响。关于葡萄糖基转移酶对5-hmC的葡萄糖基化的细节是本领域已知的，例如，参见Josse,等人.(1962)J.Biol.Chem.237:1968-1976；和Lariviere,等人.(2004)J.Biol.Chem.279:34715-34720。

可以以不同的方式改进上述的向hmC添加葡萄糖部分的策略。例如，可以对目前已知的葡萄糖基化酶(例如，选择性地葡萄糖基化hmC或hmU的那些酶)进行定向或分子进化，以引入会提高葡萄糖基化hmC的效率和/或特异性的突变，或者允许向hmC添加除了葡萄糖以外的加合物的突变。可替换地或额外地，(a)添加的葡萄糖加合物可以包含可检测标记，以提供其它检测模式，例如，除了监测反应动力学以外，和/或(b)可以进行其它步骤，以添加除了葡萄糖加合物以外的修饰，例如，通过葡萄糖加合物与核酸相连的修饰。在其它实施方案中，可以使用这样的葡萄糖基转移酶：其结合模板，但是不会脱离，且因此导致其它修饰(例如，结合的试剂)，所述其它修饰可在单分子测序过程中检测出，例如，通过检测新生链合成的显著暂停。在下面的部分VI中详述了用于检测试剂-核酸相互作用的方法和策略。

在其它实施方案中，在测序之前可以修饰hmC和5-MeC。例如，可以对核酸进行葡萄糖基化，以将hmC转化成葡萄糖-hmC，并随后可以将5-MeC碱基转化成hmC，例如，使用TET1蛋白。葡萄糖-hmC的检测将指示原始核酸中的hmC，且hmC的检测将指示原始核酸中的5-MeC。可替换地，可以进一步修饰通过5-MeC的转化产生的hmC，以产生更大地增强的检测，同时维持不同于通过原始核酸中的hmC的转化而产生的葡萄糖-hmC的信号。例如，可以使用α连接将葡萄糖部分与原始的hmC相连，而使用β连接将葡萄糖部分与5-MeC转化的hmC相连。可替换地或额外地，可以向各自添加不同的糖基，例如，所述糖基选自葡萄糖、麦芽糖、蔗糖、乳糖、半乳糖或多个糖基(例如，二-或三-葡萄糖基(或其它糖基))或它们的组合。

此外，可以在所述方法的许多不同阶段进行对模板的修饰。例如，可以在片段化或剪切之前或之后，将它们引入基因组DNA样品中；可以在将核酸片段引入测序模板中以后引入它们；可以将它们引入溶液中或反应位点处，例如，固定化反应组分的位置；和/或可以将它们引入反应混合物内，例如，在有聚合酶或其它测序酶存在下。

DMS修饰

在某些实施方案中，可以在测序前通过硫酸二甲酯(DMS)处理修饰模板。化学试剂DMS能甲基化双链DNA中鸟嘌呤的N7位，而对双链DNA中腺嘌呤的N3位修饰程度较低。如果蛋白质结合于被DMS处理的DNA，该蛋白将阻断它们所结合序列的甲基化。然后可除去该结合蛋白并用哌啶处理该DNA，通过除去甲基化碱基打断DNA骨架。DNA受保护区域鉴定为DMS处理期间与蛋白质结合的区域。DMS也能修饰单链DNA或RNA中胞嘧啶的N3位和腺嘌呤的N1位，致使这些碱基不再与互补碱基配对。由于这两个位置都参与碱基配对，DMS处理期间为双链的区域受到保护不被修饰。然后用逆转录酶PCR和凝胶鉴定未被修饰、因此可能是形成二级结构保护它们免遭DMS处理的区域。

本发明提供了经DMS处理核酸的实时单分子测序方法，可作为检测核酸结合剂的结合位点及二级结构，如G-四倍体结构(也称为G-四联体或G4-DNA；参见，例如，Zheng,等人.(2009)“Molecular crowdingcreates an essential environment for the formation of stableG-quadruplexes in long double-stranded DNA,”Nuc Ac Res 1-12，其通过引用整体并入本文用于所有目的)的形成位点的手段。例如，用DMS处理结合有一种或多种核酸结合剂的双链DNA，然后除去结合剂。对得到的双链DNA进行模板指导的测序并监测脉冲度量以鉴定被甲基化的鸟嘌呤或腺嘌呤位置。例如，鉴定出在一种或多种脉冲度量中有可辨改变的A和G模板核苷酸可视为未与所述试剂结合；而在一种或多种脉冲度量中没有可辨改变的A和G模板核苷酸可视为结合有所述试剂。在某些实施方案中，所述DMS处理在体内进行，然后提取双链DNA并测序，以研究细胞中转录因子的结合。可替换地，提取细胞的双链DNA然后使之接触一种或多种核酸结合剂，再在体外用DMS处理。DMS处理可在溶液中进行，或在固定双链DNA，如固定于反应位点后进行。可供研究的核酸结合剂包括、但不限于：转录因子、聚合酶、核糖体和DNA相关辅因子。研究人员由此可研究在不同细胞、在健康和患病组织、在细胞周期不同阶段、对各种环境刺激应答反应等等中被活跃转录的那些DNA区域。例如，在某些实施方案中，在体内或体外将DMS施用于结合了正活跃翻译或被停滞核糖体的mRNA。然后对所得mRNA模板进行实时测序，监测反应动力学的变化，所述变化表明存在修饰的碱基。可替换地，加热经DMS处理的mRNA降解修饰区域，只留下未修饰区进行测序。利用产生的序列数据鉴定核糖体结合的mRNA，因此就是提取的样品中被活跃翻译的mRNA。其它核糖体分析方法是本领域已知的，例如，Ingolia,等人.(2009)Science324(5924):218-23，其公开内容通过引用整体并入本文用于所有目的。

在其它实施方案中，通过将DMS施用于单链DNA或RNA(例如，mRNA、siRNA、微RNA、rRNA、tRNA、snRNA、核酶s等)，用合适的聚合酶对DMS修饰的核酸测序，进行DNA和RNA二级结构分析。(用RNA依赖的聚合酶进行RNA分子测序的方法详述可参见2009年6月12日提交的U.S.S.N61/186,661，通过引用整体并入本文用于所有目的)。引起聚合酶动力学改变的经处理核酸区域被鉴定为在DMS处理期间是单链；而未引起聚合酶动力学改变的经处理核酸区域被鉴定为在DMS处理期间是双链，因此可能含双体二级结构，如发夹结构。在某些实施方案中，加热核酸然后测序导致修饰区降解。然后对剩余的未降解核酸测序，利用产生的序列数据鉴定原先核酸中形成阻止DMS修饰的二级结构的区域。

也可利用DMS修饰绘制形成非B型二级结构的区域，一些非B型二级结构在体内有调节作用。例如，G-四倍体由堆叠的G组成，可保护鸟苷避免DMS修饰，即使没有核酸结合剂。利用后续的序列分析来鉴定受到保护避免被DMS修饰的区域，从而可能具有某些保护性二级结构。

此外，虽然主要就DMS修饰进行了描述，但是还可以以类似方式使用其它类型的化学修饰和/或酶修饰，本领域普通技术人员根据本文的教导可明白这点。例如，DNA或RNA足迹法的其它方法在本文所述方法中特别有用，包括，例如，利用DNA酶I、羟基自由基、在试剂和它所结合的核酸之间的紫外交联、或者用于切割试剂未结合的核酸的紫外辐照。在公开的文献中和在本文别处更全面地描述了这类方法。

对因接触试剂而改变的模板测序，例如采用实时单分子方法，如SMRT^TM测序法。在某些优选实施方案中，对同一模板进行多次测序，如通过滚环合成或另一种形式的分子重复测序。通过分析所得到的序列读出鉴定模板中含核苷酸改变的基因座。以5-MeC核苷酸转化为非变造核苷酸(例如，胸腺嘧啶)为例，正向链和反向链的分子重复测序有助于进一步精细鉴定变造核苷酸，因为这种变形破坏了正常的Watson-Crick碱基配对。例如，若MeC·G配对转化成T·G，其正向和反向序列读出将在该位置处出现非互补核苷酸(A和C)，表示模板中的该碱基对是非标准的，可能由于该位5-MeC的改变所致。分子重复测序法的进一步描述可参见美国专利号7,476,503和美国申请系列号12/383,855(2009年3月27日提交)、12/413,258(2009年3月27日提交)、12/413,226(2009年3月27日提交)和12/561,221(2009年9月16日提交)，它们都通过引用整体并入本文用于所有目的。

维持甲基转移酶

在某些情形下，例如当样品核酸的量有限时，希望扩增核酸样品以增加可以进行分析的模板分子的数目。但是，如上面所指出的，常规的扩增策略（诸如PCR）可能不会维持原始核酸样品中的修饰，且因此得到的扩增子缺少所述修饰。例如，在模板核酸中的甲基化模式不会在得自PCR反应的扩增子中重现。在第一个循环以后，得到的扩增子是半甲基化的，且在第二个循环以后，从在第一个循环中合成的未甲基化链产生完全未甲基化的扩增子。在每个以后的循环中，产生更大部分的完全未甲基化的链，从而从原始核酸中有效地消除甲基化模式。本发明提供了用于扩增含有修饰的核酸模板的策略，所述策略维持如此产生的扩增子中的修饰。

在某些实施方案中，存在于原始核酸中的甲基化模式被维持在扩增反应所产生的扩增子中。维持生物体中的甲基转移酶功能以确保：通过催化甲基例如从S-腺苷基蛋氨酸(SAM)向半甲基化的双链体的未甲基化链的转移而在基因组复制过程中维持甲基化模式。例如，DNMT1主要甲基化哺乳动物基因组的半甲基化部分中的CpG二核苷酸，尽管它也对未甲基化的DNA具有某种活性。该酶可以被包括在用于扩增甲基化的核酸的反应中，且在所述扩增过程中，DNMT1会甲基化新生链中的与亲本链的甲基化想对的基因座。额外地或可替换地，可以在扩增反应中包括其它类型的维持甲基转移酶，例如，大肠杆菌DNA腺嘌呤甲基转移酶(Dam)。就标准的PCR而言，可以使用热稳定形式的甲基转移酶，或者可以在每个循环之间添加新鲜的甲基转移酶。可替换地，可以进行等温扩增，诸如多置换扩增或环介导的等温扩增(LAMP)。关于多种等温扩增技术的综述，参见Gill,等人.(2008)Nucleosides,Nucleotides&Nucleic Acids 27(3):224-243，其公开内容通过引用整体并入本文用于所有目的。

在某些实施方案中，在聚合酶反应过程中使用包含聚合酶和修饰剂的融合蛋白来将额外修饰引入模板中。

例如，可以使修饰剂以特定取向与聚合酶连接，使得其与模板结合并将修饰引入在聚合酶前面。如此，这样引入的修饰会被聚合酶遇到，并引起指示修饰存在的应答。可替换地，修饰剂可以在聚合酶前面结合模板，这也会造成酶的可检测的动力学应答，因为它要么被结合的修饰剂阻断，要么必须置换它。同样地，修饰剂可以结合由聚合物形成的双链体，并由此通过充当“锚”而造成聚合酶活性的变化，至少在它脱离之前。本领域普通技术人员显而易见，可以使多种不同的修饰剂与聚合酶融合，所述聚合酶包括、但不限于糖基化酶、葡萄糖基转移酶、羟化酶(例如，TET1)、维持甲基转移酶、以及与核酸修饰结合和/或引入核酸修饰的其它试剂。

在其它实施方案中，可以将核酸样品分成等分试样，随后在测序之前对每个等分试样进行不同的处理(包括“无处理”)。例如，可以保留一个等分试样不做处理，而对另一个进行葡萄糖基化、糖基化、化学修饰等。分析和对比从不同的等分试样产生的序列数据，且序列读出中的差异指示原始模板中和/或修饰模板中的修饰。例如，可以将疑似包含5-MeC和/或hmC核苷碱基的基因组样品分成2俄等分试样A和B。用葡萄糖基转移酶处理等分试样A，以将所有的hmC核苷碱基转化成葡萄糖-hmC，并随后测序。对等分试样B进行TET1处理，以将5-MeC核苷碱基转化成hmC，随后用葡萄糖基转移酶处理，以将所有的hmC(包括在原始核酸样品中的那些)转化成葡萄糖-hmC。在所述2个转化步骤之后，对等分试样B测序。将得自等分试样A中的核酸的测序的动力学特性与得自等分试样B中的核酸的测序的动力学特性进行对比。在2个等分试样中具有葡萄糖-hmC的那些基因座最初是hmC，仅在等分试样B中具有葡萄糖-hmC的那些基因座最初是5-MeC。以此方式，在单分子测序过程中与hmC相关的独特动力学特性可以用于鉴定核酸样品内的hmC和5-MeC。

VII.试剂-核酸相互作用的检测

根据本发明可监测的生物学过程的另一实例是核酸结合剂(例如，蛋白质、核酸或小分子)与单个核酸分子的结合。关于前文所述模板的化学修饰，这类试剂的应用可以用于增强对修饰的检测，例如通过扩增指示修饰的信号。此外，所述方法可用于绘制结合剂的结合位点的图谱，所述结合剂会结合核酸分子中的天然的或未修饰的核苷酸。许多类型的试剂与核酸结合，例如：转录因子、RNA和DNA聚合酶、逆转录酶、组蛋白、核酸酶、限制性酶、复制蛋白A(RPA)、单链结合蛋白(SSB)、RNA结合蛋白、含微RNA的核糖核蛋白复合物、抗DNA抗体、DNA损伤结合剂、修饰剂、能结合变造核苷酸(例如，甲基化)的试剂、小RNA、微RNA、药物靶标等。具体地，转录因子参与基因表达调节，且因而对于疾病（如癌症）的研究极其重要。此外，RPA在复制过程中结合单链DNA，以保持DNA展开和可供聚合酶接近。用于检测转录因子蛋白与DNA分子的结合的现有技术涉及集团检测。本发明的某些方面提供了用于检测转录因子或其它核酸结合剂与单分子DNA的结合的方法。在某些实施方案中，检测与核酸模板结合的结合剂；在某些实施方案中，在结合剂已经脱离或从模板除去以后，检测结合剂所结合的位置。本文所述方法的优点包括、但不限于：提高了对动力学(例如，连接和解离)，基因座结合和统计学分析的分辨率；和更高的灵敏度与简便性。

在某些方面，本发明提供检测核酸结合剂结合单个核酸分子的技术，该技术包括对单分子聚合酶的活性进行实时且高度多重容量的观察，从而高通量筛选多种核酸结合剂(或其它反应组分)。具体地，本发明采用实时单分子DNA测序所用的类似方法，经某些修改，开发了能特征鉴定感兴趣蛋白质结合核酸各方面特征的这类方法。这种测序技术在例如Eid等(前文已纳入)中已有描述，例如在某些优选实施方案中，将一种或多种反应组分固定在反应位点，如ZMW等光学限制件中。可替换地或额外地，通过将反应物固定在基质上的离散的（优选地可光学区分的）位置，例如光学限制件阵列中，可同时监测多个反应。此外，为了防止在所述反应的可检测影响(例如，暂停)之前试剂的置换，可通过反应混合物的不同改变(例如，盐浓度、pH、温度等)或通过改变试剂本身来提高结合。例如，DNA结合蛋白可包含能在测序反应条件下增强其结合的各种突变，如通过降低其结合结构域(例如，甲基结合结构域)的Kd，或通过复制该结构域以提高其在DNA模板邻近处的有效浓度。

在某些优选实施方案中，例如在模板指导的测序反应或合成测序反应中，单个核酸模板结合于测序引擎(例如，聚合酶或逆转录酶)合成新生链。所述模板可以是适合模板指导的测序的任何核酸模板，如单链或双链DNA、RNA或DNA/RNA杂交体。此外，核酸模板可以是线形或环形。例如，如前文和例如同上并入本文的Foquet等和Levene等中所述，在光学限制件如ZMW孔中通过聚合酶结合的dsDNA模板。在促进所述试剂结合模板的条件下，将核酸结合剂，如转录因子或DNA损伤结合剂加入反应混合物。如果该试剂结合模板的位置在聚合酶前方，该结合剂就阻碍了聚合酶沿模板的移位，导致聚合酶移位暂停或完全中止于该试剂结合的位置或相邻位置。实时监测正在进行的测序反应即能测到这种暂停或中止，其表明了(i)所述试剂结合模板的事实，和(ii)所述试剂结合模板的位置，例如根据紧邻暂停或中止前掺入的核苷酸序列。此外，通过统计学分析存在所述试剂时产生的“受结合影响的”(例如，包括暂停或截短的)序列读出，和没有所述试剂时产生的不受结合影响的(例如，全长)序列读出，可确定所述试剂结合位点的共有序列。例如，存在所述试剂时产生的截短序列读出(或可检测暂停的序列读出)，可提供模板上聚合酶推进受阻的位置；在没有所述试剂时产生的全长序列读出可提供结合位点的序列。在某些实施方案中，一起分析紧靠聚合酶推进受阻点下游的模板区域读出的序列，找到它们的共有序列(特异性或简并序列)，确定此共有序列为所述试剂的共同结合位点。这种分析是常规核酸分析，在此不需要进一步阐述。

在某些实施方案中，将感兴趣的核酸结合蛋白引入包含模板核酸池的反应混合物中。在促进结合的条件下使模板核酸池接触所述蛋白质，然后将聚合酶加入到该反应混合物中使之结合模板(例如)含结合的寡核苷酸引物的单链区。该反应混合物还包含一组含可检测标记的核苷酸，该组每种核苷酸连接有在聚合过程中能够光鉴定的不同标记，从而为每种掺入的核苷酸提供不同信号表示此碱基被掺入到新生链中。聚合酶-模板复合物固定在基质上，使得各复合物发射的信号与基质上其它复合物发射的信号可光学区分。优选所述反应混合物缺乏聚合所需的某组分以防止固定前聚合酶的活性。然后将该组分加入反应混合物中，使聚合酶开始合成与其所结合模板互补的核酸链。对于该蛋白不结合的那些模板，光学限制件中的合成继续畅通无阻，模板被完整测序，产生模板的全长序列读出。相反，聚合酶加工结合了所述蛋白的模板，推进到遭遇模板上结合的蛋白，此时聚合酶暂停或停止聚合互补链。这种受阻聚合酶-模板复合物产生的截短序列将提供模板中该蛋白结合位点上游的序列信息。对单分子水平和模板池的全部序列信息的统计学分析可用于鉴定被所述蛋白质结合(或不结合)的特定核酸模板以及鉴定该蛋白质结合的位置。例如，可用此技术绘制模板上特定蛋白的结合位点（如序列特异性或损坏/损伤特异性结合位点）的图谱。

不难改进此试验以测试各种反应条件（例如，pH、离子强度、温度、离子浓度(例如，二价金属离子浓度)、以及诸如药物、抗体或结合竞争剂等试剂的存在或缺乏）的影响。可影响掺入动力学的其它反应条件变化包括：与要掺入新生链中的核苷酸类似物连接的磷酸的数目，和将荧光团与磷酸酯基团（例如，末端磷酸酯基团）连接的接头的结构。可利用这些试验来鉴定最适反应条件，例如，导致正在进行的测序反应暂停或中止、或者结合模板核酸池中的特定亚组的最适反应条件。此外，可利用此试验来测试已知核酸结合蛋白的变体和/或突变体，以筛选具有所需特征（例如能在严谨条件下结合，或结合的序列特异性有所改变）的突变体。也可利用此试验来测试聚合酶变体和/或突变体的所需特征，例如绕过特定核酸结合蛋白的能力。此外，通过用不同的核酸模板池进行该试验，可以探索结合的特异性。

在某些实施方案中，所述核酸结合蛋白是含有特定共有结合序列的转录因子(TF)，所述共有结合序列例如TGACTCA（就AP1而言）或GGACTTCC（就NF-κB而言）。含有共有结合序列的DNA模板分子被TF结合于该序列，不含共有结合序列的那些则不被TF结合。当移位聚合酶遭遇结合的TF时，聚合酶停止聚合，且从复合物发射的信号的停止会指示与模板结合的TF，因此该模板含有所述共有结合序列。如上面所指出的，可测试不同反应条件对TF结合或聚合酶绕过TF或从模板上替换TF的能力的影响。

统计学分析TF结合的DNA模板所产生的序列信息，用其进一步特征鉴定所述TF，例如，通过(i)鉴定TF靶向的基因，如利用公众可获得的基因组序列数据；(ii)鉴定共有结合序列，如利用在没有TF时同一模板产生的序列数据；(iii)研究多个转录因子的相互作用；(iv)研究其它蛋白、小分子等对TF结合的调节；(v)检测结合的温度灵敏性；(vi)鉴定和特征分析，特定DNA结合蛋白在如细胞提取物中的丰度。例如，可比较a)不同的组织、细胞系、细胞发育阶段、种或亚种之间；b)健康与患病样品之间；c)存在与缺乏环境应激因素和/或不同试剂(例如，药物、毒素等)时DNA结合蛋白的身份和丰度。还有，可检测反应混合物中的不同组分，如TF、聚合酶、模板等的变体和突变体，以鉴定具有特定的所需特征，如紧密结合、蛋白置换活性、对TF有更高结合亲和力的非共有结合序列等的那些变体和突变体。

以前结合的试剂的图谱的绘制

在某些方面，本发明提供了在结合剂已经从核酸脱离或已经从核酸除去以后，绘制核酸上的结合位点的图谱的方法。在某些优选的实施方案中，结合剂/修饰剂会将一种或多种修饰引入核酸中，在所述试剂不再与核酸结合以后，可以在单分子测序过程中检测出所述修饰。例如，这样的结合剂/修饰剂可以是结合剂和修饰剂之间的复合物，所述复合物将一种或多种修饰引入所述结合剂结合的核酸分子中。在引入一种或多种修饰以后，所述结合剂/修饰剂从核酸分子除去，且在单分子测序过程中检测所述修饰，以绘制结合剂以前结合的核酸分子的部分的图谱，例如，使用序列数据和反应期间的聚合酶活性。在某些优选的实施方案中，所述结合剂是转录因子，且所述修饰剂将修饰(例如，甲基、糖基、损伤等)引入在转录因子的结合位点内或附近的一个或多个核苷酸处。例如，DamID是这样的技术：其中使用转录因子-Dam甲基转移酶融合蛋白来绘制转录因子的结合位点的图谱，其中在发生腺苷的结合和腺苷向N⁶-甲基腺苷的转化的条件下，将核酸样品暴露于融合蛋白，并通过甲基化敏感的PCR检测甲基化的碱基(参见，例如，van Steensel,等人.(2000)Nat.Biotechnol.18(4):424-428;van Steensel,等人.(2001)Nat.Genet.27(3):304-308;Orian,A.(2006)Curr.Opin.Genet.Dev.16(2):1-8;Moorman,等人.(2006)Proc.Natl.Acad.Sci.USA103(32):12027-12032；和Greil,等人.(2006)方法Enzymol.410:342-359，它们都通过引用整体并入本文用于所有目的)。本发明对该方法进行了至少部分地改进，得到了用于在单分子测序过程中检测修饰碱基的更有效的且高通量的方法，其中，在对转录因子结合的或曾经结合的核酸分子测序的同时，绘制转录因子的结合位点的图谱。在本文别处进一步描述了N⁶-甲基腺苷的单分子测序。

在某些实施方案中，本文所述的方法也可用于检查结合剂(例如，转录因子、组蛋白等)与单一反应混合物内的不同核酸序列的结合亲和力。例如，将核酸制品(例如，基因组DNA)暴露于有限量的特定结合剂/修饰剂，随后测序以不仅鉴定修饰碱基，而且鉴定所述试剂结合的一个或多个结合位点。将该序列数据与没有修饰的核酸制品的核酸序列进行对比，以确定结合位点在所述制品内的频率。分析这些数据，以确定所述结合剂对每个结合位点的亲和力。例如，在核酸制品中稀少的、但是被所述结合剂/修饰剂频繁结合的结合位点，会被鉴定为所述结合剂具有高亲和力的那些结合位点。同样地，在核酸制品中常见的、但是所述结合剂/修饰剂很少结合的结合位点，会被鉴定为所述结合剂具有低亲和力的那些结合位点。

结合剂/修饰剂包含可以与结合剂连接并对结合剂的结合位点附近的一个或多个碱基进行修饰的任意修饰剂。适用于包含在结合剂/修饰剂中的某些示例性的且非限制性的修饰剂包括：Dam甲基转移酶(上述)、Dcm胞嘧啶甲基转移酶、CpG胞嘧啶甲基转移酶(例如，DNMT1、Sss1等)、C4-胞嘧啶甲基转移酶、羟化酶(例如，TET1蛋白，其将甲基胞嘧啶转化成羟甲基胞嘧啶)、糖基化酶、核酸损伤剂(例如，核酸酶)或它们的组合。可以起修饰剂作用的其它酶参见Lakshminarayan,等人.(2009)Cell Cycle 8(11):1698-1710，其通过引用整体并入本文用于所有目的。

在某些实施方案中，与单一结合剂连接的单一修饰剂可以将多个修饰引入所述结合剂结合的核酸中，例如，在存在修饰剂的多个不同的识别序列且在修饰剂的到达范围内的情况下。例如，连接结合剂的接头可以具有一定长度和柔性，以促进在结合位点处或附近（例如，在结合位点的上游和下游）的多个修饰。在结合位点处或附近的这样的多个修饰事件可以促进精确结合位点的更特异性的绘图，例如，通过增加修饰剂发现要修饰的序列的可能性。例如，在结合位点的商业和下游做出的修饰会指示位于模板的中间位置处的结合位点。但是，在仅引入一个或几个彼此紧密靠近的修饰的情况下，在修饰位置中的这种柔性还可以使结合位点的绘图复杂化。例如，如果用允许上游和下游修饰的柔性接头连接修饰剂和结合剂，可能不清楚与单一修饰有关的结合位点的地方。如此，在某些实施方案中，硬性接头可以帮助定向具有结合位点的修饰位点。

在某些实施方案中，将修饰剂的组合连接至单一结合剂，使得多个不同类型的修饰可以引入结合位点处或附近。与单一修饰相比，多个不同的修饰将对新生链合成过程中聚合酶在结合位点处的活性具有更大的影响，并由此通过有效地增加该区域中的“信号”而增强结合位点的检测和绘图。另外，鉴于某些修饰剂表现出序列特异性，并且在一个基因座处的结合位点序列周围的序列背景可以随在不同基因座处的相同结合位点序列周围的序列背景而变化，所以在单一结合剂上连接多个不同类型的修饰剂会增加下述可能性：通过有效地扩宽将要在其中发生修饰的序列背景(例如，CpG二核苷酸比GATC四核苷酸更频繁地出现在基因组中)，将在未知序列背景内的给定结合位点序列处引入修饰。可以使用柔性的或硬性的接头或不同接头类型的组合，将修饰剂与结合剂连接。

此外，通过识别在经修饰的核苷附近的未被修饰的一个或多个核苷，还可以增进结合位点的精确绘图。修饰的存在会指示修饰剂的存在，并且对经修饰的碱基的修饰的缺失会提供关于结合剂/修饰剂的构象及其在核酸分子上的放置的信息。如此，在给定区域具有2个供修饰的位点且仅一个位点被修饰的情况下，在另一个位点处的修饰的缺失可以指示它在结合剂的“足迹”内的存在，或者可替换地，它在结合剂/修饰剂的到达范围之外。进一步，多个修饰（无论是由与结合剂连接的单个还是多个修饰剂造成）可以进一步区分这2种可能性。

在某些实施方案中，在单一反应混合物中测试多种不同结合剂在一个或多个核酸模板上的结合。将每种不同的结合剂连接至独特的修饰剂(或多个)，使得在所述模板内检测到的修饰会指示特定结合剂/修饰剂的存在。例如，基于引入的修饰的类型，可以区别具有相同的或未知的共有结合位点的2种不同结合剂的结合。可替换地或另外，在已知关于结合剂的结合位点的序列的信息的情况下，得自修饰区域的序列数据还可以用于鉴定与该区域结合的结合剂。例如，具有2个不同共有结合位点的2种不同结合剂可以连接至相同类型的修饰剂。修饰的存在指示，结合剂/修饰剂被结合，并且所述区域的序列会鉴定特定结合剂。可以在给定的实验内同时地或顺序地测试多个不同的结合剂/修饰剂，例如，通过共存或通过分别添加，例如，经由缓冲液更换。在其中具有相同的或重叠的结合位点的不同结合剂共存的实验，也允许检查对结合位点的竞争和亲和力。

进一步，在2种不同修饰剂连接至目标复合物的2种不同组分的情况下，还可以监测复合物形成。引入给定基因座的核酸中的2种不同修饰的鉴定，会指示在该基因座处的复合物形成。两种组分可以是在复合物形成过程中与核酸结合的结合剂，或者第一种组分可以结合核酸，而第二种组分结合所述第一种组分。

尽管所述方法特别适用于转录因子结合位点的检测和绘图，也预见到这些方法用于绘制其它种类结合剂的结合位点图谱的用途。此外，可以同时测试不同种类的结合剂的组合，例如，以阵列化的形式。特别感兴趣的是，绘制下述物质的结合位点的图谱：组蛋白、复制蛋白A(RPA)、单链结合蛋白(SSB)、RNA结合蛋白、含微RNA的核糖核蛋白复合物、抗-DNA抗体、和结合改变的或受损的核苷酸（其否则不会通过单分子测序反应过程中聚合酶活性的改变而检测出）的试剂，这不仅反映结合剂在核酸分子上的定位，而且反映经修饰的或受损的核苷酸本身。最后，尽管优选地在测序之前除去结合剂/修饰剂，在某些实施方案中，所述测序可以在有结合的试剂存在下进行，例如，在聚合酶能够在反应过程中置换结合的试剂的情况下，或者研究人员渴望仅仅收集在结合的试剂上游的序列数据。在这样的情况下，额外修饰可以用于增强否则当聚合酶遇到未与修饰剂连接的结合的试剂是会检测到的暂停或其它动力学应答。

交联促进的结合剂检测/绘图

在某些方面，通过使结合的试剂与它们所结合的核酸交联，会促进结合的试剂的检测。CLIP(交联和免疫沉淀)是一种常用的技术，其中在体内使结合的蛋白与RNA交联，以便确定所述蛋白在RNA上结合的地方。在交联以后，从细胞取出RNA，将其片段化，进行RNA酶消化、免疫沉淀和SDS-PAGE纯化，以分离被蛋白结合的RNA片段，同时除去未结合的片段。随后从所述RNA片段除去结合的蛋白，例如，通过降解。得到的约20-40个核苷酸的RNA片段被称作“序列标签”，且代表在所述交联时被蛋白结合的原始RNA区域。对所述序列标签(或“CLIP标签”)进行RT-PCR，以产生RNA片段的cDNA“拷贝”。对所述cDNA拷贝测序，以鉴定在所述RNA中被蛋白结合的特定区域，但是即使在测序以后，也没有确定精确的交联位置。相反，简单地推断，蛋白结合在RNA中与给定的序列标签相对应的20-40个核苷酸内的某处。

本发明提供了一种用于确定核酸和结合的试剂之间的交联位点的更精确方法，且因此提供了一种精确地确定核酸结合试剂的地方的更准确方法。在某些实施方案中，通过标准的CLIP方法，通过除去结合的试剂来制备目标核酸。但是，结合的试剂的除去会产生经修饰的核苷，因为交联的残余物保留在以前与结合剂交联的核苷上。尽管这些经修饰的核苷酸通过常规CLIP测序不可检测出，本文提供的单分子实时测序方法对经修饰的核苷酸是敏感的，正如本文所详述的。简而言之，通过使用经修饰的核酸作为模板来观察在新生链合成过程中的聚合酶活性，可以检测出这些修饰，因为聚合酶的动力学特性(例如，速率、误差特性等)的改变会指示模板中的经修饰的碱基。如此，该方法不仅提供会结合剂所交联的核酸片段的序列，而且会提供以前交联的核苷在所述片段内的精确位置。该方法的一个有益方面是，cDNA转化不是RNA核酸所必需的(在CLIP方法中则是必需的)，因为通过RNA依赖性的聚合酶(例如，逆转录酶)对RNA直接测序。

可以实现该方法的不同改进。例如，可以使用它方法来绘制在可与结合的试剂发生交联和随后测序的任意种类的核酸上的结合位点图谱，所述核酸例如RNA、DNA、RNA-DNA杂交体、包含额外修饰的核酸等。此外，所述交联不需要在体内进行，且可以替代性地在体外进行，例如为了从生物样品中筛选针对许多已知核酸的结合剂，或者为了从生物样品中筛选针对许多已知结合剂的核酸。此外，RNA酶消化也不是必需的，因为本文的测序方法能够对长核酸片段测序，且因为可以特异性地确定（而不是推断）交联位点。进一步，标准的CLIP在蛋白除去之前使用凝胶纯化来分离片段，但是该步骤对于单分子实时测序而言不是必需的，因为对每个片段单独测序。但是，在某些实施方案中，可能希望富集以前交联的片段，例如，通过凝胶纯化、柱色谱法和本领域已知的其它方法。另外，在某些实施方案中，在测序之前不除去结合的试剂。如本文别处所述，与模板链结合的试剂会改变聚合酶活性，且在即将改变之前的序列读出信息允许绘制结合的试剂在模板上的图谱。但是，在优选的实施方案中有益的是，除去结合的试剂，例如，当它们的存在会永久性地阻断聚合酶和希望在结合位点下游的序列读出时。在其它实施方案中，免疫沉淀步骤可以发生在以后将进行结合核酸的测序的反应位点处。例如，反应位点可以包含结合的抗体（以免疫沉淀目标结合剂）以及聚合酶（以对结合的核酸分子测序）。在反应位点阵列中，通过控制在每个反应位点处定位哪种抗体，可以控制在阵列上的每个反应位点处对哪个结合位点测序。可以任选地在聚合酶与核酸结合之后且在测序反应开始之前，从核酸除去结合的试剂。

在某些方面，通过在暴露于目标结合剂之前将修饰碱基掺入核酸中来促进交联。光可活化的核糖核苷增强的交联和免疫沉淀（PAR-CLIP）是这样的技术：其中在有光可活化的核苷（优选硫醇修饰的4-硫代尿苷（s4U），尽管可以使用其它光可活化的核苷，例如，6-硫代鸟苷（s6G）、2-硫代胞嘧啶（s2C）和4-硫代胸苷（s4T））存在下培养细胞，并随后暴露于紫外线，以使包含光可活化的核苷的RNA与RNA结合蛋白（RBP）和/或含微RNA的核糖核蛋白复合物（miRNP）（它们正所述RNA相互作用）交联。在免疫沉淀和RNA酶处理以降解未被RBP和/或miRNP结合的RNA模板以后，分离结合的模板的剩余部分，例如，通过放射性标记和随后的SDS-PAGE。分离模板以后，可以除去结合的试剂，并用逆转录酶将模板转化成cDNA。对得到的cDNA进行测序，并使用误掺入事件来鉴定修饰碱基和绘制其图谱。例如，交联的s4U核苷在cDNA模板中的存在会造成G在测序过程中被误插入互补链中与s4U核苷相对处。对在得到的序列读出数据中的T至C转变评分(相对于已知的野生型多核苷酸序列)，会实现RBP和/或miRNP在RNA内的结合位点的绘图。

本发明提供了使用单分子测序对常规PAR-CLIP技术的不同改进，以在测量聚合酶动力学的同时确定一级核酸序列，从而检测经修饰的和/或交联的(或以前交联的)核苷碱基。与上述的常规PAR-CLIP方法类似，使在目标核酸中的光可活化的核苷与所述核酸所结合的试剂交联。该交联可以在体外进行，或者它可以任选地在体外进行，在该情况下，需要通过本领域技术人员已知的方法从细胞取出交联的核酸。不同于常规PAR-CLIP，本发明提供了一种用于直接测序交联的RNA而无需将它转化成cDNA的方法，例如，通过用逆转录酶或其它RNA依赖性的聚合酶进行单分子实时测序反应。交联和/或结合的试剂的存在将会改变聚合酶动力学，从而促进它们的检测。例如，通过检测G在新生链针对误参入、检测与尿苷相比改变的差错率(例如，高同源或非同源采样率)、和检测与尿苷相比改变的动力学(脉冲宽度和脉冲间隔期)，可以直接绘制s4U的位置图谱。

与不需要cDNA转化一起，本文提供的直接测序方法存在额外的益处。例如，它可以用于绘制在包含经修饰的碱基的任一类核酸上的结合位点图谱，所述碱基经历与结合的试剂的交联且可以经历随后的测序，所述核酸例如RNA、DNA、RNA-DNA杂交体、包含额外修饰的核酸等。此外，不需要RNA酶(或其它核酸酶)处理，因为本文的方法可以区分交联的修饰碱基和未交联的那些。实际上，优选的是，对长模板测序，因为长测序读出通常更容易与已知序列（例如，得自基因组序列数据库）对齐和绘图。但是，如果希望减小模板的大小或除去未交联的经修饰的核苷，可以任选地进行RNA酶处理。也不需要对交联的核酸进行放射性标记和凝胶纯化。相反，可以将交联的和未交联的核酸制品应用于许多可光学区分的聚合酶，并可以在每个聚合酶处对在单个核酸分子测序。在每个单分子上的序列读出和酶动力学用于鉴定哪个分子具有经修饰的核苷和哪个分子与或曾与结合的试剂交联。尽管如此，如果希望降低核酸样品的复杂性或仅对交联的核酸进行测序，可以通过SDS-PAGE或本领域已知的其它方法分离那些分子。最后，在某些实施方案中，在测序之前不除去结合的试剂。如本文别处所述，与模板链结合的试剂会改变聚合酶活性，且在即将改变之前的序列读出信息允许绘制结合的试剂在模板上的图谱。但是，在其它实施方案中有益的是，除去结合的试剂，例如，如果它们的存在会永久性地阻断聚合酶和希望在结合位点下游的序列读出。以此方式，可以使用单分子实时测序直接将结合位点映射至RNA，无需额外的cDNA转化步骤。另外，如本文别处所述，简单地将天然碱基转化成经修饰的碱基，可以通过改变聚合酶在经修饰的碱基处的行为而促进模板的测序。在要测序的长模板具有多个修饰碱基且仅其中的一些与结合的试剂交联的情况下，这是特别重要的。在这样的实施方案中，未交联的和交联的修饰碱基可彼此区分开，且也可与模板的未修饰碱基区分开。在其它实施方案中，免疫沉淀步骤可以发生在以后将进行结合核酸的测序的反应位点处。例如，反应位点可以包含结合的抗体（以免疫沉淀目标结合剂）以及聚合酶（以对结合的核酸分子测序）。在反应位点阵列中，通过控制在每个反应位点处定位哪种抗体，可以控制在阵列上的每个反应位点处对哪个结合位点测序。可以任选地在聚合酶与核酸结合之后且在测序反应开始之前，从核酸除去结合的试剂。关于CLIP和PAR-CLIP在转录组研究中的应用的更多信息，参见Hafner,等人.(2010)Cell 141:129-141;Wang,等人.(2009)Methods 48(3):287-93;Ule,等人.(2003)Science 302:1212-1215；和Ule,等人.(2005)Methods 37(4):376-86，它们通过引用整体并入本文用于所有目的。

当以阵列形式实施时，这类研究会是高度并行的、运行高通量筛选试验。在高度多通路的共聚焦荧光显微镜系统上进行阵列反应(参见，例如，Lundquist等，如上并入本文)，所述仪器从阵列各反应位点检测荧光信号实现高度并行操作。虽然优选的实施方案采用本文另述的零模式波导阵列，但这些阵列也可采用全反射荧光(TIRF)显微术或波导技术等能进行实时单分子检测的其它系统。

虽然就核酸结合蛋白描述了某些实施方案，但应理解本文所述的方法和系统同样可应用于能使模板指导新生核酸分子的持续合成暂停、中止或中断的其它核酸结合剂，如核酸及其类似物和模拟物(例如，蛋白核酸)、脂质、糖-寡酰胺、插入染料、大沟和小沟的结合剂等。

VIII.作为分析工具的核酸结合剂

在某些方面，本发明的方法、组合物和系统采用核酸结合剂来检测和/或逆转核酸分子中的修饰。通常用这类试剂来增强聚合酶对模板核酸中的修饰的应答。用本文所述方法检测试剂与模板的结合，无论是对下文所述的修饰或只是对上文所述模板序列中未修饰识别位点作出的应答。此外，也可检测并比较各种试剂对产生、检测或绕过核苷酸修饰的影响。例如，可用各种不同方法(例如，用和不用核酸结合剂)处理模板，然后进行单分子合成测序，监测序列读出是否产生中断，这是所述试剂结合模板的特征。在其它实施方案中，在存在不同试剂和/或反应条件下，对含已知修饰的模板进行单分子合成测序。监测反应中聚合酶对带修饰模板的活性以确定任何试剂的存在或其它条件是否影响聚合酶绕过所述修饰或在修饰处暂停的能力。

在某些具体实施方案中，甲基化与未甲基化DNA之间的脉冲间隔期和/或脉冲宽度差异的加剧涉及DNA结合蛋白。业已证明某些DNA聚合酶在遭遇DNA结合蛋白复合物处停顿(参见，例如，M.Elias-Arnanz,等人,EMBO J 1997,16,5775，其通过引用整体并入本文用于所有目的)。在SMRT^TM测序中，测到异常长的脉冲间隔期停顿，当结合蛋白从DNA模板解离或被移位的聚合酶置换时该停顿结束。有许多能稳定且特异性结合甲基化DNA的蛋白质，包括人MBD蛋白家族成员，它们都含甲基-CpG结合结构域(MBD)。例如，MECP2、MBD1、MBD2和MBD4都能特异性结合甲基化DNA，参与抑制甲基化基因启动子的转录。预计这些蛋白结合模板核酸可导致移位聚合酶暂停于该蛋白结合处附近。因此，单分子测序反应暂停期延长，表示模板核酸中存在甲基化碱基。因此，所述蛋白是否紧密结合于靶核酸序列很重要。天然MBD蛋白对甲基-CpG序列的亲和力Kd值只是微摩尔级，因此经工程改造能更紧密结合甲基化模板序列的MBD蛋白可提高甲基化碱基的检测能力。例如，Jorgensen,等人,Nucleic Acids Research 2006,34(13),e96提供了多聚化的MBD1蛋白。这种工程改造的蛋白含有一个Kd较低(亚微摩尔)的甲基结合结构域或多个甲基结合结构域以提高甲基结合结构域在甲基化DNA模板附近的有效浓度。B.Hendrich,等人,MolCell Biol 1998,18(11),6538；和I.Ohki,等人,EMBO J 2000,18(23),6653提供了MBD蛋白家族的更多信息。

此外，哺乳动物UHRF1(泛素样蛋白，含PHD和RING指结构域1)蛋白能紧密结合甲基化DNA并能维持结合。此蛋白的SRA结构域结合DNA的晶体结构显示，5-MeC翻出DNA二聚体并通过疏水性堆叠和与SRA蛋白残基形成氢键而得以稳定(参见，例如，G.V.Avvakumov,等人.和H.Hashimoto,等人,二者出处同上)。此外，McrBC是一种内切核酸酶，其在一条或两条链上切割含有5-甲基胞嘧啶或5-羟甲基胞嘧啶或N4-甲基胞嘧啶的DNA，但是不会作用于未甲基化的DNA。McrBC需要GTP才能切割，但是在有GTP的不可水解的类似物存在下，该酶将特异性地结合甲基化的DNA，而不切割(参见，例如，Irizarry,R.A.等人.(2008)Genome Res.,18,780-790；和Hublarova,P.等人.(2009)Int JGynecol Cancer,19,321-325，它们的公开内容通过引用整体并入本文用于所有目的)。最后，免疫沉淀甲基化DNA所用的抗5-MeC单克隆抗体也能特异性结合甲基胞嘧啶(参见，例如，N.Rougier,等人,Genes Dev1998,12,2108；和M.Weber,等人,出处同上，它们通过引用整体并入本文用于所有目的)。所有上述蛋白质都是在SMRT^TM测序期间干扰DNA聚合酶正常持续合成能力的候选试剂。为了增强、减弱或以其它方式调节它们的停顿聚合酶的效果，也可工程改造这些蛋白中的任一种，以改变它们对甲基化DNA位点的亲和力。例如，通过将突变引入它们的活性部位或参与结合的其它结构域。参见，例如，H.F.Jorgensen,等人,Nucleic Acids Res 2006,34,e96，其公开内容通过引用整体并入本文用于所有目的。例如，为了确保蛋白可以在置换之前造成暂停，可以改变弱结合蛋白以增加结合强度。同样地，为了允许聚合酶对蛋白的最终置换，可以改变具有高结合强度的蛋白以减弱结合强度。

在其它实施方案中，采用抗5-MeC抗体来结合模板核酸中的5-MeC，类似于在甲基化的DNA免疫沉淀试验中所用的方法(M.Weber,等人,Nat Genet 2005,37,853)。因此，这种抗体实际上被用作信号的增强剂，所述信号通过聚合酶动态的改变表明模板中存在这种修饰的。如本文别处另外描述的，可用可检测标记来标记这类反应的各种组分，如抗体、模板、掺入核苷酸和它们的组合。

在其它实施方案中，可利用甲基转移酶进一步促进甲基修饰模板核酸的检测。如上所述，DNA甲基转移酶根据甲基化位点的识别通过催化将甲基加入到DNA中。对于某些甲基转移酶(例如，维持性甲基转移酶)，核酸中的大多数活性结合位点是半甲基化位点，即核酸的一条链被甲基化而其相反链未甲基化。因此，优选无酶活性(即不能甲基化核酸)的甲基转移酶结合DNA的半甲基化链。在实时模板指导的测序反应中，甲基化的单链模板在新生链合成后变成半甲基化。因此，可实时测得带可检测标记的甲基转移酶与合成反应的半甲基化产物的相互作用。

在某些实施方案中，采用允许聚合酶滚环合成的环形模板，合成中单链环形模板转化成双链环形模板。在优选的实施方案中，所用的聚合酶能进行链置换，使得在沿模板推进一周后它开始随着合成的继续置换前方的新生链。此过程最终产生含与原始模板分子互补的多个拷贝的长多联体。在这类系统中，单链甲基化模板转化成双链半甲基化模板。反应混合物中的甲基转移酶可结合该半甲基化位点，如果带有可检测标记，不难实时监测这种结合。当聚合酶遭遇结合的甲基转移酶时，在甲基转移酶解离前可测得暂停(聚合反应)。可利用所得序列读出中的暂停位置绘制模板分子中甲基化位点的位置图，即使该甲基转移酶没有可检测标记。例如，可利用所述暂停来鉴定甲基转移酶的结合，如在甲基转移酶不含可检测标记时，在这种情况下，甲基转移酶的基本作用是延长在甲基化位点的暂停时间，因而有利于模板核酸中这种位点的鉴定。

也可用核酸结合剂检测和/或逆转其它类型的修饰。例如，在所有类型的DNA损伤中，活性氧(ROS)造成的碱基氧化损伤被视为需氧生物细胞死亡和突变的主要原因(参见，例如，Finkel,等人.(2000)Nature408(6809):239-47，其通过引用整体并入本文用于所有目的)。DNA氧化损伤(例如，脱碱基位点)主要通过碱基切除修复(BER)途径识别和修复(参见，例如，Fromme等人.(2004)Adv Protein Chem 69:1-41，其通过引用整体并入本文用于所有目的)。在人类中，检测和修复常见氧化损伤7,8-二氢-8-氧代鸟嘌呤(“8-氧代鸟嘌呤”)的BER途径始于人氧代鸟嘌呤DNA糖基化酶1(hOgg1)对损伤的识别，该酶是一种DNA糖基化酶/脱嘌呤(AP)裂解酶(参见，例如，Klungland,等人.(2007)DNA Repair(Amst)6(4):481-8，其通过引用整体并入本文用于所有目的)。

修饰的碱基8-氧代鸟嘌呤的具体讨论同上。近年hOgg1的荧光和结晶学研究发现，该酶对DNA氧化损伤8-氧代鸟嘌呤的识别通过扫描DNA二聚体、翻出DNA碱基并将损伤碱基从预先取样的结合位点转移到损伤识别位点而完成。单分子实验揭示了hOgg1在DNA二聚体上的快速滑动活性。关于这些研究的更详细信息，参见Banerjee,等人.(2005)Nature 434(7033):612-8,和Blainey,等人.(2006)Proc Natl Acad SciUSA 103(15):5752-7，它们的公开内容通过引用整体并入本文用于所有目的。

在某些实施方案中，本发明提供的方法将核酸模板暴露于损伤识别剂，该试剂结合模板核酸中的损伤核苷酸，阻断沿该模板移位的聚合酶绕过该损伤处。这种阻断导致该反应位点的掺入依赖信号中止，从而表示损伤识别剂已结合于模板中的损伤核苷酸。在某些方面，所述方法还包括使损伤模板接触附加的能修复损伤的反应组分，该组分使模板恢复并允许损伤识别剂脱离原先损伤的核苷酸。损伤修复机制的元件(例如，碱基切除修复(BER))可以在最初的反应混合物中提供，或可以加入正在进行的反应中。如果聚合酶暂停但没有解离，聚合反应可在完成DNA修复且修复机制从模板解离或移位离开原先损伤位点后继续进行。

在优选的实施方案中，损伤识别剂是BER中涉及的蛋白质，如DNA糖基化酶/脱嘌呤(AP)裂解酶，如hOGG1(人氧代鸟嘌呤DNA糖基化酶1)、yOGG1(hOGG1的酵母菌类似物)、FPG蛋白(MutM；hOGG1的细菌类似物)和本领域已知的其它蛋白。可用作损伤识别剂的其它蛋白包括：其它DNA糖基化酶，如AlkA、Nth、Nei、MutY、尿嘧啶DNA糖基化酶(UDG)、单链选择性单功能尿嘧啶DNA糖基化酶(SMUG)、胸腺嘧啶DNA糖基化酶(TDG)、NEIL(例如，hNEIL1和hNEIL2)等。用于使修复结合了损伤识别剂的损伤模板的反应组分包括，例如AP内切核酸酶、DNA聚合酶β和连接酶，及本领域已知的其它组分。参见，例如，McCullough,等人.(1999)Annu Rev Biochem 68:255-85，其通过引用整体并入本文用于所有目的。此外，在分析反应中，也可包括促进损伤识别的其它蛋白质，如发现HAP1(APE1)蛋白能促进hOGG1的活性(Vidal,等人.(2001)Nuc.Ac.Res.29(6):1285-1292)。

在某些实施方案中，模板指导的测序反应包括一种以上的聚合酶，模板核酸可存在一处或多处损伤。例如，在原核和真核生物中都已发现“绕道聚合酶”，其中大多数属于聚合酶Y家族和/或被视为修复聚合酶。与复制性聚合酶相反，它们的操作速度低、保真度低、持续合成能力低。然而，由于它们的活性部位采取比复制性聚合酶更开放的构型，它们的严谨性较差可在活性部位容纳变造的碱基。绕道聚合酶的更多信息，参见，例如，Cordonnier,等人.(1999)Mol Cell Biol 19(3):2206-11;Friedberg,等人.(2005)Nat Rev Mol Cell Biol 6(12):943-53;Holmquist,等人.(2002)Mutat Res 510(1-2):1-7;Lehmann,A.R.(2002)Mutat Res509(1-2):23-34;Lehmann,A.R.(2006)Exp Cell Res 312(14):2673-6;Masutani,等人.(1999)Nature 399(6737):700-4；和Ohmori,等人.(2001)Mol Cell 8(1):7-8，它们的公开内容通过引用整体并入本文用于所有目的。这些聚合酶的某些能绕过核酸模板中的损伤处进行“跨损伤合成”或TLS。因此，发现存在这种损伤时的DNA复制要求多种聚合酶，因而开发了“聚合酶开关模型”(参见，例如，Friedberg,等人.(2005)NatRev Mol Cell Biol 6(12):943-53;Kannouche,等人.(2004)Cell Cycle3(8):1011-3;Kannouche,等人.(2004)Mol Cell 14(4):491-500；和Lehmann,等人.(2007)DNA Repair(Amst)6(7):891-9，它们都通过引用整体并入本文用于所有目的)。简言之，聚合酶开关模型是复制期间绕过损伤处的模型，其涉及在损伤处用绕道聚合酶置换复制性聚合酶，该绕道聚合酶合成新生链直到通过损伤处，然后用持续合成能力更强、保真度更高的复制性聚合酶置换该绕道聚合酶继续损伤处过后的复制。

在某些优选的实施方案中，模板指导的核酸测序反应包括一种或多种绕道聚合酶。例如，在反应过程中复制性聚合酶遭遇模板中的损伤处被阻断时，在损伤位点用绕道聚合酶置换复制性聚合酶，该绕道聚合酶在“跨损伤合成”过程中合成能与损伤碱基配对的新生链区段，还可以包含损伤位点前和/或后的一个或多个碱基。绕道聚合酶因持续合成能力有限致使其在跨损伤合成后脱离并被复制性聚合酶置换。复制性聚合酶继续合成新生链直到遭遇该模板中的另一阻断性损伤处，在该处再次用绕道聚合酶置换进行跨损伤合成(参见，例如，Friedberg,等人.(2005)Nat Rev Mol Cell Biol 6(12):943-53；和Kannouche,等人.(2004)MolCell 14(4):491-500，通过前文引用并入本文)。继续此过程直到模板复制完成或反应终止，如被研究人员终止。该模板依赖测序的聚合酶开关方法的一个特别优点是它能容忍模板核酸中的大多数类型损伤。因此，可通过损伤处对受损模板测序，从而允许损伤处下游合成的重新启动，增加含损伤模板的序列读出长度。

本领域普通技术人员知道各种不同的绕道聚合酶可用于本文所述的方法和组合物，包括原核聚合酶(例如，DNA聚合酶IV、聚合酶V、Dpo4、Dbh和UmuC)及真核聚合酶(例如，DNA聚合酶η、DNA聚合酶ι、DNA聚合酶κ和Rev1)。在真核生物中，多种绕道聚合酶参与跨损伤合成，还需要持续合成因子细胞增殖核抗原(“PCNA”)，其可包括在测序反应中

在某些优选实施方案中，在模板依赖合成反应期间固定模板或引物，以确保聚合酶开关时模板保持在反应位点。替代或补充地，可将一种或多种聚合酶固定在反应位点。本文另已提供了用于本发明不同方面的各种固定方法。

由于新生链中对应于模板损伤位点的部分是由绕道聚合酶合成，预计从其产生的序列读出的可靠性不如复制性聚合酶合成的新生链产生的序列读出。因此，产生完整和精确的序列读出的优选方式是在测序反应期间产生冗余序列信息。本文对实现冗余度的各种方法另有描述，包括用相同的原始模板进行多次测序反应，组合多次反应产生的序列数据作统计学分析以确定模板的共有序列。例如，模板第一拷贝中用低保真度绕道聚合酶复制得到的某区域的序列数据可利用模板第二拷贝中由高保真度复制性聚合酶复制相同区域得到的序列数据进行补充和/或校正。此外，可扩增模板(例如，经由滚环扩增)产生含模板多个拷贝的多联体，然后测序产生内部冗余的序列读出。绕道聚合酶复制的该多联体第一区段(对应模板第一区)的序列数据可用复制性聚合酶复制的该多联体第二区段(也对应模板第一区)的序列数据补充和/或校正。此外，如上所述，冗余度也有利于鉴定和特征分析多个模板同一位置发生的损伤，或对模板中的一个损伤进行重测序。例如，由于绕道聚合酶掺入的碱基很杂乱，含损伤区域的充分序列读出可能中不同序列读出中显示一个以上的“互补碱基”被掺入到同一位置，检测到这种杂乱表示模板核酸中该位置有损伤。

在某些实施方案中，反应混合物中的聚合酶可包含可检测标记以显示聚合酶与模板核酸结合，例如，绕道聚合酶可含有能显示它正在进行跨损伤合成的可检测标记。因此可以将此时掺入新生链的核苷酸鉴定和“标示(tagged)”为对应于模板含有一处或多处损伤的区域，从而可以针对这些序列读出进行统计学分析，例如如前文所述。

在其它实施方案中，核酸结合剂特异性结合核酸模板的二级结构，如发夹环、茎环、内部环、凸起、假结体、碱基三联体、超螺旋、内部杂交等。试剂与这类结构的结合抑制了聚合酶通过这些结构的移动，程度大于没有该试剂时酶受到的抑制，从而延长了暂停时间促进了二级结构的检测。特异性结合核酸中特定结构和/或链型(strandedness)的试剂的例子包括，例如，嵌入剂、缺乏核酸酶活性的核酸内切酶(例如，具有双链区茎环结构特异性)、聚合酶和各种真核启动子蛋白。

如上所述，对于模板指导的聚合反应可采用各种不同类型的模板，如单链或双链DNA、单链或双链RNA、DNA/RNA杂交体、和它们的类似物、杂交体、衍生物和模拟物。此外，模板可含单链和双链区的组合，例如，2009年3月27日提交的U.S.S.N.12/383,855和12/413,258中所述的模板，它们通过引用整体并入本文用于所有目的。使用的模板的类型只受反应中的聚合酶的底物特异性和损伤结合剂的限制。例如，图6提供的这类反应的示例性实施方案包含线形模板和识别单链模板中的损伤的损伤结合剂。在图A中，损伤结合剂(305)正在扫描聚合酶(315)前方的线形单链核酸模板(310)，所述聚合酶(315)正在进行模板指导的新生链(320)的聚合。在图B中，损伤检测结合剂(305)测得单链模板(310)中的损伤(325)并与之结合。在图C中，聚合酶(315)遭遇损伤结合剂(305)，且其沿模板(310)的推进受阻。在图D中，损伤已经被损伤结合剂(305)召募的修复机制(330)修复。在图E中，修复机制已经脱离模板(310)，损伤结合剂(305)已经移位离开前损伤位点，由此允许聚合酶(315)恢复新生链(320)的合成。

在某些实施方案中，在含有单链模板的反应中采用双链核酸特异性损伤结合剂，例如预期扫描和损伤检测/结合在聚合酶通过模板依赖的聚合反应将单链模板转化成双链模板后发生，如在“滚环复制”期间环形单链已转化成环形双链后，预计可搜索检测到损伤/结合处。例如，虽然反应的最初底物是环形单链核酸模板，但经聚合酶加工一次后该模板变成双链模板，成为特异性扫描和结合双链核酸的损伤结合剂的合适底物。例如，图7解释了含环形模板和识别双链模板中损伤的损伤结合剂的实施方案。在图A中，损伤结合剂(405)正在扫描聚合酶(415)前方的环形双链核酸模板(435)，聚合酶(415)正在进行模板指导的聚合，置换合成的新生核酸链的5’端(440)。在图B中，损伤检测结合剂(405)测得并结合双链模板(435)的损伤处(425)，聚合酶(415)的推进受到结合的损伤结合剂(405)阻碍。在图C中，损伤被修复，损伤结合剂(405)移位离开前损伤位点，从而允许聚合酶(415)恢复新生链(420)的合成。

虽然就8-氧代鸟嘌呤损伤的识别及可选的修复描述了各种实施方案，但本文的方法也可处理其它类型的DNA损伤。例如，以hOGG1为例，N-糖基化酶活性可释放双链DNA中的受损嘌呤，产生脱嘌呤(AP)位点。AP裂解酶活性可切割AP位点的3’端，留下5′磷酸和3′-磷酸-α,β-不饱和醛。除8-氧代鸟嘌呤(当与胞嘧啶碱基配对时)外，hOGG1还识别和去除8-oxoA(当与胞嘧啶碱基配对时)、foramidopyrimidine(fapy)-鸟嘌呤和甲基-fapy-鸟嘌呤(Bjoras,M.等人.(1997)EMBOJ.,16,6314-6322；和Boiteux,S.和Radicella,J.(1999)Biochimie,81,59-67，它们的公开内容通过引用整体并入本文用于所有目的)。可用本文所述方法结合和可选修复的其它类型DNA损伤包括：用BER酶修复其它DNA碱基损伤(小DNA碱基修饰、脱碱基位点等)，如AAG/MPG用于修复甲基化损伤，UDG/SUMG1用于修复DNA中的尿嘧啶，脱嘌呤内切核酸酶(APE)用于修复脱碱基位点等等。也包括用核苷酸切除修复(NER)酶修复更大的DNA损伤，如修复DNA碱基添加和DNA链内及链间交联。此外，虽然上述DNA聚合酶开关法适合检测和绕过大多数阻碍复制性聚合酶的DNA损伤，但复制性聚合酶能绕过某些小碱基修饰，如8-氧代鸟嘌呤，因此方法中包括能在损伤位点阻断聚合酶的结合剂有助于确保模板中的这类损伤能被检测并任选地去除，防止模板依赖测序反应产生的序列数据受其不良影响。

在某些实施方案中，模板指导的DNA测序反应包括hOGG1，反应中存在聚合酶和各带有光可检测标记独特标识碱基的一组核苷酸(例如，A、G、T或C)。在与聚合酶相互作用和掺入新生链中时检测的光信号使研究者可鉴定掺入的碱基，并通过互补性鉴定模板DNA分子的序列。在优选的实施方案中，核苷酸持续掺入新生链产生一组有序的光信号，可对其进行分析以提供该新生链的序列和通过互补性提供模板链的序列。hOGG1酶与模板结合，“扫描”寻找损伤，并特异性结合在发生这类损伤的位置。因此，如果模板DNA分子含有或获得(例如，在分析反应中)hOGG1识别的DNA损伤，hOGG1即与之结合阻止聚合酶绕过该损伤，碱基掺入信号减慢或中止(例如，因聚合酶停顿或脱离)。虽然这种阻止可引起聚合酶脱离，但在某些优选实施方案中，聚合酶只是暂停直到损伤的核苷酸被修复，hOGG1和其它修复机制脱离模板时，聚合酶恢复，产生模板在原先损伤核苷酸位点及其下游的更多序列数据。

在某些优选实施方案中，将一种或多种反应组分固定在反应位点，例如，光学限制件如零模式波导(ZMW)中。在某些实施方案中，固定聚合酶，而使核酸模板和损伤结合剂在溶液中游离。固定聚合酶的方法本领域已知，本文另有提供。在其它实施方案中，可将核酸模板固定在反应位点，聚合酶和损伤结合剂则在溶液中游离。例如，在优选的实施方案中，损伤结合剂在模板上的移动比聚合酶快，不会防碍模板依赖测序反应在未损伤模板上的进行。然而，与损伤结合后，损伤结合剂将停止移动结合于该位点，阻止正在移位的聚合酶通过该损伤处。例如，在未损伤DNA上hOGG1的移动比phi29聚合酶快得多，但遇到损伤的核苷酸后该酶结合此处，等待召募BER机制的其它组分。替代或补充地，可将损伤结合剂固定在反应位点。例如，以hOGG1为例，DNA结合、扫描和损伤识别只需要单个酶。将单个损伤结合剂固定在反应位点，可提高每个反应位点扫描单个模板寻找损伤的可能性。如本文另述的，本领域已知固定各种反应组分的方法。

在某些方面，可利用检测核酸损伤的方法来测试实验体系的各种组分以鉴定这种损伤的来源。例如，可测试分析反应实验体系所用的各种缓冲条件和其它组分(例如，反应组分或可能诱生氧自由基的幅射)以鉴定引起最小量损伤的那些组分。此外，研究者可有意地将这类损伤引入核酸模板中，如模板中的一个或多个特定位置。这提供了控制聚合酶推进，从而控制从模板不同部分序列读出的产生时间的办法。例如，如果模板极长(例如，长度为几千或几万个碱基对)，在模板的一个或多个地点暂停反应以便确定模板序列读出的取向可能是有利的。具体地，信号脉冲发射暂停表示聚合酶移动到模板的某特定位置，研究者通过在反应混合物中加入修复剂/修复蛋白，可以重新启动聚合反应。例如，通过缓冲液更换，这些修复剂可以从反应混合物中洗出，并任选地，在反应过程的后续时间点再次引入。

在某些方面，对目标修饰特异性的结合剂的应用可以促进那些修饰的核酸制品的富集。如在本文中详述的，很多试剂可以特异性地结合核酸分子内的多种修饰。尽管在别处被描述为对单分子测序反应具有直接影响，这些试剂还可以用作“标签”，用于从核酸混合物中分离具有修饰的核酸。在某些实施方案中，在促进抗体与修饰的结合的条件下，将对目标修饰特异性的抗体引入疑似具有修饰的核酸样品中。通常将抗体连接至固体支持物，例如，珠子或柱，使得未结合的核酸可以被除去，例如，通过洗涤或缓冲液更换。随后，释放与抗体结合的核酸，并进行测序，大部分或所有的被测序的核酸具有目标修饰。在其它实施方案中，使用特异性地识别和结合目标修饰的蛋白来靶向和富集核酸混合物中的修饰。例如，J-结合蛋白1(JBP1)会特异性地结合含有碱基J的双链体DNA(参见，例如，Cross,等人.(1999)EMBO J.18:6573-6571；和Borst,等人.(2008)Annu.Rev.Microbiol.62:235-251)。可以固定化JBP1，以允许含有碱基J的核酸被捕获，而缺少碱基J的核酸未结合，且可以被除去。在其它实施方案中，可以进一步修饰包含修饰的核酸，以促进捕获。例如，T4噬菌体β-葡萄糖基-转移酶可以将葡萄糖部分添加至核酸模板内的5-羟甲基胞嘧啶上，并可以使用对得到的葡萄糖基-5-羟甲基胞嘧啶特异性的结合剂(例如，抗体)来富集包含该修饰碱基的核酸。普通技术人员显而易见，其它结合剂（例如，本文所述的那些）也可以用于这样的富集操作，只要它们自身可以被固定化，或者可以被固定化的结合剂（例如针对其它结合配偶体的抗体）结合。此外，在要对多个不同修饰测序的情况下，可以进行多个富集，例如，在单一反应混合物内（其中一起收集所有修饰），或者在原始核酸样品的分开的等分试样中（其中分别富集每种修饰）。

就减少实验变异和增加核酸样品内的修饰的鉴定效率而言，富集策略都是有益的。例如，在某些优选的实施方案中，将核酸样品暴露于特异性地结合目标修饰的结合剂，将所述核酸样品片段化，并借助于包含修饰的片段与结合剂的结合而保留它们。在这样做时，与原始核酸样品相比，得到的核酸样品具有更低的复杂性，且更富含目标片段。将该“富集的样品”分成2个等分试样，对其中的仅一个进行扩增反应，其不维持得到的扩增子中的修饰。这些扩增子代表原始核酸样品中的包含修饰的区域，但是由于所述修饰不再存在，它们充当参照序列，将富集的样品中的未扩增的片段(即，其仍然包含修饰)的序列与所述参照序列进行对比。对扩增的和未扩增的等分试样中的片段测序，并进行统计分析，以确定它们的不同之处，其指示原始模板中的修饰。尽管复杂性降低步骤是优选的，它不是必需的。例如，还可以分割原始核酸样品，并仅对一份进行扩增，以除去修饰和提供“参照”样品。在某些实施方案中，用发夹或茎环结构给扩增的和未扩增的片段(无论是否经过富集)加帽，以产生封闭的环形测序模板。任选地，所述发夹或茎环结构包含不同的序列或“条形码”，后者允许基于序列来鉴定其中含有的片段的起源。例如，将扩增的片段连接至第一对发夹，将未扩增的片段连接至第二对发夹，其中第一对的序列不同于第二对的序列，例如，在每对内的一个或两个发夹中。在这样的实施方案中，可以在相同的测序反应中包括2种模板制品，例如，以阵列化形式，且可以分析得到的序列信息，以确定特定片段是否来自扩增的或未扩增的等分试样，并鉴定存在于未扩增的片段中且因此存在于原始核酸样品中的修饰。对扩增的和未扩增的片段一起测序是特别有益的，以确保二者的测序反应条件是相同的，由此减少实验变异。本领域普通技术人员考虑到本文的教导会认识到对所述方法的其它改变。例如，通过本领域众所周知的其它方法，可以进行序列测定。

IX.数据分析

采用能执行各种数据转换的软件和/或统计学算法分析本文所述方法产生的数据，如将发射信号转换成碱基判定(basecall)、将碱基判定转换成核酸模板共有序列、转换碱基判定和/或共有序列的各种方面内容产生所得数值的可靠性度量。对这种软件、统计学算法及其应用的详述参见，例如，美国专利公开号2009002433和U.S.S.N.61/116,439，它们的公开内容通过引用整体并入本文用于所有目的。识别模板核酸中核苷酸改变的具体方法在2008年12月11日提交的U.S.S.N.61/201,551中有所提供，其通过引用整体并入本文用于所有目的。这些方法包括用统计学分类算法，能分析单分子测序技术的信号和检测信号形态的一方面或多方面的显著变化、反应条件的变化和调整收集的数据参数，以提高对存在修饰或损伤核苷酸导致的信号变化的灵敏度。

在某些方面，本发明提供了用于在实时DNA测序中检测动力学变化(例如，变慢或暂停、脉冲宽度或脉冲间隔期的变化、或同源或非同源采样的动力学的变化)或其它反应数据变化的方法。如以上详细讨论的，在这种测序应用中检测到变化，可以指示模板中存在二级结构、模板中存在修饰、存在结合于模板的试剂等等。应当理解，单个分子的动力学活动并不遵循通过传统化学动力学揭示的有规律的且简单的模式，占主导地位的观点是呈指数单速率和平稳的组合平均结果。在大的多维分子体系（如聚合酶-DNA复合物）中，存在许多不同的时间尺度，由此产生的动力学情形在分子水平上相当复杂(参见，例如，Herbert,等人.(2008)Ann Rev Biochem 77:149)。因此，实时单分子测序技术应适合这类非指数动力学行为。例如，可以检测实时测序反应中的暂停为信号观察随时间推移的轨迹中出现与平均掺入速率相比酶呈显著变慢的区域。因此，提供了对暂停位点附近所产生数据进行分析的方法，特别是分类和去除或向下加权处理(down-weighting)单分子测序反应中发生的暂停。关于序列分析所用算法的一般信息，参见，例如，Braun,等人.(1998)Statist Sci 13:142；和Durbin,等人.(1998)Biologicalsequence analysis:Probabilistic models of proteins and nucleic acids,Cambridge University Press:Cambridge,UK。

在某些优选实施方案中，所述方法采用分段算法，通过监测单分子动力学，特别是通过监测DNA聚合酶的DNA合成所产生的实时信号来识别暂停区。观察的核心是暂停时信号事件的密度降低，所述密度指每个固定的时间单位内的事件的数量。同时，泊松过程所产生的随机事件，如渗杂(sticks)(与不与掺入对应的信号，如进入检测区但未连接掺入新生链的核苷酸的染料)会以与正常观察到的相同密度继续进行。图8显示对真正掺入(实线)与随机(渗杂)脉冲(虚线)的观察随时间的变化。暂停被鉴定为真正掺入的观察轨迹低于随机脉冲观察下方的区域。如此，通过观察局部密度的差异可确定掺入活动的暂停。

在某些实施方案中，基础检测方案使用更高阶总结统计学。IPD通常呈指数分布，将不同的速率分配给不同的隐藏状态，例如，λ_C（对于未甲基化状态）和λ_CM（对于甲基化状态）。通过检查2个样品之间的λ_CM/λ_C比率来检测修饰。例如，在λ_CM/λ_C>>1的情况下，表明5-MeC存在于模板核酸中。然后是IPD_C～指数(λ_C)和IPD_CM～指数(λ_CM)，那么Z=λ_CMIPD_CM/λ_CIPD_C具有概率密度函数f(z)=1/(z+1)²。但是，尽管该基于比率的方案可以是有效的，它是没有利用反应数据的所有方面的基础方案。

其它特征与暂停有关并有助于对现象的完整模拟。具体地，模板链的局部序列也可能影响和抑制聚合酶沿模板的活动。例如，影响和/或抑制聚合酶活动的局部序列可能延伸至少约1、2、3、4、5、7、10、15、20个核酸苷位置，这些位置可位于模板中修饰处的上游或下游，或侧接模板的修饰处。在本文所述方法中也可采用其它已知的模型，普通技术人员阅读本文的教导后会明白这点。

在某些实施方案中，使用混合模型来对给定样品中的给定位点可能存在的多个状态特异性地建模。例如，给定位点可以在多个分子的空间内是甲基化的和未甲基化的，且在给定位点处的状态还可以影响在相邻位点处的速率变化。假定如上所述分布IPD，混合模型的概率密度函数由下式给出：

对于分子i=1,…,M，f(IPD_i|θ)=πλ_C exp(-λ_CIPD_i)+(1–π)λ_CMexp(-λ_CMIPD_i)。

π代表给定样品中未甲基化的分子的未知分数。1/λ_C和1/λ_CM是2个指数分布的平均值，且θ=(π,λ_C,λ_CM)。因此，

L = Π_{i = 1}^{M} (π λ_{C} \exp (- λ_{c} IP D_{i}) + (1 - π) λ_{CM} \exp (- λ_{CM} IP D_{i}))

此外，考虑随机类向量C=(C₁,…,C_n)，其中C可以呈现多个速率。该速率类向量的给定实现的一般先验概率可以写为：

下述势函数可以提供考虑位点至位点相互作用的途径：

H (c) = Σ_{i = 1}^{n} λ_{c_{i}} + Σ_{j = 1}^{k} Σ_{i = 1}^{n - j} ω_{j} l_{{c_{i} = c_{i + j}}} .

在优选的实施方案中，检测模板指导核酸合成中变化所用的算法包括以下通用步骤。首先，创建一个能区分真正掺入与随机脉冲的分类器。能帮助区分二者的特征包括，例如脉冲高度、脉冲宽度、局部信噪比、染料通道和测得光谱的χ²度量。此分类器中可采用许多本领域已知的不同统计学分类算法。某些优选算法包括：分类和回归树法(CART)、初始贝叶斯分类法(

Bayesian classifiers)、内核密度法(kernel densitymethod)、线性辨别函数法和神经网络法。此外，所述脉冲分类器不需要特别强大(就最佳特异性/灵敏度而言)，因为此法的力度有赖于与观察弱显著事件相关的更高显著性。

第二步是沿观察到的迹线信号滑动固定长度窗口，用分类器计数窗口内掺入脉冲与随机脉冲的数量。要检测的信号长度决定了所述窗口尺寸的选择；实践中的一个合理选择是10秒，但研究者可根据本发明的具体实施增加或减少窗口尺寸。轨迹中，随机脉冲密度超过掺入密度达一定时间，例如5-15秒或更优选约10秒的区域可确定为对应于可能的暂停位点。可利用标准的峰观察技术，如阈值检测、有限状态机制、多尺度方法等发现这些区域。此法还有一个优点是利用测序数据集中检测对下游有不利影响的暂停区。仅仅在测序期间发生暂停未必对利用数据进行DNA测序分析引起后果，然而，暂停区发生大量随机脉冲将使所得数据的利用复杂化。

此示例性算法的一种变化是利用经分类器确定的真正脉冲之间的时间作为发现暂停区的辨别器，真正脉冲之间具有大差异的区域是暂停的候选区域。例如，Δt(真正脉冲之间的时间)对时间作图会在候选暂停区具有局部极大值。

检测暂停区所用的更高级算法是基于隐藏Markov模型(HMM)构造的分段算法。图8提供了在测序轨迹中区分暂停(P)与测序(S)状态的简单隐藏Markov模型的说明例。此模型有以下假设：每个脉冲表示一次可能的掺入(A_S、C_S、G_S、T_S)或是随机脉冲(A_P、C_P、G_P、T_P)。通过在多个序列数据实例上拟合此模型(采用，例如Baum-Welch算法)，可产生良好对应于隐暂停区与测序状态的发射和转移概率。当随后出现任何特定信号(观察到标记信号)时，该模型可用Viterbi算法查询隐藏状态的序列。此模型在几个方面比前面建议的更简单的算法更强。首先，此模型能模拟暂停或测序状态下每个核酸苷掺入或渗杂的可能性。一个有用的例子是，如果渗杂/掺入分类器对一个核苷酸时特别有效，和如果这一方式难以对另一个核苷酸的脉冲分类。此模型允许在随机脉冲与掺入的分类功率上有一些核苷酸特异性差异。此法的另一优点是更适合检测横跨多个时间范围的区域，HMM分段方法常常能更好处理多重时间范围的分类。通过计算脉冲(x_i)间的对数差异比率(log-oddsratio)

并鉴定暂停可能性高的区域来作出最后的暂停区指定。

更强效的分段算法结构是采用条件随机场框架(CRF)。其目标是预测给定观察到的脉冲由暂停或测序状态产生信号的条件概率：

p < y | x > = \frac{\exp [w^{T} F (x, y)]}{\underset{\overset{\cdot}{y}}{Σ} \exp [w^{T} F (x, y^{'})]},

其中，y是(暂停、测序状态)带所需标记的序列，x是观察到的脉冲数据(碱基判定和其它脉冲特征)，w是从训练数据中习得的权重向量，F函数是向量特征。可利用CRF文献(例如，Lafferty等人(2001)Proc.18^thInternational Conference on Machine Learning,282-289，其通过引用整体并入本文用于所有目的)中的标准技术用标记序列训练CRF权重。通过以此方式标记序列，可用上述方法鉴定暂停可能性高的区域。此法的一个优点是不需要对每个脉冲区分是掺入脉冲与随机脉冲的分类器。也能更好地将脉冲间隔和其它信息，如序列组成，集成到广阔的模型中。可能的缺点是需要大量的训练数据构建此模型和构建CRF模型相关的算法复杂性。

用此类算法鉴定迹线测序数据中暂停位点和/或局部高随机脉冲的区域可用于多种场合。例如，预计显示酶暂停区域的脉冲在用于下游分析，例如重测序应用中的序列变异检测或从头装配的重叠检测时标为低置信值(品质值低)。在其它实施方案中，可从报告的碱基判定序列中除去含随机脉冲簇概率高的区域内的脉冲，从而改善用于下游的序列数据的准确度而不必求助于二次信息如品质值。在其它实施方案中，可将暂停的发生与观察到的其它感兴趣事件，如可能的DNA序列或修饰的核酸苷碱基相关联。例如，可部分根据已知对暂停的影响判定暂停位点的上游序列。即，如果暂停发生某序列的下游，那么该序列与无效或降低暂停可能性的序列相比，很可能促进或加剧暂停。因此，如果已知检测到的序列修饰能提高暂停的可能性，可将此信息加入用于鉴定修饰碱基的贝叶斯可能性模型中。在其它实施方案中，也可用本文所述暂停检测方法来提高对聚合酶活性生物物理学的了解，从而为更好地开发单分子实时测序技术提供有用的反馈信息。

鉴定区域序列数据的算法属于序列标记或分段算法的一般范畴，是领域公知的。此问题影射到滑动窗口分析、HMM或CRF，在这种情况下很自然。同一问题的其它算法是如吉布斯采样(Gibbs sampler)那样的多个变化点分析法(参见，例如，Lee,P.M.(2004)Bayesian Statistics:An Introduction,Oxford University Press:New York,NY，其公开内容通过引用整体并入本文用于所有目的)，或局部加权多项式回归算法(参见，例如，Braun,等人,出处同上)。

一般而言，当测序技术，如上述分子冗余测序产生了某给定模板分子的冗余序列数据时，数据分析方法可受益。该位置每次序列读出的IPD分布为指数分布。甲基化碱基的指数衰变常数可能与未甲基化碱基的不同。然而，由于二种指数之间有大量重叠，仍难利用一次读出来区分这二者。但是，如果取一个位置多次读出的平均值，此平均值的分布是γ函数(几个指数函数的卷积)，比指数函数更高斯样，分离更好。这样能更好地区分二群。例如，图14提供的真实数据显示一个环形模板有二个不同位置，一个总是未甲基化，一个为差别性甲基化，增加模板读出次数，相对地提高了甲基化与未甲基化腺苷IPD之间的分辨率。如果分布为上述指数分布，那么平均值(标准差与平均值相同)是唯一的可用于区别的度量。如果每个读出位置不是指数分布，正如被大量邻近位置加权的甲基胞嘧啶的IPD那样本身为γ分布，那么当读出同一位置的共有序列时，可以考虑γ样加权的IPD分布的平均值与其它信息，如它的标准差，它的偏斜度或其它分布特征。图11显示甲基胞嘧啶的真实分子一致分布，给定各读出为γ样加权IPD分布，但此图中只利用了这些分布的平均值。绘制的分布如果考虑其它特征则会区分得更好。在本文实施例中更完整地描述了用于产生图14和11的数据。

在某些实施方案中，可采用多个位置信号特征的加权和方法测定模板核酸中某碱基的状态，例如是否甲基化。具体地，可利用多个位置的脉冲间隔期(IPD)信息来确定某给定的胞嘧啶是否甲基化，例如比较差异甲基化模板(Me+)与完全无甲基化模板(Me-)新生链合成的数据。在某些优选实施方案中，为给定模板位置创建伪IPD，它实际上是周围位置IPD的加权和。更具体地说，

其中j是所述胞嘧啶的指数，i是由于胞嘧啶甲基化或未甲基化产生IPD变化的所有邻近位置的指数；<IPD_i>_Me-是Me-模板中特定位置的平均IPD。可根据以下度量的组合得到多个位置各自的权重(所有加在一起的和可能＝1)：假设我们比较二个模板，除了在给定位置一个甲基化另一个未甲基化外都相同；比较二个模板之间该给定位置的IPD比例或差异；此二模板在该给定位置IPD分布之间可区分性的统计学显著性；创建IPD分布时利用的观测数；和邻近序列。w_i的一个例子可以是：

此信号也可以用观察Me+信号的先验概率加权。

在某些方面，本发明提供了利用实时合成测序迹线的特点区分Me+与Me-的通用方法，包括聚合酶将光可检测核苷酸掺入新生链时发射的信号。这种迹线及其不同分析方法另外描述在别处，例如美国专利公开号20090024331，其通过引用整体并入本文用于所有目的。此法第一阶段包括开发用于区分核酸模板中甲基胞嘧啶与非甲基胞嘧啶的分类器。迹线检测每个脉冲(离散事件或信号)的一组特征。例如，一组可检测特征可以是{脉冲宽度、脉冲持续时间、脉冲高度、脉冲幅度变化}。称这些特征

为脉冲i的值。对于甲基化的和未甲基化的模板中的每个胞嘧啶(可限于或不限于CpG)脉冲的数据集，可制作局部脉冲特征表

\overset{&RightArrow;}{f} = {f_{1}^{i - 3}, f_{2}^{i - 3}, . . ., f_{k}^{i - 1}, f_{1}^{i}, f_{2}^{i}, . . ., f_{k}^{i}, . . ., f_{1}^{i + 3}, f_{2}^{i + 3}, . . ., f_{k}^{i + 3}} .

在这个例子中，假设局部脉冲延长至感兴趣脉冲的左侧和右侧3个脉冲，但该环境尺寸是灵活的，在某些实施方案中可采用特定脉冲数。

通过例如内核密度法或简单的特征分级和制表法，产生观察数据的可能性

和

因此，已经确定用于确定迹线测定中甲基化状态的通用信号：其中p(Me+)和p(Me-)分别是甲基化或未甲基化位点的先验概率。

可运用本领域普通技术人员已知的各种标准分类算法的开发技术细化该方法，减少训练组的偏向并改进其灵敏度。这类技术包括、但不限于：交叉验证、增强(boosting)和引导聚集(bootstrapaggregating)(bagging算法)。在某些实施方案中，输入的一组特征限于与某位置的Me+和Me-状态最相关的特征。在某些实施方案中，主成分分析中的主要组分可作为最重要特征的更好加权组合。在其它实施方案中，弃一交叉验证可能在选择可靠预测算法中具有价值，例如减轻对开发训练组分类器时观察数据的过度拟合。此外，在某些实施方案中，用加强方法(在难度渐进的特征空间内训练等级分离器)来改进灵敏度。

可采用更先进的信号检测多个空间靠近的CpG。在某些实施方案中，检测甲基化状态已知、位于已知间隔（如间隔2个碱基对）的二个CpG的上述可能性数据。信号概括为：

w_{i} = \underset{μ &Element; {+ +, + -, - +, - -}}{\arg \max} \log [\frac{p ({\overset{&RightArrow;}{f}}_{α}, {\overset{&RightArrow;}{f}}_{β} | \overset{\cdot}{μ}) p (μ)}{\underset{μ^{'}}{Σ} p ({\overset{&RightArrow;}{f}}_{α}, {\overset{&RightArrow;}{f}}_{β} | μ^{'}) p (μ^{'})}],

其中p(μ)和p(μ’)是(甲基化、未甲基化)构型的先验概率(除非另有说明，这种联合分布假设是独立的)。

虽然以上所述主要是检测甲基胞嘧啶，但这些方法也可用于甲基腺嘌呤或其它修饰碱基，利用其IPD作为检测指标。图15提供的数据显示模板核酸中甲基化腺嘌呤与未甲基化腺嘌呤IPD比例的差异，用于产生图15的数据在本文实施例中有进一步描述。这些数据也显示N⁶-甲基腺苷像甲基胞嘧啶那样不仅对该甲基化碱基，而且对多个邻近位置碱基的IPD有影响。此外，鉴于以上教导，普通技术人员应明白，该方法可扩展到IPD以外的其它指标，如脉冲宽度、分支率、错配率、缺失率等。此外，在步骤2+3中提出的通用分类器方法可与许多标准统计学分类算法，即线性鉴定分析、多维回归、内核方法、分类和回归树法、神经网络法和向量支持机制法一起执行。此法也可整合二聚体模板多条链的数据。例如，因为甲基胞嘧啶的CG序列和甲基腺嘌呤的GATC序列在反向互补链中相同，这些碱基在互补的二条链中可以都甲基化。如果知道半甲基化与全甲基化位点的普通统计学分布，那么可利用获自互补链的IPD或其它指标的信息来提高访问特定链上(这种位点的)准确度。例如，如果分别分析每条链后结论是：A链有95％可能甲基化，互补的B链有55％可能甲基化，但已知的是，如果一条链为甲基化，那么另一链有80％可能甲基化，那么提高了判定B链甲基化的置信度。

此外，双链核酸片段向封闭的环形单链模板(例如，参见美国专利公开号20090298075)中的掺入优美地允许对比在正向链和反向链上的聚合酶动力学。由于正向链和反向链是彼此的反向补体，必须从完全未修饰的样品构建目标参数(例如，脉冲宽度、IPD等)的比率的预期，例如，使用扩增来产生不包含修饰的扩增子。随后的对包含修饰的样品的分析包括：进行观察到的比率充分不同于预期比率的可能性分析。这意味着，实验的所有其它方面被标准化，因为它们就在正向链和反向链上的测序而言是相同的。例如，在SMRT^TM测序中，这样的实验方面包括、但不限于：特异性的聚合酶、它在反应位点中(例如，在ZMW内)的位置、照明(例如，beamlet对齐、功率、波长等)、在该反应位点处的温度、局部反应物浓度(例如，聚合酶、核苷酸等)等。每次随着聚合酶重复地围绕模板移位而对修饰测序时，直接产生的序列数据会增加定量中的置信度，并告知修饰是否存在于模板内的特定位置处的p-值置信度。

如本文别处所述，可利用IPD作为检测度量的另一种修饰碱基是5-羟甲基胞嘧啶(5-hmC)。近年发现，它在人和小鼠脑及胚胎干细胞中含量丰富(参见，例如，Kriaucionis,等人.(2009)″The nuclear DNA base5-hydroxymethylcytosine is present in Purkinje neurons and the brain″Science 324(5929):929–30;Tahiliani M等人.(May2009)″Conversionof 5-methylcytosine to 5-hydroxymethylcytosine in mammalian DNA byMLL partner TET1″Science 324(5929):930–35；和WO/2010/037001，其通过引用整体并入本文用于所有目的)。在哺乳动物中，它可以通过通过5-甲基胞嘧啶氧化（由Tet酶家族介导的反应）而产生。常规的亚硫酸氢盐测序不能有效地区分5-hmC与5-MeC，因为像5-MeC，5-hmC倾向维持未修饰状态。因此，质谱法是检测核酸模板中5-hmC的典型工具。本文所述的方法提供了通过监测正常聚合酶动力学的偏离，包括IPD和脉冲宽度，高通量实时区分C、5-MeC与5-hmC的方法。

进行了实验检测本发明方法能否区分5-MeC与5-hmC，发现5-hmC可引起模板中5-hmC位点周围某些位置的IPD延长和该位置脉冲宽度减少。此外，产生的数据提示5-hmC也增加了5-hmC位点后面位置的脉冲宽度。C与5-hmC之间的IPD差异和脉冲宽度差异的幅度比C与5-MeC之间的IPD和脉冲宽度差异更大，这些更大幅度可能使5-hmC比5-MeC更易检测。不受理论的限制，这二个检测指标差异幅度较高的原因可能是由于5-hmC比5-MeC多一个氧原子。这个多出的氧原子可能导致聚合酶与DNA模板之间额外的空间和电荷相互作用，减慢了互补碱基的结合和/或掺入新生链。

基于5-hmC的检测比5-MeC更容易的这个发现，在某些实施方案中，可将5-甲基胞嘧啶转化为5-羟甲基胞嘧啶的酶，例如通过酶如TET1处理，该酶可将哺乳动物DNA中的5-MeC转化成更易检测的5-hmC(参见，例如，TahilianiM等，同上)。虽然这种技术不能区分模板中的5-MeC与5-hmC(因为5-MeC转化成5-hmC将不能与模板中原先存在的5-hmC区分)，但是可利用它来促进模板核酸中的5-MeC模式检测，但需注意这样发现的模式可能在体内也包括5-hmC碱基。

为了最大程度利用5-hmC位点周围多个位置的IPD和脉冲宽度信号，可利用技术寻找IPD和脉冲宽度不同位置的最佳权重来彼此区分5-hmC、5-MeC和C。此技术的一个例子是主成分分析，还有本领域已知的其它技术。主成分分析是寻找发现具有最大特征值(eigenvalue)的特征向量(eigenvector)(利用每个位置的每种指标，如IPD或脉冲宽度作为不同的基础向量，例如有10要查询的位置和二个指标，分析的基将是2x10＝20维)。主成分分析的综述参见，例如，Jolliffe I.T.PrincipalComponent Analysis,Series:Springer Series in Statistics，第2版,Springer,NY,2002，其公开内容通过引用整体并入本文用于所有目的。

X.系统

本发明还提供了与本发明的组合物和方法一起用于实时单分子检测的分析反应的系统。具体地，这种系统包括本文所述的试剂系统，和分析系统，如用于检测这些试剂系统所产生的数据。在某些优选实施方案中，用能以单分子水平检测和/或监测反应物之间相互作用的光学系统监测分析反应物。例如，这种光学系统能通过先产生和传送反应物的相关波长，然后收集和分析反应物的光信号，完成其功能。这类系统通常采用将信号从反应物导向检测器的光学系统，在固相表面进行多种反应的某些实施方案中，这类系统通常将固体基质表面(例如，限制件阵列)的信号导向阵列检测器的不同位置，以同时检测各个多种不同反应物的多种不同光信号。具体地，光学系统通常包括光栅或楔形棱镜，可同时将阵列中的各限制件的具有不同光谱特征的信号导向并分离到阵列检测器(例如，CCD)的不同位置，也可包含其它光传送元件和光反射元件。

本发明所用的光学系统优选包含至少一个激发光源和光子检测器。该激发光源产生和传送反应中用于光激发反应物的入射光。根据预期的应用，此入射光源可以是激光、激光二极管、发光二极管(LED)、紫外光灯泡和/或白炽光源。此外，该激发光可以是渐消光，如全内反射显微镜用的光，能将光携带到反应位点的某些类型波导(参见，例如，美国申请公开号20080128627、20080152281和200801552280)，或下文所述的零模式波导。需要时可同时采用一种以上的光源。在采用多种具有不同激发光谱的不同试剂时，特别需要采用多个光源，从而得以检测一种以上的荧光而同时迹线一种以上类型(例如，多种类型含不同标记的反应组分)分子的相互作用。本领域可获得各种的光子检测器或检测器阵列。代表性的检测器包括、但不限于：光读出器、高效光子探测系统、光电二极管(例如，雪崩光电二极管，APD)、相机、电荷耦合装置(CCD)、电子倍增电荷耦合装置(EMCCD)、强化电荷耦合装置(ICCD)和配置有任何上述检测器的共聚集显微镜。例如，某些实施方案中，光学系统包括能分辨各测序复合物荧光信号的荧光显微镜。需要时，光学限制件阵列可包含各种对齐工具或手段以有利于光学限制件和发射光源、光子检测器、或下文所述的光学系统的正确空间布局。

本发明的光学系统也可包括多种功能的光学系统，其包含一个或多个光传送或光反射元件。这种光学系统优选包含各种光学装置，将光以改变或不变的状态从一处导向另一处。首先，该光学系统将入射波长的光收集和/或传送到反应位点(例如，光学限制件)。其次，将反应物发出的光信号传送和/或导向给光检测器。第三，可选择和/或修正反应物的入射波长或发射波长的光学性质。这类光传送或反射元件的示例性例子有：衍射光栅、阵列波导光栅(AWG)、光纤、光控开关、镜子(包括分色镜)、镜片(包括微透镜、纳米镜片，物镜、成像镜片等)，准直仪、光衰减器、滤光片(例如，偏振或二向色滤光片)、棱镜、滤波器(低通、带通或高通)、平面波导、波板、衰减线和其它能引导光通过适当折射指数和几何形状通道传送的任何装置。2005年8月11日提交的美国专利公开号20070036511中描述了特别优选光学系统的一个例子，其通过引用整体并入本文用于所有目的。

在优选的实施方案中，将容纳感兴趣反应物的反应位点(例如，光学限制件)与光子检测器操作性偶联。反应位点与各自检测器在空间上对齐(例如，1∶1映射)允许有效收集反应物的光信号。在某些优选实施方案中，反应基质安置在转移平台上，平台通常与适当的机器人偶联以提供固定的光学系统上该基质的二维平移。替代实施方案可将该转移系统与光学系统耦合以便系统的该部分相对于基质移动。例如，转移平台可提供反应基质(或其一部分)移出照射路径的手段以产生反应基质(或其一部分)的无照明期，此后使基质返回，开始后面的照明期。2006年12月1日提交的美国专利公开号20070161017提供了一个示例性例子。

在特别优选方面，这种系统包括反应区的阵列，如零模式波导阵列，系统照射该区域以检测其信号(例如，荧光信号)，结合分析各反应区内的反应。可将各反应区与各自的微透镜或纳米镜片操作性偶联，优选空间上对齐以使信号采集效率最优化。可替换地，组装物镜、一组滤光片或棱镜组以分辨不同波长的信号，光学系统中还可采用成像镜片将各限制件的光信号引导到阵列检测器，如CCD，同时将不同限制件的信号分解成组成信号的多种元素，如对应于每个限制件的不同反应物的不同波长光谱。在优选的实施方案中，设置还包括控制每个限制件照明的工具，这种工具可以是光学系统的一部分，也可以在系统的其它部分，例如安置在限制件阵列上的掩膜。这种光学系统的详述参见，例如，2005年9月16日提交的美国专利公开号20060063264，其通过引用整体并入本文用于所有目的。

本发明的系统通常包括操作性偶联于该系统检测部分的信息处理器或计算机，将获自检测器的数据存储在计算机可读介质，如硬盘、CD、DVD或其它光介质、闪速存储器等。对于本发明这方面的目的，可操作地联接提供的电子传送，将数据从检测系统传送给处理器，用于后续分析和转换。可通过各种熟知的计算机网络或连接方法，如Firewire

USB连接、无线连接、WAN或LAN连接，或其它连接方法实现可操作地联接，优选数据传送速度高。为了将原始信号数据转化或转换成用户可读的序列数据，所述计算机通常装备软件，分析原始信号数据、鉴定可能与掺入有关的脉冲信号和鉴定测序反应期间掺入的碱基(参见，例如，公开的美国专利申请号2009-0024331，其整个公开内容通过引用整体并入本文用于所有目的)。

示例性系统的详述参见，例如，2007年9月14日提交的美国专利申请号11/901,273和2008年6月5日提交的美国专利申请号12/134,186，它们的整个公开内容通过引用整体并入本文用于所有目的。

此外，本发明提供将分析反应中产生的原始数据转换成分析数据的数据处理系统，该分析数据可提供本发明一方面或多方面反应的衡量，如将合成测序反应的信号转换成核酸序列读出数据，再转换成共有序列数据。在某些实施方案中，该数据处理系统包括产生聚合酶介导的模板核酸分子(例如，DNA或RNA)加工产生的核酸序列读出数据的机器。这种产生的核酸序列读出数据代表聚合酶沿核酸模板移动合成的新生多核苷酸的核酸序列，只要给定的测序技术能产生的这种数据，因此可能与新生多核苷酸分子的真正序列不相同。例如，某给定位置与所述多核苷酸相比可能含有缺失或不同的核苷酸，例如，分别为一个核苷酸掺入被遗漏或错误确定。因此，优选产生冗余的读出核酸序列数据并将其转换成一致核酸序列数据，后者与核酸分子的单一读出核酸序列数据相比，通常更好地代表了该多核苷酸的真正序列。冗余的核酸序列读出数据包括多个序列读出，每个包含至少一部分读出核酸序列与多个读出核酸序列中的至少一个的至少一部分重叠。因此，多个序列读出并不需要全部彼此重叠，第一亚组核酸序列的重叠部分可与第二亚组的不同。可用各种方法，包括重复合成一个核酸模板的新生多核苷酸，合成多个相同核酸模板的多核苷酸，或它们的组合，来产生这种冗余的序列读出。

在另一方面，所述数据处理系统包括软件和本文提供的执行算法，如将读出的冗余核酸序列数据转换成一致核酸序列数据，如上所述，后者与单个核酸分子的一次读出的读出核酸序列数据相比，通常更代表新生多核苷酸分子的真正序列。此外，读出的冗余核酸序列数据转换成一致核酸序列数据，可确定和消除读出的冗余核酸序列数据中多个序列读出之间的一些或所有的一次读出差异。因此，这种转换提供了与核酸模板互补的新生多核苷酸的真正核酸序列(代表)，比基于一次读出的代表更准确。

数据转换的各种算法和方法采用的数据分析技术是许多技术领域熟悉的，通常指本文提及的统计学分析。对于清晰阐述，本文不提供已知的技术细节。这些技术在许多可得参考文献中有所讨论，例如2008年11月20日提交的美国专利公开号20090024331和U.S.S.N.61/116,439中有所提供，它们的公开内容通过引用整体并入本文用于所有目的。

本文提供的软件和执行算法是优选的机器实现方法，如在装有计算机可读介质的机器上执行本文所述方法的各个方面内容。例如，所述计算机可读介质优选包含以下的至少一种或多种：a)用户介面；b)储存原始分析反应数据的存储器；c)储存执行原始分析反应数据转换成转换数据以特征鉴定该反应的一个或多个方面内容(例如，速率、共有序列数据等)的算法的软件执行指令；d)执行该指令的处理器；e)将转换结果记录在内存中的软件；和f)记录和储存转换数据的存储器。在优选的实施方案中，研究者可利用用户介面来管理该机器的各个方面，如指导机器实现的各个步骤，将原始数据转换成转换数据，记录转换结果，管理储存在存储器中的转换数据。

因此，在优选的实施方案中，所述方法还包括计算机可读介质的转换，记录分析反应的原始数据和/或所述方法产生的转换数据。此外，计算机可读介质可包括软件，提供分析反应原始数据和/或转换数据的图形表述，及提供图形表述，如以软拷贝(例如，在电子显示屏上)和/或硬拷贝(例如，打印)形式提供。

本发明也提供计算机程序产品，包括其中载有计算机可读程序代码的计算机可读介质，这种计算机可读程序代码适合执行本文所述的一种或多种方法，任选还提供储藏本发明方法结果的存储器。在某些优选实施方案中，此种计算机程序产品包括上述计算机可读介质。

在另一方面，本发明提供将一次或多次分析反应的分析反应原始数据转换成转换数据的数据处理系统，所述转换数据代表某分析反应物的特定特征，如一种或多种被分析模板核酸的真正序列、酶介导反应的速率、鉴定某激酶的靶分子等。这种数据处理系统通常包括计算机处理器，可处理本文所述步骤和方法的原始数据，计算机所用介质可存储原始数据和/或一步或多步数据转换的结果，如上述计算机可读介质。

如图10所示，系统900包括基质902，它包含多个离散的信号发射光源，如零模式波导阵列904。该系统提供激发光源，如激光器906，设置为将发出的射线导向到不同信号源。这一般通过将发出的射线导向或通过合适的光学组件，如双色镜908和物镜910将发出的射线导向基质902处，特别是信号源904处。然后光学组件，如物镜910收集光源904发射的光信号，通过其它光学元件，如双色镜908、棱镜912和透镜914导向直到碰撞光检测系统，如检测器阵列916。然后检测器阵列916检测该光信号，将检测数据传送给合适的数据处理系统，如计算机918，对检测数据进行转换、分析，最后以用户可读形式提供，如在显示屏920上显示，或从打印机924打印成稿922。应知道，可对这类系统作出各种修改，包括，例如采用多种离散光束照射基质上不同位置分析多种成分，利用空间滤光元件，如共聚焦面罩滤掉出聚焦组分，利用光束整形元件修饰基质上的点结构等(参见，例如，公开的美国专利申请号2007/0036511和2007/095119和美国专利申请号11/901,273，它们都通过引用整体并入本文用于所有目的)。

XI.加条形码用途

许多基因组用途利用独特的非天然的DNA序列(“条形码”)来提供序列编码的样品跟踪。将DNA条形码设计成对特定基因组样品的预期优势序列组成是高度可测的。现有的方法排它地依赖于条形码的碱基序列组成的差异。但是，由于在单分子测序方法中固有的碱基调用错误，这些基于碱基序列的加条形码方法会失败，从而限制了通过实验来将条形码彼此区分开以及与要研究的生物核酸区分开的能力。

在某些方面，本发明提供了用于提高在不同的条形码之间、以及在条形码序列读出和模板序列读出之间进行区分的能力的方法。例如，可以基于它们在提供要分析的遗传物质的生物体中的流行来选择要在条形码中使用的修饰，例如，以避免可能存在于样品核酸中的修饰碱基。这会提供在条形码序列和要测序的样品核酸之间进行区分的额外途径。在某些实施方案中，所述方法包括：将修饰加入条形码序列中，以便促进在单分子测序过程中的检测。例如，可以对条形码序列进行甲基化、羟甲基化、糖基化，或者添加会造成聚合酶动力学的独特变化的其它部分。在某些实施方案中，可以通过已知的合成方法（例如，氨基亚磷酸酯合成）将经修饰的核苷酸掺入条形码序列中。在其它实施方案中，可以修饰条形码序列以含有非天然的碱基(参见，例如，Krueger,等人.(2009)Chem.Biol.16(3):242-248，其通过引用整体并入本文用于所有目的)。可替换地，条形码序列可以包含结合剂的结合位点，所述结合剂当与模板结合时，会可检测地改变聚合酶活性。还可以使用在本文别处描述的用于修饰核酸以改变聚合酶在新生链合成过程中的动力学特性的其它方法。在测序之前，可以将包含这些条形码的接头与样品核酸连接。在某些优选的实施方案中，包含这些条形码的接头是如本文别处所述和在U.S.S.N.12/383,855和12/413,258（二者于2009年3月27日提交，并通过引用整体并入本文用于所有目的）中所述的茎环接头。在测序反应中，得到的条形码序列读出是可鉴定的，这不仅基于产生的碱基序列信息，而且基于聚合酶在加工模板分子时的活性(例如，动力学等)。

XII.宏基因组鉴定

宏基因组学是一个重要的新兴领域。例如，研究人员的兴趣在于，表征健康的和患病的个体中的人微生物组。单独使用基本序列信息来从宏基因组样品确定微生物生物体的身份和分布可以是挑战性的。SMRT^TM测序会提供与反应动力学和基本序列信息有关的反应数据，所述数据可以提供关于DNA甲基化或修饰的信息。具体地，可以利用由SMRT^TM测序提供的额外反应动力学数据来辅助宏基因组分析和鉴定。例如，如果已知特定生物体的基因组具有不同于其它生物体的特殊DNA甲基化模式，尽管它们的基本序列是非常相似的，可以通过SMRT^TM测序来检测动力学特性，并通过与已知甲基化模式的关联用于帮助鉴定生物体。此外，不同的DNA修饰具有通过SMRT^TM测序检测出的不同的动力学特性，这使得它们能够彼此区分开。与有些生物体含有某些DNA修饰而其它生物体则不含所述修饰的事实相结合，这会增进宏基因组分析。例如，已知的是，某些细菌生长型在它们的基因组中具有葡萄糖基化的-羟甲基胞嘧啶，而某些细菌含有N⁶-甲基腺苷、5-甲基胞嘧啶和N4-甲基胞嘧啶，且某些锥虫含有葡萄糖基化的-羟甲基尿嘧啶(碱基J)，且其它生物体可能在它们的基因组中含有核糖核苷酸。此外，与其它生物体相比，有些生物体的基因组可能对损伤(例如，8-氧代鸟嘌呤、胸苷二聚体)更易感。从这些DNA修饰之一检测动力学特性，会使得读出更可能来自特定生物体，即使基本序列本身的独特性不足以鉴定出特定生物体。许多宏基因组分析是在核糖体RNA(rRNA)上进行，已知其含有许多修饰(所述修饰中的许多可以是生物体特异性的)。本发明也适用于SMRT、不包括cDNA转化的直接RNA测序(例如，参见2010年4月26日提交的U.S.S.N.12/767,673)，还已经证实其具有对修饰碱基(例如，假尿苷)敏感的动力学特性。

XIII.实施例

5-甲基胞嘧啶(5-MeC)的检测

在SMRT^TM测序平台(参见，例如，P.M.Lundquist,等人,出处同上)上对合成的短寡聚DNA（其含人工模式的甲基化和未甲基化碱基）进行甲基化测序，对照序列具有相同的基本序列，但没有任何甲基化。这些模板提供了明确的荧光脉冲模式和节奏，显示序列背景和甲基化状态的组合如何影响脉冲间隔期。例如，用差别仅在于一个甲基化和未甲基化胞嘧啶的合成DNA模板进行SMRT^TM测序实验，观察到这二种模板之间在5-MeC位置和5-MeC附近处的平均脉冲间隔期的差异。

因为二个依次掺入的核苷酸之间的脉冲间隔期性质是随机的指数分布(Eid,等人,出处同上)，一次测序检测并不总能产生足够的信息使能无疑地确定其甲基化状态。因此，在优选的实施方案中，采用持续合成能力高的链置换聚合酶。这种聚合酶能绕环形DNA模板执行多圈合成(J.Korlach,等人,Proc Natl Acad Sci U S A 2008,出处同上)。此操作模型可提供同一DNA分子的重复测序产生多个序列读出，如通过滚环复制。获得模板特定位点脉冲间隔期的统计学分布数据将表明其甲基化状态。

具体地，图11A显示了用于SMRT^TM测序的二个模板的示意图。二者都包含侧接有两个单链发夹或茎环结构的双链区。聚合酶结合于模板的引发部位，例如通过引物与该单链发夹之一杂交，并开始加工该模板，产生的新生链与聚合酶在其上移位的那条链互补。该聚合酶有链置换活性允许其展开双链区将模板转化成环形。然后聚合酶经过另一个单链发夹和先前的双链区置换链。该聚合酶以“滚环”方式继续加工模板，产生含二条互补链的双链区以及发夹的多个拷贝的多联体。这二个模板除位置2以外都相同，上方模板含甲基胞嘧啶(5-MeC)，下方模板含未甲基化胞嘧啶(二个模板的位置1都是未甲基化胞嘧啶)。图11B提供了甲基化模板与未甲基化模板相比IPD差异的说明。各行直方图内显示平均加权IPD的分布(对标注数量的环形共有序列亚读出作平均，在该背景下，亚读出是指聚合酶绕模板单次通过产生的序列读出)。具体地，“1”表示一次通过该模板所产生的序列读出的测序数据；“3”表示三次通过该模板所产生的序列读出的测序数据；和“5”表示五次通过该模板所产生的序列读出的测序数据。用实线表示甲基化模板的数据，用点线表示未甲基化模板的数据。位置1二种模板的加权IPD分布非常相似。位置2甲基化模板中一次亚读出后的平均加权IPD(顶部直方图)比未甲基化模板的长。经3和5次亚读出后，分布的重叠更少。5-MeC的存在显然延长了脉冲间隔期(IPD)。这些结果证明能用SMRT^TM测序技术执行甲基化测序。在本文某处描述了加权IPD。

此外，甲基胞嘧啶显示不仅对该甲基化碱基本身，而且对位于甲基胞嘧啶上游和下游几个碱基范围内的核苷酸的脉冲间隔期都有影响。具体地，存在甲基胞嘧啶时某些位置观察到的IPD比缺乏甲基胞嘧啶时相同位置的IPD延长。图12提供了甲基化模板的平均IPD与未甲基化模板的平均IPD的比例，对DNA模板中的位置作图。图12中这二个模板除了箭头所指的甲基化模板中的甲基化碱基外都相同。

图13提供了另一组数据，说明序列相同但甲基化不同模板的IPD比例是位置的函数。此二模板之间有7个胞嘧啶(5-MeC)被差异性甲基化(用斜杠表示)。该数据清楚地显示含甲基化碱基区域的IPD延长。令人感兴趣的是，对IPD的影响大多数发生在甲基化位置的下游。因此，除该甲基化差异位点本身外，合成的新生链模板中甲基化差异位点附近位置的数据有助于实时新生链合成时的甲基化检测。

N ⁶ -甲基腺苷(N ⁶ -MeA)的检测

可采用检测5-MeC的类似方法检测类似构建的模板核酸中的N6-MeA。图14A显示了二个模板的示意图，所述二个模板均包含侧接2个单链发夹或茎环结构的双链区。此甲基化模板位置1处为含A的GATC，位置2处为含^mA的GATC，而未甲基化模板这二个位置都是A。这二个模板其它处相同。如上所述，聚合酶结合于模板上的引发部位并开始加工模板产生新生链，利用其对展开的双链区的链置换活性沿模板推进。图14B显示利用这二个模板产生的上述不同数目读出共有序列的测序数据，用实线表示甲基化模板的数据。用点线表示未甲基化模板的数据。在图14B中，各行直方图内显示平均IPD的分布(对标注数量的环形共有序列亚读出作平均，即聚合酶通过模板产生互补新生链的完成次数)，二个模板在位置1的IPD分布非常相似。在位置2，单次亚读出后的平均IPD(上图)甲基化模板比未甲基化模板长约5倍。在3和5次环形亚读出后，分布重叠更少。存在N⁶-MeA时脉冲间隔期显著延长，证明可用SMRT^TM测序技术执行包含5-MeC以外的甲基化碱基的甲基测序。关于N⁶-MeA的检测的其它细节，以及在模板核酸内的其它修饰，参见Flusberg,等人.(2010)Nature Methods 7(6):461-465，其通过引用整体并入本文用于所有目的。

图14C中提供了腺嘌呤核苷酸甲基化状态指派的接受器工作特征(ROC)曲线和IPD域值的参数。真阳性是指^mA被正确判定为^mA，假阳性是指A被错误地判定为^mA。这些ROC曲线基于图14B中位置2的IPD分布，显示为为聚合酶分别加工模板一次、三次或五次的一次读出(实线)、三次读出(长虚线)和五次读出(短虚线)的分子冗余测序读出。将此图一分为二的水平点线是描述推测的随机甲基化状态的ROC曲线。第一次环形亚读出后ROC曲线下的标准化面积为0.80，但三次和五次读出后该面积分别提高至0.92和0.96。事实上，五次亚读出后，模板位置中＞85％的^mA碱基可用约5％的假阳率检出。

与甲基胞嘧啶相似，甲基腺嘌呤也显示对其上游和下游几个碱基范围内的IPD有影响。具体地，存在甲基腺嘌呤时某些位置观察到的IPD比缺乏甲基腺嘌呤时相同位置的IPD延长。图15提供了甲基化模板平均IPD与未甲基化模板平均IPD的比例，对DNA模板的位置作图。这二个模板除甲基化模板含图15中箭头所指的甲基化碱基以外其余相同。

5-羟甲基胞嘧啶的检测

与5-MeC和N⁶-MeA相似，也检测了5-羟甲基胞嘧啶并显示对其上游和下游几个碱基范围内的IPD有影响。具体地，存在5-羟甲基胞嘧啶时某些位置观察到的IPD比缺乏5-羟甲基胞嘧啶时相同位置的IPD延长。图16提供羟甲基化模板平均IPD与未甲基化模板平均IPD的比例，对DNA模板位置作图。这二个模板除羟甲基化模板含图16中箭头所指的羟甲基碱基以外其余相同。也检测了含5-羟甲基胞嘧啶的模板，存在该修饰时显示对脉冲宽度有所影响。图17提供了甲基化模板脉冲宽度的比例(甲基化模板脉冲宽度除以未甲基化模板脉冲宽度)与含5-羟甲基胞嘧啶碱基修饰的模板位置。箭头所指为不同的羟甲基化位置。

8-氧代鸟苷(8-氧代鸟嘌呤)的检测

也对8-氧代鸟苷进行了单分子实时测序，显示对模板中该修饰位点及附近未修饰位置的IPD有影响。存在8-氧代鸟苷时某些位置观察到的IPD比缺乏8-氧代鸟苷时相同位置的IPD延长。图18提供了8-氧代鸟苷模板平均IPD与非修饰模板平均IPD的比例，对DNA模板位置作图。这二个模板除修饰模板含图18中箭头所指的8-氧代鸟苷以外其余相同。这些数据表明，与G相比，8-oxoG显著改变了其周围约10个邻近碱基窗口的IPD。某些位置的IPD延长系数多达6.5倍。也检测了含8-oxoG碱基的模板，显示存在该修饰时对脉冲宽度有影响。图19提供脉冲宽度比例(存在8-oxoG的脉冲宽度除以无8-oxoG的脉冲宽度)与模板的8-oxoG碱基修饰位置。用箭头指出了各位置。另外，8-oxoG改变了7-8个邻近碱基窗口的脉冲宽度多达40％，这种改变包括脉冲宽度增加或减少。

在DNA内的核糖核苷的检测

最近已经在酵母中证实了核糖核苷酸在DNA中的存在，参见例如：Nick McElhinny,等人.(2010)Proc.Natl.Acad.Sci.USA107(11):4949-4954;Nick McElhinny,等人.(2010)Nat.Chem.Biol.6(10):774-781，它们的公开内容通过引用整体并入本文用于所有目的。已知在DNA内的核糖核苷的至少一种功能上重要的作用，即在酵母配对开关中。它们也代表基因组不稳定性的潜在位点。常规测序方法通常不能将脱氧核糖核苷酸与核糖核苷酸区分开，例如，将dA与rA区分开，将dC与rC区分开，等。相比而言，本文提供的方法能够将模板核酸分子内的脱氧核糖核苷酸与核糖核苷酸区分开。使用在本文别处和在Flusberg,等人.(2010)Nature Methods 7:461-465（其通过引用整体并入本文用于所有目的）中描述的方法，构建了在侧接2个发夹或茎环结构的双链部分(包括2个从Integrated DNA Technologies订购的互补寡核苷酸)内包含图20所提供的序列的封闭环形DNA模板。除了分别在修饰的Ribo A、Ribo C、Ribo U和Ribo G模板中的2个腺苷、胞苷、尿苷或鸟苷以外，所述模板是相同的。对所述模板进行单分子实时测序，并证实了核糖核苷的存在会影响模板中在修饰位点处以及在附近未修饰位点处的IPD。与在对照模板中在没有核糖核苷存在下的相同位置相比，在有核糖核苷存在下在某些位置处观察到IPD的增加。图21、22、23和24提供的图描绘了分别在Ribo A、Ribo C、Ribo G和Ribo U模板中的平均IPD与对照模板中的平均IPD之比，其相对于DNA模板位置绘制。在图21-24中，用箭头指示在修饰模板中的核糖核苷。这些数据表明，与脱氧核糖核苷相比，核糖核苷显著地改变了在修饰的位置周围的约10个相邻碱基窗内的IPD。发现有些位置的IPD增加了多达6.5倍。

葡萄糖修饰的5-羟甲基胞嘧啶的检测

还测试了葡萄糖修饰的5-羟甲基胞嘧啶，并证实对在葡萄糖修饰的5-羟甲基胞嘧啶位置的上游和下游的几个碱基范围内的IPD有影响。构建了含有合成模板的封闭的环形单链模板，所述合成模板在侧接单链接头的双链体区域中含有2个hmC残基。使用T4噬菌体β-葡萄糖基转移酶(New England Biolabs,Inc.)，用葡萄糖部分标记了2微克该模板。按照生产商的推荐，在有40μM UDP-葡萄糖存在下，将样品在37℃温育60分钟。使用QIAGEN PCR纯化柱纯化得到的样品，并使用以前描述的方法(Flusberg,等人.(2010)Nature Methods7:461-465)测序。与在没有葡萄糖修饰的5-羟甲基胞嘧啶存在下的相同位置相比，在有葡萄糖修饰的5-羟甲基胞嘧啶存在下在某些位置处观察到IPD的增加。图25提供的图描绘了葡萄糖修饰的模板中的平均IPD与未修饰的模板中的平均IPD之比，其相对于DNA模板位置绘制。除了在修饰模板中的葡萄糖修饰的羟甲基胞嘧啶（其在图25中用箭头指示）以外，2个模板是相同的。与未修饰的羟甲基胞嘧啶的检测相比，葡萄糖修饰的羟甲基胞嘧啶的平均IPD比例增加了多达5倍(图16)。

RNA模板中的修饰碱基的检测

如本文别处所述，本文所述的方法还可以用于在模板依赖性的RNA测序过程中检测RNA模板中的修饰的核苷酸。N⁶-甲基腺苷是细胞和病毒RNA的常见翻译后修饰。通过固相核酸合成，生成了含有在确定位置处的N⁶-甲基腺苷修饰的RNA模板。另外，合成了没有上述修饰的具有相同序列的对照RNA模板。使所有RNA寡聚体与互补DNA引物杂交，所述DNA引物已经预先在它的5’-末端处生物素化。然后经由在ZMW中的生物素-抗生蛋白链菌素连接，固定化每种DNA引物-RNA模板杂交物。在下述反应条件下，通过加入逆转录酶，开始单分子实时RNA测序(参见2010年4月26日提交的美国专利申请号12/767,673，其通过引用整体并入本文用于所有目的)：50mM Tris pH8.25、10mM KCl、5mM DDT、0.1mM CaCl₂、2.5mM MgCl₂和0.05mM EGTA，在25℃。评价互补碱基在修饰位点处的掺入的动力学，并与缺少所述修饰的相同序列背景进行对比。在这些RNA测序反应中，将碱基掺入检测为同源采样和掺入的脉冲的组合。将“块”定义为含有相同碱基的脉冲的测序迹线的一部分，其指示至少一个碱基被掺入新生链中。将“块时间”定义为从块的第一脉冲起点至该块的下一脉冲终点的时间。图26提供的图描绘了与在N⁶-甲基腺苷修饰模板(实心正方形)和未修饰模板(空心正方形)中观察到的块时间有关的事件的相对累积计数。该图清楚地表明，N⁶-甲基腺苷碱基通常表现出比未修饰的腺苷碱基显著更长的块时间，且它们可以在单分子实时RNA测序过程中彼此区分开。此外，通过标准参数（包括脉冲间隔期）来表征在每个块内的脉冲。例如，IPD值对N⁶-甲基腺苷修饰的存在是敏感的，例如，在有该修饰存在下在各个脉冲之间的距离。这些增加的IPD反映为从图27所示的IPD分布得到的更高K_off。

应理解，以上描述目的是说明而非限制本发明。本领域技术人员应明白，可不背离本发明的范围和思路对本申请书公开的内容作出修改和采用不同的实施方案。本发明的范围不是参见以上所述而确定，而应参见权利要求书而确定，其全部范围与权利要求书所述相同。本文提及的所有引用的出版物目的是说明和公开本发明所用的试剂、方法和概念，均不构成承认这些参考文献先于本发明在本文中所述的日期。本文披露的作为参考的多种专利、专利申请和出版物，其内容并未明确并入本文范围，将披露中提及的所有公开的参考文献和专利文献通过引用整体并入本文用于所有目的。

Claims

1.一种用于鉴定修饰的方法，所述方法包括：

a)提供包含所述修饰的模板核酸；

b)将其它修饰引入所述模板核酸；

c)提供能够加工所述模板核酸的酶；

d)使所述模板核酸与所述酶接触；

e)监测所述酶对所述模板核酸的加工；和

f)检测加工过程中的变化，其中所述变化指示所述其它修饰，从而鉴定所述修饰。

2.根据权利要求1所述的方法，其中所述修饰选自：甲基化的碱基、羟甲基化的碱基、HOMedU、β-D-葡萄糖基-HOMedU、胞嘧啶-5-亚甲基磺酸盐、假尿苷碱基、7,8-二氢-8-氧代鸟嘌呤碱基、2’-O-甲基衍生物碱基、缺口、脱嘌呤位点、脱嘧啶位点、嘧啶二聚体、顺式模板交联产物、氧化损伤、水解损伤、大碱基加合物、胸腺嘧啶二聚体、光化学反应产物、链间交联产物、错配碱基、二级结构和结合剂。

3.根据权利要求1所述的方法，其中所述模板核酸包含单链部分和双链部分。

4.根据权利要求3所述的方法，其中所述双链部分是所述模板核酸的2个单独部分之间的互补性的结果。

5.根据权利要求1所述的方法，其中所述模板核酸包含含有所述修饰的第一多核苷酸区域和与所述第一多核苷酸区域互补的第二多核苷酸区域，其中所述第一多核苷酸区域和所述第二多核苷酸区域是在所述模板核酸的单条链上。

6.根据权利要求1所述的方法，其中在所述接触之前，对所述模板核酸进行处理，以导入所述其它修饰。

7.根据权利要求6所述的方法，其中所述处理包括暴露于选自下述的修饰剂：糖基化酶、亚硫酸氢盐、DMS、胞嘧啶甲基转移酶、羟化酶、限制性酶、葡萄糖基转移酶、NMIA、CDI和胞苷脱氨酶。

8.根据权利要求7所述的方法，其中所述修饰剂是亚硫酸氢盐，且所述处理导致所述模板核酸中的5-hmC转化为CMS。

9.根据权利要求6所述的方法，其中所述处理包括将糖部分添加给包含所述修饰的核苷碱基，其中所述加工中的变化大于在没有所述糖部分存在时。

10.根据权利要求9所述的方法，其中所述核苷碱基是羟甲基胞嘧啶核苷碱基，其通过所述糖部分的添加而转化成β-葡萄糖基-5-羟甲基胞嘧啶。

11.根据权利要求9所述的方法，其中在所述核苷碱基和所述糖部分之间形成α连接。

12.根据权利要求9所述的方法，其中在所述核苷碱基和所述糖部分之间形成β连接。

13.根据权利要求6所述的方法，其中所述处理包括用所述其它修饰替换所述修饰。

14.根据权利要求13所述的方法，其中所述修饰是甲基化的碱基，且所述其它修饰是芘类似物。

15.根据权利要求1所述的方法，其中所述模板核酸是环形核酸。

16.根据权利要求15所述的方法，其中所述加工是新生核酸链的滚环合成。

17.根据权利要求1所述的方法，其中所述模板核酸是RNA或DNA分子。

18.根据权利要求1所述的方法，其中所述酶是聚合酶。

19.根据权利要求18所述的方法，其中所述聚合酶选自：DNA聚合酶、RNA聚合酶、逆转录酶和它们的衍生物。

20.根据权利要求18所述的方法，其中所述聚合酶是包含至少一个选自以下位点的突变的Φ29聚合酶：K392、K422、I93、M188、K392、V399、T421、K422；S95、Y101、M102；Q99、L123、K124、T189、A190；G191、S388；P127、L384、N387、S388；和L389、Y390、和G391。

21.根据权利要求18所述的方法，其中所述聚合酶显示出链置换活性。

22.根据权利要求1所述的方法，其中所述加工导致新生核酸链的合成。

23.根据权利要求1所述的方法，其中所述加工是单分子测序反应。

24.根据权利要求22所述的方法，其中所述监测检测单个核苷酸向所述新生核酸链中的掺入，以产生与所述模板核酸互补的序列读出。

25.根据权利要求24所述的方法，其中所述变化发生在所述修饰处。

26.根据权利要求24所述的方法，其中所述变化发生在所述修饰的上游或下游的一个位置或多个位置处。

27.根据权利要求24所述的方法，其中所述单个核苷酸被差异化标记，以在所述监测过程中可彼此区分。

28.根据权利要求27所述的方法，其中所述单个核苷酸包含与磷酸酯基团连接的标记，其中所述磷酸酯基团在所述加工过程中被除去。

29.根据权利要求24所述的方法，其中所述序列读出含有与所述模板核酸互补的至少一部分的多个拷贝。

30.根据权利要求24所述的方法，所述方法另外包括：绘制所述模板核酸内的修饰图谱，所述绘制图谱包括：

g)分析在即将检测加工中的变化之前、在检测加工中的变化期间或在检测加工中的变化之后不久所产生的一部分所述序列读出，以确定与所述模板核酸互补的序列；

h)确定在f中与所述模板核酸互补的序列的补体；和

i)绘制在所述模板核酸中的、靠近在f中与所述模板核酸互补的序列的补体的位置的修饰图谱。

31.根据权利要求1所述的方法，其中所述改变是所述加工过程中的动力学差异。

32.根据权利要求31所述的方法，其中所述动力学差异被检测为所述加工过程中的脉冲间隔期的改变。

33.根据权利要求31所述的方法，其中所述动力学差异被检测为所述加工过程中的脉冲宽度的改变。

34.根据权利要求31所述的方法，其中所述动力学差异指示所述模板核酸中存在何种类型的修饰。

35.根据权利要求1所述的方法，其中所述监测在所述加工过程中实时发生。

36.根据权利要求1所述的方法，其中所述模板核酸与所述酶形成被固定化在基质上的反应位点处的复合物。

37.根据权利要求36所述的方法，其中多个复合物被固定在所述基质上的可光学区分的反应位点处，其中单个复合物被固定在所述反应位点之一处，所述单个复合物与固定在任何其它所述反应位点处的任何其它所述复合物可光学区分。

38.根据权利要求37所述的方法，其中所述可光学区分的反应位点是在所述基质中的纳米级孔。

39.根据权利要求38所述的方法，其中所述纳米级孔是光学限制件。

40.根据权利要求39所述的方法，其中所述光学限制件是零模式波导。

41.根据权利要求1所述的方法，其中所述模板核酸是在所述监测过程中彼此可光学区分的多个模板核酸。

42.根据权利要求1所述的方法，其中在所述接触之前不扩增所述模板核酸。

43.一种绘制结合剂在单个核酸模板内的结合位点图谱的方法，所述方法包括：

a)将所述单个核酸模板暴露于所述结合剂；

b)对所述单个核酸模板进行模板指导的新生链的合成，所述新生链与所述单个核酸模板互补；

c)监测所述新生链的合成，其中将所述新生链的合成中的变化所发生之处的所述单个核酸模板内的基因座鉴定为所述结合剂在所述单个核酸模板内的结合位点内或附近，从而绘制所述结合位点的图谱。

44.根据权利要求43所述的方法，其中所述结合剂选自：转录因子、聚合酶、逆转录酶、组蛋白、限制性酶、抗体、核酸结合蛋白、核酸结合剂和核酸损伤结合剂。

45.根据权利要求43所述的方法，其中所述单个核酸模板选自：双链DNA、双链RNA、单链DNA、单链RNA、DNA/RNA杂交体和它们的组合。

46.根据权利要求43所述的方法，所述方法另外包括：在所述模板指导的合成之前，使所述结合剂与所述单个核酸模板交联。

47.根据权利要求46所述的方法，其中在所述交联之后，且在所述模板指导的合成之前，从所述单个核酸模板除去所述结合剂。

48.根据权利要求47所述的方法，其中所述合成中的变化由除去所述结合剂以后保留在所述核酸模板上的交联残余物造成。

49.根据权利要求46所述的方法，其中在所述交联以后，进行亲和纯化，以分离所述核酸模板的被所述结合剂结合的那些部分。

50.根据权利要求46所述的方法，其中所述单个核酸模板包含硫醇修饰的核苷。

51.根据权利要求50所述的方法，其中所述硫醇修饰的核苷是4-硫代尿苷残基。

52.根据权利要求50所述的方法，其中所述交联是光可活化的交联。

53.根据权利要求43所述的方法，其中所述结合剂与修饰剂连接，所述修饰剂将修饰引入所述单个核酸模板中邻近所述结合位点处，且另外，其中所述修饰造成所述合成中的变化。

54.根据权利要求53所述的方法，其中所述修饰剂包括选自下述的反应物：甲基转移酶、糖基化酶、葡萄糖基转移酶、羟化酶和核酸损伤剂。

55.根据权利要求54所述的方法，其中所述甲基转移酶是Dam腺嘌呤甲基转移酶，且所述修饰是腺苷向N⁶-甲基腺苷的转化。

56.根据权利要求53所述的方法，其中所述结合剂是多个不同类型的结合剂，所述修饰剂是多个不同类型的修饰剂，每种所述修饰剂将可检测的不同修饰引入所述单个核酸模板中。

57.根据权利要求56所述的方法，其中所述多个结合剂中的第一个和第二个具有相同的结合位点，且与不同的修饰剂连接，使得所述可检测的不同修饰指示是第一个还是第二个与所述单个核酸模板结合。

58.根据权利要求56所述的方法，其中所述监测提供所述单个核酸模板的序列数据。

59.根据权利要求58所述的方法，其中所述多个结合剂中的第一个和第二个具有不同的结合位点，且与相同的修饰剂连接，使得所述可检测的不同修饰指示是第一个还是第二个与所述单个核酸模板结合，且所述序列数据指示第一个和第二个结合剂中的哪一个被结合。

60.根据权利要求58所述的方法，其中所述多个结合剂中的第一个和第二个具有不同的结合位点，且与不同的修饰剂连接，使得所述可检测的不同修饰和序列数据指示第一个和第二个结合剂中的哪一个被结合。

61.根据权利要求43所述的方法，其中所述单个核酸模板是在光学限制件中。

62.根据权利要求43所述的方法，其中所述单个核酸模板选自：线形单链核酸模板、环形单链核酸模板、线形双链核酸模板、环形双链核酸模板和它们的组合。

63.一种使用单一核酸样品绘制修饰图谱的方法，所述方法包括：

a)提供包含多个核酸分子的单一核酸样品，所述核酸分子包含在特定基因座处的修饰；

b)取出所述单一核酸样品的一个等分试样，其中所述等分试样包含一些所述包含修饰的核酸分子；

c)对所述等分试样进行扩增反应，其中得到的扩增子不包含所述修饰；

d)确定所述得到的扩增子中的所述特定基因座的核苷酸序列；

e)确定没有在所述等分试样中的单一核酸样品部分中的所述特定基因座的核苷酸序列；

f)分析在d和e中确定的所述核苷酸序列，以绘制在所述单一核酸样品中的修饰的图谱。

64.根据权利要求63所述的方法，其中步骤d和e在单个多路测序反应中进行。

65.根据权利要求63所述的方法，其中在步骤b之前，进行富集操作，所述富集操作包括：

g)在促进这种结合的条件下，将所述单一核酸样品暴露于特异性地结合所述修饰的结合剂；

h)固定化所述结合剂，由此从不包含被所述结合剂结合的修饰的核酸中固定包含被所述结合剂结合的修饰的核酸；

i)除去所述不包含被所述结合剂结合的修饰的核酸，同时保留所述包含被所述结合剂结合的修饰的核酸，由此分离所述包含被所述结合剂结合的修饰的核酸；和

j)释放所述包含修饰的核酸，使得所述单一核酸样品现在富集所述包含修饰的核酸。

66.根据权利要求63所述的方法，所述方法另外包括：

g)在步骤d之前，给所述得到的扩增子添加第一条形码；

h)在步骤e之前，给没有在所述等分试样中的单一核酸样品部分中的核酸分子添加第二条形码；

i)在步骤d过程中，确定所述第一条形码的核苷酸序列，称作第一核苷酸序列；和

j)在步骤e过程中，确定所述第二条形码的核苷酸序列，称作第二核苷酸序列。

67.根据权利要求66所述的方法，其中在所述扩增反应之前添加所述第一条形码，且得到的每个扩增子包含所述第一条形码。

68.根据权利要求66所述的方法，其中步骤d和e在同一反应混合物内同时进行，且在d和e中确定的核苷酸序列也将给定的核酸分子鉴定为是或不是所述得到的扩增子之一。

69.根据权利要求63所述的方法，其中所述步骤d和e的确定包括：在可光学区分的反应位点处进行单分子测序，从而为如此测序的每个核酸分子单独地确定所述特定基因座的核苷酸序列。

70.一种用于鉴定修饰的方法，所述方法包括：

a)提供包含所述修饰的模板核酸；

b)提供能够加工所述模板核酸的聚合酶；

c)使所述模板核酸与所述聚合酶接触；

d)监测所述聚合酶对所述模板核酸的加工；和

e)检测所述加工的动力学的变化，其中所述动力学包括同源采样，且其中所述变化指示所述修饰，由此鉴定所述修饰。

71.根据权利要求70所述的方法，其中所述修饰是甲基化的胞嘧啶碱基、甲基化的腺嘌呤碱基或二级结构。

72.根据权利要求70所述的方法，其中所述模板核酸包含含有所述修饰的第一多核苷酸区域和与所述第一多核苷酸区域互补的第二多核苷酸区域，其中所述第一多核苷酸区域和所述第二多核苷酸区域是在所述模板核酸的单条链上。

73.根据权利要求70所述的方法，其中在所述接触之前对所述模板核酸进行处理以改变所述修饰。

74.根据权利要求70所述的方法，其中所述加工是新生核酸链的滚环合成。

75.根据权利要求70所述的方法，其中所述加工导致新生核酸链的合成，且进一步，其中所述监测检测单个核苷酸向所述新生核酸链中的掺入，以产生与所述模板核酸互补的序列读出。

76.根据权利要求75所述的方法，其中对所述单个核苷酸差别地标记以在所述监测过程中可彼此辨别，且进一步，其中所述单个核苷酸包含与磷酸酯基团连接的标记，其中所述磷酸酯基团在所述加工过程中被除去。

77.根据权利要求70所述的方法，其中所述监测在所述加工过程中实时发生。

78.根据权利要求70所述的方法，其中所述模板核酸和所述聚合酶形成被固定化在基质上的反应位点处的复合物。

79.根据权利要求78所述的方法，其中多个复合物被固定在所述基质上的可光学区分的反应位点处，其中单个复合物被固定在所述反应位点之一处，所述单个复合物与固定在任何其它所述反应位点处的任何其它所述复合物可光学区分。