CN117999360A

CN117999360A - 纳米孔测序

Info

Publication number: CN117999360A
Application number: CN202280046051.0A
Authority: CN
Inventors: J·曼德尔; J·基利安
Original assignee: Inmair Ltd
Current assignee: Inmair Ltd
Priority date: 2021-09-22
Filing date: 2022-09-20
Publication date: 2024-05-07
Also published as: KR20240067097A; CN117813401A; US20230090867A1; WO2023049108A3; AU2022349615A1; CA3223744A1; EP4405501A2; CA3223076A1; AU2022352646A1; WO2023049682A1; WO2023049108A2; EP4405502A1; JP2024534436A

Abstract

本发明公开了用于使用纳米孔对多核苷酸进行测序的系统和方法。在一些实施方案中，多核苷酸包括单链区和双链区，其中该单链区穿过纳米孔设置。该多核苷酸可通过电力相对于该纳米孔移动，同时一个或多个结构锁保持该多核苷酸靠近该纳米孔。测量基于纳米孔离子电流阻断并与该多核苷酸在纳米孔识别区处或附近的区域相关的特征信号，并将其用于推断该多核苷酸的核碱基序列。在一些示例中，该双链区通过聚合酶延伸，并且从该多核苷酸去除该聚合酶。在一些示例中，在不同施加电压下测量的信号提供关于该多核苷酸序列的非冗余信息。

Description

纳米孔测序

相关申请的交叉引用

本申请要求2021年9月22日提交的美国临时申请63/247,155的优先权，该美国临时申请的内容全文以引用方式并入。

背景技术

一些DNA测序技术涉及在支承表面上或在预定义反应室内进行大量受控反应。然后可以观察或检测受控反应，并且随后的分析可以有助于鉴定该反应中所涉及的多核苷酸的特性。此类测序技术的示例包括涉及连接测序、合成测序、可逆终止子化学或焦磷酸测序方法的下一代测序或大规模并行测序。

一些DNA测序技术可通过利用纳米孔实现单分子分辨率。例如，设置在膜中的纳米孔为离子电流提供路径。当受到电驱动力的单链DNA(ssDNA)穿过纳米孔时，ssDNA影响通过纳米孔的离子电流。例如，单个ssDNA的每个通过的核苷酸或通过纳米孔的ssDNA的每个系列的核苷酸产生特征性离子电流。因此，可记录与穿过的ssDNA相关的信号(诸如通过纳米孔的这些特征性电流)并将其用于确定ssDNA的序列。例如，使用进行性酶诸如聚合酶或解旋酶来帮助多核苷酸通过纳米孔的易位可能受到这些酶的随机行为的影响，因此可能具有高度可变的每个核苷酸的易位时间。此外，即使使用进行性酶，易位速度仍可能比可用电子器件和检测器准确测量的速率更快。然而，用于纳米孔测序的先前已知的组合物、系统和方法可能不是足够稳健的、可重复的、准确的或灵敏的，并且可能不具有足够高的通量或足够低的成本用于实际实施。因此，仍然需要用于纳米孔测序的改进的组合物、系统和方法。

Olasagasti等人，“Replication of individual DNA molecules underelectronic control using a protein nanopore,”Nature Nanotechnology 5(11):798-806(2010)公开了通过纳米孔设置DNA模板。DNA模板-聚合酶复合物在α-溶血素纳米孔的第一侧上形成，并且包含DNA双链体和聚合酶。DNA模板包含最初位于α-溶血素纳米孔的第二侧的无碱基报告核苷酸。当基于DNA模板的序列使用聚合酶将核苷酸添加至双链体时，测量通过纳米孔的离子电流(I_EBS，其中EBS是指酶结合状态)。当添加这些核苷酸时，无碱基报告核苷酸被拉向并随后通过α-溶血素，这引起I_EBS的变化。

发明内容

为了提高多核苷酸序列鉴定的置信度或准确性，期望具有受控的易位过程。在某些实施方案中，利用聚合酶(例如，DNA聚合酶或逆转录酶)掺入核苷酸以在模板多核苷酸链(例如，单链DNA或单链RNA)上合成互补链，其中在掺入每个额外的核苷酸之后，通过用电力将模板链-互补链复合物拉向纳米孔来去除聚合酶。在某些实施方案中，利用一个或多个结构“锁”部分来帮助保持模板链-互补链复合物靠近纳米孔，同时该复合物经受电力。在某些实施方案中，可以测量靠近纳米孔的模板链-互补链复合物区域持续足以实现期望的信噪比的时间量。在某些实施方案中，利用一个或多个结构“锁”部分来分离模板链的用于通过纳米孔测序的区域。

在某些实施方案中，相同的模板多核苷酸分子在同一纳米孔或同一纳米孔单位格中测序超过一次，以提高共有准确性。例如，当模板多核苷酸链的纳米孔测序在合成其互补链时已进行一次时，在通过用电力将模板链-互补链复合物拉向纳米孔而从模板链剥离/去除互补链之后，相同的模板链在同一纳米孔中再测序一次，并且该过程可以重复若干轮。

在某些实施方案中，利用与穿过的多核苷酸相关的信号(例如，通过纳米孔的特征性离子电流)的平均值和/或噪声中的信息(例如，变化或标准偏差)来鉴定多核苷酸中的一个或多个核苷酸。例如，通过纳米孔的电流可通过纳米孔附近的一个或多个核苷酸的种类来调节。核苷酸的种类涉及核苷酸是否具有碱基A、T、C或G，或非天然碱基，或者具有其他DNA或RNA修饰(例如，表观遗传修饰或损伤)。示例性DNA和RNA修饰或非天然碱基包括：甲基化碱基如5-甲基胞嘧啶(5-MeC)或N⁶-甲基腺苷(N⁶-MeA)、羟甲基化碱基如5-羟甲基胞嘧啶、假尿苷碱基、7,8-二氢-8-氧代鸟嘌呤碱基、2'-O-甲基衍生物碱基、4-硫代尿苷(s4U)、6-硫代鸟嘌呤(s6G)、无嘌呤位点、无嘧啶位点、嘧啶二聚体、胸腺嘧啶二聚体、DNA加合物、水解损伤、氧化损伤、8-氧代鸟苷(8-oxoG)、DNA内的核糖核苷、经葡萄糖修饰的5-羟甲基胞嘧啶、HOMedU、β-D-葡糖基-HOMedU、胞嘧啶-5-亚甲基磺酸盐(CMS)等。除此之外或另选地，利用成功掺入额外的核苷酸之前的等待时间来推断关于模板链中的碱基的信息。例如，不受理论的束缚，非天然碱基或对模板链中碱基的修饰可影响将额外的核苷酸掺入互补链的速率，例如，因为可影响碱基配对相互作用。

在某些实施方案中，使用在纳米孔处感测(或与纳米孔相互作用)的多核苷酸的单链区中的多个碱基和双链区中的多个碱基的各种组合鉴定一个或多个核苷酸。在某些实施方案中，增加序列鉴定置信度或准确性的组合并且在后续测量中在推断测序结果的过程中使用此类组合。

在一些实施方案中，用于构建“K-mer图”的组合和相关信号将K-mer多核苷酸序列的每个实例映射到唯一代码，该唯一代码可包括从用K-mer多核苷酸实例测量的纳米孔信号提取的唯一D维值。在一些示例中，K-mer图可以预测与先前未测量的多核苷酸序列相关的一系列代码(直至预定水平的差异)。在一些示例中，K-mer图可允许多核苷酸的从头测序，而无需参考序列(例如，参考基因组或转录组)的辅助。

在一些实施方案中，不受理论的束缚，利用若干个不同量值的施加电压调节多核苷酸与纳米孔之间的相对位置和/或相互作用，从而提供对所掺入的核苷酸加上相邻核苷酸作为整体的若干次询问。在一些示例中，非冗余的、不相关的或独立的信息片段可通过在不同的施加电压下对所掺入的核苷酸加上相邻核苷酸作为整体的若干次询问来获得。

在一些实施方案中，使用纳米孔对双链多核苷酸进行测序的某些实施方案和/或分析或组织与K-mer多核苷酸相关的信号的某些实施方案可以与2021年9月22日提交的美国临时专利申请序列号63/247,155和2021年10月7日作为US2021/0313009公布的美国专利申请序列号17/224,496中公开的系统一起使用，所述专利申请的公开内容全文以引用方式并入本文。

本文所述的实施方案还可包括信号电平的过滤，诸如对信号电平过滤预期范围的值。尽管本文的实施方案描述了在读取位置中的整个持续时间内确定信号电平诸如平均电流，但实施方案还包括单独地或组合地确定读取位置中的持续时间的任何部分的信号电平，诸如在读取位置期间对信号采样一次或多次。尽管本文的实施方案描述了通过使用平均值确定信号电平，但实施方案还包括通过任何统计方法(诸如中值、模态、斜率、拐点或其他统计方法)单独地或组合地确定信号电平。尽管本文的实施方案描述了通过测量通过纳米孔的离子电流来确定信号电平，但实施方案还包括通过测量顺式/反式纳米孔单元的其他电特征来单独地或组合地测定信号电平。例如，在其他实施方案中，信号电平由顺式/反式纳米孔单元的指定区域或部件处的电压电位确定。例如，在其他实施方案中，信号电平由顺式/反式纳米孔单元的指定区域或部件处的电阻抗确定。例如，在其他实施方案中，信号电平由纳米孔膜的电导率/电阻确定。

本文公开的系统、装置、套件和方法各自具有几个方面，其中没有任何一个方面单独负责其期望的属性。在不限制权利要求书的范围的情况下，现在将简要讨论一些突出的特征。还设想了许多其他示例，包括具有更少、额外和/或不同部件、步骤、特征、对象、益处和优点的示例。各部件、方面和步骤也可以通过不同的方式进行布置和排序。在考虑该讨论之后，特别是在阅读题为“具体实施方式”的部分之后，将理解本文公开的装置和方法的特征如何提供优于其他已知装置和方法的优点。

应当理解，本文公开的装置和/或阵列的任何特征可以以任何期望的方式和/或构型组合在一起。此外，应当理解，使用该装置的方法的任何特征可以以任何期望的方式组合在一起。此外，应当理解，此方法和/或装置和/或阵列的特征的任何组合可以一起使用，和/或可以与本文公开的示例中的任一示例组合。更进一步，应当理解，装置中的任一装置和/或阵列中的任一阵列和/或方法中的任一方法的任何特征或特征组合可以以任何期望的方式组合在一起，和/或可以与本文公开的示例中的任一示例组合。

应当理解，前述概念和下文更详细讨论的额外概念的所有组合都被设想为是本文公开的发明主题的一部分并且可用于实现本文所述的益处和优点。

附图说明

通过参考以下具体实施方式和附图，本公开的示例的特征将变得显而易见，其中类似的附图标号对应于类似但可能不相同的部件。为了简洁起见，具有先前描述的功能的附图标号或特征可结合或可不结合它们出现的其他附图来描述。

图1A示出了可用于实现所公开技术的一些实施方案的示例性纳米孔测序系统。

图1B示出了图1A的示例性纳米孔测序系统的纳米孔单元格之一的一部分。

图2A示出了用于所公开技术的一些实施方案中的示例性测序操作。

图2B示出了根据图2A所示的示例性测序操作测量的实验结果。

图3示出了根据所公开技术的一些实施方案的用于定制测序的方法。

图4A和图4B示出了根据一些实施方案的用于对多核苷酸进行测序的另一种方法，该方法在与图2B相关的实验一致的多于一个读取电位下扫描模板多核苷酸。

图5、图6、图7A和图7B示出了所公开技术的一些实施方案，其涉及模板多核苷酸的再测序或共有序列测序，以便对多核苷酸多次测序。

图8A示出了构建和使用K-mer图的方法。

图8B示出了结合图8A讨论的示例性K-mer实例和K-mer图构造。

图9A示出了构建和使用包括甲基化C碱基的K-mer实例的K-mer图的方法。

图9B示出了结合图9A讨论的示例性K-mer实例和K-mer图构造。

图10A示出了构建和使用包括甲基化C碱基的K-mer实例的K-mer图的另一种方法，其中可以利用碱基掺入等待时间。

图10B示出了根据所公开技术的一些实施方案的涉及经由间接动力学检测表观遗传修饰的实验数据。

图11A和图11B示出了制作具有5-mer的K-mer图的示例。

图12示出了K-mer图状态的示例。

图13示出了根据所公开技术的一些实施方案的多核苷酸的从头测序的示例。

图14A、图14B和图14C示出了根据所公开技术的一些实施方案的多核苷酸的从头测序的另一个示例。

图15A、图15B、图15C示出了使用纳米孔信号的噪声的示例。

图16A、图16B、图16C、图16D、图17A和图17B示出了多核苷酸-纳米孔相互作用的电压依赖性调节和离子电流的非欧姆行为的示例。

图18-I、图18-II和图18-III示出了PhiX噬菌体基因组的从头测序结果。

具体实施方式

本文所提及的所有专利、申请、已公布的申请和其他公布内容全文以引用参考资料的方式并入本文。如果本文使用术语或短语的方式与以引用方式并入本文的专利、申请、已公布的申请和其他公布中阐述的定义相反或不一致，则本文的使用优于以引用方式并入本文的定义。

定义

本文所用的所有技术和科学术语都具有本公开文本所属技术领域普通技术人员通常理解的含义。

如本文所用，除非上下文另有明确指示，否则单数形式“一个”、“和”以及“该”包括复数指代。因此，例如，对“一个序列”的提及可以包括多个此类序列，等等。

术语包含、包括、容纳和这些术语的各种形式彼此同义，并且意在是同样宽泛的。此外，除非有相反的明确说明，否则包括或具有带有特定属性的一个或多个元件的示例可包括额外元件，无论额外元件是否具有该属性。

如本文所用，术语“膜”是指分离两个液体/凝胶室(例如，顺式阱和流体腔或库)的非渗透性或半渗透性屏障或其他片材，所述液体/凝胶室可在其中容纳相同的组合物或不同的组合物。膜对任何给定物质的渗透性取决于膜的性质。在一些示例中，膜可以是离子、电流和/或流体不可渗透的。例如，脂质膜可以是离子不可渗透的(即，不允许任何离子转运通过)，但可以至少部分地可渗透水(例如，水扩散率在约40μm/s到约100μm/s范围内)。对于另一示例，合成/固态膜(其的一个示例是氮化硅)可以是离子、电荷和流体不可渗透的(即，所有这些物质的扩散为零)。根据本公开可以使用任何膜，只要该膜可以包括跨膜纳米级开口并且可以保持跨膜的电势差即可。膜可以是单层或多层膜。多层膜包括两个或更多个层，该层中的每一个层是非渗透性或半渗透性材料。

膜可由生物或非生物来源的材料形成。生物来源的材料是指衍生自或分离自生物环境(诸如生物体或细胞)的材料，或生物可用结构的合成制造形式(例如，仿生材料)。

由生物来源的材料制成的示例性膜包括由勃拉脂质(bolalipid)形成的单层。由生物来源的材料制成的另一示例性膜包括脂质双层。合适的脂质双层包括例如细胞的膜、细胞器的膜、脂质体、平面脂质双层和支持的脂质双层。脂质双层可例如由两个相对的磷脂层形成，该两个磷脂层被布置成使得它们的疏水性尾部基团彼此面对以形成疏水性内部，而脂质的亲水性头部基团向外朝向双层每一侧上的水性环境。脂质双层也可以例如通过其中脂质单层被携带在水溶液/空气界面上经过基本上垂直于该界面的孔隙的任一侧的方法形成。通常通过首先将脂质溶解在有机溶剂中，然后使一滴溶剂在孔隙的任一侧上的水溶液表面上蒸发来将脂质添加到水性电解质溶液的表面。一旦有机溶剂至少部分地蒸发，孔隙的任一侧上的溶液/空气界面就物理地上下移动通过孔，直到形成双层。双层形成的其他合适方法包括尖端浸渍、涂覆双层和脂质体双层的膜片钳。还可使用用于获得或产生脂质双层的任何其他方法。

非生物来源的材料也可用作膜。这些材料中的一些材料是固态材料并且可以形成固态膜，并且这些材料中的其他材料可以形成薄的液体薄膜或膜。固态膜可以是单层，诸如支持基板(即固体支持物)上的涂层或薄膜，或独立元件。固态膜也可以是夹层构型的多层材料的复合材料。可使用任何非生物来源的材料，只要所得膜能够包括跨膜纳米级开口并且能够保持跨膜的电势差即可。膜可包括有机材料、无机材料或两者。合适的固态材料的示例包括例如微电子材料、绝缘材料(例如，氮化硅(Si₃N₄)、氧化铝(Al₂O₃)，氧化铪(HfO₂)、五氧化二钽(Ta₂O₅)，氧化硅(SiO₂)等)、一些有机和无机聚合物(例如，聚酰胺、塑料，诸如聚四氟乙烯(PTFE)，或弹性体，诸如双组分加成固化硅橡胶)，以及玻璃。此外，固态膜可以由单层石墨烯(其是致密地堆积成二维蜂窝晶格的原子级薄片的碳原子)、多层石墨烯或与一层或多层其他固态材料混合的一层或多层石墨烯制成。含石墨烯的固态膜可以包括至少一个石墨烯层，该石墨烯层是石墨烯纳米带或石墨烯纳米间隙，其可以用作电传感器以表征目标多核苷酸。应当理解，固态膜可以通过任何合适的方法制造，例如化学气相沉积(CVD)。在一个示例中，石墨烯膜可以通过CVD或从石墨剥离来制造。可以使用的合适的薄液体薄膜材料的示例包括二嵌段共聚物或三嵌段共聚物，诸如两亲性PMOXA-PDMS-PMOXA ABA三嵌段共聚物。

跨纳米孔施加电势差可偏置核酸相对于纳米孔的易位。产生对应于核苷酸易位通过纳米孔的一个或多个信号。因此，当靶多核苷酸或单核苷酸或衍生自靶多核苷酸或单核苷酸的探针通过纳米孔时，跨膜的电流由于例如收缩部的碱基依赖性(或探针依赖性)阻塞而改变。可使用各种方法中的任一种方法来测量来自该电流变化的信号。每个信号对于纳米孔中的核苷酸(或探针或具有报告条形码区的接头构建体)的种类是独特的，使得所得信号可用于确定多核苷酸的特征。例如，可以确定产生特征信号的一种或多种核苷酸(或探针)种类的身份。

如本文所用，“报告基因”由一个或多个报告元件组成。报告基因包括所谓的“标签”和“标记”。报告基因用于解析靶核酸的遗传信息。“编码”或“解析”是动词，是指从一种形式转变为另一种形式，并且是指将靶模板碱基序列的遗传信息转变为报告基因的排列。

如本文所用，术语“纳米孔”旨在表示与膜分离或限定在膜中并延伸穿过膜的中空结构。纳米孔允许离子、电流和/或流体从膜的一侧穿越到膜的另一侧。例如，抑制离子或水溶性分子通过的膜可以包括纳米孔结构，该纳米孔结构延伸穿过膜以允许离子或水溶性分子从膜的一侧通过(通过延伸穿过纳米孔结构的纳米级开口)到膜的另一侧。延伸穿过纳米孔结构的纳米级开口的直径可以沿其长度(即，从膜的一侧到膜的另一侧)变化，但在任何点处都在纳米级上(即，约1nm到约100nm，或到小于1000nm)。纳米孔的示例包括例如生物纳米孔、固态纳米孔，以及生物和固态杂化纳米孔。

如本文所用，术语“直径”旨在表示通过纳米级开口的横截面的质心在纳米级开口的横截面中可刻写的最长直线。应当理解，纳米级开口可以具有或可以不具有圆形或基本上圆形的横截面(纳米级开口的横截面基本上与顺式/反式电极平行)。此外，横截面可以是规则或不规则形状的。

如本文所用，术语“生物纳米孔”旨在表示其结构部分由生物来源的材料制成的纳米孔。生物来源是指衍生自或分离自生物环境(诸如生物体或细胞)的材料，或生物可用结构的合成制造形式。生物纳米孔包括例如多肽纳米孔和多核苷酸纳米孔。

如本文所用，术语“多肽纳米孔”旨在表示延伸穿过膜的蛋白质/多肽，并且允许离子、电流、生物聚合物(诸如DNA或肽)或适当尺寸和电荷的其他分子和/或流体从膜的一侧流到膜的另一侧。多肽纳米孔可以是单体、均聚物或杂聚物。多肽纳米孔的结构包括例如α-螺旋束纳米孔和β-桶纳米孔。示例性多肽纳米孔包括α-溶血素、耻垢分枝杆菌(Mycobacterium smegmatis)孔蛋白A(MspA)、短杆菌肽A、麦芽糖孔蛋白、OmpF、OmpC、PhoE、Tsx、F-菌毛、气单胞菌溶素等。蛋白质α-溶血素天然存在于细胞膜中，在细胞膜中它充当离子或分子转运进出细胞的孔。耻垢分枝杆菌孔蛋白A(MspA)是由分枝杆菌产生的膜孔蛋白，其允许亲水性分子进入细菌。MspA形成紧密互连的八聚体和跨膜β-桶，其类似于高脚杯并含有中心孔。

多肽纳米孔可以是合成的。合成多肽纳米孔包括在自然界中不存在的蛋白质样氨基酸序列。蛋白质样氨基酸序列可包括已知存在但不形成蛋白质基础的氨基酸中的一些氨基酸(即，非蛋白原氨基酸)。蛋白质样氨基酸序列可以人工合成而不是在生物体中表达，然后纯化/分离。

如本文所用，术语“多核苷酸纳米孔”旨在包括延伸穿过膜并允许离子、电流和/或流体从膜的一侧流到膜的另一侧的多核苷酸。多核苷酸孔可以包括例如多核苷酸折纸(例如，DNA的纳米级折叠以产生纳米孔)。

同样如本文所用，术语“固态纳米孔”旨在表示其结构部分由固态膜限定并且包括非生物来源(即，不是生物来源)的材料的纳米孔。固态纳米孔可以由无机或有机材料形成。固态纳米孔包括例如氮化硅纳米孔、二氧化硅纳米孔和石墨烯纳米孔。

本文公开的纳米孔可以是杂化纳米孔。“杂化纳米孔”是指包含生物来源和非生物来源两者的材料的纳米孔。杂化纳米孔的示例包括多肽-固态杂化纳米孔和多核苷酸-固态纳米孔。

在一些实施方案中，纳米孔可包含固态材料，诸如氮化硅、改性氮化硅、硅、氧化硅或石墨烯，或它们的组合。在一些实施方案中，纳米孔是在插入双层、膜、薄膜或固态孔隙时形成隧道的蛋白质。在一些实施方案中，纳米孔包含在脂质双层中。在一些实施方案中，纳米孔包含在含有分枝菌酸的人工膜中。纳米孔可以是耻垢分枝杆菌孔蛋白(Msp)，其具有限定隧道的前庭和收缩区。Msp孔蛋白可以是突变型MspA孔蛋白。在一些实施方案中，突变型MspA孔蛋白的位置90、91和93处的氨基酸各自被天冬酰胺取代。一些实施方案可包括通过去除、添加或替换Msp孔蛋白的至少一个氨基酸来改变易位速度或测序灵敏度。“突变型MspA孔蛋白”是多聚体复合物，其与其对应的野生型MspA孔蛋白具有至少或至多70％、75％、80％、85％、90％、95％、98％或99％或更高的同一性，或其中可衍生的任何范围，但小于100％，并且保留隧道形成能力。突变型MspA孔蛋白可以是重组蛋白。任选地，突变型MspA孔蛋白是在野生型MspA孔蛋白的收缩区或前庭中具有突变的MspA孔蛋白。任选地，突变可发生在野生型MspA孔蛋白的周质环的边缘或外侧。突变型MspA孔蛋白可用于本文所述的任何实施方案中。

“前庭”是指MspA孔蛋白内部的锥形部分，其直径通常沿着中心轴线从一端向另一端减小，其中前庭的最窄部分与收缩区相连。前庭也可被称为“高脚杯区”。前庭和收缩区一起限定Msp孔蛋白的隧道。“收缩区”或“读头”是指MspA孔蛋白的隧道的直径最窄部分，其与前庭相连。收缩区的长度范围可在约0.3nm至约2nm的范围内。任选地，长度为约、至多约或至少约0.3nm、0.4nm、0.5nm、0.6nm、0.7nm、0.8nm、0.9nm、1.0nm、1.1nm、1.2nm、1.3nm、1.4nm、1.5nm、1.6nm、1.7nm、1.8nm、1.9nm、2nm或3nm，或其中可衍生的任何范围。收缩区的直径可在约0.3nm至约2nm的范围内。任选地，直径为约、至多约或至少约0.3nm、0.4nm、0.5nm、0.6nm、0.7nm、0.8nm、0.9nm、1.0nm、1.1nm、1.2nm、1.3nm、1.4nm、1.5nm、1.6nm、1.7nm、1.8nm、1.9nm、2nm或3nm，或其中可衍生的任何范围。“隧道”是指Msp孔蛋白的由前庭和收缩区限定的中心空部分，气体、液体、离子或分析物可通过该中心空部分。隧道是纳米孔的开口的示例。

各种条件诸如光和接触纳米孔的液体介质，包括其pH、缓冲液组成、洗涤剂组成和温度，可以影响纳米孔的行为，特别是关于其通过隧道的传导性以及分析物相对于隧道的移动(临时地或永久地)。

在一些实施方案中，所公开的用于纳米孔测序的系统包含具有限定隧道的前庭和收缩区的Msp孔蛋白，其中隧道位于第一液体介质与第二液体介质之间，其中至少一种液体介质包含分析物多核苷酸，并且其中系统能够操作以检测分析物的特性。该系统能够操作以检测任何分析物的特性，包括使Msp孔蛋白经受电场，使得分析物与Msp孔蛋白相互作用。该系统能够操作以检测分析物的特性，包括使MspA孔蛋白经受电场，使得分析物相对于Msp孔蛋白的隧道电泳易位。在一些实施方案中，该系统包含具有限定隧道的前庭和收缩区的Msp孔蛋白，其中隧道位于第一液体介质与第二液体介质之间的脂质双层中，并且其中第一液体介质与第二液体介质之间唯一的液体连通点出现在隧道中。此外，本文所述的任何Msp孔蛋白可包含在本文所述的任何系统中。

该系统还可包括与流体或电解质连通的一个或多个温度调节装置。本文所述的系统能够操作以通过电泳或其他方式使分析物易位通过Msp孔蛋白隧道。

如本文所用，“肽”是指通过酰胺键(即，“肽键”)连接在一起的两个或更多个氨基酸。肽包含多达或包括50个氨基酸。肽可以是线性的或环状的。肽可以是α、β、γ、δ或更高的，或混合的。肽可包含如本文所定义的氨基酸的任何混合物，诸如包含D、L、α、β、γ、δ或更高级氨基酸的任何组合。

如本文所用，“蛋白质”是指具有51个或更多个氨基酸的氨基酸序列。

如本文所用，“聚合酶”是通常用于连接3'-OH 5'-三磷酸核苷酸、低聚物和它们的类似物的酶。聚合酶包括但不限于Bsu DNA聚合酶、IsoPol^TMDNA聚合酶(ArcticZymesTechnologies ASA)、DNA依赖性DNA聚合酶、DNA依赖性RNA聚合酶、RNA依赖性DNA聚合酶、RNA依赖性RNA聚合酶、T7 DNA聚合酶、T3 DNA聚合酶、T4 DNA聚合酶、T7 RNA聚合酶、T3 RNA聚合酶、SP6 RNA聚合酶、DNA聚合酶I、克伦诺片段、水生栖热菌(Thermophilus aquaticus)DNA聚合酶、Tth DNA聚合酶、DNA聚合酶(New England Biolabs)、DeepDNA聚合酶(New England Biolabs)、Bst DNA聚合酶大片段、Stoeffel片段、90N DNA聚合酶、90N DNA聚合酶、Pfu DNA聚合酶、TfIDNA聚合酶、Tth DNA聚合酶、RepliPHIPhi29聚合酶、TIi DNA聚合酶、真核DNA聚合酶β、端粒酶、Therminator^TM聚合酶(New England Biolabs)、KOD HiFi^TMDNA聚合酶(Novagen)、KOD1 DNA聚合酶、Q-β复制酶、末端转移酶、AMV逆转录酶、M-MLV逆转录酶、Phi6逆转录酶、HIV-1逆转录酶、通过生物勘探发现的新型聚合酶，以及US2007/0048748、US 6,329,178、US 6,602,695和US 6,395,524(以引用方式并入)中引用的聚合酶。这些聚合酶包括野生型、突变同种型和遗传工程变体。

如本文所用，“核碱基”是杂环碱基，诸如腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷、黄嘌呤、次黄嘌呤，或者它们的杂环衍生物、类似物或互变异构体。核碱基可以是天然存在的或合成的。核碱基的非限制性实例是腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿嘧啶、黄嘌呤、次黄嘌呤、8-氮杂嘌呤、在8位被甲基或溴取代的嘌呤、9-氧代-N6-甲基腺嘌呤、2-氨基腺嘌呤、7-脱氮黄嘌呤、7-脱氮鸟嘌呤、7-脱氮-腺嘌呤、N4-乙醇基胞嘧啶、2,6-二氨基嘌呤、N6-乙醇基-2,6-二氨基嘌呤、5-甲基胞嘧啶、5-(C3-C6)-炔基胞嘧啶、5-氟尿嘧啶、5-溴尿嘧啶、硫尿嘧啶、假异胞嘧啶、2-羟基-5-甲基-4-三唑并吡啶、异胞嘧啶、异鸟嘌呤、次黄苷、7,8-二甲基咯嗪、6-二氢胸腺嘧啶、5,6-二氢尿嘧啶、4-甲基-吲哚、乙醇腺嘌呤，以及美国专利号5,432,272和6,150,510，PCT申请WO 92/002258、WO 93/10820、WO 94/22892和WO 94/24144，以及Fasman(“Practical Handbook of Biochemistry and MolecularBiology”，第385至394页，1989,CRC Press,Boca Raton,LO)中描述的非天然存在的核碱基，所有这些文献均全文以引用方式并入本文。

如本文所用，术语“核苷酸(nucleotide)”旨在表示包含糖和至少一个磷酸酯基团，并且在一些示例中还包含核碱基的分子。缺乏核碱基的核苷酸可被称为“无碱基(abasic)”的。在一些实施方案中，“核苷酸”包括含氮杂环碱基、糖以及一个或多个磷酸基团。核苷酸是核酸序列的单体单元。核苷酸的示例包括例如核糖核苷酸或脱氧核糖核苷酸。在核糖核苷酸(RNA)中，糖是核糖，并且在脱氧核糖核苷酸(DNA)中，糖是脱氧核糖，即在核糖中缺少存在于2'位置处的羟基基团的糖。含氮杂环碱基可以是嘌呤碱基或嘧啶碱基。嘌呤碱基包括腺嘌呤(A)和鸟嘌呤(G)以及它们的经修饰的衍生物或类似物。嘧啶碱基包括胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)以及它们的经修饰的衍生物或类似物。脱氧核糖的C-1原子与嘧啶的N-1或嘌呤的N-9键合。磷酸基团可以是单磷酸、二磷酸或三磷酸形式。这些核苷酸是天然核苷酸，但是应当进一步理解，也可以使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。

核苷酸的示例可包括脱氧核糖核苷酸、经修饰的脱氧核糖核苷酸、核糖核苷酸、经修饰的核糖核苷酸、肽核苷酸、经修饰的肽核苷酸、经修饰的磷酸糖主链核苷酸以及它们的混合物。核苷酸的示例包含单磷酸腺苷(AMP)、二磷酸腺苷(ADP)、三磷酸腺苷(ATP)、单磷酸胸苷(TMP)、二磷酸胸苷(TDP)、三磷酸胸苷(TTP)、单磷酸胞苷(CMP)、二磷酸胞苷(CDP)、三磷酸胞苷(CTP)、单磷酸鸟苷(GMP)、二磷酸鸟苷(GDP)、三磷酸鸟苷(GTP)、单磷酸尿苷(UMP)、二磷酸尿苷(UDP)、三磷酸尿苷(UTP)、单磷酸脱氧腺苷(dAMP)、二磷酸脱氧腺苷(dADP)、三磷酸脱氧腺苷(dATP)、单磷酸脱氧胸苷(dTMP)、二磷酸脱氧胸苷(dTDP)、三磷酸脱氧胸苷(dTTP)、二磷酸脱氧胞苷(dCDP)、三磷酸脱氧胞苷(dCTP)、单磷酸脱氧鸟苷(dGMP)、二磷酸脱氧鸟苷(dGDP)、三磷酸脱氧鸟苷(dGTP)、单磷酸脱氧尿苷(dUMP)、二磷酸脱氧尿苷(dUDP)、和三磷酸脱氧尿苷(dUTP)。

核苷酸的示例也可旨在涵盖任何核苷酸类似物，该核苷酸类似物是包含与天然存在的核苷酸相比经修饰的核碱基、糖、主链和/或磷酸酯部分的类型的核苷酸。核苷酸类似物还可称为“经修饰的核酸”。示例性经修饰的核碱基包含肌苷、黄嘌呤(xathanine)、次黄嘌呤、异胞嘧啶、异鸟嘌呤、2-氨基嘌呤、5-甲基胞嘧啶、5-羟甲基胞嘧啶、2-氨基腺嘌呤、6-甲基腺嘌呤、6-甲基鸟嘌呤、2-丙基鸟嘌呤、2-丙基腺嘌呤、2-硫代尿嘧啶、2-硫代胸腺嘧啶、2-硫代胞嘧啶、15-卤代尿嘧啶、15-卤代胞嘧啶、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、6-偶氮尿嘧啶、6-偶氮胞嘧啶、6-偶氮胸腺嘧啶、5-尿嘧啶、4-硫代尿嘧啶、8-卤代腺嘌呤或鸟嘌呤、8-氨基腺嘌呤或鸟嘌呤、8-硫醇腺嘌呤或鸟嘌呤、8-硫烷基腺嘌呤或鸟嘌呤、8-羟基腺嘌呤或鸟嘌呤、5-卤代取代的尿嘧啶或胞嘧啶、7-甲基鸟嘌呤、7-甲基腺嘌呤、8-氮杂鸟嘌呤、8-氮杂腺嘌呤、7-脱氮鸟嘌呤、7-脱氮腺嘌呤、3-脱氮鸟嘌呤、3-脱氮腺嘌呤等。如本领域中已知，某些核苷酸类似物无法并入到多核苷酸中，例如如5’-磷酰硫酸腺苷的核苷酸类似物。核苷酸可以包含任何适合数目的磷酸酯，例如三个、四个、五个、六个、或多于六个磷酸酯。核苷酸类似物还包括锁定核酸(LNA)、肽核酸(PNA)和5-羟基丁炔-2'-脱氧尿苷(“超级T”)。

在一些实施方案中，如本文所用的术语“修饰”旨在不仅指核酸的化学修饰，还指核酸构象或组成的变化、试剂与核酸的相互作用(例如，与核酸结合)以及与核酸相关的其他干扰。因此，修饰的定位或位置是此类修饰在核酸内发生的基因座(例如，单个核苷酸或多个连续或非连续核苷酸)。对于双链模板，这种修饰可发生在与通过加工模板的聚合酶合成的新生链互补的链中，或者可发生在置换的链中。例如，经修饰的核苷酸可包括5-甲基胞嘧啶、N6-甲基腺苷、N3-甲基腺苷、N7-甲基鸟苷、5-羟甲基胞嘧啶、假尿苷、硫代尿苷、异鸟苷、异胞嘧啶、二氢尿苷、辫苷、怀俄苷、肌苷、三唑、二氨基嘌呤、β-D-吡喃葡萄糖基氧基甲基尿嘧啶(也称为β-D-葡糖基-HOMedU、β-葡糖基-羟甲基尿嘧啶、“dJ”或“碱基J”)、8-氧代鸟苷以及腺苷、胞苷、鸟苷和尿苷的2'-O-甲基衍生物。经修饰的DNA和RNA碱基进一步描述于例如Narayan P等人(1987)Mol Cell Biol7(4):1572-5；Horowitz S等人(1984)ProcNatl Acad Sci U.S.A.81(18):5667-71；“RNA's Outfits:The nucleic acid has dozensof chemical costumes,”(2009)C&EN；87(36):65-68；Kriaucionis等人(2009)Science324(5929):929-30；以及Tahiliani等人(2009)Science 324(5929):930-35；Matray等人(1999)Nature399(6737):704-8；Ooi等人(2008)Cell 133:1145-8；Petersson等人(2005)JAm Chem Soc.127(5):1424-30；Johnson等人(2004)32(6):1937-41；Kimoto等人(2007)Nucleic Acids Res.35(16):5360-9；Ahle等人(2005)Nucleic Acids Res33(10):3176；Krueger等人，Curr Opinions in Chem Biology 2007,11(6):588)；Krueger等人(2009)Chemistry&Biology 16(3):242；McCullough等人(1999)Annual Rev of Biochem 68:255；Liu等人(2003)Science 302(5646):868-71；Limbach等人(1994)Nucl.Acids Res，22(12):2183-2196；Wyatt等人(1953)Biochem.J.55:774-782；Josse等人(1962)J.Biol.Chem.237:1968-1976；Lariviere等人(2004)J.Biol.Chem.279:34715-34720；以及国际申请公布号WO/2009/037473，这些文献的公开内容全文以引用方式并入本文。

修饰还可包括核酸中非天然碱基对的存在，包括但不限于羟基吡啶酮和吡啶并嘌呤同源碱基对和异源碱基对、吡啶-2,6-二羧酸酯和吡啶金属-碱基对、吡啶-2,6-二甲酰胺和吡啶金属-碱基对、金属介导的嘧啶碱基对T-Hg(II)-T和C-Ag(I)-C，和2,6-双(乙基硫代甲基)吡啶核碱基Spy的金属-同源碱基对，以及对嘌呤或嘧啶碱基的炔、烯胺、醇、咪唑、胍和吡啶基取代(Wettig等人(2003)J Inorg Biochem 94:94-99；Clever等人(2005)AngewChem Int Ed 117:7370-7374；Schlegel等人(2009)Org Biomol Chem 7(3):476-82；Zimmerman等人(2004)Bioorg Chem 32(1):13-25；Yanagida等人(2007)Nucleic AcidsSymp Ser(Oxf)51:179-80；Zimmerman(2002)J Am Chem Soc124(46):13684-5；Buncel等人(1985)Inorg Biochem 25:61-73；Ono等人(2004)Angew Chem 43:4300-4302；Lee等人(1993)Biochem Cell Biol 71:162-168；Loakes等人(2009),Chem Commun 4619-4631；以及Seo等人(2009)J Am Chem Soc 131:3246-3252，这些文献的公开内容全文以引用方式并入本文)。其他类型的修饰包括例如切口、缺失碱基(例如，无嘌呤或无吡啶位点)、基于脱氧核糖核苷的核酸内的核糖核苷(或经修饰的核糖核苷)、基于核糖核苷的核酸内的脱氧核糖核苷(或经修饰的脱氧核糖核苷)、嘧啶二聚体(例如，胸腺嘧啶二聚体或环丁烷嘧啶二聚体)、顺铂交联、氧化损伤、水解损伤、其他甲基化碱基、大DNA或RNA碱基加合物、光化学反应产物、链间交联产物、错配碱基和其他类型的核酸“损伤”。经修饰的核苷酸可通过将DNA暴露于辐射(例如，UV)、致癌化学品、交联剂(例如，甲醛)、某些酶(例如，切口酶、糖基化酶、核酸外切酶、甲基化酶、其他核酸酶、葡糖基转移酶等)、病毒、毒素和其他化学品、热破坏等引起。

如本文所用，术语“多核苷酸(polynucleotide)”是指包含彼此结合的核苷酸序列的分子。多核苷酸为聚合物的一个非限制性示例。多核苷酸的示例包括脱氧核糖核酸(DNA)、核糖核酸(RNA)和它们的类似物，诸如锁定核酸(LNA)和肽核酸(PNA)。多核苷酸可以是核苷酸的单链序列，如RNA或单链DNA；核苷酸的双链序列，如双链DNA；或可以包含核苷酸的单链和双链序列的混合物。双链DNA(dsDNA)包含基因组DNA、以及PCR和扩增产物。单链DNA(ssDNA)可以转化成dsDNA并且反之亦然。多核苷酸可包括非天然存在的DNA，诸如对映异构的DNA、LNA或PNA。多核苷酸中核苷酸的精确序列可为已知或未知的。以下为多核苷酸的示例：基因或基因片段(例如探针、引物、表达的序列标签(EST)或基因表达系列分析(SAGE)标签)、基因组DNA、基因组DNA片段、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、合成多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、前述任一者的核酸探针、引物、或扩增复本。

术语“寡核苷酸”和“多核苷酸”在本文中可互换使用。除非另外具体地指示，否则不同术语并不意图表示大小、序列、或其他特性的任何具体差异。为了描述的清楚起见，术语可用于在描述包括若干多核苷酸种类的特定方法或组合物时区分一种多核苷酸种类与另一种多核苷酸种类。

术语“核酸”和“多核苷酸”可互换使用，是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物，除非另外限制，否则涵盖以类似于天然存在的核苷酸的方式与核酸杂交的天然核苷酸的已知类似物，诸如肽核酸(PNA)和硫代磷酸酯DNA。除非另外指明，否则特定核酸序列包括其互补序列。核苷酸包括但不限于ATP、dATP、CTP、dCTP、GTP、dGTP、UTP、TTP、dUTP、5-甲基-CTP、5-甲基-dCTP、ITP、dITP、2-氨基-腺苷-TP、2-氨基-脱氧腺苷-TP、2-硫代胸苷三磷酸、吡咯并嘧啶三磷酸和2-硫代胞苷，以及所有上述物质的α-硫代三磷酸酯，和所有上述碱基的2'-O-甲基-核糖核苷酸三磷酸。修饰碱基包括但不限于5-Br-UTP、5-Br-dUTP、5-F-UTP、5-F-dUTP、5-丙炔基dCTP和5-丙炔基-dUTP。

如本文所用，术语“引物”定义为可通过游离3'OH基团向其添加核苷酸的多核苷酸。引物可包括3'封闭基团，该封闭基团能够抑制聚合直到去除该封闭基团为止。引物可包括在5'末端处的修饰以允许偶联反应或使该引物偶联到另一部分。引物可包括一个或多个部分，诸如8-氧代鸟嘌呤(8-oxo-G)，该一个或多个部分可在合适的条件(诸如UV光、化学、酶等)下裂解。引物长度可以是任何适合数目个碱基的长度，并且可以包含天然和非天然核苷酸的任何适合组合。靶多核苷酸可包含“扩增衔接子(amplification adapter)”或更简单地说“衔接子(adapter)”，该衔接子可与引物杂交(具有与引物互补的序列)，并且可以扩增以便通过将核苷酸添加到引物的游离3’OH基团来产生互补复制多核苷酸。

如本文所用，当参考多核苷酸使用时，术语“双链”旨在表示多核苷酸中的所有核苷酸或基本上所有核苷酸都与互补多核苷酸中的相应核苷酸氢键合。双链多核苷酸也可被称为“双链体”。

如本文所用，当参考多核苷酸使用时，术语“单链”是指多核苷酸中的核苷酸基本上都没有与互补多核苷酸中的相应核苷酸氢键合。

如本文所用，术语“靶多核苷酸”旨在表示作为分析或动作的目的的多核苷酸，并且还可称为使用术语诸如“文库多核苷酸”、“模板多核苷酸”或“文库模板”。分析或作用包含使多核苷酸经历扩增、测序、和/或其他程序。靶多核苷酸可以包含待分析的靶序列之外的核苷酸序列。例如，靶多核苷酸可以包含一种或多种衔接子，包含充当引物结合位点的扩增衔接子，该扩增衔接子侧接待分析的靶多核苷酸序列。在特定示例中，靶多核苷酸可具有彼此不同的序列，但是可具有彼此相同的第一衔接子和第二衔接子。可位于特定靶多核苷酸序列侧翼的两个衔接子可具有彼此相同的序列，或彼此互补的序列，或者这两个衔接子可具有不同的序列。因此，多个靶多核苷酸中的种类可包括已知序列的区域，该区域位于将通过例如测序(例如，SBS)来评估的未知序列区域的侧翼。在一些示例中，靶多核苷酸在单个末端携带扩增衔接子，并且此类衔接子可位于靶多核苷酸的3'端或5'端。可在没有任何衔接子的情况下使用靶多核苷酸，在这种情况下，引物结合序列可直接源自靶多核苷酸中发现的序列。

例如，模板多核苷酸链可以是待测序的任何样品，并且可以由DNA、RNA或其类似物(例如，肽核酸)构成。模板(或靶)多核苷酸链的源可以是基因组DNA、信使RNA或来自天然来源的其他核酸。在一些情况下，来源于此类来源的模板多核苷酸链可以在使用之前进行扩增。可以使用各种已知扩增技术中的任何一种扩增技术，包括但不限于聚合酶链式反应(PCR)、滚环扩增(RCA)、多重置换扩增(MDA)或随机引物扩增(RPA)。应当理解，模板多核苷酸链在使用前的扩增是任选的。如此，在一些示例中，模板多核苷酸链将不在使用前进行扩增。模板/靶多核苷酸链可以任选地来源于合成文库。合成核酸可具有天然DNA或RNA组合物，或者可以是其类似物。

模板多核苷酸链可来源于的生物样品包括例如来自以下的那些生物样品：哺乳动物，诸如啮齿动物、小鼠、大鼠、兔、豚鼠、有蹄类动物、马、绵羊、猪、山羊、牛、猫、狗、灵长类动物、人或非人灵长类动物；植物，诸如拟南芥(Arabidopsis thaliana)、玉米、高梁、燕麦、小麦、水稻、低芥酸菜籽或大豆；藻类，诸如莱茵衣藻(Chlamydomonas reinhardtii)；线虫，诸如秀丽隐杆线虫(Caenorhabditis elegans)；昆虫，诸如黑腹果蝇(Drosophilamelanogaster)、蚊子、果蝇、蜜蜂或蜘蛛；鱼，诸如斑马鱼；爬行动物；两栖动物，诸如青蛙或非洲爪蟾(Xenopus laevis)；盘基网柄菌(Dictyostelium discoideum)；真菌，诸如卡氏肺孢子虫(Pneumocystis carinii)、红鳍东方鲀(Takifugu rubripes)、酵母、酿酒酵母(Saccharamoyces cerevisiae)或粟酒裂殖酵母(Schizosaccharomyces pombe)；或恶性疟原虫(Plasmodium falciparum)。模板多核苷酸链48也可以来源于原核生物，诸如细菌、大肠杆菌(Escherichia coli)、葡萄球菌属(staphylococci)或肺炎支原体(Mycoplasmapneumoniae)；古细菌；病毒，诸如丙型肝炎病毒、埃博拉病毒或人类免疫缺陷病毒；或类病毒。模板多核苷酸链可以来源于上述生物体的均质培养物或群体，或者另选地来源于(例如，在群落或生态系统中的)若干种不同生物体的集合。

此外，模板多核苷酸链可以不来源于天然来源，而是可使用已知技术合成。例如，基因表达探针或基因分型探针可被合成并用于本文所述的示例中。

在一些示例中，模板多核苷酸链可作为一个或多个较大核酸的片段获得。片段化可以使用本领域已知的多种技术中的任一种技术进行，这些技术包括例如雾化、超声处理、化学裂解、酶促裂解、或物理剪切。片段化也可能是由于使用特定的扩增技术导致的，该扩增技术通过仅复制较大核酸链的一部分来产生扩增子。例如，PCR扩增产生的片段的大小由原始模板上的位于在扩增期间侧翼引物杂交的位置之间的核苷酸序列的长度限定。模板多核苷酸链的长度可以按照核苷酸的数量表示，或者按照公制长度(例如，纳米)表示。

模板/靶多核苷酸链的群体或其扩增子可具有对特定测序装置来说期望或合适的平均链长。例如，平均链长可小于约100,000个核苷酸、约50,000个核苷酸、约10,000个核苷酸、约5,000个核苷酸、约1,000个核苷酸、约500个核苷酸、约100个核苷酸或约50个核苷酸。另选地或除此之外，平均链长可大于约10个核苷酸、约50个核苷酸、约100个核苷酸、约500个核苷酸、约1,000个核苷酸、约5,000个核苷酸、约10,000个核苷酸、约50,000个核苷酸或约100,000个核苷酸。另选地或除此之外，平均链长可大于约10,000个核苷酸、约50,000个核苷酸、约100,000个核苷酸、约500,000个核苷酸、约1,000,000个核苷酸、约5,000,000个核苷酸、约10,000,000个核苷酸、约50,000,000个核苷酸或约100,000,000个核苷酸。另选地或除此之外，平均链长可大于约10,000,000个核苷酸、约50,000,000个核苷酸、约100,000,000个核苷酸、约500,000,000个核苷酸、约1,000,000,000个核苷酸、约5,000,000,000个核苷酸、约10,000,000,000个核苷酸、约50,000,000,000个核苷酸或约100,000,000,000个核苷酸。靶多核苷酸链的群体或其扩增子的平均链长可在介于上述最大值与最小值之间的范围内。

在一些情况下，模板/靶多核苷酸链的群体可以在条件下产生，或以其他方式被配置为具有其构件的最大长度。例如，构件的最大长度可小于约100,000个核苷酸、约50,000个核苷酸、约10,000个核苷酸、约5,000个核苷酸、约1,000个核苷酸、约500个核苷酸、约100个核苷酸或约50个核苷酸。例如，构件的最大长度可小于约100,000,000个核苷酸、约50,000,000个核苷酸、约10,000,000个核苷酸、约5,000,000个核苷酸、约1,000,000个核苷酸、约500,000个核苷酸、约100,000个核苷酸或约50,000个核苷酸。例如，构件的最大长度可小于约100,000,000,000个核苷酸、约50,000,000,000个核苷酸、约10,000,000,000个核苷酸、约5,000,000,000个核苷酸、约1,000,000,000个核苷酸、约500,000,000个核苷酸、约100,000,000个核苷酸或约50,000,000个核苷酸。另选地或除此之外，模板多核苷酸链的群体或其扩增子可以在条件下产生，或以其他方式被配置为具有其构件的最小长度。例如，构件的最小长度可大于约10个核苷酸、约50个核苷酸、约100个核苷酸、约500个核苷酸、约1,000个核苷酸、约5,000个核苷酸、约10,000个核苷酸、约50,000个核苷酸或约100,000个核苷酸。例如，构件的最小长度可大于约10,000个核苷酸、约50,000个核苷酸、约100,000个核苷酸、约500,000个核苷酸、约1,000,000个核苷酸、约5,000,000个核苷酸、约10,000,000个核苷酸、约50,000,000个核苷酸或约100,000,000个核苷酸。例如，构件的最小长度可大于约10,000,000个核苷酸、约50,000,000个核苷酸、约100,000,000个核苷酸、约500,000,000个核苷酸、约1,000,000,000个核苷酸、约5,000,000,000个核苷酸、约10,000,000,000个核苷酸、约50,000,000,000个核苷酸或约100,000,000,000个核苷酸。群体中模板多核苷酸链的最大链长和最小链长可在介于上述最大值与最小值之间的范围内。

如本文所用，术语“纳米孔测序仪”是指本文公开的可以用于纳米孔测序的任何装置。在本文公开的示例中，在纳米孔测序期间，将纳米孔浸入本文公开的电解质的示例中，并且跨膜施加电势差。在示例中，电势差是电气电势差或电化学电势差。可经由电压源在膜上施加电势差，该电压源向顺式阱或一个或多个反式阱中包含的电解质的至少一种离子注入或施用电流。电化学电势差可通过顺式和反式阱的离子组成的差异与电势的组合来建立。不同的离子组成可以是例如每个阱中的不同离子或每个阱中相同离子的不同浓度。

术语顶部、底部、下部、上部、上等在本文中用于描述装置/纳米孔测序仪和/或装置的各种部件。应当理解，这些方向术语并非意在暗示特定取向，而是用于指定部件之间的相对取向。方向术语的使用不应被解释为将本文所公开的示例限制于任何特定取向。如本文所用，术语“上部”、“下部”、“垂直”、“水平”等意味着指示相对取向。

如本文所用，术语“可操作地连接”是指元件的配置，其中一个元件的动作或反应影响另一元件，但是是以保留每个元件的功能性的方式。

如本文所用，术语“流体连接”、“流体连通”、“流体偶联”等是指两个空间区域连接在一起，使得流体(例如，液体或气体)可以在该两个空间区域之间流动。例如，一个或多个顺式阱可通过中间阱和/或纳米通道流体地连接到一个或多个反式阱，使得例如电解质的至少一部分可以在连接的阱之间流动。

如本文所用，术语“离子连接”等是指连接在一起的两个空间区域，使得某些种类的离子可以在该两个空间区域之间流动。

如本文所用，术语“电连接”等是指连接在一起的两个空间区域，使得电子、孔穴、离子或其他电荷载体可以在该两个空间区域之间流动。

如果电解质在两个连接的阱之间流动，离子和电流也可以在连接的阱之间流动。两个空间区域可通过第一和第二纳米级开口或通过一个或多个阀门、限流器或其他用于控制或调节流体、离子或电流通过系统的流动的流体部件流体/离子/电连通。

如本文所用，术语“信号”旨在意味着表示信息的指示符。信号包括例如电信号和光学信号。术语“电信号”是指表示信息的电质量的指示符。指示符可以是例如电流、电压、隧穿、电阻、电势、电压、电导或横向电效应(以及这些的任何时间导数或瞬态)。“电子电流”或“电流”是指电荷流。在示例中，电信号可以是穿过纳米孔的电流，并且电流可以在跨纳米孔施加电势差时流动。

如本文所用，术语“驱动力”旨在表示允许多核苷酸相对于纳米孔易位的电流。在一些实施方案中，当跨纳米孔施加电势差时，电流可以流动。

如本文所用，“顺式”是指膜的一侧上的区域，“反式”是指膜的另一侧上的区域。“顺式”通常是指纳米孔开口的聚合酶所在的一侧，通常是多核苷酸模板最初被引入纳米孔之处。“反式”通常是指纳米孔开口的与聚合酶所在位置相对的一侧，通常是分析物或经修饰的分析物(或其片段)通过其离开开口的一侧。然而，在一些实施方案中，分析物可通过“反式”侧进入纳米孔并通过“顺式”侧离开。“顺式”和“反式”也可用于指系统的部件或方面，诸如顺式电极、反式电极、顺式室、反式室等。

如本文所用，“易位”和语法变型意指分析物(例如，DNA、报告基因、标签、标记等)相对于纳米孔移动。在一些实施方案中，分析物可进入纳米孔的开口的一侧并且移动至开口的另一侧并从其移出。除非特别指出，否则预期本文的包括易位的任何实施方案可指电泳易位或非电泳易位。电场可相对于纳米孔的开口移动分析物(例如，多核苷酸)或经修饰的分析物。任选地，设想不采用电泳易位的方法。在一些实施方案中，物理压力导致经修饰的分析物相对于纳米孔的开口易位。在一些实施方案中，磁珠附着于分析物或经修饰的分析物，并且磁力导致分析物或经修饰的分析物相对于纳米孔的开口易位。用于易位的其他方法包括但不限于重力、渗透力、温度和其他物理力诸如向心力。在一些实施方案中，分析物(例如，DNA)或经修饰的分析物可与纳米孔相互作用，同时相对于纳米孔易位。

如本文所用，术语“阱”、“腔”、“库”和“室”同义地使用，并且是指在装置中限定的可容纳流体(例如，液体、凝胶、气体)的离散特征。顺式阱是包含顺式电极或由顺式电极部分限定的室，并且还流体地连接到进行测量的中间阱(例如，通过FET，或通过连接到放大器、数据采集装置或其他信号调节元件(诸如模拟滤波器、缓冲器、增益放大器、ADC等)的金属电极)。在一些示例中，中间阱继而流体地连接到反式阱/室。本发明装置的阵列的示例可具有一个顺式阱，例如一个全局顺式室/库，或多个顺式阱。反式阱是包括其自身的反式电极或部分地由该反式电极限定的单个室，并且还流体地连接到顺式阱。在包括多个反式阱的示例中，每个反式阱与每个另一反式阱电隔离。此外，应当理解，平行于基板的至少部分地限定阱的表面截取的阱的横截面可以是弯曲的、正方形的、多边形的、双曲线的、圆锥形的、角形的等。

如本文所用，术语“电极”旨在表示导电的固体结构。电极可包括任何合适的导电材料，诸如金、钯或铂或它们的组合。在一些示例中，电极可设置在基板上。在一些示例中，电极可限定基板。

术语“基板”是指刚性的固体支持物，其不溶于水性液体，并且在没有孔隙、端口或其他类似液体导管的情况下不能使液体通过。在本文公开的示例中，基板可以具有限定在其中的阱或室。合适的基板的示例包括玻璃和改性或官能化玻璃、塑料(包括丙烯酸类、聚苯乙烯和苯乙烯与其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、聚四氟乙烯(PTFE)(诸如来自Chemours的)、环烯烃/环烯烃聚合物(COP)(诸如来自Zeon的)、聚酰亚胺等)、尼龙、陶瓷、二氧化硅或二氧化硅基材料、硅和改性硅、碳、金属、无机玻璃和光纤束。

鉴于上述定义，可理解本文所阐述的和在权利要求中列举的方面和示例。

纳米孔测序系统

图1A示出了可用于实施一些实施方案的示例性纳米孔测序系统。示例性纳米孔测序系统可包括纳米孔测序仪101，其可包括控制器1011和纳米孔单元格阵列。控制器1011可被配置为控制纳米孔单元格阵列中的测序操作。示例性纳米孔测序系统还可包括与纳米孔测序仪101可操作地连接的计算机102。示例性纳米孔测序系统还可包括数据存储和计算资源103，诸如网络或云，其可与纳米孔测序仪101和计算机102可操作地连接。

纳米孔的识别区(诸如MspA)可包括收缩区，其可以是核苷酸鉴别的最敏感区域，因为收缩区是发生最大电压降的地方，因为它呈现顺式电极与反式电极之间的最大电阻。纳米孔识别区可以比单链多核苷酸中的单个DNA核苷酸的高度更长，因此纳米孔可生成的电流信号可以依赖于多于一个核苷酸，例如2个、3个、4个、5个、6个、7个或更多个核苷酸。这些核苷酸形成可被称为“K-mer”的物质。对于由4种类型的碱基(例如，A、T、C和G)形成的DNA，可能的K-mer的数目是4^K。在一些情况下，DNA可以由多于4种类型的碱基形成。例如，如果一些位置的碱基C可被甲基化，则DNA被认为由5种类型的碱基形成，并且可能的K-mer的数目是5^K。

纳米孔的识别区通常可被认为感测多核苷酸中跨越纳米孔收缩区的一定数量的碱基。例如，当单独的ssDNA相对于纳米孔易位时，MspA纳米孔通常被认为主要感测至少四核苷酸序列。然而，如果双链体末端位于纳米孔收缩区附近，那么除穿过收缩区的ssDNA核苷酸之外，两种双链体核苷酸都可以调节离子电流，因为双链体末端的体积将影响离子电流。在这种情况下，流过孔的电流随后将受到dsDNA和ssDNA两者的调节，使得ssDNA以及含有所掺入的核苷酸的双链体dsDNA作为整体确定电流。

在一些实施方案中，由每个K-mer产生的离子电流可以与K-mer的特定序列相对应。在一些情况下，离子电流进一步受到杂交在K-mer上的互补寡核苷酸的影响(例如，根据所公开技术的一些实施方案，互补链可以在测序操作期间合成)。因此，解码多核苷酸序列的一种方法包括获得“K-mer图”并使用K-mer图推断未知多核苷酸的序列。获得“K-mer图”可包括对驻留在纳米孔识别区中的每个可能的K-mer实例进行采样，测量K-mer产生的相关离子电流，并且基于所测量的电流构建/提取K-mer的唯一代码。在一些示例中，可使用查找表概括对应于所有可能的K-mer的代码。在一些示例中，解码多核苷酸序列可通过机器学习过程(例如，使用监督学习模型)来促进。

在一些实施方案中，预定的K-mer图可存储在测序仪控制器1011、计算机102或网络/云103中，并且可用于帮助先前未测量的多核苷酸的序列鉴定。在一些实施方案中，当在示例性纳米孔测序系统中测量具有已知序列(例如，被设计用于对K-mer的所有可能示例采样的de Bruijn序列)的多核苷酸时，可以确定/生成K-mer图。在一些实施方案中，纳米孔测序系统可以使用机器学习/深度学习方法来解码多核苷酸序列(即，基于从所测量的对应于靶多核苷酸的纳米孔信号提取的一系列代码来推断多核苷酸序列)。在一个实施方案中，机器学习/深度学习基于对应于靶多核苷酸中的特定单链多核苷酸区加上双链多核苷酸区的读取信息(纳米孔信号)。就DNA聚合酶而言，双链多核苷酸是dsDNA双链体。就RNA而言，双链多核苷酸是DNA-RNA双链体。在另一个实施方案中，机器学习/深度学习基于靶多核苷酸中特定ss-DNA加上ds-DNA区域的读取信息与K-mer图的组合。

控制器1011可以在软件和/或硬件中实现。在一些示例中，控制器1011的控制功能，诸如致动纳米孔单元格、从纳米孔单元格的信号检测、或访问或控制阵列中的纳米孔传感器，可通过电子硬件、计算机软件或两者的组合来实现。此类功能通过硬件还是软件实现取决于特定应用和施加于整个系统的设计约束。所描述的功能可以针对每个特定应用以不同方式实现，但这种实现决策不应被解释为导致脱离本公开的范围。

在一些示例中，控制器1011的控制功能可以由被设计成执行本文所述功能的机器实现或执行，该机器诸如配置有具体指令的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散栅极或晶体管逻辑部件、分立硬件部件或它们的任何组合。处理器可以是微处理器，但在替代方案中，处理器可以是控制器、微控制器或状态机、它们的组合等。用于执行本文所述的方法的处理器或处理器组可以是各种类型，包括可编程设备(例如，CPLD和FPGA)和不可编程设备(诸如门阵列ASIC或通用微处理器)。

处理器也可以被实现为计算装置的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器，或任何其他这种配置。例如，本文描述的系统可以使用分立存储器芯片、微处理器中的存储器的一部分、闪存、EPROM或其他类型的存储器来实现。在一些示例中，可以使用用于提供计算环境的硬件平台。硬件平台可包括处理器(例如，CPU)和存储器诸如随机存取存储器(RAM)。在一些实施方案中，可以使用图形处理单元(GPU)。在一些实施方案中，用于执行如本文所述的计算方法的硬件平台包括具有一个或多个处理器的一个或多个计算机系统。在一些实施方案中，更小的计算机群集在一起而得到超级计算机网络。硬件平台可被专门构造用于所需目的，或者其可以是由存储在计算机中的计算机程序和/或数据结构来选择性地激活或重新配置的通用计算机(或计算机组)。在一些实施方案中，处理器组协同地(例如，经由网络或云计算)和/或并行地执行所述功能中的一些或全部功能。

本文所述的方法或过程的要素可体现于由处理器执行的软件模块中。软件模块可以驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或任何其他形式的计算机可读存储介质中。示例性存储介质可以耦合到处理器，使得处理器可以从该存储介质读取信息并将信息写入到其中。在替代方案中，存储介质可以与处理器成一整体。处理器和存储介质可以驻留在ASIC中。软件模块可以包括使硬件处理器执行计算机可执行指令的计算机可执行指令。

图1B示出了纳米孔单元格之一的一部分。纳米孔单元格可包括由任何合适的天然和/或合成材料形成的膜1124。膜1124可由非渗透性或半渗透性材料形成。在一个示例中，膜1124包括双脂质层或嵌段共聚物结构。纳米孔单元格还可包括纳米孔1123，其可以是本文所述的生物纳米孔、固态纳米孔、混合纳米孔和合成纳米孔中的任一种。在一个示例中，纳米孔1123可以是由例如多核苷酸结构、多肽结构或固态结构(例如，碳纳米管)限定的中空部，其设置在膜1124中。在另一个示例中，膜1124是合成膜(例如，固态膜，其一个示例是氮化硅)，并且纳米孔1123是延伸穿过膜1124的中空部。在一个实施方案中，可将蛋白质MspA插入预成形的膜(例如，由嵌段共聚物形成)中。

膜1124将纳米孔单元格分成顺式隔室/阱和反式隔室/阱。靶多核苷酸可相对于纳米孔1123从顺式阱易位到反式阱。顺式电极1130与顺式隔室相关联；并且反式电极1134与反式隔室相关联。电极可用于跨纳米孔施加电压，从而驱动离子电流流过纳米孔1123并且对靶多核苷酸施加电力。在一些示例中，电极是法拉第电极。在一些示例中，电极是非法拉第电极。电流检测器1122可用于测量通过纳米孔的离子电流，并且检测到的信号可被传输到测序仪控制器1011。

所使用的顺式电极1130至少部分地取决于电解质中的氧化还原对。作为示例，顺式电极可以是金(Au)、铂(Pt)、碳(C)(例如，石墨、金刚石等)、钯(Pd)、银(Ag)、铜(Cu)等。在示例中，顺式电极1130可以是银/氯化银(Ag/AgCl)电极。在一个示例中，一个顺式隔室与一个纳米孔相关联。在一些示例中，一个顺式隔室可由纳米孔单元格阵列共享。所使用的反式电极1134至少部分地取决于电解质中的氧化还原对。作为示例，反式电极可以是金(Au)、铂(Pt)、碳(C)(例如，石墨、金刚石等)、钯(Pd)、银(Ag)、铜(Cu)等。在示例中，反式电极1134可以是银/氯化银(Ag/AgCl)电极。在一个示例中，一个反式隔室与一个纳米孔相关联。在一些示例中，一个反式隔室可由纳米孔单元格阵列共享。

在一些示例中，在NaCl或KCl溶液中，Ag/AgCl电极在电极处的相关电化学半反应是：

顺式(阴极)：AgCl+e^-→Ag⁰+Cl^-；以及反式(阳极)：Ag⁰+Cl^-→AgCl+e^-。

对于电流的每一单位电荷，在反式电极处消耗一个Cl原子。尽管以上讨论是针对在NaCl或KCl溶液中的Ag/AgCl电极，但应当理解，可用于传递电流的任何电极/电解质对均可适用。

在使用中，可以将电解质填充到顺式阱和反式阱中。在另选示例中，顺式阱和反式阱中的电解质可以是不同的。电解质可以是能够解离成抗衡离子(阳离子和其缔合阴离子)的任何电解质。作为示例，电解质可以是能够解离成钾阳离子(K⁺)或钠阳离子(Na⁺)的电解质。这种类型的电解质包括钾阳离子和缔合阴离子，或钠阳离子和缔合阴离子，或它们的组合。含钾电解质的示例包括氯化钾(KCl)、铁氰化钾(K₃[Fe(CN)₆]·3H₂O或K₄[Fe(CN)₆]·3H₂O)或其他含钾电解质(例如，碳酸氢盐(KHCO₃)或磷酸盐(例如，KH₂PO₄、K₂HPO₄、K₃PO₄)。含钠电解质的示例包括氯化钠(NaCl)或其他含钠电解质，诸如碳酸氢钠(NaHCO₃)、磷酸钠(例如，NaH₂PO₄、Na₂HPO₄或Na₃PO₄)。作为另一示例，电解质可以是能够解离成含钌阳离子的任何电解质(例如，钌六胺，诸如[Ru(NH₃)₆]²⁺或[Ru(NH₃)₆]³⁺)。可以使用能够解离成锂阳离子(Li⁺)、铷阳离子(Rb⁺)、镁阳离子(Mg⁺)或钙阳离子(Ca⁺)的电解质。

因此，所公开的用于鉴定模板多核苷酸的碱基序列的系统可包括仪器，该仪器包括与溶液接触的纳米孔(例如，驻留在膜中并且部分地浸入电解质中)；以及处理器，该处理器被配置为相对于纳米孔选择性地移动模板多核苷酸并且被配置为测量模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分的孔电流(即，通过纳米孔的离子电流)；以及耦接到仪器的非易失性数据存储介质，其中非易失性数据存储介质存储K-mer图，该K-mer图包括多个条目，其中每个条目包括K-mer序列和在所施加的读取电位下的孔电流，K-mer序列包含模板多核苷酸在单链部分中的至少一个位置(例如，核碱基或核苷酸)和模板多核苷酸在双链体部分中的至少一个位置(例如，核碱基或核苷酸)。在一些实施方案中，仪器包括非易失性数据存储介质。在一些实施方案中，处理器被进一步配置为基于所测量的孔电流和K-mer图确定模板多核苷酸的碱基序列。在一些实施方案中，所公开的系统还可包括本地附接到仪器的计算机，其中计算机包括非易失性数据存储介质。在一些实施方案中，所公开的系统还可包括联网到仪器的计算机，其中计算机包括非易失性数据存储介质。在一些实施方案中，所公开的系统还可包括本地附接到仪器的计算机，其中计算机被进一步配置为基于所测量的孔电流和K-mer图确定模板多核苷酸的碱基序列。

测序过程

在所公开技术的一些测序过程中，确定多核苷酸序列可基于在单个读取电位或多个读取电位下测量的孔电流电平(例如，平均值)。在所公开技术的另选测序过程中，确定多核苷酸序列可基于在单个读取电位或多个读取电位下确定的孔电流的变化/噪声。应当理解，上述的任何组合可用于所公开技术的某些测序过程中。

图2A示出了用于所公开技术的一些实施方案中的示例性测序操作。如图所示，待测序的单链靶多核苷酸201(诸如DNA或RNA)通过纳米孔233的孔隙设置。互补链202可在靶多核苷酸的一部分上合成以在纳米孔233的顺式侧形成双链体。一个或多个结构“锁”部分260和261可连接到靶多核苷酸201。结构“锁”部分可包括例如链霉亲和素或发夹环。一个或多个结构“锁”部分260和261可以帮助保持单链靶多核苷酸201-互补链202的复合物靠近纳米孔，同时复合物经受电力并且相对于纳米孔向上或向下移动。在某些实施方案中，利用一个或多个结构“锁”部分来分离模板链的用于通过纳米孔测序的区域。顺式电极2130与顺式侧相关联；并且反式电极2134与反式侧相关联。电极可用于跨纳米孔施加电压，从而驱动离子电流流过纳米孔233并且对靶多核苷酸施加电力。在一些示例中，电极是法拉第电极。在一些示例中，电极是非法拉第电极。电流检测器2122可用于测量通过纳米孔的离子电流。

如图2A所示，在允许掺入的位置中，其中互补链202的3'端被置于电解质溶液中的聚合酶和游离核苷酸可接近的位置中，电解质溶液中的聚合酶240可结合靶多核苷酸并且互补链202可以延伸。互补链延伸的速率可取决于电解质溶液中聚合酶和核苷酸的浓度、电解质溶液的组成、温度、竞争性结合部分等。在一些实施方案中，所公开的技术利用低速率的链延伸(例如，通过使用低浓度的聚合酶和核苷酸)，使得在预定量的时间内(在靶多核苷酸向下移动以固定在纳米孔处之前)，极有可能的是仅一个核苷酸或没有核苷酸将被成功掺入。因此，所公开的技术可以最小化两个或更多个核苷酸在靶互补复合物处于“掺入”位置的持续时间期间被掺入的发生率。

在预定量的时间之后，将测序过程移动到“读取”位置，其中在将双链体固定在纳米孔233的孔隙内的靶多核苷酸上施加向下的电力252，并且进行电测量。在读取位置中，聚合酶240从靶多核苷酸中移出，使得互补链202在读取位置期间不能用核苷酸延伸。然后进行测量，例如，通过纳米孔的离子电流。该测量的特定测量值基于位于互补链202的3'端附近的特定互补碱基加上作为整体的靶多核苷酸201的单链部分中、在纳米孔的孔隙内或附近的一个或多个碱基的特定序列。因此，特定测量值提供了可以从中确定靶多核苷酸中的碱基序列的信息。在某些实施方案中，读取位置确定在掺入位置期间是否已掺入特定碱基。

在进行测量之后，可以在将双链体从纳米孔的孔隙移走的靶多核苷酸上施加向上的电力251，使得在另一个掺入位置中，来自电解质溶液的聚合酶240可结合靶多核苷酸，并且互补链202可以再次延伸。然后，可以在另一个读取位置重复测量。

重复的测量结果提供进一步的信息，从中可以确定靶多核苷酸中的碱基序列。所公开的技术与相对长的读段相容，例如至多约1,000个碱基、或至多约2,000个碱基、或至多约5,000个碱基或甚至至多10,000个碱基或更多。所公开的技术可实现可控的掺入位置持续时间和读取位置持续时间，使得读取位置测量单个核苷酸的掺入。例如，掺入位置的持续时间可被设定为对应于单次掺入核苷酸的时间。例如，掺入位置的持续时间可设定为减少读取前核苷酸的多次掺入。因此，所公开的技术的非限制性优点包括：允许可控的测量；改善测量的时间精度；以及避免太快而不能被检测的易位事件(其可导致检测误差或不利地影响测序准确性的其他类型的错误)。在一些实施方案中，所公开的技术可用于鉴定经修饰的碱基，诸如甲基化碱基，而不需要以化学或酶促方式修饰经修饰的碱基。

图2B示出了根据图2A所示的示例性测序操作测量的实验结果。对于一个掺入位置(2050)和三个不同的读取位置，记录作为时间函数的通过纳米孔的离子电流。在三个不同的施加电压值下测量三个不同的读取位置“读取1”(2001)、“读取2”(2002)和“读取3”(2003)。所施加的电压值可被选择为任何合适的施加电压。在掺入位置中，仅模板多核苷酸的单链穿过孔。不受理论的约束，在掺入位置测量的电流受到“反式”锁部分261与孔蛋白的“反式”部分之间的相互作用的影响，如图2A所示。在读取位置中，模板多核苷酸模板的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分确定孔电流。

在一些情况下，在三个不同的施加电压下记录的三个离子电流迹线可表现出非欧姆行为。也就是说，三个离子电流迹线可能不会简单地与所施加电压的值成比例。非欧姆行为可能部分地由于多核苷酸与纳米孔之间的相对位置和/或相互作用的电压依赖性调节。因此，通过使用不同施加电压的测量可以获得多核苷酸序列的非冗余的、不相关的或独立的信息片段。不受理论的约束，图16A、图16B和图16C示出了所施加的电压如何能够调节多核苷酸与纳米孔之间的相对位置以及多核苷酸的哪些部分与纳米孔“读头”相互作用的示例。在一定数目的核苷酸掺入循环之后，碱基“T”已被掺入互补链中，如图16A、图16B和图16C所示。对于图16A、图16B和图16C，所施加的电压分别为40mV、60mV和80mV。

在图16A中，模板链1601中的部分“TATTT”和互补链1602中的部分“AT”(由虚线框指示)是影响所测量的离子电流迹线的多核苷酸区域。对应于图16A的情况的平均离子电流(例如，在图2B所示的“读取1”的整个时间段内平均)由图16D中的附图标号162A指示。

在图16B中，模板链1601中的部分“ATATT”和互补链1602中的部分“TAT”(由虚线框表示)是影响所测量的离子电流迹线的多核苷酸区域，因为与图16A所示的情况相比，更大的施加电压将多核苷酸相对于纳米孔更向下拉。当施加电压增加时，较短的ssDNA区域(图16B中的“TT”，与图16A中的“TTT”相比)影响纳米孔电流。对应于图16B的情况的平均离子电流(例如，在图2B所示的“读取2”的整个时间段内平均)由图16D中的附图标号162B指示。

在图16C中，施加甚至更大的电压，并且虽然模板链1601中的部分“ATATT”和互补链1602中的部分“TAT”(由虚线框指示)仍然是影响所测量的离子电流迹线的多核苷酸区域，但与图16B所示的情况相比，它们相对于纳米孔被进一步向下拉。因此，在图16B的情况与图16C的情况之间，多核苷酸可与纳米孔以不同方式相互作用。对应于图16C的情况的平均离子电流(例如，在图2B所示的“读取3”的整个时间段内平均)由图16D中的附图标号162C指示。

图16D示出了在40mV、60mV或80mV施加电压下，作为图16A、图16B和图16C所示的多核苷酸的“水平数”的函数的平均纳米孔离子电流。水平数表示在图2A、图2B、图4B或图7A所示的一系列“掺入”操作之后已掺入互补链中的核苷酸的数目。在图16D中观察到当施加电压从40mV增加到60mV和80mV时离子电流的非欧姆行为。至少对于一些水平数，平均离子电流不与所施加的电压的量值成线性比例。此外，所施加的电压以出乎意料的方式影响多核苷酸与纳米孔之间的相互作用，如通过点165C在80mV施加电压下如何高于点164C和166C两者，而点165B在60mV施加电压下如何低于点164B和166B两者以及点165A在40mV施加电压下如何低于点164A和166A两者所例示。

图16D还示出了使用从在多于一个施加电压下的测量获得的集合信息如何在确定多核苷酸序列中特别有用。例如，点164A和点166A具有非常相似的值，因此将难以在水平数4的情况和水平数6的情况之间进行区分并且基于仅在40mV施加电压下测量的平均离子电流来鉴定多核苷酸序列。然而，利用由点164B、164C、166B和166C提供的附加信息，有可能在水平数4的情况和水平数6的情况之间进行区分并且鉴定多核苷酸序列。

图3示出了根据所公开技术的一些实施方案的用于定制测序的方法，该方法可涉及调节掺入和/或读取位置持续时间、所施加的偏置电压或K-mer图复杂性。该方法可在框301处开始，其中设定施加电压持续时间和偏置电平。由于没有控制例如单链模板通过纳米孔的易位的棘轮/马达蛋白，因此可以调节掺入的时间段和读取位置。施加到顺/反电极的波形通常可以是DC(对于掺入位置具有一种极性并且对于读取位置具有另一种极性)，诸如在阶梯波形中。在DC波形的顶部可存在轻微的AC波形以诱导双链体在纳米孔内的轻微移动。这种在DC波形顶部的轻微AC波形可能会增加噪声，但也会增加读取中的信息。

在一些实施方案中，所公开的方法涉及其中互补DNA链通过DNA聚合酶延伸的DNA模板。在某些实施方案中，当DNA模板的单链部分和DNA模板和互补链的双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置使得互补链的延伸不能发生时，读取孔电流。在一些实施方案中，所公开的方法涉及RNA模板，其中互补DNA链通过逆转录酶延伸。在某些实施方案中，当RNA模板的单链部分和RNA模板和互补DNA链的双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置使得互补DNA链的延伸不能发生时，读取孔电流。

在设定施加电压持续时间和偏置电平之后，该方法然后可移动到框303，其中设定读取的次数和每次读取的电压。例如，读取的次数和每次读取的电压、掺入的时间和每次读取的时间都可被调节以确定测序的质量和测序的速度。然后该方法可移动到框305，读取单链模板分析物的一部分和双链体的一部分。该方法然后可移动到框307，基于以下进行碱基判定：(1)孔附近的模板多核苷酸的单链部分的K-mer图；或者(2)模板多核苷酸和互补多核苷酸的双链体的一部分的K-mer图；或者(3)孔附近的单链部分和双链体部分的K-mer图。

图4A示出了根据一些实施方案的用于对多核苷酸进行测序的另一种方法，该方法在与图2B相关的实验一致的多于一个读取电位下扫描模板多核苷酸，这涉及在三个不同的施加电压下读取多核苷酸的一部分。该方法可包括框601，将额外的核苷酸掺入互补多核苷酸，其包括模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分(诸如图2A所示)。该方法然后可移动到框603，在第一电势差下读取孔电流。该方法然后可移动到框605，在第二电势差下读取孔电流。该方法然后可移动到框607，在第三电势差下读取孔电流。该方法然后可移动回到框601并开始另一个测序循环。尽管图4A示出了在三个不同的施加读取电位下读取孔电流三个不同的时间，但在每个掺入电位之后的读取电位的数目可以是单个读取电位或者可以是任意数目的多个读取电位。例如，在每个掺入电位之后的单个读取电位可用于增加测序操作的通量。例如，在每个掺入电位之后的多个读取电位可用于增加测序操作的准确性。应当理解，在掺入电位或掺入位置期间，互补链可以或可以不通过掺入游离核苷酸而延伸。如果游离核苷酸在掺入电位或掺入位置期间被掺入，则读取位置期间的孔电流可在一个或多个读取电位下检测不同的读取信号。

图4B示出了可结合图4A所示的方法使用的作为时间函数的施加电压的某些实施方案。如图所示，所施加的电压可以从负掺入电位开始以将靶-互补复合物移动到掺入位置(4050)，然后在三个不同的正施加电压“读取1”(4001)、“读取2”(4002)和“读取3”(4003)下读取纳米孔信号，同时通过施加正电压将靶-互补复合物固定在纳米孔处。然后可以重复施加电压的模式。

因此，所公开的使用纳米孔对模板多核苷酸进行测序的方法可包括掺入核苷酸以延伸互补多核苷酸；当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置使得互补多核苷酸的延伸不能发生时，在第一施加读取电位下读取第一孔电流；当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置使得互补多核苷酸的延伸不能发生时，在第二施加读取电位下读取第二孔电流；将第一孔电流和第二孔电流与K-mer图进行比较，该K-mer图包括多个条目，其中每个条目包括K-mer序列和在多个所施加的读取电位下的多个孔电流，K-mer序列包含模板多核苷酸在单链部分中的至少一个位置和模板多核苷酸在双链体部分中的至少一个位置；并且基于孔电流与K-mer图的比较来确定模板多核苷酸的序列。在一些实施方案中，K-mer图的K-mer序列包含模板多核苷酸在单链部分中的至少两个位置。在一些实施方案中，所公开的方法还可包括确定读取的孔电流的变化(例如，变异系数)，其中基于变化(例如，变异系数)进一步确定模板多核苷酸的序列。在一些另选的实施方案中，所公开的方法可确定孔电流的变化(例如，变异系数)并且仅基于该变化(例如，变异系数)确定模板多核苷酸的序列。在一些实施方案中，所公开的方法还可包括通过核苷酸的延伸互补多核苷酸的掺入时间在确定的序列中鉴定经修饰的碱基，诸如甲基化-C碱基。在一些实施方案中，当互补多核苷酸的3'端未被隔离在纳米孔内(例如，远离纳米孔定位)使得3'端被置于电解质溶液中的聚合酶和游离核苷酸可接近的位置持续设定的时间段时，核苷酸被掺入以延伸互补多核苷酸。在一些实施方案中，当互补多核苷酸的3'端偏离纳米孔(即，经由施加电压偏置而与纳米孔分离)持续设定的时间段时，读取孔电流。

图5、图6、图7A和图7B示出了涉及多核苷酸的再测序或共有序列测序的一些实施方案，以便对模板多核苷酸多次测序。

如图5所示，含有序列“ATTTCGT”的单链模板多核苷酸穿过纳米孔的孔隙设置。单链模板多核苷酸(5001)可包括在核酸文库制备过程中添加的引物结合位点。包含序列“TAAA”的互补链从与模板上的引物结合位点杂交的引物(5002)延伸。互补链与模板多核苷酸的一部分碱基配对以形成双链体。两个结构“锁”部分(5003)连接到模板多核苷酸的两端。在该具体示例中，模板多核苷酸中的部分“ATTTCGT”和互补链中的部分“TAAA”共同影响通过沉积在膜(5005)中的孔蛋白(5004)中形成的纳米孔所测量的离子电流。

在一些实施方案中，单链模板多核苷酸还可包含在核酸文库制备过程中添加的校准序列和/或条形码序列。校准序列和/或条形码序列可以是包含足够数目的不同核碱基组合的已知序列。因此，对校准序列的测量可用于校准或归一化在每个单独的纳米孔单元格中获得的信号。当多个单链模板多核苷酸通过一个纳米孔单元格或通过纳米孔单元格阵列多重化时，条形码序列可用于鉴定模板多核苷酸。

图6示出了根据图5所示的示例测量的实验结果。产生图6的实验使用测序操作(如图2A所解释)，其中掺入位置的持续时间在-50mV的施加电压下为100ms；并且读取位置的持续时间在80mV的施加电压下为100ms。图6中的每个数据点(点)表示在100ms内平均的所测量的离子电流的值。在某些实施方案中，可以使用掺入位置和读取位置的任何合适的持续时间和任何合适的施加电压。组500中的点对应于仅模板位于纳米孔中(未形成双链体)的状态。组501中的点对应于在纳米孔中测量模板和引物双链体的状态。组502中的点对应于在纳米孔中测量模板和引物+T的状态。组503中的点对应于在纳米孔中测量模板和引物+TA双链体的状态。组504中的点对应于在纳米孔中测量模板和引物+TAA双链体的状态。组505中的点对应于在纳米孔中测量模板和引物+TAAA双链体的状态。通过纳米孔信号(例如，平均离子电流)的离散变化来指示(或推断)多核苷酸的状态已改变。可通过使用向下的电力将双链体拉向纳米孔而从模板上剥离互补链。然后，可以再次单独测量模板(由组506表示)。然后，可将另一引物与模板杂交，并且可进行另一轮引物延伸和测序。图6还示出了成功掺入额外的核苷酸之前的等待时间。例如，由组504表示的状态在成功掺入另一个碱基A之前持续约15秒，并且该状态移动到由组505表示的状态。图6示出了可鉴定核苷酸重复掺入区域的核酸序列。图6示出了可从模板剥离互补链，并且可执行第二系列的掺入位置和读取位置以用于模板多核苷酸的再测序或共有序列鉴定。

图7A示出了涉及多核苷酸的再测序或共有序列测序的测序方法。该方法可包括框701，将额外的核苷酸掺入双链体，其包括单链模板分析物的一部分和互补链的一部分(诸如图5所示)。该方法然后可移动到框703，在第一电势差下读取双链体。该方法然后可移动到框705，在第二电势差下读取双链体。该方法然后可移动到框707，在第三电势差下读取双链体。该方法然后可移动回到框701并开始另一个测序循环。在一定数量的测序循环之后，该方法可移动到框709，通过将多核苷酸拉向纳米孔(例如，通过施加大于第一、第二或第三电势差的电势差)而从单链模板分析物剥离/去除互补链。因此，单链模板分析物可在另一轮引物延伸反应期间再次测序。该方法可包括框711，将额外的核苷酸掺入双链体。该方法然后可移动到框713，在第一电势差下读取双链体。该方法然后可移动到框715，在第二电势差下读取双链体。该方法然后可移动到框717，在第三电势差下读取双链体。该方法然后可移动回到框711并开始另一个测序循环。图7A示出了在每个掺入位置之后进行一个或多个读取位置的第一循环以鉴定模板多核苷酸，剥离/去除互补多核苷酸，以及在每个掺入电位之后进行一个或多个读取位置之一的第二循环以进行模板多核苷酸的再测序或共有序列测序。

图7B示出了模板多核苷酸的测序(7001)和再测序(7003)的电位的某些实施方案。第一测序的读取位置(7005)包括一个或多个读取电位电平。再测序或共有序列测序的读取位置(7006)包括一个或多个读取电位电平。例如，可以使用如参考图4B所述的多个读取电位电平。第一测序与再测序/共有序列测序的读取电位电平可以是相同的或不同的。

因此，所公开的使用纳米孔对模板多核苷酸进行测序的方法可包括进行多个循环，每个循环包括掺入(7009)核苷酸以将互补多核苷酸延伸至模板多核苷酸，并且读取模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分的孔电流，所述单链部分和双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置，使得互补多核苷酸的延伸不能发生；在一组多个循环之后，从模板多核苷酸剥离/去除(7002)互补多核苷酸；并且基于来自多个循环的孔电流读数的电流迹线确定模板多核苷酸的第二序列。在一些实施方案中，确定序列包括将电流迹线与K-mer图比较，该K-mer图包括多个条目，其中每个条目包括K-mer序列和在所施加的读取电位下预先测量的孔电流，K-mer序列包含模板多核苷酸在单链部分中的至少一个位置和模板多核苷酸在双链体部分中的至少一个位置。在一些实施方案中，在多于一个电位或多个电位下测量孔电流。在一些实施方案中，K-mer图的K-mer序列包含模板多核苷酸在单链部分中的至少两个位置。在一些实施方案中，所公开的方法还可包括确定读取的孔电流的变化(例如，变异系数)，其中基于变化(例如，变异系数)进一步确定模板多核苷酸的序列。在一些另选的实施方案中，所公开的方法可确定孔电流的变化(例如，变异系数)并且仅基于该变化(例如，变异系数)确定模板多核苷酸的序列。在一些实施方案中，所公开的方法还可包括通过核苷酸的延伸互补多核苷酸的掺入时间在所确定的序列中鉴定甲基化-C碱基。在一些实施方案中，当互补多核苷酸的3'端未被隔离在纳米孔内(例如，远离纳米孔定位)使得3'端被置于电解质溶液中的聚合酶和游离核苷酸可接近的位置持续设定的时间段时，核苷酸被掺入以延伸互补多核苷酸。在一些实施方案中，当互补多核苷酸的3'端偏离纳米孔(即，经由施加电压偏置而与纳米孔分离)持续设定的时间段时，读取孔电流。

图8A示出了构建包括单链模板链区和互补链区的K-mer实例的K-mer图并使用该K-mer图进行测序的方法。该方法可以在框801处开始，提供已知的单链核酸寡聚体模板。该方法然后可移动到框803，通过在一个或多个电势差、优选地至少两个电势差、更优选地至少三个电势差下读取K-mer实例来对寡聚体模板进行测序。该方法然后可移动到框805，针对一个或多个电势差下的读数生成K-mer的K-mer图。框801至805可以表示由测序仪器制造者执行的步骤。然后可以提供所构建的K-mer图用于碱基判定，同时对未知的单链核寡聚体分析物模板进行测序。在一些实施方案中，可通过测序仪器或通过与仪器偶接的计算机进行碱基判定，其中K-mer图加载或存储在仪器或计算机上。在一些实施方案中，可以在云服务器上加载K-mer图的情况下通过云(即，网络)进行碱基判定。图8B示出了结合图8A讨论的示例性K-mer实例和K-mer图构造。在某些另外的或另选的实施方案中，用于解码多核苷酸序列的K-mer图可以取决于具体的测序操作或实验条件。在一个实施方案中，在一个施加的电势差下，该图由具有一定数目碱基的K-mer(诸如5-mer)组成；在另一个施加的电势差下，该图由具有不同数目碱基的K-mer(诸如4-mer)组成，因为施加的电势差可能会影响多核苷酸如何与纳米孔相互作用，诸如由纳米孔识别区感测的多核苷酸的程度。在另一个实施方案中，由于所施加的电势差可以偏移多核苷酸相对于纳米孔识别区的位置，因此当施加不同的电势差时，由识别区感测的多核苷酸区域可以偏移/偏离，所以当施加不同的电势差时可以使用不同的图。例如，在一个施加电压下，由识别区感测的多核苷酸区域可包括模板链中的5-mer和互补链中的3个核苷酸；在另一个施加电压下，由识别区感测的多核苷酸区域可包括模板链中的5-mer和互补链中的2个核苷酸。

在某些实施方案中，K-mer图810长度是两个核苷酸位置的2-mer图，所述两个核苷酸位置包括模板链的单链区中的单个碱基位置(即，位置-1)和模板链的双链区中的单个碱基位置(即，位置0)。位置0表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的掺入步骤中被掺入互补链中。位置-1表示模板链的从位置0到模板链的5'端的一个碱基位置的核苷酸。在某些实施方案中，两个核苷酸位置的2-mer图包含四种不同核苷酸(例如，A、T、C或G)的16个可能状态或4^K个状态。在某些实施方案中，在掺入步骤后在单个读取电压下具有单个读取步骤的2-mer图包括用于解码在位置0处掺入的核苷酸的16个信号条目。在某些实施方案中，在掺入步骤后在多个读取电压下具有多个M读取步骤的2-mer图包括用于解码在位置0处掺入的核苷酸的M×4^K个信号条目。例如，在掺入步骤后具有三个读取步骤的2-mer图包括用于解码在位置0处掺入的核苷酸的3×4^K个条目或48个信号条目。尽管K-mer图在单个读取电压下对于两个不同碱基可具有相同的信号读数，但随着不同读取电压的读取步骤数目增加，对于两个不同掺入碱基具有一组相同信号读数的可能性降低。

在某些实施方案中，K-mer图820长度是三个核苷酸位置的3-mer图，所述三个核苷酸位置包括模板链的单链区中的两个碱基位置(即，位置-1和位置-2)和模板链的双链区中的单个碱基位置(即，位置0)。位置0表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的掺入步骤中被掺入互补链中。位置-1表示模板链的从位置0到模板链的5'端的一个碱基位置的核苷酸。位置-2表示模板链的从位置0到模板链的5'端的两个碱基位置的核苷酸。

在某些实施方案中，K-mer图830长度是三个核苷酸位置的3-mer图，所述三个核苷酸位置包括模板链的单链区中的单个碱基位置(即，位置-1)和模板链的双链区中的两个碱基位置(即，位置+1和位置0)。位置+1表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的两个掺入步骤中被掺入互补链中。位置0表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的掺入步骤中被掺入互补链中。位置-1表示模板链的从位置0到模板链的5'端的一个碱基位置的核苷酸。

在某些实施方案中，三个核苷酸位置的3-mer图诸如K-mer图820或K-mer图830包括四种不同核苷酸(例如，A、T、C或G)的64个可能状态或4^K个状态。在某些实施方案中，在掺入步骤后在单个读取电压下具有单个读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的64个信号条目。在某些实施方案中，在掺入步骤后在多个读取电压下具有多个M读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的M×4^K个信号条目。例如，在掺入步骤后具有三个读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的3×4^K个条目或192个信号条目。尽管K-mer图在单个读取电压下对于两个不同碱基可具有相同的信号读数，但随着不同读取电压的读取步骤数目增加，对于两个不同掺入碱基具有一组相同信号读数的可能性降低。

图9A示出了构建包括甲基化C碱基(例如，CpG、CpA、CpT或CpC)的K-mer实例的K-mer图并使用该K-mer图进行测序的方法。该方法可以在框901处开始，提供在任何区域中具有非甲基化C和甲基化C*的已知单链核酸寡聚体模板。该方法然后可移动到框903，通过在一个或多个电势差、优选地至少两个电势差、更优选地至少三个电势差下读取K-mer实例来对寡聚体模板进行测序。该方法然后可移动到框905，针对一个或多个电势差下的读数生成K-mer的K-mer图，其中甲基化C位于0位处。框901至905可以表示由测序仪器制造者执行的步骤。然后可以提供所构建的K-mer图用于碱基判定，同时对未知的单链核寡聚体分析物模板进行测序。在一些实施方案中，可通过仪器或与仪器偶接的计算机进行碱基判定，其中K-mer图加载或存储在仪器或计算机上。在一些实施方案中，可以在云服务器上加载K-图的情况下通过云(即，网络)进行碱基判定。

图9B示出了结合图9A讨论的示例性K-mer实例和K-mer图构造。

在某些实施方案中，K-mer图910长度是三个核苷酸位置的3-mer图，所述三个核苷酸位置包括模板链的单链区中的单个碱基位置(即，位置-1)和模板链的双链区中的两个碱基位置(即，位置+1和位置0)。位置+1表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的两个掺入步骤中被掺入互补链中。位置0表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的掺入步骤中被掺入互补链中。位置-1表示模板链的从位置0到模板链的5'端的一个碱基位置的核苷酸。

在某些实施方案中，三个核苷酸位置的3-mer图诸如K-mer图910包括五种不同核苷酸(例如，A、T、C、甲基化C*或G)的125个可能状态或5^K个状态。在某些实施方案中，在掺入步骤后在单个读取电压下具有单个读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的125个信号条目。在某些实施方案中，在掺入步骤后在多个读取电压下具有多个M读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的M×5^K个信号条目。例如，在掺入步骤后具有三个读取步骤的3-mer图包括用于解码在位置0处掺入的核苷酸的3×5^K个条目或375个信号条目。尽管K-mer图在单个读取电压下对于两个不同碱基可具有相同的信号读数，但随着不同读取电压的读取步骤数目增加，对于两个不同掺入碱基具有一组相同信号读数的可能性降低。

在某些实施方案中，K-mer图920长度是四个核苷酸位置的4-mer图，所述四个核苷酸位置包括模板链的单链区中的两个碱基位置(即，位置-1和位置-2)和模板链的双链区中的两个碱基位置(即，位置+1和位置0)。位置+1表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的两个掺入步骤中被掺入互补链中。位置0表示模板链的核苷酸，其中核苷酸已在当前读取步骤之前的掺入步骤中被掺入互补链中。位置-1表示模板链的从位置0到模板链的5'端的一个碱基位置的核苷酸。位置-2表示模板链的从位置0到模板链的5'端的两个碱基位置的核苷酸。

在某些实施方案中，四个核苷酸位置的4-mer图诸如K-mer图920包括五种不同核苷酸(例如，A、T、C、甲基化C*或G)的625个可能状态或5^K个状态。在某些实施方案中，在掺入步骤后在单个读取电压下具有单个读取步骤的4-mer图包括用于解码在位置0处掺入的核苷酸的625个信号条目。在某些实施方案中，在掺入步骤后在多个读取电压下具有多个M读取步骤的4-mer图包括用于解码在位置0处掺入的核苷酸的M×5^K个信号条目。例如，在掺入步骤后具有三个读取步骤的4-mer图包括用于解码在位置0处掺入的核苷酸的3×5^K个条目或1,875个信号条目。尽管K-mer图在单个读取电压下对于两个不同碱基可具有相同的信号读数，但随着不同读取电压的读取步骤数目增加，对于两个不同掺入碱基具有一组相同信号读数的可能性降低。

在K-mer图的某些实施方案中，诸如参考图9A至图9B和图10A至图10B所述的K-mer图，K-mer图包括位置-1和位置-2。位置-1和位置-2处的二核苷酸(诸如AA、TT、CC或GG)提供了差分信号，当解码不同长度的核酸区域时，该差分信号增加了解码位置0的准确性。

图10A示出了构建包括甲基化C碱基(例如，CpG、CpA、CpT或CpC)的K-mer实例的K-mer图并使用该K-mer图进行测序的另一种方法，其中可以利用碱基掺入等待时间。该方法可以在框1001处开始，提供具有非甲基化C和甲基化C*的已知单链核酸寡聚体模板。该方法然后可移动到框1003，通过在一个或多个电势差、优选地至少两个电势差、更优选地至少三个电势差下读取K-mer实例来对寡聚体模板进行测序。该方法然后可移动到框1005，针对一个或多个电势差下的读数生成K-mer的K-mer图，以测量读取电流和掺入持续时间(成功掺入核苷酸之前的等待时间)。框1001至1005可以表示由测序仪器制造者执行的步骤。然后可以提供所构建的k-mer图用于碱基判定，同时对未知的单链核寡聚体分析物模板进行测序。例如，如果G的掺入是“相对”快速的，则碱基判定为甲基C。在一些实施方案中，可通过仪器或与仪器偶接的计算机进行碱基判定，其中K-mer图加载或存储在仪器或计算机上。在一些实施方案中，可以在云服务器上加载K-图的情况下通过云(即，网络)进行碱基判定。

图10B示出了根据所公开技术的一些实施方案的涉及经由间接动力学检测表观遗传修饰的实验数据。水平持续时间表示成功掺入核苷酸之前的等待时间。数据显示出甲基化和非甲基化碱基之间不同的且可重现的模式。例如，与甲基化C相对的碱基掺入似乎比与天然C相对的碱基掺入更快速。模板T1和模板T2具有相同的序列，不同的是模板T1在序列位置8处具有甲基化C(参见图10B中的参考标号1008)并且在序列位置17处具有非甲基化C，而模板T2在序列位置8处具有非甲基化C并且在序列位置17处具有甲基化C(参见图10B中的参考标号1017)。从图10B可以看出，在与甲基化C相对的位置8处的碱基的模板T1的掺入时间比在与非甲基化C相对的位置8处的碱基的模板T2的掺入时间相对更快速。从图10B可以看出，在与甲基化C相对的位置17处的碱基的模板T2的掺入时间比在与非甲基化C相对的位置17处的碱基的模板T1的掺入时间相对更快速。

因此，所公开的使用纳米孔对模板多核苷酸进行测序的方法可包括掺入核苷酸以延伸互补多核苷酸；当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链体部分保持在纳米孔附近(例如，纳米孔内)的(非易位)位置使得互补多核苷酸的延伸不能发生时，读取孔电流；将孔电流与K-mer图进行比较，该K-mer图包括多个条目，其中每个条目包括K-mer序列和在所施加的读取电位下的孔电流，K-mer序列包含模板多核苷酸在单链部分中的至少一个位置和模板多核苷酸在双链体部分中的至少一个位置；并且基于孔电流与K-mer图的比较来确定模板多核苷酸的序列。在一些实施方案中，在多于一个电位或多个电位下测量孔电流。在一些实施方案中，K-mer图的K-mer序列包含模板多核苷酸在单链部分中的至少两个位置。在一些实施方案中，所公开的方法还可包括确定读取的孔电流的变化(例如，变异系数)，其中基于变化(例如，变异系数)进一步确定模板多核苷酸的序列。在一些另选的实施方案中，所公开的方法可确定孔电流的变化(例如，变异系数)并且仅基于该变化(例如，变异系数)确定模板多核苷酸的序列。在一些实施方案中，当互补多核苷酸的3'端未被隔离在纳米孔内(例如，远离纳米孔定位)使得3'端被置于电解质溶液中的聚合酶和游离核苷酸可接近的位置持续设定的时间段时，核苷酸被掺入以延伸互补多核苷酸。在一些实施方案中，当互补多核苷酸的3'端偏离纳米孔(即，经由施加电压偏置而与纳米孔分离)持续设定的时间段时，读取孔电流。在一些实施方案中，所公开的方法还可包括通过核苷酸的延伸互补多核苷酸的掺入时间在所确定的序列中鉴定甲基化-C碱基。

实施例

以下实施例描述了本文所述的测序实施方案的所选方面。除非在权利要求中明确陈述，否则这些实施例旨在用于说明目的并且不应被解释为限制权利要求的范围。

实施例1-构建K-mer图

图11A、图11B和表1示出了制作具有5-mer的K-mer图的实施例。图11A示出了靶多核苷酸的状态，其中由孔蛋白(1103)的纳米孔识别区感测的双链体区域包括模板链(1101)中的5-mer AAAAC和互补链(1102)中的寡核苷酸TTT。图11B示出了在掺入额外的核苷酸T之后，靶多核苷酸已相对于孔蛋白的纳米孔识别区(1103)偏移。因此，在新状态下，由纳米孔识别区感测的双链体区域包括模板链(1101)中的5-mer AAACA和互补链(1102)中的寡核苷酸TTT。对于每个5-mer实例，在三个不同的施加电压V1、V2和V3下测量通过纳米孔的离子电流，并且电流的平均值示于表1中。因此，每个5-mer实例对应于包括三个值的代码。

表1

对于5-mer，表格继续到第1,024行

实施例2-K-mer图状态

图12示出了K-mer图状态的示例。如果K位置有助于纳米孔信号，则需要映射4^K个可能的序列组合(或状态)以覆盖所有可能性。例如，

2-mer需要16个状态；

3-mer需要64个状态；

4-mer需要256个状态；

5-mer需要1024个状态；

6-mer需要4096个状态。

互补链也会影响纳米孔电流。在某些实施方案中，测量模板链(1201)和互补链(1202)的双链体与模板链(1201)的单链的组合的纳米孔电流。

实施例3.1-用K-mer图从头对模板进行碱基判定

图13和表2示出了根据所公开技术的一些实施方案的模板多核苷酸的从头测序的实施例。图13示出了使用5个核苷酸长的K-mer(1309)，其在双链区中的位置+2、_+1和0处包括3个碱基，在单链区中的位置-1和-2处包括2个碱基。生成双射图(参见表2的实施例)，汇编K-mer的每个读取状态的所有序列特异性信息。在一个实施方案中，模板链(1301)可通过确定最适合读取步骤的模板链状态来解码，诸如表2中所示的三个读取步骤。模板链的解码可通过分析读取水平以确定位置0处的互补链(1302)中掺入的碱基的种类以确定位置0处的模板链的种类来进行。可参考K-mer图单独分析每个掺入的碱基，其中分析掺入的碱基的每个循环而不彼此参考。

在表2中，第1行、第1列和第2列代表分析物模板DNA链(水平ID 0)的序列的部分，其中dsDNA部分和ssDNA部分在测序开始时保持在纳米孔内的某位置(使得DNA合成不能发生)。换句话讲，“dsDNA”部分是分析物模板DNA的与子链形成双链体的一部分。在三个不同施加电压下的三个电流读数(第1行，最后三列)与K-mer图的5-mer之一匹配，并且影响纳米孔电流的模板DNA链的5-mer区域被确定为状态GCATG。影响纳米孔电流的5-mer包括dsDNA部分中的3个碱基和ssDNA部分中的2个碱基。

第2行、第1列和第2列代表掺入与水平ID 0(第1行第2列)的ssDNA部分的第一个“T”碱基相对的碱基后的分析物模板DNA链(水平ID 1)的序列部分。在三个不同施加电压下的三个电流读数(第2行，最后三列)与K-mer图的5-mer之一匹配，并且影响纳米孔电流的模板DNA链的5-mer区域被确定为状态CATGT。

第3行、第1列和第2列代表掺入与水平ID 1(第2行第2列)的ssDNA部分的第一个“G”碱基相对的碱基后的分析物模板DNA链(水平ID 2)的序列部分。在三个不同施加电压下的三个电流读数(第3行，最后三列)与K-mer图的5-mer之一匹配，并且影响纳米孔电流的模板DNA链的5-mer区域被确定为状态ATGTG。

表2

实施例3.2-用HMM从头对模板进行碱基判定

下面描述了根据所公开技术的一些实施方案的模板多核苷酸的从头测序的另一个实施例，当难以找到与纳米孔读头相互作用的多核苷酸序列与相关的纳米孔离子电流之间的双射映射时，这是特别有用的。例如，给定多核苷酸序列在特定施加电压下产生的平均纳米孔电流的值可表现出一定程度的随机性。在某些实施方案中，隐马尔可夫模型(HMM)用于描述与纳米孔读头相互作用的多核苷酸序列与相关的纳米孔离子电流之间的概率映射，并且维特比算法或其他解码模型用于基于读取步骤的循环来确定模板链的最可能的状态序列，诸如在将碱基多次掺入互补链中以解释所观察到的纳米孔信号之后，在三个不同的施加电压下的三个读取步骤。HMM建立在Markov链上，该Markov链描述一组K-mer状态之间的可能转变以及作为实验观察值的可能相关的纳米孔信号。在一些实施方案中，仅从离子电流迹线提取纳米孔电流的平均值和噪声，并将其用于表示实验观察值。在其他实施方案中，仅从离子电流迹线提取纳米孔电流的平均值，并将其用于表示实验观察值。HMM具有与K-mer状态之间的转变相关联的一组转变概率，以及确定在给定K-mer状态的情况下观察到的纳米孔信号将如何分布的一组发射概率。

可通过用期望最大化算法诸如Baum-Welch算法训练HMM来获得HMM的未知转变和发射概率。根据本文所述的方法，用已知的de Bruijn序列对所测量的纳米孔信号进行测序和记录来获得训练数据集，该已知的de Bruijn序列包含例如与纳米孔读头相互作用的所有4^K个K-mer状态(与图13所示的定义一致)。在其他实施方案中，如果多核苷酸由超过4种类型的规范碱基(A、T、C和G)形成，诸如当多核苷酸中存在DNA或RNA修饰或非天然碱基时，可以使用含有5^K个K-mer状态或6^K个K-mer状态的de Bruijn序列。

在通过用训练数据集训练HMM而获得HMM的转变和发射概率之后，可使用维特比算法基于所测量的纳米孔信号对模板多核苷酸序列进行解码/求解。维特比算法可以确定最佳描述未知核苷酸序列的模板多核苷酸的观察到的纳米孔信号数据的序列路径，即最可能的一系列K-mer状态(仅允许多核苷酸序列物理上可能的状态转变)，其构成观察到的一系列纳米孔信号(根据本文所述的方法在一系列核苷酸掺入操作中测量)的基础。尽管K-mer状态具有一定长度，诸如5-mer状态，但HMM和维特比算法可以使用多次掺入的信息确定仅超出碱基位置数目(诸如超出5-mer状态的五个碱基位置)的模板链的可能状态。换句话讲，解码模型(诸如HMM和维特比算法)参考K-mer状态共同分析每个掺入的碱基，以确定模板链的哪个总体序列最可能适合掺入的碱基循环的集合读取。

例如，具有2-mer状态的简化HMM示于图14A中以用于说明目的(假定多核苷酸的与纳米孔读头相互作用的区域是2-mer)。此外，仅示出从以“A”开始的状态(1401、1402、1403、1404)的转变(细线箭头)和发射(粗线箭头)。图14A中的简化HMM具有一组起始概率(其中模板链的第一个2-mer以概率＝1.0开始)、一组转变概率(其中所有状态转变概率＝0.25)和一组假定采用高斯分布的发射概率。高斯分布确定可能观察到的平均纳米孔电流。例如，状态“AA”的发射概率是正态分布N(8,1)，具有平均值＝8和方差＝1。因此，当“AA”与纳米孔读头相互作用时，平均纳米孔电流被假定为以平均值＝8(当前单位)和标准偏差＝1(当前单位)正态分布。

图14B的第1行至第9行示出，给定一系列9个观察到的纳米孔信号，多核苷酸的与纳米孔读头相互作用的区域在9次观察的每一次观察期间处于第0行中列出的任何2-mer状态的后验概率。由于转变和发射概率是已知的，因此可通过维特比算法解码作为给定系列观察结果的基础的最可能的多核苷酸序列，并且在解码过程期间计算图14B中的这些后验概率。此外，计算沿着模板多核苷酸的每个位置处的核苷酸具有A、T、C或G种类的概率并示于图14C中。基于图14B和图14C所示的信息，可以计算沿着模板多核苷酸的位置处的核苷酸具有特定种类的概率(给定一系列观察到的纳米孔信号)和前一位置处的核苷酸对于该位置处于最高概率状态的概率，并将其用于确定多核苷酸序列。

关于隐马尔可夫模型的其他细节可见于“Yoon,B.J.,2009.Hidden Markovmodels and their applications in biological sequence analysis.Currentgenomics,10(6)，第402-415页”和美国专利号11049588，这些文献中每一篇的公开内容以引用方式并入本文。在其他实施方案中，可使用任何合适的机器学习模型确定多核苷酸序列。例如，机器学习模型可以是分类机器学习模型。

在一些情况下，如上文结合图16A、图16B、图16C和图16D所论述，系统表现出多核苷酸-纳米孔相互作用的电压依赖性调节和离子电流的非欧姆行为。例如，图16A、图16B和图16C所示的情况具有相同的“水平数”(在一系列掺入操作之后已掺入互补链中的核苷酸数目)，但K-mer的定义在图16A的情况和图16B的情况之间有所不同(分别为“TATTT”和“ATATT”)。因此，在一些实施方案中，可针对不同施加电压的每种情况构建具有其自身K-mer定义的单独HMM并对其进行单独训练。未知多核苷酸序列的解码可通过使用不同HMM在不同施加电压的每种情况下分别解码，然后组合这些结果来进行。

图17A示出了与图16A相同的情况。图17B示出了当水平数增加1并且所施加电压为60mV时，模板链1701中的部分“TATTT”和互补链1702中的部分“ATA”(由虚线框指示)是影响所测量的离子电流迹线的多核苷酸区域。因此，相同的K-mer定义(“TATTT”)可用于图17A的情况和图17B的情况。因此，在一些实施方案中，仅构造一个HMM，其中一个K-mer状态定义可与不同施加电压下的不同水平数相关联。可通过仅利用一个HMM来进行未知多核苷酸序列的解码。

实施例4-利用双链体读取噪声

图15A、图15B、图15C示出了使用纳米孔信号的噪声模式的实施例。在某些实施方案中，测量模板链和互补链的双链体与模板链的单链的组合的纳米孔电流。

图15A示出了在三个不同的施加电压下测量的平均纳米孔离子电流1561(细节类似于图6所解释的那些)和所测量的孔电流的变异系数(CV)1563的实验结果。当掺入额外的核苷酸时，平均电流和CV均表现出离散变化。平均电流和CV均表现出不同的、可重现的序列依赖性结果，因为相同的多核苷酸被多次测序。如实验结果所证实，纳米孔信号的噪声模式也包含多核苷酸序列信息。例如，高CV通常与A碱基相关。因此，除平均电流之外，纳米孔信号的噪声模式可用于解码多核苷酸序列。例如，每个K-mer实例可以对应于包括六个值(三个施加电压下的平均电流和CV)的代码。

图15B示出了CV 1563如何作为时间的函数从所测量的通过纳米孔的离子电流1561中提取。CV被定义为标准偏差除以如图2B所定义的读取的平均电流。在其他实施方案中，可从噪声模式确定并使用确定模板链序列的其他指示符。

图15C示出，不受理论的束缚，在力的作用下双链体“剥离”(1587)可有助于序列特异性噪声响应。施加到双链体(1505)的力(1597)是基于每个读取步骤处所施加的电压来选择的。由于纳米孔内的不同碱基，诸如纳米孔内的双链体的不同碱基和/或纳米孔内的单链模板的不同碱基，纳米孔电流的噪声模式由双链体的序列决定。

实施例5-PhiX噬菌体基因组测序

图18-I示出了仅用电流平均值判定碱基的结果。在含有PhiX噬菌体基因组的具有序列CCCTGATTATGATTATACAT的区域1的模板多核苷酸上进行20个核苷酸的从头测序。当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链部分保持在纳米孔内的某位置使得互补多核苷酸的延伸不能发生时，在一系列施加电位下记录纳米孔电流平均值。在多个施加电位下使用电流平均值的所谓多核苷酸序列是CCCTGATTATGATTATACAT。表3-I示出，当使用来自单个施加电位的电流平均值时，获得9个碱基判定误差。当使用来自若干个施加电位的电流平均值时，获得0个碱基判定误差。

表3-I.PhiX区域1(20nt)

解码配置	误差
		仅电流平均值，单个电位	9
仅电流平均值，多个电位	0

图18-II示出了仅用电流变化判定碱基的结果。在含有PhiX噬菌体基因组的具有序列TCTATCGACT的区域2的模板多核苷酸上进行10个核苷酸的从头测序。当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链部分保持在纳米孔内的某位置使得互补多核苷酸的延伸不能发生时，在一系列施加电位下记录纳米孔电流变化。在多个施加电位下使用电流变化的所谓多核苷酸序列是TCCATCGACT。表3-II示出，当使用来自单个施加电位的电流变化时，获得5个碱基判定误差。当使用来自若干个施加电位的电流变化时，获得1个碱基判定误差。

表3-II.PhiX区域2(10nt)

解码配置	误差
		仅电流变化，单个电位	5
仅电流变化，多个电位	1

图18-III示出了用电流平均值和变化判定碱基的结果。在含有PhiX噬菌体基因组的具有序列CATATCTATC的区域3的模板多核苷酸上进行10个核苷酸的从头测序。当模板多核苷酸的单链部分以及模板多核苷酸和互补多核苷酸的双链部分保持在纳米孔内的某位置使得互补多核苷酸的延伸不能发生时，在一系列施加电位下记录纳米孔电流平均值和电流变化。在多个施加电位下使用电流平均值和电流变化测量的所谓多核苷酸序列是CATATCTATA。表3-III示出，当使用来自若干个施加电位的电流平均值而不是电流变化时，获得5个碱基判定误差。当使用来自若干个施加电位的电流变化而不是电流平均值时，获得6个碱基判定误差。当使用来自若干个施加电位的电流平均值和电流变化两者时，获得1个碱基判定误差。

表3-III.PhiX区域3(10nt)

解码配置	误差
		仅电流平均值，多个电位	5
仅电流变化，多个电位	6
		电流平均值和变化，多个电位	1

附加说明

应当理解，K-mer图中的数据或点可以适当地以任何合适的格式存储在非易失性计算机可读介质中，其将给定的测量条件与在该条件下测量的一个或多个值以及用于生成这些值的双链体和单链序列的组合相关联。查找表(LUT)是可用于存储测量值与用于生成这些值的双链体和单链序列的已知组合之间的相关性的格式的非限制性示例。然而，应当理解，可以使用任何合适的数据结构存储测量值与用于生成这些值的双链体和单链序列的已知组合之间的相关性。例如，数据结构可通过机器学习算法生成并被适当地存储以供机器学习算法使用。例如，数据结构可通过训练机器学习算法来生成以识别在每组相应的给定测量条件下获得的并且先验已知对应于双链体和单链序列的相应组合的值，并且可以任何合适的格式存储在非易失性计算机可读介质内。基于在核苷酸添加步骤之间测量的值的输入，数据结构随后可被经训练的机器学习算法用于生成鉴定多核苷酸序列中的核苷酸的输出。在某些示例中，数据结构可由神经网络(诸如深度学习算法)生成并适当地存储以供神经网络使用。例如，数据结构可通过训练神经网络(例如，深度学习算法)来生成以识别在每组相应的测量条件下获得的并且先验已知对应于双链体和单链序列的相应组合的值，并且可以任何合适的格式存储在非易失性计算机可读介质内。因此，数据结构可包括神经网络的神经元(例如，深度学习算法)。基于在核苷酸添加步骤之间测量的值的输入，数据结构随后可被经训练的神经网络(例如，深度学习算法)用于生成鉴定多核苷酸序列中的核苷酸的输出。

数据结构可通过训练任何合适的机器学习算法来生成，诸如使用测量值的神经网络(例如，深度学习算法)、先验已知对应于那些测量值的核苷酸组合、以及获得这些测量值的测量条件。就这一点而言，数据结构可具有易于被经训练的机器学习算法(例如经训练的神经网络，诸如经训练的深度学习算法)使用的构造，以使用测量值鉴定核苷酸组合，但这种构造可能不一定可被任何其他软件、模块或算法使用以确定测量值与未知核苷酸组合之间的相关性。例如，可以使用所测量的信号来训练机器学习算法(诸如神经网络，例如深度学习算法)以进行碱基判定。机器学习算法的非限制性示例是监督、半监督、无监督和强化算法。神经网络算法是机器学习算法的子集，并且可包括深度学习算法、卷积神经网络、递归神经网络、生成对抗网络和递归神经网络。因此，数据结构的特定构造可包括例如向量空间、图表空间、神经网络的神经元等。另选地，可使用任何合适的数据结构来实现数据结构，所述合适的数据结构可使用核苷酸鉴定模块进行查询，诸如查找表(LUT)、矩阵、扁平文件数据库结构、SQL数据库结构等。

应当了解，控制器或处理器可使用数字电子电路、集成电路、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、中央处理单元(CPU)、图形处理单元(GPU)、计算机硬件、固件、软件和/或它们的组合的任何合适组合来实现。例如，控制器或处理器的一个或多个功能可在一个或多个计算机程序中实现，所述一个或多个计算机程序能够在包括至少一个可编程处理器的可编程系统上执行和/或解释，所述至少一个可编程处理器可以是专用或通用处理器，被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令发送到存储系统、至少一个输入设备和至少一个输出设备。可编程系统或计算系统可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序而产生。

这些计算机程序(也可称为模块、程序、软件、软件应用程序、应用程序、组件或代码)可包括用于可编程处理器的机器指令，并且/或者可以用高级过程语言、面向对象的编程语言、功能编程语言、逻辑编程语言和/或汇编/机器语言来实现。如本文所用，术语“存储器”和“计算机可读介质”是指用于向可编程数据处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备，诸如磁盘、光盘、固态存储装置、存储器和可编程逻辑设备(PLD)，包括接收机器指令作为计算机可读信号的机器可读介质。术语“计算机可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。计算机可读介质可以非暂时性地存储此类机器指令，诸如非暂态固态存储器或磁性硬盘驱动器或任何等效存储介质。计算机可读介质可另选地或附加地以暂态方式存储此类机器指令，诸如像与一个或多个物理处理器核相关联的处理器高速缓存或其他随机存取存储器那样。

本文所述的计算机组件、软件模块、功能、数据存储库和数据结构可以直接地或间接地彼此连接，以便实现它们的操作所需的数据流。还应当注意，模块或处理器包括但不限于执行软件操作的代码单元，并且可实现为例如代码的子例程单元、或代码的软件功能单元、或对象(如在面向对象的范式中)、或小应用程序、或计算机脚本语言、或另一类型的计算机代码。软件组件和/或功能可位于单个计算机上或者分布在多个计算机和/或云上，具体取决于当前的情况。

应当理解，前述概念和下文更详细讨论的附加概念(假设此类概念不相互矛盾)的所有组合都被设想为是本文所公开的发明主题的一部分。具体地讲，出现在本公开末尾的要求保护的主题的所有组合都被设想为是本文所公开的发明主题的一部分。还应当理解，本文明确采用的也可出现在以引用方式并入的任何公开中的术语应被赋予与本文所公开的特定概念最一致的含义。

本说明书通篇提及的“一个示例”、“另一个示例”、“一种示例”等意指结合该示例描述的特定元素(例如，特征、结构和/或特性)包括在本文所述的至少一个示例中，并且可存在于或不存在于其他示例中。此外，应当理解，用于任何示例的所述元素可以任何合适的方式组合在各种示例中，除非上下文另有明确说明。

应当理解，本文提供的范围包括规定范围和规定范围内的任何值或子范围，如同此类值或子范围被明确列举一样。例如，约2nm到约20nm的范围应被解释为不仅包括明确列举的约2nm到约20nm的限值，而且还包括单个值，诸如约3.5nm、约8nm、约18.2nm等，以及子范围，诸如约5nm到约10nm等。此外，当使用“约”和/或“基本上”来描述值时，这意味着包括所陈述值的微小变化(至多+/-10％)。

虽然已经详细描述了若干示例，但是应当理解，可以对所公开的示例进行修改。因此，上述说明应被认为是非限制性的。

尽管已经描述了某些示例，但是这些示例仅作为示例而呈现，并且不旨在限制本公开的范围。实际上，本文描述的新颖方法和系统可以各种其他形式来体现。而且，在不脱离本公开的精神的情况下，可以在本文中描述的系统和方法中进行各种省略、替换和改变。所附权利要求书及其等同形式旨在涵盖将落入本公开的范围和精神内的此类形式或修改。

结合特定方面或示例描述的特征、材料、特性或组应理解为适用于在本部分或本说明书中其他地方描述的任何其他方面或示例，除非与之不相容。本说明书(包括任何所附权利要求书、摘要和附图)中公开的所有特征和/或如此公开的任何方法或过程的所有步骤都可以任何组合方式进行组合，而其中此类特征和/或步骤中的至少一些特征和/或步骤相互排斥的组合除外。保护不限于任何前述示例的细节。保护延伸到本说明书(包括任何所附权利要求、摘要和附图)中公开的特征中的任何新颖特征或其任何新颖组合，或者延伸到如此公开的任何方法或过程的步骤中的任何新颖步骤或其任何新颖组合。

而且，在本公开中在单独实施方式的上下文中描述的某些特征也可以组合形式在单个实施方式中实施。相反，在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中实施。此外，尽管特征可在上文中描述为以某些组合起作用，但在一些情况下，可从所要求保护组合中删除来自该组合的一个或多个特征，并且该组合可作为子组合或子组合的变型要求保护。

此外，虽然可以以特定顺序在附图中描绘或在说明书中描述操作，但不需以所示的特定顺序或按顺序执行此类操作或执行所有操作以实现期望的结果。未描绘或描述的其他操作可以并入示例方法和过程中。例如，可以在任何所描述的操作之前、之后、同时或之间执行一个或多个附加操作。此外，这些操作可以在其他实施方式中重新排列或重新排序。本领域技术人员将理解，在一些示例中，在所示和/或公开的过程中采取的实际步骤可以不同于图中所示的实际步骤。取决于示例，可以去除上述某些步骤，或者可以添加其他步骤。此外，上文公开的具体示例的特征和属性可以以不同方式组合以形成额外示例，所有这些都落入本公开的范围内。而且，上文所描述的实施方式中各种系统部件的分离不应被理解为在所有实施方式中都需要此类分离，并且应当理解，所描述的部件和系统通常可一起集成在单个产品中或打包到多个产品中。例如，本文所描述的能量存储系统的部件中的任何部件都可以单独提供，或者集成在一起(例如，打包在一起或附接在一起)以形成能量存储系统。

出于本公开的目的，本文描述了某些方面、优点和新颖特征。不一定所有这些优点都可以根据任何特定示例来实现。因此，例如，本领域的技术人员将认识到，本公开可以实现本文所教导的一个优点或一组优点而不一定实现本文可教导或建议的其他优点的方式来实施或执行。

除非另外具体陈述或以其他方式在所使用的上下文内理解，否则如“可能(can/could)”、或“可以(might/may)”的条件性语言通常旨在传达某些示例包括而其他示例不包括某些特征、元件和/或步骤。因此，这种条件性语言通常并不意味着一个或多个示例以任何方式需要特征、元件和/或步骤，或者一个或多个示例必须包括用于在有或没有用户输入或提示的情况下做出决定的逻辑，不管特征、元件和/或步骤是否包括在特定示例中或将要在任何特定示例中执行。

除非另有特别说明，否则诸如短语“X、Y和Z中的至少一者”的连接语言在上下文中通常被理解为用于传达项目、术语等可以是X、Y或Z。因此，这种连接语言通常不旨在暗示某些示例需要存在X中的至少一者、Y中的至少一者和Z中的至少一者。

本文使用的程度语言，诸如术语“大约”、“约”、“一般”和“基本上”表示接近仍执行预期功能或实现预期结果的陈述值、量或特性的值、量或特性。

如本文所用，术语“多个(plurality)”旨在表示两个或更多个不同成员的群体。多个数目可在小、中、大到极大的大小范围内。小的多个数目的大小可在例如几个成员到数十个成员的范围内。中等大小的多个数目可在例如数十个成员到约100个成员或数百个成员的范围内。大的多个数目可在例如约数百个成员到约1000个成员、到数千个成员、和多达数万个成员的范围内。极大的多个数目可在例如数万成员到约几十万、一百万、几百万、几千万、和多达或超过数亿成员的范围内。因此，多个数目可以在两个到远超过一亿成员的大小以及如通过成员的数目所测量的所有大小范围内、在以上示例性范围之间、且超过以上示例性范围。示例性多核苷酸的多个数目包括例如约1×105或更多、5×105或更多、或1×106或更多个不同多核苷酸的群体。因此，术语的定义打算包含大于二的所有整数值。多个数目的上限可以例如通过样本中多核苷酸序列的理论多样性来设置。

本公开的范围不旨在受本章节中或本说明书中其他地方的优选示例的具体公开内容的限制，并且可以由本章节中或本说明书中其他地方呈现的或将来呈现的权利要求限定。权利要求的语言应基于权利要求中采用的语言而广泛地解释，并且不限于本说明书中或在申请的审查期间描述的示例，这些示例应被理解为非排他性的。

Claims

1.一种使用纳米孔对模板多核苷酸进行测序的方法，所述方法包括：

掺入核苷酸以延伸互补多核苷酸；

当所述模板多核苷酸的单链部分以及所述模板多核苷酸和所述互补多核苷酸的双链体部分保持在所述纳米孔内的某位置使得所述互补多核苷酸的延伸不能发生时，在施加的读取电位下读取孔电流；

将所述孔电流与K-mer图进行比较，所述K-mer图包括多个条目，其中每个条目包括K-mer序列和在所施加的读取电位下的孔电流，所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少一个位置和所述模板多核苷酸在所述双链体部分中的至少一个位置；以及

基于所述孔电流与所述K-mer图的所述比较来确定所述模板多核苷酸的序列。

2.根据权利要求1所述的方法，其中在多于一个电位下测量所述孔电流。

3.根据权利要求1至2中任一项所述的方法，其中所述K-mer图的所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少两个位置。

4.根据权利要求1至3中任一项所述的方法，所述方法还包括确定所读取的孔电流的变化，其中基于所述变化进一步确定所述模板多核苷酸的所述序列。

5.根据权利要求1至4中任一项所述的方法，所述方法还包括通过相对于未修饰的碱基改变的电流和/或核苷酸的延伸所述互补多核苷酸的掺入时间来鉴定所确定的序列中的经表观遗传修饰的碱基。

6.根据权利要求1至5中任一项所述的方法，其中当所述互补多核苷酸的3'端未被隔离在所述纳米孔内时，掺入所述核苷酸以延伸所述互补多核苷酸。

7.根据权利要求1至6中任一项所述的方法，其中当所述互补多核苷酸的所述3'端位于所述纳米孔的收缩区内时，读取所述孔电流。

8.一种使用纳米孔对模板多核苷酸进行测序的方法，所述方法包括：

掺入核苷酸以延伸互补多核苷酸；

当所述模板多核苷酸的单链部分以及所述模板多核苷酸和互补多核苷酸的双链体部分保持在所述纳米孔附近的某位置使得所述互补多核苷酸的延伸不能发生时，在第一施加读取电位下读取第一孔电流；

当所述模板多核苷酸的所述单链部分以及所述模板多核苷酸和所述互补多核苷酸的所述双链体部分保持在所述纳米孔内的某位置使得所述互补多核苷酸的延伸不能发生时，在第二施加读取电位下读取第二孔电流；

将所述第一孔电流和所述第二孔电流与K-mer图进行比较，所述K-mer图包括多个条目，其中每个条目包括K-mer序列和在多个施加读取电位下的多个孔电流，所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少一个位置和所述模板多核苷酸在所述双链体部分中的至少一个位置；以及

9.根据权利要求8所述的方法，其中所述K-mer图的所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少两个位置。

10.根据权利要求8至9中任一项所述的方法，所述方法还包括确定所读取的孔电流的变化，其中基于所述变化进一步确定所述模板多核苷酸的所述序列。

11.根据权利要求8至10中任一项所述的方法，所述方法还包括通过相对于未修饰的碱基改变的电流和/或核苷酸的延伸所述互补多核苷酸的掺入时间来鉴定所确定的序列中的经表观遗传修饰的碱基。

12.根据权利要求8至11中任一项所述的方法，其中当所述互补多核苷酸的3'端未被隔离在所述纳米孔内时，掺入所述核苷酸以延伸所述互补多核苷酸。

13.根据权利要求8至12中任一项所述的方法，其中当所述互补多核苷酸的所述3'端位于所述纳米孔的收缩区内时，读取所述孔电流。

14.一种使用纳米孔对模板多核苷酸进行测序的方法，所述方法包括：

执行多个循环，每个循环包括

掺入核苷酸以使互补多核苷酸延伸至所述模板多核苷酸；以及

读取所述模板多核苷酸的单链部分以及所述模板多核苷酸和所述互补多核苷酸的双链体部分的孔电流，所述单链部分和所述双链体部分保持在所述纳米孔内的某位置，使得所述互补多核苷酸的延伸不能发生；

在一组所述多个循环之后，从所述模板多核苷酸去除所述互补多核苷酸；以及

执行第二多个循环，并且由所述第二多个循环的孔电流读数确定所述模板多核苷酸的第二序列。

15.根据权利要求14所述的方法，其中确定所述序列包括将电流迹线与K-mer图进行比较，所述K-mer图包括多个条目，其中每个条目包括K-mer序列和在施加的读取电位下的孔电流，所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少一个位置和所述模板多核苷酸在所述双链体部分中的至少一个位置。

16.根据权利要求14至15中任一项所述的方法，其中在多于一个电位下测量所述孔电流。

17.根据权利要求14至16中任一项所述的方法，其中所述K-mer图的所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少两个位置。

18.根据权利要求14至17中任一项所述的方法，所述方法还包括确定所读取的孔电流的变化，其中基于所述变化进一步确定所述模板多核苷酸的所述序列。

19.根据权利要求14至18中任一项所述的方法，所述方法还包括通过相对于未修饰的碱基改变的电流和/或核苷酸的延伸所述互补多核苷酸的掺入时间来鉴定所确定的序列中的经表观遗传修饰的碱基。

20.根据权利要求14至19中任一项所述的方法，其中当所述互补多核苷酸的3'端未被隔离在所述纳米孔内时，掺入所述核苷酸以延伸所述互补多核苷酸。

21.根据权利要求14至20中任一项所述的方法，其中当所述互补多核苷酸的所述3'端位于所述纳米孔的收缩区内时，读取所述孔电流。

22.一种用于鉴定模板多核苷酸的碱基序列的系统，所述系统包括：

仪器，所述仪器包括：

与溶液接触的纳米孔；以及

处理器，所述处理器被配置为相对于纳米孔选择性地移动所述模板多核苷酸，并且被配置为测量所述模板多核苷酸的单链部分以及所述模板多核苷酸和所述互补多核苷酸的双链体部分的孔电流；以及

耦接到所述仪器的非易失性数据存储介质，其中所述非易失性数据存储介质存储K-mer图，所述K-mer图包括多个条目，其中每个条目包括K-mer序列和在施加的读取电位下的孔电流，所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少一个位置和所述模板多核苷酸在所述双链体部分中的至少一个位置。

23.根据权利要求22所述的系统，其中仪器包括所述非易失性数据存储介质。

24.根据权利要求23所述的系统，其中所述处理器被进一步配置为基于所测量的孔电流和所述K-mer图确定所述模板多核苷酸的所述碱基序列。

25.根据权利要求22所述的系统，所述系统还包括本地附接到所述仪器的计算机，其中所述计算机包括所述非易失性数据存储介质。

26.根据权利要求22所述的系统，所述系统还包括联网到所述仪器的计算机，其中所述计算机包括所述非易失性数据存储介质。

27.根据权利要求25或26所述的系统，所述系统还包括本地附接到所述仪器的计算机，其中所述计算机被进一步配置为基于所测量的孔电流和所述K-mer图确定所述模板多核苷酸的所述碱基序列。

28.一种使用纳米孔对模板多核苷酸进行测序的方法，所述方法包括：

执行多个循环，每个循环包括

掺入核苷酸以延伸互补多核苷酸；

当所述模板多核苷酸的单链部分以及所述模板多核苷酸和所述互补多核苷酸的双链体部分保持在所述纳米孔内的某位置使得所述互补多核苷酸的延伸不能发生时，读取孔电流；以及

基于将经训练的统计模型应用于分别在所述多个循环中读取的一系列孔电流，确定所述模板多核苷酸的最可能序列。

29.根据权利要求28所述的方法，其中在多于一个电位下测量所述多个循环中的至少一些循环中的所述孔电流。

30.根据权利要求28至29中任一项所述的方法，其中所述单链部分包含所述模板多核苷酸的至少两个位置。

31.根据权利要求28至30中任一项所述的方法，其中所述统计模型是隐马尔可夫模型。

32.根据权利要求28至31中任一项所述的方法，所述方法还包括通过相对于未修饰的碱基改变的电流和/或核苷酸的延伸所述互补多核苷酸的掺入时间来鉴定所确定的序列中的经表观遗传修饰的碱基。

33.根据权利要求28至32中任一项所述的方法，其中当所述互补多核苷酸的3'端未被隔离在所述纳米孔内时，掺入所述核苷酸以延伸所述互补多核苷酸。

34.根据权利要求28至33中任一项所述的方法，其中当所述互补多核苷酸的3'端位于所述纳米孔的收缩区内时，读取每个循环中的所述孔电流。

35.一种使用纳米孔对模板多核苷酸进行测序的方法，所述方法包括：

掺入核苷酸以延伸互补多核苷酸；

当所述模板多核苷酸的单链部分以及所述模板多核苷酸和所述互补多核苷酸的双链体部分在施加的读取电位下保持在所述纳米孔内的某位置使得所述互补多核苷酸的延伸不能发生时，确定孔电流的变化；

将所述孔电流的所述变化与K-mer图进行比较，所述K-mer图包括多个条目，其中每个条目包括K-mer序列和在所施加的读取电位下的孔电流变化，所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少一个位置和所述模板多核苷酸在所述双链体部分中的至少一个位置；以及

基于所述孔电流的所述变化与所述K-mer图的所述比较来确定所述模板多核苷酸的序列。

36.根据权利要求35所述的方法，其中在多于一个电位下测量所述孔电流，并且在多于一个电位下确定所述孔电流的所述变化。

37.根据权利要求35至36中任一项所述的方法，其中所述K-mer图的所述K-mer序列包含所述模板多核苷酸在所述单链部分中的至少两个位置。

38.根据权利要求35至37中任一项所述的方法，所述方法还包括通过相对于未修饰的碱基改变的孔电流变化和/或核苷酸的延伸所述互补多核苷酸的掺入时间来鉴定所确定的序列中的经表观遗传修饰的碱基。

39.根据权利要求35至38中任一项所述的方法，其中当所述互补多核苷酸的3'端未被隔离在所述纳米孔内时，掺入所述核苷酸以延伸所述互补多核苷酸。

40.根据权利要求35至39中任一项所述的方法，其中当所述互补多核苷酸的所述3'端位于所述纳米孔的收缩区内时，确定所述孔电流的所述变化。