CN110800064B

CN110800064B - 核酸索引化技术

Info

Publication number: CN110800064B
Application number: CN201880043368.2A
Authority: CN
Inventors: J·S·维耶切利; R·M·凯利
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2017-11-06
Filing date: 2018-11-05
Publication date: 2024-03-29
Anticipated expiration: 2038-11-05
Also published as: WO2019090251A3; FI3707723T3; ES2966831T3; AU2021266189B2; AU2018359670B2; JP2020528741A; EP3707723A2; KR102500210B1; IL271239A; WO2019090251A2; IL271239B2; KR102735452B1; AU2018359670A1; US20190218545A1; IL313470A; KR20200005607A; IL271239B1; US11891600B2; NZ758684A; EP3707723B1

Abstract

本文展示了使核酸索引化技术，例如与测序联合使用。这些技术包括从个体样品生成索引化核酸片段，因而向核酸片段的每个索引位点中并入的索引序列选自多个可区分索引序列并且从而生成的核酸片段群体表示来自所述多个可区分索引序列的每个索引序列。以这种方式，从单一样品生成的索引化核酸片段用索引序列的多样混合物索引化，其中所述索引序列减少因低序列多样性相关的索引读段错误所致的错误分配。

Description

核酸索引化技术

相关申请的交叉引用

本申请要求2017年11月6日提交的名为“核酸索引化技术”的美国临时申请号62/582,175的权益和优先权，所述文献的内容通过引用方式完整并入本文用于所有目的。

背景

本公开一般地涉及与生物样品有关的数据(如序列数据)领域。更具体地，本公开涉及在采集的序列数据中使核酸索引化并解析索引化序列的技术。

基因测序已经变成日益重要的遗传研究领域，有希望未来用于诊断性应用和其他应用。通常而言，基因测序涉及确定核酸(如RNA或DNA片段)的核苷酸顺序。使用汇总样品制备法，例如，多重样品制备法，下一代测序技术促进更高通量测序。在汇总样品制备法内，可以对每个个体样品加标签或否则标记，从而来自汇总样品的每个测序用读段可以关联于或归因于汇集物中的个体样品。但是，采集的序列数据可能具有从各种来源引入的误差和噪声，例如，样品缺陷、样品制备误差和测序偏差，这可能降低每个个体样品的相关序列数据的准确度。因此，需要开发在多重样品制备物中允许高通量测序，同时归因误差降低的方法。

发明简述

本公开为生物样品的样品索引化提供新方案。如本文提供，样品索引化是采集的测序用读段藉此与特定样品关联的过程。尤其，公开的索引化技术在样品之间不引入污染，用数目任意少的样品(对于阳性样品追踪，低至一)稳健工作，并且甚至支持跨多路复用样品表示。用一项索引化策略解决了索引交叉污染、低复用(low-plex)样品索引化性能和索引性能变异的问题，所述索引化策略使用每个片段双重索引化，使用第一和第二索引的潜在多重索引汇集物标记从样品制备的每个核酸片段。与传统的组合方案相反，公开的技术将多个唯一索引分配给第一和第二索引中的每份样品。在一个实施方案中，索引序列是外源核酸序列，其中可以将所述外源核酸序列掺入来自样品的核酸用于样品鉴定和/或样品关联。例如，可以将本文提供的索引序列在样品制备期间和/或在测序期间掺入来自目的样品的核酸片段中。每个索引序列具有相对于测序反应中所用的其他索引序列而言可区分的序列。在某些实施方案中，索引序列与一份或多分样品的内源核酸可区分。索引序列可以是单链或双链的，并且可以具有至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基或更多碱基。在某些实施方案中，索引序列长5-8个碱基、5-10个碱基、5-15个碱基、5-25个碱基、8-10个碱基、8-12个碱基、8-15个碱基、或8-25个碱基等。

公开的技术提供索引化测序，其中使用预设定的索引序列汇集物，使来自特定样品的核酸片段在每个索引位点处索引化。尽管在每个核酸片段二个独立索引位点(即，双重索引化)的背景下公开某些实施方案，应当理解，公开的技术可以用具有至少一个索引位点、至少两个索引位点的核酸片段使用并且对于每个核酸片段，可以掺入三个、四个或更多个索引位点。如本文提供的索引化样品可以与其他索引化样品汇总用于测序，前提是，用不同的索引序列汇集物在每个索引位点处使其他索引化样品索引化。因此，本发明的技术允许汇总或多重样品测序反应，据此用分配的唯一索引序列集合使测序反应中的每个个体样品索引化并且借助分配的唯一索引，使采集的测序用读段与适宜的源样品关联。

相对于每个样品片段和/或在每个索引位点掺入单一索引序列的技术，本发明的技术改善测序准确度。例如，可以使用基于规则的分配过程，例如，对于双重索引化片段而言在第一和第二索引位点二者或对于单一索引化片段而言仅在一个索引位点执行测序分析，其中所述分配过程抛弃不含适宜已分配索引的任何测序用读段。针对每份样品的选定的已分配索引被设计成具有多样性并且使用多种测序技术可区分。例如，每个索引序列具有内部变异性、在其已分配集合内部的变异性和相对于分配给汇集物中其他样品的其他索引序列而言的变异性。以这种方式，在索引中单碱基读段处的测序装置误差较低，可能原因在于索引的多样性减少错读。在一个例子中，如果某个测序轮次具有低复杂性或较少样品，索引序列数据却可以反映比如果每个索引位点处不同索引序列的数目具有与样品数目的1:1对应性时所原本预期的更高的多样性。即，并非仅使用每个样品索引位点单一索引序列并且据此使每份样品与仅一个索引在每个索引位点关联(这将产生这种1:1对应性)，而是使每份样品与多个潜在索引序列在每个索引位点关联。因此，相对于众多样品，不同或可区分的索引序列按每个索引位点至少2:1、至少3:1或至少4:1的比率存在。在一个实例中，对于并入专用索引读段(即，使用仅靶向索引序列上游的索引引物并且对有限数目的与索引序列的长度对应的碱基测序)的测序技术，本发明的技术和改进的索引多样性可以产生更准确的碱基读出(base calling)。

通过增加索引序列数据的准确度，根据基于规则的分配过程，弃去更少的测序用读段，这还改进测序准确度，甚至对低浓度样品和在样品数目少的情况下也是如此。另外，借助改进的索引测序法准确度而改进的样品关联减少了索引跳跃(Index hopping)(即，某测序用读段因索引错误识别而错误分配给某样品)的影响。

在一个实施方案中，提供样品索引化的核酸文库制备物，其包含从第一样品制备的第一核酸文库，其中第一核酸文库包含第一多个核酸片段，其中第一多个核酸片段的每个核酸片段包含选自第一索引序列集合的至少两个不同的索引序列；从第二样品制备的第二核酸文库，其中第二核酸文库包含多个核酸片段，其中第二多个核酸片段的每个核酸片段包含选自第二索引序列集合的与第一索引序列集合可区分的至少两个不同的索引序列；并且其中索引序列如此布置在第一多个和第二多个的个体核酸片段上，从而索引序列的第一索引序列位于靶序列的5’并且索引序列的第二索引序列位于靶序列的3’。

在另一个实施方案中，提供一种对核酸分子测序的方法，所述方法包括步骤：提供从样品生成的多个双重索引化核酸片段，其中核酸片段的每个个体核酸片段包含5’接头序列、5’索引序列、3’接头序列和3’索引序列，其中，在双重索引化核酸片段中表示选自与样品关联的第一5’索引序列集合中的多个不同5’索引序列和选自与样品关联的第二3’索引序列集合中的多个不同3’索引序列并且其中多个不同5’索引序列和多个不同3’索引序列彼此可区分；生成代表双重索引化核酸片段的序列的测序用数据；并且当仅个体序列包含选自第一集合的5’索引序列和选自第二集合的3’索引序列二者时，才使序列的个体序列与样品关联。

在另一个实施方案中，提供一种多重样品文库制备试剂盒，其包含多个核酸片段，每个片段包含索引序列和接头序列。多个核酸片段包含第一样品关联的核酸片段集合，所述集合包含核酸片段，所述核酸片段具有选自第一索引集合的索引序列，并且其中接头序列是第一接头序列，并且包含核酸片段，所述核酸片段具有选自第二索引集合的索引序列，并且其中接头序列是第二接头序列，并且其中，在第一样品关联的核酸片段集合中表示第一索引集合和第二索引集合的每个索引序列；以及第二样品关联的核酸集合，所述集合包含核酸片段，所述核酸片段具有选自第三索引集合的索引序列，并且其中接头序列是第一接头序列，并且包含核酸片段，所述核酸片段具有选自第四索引集合的索引序列，并且其中接头序列是第二接头序列，并且其中，在第二样品关联的核酸片段集合中表示第三索引集合和第四索引集合的每个索引序列；并且其中第一索引集合、第二索引集合、第三索引集合和第四索引集合各自包含彼此可区分的多个索引序列。

在另一个实施方案中，提供一种测序用基质，其包含在基质上固定的多个核酸捕获序列，其中每个个体核酸捕获序列包含与第一接头序列互补的第一捕获序列或与第二接头序列互补的第二捕获序列。测序用基质还包含与多个核酸捕获序列的相应核酸捕获序列偶联的多个核酸片段，其中多个核酸片段的每个个体片段包含第一接头序列和第二接头序列并且其中多个核酸片段的每个个体片段包含与第一唯一索引序列集合的一个索引序列互补的第一序列和与第二唯一索引序列集合的一个索引序列互补的第二序列，并且其中第一唯一索引序列集合和第二唯一索引序列集合仅与多个核酸片段所来源的一份样品关联并且其中第一集合和第二集合的每个唯一索引序列存在于多个核酸片段的至少一个核酸片段中。

在另一个实施方案中，提供一种对核酸分子测序的方法，所述方法包括步骤：提供从样品生成的多个双重索引化核酸片段，其中双重索引化核酸片段的每个个体核酸片段包含来自样品的目的序列、5’接头序列、5’索引序列、3’接头序列和3’索引序列，以生成双重索引化核酸片段，其中，在双重索引化核酸片段中表示选自与样品关联的第一5’索引序列集合中的多个不同5’索引序列和选自与样品关联的第二3’索引序列集合中的多个不同3’索引序列并且其中多个不同5’索引序列和多个不同3’索引序列彼此可区分；生成代表目的序列的测序用数据；生成代表5’索引序列和3’索引序列的测序用数据；并且仅个体目的序列与选自第一集合的5’索引序列和选自第二集合的3’索引序列均关联时，才将个体目的序列分配给样品。

附图

图1是根据本发明技术的索引核酸片段的示意图；

图2是根据本发明技术的索引化核酸片段文库的示意图；

图3是根据本发明技术生成样品的索引化核酸文库的方法的流程图；

图4是根据本发明技术对汇总的索引化核酸文库测序的方法的流程图；

图5是根据本发明技术的汇总的索引化核酸片段文库的示意图；

图6是根据本发明技术对包含索引序列的接头测序的示意图；

图7是根据本发明技术对核酸文库测序的方法的流程图；

图8是根据本发明技术的索引集合的实例；

图9是根据本发明技术的索引集合的实例；

图10是根据本发明技术的核酸测序试剂盒；

图11是根据本发明技术的设置成采集测序数据的测序装置的框图；并且

图12显示根据本发明技术的图形化用户界面的实例。

发明详述

本发明的技术涉及索引化的核酸并使用其测序和分析。核酸测序生成大量原始数据，其被随后分析并编译以提供与测序样品有关的有意义信息。测序技术已经进展到同时处理多个样品，这提供时间和成本节省。但是，这类技术存在数据处理难题。多重样品测序轮次中采集的测序用数据必须与其源样品关联，之后可以对每个个体样品进行序列组装和分析。但是，仅使用内源核酸序列，经常不能准确地完成这种样品关联。因此，某些测序技术将唯一外源条码(barcode)或索引序列在测序之前掺入核酸中，其中每份样品与唯一条码或索引关联。在采集测序用数据后，将具有唯一条码或索引的序列读段分配给适宜的源样品。

尽管这类技术促进多重样品测序用数据的分配，但仍发生测序用读段的样品分配错误。无论引入样品分配错误的来源是什么，序列错误分配可以导致对错误分配的数据进行的后续基因组组装和/或数据分析不准确。如果未通过测序装置准确采集索引序列数据，则核酸片段的测序用读段(例如，代表50-300bp核酸片段)可能基于不准确的数据分配给错误的样品。另外，某些测序技术可以与更大程度的索引跳跃或样品间索引的分子重组相关。索引跳跃可以由该分子的一个末端(包含索引区域)在模板文库中分子之间转移引起。尽管索引跳跃可能以低比率(约0.05％)发生，但临床背景下即使低水平的索引跳跃也可能有关系。在单一索引读段的情况下，转移将导致测序用读段不正确分配给另一样品，这转而将在下游分析中导致污染。索引跳跃还可以随使用组合方案的双重索引化发生(例如，将相同序列分配给索引一或索引二中的多份样品，但确保索引一和索引二的任何具体组合对特定样品为唯一)。在某些实施方案中，本发明的技术与第一和第二索引读段内部的唯一索引联合使用。在这种情况下，即便发生交换，观察到的索引组合将不是预期索引对集合的成员。

本文提供导致测序用读段错误分配减少的索引化技术。与其中每份样品与单一条形或索引关联的技术相反，本发明的技术提供与每个个体样品唯一关联并且在样品制备期间引入的多个索引序列。在索引位点(或多个索引位点)引入多个索引序列，从而从样品制备的个体核酸片段具有至少一个索引序列，并且从而全部不同索引序列均存在于每份样品的核酸片段文库中。以这种方式，基于每份样品引入索引序列多样性。这种多样性可以改进已采集索引序列数据的准确度。特别地，在样品缺少核苷酸多样性时，从同时接受测序的两份或更多份样品采集代表数百(或数千)个核酸片段的图像数据的测序装置可能有确定碱基读出的困难，这转而可以产生难以解析的已采集图像数据。例如，某些测序技术评估图像信号强度的差异以做出碱基读出。对于每个索引位点仅具有单一索引序列的样品，核苷酸在索引序列的每个测序循环时如总样品数目那样多样，并且可能对低样品数轮次而言并非充分多样。因此，在一个实施方案中，本文提供的索引化技术通过索引多样性导致索引序列数据的采集改进并且允许准确测序，甚至对于低复杂度测序轮次也是如此。

为此目的，图1是根据本发明技术的样品的索引化核酸片段12的示意图。索引化核酸片段12代表适于测序轮次的片段。索引化核酸片段12包含来自样品的核酸(即，内源核酸)的插入物14。索引化核酸片段12还包含促进测序的引入的或外源的序列。这类序列可以包含一个或多个测序引物序列16、18，所述测序引物序列是插入物14的5’和3’并且允许通用测序引物与一条链或两条链结合。索引化核酸片段12还包含第一索引位点20和第二索引位点22。在所示的实施方案中，索引化核酸片段12还包含第一接头序列26和第二接头序列28。一个或多个接头序列26、28可以基于所需测序平台来选择，并且可以例如是如所示的P7和P5接头，所述接头促进索引化核酸片段12的流动池接合或测序用基质接合。

所示的索引化核酸片段12可以是双链片段，并且第一索引序列20可以位于插入物14的5’而第二索引序列22可以位于正向链中插入物14的3’，从而索引序列20、22位于插入物侧翼。第一索引序列20选自第一索引集合30，所述第一索引集合包含作为索引序列20a、20b、20c、20d显示的多个(例如，二个、三个、四个或更多个)索引序列。当存在时，第二索引序列22选自第二索引序列，其包含作为索引序列22a、22b、22c、22d所示的多个索引序列。

在索引集合(例如，索引集合30或索引集合32)内，个体索引序列(例如，索引序列20a、20b、20c、20d)彼此不同。即，如本文提供，它们彼此具有不同序列。另外，第一索引集合30中的索引序列还与第二索引集合32中的索引序列可区分。在某些实施方案中，索引序列20、22可以与一份或多份样品的内源核酸可区分。但是，在其他实施方案中，索引序列可以不必要与插入物14可区分。

索引序列可以是单链或双链的，并且可以具有至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基或更多碱基。在某些实施方案中，索引序列长5-8个碱基、5-10个碱基、5-15个碱基、5-25个碱基、8-10个碱基、8-12个碱基、8-15个碱基、或8-25个碱基等。另外，在某些实施方案中，索引序列(例如，索引序列20、22)在长度上不超过30个碱基、不超过25个碱基、不超过20个碱基、不超过15个碱基。应当理解，如本文提供的索引序列的长度可以指每个索引集合内部(和相对于其他索引集合)序列的唯一/可区分部分并且可以排除索引化核酸片段12中可充当测序引物和在来自样品的全部索引化核酸片段12之间共同的毗邻共有序列或通用序列。

尽管在双重索引化测序技术的背景下讨论所公开技术的某些实施方案，但应当理解，本文提供的技术也可以用于单一索引化测序的背景中。例如，核酸片段12可以掺入仅一个选自索引集合(例如，索引集合30)的索引序列(例如，索引序列20或22)。另外，取决于所需的测序技术，例如，在配对端测序或单向读取测序(single read sequencing)中，可以选择从双链核酸片段12的一条链或两条链对索引序列测序。

图2是来自样品并且包含索引化核酸片段12的测序文库40的示意图。如所示，文库40具有几个不同的索引组合布局。例如，某些片段12a可以用索引20a和索引22a组合索引化，而其他片段12b可以用索引20b和22a组合索引化。构思从样品制备文库40期间，使用包含每个索引集合(例如，第一索引集合30和第二索引集合32)中不同索引序列20、22的接头混合物以总体上随机的方式修饰插入物14，从而可以用第一索引集合30的个体索引序列20a、20b、20c或20d的任一者和第二索引集合32的个体索引序列22a、22b、22c或22d的任一者修饰任何给定的插入物14。图2显示文库中存在的第一索引序列20和第二索引序列22的一部分可能组合。另外，应当理解，可能有额外的组合，这取决于用于索引化的具体索引集合中索引序列的总数。还应当理解，对于特定样品，具有相应不同插入物14的多个索引化核酸片段12将具有索引序列20、22的相同的布局或组合。

图3是方法50的实施方案的流程图，所述方法用于制备图2的索引化文库40。在采集目的样品(步骤52)后，使样品中的核酸片段化(步骤54)。使片段化的核酸与索引集合的多个多样性索引序列接触。尤其，在文库制备伊始，一个或多个索引集合可以关联于或分配给特定样品。随后可以仅使用一个或多个分配给样品的索引集合，制备文库制备物(步骤56)。在具体的实施方案中，将分配给样品的多个索引序列，例如，第一索引集合30或第二索引集合32按集合中每个个体索引序列(例如，索引序列20、22)的相等浓度提供。即，如果索引集合30具有三个不同索引序列20a、20b、20c，则将它们彼此按1:1:1比率提供，并且在一个实施方案中，将其作为具有相等浓度(或0.9至1.1范围内彼此大致相等浓度)的每个索引序列20的混合物提供。

用接头修饰片段化的核酸，所述接头包含分配给样品的索引序列(步骤58)(例如，如图4中所示)。在其他实施方案中，可以在独立于添加接头的步骤中，将索引序列添加至片段化核酸。作为修饰的结果，生成索引化核酸片段。按基本上相等的浓度提供每个索引集合的个体索引序列可以促进每个个体索引序列在索引化核酸片段12内部相对相等的掺入。

图4是来自样品60的索引核酸片段12的文库的文库制备实施方案的示意图。但是，应当理解，所示方法为举例并且可以使用其他文库制备技术例如，标签化，制备如本文提供的索引化核酸12。在某些实施方案中，文库用来导出可以在测序反应中使用的单链模板分子。文库可以从其5′和3’末端处具有共同序列，但在一个或多个索引位点处及插入位点处具有多样性的核酸片段形成。如下文更详细解释，文库内部的核酸片段可以在(或临近)其5′和3’末端含有共同序列区域。在某些实施方案中，文库的核酸片段“分叉”，从而文库中每个个体模板5'末端处的共同序列不相同并且不与所述模板的3'末端处的共同序列完全互补。但是，在其他实施方案中，接头不分叉，例如完全互补。

使样品60片段化以产生具有突出末端的片段化核酸62，其中通过本领域技术人员已知的众多方法补平所述突出末端。在一种方法中，将片段化DNA的末端用T4 DNA聚合酶和Klenow聚合酶进行末端修复，并且随后用多核苷酸激酶使其磷酸化以产生磷酸化的片段化核酸64。随后使用Taq聚合酶，将单一‘A’脱氧核苷酸添加至DNA分子的两个3’末端，产生片段化核酸68的单碱基3′突出端，其与分叉接头的双链末端上的单碱基3′‘T’突出端互补。

随后使用合适的连接酶(例如T4 DNA连接酶)在片段化核酸68的分叉接头70和单碱基3′突出端之间实施连接反应，所述连接酶向每个DNA片段接合两拷贝的接头，两个末端之一处一个接头，以形成接头-靶构建体72。可以通过众多技术(包括大小排阻色谱)，优选地通过经琼脂糖凝胶板电泳法，随后切下含有尺寸大于接头尺寸的DNA的琼脂糖部分，从未连接的接头纯化这种反应的产物。

特别地，对于所述实施方案，文库制备中实施的分叉接头70在第一索引序列20和第二索引序列22包含多样性索引混合物。与其中与样品或插入核酸偶联的接头通常相同的其他技术相反，例如使用来自索引集合30和索引集合32的索引序列的混合物制备分叉接头70。因此，分叉接头70并非彼此都相同并且基于第一索引序列20和第二索引序列22处索引序列的具体组合，呈现多样性。但是，测序引物16、18和接头序列在分叉接头70之间共有或共同。可以扩增接头-靶构建体72以产生索引化核酸片段12，后者转而在测序之前可以变性以使双链结构分离成单链分子。

索引化核酸片段12的文库40可以从单一样品制备并且根据所需测序平台，与来自其他相应样品并按照相同方式制备的其他文库汇集。图5是具有专用或已分配的不同索引集合30、32的文库的示意图，其中所述文库可以被汇集并在测序后借助第一索引集合30a、30b、30c中存在的可区分索引序列和/或第二索引集合32a、32b、32c中存在的可区分索引序列区分。创建文库40a中使用的第一索引集合30a包含在其他文库40b、40c中不存在且不与其中存在的其他索引集合(30b、32b、30c、32c)重叠的迥异索引序列集合。还应当理解，第一索引集合30a还区别于相同文库40a中使用的第二索引集合32a并且不与之重叠。

图6是对来自不同样品(例如，图5的文库)的汇总文库测序并使用如本文提供的索引序列向正确样品分配测序用数据的方法80的流程图。在步骤82，使用至少一个包含多个索引序列的索引集合，从个体样品制备索引化个体样品片段(例如，索引化核酸片段12)。在步骤84，将索引化个体样品片段与来自使用不同(即，可区分于步骤82中提到的索引)索引集合制备的不同样品的其他索引化样品片段汇集，以生成合并的样品片段。可以在样品载于测序用基质上期间进行汇集或合并。在一个实施方案中，将合并的样品装入流动池的不同泳道。因为测序期间流动池的泳道彼此隔离，故在流动池的第一泳道内的样品中使用的索引集合可以用来使不同泳道中的其他样品索引化，只要相同泳道内部无样品使用相同的索引集合索引化即可。

在步骤86，采集代表对合并样品片段测序的测序用数据，并在步骤88，仅当测序用读段包含已分配索引集合的索引序列时，才使测序用读段与个体样品关联。在某些实施方案中，当索引化样品片段各自具有第一索引序列和第二索引序列时，基于规则的分配过程要求，第一索引序列和第二索引序列二者均应是针对给定样品已分配的索引集合的成员。仅在一个索引位点处不满足即足以导致从下游分析(例如，基因组组装)消除测序用读段，以消除具有索引跳跃的读段。在某些实施方案中，可以存储失效的测序用读段用于质量评估。即，某些潜在索引序列可能与更大的索引失效相关，并且可以追踪这些索引序列以重新设计。

图7是测序技术90的实施方案的示意图，其中所述测序技术用来采集如本文提供的测序用数据。如所示，将测序的核酸借助捕获探针94固定在基质92上，所述捕获探针互补于与来自索引化核酸片段12变性的模板链96联用的。第一测序用读段，读段1，是通过与靶向(即，互补于)测序引物序列16、18之一的读段1引物98接触所采集的插入物14的序列。例如，如果使用与p7(或其他5’)接头互补的捕获探针94捕获模板链96，则读段1引物98可以与测序引物序列18互补。

在移除读段1产物后，技术90还可以使用第一索引引物100，在该插入物的p7侧上采集索引序列20的第一索引读段，其中可以将所述第一索引引物靶向到测序引物16。在所述的实施方案中，第一索引读段位于与读段1相同的链上。尽管读段1读段可以长100-150个碱基，但索引读段可以相对较短，例如，为8-12个碱基，或只要与索引序列20、22的已知长度一样长即可。以这种方式，测序资源是保守的。为了在移除第一索引产物后，从相同链采集第二索引读段，可以使用借助捕获探针104在3’末端上捕获的模板链。例如，可以用靶向p5(或其他3’)接头或毗邻序列的一部分的第二索引读段引物106采集第二索引读段。但是，在其他实施方案中，可以从再合成的互补链采集第二索引读段。在移除第二索引读段产物后，合成与模板链96互补的链110并且移除原始模板链96。随后，使合成的链与读段2引物112接触，以获得作为读段1序列的反向互补物的读段2序列。构思了第一索引引物100、第二索引引物106、和读段1和读段2引物98、112通用于全部模板链96，无论模板样品起源和索引序列是什么。基于采集的第一索引读段和第二索引读段，读段1和读段2测序用数据可以与特定样品关联。

如本文提供，索引集合在索引读段为给定样品提供额外的多样性。向每份样品分配单一索引序列时，存在样品数目少时，并非全部核苷酸均将在索引读段的任何给定循环中得到表示的风险。当这样做时，测序轮次可能无法生成可用数据，因为强度校正算法和碱基读出算法在索引循环中并非如所设计那样工作，导致向样品分配读段失败。这个场景的最极端实例是单一样品测序，例如可以进行所述单一样品测序用于阳性样品追踪和/或从读段移除非索引化Phi X。这个问题的解决方案是用多个索引序列标记每份样品，从而对于初步分析流程，存在足够的核苷酸表示，以如所设计的那样工作。图8是具有核苷酸N₁、N₂等的索引集合(例如，索引集合30)的表示。可以选择索引集合，从而对于任何给定位置，核苷酸在序列索引集合内部具有多样性。例如，在位置120，核苷酸可以如此不同，从而遍及该索引集合表示A、C、T和G中三者或更多者。在描述索引集合30的具体实施方案的图9中，位置120处表示三个不同的核苷酸并且位置122处表示四个不同的核苷酸。因此，可以如此设计该索引集合，从而在每个核苷酸位置处，遍及该索引集合表示至少三个不同的核苷酸。在其他实施方案中，遍及该索引集合在索引序列至少半数核苷酸位置处表示四个不同的核苷酸。另外，在某些实施方案中，索引序列是内部多样的。即，个体索引序列的至少一部分毗邻核苷酸彼此不同。

另外，某些索引可能表现不如其他索引那样好，导致某些样品未充分表示，即便输入的样品的浓度相同也是如此。每份样品上安置多个索引序列的益处是，一个索引序列的不良性能的总体影响有限。在这项策略范围内，还可能将高性能索引序列和低性能索引序列一起归组，以进一步改进跨不同样品的表示的均匀度。

表1和表2是构成本发明技术的索引集合的索引集合(例如，索引集合30、32)和个体索引序列(例如，索引序列20、22)的实例。例如，构思每个个体组#下的索引序列(例如，索引序列20、22)为单一索引集合。即，组#0包含共同形成单一索引集合的四个不同索引序列F7-001、F7-002、F7-003和F7-004。即，组#1包含共同形成单一索引集合的额外四个不同索引序列F7-005、F7-006、F7-007和F7-008，并且诸如此类。

在下文显示的索引集合中，每个索引集合存在四个索引。但是，应当理解，索引集合的大小可以变动并且可以包括三个、四个或更多个可区分的个体索引序列。选择显示的索引集合，以确保在任何组内部，存在均衡的核苷酸表示。具体而言，在任何组内部，每个循环中倒数第二频繁的核苷酸必须存在于至少25％的索引序列中。

表1显示了可以是P7侧索引集合30的索引集合。但是，在某些实施方案中，表1中的序列可以在P5侧上作为索引集合32使用。

表1

表2显示了可以是P5侧索引集合32的索引集合。在某些实施方案中，索引集合被设计成与具有相同组编号的P7索引集合30联合用来为样品生成索引化核酸片段。例如，当一起使用时，某些配对的集合可能已经完成质量评估并且可能与低水平的索引跳跃或总体上均匀分布的扩增产率相关。在其他实施方案中，任何给定的P7侧(或5’侧)索引集合30可以与任何的另一个P5侧索引集合32使用。

图10是用于测序的样品制备试剂盒150的实例，所述样品制备试剂盒可以结合本发明的技术使用，即，用来从个体样品制备索引化核酸片段12，并且在某些实施方案中，用来对索引化核酸片段12测序。样品制备试剂盒150可以包含第一索引集合30和当使用时，第二索引集合32。在某些实施方案中，第一索引集合30和/或第二索引集合32可以按照接头核酸形式提供，所述接头核酸包含额外的元件，如引物序列、接头序列等。第一索引集合30和/或第二索引集合32可以在相应的个体容器内部按预混量提供，从而每个个体索引序列按照大约相等的浓度存在，并且，从而给定样品的索引多样性不易受用户错误影响。在接头是分叉双重索引化接头的实施方案中，索引集合30、32均可以存在于单一接头核酸中，所述单一接头核酸可以在单一容器中提供。样品制备试剂盒150还可以包含结合所需测序平台一起使用的适宜引物152。样品制备试剂盒150还可以包括一种或多种样品制备酶、缓冲液和/或试剂154。样品制备试剂盒150可以作为从单一样品制备文库的预包装试剂盒提供或，在某些实施方案中，可以作为具有多个不同索引集合30、32的多重样品试剂盒提供。

图11是可以结合所公开的实施方案一起使用的测序装置160的示意图，其中使用如本文提供的索引化技术，所述测序装置用于从分配给个体样品的索引化核酸(例如，测序用读段、读段1、读段2、索引读段、索引读段1、索引读段2、多重样品测序用数据)采集测序用数据。序列装置160可以根据任何测序技术来实施，如那些并入在美国专利公开号2007/0166705；2006/0188901；2006/0240439；2006/0281109；2005/0100900；美国专利号7,057,026；WO 05/065814；WO 06/064199；WO 07/010,251中描述的合成测序方法的测序技术，所述文献的公开内容通过引用方式完整并入本文。备选地，通过连接测序技术可以用于测序装置160中。这类技术利用DNA连接酶并入寡核苷酸并识别这类寡核苷酸的掺入，并且在美国专利号6,969,488；美国专利号6,172,218；和美国专利号6,306,597中描述；所述文献的公开内容通过引用方式完整并入本文。一些实施方案可以利用纳米孔测序法，因而靶核酸链或从靶核酸以核酸外切方式移除的核苷酸穿过纳米孔。随着靶核酸或核苷酸穿过纳米孔，可以通过测量孔的电导率波动，鉴定每个类型的碱基(美国专利号7,001,792；Soni和Meller,Clin.Chem.53,1996–2001(2007)；Healy,Nanomed.2,459–481(2007)；和Cockroft等人J.Am.Chem.Soc.130,818–820(2008)，所述文献的公开内容通过引用方式完整并入本文)。另外的其他实施方案包括检测核苷酸掺入延伸产物时释放的质子。例如，基于检测释放质子的测序法可以使用电检测器和从Ion Torrent(Guilford,CT，Life Technologies子公司)可商业获得的相关技术或在US 2009/0026082 A1；US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617 A1中描述的测序方法和系统，所述文献的每一篇通过引用方式完整地并入本文。具体实施方案可以利用涉及实时监测DNA聚合酶活性的方法。可以通过携带荧光团的聚合酶和标记γ-磷酸酯的核苷酸之间的荧光共振能量转移(FRET)相互作用或借助例如Levene等人Science 299,682–686(2003)；Lundquist等人Opt.Lett.33,1026–1028(2008)；Korlach等人Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)中所述的零模波导，检测核苷酸掺入，所述文献的公开内容通过引用方式完整并入本文。其他合适的备选技术例如包括荧光原位测序(FISSEQ)和大规模平行特征标识测序(MPSS)。在具体的实施方案中，测序装置160可以是来自Illumina(La Jolla,CA)的HiSeq、MiSeq或HiScanSQ。在其他实施方案中，可以将测序装置160设置成使用带纳米孔的CMOS传感器运行，所述传感器在光电二极管上制作，从而DNA沉积与每个光电二极管一对一对齐。

测序装置160可以是“单通道”检测装置，其中仅标记二至四个核苷酸并且其对于任何给定图像可检测。例如，胸腺嘧啶可以具有永久的荧光标记物，而腺嘌呤使用可脱离形式的相同荧光标记物。鸟嘌呤可以永久发暗，并且胞嘧啶可以起初发暗，但能够在循环期间加上标记物。因此，每个循环可以涉及初始图像和第二图像，其中将染料从任何腺嘌呤切下并添加至任何胞嘧啶，从而仅在初始图像中可检测胸腺嘧啶和腺嘌呤，而仅在第二图像中可检测胸腺嘧啶和胞嘧啶。贯穿两幅图像发暗的任何碱基是鸟嘌呤，且贯穿两幅图像可检测的任何碱基是胸腺嘧啶。在第一图像中可检测、但在第二图像中不可检测的碱基是腺嘌呤，并且在第一图像中不可检测、但在第二图像中可检测的碱基是胞嘧啶。通过合并来自初始图像和第二图像的信息，能够使用一个通道区分全部四种碱基。

在所述的实施方案中，测序装置160包括单独的样品处理装置162和连接的计算机164。但是，如指出那样，这些装置可以作为单一装置实施。另外，连接的计算机164可以是本地的或与样品处理装置162联网。在所述的实施方案中，可以将生物样品载入样品处理装置162中的样品基质170(例如，流动池或载玻片)上，其中对所述样品基质成像以生成序列数据。例如，与生物样品相互作用的试剂在特定波长响应于成像模块172生成的激发光束发射荧光并且因而返回辐射用于成像。例如，可以由荧光标记的核酸生成荧光组分，所述核酸与组分的互补性分子杂交或与使用聚合酶并入寡核苷酸中的荧光标记的核苷酸杂交。如本领域技术人员将领会，激发样品中染料的波长和它们发射荧光的波长将取决于具体染料的吸收和发射光谱。这种返回的辐射可以穿过导引光学器件反向传播。通常可以向成像模块172的检测光学器件导引这种反束(retrobeam)。

成像模块检测光学器件可以基于任何合适的技术，并且可以例如是基于装置中的光子碰撞位置生成像素化图像数据的电荷耦合器件(CCD)传感器。但是，应当理解，也可以使用任何多种其他检测器，包括但不限于设置为时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、盖革模式光子计数器或任何其他合适的检测器。TDI模式检测可以偶联于如美国专利号7,329,860中所述的行扫描，所述文献通过引用方式并入本文。例如在多种核酸测序方法的背景下本文先前提供的参考文献中描述了其他的可用检测器。

成像模块172可以受处理器控制，例如，经处理器174控制，并且样品接收装置162还可以包括I/O控制器176、内部总线78、非易失性存储器180、RAM 82和任何其他存储器结构，从而存储器能够储存可执行指令，和可以与相对于图11描述的那些类似的其他合适硬件组件。另外，相连的计算机164还可以包括处理器184、I/O控制器186、通讯模块84和包含RAM 188与非易失性存储器190的存储器架构，从而该存储器架构能够储存可执行指令192。硬件组件可以由内部总线194连接，所述内部总线还可以连接至显示器196。在其中测序装置160作为一体化装置实施的实施方案中，可以消除某些冗余硬件元件。

可以将处理器184编程，以基于相关的索引序列或根据本文提供的技术的序列，向样品分配个体测序用读段。在具体的实施方案中，基于通过成像模块172采集的图像数据，可以将测序装置160设置成生成测序用数据，所述测序用数据包含测序用读段的每个碱基的碱基读出。另外，基于图像数据，甚至对于串联进行的测序用读段，个体读段可以借助图像数据与相同位置联系并且因此与相同的模板链联系。以这种方式，在分配给源样品之前，索引测序用读段可以与插入物序列的测序用读段关联。也可以将处理器184编程，以在向样品分配测序用读段后对这样的序列执行下游分析，所述序列对应于特定样品的插入物。

图12是图形化用户界面屏幕200的实例，所述图形化用户界面屏幕可以由测序装置160针对用户输入与使用如本文提供的索引化核酸片段的测序反应有关的信息产生。例如，用户可以提供与测序轮次中每份样品的名称或识别、索引位点的数目和具体索引集合或用于每份样品的集合有关的输入。在一个实施方案中，索引集合是市售的并且用户界面屏幕200提供市售索引集合的下拉菜单。每个个体样品随后可以与选择的一个或多个市售索引集合关联。基于这种选择，测序装置160的处理器(例如，处理器184)访问存储的与来自存储器的选定索引集合相对应的索引序列信息并且使用已访问的索引序列信息向特定样品分配通过测序装置160采集的索引序列读段。一旦基于这个或多个索引序列读段分配给特定样品，则代表插入物并且与索引序列读段的成像位置关联的测序用读段被共分配给特定样品。

所公开实施方案的技术效果包括改进和更准确的核酸序列索引化。改进的索引化可以减少来自多路复用(例如，多重样品)的不正确分配的测序用读段，向临床医务人员提供更有意义的信息。另外，改进本发明技术相关的测序用读段分配的准确度促进了提供商业和时间节省的高通量测序策略。如本文提供的索引序列解决了引入测序用数据的影响测序覆盖计数的偏差。

尽管在此仅说明并描述了本公开的某些特征，但是本领域技术人员将想到许多修改和变化。因此，将理解，所附权利要求意在覆盖全部此类修改和变化，因为它们落入本公开的真实精神范围内。

Claims

1.一种对核酸分子测序的方法，包括：

提供从样品生成的多个双重索引化核酸片段，其中核酸片段的每个个体核酸片段包含5’接头序列、单一5’索引序列、3’接头序列和单一3’索引序列，其中，在双重索引化核酸片段中表示选自与样品唯一关联的第一5’索引序列集合中的多个不同5’索引序列和选自与样品唯一关联的第二3’索引序列集合中的多个不同3’索引序列并且其中多个不同5’索引序列和多个不同3’索引序列彼此可区分，其中所述多个双重索引化核酸片段包含两个不同索引序列的一种以上的组合并且其中所述多个双重索引化核酸片段中的两个或多个具有第一集合的5’索引序列和第二集合的3’索引序列的相同组合；

生成代表双重索引化核酸片段的序列的测序用数据，其中所述测序用数据包含来自平行获得的其他样品的序列；以及

仅当个体序列包含选自第一集合的5’索引序列和选自第二集合的3’索引序列二者时，才使序列的个体序列与样品关联而不与其他样品关联。

2.根据权利要求1所述的方法，其中

所述多个双重索引化核酸片段包含第一多个核酸片段和第二多个核酸片段，并且其中

(i)第一多个核酸片段包含这样的个体核酸片段，其相对于第一多个核酸片段内部的其他个体核酸片段，具有来自第一索引序列集合的两个不同索引序列的不同组合；和/或

(ii)第二多个核酸片段包含这样的个体核酸片段，其相对于第二多个核酸片段内部的其他个体核酸片段，具有来自第二索引序列集合的两个不同索引序列的不同组合。

3.根据权利要求1或权利要求2所述的方法，其中每个5’或3’索引序列在第一多个核酸片段中并相对于其他索引序列以0.9至1.1之间的比率存在，任选地其中每个5’或3’索引序列在第一多个核酸片段中以大约相等的比例存在。

4.根据权利要求1或权利要求2中任一项所述的方法，其中样品和其他样品是来自不同个体的核酸样品。

5.一种对核酸分子测序的方法，包括：

6.根据权利要求5所述的方法，包括使双重索引化核酸片段与包含固定化捕获分子的测序用基质接触，所述捕获分子设置成与核酸片段的5’接头序列和3’接头序列杂交。

7.根据权利要求5或权利要求6所述的方法，包括消除测序用数据中仅包含5’索引序列而不包含3’索引序列中之一的个体序列。

8.根据权利要求5或权利要求6所述的方法，包括提供来自第二样品的双重索引化核酸片段，其中用5’接头序列和3’接头序列修饰来自第二样品的双重索引化核酸片段并且其中在来自第二样品的双重索引化核酸片段中表示第二多个不同5’索引序列和第二多个不同3’索引序列并且其中第二多个不同5’索引序列和第二多个不同3’索引序列彼此可区分并且与多个不同5’索引序列和多个不同3’索引序列可区分。

9.根据权利要求8所述的方法，包括使来自样品和第二样品的双重索引化核酸片段与包含固定化捕获分子的测序用基质接触，所述捕获分子设置成与核酸片段的5’接头序列和3’接头序列杂交。

10.多重样品文库制备试剂盒，包含：

多个核酸片段，每个片段包含5’索引序列、3’索引序列和接头序列，其中多个核酸片段包含：

第一样品关联的核酸片段集合，所述集合包含这样的核酸片段，所述核酸片段具有选自与第一样品唯一关联的5’第一索引集合的5’索引序列和选自与第一样品唯一关联的3’第一索引集合的3’索引序列，并且其中第一样品关联的核酸片段集合包含5’索引序列和3’索引序列的一种以上的组合，以及其中第一样品关联的核酸片段集合中的两个或多个核酸片段具有5’第一索引集合的5’索引序列和3’第一索引集合的3’索引序列的相同组合；并且

第二样品关联的核酸集合，所述集合包含这样的核酸片段，所述核酸片段具有选自与第二样品唯一关联的5’第二索引集合的5’索引序列和选自与第二样品唯一关联的3’第二索引集合的3’索引序列，并且其中第二样品关联的核酸片段集合包含5’索引序列和3’索引序列的一种以上的组合以及其中第二样品关联的核酸片段集合中的两个或多个核酸片段具有5’第二索引集合的5’索引序列和3’第二索引集合的3’索引序列的相同组合；并且

其中第一5’和3’索引集合以及第二5’和3’索引集合各自包含彼此可区分的多个索引序列。

11.根据权利要求10所述的多重样品文库制备试剂盒，其中第一5’索引集合包含第一多个唯一索引序列，所述第一多个唯一索引序列包含：

CCATACTA；

TGTGCGCT；

CACATTGC；和

ATCCGGAG；

并且其中，在第一样品关联的核酸片段集合中表示第一多个唯一索引序列的每个索引序列。

12.根据权利要求11所述的多重样品文库制备试剂盒，其中第二5’索引集合包含第二多个唯一索引序列，所述第二多个唯一索引序列包含：

TCGCTCTA；

ATTGGAGG；

AACTAGAC；和

CGGACTAT；

并且其中，在第一样品关联的核酸片段集合中表示第二多个唯一索引序列的每个序列。

13.根据权利要求10至12中任一项所述的多重样品文库制备试剂盒，其中接头序列是p5接头序列和/或p7接头序列。

14.根据权利要求10至12中任一项所述的多重样品文库制备试剂盒，其中5’索引序列位于每个核酸片段上的接头序列和测序引物之间。

15.根据权利要求10至12中任一项所述的多重样品文库制备试剂盒，其中：

(i)5’索引序列或3’索引序列具有至少五个碱基长度并且包含第一多个唯一索引序列，所述第一多个唯一索引序列彼此不同，从而至少三个唯一个体索引序列在第一碱基具有不同碱基；

(ii)5’索引序列或3’索引序列具有至少五个碱基长度并且包含第一多个唯一索引序列，所述第一多个唯一索引序列彼此不同，从而在多个唯一索引序列的每个碱基位置处，多个唯一索引序列之间表示至少三个不同的核苷酸；和/或

(iii)5’索引序列或3’索引序列具有至少五个碱基长度并且包含第一多个唯一索引序列，所述第一多个唯一索引序列彼此不同，从而在多个唯一索引序列的大部分碱基位置处，多个唯一索引序列之间表示至少三个不同的核苷酸。

16.测序用基质，包含：

在基质上固定的多个核酸捕获序列，其中每个个体核酸捕获序列包含：

与第一接头序列互补的第一捕获序列或与第二接头序列互补的第二捕获序列；和

与多个核酸捕获序列的相应核酸捕获序列偶联的多个核酸片段，其中多个核酸片段的每个个体片段包含第一接头序列和第二接头序列并且其中多个核酸片段的每个个体片段包含与第一唯一索引序列集合的一个5’索引序列互补的第一序列和与第二唯一索引序列集合的一个3’索引序列互补的第二序列并且其中第一唯一索引序列集合和第二唯一索引序列集合仅与多个核酸片段所来源的一份样品关联并且其中第一集合和第二集合的每个唯一索引序列存在于多个核酸片段的至少一个核酸片段中，其中所述多个核酸片段包含第一集合的5’索引序列和第二集合的3’索引序列的一种以上的组合，并且其中所述多个核酸片段中的两个或多个具有第一集合的5’索引序列和第二集合的3’索引序列的相同组合。

17.根据权利要求16所述的测序用基质，其中：

(i)多个核酸捕获序列是单链的；

(ii)第一集合的每个唯一5’索引序列在多个核酸片段中相对于第一集合的任何另一个唯一索引序列以约0.9至约1.1的比率存在；和/或

(iii)每个唯一索引序列具有至少六个碱基长度。

18.根据权利要求16或权利要求17所述的测序用基质，包含来自相应的多个附加样品中的附加多个核酸片段，并且其中来自附加样品的每个个体样品中的附加多个核酸片段不包含与第一唯一索引序列集合和第二唯一索引序列集合互补的序列。

19.一种对核酸分子测序的方法，包括：

提供从样品生成的多个双重索引化核酸片段，其中双重索引化核酸片段的每个个体核酸片段包含来自所述样品的目的序列、5’接头序列、单一5’索引序列、3’接头序列和单一3’索引序列，以生成双重索引化核酸片段，其中，在双重索引化核酸片段中表示选自与样品唯一关联的第一5’索引序列集合中的多个不同5’索引序列和选自与样品唯一关联的第二3’索引序列集合中的多个不同3’索引序列并且其中多个不同5’索引序列和多个不同3’索引序列彼此可区分，其中所述多个双重索引化核酸片段包含第一集合的5’索引序列和第二集合的3’索引序列的一种以上的组合并且其中多个双重索引化核酸片段中的两个或多个具有第一集合的5'索引序列和第二集合的3'索引序列的相同组合；

生成代表目的序列的测序用数据；

生成代表5’索引序列和3’索引序列的测序用数据；并且

仅当个体目的序列与选自第一集合的5’索引序列和选自第二集合的3’索引序列均关联时，才将个体目的序列分配给样品。

20.根据权利要求19所述的方法，其中基于代表5’索引序列和3’索引序列的测序用数据与代表目的序列的测序用数据共定位，个体目的序列与选自第一集合的5’索引序列和选自第二集合的3’索引序列均关联。

21.根据权利要求19所述的方法，包括基于与个体目的序列互补性，将另一个个体目的序列的序列数据分配给样品。

22.根据权利要求19至21中任一项所述的方法，其中从双重索引核酸片段的相同单条链生成代表5’索引序列和3’索引序列的测序用数据连同代表目的序列的测序用数据。

23.根据权利要求19至21中任一项所述的方法，其中从双重索引核酸片段的不同单条链生成代表5’索引序列和3’索引序列的测序用数据。

24.将代表目的序列的测序用数据分配给样品的计算机实施方法，包括：

提供代表目的序列的测序用数据和提供代表5’索引序列和3’索引序列的测序用数据，其中从多个双重索引化核酸片段测序获得所述测序用数据，多个双重索引化核酸片段从样品生成，其中双重索引化核酸片段的每个个体核酸片段包含来自所述样品的目的序列、5’接头序列、单一5’索引序列、3’接头序列和单一3’索引序列，以生成双重索引化核酸片段，其中，在双重索引化核酸片段中表示选自与样品唯一关联的第一5’索引序列集合中的多个不同5’索引序列和选自与样品唯一关联的第二3’索引序列集合中的多个不同3’索引序列并且其中多个不同5’索引序列和多个不同3’索引序列彼此可区分，其中所述多个双重索引化核酸片段包含两个不同索引序列的一种以上的组合并且其中所述多个双重索引化核酸片段中的两个或多个具有第一集合的5’索引序列和第二集合的3’索引序列的相同组合；并且

处理所述测序用数据，以仅在个体目的序列与选自第一集合的5’索引序列和选自第二集合的3’索引序列均关联时，才将个体目的序列分配给样品。

25.根据权利要求24所述的方法，其中基于代表5’索引序列和3’索引序列的测序用数据与代表目的序列的测序用数据共定位，个体目的序列与选自第一集合的5’索引序列和选自第二集合的3’索引序列均关联。