CN109563506A

CN109563506A - 使用随机捕获探针文库的化学计量核酸纯化

Info

Publication number: CN109563506A
Application number: CN201780035832.9A
Authority: CN
Inventors: 大卫·张; 亚历山德罗·平托
Original assignee: William Marsh Rice University
Current assignee: William Marsh Rice University
Priority date: 2016-05-06
Filing date: 2017-05-05
Publication date: 2019-04-02
Also published as: US11414686B2; US20190284596A1; WO2017193025A1

Abstract

本公开内容描述了以确保靶标之间大致化学计量相等的方式从相应的合成截短产物中纯化多种全长寡核苷酸靶标的方法。

Description

使用随机捕获探针文库的化学计量核酸纯化

本申请要求2016年5月6日提交的美国临时专利申请No 62/332,778的权益，其全部内容通过引用并入本文。

背景技术

用于编写(基因合成)、编辑(CRISPR/CAS)和阅读(下一代测序-GNS)大量核酸的技术需要使用庞大(＞1000)数目的寡核苷酸作为构建块(编写)、指导(编辑)或用于进行高度多重富集和测序(阅读)的杂交探针和引物。单独合成、纯化和定量每种寡核苷酸是不经济的。诸如Agilent、NimbleGen和Twist Biosciences的公司已开发出基于阵列的合成平台，以实现高度多重DNA寡核苷酸合成，但通过这些平台合成的寡核苷酸包括截短产物。因为现代寡核苷酸合成从3′至5′进行，所以大多数杂质种类(species)是缺少5′末端的若干核苷酸的截短寡核苷酸产物，其次是具有一个或更多个内部缺失的种类。在单重(single-plex)合成中，这些杂质产物的这些部分可以通过合成后高压液相色谱法(HPLC)或聚丙烯酰胺凝胶电泳(PAGE)纯化来降低，但HPLC和PAGE不能用于纯化许多不同寡核苷酸的库。此外，HPLC和PAGE是耗费时间和劳动力的，并且不能容易地自动化至高通量。另外，即使寡核苷酸的单重HPLC和PAGE纯化也仅产生低于90％纯度的全长寡核苷酸产物。

基于寡核苷酸长度、寡核苷酸序列和合成试剂的老化和纯度，阵列合成库中不同寡核苷酸的浓度将显著变化。因此，相同量的初始合成试剂的寡核苷酸合成产率可变化超过16倍。寡核苷酸浓度的变化可不利地影响下游应用，例如，长合成基因的产生。在NGS中，用于杂交捕获富集的寡核苷酸库中的浓度变化导致测序偏差，其造成显著浪费的NGS读数。

发明内容

根据本发明的公开内容，提供了用于产生包含靶寡核苷酸分子的一组前体核苷酸序列的方法，其中所述前体核苷酸序列包含含有所述靶寡核苷酸分子的核苷酸序列的第五区域以及第四区域和第三区域，其中所述第四区域和所述第三区域中的至少一个与所述靶寡核苷酸内的任何子序列不同，所述方法包括：

(i)对于所述前体核苷酸序列计算所述前体核苷酸序列与(a)第一寡核苷酸之间的标准杂交自由能，所述第一寡核苷酸包含与所述前体核苷酸序列的所述第三区域互补的第二区域和(b)与所述前体核苷酸序列的所述第四区域互补的第一区域；

(ii)以所述前体核苷酸序列与所述第一寡核苷酸之间的标准杂交自由能以及所述第一寡核苷酸与所述靶核苷酸之间的标准杂交自由能计算捕获反应的标准自由能；

(iii)如果所述捕获反应的标准自由能不符合某一标准，则排除所述前体核苷酸序列；以及

(iv)重复步骤(i)至(iii)，直至一组前体核苷酸序列符合所述标准；以及

(v)产生该组前体核苷酸序列。

所述标准可以是负自由能；

在另一个实施方案中，提供了用于产生包含多个条形码序列的一组前体核苷酸序列的方法，其包括：

(i)产生包含每种靶寡核苷酸分子的一组前体核苷酸序列，其中每个前体核苷酸序列包含在所有前体核苷酸序列中保守的第三区域，对于每种靶寡核苷酸分子独特的第四区域，和包含靶寡核苷酸分子的核苷酸序列的第五区域；

(ii)对于每个前体核苷酸序列计算所述前体核苷酸序列与(a)第一寡核苷酸之间的标准杂交自由能，所述第一寡核苷酸包含与所述前体核苷酸序列的所述第三区域互补的第二区域和(b)与所述前体核苷酸序列的所述第四区域互补的第一区域；

(iii)对于每个前体核苷酸序列计算折叠的标准杂交自由能；

(iv)以所述前体核苷酸序列与所述第一寡核苷酸之间的标准杂交自由能以及所述第一寡核苷酸的标准折叠自由能以及所述前体寡核苷酸的标准折叠自由能计算捕获反应的标准自由能；

(v)如果任何前体核苷酸序列的捕获反应的标准自由能超过某一标准，则排除该组前体核苷酸序列；

(vi)重复步骤(i)至(v)直至一组前体核苷酸序列符合标准；以及

(vii)产生该组前体核苷酸序列。

所述标准可以选自标准捕获自由能的最大范围、标准捕获自由能的标准偏差、和排序列表中的两个等级(rank)之间的差异。所述标准可以是该组前体核苷酸序列的最低标准捕获自由能与最高标准捕获自由能之间的最大范围不大于5kcal/mol。所述最大范围可以不大于2kcal/mol。

在又一个实施方案中，提供了用于从包含一个或多个前体分子种类的样品中纯化一种或多种靶核酸分子的方法，其中每个前体分子种类包含含有靶核酸分子序列的第五区域；含有在所述多个前体分子种类中对于所述前体分子种类独特的序列的第四区域，其定义为长度为n的条形码序列，其中2n大于或等于独特的靶核酸分子序列的数目；在所有前体序列中保守的第三区域，所述方法包括：

在有利于杂交的温度和缓冲条件下使所述样品与捕获探针文库接触；

其中所述捕获探针文库包含多个捕获探针种类，其中每个捕获探针种类包含第一寡核苷酸，所述第一寡核苷酸包含含有长度为n个核苷酸的核苷酸序列的第一区域和在所有捕获探针种类中保守的第二区域，其中所述长度为n个核苷酸的核苷酸序列中的每个核苷酸选自两种或更多种核苷酸，并且所述第一区域对于每个捕获探针是独特的，并且其中所述第二区域与所述第三区域互补，并且其中每个前体分子种类的所述第四区域与一前体分子种类的所述第一区域互补；

将与所述多个捕获探针种类杂交的多个前体分子种类与未与所述多个捕获探针种类杂交的前体分子种类分离；

用切割剂处理与所述多个捕获探针种类杂交的所述多个前体分子种类，所述切割剂足以在将所述第五区域与所述第三和第四区域的至少一部分分离的位点处位点特异性地切割所述多个前体分子种类；

从所述多个捕获探针种类以及所述第三和第四区域的至少一部分中回收所述第五区域；以及

从而产生纯化的靶核酸分子。

每个捕获探针种类可还包含含有第九区域的第二寡核苷酸，其中所述第九区域与所述第二区域互补。每个第一寡核苷酸可还包含第七区域，每个第二寡核苷酸可还包含第八区域，并且其中所述第七区域与所述第八区域互补。每个第一寡核苷酸可还包含化学部分，并且其中分离与所述多个捕获探针种类杂交的所述多个前体分子种类包括所述化学部分的表面捕获。所述化学部分可选自生物素、硫醇、叠氮化物、炔烃、伯胺和脂质。与所述前体寡核苷酸杂交的所述第一核苷酸可以是介导复合物的表面捕获之抗体或其他受体的优选配体。

从所述多个捕获探针种类以及所述第三和第四区域的所述至少一部分中回收所述第五区域可包括选自加热、引入变性剂、用低盐度缓冲液洗涤和引入核酸酶的处理。所述位点特异性切割可包括选自以下的处理：改变温度、改变pH、以及在特定波长下照射与所述多个捕获探针种类杂交的所述多个前体分子种类。每个第一寡核苷酸与和所述第一寡核苷酸的完整序列互补的DNA序列之间的标准结合自由能可以在彼此的5kcal/mol之内。所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸可以是A或T，或者可以是G或C。所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸对于所述核苷酸序列中的一个或更多个核苷酸可以是G或C，并且对于所述核苷酸序列中的再一个核苷酸可以是A或T。所述第一区域可包含3至25个核苷酸。n可以为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的数目。所述第一区域除了所述长度为n个核苷酸的核苷酸序列外还可包含至少一个核苷酸。所述第二区域可还包含8至200个核苷酸。

基于包括以下的方法分配每个前体分子种类的条形码序列：

产生包含每种靶寡核苷酸分子的一组前体核苷酸序列，其中每个前体核苷酸序列包含在所有前体核苷酸序列中保守的第三区域，对于每种靶寡核苷酸分子独特的第四区域，和包含所述靶寡核苷酸分子的核苷酸序列的第五区域；

对于每个前体核苷酸序列计算所述前体核苷酸序列与第一寡核苷酸之间的标准杂交自由能，所述第一寡核苷酸包含与所述前体寡核苷酸序列的所述第三区域互补的第二区域和与所述前体寡核苷酸序列的所述第四区域互补的第一区域；

对于每个前体核苷酸序列计算折叠的标准杂交自由能；

以所述前体核苷酸序列与所述第一寡核苷酸之间的标准杂交自由能以及所述第一寡核苷酸的标准折叠自由能以及所述前体寡核苷酸的标准折叠自由能计算捕获反应的标准自由能；

如果任何前体核苷酸序列的捕获反应的标准自由能超过某一标准，则排除该组前体核苷酸序列；以及

重复所述方法直至一组前体核苷酸序列符合标准。

在又一个实施方案中，提供了捕获探针文库，其包含：

多个寡核苷酸，其包含第一多个寡核苷酸，其中所述第一多个寡核苷酸中的每个寡核苷酸包含：

第一区域，其包含含有至少3个可变位置的第一核苷酸序列，其中每个可变位置包含选自至少两种可能核苷酸的核苷酸，

其中所述含有至少3个可变位置的第一核苷酸序列对于每个寡核苷酸是独特的，和

包含第二核苷酸序列的第二区域，其中所述第二区域的所述第二核苷酸序列在所述第一多个寡核苷酸中的每个寡核苷酸中是保守的。

捕获探针文库，其包含：

多个寡核苷酸，其包含第一多个寡核苷酸和第二多个寡核苷酸，其中所述第一多个寡核苷酸种类中的每个寡核苷酸包含：

第一区域，其包含含有至少3个可变位置的核苷酸序列，其中每个可变位置包含选自至少两种可能核苷酸的核苷酸，

其中所述含有至少3个可变位置的核苷酸序列对于每个寡核苷酸种类是独特的，和

包含核苷酸序列的第二区域，其中所述第二区域的核苷酸序列在所述第一多个寡核苷酸中的每个寡核苷酸中是保守的，

其中所述第二多个寡核苷酸中的每个寡核苷酸包含第三区域，其中所述第三区域与所述第二区域互补。

所述第一多个寡核苷酸中每个寡核苷酸与和所述第一多个寡核苷酸中相应寡核苷酸的完整序列互补的DNA序列之间的标准结合自由能可以在彼此的5kcal/mol之内。每个核苷酸处的至少两种可能的核苷酸可以是A或T，或可以是G或C。

每个核苷酸处的至少两种可能的核苷酸对于所述核苷酸序列中的一个或更多个核苷酸可以是G或C，并且对于所述核苷酸序列中的再一个核苷酸可以是A或T。第二寡核苷酸的浓度可大于所述第一多个寡核苷酸中每个寡核苷酸的浓度之和。所述第一区域可包含3至25个核苷酸。所述第一区域中的可变位置的数目可以为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的总数目。所述第一区域除了所述至少3个可变位置外可还包含至少一个核苷酸。所述第二区域可包含8至200个核苷酸。所述至少三个可变区域可以是连续的或非连续的。

另一个实施方案包括用于多重捕获一组期望的前体核酸分子的寡核苷酸文库，其包含：

多个前体分子种类，其中每个前体分子种类包含：

包含在所有前体分子种类中保守的核苷酸序列的第三区域，

包含含有3至60个核苷酸的条形码序列的第四区域，

包含靶核酸分子序列的第五区域，其对于所述多个前体分子种类中的所述前体分子种类是独特的，

其中每个前体分子种类的所述条形码序列是不同的，并且其中2n大于或等于独特的靶核酸分子序列的数目；以及

捕获探针文库，其包含多个捕获探针种类，其中每个捕获探针种类包含寡核苷酸，所述寡核苷酸包含含有长度为n个核苷酸的核苷酸序列的第一区域，在所有捕获探针种类中保守的第二区域，其中所述长度为n个核苷酸的核苷酸序列中的每个核苷酸选自两种或更多种核苷酸，并且所述第一区域对于每个捕获探针是独特的，并且其中所述第二区域与所述第三区域互补，并且其中每个前体分子种类的所述第四区域与一前体分子种类的所述第一区域互补。

所述多个捕获探针种类中每个第一寡核苷酸种类与和相应第一寡核苷酸种类的完整序列互补的DNA序列之间的标准结合自由能可以在彼此的5kcal/mol之内。所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸可以是A或T，或可以是G或C。所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸对于所述核苷酸序列中的一个或更多个核苷酸可以是G或C，并且对于所述核苷酸序列中的再一个核苷酸可以是A或T。第二寡核苷酸的浓度可大于每个第一寡核苷酸种类的浓度之和。所述第一区域可包含3至25个核苷酸。n可以为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的数目。所述第一区域除了所述长度为n个核苷酸的核苷酸序列外可还包含至少一个核苷酸。所述第二区域可包含8至200个核苷酸。每个前体分子种类的所述条形码序列基于如上所述的方法选择。至少一个前体分子种类是化学合成的或酶促产生的。用于产生所述至少一个前体分子种类的酶可以是连接酶或聚合酶。

在另一个实施方案中，提供了用于从包含多个前体分子的样品中纯化多种靶核酸分子的方法，其中所述方法包括以下步骤：

提供多个核酸探针，其中每个探针具有与所述前体分子之一的区域互补的序列和足以允许分离所述探针的第一部分；

在足以促进每个核酸探针与和所述序列互补的所述前体分子区域杂交的条件下向包含所述多个前体分子的样品添加所述多个核酸探针，从而形成多个探针-前体复合物，其中每个前体分子包含不同的靶核酸分子，并且其中每个前体分子的所述区域不包含所述靶核酸分子；以及

利用与所述第一部分的相互作用分离所述多个探针-前体复合物，从而从所述多个探针-前体中分离所述靶核酸分子。

另一个实施方案提供了用于产生多个不同靶寡核苷酸的方法，所述靶寡核苷酸各自具有特定序列，所述方法包括：

(1)合成每个不同靶寡核苷酸的前体寡核苷酸，其中所述前体包含第三序列、第四序列和第五序列，其中所述第三序列对于所有前体是相同的，所述第四序列包含条形码并且对于所有前体是不同的，并且所述第五序列对应于所述靶序列，

(2)合成包含第一序列和第二序列的不同寡核苷酸的捕获探针文库，其中所述第一序列包含简并的随机核苷酸，并且其中至少一个第一序列与每个第四序列互补，并且所述第二序列与所述第三序列互补，

(3)将所述前体和所述捕获探针文库在水性杂交缓冲液中混合，

(4)移出未与所述捕获探针结合的前体分子，

(5)从剩余的所述前体分子中酶促或化学切割所述第五序列，以及

(6)移出所述捕获探针文库和剩余的所述前体分子。

所述第一序列可包含在某些位置的S简并核苷酸和/或在某些位置的W简并核苷酸，但可不包含在任何位置的N简并核苷酸，以使得所述第一序列的任何简并变体与一个或更多个第四序列互补，其中S是强碱基，W是弱碱基，并且N是任何碱基。可用允许与配体迅速结合的部分对捕获探针进行官能化，例如选自生物素、硫醇、叠氮化物或炔烃的部分。在步骤(4)中，消除未与捕获探针结合的前体分子可包括添加特异性结合所述捕获探针的颗粒，然后移出上清液。所述颗粒可选自链霉抗生物素蛋白包被的磁珠或链霉抗生物素蛋白包被的琼脂糖珠。所述前体可还包含脱氧尿嘧啶核苷酸或RNA核苷酸，并且所述第五序列的切割包括引入尿嘧啶DNA糖基化酶或RNA酶。所述前体可还包含光不稳定或热不稳定部分，并且所述第五序列的切割包括将所述溶液暴露于适当波长的光或加热至适当温度。所述第四序列可还包含在某些位置的“S”简并核苷酸和/或在某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。所述第一序列的长度可为5至50个核苷酸，并且其中简并核苷酸的数目为1至30、1至20、1至10、2至8、2至6、或3至5。所述第二序列的长度可为5至50个核苷酸，和/或其中每个靶寡核苷酸的长度为5至500个核苷酸。

在另一个实施方案中，提供了包含第一序列和第二序列的寡核苷酸捕获探针文库，其中所述第一序列包含简并的随机核苷酸，其包含在一个或更多个位置的“S”简并核苷酸和/或在一个或更多个位置的“W”简并核苷酸，但是不包含在任何位置的“N”简并核苷酸，并且其中所述第一序列的长度为5至50个核苷酸，简并核苷酸的数目为1至30，并且所述第二序列的长度为5至50个核苷酸。所述第二序列可包含在某些位置的“S”简并核苷酸和/或在某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。可用用于迅速结合的化学部分对所述寡核苷酸捕获探针文库进行官能化，所述化学部分选自生物素、硫醇、叠氮化物或炔烃。一个或更多个所述寡核苷酸捕获探针可还包含脱氧尿嘧啶核苷酸或RNA核苷酸。一个或更多个所述寡核苷酸捕获探针可还包含光不稳定或热不稳定部分。所述第一序列的长度可以为5至50个核苷酸，并且其中简并核苷酸的数目可以为1至30。所述第二序列的长度可以为5至50个核苷酸。所述文库可具有至少8个、至少32个或至少256个成员。所述文库可具有8至32个成员、8至256个成员、32至256个成员、8至1024个成员、32至1024个成员、或256至1024个成员。所述文库可存在于一种或更多种基底上。

在另一个实施方案中，提供了水溶液，其包含寡核苷酸捕获探针文库、多个前体寡核苷酸和一组前体寡核苷酸，其中：

所述捕获探针文库包含第一序列和第二序列，其中所述第一序列包含简并的随机核苷酸，其包含在某些位置的“S”简并核苷酸和/或在某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸，并且其中所述第一序列的长度为5至50个核苷酸，简并核苷酸的数目为1至30，并且所述第二序列的长度为5至50个核苷酸，

所述多个前体寡核苷酸中的每一个包含第三序列、第四序列和第五序列，其中所述第三序列对于所有前体是相同的，所述第四序列包含条形码并且对于所有前体是不同的，所述第二序列与第三序列互补，并且所述第一序列的至少一个实例与每个第四序列互补。

所述寡核苷酸捕获探针文库的所述第二序列可包含某些位置的“S”简并核苷酸和/或某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。可用用于迅速结合的化学部分对所述寡核苷酸捕获探针文库进行官能化，所述化学部分选自生物素、硫醇、叠氮化物或炔烃。一个或更多个所述寡核苷酸捕获探针可还包含脱氧尿嘧啶核苷酸或RNA核苷酸。一个或更多个所述寡核苷酸捕获探针可还包含光不稳定或热不稳定部分。所述寡核苷酸捕获探针文库的所述第一序列的长度可以为5至50个核苷酸，并且简并核苷酸的数目可以为1至30。所述寡核苷酸捕获探针文库的所述第二序列的长度可以为5至50个核苷酸。所述寡核苷酸捕获探针文库可具有至少8个、至少32个或至少256个成员。所述寡核苷酸捕获探针文库可具有8至32个成员、8至256个成员、32至256个成员、8至1024个成员、32至1024个成员、或256至1024个成员。所述寡核苷酸捕获探针文库可存在于一种或更多种基底上。所述前体可还包含脱氧尿嘧啶核苷酸或RNA核苷酸，并且所述第五序列的切割包括引入尿嘧啶DNA糖基化酶或RNA酶。

当在权利要求和/或说明书中与术语“包括/包含”结合使用时，未用数量词限定的名词可表示“一个/种”，但它也与“一个或更多个/种”、“至少一个/种”或“一个/种或多于一个/种”的含义一致。词语“约”表示指示的数字加或减5％。

预期本文所述的任何方法或组合物可相对于本文所述的任何其他方法或组合物实施。根据以下详细描述，本公开内容的其他目的、特征和优点将变得明显。然而，应该理解，详细描述和具体实施例虽然表明了本发明的具体实施方案，但是仅以举例说明的方式给出，因为通过该详细描述，在本公开内容的精神和范围内的各种变化和修改对于本领域技术人员将变得明显。

附图说明

以下附图构成本说明书的一部分，并且被包括在内以进一步说明本公开内容的某些方面。通过参考这些附图中的一个或更多个并结合本文给出的具体实施方案的详细描述，可以更好地理解本公开内容。

图1：化学计量核酸纯化(Stoichiometric Nucleic Acid Purification，SNAP)的一个实施方案的示意图。含有两种寡核苷酸靶标前体的样品混合物还含有许多不期望的截短合成产物。通过本公开内容中描述的方法的过程，以大致相等的化学计量产生全长靶寡核苷酸。

图2：捕获探针文库和相应的靶序列组的示意图。在靶标文库中，区域3是保守的，而区域4和5对于每个靶序列是不同的。类似地，在捕获探针文库中，区域2是保守的，而区域1包含可变位置，其中每个可变位置可能存在两种或更多种核苷。(SEQ ID NO：404-409)

图3：多重寡核苷酸纯化工作流程。该过程由6个连续步骤组成。在步骤3中，固体相由能够在步骤4和6中进行相分离的官能化磁珠组成。取决于用户是否希望具有或不具有通用区域3和条形码区域4的靶序列，在步骤5中可以在纯化后使用加热/NaOH变性或限制酶切割，以将最终产物与文库和磁珠分离。

图4：使用酶从靶序列中除去区域3和4。可以从用于纯化的5′区域3和4酶促切割期望区域5，用于不希望这种序列的应用。位点特异性切割可以通过使用以下实施：(a)单独的或在被商业上称为USER的含DNA糖基化酶-裂解酶核酸内切酶VIII的制剂中的尿嘧啶DNA糖基化酶，(b)RNA酶，(c)FokI核酸内切酶，或本领域普通技术人员已知的其他方法。区域3和4的序列或化学组成可被调整以适合于预期的酶促切割过程。(SEQ ID NO：410-417和251)

图5：对于相同靶序列使用多个条形码增加了其在最终纯化混合物中的浓度。条形码区域4内的简并核苷酸(即，S＝G或C且W＝A或T)有助于通过避免单个合成许多前体寡核苷酸来实现任意期望的化学计量比的靶标。(SEQ ID NO：418-421)

图6：使用荧光标记的寡核苷酸的概念证明结果，通过荧光聚丙烯酰胺凝胶电泳测定。将160pmol的包含64种不同区域1序列的在3′末端生物素化的捕获探针文库与各自10pmol的64种合成的未纯化前体寡核苷酸一起孵育。每种前体寡核苷酸具有唯一分配的区域4，其与捕获探针种类上的区域1的一个且仅一个实例互补。泳道1显示前体1的长度分布，泳道2显示经历SNAP之后，但未切割区域3和4的前体1的长度分布。泳道3显示切割区域3和4之后的SNAP产物。泳道4显示作为比较的相应商业提供的PAGE纯化的寡核苷酸的长度分布。泳道5-10显示，无论3种前体的初始化学计量比如何，SNAP产物的最终化学计量接近1∶1∶1。用于该系列实验的SNAP方案如下：允许捕获探针文库和前体在0.5M NaCl pH 7.5中于60℃下杂交2小时。随后，将3mg链霉抗生物素蛋白包被的磁珠(用相同的孵育缓冲液预洗涤)添加到寡核苷酸混合物至终体积为100μL，并在60℃下孵育30分钟，样品通过摇动器摇动。然后弃去上清液，将磁珠在孵育缓冲液中洗涤两次，在用于随后的酶促切割的缓冲液中洗涤一次。对于泳道2，将全长前体用50％v/v甲酰胺在95℃下洗脱5至15分钟。对于泳道3，将珠重悬于USER缓冲液中，添加2个酶单位的USER酶混合物，使最终体积为25μL；然后将该混合物在37℃下孵育1小时。最后提取含有期望的纯化靶标的上清液。

图7A-B。多重SNAP的纯度和化学计量的表征。将64种不同前体(各10pmol)通过SNAP同时纯化。(图7A)使用下一代测序表征64种寡核苷酸的纯度，其中纯度在操作上定义为完全对齐(perfectly aligned)的读数的数目除以通过Bowtie 2对齐的读数的数目。SNAP产物的纯度显著高于单独PAGE纯化的寡核苷酸的纯度(中位数79％对比于61％)。(图7B)使用数字微滴式PCR评估64种SNAP产物寡核苷酸的化学计量。

图8：纯化的256重SNAP(每种前体2.5pmol)的纯度的表征。

图9A-D：捕获探针文库设计中的四种可能的变化。

图10：图9B中所示的双链捕获探针制品的实验结果。使用640pmol在5′末端生物素化的捕获探针、1280pmol保护链和40pmol的一种未纯化前体进行SNAP。注意，与图6不同，仅引入了单个前体种类，因此捕获探针未被前体饱和。SNAP方案在其他方面类似于图6的说明。泳道1对应于未纯化的前体，泳道2对应于PAGE纯化的靶寡核苷酸，泳道3对应于未切割区域3和4的SNAP产物，泳道4对应于最终的SNAP产物。泳道5-10显示，无论3种前体的初始化学计量比如何，SNAP产物的最终化学计量接近1∶1∶1。

图11：从包含区域3和4的合成DNA模板产生的RNA转录物的纯化。

图12两种不同的随机序列的ΔG^o _rxn的累积分布，每种产生64个实例。使用SWSWSW文库(侧翼5′端为CA，3′端为C)产生0.8kcal/mol窗口的紧密热力学范围。相反，使用TGANNN文库导致超过4kcal/mol的扩散。

图13A-C：用于设计探针文库和分配条形码(区域4)的算法。

图14：通过NGS表征寡核苷酸文库纯度的工作流程。寡核苷酸在3′末端具有通用区域，其用于对齐和酶促延伸用作引物的一个短序列。在新形成的双链文库的5′末端磷酸化后，酶促连接含有测序引物的衔接子。最后，将所得文库扩增3个PCR循环，以引入P7和P5序列，其用于簇生成并用Illumina仪器进行随后的测序。

图15：通过数字微滴式PCR(ddPCR)表征寡核苷酸文库中化学计量的工作流程。文库的寡核苷酸在3′末端具有共同区域，以用于用添加的反向引物引发，以及主混合物含有用于ddPCR反应的酶和EvaGreen染料。将反应混合物以64个相等的等分试样分配，每个等分试样接收用于文库中的一种寡核苷酸序列特异性的正向引物。随后向每个样品添加油，这进行乳液过程。最后，在PCR反应后，使用荧光读数器确定含有扩增产物的微滴与空微滴之间的比，该比给出已扩增的模板分子的统计定量。

发明详述

本公开内容的目的概述于图1中：以不同产率和纯度合成不同的前体寡核苷酸，并汇集在一起以形成输入寡核苷酸库。通过SNAP纯化过程，产生靶寡核苷酸的输出库，其没有截短产物，并显示出期望的化学计量比(图1中的1∶1)。

在本公开内容的某些方面，使用具有随机toehold序列的toehold探针来捕获靶寡核苷酸的人工设计的5′序列。由于探针是对单核苷酸变异具有选择性的toehold探针，即使比全长产物短一个核苷酸的截短的合成产物也不能被有效捕获。

I.前体寡核苷酸

全长前体寡核苷酸包含三个区域，在图2中标记为3、4和5。区域3也称为验证区域，区域3的序列在所有前体种类中是保守的。区域4也称为条形码，区域5的序列对于每个前体种类是独特的。区域5被称为靶序列，并且是纯化过程后应保留的寡核苷酸的唯一部分。在不同的前体种类中，一些区域8可能是独特的，而其他区域可能是多余的。在一些实施方案中，区域5的5′的核苷酸是可以位点特异性切割的经修饰的核苷酸(例如，脱氧尿嘧啶核苷酸或RNA核苷酸)。

由于DNA合成(化学和酶促二者)是不完美的，所以存在截短产物，其中前体在5′末端(化学合成)或3′末端(酶促合成)缺少一个或更多个核苷酸。

II.捕获探针文库

图2显示了用于对在5′末端具有截短的化学合成的寡核苷酸进行SNAP纯化的捕获探针文库的一个优选实施方案。在该实施方案中，文库包含两种类型的寡核苷酸：探针寡核苷酸(包含区域1和2)。在某些方面，探针寡核苷酸在3′末端用生物素进行官能化，以允许通过链霉抗生物素蛋白进行官能化的磁珠捕获。

区域1的序列被设计并合成为随机文库，其中一个或多个位置包含多个核苷酸的混合物。每个前体种类的条形码(区域4)的互补序列应作为区域1随机文库的实例存在。

区域2的序列被设计为与前体上的区域3的序列互补。

III.随机区域1的序列设计

应设计可变位置和每个可变位置处可允许的核苷酸，以使得每个实例区域1与其完全互补序列的标准杂交自由能类似。在一些实施方案中，区域1的序列包含S(强，G和C的混合物)和W(弱，A和T的混合物)简并核苷酸。

作为不期望的序列构建的一个实例，如果区域4被设计为7nt NNNNNNN区域，则将存在GCGCGCG和TATATAT成员两者。根据SantaLucia Jr，J.，&Hicks，D.(2004).Thethermodynamics of DNA structural motifs.Annu.Rev.Biophys.Biomol.Struct.，33，415-440，这两个成员在1M Na+中于37℃下与其互补序列配对的ΔGo分别为-13.23kcal/mol和-4.38kcal/mol。这9kcal/mol的差异可导致GCGCGCG成员以＞99.9％的产率捕获其靶标，而TATATAT成员以＜0.1％的产率捕获其靶标；捕获产率中的这种大的差异对于获得均匀或比例产品量/浓度分布显然是不期望的。

由于这个原因，存在于可变位置的核苷被设计为S或W。也就是说，一些可变位置包含A或T核苷但不包含G或C，而另一些可变位置包含G或C但不包含A或T。根据已发表的文献参数，在1M Na+中37℃下，对于SW和WS堆积，每个碱基堆积的最大差异仅为0.17kcal/mol。

IV.序列特异性捕获

在不同探针的数目等于靶序列的数目且探针的总浓度低于靶标的总浓度的那些情况下，区域1的任何实例仅与区域4中的完全互补序列杂交，因为任何其他非特异性杂交将被淘汰。

因此，如果合成探针寡核苷酸文库使得所有实例序列相等表示，并且如果所有前体的浓度超过其相应探针序列的浓度，则捕获的前体的量应该是大致化学计量的，而与前体之间的初始化学计量比无关。作为数值实例，如果区域1的序列是“GWSWSWST”，则存在2⁶＝64种实例序列。假设总探针浓度为6.4μM，每种序列实例的浓度为约100nM。对于其中每个前体种类的浓度为200nM至10μM的初始前体库，与探针结合的每种前体的量将受最大100nM的探针实例序列浓度的限制，除非前体与其非同源探针实例序列之间杂交的脱靶杂交。

作为另一个数学例子，具有12个可变位置，每个位置具有2种可能核苷酸的探针文库包含2¹²＝4096种成员。假设文库的总量为4纳摩尔(nmol)，则预计每种成员以约1pmol的量存在。该文库适用于纯化多至4096种靶标，每种靶标的量为≥10pmol。阵列寡核苷酸合成提供者通常以10pmol或100pmol规模生产寡核苷酸组。

V.分离与探针结合的前体

使用探针作为回收标记，通过使用固体支持物或未结合分子的酶促降解，例如使用用于单链消化的外切核酸酶(例如，5′-3′)，将与探针寡核苷酸结合的前体寡核苷酸与其他前体分离。在一个具体实施方案中，探针寡核苷酸在3′末端被生物素官能化，并且在前体、保护物和探针之间的杂交反应之后将链霉抗生物素蛋白官能化的磁珠添加到溶液。在磁力附近洗涤磁珠悬浮液移出未结合的分子。

VI.从靶标中移出区域3和4

对于利用纯化的靶寡核苷酸库的许多应用，区域3和4的序列将是不期望的伪影(artifact)。可以设计这些区域的序列或组成以促进在基于表面的纯化后从期望的靶序列中酶促移出这些区域。图4显示了多种策略，用于在区域4之后酶促切割捕获的靶序列以移出所有伪影序列，或在区域3之后酶促切割以移出纯化序列但不移出条形码。

VII.SNAP纯化工作流程

图3显示了整个SNAP纯化工作流程的一个实施方案。杂交持续时间、缓冲液和温度根据探针和前体寡核苷酸的浓度而变化，并且合理的参数值是核酸杂交探针领域普通技术人员已知的。通过磁珠捕获生物素对探针进行官能化并随后洗涤的方案通常由生物素官能化磁珠的供应商(例如，Thermo Fisher Dynabeads，New England Biolabs链霉抗生物素蛋白磁珠)提供。USER酶(例如来自New England Biolabs)可用于在dU位置位点特异性切割前体寡核苷酸。

VIII.纯化的靶标的比例浓度

通过对相同靶序列(区域5)使用多种条形码(区域4)，可以调节SNAP纯化后不同靶序列的化学计量比。图5显示了一个实例，其中尝试以1∶2∶6比例纯化3种不同的靶序列。

基于可变位置的可用条形码的数目决定了可用化学计量比的范围和可能序列的数目。例如，具有12个可变位置，在每个位置具有2种可能核苷酸的探针文库包含2¹²＝4096种序列实例。不同靶序列之间的所有整数化学计量比的总和必须总计4096(或更小)。例如，可以纯化2097种靶序列的文库，其中2096种靶序列彼此具有相同的化学计量，并且最后的靶序列以1000x过量存在。

重要的是，简并的随机序列也可以引入前体序列的区域4中，以降低前体合成的成本。例如，在图5中，通过在区域7中使用简并W，靶标2占据条形码的两个序列实例。

在一些情况下，为了在最终库中产生均匀浓度的靶寡核苷酸，捕获探针文库应该具有显著低于输入靶寡核苷酸样品的浓度。例如，靶标1的全长产物最初为5μM，靶标2的全长产物最初为8μM，捕获探针文库的每种成员应保持低于5μM，例如1μM。在这种情况下，纯化产率可低于单一靶标的HPLC和PAGE方法，但将提供均匀终浓度的靶分子。在不需要均匀的最终靶标浓度的情况下，产率不会以这种方式降低。

IX.基于靶序列的条形码分配

为了同时实现高序列特异性和高杂交产率，不同前体与它们各自匹配的探针序列实例之间的标准杂交自由能(ΔG^oHyb)必须类似。验证区域序列(区域3)的初始设计和条形码(区域4)的分配可导致前体寡核苷酸在区域5与区域3和4之间具有显著的二级结构，从而导致ΔG^oHyb比预期显著更正，反过来导致降低捕获产率。因此，建议在给定期望靶序列的情况下合理设计区域3和4的序列，从而对于所有前体序列观察到类似的二级结构。

X.实施例

包括以下实施例以说明一些优选的实施方案。本领域技术人员应该理解，以下实施例中公开的技术代表发明人发现的在实施方案的实践中很好地起作用的技术，因此可以认为是构成其实践的优选模式。然而，根据本公开内容，本领域技术人员应当理解，在不脱离本公开内容的精神和范围的情况下，可以对所公开的具体实施方案进行许多改变并仍然获得相同或相似的结果。

实施例1-化学计量SNAP纯化

图6显示了证明SNAP纯化技术的概念验证的数据。使用变性聚丙烯酰胺凝胶电泳可视化和定量不同寡核苷酸种类的纯度和浓度。泳道1显示化学合成的前体寡核苷酸，泳道4显示相应的化学合成的靶寡核苷酸。前体和靶寡核苷酸两者均合成为具有3′FAM荧光团官能化，以便容易可视化。泳道2显示在USER酶处理以除去区域3和4之前捕获的前体分子，泳道3显示在USER酶处理之后的最终纯化产物。泳道2和3中相对缺乏截短带表明截短产物已被除去。

泳道5显示了3种不同长度(100nt、90nt和80nt)的前体寡核苷酸的混合物，其以1∶1∶1的标称化学计量比制备。泳道6显示了SNAP纯化方案的输出。纯化的靶寡核苷酸的化学计量比定量为1.2∶1∶1.5。泳道7和8显示了一组类似的实验，只是3种前体寡核苷酸以1∶5∶25标称制备，并且观察到SNAP纯化的产物为1.2∶1∶1.7，并且比前体更接近设计的1∶1∶1化学计量。泳道9和10显示了一组类似的实验，只是3种前体寡核苷酸以5∶25∶1标称制备，并且观察到SNAP纯化的产物为1.2∶1∶0.5。

图7A-B显示了证明通过下一代测序和数字微滴式PCR测量的SNAP纯化可获得的纯度和化学计量的数据。图7A显示在SNAP纯化的情况下，与期望序列完全匹配的读数的中值为约80％，其大于PAGE纯化的中值(为约60％)和来自未纯化寡核苷酸的中值(为约55％)。图7B显示了使用靶特异性引物通过数字微滴式PCR测量的各序列的浓度。在SNAP纯化后，对于库中95％的序列，寡核苷酸的浓度在2倍之内。

图11显示了通过NGS测量的证明256重之纯度的数据。同样在这种情况下，SNAP纯化的寡核苷酸的完全对齐分数读数接近80％。

实施例2-酶促产生的前体的纯化

图10显示了纯化酶促产生的前体(在这种情况下为转录的RNA种类)的一个示例性实施方案。RNA寡核苷酸的化学合成比DNA合成显著(8倍)更贵，并且限于较短的长度(通常≤50nt)。使用RNA聚合酶和相应的DNA模板序列的体外转录的RNA可以经济地产生大量期望的RNA靶序列，其也比化学合成的RNA显著更长，但需要劳动密集的聚丙烯酰胺凝胶电泳(PAGE)纯化。本发明的SNAP纯化方法可以显著减少产生RNA分子所需的劳动力，特别是在高度多重化的环境中。

由于酶促产生的前体在3′末端而不是5′末端不成比例地表现出截短和错误，因此设计DNA模板序列以使验证区域和条形码区域(分别为3和4)位于转录物的3′末端。全长前体RNA转录物的化学计量捕获与先前描述的DNA寡核苷酸类似地发生。RNAse H酶可以用于从前体除去区域6和7，仅留下期望的靶RNA序列，因为RNA酶H将在其与DNA杂交的区域选择性地切割RNA。

实施例3-探针设计变化

图9A-D示出了探针和保护序列的设计的一些可能的变化。可以改变区域的相对排序，只要保持区域之间的互补关系(例如，区域2与区域3互补)即可。

图9B在捕获探针的数目高于靶序列的数目的情况下，以及在同时使用多个验证区域(区域2)的那些情况下，保护寡核苷酸以及区域7和8的目的是为了确保每个前体与其匹配的探针寡核苷酸的序列特异性杂交。Zhang，D.Y.，Chen，S.X.，&Yin，P.(2012).Optimizing the specificity of nucleic acid hybridization.Nature chemistry，4(3)，208-214.以及Wu，L.R.，Wang，J.S.，Fang，J.Z.，Evans，E.R.，Pinto，A.，Pekker，I.，...&Zhang，D.Y.(2015).Continuously tunable nucleic acid hybridizationprobes.Nature methods，12(12)，1191-1196表明，当探针和保护物的序列被适当设计时，前体和保护物之间的竞争性杂交对序列中的单核苷酸变化是特异性的。

该特异性可用于2个目的：首先，其限制了前体与非完全互补的非同源探针序列实例的脱靶杂交。其次，其阻止了在区域3或4中缺少任何核苷酸的不完美合成前体的杂交。

除非另有明确说明，否则本文件中的“互补”是指“部分或完全互补”。当一个序列的超过80％的比对核苷酸与另一个序列的相应核苷酸互补时，两个序列被定义为“部分互补”。

下表1-4显示了可用于本公开内容方法的前体、捕获探针和保护物的假设序列组。在捕获探针的序列中，S或W表示所有变体都包含在捕获探针文库中。例如，A和T都将存在于每个W的捕获探针的混合物中，作为捕获探针的随机文库的一部分。

表1.图7A-B中描述的64重的64种前体的列表

表2.图8中256重的256种前体的列表

表3.用于图6的概念验证实验的序列表

表4.用于图10的序列表

根据本公开内容，无需过度实验即可制备和实施本文公开和要求保护的所有组合物和方法。尽管已经根据优选实施方案描述了本公开内容的组合物和方法，但是对于本领域技术人员明显的是，可以对组合物和方法以及本文描述的方法的步骤或步骤的顺序进行变化，而不脱离本公开内容的概念、精神和范围。更具体地，明显的是，化学和生理学两者相关的某些试剂可以代替本文所述的试剂，同时可以获得相同或相似的结果。对于本领域技术人员明显的是所有这些类似的替代和修改被认为是在由所附权利要求限定的本公开内容的精神、范围和概念内。

XI.参考文献

在为本文给出的那些提供示例性程序或其他细节补充的程度上，以下参考文献特别地通过引用并入本文。

SantaLucia Jr，J.，&Hicks，D.(2004).The thermodynamics of DNA structuralmotifs.Annu.Rev.Biophys.Biomol.Struct.，33，415-440.

Wu，L.R.，Wang，J.S.，Fang，J.Z.，Evans，E.R.，Pinto，A.，Pekker，I.，...&Zhang，D.Y.(2015).Continuously tunable nucleic acid hybridization probes.Naturemethods，12(12)，1191-1196.

Zhang，D.Y.，Chen，S.X.，&Yin，P.(2012).Optimizing the specificity ofnucleic acid hybridization.Nature chemistry，4(3)，208-214.

Claims

1.用于产生包含靶寡核苷酸分子的一组前体核苷酸序列的方法，其中所述前体核苷酸序列包含含有所述靶寡核苷酸分子的核苷酸序列的第五区域以及第四区域和第三区域，其中所述第四区域和所述第三区域中的至少一个与所述靶寡核苷酸内的任何子序列不同，所述方法包括：

(v)产生该组前体核苷酸序列。

2.根据权利要求1所述的方法，其中所述标准是负自由能。

3.用于产生包含多个条形码序列的一组前体核苷酸序列的方法，其包括：

(iii)对于每个前体核苷酸序列计算折叠的标准杂交自由能；

(vi)重复步骤(i)至(v)直至一组前体核苷酸序列符合标准；以及

(vii)产生该组前体核苷酸序列。

4.权利要求3所述的方法，其中所述标准选自标准捕获自由能的最大范围、标准捕获自由能的标准偏差、和排序列表中两个等级之间的差异。

5.权利要求3所述的方法，其中所述标准是该组前体核苷酸序列的最低标准捕获自由能与最高标准捕获自由能之间的最大范围不大于5kcal/mol。

6.权利要求3所述的方法，其中所述最大范围不大于2kcal/mol。

7.用于从包含一个或多个前体分子种类的样品中纯化一种或多种靶核酸分子的方法，其中每个前体分子种类包含含有靶核酸分子序列的第五区域；含有在所述多个前体分子种类中对于所述前体分子种类独特的序列的第四区域，其定义为长度为n的条形码序列，其中2ⁿ大于或等于独特的靶核酸分子序列的数目；在所有前体序列中保守的第三区域，所述方法包括：

从所述多个捕获探针种类以及所述第三和第四区域的所述至少一部分中回收所述第五区域；以及

从而产生纯化的靶核酸分子。

8.权利要求7所述的方法，其中每个捕获探针种类还包含含有第九区域的第二寡核苷酸，其中所述第九区域与所述第二区域互补。

9.权利要求8所述的方法，其中每个第一寡核苷酸还包含第七区域，每个第二寡核苷酸还包含第八区域，并且其中所述第七区域与所述第八区域互补。

10.权利要求7至9中任一项所述的方法，其中每个第一寡核苷酸还包含化学部分，并且其中分离与所述多个捕获探针种类杂交的所述多个前体分子种类包括所述化学部分的表面捕获。

11.权利要求10所述的方法，其中所述化学部分选自生物素、硫醇、叠氮化物、炔烃、伯胺和脂质。

12.权利要求7至9中任一项所述的方法，其中与所述前体寡核苷酸杂交的所述第一核苷酸是介导复合物的表面捕获的抗体或其他受体的优选配体。

13.权利要求7至12中任一项所述的方法，其中从所述多个捕获探针种类以及所述第三和第四区域的所述至少一部分中回收所述第五区域包括选自加热、引入变性剂、用低盐度缓冲液洗涤和引入核酸酶的处理。

14.权利要求7至13中任一项所述的方法，其中所述位点特异性切割包括选自以下的处理：改变温度、改变pH、以及在特定波长下照射与所述多个捕获探针种类杂交的所述多个前体分子种类。

15.权利要求7至14中任一项所述的方法，其中每个第一寡核苷酸与和所述第一寡核苷酸的完整序列互补的DNA序列之间的标准结合自由能在彼此的5kcal/mol之内。

16.权利要求7至15中任一项所述的方法，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸是A或T。

17.权利要求7至15中任一项所述的方法，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸是G或C。

18.权利要求7至15中任一项所述的方法，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸对于所述核苷酸序列中的一个或更多个核苷酸是G或C，并且对于所述核苷酸序列中的再一个核苷酸是A或T。

19.权利要求7至18中任一项所述的方法，其中所述第一区域包含3至25个核苷酸。

20.权利要求7至19中任一项所述的方法，其中n为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的数目。

21.权利要求7至20中任一项所述的方法，其中所述第一区域除了所述长度为n个核苷酸的核苷酸序列外还包含至少一个核苷酸。

22.权利要求7至20中任一项所述的方法，其中所述第二区域包含8至200个核苷酸。

23.权利要求7至22中任一项所述的方法，其中基于包括以下的方法分配每个前体分子种类的所述条形码序列：

对于每个前体核苷酸序列计算折叠的标准杂交自由能；

重复所述方法直至一组前体核苷酸序列符合标准。

24.捕获探针文库，其包含：

25.捕获探针文库，其包含：

26.权利要求24或25所述的捕获探针文库，其中所述第一多个寡核苷酸中每个寡核苷酸与和所述第一多个寡核苷酸中相应寡核苷酸的完整序列互补的DNA序列之间的标准结合自由能在彼此的5kcal/mol之内。

27.权利要求24至26中任一项所述的捕获探针文库，其中每个核苷酸处的至少两种可能的核苷酸是A或T。

28.权利要求24至27中任一项所述的捕获探针文库，其中每个核苷酸处的至少两种可能的核苷酸是G或C。

29.权利要求24至26中任一项所述的捕获探针文库，其中每个核苷酸处的至少两种可能的核苷酸对于所述核苷酸序列中的一个或更多个核苷酸是G或C，并且对于所述核苷酸序列中的再一个核苷酸是A或T。

30.权利要求24至29中任一项所述的捕获探针文库，其中第二寡核苷酸的浓度大于所述第一多个寡核苷酸中每个寡核苷酸的浓度之和。

31.权利要求24至30中任一项所述的捕获探针文库，其中所述第一区域包含3至25个核苷酸。

32.权利要求24至31中任一项所述的捕获探针文库，其中所述第一区域中的可变位置的数目为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的总数目。

33.权利要求24至32中任一项所述的捕获探针文库，其中所述第一区域除了所述至少3个可变位置外还包含至少一个核苷酸。

34.权利要求24至33中任一项所述的捕获探针文库，其中所述第二区域包含8至200个核苷酸。

35.权利要求24至34所述的捕获探针文库，其中所述至少三个可变区域是连续的。

36.权利要求24至34所述的捕获探针文库，其中所述至少三个可变区域是非连续的。

37.用于多重捕获一组期望的前体核酸分子的寡核苷酸文库，其包含：

多个前体分子种类，其中每个前体分子种类包含：

包含在所有前体分子种类中保守的核苷酸序列的第三区域，

包含含有3至60个核苷酸的条形码序列的第四区域，

其中每个前体分子种类的所述条形码序列是不同的，并且其中2ⁿ大于或等于独特的靶核酸分子序列的数目；以及

38.权利要求37所述的寡核苷酸文库，其中所述多个捕获探针种类中每个第一寡核苷酸种类与和相应第一寡核苷酸种类的完整序列互补的DNA序列之间的标准结合自由能在彼此的5kcal/mol之内。

39.权利要求38所述的寡核苷酸文库，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸是A或T。

40.权利要求38所述的寡核苷酸文库，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸是G或C。

41.权利要求38所述的寡核苷酸文库，其中所述长度为n个核苷酸的核苷酸序列中每个核苷酸处的所述两种或更多种核苷酸对于所述核苷酸序列中的一个或更多个核苷酸是G或C，并且对于所述核苷酸序列中的再一个核苷酸是A或T。

42.权利要求38至41中任一项所述的寡核苷酸文库，其中第二寡核苷酸的浓度大于每个第一寡核苷酸种类的浓度之和。

43.权利要求38至42中任一项所述的寡核苷酸文库，其中所述第一区域包含3至25个核苷酸。

44.权利要求38至43中任一项所述的寡核苷酸文库，其中n为3至60、3至18、或3至10，并且不大于所述第一区域中核苷酸的数目。

45.权利要求38至44中任一项所述的寡核苷酸文库，其中所述第一区域除了所述长度为n个核苷酸的核苷酸序列外还包含至少一个核苷酸。

46.权利要求38至45中任一项所述的寡核苷酸文库，其中所述第二区域包含8至200个核苷酸。

47.权利要求38至46中任一项所述的寡核苷酸文库，其中每个前体分子种类的所述条形码序列基于权利要求3至6中任一项所述的方法选择。

48.权利要求38至47中任一项所述的寡核苷酸文库，其中至少一个前体分子种类是化学合成的或酶促产生的。

49.权利要求49所述的寡核苷酸文库，其中用于产生所述至少一个前体分子种类的酶是连接酶或聚合酶。

50.用于从包含多个前体分子的样品中纯化多种靶核酸分子的方法，其中所述方法包括以下步骤：

51.用于产生多个不同靶寡核苷酸的方法，所述靶寡核苷酸各自具有特定序列，所述方法包括：

(1)合成每个不同靶寡核苷酸的前体寡核苷酸，其中所述前体包含第三序列、第四序列和第五序列，其中所述第三序列对于所有前体是相同的，所述第四序列包含条形码并且对于所有前体是不同的，并且第五序列对应于所述靶序列，

(4)移出未与所述捕获探针结合的前体分子，

(6)移出所述捕获探针文库和剩余的所述前体分子。

52.权利要求51所述的方法，其中所述第一序列包含在某些位置的S简并核苷酸和/或在某些位置的W简并核苷酸，但不包含在任何位置的N简并核苷酸，以使得所述第一序列的任何简并变体与一个或更多个第四序列互补，其中S是强碱基，W是弱碱基，并且N是任何碱基。

53.权利要求51至52所述的方法，其中用允许与配体迅速结合的部分对捕获探针进行官能化，例如选自生物素、硫醇、叠氮化物或炔烃的部分。

54.权利要求51至53所述的方法，其中在步骤(4)中，消除未与捕获探针结合的前体分子包括添加特异性结合所述捕获探针的颗粒，然后移出上清液。

55.权利要求54所述的方法，其中所述颗粒选自链霉抗生物素蛋白包被的磁珠或链霉抗生物素蛋白包被的琼脂糖珠。

56.权利要求51至53所述的方法，其中所述前体还包含脱氧尿嘧啶核苷酸或RNA核苷酸，并且所述第五序列的切割包括引入尿嘧啶DNA糖基化酶或RNA酶。

57.权利要求51至53所述的方法，其中所述前体还包含光不稳定或热不稳定部分，并且所述第五序列的切割包括将所述溶液暴露于适当波长的光或加热至适当温度。

58.权利要求51至57所述的方法，其中所述第四序列还包含在某些位置的“S”简并核苷酸和/或在某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。

59.权利要求51至58所述的方法，其中所述第一序列的长度为5至50个核苷酸，并且其中简并核苷酸的数目为1至30、1至20、1至10、2至8、2至6、或3至5。

60.权利要求51至59所述的方法，其中所述第二序列的长度为5至50个核苷酸，和/或其中每个靶寡核苷酸的长度为5至500个核苷酸。

61.包含第一序列和第二序列的寡核苷酸捕获探针文库，其中所述第一序列包含简并的随机核苷酸，其包含在一个或更多个位置的“S”简并核苷酸和/或在一个或更多个位置的“W”简并核苷酸，但是不包含在任何位置的“N”简并核苷酸，并且其中所述第一序列的长度为5至50个核苷酸，简并核苷酸的数目为1至30，并且所述第二序列的长度为5至50个核苷酸。

62.权利要求61所述的寡核苷酸捕获探针文库，其中所述第二序列包含在某些位置的“S”简并核苷酸和/或在某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。

63.权利要求61至62所述的寡核苷酸捕获探针文库，其中用用于迅速结合的化学部分对所述寡核苷酸捕获探针文库进行官能化，所述化学部分选自生物素、硫醇、叠氮化物或炔烃。

64.权利要求61至63所述的寡核苷酸捕获探针文库，其中一个或更多个所述寡核苷酸捕获探针还包含脱氧尿嘧啶核苷酸或RNA核苷酸。

65.权利要求61至63所述的寡核苷酸捕获探针文库，其中一个或更多个所述寡核苷酸捕获探针还包含光不稳定或热不稳定部分。

66.权利要求61至65所述的寡核苷酸捕获探针文库，其中所述第一序列的长度为5至50个核苷酸，并且其中简并核苷酸的数目为1至30。

67.权利要求61至66所述的寡核苷酸捕获探针文库，其中所述第二序列的长度为5至50个核苷酸。

68.权利要求61至67所述的文库，其中所述文库具有至少8个、至少32个或至少256个成员。

69.权利要求61至67所述的文库，其中所述文库具有8至32个成员、8至256个成员、32至256个成员、8至1024个成员、32至1024个成员、或256至1024个成员。

70.权利要求61至69所述的寡核苷酸捕获探针文库，其中所述文库存在于一种或更多种基底上。

71.水溶液，其包含寡核苷酸捕获探针文库和多个前体寡核苷酸，其中：

所述多个前体寡核苷酸中的每一个包含第三序列、第四序列和第五序列，其中所述第三序列对于所有前体是相同的，所述第四序列包含条形码并且对于所有前体是不同的，所述第二序列与第三序列互补，并且第一序列的至少一个实例与每个第四序列互补。

72.权利要求71所述的水溶液，其中所述寡核苷酸捕获探针文库的所述第二序列包含某些位置的“S”简并核苷酸和/或某些位置的“W”简并核苷酸，但不包含在任何位置的“N”简并核苷酸。

73.权利要求71至72所述的水溶液，其中用用于迅速结合的化学部分对所述寡核苷酸捕获探针文库进行官能化，所述化学部分选自生物素、硫醇、叠氮化物或炔烃。

74.权利要求71至73所述的水溶液，其中一个或更多个所述寡核苷酸捕获探针还包含脱氧尿嘧啶核苷酸或RNA核苷酸。

75.权利要求71至73所述的水溶液，其中一个或更多个所述寡核苷酸捕获探针还包含光不稳定或热不稳定部分。

76.权利要求71至75所述的水溶液，其中所述寡核苷酸捕获探针文库的所述第一序列的长度为5至50个核苷酸，并且其中简并核苷酸的数目为1至30。

77.权利要求71至76所述的水溶液，其中所述寡核苷酸捕获探针文库的所述第二序列的长度为5至50个核苷酸。

78.权利要求71至77所述的水溶液，其中所述寡核苷酸捕获探针文库具有至少8个、至少32个或至少256个成员。

79.权利要求71至77所述的水溶液，其中所述寡核苷酸捕获探针文库具有8至32个成员、8至256个成员、32至256个成员、8至1024个成员、32至1024个成员、或256至1024个成员。

80.权利要求71至79所述的水溶液，其中所述寡核苷酸捕获探针文库存在于一种或更多种基底上。

81.权利要求71至80所述的水溶液，其中所述前体还包含脱氧尿嘧啶核苷酸或RNA核苷酸，并且所述第五序列的切割包括引入尿嘧啶DNA糖基化酶或RNA酶。