CN113736777A

CN113736777A - 一种用于高通量测序核酸编码探针的设计及合成方法

Info

Publication number: CN113736777A
Application number: CN202111073314.0A
Authority: CN
Inventors: 刘鹏; 吴俣帅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-03

Abstract

本发明公开了一种用于高通量测序文库构建过程中所用的核酸编码探针的设计及合成方法。本发明提供了核酸编码探针组，由多条核酸编码探针组成；每条所述核酸编码探针包括接头序列、多个样本编码系统、Read2序列、UMI序列和样本捕获序列；所述每条核酸编码探针的多个样本编码系统均由不同的样品标签序列和不同的微坑编码序列组成；且所述每条核酸编码探针的多个样本编码系统均不同；且所述样品标签序列和所述微坑编码序列采用Read2序列间隔；所述微坑编码序列的长度大于所述样品标签序列；不同所述微坑编码序列中的差异碱基数大于2个。本发明的编码探针设计大大提升了编码通量，支持更多样本的同步测序。

Description

一种用于高通量测序核酸编码探针的设计及合成方法

技术领域

本发明属于生物技术领域，涉及一种核酸编码探针的设计及合成方法，具体是一种用于高通量测序文库构建过程中所用的核酸编码探针的设计及合成方法。

背景技术

高通量转录组测序在技术上具有很强的优势。转录组是指在细胞内所有转录本的集合，它们的数量通常由细胞所处的时期以及生理条件决定。转录组测序可以帮助研究者们更全面地认识和了解基因的功能，信号通路的作用机制，细胞或组织的分子构成以及疾病的发病机制。相比其他的转录组研究方法(例如杂交检测法)，转录组测序有以下优点：1.检测范围广。不受已知目的基因的制约，可以检测和发现一些未知基因和非编码RNA；2.分辨率高。可以识别出单个碱基，这意味着在等位基因特异性表达(Allelespecificexpression)，可变剪切(Alternative splicing)，单核苷酸多态性(Single nucleotidepolymorphisms，SNPs)等研究领域有着无可比拟的优势；测序得到的读数是数字信号，尤其对于低丰度基因来说，能够获得更加准确的计数。

高通量转录组测序具有广泛的应用。主要应用包括以下四个方面：1.基因表达水平分析和差异表达分析；2.新基因的挖掘；3.基因结构分析及功能注释；4.单核苷酸多态性分析。每一个方面对科研人员认识和研究生物过程的内在机理以及生命个体的发生发展均具有重要的作用。另外，随着高通量转录组测序技术的“升级”，更为精准先进的相关测序技术如雨后春笋般涌现。例如单细胞转录组测序，从单个细胞的水平上研究转录组在细胞间的差异情况，排除传统研究方法当中细胞异质性对研究结果的影响，对基础生物学、发育生物学、神经生物学等研究开辟了新的视野和天地。

核酸编码探针是提升转录组测序样本通量的关键因素。随着测序技术的不断改进和发展，单次测序的通量不断提升，在某种意义上说，测序已不是限制通量的主要因素。更为关键是，如果通过一次测序实现尽可能多的样本转录信息的获取。这就需要在测序文库构建过程中实现对每个样本的精确编码。除此之外，研究人员还希望实现对转录本的绝对计数，这样获取的转录信息的量化更加准确——这可以通过在编码探针中加入UMI(UniqueMolecular Identifier，唯一分子标识符)序列得以实现。因此，核酸探针的设计以及合成的质量至关重要。一套设计完善、性能优异的核酸探针不但能够提升测序的灵敏性和精准度，还能够极大地提升样本的通量，从“人财物时”各方面降低实验的成本，提升测序效率。

编码探针设计的挑战主要在于两方面：编码探针内各部分功能序列的具体设计与各部分功能序列的组合方式。事实上，这两方面挑战的克服有时候甚至是对立的。例如，假如希望编码探针中的样本编码序列更长(样本编码序列种类更多，意味着可编码的样本数目更多)，势必会造成样本编码序列与其他功能序列在组合上的复杂度的增加。因此，编码探针的设计并非是“线性”地将各部分功能序列进行排列叠加，而是充分考虑和衡量各部分功能序列的作用、需求以及互作关系后，进行全局且动态的设计和规划。

具体来说，编码探针的功能序列包括：接头序列、样本编码序列、分子唯一标识序列、探针捕获序列以及其他辅助序列。其中，样本编码序列是最重要的功能序列之一，许多研究人员都研究过它的设计。尤其是在单细胞转录组测序中，样本编码容量需要在十万乃至百万以上。各种高通量单细胞测序的方法，包括Drop-seq、Microwell-seq各自设计了一套拥有上百万容量样本编码的序列，支持对海量单细胞进行编码和测序。但是，现有的样本编码序列都存在以下两个问题。第一，过分追求通量导致样本编码序列之间汉明距太小，容易发生编码识别错误。第二，编码序列只求分开细胞，特定的编码序列难以对应到细胞，导致下游的细胞分析缺乏表型信息。这两点制约了转录组测序的进一步发展，归根结底，都是由编码探针的设计问题引起的。

编码探针的合成困难主要是由编码探针的复杂性引起的。尤其是在转录组测序中，编码探针面临序列长、种类多、末端修饰复杂三大难关。这三大难关导致常规的探针合成方法成本高昂、效率低下，无法满足要求。

核酸编码探针功能序列多且长，合成困难大。目前广泛采用的“固相亚磷酰胺合成法”通过脱三苯甲基-激活-偶联-加帽-氧化-脱三苯甲基依次循环，一次循环加入一个碱基。过程中每个碱基都被一个保护基团封闭，阻止延伸，直至添加完成后移除。合成的过程如此繁琐复杂，合成的效率就会随着过程的增多而迅速下降。当要合成一段60个碱基的DNA时，成功率只有74％；当超过200个碱基时，理论上成功率不会高于37％。而实际操作中因为各种不可控原因，几乎无法成功获得高纯度的长链序列。

编码探针核心是编码，意味着需要多少种编码，就需要合成多少种编码探针。因此，随着编码容量要求的不断提升，传统的探针合成方法会增加大量的合成成本和试错成本。另外，探针数目的增多对准确的解码也是一大挑战。一种更有效的编码设计及合成方式将对成本、编码及解码过程带来巨大的帮助。

一般来说，编码探针需要在不同功能序列部分进行特定的修饰，包括：生物素修饰、磷酸化、TEG、硫代修饰、荧光素修饰，甚至是一些例如U型的结构修饰。探针的序列修饰工艺复杂，成本高昂；尤其对于编码探针来说，序列长且种类多意味着要对各种编码探针的长序列进行修饰，进一步增大了困难。在这样的情况下，传统序列合成方法不但大大提高了成本，还无法得到优质的探针序列。

因此，急需一种新的核酸编码探针设计及合成方法。

发明内容

本发明一个目的是提供一种核酸编码探针组。

本发明提供的核酸编码探针组，由m×n条核酸编码探针组成；所述m和n为大于等于2的整数；

每条所述核酸编码探针包括测序接头、样品标签序列(一级编码)、Read2序列、微坑编码序列(二级编码)、UMI序列和样本捕获序列；所述样品标签序列和所述微坑编码序列构成所述核酸编码探针的样本编码系统；

所述每条核酸编码探针的样本编码系统均不同；

所述核酸编码探针组中含有m种样品标签序列和n种微坑编码序列，使所述核酸编码探针组中样本编码序列有m×n种；所述m小于n；

所述样品标签序列和所述微坑编码序列在所述核酸编码探针中位于所述Read2序列的两侧间隔；

所述每条核酸编码探针中所述微坑编码序列的长度大于所述样品标签序列；

所述n种微坑编码序列中的差异碱基数均大于2个。

上述核酸编码探针组中，所述样品标签序列由6个随机碱基组成，且每个样品标签序列均满足小于等于2个连续碱基重复；

所述微坑编码序列由10-20个随机碱基组成，且不同的微坑编码序列的差异碱基数大于2个，每个微坑编码序列满足小于等于2个连续碱基重复；

所述UMI序列由10个随机碱基组成；

所述样本捕获序列由Poly-T、V和N组成；其中所述V为除去T的任一其他3种随机碱基，所述N为随机碱基；

所述随机碱基为A、T、C或G。

上述核酸编码探针组中，在所述测序接头的上游还连接有space序列，所述space序列由5-10个T组成，且所述space序列的第一个碱基生物素修饰(使探针的5'端生物素修饰)。

上述核酸编码探针组中，所述核酸编码探针从5'末端起依次由如下组分组成：所述space序列、所述测序接头、所述样品标签序列、所述Read2序列、所述微坑编码序列、所述UMI、所述Poly-T、所述V和所述N。

上述核酸编码探针组中，所述测序接头的核苷酸序列为序列表中序列1；

所述样品标签序列为CGTGAT、ACATCG、GCCTAA或TGGTCA；

所述Read2序列的核苷酸序列为序列表中序列2。

在本发明的实施例中，上述核酸编码探针组中，所述核酸编码探针为如下任一组中任一条：

1)由P1-A分别连接P2-1至P2-96，形成的核酸编码探针；

2)由P1-B分别连接P2-1至P2-96，形成的核酸编码探针；

3)由P1-C分别连接P2-1至P2-96，形成的核酸编码探针；

4)由P1-D分别连接P2-1至P2-96，形成的核酸编码探针；

且每条核酸编码探针中的所述P1-A、所述P1-B、所述P1-C或所述P1-D核苷酸序列的最后一位碱基与所述P2-1至P2-96中任一条的核苷酸序列的第一位碱基相邻。

本发明另一个目的是提供一种合成上述核酸编码探针的方法。

本发明提供的方法，包括如下步骤：

1)设计上述核酸编码探针组中的核酸编码探针，且将每条所述核酸编码探针从Read2中任2个碱基处分开(保证拆分后的read2-1和read2-2的碱基数相差不大)，靠近所述核酸编码探针5'端的序列命名为P1，剩余一段序列命名为P2；

2)分别合成每条所述核酸编码探针的P1、其对应的P2和linker；

所述P2的5'末端进行磷酸化修饰；

所述P1的5'末端进行生物素标记(即为所述space序列的第一个碱基生物素修饰)，用于后面与链霉亲和素修饰的磁珠结合实现待测样本的捕获；

所述linker与所述核酸编码探针中的Read2反向互补；

3)将每条所述核酸编码探针的P1、及其对应的P2和所述linker在T4连接酶的作用下连接，得到连接产物，即为所述核酸编码探针。

上述方法中，在步骤3)中，连接体系中，所述P1的摩尔量大于P2的摩尔量；

或，在步骤3)中，连接体系中，所述P1的摩尔量大于P2的摩尔量。

在本发明的实施例中，上述方法中所述P1和所述P2的摩尔量比为3:1或1:3。

上述方法中在步骤3)中，若所述P1的摩尔量小于所述P2的摩尔量时，所述方法还包括如下步骤：纯化所述连接产物。

上述探针或由上述方法制备的探针在捕获目的片段中的应用；

或，上述探针或由上述方法制备的探针在高通量测序中的应用；

或，上述探针或由上述方法制备的探针在制备捕获目的片段产品中的应用；

或，上述探针或由上述方法制备的探针在制备高通量测序产品中的应用；

或，本发明提供了一种合成上述探针的系统，包括上述P1、所述P2、所述linker和所述T4连接酶。

本发明的目的是提供一种用于高通量测序核酸编码探针的设计及合成方法。一方面通过优化探针的设计获得性能更佳的编码探针序列；另一方面，提出一种创新的编码探针合成方法。通过这两部分的配合，研究人员可以得到性能更优异、成本更低廉的核酸编码探针。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明的编码探针设计大大提升了编码通量，支持更多样本的同步测序。

2、本发明的编码探针设计扩充了编码库，允许研究人员选择GC含量适合、重复序列较少、汉明距较大的编码探针组，获得更加准确可靠的测序结果。

3、本发明的编码探针设计大大降低了编码成本，成本降低效应随编码量提升愈加明显，因此不但适用预算不足的小实验室，也适用于需要更高通量的大实验室。

4、本发明的编码探针设计解码方便快捷准确，减少生信分析麻烦，对无生信基础的广大研究人员更加友好。

5、本发明的编码探针的合成方法能够合成序列长、种类多、末端修饰复杂的编码探针，适用性极广。

附图说明

图1为编码探针结构示意图。

图2为T4 DNA连接酶合成核酸编码探针示意图。

图3为编码探针合成方案。

图4为方案一合成方法下每个探针对应的测序读数空间分布图。

图5为方案二合成方法下每个探针对应的测序读数空间分布图。

图6为方案二合成方法下每个探针对应的测序读数统计图。

图7为方案二合成方法下每个探针对应的测序数据比对率。

图8为流式细胞仪验证编码探针合成方法(T4连接法)。

图9为菌液PCR凝胶电泳。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、高通量测序核酸编码探针的设计

一、高通量测序核酸编码探针结构示意图如图1，从5'端起包括如下元件：

1)测序接头

本发明的实施例采用Illumina的二代测序，因此，测序接头为P7测序接头(5’-CAAGCAGAAGACGGCATACGAGAT-3’，序列1)。

在该测序接头的5'末端连接有space序列(在本发明的实施例中，space序列为TTTTTTT，一般情况下5-10个T为宜)，且space序列的第一个碱基T进行5’端的生物素修饰，该space序列的目的是为了探针捕获时与链霉亲和素修饰的磁珠连接时有空间，方便后续的PCR扩增过程中的引物连接。

2)样品标签序列

样品标签序列是样本的一级编码，由6个随机碱基(A、T、C或G)组成，长度均为6bp，且保证同一次测序中各个样品标签不同，每个样品标签的GC含量根据测序平台调整，在本发明的实施例中Illumina的二代测序，因此，每个样品标签的GC含量在50％左右，且每个样品标签满足小于等于2个连续碱基重复。

在本发明的实施例中，样品标签序列具体举例为CGTGAT、ACATCG、GCCTAA和TGGTCA。

样品标签序列的数目不局限于样本数目，可以与下述微坑编码的组合得到适宜通量的总编码数。

3)Read2序列

Read2序列为GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(序列2)

本发明的实施例采用Illumina测序，用于Read2测序的引物(辅助序列)如下：AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC；

4)微坑编码序列

微坑编码序列是样本的二级编码，与一级编码相互配合构成规模更大编码效果更佳的样本编码系统；

微坑编码序列由10-20个随机碱基(A、T、C或G)组成，不同微坑编码的差异碱基数大于2个(为了增加编码序列之间的汉明距)，每个微坑编码的GC含量在50％左右(为了适应于Illumina的二代测序)，且每个微坑编码满足小于等于2个连续碱基重复。

在本发明的实施例中，微坑编码由16个碱基组成，为16bp长的96种不同序列(具体可见表2所示)，如其中一个序列为CTTCCGATCTCGACAC。

5)UMI序列

UMI序列是由10个随机碱基组成(ATCG中随机选择)，用来作为绝对定量的依据。

6)样本捕获序列

样本捕获序列包括Poly-T，Poly-T能够特异性地与mRNA 3’末端的Poly-A相连，从而完成对mRNA的捕获。且在Poly-T后面还有V和N这两种碱基，其中，V为除去T的其他3个碱基的随机碱基，N为ATCG的随机碱基，这两种碱基的目的是与Poly-T一起特异捕获mRNA。

二、核酸编码探针的设计思路

从整体上说，编码探针这样的设计是充分考虑测序文库要求的基本结构。例如，5’端需要有P7接头序列，核心的功能序列一般放在测序引物(Read2)之后，微坑编码、UMI和Poly-T的位置设计能够方便识别出各自部分的序列。

从局部上说，最重要的部分是编码探针的编码部分，创新地采用了预先多级编码，即通过一级编码(样品标签)与二级编码(微坑编码)的交叉配合在保证编码准确度的同时，一方面大大增加了编码容量，另一方面有效地提高了解码的效率和准确度。这是因为，在多级编码的情况下，编码文库的容量等于各级编码容量的乘积。例如，假如一级编码容量为M，二级编码容量为N，通过交叉重组可以得到M*N的编码容量的编码探针库。这样设计的好处包括以下三个方面：

第一，编码容量大大提升，可以在编码库中选择性能更佳的编码探针序列。事实上，编码库中并非所有探针都适合用作编码。无论是在测序文库的构建过程中还是上机测序的过程中，编码探针都要经过一系列的分子反应，例如PCR、RT、加接头。在分子生物学的反应中，探针序列的GC含量偏高或偏低、重复序列过多、自身互补结构都会对反应造成难以预估的影响。因此，需要选择合适的探针序列，编码容量的提升能为选择带来更大的自由度。另外，冗长的建库测序步骤会积累一些序列错误，例如碱基错配、接头错加，有可能导致编码出现交叉错乱。可以增加编码序列之间的汉明距(各条编码序列之间碱基的差异个数)来克服这一点，选择汉明距更大的编码探针组成最后的可用编码库。

第二，编码成本大大降低，可以用(M+N)的成本代替(M*N)的成本。如前所述，编码探针具有长序列、多种类、末端修饰复杂等特点，成本会随着探针种类的增多指数上升。

T4 DNA连接酶合成核酸编码探针示意图如图2所示，通过将完整的长序列拆分成两段短序列分别合成，而后利用连接酶连接则可以显著地降低成本。

例如，合成图1所示的全长114bp的编码探针的单位成本是1000元，因此合成400种编码探针需要400,000元；若按照图2所示的拆分合成，55bp的P1单位成本是200元，59bp的P2单位成本是100元，可以通过合成10种P1和40种P2组合而成400种编码探针，最终的成本是10*200+40*100＝6000元，几乎相差100倍！随着编码容量的进一步上升，成本下降效应会更加明显。

第三，解码方便快捷准确。事实上，在解码过程中，只需要拆分得到微坑编码(二级编码)即可，样本标签(一级编码)在测序过程中会用专门的引物测序得到。因此，多级编码的设计不但能够缩短解码的时间，还能够有效提升解码的正确率。这是因为，一般情况下，一级编码容量小于二级编码；换言之，样本标签的序列短于微坑编码。而序列越长，测序过程中越容易累积错误，解码越容易发生识别错误。通过多级编码的设计，能够有效地改善解码的效率和正确率，从而更加高效地获取精确的测序数据。

实施例2、核酸编码探针合成方法的建立

确定了编码探针的结构设计和拆分合成的方案后，需要对编码探针具体的合成方法和条件进行探索和优化。T4 DNA连接酶合成核酸编码探针示意图如图2所示，通过将完整的核酸编码探针长序列拆分成两段短序列(P1和P2)分别合成，在T4 DNA连接酶的作用下可以将两部分合成为一条完整的捕获探针。

以如下核酸编码探针为例(不含有UMI序列，这是由于sanger测序需要确定序列的原因，验证试验无需加UMI)：

TTTTTTTCAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACG(P1)TGTGCTCTTCCGATCTCGACACGGTTTGGGCCNNNNNNNNNNTTTTTTTTTTTTTTTTVN(P2)如图3所示，通过理论设计和实验验证首先确定了两套方案。

1、第一套方案

第一套方案是保证P2相对P1过量，利用T4连接酶连接P1和P2之后，需要使用纯化试剂盒进行纯化。这是因为qpcr结果显示，未经纯化较经过纯化的编码探针CT值存在显著性差异。

具体方法如下：

1)将待合成核酸编码探针从Read2中均分为2段Read2-1和Read2-2，将5’端的生物素修饰、P7测序接头、样品标签和Read2-1组成的序列命名为P1，将Read2-2、微坑编码、UMI和Poly-T组成的序列命名为P2。

linker为与Read2反向互补的序列，序列为GAAGAGCACACGTCTGAAC。

分别合成出P1、P2和linker，且P2序列的5'末端最后一位碱基磷酸化修饰，P1的5'末端进行生物素标记；；

P1：TTTTTTT(space序列)CAAGCAGAAGACGGCATACGAGAT(测序接头)CGTGAT(样品标签)GTGACTGGAGTTCAGACG(Read2-1)；

P2：TGTGCTCTTCCGATCT(Read2-2)CGACACGGTTTGGGCC(微坑编码)NNNNNNNNNN(UMI)TTTTTTTTTTTTTTTT(Poly-T)VN(V为除去T的其他3个碱基的随机碱基，N为ATCG的随机碱基)

2)连接P1和P2制备核酸编码探针

100uL连接体系：将3uL的10uM浓度的P1、1uL的10uM浓度的P2、3uL的10uM浓度的linker、5uL的100U/uL浓度的T4连接酶(NEB，M0202L)和10uL连接酶Buffer混合，余量为去核酸水；其中P1和P2的体积比为3:1。

将上述连接体系16℃过夜，收集连接产物，采用QIAquick PCR Purification Kit(Qiagen)试剂盒纯化，收集纯化产物，即为核酸编码探针。

3)qpcr

将上述2)中纯化前的连接产物和纯化后的纯化产物分别作为模板，分别作为编码探针，对Jurkat细胞裂解(裂解液为lysis buffer(200mM Tris-HCl,20mM EDTA,1％Sarkosyl,50mM DTT)，)得到的mRNA进行捕获，用P7/TSO引物进行qpcr扩增。

Forward 5’-CAAGCAGAAGACGGCATACGAG-3’

Reverse 5’-AAGCAGTGGTATCAACGCAGAGT-3’

结果如图3左图所示，可以看出，与经纯化相比，未经过纯化的编码探针CT值增加，因此，证明当P2相对过量的条件下，需要使用纯化试剂盒进行纯化。

2、第二套方案

第二套方案保证P1相对P2过量，利用T4连接酶连接P1和P2之后，不需要纯化，可以直接存储备用。这是因为qpcr结果显示，未经纯化较经过纯化的编码探针CT值无显著性差异，证明当P1相对过量的条件下，纯化与否暂无明确影响。

具体方法如下：

1)将待合成核酸编码探针从Read2中分为2段Read2-1和Read2-2，将5’端的生物素修饰、P7测序接头、样品标签和Read2-1组成的序列命名为P1，将Read2-2、微坑编码、UMI和Poly-T组成的序列命名为P2。

linker为与Read2反向互补的序列，序列为GAAGAGCACACGTCTGAAC。

2)连接P1和P2制备核酸编码探针

100uL体系：将3uL的10uM浓度的P1、1uL的10uM浓度的P2、3uL的10uM浓度的linker、5uL的100U/uL浓度的T4连接酶和10uL连接酶Buffer混合，余量为去核酸水；其中P1和P2的体积比为3:1；

3)qpcr

将上述2)中纯化前的连接产物和纯化后的纯化产物分别作为编码探针，对Jurkat细胞裂解得到的mRNA进行捕获，用P7/TSO引物进行qpcr扩增。

Forward 5’-CAAGCAGAAGACGGCATACGAG-3’

Reverse 5’-AAGCAGTGGTATCAACGCAGAGT-3’

结果如图3右图所示，可以看出，与未经纯化相比，经过纯化的编码探针的CT值无显著性差异，证明当P1相对过量的条件下，纯化与否暂无明确影响。

实施例3、核酸编码探针设计及合成方案实验验证

一、核酸编码探针的设计

根据实施例1的一的方案，设计合成核酸编码探针：

核酸编码探针由表1中的P1分别与表2中P2连接得到，且p1的最后一个碱基与p2的第一个碱基紧邻。

如：表1中的P1-A分别连接表2中的P2-1至P2-96，形成96条核酸编码探针；

表1中的P1-B分别连接表2中的P2-1至P2-96，形成96条核酸编码探针；

表2中的P1-C分别连接表2中的P2-1至P2-96，形成96条核酸编码探针；

表3中的P1-D分别连接表2中的P2-1至P2-96，形成96条核酸编码探针；

本发明的实施例共合成384条核酸编码探针。

表1为核酸编码探针的P1和linker序列

上表1中，P1-A至P1-D中，从5'末端起前7个T为space序列，且第一个T生物素修饰；带有下划线的6个碱基为样品标签，样品编码与space序列之间的为测序接头，样品标签后面是Read2-1。

表2为核酸编码探针的P2

上表2中，P2-1至P2-96中，从5'末端起前16个碱基为对应Read2-2，10个N为UMI序列，UMI序列前16个碱基为微坑编码序列，UMI序列后面的16个T为Poly-T，且最后的V为除去T的其他3个碱基的随机碱基，N为ATCG的随机碱基。

二、核酸编码探针的合成

采用了一系列的实验确定了编码探针设计及合成方法的可行性，包括qpcr、二代测序、流式细胞术、凝胶电泳和一代测序。

Qpcr：如上所述，在qpcr实验验证后得到两套暂时可行的合成方案，具体选择哪一套方案还需要进一步实验。

1、二代测序

1)核酸编码探针的合成

按照实施例2中的方案一和方案二的方法分别合成192种编码探针(以P1-A和P1-B和其他P2对应合成的探针为例)，用于A549细胞(ATCC，CCL-185)的测序实验。这里最重要的指标是192种探针的均一性，即合成方案是否能够保证所有探针均一等量地合成。

2)探针杂交

用如上裂解液裂解A549细胞，得到细胞裂解物。

将0.2ul上述合成的核酸编码探针(0.1umol/l)分布到超疏水芯片对应的微坑(Wang,Y.,Wu,Y.,Chen,Y.,Zhang,J.,Chen,X.and Liu,P.(2018)Nanoliter CentrifugalLiquid Dispenser Coupled with Superhydrophobic Microwell Array Chips forHigh-Throughput Cell Assays.Micromachines(Basel),9.)中，与过量(40ul,5mg/ml)的M270磁珠(Thermo Fisher)连接后，加入共40uL体积的细胞裂解产物。

在室温条件下，反应20分钟时间。

探针充分捕获细胞释放的mRNA后，用移液枪冲洗方法回收磁珠，收集含有磁珠的液体。

以含有磁珠液体为模板，用MTND4L,ACTB,PPP1R26,and GPR17的引物进行qpcr扩增，评估核酸编码探针的捕获效果，具体引物信息如下表3所述。

表3为引物序列

将上述qpcr扩增产物送去Illumina测序。

结果如下：

方案一合成的编码探针的测序读数空间分布如图4所示，可以看出，方案一合成方法下探针之间的均一性较差，且与192孔板的空间位置没有明确的对应关系。

方案二合成的编码探针的测序读数空间分布如图5所示，可以看出，方案二合成方法下探针之间的均一性较好。

图6和图7分别为方案二合成方法下192个探针对应的测序读数统计图和方案二合成方法下每个探针对应的测序数据比对率，可以看出，从检出基因数和基因比对率显示出方案二合成方法下探针之间的均一性较好。

通过以上数据，确定方案二是更佳的合成方案，即通过保证P1相对P2过量，且不引入纯化步骤。

2、流式细胞术

利用流式细胞仪，将利用方案二合成的编码探针与生工合成的全长探针(订购的完整核酸编码探针)进行对比。

以如下探针为例：

TTTTTTTCAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACG(P1)TGTGCTCTTCCGATCTCGACACGGTTTGGGCCNNNNNNNNNNTTTTTTTTTTTTTTTTVN(P2)

用如上裂解液裂解A549细胞，得到细胞裂解物。

分为4组进行检测：

磁珠加有效T4连接后的编码探针组(图8的下图右)：将上述方案二合成的核酸编码探针分布到超疏水芯片对应的微坑(Wang,Y.,Wu,Y.,Chen,Y.,Zhang,J.,Chen,X.andLiu,P.(2018)Nanoliter Centrifugal Liquid Dispenser Coupled withSuperhydrophobic Microwell Array Chips for High-Throughput CellAssays.Micromachines(Basel),9.)中，与过量(0.2*5mg)的M270磁珠(Thermo Fisher)连接后，加入共40uL体积的细胞裂解产物；在室温条件下，反应20分钟时间；探针充分捕获细胞释放的mRNA后，用移液枪冲洗方法回收磁珠，收集含有磁珠的液体。

磁珠加无效T4连接后的编码探针组(图8的下图左)：与上述磁珠加有效T4连接后的编码探针组的区别仅为：将上述方案二合成的核酸编码探针替换为磁珠加无效T4连接后的编码探针；

上述磁珠加无效T4连接后的编码探针制备方法与方案二基本相同，区别仅在与P2的5'末端没有磷酸化修饰。

只有磁珠组(阴性对照)：与上述磁珠加有效T4连接后的编码探针组的区别仅为：不加入核酸编码探针；

订购完整的捕获探针组：与上述磁珠加有效T4连接后的编码探针组的区别仅为：将上述合成的核酸编码探针替换为生工合成的全长探针；

其中，只在P2的3'端标记荧光基团，用以作为判断P1和P2是否连接的依据(只有P1可与磁珠连接)。

结果如图8所示，四图分别代表只有磁珠(图8左上图)、磁珠加捕获探针(图8右上图)、磁珠加无效T4连接后的编码探针(图8左下图)、磁珠加有效T4连接后的编码探针(图8右下图)，可以看出，方案二合成的探针除了在强度上略低于生工合成的全长探针，其余峰图几乎完全相同。这说明方案二合成了全长的探针，但略微夹杂着一些小片段。

3、凝胶电泳

通过pcr将方案二合成的编码探针扩增，纯化后利用凝胶电泳进行检测。

通过上述方案二方法合成全长的编码探针，所用的P1和P2序列如下：TTTTTTTCAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACG和TGTGCTCTTCCGATCTCGACACGGTTTGGGCCTTTTTTTTTTTTTTTTVN(不含有UMI序列，这是由于sanger测序需要确定序列的原因，验证试验无需加UMI)。

上述方案二合成的探针的核苷酸序列为：TTTTTTTCAAGCAGAAGACGGCATACGAGATCG TGATGTGACTGGAGTTCAGACG(P1)TGTGCTCTTCCGATCTCGACACGGTTTGGGCCTTTTTTTTTTTTTTTTVN(P2)

将上述核酸探针构建为质粒，作为模板，以两端的序列作为引物(引物序列为同上，P7和TSO)扩增，纯化扩增的序列后进行凝胶电泳试验。

结果如图9所示，9个泳道分别为质粒扩增后的9个重复结果；在保证marker和NC正常的情况下，9个泳道均有明显的110bp左右的片段，证实方案二合成了预先设计的全长探针。

4、一代测序

将上述3中凝胶电泳中5、6、7泳道的有核酸片段的凝胶部分切下，用于Sanger测序。Sanger测序得到最终的序列与预先设计的全长探针的序列完全相同。

因此，上述结果表明，方案二合成的核酸编码探针合成成功。

SEQUENCE LISTING

<110>清华大学

<120>一种用于高通量测序核酸编码探针的设计及合成方法

<160> 2

<170> PatentIn version 3.5

<210> 1

<211> 24

<212> DNA

<213> Artificial sequence

<400> 1

caagcagaag acggcatacg agat 24

<210> 2

<211> 34

<212> DNA

<213> Artificial sequence

<400> 2

gtgactggag ttcagacgtg tgctcttccg atct 34

Claims

1.核酸编码探针组，由m×n条核酸编码探针组成；所述m和n为大于等于2的整数；

每条所述核酸编码探针包括测序接头、样品标签序列、Read2序列、微坑编码序列、UMI序列和样本捕获序列；所述样品标签序列和所述微坑编码序列构成所述核酸编码探针的样本编码系统；

所述每条核酸编码探针的样本编码系统均不同；

所述n种微坑编码序列中的差异碱基数均大于2个。

2.根据权利要求1所述的核酸编码探针组，其特征在于：

所述样品标签序列由6个随机碱基组成，且每个样品标签序列均满足小于等于2个连续碱基重复；

所述UMI序列由10个随机碱基组成；

所述随机碱基为A、T、C或G。

3.根据权利要求1或2所述的核酸编码探针组，其特征在于：

在所述测序接头的上游还连接有space序列，所述space序列由5-10个T组成，且所述space序列的第一个碱基生物素修饰。

4.根据权利要求1-3中任一所述的核酸编码探针，其特征在于：

所述核酸编码探针从5'末端起依次由如下组分组成：所述space序列、所述测序接头、所述样品标签序列、所述Read2序列、所述微坑编码序列、所述UMI序列、所述Poly-T、所述V和所述N。

5.根据权利要求1-4中任一所述的核酸编码探针，其特征在于：

所述测序接头的核苷酸序列为序列表中序列1；

所述样品标签序列为CGTGAT、ACATCG、GCCTAA或TGGTCA；

所述Read2序列的核苷酸序列为序列表中序列2。

6.一种合成权利要求1-5中任一所述核酸编码探针的方法，包括如下步骤：

1)设计权利要求1-5中任一所述的核酸编码探针组中的核酸编码探针，且将每条所述核酸编码探针从Read2中任2个碱基处分开，靠近所述核酸编码探针5'端的序列命名为P1，剩余一段序列命名为P2；

2)分别合成每条所述核酸编码探针的P1、其对应的P2和linker；

所述P2的5'末端进行磷酸化修饰；

所述linker与所述核酸编码探针中的Read2反向互补；

7.根据权利要求6所述的方法，其特征在于：在步骤3)中，连接体系中，所述P1的摩尔量大于所述P2的摩尔量；

8.根据权利要求6或7所述的方法，其特征在于：在步骤3)中，若所述P1的摩尔量小于所述P2的摩尔量时，所述方法还包括如下步骤：纯化所述连接产物。

9.权利要求1-5中任一所述探针或由权利要求6-8任一方法制备的探针在捕获目的片段中的应用；

或，权利要求1-5中任一所述探针或由权利要求6-8任一方法制备的探针在高通量测序中的应用；

或，权利要求1-5中任一所述探针或由权利要求6-8任一方法制备的探针在制备捕获目的片段产品中的应用；

或，权利要求1-5中任一所述探针或由权利要求6-8任一方法制备的探针在制备高通量测序产品中的应用。

10.一种合成权利要求1-5中任一所述探针的系统，包括权利要求6-8任一中的所述P1、所述P2、所述linker和所述T4连接酶。