CN119585426A

CN119585426A - 空间转录组学文库制备材料和方法

Info

Publication number: CN119585426A
Application number: CN202380049879.6A
Authority: CN
Inventors: A·奥斯特罗; S·克拉蒙斯; J·胡; M·埃卡斯特兰德; J·曼斯; C·爱普瑞; A·曼佐; J·费希尔; B·马泽; G·卡珀; A·怀特
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2022-12-29
Filing date: 2023-12-29
Publication date: 2025-03-07
Also published as: WO2024145579A1; WO2024145579A8

Abstract

本公开整体涉及用于通过改善从组织样本原位捕获RNA转录物信息来改善空间转录组学RNA文库、例如mRNA文库的制备的方法。来自组织样本的该空间转录组学文库可用于确定遗传图谱并帮助诊断患有疾病，诸如癌症、遗传疾病、自身免疫疾病和其他适应症或处于患有该疾病风险中的人，并改善对受试者的治疗。

Description

空间转录组学文库制备材料和方法

相关申请的交叉引用

本申请要求2022年12月29日提交的美国临时专利申请号63/477,726和2023年12月20日提交的美国临时专利申请号63/612,819的优先权益处，该美国临时专利申请的全文以引用方式并入本文。

以引用方式并入序列公开内容

作为本公开的一部分的序列表与说明书作为计算机可读文件同时提交。含有序列表的文件名是“IP-2535-PC_SeqListing.xml”，该文件创建于2023年12月21日并且大小为20,735字节。将序列表的主题全文以引用方式引入本文。

技术领域

本公开一般涉及通过改善从原位样本捕获mRNA转录物的方法来产生空间转录组学mRNA文库的方法，以及通过这些方法制备的mRNA文库。

背景技术

空间转录组学使得能够进行高分辨率原位基因表达谱分析，其中在复杂组织架构内捕获细胞关系。福尔马林固定的石蜡包埋的(FFPE)组织代表用于癌症研究的宝贵资源，因为它们是已知患者结果的最广泛可获得的材料(最近的估计表明全世界有>10亿个FFPE样本)。然而，已知福尔马林固定和随后的解交联在组织处理期间引起RNA的降解和化学修饰，使得mRNA的聚A捕获比在新鲜冷冻组织中更具挑战性。

发明内容

本公开提供了用于通过提高从组织样本捕获mRNA转录物的效率从原位样本(例如新鲜冷冻或福尔马林固定的石蜡包埋的组织样本)产生mRNA转录物文库的改善方法，从而产生更完整的转录组学文库。该方法可用于从患有疾病的患者中的样本(诸如肿瘤活检或其他组织)中分离基因组信息，并将遗传信息与患有疾病或处于患有疾病或发展疾病的风险相关联。

在一个方面，本公开提供了从组织样本制备mRNA转录物表达文库的方法，该方法包括：a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该多个5'基因特异性探针包含与该第一通用衔接子序列互补的序列以及5'基因特异性引物；ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)；c)使(b)中的组织样本与连接试剂接触，使得彼此邻近地与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸捕获在基底上。

还考虑了确定组织样本中mRNA转录物表达的方法，该方法包括a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该多个5'基因特异性探针包含与该第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)；c)将(b)中的组织样本与连接试剂接触，使得彼此邻近地与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸捕获在基底上。

在另一个方面，本公开提供了从组织样本制备mRNA转录物表达文库的方法和/或从组织样本确定mRNA转录物表达的方法，该方法包括：a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使组织样本与以下物质接触：i)多个5'基因特异性探针，该5'基因特异性探针包含与第一通用衔接子序列互补的序列、独特分子索引和5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物和第二通用衔接子序列(例如，Rd1衔接子)；c)将(b)中的组织样本与连接试剂接触，使得彼此邻近地与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸捕获在基底上。

在各种实施方案中，本公开提供了从组织样本制备mRNA转录物表达文库的方法，该方法包括：a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该多个5'基因特异性探针包含与该第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)，其中5'基因特异性探针和3'基因特异性探针在mRNA转录物上的杂交导致杂交分子之间的核苷酸缺口；c)使(b)中的组织样本与核苷酸碱基和连接试剂接触，使得与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针之间的缺口被与mRNA转录物互补的核苷酸碱基填充，并且5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；以及e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸序列捕获在基底上。

本公开还考虑了确定组织样本中mRNA转录物表达的方法，该方法包括a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该多个5'基因特异性探针包含与该第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)，其中该一个或多个5'基因特异性探针和该一个或多个3'基因特异性探针在mRNA转录物上的杂交导致杂交分子之间的核苷酸缺口；c)使(b)中的组织样本与核苷酸碱基和连接试剂接触，使得与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针之间的核苷酸缺口被与mRNA转录物互补的核苷酸碱基填充，并且5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；以及e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸序列捕获在基底上。

在各种实施方案中，本公开提供了从组织样本制备mRNA转录物表达文库的方法和/或从组织样本确定mRNA转录物表达的方法，该方法包括a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中该捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使组织样本与以下物质接触：i)多个5'基因特异性探针，该5'基因特异性探针包含与第一通用衔接子序列互补的序列、独特分子索引和5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物和第二通用衔接子序列(例如，Rd1衔接子)，其中5'基因特异性探针和3'基因特异性探针在mRNA转录物上的杂交导致杂交分子之间的核苷酸缺口；c)使(b)中的组织样本与核苷酸碱基和连接试剂接触，使得与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针之间的缺口被与mRNA转录物互补的核苷酸碱基填充，并且5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；以及e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸序列捕获在基底上。

在各种实施方案中，核苷酸缺口为1个至50个或更多个核苷酸，包括50个或更多个核苷酸、1个至50个核苷酸、1个至40个核苷酸、1个至30个核苷酸、1个至20个核苷酸或1个至10个核苷酸。

在各种实施方案中，组织样本是新鲜组织样本、冷冻组织样本或福尔马林固定的石蜡包埋的(FFPE)组织样本。

考虑该方法还包括对连接的基因特异性探针对进行索引和测序，包括f)在(e)的寡核苷酸上执行延伸反应和PCR以产生代表组织样本中一种或多种mRNA转录物的PCR模板；g)洗脱该PCR模板；以及h)进行索引PCR，以产生包含第一链PCR产物和与第一链PCR产物互补的第二链的双链PCR产物。在各种实施方案中，该方法还包括对(h)的PCR产物进行测序，以及基于空间条形码(SBC)序列的位置确定mRNA转录物在组织中的位置。

本公开提供了用于通过提高从组织样本捕获mRNA转录物的效率从组织样本(例如新鲜冷冻的或福尔马林固定的石蜡包埋的组织样本)产生RNA文库(例如mRNA文库)的改善方法，从而产生更完整的转录组学文库。

现有的靶向非原位空间方法通常涉及针对组织内的RNA靶连接探针对。除非执行缺口填充然后执行连接，否则不能获得来自RNA的序列信息，而是经由测序对连接的探针计数。例如，如果突变(SNV或改变的剪接接合点等)存在于RNA中，则它们将不会被检测到。

提出了用靶向探针捕获RNA的多种方法，该靶向探针然后可以与基底连接的探针杂交，该基底连接的探针包含用于RNA文库制备的空间条形码化序列。

在一个方面，本公开提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括：(a)使组织样本与同组织样本中的RNA杂交的多个RNA捕获探针接触，其中RNA捕获探针中的每个RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸序列和与多个夹板寡核苷酸的第一结构域互补的第一基底捕获寡核苷酸；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)使用逆转录酶进行RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中第一链cDNA分子中的每个第一链cDNA分子包含RNA捕获寡核苷酸和第一基底捕获寡核苷酸；(d)在基底上捕获第一链cDNA分子，其中该基底包含多个基底捕获探针，每个基底捕获探针包含空间条形码和与夹板寡核苷酸的第二结构域互补的第二基底捕获寡核苷酸，并且其中捕获包括使夹板寡核苷酸与第一链cDNA分子的第一基底捕获寡核苷酸和基底捕获探针的第二基底捕获寡核苷酸杂交；以及(e)将捕获的第一链cDNA分子与基底捕获探针连接，从而形成空间条形码化的第一链cDNA分子。

在各种实施方案中，基底捕获探针还包含基底锚定部分。

在各种实施方案中，表面寡核苷酸还包含P7衔接子和用于读取空间条形码序列的RNA捕获探针引物。

还考虑了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括(a)使组织样本与同组织样本中的RNA杂交的多个RNA捕获探针接触，其中该RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸以及柄序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)使用逆转录酶进行RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中第一链cDNA分子中的每个第一链cDNA分子包含RNA捕获寡核苷酸和柄序列；(d)将3'端寡核苷酸添加到每个第一链cDNA分子的3'端，其中该3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码和第一结构域；(e)使第一链cDNA分子的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；以及(f)进行杂交的基底捕获探针的第一结构域的延伸以形成多个空间条形码化的第一链cDNA分子。

在各种实施方案中，柄序列是PCR柄序列、分子标识符、UMI或它们的任何组合。在各种实施方案中，柄序列是P5衔接子序列。

在各种实施方案中，通过标签化添加3'端寡核苷酸。在各种实施方案中，通过点击化学或oNTP指导的衔接化(adapterization)添加3'端寡核苷酸。在各种实施方案中，通过用点击标记的核苷酸终止延伸反应来添加3'OH。在各种实施方案中，点击标记的核苷酸是叠氮化物或炔标记的寡核苷酸。在各种实施方案中，延伸反应将聚A序列添加到3'延伸的序列中。

在各种实施方案中，第一链cDNA用聚T序列捕获在表面捕获寡核苷酸上。

还提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括(a)使组织样本与同组织样本中的RNA杂交的多个RNA捕获探针接触，其中该RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸以及柄序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)使用逆转录酶进行RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中第一链cDNA分子中的每个第一链cDNA分子包含RNA捕获寡核苷酸和柄序列；(d)经由模板转换向每个第一链cDNA分子的3'端添加3'端寡核苷酸，包括使第一链cDNA分子与逆转录酶(RT)和模板转换寡核苷酸(TSO)接触，其中RT在第一cDNA的3'端掺入未模板化的胞嘧啶核苷酸，并且TSO包含能够与未模板化的胞嘧啶核苷酸杂交的序列，其中3'端寡核苷酸附加到第一cDNA的3'端，并且RT延伸以产生TSO补体；其中该3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中该多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码和第一结构域；(e)使第一链cDNA分子的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；以及(f)进行杂交的基底捕获探针的第一结构域的延伸以形成多个空间条形码化的第一链cDNA分子。

在各种实施方案中，在将基底捕获寡核苷酸与基底捕获探针的第一结构域杂交之前，从基底释放基底捕获探针。

在各种实施方案中，第一结构域是聚T序列。

在另一个方面，本公开提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括(a)使组织样本与同组织样本中的RNA杂交的多个RNA捕获探针接触，其中该RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸以及柄序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)使用逆转录酶进行RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中第一链cDNA分子中的每个第一链cDNA分子包含RNA捕获寡核苷酸和柄序列；(d)经由模板转换向每个第一链cDNA分子的3'端添加3'端寡核苷酸，包括使第一链cDNA分子与逆转录酶(RT)和模板转换寡核苷酸(TSO)接触，其中RT在第一cDNA的3'端掺入未模板化的胞嘧啶核苷酸，并且TSO包含能够与未模板化的胞嘧啶核苷酸杂交的序列，其中3'端寡核苷酸附加到第一cDNA的3'端，并且RT延伸以产生TSO补体；其中该3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中该多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、第二柄、空间条形码和第一结构域；(e)从基底释放基底捕获探针；(f)使第一链cDNA分子的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；以及(g)使该第一链与包含TSO引物的第二链合成混合物接触，并且使用该第一链作为模板延伸该TSO引物，以产生与该第一链互补的第二链，该第二链包含该TSO、与该第一cDNA互补的第二cDNA、以及包含与空间条形码序列(SBC)互补的空间条形码序列补体(SBC')的第二链条形码信息。

在各种实施方案中，第一结构域是与TSO上的聚C序列杂交的聚G序列。在各种实施方案中，柄是P5序列，并且第二柄是P7序列。

在另一个方面，本公开提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括：(a)使组织样本与结合组织样本中的RNA的多个RNA捕获探针接触，其中每个RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中与RNA互补的RNA捕获寡核苷酸在3'端被封闭；其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含第一结构域和第一基底锚定序列，并且邻近基底上的一个或多个条形码化的基底探针，并且其中条形码化的基底探针中的每个条形码化的基底探针以5'至3'取向包含第二基底锚定序列、空间条形码和随机引发序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成具有5'单链RNA区域的RNA-RNA捕获探针杂交体；(c)使RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；(d)使RNA-RNA捕获探针杂交体的5'单链RNA区域与条形码化的基底探针的随机引发序列杂交；以及(e)使用逆转录酶进行与5'单链RNA区域杂交的随机引发序列的延伸，以形成多个空间条形码化的第一链cDNA分子。

在各种实施方案中，与样本中的RNA互补的核苷酸序列是聚T寡核苷酸、随机寡核苷酸(randomer)、半随机寡核苷酸或靶特异性序列。在各种实施方案中，与样本中的RNA互补的核苷酸序列是聚T寡核苷酸。

在各种实施方案中，该方法还包括从样本中去除RNA的步骤。在各种实施方案中，在延伸形成第一链cDNA后，从样本去除RNA。在各种实施方案中，通过酶促或热方法去除RNA。

还提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括(a)使组织样本与同组织样本中的RNA杂交的多个RNA捕获探针接触，其中RNA捕获探针中的每个RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、第一结构域、接头、空间条形码和随机引发序列；(b)使RNA捕获探针与组织样本中的RNA杂交，以形成具有5'单链RNA区域的RNA-RNA捕获探针杂交体；(c)使RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；(d)使RNA-RNA捕获探针杂交体的5'单链RNA区域与基底捕获探针的随机引发序列杂交；以及(e)使用逆转录酶进行与5'单链RNA区域杂交的随机引发序列的延伸，以形成多个空间条形码化的第一链cDNA分子。

在各种实施方案中，接头是不能被聚合酶通读的接头。

在另一个方面，本公开考虑了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括(a)使组织样本与结合组织样本中的RNA的多个RNA捕获探针接触，其中RNA捕获探针中的每个RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸；其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含第一结构域和第一基底锚定序列，并且邻近基底上的多个条形码化的基底探针中的至少一个条形码化的基底探针，并且其中每个条形码化的基底探针以5'至3'取向包含空间条形码和第二基底锚定序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)通过使RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交，在基底上捕获RNA-RNA捕获探针杂交体；(d)使用逆转录酶进行捕获的RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子；(e)将第一链cDNA分子中的每个第一链cDNA分子与近端条形码化的基底探针连接，从而形成空间条形码化的第一链cDNA分子。

还考虑了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括：(a)使组织样本与结合组织样本中的RNA的多个RNA捕获探针接触，其中RNA捕获探针中的每个RNA捕获探针包含与样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中与RNA互补的RNA捕获寡核苷酸在3'端被封闭；其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含第一结构域和第一基底锚定序列，并且邻近基底上的多个条形码化的基底探针中的至少一个条形码化的基底探针，并且其中每个条形码化的基底探针以5'至3'取向包含聚T序列、空间条形码和第二基底锚定序列；(b)使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；(c)通过使RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交，在基底上捕获RNA-RNA捕获探针杂交体；(d)使样本中的RNA在3'端处多聚腺苷酸化；以及(e)使用逆转录酶进行捕获的RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子。

在各种实施方案中，使用聚A聚合酶进行多聚腺苷酸化。

还提供了用于从组织样本制备空间条形码化的RNA文库的方法，该方法包括：(a)使组织样本与与组织样本中的RNA杂交的多个RNA捕获探针接触，其中RNA捕获探针中的每个RNA捕获探针具有发夹结构并且包含与样本中的RNA互补的DNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中RNA捕获探针的DNA捕获寡核苷酸包含单链区，并且其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码、第一结构域和第二结构域，其中第二结构域包含至少一个RNA核苷酸或核苷；(b)使RNA捕获探针与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体，其中RNA-RNA捕获探针杂交体中的每个RNA-RNA捕获探针杂交体包含5'单链RNA末端区域；(c)通过使RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交，在基底上捕获RNA-RNA捕获探针杂交体的基底捕获寡核苷酸；(d)将捕获的RNA-RNA捕获探针杂交体的5'单链RNA末端区域磷酸化，并使捕获的RNA-RNA捕获探针杂交体与5'至3'核糖核酸外切酶接触以消化磷酸化的5'单链RNA末端区域；以及(e)将捕获的RNA-RNA捕获探针杂交体的消化的5'RNA末端区域与基底捕获探针的第二结构域连接，以在基底上形成多个DNA-RNA嵌合体。

在各种实施方案中，用T4连接酶进行连接。

在各种实施方案中，捕获的RNA-RNA捕获探针杂交体的RNA在连接之前被5'磷酸化。

在各种实施方案中，该方法还包括在基底上从多个DNA-RNA嵌合体产生第一链cDNA。在各种实施方案中，第一链cDNA可从表面杂交并处理用于测序。

在各种实施方案中，使用任选地包含P5衔接子的DNA随机引物进行逆转录。

在各种实施方案中，cDNA延伸模板可通过化学、酶促或热去杂交从组织中的RNA去杂交。在各种实施方案中，cDNA延伸模板可通过化学、酶促或热去杂交从基底上的RNA去杂交。在各种实施方案中，去杂交步骤发生在捕获步骤之前或之后。

在各种实施方案中，RNA捕获探针选自由聚T序列、聚U序列、随机寡核苷酸、半随机序列或靶特异性探针组成的组。在各种实施方案中，RNA捕获探针是聚T序列。

在各种实施方案中，RNA捕获探针包含至少10个脱氧胸苷残基。在各种实施方案中，RNA捕获探针包含多个不同的靶特异性RNA捕获探针序列。在各种实施方案中，RNA捕获探针包含与靶RNA的核苷酸序列互补的至少10个核苷酸。在各种实施方案中，RNA捕获探针或表面捕获探针为8个至80个核苷酸。在各种实施方案中，RNA捕获探针为介于8个至80个核苷酸或介于10个至50个核苷酸。

在各种实施方案中，在使组织样本与多个捕获寡核苷酸接触之前，使组织样本透化。在各种实施方案中，在使组织样本与多个RNA捕获探针接触之前，用一种或多种封闭试剂处理组织样本。在各种实施方案中，在使组织样本与多个RNA捕获探针接触之前，使组织样本透化并用一种或多种封闭试剂处理。

在各种实施方案中，基底是小珠、小珠阵列、点样阵列、包含多个孔的基底、流通池、排列在芯片表面上的聚集颗粒、膜或板。在各种实施方案中，基底包括多个纳米孔或微孔。

在各种实施方案中，组织样本是新鲜组织样本、冷冻组织样本或福尔马林固定的石蜡包埋的(FFPE)组织样本。在各种实施方案中，当样本是FFPE样本时，该方法还可包括使FFPE样本解交联，任选地其中解交联使用pH 9的TE缓冲液进行。

在各种实施方案中，该方法还包括通过将空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列与基底上的含有对应空间条形码序列的表面寡核苷酸分子的空间位置相关联来确定空间条形码化的第一链cDNA分子或其拷贝中的一者或多者的空间位置。

在各种实施方案中，该方法还包括回收空间条形码化的第一链cDNA分子，以及将其扩增以产生cDNA文库。

在各种实施方案中，空间条形码化的第一链cDNA分子是通过使基底上的空间条形码化的第一链cDNA与DNA聚合酶和一种或多种引物接触以产生与空间条形码化的第一链cDNA互补的空间条形码化的第二链cDNA并且从基底上去除空间条形码化的第二链cDNA来回收的。

在各种实施方案中，一种或多种引物各自包含随机引发序列。在各种实施方案中，随机引发序列包含九个随机核苷酸。

在各种实施方案中，空间条形码化的第二链cDNA各自包含唯一分子标识符(UMI)，其中UMI包含内在序列和外在序列，其中外在序列是与用于产生第二链cDNA的随机引发序列互补的序列，并且其中内在序列是与用于产生第二链cDNA的第一链cDNA模板序列互补的序列。

在各种实施方案中，一种或多种引物各自包含分子标识符条形码。在各种实施方案中，一种或多种引物各自包含UMI条形码。

在各种实施方案中，通过化学或物理去杂交(chemical or physicaldehybridization)来将空间条形码化的第二链cDNA从基底上去除。

在各种实施方案中，锚定序列包含切割位点，并且空间条形码化的第一链cDNA和空间条形码化的第二链cDNA的杂交体通过在切割位点处的酶促切割从基底去除。在各种实施方案中，切割位点是限制性核酸内切酶的结合位点。在各种实施方案中，锚定序列包含切割位点，并且其中空间条形码化的第一链cDNA分子是通过在切割位点处的酶促切割来回收的。在各种实施方案中，切割位点是限制性核酸内切酶的结合位点。

在各种实施方案中，该方法还包括对cDNA文库的至少一部分进行测序，以确定每个分子的空间条形码序列。

在各种实施方案中，该方法还包括通过将一个或多个cDNA分子的空间条形码序列与基底上的含有相应空间条形码序列的表面寡核苷酸分子的空间位置相关联来确定一个或多个cDNA分子的空间位置。

在各种实施方案中，该方法还包括对空间条形码化的第一链cDNA进行索引和测序，该方法包括对空间条形码化的第一链cDNA执行延伸反应和PCR以产生PCR模板，该PCR模板包含代表组织样本中的一种或多种RNA转录物的第一链PCR产物；以及洗脱该PCR模板；进行索引PCR，以产生包含该第一链PCR产物和与该第一链PCR产物互补的第二链的双链PCR产物。

在各种实施方案中，该方法还包括对PCR产物进行测序，以及基于第一链cDNA的空间条形码确定RNA转录物在组织中的位置。

在各种实施方案中，双链PCR产物包含与第一链PCR产物互补的第二链上的第二聚类序列，并且任选地包含索引序列。

在各种实施方案中，通过标签化进一步处理PCR产物，以产生空间转录组学文库。在各种实施方案中，标签化包括在基底上标签化。在一些实施方案中，标签化包括在小珠上标签化，其中该小珠包括多个小珠连接的转座体(BLT)。在一些实施方案中，BLT包含i)包含第一聚类序列(P7)、第一索引序列和Read 1测序引物(Rd1 SP)的多个寡核苷酸和ii)包含第二聚类序列(P5)、第二索引序列和Read 2测序引物(Rd2 SP)的多个寡核苷酸。

在各种实施方案中，RNA文库是mRNA文库。

在各种实施方案中，该方法用组织样本确定单细胞中的RNA表达。在各种实施方案中，该方法确定单细胞中一种或多种亚细胞组分中的RNA表达。在各种实施方案中，亚细胞组分是细胞核、细胞质或线粒体。

在各种实施方案中，基底或基底的表面包含选自玻璃、硅、聚-L-赖氨酸涂覆的材料、硝化纤维、聚苯乙烯、环烯烃共聚物(COC)、环烯烃聚合物(COP)、聚丙烯酰胺、聚丙烯、聚乙烯或聚碳酸酯的材料。

还提供了鉴定患有疾病或处于患有疾病的风险中的受试者的遗传变异的方法，该方法包括根据本文所述的方法从来自受试者的组织样本产生样本RNA文库(例如mRNA文库)，将来自样本RNA文库(例如mRNA文库)的遗传信息与对照RNA文库(例如mRNA文库)或与疾病前的受试者样本进行比较，并且鉴定样本RNA文库(例如mRNA文库)中与疾病相关的遗传变异。任选地，该方法包括用对该疾病具有特异性的疗法治疗受试者。

在各种实施方案中，该疾病是遗传缺陷、癌症、自身免疫性疾病、代谢障碍或本文所述的其他疾病。附加疾病或病症更详细地描述于具体实施方式中。

应当理解，本文所述的每个特征或实施方案或组合是本发明的任何方面的非限制性的、说明性的示例，并且因此意味着可与本文所述的任何其他特征或实施方案或组合相组合。例如，在用诸如“一个实施方案”、“各种实施方案”、“一些实施方案”、“某些实施方案”、“另外的实施方案”、“特定示例性实施方案”和/或“另一个实施方案”之类的语言描述特征的情况下，这些类型的实施方案中的每一者都是旨在与本文所述的任何其他特征或特征的组合相组合的特征的非限制性示例，而不必列出每一种可能的组合。

这些特征或特征的组合适用于本发明的任何方面。当公开落入范围内的值的示例时，这些示例中的任一示例被认为是范围的可能端点，此类端点之间的任何和所有数值被考虑在内，并且上限和下限的任何和所有组合被认为是可能的。

附图说明

图1是使用捕获探针从组织样本原位捕获mRNA转录物的方法的示意图。

图2是使用捕获探针从组织样本原位捕获mRNA转录物的方法的示意图，其中与转录物杂交的捕获探针导致杂交序列之间的核苷酸缺口。

图3.如本文所述的示例性RNA文库制备工作流程的示意图。

图4A至图4D.如本文所述的另选RNA文库制备工作流程的示意图。图4A显示了一般的工作流程，而添加3'寡核苷酸的方法是通过oNTP指导的衔接化或点击化学(图4B)、模版转换(图4C)或其中模版转换引物从基底上释放并被空间条形码化的模版转换(图4D)来添加的。

图5A至图5B.在靶探针上使用3'封闭的寡核苷酸的如本文所述的另选RNA文库制备工作流程的示意图。

图6A至图6B.如本文所述的另选RNA文库制备工作流程的示意图。

图7.使用发夹探针的如本文所述的另选RNA文库制备工作流程的示意图。

图8示出了基于图3中的方案的工作流程。

图9示出了基于图4A和图4B中的方案的工作流程。

图10示出了基于图4C中的方案的工作流程。

图11示出了基于图4D中的方案的工作流程。

图12示出了基于图5A中的方案的工作流程。

图13示出了基于图5B中的方案的工作流程。

图14示出了基于图6A中的方案的工作流程。

图15示出了基于图6B中的方案的工作流程。

图16示出了基于图7中的方案的工作流程。

具体实施方式

为了克服从新鲜冷冻或FFPE组织样本分离mRNA转录物的技术限制，本文描述了从这种受损组织mRNA捕获和产生空间条形码化的文库的原位方法。

本文描述了多种方法和组合物，该方法和组合物允许表征组织中的遗传图谱，同时保留与组织中靶基因或多核苷酸的来源相关的空间信息。在各种实施方案中，该方法包括基底，在该基底上固定有多个捕获探针，使得每个捕获探针占据阵列上的不同位置。在其他序列和/或分子中，每个捕获探针包括独特定位核酸标签(即，空间地址或索引序列)。每个空间地址对应于捕获探针在阵列上的位置。可将捕获探针在阵列上的位置与组织样本中的位置相关联。

组织样本中的基因或多核苷酸的示例包括基因组DNA、甲基化DNA、特异性甲基化DNA序列、信使RNA(mRNA)、聚A mRNA、片段化mRNA、片段化DNA、线粒体DNA、核糖体RNA(rRNA)、病毒RNA、微RNA、原位合成的PCR产物和RNA/DNA杂交体。还考虑了非编码RNA(ncRNA)、小核仁RNA(snoRNA)和/或小核RNA(snRNA)。

可使核酸标签编码位置(即，空间地址或索引序列)与核酸捕获区域或结合靶基因或多核苷酸的任何其他分子偶联。可与核酸标签偶联的其他分子的示例包括抗体、抗原结合结构域、蛋白质、肽、受体、半抗原等。

本文描述了多种方法和组合物，该方法和组合物允许表征组织中的转录组和/或基因组变异，同时保留与组织中靶核酸的来源相关的空间信息。例如，本文公开的方法能够鉴定携带异常突变的组织活体检查中的细胞或细胞簇的位置。因此，本文提供的方法可用于诊断目的，例如用于癌症的诊断，并且可能有助于靶向疗法的选择。

本公开部分地基于以下认识：在制备用于测序的核酸的过程中，可以在核酸中编码与组织样本中的核酸的空间来源相关的信息。例如，来自组织样本的核酸可由包括位置特异性序列信息(“空间地址”)的探针标签化。然后可以大量测序来自组织样本的空间寻址的核酸分子。来源于组织样本中不同区域的序列相同的核酸分子可以基于它们的空间地址来区分，并且可以映射到它们在组织样本中的来源区域上。除此之外，核酸的空间寻址可以增加组织样本中单核苷酸变异(SNV)或单核苷酸多态性(SNP)的检测灵敏度。

在本文所述的一些方法中，用于空间标签化的探针包括例如空间地址区域和基因特异性捕获区域的组合。空间寻址和基因特异性探针可以作为捕获阵列上的固定化探针与组织样本接触。

本公开认识到，来自组织样本的核酸的空间寻址可涉及二维空间寻址，例如，以将二维捕获阵列上的核酸的位置与二维组织切片中的核酸的位置相关联。空间寻址也可以在附加维度中执行。例如，可以将空间地址序列添加到核酸中，以描述核酸在第三维度或第四维度中的相对空间位置，例如，通过描述组织活体检查中组织切片的位置，或受试者的器官中组织活体检查的位置。可将时间地址序列添加到来自组织样本的核酸中以表示时间过程实验中的时间点，例如询问细胞中响应于物理或化学刺激(诸如临床试验期间的药物治疗)的基因表达的变化。

定义

除非另有说明，否则本申请(包括说明书和权利要求书)中使用的以下术语具有以下给出的定义。

除非内容另有明确规定，否则如在本说明书和所附权利要求书中所用的，单数形式“一”“一种”和“该/所述”包括复数指代物。因此，例如，提及“捕获探针”时包括两种或更多种捕获探针的混合物等。

术语“约”特别提及给定量时，意味着包括±5％的偏差。

如本文所用，术语“包括”、“包含”以及它们的任何变型旨在涵盖非排他性的包括，使得工艺、方法、方法限定的产品，或者包括、包含或含有元素或元素列表的物质组合物不仅包括那些元素，而且可包括未明确列出的或此类工艺、方法、方法限定的产品或物质组合物固有的其他元素。

如本文所用，“锚”是指将纳米支架附接到基底上的部分。锚包括化学部分、肽或寡核苷酸。多核苷酸锚可为4个至20个核苷酸。

如本文所用，“夹板寡核苷酸”是指包含与纳米结构上的表面探针上的区域互补的序列和与表面寡核苷酸互补的另一序列(例如，附接于基底)的寡核苷酸。在各种实施方案中，夹板寡核苷酸为介于10个至25个核苷酸或介于15个至25个核苷酸。在各种实施方案中，夹板寡核苷酸为20个核苷酸。在不同的实施方案中，夹板寡核苷酸是15个、16个、17个、18个、9个、20个、21个、22个、23个、24个或25个核苷酸。

如本文所用，“表面寡核苷酸”是指包含用于将寡核苷酸附接至基底表面的锚定序列、空间条形码序列和与夹板寡核苷酸杂交的序列的寡核苷酸。在各种实施方案中，表面寡核苷酸为介于15个至25个核苷酸。在各种实施方案中，表面核苷酸大于20个核苷酸。在各种实施方案中，表面寡核苷酸为15个、16个、17个、18个、9个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸或更多。

如本文所用，当用于提及核苷酸序列时，术语“地址”、“标签”或“索引”旨在表示与其他索引以及与样本内所含的多核苷酸内的其他核苷酸序列可辨别的唯一核苷酸序列。核苷酸“地址”、“标签”或“索引”可以是随机的或具体设计的核苷酸序列。“地址”、“标签”或“索引”可具有任何期望的序列长度，只要其具有的长度足以使其成为群体中的多个索引内和/或被分析或探查的多种多核苷酸内的唯一核苷酸序列。本公开的核苷酸“地址”、“标签”或“索引”可用于，例如，附接到靶多核苷酸以对特定物类加标签或加标志，以识别群体内的带标签物类的所有成员。因此，索引可用作条形码，其中相同分子物类的不同成员可含有相同索引，并且其中不同多核苷酸的群体内的不同物类可具有不同索引。

如本文所用，当用于提及核苷酸序列时，术语“地址”、“标签”、“索引”或“条形码”旨在表示与其他索引以及与样本内所含的多核苷酸内的其他核苷酸序列可辨别的独特核苷酸序列。核苷酸“地址”、“标签”、“索引”或“条形码”可以是随机的或具体设计的核苷酸序列。“地址”、“标签”、“索引”或“条形码”可具有任何期望的序列长度，只要其具有的长度足以使其成为群体中的多个索引内和/或被分析或探查的多种多核苷酸内的独特核苷酸序列。本公开的核苷酸“地址”、“标签”、“索引”或“条形码”可用于例如附接到靶多核苷酸以对特定物类加标签或加标志，以鉴定群体内的带标签物类的所有成员。因此，索引可用作条形码，其中相同分子物类的不同成员可含有相同索引，并且其中不同多核苷酸的群体内的不同物类可具有不同索引。

标签/索引/条形码序列对于群体中的单个核酸物类可以是唯一的，或者可以被群体中的几个不同核酸物类共享。例如，群体中的每个核酸探针可包括与群体中所有其他核酸探针不同的标签/索引/条形码序列。另选地，群体中的每个核酸探针可包括与群体中的一些或大多数其他核酸探针不同的标签/索引/条形码序列。例如，群体中的每个探针可具有针对群体中的几个不同探针存在的标签/索引/条形码，即使具有共同标签/索引/条形码的探针在沿着它们的长度的其他序列区域处彼此不同。在具体实施方案中，用于生物试样的一个或多个标签/索引/条形码序列不存在于生物试样的基因组、转录组或其他核酸中。例如，标签/索引/条形码序列与特定生物试样中的核酸序列可具有小于80％、70％、60％、50％或40％的序列同一性。

如本文所用，当用于提及核苷酸序列时，“空间地址”、“空间标签”、“空间条形码”、“条形码序列”或“空间索引”意指编码与组织样本中寻址的、标签化的、条形码化的或索引化的核酸的来源区域或位置相关的空间信息的地址、标签、条形码或索引。序列可以是天然存在的序列或在获得条形码化的核酸的生物体中不天然存在的序列。

如本文所用，术语“基底”旨在表示固体载体或支撑结构。该术语包括可用作固体或半固体基础用于形成特征，诸如用于沉积生物聚合物(包括核酸、多肽和/或其他聚合物)的孔的任何材料。基底的非限制性示例包括小珠阵列、点样阵列、排列在芯片表面上的聚集颗粒、膜、多孔板和流通池。例如，如本文所提供的基底是经改性的，或者可通过本领域技术人员熟知的多种方法改性以适应生物聚合物的附接。示例性类型的基底材料包括玻璃、改性玻璃、功能化玻璃、无机玻璃、微球(包括惰性和/或磁性粒子)、塑料、多糖、尼龙、硝化纤维、陶瓷、树脂、二氧化硅、基于二氧化硅的材料、碳、金属、光纤或光纤束、除以上举例说明的那些之外的多种聚合物、以及多孔微量滴定板。具体类型的示例性塑料包括丙烯酸树脂、聚苯乙烯、苯乙烯与其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯和TEFLON^TM。具体类型的示例性基于二氧化硅的材料包括硅和各种形式的改性硅。

本领域技术人员将知道或理解，如本文所提供的基底的组成和几何结构可根据预期用途和用户的优选要求而变化。因此，尽管平面基底诸如载片、芯片、晶圆或小珠可用于微阵列，但在给定本文所提供的教导内容和指导的情况下，本领域技术人员将理解本文举例说明或本领域熟知的多种其他基底也可用于本文的方法和/或组合物中。

在一些实施方案中，固体载体包含一个或多个能够与试剂、小珠或分析物接触的表面。表面可为基本上平坦的或平面的。另选地，表面可为圆形的或轮廓状的。可包括在表面上的示例性轮廓为孔(例如，微孔或纳米孔)、凹陷、柱、脊、通道等。可用作表面的示例性材料包括：玻璃，诸如改性或官能化玻璃；塑料，诸如丙烯酸、聚苯乙烯或苯乙烯与另一种材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯或TEFLON^TM；多糖或交联多糖，诸如琼脂糖或琼脂糖凝胶；尼龙；硝化纤维；树脂；二氧化硅或基于二氧化硅的材料，包括硅和改性硅、碳纤维；金属；无机玻璃；光纤束，或多种其他聚合物。单一材料或几种不同材料的混合物可形成可用于某些示例的表面。在一些示例中，表面包括孔(例如，微孔或纳米孔)。在一些方面，表面包括玻璃、硅、塑料或其他合适的具有图案化的共价连接的凝胶诸如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见例如美国专利申请公开号2014/0079923A1，该专利申请以引用方式并入本文)的固体载体上的孔(例如，微孔或纳米孔)阵列。在一些示例中，支撑结构可包括一个或多个层。

表面的非限制性示例包括小珠阵列、点样阵列、排列在芯片表面上的聚集颗粒、膜、多孔板和流通池。

在一些实施方案中，固体载体包括流通池的一个或多个表面。如本文所用，术语“流通池”是指包括固体表面的室，一种或多种流体试剂可流过该固体表面。流通池可以是有序流通池或随机流通池。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例描述于例如以下中：Bentley等人，《自然(Nature)》456:53-59(2008)；WO04/018497；US 7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082，其中这些专利文献中的每一篇以引用方式并入本文。

在一些实施方案中，固体载体包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如，这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征。特征可由不存在扩增引物的间隙区域分离。在一些实施方案中，图案可以为呈行和列形式的特征的x-y格式。在一些实施方案中，图案可以为特征和/或间隙区域的重复布置。在一些实施方案中，图案可以为特征和/或间隙区域的随机布置。可以用于本文阐述的方法和组合物中的示例性图案化表面描述于美国序列号号13/661,524和美国专利申请公布号2012/0316086和国际专利公开WO 2017/019456中，其中这些专利文献中的每一篇以引用方式并入本文。

如本文所用，当用于提及核酸时，术语“固定”旨在表示经由共价键或非共价键直接或间接附接到固体载体。固定还指两件物体彼此接合、紧固、粘附、附接、连接或结合的状态。例如，分析物(诸如核酸)可通过共价键或非共价键固定在材料(诸如小珠、凝胶或表面)上。在某些实施方案中，可使用共价附接，但全部所需的是核酸在旨在使用载体的条件下(例如，在需要核酸扩增和/或测序的应用中)保持固定或附接到载体。待用作捕获引物或扩增引物的寡核苷酸可被固定，使得3'-端可用于酶促延伸，并且序列的至少一部分能够与互补序列杂交。

固定可通过与表面附接的寡核苷酸杂交发生，在这种情况下，所固定的寡核苷酸或多核苷酸可处于3'至5'取向。另选地，固定可通过除碱基配对杂交之外的方式(诸如如上所述的共价附接)发生。

示例性共价连接包括，例如，使用点击化学技术产生的那些。示例性非共价连接包括但不限于非特异性相互作用(例如，氢键合、离子键合、范德瓦尔斯相互作用等)或特异性相互作用(例如，亲和相互作用、受体-配体相互作用、抗体表位相互作用、抗生物素蛋白-生物素相互作用、链霉亲和素-生物素相互作用、凝集素碳水化合物相互作用等)。示例性连接在美国专利号6,737,236、7,259,258、7,375,234和7,427,678；和美国专利公布号2011/0059865Al中阐述，这些专利文献中的每一篇以引用方式并入本文。

如本文所用，术语“阵列”是指可根据相对位置彼此区分的一组位点。位于阵列的不同位点处的不同分子可根据位点在阵列中的位置而彼此区分。阵列的单个位点可包含一种或多种特定类型的分子。例如，位点可包含具有特定序列的单个靶核酸分子，或者位点可包含具有相同序列(和/或其互补序列)的若干核酸分子。阵列的位点可以是位于同一基底上的不同特征。示例性特征包括但不限于基底中的孔、基底中或基底上的小珠(或其他粒子)、基底的突出部、基底上的脊或基底中的通道。阵列的位点可以是各自带有不同分子的单独的基底。可根据基底在与基底相关联的表面上的位置，或者根据基底在液体或凝胶中的位置，来识别附接到单独基底的不同分子。其中单独的基底位于表面上的示例性阵列包括但不限于在孔中具有小珠的那些阵列。

如本文所用，术语“单分子标识符”或“SMI”是指可附接到核酸的随机、非随机或半随机的分子标签。在各种实施方案中，SMI为独特分子标识符(UMI)。当掺入核酸中时，通过直接计数扩增后测序的单个分子标识符(SMI)，SMI可用于校正后续扩增偏差。SMI(例如，UMI)可附接到类似的核酸(例如衔接子)，从而使每个核酸都是唯一。SMI(例如，UMI)也可用于唯一地标记样本中的单个分子(例如，单个mRNA分子)(例如，组织样本、细胞样本或样本文库中的单个mRNA分子)。

当用于提及捕获探针或其他核酸时，如本文所用的“独特分子索引”、“独特分子标识符”或“UMI”旨在指可用作分子条形码以独特地对样本文库中每个分子进行标签化的探针的一部分。UMI可以在核酸串中表示为“NNNN……”，以将寡核苷酸的该部分指定为UMI。UMI的长度可以是6个至20个核苷酸或更长。在一些方面，UMI包括空间条形码。

如本文所用，术语“通用序列”是指两个或更多个核酸分子共有的一连串核苷酸，即使这些分子也具有彼此不同的序列区域。存在于分子集合的不同成员中的通用序列可允许使用与通用序列互补的通用捕获核酸的群体来捕获多种不同的核酸。类似地，存在于分子集合的不同成员中的通用序列可允许使用与通用序列互补的通用引物的群体来复制或扩增多种不同的核酸。因此，通用捕获核酸或通用引物包含可与通用序列特异性杂交的序列。靶核酸分子可以被修饰以例如在不同靶序列的一端或两端附接通用衔接子。通用捕获寡核苷酸适用于探查多种不同的寡核苷酸，而不必辨别不同物类，而靶特异性捕获序列适用于辨别不同物类。通用序列的非限制性示例是polyT核苷酸序列。

如本文所用，“半随机”核苷酸序列包含与随机核苷酸序列组合的部分预定的核苷酸序列或由该部分预定的核苷酸序列组成。

如本文所用，术语“衔接子”通常是指可添加(例如通过合成或连接)到本公开的寡核苷酸的任何线性核酸分子。在一些实施方案中，使用模板化聚合酶合成(例如，如本文所述的第二链cDNA合成)将衔接子拷贝到文库分子上。在一些实施方案中，衔接子与本公开的第一互补链连接。在一些实施方案中，本公开的寡核苷酸包含衔接子(“衔接子寡核苷酸”)。在一些实施方案中，衔接子寡核苷酸包含5'至3'、第三测序引物序列(例如，SBS3)、与独特索引序列互补的序列(例如，i5')和第二聚类引物序列(例如，P5)。在一些实施方案中，衔接子包含与引物互补的序列。在另外的实施方案中，衔接子包含与P5引物或P5'引物互补的序列。在一些实施方案中，衔接子包含与P7引物或P7'引物互补的序列。在一些实施方案中，衔接子包含与B15引物或B15'引物互补的序列。

当提及引物(例如，聚类引物)的寡核苷酸序列和/或与引物互补的寡核苷酸序列的示例时，可以使用术语“P5”、“P7”、“B15”、“P5'”(P5上撇号)、“P7'”(P7上撇号)、“B15'”(B15上撇号)、“P15”和“P17”。术语“P5'”(P5上撇号)、“P7'”(P7上撇号)和“B15'”(B15上撇号)分别是指P5、P7和B15的补体。应当理解，任何合适的引物都可用于本文所呈现的方法中，并且P5、P5'、P7、P7'、P15、P17、B15和B15'的使用仅为示例性实施方案。在流通池上使用引物(诸如P5、P5'、P7、P7'、P15、P17、B15和B15'或它们的补体)是本领域已知的，如WO2019/222264、WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO1998/044151和WO 2000/018957的公开内容所例示，其中这些专利文献中的每一篇全文均以引用方式并入本文。例如，任何合适的正向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。类似地，任何合适的反向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。本领域的技术人员将理解如何设计和使用适用于捕获和/或扩增本文所呈现的核酸的引物序列。在一些实施方案中，如本文所述的“第一聚类引物”是P5引物。在一些实施方案中，如本文所述的“第一聚类引物”是P7引物。在一些实施方案中，如本文所述的“第一聚类引物”是P5'引物。在一些实施方案中，如本文所述的“第一聚类引物”是P7'引物。在一些实施方案中，如本文所述的“第二聚类引物”是P5引物。在一些实施方案中，如本文所述的“第二聚类引物”是P7引物。在一些实施方案中，如本文所述的“第二聚类引物”是P5'引物。在一些实施方案中，如本文所述的“第二聚类引物”是P7'引物。在一些实施方案中，P5包含多核苷酸序列5'AAT GAT ACG GCG ACC ACC GA 3'(SEQ ID NO:1)或其变体或由其组成。在一些实施方案中，P5包含多核苷酸序列5'AAT GAT ACG GCG ACCACC GAG ATC TAC AC 3'(SEQ ID NO:2)或其变体或由其组成。在一些实施方案中，P7包含多核苷酸序列5'CAA GCA GAA GAC GGC ATA CG 3'(SEQ ID NO.3)或其变体或由其组成。在一些实施方案中，P7包含多核苷酸序列5'CAA GCA GAA GAC GGC ATA CGA GAT 3'(SEQ IDNO.4)或其变体或由其组成。在一些实施方案中，P5'包含多核苷酸序列5'TCG GTG GTC GCCGTA TCA TT 3'(SEQ ID NO:5)或其变体或由其组成。在一些实施方案中，P5'包含多核苷酸序列5'GTG TAG ATC TCG GTG GTC GCC GTA TCA TT 3'(SEQ ID NO:6)或其变体或由其组成。在一些实施方案中，P7'包含多核苷酸序列5'CGT ATG CCG TCT TCT GCT TG 3'(SEQ IDNO.7)或其变体或由其组成。在一些实施方案中，P7'包含多核苷酸序列5'ATC TCG TAT GCCGTC TTC TGC TTG 3'(SEQ ID NO.8)或其变体或由其组成。在一些实施方案中，B15包含多核苷酸序列5'GTCTCGTGGGCTCGG 3'(SEQ ID NO:9)或其变体或由其组成。在一些实施方案中，B15'包含多核苷酸序列5'CCGAGCCCACGAGAC 3'(SEQ ID NO:10)或其变体或由其组成。在一些实施方案中，P15包含多核苷酸序列5'TTTTTTAATG ATACGGCGAC CACCGAGANC TACAC3'(SEQ ID NO:11)或其变体或由其组成。在一些实施方案中，P17包含多核苷酸序列5'TTTTTTNNNC AAGCAGAAGA CGGCATACGA GAT 3'(SEQ ID NO:12)或其变体或由其组成。参考本文所述的任何序列时，如本文所用的术语“变体”指与例如非变体序列基本上相同(即，仅具有一些核苷酸序列变异)的变体核酸。在一些实施方案中，变体与非变体核酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或至少99％的总体核苷酸序列同一性。应当理解，本文中提及的P5和P7可以指不同的引物序列。本公开涵盖任何合适的引物序列组合。

如本文所用，术语“多个(plurality)”旨在表示两个或更多个不同成员的群体。多个数目可在小、中、大到极大的大小范围内。小的多个数目的大小可在例如几个成员到数十个成员的范围内。中等大小的多个数目可在例如数十个成员到约100个成员或数百个成员的范围内。大的多个数目可在例如约数百个成员到约1000个成员、到数千个成员、和多达数万个成员的范围内。极大的多个数目可在例如数万成员到约几十万、一百万、几百万、几千万、和多达或超过数亿成员的范围内。因此，多个的以成员数来测量的大小范围可从两个到远远超过一亿个成员，以及在上述示例性范围之间和超过上述示例性范围的所有大小。微阵列内的示例性数目的特征包括1.28cm²内的多个约500,000个或更多个分散特征。示例性核酸多个数目包括例如约1×10⁵个、5×10⁵个和1×10⁶个或更多个不同核酸物类的群体。因此，术语的定义打算包含大于二的所有整数值。多个数目的上限可以例如通过核酸样本中寡核苷酸序列的理论多样性来设定。

如本文所用，术语“核酸”旨在与其在本领域中的用途一致，并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性方式与核酸杂交或能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有包含磷酸二酯键的主链。类似结构可具有替代的主链键，包括本领域已知的多种主链键中的任一种。天然存在的核酸通常具有脱氧核糖(例如，存在于脱氧核糖核酸(DNA)中)或核糖(例如，存在于核糖核酸(RNA)中)。核酸可包含本领域已知的这些糖部分的多种类似物中的任一种。核酸可包括天然的或非天然的碱基。就这一点而言，天然脱氧核糖核酸可具有选自由腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤组成的组的一个或多个碱基，并且核糖核酸可具有选自由尿嘧啶、腺嘌呤、胞嘧啶或鸟嘌呤组成的组的一个或多个碱基。可包含在核酸中的有用的非天然碱基是本领域已知的。除非另有明确说明，否则术语“靶”当用于提及核酸时，旨在作为本文所示的方法或组合物的上下文中核酸的语义标识符并且不一定限制核酸的结构或功能。核酸的特定形式可以包括在生物体中发现的所有类型的核酸以及合成核酸，诸如通过化学合成产生的多核苷酸。

适用于通过掺入到由本文提供的方法产生的微阵列中进行分析的核酸的特定示例包括基因组DNA(gDNA)、表达序列标签(EST)、DNA拷贝的信使RNA(cDNA)、RNA拷贝的信使RNA(cRNA)、线粒体DNA或基因组RNA、信使RNA(mRNA)、核糖体RNA(rRNA)和/或其他RNA群体。考虑的附加RNA包括微小RNA、转移RNA、非编码RNA(ncRNA)、小核仁RNA(snoRNA)和/或小核RNA(snRNA)，这些示例性核酸的片段和/或部分也包括在如本文所使用的术语的含义内。

如本文所用，当用于提及核酸分子时，术语“双链”意指核酸分子中的基本上所有的核苷酸与互补核苷酸氢键键合。部分双链核酸可占其与互补核苷酸氢键键合的核苷酸的至少10％、25％、50％、60％、70％、80％、90％或95％。

如本文所用，当用于提及核酸分子时，术语“单链”意指核酸分子中基本上没有核苷酸与互补核苷酸氢键键合。

如本文所用，术语“捕获引物”或“捕获探针”旨在表示具有核苷酸序列的寡核苷酸，该核苷酸序列能够在例如扩增或测序反应的引物退火步骤中遇到的条件下特异性退火至待分析的单链多核苷酸序列或经受核酸探查的单链多核苷酸序列。术语“核酸分子”、“多核苷酸”和“寡核苷酸”在本文中可互换使用。除非另外具体地指示，否则不同术语并不意图表示大小、序列或其他性质的任何具体差异。为了描述清楚起见，当描述包含若干核酸物类的具体方法或组合物时，术语可用于区分一种核酸物类与另一种物类。

如本文所用，当用于提及捕获探针或其他核酸时，术语“基因特异性”或“靶特异性”旨在表示捕获探针或其他核酸，该捕获探针或其他核酸包含对靶向核酸(例如，来自组织样本的核酸)具有特异性的核苷酸序列，即能够选择性地退火至靶向核酸的鉴定区域的核苷酸的序列。基因特异性捕获探针可具有单一物类的寡核苷酸，或可包含具有不同序列的两种或更多种物质。因此，基因特异性捕获探针可为两个或更多个序列，包括3个、4个、5个、6个、7个、8个、9个或10个或更多个不同序列。基因特异性捕获探针可包含基因特异性捕获引物序列和通用捕获探针序列。其他序列(诸如测序引物序列等)也可包含在基因特异性捕获引物中。

相比之下，当用于提及捕获探针或其他核酸时，术语“通用”意指在多种捕获探针中具有共同核苷酸序列的捕获探针或核酸。共同序列可以是例如与相同衔接子序列互补的序列。通用捕获探针适用于探查多种不同多核苷酸，而不必辨别不同物类，而基因特异性捕获引物适用于辨别不同物类。

在各种实施方案中，捕获元件(例如，捕获引物或捕获探针或其他核酸序列)可间隔开以A)空间分辨单细胞的几何结构内的核酸，即，每个细胞多个捕获位点；B)在约单细胞水平下，即，每个细胞约1个捕获位点，空间分辨核酸。除此之外，捕获元件可如上述A或B中那样间隔开，并且可：I)间隔开以规则间隔从样本中取样核酸，例如，以网格或图案间隔开，使得约每隔一个或每5个或每10个细胞进行取样，或约每隔一组或每5组或每10组2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个细胞进行取样；II)间隔开以从样本的一个或多个区域中的基本上所有可用的细胞捕获样本，或III)间隔开以从样本中的基本上所有可用的细胞捕获样本。

如本文所用，术语“扩增子”当用于提及核酸时，意指复制该核酸的产物，其中该产物具有与该核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种产生，该扩增方法包括例如聚合酶延伸、聚合酶链反应(PCR)、滚环扩增(RCA)、连接延伸或连接酶链反应。扩增子可以是具有特定核苷酸序列的单拷贝(例如，PCR产物)或该核苷酸序列的多拷贝(例如，RCA的串联产物)的核酸分子。靶核酸的第一扩增子可为互补拷贝。后续的扩增子是在生成第一扩增子后，由靶核酸或由第一扩增子形成的拷贝。后续的扩增子可具有与靶核酸基本上互补或与靶核酸基本上相同的序列。

可产生的模板拷贝或扩增子的数目可通过以下调节：适当修改扩增反应，包括例如改变所运行的扩增循环的数目、在扩增反应中使用不同持续合成能力的聚合酶和/或改变扩增反应运行的时间长度、以及修改本领域已知的影响扩增产率的其他条件。核酸模板的拷贝数可为至少1个、10个、100个、200个、500个、1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个和10,000个拷贝，并且可根据特定应用而变化。

如本文所用，当结合多核苷酸使用时，术语“互补的”旨在表示包含核苷酸序列的多核苷酸，该核苷酸序列能够在某些条件下选择性地退火为靶多核苷酸的鉴定区域。如本文所用，术语“基本上互补的”和语法上的等同物旨在表示包含核苷酸序列的多核苷酸，该核苷酸序列包括能够在某些条件下特异性地退火为靶多核苷酸的鉴定区域。退火是指一个核酸与另一个核酸的核苷酸碱基配对相互作用，其导致双链体、三链体或其他更高有序结构的形成。主要相互作用通常通过Watson-Crick和Hoogsteen型氢键具有核苷酸碱基特异性，例如，A:T、A:U和G:C。在某些实施方案中，碱基堆积和疏水相互作用也可有助于双链体稳定性。多核苷酸退火为靶核酸的互补或基本上互补的区域的条件是本领域熟知的，例如，如Nucleic Acid Hybridization，A Practical Approach，Hames和Higgins编辑，IRLPress，Washington，D.C.(1985)，以及Wetmur和Davidson，Mol.Biol.31:349(1968)中所述。退火条件将取决于具体应用，并且可由本领域技术人员常规地确定，而无需过度实验。

如本文所用，术语“杂交”是指其中两个单链多核苷酸非共价结合以形成稳定双链多核苷酸的过程。所得的双链多核苷酸是“杂交体”或“双链体”。杂交条件将通常包括小于约1M，更通常小于约500mM并且可小于约200mM的盐浓度。杂交缓冲液包括缓冲盐溶液，诸如5％SSPE，或本领域已知的其他此类缓冲液。杂交温度可低至5℃，但通常大于22℃，并且更通常大于约30℃，并且通常超过37℃。杂交通常在严格条件下执行，即探针将与其靶子序列杂交但将不与其他非互补序列杂交的条件。严格条件是序列依赖性的并且在不同的情况下是不同的，并且可由本领域的技术人员常规地确定。

如本文所用，术语“dNTP”是指脱氧核苷三磷酸。NTP是指核糖核苷酸三磷酸。嘌呤碱基(Pu)包括腺嘌呤(A)、鸟嘌呤(G)及它们的衍生物和类似物。嘧啶碱基(Py)包括胞嘧啶(C)、胸腺嘧啶(T)、尿嘧啶(U)以及它们的衍生物和类似物。通过举例说明而非限制的方式，此类衍生物或类似物的示例为用报告基团修饰、生物素酰化、胺修饰、放射标记、烷基化等的那些，并且还包括硫代磷酸酯、亚磷酸酯、环原子修饰的衍生物等。报告基团可为荧光基团(诸如荧光素)、化学发光基团(诸如鲁米诺)、铽螯合剂(诸如能够通过延迟荧光进行检测的N-(羟乙基)乙二胺三乙酸)等等。

如本文所用，术语“连接”、“连接的”及其语法上的等同物旨在表示通常在模板驱动的反应中，在两个或更多个核酸(例如，寡核苷酸和/或多核苷酸)的末端之间形成共价键或连接。键或连接的性质可广泛变化，并且连接可通过酶促或化学方式进行。如本文所用，连接通常通过酶促方式进行以在一个寡核苷酸的5'碳末端核苷酸与另一个核苷酸的3'碳之间形成磷酸二酯键。模板驱动的连接反应描述于以下参考文献中：美国专利号4,883,750；5,476,930；5,593,826和5,871,921，这些专利全文以引用方式并入本文。术语“连接”还涵盖磷酸二酯键的非酶促形成，以及寡核苷酸末端之间的非磷酸二酯共价键(诸如硫代磷酸酯键、二硫键等)的形成。

如本文所用，术语“每个”当用于提及项目的集合时，旨在识别集合中的单个项目，但不一定是指集合中的每个项目，除非上下文中另外明确指出。

如本文所用，当用于指核酸时，术语“延伸”旨在表示向核酸添加至少一个核苷酸或寡核苷酸。在具体实施方案中，可以将一个或多个核苷酸添加到核酸的3'端，例如，通过聚合酶催化(例如，DNA聚合酶、RNA聚合酶或逆转录酶)。化学或酶促方法可用于将一个或多个核苷酸添加到核酸的3'或5'端。可以将一个或多个寡核苷酸添加到核酸的3'或5'端，例如，通过化学或酶促(例如，连接酶催化)方法。核酸可以模板指导的方式延伸，由此延伸产物与模板核酸互补，该模板核酸与被延伸的核酸杂交。

本文提供了组织样本中核酸的空间检测和分析(例如，突变分析或单核苷酸变异(SNV)检测以及插入缺失检测)的阵列和方法。本文所述的阵列可包括基底，在该基底上固定有多个捕获探针，使得每个捕获探针占据阵列上的不同位置。多个捕获探针中的一些或全部捕获探针可包含唯一位置标签(即，空间地址或索引序列)。空间地址可以描述捕获探针在阵列上的位置。可将捕获探针在阵列上的位置与组织样本中的位置相关联。

如本文所用，当用于提及核酸序列时，术语“聚T”或“聚A”分别旨在表示一连串两个或更多个硫胺素(T)或腺嘌呤(A)碱基。聚T或聚A可分别包括至少约2个、5个、8个、10个、12个、15个、18个、20个或更多个T或A碱基。另选地或除此之外，聚T或聚A可分别包括至多约30个、20个、18个、15个、12个、10个、8个、5个或2个T或A碱基。

如本文所用，当用于提及核酸序列(例如，捕获核苷酸序列)时，术语“聚T”、“聚A”或“聚U”分别旨在表示一连串两个或更多个硫胺素(T)、腺嘌呤(A)或尿苷(U)碱基。聚T、聚A或聚U可分别包括至少约2个、5个、8个、10个、12个、15个、18个、20个、22个、25个、28个、30个、32个、35个、38个、40个或更多个T或A碱基。另选地或除此之外，聚T或聚A或聚U可分别包括至多约40个、38个、35个、32个、30个、28个、25个、22个、20个、18个、15个、12个、10个、8个、5个或2个T或A碱基。在一些实施方案中，本公开考虑使用“TVN”序列，其中“T”是捕获核苷酸序列，“V”是腺嘌呤(A)、胞嘧啶(C)或鸟嘌呤(G)，并且“N”是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或胸腺嘧啶(T)。在一些实施方案中，TVN序列用于将逆转录偏向于mRNA分子上的聚A尾的碱基。

如本文所用，术语“标签化”(“tagmentation”、“tagment”或“tagmenting”)是指通过使用转座酶介导的片段化和加标签，将核酸(例如，DNA)转化成准备用于簇形成和测序的溶液中的衔接子修饰的模板。该方法通常涉及由转座体复合物修饰核酸，该转座体复合物包含与包含转座子末端序列的衔接子复合的转座酶。标签化导致核酸的片段化和衔接子与双链体片段的两条链的5'端的连接同时发生。在去除转座酶的纯化步骤后，通过PCR将附加序列添加到适应片段的末端。

“转座酶”是指一种酶，该酶能够与包含转座子末端的组合物(例如，转座子、转座子末端、转座子末端组合物)形成功能性复合物，并且例如在体外转座反应中，催化含转座子末端的组合物插入或转座到与其一起温育的双链靶核酸中。如本文所示的转座酶还可包括来自逆转录转座子和逆转录病毒的整合酶。转座酶、转座体和转座体复合物是本领域技术人员通常已知的，如美国专利公布号2010/0120098的公开内容中所示的，该专利文献的内容全文以引用方式并入本文。虽然本文所述的许多实施方案涉及Tn5转座酶和/或高活性Tn5转座酶，但应当理解，能够以足够的效率将转座子末端插入到5'-标签并将靶核酸片段化以用于其预期目的的任何转座体系均可用于本发明。在具体实施方案中，优选的转座体系能够以随机或几乎随机的方式将转座子末端插入到5'-标签并将靶核酸片段化。

如本文所用，术语“转座反应”是指其中一个或多个转座子例如在随机位点或几乎随机位点处插入到靶核酸中的反应。转座反应中的基本组分是转座酶和DNA寡核苷酸，该DNA寡核苷酸表现出转座子的核苷酸序列，包括转移的转座子序列及其互补序列(未转移的转座子末端序列)以及形成功能性转座或转座体复合物所需的其他组分。DNA寡核苷酸还可根据需要或期望包含附加的序列(例如，衔接子或引物序列)。在一些实施方案中，本文提供的方法由以下举例说明：采用由高活性Tn5转座酶和Tn5型转座子末端形成的转座复合物(Goryshin和Reznikoff，1998,J.Biol.Chem.,273:7367)或者通过MuA转座酶以及包含Rl和R2末端序列的Mu转座子末端(Mizuuchi,1983,Cell,35:785；Savilahti等人，1995,EMBOJ.,14:4893)。然而，能够以随机或几乎随机的方式以足够的效率将转座子末端插入到5'-标签并将靶DNA片段化以用于其预期目的的任何转座体系均可用于本发明。可用于本发明方法的本领域已知的转座系统的示例包括但不限于金黄色葡萄球菌Tn552(Colegio等人，2001,J Bacterid.,183:2384-2388；Kirby等人，2002,MoI Microbiol,43:173-186)、TyI(Devine和Boeke，1994,NucleicAcids Res.,22:3765-3772和国际专利申请号WO 95/23875)、转座子Tn7(Craig，1996,Science.271:1512；Craig，1996,Review in:Curr TopMicrobiolImmunol,204:27-48)、TnIO和ISlO(Kleckner等人，1996,Curr Top MicrobiolImmunol,204:49-82)、Mariner转座酶(Lampe等人，1996,EMBO J.,15:5470-5479)、Tci(Plasterk，1996,Curr Top Microbiol Immunol,204:125-43)、P因子(Gloor,2004,Methods MoI Biol,260:97-114)、TnJ(Ichikawa和Ohtsubo，1990,J Biol Chem.265:18829-18832)、细菌插入序列(Ohtsubo和Sekine，1996,Curr.Top.Microbiol.Immunol.204:1-26)，逆转录病毒(Brown等人，1989,Proc Natl AcadSci USA,86:2525-2529)，以及酵母的逆转录转座子(Boeke和Corces，1989,Annu RevMicrobiol.43:403-34)。用于将转座子末端插入靶序列中的方法可使用任何合适的转座子体系在体外进行，对于所述转座子体系，合适的体外转座体系是可用的或可基于本领域的知识开发。一般来讲，适用于本文提供的方法的体外转座体系至少需要足够纯度、足够浓度和足够体外转座活性的转座酶以及转座子末端，转座酶与该转座子末端形成功能性复合物，该功能性复合物具有能够催化转座反应的相应转座酶。可用于本发明的合适的转座酶转座子末端序列包括但不限于野生型、衍生型或突变型转座子末端序列，其与选自野生型、衍生型或突变型转座酶的转座酶形成复合物。如本文所用，术语“转座体复合物”是指非共价结合到双链核酸的转座酶。例如，复合物可以是在支持非共价复合物形成的条件下与双链转座子DNA一起预温育的转座酶。双链转座子DNA可包括但不限于Tn5 DNA、Tn5 DNA的一部分、转座子末端组合物、转座子末端组合物的混合物或能够与转座酶(诸如高活性Tn5转座酶)相互作用的其他双链DNA。

如本文所用，术语“随机”可用于指表面上的位置的空间排列或组成。例如，对于本文所述的阵列存在至少两类型的顺序，第一种涉及特征(也称为“位点”)的间隔和相对位置，并且第二种涉及存在于特定特征的特定物类的分子的身份或预定知识。因此，阵列的特征可随机地间隔开，使得最近相邻特征彼此之间具有可变间距。另选地，特征之间的间隔可以是有序的，例如，形成规则图案，诸如直线网格或六边形网格。在另一个方面，阵列的特征在占据每个特征的感兴趣基因(例如，特定序列的核酸)的同一性或预定知识方面可以是随机的，而与间隔产生随机模式还是有序模式无关。本文所述的阵列可以在一个方面是有序的，在另一个方面是随机的。例如，在本文所述的一些实施方案中，使表面与核酸群体在这样的条件下接触：其中核酸在关于它们的相对位置有序但关于存在于任何特定位点的核酸物类的序列的知识“随机定位”的位点处附着。在表面上的位置“随机分布”核酸旨在指不知道或不预先确定关于将在哪个位置捕获哪个核酸(无论这些位置是否以有序模式排列)。

如本文所用，“生物样本”可包括一种或多种生物或化学物质，诸如核酸、寡核苷酸、蛋白质、细胞、组织、生物体和/或生物活性化学化合物，诸如上述物类的类似物或模拟物。如本文所用，术语“组织”旨在表示细胞和任选的细胞间物质的聚集体。通常，组织中的细胞并未自由漂浮在溶液中，而是彼此附接以形成多细胞结构。示例性组织类型包括肌肉、神经、表皮和结缔组织。在一些情况下，生物样本可以包括全血、淋巴液、血清、血浆、汗液、泪液、唾液、痰、脑脊髓液、羊水、精液、阴道分泌物、浆液、滑液、心包液、腹膜液、胸腔积液、漏出液、渗出液、胆囊液、胆汁、尿液、胃液、肠液、粪便样本、含有单个或多个细胞的液体、含有细胞器的液体、流化组织、流化生物体、病毒(包括病毒病原体)、含有多细胞生物体的液体、生物拭子和生物洗液。在另外的示例中，样本可以来源于器官，包括例如肌肉骨格系统的器官，诸如肌肉、骨骼、肌腱或韧带；消化系统的器官，诸如唾液腺、咽、食道、胃、小肠、大肠、肝脏、胆囊或胰腺；呼吸系统的器官，诸如喉、气管、支气管、肺或膈膜；泌尿系统的器官，诸如肾、输尿管、膀胱或尿道；生殖器官，诸如卵巢、输卵管、子宫、阴道、胎盘、精巢、附睾、输精管、精囊、前列腺、阴茎或阴囊；内分泌系统的器官，诸如下垂体、松果腺、甲状腺、甲状旁腺或肾上腺；循环系统的器官，诸如心脏、动脉、静脉或毛细血管；淋巴系统的器官，诸如淋巴管、淋巴结、骨髓、胸腺或脾脏；中枢神经系统的器官，诸如脑、脑干、小脑、脊髓、脑神经或脊髓神经；感觉器官，诸如眼、耳、鼻或舌；或外皮器官，诸如皮肤、皮下组织或乳腺。在各种实施方案中，组织可源自多细胞生物体。在一些实施方案中，组织切片可与表面接触，例如，通过将组织放置在表面上。组织可以是从生物体中新鲜切除的，或者其可以是预先保存的，例如通过冷冻(例如，新鲜冷冻组织)、包埋在诸如石蜡的材料中(例如，福尔马林固定的石蜡包埋的(FFPE)样本)、福尔马林固定、浸润、脱水等。任选地，组织切片可例如使用例如美国专利号11,390,912中描述的技术和组合物附接于表面，该专利全文以引用方式并入本文。在一些实施方案中，当组织与表面接触时，组织可被透化并且组织的细胞裂解。可使用多种处理中的任一种处理，诸如上文关于裂解细胞所述的那些处理。从被透化的组织中释放的靶蛋白和/或核酸可以被表面上的捕获寡核苷酸捕获。因此，在各种实施方案中，生物样本是组织样本。在本文所述的方法中与表面接触的组织样本或其他生物样本的厚度可以是所需的任何合适的厚度。在代表性的实施方案中，厚度将为至少0.1μm、0.25μm、0.5μm、0.75μm、1μm、5μm、10μm、50μm、100μm或更厚。另选地或除此之外，与表面接触的生物样本的厚度不超过100μm、50μm、10μm、5μm、1μm、0.5μm、0.25μm、0.1μm或更薄。

如本文所用，术语“组织样本”是指已从受试者获得、固定、切片并安装在平面表面(例如，显微镜载片)上的组织片。组织样本可以是福尔马林固定的石蜡包埋的(FFPE)组织样本或新鲜组织样本或冷冻组织样本等。本文所公开的方法可在对组织样本进行染色之前或之后执行。例如，在苏木精与伊红染色后，可根据本文所提供的方法对组织样本进行空间分析。方法可包括(例如，使用苏木精与伊红染色)分析样本的组织学特征，以及然后对组织进行空间分析。

如本文所用，术语“福尔马林固定的石蜡包埋的(FFPE)组织切片”是指组织片，例如，已经从受试者获得、在甲醛(例如，在磷酸缓冲盐水中的3％至5％甲醛)或Bouin溶液中固定、在蜡中包埋、切成薄切片并随后安装在平面表面(例如，显微镜载片)上的活检组织。

如本文所用，术语“受试者”涵盖哺乳动物和非哺乳动物。哺乳动物的示例包括但不限于哺乳动物类别的任何成员：人、非人灵长类诸如黑猩猩以及其他猿和猴物种、牛、马、绵羊、山羊、猪、兔、狗、猫、啮齿动物、大鼠、小鼠、豚鼠等。非哺乳动物的示例包括但不限于鸟、鱼等。该术语不表示特定年龄或性别。

在一些实施方案中，将组织样本中的核酸转移并捕获到阵列上。例如，组织切片被放置成与阵列接触，并且核酸被捕获到阵列上并且用空间地址标签化。例如，通过高通量下一代测序(NGS)，诸如边合成边测序(SBS)，将空间标签化的DNA分子从阵列中释放并分析。在一些实施方案中，将组织切片(例如，福尔马林固定的石蜡包埋的(FFPE)组织切片)中的核酸转移到阵列并通过与捕获探针杂交而捕获到阵列上。在一些实施方案中，捕获探针可以是与例如核酸测序文库中的衔接子区域或mRNA的聚A尾杂交的通用捕获探针。另选地，例如，通过高通量下一代测序(NGS)，诸如边合成边测序(SBS)，将空间标签化的RNA或DNA分子从阵列中释放并进行分析。在一些实施方案中，将组织切片(例如，福尔马林固定的石蜡包埋的(FFPE)组织切片)中的核酸转移到阵列并通过与捕获探针杂交而捕获到阵列上。在一些实施方案中，捕获探针可以是与例如样本中特异性靶向的mRNA或cDNA杂交的基因特异性捕获探针，诸如TruSeq^TM定制扩增子(TSCA)寡核苷酸探针(Illumina,Inc.)。捕获探针可以是多个捕获探针，例如，多个相同的或不同的捕获探针。

在一些实施方案中，组合索引(寻址)系统用于提供用于分析组织样本中的核酸的空间信息。组合索引系统可涉及使用两个或更多个空间地址序列(例如，两个、三个、四个、五个或更多个空间地址序列)。

在一些实施方案中，在测序文库的制备过程中将两个空间地址序列掺入核酸中。第一空间地址可用于限定捕获阵列上的X维度中的某一位置(即，捕获位点)，并且第二空间地址序列可用于限定捕获阵列上的Y维度中的位置(即，捕获位点)。在文库测序期间，可以确定X和Y空间地址序列，并且可以分析序列信息，以限定捕获阵列上的特定位置。

在一些实施方案中，在测序文库的制备过程中将三个空间地址序列掺入核酸中。第一空间地址可用于限定捕获阵列上的X维度中的某一位置(即，捕获位点)，第二空间地址序列可用于限定捕获阵列上的Y维度中的位置(即，捕获位点)，并且第三空间地址序列可用于限定样本(例如，组织活体检查)中的二维样本切片的位置(例如，组织样本的切片的位置)，以提供样本的第三维(Z维度)中的位置空间信息。在文库测序期间，可以确定X、Y和Z空间地址序列，并且可以分析序列信息，以限定捕获阵列上的特定位置。

在一些实施方案中，在测序文库的制备过程中将时间地址序列(T)任选地掺入核酸中。在一些实施方案中，时间地址序列可与两个或三个空间地址序列组合。时间地址序列可以例如在时间进程实验的背景下用于确定组织样本中的基因表达的时间依赖性变化。基因表达的时间依赖性变化可在组织样本中发生，例如，响应于化学、生物或物理刺激(例如，毒素、药物或热)。可将在不同时间点从可比较的组织样本(例如，组织样本的近端切片)获得的核酸样本合并并大批测序。任选的第一空间地址可用于限定捕获阵列上的X维度中的某一位置(即，捕获位点)，第二任选的空间地址序列可用于限定捕获阵列上的Y维度中的位置(即，捕获位点)，并且第三任选的空间地址序列可用于限定样本(例如，组织活体检查)中的二维样本切片的位置(例如，组织样本的切片的位置)，以提供样本的三维(Z维度)中的位置空间信息。在文库测序期间，测定T、X、Y和Z地址序列，并分析序列信息，以确定每个时间点(T)在捕获阵列上的特定X、Y(和任选的Z)位置。

地址序列X、Y和任选的Z和/或T可以是连续的核酸序列，或者地址序列可以被一个或多个核酸(例如，2个或更多个、3个或更多个、10个或更多个、30个或更多个、100个或更多个、300个或更多个、或1,000个或更多个)分开。在一些实施方案中，X、Y和任选的Z和/或T地址序列可以各自单独地且独立地为组合核酸序列。

在一些实施方案中，地址序列(例如，X、Y、Z或T)的长度可以各自单独地且独立地为100个核酸或更少、90个核酸或更少、80个核酸或更少、70个核酸或更少、60个核酸或更少、50个核酸或更少、40个核酸或更少、30个核酸或更少、20个核酸或更少、15个核酸或更少、10个核酸或更少、8个核酸或更少、6个核酸或更少、或4个核酸或更少。核酸中两个或更多个地址序列的长度可以相同或不同。例如，如果地址序列X的长度是10个核酸，则地址序列Y的长度可以是例如8个核酸、10个核酸或12个核酸。

地址序列(例如，空间地址序列，诸如X或Y)可以是部分或完全简并的序列。

在一些实施方案中，阵列上的空间寻址的捕获探针可以从阵列释放到组织切片上，用于产生空间寻址的测序文库。在一些实施方案中，捕获探针包含用于从组织切片中的RNA原位合成空间标签化的cDNA的随机引物序列。在一些实施方案中，捕获探针是用于捕获和空间标签化组织切片中的基因组DNA的TruSeq^TM定制扩增子(TSCA)寡核苷酸探针(Illumina,Inc.)。从组织切片回收空间标签化的核酸分子(例如，cDNA或基因组DNA)并且在单管反应中处理以产生空间标签化的扩增子文库。

在另一个实施方案中，本公开提供了包含本文所公开的可空间寻址的探针的基底，例如流通池、纳米颗粒或小珠。在一个具体实施方案中，小珠包含本文所公开的可空间寻址的探针。在又一个实施方案中，基底包含小珠的表面上的链霉亲和素。在再一个实施方案中，小珠包含经由键或可逆键与小珠结合的多个寡核苷酸。可逆键的示例包括生物素分子，诸如ddBio分子。结合基底的寡核苷酸通常包含衔接子序列，诸如P5序列或P7序列。如本文所用，P5序列包括包含AAT GAT ACG GCG ACC ACC GA(SEQ ID NO:1)或AAT GAT ACG GCGACC ACC GAG ATC TAC AC(SEQ ID NO:2)的序列，并且P7序列包括序列CAA GCA GAA GACGGC ATA CG(SEQ ID NO:3)或CAA GCA GAA GAC GGC ATA CGA GAT(SEQ ID NO:4)。在一些实施方案中，P5或P7序列还可包括间隔区多核苷酸，其长度可为1个至20个核苷酸，诸如1个至15个或1个至10个核苷酸，诸如2个、3个、4个、5个、6个、7个、8个、9个或10个核苷酸。在一些实施方案中，该间隔区包括10个核苷酸。在一些实施方案中，该间隔区包括10个核苷酸。在一些实施方案中，该间隔区是polyT间隔区，诸如10T间隔区。间隔区核苷酸可包括在多核苷酸的5'端，其可通过与寡核苷酸的5'端的键而附接到合适的载体。可通过存在于该多核苷酸的5'端的含硫亲核物质(诸如硫代磷酸酯)来实现附接。在一些实施方案中，寡核苷酸将包括聚T间隔区和5'硫代磷酸酯基团。因此，在一些实施方案中，P5序列包括5'硫代磷酸酯-TTTTTTTTTTAATGATACGGCGACCACCGA-3'(SEQ ID NO:17)，并且在一些实施方案中，P7序列包括5'硫代磷酸酯-TTTTTTTTTTCAAGCAGAAGACGGCATACGA-3'(SEQ ID NO:18)。在某些实施方案中，附接到基底的寡核苷酸包含允许在经解码时确定寡核苷酸的x、y位置的地址序列。在另外的实施方案中，地址序列的长度为5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个核苷酸，或长度为包括上述核苷酸中的任意两者或在上述核苷酸中的任意两者之间的范围。在另一个实施方案中，寡核苷酸包含转座体杂交区域(Tsm hyb)。在更另外的实施方案中，寡核苷酸包含测序引物位点序列。测序引物位点序列的示例包括与来自Illumina^TM的R1和R2测序引物互补的序列。在另外的实施方案中，寡核苷酸还可包含一个或多个接头序列。在再一个实施方案中，寡核苷酸还可包含一个或多个索引序列。在某些实施方案中，寡核苷酸可包含一个或多个唯一分子标识符(UMI)序列。唯一分子标识符(UMI)是一类分子条形码，其在测序期间提供错误校正和增加的准确性。这些分子条形码是用于唯一地标记样本文库中每个分子的短序列。UMI用于广泛的测序应用，许多是围绕DNA和cDNA中的PCR复制。UMI去重也可用于RNA-seq基因表达分析和其他定量测序方法。如先前所指出，寡核苷酸包含可与来自生物样本(例如，组织样本)的多核苷酸特异性结合的部分或序列。因此，寡核苷酸是针对来自生物样本的多核苷酸的可空间寻址的探针。可选择可与来自生物样本的多核苷酸特异性结合的部分或序列以用于特定组学应用。例如，寡核苷酸可包含用于转录组学或用于测定(例如，RNA-seq测定)的寡d(T)序列。另选地，寡核苷酸可包含与来自生物样本的基因组DNA结合的序列，用于基因组学应用或用于测定(例如，ATAC-seq测定)。如本文所呈现的实施例中所提供，基底可包含具有不同部分或序列的多种类型的寡核苷酸，使得可空间寻址的探针可与来自生物样本的两种或更多种不同类型的多核苷酸特异性结合。使用多种类型的寡核苷酸理想地适用于多组学或多测定应用。

在一些实施方案中，磁性纳米颗粒可用于捕获组织样本中的核酸(例如，原位合成的cDNA)以产生空间寻址文库。

在一些实施方案中，组织样本中核酸的空间检测和分析可以在小滴致动器上执行。

本文描述了用于空间组学应用的改善的方法和组合物，这些方法和组合物保留与组织中RNA或DNA的来源相关的空间信息。空间组学应用的示例包括但不限于：空间基因组学应用、空间蛋白质组学应用；空间转录组学应用；空间农业基因组学应用；空间表观基因组学应用；空间表型组学应用；空间配体组学应用；以及空间多组学应用(例如，转录组学和基因组学应用)。

多核苷酸的分离

在各种实施方案中，已与固体载体接触的一种或多种样本可被裂解以释放靶核酸。裂解可使用业内已知的方法进行，诸如采用化学处理、酶促处理、电穿孔、加热、低渗处理、超声处理等中的一者或多者的那些技术。

在一些实施方案中，将处理组织样本以在释放、捕获或修饰核酸之前从样本中去除包埋材料(例如，去除石蜡或福尔马林)。这可通过使样本与合适的溶剂(例如，二甲苯和乙醇洗涤液)接触来实现。处理可在组织样本与本文所述的固体载体接触之前进行，或者处理可在组织样本在固体载体上时进行。在美国专利申请公开号2014/0066318中阐述了用于操作与核酸所附接的固体载体一起使用的组织的示例性方法，该专利以引用方式并入本文。

多核苷酸的制备

本公开部分基于以下认识：需要改善可从新鲜或冷冻组织样本以及FFPE组织样本中分离的RNA或DNA信息的量，以提供与组织样本的遗传图谱相关的信息。本公开提供了通过增加从组织样本分离的RNA的量和质量来改善遗传信息捕获的方法，该RNA可用于空间转录组学分析。

总RNA可包括核糖体RNA(rRNA)、信使RNA(mRNA)、转移RNA(tRNA)、微小RNA(miRNA)、非编码RNA(ncRNA)、小核仁RNA(snoRNA)和/或小核RNA(snRNA)。在各种实施方案中，RNA是rRNA和/或mRNA。

在各种实施方案中，RNA捕获探针选自由聚T序列、聚U序列、随机寡核苷酸、半随机序列或靶特异性探针组成的组。在各种实施方案中，靶特异性探针包含多种不同的靶特异性RNA捕获探针序列。在各种实施方案中，RNA捕获探针或表面捕获探针为8个至80个核苷酸。在某些实施方案中，RNA捕获探针或表面探针为10个至80个核苷酸、10个至70个核苷酸、10个至60个核苷酸、10个至50个核苷酸、10个至40个核苷酸、10个至30个核苷酸、10个至20个核苷酸、20个至80个核苷酸、20个至70个核苷酸、20个至60个核苷酸、20个至50个核苷酸、20个至40个核苷酸，或者为8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、40个、50个、60个、70个或80个核苷酸。

在各种实施方案中，捕获寡核苷酸包含聚类引物序列和被配置为与生物样本的靶核酸结合的捕获核苷酸序列。在一些实施方案中，捕获寡核苷酸包含聚类引物序列(例如，P7序列)、空间条形码(SBC)序列、测序引物序列(例如，合成测序(SBS)序列，诸如SBS12)、单分子标识符(SMI)序列、质量控制序列和TVN序列，其中“T”是捕获核苷酸序列，“V”是腺嘌呤(A)、胞嘧啶(C)或鸟嘌呤(G)，并且“N”是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或胸腺嘧啶(T)。在各种实施方案中，捕获寡核苷酸的长度为介于约30个碱基至约100个碱基之间，或介于约30个碱基至约90个碱基之间，或介于约30个碱基至约80个碱基之间，或介于约30个碱基至约70个碱基之间，或介于约30个碱基至约60个碱基、或介于约30个碱基至约55个碱基之间，或介于约30个碱基至约50个碱基之间长度，或介于20个碱基至80个碱基之间，或介于10个碱基至约80个碱基之间。在进一步的实施方案中，本公开的捕获寡核苷酸的长度为约10个碱基、20个碱基、30个碱基、35个碱基、40个碱基、45个碱基、50个碱基、55个碱基、60个碱基、65个碱基、70个碱基、75个碱基、80个碱基、85个碱基、90个碱基、95个碱基或100个碱基。能够与分析物(例如，靶核酸)杂交或以其他方式缔合的捕获核苷酸序列是例如但不限于通用序列(例如，聚T序列、随机核苷酸序列或半随机核苷酸序列)或靶特异性(例如，基因特异性)序列。在各种实施方案中，捕获核苷酸序列(例如，聚T核苷酸序列或随机核苷酸序列)的长度为、约为或至少约为2个、5个、8个、10个、12个、15个、18个、20个、22个、25个、28个、30个、32个、35个、38个、40个、45个、50个或更多个碱基。另选地或除此之外，捕获核苷酸序列可包括小于或等于约50个、45个、40个、38个、35个、32个、30个、28个、25个、22个、20个、18个、15个、12个、10个、8个、5个或2个碱基。捕获寡核苷酸可以包含附加的元件，包括但不限于单分子标识符(SMI)(例如，独特分子标识符(UMI))、索引序列、与测序引物互补的序列(例如，SBS12)或其组合。在一些实施方案中，将小珠填充到固体载体(例如，平面载体或流动池)上，其中小珠包含固定于其上的多个捕获寡核苷酸，其中多个捕获寡核苷酸中的一个或多个捕获寡核苷酸从5'至3'包含：(a)第一聚类引物序列；(b)空间条形码(SBC)序列；(c)第一测序引物序列；(d)单分子标识符(SMI)序列；(e)质量控制序列；和(f)TVN序列，其中“T”是捕获核苷酸序列，“V”是腺嘌呤(A)、胞嘧啶(C)或鸟嘌呤(G)，并且“N”是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或胸腺嘧啶(T)，并且其中多个捕获寡核苷酸的空间条形码序列对于每个小珠是独特的。

包含表面寡核苷酸(例如，聚T序列)的寡核苷酸还可包含空间索引序列，包括但不限于P7序列、索引序列和/或Read 2(Rd2)序列中的一者或多者。在各种实施方案中，表面寡核苷酸包含P7锚定序列、空间条形码和与夹板寡核苷酸杂交的序列。

在各种实施方案中，与夹板寡核苷酸杂交的表面寡核苷酸中的序列是PZ(聚类)序列。在各种实施方案中，PZ序列与包含与PZ序列互补的核苷酸序列PZ'和与表面捕获探针互补的PX'序列的夹板寡核苷酸杂交。在各种实施方案中，PX序列是接种序列。在一个实施方案中，PX具有序列AGGAGGAGGAGGAGGAGGAGGAGG(SEQ ID NO:21)。

在各种实施方案中，将捕获探针附接到纳米结构上的可切割接头是可切割的多核苷酸。在各种实施方案中，可切割的多核苷酸介于5个至25个核苷酸之间，或为5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25核苷酸。

在一些实施方案中，总RNA从组织样本中释放。释放包括组织的裂解或组织的透化。在各种实施方案中，已与固体载体接触的一种或多种样本可被裂解以释放靶核酸。裂解可使用已知技术进行，诸如采用化学处理、酶处理、电穿孔、加热、低渗处理、超声处理等中的一者或多者的那些技术。考虑在捕获之前使组织样本透化。在各种实施方案中，在捕获之前将组织样本用一种或多种封闭试剂处理。在各种实施方案中，在捕获之前，使组织样本透化并用一种或多种封闭试剂处理。

福尔马林固定的组织样本也可使用已知技术来解交联。在各种实施方案中，使用例如pH 8、pH 9的Tris-EDTA(TE)缓冲液或合适pH的另一种合适的缓冲液进行解交联。解交联也可在高热(例如，70℃)下进行。

来自样本的RNA还可以通过在从组织样本捕获RNA的步骤之前用多核苷酸激酶执行RNA的末端修复和/或通过在从组织样本捕获RNA的步骤之前用多聚腺苷酸化聚合酶执行原位多聚腺苷酸化来制备。对来自组织样本的RNA进行末端修复的方法描述于共同拥有的美国临时申请号63/477,730(案卷号33080/IP-2625-P)(通过引用并入本文)中。

上述方法还可用于提高原位mRNA转录物文库制备的mRNA转录物的捕获效率，和/或用于提高用于产生原位转录组文库的多核苷酸的核苷酸长度(例如，提高从分离自样本的mRNA转录的cDNA的多核苷酸大小并用于产生原位转录组文库)。

组织样本中核酸的空间检测和分析

根据本文所述的方法，组织样本中核酸的空间检测和分析可使用两个或更多个捕获探针(例如，3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个或10个或更多个捕获探针)的组来执行。通常，将一组捕获探针中的至少第一捕获探针固定在捕获阵列上。在一些实施方案中，第二捕获探针可固定在与第一捕获探针相同的捕获阵列上，例如，在第一捕获探针附近，例如，在相同的捕获位点中。在一些实施方案中，第二捕获探针可固定在颗粒(诸如磁性颗粒或磁性纳米颗粒)上。在一些实施方案中，第二捕获探针可以在溶液中，例如，用于与组织样本中的核酸执行原位反应。

通常，将一组捕获探针中的至少第一捕获探针固定在捕获阵列或纳米结构上。在一些实施方案中，第二捕获探针可固定在与第一捕获探针相同的捕获阵列上，例如，在第一捕获探针附近，例如，在相同的捕获位点中。在一些实施方案中，第二捕获探针可固定在纳米结构或颗粒(诸如磁性颗粒或磁性纳米颗粒)上。在一些实施方案中，第二捕获探针可以在溶液中，例如，用于与组织样本中的核酸执行原位反应。

捕获探针组中的捕获探针可单独地且独立地具有多种不同的区域，例如，捕获区域(例如，第一通用或基因特异性捕获区域或第一聚类区域)、引物结合区域(例如，SBS引物区域，诸如SBS3或SBS12区域)或第二通用区域/聚类序列，诸如P5或P7区域、空间地址区域(例如，部分或组合空间地址区域)或可切割区域。

“边合成边测序(“SBS”)技术”通常涉及通过针对模板链反复添加核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中，可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而，在本文所述的方法中，可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。

简言之，SBS可通过使条形码与一种或多种标记核苷酸、DNA聚合酶等接触来启动。使用包含条形码的序列作为模板延伸引物的那些特征将掺入可被检测到的标记核苷酸。任选地，标记的核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止性质。例如，可以将具有可逆终止子部分的核苷酸类似物添加到引物，使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此，对于使用可逆终止的实施方案，可以将解封闭试剂递送到流通池(在检测发生之前或之后)。洗涤可以在各个递送步骤之间进行。该循环然后可以重复n次以使引物延伸n个核苷酸，由此检测长度为n的序列。可以容易地适用于通过本公开的方法产生的示例性SBS程序、流体系统和检测平台在例如以下文献中有所描述：Bentley等人,Nature 456:53-59(2008)；WO 04/018497；WO 91/06678；WO 07/123744；美国专利号7,057,026；7,329,492；7,211,414；7,315,019或7,405,281，以及美国专利申请公布号2008/0108082A1，其中这些专利文献中的每一篇文献均以引用方式并入本文。

示例性序列包括以下Rd1和Rd2衔接子序列。第二通用衔接子-Rd1SBS3(长)：ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:13)；第二通用衔接子-Rd1 SBS3(短)：ACACTCTTTCCCTACACGAC(SEQ ID NO:14)；第一通用衔接子-Rd2SBS12(长)：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:15)；第一通用衔接子-Rd2 SBS12(短)：GTGACTGGAGTTCAGACGTGT(SEQ ID NO:16)。

在一些实施方案中，一组捕获探针中仅一个捕获探针包含捕获区域。在一些实施方案中，一组捕获探针中的两个或更多个捕获探针包含捕获区域。

在一些实施方案中，一组捕获探针中仅一个探针包含空间地址区域，例如，诸如描述捕获阵列上的捕获位点的位置的完整空间地址区域。在一些实施方案中，一组捕获探针中的两个或更多个探针可包含空间地址区域，例如，两个或更多个探针可各自包含部分空间地址区域(即，组合地址区域)，其中每个部分地址区域描述捕获阵列上的捕获位点的位置，例如，沿着x轴或y轴。

在一些实施方案中，一组捕获探针(例如，第一捕获探针和第二捕获探针)可包含至少一个包含捕获区域和空间地址区域(例如，完整或部分空间地址区域)的捕获探针。在一些实施方案中，一组捕获探针中没有捕获探针包含捕获区域和空间地址区域两者。

在一些实施方案中，第一捕获探针是5'基因特异性探针，该5'基因特异性探针包含与第一通用衔接子序列互补的序列以及5'基因特异性引物。在一些实施方案中，RNA捕获探针是5'基因特异性或靶特异性探针，该5'基因特异性或靶特异性探针包含与第一通用衔接子序列互补的序列以及5'基因特异性或靶特异性引物。

在一些实施方案中，第二捕获探针是3'基因特异性探针，该3'基因特异性探针包含3'基因特异性引物、独特分子索引(UMI)和第二通用衔接子序列(例如，Rd1衔接子)。在一些实施方案中，第二捕获探针不包含空间地址区域。在一些实施方案中，表面捕获探针是3'基因特异性或靶特异性探针，该3'基因特异性或靶特异性探针包含3'基因特异性或靶特异性引物、独特分子索引(UMI)和第二通用衔接子序列(例如，Rd1衔接子)。在一些实施方案中，表面捕获探针不包含空间地址区域。

当表面寡核苷酸分子随机排列在基底(例如，流动池)上时，该方法还包括通过对表面寡核苷酸分子的空间条形码进行测序并将空间条形码序列分配到基底上的位置来确定一个或多个表面寡核苷酸分子的基底位置。任选地，在一些实施方案中，RNA捕获探针是5'基因特异性或靶特异性探针，该5'基因特异性或靶特异性探针包含与第一通用衔接子序列互补的序列以及5'基因特异性或靶特异性引物。该方法还包括对一个或多个空间条形码化的第一链cDNA分子或其拷贝的至少一部分进行测序，以鉴定一个或多个空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列，并将该一个或多个空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列与表面寡核苷酸分子的空间条形码序列的已知位置相关联。在各种实施方案中，空间条形码的序列通过下一代测序确定。

当表面寡核苷酸分子成簇排列在基底(例如，流动池)上时，该方法还包括，在使组织样本与基底接触之前，通过对每个簇中的至少一个表面寡核苷酸分子的空间条形码进行测序并将空间条形码序列分配到基底上的位置来确定每个簇的基底位置。任选地，该方法还包括通过对一个或多个空间条形码化的第一链cDNA分子或其拷贝的至少一部分进行测序以鉴定该一个或多个空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列，并且将该一个或多个空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列与表面寡核苷酸分子的空间条形码序列的已知位置相关联，来确定RNA分子在组织样本内的空间位置。在各种实施方案中，空间条形码的序列通过下一代测序确定。

当表面寡核苷酸分子以图案排列在基底(例如，流动池)上使得基底位置和基底上的表面寡核苷酸的空间条形码的序列在组织与流动池接触之前是已知的时，该方法还包括通过对一个或多个空间条形码化的第一链cDNA分子或其拷贝的至少一部分进行测序以鉴定空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列，并且将空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列与表面寡核苷酸分子的空间条形码序列的已知位置相关联，来确定RNA分子在组织样本内的空间位置。任选地，该方法还包括通过对一个或多个空间条形码化的第一链cDNA分子的至少一部分进行测序并将一个或多个空间条形码化的第一链cDNA分子或其拷贝的空间条形码序列与在基底上具有预定位置的表面寡核苷酸分子的一个或多个对应的空间条形码序列相关联来确定RNA分子在组织样本内的空间位置。

在一些实施方案中，基底上的捕获位点是多个捕获位点。在一些实施方案中，多个捕获位点是2个或更多个、10个或更多个、30个或更多个、100个或更多个、300个或更多个、1,000个或更多个、3,000个或更多个、10,000个或更多个、30,000个或更多个、100,000个或更多个、300,000个或更多个、1,000,000个或更多个、3,000,000个或更多个、或10,000,000个、或1,000,000,000个或更多个捕获位点。

在各种实施方案中，捕获阵列或基底包含每平方厘米(cm²)1个或更多个、2个或更多个、10个或更多个、30个或更多个、100个或更多个、300个或更多个、1,000个或更多个、3,000个或更多个、10,000个或更多个、100,000个或更多个、1,000,000个或更多个捕获位点的捕获位点密度。在各种实施方案中，密度在约100k/mm²至约1000k/mm²之间，例如约100k簇/mm²、约200k簇/mm²、约300k簇/mm²、约400k簇/mm²、约500k簇/mm²、约600k簇/mm²、约700k簇/mm²、约800k簇/mm²、约900k簇/mm²或约1000k簇/mm²。

在各种实施方案中，捕获位点中的捕获探针对是多对捕获探针。在一些实施方案中，多个捕获探针是2个或更多个、10个或更多个、30个或更多个、100个或更多个、300个或更多个、1,000个或更多个、3,000个或更多个、10,000个或更多个、30,000个或更多个、100,000个或更多个、300,000个或更多个、1,000,000个或更多个、3,000,000个或更多个、或10,000,000个或更多个、100,000,000个或更多个、或1,000,000,000个或更多个捕获探针。

在一些实施方案中，基底的捕获位点中的捕获探针对是多对捕获探针。在一些实施方案中，在相同捕获位点内的多对捕获探针中的每个第一捕获探针包含相同的空间地址序列。在一些实施方案中，不同捕获位点中的多对捕获探针中的每个第一捕获探针包含不同的空间地址序列。

在一些实施方案中，捕获阵列的表面是平坦表面，例如，玻璃表面。在一些实施方案中，捕获阵列的表面包括一个或多个孔。在一些实施方案中，一个或多个孔对应于一个或多个捕获位点。在一些实施方案中，捕获阵列的表面是小珠表面。

在一些实施方案中，第二捕获探针中的捕获区域是基因特异性捕获区域。在一些实施方案中，第二捕获探针中的基因特异性捕获区域包含TruSeq^TM定制扩增子(TSCA)寡核苷酸探针(Illumina,Inc.)的序列。例如，捕获位点中的多个第二捕获探针中的基因特异性捕获区域可包含多个TSCA寡核苷酸探针序列。

在一些实施方案中，第二捕获探针中的捕获区域是基因特异性或靶特异性捕获区域。在一些实施方案中，第二捕获探针中的基因特异性或靶特异性捕获区域包含TruSeq^TM定制扩增子(TSCA)寡核苷酸探针(Illumina,Inc.)的序列。例如，捕获位点中的多个表面捕获探针中的基因特异性或靶特异性捕获区域可包含多个TSCA寡核苷酸探针序列。

mRNA文库的制备

本公开提供了从样本制备mRNA转录本文库的改善方法，提供了更完整的空间转录组学谱。样本的遗传图谱可用于诊断和确定对患有如通过遗传图谱所确定的疾病或处于患有该疾病风险中的受试者的治疗。

本文考虑了从组织样本(例如，固定的组织样本)制备mRNA转录物表达文库的方法，该方法包括a)将组织样本安装在包含多个捕获寡核苷酸的基底上，其中捕获寡核苷酸包含第一聚类序列(例如，P7)、空间条形码序列(SBC)和第一通用衔接子序列(例如，Rd2衔接子)；b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该多个5'基因特异性探针包含与该第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)；c)使(b)中的组织样本与连接试剂接触，使得彼此邻近地与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；以及e)通过将与5'基因特异性探针中的第一通用衔接子序列互补的序列与捕获寡核苷酸的第一通用衔接子序列(例如，Rd2衔接子)结合，将(d)的连接的基因特异性探针对寡核苷酸捕获在基底上。

在各种实施方案中，基底是载玻片、小珠或流动池。在各种实施方案中，流动池是有序流动池或随机流动池。

在各种实施方案中，5'基因特异性探针和/或3'基因特异性探针的长度为10个至50个核苷酸，或长度为20个至40个核苷酸，或10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个或50个核苷酸。

在各种实施方案中，3'基因特异性探针包含一个或多个核糖碱基。在一些实施方案中，3'基因特异性探针包含1个、2个、3个、4个、5个或更多个核糖碱基。

在各种实施方案中，UMI包含6个至20个核苷酸，或6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个核苷酸。

在另一个实施方案中，该方法包括如上步骤(a)中所述的转录物的杂交，但其中杂交在杂交的探针之间留下核苷酸缺口。本文考虑了如下方法：其中步骤(b)包括在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与组织样本中的一种或多种mRNA转录物杂交的条件下，使该组织样本与以下物质接触：i)多个5'基因特异性探针，该5'基因特异性探针包含与第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，该多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列(例如，Rd1衔接子)，其中5'基因特异性探针和3'基因特异性探针在mRNA转录物上的杂交导致杂交分子之间的核苷酸缺口；以及c)使(b)中的组织样本与核苷酸碱基和连接试剂接触，使得与mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针之间的核苷酸缺口被与mRNA转录物互补的核苷酸碱基填充，并且5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对。步骤(d)和步骤(e)与上述类似。

对于缺口填充反应，缺口可以是1个至50个或更多个核苷酸，例如50个或更多个核苷酸、1个至50个核苷酸、1个至40个核苷酸、1个至30个核苷酸、1个至20个核苷酸或1个至10个核苷酸。

在各种实施方案中，5'基因特异性探针和/或3'基因特异性探针包含锁核酸(LNA)以减少或防止链置换。

聚类序列可以是已知的索引序列。例如，在一些实施方案中，第一聚类序列包含P7序列(例如，CAAGCAGAAGACGGCATACG(SEQ ID NO:3)或CAAGCAGAAGACGGCATACGAGAT(SEQ IDNO:4))并且第二聚类序列包含P5序列(例如，AATGATACGGCGACCACCGA(SEQ ID NO:1)或AATGATACGGCGACCACCGAGATCTACAC(SEQ ID NO:2))。

通用引物还包括空间转录组学领域中已知的序列。在一些实施方案中，第一通用引物序列包含GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:19)。在一些实施方案中，第二通用引物序列包含在AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT(SEQ ID NO:20)中列出的Rd1序列。

为了防止非预期的过早捕获到基底上，5'基因特异性探针和3'基因特异性探针在与捕获探针相比不同的温度下退火。在各种实施方案中，5'基因特异性探针和/或3'基因特异性探针具有约50℃至55℃的熔解温度(Tm)。在各种实施方案中，捕获寡核苷酸具有约40℃至42℃的熔解温度(Tm)。

鉴于期望熔解温度，考虑该方法的步骤(b)在约50℃至55℃下进行。进一步考虑步骤(e)在约40℃至42℃下进行。

对于连接反应，多种逆转录酶(RT)或聚合酶可用于该方法中。在各种实施方案中，聚合酶是T4 DNA连接酶、T4 RNA连接酶2(T4Rnl2)、SplintR DNA连接酶、大肠杆菌DNA连接酶或R2D连接酶。在各种实施方案中，连接反应在37℃下进行。

在链合成之前，可以例如通过酶促消化从反应中去除mRNA转录物。在各种实施方案中，使用RNA酶H或RNA酶A去除mRNA。

本文的方法还包括对连接的基因特异性探针对进行索引和测序，包括，f)在(e)的寡核苷酸上执行延伸反应和PCR以产生代表组织样本中一种或多种mRNA转录物的PCR模板；g)从基底上洗脱PCR模板；以及h)进行索引PCR，以产生包含第一链PCR产物和与第一链PCR产物互补的第二链的双链PCR产物。

在各种实施方案中，使用氢氧化钠洗脱将PCR模板从基底上洗脱。在各种实施方案中，将洗脱的PCR模板放置于用于mRNA转录本文库制备的管中。

在各种实施方案中，该方法还包括对(h)的PCR产物进行测序，以及基于(a)的空间条形码序列确定mRNA转录物在组织中的位置。

在各种实施方案中，双链PCR产物包含与第一链PCR产物互补的第二链上的第二聚类序列(例如，P5)以及索引序列。

考虑本文的方法提供关于组织样本中特定基因的定位/位置和表达水平的信息。例如，在该方法中，使组织样本与基底接触能够将基底上的捕获位点的位置与组织样本中的位置相关联，其中基底包括多个捕获位点，该多个捕获位点包括固定在表面上的多个捕获探针，其中捕获探针包括空间地址区域。

本公开还提供了用于从组织样本制备空间条形码化的RNA文库的改善方法，提供了更完整的空间转录组学谱。从组织样本产生RNA文库的先前方法涉及将探针对与样本RNA连接，并将探针连接在一起，这几乎不提供关于RNA序列本身的信息。本文假设分离杂交和延伸连接步骤将提供来自样本的RNA的初始捕获的更稳健的序列信息。

提出了用靶向探针拷贝或连接RNA的部分的多种方法，该靶向探针然后可以被捕获在(并且然后连接到)空间条形码化的基底上。RNA包括核糖体RNA(rRNA)、信使RNA(mRNA)、非编码RNA(ncRNA)、小核RNA(snRNA)、小核仁RNA(snoRNA)和/或微小RNA(miRNA)。

在各种实施方案中，基底是小珠、小珠阵列、点样阵列、包含多个孔的基底、流通池(例如，聚集流通池)、排列在芯片表面上的聚集颗粒、膜或板(例如，多孔板)。在各种实施方案中，基底是位于流动池中或流动池上的凝胶涂层。

在各种实施方案中，基底包括多个纳米孔或微孔。

在各种实施方案中，RNA捕获探针选自由聚T序列、随机寡核苷酸或靶特异性探针组成的组。在各种实施方案中，靶特异性探针包含多种不同的靶特异性RNA捕获探针序列。在各种实施方案中，RNA捕获探针或表面捕获探针为8个至80个核苷酸。在某些实施方案中，RNA捕获探针或表面探针为10个至80个核苷酸、10个至70个核苷酸、10个至60个核苷酸、10个至50个核苷酸、10个至40个核苷酸、10个至30个核苷酸、10个至20个核苷酸、20个至80个核苷酸、20个至70个核苷酸、20个至60个核苷酸、20个至50个核苷酸、20个至40个核苷酸，或者为8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、40个、50个、60个、70个或80个核苷酸。

在各种实施方案中，靶特异性探针和/或基底特异性探针的长度为10个至50个核苷酸，或长度为20个至40个核苷酸，或10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个或50个核苷酸。

如果采用聚类序列，则该聚类序列可以是已知索引序列。例如，在一些实施方案中，第一聚类序列包含P7序列(例如，CAAGCAGAAGACGGCATACG(SEQ ID NO:3)或CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO:4))并且第二聚类序列包含P5序列(例如，AATGATACGGCGACCACCGA(SEQ ID NO:1)或AATGATACGGCGACCACCGAGATCTACAC(SEQ ID NO:2))。

在链合成之前，可以例如通过酶促消化从反应中去除RNA(例如mRNA)转录物。在各种实施方案中，使用RNA酶H或RNA酶A去除RNA。

本文的方法还包括对连接的基因特异性或靶特异性探针对进行索引和测序，包括在寡核苷酸上执行延伸反应和PCR以产生代表组织样本中一种或多种mRNA转录物的PCR模板；从基底上洗脱PCR模板；以及对PCR进行索引，以产生包含第一链PCR产物和与第一链PCR产物互补的第二链的双链PCR产物。

在各种实施方案中，该方法还包括对PCR产物进行测序，以及基于空间条形码序列确定mRNA转录物在组织中的位置。

生物样本和使用方法

本方法可用于从生物样本中确定遗传信息或遗传图谱，即特异性基因或基因表达的水平，检测基因中的突变或缺陷或遗传标记的变化，以便帮助诊断患有疾病或处于患有疾病的风险中的人以及确定治疗功效。遗传图谱是指样本中一种或多种基因/遗传标记的特征性表达水平。在本公开中，可以在施用治疗剂以治疗如本文所述的疾病之前、期间和/或之后测量遗传图谱，并且可以确定基因水平是否与特定疾病、病症或治疗方案相关地改变，例如增加或降低。

用于该方法的生物样本从受试者获得。在各种实施方案中，受试者是哺乳动物，诸如人、非人灵长类(诸如黑猩猩)、其他猿和猴物种、牛、马、绵羊、山羊、猪、兔、狗、猫、啮齿动物、大鼠、小鼠、豚鼠等。在各种实施方案中，受试者是人。

样本可以来源于器官或组织，包括例如来自：肌肉骨格系统，诸如肌肉、骨骼、肌腱或韧带；消化系统的器官，诸如唾液腺、咽、食道、胃、小肠、大肠、肝脏、胆囊或胰腺；呼吸系统，诸如喉、气管、支气管、肺或膈膜；泌尿系统，诸如肾、输尿管、膀胱或尿道；生殖器官/组织，诸如卵巢、输卵管、子宫、阴道、胎盘、精巢、附睾、输精管、精囊、前列腺、阴茎或阴囊；内分泌系统，诸如下垂体、松果腺、甲状腺、甲状旁腺或肾上腺；循环系统，诸如心脏、动脉、静脉或毛细血管；淋巴系统，诸如淋巴管、淋巴结、骨髓、胸腺或脾脏；中枢神经系统，诸如脑、脑干、小脑、脊髓、脑神经或脊髓神经；眼、耳、鼻或舌；或外皮，诸如皮肤、皮下组织或乳腺。

当用于该方法中时，来自人的样本可以被认为(或怀疑)是健康的或患病的。在一些情况下，可以使用两个试样：第一个被认为是患病的，第二个被认为是健康的(例如，用作健康对照)。可以评价多种病症中的任一者，包括但不限于自身免疫疾病、癌症、囊性纤维化、非整倍体(aneuploidy)、病原性感染、心理病症、肝炎、代谢障碍、糖尿病、性传播疾病、心脏病、卒中、心血管病、多发性硬化或肌营养不良。在各种实施方案中，该疾病或病症是癌症、遗传病症或与具有可鉴定的遗传特征的病原体相关的病症。

考虑本文的方法可用于检测与对照样本或疾病发作前的受试者样本相比的遗传物质的变化，包括突变、缺失、插入、单核苷酸多态性(SNP)、其组合以及遗传图谱的其他变化。

该方法还可用于确定是否需要在受试者中起始疗法(例如癌症疗法)，该方法包括i)使用本文所述的方法确定受试者的遗传图谱；ii)确定遗传图谱是否指示受试者患有疾病或病症；以及iii)用适当的疗法开始治疗该疾病或病症。

测序方法

本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如，与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中，确定靶核酸的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(“SBS”)技术。

SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。利用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序，如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中，在每个循环中加入的核苷酸的数目通常是可变的，并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术，终止子在使用的测序条件下可为有效不可逆的，如利用双脱氧核苷酸的传统桑格测序的情况，或者终止子可为可逆的，如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。

SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此，可基于以下项来检测掺入事件：标记的特性，诸如标记的荧光；核苷酸单体的特性，诸如分子量或电荷；掺入核苷酸的副产物，诸如焦磷酸盐的释放；等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中，不同的核苷酸可以是彼此可区分的，或者另选地，两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如，测序试剂中存在的不同核苷酸可具有不同的标记，并且它们可使用适当的光学器件进行区分，如由Illumina,Inc.开发的测序方法所例示。

在各种实施方案中，该技术是焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年)，“Real-time DNA sequencing using detection ofpyrophosphate release.”，Analytical Biochemistry 242(1),84-9；Ronaghi,M.(2001年)，“Pyrosequencing sheds light on DNA sequencing.”，Genome Res.11(1),3-11；Ronaghi,M.、Uhlen,M.和Nyren,P.(1998)"A sequencing method based on real-timepyrophosphate."Science 281(5375),363；美国专利号6,210,891；美国专利号6,258,568和美国专利号6,274,320，这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中，释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测，并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征，并且可对阵列进行成像以捕获由于在阵列的特征处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如，A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征被检测到方面不同。图像中的这些差异反映阵列上的特征的不同序列内容。然而，每个特征的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如，在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。

在另一种示例性类型的SBS中，通过逐步添加可逆终止子核苷酸来完成循环测序，该可逆终止子核苷酸含有例如可切割或可光漂白的染料标记，如例如国际专利公布号WO04/018497和美国专利7,057,026所述，这两个专利文献的公开内容以引用方式并入本文。该方法由Illumina Inc.商业化，并且还描述于国际专利公布号WO 91/06678和国际专利公布号WO 07/123,744中，其中这两个专利文献中的每一个专利以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。

优选地，在基于可逆终止子的测序实施方案中，标记在SBS反应条件下基本上不抑制延伸。然而，检测标记可以是可移除的，例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征中后捕获图像。在具体实施方案中，每个循环涉及将四种不同的核苷酸类型同时递送到阵列，并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像，每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地，可顺序地添加不同的核苷酸类型，并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中，每个图像将示出已掺入特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容，不同特征将存在于或不存在于不同图像中。然而，特征的相对位置将在图像中保持不变。通过此类可逆终止子-SB S方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后，可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。

在具体实施方案中，一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中，可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年)，该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人，Proc Natl Acad Sci USA 102:5932-7(2005年)，该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展，这些可逆终止子使用小的3'烯丙基基团来阻断延伸，但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光切割的接头附接到碱基，该可光切割的接头可通过暴露于长波长紫外光30秒来容易地切割。因此，二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是使用天然终止，该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除，否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利7,427,673和美国专利7,057,026中，这些专利文献的公开内容全文以引用方式并入本文。

可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利公布号2007/0166705、美国专利公布号2006/0188901、美国专利7,057,026、美国专利公布号2006/0240439、美国专利公布号2006/0281109、国际专利公布号WO 05/065814、美国专利公布号2005/0100900、国际专利公布号WO 06/064199、国际专利公布号WO 07/010,251、美国专利公布号2012/0270305和美国专利公布号2013/0260372中，这些专利文献的公开内容全文以引用方式并入本文。

试剂盒

作为附加的方面，本公开包括试剂盒，该试剂盒包括一种或多种化合物或组合物，该化合物或组合物以促进它们用于实践本公开的方法的方式包装。在一个实施方案中，此类试剂盒包括包装在容器(诸如密封瓶或容器)中的本文所述的化合物或组合物，标记贴在容器上或包括在包装中，该标记描述了化合物或组合物在实践该方法中的使用。优选地，该化合物或组合物包装在单位剂型中。优选地，该试剂盒含有描述组合物的使用的说明书。

本文考虑了试剂盒和制品。此类试剂盒可包括分隔开来以接纳一个或多个容器的载体、包装或容器，诸如小瓶、管等，容器中的每个容器包括将用于本文所描述的方法中的独立元件中的一个元件。适合的容器包括，例如，瓶、小瓶、注射器和试管。该容器可由多种材料形成，诸如，玻璃或塑料。例如，容器可包括本文所公开的一种或多种可空间寻址的探针，任选地在组合物中或与本文所公开的另一试剂(例如，阵列、小珠芯片)组合。可选地，该容器具有无菌入口(例如，该容器可以为静脉输液袋或具有可被皮下注射针刺穿的塞子的小瓶)。任选地，此类试剂盒包括识别描述或标记或关于其在本文所描述的方法中的使用的说明。

试剂盒通常将包括一个或多个附加容器，每个容器带有各种材料(诸如任选地呈浓缩形式的试剂和/或装置)中一种或多种从商业和用户的观点出发期望用于与本文所描述的可空间寻址的探针一起使用的材料。此类材料的非限制性示例包括但不限于：缓冲液、稀释剂、过滤器、针、注射器；载体、包装、容器、小瓶和/或列出内容物和/或使用说明的管标签，以及带有使用说明的包装说明书。也通常将包括一套说明书。

标记可在容器上或与容器相关联。在形成标记的字母、数字或其他字符附接、模制或蚀刻到容器本身的情形下，标记可在容器上，而在其存在于同样支撑容器的容座或载体例如如包装说明书内时，标记可与容器相关联。标记可用于指示内容物将用于特定空间组学应用。诸如在本文所描述的方法中，该标记还可指示使用内容物的方向。

本公开的附加方面和细节将从以下实施例中显而易见，这些实施例旨在是说明性的而不是限制性的。

实施例

实施例1-用于捕获mRNA转录物的原位方法

为了改善从固定或冷冻的组织样本捕获mRNA转录物，开发了用于从组织样本捕获mRNA转录物的改善方法。

第一种方法的示意图呈现于图1中。在第一种方法中，将高度多重化的寡核苷酸探针与组织mRNA杂交，随后在包含空间条形码化的捕获寡核苷酸的固体表面上连接、释放和捕获。将捕获的连接产物从表面洗脱，并通过通用衔接子序列进行PCR扩增以产生空间条形码化的文库。

设计两种测定特异性寡核苷酸以探查单个连续mRNA序列(≤50nt)。这些寡核苷酸中的每个寡核苷酸由两部分组成：含有5'基因特异性序列(5'GSP)的上游特异性寡核苷酸(USO)，具有末端磷酸；和3'通用捕获/部分Rd2'衔接子序列(Rd2')，而下游特异性寡核苷酸(DSO)含有3'基因特异性序列(3'GSP)，随后是独特分子索引(UMI)(N＝6)和5'Rd1序列(Rd1)。USO和DSO的GSP被设计为各自具有约55℃的Tm。使用该方法，可设计并多重化(合并)寡核苷酸对以靶向整个转录组。空间条形码化的基底含有共价结合的表面捕获寡核苷酸(SCO)，该SCO含有用于聚类的5'序列(例如P7)，随后是空间条形码(SBC)和与USO捕获序列互补的捕获序列(Rd2)。SCO Rd2序列具有约40℃的Tm。

寡核苷酸库的杂交在高温(约50℃)下发生以有利于GSP介导的杂交，但使USO与捕获寡核苷酸RD2序列杂交最小化。经由加热洗涤(约50℃)去除未结合的5'基因特异性探针和3'基因特异性探针。3'基因特异性探针的3'末端含有一个或多个核糖碱基以有利于RNA连接酶2介导的连接。经由RNA酶H去除RNA并透化后，经由Rd2'/Rd2杂交将连接的cDNA捕获在SCO上。

从含有Rd2'的产物的3'端的延伸从表面释放捕获的模板，使得能够使用RNA耐受的PCR聚合酶进行离开表面(在溶液中)的索引的PCR。对于测序，Rd1提供UMI和cDNA信息，Rd2产生空间条形码并且Rd3允许样本解复用。

第二种方法的示意图呈现于图2中。第二种方法类似于第一种方法中所述的方法，重要区别在于捕获了对应于内源转录物的序列，从而提供了附加测定特异性。

对于第二种方法，5'基因特异性探针和3'基因特异性探针的GSP被设计成在3'基因特异性探针的杂交3'端和5'特异性探针的5'端之间具有几个核苷酸的缺口，以提供附加测定特异性(该缺口对应于内源mRNA序列)。任选地，将具有逆转录酶活性但缺乏链置换活性的聚合酶用于缺口填充，之后用连接酶封闭切口。5'基因特异性探针的5'末端碱基含有几个锁核酸碱基(LNA)以使任何聚合酶衍生的链置换活性最小化。随后的步骤与第一种方法中所述的步骤相同，除了使用LNA耐受的PCR聚合酶之外。

本文开发了开发从福尔马林固定的、石蜡包埋的(FFPE)组织分离和制备mRNA文库的能力的工作流程。杂交、连接、表面捕获和转录物拷贝的每个步骤在含有组织样本的基底上执行。为了最小化脱靶结合，在约55℃下使用具有高熔解温度并且在该温度范围下杂交的探针，进行探针与靶的初始杂交。一旦杂交完成，在相同的较高温度下进行洗涤并执行连接(37℃)。捕获反应在40℃下执行。反应温度的差异防止捕获探针过早地与基底表面杂交，并使来自组织样本的mRNA的不完全或过早捕获最小化。

探针构造：作为起始步骤，使用利用下一代测序方法的RNA介导的寡核苷酸退火、选择和连接(RASL-Seq)(Illumina)，利用下一代测序(SPASL-Seq)或TruSeq方法的空间退火、选择和连接(Illumina)来设计探针以产生文库。

用于结合RNA的RASL-seq的探针在5'端包含与3'靶序列(基因特异性探针)连接的索引引物(Rd2衔接子)和与3'P5引物连接的5'靶序列(基因特异性探针)。结合cDNA的TruSeq引物包含与USO连接的5'smRNA和与SBS3序列3'连接的DSO。引物被设计为一旦与mRNA转录物杂交就留下缺口或不留下缺口。如果引物杂交在靶多核苷酸上的探针之间留下缺口，则进行延伸反应以填充该缺口。使用两个文库模型(即包含跨细胞类型表达为低CV的基因的人对照文库和ERCC对照模型)来测定探针。

探针退火到靶多核苷酸并连接在一起以形成与靶多核苷酸互补的单链。然后将其捕获在包含聚T和与连接产物(Rd2衔接子)的5'端互补的序列的基底上，并经由多核苷酸延伸反应延伸。然后从捕获表面洗脱连接的链，并通过PCR进行第二链合成。用于第二链合成的引物含有Rd1衔接子序列、索引序列(例如i5)和Rd3序列(例如P5)。注意到在上游连接寡核苷酸(USO)中使用3'核糖碱基提高了溶液中ssDNA连接的效率。该核糖碱基减少了连接反应期间的链置换。

TruSeq方法的探针以与上述RASL-Seq类似的方式设计，但在第一探针上包含5'Rd2序列、独特分子标识符(UMI)和ULSO，并且在第二探针上包含DLSO和3'衔接子序列(Rd1)。对于反应，使用ERCC上的2-探针子池(30nM)、1μl或0.1μl ERCC(在10μl混合物中3nM或0.3nM)和滴定探针浓度滴定的ERCC池8012 50μM、5μM或0.5μM。退火条件是在IDTE中的50mM NaCl，梯度为65℃持续5'、45℃持续5'、37℃持续10'、25℃持续10'。结果展现高探针浓度似乎抑制qPCR。

连接测定：还设计了用于特定方法的连接测定，以便在含有组织的基底上原位连接寡核苷酸。分析了几种不同的连接酶(T4 DNA连接酶、T4 RNA连接酶2(T4Rnl2)、SplintRDNA连接酶、大肠杆菌DNA连接酶和R2DLIGASE^TM)在反应中的效率。9x[酶]条件在各条件下表现最好。T4 RNA连接酶2的性能在较高浓度下类似于其他酶。R2D也似乎具有类似的连接效率。

在连接测定分析期间，将核糖碱基添加到DLSO的3'端以确定这是否会提高连接效率。向连接测定中添加3'核糖碱基提高了T4 RNA连接酶2在单链和夹板反应中的连接效率，但对于T4 DNA连接酶、大肠杆菌DNA连接酶或SplintR则没有。

在杂交之前，测试组织样本交联(例如，样本福尔马林固定的副产品)的逆转是否会提高杂交和捕获效率。使用商业RNA提取试剂盒、RNAeasy或RNASTORM^TM在不同条件下进行交联逆转。收集新鲜冷冻(FF)或FFPE组织切片，并且如果需要，从样本中去除石蜡，并使用标准方案裂解组织。使用不同的RNA提取条件并确定回收的RNA的量。对于Qiagen RNeasy(Qiagen)：FF、FFPE(分别为50ul、30ul洗脱)在FFPE试剂盒中包括15分钟反向交联步骤。所用的时间过程是在提取期间在0'、15'、30'、45'、1h、2h、4h时70℃，O/N；在20ul中100ng，或在80℃下0、15'、30'、60'。在那些条件下，可接近性的主要增加(Cq中的RT-qPCR减少)是在80℃下从0'至30'。似乎mRNA减少与输入反应中的RNA更强烈地相关联。在与上述相同的条件下进行RNASTORM^TM(Cell Data Science)提取，并确定回收的RNA的量。反应显示使用RNAeasy提取的RNA回收似乎有轻微的增加，但是将进行附加实验以确认。

表1

注意：来自高实验室温度的FFPE收集困难导致各自含有2个至3.5个小鼠肾切片的每个管

结果显示从FFPE组织样本捕获mRNA的本发明方法有效提高捕获效率和转录物完整性，从而提供更稳健的空间转录组学文库。这种改善的文库可用于例如在来自患有疾病或病症的受试者的样本中在细胞和位置水平上更清楚地表征遗传图谱，并帮助诊断和治疗这种疾病或病症。

实施例2-用于产生RNA文库的方法

为了改善从固定或冷冻的组织样本捕获RNA转录物，开发了用于从组织样本捕获RNA的改善方法。

第一方法的示意图呈现在图3中，并且示例性工作流程示于图8中。

在第一个示例性方法中，使RNA捕获探针与组织中的RNA杂交，随后用逆转录酶延伸以形成第一链cDNA分子(图3)。RNA捕获探针包含与样本中的RNA互补的捕获寡核苷酸序列和与多个夹板寡核苷酸的第一结构域互补的第一基底捕获寡核苷酸。在任选的步骤中，然后将延伸的探针从RNA上熔解(或用RNA酶消化RNA)，并将探针经由夹板寡核苷酸与基底上的表面条形码化的寡核苷酸杂交。基底捕获探针各自包含空间条形码和与夹板寡核苷酸的第二结构域互补的第二基底捕获寡核苷酸。然后例如使用T4连接酶将捕获的第一链cDNA分子连接到延伸探针的表面条形码寡核苷酸，以产生空间条形码化的第一链cDNA。表面寡核苷酸还可含有衔接子序列，例如P7衔接子，并且RNA捕获探针还可含有用于读取空间条形码的读取引物杂交位点。任选地，如果RNA是可移动的(即，不与组织交联，或通过解交联释放)，则整个构建体可与基底表面寡核苷酸结合，并连接，随后进行表面上的逆转录，而不是使延伸的探针去杂交。任选地，可以消化RNA，释放DNA探针，而不是使延伸的探针去杂交。连接可以经由酶促或化学方法进行。

作为上述策略的置换，在第二种方法中，将寡核苷酸添加到延伸探针的3'端，该延伸探针与表面寡核苷酸的一部分互补(图4A，图9)。在该方法中，RNA捕获探针包含与样本中的RNA互补的寡核苷酸序列和柄序列。最初，使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体。使用RT延伸RNA-RNA杂交体以产生第一链cDNA。然后将包含与基底捕获探针的第一结构域互补的基底捕获寡核苷酸的3'寡核苷酸序列添加到第一链cDNA。表面捕获探针以5'至3'取向包含基底锚定序列、空间条形码和第一结构域。然后将第一链cDNA分子的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交；执行杂交的基底捕获探针的第一结构域的延伸，产生空间条形码化的第一链cDNA分子。

该3'端寡核苷酸使得能够从表面捕获探针延伸，并且然后可使用探针的5'端以引入P5或其他衔接子。图4A中向3'端添加寡核苷酸的方法显示为标签化，Tn5对DNA/RNA杂交体具有一些活性，并且可用于通过标签化添加3'OH(图4A)。还可以通过用点击标记的核苷酸(例如叠氮化物或炔)终止第一延伸步骤或类似地通过oNTP指导的衔接化，随后与相反官能化的表面条形码化的寡核苷酸(或在cDNA转录物的3'端与其互补的序列)化学连接来实现3'寡核苷酸添加(图4B)。

考虑到添加的3'寡核苷酸序列可被表面寡核苷酸(例如聚A尾或其他捕获序列)捕获。这些修饰的核苷酸(点击和oNTP)也可用于将cDNA产物终止于适于测序的插入长度。另选方法是使用TdT(或其他单核苷酸添加)使延伸的探针多聚腺苷酸化，并将该产物与空间条形码寡核苷酸的3'端处的聚T结合。

模板转换可以是向第一链cDNA分子的3'端添加聚A尾或其他捕获序列的另一种方法(图4C，图10)。类似于上述方法，使RNA捕获探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体。使用RT延伸RNA-RNA杂交体以产生第一链cDNA。为了添加3'寡核苷酸，使第一链cDNA分子与逆转录酶(RT)和模板转换寡核苷酸(TSO)接触，其中RT在第一cDNA的3'端掺入未模板化的胞嘧啶核苷酸，并且TSO包含能够与未模板化的胞嘧啶核苷酸杂交的序列，并且RT延伸以产生TSO补体。在该实施例中，3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，并且多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码和第一结构域。

一旦通过模板转换添加3'寡核苷酸，3'端寡核苷酸就用于与空间条形码化的表面寡核苷酸杂交，随后延伸表面寡核苷酸以将空间条形码连接至第一链cDNA序列。在一个变化形式中，DNA通过逆转录进行dC加尾，并用作捕获序列，与空间条形码化的基底捕获寡核苷酸上的dG端序列杂交。

在模板转换的另一个变化形式中，可以释放基底表面上的空间条形码化的寡核苷酸以用作模板转换引物(图4D，图11)。在该示例性方法中，3'端寡核苷酸可包含与基底上的基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、第二柄、空间条形码和第一结构域。表面捕获探针从基底释放并用作模板转换引物，该模板转换引物然后可用于对第一链cDNA进行空间条形码化。从表面释放表面捕获探针可用于对安装在其上不具有捕获寡核苷酸的载玻片上的组织进行空间寻址。

在连接的表面上的下游文库制备步骤可包括：使用含有P5序列或类似柄的随机引物随机引发第2链，连接P5衔接子，经由TdT多聚腺苷酸化，随后PCR以引入P5衔接子等。P5端也可以在RT延伸期间使用模板转换引入。SMI也可以在文库制备期间经由任何上述方法引入。

在另一种方法中，从下拉的RNA进行随机引发。RNA(例如mRNA)经由封闭的探针(例如，包含3'磷酸)和锚定到基底的表面捕获寡核苷酸(以5'作为杂交的自由端显示，即5'飞行，但也可以是3'飞行)之间的杂交向下结合到基底表面上(图5A，图12)。第二条形码化的寡核苷酸(5'锚定)也在基底上邻近基底捕获寡核苷酸。具有3'OH封闭的探针的RNA捕获寡核苷酸与组织样本中的RNA杂交以形成具有5'单链RNA区域的RNA-RNA捕获探针杂交体。RNA-RNA捕获探针的基底捕获寡核苷酸与基底捕获探针的第一结构域杂交，并且RNA-RNA捕获探针杂交体的5'单链RNA区域与条形码化的基底探针的随机引发序列退火。使用RT进行与5'单链RNA杂交的随机引发序列的延伸，以形成空间条形码化的第一链cDNA分子。

如从图5A所见，条形码化的寡核苷酸用于随机引发RNA，从而将空间条形码与RNA转录物连接。条形码寡核苷酸还将含有P7或其他衔接子和条形码读取引物位点。如上所述的下游文库制备步骤将用于产生第二链cDNA。如果捕获寡核苷酸是聚T，则也可以执行聚AmRNA的随机引发。这将使得能够拷贝远离聚A尾3'端(即，可能在编码区而不是3'UTR内)的mRNA的区段。这在标准聚A捕获空间方法中是缺乏的。

该方案的另一个变化形式具有经由不能被聚合酶通读的接头连结的捕获寡核苷酸和条形码寡核苷酸(图5B，图13)。该方案的优点是在基底表面上可获得更多空间，允许使用更高复杂性的探针组来下拉样本中的RNA。

探针延伸、然后连接到表面空间条形码寡核苷酸也被考虑作为本文的方法(图6A，图14)。在该方法中，包含与样本中的RNA互补的RNA捕获寡核苷酸和与多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸的未封闭的RNA捕获探针用于将RNA结合至表面。基底捕获探针可以以5'至3'取向包含第一结构域和第一基底锚定序列，并且接近于基底上的条形码化的基底探针，该条形码化的基底探针以5'至3'取向包含空间条形码和第二基底锚定序列。RNA-RNA杂交体也用于引发RT。例如，使用RT进行捕获的RNA-RNA捕获探针杂交体的RNA捕获寡核苷酸的延伸以形成第一链cDNA分子。第一链cDNA连接到空间条形码寡核苷酸。该方法与先前方法之间的差异在于，不需要夹板连接，这是因为通过强制定位至连接靶的浓度增强，并且P5衔接子可被引入至探针的5'附件中。任选地，可使用cDNA中的3'点击核苷酸或经由在3'端掺入的oNTP进行化学连接，该oNTP充当其自身的夹板以连接到条形码寡核苷酸。也可使用其他化学连接方法，诸如使用EDC或oNTP掺入、随后连接的5'OH至3'磷酸化。

该方法的另一种置换使用封闭的RNA捕获探针和RNA的3'多聚腺苷酸化(例如使用PAP)以使得聚A能够添加和延伸(图6B，图15)。条形码寡核苷酸可以包含与聚A结合的聚T序列，并且基底上的捕获寡核苷酸可以是但不一定是5'飞行的。RNA捕获探针寡核苷酸结合到捕获探针并促进延伸的RT与基底表面上的条形码寡核苷酸的连接。

在另一种方法中，考虑将RNA直接连接到表面空间条形码化的寡核苷酸(图7，图16)。在该方法中，使用具有发夹结构并且包含与样本中的RNA互补的DNA捕获寡核苷酸和与基底捕获探针的第一结构域互补的基底捕获寡核苷酸的RNA捕获探针。DNA捕获寡核苷酸包含单链区，并且基底捕获探针中的每个基底捕获探针可以以5'至3'取向包含基底锚定序列、空间条形码、第一结构域和第二结构域，其中第二结构域包含至少一个RNA核苷酸或核苷。形成RNA-RNA捕获探针杂交体，并且RNA-RNA捕获探针杂交体中的每个RNA-RNA捕获探针杂交体包含5'单链RNA末端区域。可使用T4连接酶将5'RNA连接到3'DNA。RNA-RNA捕获探针杂交体被基底捕获探针中的基底捕获寡核苷酸捕获。可使用也与表面条形码寡核苷酸结合的探针捕获RNA。发夹探针可防止过量探针占据表面位点，否则这将需要更严格的洗涤或更高Tm的表面捕获寡核苷酸。接着，5'单链RNA可以被5'磷酸化，使得5'至3'核糖核酸外切酶能够消化悬垂RNA。例如使用T4连接酶将捕获的RNA-RNA捕获探针杂交体的消化的5'RNA末端区域连接到DNA-RNA嵌合体的基底捕获探针的第二结构域。表面寡核苷酸可以在3'端具有几个核糖碱基。DNA-RNA嵌合体可通过使用也可含有P5的DNA随机引物进行逆转录而转化为DNA。嵌合体的3'多聚腺苷酸化也可用于使得能够使用聚T引发。如果在FFPE组织上进行，则RNA可以被解交联。如果用新鲜冷冻组织进行该方法，则将组织透化以释放RNA。

因此，应当理解，本发明不限于所公开的特定实施方案，而是旨在覆盖在如所附权利要求、以上描述所限定和/或在附图中示出的本发明的实质和范围内的修改。因此，仅如在所附权利要求中出现的这样的限制应当被置于本公开上。

Claims

1.一种从组织样本制备mRNA转录物表达文库的方法，所述方法包括：

a)将所述组织样本安装在包含多个捕获寡核苷酸的基底上，其中所述捕获寡核苷酸包含第一聚类序列、空间条形码序列(SBC)和第一通用衔接子序列；

b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与所述组织样本中的一种或多种mRNA转录物杂交的条件下，使所述组织样本与以下物质接触：i)多个5'基因特异性探针，所述多个5'基因特异性探针包含与所述第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，所述多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列；

c)使(b)中的所述组织样本与连接试剂接触，使得彼此邻近地与所述mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；

d)去除与所述连接的基因特异性探针对杂交的所述mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；

e)通过将与所述5'基因特异性探针中的所述第一通用衔接子序列互补的所述序列与所述捕获寡核苷酸的所述第一通用衔接子序列结合，将(d)的所述连接的基因特异性探针对寡核苷酸捕获在所述基底上。

2.一种确定组织样本中mRNA转录物表达的方法，所述方法包括

d)去除与连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；

3.根据权利要求1或2所述的方法，其中所述3'基因特异性探针包含一个或多个核糖碱基。

4.一种从组织样本制备mRNA转录物表达文库的方法，所述方法包括：

b)在使得一个或多个5'基因特异性探针和一个或多个3'基因特异性探针与所述组织样本中的一种或多种mRNA转录物杂交的条件下，使所述组织样本与以下物质接触：i)多个5'基因特异性探针，所述多个5'基因特异性探针包含与所述第一通用衔接子序列互补的序列以及5'基因特异性引物；和ii)多个3'基因特异性探针，所述多个3'基因特异性探针包含3'基因特异性引物、独特分子索引和第二通用衔接子序列，

其中所述5'基因特异性探针和3'基因特异性探针在所述mRNA转录物上的杂交导致所述杂交分子之间的核苷酸缺口；

c)使(b)中的所述组织样本与核苷酸碱基和连接试剂接触，使得与所述mRNA转录物杂交的所述5'基因特异性探针和3'基因特异性探针之间的所述核苷酸缺口被与所述mRNA转录物互补的核苷酸碱基填充，并且5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；

e)通过将与所述5'基因特异性探针中的所述第一通用衔接子序列互补的所述序列与所述捕获寡核苷酸的所述第一通用衔接子序列结合，将(d)的所述连接的基因特异性探针对寡核苷酸序列捕获在所述基底上。

5.一种分离组织样本中mRNA转录物表达的方法，所述方法包括

其中所述一个或多个5'基因特异性探针和一个或多个3'基因特异性探针在所述mRNA转录物上的杂交导致所述杂交分子之间的核苷酸缺口；

c)使(b)中的所述组织样本与核苷酸碱基和连接试剂接触，使得与所述mRNA转录物杂交的5'基因特异性探针和3'基因特异性探针之间的所述核苷酸缺口被与所述mRNA转录物互补的核苷酸碱基填充，并且所述5'基因特异性探针和3'基因特异性探针连接在一起以形成一个或多个连接的基因特异性探针对；

d)去除与所述连接的基因特异性探针对杂交的mRNA转录物并留下连接的基因特异性探针对寡核苷酸序列；

6.根据权利要求4或5所述的方法，其中所述核苷酸缺口为1个至50个或更多个核苷酸。

7.根据权利要求1至6中任一项所述的方法，所述方法还包括对所述连接的基因特异性探针对进行索引和测序，包括：

f)对(e)的所述寡核苷酸执行延伸反应和PCR，以产生代表所述组织样本中的一种或多种RNA转录物的PCR模板；

g)洗脱所述PCR模板；

h)进行索引PCR，以产生包含第一链PCR产物和与所述第一链PCR产物互补的第二链的双链PCR产物。

8.根据权利要求7所述的方法，所述方法还包括对(h)的所述PCR产物进行测序，以及基于(a)的所述空间条形码确定所述mRNA转录物在所述组织中的位置。

9.根据权利要求7或8所述的方法，其中所述双链PCR产物包含在与所述第一链PCR产物互补的所述第二链上的第二聚类序列，并且任选地包含索引序列。

10.根据权利要求1至9中任一项所述的方法，其中所述5'基因特异性探针和/或所述3'基因特异性探针为10个至50个核苷酸。

11.根据权利要求1至10中任一项所述的方法，其中所述第一聚类序列包含P7序列。

12.根据权利要求1至11中任一项所述的方法，其中所述第一通用衔接子序列包含GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:19)。0

13.根据权利要求1至12中任一项所述的方法，其中所述第二通用衔接子序列包含AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG(SEQ ID NO:20)。

14.根据权利要求1至13中任一项所述的方法，其中所述5'基因特异性探针和/或所述3'基因特异性探针具有约50℃至55℃的熔解温度(Tm)。

15.根据权利要求1至14中任一项所述的方法，其中所述捕获寡核苷酸具有约40℃至42℃的熔解温度(Tm)。

16.根据权利要求1至15中任一项所述的方法，其中步骤(b)在约50℃至55℃下进行。

17.根据权利要求1至16中任一项所述的方法，其中步骤(e)在约40℃至42℃下进行。

18.根据权利要求1至17中任一项所述的方法，其中使所述组织样本与所述基底的接触将所述基底上的捕获位点的位置与所述组织样本中的位置相关联，其中所述基底包括多个捕获位点，所述多个捕获位点包括固定在表面上的多个捕获探针，其中所述捕获探针包括空间地址区域。

19.根据权利要求1至18中任一项所述的方法，其中所述样本来自哺乳动物。

20.根据权利要求1至19中任一项所述的方法，其中所述样本来自人。

21.根据权利要求1至20中任一项所述的方法，其中所述组织样本是肿瘤活检。

22.根据权利要求1至21中任一项所述的方法，其中所述组织样本是福尔马林固定的石蜡包埋的(FFPE)组织或新鲜冷冻(FF)组织。

23.一种鉴定患有疾病或处于患有疾病的风险中的受试者中的遗传变异的方法，所述方法包括：

i)根据权利要求1至21中任一项所述的方法，从来自所述受试者的组织样本产生样本mRNA文库，

i)将来自所述样本mRNA文库的遗传信息与对照mRNA文库进行比较，以及

iii)鉴定与所述疾病相关的所述样本mRNA文库中的遗传变异。

24.根据权利要求23所述的方法，其中所述疾病是遗传缺陷、癌症、自身免疫性疾病或代谢障碍。

25.根据权利要求23或24所述的方法，其中所述疾病是癌症。

26.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与同所述组织样本中的RNA杂交的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸序列和与多个夹板寡核苷酸的第一结构域互补的第一基底捕获寡核苷酸；

(b)使所述RNA捕获探针的所述RNA捕获寡核苷酸与所述组织样本中的RNA杂交以形成RNA-RNA捕获探针杂交体；

(c)使用逆转录酶进行所述RNA-RNA捕获探针杂交体的所述RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中所述第一链cDNA分子中的每个第一链cDNA分子包含所述RNA捕获寡核苷酸和所述第一基底捕获寡核苷酸；

(d)在基底上捕获所述第一链cDNA分子，其中所述基底包含多个基底捕获探针，每个基底捕获探针包含空间条形码和与所述夹板寡核苷酸的第二结构域互补的第二基底捕获寡核苷酸，并且其中所述捕获包括使所述夹板寡核苷酸与所述第一链cDNA分子的所述第一基底捕获寡核苷酸和所述基底捕获探针的所述第二基底捕获寡核苷酸杂交；以及

(e)将所捕获的第一链cDNA分子与所述基底捕获探针连接，从而形成空间条形码化的第一链cDNA分子。

27.根据权利要求26所述的方法，其中所述基底捕获探针还包含基底锚定部分。

28.根据权利要求26或27所述的方法，其中所述表面寡核苷酸还包含P7衔接子和用于读取所述空间条形码序列的RNA捕获探针引物。

29.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与同所述组织样本中的RNA杂交的多个RNA捕获探针接触，其中所述RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸以及柄序列；

(c)使用逆转录酶进行所述RNA-RNA捕获探针杂交体的所述RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子，其中所述第一链cDNA分子中的每个第一链cDNA分子包含所述RNA捕获寡核苷酸和所述柄序列；

(d)将3'端寡核苷酸添加到每个第一链cDNA分子的所述3'端，其中所述3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中所述多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码和所述第一结构域；

(e)使所述第一链cDNA分子的所述基底捕获寡核苷酸与所述基底捕获探针的所述第一结构域杂交；以及

(f)进行所述杂交的基底捕获探针的所述第一结构域的延伸以形成多个空间条形码化的第一链cDNA分子。

30.根据权利要求29所述的方法，其中所述柄序列是PCR柄序列、分子标识符、UMI或它们的任何组合。

31.根据权利要求29或30所述的方法，其中所述柄序列是P5衔接子序列。

32.根据权利要求29至31中任一项所述的方法，其中所述3'端寡核苷酸通过标签化添加。

33.根据权利要求29至32中任一项所述的方法，其中所述3'端寡核苷酸通过点击化学或oNTP指导的衔接化添加。

34.根据权利要求33所述的方法，其中所述3'OH通过用点击标记的核苷酸终止所述延伸反应来添加。

35.根据权利要求34所述的方法，其中所述点击标记的核苷酸是叠氮化物或炔标记的寡核苷酸。

36.根据权利要求34或35所述的方法，其中所述延伸反应将聚A序列添加到3'延伸的序列中。

37.根据权利要求29至36中任一项所述的方法，其中所述第一链cDNA用所述表面捕获寡核苷酸上的聚T序列捕获。

38.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(d)经由模板转换向每个第一链cDNA分子的所述3'端添加3'端寡核苷酸，包括使所述第一链cDNA分子与逆转录酶(RT)和模板转换寡核苷酸(TSO)接触，其中所述RT在所述第一cDNA的所述3'端掺入未模板化的胞嘧啶核苷酸，并且所述TSO包含能够与所述未模板化的胞嘧啶核苷酸杂交的序列，其中所述3'端寡核苷酸附加到所述第一cDNA的所述3'端，并且所述RT延伸以产生TSO补体；

其中所述3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中所述多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码和所述第一结构域；

39.根据权利要求38所述的方法，其中所述第一结构域是聚T序列。

40.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

其中所述3'端寡核苷酸包含与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中所述多个基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、第二柄、空间条形码和所述第一结构域；

(e)从所述基底释放所述基底捕获探针；

(f)使所述第一链cDNA分子的所述基底捕获寡核苷酸与所述基底捕获探针的所述第一结构域杂交；以及

(g)使所述第一链与包含TSO引物的第二链合成混合物接触，并且使用所述第一链作为模板延伸所述TSO引物，以产生与所述第一链互补的第二链，所述第二链包含所述TSO、与所述第一cDNA互补的第二cDNA、以及包含与所述空间条形码序列(SBC)互补的空间条形码序列补体(SBC')的第二链条形码信息。

41.根据权利要求40所述的方法，其中所述第一结构域是与所述TSO上的所述聚C序列杂交的聚G序列。

42.根据权利要求40或41所述的方法，其中所述柄是P5序列，并且所述第二柄是P7序列。

43.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与结合所述组织样本中的RNA的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中与所述RNA互补的所述RNA捕获寡核苷酸在所述3'端被封闭；其中所述基底捕获探针中的每个基底捕获探针以5'至3'取向包含所述第一结构域和第一基底锚定序列，并且邻近所述基底上的一个或多个条形码化的基底探针，并且其中所述条形码化的基底探针中的每个条形码化的基底探针以5'至3'取向包含第二基底锚定序列、空间条形码和随机引发序列；

(b)使所述RNA捕获探针的所述RNA捕获寡核苷酸与所述组织样本中的RNA杂交以形成具有5'单链RNA区域的RNA-RNA捕获探针杂交体；

(c)使所述RNA-RNA捕获探针杂交体的所述基底捕获寡核苷酸与所述基底捕获探针的所述第一结构域杂交；

(d)使所述RNA-RNA捕获探针杂交体的所述5'单链RNA区域与所述条形码化的基底探针的所述随机引发序列杂交；以及

(e)使用逆转录酶进行与所述5'单链RNA区域杂交的所述随机引发序列的延伸，以形成多个空间条形码化的第一链cDNA分子。

44.根据权利要求43所述的方法，其中与所述样本中的RNA互补的所述核苷酸序列是聚T寡核苷酸、随机寡核苷酸、半随机寡核苷酸或靶特异性序列。

45.根据权利要求43或44所述的方法，其中与所述样本中的RNA互补的所述核苷酸序列是聚T寡核苷酸。

46.根据权利要求43所述的方法，其中从所述样本去除所述RNA。

47.根据权利要求46所述的方法，其中在延伸形成第一链cDNA后，从所述样本去除RNA。

48.根据权利要求47所述的方法，其中通过酶促或热方法去除所述RNA。

49.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与同所述组织样本中的RNA杂交的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中所述基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、所述第一结构域、接头、空间条形码和随机引发序列；

(b)使所述RNA捕获探针与所述组织样本中的所述RNA杂交，以形成具有5'单链RNA区域的RNA-RNA捕获探针杂交体；

(d)使所述RNA-RNA捕获探针杂交体的所述5'单链RNA区域与所述基底捕获探针的所述随机引发序列杂交；以及

50.根据权利要求49所述的方法，其中所述接头是不能被聚合酶通读的接头。

51.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与结合所述组织样本中的RNA的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸；其中所述基底捕获探针中的每个基底捕获探针以5'至3'取向包含所述第一结构域和第一基底锚定序列，并且邻近所述基底上的多个条形码化的基底探针中的至少一个条形码化的基底探针，并且其中每个条形码化的基底探针以5'至3'取向包含空间条形码和第二基底锚定序列；

(c)通过使所述RNA-RNA捕获探针杂交体的基底捕获寡核苷酸与所述基底捕获探针的所述第一结构域杂交，在所述基底上捕获所述RNA-RNA捕获探针杂交体；

(d)使用逆转录酶进行所捕获的RNA-RNA捕获探针杂交体的所述RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子；以及

(e)将所述第一链cDNA分子中的每个第一链cDNA分子与所述近端条形码化的基底探针连接，从而形成空间条形码化的第一链cDNA分子。

52.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与结合所述组织样本中的RNA的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针包含与所述样本中的RNA互补的RNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中与所述RNA互补的所述RNA捕获寡核苷酸在所述3'端被封闭；其中所述基底捕获探针中的每个基底捕获探针以5'至3'取向包含所述第一结构域和第一基底锚定序列，并且邻近所述基底上的多个条形码化的基底探针中的至少一个条形码化的基底探针，并且其中每个条形码化的基底探针以5'至3'取向包含聚T序列、空间条形码和第二基底锚定序列；

(d)使所述样本中的所述RNA在所述3'端处多聚腺苷酸化；以及

(e)使用逆转录酶进行所捕获的RNA-RNA捕获探针杂交体的所述RNA捕获寡核苷酸的延伸，以形成多个第一链cDNA分子。

53.根据权利要求52所述的方法，其中所述多聚腺苷酸化使用聚A聚合酶进行。

54.一种用于从组织样本制备空间条形码化的RNA文库的方法，所述方法包括：

(a)使所述组织样本与同所述组织样本中的RNA杂交的多个RNA捕获探针接触，其中所述RNA捕获探针中的每个RNA捕获探针具有发夹结构并且包含与所述样本中的RNA互补的DNA捕获寡核苷酸和与基底上的多个基底捕获探针的第一结构域互补的基底捕获寡核苷酸，其中所述RNA捕获探针的所述DNA捕获寡核苷酸包含单链区，并且其中所述基底捕获探针中的每个基底捕获探针以5'至3'取向包含基底锚定序列、空间条形码、所述第一结构域和第二结构域，其中所述第二结构域包含至少一个RNA核苷酸或核苷；

(b)使所述RNA捕获探针与所述组织样本中的所述RNA杂交以形成RNA-RNA捕获探针杂交体，其中所述RNA-RNA捕获探针杂交体中的每个RNA-RNA捕获探针杂交体包含5'单链RNA末端区域；

(c)通过使所述RNA-RNA捕获探针杂交体的所述基底捕获寡核苷酸与所述基底捕获探针的所述第一结构域杂交，在所述基底上捕获所述RNA-RNA捕获探针杂交体的所述基底捕获寡核苷酸；

(d)将所捕获的RNA-RNA捕获探针杂交体的所述5'单链RNA末端区域磷酸化，并使所捕获的RNA-RNA捕获探针杂交体与5'至3'核糖核酸外切酶接触以消化所述磷酸化的5'单链RNA末端区域；以及

(e)将所捕获的RNA-RNA捕获探针杂交体的所消化的5'RNA末端区域与所述基底捕获探针的所述第二结构域连接，以在所述基底上形成多个DNA-RNA嵌合体。

55.根据权利要求54所述的方法，其中所述连接用T4连接酶进行。

56.根据权利要求54所述的方法，其中所捕获的RNA-RNA捕获探针杂交体的所述RNA在连接之前被5'磷酸化。

57.根据权利要求56所述的方法，所述方法还包括在所述基底上从所述多个DNA-RNA嵌合体产生第一链cDNA。

58.根据权利要求57所述的方法，其中所述第一链cDNA能够从所述表面杂交并处理用于测序。

59.根据权利要求54至58中任一项所述的方法，其中使用任选地包含P5衔接子的DNA随机引物进行逆转录。

60.根据权利要求26至59中任一项所述的方法，其中cDNA延伸模板能够通过化学、酶促或热去杂交从所述组织中的所述RNA去杂交。

61.根据权利要求29至59中任一项所述的方法，其中所述cDNA延伸模板能够通过化学、酶促或热去杂交从基底上的所述RNA去杂交。

62.根据权利要求60或61所述的方法，其中所述去杂交步骤在所述捕获步骤之前或之后进行。

63.根据权利要求26至62中任一项所述的方法，其中所述组织样本是福尔马林固定的石蜡包埋的(FFPE)组织或新鲜冷冻(FF)组织。

64.根据权利要求63所述的方法，所述方法还包括使所述FFPE样本解交联，任选地其中所述解交联使用pH 9的TE缓冲液进行。

65.根据权利要求26至64中任一项所述的方法，其中所述RNA捕获探针选自由聚T序列、聚U序列、随机寡核苷酸、半随机序列或靶特异性探针组成的组。

66.根据权利要求65所述的方法，其中所述RNA捕获探针是聚T序列。

67.根据权利要求65或66所述的方法，其中所述RNA捕获探针包含至少10个脱氧胸苷残基。

68.根据权利要求67所述的方法，其中所述靶特异性探针包含多个不同的靶特异性RNA捕获探针序列。

69.根据权利要求68所述的方法，其中所述靶特异性探针包含至少10个与靶RNA的核苷酸序列互补的核苷酸。

70.根据权利要求68或69所述的方法，其中所述RNA捕获探针或表面捕获探针为8个至80个核苷酸。

71.根据权利要求26至70中任一项所述的方法，其中所述靶向探针为8个至80个核苷酸或10个至50个核苷酸。

72.根据权利要求26至71中任一项所述的方法，其中在使所述组织样本与多个RNA捕获探针接触之前，使所述组织样本透化。

73.根据权利要求26至72中任一项所述的方法，其中在使所述组织样本与多个RNA捕获探针接触之前，用一种或多种封闭试剂处理所述组织样本。

74.根据权利要求26至73中任一项所述的方法，其中在使所述组织样本与多个RNA捕获探针接触之前，使所述组织样本透化并用一种或多种封闭试剂处理。

75.根据权利要求26至74中任一项所述的方法，其中所述基底是小珠、小珠阵列、点样阵列、包含多个孔的基底、流通池、排列在芯片表面上的聚集颗粒、膜或板。

76.根据权利要求75所述的方法，其中所述基底包括多个纳米孔或微孔。

77.根据权利要求26至76中任一项所述的方法，其中所述空间条形码化的第一链cDNA分子是通过使所述基底上的所述空间条形码化的第一链cDNA与DNA聚合酶和一种或多种引物接触以产生与所述空间条形码化的第一链cDNA互补的空间条形码化的第二链cDNA并且从所述基底上去除所述空间条形码化的第二链cDNA来回收的。

78.根据权利要求77所述的方法，其中所述一种或多种引物各自包含随机引发序列。

79.根据权利要求78所述的方法，其中所述随机引发序列包含九个随机核苷酸。

80.根据权利要求78或79所述的方法，其中所述空间条形码化的第二链cDNA各自包含独特分子标识符(UMI)，其中所述UMI包含内在序列和外在序列，其中所述外在序列是与用于产生所述第二链cDNA的所述随机引发序列互补的序列，并且其中所述内在序列是与用于产生所述第二链cDNA的所述第一链cDNA模板序列互补的序列。

81.根据权利要求77所述的方法，其中所述一种或多种引物各自包含分子标识符条形码。

82.根据权利要求77所述的方法，其中所述一种或多种引物各自包含UMI条形码。

83.根据权利要求77至82中任一项所述的方法，其中通过化学或物理去杂交来将所述空间条形码化的第二链cDNA从所述基底上去除。

84.根据权利要求77至83中任一项所述的方法，其中所述锚定序列包含切割位点，并且所述空间条形码化的第一链cDNA和所述空间条形码化的第二链cDNA的杂交体通过在所述切割位点处的酶促切割从所述基底上去除。

85.根据权利要求84所述的方法，其中所述切割位点是限制性核酸内切酶的结合位点。

86.根据权利要求84所述的方法，其中所述锚定序列包含切割位点，并且其中所述空间条形码化的第一链cDNA分子是通过在所述切割位点处的酶促切割来回收的。

87.根据权利要求86所述的方法，其中所述切割位点是限制性核酸内切酶的结合位点。

88.根据权利要求77至87中任一项所述的方法，所述方法还包括对所述cDNA文库的至少一部分进行测序，以确定每个分子的所述空间条形码序列。

89.根据权利要求88所述的方法，所述方法还包括通过将一个或多个cDNA分子的所述空间条形码序列与所述基底上的含有对应空间条形码序列的表面寡核苷酸分子的空间位置相关联来确定所述一个或多个cDNA分子的空间位置。

90.根据权利要求26至89中任一项所述的方法，所述方法还包括对空间条形码化的第一链cDNA进行索引和测序，包括：

对所述空间条形码化的第一链cDNA执行延伸反应和PCR，以产生包含代表所述组织样本中一种或多种RNA转录物的第一链PCR产物的PCR模板；

洗脱所述PCR模板；

进行索引PCR，以产生包含所述第一链PCR产物和与所述第一链PCR产物互补的第二链的双链PCR产物。

91.根据权利要求90所述的方法，所述方法还包括对所述PCR产物进行测序，以及基于第一链cDNA的所述空间条形码确定所述RNA转录物在所述组织中的位置。

92.根据权利要求90或91所述的方法，其中所述双链PCR产物包含与所述第一链PCR产物互补的所述第二链上的第二聚类序列，并且任选地包含索引序列。

93.根据权利要求91或92所述的方法，其中通过标签化进一步处理所述PCR产物，以产生空间转录组学文库。

94.根据权利要求93所述的方法，其中所述标签化包括在基底上标签化。

95.根据权利要求26至94中任一项所述的方法，其中所述方法用所述组织样本确定单细胞中的RNA表达。

96.根据权利要求95所述的方法，其中所述方法确定所述单细胞中一种或多种亚细胞组分中的RNA表达。

97.根据权利要求96所述的方法，其中所述亚细胞组分是细胞核、细胞质或线粒体。

98.根据前述权利要求中任一项所述的方法，其中所述基底或所述基底的表面包含选自玻璃、硅、聚-L-赖氨酸涂覆的材料、硝化纤维、聚苯乙烯、环烯烃共聚物(COC)、环烯烃聚合物(COP)、聚丙烯酰胺、聚丙烯、聚乙烯或聚碳酸酯的材料。

99.根据权利要求26至98中任一项所述的方法，其中所述RNA文库是mRNA文库。