CN119585427A

CN119585427A - 单细胞多组学

Info

Publication number: CN119585427A
Application number: CN202380050582.1A
Authority: CN
Inventors: 乔恩·斯坦利·扎维斯托夫斯基; 杰伊·A·A·韦斯特; 杜尔加·阿尔瓦帕利
Original assignee: Platinum Genomics
Current assignee: Platinum Genomics
Priority date: 2022-04-28
Filing date: 2023-04-27
Publication date: 2025-03-07
Also published as: EP4514961A1; WO2023212223A1

Abstract

本文提供了用于准确和可扩展的单细胞多组学方法的组合物和方法，以及其在研究、诊断和治疗中用于突变分析的应用。本文还提供了用于使用原代模板定向扩增(PTA)核酸扩增平行分析来自单细胞的DNA、RNA和/或蛋白质的多组学方法。

Description

单细胞多组学

相关申请的交叉引用

本申请要求2022年4月28日提交的美国临时专利申请号63/335,949和2022年9月1日提交的美国临时专利申请号63/403,213的权益，这两篇专利通过引用整体并入本文。

背景技术

利用核酸扩增的研究方法(例如，下一代测序)提供了关于复杂样品、基因组和其他核酸来源的大量信息。在一些情况下，将这些样品以小量从单细胞获得。对于涉及小样品的研究、诊断和治疗，需要高度准确、可扩展且有效的核酸扩增和测序方法，尤其是用于同时分析RNA、DNA和蛋白质的方法。

发明内容

本文提供了多组学样品制备的方法，所述方法包括：从细胞群体中分离单细胞，其中所述单细胞包含RNA和基因组DNA；通过RT-PCR扩增RNA以产生cDNA文库；使基因组DNA与至少一种扩增引物、至少一种核酸聚合酶和核苷酸混合物接触，其中所述核苷酸混合物包含至少一种终止子核苷酸，所述至少一种终止子核苷酸终止聚合酶的核酸复制以产生基因组DNA文库；从所述基因组DNA中分离cDNA；并且对cDNA文库和基因组DNA文库进行测序。本文提供了多组学样品制备的方法，所述方法包括：从细胞群体中分离单细胞，其中所述单细胞包含RNA和基因组DNA；通过RT-PCR扩增RNA以产生cDNA文库；使基因组DNA与至少一种扩增引物、至少一种核酸聚合酶和核苷酸混合物接触，其中所述核苷酸混合物包含至少一种终止子核苷酸，所述至少一种终止子核苷酸终止聚合酶的核酸复制以产生基因组DNA文库和至少一种被配置用于去除或消化的核苷酸；从所述基因组DNA中分离cDNA；并且对cDNA文库和基因组DNA文库进行测序。本文提供了多组学样品制备的方法，所述方法包括：从细胞群体中分离单细胞，其中所述单细胞包含RNA和基因组DNA；通过RT-PCR扩增RNA以产生cDNA文库；使基因组DNA与至少一种扩增引物、至少一种核酸聚合酶和核苷酸混合物接触，其中所述核苷酸混合物包含至少一种终止子核苷酸，所述至少一种终止子核苷酸终止聚合酶的核酸复制以产生基因组DNA文库和dUTP；从所述基因组DNA中分离cDNA；并且对cDNA文库和基因组DNA文库进行测序。本文还提供了方法，其中核苷酸混合物包含dUTP。本文还提供了方法，其中核苷酸混合物包含dATP、dCTP、dGTP、dTTP和dUTP。本文还提供了方法，其中核苷酸混合物包含至少一个不是dATP、dCTP、dGTP、dTTP的碱基。本文还提供了方法，其中所述cDNA文库中的多核苷酸中的至少一些包含条形码。本文还提供了方法，其中所述cDNA文库中的多核苷酸中的至少一些包含标记。本文还提供了方法，其中cDNA在纯化后至少90％不含基因组DNA文库。本文还提供了方法，其中cDNA在纯化后至少95％不含基因组DNA文库。本文还提供了方法，其中cDNA文库的至少90％的多核苷酸包含0.8至1.2的5’至3’偏倚。本文还提供了方法，其中分离包括通过与标记结合来捕获cDNA文库中的至少一些。本文还提供了方法，其中分离包括使cDNA文库与被配置为消化或去除来自基因组DNA文库的多核苷酸的酶接触。本文还提供了方法，其中分离包括使cDNA文库与DNA糖基化酶接触。本文还提供了方法，其中cDNA文库与酶的接触发生在固体支持物上。本文还提供了方法，其中在测序之前扩增基因组DNA文库。本文还提供了方法，其中基因组DNA文库用尿嘧啶耐受聚合酶扩增。本文还提供了方法，其中尿嘧啶耐受聚合酶包括来自酿酒酵母(S.cerevisiae)的DNA聚合酶ε和δ，以及大肠杆菌(E.coli)DNA聚合酶III、PolA型聚合酶、KAPA HiFi尿嘧啶+DNA聚合酶(Q5U)、KOD Multi&Epi DNA聚合酶、Taq、Taq2000、FailSafe酶或PhusionU。本文还提供了方法，其中分离包括核裂解/变性。本文还提供了方法，其中所述cDNA文库包括50-300ng的DNA。本文还提供了方法，其中所述cDNA文库包括包含细胞条形码或样品条形码的多核苷酸。本文还提供了方法，其中所述cDNA文库包括对应于至少2000个基因的多核苷酸。本文还提供了方法，其中扩增cDNA文库包括与经标记的引物接触。本文还提供了方法，其中所述方法还包括向cDNA文库和基因组DNA文库中的一种或多种添加衔接子。本文还提供了方法，其中衔接子的添加包括与连接酶接触。本文还提供了方法，其中衔接子的添加包括与转座酶或其复合物接触。本文还提供了方法，其中转座酶或其复合物包含Tn5。本文还提供了方法，其中衔接子的添加包括与聚合酶和一种或多种引物接触。本文还提供了方法，其中分离包括使cDNA文库与DNA糖基化酶-裂解酶核酸内切酶VIII接触。本文还提供了方法，其中基因组DNA文库包括0.5-2.5ng的DNA。本文还提供了方法，其中所述单细胞包括NA12878对照。本文还提供了方法，其中所述单细胞是原代细胞。本文还提供了方法，其中所述单细胞源自肝脏、皮肤、肾脏、血液或肺。本文还提供了方法，其中所述单细胞是癌细胞、神经元、神经胶质细胞或胎儿细胞。本文还提供了方法，其中基因组DNA文库由2-15个扩增循环产生。本文还提供了方法，其中所述基因组DNA文库包含长度为250-1500个碱基的多核苷酸。本文还提供了方法，其中基因组DNA文库包含70％-95％的等位基因平衡。本文还提供了方法，其中基因组DNA文库包含至少0.85％的SNV灵敏度。本文还提供了方法，其中基因组DNA文库包含至少0.95％的SNV精确度。本文还提供了方法，其中所述方法还包括分析单细胞中一种或多种表达的蛋白质。本文还提供了方法，其中所述方法还包括分析来自单细胞的一种或多种基因组甲基化模式。本文还提供了方法，其中至少98％的多核苷酸包含终止子核苷酸。本文还提供了方法，其中终止子核苷酸附接至所述至少一些多核苷酸的3’末端。本文还提供了方法，其中不可逆终止子对核酸外切酶活性具有抗性。本文还提供了方法，其中不可逆终止子对3’-5核酸外切酶活性具有抗性。本文还提供了方法，其中终止子核苷酸包括腺嘌呤、鸟嘌呤、胱氨酸或胸腺嘧啶。本文还提供了方法，其中终止子核苷酸不包含尿苷。本文还提供了方法，其中所述终止子核苷酸选自带有α基团修饰的核苷酸、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟核苷酸、3’磷酸化核苷酸、2’-O-甲基修饰的核苷酸和反式核酸。本文还提供了方法，其中所述带有α基团修饰的核苷酸是α-硫代双脱氧核苷酸。本文还提供了方法，其中所述终止子核苷酸包括脱氧核糖的3’碳的r基团的修饰。本文还提供了方法，其中所述终止子核苷酸选自含有核苷酸的3’封闭的可逆终止子、含有核苷酸的3’未封闭的可逆终止子、含有脱氧核苷酸的T修饰的终止子、含有对脱氧核苷酸的含氮碱基的修饰的终止子，及其组合。本文还提供了方法，其中所述终止子核苷酸选自双脱氧核苷酸、反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-0-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。本文还提供了方法，其中所述核酸聚合酶是噬菌体phi29(F29)聚合酶、基因修饰的phi29(F29)DNA聚合酶、DNA聚合酶I的Klenow片段、噬菌体M2 DNA聚合酶、噬菌体phiPRDlDNA聚合酶、Bst DNA聚合酶、Bst大片段DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、VentRDNA聚合酶、VentR(exo-)DNA聚合酶、Deep Vent DNA聚合酶、DeepVent(exo-)DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶、测序酶、T7 DNA聚合酶、T7-测序酶或T4 DNA聚合酶。本文还提供了方法，其中所述核酸聚合酶包含3’->5’核酸外切酶活性，并且所述至少一种终止子核苷酸抑制所述3’->5’核酸外切酶活性。本文还提供了方法，其中所述核酸聚合酶不包含3'->5'核酸外切酶活性。本文还提供了方法，其中所述聚合酶是Bst DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、VentR(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶或Therminator DNA聚合酶。

援引并入

本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文，其并入程度如同每个单个的出版物、专利或专利申请被明确且单个地指示通过引用并入。

附图说明

本发明的新型特征在所附权利要求书中特别地阐述。通过参考对在其中利用到本发明的原理的说明性实施方案加以阐述的以下详细描述和附图，将会获得对本发明的特征和优点的更好的理解，在附图中：

图1A示出了从单细胞中同时富集和制备RNA和DNA的示例性高级工作流程。使用寡dT引物和逆转录酶逆转录RNA，随后进行模板切换和引物延伸。然后使用原代模板扩增(PTA)来扩增基因组DNA。

图1B示出了来自各种样品的DNA(顶部)和RNA(底部)的核酸产量图(NTC＝无模板对照)。本研究中使用的每个细胞分离的RNA和DNA的产量(以ng为单位)。其中省略了由链霉亲和素珠进行纯化的样品以橙色突出显示。

图2A示出了对照(NA12878)中使用组合的RNA+DNA多组学(左)相比于仅DNA的方法(右)的等位基因平衡图，以已知杂合位置的观察到的等位基因频率(AF)的十分位数显示。每个点代表在给定细胞的箱频率内显示AF的变体比例。带有误差条的条形图描述了每个AF箱的所有细胞复制的总体趋势。当AF<0.1或>0.9时，称为等位基因脱落。

图2B示出了使用多组学方法进行的每种样品类型的累积基因组覆盖图(组合的RNA+DNA多组学(左)相比于仅DNA的方法(右))，从而显示了在给定深度(x轴)处覆盖的整个基因组的比例(y轴)。每个点代表数据集内的细胞复制，并且误差图表示给定深度处覆盖率的可变性。

图2C示出了使用组合的RNA+DNA多组学(左)相比于仅DNA方法(右)的灵敏度图。相对于GIAB NA12878参考数据集的SNV判定灵敏度(y轴)和精确度(x轴)显示为两个轴分别具有0.9和0.99的最小范围。

图3A示出了全长化学中所有检测到的转录物的概括覆盖图(顶部)。X轴是转录物从5’至3’的归一化分数，将区域分成转录物的每百分位的平均深度，且y轴是计数。两个已知管家基因的编码序列的计数分布：GAPDH和ACTB(底部)。

图3B示出了匹配特定转录物特征或针对每个数据集报告的RNA种类的比对读段的比例(在一组的所有生物样品中平均)。特征和比例来源于我们的转录组定义文件的Qualimap总结。除了MOLM/DCIS图之外，NA12878细胞被充分利用。从在线知识库中提取大量数据以作为来自典型RNA-Seq的参考。x轴上的条件是：大量、IsolatedBulkRNA-StandardPrep、SingleCellRNA-StandardPrep、IsolatedBulkRNA-ResolveOME(BioskrybGenomics，Inc.)、SingleCell-ResolveOME(Bioskryb Genomics，Inc.)、MOLM和DCIS。每个条的区域(顶部至底部)是FivePrimeUTR_蛋白质_编码、CDS_蛋白质_编码、ThreePrimeUTR_蛋白质_编码、内含子_蛋白质_编码、外显子_IncRNA、内含子_IncRNA、其他和基因间。

图3C示出了针对本研究中使用的UHRR和HBRR RNA对照以及NA12878对照显示的各种RNA质量对照度量的图。从左上顺时针方向，分配给转录组的读段分布、编码区特征、检测到的独特基因、每百万计数的范围(CPM)和常见管家基因的中位数绝对偏差(MAD)。

图3D示出了多组学全转录物性能相比于公开可用的大量RNA-Seq和3’末端计数数据集的混合物，包括使用多组学化学检测的表达的蛋白质编码基因，与使用相同工作流程的大量制备进行比较。多种细胞系模型和原代DCIS患者样品中独特表达的基因数量。所有样品集被向下取样到75,000个读段。

图4A示出了使用具有Ginkgo的500kb的箱大小，来自亲代(绿松色)和抗性(鲑鱼色)细胞的个体MOLM-13细胞(行)的拷贝数改变。基于每个箱的平均倍数变化与2N.b.的距离产生了树状图：25个总核型传播的代表性中期传播。红圈表示异常扩增的染色体。

图4B示出了25个总核型传播的代表性中期传播。红圈表示异常扩增的染色体。

图5A示出了显示在亲代和奎扎替尼(quizartinib)抗性单细胞中检测到相互FLT3ITD突变的基因组视图。

图5B示出了仅在奎扎替尼抗性细胞中的FLT3二级突变N841K的基因组视图。

在所有奎扎替尼抗性细胞中均检测到错义突变N841K。

图5C示出了在治疗初治的亲代细胞中突变FLT3 K841的qRT-PCR检测。FLT3 N841(蓝色)和K841(红色)在MOLM-13亲代细胞和奎扎替尼抗性细胞中的qPCR循环痕迹。

图6示出了SNV的热图，显示了MOLM-13亲代细胞和抗性细胞中具有统计学显著性(通过多项逻辑回归，p<0.05)的基因型普遍性。列代表细胞且行代表SNV id。展开图内的颜色代表判定的基因型。行和列两者都经历了无监督的层次聚类。

图7A示出了一个散点图，显示了28,134个SNV的主坐标投影(PCA)，所述SNV在两个MOLM-13队列(亲代(绿松色，左组)和抗性(鲑鱼色，右组))中表现出统计学显著性(卡方检验，p<0.05)差异普遍性。

图7B示出了在MOLM-13药物抗性模型中差异表达的基因的聚类。亲代单细胞(绿松色)和奎扎替尼抗性(鲑鱼色)单细胞组成列；Gene Symbol/Ensembl转录物ID组成行。生物型和FDR显示在热图的右侧；红线表示q<0.1。

图7C示出了单奎扎替尼抗性MOLM-13细胞中的CEBPA/B转录物上调。每行对应于一个单独的MOLM-13细胞。还显示了还具有19q增益的抗性细胞。

图7D示出了热图，其中y轴上的转录物显示了MOLM-13数据集中所有细胞的倍性水平的统计(ZLM p<0.01)关联。展开图的颜色代表给定倍性水平下的平均标准化表达值。右图显示了给定倍性时测试表达的ZLM模型的输出。红线表示模型的p<0.05临界值。基于测试亲代细胞和抗性细胞之间转录差异的ZLM模型的-log10 p值，将条着色。

图7E示出了MOLM-13亲代和药物抗性单细胞之间的差异转录物利用(DTU)的示例。

图8A示出了显示SNV-转录物表达关联的气泡图(p<0.05)。顶部：转录起始位点5000个碱基内的SNV。y轴显示候选SNV，且x轴显示基因型。圆圈的大小表示MOLM-13细胞类型集(亲代或抗性)中变体的基因型普遍性。点的颜色表示所述集中转录物的标准化平均表达水平。侧条代表测试转录物表达和基因型之间关联的模型的显著性。红线表示模型的p<0.1临界值。基于测试亲代细胞和抗性细胞之间转录差异的ZLM模型的-log10 p值，将条着色。PABPC4和MYC以黄色突出显示。CEBPA SNV距离转录起始位点太远(>5kb)，在该图中不具有显著性。

图8B示出了CEBPA基因组基因座附近的亲代/奎扎替尼抗性SNV。星号表示突变位置。抗性细胞在60％的细胞中显示出变异，相比之下，在亲代系变体“chr19:33,333,734–delA”(中间的星)中为11％。对于“chr19:33,361,973–insA”，我们在亲代细胞和50％的奎扎替尼抗性细胞中没有观察到突变。

图8C示出了MYC基因“chr8:127,739,932G>A”的内含子SNV，其与药物抗性MOLM-13细胞中表达的增加相关。

图8D示出了仅在一半的抗性细胞中发现的PABPC4“chr1:39,579,411T>G”和“chr1:39,579,413T>G”中的推定启动子变体，并且还与MOLM-13亲代细胞和抗性细胞之间的差异表达相关。

图9示出了原代DCIS/IDC EpCAM队列中的单细胞拷贝数改变。呈现了EpCAM高(黄色)和低(绿松色)的EpCAM状态。在EpCAM高(黄色)细胞中观察到两种不同分类的染色体丢失：1)组合的11q、13q、16q/17p丢失，和2)组合的13q和16q/17p丢失。另外，在10/20EpCAM高细胞中鉴定了13p增益，而在3个单细胞中观察到包含着丝粒和侧翼P&Q区段的Chr.X增益。

图10A示出了EpCAM高(圆圈)和EpCAM低(菱形)原代DCIS/IDC转录组的主成分分析，其中基于检测到的转录物的数量将细胞着色。

图10B示出了EpCAM高和EpCAM低DCIS/IDC转录组的PAM50基因表达分层。

图10C示出了无监督聚类产生EpCAM高和EpCAM低分支之间差异基因表达的六个主要模块。显示了每个单细胞(列)的平均倍性、PIK3CA基因型状态(绿色＝N345野生型，粉红色＝K345杂合突变体)和细胞身份判定。呈现了每个转录物的基因生物型和FDR(行)。

图10D示出了使用人类细胞图谱数据预测DCIS细胞身份/状态。显示用于鉴定细胞注释的EpCAM高和EpCAM低单细胞(列)的不同细胞类型(行)的身份得分的热图。

图10E示出了用于DCIS细胞的主成分分析的细胞注释的叠加。EpCAM高(圆圈)和EpCAM低(菱形)单细胞转录组，利用细胞身份/状态(颜色)覆盖的同种型计数。

图11示出了亲代和奎扎替尼抗性MOLM-13细胞的相对生长率。在引入不同浓度的奎扎替尼后，培养天数内的细胞计数。

图12示出了亲代相比于抗性MOLM-13细胞中的错义变体。显示了通过逻辑回归鉴定为与药物抗性显著相关的变体(行)，以及个体基因型(0/0＝纯合参考，0/1＝杂合，1/1＝纯合替代，NA＝未确定)。呈现了亲代(左)或抗性(右)队列的单细胞(列)。P值沿右侧显示。

图13示出了FLT3抑制后通过AXL的转录旁路信号传导的模型。图解说明在奎扎替尼抑制FLT3后，受体酪氨酸激酶AXL的配体GAS6在抗性MOLM-13细胞中上调，以分别通过PI3激酶和AKT信号传导驱动生长和存活。

图14示出了与DCIS表达组相关的变体。显示了通过逻辑回归鉴定为与EpCAM-HDCIS细胞内的表达组显著相关的变体(行)，以及显示的个体基因型(0/1＝杂合，1/1＝纯合替代，NA＝未确定)。P值沿右侧显示。

图15A示出了dUTP和尿嘧啶DNA糖基化酶(UDG)干预的多组学工作流程和步骤的示例性示意图。

图15B示出了当在多组学工作流程的PTA反应中使用dUTP时，用或不用UDG处理观察到的基因数量。

图15C示出了对PTA工作流程使用dUTP+UDG修改的基因间背景去除。

图15D示出了与没有dUTP+UDG的PTA工作流程相比，对PTA工作流程使用dUTP+UDG修改的等位基因平衡。

图15E示出了与没有dUTP+UDG的PTA工作流程相比，对PTA工作流程使用dUTP+UDG修改的SNV判定度量(灵敏度和精确度)。

具体实施方式

需要开发新的可扩展、准确且有效的核酸扩增(包括单细胞和多细胞基因组扩增)和测序方法，其将通过以可再现的方式增加序列呈现、均匀性和准确性来克服当前方法的局限性。本文提供了与另外的细胞分析技术(多组学)结合用于提供准确且可扩展的原代模板定向扩增(PTA)和测序的组合物和方法。本文还提供了多组学分析的方法，所述方法包括与PTA组合分析来自单细胞的蛋白质、DNA和RNA，以及相应的转录后或翻译后修饰。这些方法和组合物促进靶标(或“模板”)核酸的高精度扩增，这增加了下游应用(如下一代测序)的准确性和灵敏性。

定义

除非另有定义，否则本文所用的所有技术和科学术语的含义与这些发明所属领域的普通技术人员通常所理解的含义相同。

在整个本公开内容中，数字特征以范围格式表示。应理解，范围格式的描述仅为了方便和简洁，而不应被解释为对任何实施方案的范围的严格限制。因此，除非上下文另有明确指示，否则应认为对范围的描述已具体公开了所有可能的子范围以及在该范围内直至下限单位的十分之一的单个数值。例如，对范围如从1至6的描述应视为已具体公开了子范围，如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等，以及该范围内的单个值，例如，1.1、2、2.3、5和5.9。无论范围的宽度如何，这都适用。这些中间范围的上限和下限可以独立地包括在较小的范围内，并且也包括在本发明内，受规定范围内任何明确排除的限制。当所述范围包括一个或两个限值时，除非上下文另外明确指出，否则不包含所包括的那些限值中的一个或两个的范围也包括在本发明中。

本文所用的术语仅出于描述特定实施方案的目的，并且不旨在限制任何实施方案。如本文所用，单数形式“一种”、“一个”和“所述”也旨在包括复数形式，除非上下文另有明确指出。还将理解，当在本说明书中使用术语“包括(comprises)”和/或“包含(comprising)”时，其指定了所述特征、整体、步骤、操作、要素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、要素、组件和/或其群组的存在或添加。如本文所用，术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合。

除非特别说明或从上下文可以明显看出，否则如本文所用，术语“约”在提及数值或数值范围时应理解为是指所述数值+/-其10％，或对于一个范围中列出的值，则指从比列出的下限低10％到比列出的上限高10％。

如本文所用，术语“对象”或“患者”或“个体”是指动物，包括哺乳动物，例如人类、兽医动物(例如，猫、狗、牛、马、绵羊、猪等)和疾病实验动物模型(例如，小鼠、大鼠)。根据本发明，可以在本领域技术范围内使用常规分子生物学、微生物学和重组DNA技术。这些技术在文献中有充分的解释。参见，例如，Sambrook,Fritsch和Maniatis,Molecular Cloning:ALaboratory Manual,第二版(1989)Cold Spring Harbor Laboratory Press,Cold SpringHarbor,New York(本文中为"Sambrook等人,1989")；DNA Cloning:A practicalApproach,第I和II卷(D.N.Glover编辑1985)；Oligonucleotide Synthesis(MJ.Gait编辑1984)；Nucleic Acid Hybridization(B.D.Hames和S.J.Higgins编辑(1985》；Transcription and Translation(B.D.Hames和S.J.Higgins编辑(1984》；Animal CellCulture(R.I.Freshney编辑(1986》；Immobilized Cells and Enzymes(IRL Press,(1986》；B.Perbal,A practical Guide To Molecular Cloning(1984)；F.M.Ausubel等人(编辑),Current Protocols in Molecular Biology,John Wiley&Sons,Inc.(1994)；等等。

术语“核酸”涵盖多链以及单链分子。在双链或三链核酸中，核酸链不需要是共延伸的(即，双链核酸不需要沿两条链的整个长度是双链的)。本文所述的核酸模板可以根据样品(从小的无细胞DNA片段至整个基因组)而具有任何大小，包括但不限于长度为50-300个碱基、100-2000个碱基、100-750个碱基、170-500个碱基、100-5000个碱基、50-10,000个碱基或50-2000个碱基。在一些情况下，模板的长度为至少50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000或大于1,000,000个碱基。本文所述的方法提供了核酸如核酸模板的扩增。本文所述的方法另外提供了分离的和至少部分纯化的核酸以及核酸文库的生成。在一些情况下，本文所述的方法提供了提取的核酸(例如，从组织、细胞或培养基中提取)。核酸包括但不限于包括以下的那些：DNA、RNA、环状RNA、mtDNA(线粒体DNA)、cfDNA(无细胞DNA)、cfRNA(无细胞RNA)、siRNA(小干扰RNA)、cffDNA(无细胞胎儿DNA)、mRNA、tRNA、rRNA、miRNA(微RNA)、合成多核苷酸、多核苷酸类似物、符合本说明书的任何其他核酸，或其任何组合。当提供时，多核苷酸的长度以碱基数描述并且进行缩写，如nt(核苷酸)、bp(碱基)、kb(千碱基)或Gb(千兆碱基)。

如本文所用，术语“液滴”是指液滴致动器上的一定体积液体。在一些情况下，例如，液滴是水性或非水性的，或者可以是包括水性和非水性组分的混合物或乳液。对于可经受液滴操作的液滴流体的非限制性示例，参见，例如，国际专利申请公开号WO2007/120241。在本文提出的实施方案中，可以使用任何适于形成和操纵液滴的系统。例如，在一些情况下，使用液滴致动器。对于可以使用的液滴致动器的非限制性示例，参见，例如，美国专利号6,911,132、6,977,033、6,773,566、6,565,727、7,163,612、7,052,244、7,328,979、7,547,380、7,641,779、美国专利申请公开号US20060194331、US20030205632、US20060164490、US20070023292、US20060039823、US20080124252、US20090283407、US20090192044、US20050179746、US20090321262、US20100096266、US20110048951、国际专利申请公开号WO2007/120241。在一些情况下，珠在液滴中、在液滴操作间隙中或在液滴操作表面上提供。在一些情况下，珠在位于液滴操作间隙外部或与液滴操作表面分开的储器中提供，并且该储器可以与流动路径相关联，该流动路径允许包括该珠的液滴进入液滴操作间隙或与液滴操作表面接触。用于固定磁响应珠和/或非磁响应珠和/或使用珠进行液滴操作方案的液滴致动器技术的非限制性示例在美国专利申请公开号US20080053205、国际专利申请公开号WO2008/098236、WO2008/134153、WO2008/116221、WO2007/120241中描述。珠特性可以在本文所述的方法的多路复用实施方案中采用。具有适合于多路复用的特性的珠的示例，以及检测和分析从这种珠发出的信号的方法，可以在美国专利申请公开号US20080305481、US20080151240、US20070207513、US20070064990、US20060159962、US20050277197、US20050118574中找到。在一些情况下，本文所述的方法利用基于转座子的液滴/珠过程，如在美国专利号US11473138、US10844372、US10590244、US10725027、US9771575、US10676736、US11479816、US10975371、US11180752、US11085036、US11111519、US11124830和US11434530中描述的那些。在一些情况下，本文所述的方法利用液滴操纵技术和装置，如在美国专利号US10633701、US10029256、US11517864、US11358105、US11000849、US11229911、US10569268、US10012592、US9573099、US11389800、US9475013、US11203787、US10589274、US10232373、US11312990、US11020736、US11111519和US11142791中发现的那些。在一些情况下，本文所述的方法利用单细胞操纵技术，如在美国专利号US11124830和US11365441中发现的那些。

也可以将引物和/或模板切换寡核苷酸附连至固体基底以促进mRNA多核苷酸的逆转录和模板切换。在该布置中，RT或模板切换反应的一部分发生在装置的本体溶液中，其中反应的第二步骤接近于表面进行。在其他布置中，使模板切换寡核苷酸的引物从固体基底中释放以允许整个反应在溶液中的表面上方进行。在多组学方法中，在一些情况下，将用于多级反应的引物附连至到固体基底或与珠组合以实现多级引物的组合。

某些微流体装置也支持多组学方法。例如，以PDMS制造的装置通常具有用于每个反应步骤的连续腔室。此类多腔室化装置通常使用微型阀结构进行隔离，所述微型阀结构可以用空气或流体如水或惰性烃(即fluorinert)通过压力控制。在多组学方法中，可以将反应的每个级隔离并且允许其离散地进行。在完成特定级时，可以释放相邻腔室之间的阀，并且可以以串联方式添加用于后续反应的基底。结果是能够使用个体细胞作为输入模板材料来模拟反应的序列组，如反应的多组学(蛋白质/RNA/DNA/表观基因组学)组。各种微流体平台可用于分析单细胞。在一些情况下，通过流体动力学(液滴微流体、惯性微流体、涡旋、微型阀、微观结构(例如，微孔、微阱))、电方法(电泳(DEP)、电渗)、光学方法(光学镊子、光学诱导介电泳(ODEP)、光学热毛细)、声学方法或磁性方法操纵细胞。在一些情况下，微流体平台包括微孔。在一些情况下，微流体平台包括基于PDMS(聚二甲基硅氧烷)的装置。与本文所述的方法相容的单细胞分析平台的非限制示例是：ddSEQ单细胞分离器(Bio-Rad,Hercules,CA,USA和Illumina,San Diego,CA,USA))；Chromium(10x Genomics,Pleasanton,CA,USA))；Rhapsody单细胞分析系统(BD,Franklin Lakes,NJ,USA)；Tapestri平台(MissionBio,San Francisco,CA,USA))；Nadia Innovate(Dolomite Bio,Royston,UK)；C1和Polaris(Fluidigm,South San Francisco,CA,USA)；ICELL8单细胞系统(Takara)；MSND(Wafergen)；Puncher平台(Vycap)；CellRaft AIR系统(CellMicrosystems)；DEPArray NxT和DEPArray系统(Menarini Silicon Biosystems)；AVISOCellCelector(ALS)；以及InDrop系统(1CellBio)、TrapTx(Celldom)、PipSeq(FluentBio)、RNA测序试剂盒(Scale Bio)和Single Cell 3.0(Parse Bio)。

如本文所用，术语“独特分子标识码(UMI)”是指附接至多个核酸分子中的每一个的独特核酸序列。当并入核酸分子中时，在一些情况下，UMI被用于通过直接对扩增后测序的UMI进行计数来校正后续的扩增偏倚。UMI的设计、并入和应用描述于例如以下文献中：国际专利申请公开号WO 2012/142213；Islam等人Nat.Methods(2014)11:163-166；Kivioja,T.等人Nat.Methods(2012)9:72-74；Brenner等人(2000)PNAS 97(4),1665；以及Hollas和Schuler,(2003)Conference:3rd International Workshop on Algorithms inBioinformatics,第2812卷。

如本文所用，术语“条形码”是指可用于鉴定核酸材料的样品或来源的核酸标签。因此，在核酸样品来自多个来源的情况下，在一些情况下，每个核酸样品中的核酸用不同的核酸标签标记，从而可以鉴定样品的来源。条形码，通常也称为索引、标签等，是本领域技术人员熟知的。任何合适的条形码或条形码组都可以使用。参见，例如，美国专利号8,053,192和国际专利申请公开号WO2005/068656中提供的非限制性示例。单细胞的条形码化可以例如如美国专利申请公开号2013/0274117中描述地进行。

本文中的术语“固体表面”、“固体支持物”和其他语法等同物是指适合于或可以被修饰以适合于本文所述的引物、条形码和序列的附接的任何材料。示例性基底包括但不限于玻璃和改性或功能化玻璃、塑料(包括丙烯酸、聚苯乙烯，和苯乙烯与其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、特氟龙^TM等)、多糖、尼龙、硝酸纤维素、陶瓷、树脂、二氧化硅、二氧化硅基材料(例如，硅或改性硅)、碳、金属、无机玻璃、塑料、光纤束和各种其他聚合物。在一些实施方案中，固体支持物包括适于以有序模式固定引物、条形码和序列的图案化表面。

如本文所用，术语“生物样品”包括但不限于组织、细胞、生物流体及其分离物。在一些情况下，本文所述方法中使用的细胞或其他样品是从人类患者、动物、植物、土壤或包括如细菌、真菌、原生动物等微生物的其他样品中分离的。在一些情况下，生物样品来源于人类。在一些情况下，生物样品并来源于非人类。在一些情况下，细胞经历本文所述的PTA方法和测序。在整个基因组或特定位置检测到的变体可以与从该对象分离的所有其他细胞进行比较，以追踪细胞谱系的历史，以用于研究或诊断目的。在一些情况下，通过另外的分析方法如直接PCR测序确认变体。

单细胞分析

本文描述了用于分析单细胞的方法和组合物。大量细胞的分析提供有关细胞群体的一般信息，但通常无法在背景上检测低频率突变体。此类突变体可以包括重要特性，如药物抗性或与癌症相关的突变。在一些情况下，平行分析来自相同单细胞的DNA、RNA和/或蛋白质。分析可以包括鉴定表观遗传的翻译后修饰(例如，糖基化、磷酸化、乙酰化、泛素化、组蛋白修饰)和/或转录后修饰(例如，甲基化、羟甲基化)。此类方法可以包括“原代模板定向扩增”(PTA)，以获得用于测序的核酸文库。在一些情况下，将PTA与另外的步骤或方法组合，所述另外的步骤或方法如RT-PCR或蛋白质组/蛋白质定量技术(例如，质谱、抗体染色等)。在一些情况下，在各个分析步骤期间，细胞的各种组分在物理或空间上彼此分离。此外，在一些情况下，基因组DNA/RNA分析的多组学方法需要将基因组DNA从RNA(或逆转录后的cDNA)中纯化出来。cDNA文库中基因组DNA的残留污染可能会导致转录组测序结果不准确。

在示例性工作流程中，首先将蛋白质用抗体标记。在一些情况下，至少一些抗体包含标签或标记物(例如，核酸/寡核苷酸标签、质量标签或荧光标签)。在一些情况下，抗体的一部分包含寡核苷酸标签。在一些情况下，抗体的一部分包含荧光标记物。在一些情况下，抗体被两个或更多个标签或标记物标记。在一些情况下，基于荧光标记物分选抗体的一部分。在RT-PCR之后，产生第一链mRNA产物，且然后取出以进行分析。然后由RT-PCR产物和存在于蛋白质特异性抗体上的条形码产生文库，随后对其进行测序。同时，对来自同一细胞的基因组DNA进行PTA，产生文库，并且进行测序。在一些情况下，将来自基因组、甲基化组、蛋白质组和转录物组的测序结果使用生物信息学方法合并。在一些情况下，本文所述的方法包括标记、细胞分选、亲和分离/纯化、特定细胞组分(例如，外膜、核等)的裂解、RNA扩增、DNA扩增(例如，PTA)或与蛋白质、RNA或DNA分离或分析相关的其他步骤的任何组合。在一些情况下，本文所述的方法包括一种或多种富集步骤，如外显子组富集。

本文描述了单细胞分析的第一方法，所述第一方法包括分析来自单细胞的RNA和DNA。在一些情况下，所述方法包括分离单细胞、裂解单细胞和逆转录(RT)。在一些情况下，用模板切换寡核苷酸(TSO)进行逆转录。在一些情况下，TSO包含分子标签如生物素，从而允许随后下拉cDNA RT产物，并且PCR扩增RT产物以产生cDNA文库。可替代地或组合地，使用离心来将上清液中的RNA与细胞沉淀中的cDNA分离。在一些情况下，固体支撑物用于结合至标签。在一些情况下，固体支撑物包括基本平坦的表面、孔或珠。在一些情况下，TSO附接至固体支持物。在一些情况下，使用包含TSO的固体支持物能够纯化cDNA扩增子。在一些情况下，cDNA的纯化包括洗涤步骤。在一些情况下，将剩余的cDNA片段化并且用UDG(尿嘧啶DNA糖基化酶)除去，并且使用碱性裂解来降解RNA并使基因组变性。在中和、添加引物和PTA之后，在一些情况下，将扩增产物在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在一些情况下，PTA反应在产生的cDNA文库存在下发生。在一些情况下，PTA反应包括使用可以被酶切割或去除的碱基。在一些情况下，所述酶包括糖基化酶。在一些情况下，PTA反应是用多种dNTP进行的，所述dNTP包括除了A、T、G或C之外的核苷酸。在一些情况下，PTA反应是用包括尿嘧啶的多种dNTP进行的。将gDNA在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在PTA扩增后，在一些情况下纯化或分离cDNA。在一些情况下，将RT产物通过下拉，如用链霉亲和素珠的下拉分离。在一些情况下，RT产物通过物理分离从反应混合物中分离(例如，在珠或磁珠上)。在一些情况下，使用酶去除(或消化)由PTA产生的残留基因组文库扩增子。在一些情况下，使用糖基化酶去除由PTA产生的残留基因组文库扩增子。在一些情况下，通过消化去除由含尿嘧啶的PTA产生的残留基因组文库扩增子。在纯化后，cDNA文库在一些情况下至少80％、85％、90％、95％、97％、98％、99％、99.5％或至少99.9％不含基因组DNA扩增子(例如，由PTA产生的那些扩增子)。

本文描述了单细胞分析的第二方法，所述第二方法包括分析来自单细胞的RNA和DNA。在一些情况下，所述方法包括分离单细胞、裂解单细胞和逆转录(RT)。在一些情况下，用模板切换寡核苷酸(TSO)进行逆转录。在一些情况下，TSO包含分子标签如生物素，从而允许随后下拉cDNA RT产物，并且PCR扩增RT产物以产生cDNA文库。在一些情况下，固体支撑物用于结合至标签。在一些情况下，固体支撑物包括基本平坦的表面、孔或珠。在一些情况下，TSO附接至固体支持物。在一些情况下，使用包含TSO的固体支持物能够纯化cDNA扩增子。在一些情况下，cDNA的纯化包括洗涤步骤。在一些情况下，固体支撑物用于结合至标签。在一些情况下，固体支撑物包括基本平坦的表面、孔或珠。在一些情况下，TSO附接至固体支持物。在一些情况下，使用包含TSO的固体支持物能够纯化cDNA扩增子。在一些情况下，cDNA的纯化包括洗涤步骤。在一些情况下，然后使用碱性裂解来降解RNA并使基因组变性。在中和、添加随机引物和PTA之后，在一些情况下，将扩增产物在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在一些情况下，PTA反应在产生的cDNA文库存在下发生。在一些情况下，PTA反应包括使用可以被酶切割或去除的碱基。在一些情况下，所述酶包括糖基化酶。在一些情况下，PTA反应是用多种dNTP进行的，所述dNTP包括除了A、T、G或C之外的核苷酸。在一些情况下，PTA反应是用包括尿嘧啶的多种dNTP进行的。将gDNA在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在PTA扩增后，在一些情况下纯化或分离cDNA。在一些情况下，将RT产物通过下拉，如用链霉亲和素珠的下拉分离。在一些情况下，RT产物通过物理分离从反应混合物中分离(例如，在珠或磁珠上)。在一些情况下，使用酶去除(或消化)由PTA产生的残留基因组文库扩增子。在一些情况下，使用糖基化酶去除由PTA产生的残留基因组文库扩增子。在一些情况下，通过消化去除由含尿嘧啶的PTA产生的残留基因组文库扩增子。在纯化后，cDNA文库在一些情况下至少80％、85％、90％、95％、97％、98％、99％、99.5％或至少99.9％不含基因组DNA扩增子(例如，由PTA产生的那些扩增子)。

本文描述了单细胞分析的第三方法，所述第三方法包括分析来自单细胞的RNA和DNA。在一些情况下，所述方法包括分离单细胞、裂解单细胞和逆转录(RT)。在一些情况下，在终止子核苷酸的存在下用模板切换寡核苷酸(TSO)进行逆转录。在一些情况下，TSO包含分子标签如生物素，从而允许随后下拉cDNA RT产物，并且PCR扩增RT产物以产生cDNA文库。在一些情况下，然后使用碱性裂解来降解RNA并使基因组变性。在中和、添加随机引物和PTA之后，在一些情况下，将扩增产物在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生DNA文库。在一些情况下，PTA反应在产生的cDNA文库存在下发生。在一些情况下，PTA反应包括使用可以被酶切割或去除的碱基。在一些情况下，所述酶包括糖基化酶。在一些情况下，PTA反应是用多种dNTP进行的，所述dNTP包括除了A、T、G或C之外的核苷酸。在一些情况下，PTA反应是用包括尿嘧啶的多种dNTP进行的。将gDNA在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在PTA扩增后，在一些情况下纯化或分离cDNA。在一些情况下，将RT产物通过下拉，如用链霉亲和素珠的下拉分离。在一些情况下，RT产物通过物理分离从反应混合物中分离(例如，在珠或磁珠上)。在一些情况下，使用酶去除(或消化)由PTA产生的残留基因组文库扩增子。在一些情况下，使用糖基化酶去除由PTA产生的残留基因组文库扩增子。在一些情况下，通过消化去除由含尿嘧啶的PTA产生的残留基因组文库扩增子。在纯化后，cDNA文库在一些情况下至少80％、85％、90％、95％、97％、98％、99％、99.5％或至少99.9％不含基因组DNA扩增子(例如，由PTA产生的那些扩增子)。

核苷酸混合物可以包含至少一种核苷酸，其被配置为通过酶或化学过程消化(或去除或反应)。在一些情况下，被配置用于消化的核苷酸包含dUTP。在一些情况下，被配置用于消化的核苷酸相对于混合物中的另一种核苷酸以约1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:20、1:25、1:50、1:100、1:500或约1:1000比率存在。在一些情况下，被配置用于消化的核苷酸相对于混合物中的另一种核苷酸以至少1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:3、1:5、1:10、1:25、1:50、1:100、1:500或至少1:1000比率存在。在一些情况下，被配置用于消化的核苷酸相对于混合物中的另一种核苷酸以不超过1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:3、1:5、1:10、1:20、1:25、1:50、1:100、1:500或不超过1:1000比率存在。在一些情况下，被配置用于消化的核苷酸相对于混合物中的另一种核苷酸以约1000:1-1:1000比率、100:1-1:100、50:1-1:50、50:1-1:20、20:1-1:20、10:1-1:10、5:1-1:5、3:1-1:3、2:1-1:1、3:1-1:1、5:1-1:2、5:1-1:1、10:1-1:1、10:1-1:2、20:1-1:1、20:1-1:2、50:1-1:1或100:1-1:1存在。在一些情况下，dUTP相对于混合物中的另一种核苷酸以约1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:25、1:50、1:100、1:500或约1:1000比率存在。在一些情况下，dUTP相对于混合物中的另一种核苷酸以至少1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:25、1:50、1:100、1:500或至少1:1000比率存在。在一些情况下，dUTP相对于混合物中的另一种核苷酸以不超过1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:25、1:50、1:100、1:500或不超过1:1000比率存在。在一些情况下，dUTP相对于混合物中的另一种核苷酸以约1000:1-1:1000比率、100:1-1:100、50:1-1:50、50:1-1:20、20:1-1:20、10:1-1:10、5:1-1:5、3:1-1:3、2:1-1:1、3:1-1:1、5:1-1:2、5:1-1:1、10:1-1:1、10:1-1:2、20:1-1:1、20:1-1:2、50:1-1:1或100:1-1:1存在。在一些情况下，所述混合物包含约1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:25、1:50、1:100、1:500或约1:1000的dTTP与dUTP比率。所述混合物包含至少1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:5、1:10、1:25、1:50、1:100、1:500或至少1:1000的dTTP与dUTP比率。所述混合物包含不超过1000:1、500:1、100:1、50:1、25:1、20:1、15:1、10:1、5:1、2:1、1:1、1:1.5、1:2、1:3、1:5、1:10、1:25、1:50、1:100、1:500或不超过1:1000的dTTP与dUTP比率。所述混合物包含1000:1-1:1000、100:1-1:100、50:1-1:50、50:1-1:20、20:1-1:20、10:1-1:10、5:1-1:5、3:1-1:3、2:1-1:1、3:1-1:1、5:1-1:2、5:1-1:1、10:1-1:1、10:1-1:2、20:1-1:1、20:1-1:2、50:1-1:1或100:1-1:1的dTTP与dUTP。在一些情况下，选择dTTP与dUTP的比率，使得PTA反应在不超过0.1、0.5、1、1.5、2、3、4、5、8、10或不超过12小时内完成至少5个扩增循环。在一些情况下，选择dTTP与dUTP的比率，使得PTA反应在不超过0.1、0.5、1、1.5、2、3、4、5、8、10或不超过12小时内完成至少9个扩增循环。

本文描述了单细胞分析的第四方法，所述第四方法包括分析来自单细胞的RNA和DNA。在一些情况下，所述方法包括分离单细胞、裂解单细胞和逆转录(RT)。在一些情况下，用模板切换寡核苷酸(TSO)进行逆转录。在一些情况下，TSO包含分子标签如生物素，从而允许随后下拉cDNA RT产物，并且PCR扩增RT产物以产生cDNA文库。在一些情况下，固体支撑物用于结合至标签。在一些情况下，固体支撑物包括基本平坦的表面、孔或珠。在一些情况下，TSO附接至固体支持物。在一些情况下，使用包含TSO的固体支持物能够纯化cDNA扩增子。在一些情况下，cDNA的纯化包括洗涤步骤。在一些情况下，然后使用碱性裂解来降解RNA并使基因组变性。在中和、添加随机引物和PTA之后，在一些情况下，使用封闭且经标记的引物使扩增产物经受RNA酶和cDNA扩增。在一些情况下，PTA反应在产生的cDNA文库存在下发生。在一些情况下，PTA反应包括使用可以被酶切割或去除的碱基。在一些情况下，所述酶包括糖基化酶。在一些情况下，PTA反应是用多种dNTP进行的，所述dNTP包括除了A、T、G或C之外的核苷酸。在一些情况下，PTA反应是用包括尿嘧啶的多种dNTP进行的。将gDNA在SPRI(固相可逆固定)珠上纯化，并且连接至衔接子以产生gDNA文库。在PTA扩增后，在一些情况下纯化或分离cDNA。在一些情况下，将RT产物通过下拉，如用链霉亲和素珠的下拉分离。在一些情况下，RT产物通过物理分离从反应混合物中分离(例如，在珠或磁珠上)。在一些情况下，使用酶去除(或消化)由PTA产生的残留基因组文库扩增子。在一些情况下，使用糖基化酶去除由PTA产生的残留基因组文库扩增子。在一些情况下，通过消化去除由含尿嘧啶的PTA产生的残留基因组文库扩增子。在纯化后，cDNA文库在一些情况下至少80％、85％、90％、95％、97％、98％、99％、99.5％或至少99.9％不含基因组DNA扩增子(例如，由PTA产生的那些扩增子)。

本文描述了单细胞分析的第五方法，所述第五方法包括分析来自单细胞的RNA和DNA。将细胞群体与抗体文库接触，其中将抗体标记。在一些情况下，将抗体用荧光标记、核酸条形码或两者标记。经标记的抗体与群体中的至少一种细胞结合，并且将此类细胞分选，每个容器(例如，管、小瓶、微孔等)放置一个细胞。在一些情况下，容器包括溶剂。在一些情况下，将容器表面的区域用捕获部分包被。在一些情况下，捕获部分是能够与一个或多个细胞、细胞器或其他细胞组分结合的小分子、抗体、蛋白质或其他药剂。在一些情况下，至少一个细胞、单细胞、或其组分与容器表面的区域结合。在一些情况下，核与容器的区域结合。在一些情况下，将细胞的外膜裂解，从而将mRNA释放至容器中的溶液中。在一些情况下，含有基因组DNA的细胞的核结合至容器表面的区域。接下来，通常使用溶液中的mRNA作为模板来进行RT以产生cDNA。在一些情况下，模板切换引物从5’至3’包含TSS区域(转录起始位点)、锚定区域、RNA BC区域和聚dT尾。在一些情况下，聚dT尾与一个或多个mRNA的聚A尾结合。在一些情况下，模板切换引物从3’至5’包含TSS区域、锚定区域和聚G区域。在一些情况下，聚G区域包括核糖G。在一些情况下，聚G区域与mRNA转录物上的聚C区域结合。在一些情况下，通过末端转移酶将核糖G添加至mRNA转录物。在取出RT PCR产物以进行后续测序之后，通过UNG除去细胞中的任何剩余RNA。然后将核裂解，并且使用随机引物和等温聚合酶对释放的基因组DNA进行PTA方法。在一些情况下，引物的长度为6-9个碱基。在一些情况下，PTA产生长度为100-5000、200-5000、500-2000、500-2500、1000-3000或300-3000个碱基的基因组扩增子。在一些情况下，PTA产生平均长度为100-5000、200-5000、500-2000、500-2500、1000-3000或300-3000个碱基的基因组扩增子。在一些情况下，PTA产生长度为250-1500个碱基的基因组扩增子。在一些情况下，本文所述的方法产生具有约500、约750、约1000、约5000或约10,000倍扩增的短片段cDNA池。在一些情况下，本文所述的方法产生具有500-5000、750-1500或250-10,000倍扩增的短片段cDNA池。任选地对PTA产物进行另外的扩增，并且进行测序。

单细胞的样品制备和分离

本文所述的方法可能需要分离单细胞以进行分析。任何单细胞分离方法可以与PTA一起使用，如口腔移液、微移液、流式细胞术/FACS、微流体、分选核(四倍体或其他)的方法或手动稀释。此类方法通过另外的试剂和步骤辅助，所述另外的试剂和步骤例如基于抗体的富集(例如，循环肿瘤细胞)、基于其他小分子或蛋白质的富集方法或荧光标记。在一些情况下，本文所述的多组学分析方法包括将细胞从较大组织中的机械或酶促解离。

细胞组分的制备和分析

本文所述的包括PTA的多组学分析方法可以包括处理细胞组分如DNA、RNA和/或蛋白质的一种或多种方法。在一些情况下，将核(包含基因组DNA)与胞质溶胶(包含mRNA)物理分离，然后是膜选择性裂解缓冲剂以溶解膜，但保持核完整。然后使用包括微移液、离心或抗体缀合的磁性微珠的方法将胞质溶胶与核分离。在另一种情况下，寡dT引物包被的磁珠结合聚腺苷酸化mRNA以便与DNA分离。在另一种情况下，同时预扩增DNA和RNA，并且然后分离以进行分析。在另一种情况下，将单细胞被拆分成两个相等部分，其中从一半处理mRNA并且从另一半处理基因组DNA。

多组学

本文提供了多组学样品制备和/或分析的方法。在一些情况下，一种方法包括从细胞群体中分离单细胞的一个或多个步骤，其中所述单细胞包含RNA和基因组DNA；通过RT-PCR扩增RNA以产生cDNA文库；从所述基因组DNA中分离cDNA；使基因组DNA与至少一种扩增引物、至少一种核酸聚合酶和核苷酸混合物接触；从基因组文库中分离cDNA，并且对cDNA文库和基因组DNA文库进行测序。在一些情况下，核苷酸混合物包含至少一种核苷酸，其被配置为通过酶或化学过程消化(或去除或反应)。在一些情况下，核苷酸混合物包含dUTP。在一些情况下，核苷酸混合物包含至少一种终止子核苷酸，所述至少一种终止子核苷酸终止聚合酶的核酸复制以产生基因组DNA文库。在一些情况下，终止子核苷酸包含不可逆终止子。在一些情况下，不可逆终止子抑制或抵抗3’至5’核酸外切酶活性。

本文所述的方法(例如，PTA)可以用作本领域中用于单细胞测序(多组学等)的任何数目其他已知方法的替代物。PTA可以代替基因组DNA测序方法，如MDA、PicoPlex、DOP-PCR、MALBAC或靶特异性扩增。在一些情况下，PTA替代多组学方法中的标准基因组DNA测序方法，包括DR-seq(Dey等人,2015)、G&T seq(MacAulay等人,2015)、scMT-seq(Hu等人,2016)、sc-GEM(Cheow等人,2016)、scTrio-seq(Hou等人,2016)、RNA和蛋白质同时多路复用测量(Darmanis等人,2016)、scCOOL-seq(Guo等人,2017)、CITE-seq(Stoeckius等人,2017)、REAP-seq(Peterson等人,2017)、scNMT-seq(Clark等人,2018)或SIDR-seq(Han等人,2018)。在一些情况下，本文所述的方法包括PTA和聚腺苷酸化mRNA转录物的方法。在一些情况下，本文所述的方法包括PTA和非聚腺苷酸化mRNA转录物的方法。在一些情况下，本文所述的方法包括PTA和总(聚腺苷酸化和非聚腺苷酸化)mRNA转录物的方法。

在一些情况下，将PTA与标准RNA测序方法组合以获得基因组和转录物组数据。在一些情况下，本文所述的多组学方法包括PTA和以下之一：Drop-seq(Macosko等人2015)、mRNA-seq(Tang等人,2009)、InDrop(Klein等人,2015)、MARS-seq(Jaitin等人,2014)、Smart-seq2(Hashimshony等人,2012；Fish等人,2016)、CEL-seq(Jaitin等人,2014)、STRT-seq(Islam等人,2011)、Quartz-seq(Sasagawa等人,2013)、CEL-seq2(Hashimshony等人2016)、cytoSeq(Fan等人,2015)、SuPeR-seq(Fan等人,2011)、RamDA-seq(Hayashi等人2018)、MATQ-seq(Sheng等人,2017)或SMARTer(Verboom等人,2019)。

各种反应条件和混合物可用于产生用于转录物组分析的cDNA文库。在一些情况下，使用RT反应混合物来产生cDNA文库。在一些情况下，RT反应混合物包含拥挤试剂、至少一种引物、模板切换寡核苷酸(TSO)、逆转录酶和dNTP混合物。在一些情况下，RT反应混合物包含RNA酶抑制剂。在一些情况下，RT反应混合物包含一种或多种表面活性剂。在一些情况下，RT反应混合物包含Tween-20和/或Triton-X。在一些情况下，RT反应混合物包含甜菜碱。在一些情况下，RT反应混合物包含一种或多种盐。在一些情况下，RT反应混合物包含镁盐(例如，氯化镁)和/或四甲基氯化铵。在一些情况下，RT反应混合物包含明胶。在一些情况下，RT反应混合物包含PEG(PEG1000、PEG2000、PEG4000、PEG6000、PEG8000或其他长度的PEG)。

本文所述的多组学方法可以提供来自单细胞的基因组信息和RNA转录物信息两者(例如，组合或双重方案)。在一些情况下，来自单细胞的基因组信息从PTA方法获得，并且RNA转录物信息从用于产生cDNA文库的逆转录获得。在一些情况下，使用全转录物方法来获得cDNA文库。在一些情况下，使用3’或5’末端计数来获得cDNA文库。在一些情况下，未使用UMI获得cDNA文库。在一些情况下，多组学方法提供来自单细胞的关于至少500、1000、2000、5000、8000、10,000、12,000或至少15,000个基因的RNA转录物信息。在一些情况下，多组学方法提供来自单细胞的关于约500、1000、2000、5000、8000、10,000、12,000或约15,000个基因的RNA转录物信息。在一些情况下，多组学方法提供来自单细胞的关于100-12,000、1000-10,000、2000-15,000、5000-15,000、10,000-20,000、8000-15,000或10,000-15,000个基因的RNA转录物信息。在一些情况下，多组学方法提供关于单细胞的基因组的至少80％、90％、92％、95％、97％、98％或至少99％的基因组序列信息。在一些情况下，多组学方法提供关于单细胞的基因组的约80％、90％、92％、95％、97％、98％或约99％的基因组序列信息。RNA可以在本文所述的多组学方法中扩增。在一些情况下，RNA被扩增以分离mRNA转录物。在一些情况下，使用模板切换多核苷酸。在一些情况下，RNA的扩增使用经标记的引物。在一些情况下，标记包括生物素。在一些情况下，至少一些cDNA多核苷酸是通过与标记的亲和结合而分离的。在一些情况下，多组学方法包括扩增RNA以产生cDNA文库。在一些情况下，产生具有至少10、20、30、50、75、100、125、150、175、200、225、250、300、350、400或至少500ng的DNA的cDNA文库。在一些情况下，产生具有10-500、20-500、30-500、50-500、50-400、50-300、100-500、100-400、100-300、100-200、200-500、300-500或400-750ng的DNA的cDNA文库。在一些情况下，cDNA文库中的至少一些多核苷酸包含条形码。在一些情况下，cDNA包含对应于至少100、500、1000、1500、2000、2500、3000、3500或至少4000个基因的多核苷酸。在一些情况下，cDNA包含0.5-1.5、0.6-1.5、0.7-1.5、0.8-1.5、0.9-1.5、0.8-1.5、1-1.5、1-2.0、1.2-2.0、0.5-2.0的5’至3’转录偏倚。

多组学方法可以包括对来自细胞群体的单细胞的分析。在一些情况下，分析了至少5、10、20、50、100、200、500、1000、2000、5000或至少8000个细胞。在一些情况下，分析了约5、10、20、50、100、200、500、1000、2000、5000或约8000个细胞。在一些情况下，分析了5-100、10-100、50-500、100-500、100-1000、50-5000、100-5000、500-1000、500-10000、1000-10000或5000-20,000个细胞。

多组学方法可以基于单细胞的类型从PTA反应产生基因组DNA的产量。在一些情况下，从单细胞产生的DNA的量是约0.1、1、1.5、2、3、5或约10微克。在一些情况下，从单细胞产生的DNA的量是约0.1、1、1.5、2、3、5或约10飞克。在一些情况下，从单细胞产生的DNA的量是至少0.1、1、1.5、2、3、5或至少10微克。在一些情况下，从单细胞产生的DNA的量是至少0.1、1、1.5、2、3、5或至少10飞克。在一些情况下，从单细胞产生的DNA的量是约0.1-10、1-10、1.5-10、2-20、2-50、1-3或0.5-3.5微克。在一些情况下，从单细胞产生的DNA的量是约0.1-10、1-10、1.5-10、2-20、2-4、1-3或0.5-4飞克。在一些情况下，从单细胞产生的DNA的量是约0.5-2.5、0.5-3、0.5-5、0.2-5、1-2.5或1-5ng的DNA。在一些情况下，从单细胞产生的DNA的量是至少0.25、0.5、0.75、1、1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.25、3.5、4或至少5ng的DNA。

DNA文库可以包含等位基因平衡。在一些情况下，所述等位基因平衡是50％-100％、60％-100％、70％-100％、80％-100％、60％-95％、70％-95％、80％-95％、85％-95％、90％-95％、90％-98％、90％-99％、85％-99％或95％-99％。在一些情况下，所述等位基因平衡是至少50％、60％、70％、80％、83％、85％、87％、90％、92％、95％、98％或至少99％。

DNA文库可以包含一个或多个SNV的灵敏度。在一些情况下，所述灵敏度是0.50-1、0.60-1、0.70-1、0.80-1、0.60-0.95、0.70-0.95、0.80-0.95、0.85-0.95、0.90-0.95、0.90-0.98、0.90-0.99、0.85-0.99或0.95-0.99。在一些情况下，所述灵敏度是至少0.50、0.60、0.70、0.80、0.83、0.85、0.87、0.90、0.92、0.95、0.98或至少0.99。

DNA文库可以包含一个或多个SNV的精确度。在一些情况下，所述精确度是0.50-1、0.60-1、0.70-1、0.80-1、0.60-0.95、0.70-0.95、0.80-0.95、0.85-0.95、0.90-0.95、0.90-0.98、0.90-0.99、0.85-0.99或0.95-0.99。在一些情况下，所述精确度是至少0.50、0.60、0.70、0.80、0.83、0.85、0.87、0.90、0.92、0.95、0.98或至少0.99。

甲基化组分析

本文描述了包括PTA的方法，其中使用PTA方法确定单细胞中甲基化DNA的位点。在一些情况下，甲基化组分析包括鉴定甲基化碱基(例如，甲基C、羟甲基C)的位置。在一些情况下，这些方法还包括平行分析同一细胞的转录物组、甲基化组和/或蛋白质组。检测甲基化基因组碱基的方法包括用甲基化敏感性内切核酸酶进行选择性限制，然后用PTA方法处理。根据测序确定被此类酶切割的位点，并且鉴定甲基化碱基。在另一种情况下，基因组DNA文库的亚硫酸氢盐处理将未甲基化胞嘧啶转化为尿嘧啶。然后在一些情况下，用选择性地退火至甲基化序列的甲基化特异性引物扩增文库。可替代地，进行非甲基化特异性PCR，然后进行用于区分亚硫酸氢盐反应的碱基的一种或多种方法，包括直接焦磷酸测序、MS-SnuPE、HRM、COBRA、MS-SSCA或碱基特异性切割/MALDI-TOF。在一些情况下，将基因组DNA样品拆分以用于基因组(或其富集部分)和甲基化组分析的平行分析。在一些情况下，基因组和甲基化组的分析包括富集基因组片段(例如，外显子组或其他靶标)或全基因组测序。在一些情况下，基因组样品中的甲基化碱基通过(a)甲基化碱基转化为不同的碱基或(b)非甲基化碱基转化为不同的碱基来鉴别。在一些情况下，此类转化在整个基因组或基因组片段上进行。然后将所得序列与参考序列(在没有转化/处理的情况下获得)进行比较，以鉴别哪些碱基是甲基化的。在一些情况下，转化方法(或过程)包括用脱氨试剂处理。在一些情况下，转化方法包括用硫酸氢盐处理。在一些情况下，一种或多种酶用于选择性地区分甲基化和未甲基化碱基。在一些情况下，酶包括TET(十十一易位)家族酶。在一些情况下，TET家族酶包括TET2。在一些情况下，酶包括T4-BGT。在一些情况下，转化方法包括用保护甲基胞嘧啶的试剂(例如，TET2，针对氧化)处理，随后用将未保护的胞嘧啶脱氨的酶(例如，APOBEC)处理。区分甲基化和非甲基化碱基的其他试剂也与本文公开的方法一致。在一些情况下，未甲基化的胞嘧啶转化为尿嘧啶。在一些情况下，这些含尿嘧啶的修饰基因组的扩增导致尿嘧啶转化为胸腺嘧啶。在一些情况下，扩增包括使用本文所述的尿嘧啶耐受聚合酶。在一些情况下，本文所述的衔接子被修饰成用甲基胞嘧啶或抵抗转化的其他碱基替代胞嘧啶。

生物信息学

可以将从本文所述的利用PTA的单细胞分析方法获得的数据编译成数据库。本文描述了生物信息学数据整合的方法和系统。在一些情况下将来自蛋白质组、基因组、转录物组、甲基化组或其他数据的数据组合/整合为数据库并分析。在一些情况下，生物信息学数据整合方法和系统包括蛋白质检测(FACS和/或NGS)、mRNA检测和/或基因组变异检测中的一种或多种。在一些情况下，该数据与疾病状态或病症相关。在一些情况下，将来自多个单细胞的数据编译以描述较大细胞群体(如来自特定样品、区域、生物体或组织的细胞)的特性。在一些情况下，从与细胞上的蛋白质选择性结合的经荧光标记的抗体获取蛋白质数据。在一些情况下，蛋白质检测的方法包括基于荧光标记物将细胞分组并且在分选后报告样品位置。在一些情况下，蛋白质检测的方法包括检测样品条形码、检测蛋白质条形码、与设计的序列进行比较并且基于条形码和拷贝数将细胞分组。在一些情况下，从与细胞上的蛋白质选择性结合的条形码化抗体获取蛋白质数据。在一些情况下，从样品和RNA特异性条形码获取转录物组数据。在一些情况下，mRNA检测的方法包括检测样品和RNA特异性条形码、与基因组比对、与RefSeq/Encode比对、报告外显子/内含子/基因间序列、分析外显子-外显子连接点、基于条形码和表达变异将细胞分组以及聚类分析变异和靠前可变基因。在一些情况下，从样品和DNA特异性条形码获取基因组数据。在一些情况下，基因组变异检测的方法包括检测样品和DNA特异性条形码、与基因组比对、确定基因组回收率和SNV映射率、过滤外显子-外显子连接点上的读段、产生变体判定文件(VCF)和聚类分析变异和靠前可变突变。

突变

在一些情况下，本文所述的方法(例如，多组学PTA)导致突变检测的较高检测灵敏度和/或较低假阳性率。在一些情况下，突变是分析序列(例如，使用本文所述的方法)与参考序列之间的差异。在一些情况下，参考序列从其他生物体、相同或相似物种的其他个体、生物体群体或同一基因组的其他区域获得。在一些情况下，突变在质粒或染色体上鉴定。在一些情况下，突变是SNV(单核苷酸变异)、SNP(单核苷酸多态性)或CNV(拷贝数变异或CNA/拷贝数异常)。在一些情况下，突变是碱基取代、插入或缺失。在一些情况下，突变是转变、颠换、无义突变、沉默突变、同义或非同义突变、非致病性突变、错义突变或移码突变(缺失或插入)。在一些情况下，当相比于如经由计算机模拟预测、ChIP-seq、GUIDE-seq、环状-seq、HTGTS(高通量全基因组易位测序)、IDLV(整合缺陷型慢病毒)、Digenome-seq、FISH(荧光原位杂交)或DISCOVER-seq的方法时，PTA导致突变检测的较高检测灵敏度和/或较低假阳性率。

原代模板定向扩增

本文描述了核酸扩增方法，如“原代模板定向扩增(PTA)”。在一些情况下，将PTA与其他分析工作流程组合用于多组学分析。例如，本文所述的PTA方法的一个实施方案示意性地表示于图1A中。在PTA方法中，使用聚合酶(例如，链置换聚合酶)优先从原代模板(“直接拷贝”)生成扩增子。因此，与MDA相比，在随后的扩增过程中，错误以较低的速率从子扩增子传播。结果得到一种易于执行的方法，与现有的WGA方案不同，所述方法可以以准确且可再现的方式扩增低输入量的DNA(包括单细胞的基因组)，且具有高覆盖范围和均匀性。此外，终止的扩增产物可以在除去终止子后进行定向连接，允许细胞条形码附接至扩增引物，从而可以在进行平行扩增反应后合并来自所有细胞的产物。在一些情况下，模板核酸未结合至固体支持物。在一些情况下，模板核酸的直接拷贝未结合至固体支持物。在一些情况下，一种或多种引物未结合至固体支持物。在一些情况下，没有引物未结合至固体支持物。在一些情况下，引物附接至第一固体支持物，并且模板核酸附接至第二固体支持物，其中第一固体支持物和第二固体支持物不是相同的。在一些情况下，使用PTA来于分析来自较大细胞群体的单细胞。在一些情况下，使用PTA来分析来自较大细胞体的多于一种细胞、或整个细胞群体。

本文描述了采用具有链置换活性的核酸聚合酶进行扩增的方法。在一些情况下，这种聚合酶具有链置换活性和低错误率。在一些情况下，这种聚合酶具有链置换活性和校对核酸外切酶活性，如3’->5’校对活性。在一些情况下，核酸聚合酶与其他组分结合使用，所述其他组分如可逆或不可逆终止子，或其他链置换因子。在一些情况下，聚合酶具有链置换活性，但不具有核酸外切酶校对活性。例如，在一些情况下，这些聚合酶包括噬菌体phi29(Φ29)聚合酶，其也有非常低的错误率，这是3’->5’校对核酸外切酶活性的结果(参见，例如，美国专利号5,198,543和5,001,050)。在一些情况下，链置换核酸聚合酶的非限制性示例包括，例如，经基因修饰的phi29(Φ29)DNA聚合酶、DNA聚合酶I的Klenow片段(Jacobsen等人,Eur.J.Biochem.45:623-627(1974))、噬菌体M2 DNA聚合酶(Matsumoto等人,Gene84:247(1989))、噬菌体phiPRD1 DNA聚合酶(Jung等人,Proc.Natl.Acad.Sci.USA 84:8287(1987)；Zhu和Ito,Biochim.Biophys.Acta.1219:267-276(1994))、Bst DNA聚合酶(例如，Bst大片段DNA聚合酶(Exo(-)Bst；Aliotta等人,Genet.Anal.(Netherlands)12:185-195(1996))、exo(-)Bca DNA聚合酶(Walker和Linn,Clinical Chemistry42:1604-1608(1996))、Bsu DNA聚合酶、包括Vent_R(exo-)DNA聚合酶的Vent_R DNA聚合酶(Kong等人,J.Biol.Chem.268:1965-1975(1993))、包括Deep Vent(exo-)DNA聚合酶的Deep Vent DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶(Chatterjee等人,Gene 97:13-19(1991))、测序酶(U.S.Biochemicals)、T7 DNA聚合酶、T7-测序酶、T7 gp5 DNA聚合酶、PRDIDNA聚合酶、T4 DNA聚合酶(Kaboord和Benkovic,Curr.Biol.5:149-157(1995))。另外的链置换核酸聚合酶也与本文所述的方法相容。给定聚合酶进行链置换复制的能力可以被确定，例如，通过在链置换复制测定中使用该聚合酶(例如，如美国专利号6,977,148中所公开)。在一些情况下，此类测定是在适合于所用酶的最佳活性温度下进行的，例如，phi29 DNA聚合酶的所述温度为32℃，exo(-)Bst DNA聚合酶的所述温度为46℃至64℃，或来自超高温生物的酶的所述温度为约60℃至70℃。选择聚合酶的另一种有用的测定法是在Kong等人,J.Biol.Chem.268:1965-1975(1993)中所述的引物阻断测定。该测定包括在存在或不存在寡核苷酸的情况下使用M13 ssDNA模板进行的引物延伸测定，该寡核苷酸在延伸引物的上游杂交，以阻断其进程。在该测定中，能够置换阻断引物的其他酶在一些情况下对所公开的方法有用。在一些情况下，聚合酶以近似相等的比率并入dNTP和终止子。在一些情况下，本文所述聚合酶的dNTP和终止子的并入比率为约1:1、约1.5:1、约2:1、约3:1、约4:1、约5:1、约10:1、约20:1、约50:1、约100:1、约200:1、约500:1或约1000:1。在一些情况下，本文所述聚合酶的dNTP和终止子的并入比率为1:1至1000:1、2:1至500:1、5:1至100:1、10:1至1000:1、100:1至1000:1、500:1至2000:1、50:1至1500:1或25:1至1000:1。在一些情况下，添加可以选择性去除的核碱基或核碱基类似物。在一些情况下，使用酶去除核碱基。在一些情况下，所述酶包含UDG。在一些情况下，所述核碱基包含dU。在一些情况下，所述核碱基相对于混合物中的另一种核苷酸以一定比率存在。在一些情况下，所述核碱基以不超过0.2:1、0.5:1、0.7:1、0.8:1、1:1、1:1.5、1:2、1:2.5、1:3或不超过1:5的比率存在于混合物中。在一些情况下，所述核碱基以至少0.2:1、0.5:1、0.7:1、0.8:1、1:1、1:1.5、1:2、1:2.5、1:3或至少1:5的比率存在于混合物中。在一些情况下，dU以不超过0.2:1、0.5:1、0.7:1、0.8:1、1:1、1:1.5、1:2、1:2.5、1:3或不超过1:5的与dT的比率存在于混合物中。在一些情况下，dU以至少0.2:1、0.5:1、0.7:1、0.8:1、1:1、1:1.5、1:2、1:2.5、1:3或至少1:5的与dT的比率存在于混合物中。

本文描述了扩增方法，其中可以通过使用链置换因子例如解旋酶来促进链置换。在一些情况下，这些因子与另外的扩增组分结合使用，所述另外的扩增组分如聚合酶、终止子或其他组分。在一些情况下，链置换因子与不具有链置换活性的聚合酶一起使用。在一些情况下，链置换因子与具有链置换活性的聚合酶一起使用。不受理论的约束，链置换因子可以增加较小的双链扩增子被重新引发的速率。在一些情况下，可以在存在链置换因子的情况下进行链置换复制的任何DNA聚合酶都适用于PTA方法，即使该DNA聚合酶在不存在这种因子的情况下无法进行链置换复制。在一些情况下，可用于链置换复制的链置换因子包括(但不限于)BMRF1聚合酶辅助亚基(Tsurumi等人,J.Virology 67(12):7648-7653(1993))、腺病毒DNA结合蛋白(Zijderveld和van der Vliet,J.Virology 68(2):1158-1164(1994))、单纯疱疹病毒蛋白ICP8(Boehmer和Lehman,J.Virology 67(2):711-715(1993)；Skaliter和Lehman,Proc.Natl.Acad.Sci.USA 91(22):10665-10669(1994))；单链DNA结合蛋白(SSB；Rigler和Romano,J.Biol.Chem.270:8910-8919(1995))；噬菌体T4基因32蛋白(Villemain和Giedroc,Biochemistry 35:14395-14404(1996)；T7解旋酶-引发酶；T7gp2.5 SSB蛋白；Tte-UvrD(来自腾冲嗜热厌氧菌(Thermoanaerobacter tengcongensis))，小牛胸腺解旋酶(Siegel等人,J.Biol.Chem.267:13629-13635(1992))；细菌SSB(例如，大肠杆菌SSB)，真核生物中的复制蛋白A(RPA)，人类线粒体SSB(mtSSB)和重组酶(例如，重组酶A(RecA)家族蛋白、T4 UvsX、T4 UvsY、噬菌体HK620的Sak4、Rad51、Dmc1或Radb)。促进链置换和引发的因子组合也符合本文所述方法。例如，将解旋酶与聚合酶结合使用。在一些情况下，PTA方法包括使用单链DNA结合蛋白(SSB、T4 gp32或其他单链DNA结合蛋白)、解旋酶和聚合酶(例如，SauDNA聚合酶、Bsu聚合酶、Bst2.0、GspM、GspM2.0、GspSSD或其他合适的聚合酶)。在一些情况下，将逆转录酶与本文所述的链置换因子结合使用。在一些情况下，将逆转录酶与本文所述的链置换因子结合使用。在一些情况下，使用聚合酶和切口酶(例如，“NEAR”)(如US 9,617,586中所述的那些)进行扩增。在一些情况下，切口酶是Nt.BspQI、Nb.BbvCi、Nb.BsmI、Nb.BsrDI、Nb.BtsI、Nt.AlwI、Nt.BbvCI、Nt.BstNBI、Nt.CviPII、Nb.Bpu10I或Nt.Bpu10I。

本文描述了扩增方法，其包括使用终止子核苷酸、聚合酶和另外的因子或条件。例如，在一些情况下，这些因子在扩增过程中用于使一种或多种核酸模板或扩增子片段化。在一些情况下，这些因子包括核酸内切酶。在一些情况下，因子包括转座酶。在一些情况下，在扩增过程中使用机械剪切来使核酸片段化。在一些情况下，在扩增过程中添加核苷酸，可以通过添加其他蛋白质或条件使其片段化。例如，将尿嘧啶并入扩增子中；用尿嘧啶D-糖基化酶的处理使核酸在含尿嘧啶位置处片段化。在一些情况下，还采用了选择性核酸片段化的其他体系，例如，切割经修饰的胞嘧啶-芘碱基对的工程化DNA糖基化酶(Kwon,等人ChemBiol.2003,10(4),351)。在一些情况下还使用尿嘧啶耐受聚合酶。在一些情况下，使用尿嘧啶耐受聚合酶可以改善多组学方法的结果，如本文所述的那些。

基于转座酶的文库制备(即，“标签化”)可以与本文所述的方法和组合物一起使用。在一些情况下，在PTA后，使文库暴露于一种或多种转座体。在一些情况下，转座体包含转座酶(例如，Tn5、MuA或其他酶)。在一些情况下，转座酶同时切割和标记文库中的多核苷酸。在一些情况下，标签包含多核苷酸。在一些情况下，标签包含条形码、衔接子、引物位点或其他区域中的一个或多个。在一些情况下，转座体连接至固体支撑物。在一些情况下，所述固体支撑物包括珠、平坦表面或其他结构。

纳米球测序可以与本文所述的多组学方法(例如，PTA)结合使用。在一些情况下，滚环扩增(RCA)用于将基因组DNA片段扩增成DNA纳米球。在一些情况下，扩增使用尿嘧啶耐受聚合酶。DNA纳米球被吸附到流通池上，并且每个位置处的荧光被确定并用于鉴定碱基。在一些情况下，用所期望的插入尺寸制备文库，并使用纳米球测序进行测序。圆形衔接子与纳米球测序兼容。在一些情况下，本文所述的文库制备方法采用由高活性Tn5转座酶和Tn5型转座子末端形成的转座复合物。在一些情况下，本文所述的文库制备方法采用由MuA转座酶和包含R1和R2末端序列的Mu转座子末端形成的转座复合物。在一些情况下，使用转座系统，其以随机或伪随机方式将转座子末端插入5′标签并片段化靶DNA。在一些情况下，转座系统包括金黄色葡萄球菌(Staphylococcus aureus)Tn552、Ty1、转座子Tn7、Tn10和IS10、Mariner转座酶、Tc1、Tn3、细菌插入序列、逆转录酶病毒或酵母的逆转录转座子。在一些情况下，本文所述的转座酶包括野生型或突变型转座酶、野生型或突变型Tn5转座酶(例如，EZ-Tn5^TM转座酶、HYPERMU^TM MuA转座酶)。在一些情况下，转座酶或其中的复合物包含Nextera^TM标签DNA酶1(TDE1，Illumina)。在一些情况下，转座酶包括野生型转座酶的突变体或变体。在一些情况下，变体包含与野生型序列具有至少50％、60％、70％、75％、80％、85％、90％、95％、97％、98％或至少99％同一性的序列。在一些情况下，转座酶包含与野生型序列具有至少50％、60％、70％、75％、80％、85％、90％、95％、97％、98％或至少99％同一性的Tn5变体。在一些情况下，Tn5变体在位置42、54、56、372、450、451或454处包含一个或多个突变。在一些情况下，Tn5变体在位置42、54、56、372、450、451或454处包含两个或更多个突变。在一些情况下，Tn5变体在位置42、54、56、372、450、451或454处包含三个或更多个突变。

基于连接的文库制备可以与本文所述的方法和组合物(例如，合成测序)一起使用。在一些情况下，衔接子(例如，Y衔接子)连接至本文获得的扩增子的末端，以产生用于测序的文库。在一些情况下，通过使用尿嘧啶耐受聚合酶在测序前扩增文库。在一些情况下，衔接子包括轭区、第一非互补区、索引区、独特分子标识码区、第二非互补区、引物区和移植物区中的一个或多个。在一些情况下，移植物区被配置为与测序仪器流通池结合。在一些情况下，衔接子包括截断的(或“短粗的”/通用的)衔接子。在一些情况下，截断的衔接子包括轭区、第一非互补区、独特分子标识码区、第二非互补区和引物区中的一个或多个。在一些情况下，在衔接子连接至扩增子后，通过扩增将索引区和移植物区中的一个或多个添加至截断的衔接子中。在一些情况下，使用截断的衔接子，如Glenn等人PeerJ.2019；7:e7786中描述的那些衔接子。

本文描述了包括使用终止子核苷酸的扩增方法，所述终止子核苷酸终止核酸复制，从而减小扩增产物的大小。在一些情况下，这些终止子与本文所述的聚合酶、链置换因子或其他扩增组分结合使用。在一些情况下，终止子核苷酸减少或降低了核酸复制的效率。在一些情况下，这些终止子将延伸率减少至少99.9％、99％、98％、95％、90％、85％、80％、75％、70％或至少65％。在一些情况下，这些终止子将延伸率减少50％-90％、60％-80％、65％-90％、70％-85％、60％-90％、70％-99％、80％-99％或50％-80％。在一些情况下，终止子将平均扩增子产物长度减少至少99.9％、99％、98％、95％、90％、85％、80％、75％、70％或至少65％。在一些情况下，终止子将平均扩增子长度减少50％-90％、60％-80％、65％-90％、70％-85％、60％-90％、70％-99％、80％-99％或50％-80％。在一些情况下，包括终止子核苷酸的扩增子会形成环或发夹，从而降低聚合酶将这些扩增子用作模板的能力。在一些情况下，终止子的使用通过并入终止子核苷酸(例如，经过修饰以使其抵抗核酸外切酶从而终止DNA延伸的双脱氧核苷酸)而减慢起始扩增位点处的扩增速度，从而产生较小的扩增产物。通过比当前使用的方法产生更小的扩增产物(例如，PTA方法的平均长度为50-2000个核苷酸，而MDA方法的平均产物长度为>10,000个核苷酸)，PTA扩增产物在一些情况下可直接进行连接衔接子而无需片段化，从而允许细胞条形码和独特分子标识码(UMI)的有效并入。

终止子核苷酸以各种浓度存在，这取决于如聚合酶、模板或其他因子的因子。例如，在一些情况下，在本文所述的方法中，终止子核苷酸的量表示为非终止子核苷酸与终止子核苷酸的比率。在一些情况下，这些浓度允许控制扩增子的长度。在一些情况下，针对存在的模板量或模板的大小改变终止子核苷酸与非终止子核苷酸的比率。在一些情况下，对于较小的样品大小(例如，飞克至皮克范围)降低终止子核苷酸与非终止子核苷酸的比率。在一些情况下，非终止子核苷酸与终止子核苷酸的比率为约2:1、5:1、7:1、10:1、20:1、50:1、100:1、200:1、500:1、1000:1、2000:1或5000:1。在一些情况下，非终止子核苷酸与终止子核苷酸的比率为2:1-10:1、5:1-20:1、10:1-100:1、20:1-200:1、50:1-1000:1、50:1-500:1、75:1-150:1或100:1-500:1。在一些情况下，在使用本文所述的方法扩增期间存在的至少一种核苷酸是终止子核苷酸。每种终止子不必以约相同的浓度存在；在一些情况下，对于特定的一组反应条件、样品类型或聚合酶，可以优化本文所述方法中存在的各种终止子的比例。不受理论的约束，每种终止子在响应与模板链上相应核苷酸的配对时，并入扩增子的生长多核苷酸链中的效率可以不同。例如，在一些情况下，与胞嘧啶配对的终止子的浓度比平均终止子浓度高约3％、5％、10％、15％、20％、25％或50％。在一些情况下，与胸腺嘧啶配对的终止子的浓度比平均终止子浓度高约3％、5％、10％、15％、20％、25％或50％。在一些情况下，与鸟嘌呤配对的终止子的浓度比平均终止子浓度高约3％、5％、10％、15％、20％、25％或50％。在一些情况下，与腺嘌呤配对的终止子的浓度比平均终止子浓度高约3％、5％、10％、15％、20％、25％或50％。在一些情况下，与尿嘧啶配对的终止子的浓度比平均终止子浓度高约3％、5％、10％、15％、20％、25％或50％。在一些情况下，能够终止通过核酸聚合酶的核酸延伸的任何核苷酸在本文所述的方法中用作终止子核苷酸。在一些情况下，可逆终止子用于终止核酸复制。在一些情况下，不可逆终止子用于终止核酸复制。在一些情况下，终止子的非限制性示例包括可逆和不可逆核酸和核酸类似物，例如，包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子或其任何组合。在一个实施方案中，终止子核苷酸是双脱氧核苷酸。终止核酸复制并且可以适用于实施本发明的其他核苷酸修饰包括但不限于脱氧核糖的3’碳的r基团的任何修饰，如反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-O-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。在一些情况下，终止子是长度为1、2、3、4或更多个碱基的多核苷酸。在一些情况下，终止子不包括可检测的部分或标签(例如，质量标签、荧光标签、染料、放射性原子或其他可检测的部分)。在一些情况下，终止子不包括允许可检测部分或标签附接的化学部分(例如，“点击”叠氮化物/炔烃、共轭加成剂或用于标签附接的其他化学处理)。在一些情况下，所有终止子核苷酸都包括相同的修饰，该修饰减少核苷酸的某区域(例如，糖部分、碱基部分或磷酸部分)处的扩增。在一些情况下，至少一种终止子具有减少扩增的不同修饰。在一些情况下，所有终止子都具有基本相似的荧光激发或发射波长。在一些情况下，未修饰磷酸基团的终止子与不具有核酸外切酶校对活性的聚合酶一起使用。终止子在与具有可以除去终止子核苷酸的3’->5’校对核酸外切酶活性的聚合酶(例如，phi29)一起使用时，在一些情况下，还需要进一步修饰使其抵抗核酸外切酶。例如，双脱氧核苷酸被α-硫基团修饰，产生硫代磷酸酯键，使这些核苷酸对核酸聚合酶的3’->5’校对核酸外切酶活性具有抗性。在一些情况下，这种修饰使聚合酶的核酸外切酶校对活性降低至少99.5％、99％、98％、95％、90％或至少85％。在一些情况下，提供对3’->5’核酸外切酶活性的抗性的其他终止子核苷酸修饰的非限制性示例包括：带有α基团修饰的核苷酸，如产生硫代磷酸酯键的α-硫代双脱氧核苷酸、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟碱基、3’磷酸化、2’-O-甲基修饰(或其他2’-O-烷基修饰)、丙炔修饰的碱基(例如，脱氧胞嘧啶、脱氧尿苷)、L-DNA核苷酸、L-RNA核苷酸、具有反向连接的核苷酸(例如，5’-5’或3’-3’)、5’反向碱基(例如，5’反向的2’,3’-二脱氧dT)、甲基膦酸酯骨架和反式核酸。在一些情况下，具有修饰的核苷酸包括具有游离3’OH基团的碱基修饰的核酸(例如，2-硝基苄基烷基化的HOMedU三磷酸，包含具有大化学基团(如固体支持物或其他较大部分)的修饰的碱基)。在一些情况下，将具有链置换活性但不具有3’->5’核酸外切酶校对活性的聚合酶与经历或未经历使其具有核酸外切酶抗性的修饰的终止子核苷酸一起使用。此类核酸聚合酶包括但不限于Bst DNA聚合酶、Bsu DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶、Therminator DNA聚合酶和Vent_R(exo-)。

引物和扩增子文库

本文描述了由至少一种靶核酸分子的扩增产生的扩增子文库。在一些情况下，这些文库是使用本文所述方法生成的，如使用终止子的文库。在一些情况下，终止子与A、C、T、G和U核苷酸结合使用。在一些情况下，通过本文所述方法产生的扩增子包括尿嘧啶。这些方法包括使用链置换聚合酶或因子、终止子核苷酸(可逆或不可逆)或本文所述的其他特征和实施方案。在一些情况下，使用本文所述的终止子产生的扩增子文库在随后的扩增反应(例如，PCR)中进一步扩增。在一些情况下，随后的扩增反应不包括终止子。在一些情况下，扩增子文库包括多核苷酸，其中至少50％、60％、70％、80％、90％、95％或至少98％的多核苷酸包括至少一种终止子核苷酸。在一些情况下，扩增子文库包括衍生出扩增子文库的靶核酸分子。扩增子文库包括多种多核苷酸，其中至少一些多核苷酸是直接拷贝(例如，直接从靶核酸分子如基因组DNA、RNA或其他靶核酸复制)。例如，至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或超过95％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少5％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少10％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少15％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少20％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少50％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，3％-5％、3-10％、5％-10％、10％-20％、20％-30％、30％-40％、5％-30％、10％-50％或15％-75％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下，至少一些多核苷酸是靶核酸分子的直接拷贝或子代(靶核酸的第一拷贝)。例如，至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或超过95％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，至少5％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，至少10％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，至少20％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，至少30％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，3％-5％、3％-10％、5％-10％、10％-20％、20％-30％、30％-40％、5％-30％、10％-50％或15％-75％的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下，靶核酸的直接拷贝的长度为50-2500、75-2000、50-2000、25-1000、50-1000、500-2000或50-2000个碱基。在一些情况下，子代的长度为1000-5000、2000-5000、1000-10,000、2000-5000、1500-5000、3000-7000或2000-7000个碱基。在一些情况下，PTA扩增产物的平均长度为25-3000个核苷酸，为50-2500、75-2000、50-2000、25-1000、50-1000、500-2000或50-2000个碱基。在一些情况下，从PTA产生的扩增子的长度不超过5000、4000、3000、2000、1700、1500、1200、1000、700、500或不超过300个碱基。在一些情况下，从PTA产生的扩增子的长度为1000-5000、1000-3000、200-2000、200-4000、500-2000、750-2500或1000-2000个碱基。在一些情况下，使用本文所述方法产生的扩增子文库包括至少1000、2000、5000、10,000、100,000、200,000、500,000或超过500,000个包括独特序列的扩增子。在一些情况下，文库包括至少100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、2000、2500、3000或至少3500个扩增子。在一些情况下，长度小于1000个碱基的扩增子多核苷酸的至少5％、10％、15％、20％、25％、30％或超过30％是至少一种靶核酸分子的直接拷贝。在一些情况下，长度不超过2000个碱基的扩增子多核苷酸的至少5％、10％、15％、20％、25％、30％或超过30％是至少一种靶核酸分子的直接拷贝。在一些情况下，长度为3000-5000个碱基的扩增子多核苷酸的至少5％、10％、15％、20％、25％、30％或超过30％是至少一种靶核酸分子的直接拷贝。在一些情况下，直接拷贝扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1。在一些情况下，直接拷贝扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1，其中直接拷贝扩增子的长度不超过700-1200个碱基。在一些情况下，直接拷贝扩增子和子扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1。在一些情况下，直接拷贝扩增子和子扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1，其中直接拷贝扩增子的长度为700-1200个碱基，并且子扩增子的长度为2500-6000个碱基。在一些情况下，文库包括约50-10,000、约50-5,000、约50-2500、约50-1000、约150-2000、约250-3000、约50-2000、约500-2000或约500-1500个扩增子，这些是靶核酸分子的直接拷贝。在一些情况下，文库包括约50-10,000、约50-5,000、约50-2500、约50-1000、约150-2000、约250-3000、约50-2000、约500-2000或约500-1500个扩增子，这些是靶核酸分子的直接拷贝或子扩增子。在一些情况下，直接拷贝数可以通过PCR扩增循环数控制。在一些情况下，使用不超过30、25、20、15、13、11、10、9、8、7、6、5、4或3个PCR循环来产生靶核酸分子的拷贝。在一些情况下，使用约30、25、20、15、13、11、10、9、8、7、6、5、4或约3个PCR循环来产生靶核酸分子的拷贝。在一些情况下，使用3、4、5、6、7或8个PCR循环来产生靶核酸分子的拷贝。在一些情况下，使用2-4、2-5、2-7、2-8、2-10、2-15、3-5、3-10、3-15、4-10、4-15、5-10或5-15个PCR循环来产生靶核酸分子的拷贝。在一些情况下，使用本文所述方法生成的扩增子文库经受另外步骤，如衔接子连接和进一步的PCR扩增。在一些情况下，这些另外步骤在测序步骤之前。

本文所述的方法可以另外包括一个或多个富集或纯化步骤。在一些情况下，在本文所述的方法期间富集一种或多种多核苷酸(如cDNA、PTA扩增子或其他多核苷酸)。在一些情况下，使用多核苷酸探针捕获一种或多种多核苷酸。在一些情况下，探针被配置为捕获一个或多个基因组外显子。在一些情况下，探针文库包括至少1000、2000、5000、10,000、50,000、100,000、200,000、500,000或超过1百万个不同的序列。在一些情况下，探针文库包括能够与至少10、20、50、100、200、500、1000、2000、5000、10,000或超过10,000个基因结合的序列。在一些情况下，探针包含用于固体支持物的捕获的部分，如生物素。在一些情况下，富集步骤在PTA步骤之后进行。在一些情况下，富集步骤在PTA步骤之前进行。在一些情况下，探针被配置为结合基因组DNA文库。在一些情况下，探针被配置为结合cDNA文库。

在一些情况下，由本文所述的PTA方法和组合物(终止子、聚合酶等)产生的多核苷酸的扩增子文库具有增加的均匀性。在一些情况下，均匀性使用洛伦兹曲线或其他此类方法来描述。在一些情况下，这种增加使得覆盖所期望的靶核酸分子(例如，基因组DNA、RNA或其他靶核酸分子)所需的测序读段更少。例如，多核苷酸的累积分数的不超过50％包括靶核酸分子的序列的累积分数的至少80％的序列。在一些情况下，多核苷酸的累积分数的不超过50％包括靶核酸分子的序列的累积分数的至少60％的序列。在一些情况下，多核苷酸的累积分数的不超过50％包括靶核酸分子的序列的累积分数的至少70％的序列。在一些情况下，多核苷酸的累积分数的不超过50％包括靶核酸分子的序列的累积分数的至少90％的序列。在一些情况下，均匀性使用基尼指数描述(其中指数0表示文库的完全相等，指数1表示完全不等)。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55、0.50、0.45、0.40或0.30。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.40。在一些情况下，这种均匀性度量取决于所获得的读段数。例如，获得的读段不超过1亿、2亿、3亿、4亿或不超过5亿。在一些情况下，读段的长度为约50、75、100、125、150、175、200、225或约250个碱基。在一些情况下，均匀性度量取决于靶核酸的覆盖深度。例如，平均覆盖深度为约10X、15X、20X、25X或约30X。在一些情况下，平均覆盖深度为10-30X、20-50X、5-40X、20-60X、5-20X或10-20X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55，其中获得了约3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50，其中获得了约3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.45，其中获得了约3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55，其中获得了不超过3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50，其中获得了不超过3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.45，其中获得了不超过3亿个读段。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55，其中测序覆盖的平均深度为约15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50，其中测序覆盖的平均深度为约15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.45，其中测序覆盖的平均深度为约15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55，其中测序覆盖的平均深度为至少15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50，其中测序覆盖的平均深度为至少15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.45，其中测序覆盖的平均深度为至少15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.55，其中测序覆盖的平均深度不超过15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.50，其中测序覆盖的平均深度不超过15X。在一些情况下，本文所述的扩增子文库的基尼指数不超过0.45，其中测序覆盖的平均深度不超过15X。在一些情况下，使用本文所述方法生成的均匀扩增子文库需要经受另外步骤，如衔接子连接和进一步的PCR扩增。在一些情况下，这些另外步骤在测序步骤之前。

引物包括用于引发本文所述的扩增反应的核酸。在一些情况下，这些引物包括但不限于具有或不具有使其抵抗核酸外切酶的修饰的任何长度的随机脱氧核苷酸，具有或不具有使其抵抗核酸外切酶的修饰的任意长度的随机核糖核苷酸，经修饰的核酸，如锁核酸、靶向特定基因组区域的DNA或RNA引物，以及由如引发酶的酶引发的反应。在全基因组PTA的情况下，优选使用具有随机或部分随机核苷酸序列的一组引物。在非常复杂的核酸样品中，不需要知道样品中存在的具体核酸序列，并且不需要将引物设计为与任何特定序列互补。相反，核酸样品的复杂性导致样品中大量不同的杂交靶序列，它们将与随机或部分随机序列的各种引物互补。在一些情况下，用于PTA的引物的互补部分是完全随机的，仅包括随机的部分，或是选择性地随机的。在一些情况下，例如，引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的20％至100％。在一些情况下，引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的10％至90％、15-95％、20％-100％、30％-100％、50％-100％、75-100％或90-95％。在一些情况下，引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的至少10％、20％、30％、40％、50％、60％、70％、80％或至少90％。在一些情况下，使用标准技术合成具有随机或部分随机序列的引物组，这是通过允许在每个位置随机添加任何核苷酸。在一些情况下，引物组由具有相似的长度和/或杂交特性的引物组成。在一些情况下，术语“随机引物”是指在每个位置均可表现出四倍简并性的引物。在一些情况下，术语“随机引物”是指在每个位置均可表现出三倍简并性的引物。在一些情况下，本文所述方法中使用的随机引物包括长度为3、4、5、6、7、8、10、11、12、13、14、15、16、17、18、19、20或更多个碱基的随机序列。在一些情况下，引物包括长度为3-20、5-15、5-20、6-12或4-10个碱基的随机序列。引物也可以包括不可延伸的元件，其限制产生的扩增子的后续扩增。例如，在一些情况下，具有不可延伸元件的引物包括终止子。在一些情况下，引物包括终止子核苷酸，如1、2、3、4、5、10或超过10种终止子核苷酸。引物不需要局限于从外部添加至扩增反应的组分。在一些情况下，通过添加促进引发的核苷酸和蛋白质来原位产生引物。例如，在一些情况下，将与核苷酸组合的引发酶样酶用于产生本文所述方法的随机引物。在一些情况下，引发酶样酶是DnaG或AEP酶超家族的成员。在一些情况下，引发酶样酶是TthPrimPol。在一些情况下，引发酶样酶是T7 gp4解旋酶-引发酶。在一些情况下，这些引发酶与本文所述的聚合酶或链置换因子一起使用。在一些情况下，引发酶用脱氧核糖核苷酸启动引发。在一些情况下，引发酶用核糖核苷酸启动引发。

在PTA扩增后可以选择扩增子的特定子集。在一些情况下，这种选择取决于大小、亲和力、活性、与探针的杂交或本领域中其他已知的选择因子。在一些情况下，选择在本文所述的另外步骤如衔接子连接和/或文库扩增之前或之后进行。在一些情况下，选择基于扩增子的大小(长度)。在一些情况下，选择较小的扩增子，其不太可能经历指数扩增，从而丰富了从原代模板衍生的产物，同时进一步将扩增从指数形式转化为拟线性扩增过程(图1A)。在一些情况下，选择长度为50-2000、25-5000、40-3000、50-1000、200-1000、300-1000、400-1000、400-600、600-2000或800-1000个碱基的扩增子。在一些情况下，通过使用方案来进行大小选择，例如，在羧化顺磁珠上利用固相可逆固定化(SPRI)以富集特定大小的核酸片段，或本领域技术人员已知的其他方案。任选地或组合地，选择通过在制备测序文库的同时在PCR期间优先连接和扩增较小片段来进行，也作为在测序(例如，合成测序、纳米孔测序或其他测序方法)期间优先由较小测序文库片段形成簇的结果来进行。选择较小片段的其他策略也符合本文所述的方法并且包括但不限于在凝胶电泳后分离特定大小的核酸片段，使用结合特定大小的核酸片段的硅胶柱，以及使用可以更强地富集较小片段的其他PCR策略。可以将任何数量的文库制备方案与本文所述的PTA方法一起使用。在一些情况下，文库制备包括用尿嘧啶耐受聚合酶扩增。在一些情况下，将通过PTA产生的扩增子连接至衔接子(任选地在除去终止子核苷酸的情况下)。在一些情况下，通过PTA产生的扩增子包含由基于转座酶的片段化产生的同源区域，其用作引发位点。在一些情况下，通过以机械或酶促方式片段化核酸来制备文库。在一些情况下，经由转座体使用标签化来制备文库。在一些情况下，经由衔接子，如Y-衔接子、通用衔接子或环状衔接子的连接来制备文库。PTA中使用的引物的非互补部分可以包括可用于进一步操纵和/或分析扩增序列的序列。这种序列的一个示例是“检测标签”。检测标签具有与检测探针互补的序列，并使用其同源检测探针进行检测。引物上可以有一个、两个、三个、四个或超过四个的检测标签。除引物的大小外，对引物上可能存在的检测标签的数目没有基本限制。在一些情况下，引物上只有一个检测标签。在一些情况下，引物上有两个检测标签。当有多个检测标签时，它们可以具有相同的序列，也可以具有不同的序列，每个不同的序列与不同的检测探针互补。在一些情况下，多个检测标签具有相同的序列。在一些情况下，多个检测标签具有不同的序列。

可以包括在引物的非互补部分中的序列的另一个示例是“地址标签”，所述地址标签可以编码扩增子的其他细节，如组织切片中的位置。在一些情况下，细胞条形码包括地址标签。地址标签具有与地址探针互补的序列。地址标签被并入扩增链的末端。如果存在，引物上可以有一个或多于一个地址标签。除引物的大小外，引物上可能存在的地址标签的数目没有基本限制。当有多个地址标签时，它们可以具有相同的序列，也可以具有不同的序列，每个不同的序列都与不同的地址探针互补。地址标签部分可以是支持地址标签与地址探针之间特异性且稳定的杂交的任何长度。在一些情况下，来自多于一个来源的核酸可以并入可变标签序列。该标签序列的长度可以高达100个核苷酸，优选地长度为1至10个核苷酸，最优选地为4、5或6个核苷酸，并且包括核苷酸的组合。在一些情况下，标签序列的长度为1-20、2-15、3-13、4-12、5-12或1-10个核苷酸。例如，如果选择六个碱基对形成标签并且使用四个不同核苷酸的排列，则可以制成总共4096个核酸锚(例如，发夹)，每个锚具有独特的6碱基标签。

本文所述的引物可以存在于溶液中或固定在固体支持物上。在一些情况下，带有样品条形码和/或UMI序列的引物可以固定在固体支持物上。例如，固体支持物可以是一个或多个珠。在一些情况下，使个体细胞与一个或多个具有独特的一组样品条形码和/或UMI序列的珠接触，以鉴定个体细胞。在一些情况下，将来自个体细胞的裂解物与一个或多个具有独特的一组样品条形码和/或UMI序列的珠接触，以鉴定个体细胞裂解物。在一些情况下，将来自个体细胞的提取的核酸与一个或多个具有独特的一组样品条形码和/或UMI序列的珠接触，以鉴定来自个体细胞的提取的核酸。珠可以以本领域已知的任何合适方式来操纵，例如，使用本文所述的液滴致动器。珠可以是任何合适的大小，包括例如，微珠、微粒、纳米珠和纳米颗粒。在一些实施方案中，珠是磁响应的；在其他实施方案中，珠没有明显的磁响应。合适的珠的非限制性示例包括流式细胞术微珠、聚苯乙烯微粒和纳米颗粒、官能化的聚苯乙烯微粒和纳米颗粒、包覆的聚苯乙烯微粒和纳米颗粒、二氧化硅微珠、荧光微球和纳米球、官能化的荧光微球和纳米球、包覆的荧光微球和纳米球、颜色染色微粒和纳米颗粒、磁性微粒和纳米颗粒、超顺磁性微粒和纳米颗粒(例如，可从Invitrogen Group,Carlsbad,CA获得的)、荧光微粒和纳米颗粒、包覆的磁性微粒和纳米颗粒、铁磁性微粒和纳米颗粒、包覆的铁磁性微粒和纳米颗粒，以及在美国专利申请公开号US20050260686、US20030132538、US20050118574、20050277197、20060159962中所描述的。珠可以与抗体、蛋白质或抗原、DNA/RNA探针或任何其他对所需靶标具有亲和力的分子预偶联。在一些实施方案中，带有样品条形码和/或UMI序列的引物可以在溶液中。在某些实施方案中，可以提供多个液滴，其中多个液滴中的每个液滴都具有对于液滴来说独特的样品条形码和对于分子来说独特的UMI，从而使得UMI在液滴集合内重复多次。在一些实施方案中，使个体细胞与具有独特的一组样品条形码和/或UMI序列的液滴接触，以鉴定个体细胞。在一些实施方案中，使来自个体细胞的裂解物与具有独特的一组样品条形码和/或UMI序列的液滴接触，以鉴定个体细胞裂解物。在一些实施方案中，将来自个体细胞的提取的核酸与具有独特的一组样品条形码和/或UMI序列的液滴接触，以鉴定来自个体细胞的提取的核酸。

PTA引物可以包括序列特异性或随机引物、细胞条形码和/或独特分子标识码(UMI)(参见，例如，图10A(线性引物)和图10B(发夹引物))。在一些情况下，引物包括序列特异性引物。在一些情况下，引物包括随机引物。在一些情况下，引物包括细胞条形码。在一些情况下，引物包括样品条形码。在一些情况下，引物包括独特分子标识码。在一些情况下，引物包括两个或更多个细胞条形码。在一些情况下，这些条形码鉴定独特的样品来源或独特的工作流程。在一些情况下，这些条形码或UMI的长度为5、6、7、8、9、10、11、12、15、20、25、30或超过30个碱基。在一些情况下，引物包括至少1000、10,000、50,000、100,000、250,000、500,000、10⁶、10⁷、10⁸、10⁹或至少10¹⁰个独特条形码或UMI。在一些情况下，引物包括至少8、16、96或384个独特条形码或UMI。在一些情况下，然后在测序前将标准衔接子连接至扩增产物上；测序后，首先根据细胞条形码将读段分配给特定细胞。可以与PTA方法一起利用的合适衔接子包括，例如，可从Integrated DNA Technologies(IDT)获得的DualIndex UMI衔接子。然后，使用UMI将来自每个细胞的读段分组，并将具有相同UMI的读段合并为共有读段。使用细胞条形码允许在制备文库之前合并所有细胞，因为它们之后可以通过细胞条形码鉴定。在一些情况下，使用UMI形成共有读段校正PCR偏倚，从而改善拷贝数变异(CNV)检测(图11A和图11B)。此外，可以通过要求来自同一分子的固定百分比的读段在每个位置具有相同的检测到的碱基变化来校正测序错误。这种方法已被用于改善CNV检测并校正大量样品中的测序错误。在一些情况下，UMI与本文所述的方法一起使用，例如，美国专利号8,835,358公开了在附接随机可扩增条形码后的数字计数原理。Schmitt.等人和Fan等人公开了校正测序错误的类似方法。在一些情况下，产生文库以使用引物进行测序。在一些情况下，文库包括长度为200-700个碱基、100-1000、300-800、300-550、300-700或200-800个碱基的片段。在一些情况下，文库包括长度为至少50、100、150、200、300、500、600、700、800或至少1000个碱基的片段。在一些情况下，文库包括长度为约50、100、150、200、300、500、600、700、800或约1000个碱基的片段。

本文所述的方法还可以包括另外的步骤，包括对样品或模板进行的步骤。在一些情况下，这些样品或模板在PTA之前要经过一个或多个步骤。在一些情况下，对包括细胞的样品进行预处理步骤。例如，使用冻融、Triton X-100、Tween 20和蛋白酶K的组合对细胞进行裂解和蛋白水解，以增加染色质的可及性。其他裂解策略也适用于实施本文所述的方法。这些策略包括但不限于使用洗涤剂和/或溶菌酶和/或蛋白酶处理，以及/或细胞物理破坏如超声和/或碱裂解和/或低渗裂解的其他组合进行裂解。在一些情况下，对原代模板或一种或多种靶分子进行预处理步骤。在一些情况下，使用氢氧化钠使原代模板(或靶标)变性，然后中和溶液。其他变性策略也可适用于实施本文所述的方法。这些策略可以包括但不限于将碱裂解与其他碱性溶液组合，提高样品温度和/或改变样品中的盐浓度，添加添加剂如溶剂或油，其他修饰或其任何组合。在一些情况下，另外的步骤包括按大小对样品、模板或扩增子进行分类、过滤或分离。在一些情况下，将细胞用机械(例如，高压均化器、珠研磨)或非机械(物理、化学或生物)裂解。在一些情况下，物理裂解方法包括加热、渗透压休克和/或空化。在一些情况下，化学裂解包括碱和/或洗涤剂。在一些情况下，生物裂解包括使用酶。裂解方法的组合也与本文所述的方法相容。裂解酶的非限制示例包括重组溶菌酶、丝氨酸蛋白酶和细菌溶素。在一些情况下，用酶的裂解包括使用溶菌酶、溶葡球菌酶、消解酶、纤维素、蛋白酶或聚糖酶。例如，在用本文所述的方法扩增后，扩增子文库富集具有期望长度的扩增子。在一些情况下，扩增子文库富含长度为50-2000、25-1000、50-1000、75-2000、100-3000、150-500、75-250、170-500、100-500或75-2000个碱基的扩增子。在一些情况下，扩增子文库富含长度不超过75、100、150、200、500、750、1000、2000、5000或不超过10,000个碱基的扩增子。在一些情况下，扩增子文库富含长度为至少25、50、75、100、150、200、500、750、1000或至少2000个碱基的扩增子。

本文所述的方法和组合物可包括缓冲剂或其他制剂。在一些情况下，此类缓冲剂用于PTA、RT或本文所述的其他方法。在一些情况下，这些缓冲剂包括表面活性剂/洗涤剂或变性剂(Tween-20、DMSO、DMF，包括疏水基团的聚乙二醇化聚合物或其他表面活性剂)、盐(磷酸钾或磷酸钠(一元或二元)、氯化钠、氯化钾)、TrisHCl、氯化镁或硫酸镁、铵盐，如磷酸盐、硝酸盐或硫酸盐、EDTA)、还原剂(DTT、THP、DTE、β-巯基乙醇、TCEP或其他还原剂)或其他组分(甘油、亲水性聚合物，如PEG)。在一些情况下，将缓冲剂与如聚合酶、链置换因子、终止子或本文所述的其他反应组分等组分结合使用。在一些情况下，将缓冲剂与如聚合酶、链置换因子、终止子或本文所述的其他反应组分等组分结合使用。缓冲剂可以包含一种或多种拥挤剂。在一些情况下，拥挤试剂包括聚合物。在一些情况下，拥挤试剂包括聚合物如多元醇。在一些情况下，拥挤试剂包括聚乙二醇聚合物(PEG)。在一些情况下，拥挤试剂包括多糖。非限制地，拥挤试剂的示例包括ficoll(例如，ficoll PM 400、ficoll PM 70或其他分子量ficoll)、PEG(例如，PEG1000、PEG 2000、PEG4000、PEG6000、PEG8000或其他分子量PEG)、右旋糖酐(右旋糖酐6、右旋糖酐10、右旋糖酐40、右旋糖酐70、右旋糖酐6000、右旋糖酐138k或其他分子量右旋糖酐)。

根据本文所述的方法扩增(例如，通过尿嘧啶耐受聚合酶)的核酸分子可以使用本领域的技术人员已知的方法进行测序和分析。在一些情况下，使用的测序方法的非限制性示例包括，例如，杂交测序(SBH)、连接测序(SBL)(Shendure等人(2005)Science 309:1728)、定量增量荧光核苷酸添加测序(QIFNAS)、逐步连接和切割、荧光共振能量转移(FRET)、分子信标、TaqMan报告基因探针消化、焦磷酸测序、荧光原位测序(FISSEQ)、FISSEQ珠(美国专利号7,425,431)、摆动测序(国际专利申请公开号WO2006/073504)、多重测序(美国专利申请公开号US2008/0269068；Porreca等人,2007,Nat.Methods4:931)、聚合克隆(POLONY)测序(美国专利号6,432,360、6,485,944和6,511,803，以及国际专利申请公开号WO2005/082098)、纳米网格滚环测序(ROLONY)(美国专利号9,624,538)、等位基因特异性寡核苷酸连接测定(例如，寡核苷酸连接测定(OLA)，使用连接的线性探针和滚环扩增(RCA)读出的单模板分子OLA，连接的挂锁探针和/或使用连接的圆形挂锁探针和滚环扩增(RCA)读出的单模板分子OLA)、高通量测序方法，例如像，使用Roche 454、Illumina Solexa、AB-SOLiD、Helicos、Polonator平台等的方法，以及基于光的测序技术(Landegren等人(1998)Genome Res.8:769-76；Kwok(2000)Pharmacogenomics 1:95-100；以及Shi(2001)Clin.Chem.47:164-172)。在一些情况下，将扩增的核酸分子进行鸟枪法测序。在一些情况下，测序文库的测序用任何适当的测序技术进行，所述测序技术包括但不限于单分子实时(SMRT)测序、Polony测序、连接测序、可逆终止子测序、质子检测测序、离子半导体测序、纳米孔测序、电子测序、焦磷酸测序、Maxam-Gilbert测序、链终止(例如，Sanger)测序、+S序列或合成测序(基于阵列/集落基或基于纳米球)。

可以对使用本文所述的方法(例如，PTA或RNAseq)产生的测序文库进行测序以获得所需数目的测序读段。在一些情况下，从单细胞或包含单细胞的样品产生文库(单独或多组学工作流程的一部分)。在一些情况下，对文库进行测序以获得至少0.1、0.2、0.4、0.5、0.7、0.8、0.9、1、1.1、1.2、1.5、2、5或至少10百万个读段。在一些情况下，对文库进行测序以获得不超过0.1、0.2、0.4、0.5、0.7、0.8、0.9、1、1.1、1.2、1.5、2、5或不超过10百万个读段。在一些情况下，对文库进行测序以获得约0.1、0.2、0.4、0.5、0.7、0.8、0.9、1、1.1、1.2、1.5、2、5或约10百万个读段。在一些情况下，对文库进行测序以每样品获得0.1-10、0.1-5、0.1-1、0.2-1、0.3-1.5、0.5-1、1-5或0.5-5百万个读段。在一些情况下，读段数目取决于基因组的大小。在一些情况下，对包含细菌基因组的样品进行测序以获得0.5-1百万个读段。在一些情况下，对文库进行测序以获得至少2、4、10、20、50、100、200、300、500、700或至少900百万个读段。在一些情况下，对文库进行测序以获得不超过2、4、10、20、50、100、200、300、500、700或不超过900百万个读段。在一些情况下，对文库进行测序以获得约2、4、10、20、50、100、200、300、500、700或约900百万个读段。在一些情况下，对包含哺乳动物基因组的样品进行测序以获得500-600百万个读段。在一些情况下，在测序期间鉴定测序文库的类型(cDNA文库或基因组文库)。在一些情况下，在测序期间用独特的条形码鉴定cDNA文库和基因组文库。

当关于聚合酶介导的扩增反应使用时，术语“循环”在本文中用于描述以下步骤：双链核酸(例如，来自扩增子的模板、或双链模板)的至少一部分的解离(变性)、引物的至少一部分与模板的杂交(退火)和引物的延伸以产生扩增子。在一些情况下，在扩增循环期间温度保持恒定(例如，等温反应)。在一些情况下，循环数与产生的扩增子数直接相关。在一些情况下，等温反应的循环数通过使反应进行的时间量控制。

方法和应用

本文描述了用多组学分析PTA方法如单细胞鉴定细胞中的突变的方法。在一些情况下使用PTA方法会导致对已知方法(例如，MDA)的改进。在一些情况下，与MDA方法相比，PTA的假阳性和假阴性变体判定率较低。在一些情况下，将基因组，如NA12878铂基因组，用于确定PTA的更大的基因组覆盖和均匀性是否会导致较低的假阴性变体判定率。不受理论的约束，可以确定PTA中错误传播的缺失降低了假阳性变体判定率。在一些情况下，通过比较已知阳性基因座处杂合突变判定的等位基因频率来估算用这两种方法在等位基因之间的扩增平衡。在一些情况下，通过PCR进一步扩增使用PTA产生的扩增子文库。在一些情况下，将PTA与另外的分析方法，如RNAseq、甲基化组分析或本文所述的其他方法一起用于工作流程中。

在一些情况下，使用本文所述的方法分析的细胞包括肿瘤细胞。例如，循环肿瘤细胞可以从取自患者的体液中分离，如但不限于血液、骨髓、尿液、唾液、脑髓液、胸膜液、心包液、腹水或房水。然后，使细胞经历本文所述的方法(例如，PTA)并测序，以确定每个细胞的突变负荷和突变组合。在一些情况下，这些数据用于诊断特定疾病或用作预测治疗应答的工具。类似地，在一些情况下，恶性潜能未知的细胞是从取自患者的体液中分离的，所述体液如但不限于血液、骨髓、尿液、唾液、脑髓液、胸膜液、心包液、腹水、房水、囊胚腔液或培养中细胞周围的收集培养基。在一些情况下，样品从胚细胞周围的收集培养基获得。在利用本文所述的方法和测序后，这些方法还用于确定每个细胞的突变负荷和突变组合。在一些情况下，这些数据用于诊断特定疾病或用作预测恶性前状态发展为显性恶性肿瘤的工具。在一些情况下，可以从原发性肿瘤样品中分离细胞。然后，细胞可以进行PTA和测序，以确定每个细胞的突变负荷和突变组合。这些数据可以用于诊断特定疾病或用作预测患者恶性肿瘤对可用抗癌药物的抗药性的工具。通过将样品暴露于不同的化疗药物，已发现主要和次要克隆对特定药物具有不同的敏感性，这些敏感性不一定与已知的“驱动突变”的存在相关，这表明克隆种群中的突变组合决定了它对特定化疗药物的敏感性。不受理论的约束，这些发现表明，如果检测到尚未扩展并且可演化为基因组修饰数目增加的克隆而使其更有可能对治疗产生抗性的癌前病变，则可能更容易根除该恶性肿瘤。参见，Ma等人,2018,“Pan-cancer genome and transcriptome analyses of 1,699pediatric leukemias andsolid tumors”。在一些情况下，单细胞基因组学方案用于检测从患者样品中分离的正常和恶性细胞混合物内的单个癌细胞或克隆型中的体细胞遗传变体组合。在一些情况下，该技术还用于鉴定在体外和/或患者体内暴露于药物后经历阳性选择的克隆型。通过比较暴露于化疗的存活克隆与诊断时鉴定的克隆，可以创建癌症克隆型目录，所述目录记录它们对特定药物的抗性。在一些情况下，PTA方法检测由多种克隆型组成的样品中的特定克隆对现有药物或新药及其组合的敏感性，其中该方法可以检测特定克隆对药物的敏感性。在一些情况下，这种方法显示了药物对特定克隆的功效，而当前的药物敏感性测量在一次测量中考虑了所有癌症克隆的敏感性，因此可能无法检测到这种功效。当将本文所述的PTA应用于诊断时收集的患者样品以检测给定患者癌症中的癌症克隆型时，可以随后使用药物敏感性目录来查找这些克隆，从而告知肿瘤学家哪种药物或药物组合无效，哪种药物或药物组合最有可能对患者的癌症有效。PTA可用于分析包含成群细胞的样品。在一些情况下，样品包含神经元或神经胶质细胞。在一些情况下，样品包含核。

本文描述了测量与环境因子致突变性组合时的基因表达改变的方法。例如，细胞(单细胞或细胞群体)暴露于潜在的环境条件。例如，在一些情况下，该方法使用如源自器官(肝脏、胰腺、肺、结肠、甲状腺或其他器官)、组织(皮肤或其他组织)、血液或其他生物来源的细胞。在一些情况下，环境条件包括热、光(例如，紫外线)、辐射、化学物质或其任何组合。在一定量的环境条件暴露后，在一些情况下，这是几分钟、几小时、几天或更长时间，分离出单细胞并进行PTA方法。在一些情况下，分子条形码和独特分子标识码用于标记样品。对样品进行测序，然后进行分析，以鉴定基因表达改变和或暴露于环境条件所导致的突变。在一些情况下，将这种突变与对照环境条件进行比较，如已知的非诱变物质、媒介物/溶剂或缺乏环境条件。在一些情况下，这种分析不仅提供了由环境条件引起的突变总数，而且还提供了这种突变的位置和性质。在一些情况下，模式从数据中鉴定，并且可以用于诊断疾病或病症。在一些情况下，模式用于预测未来的疾病状态或病症。在一些情况下，本文所述的方法测量在暴露于环境药剂，例如，潜在的诱变剂或致畸剂后细胞的突变负荷、位置和模式。在一些情况下，该方法用于评估给定药剂的安全性，包括其诱发可能导致疾病发展的突变的可能性。例如，该方法可用于预测暴露于特定浓度的特定药剂后该药剂对特定细胞类型的致癌性或致畸性。

本文描述了鉴定与已经历基因组编辑(例如，使用CRISPR技术)的动物、植物或微生物细胞中的突变组合时的基因表达改变的方法。在一些情况下，可以将这些细胞分离并进行PTA和测序，以确定每个细胞的突变负荷和突变组合。在一些情况下，将由基因组编辑方案产生的每细胞突变率和突变位置用于评估给定基因组编辑方法的安全性。

本文描述了确定与用于细胞疗法的细胞中的突变组合时的基因表达改变的方法，所述细胞疗法如但不限于诱导多能干细胞的移植、尚未被操纵的造血细胞或其他细胞的移植、或经过基因组编辑的造血细胞或其他细胞的移植。然后，细胞可以进行PTA和测序，以确定每个细胞的突变负荷和突变组合。细胞疗法产品中的每细胞突变率和突变位置可用于评估产品的安全性和潜在功效。

用于与PTA方法一起使用的细胞可以是胎儿细胞，如胚细胞。在一些实施方案中，将PTA与非侵入性植入前选遗传学测试(NIPGT)结合使用。在另一个实施方案中，细胞可以从体外受精产生的卵裂球分离。然后，细胞可以经历PTA和测序，以确定每个细胞中潜在疾病易感遗传变体的负荷和组合。然后，可以将细胞的基因表达改变与突变谱的组合用于在植入前推断卵裂球对特定疾病的遗传易感性。在一些情况下，培养中的胚胎脱落核酸，将所述核酸用于使用低通量基因组测序评估胚胎的健康状态。在一些情况下，将胚胎冷冻解冻。在一些情况下，核酸从胚细胞培养条件培养基(BCCM)、囊胚腔液(BF)或其组合获得。在一些情况下，使用胎儿细胞的PTA分析来检测染色体畸变，如胎儿非整倍体。在一些情况下，使用PTA来检测如唐氏(Down's)或帕陶(Patau)综合征的疾病。在一些情况下，在获得用于分析的核酸(例如，培养基、BF或细胞活检)之前，将冷冻胚细胞解冻并培养一段时间。在一些情况下，在获得用于分析的核酸之前，将胚细胞培养不超过4、6、8、12、16、24、36、48小时或不超过64小时。

在另一个实施方案中，微生物细胞(例如，细菌、真菌、原生动物)可以从植物或动物(例如，微生物群样品[例如，GI微生物群、皮肤微生物群等]或体液，例如，血液、骨髓、尿液、唾液、脑脊液、胸膜液、心包液、腹水或房水)分离。此外，微生物细胞可以从留置的医疗装置分离，如但不限于，静脉导管、导尿管、脑脊髓分流器、假体瓣膜、人工关节或气管导管。然后，细胞可以经历PTA和测序，以确定特定微生物的身份，并检测预测对特定抗菌剂的应答(或抗性)的微生物遗传变体的存在。这些数据可用于诊断特定的传染病和/或用作预测治疗应答的工具。

本文描述了使用本文所述的PTA方法从包含短核酸的样品产生扩增子文库的方法。在一些情况下，PTA可以提高短核酸扩增的保真度和均匀性。在一些情况下，核酸的长度不超过2000个碱基。在一些情况下，核酸的长度不超过1000个碱基。在一些情况下，核酸的长度不超过500个碱基。在一些情况下，核酸的长度不超过200、400、750、1000、2000或5000个碱基。在一些情况下，包括短核酸片段的样品包括但不限于古DNA(年龄为数百年、数千年、数百万甚至数十亿年)、FFPE(福尔马林固定的石蜡包埋的)样品、无细胞DNA或其他包括短核酸的样品。

本文描述了扩增靶核酸分子的方法，所述方法包括：a)使包括靶核酸分子的样品，一种或多种扩增引物，核酸聚合酶以及包含一种或多种终止子核苷酸的核苷酸混合物接触，所述终止子核苷酸终止通过聚合酶的核酸复制，以及b)在促进靶核酸分子复制的条件下孵育样品，以获得多个终止的扩增产物，其中复制通过链置换复制进行。在上述任何方法的一个实施方案中，该方法还包括从多个终止的扩增产物中分离长度为约50至约2000个核苷酸的产物。在上述任何方法的一个实施方案中，该方法还包括从多个终止的扩增产物中分离长度为约400至约600个核苷酸的产物。在上述任何方法的一个实施方案中，所述方法还包括：c)修复末端和加A-尾，以及d)将步骤(c)中获得的分子连接至衔接子，从而产生扩增产物文库。在一些实施方案中，所述方法还包括从终止的扩增产物中除去终止子核苷酸。在上述任何方法的一个实施方案中，该方法还包括对扩增产物进行测序。在上述任何方法的一个实施方案中，扩增在基本等温的条件下进行。在上述任何方法的一个实施方案中，核酸聚合酶是DNA聚合酶。

在上述任何方法的一个实施方案中，DNA聚合酶是链置换DNA聚合酶。在上述任何方法的一个实施方案中，核酸聚合酶选自噬菌体phi29(Φ29)聚合酶、基因修饰的phi29(Φ29)DNA聚合酶、DNA聚合酶I的Klenow片段、噬菌体M2 DNA聚合酶、噬菌体phiPRD1 DNA聚合酶、Bst DNA聚合酶、Bst大片段DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、BsuDNA聚合酶、Vent_R DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent DNA聚合酶、Deep Vent(exo-)DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶、测序酶、T7 DNA聚合酶、T7-测序酶和T4DNA聚合酶。在上述任何方法的一个实施方案中，核酸聚合酶具有3’->5’核酸外切酶活性，并且终止子核苷酸抑制这种3’->5’核酸外切酶活性。在一个特定的实施方案中，终止子核苷酸选自带有α基团修饰的核苷酸(例如，产生硫代磷酸酯键的α-硫代双脱氧核苷酸)、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟核苷酸、3’磷酸化核苷酸、2’-O-甲基修饰核苷酸和反式核酸。在上述任何方法的一个实施方案中，核酸聚合酶不具有3’->5’核酸外切酶活性。在一个特定的实施方案中，聚合酶选自Bst DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶和Therminator DNA聚合酶。在一个特定的实施方案中，终止子核苷酸包括脱氧核糖的3’碳的r基团的修饰。在一个特定的实施方案中，终止子核苷酸选自包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子及其组合。在一个特定的实施方案中，终止子核苷酸选自双脱氧核苷酸、反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-O-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。在上述任何方法的一个实施方案中，扩增引物的长度为4至70个核苷酸。在上述任何方法的一个实施方案中，扩增产物的长度为约50至约2000个核苷酸。在上述任何方法的一个实施方案中，靶核酸是DNA(例如，cDNA或基因组DNA)。在上述任何方法的一个实施方案中，扩增引物是随机引物。在上述任何方法的一个实施方案中，扩增引物包括条形码。在一个特定实施方案中，条形码包括细胞条形码。在一个特定实施方案中，条形码包括样品条形码。在上述任何方法的一个实施方案中，扩增引物包括独特分子标识码(UMI)。在上述任何方法的一个实施方案中，该方法包括在初始引物退火之前使靶核酸或基因组DNA变性。在一个特定的实施方案中，变性在碱性条件下进行，然后中和。在上述任何方法的一个实施方案中，样品、扩增引物、核酸聚合酶和核苷酸混合物包含在微流体装置中。在上述任何方法的一个实施方案中，样品、扩增引物、核酸聚合酶和核苷酸混合物包含在液滴中。在上述任何方法的一个实施方案中，样品选自组织样品、细胞、生物流体样品(例如，血液、尿液、唾液、淋巴液、脑脊液(CSF)、羊水、胸膜液、心包液、腹水、房水)、骨髓样品、精液样品、活检样品、癌症样品、肿瘤样品、细胞裂解物样品、法医样品、考古样品、古生物样品、感染样品、生产样品、整株植物、植物部分、微生物群样品、病毒制剂、土壤样品、海洋样品、淡水样品、家庭或工业样品，及其组合和分离物。在上述任何方法的一个实施方案中，样品是细胞(例如，动物细胞[例如，人类细胞]、植物细胞、真菌细胞、细菌细胞和原生动物细胞)。在一个特定的实施方案中，细胞在复制之前裂解。在一个特定的实施方案中，细胞裂解伴随蛋白水解。在一个特定的实施方案中，该细胞选自来自植入前胚胎的细胞、干细胞、胎儿细胞、肿瘤细胞、疑似癌细胞、癌细胞、经过基因编辑程序的细胞、来自致病生物的细胞、从法医样品获得的细胞、从考古样品获得的细胞和从古生物样品获得的细胞。在上述任何方法的一个实施方案中，样品是来自植入前胚胎(例如卵裂球[例如，通过体外受精产生的八细胞期胚胎获得的卵裂球])的细胞。在一个特定的实施方案中，该方法还包括确定在胚胎细胞中疾病易感种系或体细胞变体的存在。在上述任何方法的一个实施方案中，样品是来自致病生物(例如，细菌、真菌、原生动物)的细胞。在一个特定的实施方案中，致病生物细胞从取自患者的体液、微生物群样品(例如GI微生物群样品、阴道微生物群样品、皮肤微生物群样品等)或留置医疗装置(例如，静脉导管、导尿管、脑脊髓分流器、假体瓣膜、人工关节、气管导管等)获得的。在一个特定的实施方案中，该方法还包括确定致病生物的身份的步骤。在一个特定的实施方案中，该方法还包括确定导致致病生物对治疗有抗性的遗传变体的存在。在上述任何方法的一个实施方案中，样品是肿瘤细胞、疑似癌细胞或癌细胞。在一个特定的实施方案中，该方法还包括确定一种或多种诊断或预后突变的存在。在一个特定的实施方案中，该方法还包括确定导致对治疗有抗性的种系或体细胞变体的存在。在上述任何方法的一个实施方案中，样品是经过基因编辑程序的细胞。在一个特定的实施方案中，该方法还包括确定由基因编辑过程引起的计划外突变的存在。在上述任何方法的一个实施方案中，该方法还包括确定细胞谱系历史。在相关方面，本发明提供了上述任何方法在鉴定低频序列变体(例如，构成总序列的≥0.01％的变体)中的用途。

在相关方面，本发明提供了包含核酸聚合酶、一种或多种扩增引物、包括一种或多种终止子核苷酸的核苷酸混合物以及任选的使用说明的试剂盒。在本发明试剂盒的一个实施方案中，核酸聚合酶是链置换DNA聚合酶。在本发明试剂盒的一个实施方案中，核酸聚合酶选自噬菌体phi29(Φ29)聚合酶、基因修饰的phi29(Φ29)DNA聚合酶、DNA聚合酶I的Klenow片段、噬菌体M2 DNA聚合酶、噬菌体phiPRD1 DNA聚合酶、Bst DNA聚合酶、Bst大片段DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、Vent_R DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent DNA聚合酶、Deep Vent(exo-)DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶、测序酶、T7 DNA聚合酶、T7-测序酶和T4 DNA聚合酶。在本发明试剂盒的一个实施方案中，核酸聚合酶具有3’->5’核酸外切酶活性，并且终止子核苷酸抑制这种3’->5’核酸外切酶活性(例如，带有α基团修饰的核苷酸[例如，α-硫代双脱氧核苷酸]、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟核苷酸、3’磷酸化核苷酸、2’-O-甲基修饰的核苷酸、反式核酸)。在本发明试剂盒的一个实施方案中，核酸聚合酶不具有3’->5’核酸外切酶活性(例如，Bst DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶、Therminator DNA聚合酶)。在一个特定的实施方案中，终止子核苷酸包括脱氧核糖的3’碳的r基团的修饰。在一个特定的实施方案中，终止子核苷酸选自包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子及其组合。在一个特定的实施方案中，终止子核苷酸选自双脱氧核苷酸、反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-O-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。

本文描述了扩增基因组的方法，所述方法包括：a)使包含基因组的样品、多种扩增引物(例如，两种或更多种引物)、核酸聚合酶以及包含一种或多种终止子核苷酸的核苷酸混合物接触，所述终止子核苷酸终止聚合酶的核酸复制，和b)在促进基因组复制的条件下孵育样品，以获得多个终止的扩增产物，其中复制通过链置换复制进行。在上述任何方法的一个实施方案中，该方法还包括从多个终止的扩增产物中分离长度为约50至约2000个核苷酸的产物。在上述任何方法的一个实施方案中，该方法还包括从多个终止的扩增产物中分离长度为约400至约600个核苷酸的产物。在上述任何方法的一个实施方案中，所述方法还包括：c)修复末端和加A-尾，以及d)将步骤(c)中获得的分子连接至衔接子，从而产生扩增产物文库。在上述任何方法的一个实施方案中，该方法还包括对扩增产物进行测序。在上述任何方法的一个实施方案中，扩增在基本等温的条件下进行。在上述任何方法的一个实施方案中，核酸聚合酶是DNA聚合酶。

在相关方面，本发明提供了包含逆转录酶、核酸聚合酶、一种或多种扩增引物、包含一种或多种终止子核苷酸的核苷酸混合物以及任选的使用说明的试剂盒。在本发明试剂盒的一个实施方案中，核酸聚合酶是链置换DNA聚合酶。在一些情况下，逆转录酶进行模板切换。在一些情况下，逆转录酶是MMLV(莫洛尼鼠类白血病病毒)、HIV-1、AMV(禽成髓细胞瘤病毒)、端粒酶RT、FIV(猫类免疫缺陷病毒)或XMRV(嗜异性鼠类白血病病毒相关病毒)的变体。逆转录酶的非限制性示例包括SuperScript I(Thermo)、SuperScript II(Thermo)、SuperScript III(Thermo)、SuperScript IV(Thermo)、OmniScript(Qiagen)、SensiScript(Qiagen)、PrimeScript(Takara)、Maxima H-(Thermo)、AcuuScript Hi-Fi(Agilent)、iScript(Bio-Rad)、eAMV(Merck KGaA)、qScript(Quanta Biosciences)、SmartScribe(Clontech)或GoScript(Promega)。在一些实施方案中，试剂盒包含dNTP和尿嘧啶。在本发明试剂盒的一个实施方案中，核酸聚合酶选自噬菌体phi29(Φ29)聚合酶、基因修饰的phi29(Φ29)DNA聚合酶、DNA聚合酶I的Klenow片段、噬菌体M2 DNA聚合酶、噬菌体phiPRD1DNA聚合酶、Bst DNA聚合酶、Bst大片段DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、Vent_R DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent DNA聚合酶、DeepVent(exo-)DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶、测序酶、T7 DNA聚合酶、T7-测序酶和T4DNA聚合酶。在本发明试剂盒的一个实施方案中，核酸聚合酶具有3’->5’核酸外切酶活性，并且终止子核苷酸抑制这种3’->5’核酸外切酶活性(例如，带有α基团修饰的核苷酸[例如，α-硫代双脱氧核苷酸]、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟核苷酸、3’磷酸化核苷酸、2’-O-甲基修饰的核苷酸、反式核酸)。在本发明试剂盒的一个实施方案中，核酸聚合酶不具有3’->5’核酸外切酶活性(例如，Bst DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、Vent_R(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶、Therminator DNA聚合酶)。在一个特定的实施方案中，终止子核苷酸包括脱氧核糖的3’碳的r基团的修饰。在一个特定的实施方案中，终止子核苷酸选自包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子及其组合。在一个特定的实施方案中，终止子核苷酸选自双脱氧核苷酸、反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-O-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。在一些情况下，试剂盒包含至少一种酶稳定剂、中和缓冲剂、变性缓冲剂或其组合。在一些情况下，试剂盒包含一个或多个模块。在一些情况下，试剂盒包含基因组模块和转录物组模块。

本文所述的方法(例如，PTA多组学)可以包括染色质分析。在一些情况下，染色质分析包括染色质可及性分析(映射)。在一些情况下，染色质分析包括ATAC、mChIP、ChiP-MS、ChroP、HiC或其他染色质分析方法。在一些情况下，测量染色质可及性的方法包括使用如Tn5的转座酶(参见，Buenrostro等人,Curr Protoc Mol Biol.2015；109:21.29.1-21.29-9)。在一些情况下，将染色质结合的基因组DNA用转座酶处理以产生片段。在一些情况下，PTA扩增是在转座酶片段化的基因组DNA上进行的。在一些情况下，此类方法与其他多组学分析(如转录组、甲基化组、蛋白质组或本文所述的其他技术)组合。在一些情况下，染色质分析包括在用转座酶或其他片段化方法(例如，超声波处理、消化)片段化之前，对染色质结合的基因组DNA进行交联(例如，甲醛)。

实施例

提出以下实施例以更清楚地向本领域技术人员说明本文公开的实施方案的原理和实践，并且不应被解释为限制任何要求保护的实施方案的范围。除非另有说明，否则所有份数和百分比均以重量计。

实施例1：多组学工作流程的设计与执行

概述

在缺乏关于变异的转录结果的信息的情况下发现基因组变异，或者相反，在不了解潜在的基因组贡献的情况下发现转录特征，阻碍了对疾病的分子机制的理解。为了评估这种基因组和转录组协调，开发了一种多组学方法，以从个体细胞中提取该信息。所述工作流程将模板切换全转录RNA-Seq化学和全基因组扩增(WGA)统一起来，随后对第一链cDNA进行亲和纯化且随后分离RNA/DNA级分用于测序文库制备。在多组学方法中，利用原代模板定向扩增(PTA)的属性能够准确评估作为DNA特征的单核苷酸变异(这是其他工作流程无法实现的)以评估同一细胞中的DNA+RNA信息。

设计并执行单细胞转录组和基因组扩增的单孔整合，其中在单细胞基因组扩增之前将标准PTA反应修改为包括逆转录(RT)步骤，并指定为多组学富集(ResolveOME，Bioskryb Genomics,Inc.)。在该工作流程中，PTA在单孔反应中RT反应结束后立即扩增单细胞的基因组。使用基于模板切换的逆转录，产生了带条形码的第一链cDNA分子，在RNA-Seq测序文库产生之前对其进行亲和纯化和预扩增。组合扩增反应的最终结果是主要来源于细胞质转录物的生物素标记的cDNA池，可用于链霉亲和素纯化，以及来自单细胞的经扩增基因组物质的池。在替代实施方案中，具有附接的RT引物的磁珠可以用于直接去除cDNA扩增子文库。在基因组扩增反应结束时，将cDNA级分与经扩增的基因组物质分离，从而产生来自每个池的文库。所得测序数据提供了在单细胞分辨率下定义基因组和转录组可塑性两者的能力。具体地，同种型表达的描述，组合注释同一细胞的基因组潜在结构变异和单核苷酸变化的能力(图1A)，允许评估基因组“外显率”，并定义驱动单细胞命运的机制。

先前的多组学努力开创了将来自同一单细胞的基因组和转录组信息配对，但具有不完全基因组覆盖和相关的覆盖不均匀性的主要缺点——留下未覆盖的基因组谷，这些谷可能隐藏着仍未被检测到的有害的单核苷酸变体。事实上，多重置换扩增(MDA)驱动G&T-seq的基因组扩增，并且DR-Seq具有与MALBAC可比较的基因组扩增均匀性，这两者在基因组覆盖率、等位基因平衡和SNV判定度量方面都优于PTA。在一个示例中，利用G&T-seq完成了原代患者样品中SNV/CNV水平的克隆进化的定义，但限于外显子组水平数据的候选基因调查，由此由59个癌基因定义的簇和另一个采用G&T-seq的研究将其分析限于所述方法的RNA工作流程，以利用低输入要求，而不评估基因组水平数据。因此，本文解决的是在联合DNA/RNA单细胞方法中添加全基因组、高灵敏度和高精确度SNV判定能力的未满足需求。此外，这些测量的重要性得到了证明，由此单核苷酸变异从根本上影响了细胞状态和肿瘤进展。

本文提供了这些统一的“-组学”层的效用，突出了单细胞中的异质性基因组变异和相应的表型改变，这两者都与急性髓性白血病细胞系模型中对靶向治疗的抗性的发展和原代乳腺癌细胞中的致癌机制有关，由此获得的见解不能单独通过单个数据集(基因组或转录组)推断。

RNA+DNA多组学工作流程的扩增产物产量

在证明本文所述的多组学方法的生物学效用之前，在细胞系药物抗性模型和原代患者样品中，使用基准细胞系1000基因组细胞系NA12878检查了所述方法的技术性能。首先使用来自模板切换RNA-Seq化学或PTA化学的度量单独评估所述方案的RNA和DNA臂，以与组合多组学方案中化学统一时的度量进行比较。

使用图1A所示的工作流程，用纯化的总NA12878 RNA或基因组DNA作为扩增对照，产生FACS分选的NA12878单细胞的多组学数据。来自统一方案的PTA产物和cDNA产物的产量效率在图1B中示出。获得了大约1-1.5μg来自单细胞基因组的DNA扩增产物和大约100-200ng代表单细胞转录组的cDNA产物。重要的是，无模板对照(NTC)反应显示缺乏可检测的产物，并且此外，使用Qubit荧光计(ThermoFisher)从对照RNA输入中得到的DNA级分的产量可以忽略不计(<50ng)。由于已知在没有mRNA模板的情况下逆转录酶的混杂性，观察到cDNA级分中基因组DNA对照输入的低水平背景扩增。相比之下，这种背景扩增不会发生在与单细胞的反应中，因为在多组学的逆转录工作流程中，基因组物质被隔离在未裂解的核中。

PTA修饰

修饰PTA方法以用于多组学工作流程(图15A-15D)。在逆转录完成后，在phi29扩增期间，将dUTP添加至正常核苷酸混合物(dATP、dCTP、dGTP、dTTP)中(红点)，导致源自原始单细胞或低输入模板DNA的PTA扩增产物被dUTP“标记”(图15A)。在亲和纯化和洗涤cDNA后，在珠子上进行UDG孵育步骤，以在cDNA预扩增之前消化背景dUTP标记的PTA产物(绿点)。对于文库制备，cDNA文库利用了正常的高保真聚合酶，然而，代表多组学工作流程的DNA臂的PTA衍生文库使用了尿嘧啶耐受聚合酶，以便扩增含尿嘧啶的PTA产物的文库连接产物(黄点)。UDG处理后，检测到的经表达基因的数量减少；这表明在没有UDG处理的情况下，转录物计数可能被DNA(PTA)背景所复合。UDG方案下基因间读段背景去除的IGV可视化(700kb区域，含有3个基因)(图15C)。每一行是一个单细胞(NA12878)多组学RNA级分文库。当PTA在缺乏dUTP的情况下进行时，在前两个对照RNA文库中看到DNA背景读段，并且随着PTA过程中加入更多的dUTP，这些背景读段逐渐减少。核苷酸比率为1:1的dUTP:dTTP；仅含dUTP而不含dTTP的PTA反应在动力学上较慢。PTA反应(C)中dUTP增加的DNA背景去除益处没有不利地影响等位基因平衡(图15D)和SNV判定精确度和灵敏度度量(图15E)。

试剂可以与本文所述的方法和组合物一起使用，以鉴定

一些聚合酶在扩增包含尿嘧啶的模板时停滞或效率降低。尿嘧啶耐受聚合酶可以与本文所述的方法一起使用，以扩增含尿嘧啶的模板(例如，用PTA)。在一些情况下，与不含尿嘧啶的模板相比，尿嘧啶耐受聚合酶在扩增包含尿嘧啶的模板时保持至少50％、60％、70％、80％、85％、90％、95％、97％或99％聚合酶活性。在一些情况下，尿嘧啶耐受聚合酶来源于古菌、酵母或细菌物种。在一些情况下，尿嘧啶耐受聚合酶包括来自酿酒酵母的DNA聚合酶ε和δ，以及大肠杆菌DNA聚合酶III、PolA型聚合酶，如Taq、KAPA HiFi尿嘧啶+DNA聚合酶(Kapa biosystems，Q5U)、KOD Multi&Epi DNA聚合酶、FastStart Taq(Roche)、Taq2000(Agilent Technologies)、FailSafe酶(Epicenter)或Thermo PhusionU。在一些情况下，尿嘧啶耐受聚合酶包括与来自酿酒酵母的DNA聚合酶ε和δ，以及大肠杆菌DNA聚合酶III、PolA型聚合酶，如Taq、KAPA HiFi尿嘧啶+DNA聚合酶(Kapa biosystems，Q5U)、KOD Multi&EpiDNA聚合酶、FastStart Taq(Roche)、Taq2000(Agilent Technologies)、FailSafe酶(Epicenter)或Thermo PhusionU具有至少70％、75％、80％、85％、90％、95％、97％或99％同一性的序列。在一些情况下，尿嘧啶耐受聚合酶包含对dUTP结合袋中一个或多个氨基酸残基的修饰。

多组学工作流程的基因组性能比较

作为将单细胞样品传递给深度测序进行SNV分析之前的默认做法，进行了低通QC测序，并且作为分析流程的一部分，确定了使用PreSeq计数算法的文库复杂性估计。仅针对基因组DNA(PTA的产品溶液)设置的QC标准在低通测序时的PreSeq计数值>3.0E9，这是一个经验定义的基因组覆盖率和均匀性的替代物，预测高深度测序将产生强的等位基因平衡以及单核苷酸变体判定的高灵敏度和精确度。来自表1A的单细胞的平均PreSeq计数为3.76E9，其中标准偏差为+/-2.27E8。单细胞和基因组DNA对照的整体稳健性能保证了随后的深度测序，以便对经典PTA和来自多组学工作流程的PTA进行度量比较。

表1A

在通过我们的流程进行高深度测序(2X150bp，向下取样至4.5E8个总读段，约20x基因组深度)和处理后，审查了等位基因平衡(通过富集和基因组PTA方法的优势代表两种等位基因的能力)。等位基因脱落(ADO)的倒数是等位基因平衡，其是测序后称为杂合的已知杂合基因座的比例。这些基因座内的变体在每个基因座处的等位基因频率在10％与90％之间。对多组学工作流程的等位基因平衡的回顾显示，在每10个重复中，85.5％(+/-3.4％)与仅基因组DNA工作流程的88.2％(+/-4％)非常具有可比性(图2A)。工作流程之间在不同深度范围内的基因组覆盖率没有显著差异(图2B)。最后，证明从多组学工作流程中获得的等位基因平衡和覆盖率最终能够自信地判定SNV是至关重要的。图2C突出显示了个体多组学NA12878细胞，其SNV判定灵敏度范围为0.90-0.95，且精确度>0.99，类似于仅基因组DNA的数据。总的来说，这些数据表明，尽管上游进行了逆转录化学修饰以产生转录组数据，但PTA对单细胞基因组的扩增性能仍然存在。

多组学工作流程的转录组性能比较

在选择与PTA结合的转录组方案时，一个目标是尽可能全面地捕获基于RNA的致癌和药物抗性机制模式的多样性，并且同样重要的是，能够确定在RNA水平上表现的基因组病变。为多组学工作流程设计了一种模板切换逆转录方案，所述方案捕获了全转录物信息，而不是5’或3’末端计数，以提高检测同种型和鉴定融合的能力。这种化学作用使得转录物之间的覆盖率均匀，且如图3A所示，其中显示了5’区域(顶部)的覆盖率增加，所述区域通常受到与3’-polyA的距离成比例的降解(或逆转录酶性能)的影响。这证实了RNA臂工作流程中模板切换化学的行为。图3A(底部)显示了一组管家基因的基因体之间的读段深度分布，其中所有外显子都同样显示。我们定义的转录组中的特征量化在图3B中示出，突出显示了鉴定各种转录体的能力。在该图中显示了在大量数据集(条1，聚合数据集)中观察到的性能进展相比于特征，如针对文库制备方法的大量分离(条2和4)：独立的mRNA链(条2和3)和多组学组合文库制备(条4和5)。最值得注意的是，总体上观察到多组学化学中5’编码和内含子区域增加，同时基因间背景通常低于比对读段的5％，从而为同种型检测提供了更广阔的空间。

作为细胞质量映射到参考转录组后的进一步性能基准测试，建立了通用度量的性能模式，其中充分表征的人脑参考RNA(HBRR)和通用人类参考RNA(UHRR)作为NA12878细胞系的补充，并在图3C中显示了复合特征。鉴定了读段和基因组特征映射百分比，以及作为评价测序质量标准的发现的总基因。还检查了熟知的管家基因的表达和表达模式的动态范围，并且计算了DNA污染、样品降解和/或偏倚的各种标记作为外显子的百分比(超过55％)，以及作为多组学RNA级分特征的基因间作图(低于5％)。测量单细胞实验质量的另一个重要度量是每个细胞发现的基因数量(>0计数)。对于NA12878细胞，存在平均大约2500个，而发现的HBRR和UHRR基因的平均数量分别为约6000和7000个。最后，计算跨组织研究中通用管家基因的归一化CPM值的中位数绝对偏差(MAD)和百分比变异系数(CV)得分。这些度量测量再现性，并且是测量样品变异性的稳健方法。总体而言，观察到所检查的管家基因之间可比较的单调表达度量，以及我们的HBRR和UHRR基准的MAD值范围为0.25至1，从而表明这些基因在细胞间表现出很小的表达可变性。NA12878显示出稍微更多的不规则性，这不受理论的约束，可能意味着更高的变异性或不合适的管家基因。相应地，CV率从14％到30％不等，尽管NA12878表现出更多的变化。对于每个细胞，经表达基因的动态范围为约1300(HBRR)、1400(UHRR)和1900(NA12878)CPM。

图3D显示了多组学全转录物性能相比于公开可用的大量RNA-Seq和3’末端计数数据集的混合物(参见方法)，突出显示了相对于3’末端计算，根据定义发生的增加的5’UTR和基因体覆盖率。显示了用多组学化学检测到的其他RNA物种的相对类型，包括lncRNA、snRNA和假基因。在多组学中，分离的模板切换RT化学相比于组合RNA/DNA工作流程之间的特征相对比例是一致的，并且在纯化的RNA输入模板相比于单细胞之间观察到总体一致性，除了单细胞比纯化的RNA输入揭示了更多蛋白质编码基因的内含子读段。在表1B-1和1B-2中分析的所有单细胞中，线粒体读段百分比<10％，其中大多数细胞平均小于5％，从而表明单细胞裂解对于捕获mRNA和其他聚腺苷酸化转录物是最佳的且扩增的细胞是健康的。

表1B-1

表1B-2

实施例2：分析致癌和药物抗性机制的多组学方法

概述

癌症是一种在包括大量肿瘤组织的个体细胞之间具有显著变异和异质性的疾病。尽管大量研究描述了癌症进化过程中的这些变化，但大多数癌症的病因仍然受到推测的驱动。这在癌细胞药物抗性弹性下的分子复杂性中得到了证实，其中基因组水平的单核苷酸变异(SNV)和拷贝数变异(CNV)与转录适应协同促进了抗性。虽然这些模式中的一种模式可能是主要的驱动因素，但越来越多的证据表明，这些模式不是相互排斥的，而是可以协同改变细胞状态，从而导致抗性。因此，在单细胞中测定这些多个“-组学”层(基因组和转录组)将变得非常重要，因为大量测序提供了对这些层中的每一层的固有异质性的不完整看法。癌症的进化是通过复杂的分子协调驱动的，其中每个细胞中发生的基因组和转录组变化的相互依赖性传达了一些主要的适应优势，这些优势驱动了扩张和药物抗性。当前基因组和转录组测定的性质通过将基因组数据简化为基于组织的平均值来混淆潜在的克隆结构。最近旨在同时监测单细胞中RNA和DNA两者的方法使这种联系成为可能，但存在基因组覆盖率不均和等位基因平衡低，从而限制了准确评估全基因组单核苷酸变异的能力。

为了克服这一挑战，PTA工作流程得到了增强，并扩展了转录组富集的第二种方式。所述方法通过增强的基因组覆盖率和均匀性以及等位基因平衡来区分，其中基因组的两个拷贝都被等效和均匀地扩增。这是一个潜在的属性，其允许从样品的经扩增基因组中以高准确性进行CNV和SNV两种检测，所述样品如单细胞一样有限。PTA提供这种程度的均匀性和准确性的能力源于合成链不受欢迎的再复制，由限制扩增子大小的核苷酸终止子驱动，并且巧合的是这种扩增子大小分布(500-1500bp)适合转录物长度的自然分布。

NA12878细胞在转录上是相对静止的。遵循实施例1的一般多组学程序，还评估了在来自我们的DCIS和MOLM-13材料的单细胞中独特表达的基因(图3D)。首先通过将RNA文库向下取样至75k读段进行稀疏分析，发现对于检测到的基因而言，将读段数量加倍仅有名义上的益处。同种型检测和覆盖率仍然与读段成比例增加。在每个细胞75K读段下，基准细胞系NA12878平均检测到约4500个经表达基因，而MOLM-13AML细胞为平均约5000-5500个经表达基因。来自原代DCIS/IDC肿瘤样本的FACS富集的单细胞产生的经表达基因少于细胞系模型，平均约3500个，不受理论的约束，这可能是由于原代分离细胞的样品完整性以及从手术切除到FACS的工作流程步骤的数量增加。

MOLM-13急性髓性白血病细胞中的药物抗性模型的建立

扩展了对照细胞多组学的DNA和RNA性能度量，以从药物抗性模型中产生统一的基因组和转录组信息。在研究药物抗性的异质性影响之前，对化学物质进行了评价，以确认其再生了MOLM-13的已知基因组特征。首先对细胞进行核型评估，以匹配已发表的报告，并且为解释CNV分析提供背景。本研究中使用的所有MOLM-13细胞的组合拷贝数分析见图4A。在药物抗性建模之前，MOLM-13系表现出初始细胞系建立的标志，包括Chr.6和Chr.13(49,,2n.,XY,+6,+8,+13、49,,2n.、XY、+6,+8、ins(11；9)(q23；p22p23)、ins(11；9)(q23；p22p23)、del(14)(q23.3；q31.3)的三体。MOLM-13系表现出额外的增益(图4B)，包括出现伴随其他易位(52、XY、+5、+6、+8、+8、+del(8p)、add(11q)、+13、add(17p))的三体5和五体8。

为了证明在药物抗性背景下单细胞中同时存在的基因组和转录组信息的效用，通过利用MOLM-13细胞中内部串联重复(ITD)突变的存在创建了一个模型。由于在约20％的AML患者中发现的ITD突变过度激活FLT3信号传导并导致预后不良和复发，因此用连续剂量的2nM奎扎替尼治疗非抗性、药物敏感的细胞。该药物是一种靶向FLT3的选择性II型激酶抑制剂。在最初明显的生长抑制/凋亡后出现抗性(参见方法，图11)。

亲代和奎扎替尼抗性MOLM-13细胞中单细胞CNV谱的区别

作为MOLM-13奎扎替尼抗性模型中单细胞基因组变异的初步评估，遵循多组学工作流程对9个亲代“P”和10个奎扎替尼抗性“R”细胞进行了CNV分析。利用测序数据产生约25x覆盖率和500kb窗口大小，5、6、8和13号染色体的拷贝数明显增加(图4A)，并且与我们的亲代细胞核型数据一致(图4B)。

单细胞CNV异质性立即从数据中显现出来。在“P”队列中，观察到9/9细胞的Chr.5增加到3N，然而5/9细胞显示出额外的5p增益。观察到“P”和“R”单细胞之间最相关的异质性拷贝数变异。没有抗性细胞表现出在亲代队列中发现的额外的5p增益，并且此外，7/10抗性细胞没有任何Chr.5扩增作为二倍体2n状态，从而表明这被选择用于部分通过多个Chr.5驻留基因的表达结果来介导药物抗性。除了Chr.5作为奎扎替尼抗性的候选因素的这种一般含义之外，在4/10抗性细胞中观察到19q独特增益。总之，定义了MOLM-13抗性模型的CNV范式，所述范式用作待随后通过本文所述的多组学方法定义的SNV和转录层的背景。

获得二级FLT3突变作为药物抗性的关键驱动因素

在SNV基因组分辨率增加的水平上，确定了超出总CNV的奎扎替尼抗性的候选关键驱动因素。所有亲代和抗性单细胞均携带FLT3ITD(图5A)。相比之下，在所有奎扎替尼抗性细胞中均检测到错义突变N841K(图5B)。FLT3 N841K先前已在AML患者中检测到，位于FLT3的激活环中，并且此外，密切相关的受体酪氨酸激酶KIT中与对应于N841的残基的突变正在激活。不受理论的约束，这表明N841K是ITD的主要二级突变，并且可能通过阻止药物结合的效率，在该模型中导致奎扎替尼抗性。

为了评估N841K FLT3二级突变是否可能是从头产生的，或者是亲代群体中现有的遗传变异克隆，采用了基于定制定量PCR的基因分型测定来区分这两种情况。该探针组在探针结合和去猝灭时发射不同波长的荧光，用于N841和K841之间的等位基因鉴别，将该探针组用于分离自亲代或奎扎替尼抗性MOLM-13细胞的基因组DNA的qPCR测定中。在亲代细胞中，当N841的扩增占优势时，K841呈现低但可检测的水平(图5C)。抗性细胞显示出相反的情况，其中来自N841和K841的信号相等。这些数据表明，FLT3 K841在最初的MOLM-13细胞系中作为一种极其罕见的克隆存在，在奎扎替尼的选择压力下，可能是由于其影响药物结合的能力，这种克隆富集至抗性细胞系中的主导地位——因此强调了我们的细胞系模型对患者肿瘤中克隆选择的模拟。虽然这种变异独立地构成了一个令人信服的案例，但随着生物标志物分辨率的提高，通过图6中的热图鉴定了明确定义的组，展示了两组之间的不同基因型。

MOLM-13奎扎替尼抗性中的异质性SNV

对代表多个功能类别(信号传导、表观遗传、肿瘤抑制因子、剪接体、内聚复合物基因)的基因候选列表进行了询问，这些基因先前由于SNV而与AML发病机制有关。除了FLT3二级突变之外，用这种候选方法在单细胞中未鉴定出抗性特异性编码序列变化，因此对可能导致奎扎替尼抗性的突变以及代表亚克隆且未在所有抗性细胞中发现的那些突变进行了无偏倚搜索。由于增加了有害功能后果的可能性，首先将变体判定文件通过罕见的突变功能类别、终止密码子增益和移码突变进行分层。在7/10奎扎替尼抗性细胞中鉴定出剪接和mRNA稳定因子CELF4的杂合无义突变，而在亲代队列的任何单细胞中都没有鉴定出这种变化。在8/10奎扎替尼抗性和0/9亲代细胞中鉴定出代谢酶ADSS1在K291(c.870dupC)处的移码突变，并且在5/10抗性细胞和0/9亲代细胞中鉴定出GTP结合蛋白RRAGC在A57(c.167dupG)处的移码突变。尽管最初优先考虑这些变体，但没有检测到其同源转录物的表达(图7B)。这表明，这些基因在MOLM-13细胞中低表达、在细胞捕获和提取时未表达，和/或超出了我们用多组学检测的极限。这些发现促使我们更全面地量化我们的模型中的单核苷酸变异，以及优先考虑与基因表达相关的基因组变异，这是多组学对单细胞所特有的作用。

然后采用变体过滤/优先级策略来鉴定存在于奎扎替尼抗性单细胞中但不存在于亲代单细胞中的单核苷酸变异。根据该分析(参见方法)，使用多项逻辑回归分析和Wald检验来得出6444个SNV，其在亲代和抗性单细胞之间有差异地普遍存在(p<0.05)。图6在热图中显示了这种统计上显著的基因型变异，并允许可视化抗性细胞中纯合参考(0/0)到杂合(1/0，0/1)或纯合替代(1/1)等位基因的转换，并且反之，抗性细胞中杂合基因型的缺失到纯合参考。额外的过滤使我们能够专注于图12中亲代相比于抗性系不同的错义变异。作为一种具有经验证的mRNA表达的生物学意义的优先错义突变，A109V在E3泛素连接酶基因RNF167中发现，并且在所有10个奎扎替尼抗性细胞中发现，但在亲代队列的细胞中不存在。

除了优先考虑上述编码序列变异之外，变异过滤(参见方法中的详细信息)使我们能够在我们的奎扎替尼抗性模型中发现基因间空间中发生的显著程度的单核苷酸变异。在亲代细胞中编目了8601个基因间SNV，而在我们的奎扎替尼抗性细胞队列中有2167个基因间SNV出现在组内所有细胞的至少25％中。这种组特异性变异显示了响应于药物治疗的现有基因组变异和从头突变的选择的背景，以及基因组中高度可塑性的例证(图6)。

MOLM-13奎扎替尼抗性细胞表现出独特的转录特征，包括适应性旁路

在SNV水平上，主坐标分析中亲代和抗性MOLM-13单细胞之间存在差异(p<0.05，图7A)。在两个MOLM-13单细胞队列的多组学转录组中也观察到了同样的趋势(数据未显示)。图7B示出了一个树状图，其突出显示了P和R单细胞之间差异表达的转录物，并用生物型标记，从而表明上调或下调转录物的分类性质。在该模型中，强调了DNA和RNA水平对药物抗性的贡献的两个具体示例。

首先，从差异表达的基因组GAS6中，受体酪氨酸激酶AXL的配体上调。AXL通路，特别是通过下游STAT3细胞增殖和PI3K/ALT存活信号传导，已被证明是FLT3抑制的旁路通路(图13)。还观察到小GTP酶RAC1的同时转录上调，这可能与AXL-STAT3和AXL-PI3K/AKT信号传导轴的上调协同作用。总的来说，这些转录响应表明了一种适应性转录旁路模式，所述模式发生在携带DNA水平的二级FLT3突变驱动药物抗性的同一细胞中。有趣的是，还注意到先驱转录因子CEBPA CCAAT/增强子结合蛋白α(C/EBPα)在奎扎替尼抗性细胞中的转录上调(图7B)。在约10％-15％的AML患者中发现了CEBPA的截短突变，导致CEBPA的N末端片段p30表达，具有潜在的显性阴性活性。由于CEBPA位于Chr.19q13.11上，伴随着CEBPA的转录上调，在奎扎替尼抗性细胞的一个子集中观察到Chr.19q增益(图7C)，从而表明CEBPA表达上调的潜在基因组机制，并例示了单细胞基因组和转录组数据统一的力量。

虽然看似合理，但在个体细胞中CEBPA上调时的拷贝数增加之间没有观察到正相关，这表明转录上调的模式本质上是表观遗传的。然后使用零膨胀线性模型评价倍性与全基因组基因表达的关系。使用500kb窗口大小，倍性和基因表达没有直接相关性，除了一组基因，通过该模型鉴定了统计学上有意义的关联(p<0.05)(图7D)。表4显示了鉴定的每个基因，并总结了拷贝数和表达相关性。这突出了在解释单细胞中拷贝数改变时同时进行转录组评估的重要性，也突出了在亚百万碱基染色体间隔的倍性方面发生的显著的单细胞异质性。

表4

除了这些由单细胞基因组和转录组数据组合提供的转录药物抗性机制假设的示例之外，还采用了差异转录物使用(DTU)分析(图7E)作为全长(相比于3’末端计数)数据支持的转录物同种型见解。鉴定了HADHA的同种型，由此其表达对于奎扎替尼抗性群体是独特的，并且在除一个亲代细胞外的所有细胞中都不存在——由此在抗性细胞中偏倚表达的同种型比亲代同种型(2943bp)更短(约2688bp)。类似地，7/10奎扎替尼抗性单细胞仅表达含有额外5’外显子的PPP1R14B的同种型，而7/10亲代细胞不表达任何同种型。总体而言，多组学方法鉴定了亲代和奎扎替尼抗性群体之间额外基因RPS3、HSPA4、SUGT1、CAPNS1的同种型特异性的六个实例。

鉴定调节抗性细胞中的转录物水平的候选调控性SNV

鉴定了与预测的转录输出无关的感兴趣基因组病变的发生，导致进一步的分析以鉴定将影响近端基因表达的单个核苷酸变异作为图8A中的候选调控性变体。虽然早期的实验未能鉴定抗性细胞中Chr.19q增益和CEBPA mRNA上调之间的相关性(图7C)，但在定义SNV的变体判定文件中鉴定了CEBPA转录起始位点的候选远端启动子/增强子SNV约20kb 5’，其在亲代和抗性细胞之间具有基因型偏倚(图8B)。然后采用无偏倚方法，由此进行跨队列基因型的基因转录丰度的ZLM(零膨胀线性模型)建模。对于初步分析，SNV检测仅限于基因内或启动子(相对于转录起始位点为0至-5000)。与亲代细胞相比，在抗性细胞中观察到MYC表达的上调，并且鉴定了在抗性细胞中对参考0/0等位基因具有基因型偏倚的候选内含子调控性变体，而除了一个亲代单细胞之外，所有亲代单细胞都含有候选调控性变体的0/1基因型(图8C)。具有亲代/抗性基因型偏倚以及亲代和抗性细胞之间伴随表达二分法的候选近端调控性SNV的另一个示例包括PABPC4基因中的候选启动子突变，其编码poly(A)结合蛋白，位于转录起始位点上游5’kb内(图8D)。用这种分析鉴定的所有变体当然保证了有效性的功能研究，但强调了多组学通过对个体细胞中的基因型转移和转录调节进行成对分析来产生候选调控性SNV的能力。将该分析扩展到所有基因间空间，并且将SNV与ENCODE ChIP-Seq数据相关联，将是产生更多数量的影响药物抗性和肿瘤发生的候选者的有力工具。

原代DCIS/IDC单细胞表现出不同种类的染色体丢失

在证明了基因组和转录组数据的多组学工作流程的统一在阐明细胞系模型中的单细胞药物抗性机制方面的效用后，证明了在阐明原代人类癌症中的单细胞致癌机制方面类似的多组学效用。为此，评价了基因组和转录组对癌前导管原位癌(DCIS)向浸润性导管癌(IDC)转变的贡献。通过FACS(杜克大学医学中心(Duke University Medical Center))从来自乳房切除术的肿瘤组织中解离出的单细胞首先被富集。该患者的肿瘤病理学表明ER/PR(雌激素受体/孕激素受体)阳性，但HER2表达的缺乏排除了HER2抗体用于FACS富集。因此，采用FACS策略，以通过上皮细胞粘附分子(EpCAM)表位富集来富集导管上皮细胞，并且同时捕获“EpCAM低”细胞作为富集对照。

与MOLM-13抗性模型一样，首先评价了原代DCIS/IDC单细胞中的CNV。在16个单细胞上进行多组学工作流程，其中EpCAM表达明显且4个单细胞的EpCAM表达可忽略不计。使用与MOLM相同的基因组覆盖率(25x)，并且在“EpCAM高”单细胞队列中评估了500kb窗口CNV。出现了不同类别的CNV，其中单细胞表现出离散的染色体丢失。作为一个类别，5/20细胞几乎完全丢失了Chr.13，同时丢失16q/17p，图9。最丰富的类别(12/20细胞)含有这些拷贝数改变，加上Chr.11q的第三次离散丢失。两个EpCAM高细胞没有任何明显的拷贝数改变，并且一个EpCAM高细胞具有一系列更异常的全基因组染色体丢失。观察到的Chr.13和16q/17p丢失与报告的DCIS进展多个阶段中的拷贝数改变一致，并且与原型肿瘤抑制基因BRCA2、RB1和TP53的丢失一致。有趣的是，观察到10/20EpCAM高细胞中Chr.13p的增益，一种缺乏基因的异染“柄”，以及2个EpCAM高细胞和1个EpCAM低细胞中的Chr.X增益，其意义不明，包括着丝粒和侧翼p和q臂片段。即使是这个相对较小的单细胞队列，这些数据也突出了原始样品的拷贝数异质性。

致癌PIK3CA突变的鉴定

在对SNV进行全基因组无偏倚评估之前，评估了PIK3CA基因(乳腺癌不同分子亚型中最常见的突变基因之一)的外显子。在14/18EpCAM高细胞中鉴定了错义突变N345K(图10C)。在由TCGA编目的PIK3CA热点突变中，N345K仅次于H1047R，并且已知通过破坏C2/iSH2结构域界面影响p85(PIK3R1)调控性/p110(PIK3CA)催化亚基的相互作用。致癌的N345K突变仅在观察到CNV的单细胞中检测到；最初表明，相关的导管上皮细胞用FACS策略分层，并且缺乏CNV+PIK3CA N345K的两种细胞要么含有其他基因组变异，要么是不同的细胞类型——需要多组学方案的RNA臂来进一步区分可能性。

DCIS/IDC中的单核苷酸变异

进行变体过滤以鉴定新型候选致癌SNV。作为我们的过滤策略的验证，在携带11q、13、16q/17p拷贝数丢失的14/16细胞中鉴定了PIK3CA N345K。未检测到已知对ER+乳腺癌有影响的其他候选基因的编码序列突变(图14)。利用按CNV状态解析SNV的策略，对EpCAM高细胞中存在但EpCAM低细胞中不存在的变异进行了编目。与奎扎替尼抗性的MOLM-13模型类似，在EpCAM高细胞相比于EpCAM低细胞中观察到广泛的基因间基因组SNV。

DCIS/IDC分离细胞的细胞身份和转录状态

在组合基因组/转录组单细胞测定中值得注意的效用是将基因型与细胞类型的身份和细胞状态的推断联系起来的能力。这在解释观察到的CNV和PIK3CA E345单细胞DCIS/IDC基因型中是至关重要的，因为在设计明确地从周围的基质细胞和浸润性免疫细胞中鉴定感兴趣的导管上皮细胞的FACS标记模式中存在困难。通过主成分分析分离的EpCAM高细胞和EpCAM低细胞的基因表达谱(图10A)，使用在乳腺癌的不同亚型中有影响的基因的PAM50基因组(图10B)。差异基因表达分析突出了两个主要分支之间的基因特征块：一个是专门的EpCAM高细胞的簇，并且另一个是由所有EpCAM低细胞与4个EpCAM高细胞混合组成的簇(图10C)。对定义EpCAM低细胞的转录物的初步确定揭示了IL-2和CD4 T细胞定义的基因组的富集，从而表明这些细胞可能是该患者的分离肿瘤样品中存在的肿瘤浸润淋巴细胞。然而，使用人类细胞图谱数据(参见方法)对基于转录组的细胞注释的进一步严格性将EpCAM低细胞解析为干细胞样、内皮、成纤维细胞和单核细胞身份/状态(图10B-10E)，其独立于转录物计数(图1Aa)。四个异常的EpCAM高细胞表现出基因表达特征，使得其与EpCAM低细胞一样位于树状图的同一根枝中。细胞被鉴定为具有两种不同的身份/状态：上皮细胞和单核细胞。有趣的是，虽然所有EpCAM低细胞都缺乏PIK3CA N345K或特征性DCIS拷贝数丢失，但具有上皮特性的EpCAM低基因表达特征分支中的EpCAM高细胞含有这两种基因组改变。不受理论的约束，这暗示了导管上皮细胞的细胞状态的可塑性，并且获得了具有干性属性的表型，如更紧密匹配组织干细胞或成纤维细胞身份的细胞注释谱所暗示的(图10D)。EpCAM低分支中的一个异常EpCAM高细胞缺乏致癌PIK3CA突变和原型DCIS染色体丢失，并显示出单核细胞基因表达谱。对于这种情况，这暗示了样品中有单核细胞浸润，尽管它不能正式排除恶性或良性导管上皮细胞的细胞状态变化或样品中单核细胞浸润的可能性。此外，在这个异常的EpCAM高类别中，一个假定的上皮细胞虽然不同于在主要EpCAM高分支中观察到的典型DCIS染色体丢失，但具有严重异常的CNV谱，并且可能代表恶性细胞。我们的关于致癌性的表型细胞状态的假定可塑性的示例保证了额外细胞的多组学分析，以确定该细胞状态在样品中的频率，或者它是否代表随机的基因组变异，所述变异在群体中不持续或不被选择。总的来说，这些数据表明，仅在转录组水平上分析细胞可能会导致不正确的细胞分类，并强调了解RNA和DNA-组学层对于提供正确的分类至关重要。

MOLM-13和DCIS/IDC单细胞分子特征的整体视图

在连续确定了MOLM-13药物抗性模型和原代DCIS/IDC两者中的CNV、SNV和转录见解后，开始收集并以图形方式呈现“-组学”数据层之间的相互关系是至关重要的。对于MOLM-13，鉴定了一种二级驱动突变，所述突变可能影响所有单细胞中的药物结合，但为FLT3信号传导的同时转录旁路提供了证据，从而突出了确定同一细胞中DNA和RNA驱动的抗性机制的重要性。

对于原代DCIS/IDC，DNA水平和RNA水平数据的统一允许在定义细胞类型和细胞状态的表达特征的背景下解释基因型。利用热图/树状图中的这些分子信息层，快速传达了这样的发现，即表达EpCAM的导管上皮细胞具有原型拷贝数丢失和致癌的PIK3CA突变两者，而来自同一分离细胞样品的通过转录组谱具有替代身份的EpCAM低细胞没有染色体丢失和这种突变(图10D)。然而，不能仅通过EpCAM FACS蛋白水平来明确评估细胞鉴定，而是利用更现代的细胞注释方法；可以客观地鉴定与细胞已知的生物起源相匹配或反映细胞状态转变的ID。

讨论

分子信息的每一个“-组学”层允许更大的能力来全面地定义肿瘤发生和药物抗性在肿瘤中的分子机制。在单细胞肿瘤生物学领域中，由于大规模采用基于液滴的方法，促进了工作流程的简化和单细胞通量，迄今为止的大多数工作都是在转录组水平上进行的。尽管基于液滴的RNA-Seq研究在定义转录状态(包括纵向定义的那些状态)的多样性和异质性方面取得了不容置疑的进步，但仍然存在差距，因为很少有研究提供同时存在的基因组数据和基因表达数据。出于多种原因，这是至关重要的。首先，在缺乏DNA水平信息的情况下，无法辨别基因组对转录或表型状态的贡献，如基因组突变或调控性元件、转录因子或染色体拷贝数的变异，其中的每一个都有可能定义转录状态。因此，先前的研究在解决DNA和转录变化之间的关键联系方面存在明显的局限性。其次，虽然转录物水平信息经常用于肿瘤的分子亚型化，但由于由转录状态确定的技术和信息学挑战，药理学决策主要由基因组变异驱动。这可以部分解释为什么肿瘤DNA分子数据对治疗灵敏度的预测并不完美。

由于整合RNA和DNA扩增步骤的技术挑战，迄今为止，单细胞基因组和转录组信息的结合一直受到限制。另外，在已经克服了这种不相容性的情况下，已经采用了现有的用于扩增单细胞基因组的方法，因此伴随这些联合RNA/DNA方案的缺点是基因组覆盖不完全、覆盖均匀性差和等位基因平衡不佳。例如，G&Tseq为研究人员提供了单细胞的转录数据，并结合了DNA水平信息的多重置换扩增。由于MDA或PicoPLEX固有的不完全基因组扩增，这促进了主要在转录组+拷贝数改变水平上的多组学见解，从而排除了SNV分析。多组学化学可以通过将单细胞中的原代模板导向扩增与RNA测序统一起来克服这一局限性，并且通过编目影响基因表达的推定调控性SNV来显示其效用。

在单细胞水平上定义细胞身份和细胞状态的能力是多组学的一个主要优势。虽然一些FACS策略可以充分地对异质性样品中的细胞类型进行分层，但人们并不总是先验地具有这种生物标志物知识，并且即使在存在这种知识的情况下，也观察到异常分选的细胞，但没有检测到一致的mRNA水平，尽管这些细胞是以高水平的相应蛋白质生物标志物为门控的。因此，联合RNA/DNA单细胞谱分析在这里使我们能够在我们的原代乳腺癌样品中发现不同的非上皮细胞类型的情况，从而防止对缺乏原型拷贝数改变或关键致癌错义突变的导管上皮细胞的错误解释，而事实上基因组变异的缺乏是由于被测定的细胞类型。当掌握了联合基因组和转录组信息时，现在可以利用FACS中显示的细胞类型肿瘤异质性，例如，以理解单核细胞的基因组变异对给定微环境中恶性上皮细胞相互作用的贡献，而不是在这种情况下认为单核细胞污染了感兴趣的上皮群体。

除了用多组学表征细胞身份之外，本文所述的多组学方法能够以前所未有的分辨率实现乳腺肿瘤样本中细胞状态的连续性和异质性。在EpCAM低单细胞队列和EpCAM高上皮细胞的核心队列之间出现了中间转录谱。有趣的是，在EpCAM高细胞中观察到该谱，所述细胞含有PIK3CA N345K和DCIS特征性染色体丢失，因此具有主要上皮细胞队列的核心基因组变化。然而，它表现出不同的转录干细胞样状态——从而表明了潜在的状态转换，并突出了固有的转录单细胞异质性，即使在分离肿瘤样品的相对较小取样中。随着该样品中更多细胞被测序，确定这种细胞状态的普遍性，以及定义可能有助于DCIS向浸润性癌症发展的其他新型转录状态的多样性将是至关重要的。多组学方法重要地提供了将这些不同的转录细胞状态与基因型联系起来的能力(图8A)。

多组学工作流程的第二个主要优势是提供原代模板定向扩增的属性，以允许全面的基因组评估，而不是仅确定少量候选基因座或宽分辨率水平的拷贝数改变。这种对超过95％¹的基因组进行高灵敏度和高精确度SNV检测的实现开辟了一个新的发现领域。多组学工作流程中的PTA开辟了具有全基因组数据和非外显子空间的药理学靶标的新来源，这是具有低基因组覆盖率和均匀性的现有WGA方法所不可能的。值得注意的是亲代相比于奎扎替尼抗性MOLM-13细胞中存在的单核苷酸变异(6444个差异地普遍存在的SNV，图6)，这进一步强调，虽然转录可塑性是教条的，但认识到在该模型中观察到的基因组可塑性同样重要。此外，虽然将存在过客突变或目前非药理学靶向突变的背景，但这种多样性最终可以被确定，并代表了功能性、生物学相关表型输出的变体的共同进化。努力估计推定功能元件(启动子、增强子、剪接增强子)处的基因间变异是药物抗性研究的一个前沿和未被充分重视的方面。在我们的亲代细胞相比于抗性细胞中，与感兴趣的差异表达基因接近的候选调控性单核苷酸变异可能需要专门的功能表征，但随着基因组测序的成本开始下降，这些数据及其相关的生物学见解将必然开始积累。对于发现而言，从单细胞中确定双基因组/转录组不仅加速了候选调控性SNV与转录调节的联系的产生，而且揭示了被大量测序数据掩盖的联系。

我们的AML中药物抗性工程化模型和对原代DCIS/IDC样品的分析都产生了单核苷酸变异，这在一开始就被预测为对蛋白质功能具有有害影响。在我们的样品的单细胞基因组中观察到的移码和终止密码子增益突变代表了一个无偏倚起点，用于发现新型的致癌和药物抗性基因座，而不仅仅是确定已知的候选基因。然而，来自同一细胞的结合转录信息揭示，对于这些具有据称有害作用的新型基因组变体中的一些，单细胞并不表达相应的转录物——从而表明基因组变化本质上是过客的或随机的且不是功能性的。从转录水平上的表现来理解这种基因组变体“外显率”是多组学的一个基本能力，并且在我们的初始样品集中重定向或否定了多个假设。

除了二元“表达或不表达”决定之外，双重DNA/RNA信息有助于指导分子机制的假设。CEBPA(一种增强因子⁴²，在我们的奎扎替尼抗性单MOLM-13队列中显著上调)存在于Chr.19q上，其中四个抗性细胞具有2n至3n的19q基因组增益。一个简单的初步假设是19q的基因组扩增有助于观察到的转录物上调，然而在所有抗性细胞中都观察到CEBPA转录物上调，并且没有显示出与包含19q基因组扩增的单细胞的相关性(图7C)。这表明表观遗传控制的替代机制对这种上调的基因起作用，可能是经由转录因子的调节或增强子水平的现象，这是由CEBPA基因附近的亲代细胞和抗性细胞之间的SNV推测的。更广泛地说，虽然鉴定了倍性和特定基因队列的表达之间的统计学显著关联(图7D)，但对于大多数基因座没有观察到这种关联。总的来说，这些示例说明了当仅基于基因组数据定位机制时，配对RNA信息的重要性，并提醒需要确定变化的“外显率”。相反，发现了SNV和邻近基因表达之间的重要相关性，如致癌驱动因子MYC(图8A和图8C)，突出了其中DNA和RNA信息可能在功能上相联系的实例。

来自同一个体细胞的同时基因组和转录组数据的实现极大地增加了假定的药物抗性和肿瘤发生机制的复杂性。这将仅随着添加额外的“-组学”层而增加，包括确定胞外蛋白表达，因为多组学模板切换cDNA化学的性质允许整合CITE-seq样寡核苷酸标记的抗体。这些数据很复杂，需要开发新型的复杂的生物信息学工具。然而，类似于这里所呈现的机制见解是从研究社区积累的，具有新发现的能力，可以结合转录谱准确地评估单核苷酸基因组变异——有助于发现努力以产生新的财富和产生药理学靶标。

方法

细胞培养

NA12878细胞(CEPH/Utah谱系1463)购自Coriell医学研究所(新泽西州卡姆登(Camden,NJ))。将细胞维持在补充有15％ FBS和青霉素/链霉素的RPMI 1640(Gibco11875-093)中，并且每2-3天继代培养，同时保持1.0-3.0E6/ml的密度范围。

具有杂合FLT3内部串联重复(ITD)的MOLM-13急性髓性白血病细胞从DSMZ-德国微生物和细胞培养物保藏中心(ACC 554)获得。将细胞维持在补充有10％ FBS和青霉素/链霉素的RPMI 1640(Gibco11875-093)中，并且每2-3天继代培养，同时保持2.5E5–1.5E6个细胞/ml的密度范围。为了产生奎扎替尼抗性MOLM-13系，将细胞用2nM奎扎替尼(SelleckchemAC220)或DMSO媒介物对照连续处理用于匹配的亲代对照系，并且在每次继代培养下补充药物，直到在培养的5周持续时间出现抗性克隆。在FACS分选时从奎扎替尼抗性和匹配的亲代MOLM-13细胞中分离基因组DNA(Zymo Research Quick-DNA Microprep w\Plus试剂盒，D3020)或总RNA(Qiagen RNeasy Plus试剂盒，74034)，以产生大量测序对照文库，用于与单细胞数据集比较和用于定量PCR模板。

多组学工作流程

多组学工作流程从基于模板切换的RNA-Seq化学开始，以产生生物素-dT引发的第一链cDNA，随后终止反应和核裂解，此时进行原代模板定向扩增。用链霉亲和素珠从cDNA和经扩增的基因组的组合池中亲和纯化mRNA衍生的cDNA。然后进一步纯化cDNA，随后进行两次严格的链霉亲和素珠洗涤和第一链cDNA的珠上预扩增，以产生双链cDNA。同时，纯化从cDNA中分离出的含有基因组扩增产物的同一细胞的PTA级分。在产生NGS文库之前，预扩增的mRNA cDNA和基因组衍生的DNA扩增级分的单独和不同级分经历SPRI清理。

核型分析

在解冻后2周内分析MOLM-13细胞(KaryoLogic,Inc，北卡罗来纳州达勒姆(Durham,NC))，使用25个中期传播的复杂超二倍体核型的工作流程。在中期传播产生之前，将活培养物递送到现场服务提供商处，并且在现场的5％ CO2 37C孵化器中回收培养物持续一周。

FACS

在FACS之前，首先使用Countess II FL仪器(ThermoFisher Scientific)通过台盼蓝染色或者使用Luna FL仪器(Logos Biosystems)通过吖啶橙+碘化丙啶对细胞系进行计数并评估总体生存力。按照FACS方案进行的细胞系培养表现出>90％的生存力。

MOLM-13

对于单细胞分析，将约2.0E6个MOLM-13奎扎替尼抗性或匹配的亲代细胞在染色缓冲剂(补充有2％ FBS的缺乏钙和镁的0.2μm过滤的杜尔贝科氏磷酸盐缓冲盐水(Gibco14190))中冲洗两次，并且保持在冰上，直到北卡罗来纳大学医学院(UNC School ofMedicine)流式细胞仪核心设施的BD FACSAria III分选。在钙黄绿素AM(BioLegend425201)、碘化丙锭(Millipore Sigma P4864)和DAPI染色后，建立单线(FSC-A/FSH-H，SSC-A/SSC-W)和活细胞(DAPI/PI阴性，顶部70％钙黄绿素-AM阳性)门控，并且将单细胞分选(130微米喷嘴组件)到含有细胞缓冲剂的低结合96孔PCR板(Eppendorf twin.tec LoBind，semi-skirted，0030129504)中，并在短暂混合(1400rpm，10秒)和离心后立即在干冰上冷冻。

NA12878

如上制备约2.5E6个NA12878(NA12878/HG001)细胞，并且使用130微米芯片进行Sony SH800分选。采用单线(FSC-A/FSC-H，BSC-A/BSC-W)和活细胞(PI阴性，顶部70％钙黄绿素-AM阳性)门控将单细胞分选到如上所述预负载有细胞缓冲剂的低结合96孔PCR板中。

原代DCIS/IDC

用于单细胞DCIS/IDC研究的组织根据杜克大学医学中心(Duke UniversityMedical Center)IRB的临床试验PRO00034242“乳腺癌肿瘤微环境的生物学特征”获得。将来源于乳房切除组织的冷冻保存的分离细胞(约4.2E5个)在37C下解冻，并且以350x g离心5min，以分离冷冻保存介质。将细胞在染色缓冲剂中冲洗一次，并且与2μg/ml的与AlexaFluor 700(ThermoFisher 56-9326-42)缀合的抗人CD326一起在4C下于黑暗中孵育1h。在此之后，

约8.4E4个细胞被保留用于缺乏任何抗体的平行阴性对照模拟染色，用于评估生存力和EpCAM染色的背景荧光水平。然后用染色缓冲剂将细胞洗涤3次，在洗涤之间用350xg离心5min，并且在负载用于FACS之前通过35微米过滤器。定义了单线(FSC-A/FSC-H，BSC-A/BSC-W)和活细胞(钙黄绿素AM)门控，随后是子代EpCAM高和EpCAM低门控。将EpCAM高和低细胞分选到如上所述的相同的96孔板中，以最小化下游基因组/转录组扩增的潜在批量效应。

定量RT-PCR

如上所述，从奎扎替尼抗性或匹配的亲代细胞的细胞收集物中分离出10ng基因组DNA，并且使用制造商建议的反应组装和QuantStudio6仪器上的循环条件，对其进行定制Taqman^TM基因分型测定，#ANMF9C4(Invitrogen-Applied Biosystems)。所述测定旨在分别在GRCh38/hg38坐标Chr13:28,018,485处区分具有C/A核苷酸多态性的人N841和K841。

组合的基因组/转录组分析

首先，在模板切换逆转录反应中利用生物素缀合的寡dT引物(Integrated DNATechnologies)，以产生来自单细胞的第一链cDNA。在逆转录后，用试剂(BioskrybGenomics,Inc.)连续进行原代模板定向扩增(PTA)。然后将第一链cDNA使用链霉亲和素珠亲和纯化，并进行两次高盐洗涤，随后进行一次低盐洗涤。进行24个循环的预扩增以产生第2链cDNA，并且使用RNA文库制备模块制备RNA测序文库。为了制备PTA文库，使用珠纯化未结合至链霉亲和素珠的PTA产物，并且使用DNA文库制备模块将其连接至Illumina TruSeq衔接子的全长IDT。RNA和DNA扩增产物两者的大小通过D5000TapeStation电泳(AgilentTechnologies)确定，而文库制备的大小通过HSD1000电泳确定。通过Qubit 3或Qubit Flex仪器(ThermoFisher Scientific)评估了扩增和文库产量。

测序

首先使用Illumina MiniSeq(2.3pM文库流通池负载浓度)或NextSeq1000(640pM文库流通池负载浓度)在DNA级分文库上进行低通测序，2X75靶向

每个文库>2.0E6个总读段。对于RNA级分文库，采用2X75MiniSeq或NextSeq1000测序，目标是每个文库平均>1.0E6个读段，以实现数据向下取样的灵活性。对于DNA和RNA级分文库的联合聚类，采用10:1摩尔比的[DNA臂]:[RNA臂]文库。在低通测序后，在IlluminaNovaSeq6000 S4流通池上对DNA臂文库进行2X150测序，目标是5.5E8个总读段，以在Vanderbilt Technologies for Advanced Genomics(VANTAGE)核心设施或杜克大学基因组学和计算生物学(Duke University Genomics and Computational Biology)(GCB)核心设施处提供向下取样灵活性。

生物信息学方法

预测序质量控制

利用内部预测序流程评价了单细胞文库，该流程利用低通测序数据创建多个质量控制度量，以帮助评价单细胞文库对高通量测序的准备情况。值得注意的是检索了PreSeq计数来估计文库复杂性。该流程的特征是基因组覆盖率的额外QC度量、映射到嵌合体的读段百分比、与参考基因组比对的读段百分比，以及与参考基因组错配的核苷酸百分比。另外，所述流程为补充的QC度量实现了MultiQC，包括读段长度、重复读段的百分比、映射读段的数量和映射读段的总数量。

基准RNA-Seq结果

为了建立多组学扩增方法的总体基准分数，对人脑参考RNA(HBRR)、通用人类参考RNA(UHRR)和NA12878 B淋巴细胞进行测序前和测序后的质量控制。考虑了几个度量：映射百分比、基因检测、表达的动态范围，以及测量DNA泄漏的变异系数、该方法的准确性和稳健性。对于每个细胞，使用Qualimap⁴⁴(v2.2.2)平台对总比对、读段比对和基因组特征比对进行量化，以报告全转录组测序数据的QC度量和偏倚估计。此外，所述平台能够检测异常细胞、这些细胞之间相对一致的性能模式，以及在单独评价个体细胞时不明显的潜在批量或其他系统伪影。使用由Qualimap结果产生的度量，计算总比对的映射百分比以及基因组比对的外显子和基因间百分比。此后，使用百万分之计数(CPM)归一化基因表达计数，定义了鉴定的基因数量、动态范围、管家基因可变性度量，并观察每个参考细胞系的管家基因的表达模式。将检测到的基因定义为每个细胞中非零计数的基因数量。然后将所有表达的基因的动态范围估计为10％-90％。作为对样品分散性和再现性的估计，将变异系数百分比(CV)计算为标准偏差与平均值的比率：CV＝。将中位数绝对偏差(MAD)计算为管家基因之间变异性的稳健度量。将其定义为与中位数(m)的绝对偏差的中位数：MAD＝中位数(|xi-m|)。

二级分析流程

对于来自多组学工作流程的基因组级分的基于DNA的分析，利用了从Sentieon基于驱动因子的工具修改而来的内部分析流程。使用fastp(v0.20.1)对初始FASTQ对的低质量和文库伪影进行了修整。使用BWA(Sentieon-202112)进行了比对，随后对相同比对的读段进行了重复数据删除(locus_collector v202112/dedup v202112)。基于比对的QC和覆盖率确定是(driver_metrics v202010)。使用ginko⁴⁶(GitHub提交：892b2e9f851f71a491cade6297f74f09f17acf4c)进行拷贝数判定，窗口大小为500kb。用单倍型分析仪(v202010)进行了细胞水平的变体判定。提供了所有变体的特征，以便根据VARcall，GVCFtyper(v202010)对变体质量得分进行重新校准。使用snpEFF/SnpSIFT(5.0e)进行针对基因/编码效应的所有变体鉴定和注释。进一步基于变体的三级分析使用测序深度>4和>1变体读段候选SNV的经过滤的基因组基因座。根据等位基因频率对所有候选SNV进行分类。

将这里实施的RNA-Seq流程用于在转录物和基因水平上产生特征量化的度量。关于DNA臂(a)和RNA臂(b)产生的读段数量和长度的详细信息，参见表1。除非指定为向下取样(使用seqtk v1.3)，否则每次分析都利用所有读段。为了去除低质量切片和测序伪影，在比对之前使用fastp对所有细胞进行分析。用STAR(v 2.7.6a)进行读段的比对，并且将其与结合Ensembl(版本104)已知转录物和非编码形成的转录物参考进行比较。用HTSeq4949(v0.13.5)和Salmon5050(v1.6.0)进行基因水平度量的区域分配和比对读段的计数。此外，将在Salmon中实现的伪比对算法用于进行转录物水平和基因水平两者的定量。使用Bioconductor包tximport构建特征表达矩阵。

三级分析

大量数据集鉴定

在短读段档案(Short Read Archive，SRA)中鉴定了几个数据集，其在mRNA-链RNA文库制备方法中具有大量NA12878，这与我们自己的多组学方法是最相似的。为了处理单个数据集的变异，将至少10个数据集作为捕获的目标，这些数据集可以代表NA12878的转录组覆盖范围。

NA12878细胞中的变体评价

对于NA12878细胞，首先利用来自Sentieon的GVCFTyper、VarCal和ApplyVarCal模块对其进行首次联合基因分型。然后，输入重新校准的变体并评价变体质量得分对数几率(VQSLOD)，通过采用来自RTG工具的vcfeval模块，使用来自瓶内基因组(GIAB)联盟⁵²的NA12878/HG001基因组v.3.3.2⁵¹作为参照，确定了被判定SNP的精确度和灵敏度。

NA12878细胞中的等位基因平衡

使用基于一系列bcftools命令的临时开发的模块计算了NA12878细胞的等位基因平衡，所述模块从所有测序的NA12878细胞中提取先验定义的高度可信杂合位点，在GIABNA12878/HG001基因组v.3.3.2中报告。然后，对于每个细胞和每个杂合位点，提取变异等位基因深度并转换成比例。对于最终报告，使用至少总深度>1的杂合位点。

RNA臂：矩阵归一化

对于MOLM-13和DCIS细胞，利用对数标准方法跨特征归一化其相应的基于Salmon的转录物和基因矩阵。简而言之，每个细胞的特征计数除以该细胞的总计数，乘以比例因子(10⁴)，其乘积最终经过log2转换。将这些归一化矩阵用作下游分析的输入，包括主成分分析(PCA)、差异转录物表达(DTE)、差异基因表达(DGE)、差异转录物使用(DTU)、热图重建，包括细胞和转录物/基因的无监督聚类以及将转录物表达与CNV和SNV联系起来的零膨胀线性模型。

主成分分析

MOLM-13和DCIS归一化转录物水平和基因水平矩阵在使用R函数标度的特征内在样品中居中。此外，使用来自ohchibi R包的oh.pca函数计算了主成分分析，将居中的归一化矩阵作为输入。

差异表达

估计了差异转录物表达，并且将利用在MAST⁵³ R包中实施的零膨胀线性模型(ZLM)的差异基因表达作为上述对数归一化特征矩阵的输入。对于MOLM-13数据集，以下模型适于鉴定亲代细胞和抗性细胞中具有差异表达特征的转录物/基因：转录物/基因表达～细胞类型(亲代/抗性)+每个细胞检测到的特征(转录物/基因)数量

对于DCIS数据集，使用跨数据集的前500个高度可变的基因进行主成分分析，然后使用PCA投影作为指导将细胞分成三组。将这种三组方案用于以无偏倚的方式离散化EpCAM高和EpCAM低处理中的细胞异质性。在将细胞分成三组后，以下ZLM适于鉴定在前述各组中具有差异表达特征的转录物/基因：转录物/基因表达～细胞组+每个细胞检测到的特征(转录物/基因)数量

细胞分型

使用R包SingleR⁵⁴对DCIS数据集进行基于转录组的细胞分型，所述包利用存储在celldex⁵⁴ R包中的人类原代细胞图谱表达参考数据集，并将基因水平归一化表达基于salmon的矩阵作为输入。

差异转录物使用

对于MOLM-13数据集，进行了差异转录物使用。简而言之，取来自tximport的scaledTPM度量输出，并且将其重建为跨细胞的转录物丰度矩阵。接下来，使用DRIMSeq R包中实现的Dirichlet多项式分布模型对转录物表达进行建模。

将转录物表达与CNV联系起来

对于MOLM-13数据集，利用零膨胀线性模型框架，将表达的转录物水平变异与基因座倍性的变化联系起来。简而言之，对于每个量化的转录物，通过利用GenomicRanges R包，采用基因组坐标交叉，从基于Ginkgo的估计中跨细胞提取其倍性。接下来，拟合了利用MASTR包的以下ZLM设计：转录物表达～给定基因座处的估计倍性。

将转录物表达与基因组多态性联系起来

对于MOLM-13数据集，利用零膨胀线性模型框架，将表达的转录物水平变异与整个基因组的单核苷酸变异联系起来。简而言之，首先经由GenomicRanges R包，利用基因组坐标交叉将SNV的基因组坐标与转录物配对。关于转录物坐标，将Ensembl报告的转录物开始和转录物结束用于定义转录物的基因体，此外将Ensembl报告的转录起始位点(TSS)上游的5000bp用于定义影响转录物的潜在顺式调控性区域。在定义了相应的SNV-转录物对后，构建了所有细胞的表达和基因型基因座(SNV)的矩阵。最后，利用该矩阵，使用具有以下设计的MAST R包拟合了零膨胀线性模型：转录物表达～基因型

将GSEA-R工具与分子特征数据库(MSigDB)结合使用，以对与Molm-13亲代细胞和抗性细胞以及显著SNV中差异表达的基因相关的富集基因组进行系统检查。此外，使用默认的调整p值0.10，将Reactome Pathways数据库用于寻找这些基因之间的相关通路。

重要变体测试

为了鉴定Molm13 P和R细胞之间的不同SNV，产生了二倍体状态的分类变量，并与卡方检验进行了比较。小于0.05的双侧p值被视为显著。此外，拟合了多项逻辑回归以鉴定亲代和抗性MOLM-13型中SNV普遍性的差异。具体地，对于每个SNP，将三种状态基因型(0/0、0/1、1/1)编码为因变量，并且将MOLM-13型(亲代，抗性)编码为自变量。模型的显著性使用Wald测试进行测试。

在肿瘤学中的两种主要现象的背景下应用多组学：肿瘤异质性(导致癌症进展)和治疗抗性。将来自原代患者乳腺癌和急性髓性白血病(AML)细胞系MOLM-13的材料用于强调通过这种化学方法实现的多组学生物标志物范例。PTA启动的基因组扩增的性能很大程度上不受添加RNA富集的影响，其中对照WGS结果显示>95％的基因组覆盖率，精确度>0.99，以及等位基因脱落<15％。在化学的RNA级分中，常规地获得全长转录物，证明5’/3’偏倚的比率为1，同时内含子区域和5’区域的覆盖率增加，表明新型转录物，从而显示模板切换机制的强度以<75％的稀疏率捕获同种型信息。尽管采用了相对少数量的个体细胞，但在基因组和转录组两者中观察到了揭示的生物标志物的细胞变异性。在我们的导管原位癌(DCIS)/浸润性导管癌(IDC)的原代患者样品中，发现了致癌的PIK3CA驱动因子突变，并且原型DCIS拷贝数改变被归入基因组病变的异质性单细胞类别。在我们的奎扎替尼治疗的MOLM-13细胞中，在看似偶发性的变化中鉴定了多种潜在的抗性机制，并且能够将与治疗显著相关的特定突变、拷贝数和表达联系起来。在后一种情况下，我们的组合工作流程的DNA臂发现了二级FLT3(非内部串联重复(ITD))突变，作为对药物抗性的候选主要驱动因子，而RNA臂显示了AXL信号转导以及增强子因子调节的匹配转录物上调。重要的是，在CDS之外的近端候选调控性SNV被鉴定并与顺式上调的转录物相关。这项研究强调，基因组和转录组两者都是动态的，从而导致一系列影响细胞进化的组合变化，并且可以通过对个体细胞应用多组学来鉴定命运。

实施例3：尿嘧啶耐受聚合酶用于改善多组学的用途

遵循实施例1-2的一般方法，使用逆转录从单细胞RNA产生了cDNA。使用生物素化的聚dT引物产生了cDNA扩增子。接下来，使用PTA方法扩增来自细胞的基因组DNA，其中dNTP的混合物包含尿嘧啶。然后使用链霉亲和素从混合物中纯化了cDNA，并进一步用尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII处理，以从cDNA中除去任何残留的基因组扩增子。然后纯化了由PTA产生的基因组片段，并且使用衔接子连接将cDNA和基因组DNA两种级分转化为测序就绪的文库。将尿嘧啶耐受聚合酶用于扩增PTA产生的基因组片段。

实施例4：用尿嘧啶耐受聚合酶制备转座子文库

对实施例3的一般程序进行修改：通过用本文所述的转座子复合物(例如，TDE1)标记基因组和/或cDNA片段来制备测序就绪的文库。在使用转座子复合物标记衔接子后，文库被扩增。对于含尿嘧啶的文库(例如，基因组PTA文库)，使用了尿嘧啶耐受聚合酶。然后对两个衔接子标记的文库进行测序。

Claims

1.一种多组学样品制备的方法，所述方法包括：

a.从细胞群体中分离单细胞，其中所述单细胞包含RNA和基因组DNA；

b.通过RT-PCR扩增所述RNA以产生cDNA文库；

c.使所述基因组DNA与至少一种扩增引物、至少一种核酸聚合酶和核苷酸混合物接触，其中所述核苷酸混合物包含至少一种终止子核苷酸，所述至少一种终止子核苷酸终止聚合酶的核酸复制以产生基因组DNA文库和dUTP；以及

d.从所述基因组DNA文库中分离cDNA；

e.对所述cDNA文库和所述基因组DNA文库进行测序。

2.如权利要求1所述的方法，其中所述核苷酸混合物包含dATP、dCTP、dGTP和dTTP中的至少两种。

3.如权利要求1所述的方法，其中所述核苷酸混合物包含dATP、dCTP、dGTP、dTTP和dUTP。

4.如权利要求2所述的方法，其中dTTP与dUTP的比率为50:1至1:20。

5.如权利要求1所述的方法，其中所述cDNA文库中的多核苷酸中的至少一些包含条形码。

6.如权利要求1所述的方法，其中所述cDNA文库中的多核苷酸中的至少一些包含标记。

7.如权利要求1所述的方法，其中所述cDNA文库的至少90％的多核苷酸包含0.8至1.2的5’至3’偏倚。

8.如权利要求1所述的方法，其中分离包括通过与标记结合来捕获所述cDNA文库中的至少一些。

9.如权利要求1所述的方法，其中所述cDNA在纯化后至少90％不含所述基因组DNA文库。

10.如权利要求1所述的方法，其中所述cDNA在纯化后至少95％不含所述基因组DNA文库。

11.如权利要求1所述的方法，其中分离包括使所述cDNA文库与被配置为消化或去除所述基因组DNA文库的酶接触。

12.如权利要求11所述的方法，其中分离包括使所述cDNA文库与DNA糖基化酶接触。

13.如权利要求12所述的方法，其中分离包括使所述cDNA文库与DNA糖基化酶-裂解酶核酸内切酶VIII接触。

14.如权利要求11所述的方法，其中所述cDNA文库与所述酶的接触发生在固体支持物上。

15.如权利要求1所述的方法，其中所述方法还包括向所述cDNA文库和所述基因组DNA文库中的一种或多种添加衔接子。

16.如权利要求15所述的方法，其中衔接子的添加包括与连接酶接触。

17.如权利要求15所述的方法，其中衔接子的添加包括与转座酶或其复合物接触。

18.如权利要求17所述的方法，其中所述转座酶或其复合物包含Tn5。

19.如权利要求15所述的方法，其中衔接子的添加包括与聚合酶和一种或多种引物接触。

20.如权利要求1所述的方法，其中在测序之前扩增所述基因组DNA文库。

21.如权利要求1所述的方法，其中所述基因组DNA文库用尿嘧啶耐受聚合酶扩增。

22.如权利要求21所述的方法，其中所述尿嘧啶耐受聚合酶包括来自酿酒酵母的DNA聚合酶ε和δ，以及大肠杆菌DNA聚合酶III、PolA型聚合酶、KAPA HiFi尿嘧啶+DNA聚合酶(Q5U)、KOD Multi&EpiDNA聚合酶、Taq、Taq2000、FailSafe酶或PhusionU。

23.如权利要求1所述的方法，其中分离包括核裂解/变性。

24.如权利要求1所述的方法，其中所述cDNA文库包括50-300ng的DNA。

25.如权利要求1所述的方法，其中所述cDNA文库包括包含细胞条形码或样品条形码的多核苷酸。

26.如权利要求1所述的方法，其中所述cDNA文库包括对应于至少2000个基因的多核苷酸。

27.如权利要求1所述的方法，其中扩增所述cDNA文库包括与经标记的引物接触。

28.如权利要求1所述的方法，其中所述基因组DNA文库包括0.5-2.5ng的DNA。

29.如权利要求1所述的方法，其中所述单细胞包括NA12878对照。

30.如权利要求1所述的方法，其中所述单细胞是原代细胞。

31.如权利要求1所述的方法，其中所述单细胞源自肝脏、皮肤、肾脏、血液或肺。

32.如权利要求1所述的方法，其中所述单细胞是癌细胞、神经元、神经胶质细胞或胎儿细胞。

33.如权利要求1所述的方法，其中所述基因组DNA文库由2-15个扩增循环产生。

34.如权利要求1所述的方法，其中所述基因组DNA文库包含长度为250-1500个碱基的多核苷酸。

35.如权利要求1所述的方法，其中所述基因组DNA文库包含70％-95％的等位基因平衡。

36.如权利要求1所述的方法，其中所述基因组DNA文库包含至少0.85％的SNV灵敏度。

37.如权利要求1所述的方法，其中所述基因组DNA文库包含至少0.95％的SNV精确度。

38.如权利要求1所述的方法，其中所述方法还包括分析所述单细胞中一种或多种表达的蛋白质。

39.如权利要求1所述的方法，其中所述方法还包括分析来自所述单细胞的一种或多种基因组甲基化模式。

40.如权利要求1所述的方法，其中至少98％的多核苷酸包含终止子核苷酸。

41.如权利要求1所述的方法，其中所述终止子核苷酸附接至所述至少一些多核苷酸的3’末端。

42.如权利要求1所述的方法，其中所述终止子包括不可逆终止子。

43.如权利要求1所述的方法，其中所述不可逆终止子对核酸外切酶活性具有抗性。

44.如权利要求1所述的方法，其中所述不可逆终止子对3’-5核酸外切酶活性具有抗性。

45.如权利要求1所述的方法，其中所述终止子核苷酸包括腺嘌呤、鸟嘌呤、胱氨酸或胸腺嘧啶。

46.如权利要求1所述的方法，其中所述终止子核苷酸不包含尿苷。

47.如权利要求1所述的方法，其中所述终止子核苷酸选自带有α基团修饰的核苷酸、C3间隔子核苷酸、锁核酸(LNA)、反向核酸、2’氟核苷酸、3’磷酸化核苷酸、2’-O-甲基修饰的核苷酸和反式核酸。

48.如权利要求47所述的方法，其中所述带有α基团修饰的核苷酸是α-硫代双脱氧核苷酸。

49.如权利要求1所述的方法，其中所述终止子核苷酸包括脱氧核糖的3’碳的r基团的修饰。

50.如权利要求1所述的方法，其中所述终止子核苷酸选自含有核苷酸的3’封闭的可逆终止子、含有核苷酸的3’未封闭的可逆终止子、含有脱氧核苷酸的T修饰的终止子、含有对脱氧核苷酸的含氮碱基的修饰的终止子，及其组合。

51.如权利要求1所述的方法，其中所述终止子核苷酸选自双脱氧核苷酸、反向双脱氧核苷酸、3’生物素化核苷酸、3’氨基核苷酸、3’-磷酸化核苷酸、3’-O-甲基核苷酸、包括3’C3间隔子核苷酸、3’C18核苷酸、3’己二醇间隔子核苷酸的3’碳间隔子核苷酸、无环核苷酸，及其组合。

52.如权利要求1所述的方法，其中所述核酸聚合酶是噬菌体phi29聚合酶、基因修饰的phi29(F29)DNA聚合酶、DNA聚合酶I的Klenow片段、噬菌体M2 DNA聚合酶、噬菌体phiPRDlDNA聚合酶、Bst DNA聚合酶、Bst大片段DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、VentRDNA聚合酶、VentR(exo-)DNA聚合酶、Deep Vent DNA聚合酶、DeepVent(exo-)DNA聚合酶、IsoPol DNA聚合酶、DNA聚合酶I、Therminator DNA聚合酶、T5 DNA聚合酶、测序酶、T7 DNA聚合酶、T7-测序酶或T4 DNA聚合酶。

53.如权利要求1所述的方法，其中所述核酸聚合酶包含3’->5’核酸外切酶活性，并且所述至少一种终止子核苷酸抑制所述3’->5’核酸外切酶活性。

54.如权利要求1所述的方法，其中所述核酸聚合酶不包含3’->5’核酸外切酶活性。

55.如权利要求1所述的方法，其中所述聚合酶是Bst DNA聚合酶、exo(-)Bst聚合酶、exo(-)Bca DNA聚合酶、Bsu DNA聚合酶、VentR(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Klenow片段(exo-)DNA聚合酶或Therminator DNA聚合酶。