CN117255856A

CN117255856A - 使用CAS-gRNA核糖核蛋白的基因组文库制备和靶向表观遗传测定

Info

Publication number: CN117255856A
Application number: CN202280020669.XA
Authority: CN
Inventors: A·肯尼迪; S·舒尔茨伯格; E·贝尔; O·米勒; K·施奈德; E·马斯格雷夫-布朗; N·戈姆利; A·斯莱特; F·陈
Original assignee: Illumina Cambridge Ltd; Illumina Inc
Current assignee: Illumina Cambridge Ltd; Illumina Inc
Priority date: 2021-03-09
Filing date: 2022-03-08
Publication date: 2023-12-19

Abstract

本文提供了使用Cas‑gRNA RNP的基因组文库制备和靶向表观遗传测定。一些组合物包含：来自第一物种的基本上仅单链多核苷酸；来自第二物种的基本上仅双链多核苷酸；以及连接到第二双链多核苷酸的末端且基本上不连接到第一双链多核苷酸的任何末端的扩增引物。一些组合物包含具有序列的靶多核苷酸的第一分子和第二分子，该第一分子在第一亚序列处具有第一末端，该第二分子在第二亚序列处具有第一末端，其中该第一亚序列仅部分地与该第二亚序列重叠。一些示例提供了包含靶多核苷酸和第一融合蛋白的组合物，该第一融合蛋白包含与偶联有扩增衔接子的转座酶偶联的Cas‑gRNA RNP。该Cas‑gRNA RNP可与该靶多核苷酸中的亚序列杂交。

Description

使用CAS-gRNA核糖核蛋白的基因组文库制备和靶向表观遗传测定

相关申请的交叉引用

本申请要求以下申请的权益，这些申请中的每个申请的全部内容以引用方式并入本文中：

2021年3月9日提交的名称为“Genomic library preparation and targetedepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/158,492；

2021年3月18日提交的名称为“Genomic library preparation and targetedepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/162,775；

2021年3月19日提交的名称为“Genomic library preparation and targetedepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/163,381；

2021年8月2日提交的名称为“Genomic library preparation and targetedepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/228,344；

2021年9月22日提交的名称为“Genomic library preparation and targetedepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/246,879；以及

2021年12月30日提交的名称为“Genomic library preparation and targetingepigenetic assays using Cas-gRNA ribonucleoproteins”的美国临时专利申请号63/295,432。

技术领域

本申请涉及使用Cas-gRNA RNP进行基因组文库制备和靶向表观遗传测定的组合物和方法。

关于序列表的声明

与本申请相关联的序列表以文本格式代替纸质副本提供，并且在此通过引用并入本说明书中。含有序列表的文本文件的名称被命名为8549102416_SL.txt。文本文件为约1.29KB、创建于2022年3月3日并且经由EFS-Web以电子方式提交。

背景技术

成簇规律间隔短回文重复序列(CRISPR)在许多细菌和古生菌中参与保护细胞免受噬菌体和接合型质粒侵害的干扰途径；参见例如，Marraffini等人，“CRISPRinterference:RNA-directed adaptive immunity in bacteria and archaea”，Nat RevGenet.，第11卷第3期：第181-190页，2010年，该文献的全部内容以引用方式并入本文。CRISPR序列包括短重复序列的阵列，这些短重复序列被通常源自噬菌体或质粒DNA的称为间隔区的类似大小的独特可变DNA序列间隔开；参见例如，以下参考文献，这些参考文献的全部内容以引用方式并入本文：Barrangou等人，“CRISPR provides acquiredresistances against viruses in prokaryotes”，Science，第315卷：第1709-1712页，2007年；Bolotin等人，“Clustered regularly interspersed short palindrome repeats(CRISPRs)have spacers of extrachromosomal origin”，Microbiology，第151卷：第2551-1561页，2005年；以及Mojica等人，“Intervening sequences of regularly spacedprokaryotic repeats derive from foreign genetic elements”，J Mol Evol.，第60卷：第174-182页，2005年。因此，CRISPR序列提供了既往感染的自适应、遗传记录，并且可转录成CRISPR RNA(crRNA)—靶向侵入性多核苷酸的小RNA(参见例如，上文引用的Marraffini等人)。CRISPR通常与编码与CRISPR相关的蛋白的CRISPR相关(Cas)基因相关联。Cas蛋白可提供用于破坏由crRNA靶向的入侵的外来多核苷酸的机制。CRISPR与Cas基因一起提供自适应免疫系统，该自适应免疫系统在细菌和古生菌中提供针对入侵的外来多核苷酸的获得性抗性(参见例如，上文引用的Barrangou等人)。

单分子测序研究已经提出用Cas9进行直接甲基化测序的CRISPR靶向方法；参见例如，Gilpatrick等人，“Targeted nanopore sequencing with Cas9for studies ofmethylation,structural variants and mutations”，https://doi.org/10.1101/604173，第1-14页，2019年，该文献的全部内容以引用方式并入本文。然而，除了DNA甲基化之外，对于能够灵敏地表征靶向DNA基因座处的表观遗传改变的方法仍存在尚未满足的需求。染色质可及性(通过ATAC-seq)和与DNA基因座相关联的蛋白(通过ChIP-seq)是采用现有杂交捕获技术难以靶向的表观遗传元件的示例。通常，DNA序列富集测定与表观遗传特征相关。然而，由于这些序列是先验未知的，因此设计适当的杂交捕获寡核苷酸以有效地富集表观遗传测定针对特定感兴趣的基因组区域(例如，基因组基因座)的输出具有挑战性。

已经提出使用失活Cas(dCas9)进行靶向基因座特异性蛋白分离以鉴定组蛋白基因调节因子的早期方法；参见例如，Tsui等人，“dCas9-targeted locus-specific proteinisolation method identifies histone gene regulators”，PNAS，第115卷第2期：第E2734-E2741页，2018年，该文献的全部内容以引用方式并入本文。此类方法表明，基于dCas9的基因座富集可分离染色质，该染色质随后可通过质谱法测定。然而，该方法仅允许在每次实验中测定单个染色质基因座。此外，该早期工作提供了两个独立的结果，即DNA基因座的序列和鉴定DNA相关联蛋白的质谱法。因此需要用于靶向基因座的表观遗传分析的改进方法。

发明内容

本文提供了使用Cas-gRNA核糖核蛋白(RNP)的基因组文库制备和靶向表观遗传测定。

本文中的一些示例提供了一种处理来自第一物种的第一双链多核苷酸和来自第二物种的第二双链多核苷酸的混合物的方法，该方法可包括保护第一双链多核苷酸的末端和第二双链多核苷酸的任何末端。该方法可包括在保护第一双链多核苷酸和第二双链多核苷酸的末端之后，在第一双链多核苷酸内选择性地生成游离末端。该方法可包括从游离末端向受保护末端降解第一双链多核苷酸。

在一些示例中，在第一双链多核苷酸内选择性生成游离末端包括使CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与存在于第一双链多核苷酸内但不存在于第二双链多核苷酸内的序列杂交，以及用Cas-gRNA RNP切割序列。在一些示例中，序列包括哺乳动物特异性重复元件。在一些示例中，哺乳动物特异性重复元件包括人特异性重复元件。在一些示例中，第二物种是细菌、真菌或病毒。在一些示例中，第一双链核苷酸包含来自第一物种的多个染色体。

在一些示例中，保护第一双链多核苷酸和第二双链多核苷酸的末端包括将发夹衔接子连接到末端。在一些示例中，保护第一双链多核苷酸和第二双链多核苷酸的末端包括将末端5'-去磷酸化。在一些示例中，保护第一双链多核苷酸和第二双链多核苷酸的末端包括将经修饰的碱基添加到末端。在一些示例中，经修饰的碱基包括硫代磷酸酯键。在一些示例中，使用末端转移酶来添加经修饰的碱基。

在一些示例中，使用核酸外切酶进行第一双链多核苷酸的降解。

在一些示例中，游离末端包括3'末端。在一些示例中，使用核酸外切酶III进行第一双链多核苷酸的降解。在一些示例中，游离末端包括5'末端。在一些示例中，使用λ核酸外切酶进行第一双链多核苷酸的降解。

在一些示例中，该方法还包括随后将扩增衔接子连接到混合物中任何剩余的双链多核苷酸的末端。在一些示例中，扩增衔接子包括独特分子标识符(UMI)。在一些示例中，该方法还包括随后扩增双链多核苷酸以及对这些双链多核苷酸进行测序。

在一些示例中，第一双链多核苷酸包括双链DNA。在一些示例中，第二双链多核苷酸包括双链DNA。在一些示例中，第二双链多核苷酸包括环状DNA。

在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种组合物。该组合物可包含来自第一物种的第一双链多核苷酸。第一双链多核苷酸的末端可受保护。该组合物可包含来自第二物种的第二双链多核苷酸。第二双链多核苷酸的任何末端均可受保护。该组合物还可包含与存在于第一双链多核苷酸内但不存在于第二双链多核苷酸内的序列杂交的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。Cas-gRNA RNP可用于切割序列以便在第一双链多核苷酸内选择性地生成游离末端。

在一些示例中，序列包括哺乳动物特异性重复元件。在一些示例中，哺乳动物特异性重复元件包括人重复元件。在一些示例中，第二物种是细菌、真菌或病毒。

在一些示例中，使用发夹衔接子保护第一双链多核苷酸和第二双链多核苷酸的末端。在一些示例中，使用5'-去磷酸化保护第一双链多核苷酸和第二双链多核苷酸的末端。在一些示例中，使用经修饰的碱基保护第一双链多核苷酸和第二双链多核苷酸的末端。在一些示例中，经修饰的碱基包括硫代磷酸酯键。

在一些示例中，游离末端包括3'末端。在一些示例中，游离末端包括5'末端。

在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种处理来自第一物种的第一双链多核苷酸和来自第二物种的第二双链多核苷酸的混合物的方法。该方法可包括选择性地使混合物中的第一双链多核苷酸成为单链。该方法可包括随后将扩增引物选择性地连接到混合物中任何剩余的双链多核苷酸。该方法可包括随后扩增混合物中连接到扩增引物的任何双链多核苷酸。

本文中的一些示例提供了一种组合物。该组合物可包含来自第一物种的基本上仅单链多核苷酸。该组合物可包含来自第二物种的基本上仅双链多核苷酸。该组合物可包含连接到第二双链多核苷酸的末端且基本上不连接到第一双链多核苷酸的任何末端的扩增引物。

本文中的一些示例提供了一种生成全基因组(WG)的片段的方法。该方法可包括在WG的第一样本内，将第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与WG中的第一序列杂交，这些第一序列彼此间隔开大约第一数目的碱基对。该方法还可包括在WG的第一样本内，将第二组Cas-gRNA RNP与WG中的第二序列杂交，这些第二序列彼此间隔开大约第二数目的碱基对。该方法还可包括在WG的第一样本内，分别用第一样本中的第一组Cas-gRNA RNP和第二组Cas-gRNA RNP切割第一序列和第二序列，以生成各自具有彼此大约相同数目的碱基对的第一组WG片段。

在一些示例中，碱基对的第一数目与碱基对的第二数目大致相同。在一些示例中，碱基对的第一数目为约100个至约2000个，并且碱基对的第二数目为约100个至约2000个。在一些示例中，碱基对的第一数目为约500个至约700个，并且碱基对的第二数目为约500个至约700个。在一些示例中，第一组WG片段中的WG片段中碱基对的数目变化小于约20％。

在一些示例中，该方法还包括在WG的第二样本内使第一组Cas-gRNA RNP与WG中的第一序列杂交。该方法还可包括在WG的第二样本内使第二组Cas-gRNA RNP与WG中的第二序列杂交。该方法还可包括在WG的第二样本内，将第三组Cas-gRNA RNP与WG中的第三序列杂交，这些第三序列彼此间隔开大约第三数目的碱基对。该方法还可包括在WG的第二样本内，分别用第一组Cas-gRNA RNP、第二组Cas-gRNA RNP和第三组Cas-gRNA RNP切割第一序列、第二序列和第三序列，以生成各自具有彼此大约相同数目的碱基对的第二组WG片段。

在一些示例中，碱基对的第三数目不同于碱基对的第一数目。在一些示例中，碱基对的第三数目不同于碱基对的第二数目。在一些示例中，碱基对的第三数目为约100个至约2000个。在一些示例中，碱基对的第三数目为约200个至约400个。在一些示例中，第二组WG片段中的WG片段中碱基对的近似数目不同于第一组WG片段中的WG片段中碱基对的近似数目。在一些示例中，第二组WG片段中的WG片段中碱基对的数目变化小于约20％。

在一些示例中，该方法还包括在WG的第二样本内使第一组Cas-gRNA RNP、第二组Cas-gRNA RNP或第三组Cas-gRNA RNP分别与WG中的第一序列、第二序列或第三序列杂交。该方法还可包括分别用第一组Cas-gRNA RNP、第二组Cas-gRNA RNP或第三组Cas-gRNA RNP切割第一序列、第二序列或第三序列，以生成各自具有彼此大约相同数目的碱基对的第三组WG片段。

在一些示例中，第三组WG片段中的WG片段中碱基对的近似数目不同于第一组WG片段中的WG片段中碱基对的近似数目。在一些示例中，第三组WG片段中的WG片段中碱基对的近似数目不同于第二组WG片段中的WG片段中碱基对的近似数目。在一些示例中，第三组WG片段中的WG片段中碱基对的数目变化小于约20％。

在一些示例中，该方法还包括将扩增衔接子连接到第三组WG片段中的WG片段的末端。该方法还可包括生成连接有扩增衔接子的第三组WG片段中的WG片段的扩增子。该方法还可包括对第三组WG片段中的WG片段的扩增子进行测序。在一些示例中，将第二组WG片段和第三组WG片段中的WG片段的扩增子混合在一起进行测序。在一些示例中，将第一组WG片段和第三组WG片段中的WG片段的扩增子混合在一起进行扩增和测序。

在一些示例中，第三组WG片段中的WG片段中碱基对的数目为约100个至约1000个。在一些示例中，第三组WG片段中的WG片段中碱基对的数目为约500个至约700个。

在一些示例中，第三组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNARNP。

在一些示例中，该方法还包括将扩增衔接子连接到第二组WG片段中的WG片段的末端。该方法还可包括生成连接有扩增衔接子的第二组WG片段中的WG片段的扩增子。该方法还可包括对第二组WG片段中的WG片段的扩增子进行测序。

在一些示例中，将第一组WG片段和第二组WG片段中的WG片段的扩增子混合在一起进行扩增和测序。

在一些示例中，第二组WG片段中的WG片段中碱基对的数目为约100个至约1000个。在一些示例中，第二组WG片段中的WG片段中碱基对的数目为约100个至约200个。

在一些示例中，该方法还包括将扩增衔接子连接到第一组WG片段中的WG片段的末端。该方法还可包括生成连接有扩增衔接子的第一组WG片段中的WG片段的扩增子。该方法还可包括对第一组WG片段中的WG片段的扩增子进行测序。

在一些示例中，扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，第一组WG片段中的WG片段中碱基对的数目为约100个至约1000个。在一些示例中，第一组WG片段中的WG片段中碱基对的数目为约200个至约400个。

在一些示例中，第一组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNARNP。在一些示例中，第二组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

在一些示例中，WG包括双链DNA。在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种组合物。该组合物可包含全基因组(WG)的样本。该组合物可包含与WG中的第一序列杂交的第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，这些第一序列彼此间隔开大约第一数目的碱基对。该组合物可包含与WG中的第二序列杂交的第二组Cas-gRNA RNP，这些第二序列彼此间隔开大约第二数目的碱基对。第一组Cas-gRNA RNP和第二组Cas-gRNA RNP可分别用于切割样本内的第一序列和第二序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

在一些示例中，碱基对的第一数目与碱基对的第二数目大致相同。在一些示例中，碱基对的第一数目为约100个至约2000个，并且碱基对的第二数目为约100个至约2000个。在一些示例中，碱基对的第一数目为约500个至约700个，并且碱基对的第二数目为约500个至约700个。

在一些示例中，WG片段中碱基对的数目变化小于约20％。在一些示例中，WG片段中碱基对的数目为约100个碱基对至约1000个碱基对。在一些示例中，WG片段中碱基对的数目为约200个碱基对至约400个碱基对。

在一些示例中，WG包括双链DNA。在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种组合物。该组合物可包含全基因组(WG)的样本。该组合物可包含与WG中的第一序列杂交的第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，这些第一序列彼此间隔开大约第一数目的碱基对。该组合物可包含与WG中的第二序列杂交的第二组Cas-gRNA RNP，这些第二序列彼此间隔开大约第二数目的碱基对。该组合物可包含与WG中的第三序列杂交的第三组Cas-gRNA RNP，这些第三序列彼此间隔开大约第三数目的碱基对。第一组Cas-gRNA RNP、第二组Cas-gRNA RNP和第三组Cas-gRNA RNP可分别用于切割样本内的第一序列、第二序列和第三序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

在一些示例中，碱基对的第一数目与碱基对的第二数目大致相同。在一些示例中，碱基对的第一数目为约100个至约2000个，碱基对的第二数目为约100个至约2000个，并且碱基对的第三数目为约100个至约2000个。在一些示例中，碱基对的第一数目为约500个至约700个，碱基对的第二数目为约500个至约700个，并且碱基对的第三数目为约200个至约400个。在一些示例中，碱基对的第三数目不同于碱基对的第一数目。在一些示例中，碱基对的第三数目不同于碱基对的第二数目。

在一些示例中，WG片段中碱基对的数目变化小于约20％。在一些示例中，WG片段中碱基对的数目为约100个至约1000个。在一些示例中，WG片段中碱基对的数目为约100个至约200个。

在一些示例中，第一组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNARNP。在一些示例中，第二组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。在一些示例中，第三组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

在一些示例中，WG包括双链DNA。在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种生成全基因组(WG)的片段的方法。该方法可包括将一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与WG中的序列杂交，这些序列彼此间隔开大约一定数目的碱基对。该方法可包括分别用该组Cas-gRNA RNP切割序列，以生成各自具有彼此大约相同数目的碱基对的一组WG片段。

在一些示例中，碱基对的数目为约100个至约1000个。在一些示例中，碱基对的数目为约500个至约700个，或为约200个至约400个，或为约100个至约200个。

在一些示例中，该组WG片段中的WG片段中碱基对的数目变化小于约20％。在一些示例中，该组WG片段中的WG片段中碱基对的数目为约100个至约1000个。在一些示例中，该组WG片段中的WG片段中碱基对的数目为约100个至约200个，或为约200个至约400个，或为约500个至约700个。

在一些示例中，该方法还包括将扩增衔接子连接到该组WG片段中的WG片段的末端。该方法还可包括生成连接有扩增衔接子的该组WG片段中的WG片段的扩增子。该方法还可包括对该组WG片段中的WG片段的扩增子进行测序。

在一些示例中，扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，WG包括双链DNA。在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种组合物。该组合物可包含全基因组(WG)的样本。该组合物可包含与WG中的序列杂交的一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)，这些序列彼此间隔开大约一定数目的碱基对。该组Cas-gRNA RNP可分别用于切割样本内的序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

在一些示例中，WG包括双链DNA。在一些示例中，Cas包括Cas9。

本文中的一些示例提供了一种组合物。该组合物可包含一组各自具有彼此大约相同数目的碱基对的至少约1,000,000个WG片段。

在一些示例中，碱基对的数目为约100个至约200个。在一些示例中，碱基对的数目为约200个至约400个。在一些示例中，碱基对的数目为约500个至约700个。

在一些示例中，WG包括双链DNA。

在一些示例中，该组WG片段中的WG片段中碱基对的数目变化小于约20％。在一些示例中，该组WG片段中的WG片段中碱基对的数目变化小于约10％。在一些示例中，该组WG片段中的WG片段中碱基对的数目变化小于约5％。

这种组合物可根据诸如上述的方法制备。

本文中的一些示例提供了一种切割具有序列的靶多核苷酸的分子的方法。该方法可包括在流体中使靶多核苷酸的第一分子和第二分子与多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)和第二Cas-gRNA RNP接触。该方法可包括将第一Cas-gRNA RNP中的一个Cas-gRNA RNP与第一分子中的第一亚序列杂交。该方法可包括将第二Cas-gRNARNP中的一个Cas-gRNA RNP与第二分子中的第二亚序列杂交。第二亚序列可仅部分地与第一亚序列重叠。该方法可包括通过第一Cas-gRNA RNP中的该一个Cas-gRNA RNP抑制第二Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第二亚序列杂交。该方法可包括通过第二Cas-gRNA RNP中的该一个Cas-gRNA RNP抑制第一Cas-gRNA RNP中的任何Cas-gRNARNP与第二分子中的第一亚序列杂交。该方法可包括在第一亚序列处切割第一分子。该方法可包括在第二亚序列处切割第二分子。

在一些示例中，第一分子中的切口在靶多核苷酸的序列中的位置与第二分子中的切口不同。在一些示例中，第一分子中的切口与第二分子中的切口在靶多核苷酸的序列中偏移约两个碱基对至约十个碱基对。

在一些示例中，使用第一Cas-gRNA RNP中的该一个Cas-gRNA RNP切割第一分子，并且使用第二Cas-gRNA RNP中的该一个Cas-gRNA RNP切割第二分子。

在一些示例中，靶多核苷酸包括双链DNA。在一些示例中，Cas包括Cas9或dCas9。

在一些示例中，该方法还包括在流体中使靶多核苷酸的第一分子和第二分子与多个第三Cas-gRNA RNP和第四Cas-gRNA RNP接触。该方法还可包括将第三Cas-gRNA RNP中的一个Cas-gRNA RNP与第一分子中的第三亚序列杂交。该方法还可包括通过第三Cas-gRNARNP中的该一个Cas-gRNA RNP抑制第四Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第四亚序列杂交。第四亚序列可仅部分地与第三亚序列重叠。该方法可包括使用第三Cas-gRNA RNP中的该一个Cas-gRNA RNP在第三亚序列处切割第一分子以生成第一片段。

在一些示例中，该方法还包括在流体中使靶多核苷酸的第一分子和第二分子与多个第三Cas-gRNA RNP和第四Cas-gRNA RNP接触。该方法可包括将第四Cas-gRNA RNP中的一个Cas-gRNA RNP与第一分子中的第四亚序列杂交。该方法可包括通过第四Cas-gRNA RNP中的该一个Cas-gRNA RNP抑制第三Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第三亚序列杂交。该方法可包括使用第四Cas-gRNA RNP中的该一个Cas-gRNA RNP在第四亚序列处切割第一分子以生成第一片段。

在一些示例中，该方法还包括将第三Cas-gRNA RNP中的一个Cas-gRNA RNP与第二分子中的第三亚序列杂交。该方法还可包括通过第三Cas-gRNA RNP中的该一个Cas-gRNARNP抑制第四Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第四亚序列杂交。该方法还可包括使用第三Cas-gRNA RNP中的该一个Cas-gRNA RNP在第三亚序列处切割第二分子以生成第二片段。

在一些示例中，该方法还包括将第四Cas-gRNA RNP中的一个Cas-gRNA RNP与第二分子中的第四亚序列杂交。该方法还可包括通过第四Cas-gRNA RNP中的该一个Cas-gRNARNP抑制第三Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第三亚序列杂交。该方法还可包括使用第四Cas-gRNA RNP中的该一个Cas-gRNA RNP在第四亚序列处切割第二分子以生成第二片段。

在一些示例中，该方法还包括，当第一Cas-gRNA RNP中的该一个Cas-gRNA RNP和第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP与第一分子杂交时，降解第一分子的不位于第一Cas-gRNA RNP中的该一个Cas-gRNA RNP与第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP之间的任何部分。

在一些示例中，该方法还包括，当第二Cas-gRNA RNP中的该一个Cas-gRNA RNP和第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP与第二分子杂交时，降解第二分子的不位于第二Cas-gRNA RNP中的该一个Cas-gRNA RNP与第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP之间的任何部分。在一些示例中，使用核酸外切酶III或核酸外切酶VII进行降解。

在一些示例中，使用第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNARNP切割第一分子，并且使用第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNARNP切割第二分子。

在一些示例中，第一片段和第二片段包含彼此不同数目的碱基对。在一些示例中，第一片段具有约100个碱基对至约1000个碱基对的长度，并且第二片段具有约100个碱基对至约1000个碱基对的长度。在一些示例中，第一片段具有约500个碱基对至约700个碱基对的长度，并且第二片段具有约500个碱基对至约700个碱基对的长度。在一些示例中，第一片段具有约200个碱基对至约400个碱基对的长度，并且第二片段具有约200个碱基对至约400个碱基对的长度。在一些示例中，第一片段具有约100个碱基对至约200个碱基对的长度，并且第二片段具有约100个碱基对至约200个碱基对的长度。

本文中的一些示例提供一种对靶多核苷酸测序的方法。该方法可包括使用上述方法生成靶多核苷酸的第一片段和第二片段。该方法还可包括将扩增衔接子连接到第一片段和第二片段的末端。该方法还可包括分别生成连接有扩增衔接子的第一片段和第二片段的扩增子。该方法还可包括对第一片段和第二片段的扩增子进行测序。

在一些示例中，该方法还包括使用第一亚序列、第二亚序列、第三亚序列和第四亚序列，将第一片段的扩增子鉴定为源自第一分子，并且将第二片段的扩增子鉴定为源自第二分子。

在一些示例中，该方法还包括在生成扩增子之前将独特分子标识符(UMI)连接到第一片段和第二片段的末端。该方法还可包括使用UMI，将第一片段的扩增子鉴定为源自第一分子，并且将第二片段的扩增子鉴定为源自第二分子。在一些示例中，在与扩增衔接子相同的操作中，将UMI偶联到并连接到第一片段和第二片段的末端。

本文中的一些示例提供了一种组合物。该组合物可包含具有序列的靶多核苷酸的第一分子和第二分子。该组合物可包含多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)和第二Cas-gRNA RNP。第一Cas-gRNA RNP中的一个Cas-gRNA RNP可与第一分子中的第一亚序列杂交，并且可抑制第二Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第二亚序列杂交。第二亚序列可仅部分地与第一亚序列重叠。第二Cas-gRNA RNP中的一个Cas-gRNA RNP可与第二分子中的第二亚序列杂交，并且可抑制第一Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第一亚序列杂交。

在一些示例中，第一Cas-gRNA RNP中的该一个Cas-gRNA RNP用于切割第一分子，并且第二Cas-gRNA RNP中的该一个Cas-gRNA RNP用于切割第二分子。

在一些示例中，该组合物还包含多个第三Cas-gRNA RNP和第四Cas-gRNA RNP。第三Cas-gRNA RNP中的一个Cas-gRNA RNP可与第一分子中的第三亚序列杂交，可抑制第四Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第四亚序列杂交，并且可用于在第三亚序列处切割第一分子以生成第一片段。第四亚序列可仅部分地与第三亚序列重叠。

在一些示例中，该组合物还包含多个第三Cas-gRNA RNP和第四Cas-gRNA RNP。第四Cas-gRNA RNP中的一个Cas-gRNA RNP可与第一分子中的第四亚序列杂交，可抑制第三Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第三亚序列杂交，并且可用于在第四亚序列处切割第一分子以生成第一片段。第四亚序列可仅部分地与第三亚序列重叠。

在一些示例中，第三Cas-gRNA RNP中的一个Cas-gRNA RNP可与第二分子中的第三亚序列杂交，可抑制第四Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第四亚序列杂交，并且可用于在第三亚序列处切割第二分子以生成第二片段。

在一些示例中，第四Cas-gRNA RNP中的一个Cas-gRNA RNP可与第二分子中的第四亚序列杂交，可抑制第三Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第三亚序列杂交，并且可用于在第四亚序列处切割第二分子以生成第二片段。

在一些示例中，该组合物还包含用于降解第一分子的不位于第一Cas-gRNA RNP中的该一个Cas-gRNA RNP与第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNARNP之间的任何部分的核酸外切酶。

在一些示例中，该组合物还包含用于降解第二分子的不位于第二Cas-gRNA RNP中的该一个Cas-gRNA RNP与第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNARNP之间的任何部分的核酸外切酶。

在一些示例中，核酸外切酶包括核酸外切酶III或核酸外切酶VII。

在一些示例中，第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP用于切割第一分子，并且第三Cas-gRNA RNP或第四Cas-gRNA RNP中的该一个Cas-gRNA RNP用于切割第二分子。

本文中的一些示例提供了一种组合物。该组合物可包含具有序列的靶多核苷酸的第一分子和第二分子。第一分子可在第一亚序列处具有第一末端。第二分子可在第二亚序列处具有第一末端。第一亚序列可仅部分地与第二亚序列重叠。

在一些示例中，第一分子的第一末端在靶多核苷酸的序列中的位置与第二分子的第一末端不同。在一些示例中，第一分子的第一末端与第二分子的第一末端在靶多核苷酸的序列中偏移约两个碱基对至约十个碱基对。

在一些示例中，第一分子还在第三亚序列处具有第二末端。第二分子还可在第三亚序列处或在第四亚序列处具有第二末端。第三亚序列可仅部分地与第四亚序列重叠。在一些示例中，第一分子的第二末端在靶多核苷酸的序列中的位置与第二分子的第二末端不同。在一些示例中，第一分子的第二末端与第二分子的第二末端在靶多核苷酸的序列中偏移约两个碱基对至约十个碱基对。

在一些示例中，靶多核苷酸包括双链DNA。

在一些示例中，第一分子和第二分子包含彼此不同数目的碱基对。在一些示例中，第一分子具有约100个碱基对至约1000个碱基对的长度，并且第二分子具有约100个碱基对至约1000个碱基对的长度。在一些示例中，第一片段具有约500个碱基对至约700个碱基对的长度，并且第二片段具有约500个碱基对至约700个碱基对的长度。在一些示例中，第一片段具有约200个碱基对至约400个碱基对的长度，并且第二片段具有约200个碱基对至约400个碱基对的长度。在一些示例中，第一片段具有约100个碱基对至约200个碱基对的长度，并且第二片段具有约100个碱基对至约200个碱基对的长度。

本文中的一些示例提供了一种生成具有序列的靶多核苷酸的片段的方法。该方法可包括在流体中使靶多核苷酸与第一融合蛋白和第二融合蛋白接触。第一融合蛋白可包含与第一转座酶偶联的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，该第一转座酶偶联有第一扩增衔接子。第二融合蛋白可包含与第二转座酶偶联的第二Cas-gRNARNP，该第二转座酶偶联有第二扩增衔接子。该方法可包括在促进第一Cas-gRNA RNP和第二Cas-gRNA RNP的活性并抑制第一转座酶和第二转座酶的活性的同时，使第一Cas-gRNA RNP与靶多核苷酸中的第一亚序列杂交，以及使第二Cas-gRNA RNP与靶多核苷酸中的第二亚序列杂交。然后该方法可包括在促进第一转座酶和第二转座酶的活性的同时，使用第一转座酶将第一扩增衔接子添加到靶多核苷酸中的第一位置，并且使用第二转座酶将第二扩增衔接子添加到靶多核苷酸中的第二位置。

在一些示例中，使用流体的第一条件促进Cas-gRNA RNP的活性并且抑制转座酶的活性。在一些示例中，流体的第一条件包括存在足够量的用于Cas-gRNA RNP活性的钙离子、锰离子或钙离子和锰离子两者。在一些示例中，流体的第一条件包括不存在足够量的用于转座酶活性的镁离子。

在一些示例中，使用流体的第二条件促进转座酶的活性。在一些示例中，流体的第二条件包括存在足够量的用于转座酶活性的镁离子。

在一些示例中，该方法还包括在第一融合蛋白的Cas-gRNA RNP与第一亚序列杂交并且第二融合蛋白的Cas-gRNA RNP与第二亚序列杂交时，降解靶多核苷酸的不位于第一融合蛋白的Cas-gRNA RNP和第二融合蛋白的Cas-gRNA RNP之间的任何部分。在一些示例中，使用核酸外切酶III或核酸外切酶VII进行降解。

在一些示例中，该方法还包括从第一融合蛋白和第二融合蛋白中释放靶多核苷酸以提供在一个末端具有第一扩增衔接子并且在另一末端具有第二扩增衔接子的靶多核苷酸的片段。在一些示例中，使用蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者进行释放。

在一些示例中，片段具有约100个碱基对至约1000个碱基对的长度。在一些示例中，片段具有约500个碱基对至约700个碱基对的长度。在一些示例中，片段具有约200个碱基对至约400个碱基对的长度。在一些示例中，片段具有约100个碱基对至约200个碱基对的长度。

在一些示例中，Cas包括dCas9。在一些示例中，转座酶包括Tn5。

在一些示例中，第一扩增衔接子包括P5衔接子，并且第二扩增衔接子包括P7衔接子。

在一些示例中，第一扩增衔接子包括第一独特分子标识符(UMI)，并且第二扩增衔接子包括第二UMI。

在一些示例中，第一位置在第一亚序列的约10个碱基内，并且第二位置在第二亚序列的约10个碱基内。

在一些示例中，在第一融合蛋白和第二融合蛋白的每一者中，Cas-gRNA RNP经由共价键与转座酶偶联。

在一些示例中，在第一融合蛋白和第二融合蛋白的每一者中，Cas-gRNA RNP经由非共价键与转座酶偶联。在一些示例中，Cas-gRNA RNP与抗体共价偶联并且转座酶与抗体非共价偶联的抗原共价偶联，或者Cas-gRNA RNP与抗原共价偶联并且转座酶与抗原非共价偶联的抗体共价偶联。在一些示例中，Cas-gRNA经由gRNA与第一扩增衔接子或第二扩增衔接子之间的杂交与转座酶非共价偶联。在一些示例中，Cas-gRNA经由gRNA与转座酶内的寡核苷酸之间的杂交与转座酶非共价偶联。

在一些示例中，在第一融合蛋白中，与第一亚序列杂交的gRNA部分具有约15个核苷酸至约18个核苷酸的长度，并且在第二融合蛋白中，与第二亚序列杂交的gRNA部分具有约15个核苷酸至约18个核苷酸的长度。

在一些示例中，第一融合蛋白和第二融合蛋白与靶多核苷酸处于近似化学计量比。

在一些示例中，靶多核苷酸包括双链DNA。

在一些示例中，第一标签与第一Cas-gRNA RNP偶联，并且第二标签与第二Cas-gRNA RNP偶联。在一些示例中，该方法包括将第一标签偶联到与基底偶联的第一标签配偶体，并且将第二标签偶联到与基底偶联的第二标签配偶体。在一些示例中，在第一和第二Cas-gRNA RNP分别与第一亚序列和第二亚序列杂交之后进行偶联。在一些示例中，在将第一标签和第二标签分别添加到第一标签配偶体和第二标签配偶体中之后添加第一和扩增衔接子。

在一些示例中，第一标签和第二标签包括生物素。在一些示例中，第一标签配偶体和第二标签配偶体包括链霉抗生物素蛋白。在一些示例中，底物包括小珠。在一些示例中，Cas-gRNA RNP包含Cas12k。在一些示例中，转座酶包括Tn5或Tn7样转座酶。

本文中的一些示例提供一种对靶多核苷酸测序的方法。该方法可包括使用前述方法中的一种方法生成靶多核苷酸的片段，生成该片段的扩增子，以及对这些扩增子进行测序。

本文中的一些示例提供了一种组合物。该组合物可包含具有序列的靶多核苷酸。该组合物可包含第一融合蛋白，该第一融合蛋白包含与第一转座酶偶联的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，该第一转座酶偶联有第一扩增衔接子。第一Cas-gRNA RNP可与靶多核苷酸中的第一亚序列杂交。

在一些示例中，该组合物可包含第二融合蛋白，该第二融合蛋白可包含与第二转座酶偶联的第二Cas-gRNA RNP，该第二转座酶偶联有第二扩增衔接子。第二Cas-gRNA RNP可与靶多核苷酸中的第二亚序列杂交。

在一些示例中，该组合物还包含具有促进第一Cas-gRNA RNP的活性并抑制第一转座酶的活性的条件的流体。在一些示例中，流体的条件包括存在足够量的用于第一Cas-gRNA RNP活性的钙离子、锰离子或钙离子和锰离子两者。在一些示例中，流体的条件包括不存在足够量的用于第一转座酶活性的镁离子。

在一些示例中，该组合物还包含具有促进第一转座酶活性的条件的流体，并且其中第一转座酶将第一扩增衔接子添加到靶多核苷酸中的第一位置。在一些示例中，流体的条件包括存在足够量的用于第一转座酶活性的镁离子。

在一些示例中，该组合物还包含用于从第一融合蛋白和第二融合蛋白中释放靶多核苷酸以提供在一个末端具有第一扩增衔接子并且在另一末端具有第二扩增衔接子的靶多核苷酸的片段的试剂。在一些示例中，试剂包括蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者。

在一些示例中，该组合物还包含用于降解靶多核苷酸的不位于第一Cas-gRNA RNP与第二Cas-gRNA RNP之间的任何部分的核酸外切酶。在一些示例中，核酸外切酶包括核酸外切酶III或核酸外切酶VII。

在一些示例中，第一衔接子包括P5衔接子，并且第二衔接子包括P7衔接子。

在一些示例中，第一Cas-gRNA RNP经由共价键与第一转座酶偶联。

在一些示例中，第一Cas-gRNA RNP经由非共价键与第一转座酶偶联。在一些示例中，第一Cas-gRNA RNP与抗体共价偶联并且第一转座酶与抗体非共价偶联的抗原共价偶联，或者Cas-gRNA RNP与抗原共价偶联并且第一转座酶与抗原非共价偶联的抗体共价偶联。在一些示例中，第一Cas-gRNA经由gRNA与第一扩增衔接子或第二扩增衔接子之间的杂交与转座酶非共价偶联。在一些示例中，第一Cas-gRNA经由gRNA与转座酶内的寡核苷酸之间的杂交与转座酶非共价偶联。

在一些示例中，在第一融合蛋白中，与第一亚序列杂交的gRNA部分具有约15个核苷酸至约18个核苷酸的长度。在包括第二融合蛋白的示例中，与第二亚序列杂交的gRNA部分具有约15个核苷酸至约18个核苷酸的长度。

在一些示例中，第一融合蛋白与靶多核苷酸处于近似化学计量比。

在一些示例中，靶多核苷酸包括双链DNA。

一些示例还包括与第一Cas-gRNA RNP偶联的第一标签。一些示例还包括基底和与基底并与第一标签偶联的第一标签配偶体。

一些示例还包括与第二Cas-gRNA RNP偶联的第二标签。一些示例还包括基底、与基底并与第一标签偶联的第一标签配偶体以及与基底并与第二标签偶联的第二标签配偶体。

本文中的一些示例提供了一种表征与靶多核苷酸的相应基因座偶联的蛋白的方法。该方法可包括使靶多核苷酸与第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)和第二Cas-gRNA RNP接触。该方法可包括使第一Cas-gRNA RNP和第二Cas-gRNA RNP分别与靶多核苷酸中的第一亚序列和第二亚序列杂交，蛋白可与第一亚序列和第二亚序列之间的靶多核苷酸的相应基因座偶联。该方法可包括使用第一Cas-gRNA RNP在第一亚序列处和使用第二Cas-gRNA RNP在第二亚序列处切割靶多核苷酸以形成片段。蛋白可与片段的相应基因座偶联。该方法可包括使用对应的寡核苷酸分别标记与片段的相应基因座偶联的蛋白中的每种蛋白。该方法可包括对对应的寡核苷酸进行测序。

在一些示例中，该方法包括在使用对应的寡核苷酸分别标记与片段的相应基因座偶联的蛋白中的每种蛋白之前富集片段。在一些示例中，第一Cas-gRNA RNP和第二Cas-gRNA RNP分别与标签偶联，使得片段经由第一Cas-gRNA RNP和第二Cas-gRNA RNP与标签偶联。富集可包括使经由第一Cas-gRNA RNP和第二Cas-gRNA RNP偶联到标签的片段与偶联到标签配偶体的基底接触。富集可包括将标签偶联到标签配偶体以将片段偶联到基底。富集可包括去除靶多核苷酸的未与基底偶联的任何部分。

在一些示例中，该方法包括使用对应的寡核苷酸鉴定蛋白。

在一些示例中，该方法包括使用对应的寡核苷酸鉴定基因座。

在一些示例中，该方法包括使用对应的寡核苷酸定量蛋白。

在一些示例中，使用对应的寡核苷酸分别标记这些蛋白中的每种蛋白包括使片段与特定于不同蛋白的抗体的混合物接触。这些抗体中的每种抗体可与对应的寡核苷酸偶联。对于混合物中特定于与片段的相应基因座偶联的蛋白的任何抗体，那些抗体和对应的寡核苷酸可与那些蛋白偶联。在一些示例中，多个蛋白与基因座中的相应一个基因座偶联，并且混合物中的多个抗体与该基因座处的蛋白偶联。

在一些示例中，对对应的寡核苷酸进行测序包括使对应的寡核苷酸与珠阵列杂交。在一些示例中，对对应的寡核苷酸进行测序包括对对应的寡核苷酸进行边合成边测序。

在一些示例中，对应的寡核苷酸包含独特分子标识符(UMI)。

在一些示例中，该方法包括使用对应的寡核苷酸的相应存在来鉴定蛋白。

在一些示例中，该方法包括使用对应的寡核苷酸的相应量来定量蛋白。

在一些示例中，使用对应的寡核苷酸分别标记这些蛋白中的每种蛋白包括：使片段与多种转座酶接触，这些转座酶中的每种转座酶均与对应的寡核苷酸偶联；通过与片段的相应基因座偶联的蛋白抑制基因座处转座酶的活性；以及在基因座以外的位置处，使用转座酶将对应的寡核苷酸添加到片段。

在一些示例中，对对应的寡核苷酸进行测序包括对添加有对应的寡核苷酸的片段进行边合成边测序。

在一些示例中，使用对应的寡核苷酸的片段中的相应位置来鉴定蛋白的相应基因座。

在一些示例中，转座酶将片段分成亚片段，并对亚片段进行边合成边测序。

在一些示例中，对应的寡核苷酸包括扩增衔接子。在一些示例中，扩增衔接子包括P5和P7衔接子。

在一些示例中，扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，Cas包括Cas9。

在一些示例中，靶多核苷酸包括双链DNA。

本文中的一些示例提供了一种组合物。该组合物可包含靶多核苷酸的片段。蛋白可与片段的相应基因座偶联。该组合物可包含特定于不同蛋白的抗体的混合物。这些抗体中的每种抗体可与对应的寡核苷酸偶联。对于混合物中特定于与片段的相应基因座偶联的蛋白的任何抗体，那些抗体和对应的寡核苷酸与那些蛋白偶联。

在一些示例中，多个蛋白与基因座中的相应一个基因座偶联，并且混合物中的多个抗体与该基因座处的蛋白偶联。

在一些示例中，对应的寡核苷酸包含独特分子标识符(UMI)。

在一些示例中，对应的寡核苷酸的相应存在可用于鉴定蛋白。

在一些示例中，对应的寡核苷酸的相应量可用于定量蛋白。

在一些示例中，靶多核苷酸包括双链DNA。

本文中的一些示例提供了一种组合物。该组合物可包含靶多核苷酸的片段。蛋白可与片段的相应基因座偶联。该组合物可包含多种转座酶。这些转座酶中的每种转座酶可与对应的寡核苷酸偶联。与片段的相应基因座偶联的蛋白可抑制基因座处转座酶的活性。转座酶可在基因座以外的位置处将对应的寡核苷酸添加到片段。

在一些示例中，对应的寡核苷酸的片段中的相应位置可用于鉴定蛋白的相应基因座。

在一些示例中，转座酶将片段分成亚片段。

在一些示例中，对应的寡核苷酸包括扩增衔接子。在一些示例中，扩增衔接子包括P5和P7衔接子。在一些示例中，扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，转座酶包括Tn5。

在一些示例中，靶多核苷酸包括双链DNA。

本文中的一些示例提供了一种包含具有多个亚序列的靶多核苷酸的组合物。组合物可包含多个复合物，每个复合物包含与指导RNA(gRNA)偶联的ShCAST(贺氏伪枝藻属(Scytonema hofmanni)CRISPR相关转座酶)。ShCAST可具有与其偶联的扩增衔接子。这些复合物中的每个复合物均可与靶多核苷酸中亚序列的对应一个亚序列杂交。

在一些示例中，该组合物还包含具有促进复合物与亚序列杂交并抑制转座酶的活性的条件的流体。在一些示例中，流体的条件包括不存在足够量的用于转座酶活性的镁离子。

在一些示例中，该组合物还包含具有促进转座酶活性的条件的流体，并且其中转座酶将扩增衔接子添加到靶多核苷酸中的位置。在一些示例中，流体的条件包括存在足够量的用于转座酶活性的镁离子。

在一些示例中，ShCAST包括Cas12k。在一些示例中，转座酶包括Tn5或Tn7样转座酶。在一些示例中，衔接子包括P5衔接子和P7衔接子中的至少一者。在一些示例中，靶多核苷酸包括双链DNA。

在一些示例中，gRNA和转座酶中的至少一者是生物素化的。组合物还可包含与生物素化的gRNA和转座酶中的至少一者偶联的链霉抗生物素蛋白包被的小珠。

本文中的一些示例提供了一种生成双链多核苷酸的片段的方法。该方法可包括将双链多核苷酸偶联到基底。该方法可包括使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)切口酶和第二Cas-gRNA RNP切口酶分别与双链多核苷酸中的第一亚序列和第二亚序列杂交。第一亚序列可在沿着双链多核苷酸的第一链的靶序列的3'。第二亚序列可在沿着双链多核苷酸的第二链的靶序列的3'。该方法可包括使用第一Cas-gRNA RNP切口酶在第一亚序列处切割第一链。该方法可包括使用第二Cas-gRNA RNP切口酶在第二亚序列处切割第二链。该方法可包括使用聚合酶从相应的切口延伸第一链和第二链，并从基底中洗脱靶序列。该方法可包括对洗脱出的靶序列进行测序。

在一些示例中，基底包括珠，例如顺磁性珠。

在一些示例中，双链多核苷酸的3'末端与标签偶联，并且基底与标签配偶体偶联，偶联包括将标签与标签配偶体偶联。在一些示例中，标签包括生物素，并且标签配偶体包括链霉抗生物素蛋白。

在一些示例中，第一Cas-gRNA RNP切口酶和第二Cas-gRNA RNP切口酶包括Cas9。

在一些示例中，聚合酶包括链置换聚合酶。在一些示例中，聚合酶包括Vent或Bsu。

在一些示例中，聚合酶具有5'核酸外切酶活性。在一些示例中，聚合酶包括Taq、Bst或DNA聚合酶I。

一些示例提供了一种组合物。该组合物可包含与基底偶联的双链多核苷酸。该组合物可包含分别与双链多核苷酸中的第一亚序列和第二亚序列杂交的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)切口酶和第二Cas-gRNA RNP切口酶。第一亚序列可在沿着双链多核苷酸的第一链的靶序列的3'。第二亚序列可在沿着双链多核苷酸的第二链的靶序列的3'。

在一些示例中，基底包括珠，例如顺磁性珠。

在一些示例中，双链多核苷酸的3'末端与标签偶联，并且基底与偶联到标签的标签配偶体偶联。在一些示例中，标签包括生物素，并且标签配偶体包括链霉抗生物素蛋白。

一些示例提供了一种生成双链多核苷酸的片段的方法。该方法可包括使第一复合物和第二复合物分别与双链多核苷酸中的第一亚序列和第二亚序列杂交。第一复合物和第二复合物中的每一者均可包含与扩增衔接子偶联的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。该方法可包括将杂交的第一复合物和第二复合物的扩增衔接子分别连接到双链多核苷酸的第一末端和第二末端。该方法可包括从双链多核苷酸中去除第一复合物和第二复合物的Cas-gRNA RNP。该方法可包括对连接有扩增衔接子的双链多核苷酸进行测序。

在一些示例中，第一亚序列在沿着双链多核苷酸的第一链的靶序列的3'，并且第二亚序列在沿着双链多核苷酸的第二链的靶序列的3'。

在一些示例中，扩增衔接子是Y形的。

在一些示例中，每个复合物还包含将Cas-gRNA RNP与扩增衔接子偶联的衔接子。在一些示例中，衔接子与Cas-gRNA RNP的Cas偶联。在一些示例中，衔接子与gRNA偶联。在一些示例中，衔接子包括蛋白、多核苷酸或聚合物。在一些示例中，当Cas-gRNA RNP被去除时，衔接子仍保持与扩增衔接子偶联。

在一些示例中，连接包括使用连接酶。在一些示例中，连接酶在杂交期间存在。在一些示例中，连接酶在杂交期间是失活的，并且使用ATP活化以用于连接。在一些示例中，连接酶在杂交之后添加。

在一些示例中，该方法包括在杂交之前将双链多核苷酸加A尾，并且其中扩增衔接子包括未配对的T以与A尾杂交。另选地，扩增衔接子可连接到平末端。

在一些示例中，扩增衔接子包括独特分子标识符。例如，扩增衔接子可包括双链独特分子标识符。

在一些示例中，Cas-gRNA RNP包含dCas9。

一些示例提供了一种组合物。该组合物可包含双链多核苷酸的片段。该组合物可包含与双链多核苷酸中的第一亚序列和第二亚序列杂交的第一复合物和第二复合物。第一复合物和第二复合物中的每一者均可包含与扩增衔接子偶联的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。

在一些示例中，扩增衔接子是Y形的。

在一些示例中，每个复合物还包含将Cas-gRNA RNP与扩增衔接子偶联的衔接子。在一些示例中，衔接子与Cas-gRNA RNP的Cas偶联。在一些示例中，衔接子与gRNA偶联。在一些示例中，衔接子包括蛋白、多核苷酸或聚合物。

在一些示例中，双链多核苷酸包括A尾，并且其中扩增衔接子包括未配对的T以与A尾杂交。另选地，扩增衔接子可连接到平末端。

在一些示例中，Cas-gRNA RNP包含dCas9。

本文中的一些示例提供了一种生成多核苷酸的片段的方法。该方法可包括将第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与多核苷酸中的第一序列杂交。该方法可包括将第二Cas-gRNA RNP与多核苷酸中的第二序列杂交，该第二序列与第一序列间隔开至少一个靶序列。该方法可包括用第一Cas-gRNA RNP和第二Cas-gRNA RNP切割第一序列和第二序列以生成包括第一末端和第二末端及其间的靶序列的片段。第一末端可具有至少一个碱基的第一5'突出端。第二末端可具有至少一个碱基的第二5'突出端。

在一些示例中，第一5'突出端和第二5'突出端各自的长度为约2-5个碱基。在一些示例中，第一5'突出端和第二5'突出端各自的长度为约5个碱基。

在一些示例中，第一5'突出端和第二5'突出端具有与彼此不同的序列。

一些示例还包括将第一扩增衔接子连接到片段的第一末端并将第二扩增衔接子连接到片段的第二末端。第一扩增衔接子可具有与第一5'突出端互补的第三5'突出端。第二扩增衔接子可具有与第二5'突出端互补的第四5'突出端。第三5'突出端和第四5'突出端可具有与彼此不同的序列。一些示例还包括生成连接有第一扩增衔接子和第二扩增衔接子的片段的扩增子；对扩增子进行测序；以及基于测序鉴定靶多核苷酸。在一些示例中，扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，Cas包括Cas12a。

本文中的一些示例提供了一种组合物。该组合物可包含多核苷酸。该组合物可包含与多核苷酸中的第一序列杂交的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)。该组合物可包含与多核苷酸中的第二序列杂交的第二Cas-gRNA RNP，该第二序列与第一序列间隔开至少一个靶序列。第一Cas-gRNA RNP和第二Cas-gRNA RNP可分别用于切割多核苷酸的第一序列和第二序列以生成具有第一末端和第二末端及其间的靶序列的片段。第一末端可具有至少一个碱基的第一5'突出端。第二末端可具有至少一个碱基的第二5'突出端。

在一些示例中，Cas包括Cas12a。

本文中的一些示例提供了一种组合物。该组合物可包含各自具有第一末端和第二末端及其间的靶序列的多核苷酸片段。第一末端可具有至少一个碱基的第一5'突出端。第二末端可具有至少一个碱基的第二5'突出端。第一5'突出端和第二5'突出端可具有与彼此不同的序列。该组合物还可包含具有第三5'突出端的第一扩增衔接子，该第三5'突出端与第一5'突出端互补且不与第二5'突出端互补。该组合物还可包含具有第四5'突出端的第二扩增衔接子，该第四5'突出端与第二5'突出端互补且不与第一5'突出端互补。

一些示例还包括至少一种连接酶，该至少一种连接酶用于将第一扩增衔接子连接到第一末端并且用于将第二扩增衔接子连接到第二末端。

在一些示例中，第一扩增衔接子和第二扩增衔接子包括独特分子标识符(UMI)。

在一些示例中，连接酶包括T4DNA连接酶。

本文中的一些示例提供了各自具有第一末端和第二末端及其间的靶序列的多个多核苷酸片段。第一末端可具有至少一个碱基的第一5'突出端。第二末端可具有至少一个碱基的第二5'突出端。第一5'突出端和第二5'突出端可具有与彼此不同的序列，也可具有与其他片段的第一5'突出端和第二5'突出端不同的序列。

一些示例还包括多个第一扩增衔接子。这些第一扩增衔接子中的每个第一扩增衔接子均可具有第三5'突出端，该第三5'突出端与对应片段的第一5'突出端互补且不与该片段的第二5'突出端互补且不与其他片段的第一5'突出端或第二5'突出端互补。本文中的一些示例还包括多个第二扩增衔接子。这些第二扩增衔接子中的每个第二扩增衔接子均可具有第四5'突出端，该第四5'突出端与对应片段的第二5'突出端互补且不与该片段的第一5'突出端互补且不与其他片段的第一5'突出端或第二5'突出端互补。

一些示例还包括用于将第一扩增衔接子连接到第一5'突出端和第三5'突出端互补的第一末端和用于将第二扩增衔接子连接到第二5'突出端和第四5'突出端互补的第二末端的连接酶。在一些示例中，连接酶包括T4DNA连接酶。

在一些示例中，第一扩增衔接子和第二扩增衔接子包括独特分子标识符(UMI)。在一些示例中，第一5'突出端和第二5'突出端各自的长度为约2-5个碱基。在一些示例中，第一5'突出端和第二5'突出端各自的长度为约5个碱基。

本文中的一些示例提供了一种组合物。该组合物可包含多个多核苷酸。该组合物可包含与多核苷酸中的相应第一序列杂交的多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。该组合物可包含与多核苷酸中的相应第二序列杂交的多个第二Cas-gRNARNP，这些第二序列与相应第一序列间隔开至少一个相应靶序列。第一多个Cas-gRNA RNP和第二多个Cas-gRNA RNP可分别用于切割相应多核苷酸的第一序列和第二序列以生成分别具有第一末端和第二末端的片段，该第一末端和第二末端在其间的相应靶序列内。第一末端可具有至少一个碱基的第一5'突出端。第二末端可具有至少一个碱基的第二5'突出端。

在一些示例中，Cas包括Cas12a。

本文中的一些示例提供了一种向导RNA。向导RNA可包括引物结合位点、扩增衔接子位点和CRISPR前间隔序列。

在一些示例中，引物结合位点与CRISPR前间隔序列的至少一部分大致互补。

在一些示例中，扩增衔接子位点位于引物结合位点与CRISPR前间隔序列之间。

在一些示例中，向导RNA包括至少一个环。在一些示例中，第一环位于扩增衔接子位点与CRISPR前间隔序列之间。在一些示例中，第二环位于扩增衔接子位点与CRISPR前间隔序列之间。

本文中的一些示例提供了一种CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)。Cas-gRNA RNP可包括前述gRNA中的任一种gRNA和结合CRISPR前间隔序列的Cas蛋白。

在一些示例中，Cas蛋白被配置为进行双链多核苷酸切割。在一些示例中，Cas蛋白包括Cas9、Cas 12a或Cas12f。

在一些示例中，引物结合位点和扩增衔接子位点延伸到Cas蛋白之外。

本文中的一些示例提供了一种复合物。该复合物可包含多核苷酸，该多核苷酸包括第一链和第二链。该复合物可包含第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)。第一Cas-gRNA RNP可包括：第一向导RNA，该第一向导RNA包括第一引物结合位点、第一扩增衔接子位点和第一CRISPR前间隔序列；和结合第一CRISPR前间隔序列的第一Cas蛋白。第一CRISPR前间隔序列可与第一链杂交，并且第一引物结合位点可与第二链杂交。

在一些示例中，第一链和第二链被第一Cas-gRNA RNP在基于第一CRISPR前间隔序列的序列的相应位置处切割。在一些示例中，第一Cas蛋白包括Cas9、Cas 12a或Cas12f。

在一些示例中，该复合物还包含第一逆转录酶，该第一逆转录酶用于在由第一Cas蛋白形成的第二链中的切口处生成扩增衔接子位点的扩增子。在一些示例中，第一逆转录酶与第一Cas蛋白偶联。在一些示例中，第一逆转录酶和第一Cas蛋白是第一融合蛋白的组分。

在一些示例中，第一引物结合位点与第一CRISPR前间隔序列的至少一部分大致互补。

在一些示例中，第一扩增衔接子位点位于第一引物结合位点与第一CRISPR前间隔序列之间。

在一些示例中，第一gRNA还包括至少一个环。在一些示例中，第一环位于第一扩增衔接子位点与第一CRISPR前间隔序列之间。在一些示例中，第二环位于第一扩增衔接子位点与第一CRISPR前间隔序列之间。

一些示例还包括第二Cas-gRNA RNP。第二Cas-gRNA RNP可包括第二向导RNA，该第二向导RNA包括第二引物结合位点、第二扩增衔接子位点和第二CRISPR前间隔序列。第二Cas-gRNA RNP可包括结合第二CRISPR前间隔序列的第二Cas蛋白。第二CRISPR前间隔序列可与第一链杂交，并且第二引物结合位点可与第二链杂交。

在一些示例中，第一链和第二链被第二Cas-gRNA RNP在基于第二CRISPR前间隔序列的序列的相应位置处切割。在一些示例中，第一链和第二链中由第二Cas-gRNA RNP形成的切口与第一链和第二链中由第一Cas-gRNA RNP形成的切口间隔开至少一个靶序列。在一些示例中，第二Cas蛋白包括Cas9、Cas 12a或Cas12f。

在一些示例中，该复合物还包含第二逆转录酶，用于在由第二Cas蛋白形成的第二链中的切口处生成扩增衔接子位点的扩增子。在一些示例中，第二逆转录酶与第二Cas蛋白偶联。在一些示例中，第二逆转录酶和第二Cas蛋白是第二融合蛋白的组分。

在一些示例中，第二引物结合位点与第二CRISPR前间隔序列的至少一部分大致互补。

在一些示例中，第二扩增衔接子位点位于第二引物结合位点与第二CRISPR前间隔序列之间。

本文中的一些示例提供了部分双链的多核苷酸片段。该片段可包括：第一末端，该第一末端包括第一3'突出端；第二末端；和位于第一末端与第二末端之间的靶序列。

在一些示例中，第一3'突出端包括第一扩增衔接子。

在一些示例中，第二末端包括第二3'突出端。

在一些示例中，第二3'突出端包括第二扩增衔接子。

本文中的一些示例提供了一种方法。该方法可包括使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与包括第一链和第二链的多核苷酸接触。第一Cas-gRNA可包括：第一向导RNA，该第一向导RNA包括第一引物结合位点、第一扩增衔接子位点和第一CRISPR前间隔序列；和结合第一CRISPR前间隔序列的第一Cas蛋白。该方法可包括使第一CRISPR前间隔序列与第一链杂交。该方法可包括使第一引物结合位点与第二链杂交。

在一些示例中，该方法还包括在基于第一CRISPR前间隔序列的序列的相应位置处通过第一Cas-gRNA RNP切割第一链和第二链。在一些示例中，第一Cas蛋白包括Cas9、Cas12a或Cas12f。

在一些示例中，该方法还包括使用第一逆转录酶在由第一Cas蛋白形成的第二链中的切口处生成扩增衔接子位点的扩增子。在一些示例中，第一逆转录酶与第一Cas蛋白偶联。在一些示例中，第一逆转录酶和第一Cas蛋白是第一融合蛋白的组分。

在一些示例中，该方法还包括使多核苷酸与第二Cas-gRNA RNP接触。第二Cas-gRNA RNP可包括第二向导RNA，该第二向导RNA包括第二引物结合位点、第二扩增衔接子位点和第二CRISPR前间隔序列；和结合第二CRISPR前间隔序列的第二Cas蛋白。该方法可包括使第二CRISPR前间隔序列与第一链杂交。该方法可包括使第二引物结合位点与第二链杂交。

在一些示例中，该方法可包括在基于第二CRISPR前间隔序列的序列的相应位置处通过第二Cas-gRNA RNP切割第一链和第二链。在一些示例中，第一链和第二链中由第二Cas-gRNA RNP形成的切口与第一链和第二链中由第一Cas-gRNA RNP形成的切口间隔开至少一个靶序列。在一些示例中，第二Cas蛋白包括Cas9、Cas 12a或Cas12f。

在一些示例中，该方法还可包括使用第二逆转录酶在由第二Cas蛋白形成的第二链中的切口处生成扩增衔接子位点的扩增子。在一些示例中，第二逆转录酶与第二Cas蛋白偶联。在一些示例中，第二逆转录酶和第二Cas蛋白是第二融合蛋白的组分。

在一些示例中，第一Cas-gRNA RNP和第二Cas-gRNA RNP以及第一逆转录酶和第二逆转录酶生成具有第一末端和第二末端的部分双链的多核苷酸片段。第一末端可包括第一3'突出端。第二末端可包括第二3'突出端。靶序列可位于第一末端和第二末端之间。在一些示例中，第一3'突出端包括第一扩增衔接子位点的扩增子。在一些示例中，第二3'突出端包括第二扩增衔接子位点的扩增子。在一些示例中，该方法还包括将第三扩增衔接子连接到第一末端处的5'基团；将第四扩增衔接子连接到第二末端处的5'基团；使用第一扩增衔接子、第二扩增衔接子、第三扩增衔接子和第四扩增衔接子扩增片段；以及对所扩增的片段进行测序。

应理解，如本文中所描述的本公开的方面中的每一者的任何相应特征/示例可以任何适当组合一起实施，并且来自这些方面中的任一者或多者的任何特征/示例可以与如本文中所描述的其它(多个)方面的特征中的任一者以任何适当组合一起实施，以实现如本文中所描述的益处。

附图说明

图1A至图1K示意性地示出了Cas-gRNA RNP介导的去宿主的工艺流程中的示例性组合物和操作。

图2A至图2K示意性地示出了用于将WG分段化成不同的确定的片段大小的工艺流程中的示例性组合物和操作。

图3A至图3E示意性地示出了用于使用切口标记多核苷酸的工艺流程中的示例性组合物和操作。

图4A至图4J示意性地示出了用于将扩增衔接子与多核苷酸偶联的工艺流程中的示例性组合物和操作。

图5A至图5K示意性地示出了靶向表观遗传测定的工艺流程中的示例性组合物和操作。

图6A至图6B示意性地示出了用于ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集的工艺流程中的示例性组合物和操作。

图7A至图7H示意性地示出了用于将扩增衔接子与多核苷酸偶联的另一工艺流程中的示例性组合物和操作。

图8A至图8H示意性地示出了用于使用Cas-gRNA RNP切口酶富集所选多核苷酸片段的工艺流程中的示例性组合物和操作。

图9A示意性地示出了用于将扩增衔接子连接到dsDNA文库的片段的先前已知工艺流程中的示例性组合物和操作。

图9B至图9F示意性地示出了用于使用Cas-gRNA RNP将扩增衔接子连接到所选多核苷酸片段的工艺流程中的示例性组合物和操作。

图10A至图10C示意性地示出了用于使用Cas-gRNA RNP生成片段并将衔接子与该片段偶联的工艺流程中的示例性组合物和操作。

图11A至图11G示意性地示出了用于使用Cas-gRNA RNP生成片段并将衔接子偶联到其上的工艺流程中的附加组合物和操作。

图12示意性地示出了在标签化、停止和TWB洗涤后的靶DNA片段。

图13示意性地示出了间隙填充和用ELM连接后的靶DNA片段。

图14示意性地示出了与PAM位点相对切割的Cas9切口酶(D10A)。

图15示意性地示出了含有3'缺口的靶DNA。

图16示意性地示出了将导致靶片段洗脱的'3-末端的聚合酶延伸。

图17示出了显示四种λ靶标的富集的IGV迹线的示例。

具体实施方式

有关基因组文库制备，本文的一些示例涉及Cas-gRNA RNP介导的去宿主；本文中的一些示例涉及将全基因组(WG)片段化成不同的确定的片段大小；本文中的一些示例涉及切割多核苷酸；并且本文中的一些示例涉及将扩增衔接子与多核苷酸偶联。应当理解，涉及基因组文库制备的任何此类示例的一个或多个方面可与涉及基因组文库制备的任何其他此类示例的一个或多个方面组合使用。

有关靶向表观遗传测定，本文中的一些示例涉及使用Cas-gRNA RNP来富集保留表观遗传特征(例如，染色质)的DNA区域(小或大)，随后在表观遗传NGS测定中加工这些区域。这种方法实现了超深度表观遗传测定，从而提高了精细表观遗传改变(例如，与ATAC-seq或ChIP-seq相比)和复杂网络(例如，基因座相关的蛋白质组学)的分辨率，这可有利于更好地理解表观遗传机制，诸如可能是重要的研究或临床开发。应当理解，和靶向表观遗传测定相关的任何此类示例的一个或多个方面均可与和基因组文库制备相关的任何示例的一个或多个方面组合使用，或者反过来，和基因组文库制备相关的任何示例的一个或多个方面均可与和靶向表观遗传测定相关的任何此类示例的一个或多个方面组合使用。

首先，将简单地解释本文中所使用的一些术语。然后，将描述使用Cas-RNP进行基因组文库制备和靶向表观遗传测定的一些示例性组合物和示例性方法。

术语

除非另有定义，否则本文所用的所有技术和科学术语的含义与本领域的普通技术人员通常理解的含义相同。术语“包含/包括”以及其它形式的使用不具限制性。术语“具有”以及其它形式的使用不具限制性。如本说明书中所用，无论是在过渡短语中还是在权利要求的正文中，术语“包含/包括”都将被解释为具有开放式含义。即，上述术语应与短语“至少具有”或“至少包括”同义地解释。例如，当在过程的上下文中使用时，术语“包含”表示该过程至少包括所列举的步骤，但是也可包括额外步骤。当在化合物、组合物或设备的上下文中使用时，术语“包含”是指该化合物、组合物或设备至少包含所列举的特征或组分，但是也可包含额外特征或组分。

如本文所用，除非上下文另有明确指示，否则单数形式“一个”、“一种”和“该”包括复数指代。

贯穿本说明书使用的术语“基本上”、“大约”、和“约”用于描述和说明如归因于加工中的变化的较小的波动。例如，它们可以指小于或等于±10％、如小于或等于±5％、如小于或等于±2％、如小于或等于±1％、如小于或等于±0.5％、如小于或等于±0.2％、如小于或等于±0.1％、如小于或等于±0.05％。

如本文所用，术语诸如“使杂交”和“杂交”旨在表示多核苷酸沿那些多核苷酸的长度彼此非共价地缔合以形成双链“双链体”、三链“三链体”或更高级结构例如，两条DNA多核苷酸链可通过互补碱基配对缔合以形成双链体。多核苷酸链之间的主要相互作用通常通过Watson-Crick和Hoogsteen型氢键具有核苷酸碱基特异性，例如，A:T、A:U和G:C。碱基堆积和疏水相互作用也可有助于双链体稳定性。杂交条件可包括小于约1M，更通常小于约500mM或小于约200mM的盐浓度。杂交缓冲液可包括缓冲盐溶液，诸如5％ SSPE，或本领域已知的其他合适缓冲液。杂交温度可低至5℃，但通常大于22℃，并且更通常大于约30℃，并且通常超过37℃。第一与第二多核苷酸之间的缔合强度随着那些多核苷酸内核苷酸序列之间的互补性而增加。多核苷酸之间的杂交强度可通过熔融温度(Tm)来表征，在该熔融温度下，50％的双链体具有彼此解离的多核苷酸链。

如本文所用，术语“核苷酸(nucleotide)”旨在表示包含糖和至少一个磷酸酯基团，并且在一些示例中还包含核碱基的分子。缺乏核碱基的核苷酸可被称为“无碱基(abasic)”的。核苷酸包含脱氧核糖核苷酸、经修饰的脱氧核糖核苷酸、核糖核苷酸、经修饰的核糖核苷酸、肽核苷酸、经修饰的肽核苷酸、经修饰的磷酸糖主链核苷酸、和它们的混合物。核苷酸的示例包含单磷酸腺苷(AMP)、二磷酸腺苷(ADP)、三磷酸腺苷(ATP)、单磷酸胸苷(TMP)、二磷酸胸苷(TDP)、三磷酸胸苷(TTP)、单磷酸胞苷(CMP)、二磷酸胞苷(CDP)、三磷酸胞苷(CTP)、单磷酸鸟苷(GMP)、二磷酸鸟苷(GDP)、三磷酸鸟苷(GTP)、单磷酸尿苷(UMP)、二磷酸尿苷(UDP)、三磷酸尿苷(UTP)、单磷酸脱氧腺苷(dAMP)、二磷酸脱氧腺苷(dADP)、三磷酸脱氧腺苷(dATP)、单磷酸脱氧胸苷(dTMP)、二磷酸脱氧胸苷(dTDP)、三磷酸脱氧胸苷(dTTP)、二磷酸脱氧胞苷(dCDP)、三磷酸脱氧胞苷(dCTP)、单磷酸脱氧鸟苷(dGMP)、二磷酸脱氧鸟苷(dGDP)、三磷酸脱氧鸟苷(dGTP)、单磷酸脱氧尿苷(dUMP)、二磷酸脱氧尿苷(dUDP)、和三磷酸脱氧尿苷(dUTP)。

如本文所用，术语“核苷酸”也打算涵盖任何核苷酸类似物，该核苷酸类似物是包含与天然存在的核苷酸相比经修饰的核碱基、糖、主链和/或磷酸酯部分的类型的核苷酸。核苷酸类似物还可称为“经修饰的核酸”。示例性经修饰的核碱基包含肌苷、黄嘌呤(xathanine)、次黄嘌呤、异胞嘧啶、异鸟嘌呤、2-氨基嘌呤、5-甲基胞嘧啶、5-羟甲基胞嘧啶、2-氨基腺嘌呤、6-甲基腺嘌呤、6-甲基鸟嘌呤、2-丙基鸟嘌呤、2-丙基腺嘌呤、2-硫代尿嘧啶、2-硫代胸腺嘧啶、2-硫代胞嘧啶、15-卤代尿嘧啶、15-卤代胞嘧啶、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、6-偶氮尿嘧啶、6-偶氮胞嘧啶、6-偶氮胸腺嘧啶、5-尿嘧啶、4-硫代尿嘧啶、8-卤代腺嘌呤或鸟嘌呤、8-氨基腺嘌呤或鸟嘌呤、8-硫醇腺嘌呤或鸟嘌呤、8-硫烷基腺嘌呤或鸟嘌呤、8-羟基腺嘌呤或鸟嘌呤、5-卤代取代的尿嘧啶或胞嘧啶、7-甲基鸟嘌呤、7-甲基腺嘌呤、8-氮杂鸟嘌呤、8-氮杂腺嘌呤、7-脱氮鸟嘌呤、7-脱氮腺嘌呤、3-脱氮鸟嘌呤、3-脱氮腺嘌呤等。如本领域中已知，某些核苷酸类似物无法并入到多核苷酸中，例如如5'-磷酰硫酸腺苷的核苷酸类似物。核苷酸可以包含任何适合数目的磷酸酯，例如三个、四个、五个、六个、或多于六个磷酸酯。核苷酸类似物还包括锁定核酸(LNA)、肽核酸(PNA)和5-羟基丁炔-2'-脱氧尿苷(“超级T”)。

如本文所用，术语“多核苷酸(polynucleotide)”是指包含彼此结合的核苷酸序列的分子。多核苷酸为聚合物的一个非限制性示例。多核苷酸的示例包括脱氧核糖核酸(DNA)、核糖核酸(RNA)和它们的类似物，诸如锁定核酸(LNA)和肽核酸(PNA)。多核苷酸可以是核苷酸的单链序列，如RNA或单链DNA；核苷酸的双链序列，如双链DNA；或可以包含核苷酸的单链和双链序列的混合物。双链DNA(dsDNA)包含基因组DNA、以及PCR和扩增产物。单链DNA(ssDNA)可以转化成dsDNA并且反之亦然。多核苷酸可包括非天然存在的DNA，诸如对映异构的DNA、LNA或PNA。多核苷酸中核苷酸的精确序列可为已知或未知的。以下为多核苷酸的示例：基因或基因片段(例如探针、引物、表达的序列标签(EST)或基因表达系列分析(SAGE)标签)、基因组DNA、基因组DNA片段、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、合成多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、前述任一者的核酸探针、引物、或扩增复本。

如本文所用，“聚合酶(polymerase)”旨在表示具有通过将核苷酸聚合成多核苷酸来组装多核苷酸的活性位点的酶。聚合酶可以结合引发的单链靶多核苷酸，并且可以将核苷酸依序添加到生长引物以形成具有与靶多核苷酸的序列互补的序列的“互补复制(complementary copy)”多核苷酸。接着，另一聚合酶或相同聚合酶可以通过形成该互补复制多核苷酸的互补复本形成靶核苷酸的复本。此类复本中的任一者可在本文中被称作“扩增子(amplicon)”。DNA聚合酶可以结合到靶多核苷酸并且然后沿靶多核苷酸向下移动，将核苷酸依序添加到生长多核苷酸链(生长扩增子)的3'端处的游离羟基基团。DNA聚合酶可以自DNA模板合成互补DNA分子并且RNA聚合酶可以自DNA模板合成RNA分子(转录)。聚合酶可以使用短RNA或DNA链(引物)来开始链生长。一些聚合酶可以使它们将碱基添加到链的位点上游的链移位。此类聚合酶可以称为链移位的，意味着它们具有从由聚合酶读取的模板链中去除互补链的活性。

示例聚合酶包括Bst DNA聚合酶、9Nm DNA聚合酶、Phi29DNA聚合酶、DNA聚合酶I(大肠杆菌(E.coli))、DNA聚合酶I(大)、(克列诺)片段、克列诺片段(3'-5'外-)、T4DNA聚合酶、T7DNA聚合酶、Deep VentR^TM(外-)DNA聚合酶、Deep VentR^TMDNA聚合酶、DyNAzyme^TMEXTDNA、DyNAzyme^TMII热启动DNA聚合酶、Phusion^TM高保真DNA聚合酶、Therminator^TMDNA聚合酶、Therminator^TMIIDNA聚合酶、DNA聚合酶、(外-)DNA聚合酶、RepliPHI^TMPhi29DNA聚合酶、rBst DNA聚合酶、rBst DNA聚合酶(大)、片段(IsoTherm^TMDNA聚合酶)、MasterAmp^TMAmpliTherm^TMDNA聚合酶、Taq DNA聚合酶、Tth DNA聚合酶、Tfl DNA聚合酶、Tgo DNA聚合酶、SP6DNA聚合酶、Tbr DNA聚合酶、DNA聚合酶β和ThermoPhi DNA聚合酶。在具体的非限制性示例中，聚合酶选自Bst、Bsu和Phi29。当聚合酶延伸杂交链时，包括单链结合蛋白(SSB)可能是有益的。SSB可稳定置换的(非模板)链。具有链置换活性的示例性聚合酶包括但不限于Vent聚合酶、Bsu聚合酶；Bst(嗜热脂肪芽孢杆菌(Bacillusstearothermophilus))聚合酶、exo-Klenow聚合酶或测序级T7exo-聚合酶的大片段。一些聚合酶使它们前方的链降解，从而有效地用后面生长的链置换前方链(5'核酸外切酶活性)。具有5'核酸外切酶活性的示例性聚合酶包括Taq、Bst和DNA聚合酶I。一些聚合酶具有降解它们后面的链的活性(3'核酸外切酶活性)。一些有用的聚合酶已经通过突变或以其它方式修饰以减少或消除3'和/或5'核酸外切酶活性。聚合酶可包括逆转录酶(RT)。RT的非限制性示例包括MMLV及其突变体，例如，诸如在Anzalone等人，“Search-and-replace genomeediting without double-strand breaks or donor DNA”，Nature，第576卷：第149-157页，2019年中所述的，该文献的全部内容以引用方式并入本文。

如本文所用，术语“引物”定义为可通过游离3'OH基团向其添加核苷酸的多核苷酸。引物可包括3'封闭基团，该封闭基团能够抑制聚合直到去除该封闭基团为止。引物可包括在5'末端处的修饰以允许偶联反应或使该引物偶联到另一部分。引物可包括一个或多个部分，诸如8-氧代鸟嘌呤(8-oxo-G)，该一个或多个部分可在合适的条件(诸如UV光、化学、酶等)下裂解。引物长度可以是任何适合数目个碱基的长度，并且可以包含天然和非天然核苷酸的任何适合组合。靶多核苷酸可包含“扩增衔接子(amplification adapter)”或更简单地说“衔接子(adapter)”，该衔接子可与引物杂交(具有与引物互补的序列)，并且可以扩增以便通过将核苷酸添加到引物的游离3'OH基团来产生互补复制多核苷酸。“捕获引物”旨在表示偶联到底物并且可与靶多核苷酸的第一接头杂交的引物，而“正交捕获引物”旨在表示偶联到底物并且可与该靶多核苷酸的第二接头杂交的引物。第一衔接子可具有与捕获引物的序列互补的序列，并且第二衔接子可具有与正交捕获引物的序列互补的序列。捕获引物和正交捕获引物可具有彼此不同且独立的序列。另外，捕获引物和正交捕获引物可在至少一种其他特性中彼此不同。例如，捕获引物和正交捕获引物可具有彼此不同的长度；捕获引物或正交捕获引物可包括该捕获引物或该正交捕获引物中的另一者缺乏的非核酸部分(诸如封闭基团或切除部分)；或此类特性的任何合适组合。经修饰的捕获引物还可包括多种天然存在的核酸，诸如但不限于DNA。

在一些示例中，捕获引物是可从Illumina公司(Illumina,Inc)商购获得的P5或P7引物。P5和P7引物是彼此正交的引物的非限制性示例。在一些示例中，P5和P7引物序列可以具有以下序列：

配对读段组：

P5：5'-AATGATACGGCGACCACCGAGAUCTACAC-3'(SEQ ID NO:1)

P7：5'-CAAGCAGAAGACGGCATACGAG*AT-3'(SEQ ID NO:2)

单个读段组：

P5：5'-AATGATACGGCGACCACCGA-3'(SEQ ID NO:3)

P7：5'-CAAGCAGAAGACGGCATACGA3'(SEQ ID NO:4)

其中G*是G或8-氧代鸟嘌呤。

如本文所用，术语“多个”旨在表示两个或更多个不同成员的群体。多个数目可在小、中、大到极大的大小范围内。小的多个数目的大小可在例如几个成员到数十个成员的范围内。中等大小的多个数目可在例如数十个成员到约100个成员或数百个成员的范围内。大的多个数目可在例如约数百个成员到约1000个成员、到数千个成员、和多达数万个成员的范围内。极大的多个数目可在例如数万成员到约几十万、一百万、几百万、几千万、和多达或超过数亿成员的范围内。因此，多个数目可以在两个到远超过一亿成员的大小以及如通过成员的数目所测量的所有大小范围内、在以上示例性范围之间、且超过以上示例性范围。示例性多核苷酸多个数目包含例如约1×10⁵或更多、5×10⁵或更多、或1×10⁶或更多不同多核苷酸的群体。因此，术语的定义打算包含大于二的所有整数值。多个数目的上限可以例如通过样本中多核苷酸序列的理论多样性来设置。

如本文所用，当参考多核苷酸使用时，术语“双链”旨在表示多核苷酸中的所有核苷酸或基本上所有核苷酸都与互补多核苷酸中的相应核苷酸氢键合。双链多核苷酸也可被称为“双链体”。如本文所用，当参考多核苷酸使用时，术语“单链”是指多核苷酸中的核苷酸基本上都没有与互补多核苷酸中的相应核苷酸氢键合。

如本文所用，术语“靶多核苷酸”旨在表示作为分析或动作的目的的多核苷酸，并且还可称为使用术语诸如“文库多核苷酸”、“模板多核苷酸”或“文库模板”。该分析或作用包括使多核苷酸进行捕获、扩增、测序和/或其他程序。靶多核苷酸可以包含待分析的靶序列之外的核苷酸序列。例如，靶多核苷酸可以包含一种或多种衔接子，包含充当引物结合位点的扩增衔接子，该扩增衔接子侧接待分析的靶多核苷酸序列。与捕获引物杂交的靶多核苷酸可包括以并非所有靶多核苷酸都易于延伸的方式来延伸超过捕获寡核苷酸的5'端或3'端的核苷酸。在特定示例中，靶多核苷酸可具有彼此不同的序列，但是可具有彼此相同的第一衔接子和第二衔接子。可位于特定靶多核苷酸序列侧翼的两个衔接子可具有彼此相同的序列，或彼此互补的序列，或者这两个衔接子可具有不同的序列。因此，多个靶多核苷酸中的种类可包括已知序列的区域，该区域位于将通过例如测序(例如，SBS)来评估的未知序列区域的侧翼。在一些示例中，靶多核苷酸在单个末端携带扩增衔接子，并且此类衔接子可位于靶多核苷酸的3'端或5'端。可在没有任何衔接子的情况下使用靶多核苷酸，在这种情况下，引物结合序列可直接源自靶多核苷酸中发现的序列。

术语“多核苷酸”和“寡核苷酸”在本文中可互换地使用。除非另外具体地指示，否则不同术语并不意图表示大小、序列、或其它特性的任何具体差异。为了描述的清楚起见，术语可用于在描述包括若干多核苷酸种类的特定方法或组合物时区分一种多核苷酸种类与另一种多核苷酸种类。

在一些情况下，术语“序列”和“亚序列”在本文中可互换使用。例如，序列可在其中包括一个或多个亚序列。此类亚序列中的每一者也可被称为序列。

如本文所用，术语“扩增子”当关于多核苷酸使用时打算意指复制多核苷酸的产物，其中产物具有与多核苷酸的核苷酸序列的至少一部分基本上相同或基本上与多核苷酸的核苷酸序列的至少一部分互补的核苷酸序列。“扩增(amplification)”和“扩增(amplifying)”是指制造多核苷酸的扩增子的工艺。靶多核苷酸的第一扩增子可以是互补的复本。额外扩增子为在产生第一扩增子之后从靶多核苷酸或从第一扩增子产生的复本。后续扩增子可具有与靶多核苷酸基本上互补或与靶多核苷酸基本上一致的序列。应理解，当产生多核苷酸的扩增子时，可出现该多核苷酸的少量突变(例如由于扩增伪影)。

如本文所用，术语“保护性元件”当用于指多核苷酸的5'或3'末端时，旨在表示抑制多核苷酸的该末端的修饰的元件。说明性地，保护性元件可抑制一种或多种酶对多核苷酸的该末端的作用，诸如5'或3'核酸外切酶的作用。保护性元件的非限制性示例包括连接到双链多核苷酸末端的5'和3'链的发夹序列、经修饰的碱基(例如，包括硫代磷酸酯键或3'磷酸酯)或去磷酸化的碱基。

如本文所用，术语诸如“CRISPR-Cas系统”、“Cas-gRNA核糖核蛋白”和Cas-gRNARNP是指包括指导RNA(gRNA)序列和Cas蛋白的酶系统，该指导RNA序列包括与靶多核苷酸内的序列互补或基本上互补的寡核苷酸序列。基于核心元件含量和序列，CRISPR-Cas系统通常可分类为三种主要类型，其进一步细分为十种亚型；参见例如Makarova等人，“Evolutionand classification of the CRISPR-Cas systems”，Nat Rev Microbiol.，第9卷第6期：第467-477页，2011年。Cas蛋白可具有多种活性，例如核酸酶活性。因此，CRISPR-Cas系统提供用于靶向特定序列(例如，经由gRNA)以及该序列上的某些酶活性(例如，经由Cas蛋白)的机制。

I型CRISPR-Cas系统可包括具有单独的解旋酶和DNA酶活性的Cas3蛋白。例如，在1-E型系统中，将crRNA掺入称为级联(用于抗病毒防御的CRISPR相关复合物)的多亚单元效应子复合物中，其结合到靶DNA并触发Cas3蛋白的降解；参见例如Brouns等人，“SmallCRISPR RNAs guide antiviral defense in prokaryotes”，Science，第321卷第5891期：第960-964页，2008年；Sinkunas等人，“Cas3is a single-stranded DNA nuclease andATP-dependent helicase in the CRISPR-Cas immune system”，EMBO J，第30卷：第1335-1342页，2011年；以及Beloglazova等人，“Structure and activity of the Cas3HDnuclease MJ0384,an effector enzyme of the CRISPR interference，EMBO J，第30卷：第4616-4627页，2011年。II型CRISPR-Cas系统包括特征Cas9蛋白，一种能够产生crRNA并切割靶DNA的单一蛋白(约160KDa)。Cas9蛋白通常包括两个核酸酶结构域，靠近氨基末端的RuvC样核酸酶结构域和靠近蛋白质中间的HNH(或McrA样)核酸酶结构域。Cas9蛋白的每个核酸酶结构域专门用于切割双螺旋的一条链；参见例如Jinek等人，“A programmabledual-RNA-guided DNA endonuclease in adaptive bacterial immunity，Science，第337卷第6096期：第816-821页，2012年。III型CRISPR-Cas系统包括聚合酶和RAMP模块。III型系统可进一步分为亚型III-A和III-B。III-A型CRISPR-Cas系统已经显示靶向质粒，并且III-A型系统的聚合酶样蛋白参与靶DNA的切割；参见例如Marraffini等人，“CRISPR interferencelimits horizontal gene transfer in Staphylococci by targeting DNA”，Science，第322卷第5909期：第1843-1845页，2008年。III-B型CRISPR-Cas系统也显示靶向RNA；参见例如Hale等人，“RNA-guided RNA cleavage by a CRISPR-RNA-Cas protein complex”，Cell，第139卷第5期：第945-956页，2009年。CRISPR-Cas系统包括衍生自天然产生的CRISPR-Cas系统的工程化和/或程序化的核酸酶系统。CRISPR-Cas系统可包括工程化和/或突变的Cas蛋白。CRISPR-Cas系统可包括工程化和/或程序化的指导RNA。

在一些具体示例中，本发明的Cas-gRNA RNP之一中的Cas蛋白可包括Cas9或其他合适的Cas，其可以诸如以下参考文献中所述的方式在gRNA互补的序列处切割靶多核苷酸，这些文献中的每一篇的全部内容以引用方式并入本文：Nachmanson等人，“Targetedgenome fragmentation with CRISPR/Cas9enables fast and efficient enrichment ofsmall genomic regions and ultra-accurate sequencing with low DNA input(CRISPR-DS)”，Genome Res.，第28卷第10期：第1589-1599页，2018年；Vakulskas等人，“Ahigh-fidelity Cas9mutant delivered as a ribonucleoprotein complex enablesefficient gene editing in human hematopoietic stem and progenitor cells”，Nature Medicine，第24卷：第1216-1224页，2018年；Chatterjee等人，“Minimal PAMspecificity of a highly similar SpCas9ortholog”，Science Advances，第4卷第10期：eaau0766，第1-10页，2018年；Lee等人，“CRISPR-Cap:multiplexed double-stranded DNAenrichment based on the CRISPR system”，Nucleic Acids Research，第47卷第1期：第1-13页，2019年。来自嗜热链球菌(S.thermophilus)CRISPR-Cas系统的分离的Cas9-crRNA复合物以及从单独的组分体外组装的复合物证明其结合合成的寡聚脱氧核苷酸和携带与crRNA互补的核苷酸序列的质粒DNA。已经显示Cas9具有两个核酸酶结构域—RuvC-和HNH-活性位点/核酸酶结构域，并且这两个核酸酶结构域负责切割相反的DNA链。在一些示例中，Cas9蛋白衍生自嗜热链球菌CRISPR-Cas系统的Cas9蛋白。在一些示例中，Cas9蛋白是具有约1,409个氨基酸残基的多结构域蛋白。

在其他示例中，Cas可被工程化以便不在gRNA互补的序列处切割靶多核苷酸，例如，以诸如以下参考文献中所述的方式，这些文献中的每一篇的全部内容以引用方式并入本文：Guilinger等人，“Fusion of catalytically inactive Cas9to Fokl nucleaseimproves the specificity of genome modification”，Nature Biotechnology，第32卷：第577-582页，2014年；Bhatt等人，“Targeted DNA transposition using a dCas9-transposase fusion protein”，https://doi.org/10.1101/571653，第1-89页，2019年；Xu等人，“CRISPR-assisted targeted enrichment-sequencing(CATE-seq)”，可获自URLwww.biorxiv.org/content/10.1101/672816v1，第1-30页，2019年；以及Tijan等人，“dCas9-targeted locus-specific protein isolation method identifies histonegene regulators”，PNAS，第115卷第12期：E2734-E2741，2018年。缺乏核酸酶活性的Cas可称为失活的Cas(dCas)。在一些示例中，dCas可包括Cas9蛋白的无核酸酶变体，其中RuvC-和HNH-活性位点/核酸酶结构域两者都被突变。Cas9蛋白的无核酸酶变体(dCas9)结合双链DNA，但不切割DNA。Cas9蛋白的另一种变体具有两个失活的核酸酶结构域，在切割与crRNA互补的链的结构域中具有第一突变并且在切割与crRNA不互补的链的结构域中具有第二突变。在一些示例中，Cas9蛋白具有第一突变D10A和第二突变H840A。

在其他示例中，Cas蛋白包括级联蛋白。大肠杆菌中的级联复合物以序列特异性方式识别双链DNA(dsDNA)靶标。大肠杆菌级联复合物是405-kDa复合物，包括五个功能必需的CRISPR相关(Cas)蛋白(CasA1B2C6D1E1，也称为级联蛋白)和61个核苷酸的crRNA。crRNA通过与互补DNA链形成碱基对同时置换非互补链以形成R-环而将级联复合物引导至dsDNA靶序列。级联识别靶DNA而不消耗ATP，这表明连续入侵者DNA监测在没有能量投入的情况下发生；参见例如Matthijs等人，“Structural basis for CRISPR RNA-guided DNArecognition by Cascade”，Nature Structural&Molecular Biology，第18卷第5期：第529-536页，2011年。在其他示例中，Cas蛋白包括Cas3蛋白。说明性地，大肠杆菌Cas3可催化RNA与形成R-环的DNA的ATP非依赖性退火，并将碱基配对的RNA杂交成双链DNA。Cas3蛋白可使用比Cas9更长的gRNA；参见例如Howard等人，“Helicase disassociation andannealing of RNA-DNA hybrids by Escherichia coli Cas3protein”，Biochem J.，第439卷第1期：第85-95页，2011年。这种更长的gRNA可允许其他元件更容易地接近靶DNA，例如，接近待通过聚合酶延伸的引物。Cas3蛋白提供的另一个特征是Cas3蛋白不像Cas9那样需要PAM序列，因此为靶向期望序列提供更大的灵活性。由Cas3的R-环形成可利用镁作为辅因子；参见例如Howard等人，“Helicase disassociation and annealing of RNA-DNAhybrids by Escherichia coli Cas3protein”，Biochem J.，第439卷第1期：第85-95页，2011年。还已经开发出减少或避免对PAM序列的需要的Cas9变体；参见例如，Walton等人，“Unconstrained genome targeting with near-PAMless engineered CRISPR-Cas9variants”，Science，第368卷第6488期：第290-296页，2020年，该文献的全部内容以引用方式并入本文。应当理解，任何合适的辅因子，诸如阳离子可与用于本发明组合物和方法中的Cas蛋白一起使用。

还应当理解，可使用能够破坏双链多核苷酸并产生环结构的任何CRISPR-Cas系统。例如，Cas蛋白可包括但不限于诸如以下参考文献中所述的Cas蛋白，这些文献中的每一篇的全部内容以引用方式并入本文：Haft等人，“A guild of 45CRISPR-associated(Cas)protein families and multiple CRISPR/Cas subtypes exist in prokaryoticgenomes”，PLoS Comput Biol.，第1卷第6期：e60，第1-10页，2005年；Zhang等人，“Expanding the catalog of cas genes with metagenomes”，Nucl.Acids Res，第42卷第4期：第2448-2459页，2013年；以及Strecker等人，“RNA-guided DNA insertion withCRISPR-associated transposases”，Science，第365卷第6448期：第48-53页，2019年，其中Cas蛋白可包括Cas12k。这些CRISPR-Cas系统中的一些系统可利用特定序列来识别并结合靶序列。例如，Cas9可利用5'-NGG原型间隔区相邻基序(PAM)的存在。

在一些示例中，可选择Cas蛋白以便在例如一个或多个碱基，说明性地2-5个碱基的dsDNA切割后留下单链DNA突出区。例如，CRISPR-Cas12a(Cpf1)可从Integrated DNATechnologies,Inc.(Coralville，Iowa)商购获得。根据制造商，CRISPR-Cas12a(Cpf1)产生具有5'突出端的交错切口，并且可靶向与CRISPR-Cas9不同的位点。在一些示例中，5'突出端可为5个碱基长。这些CRISPR-Cas系统中的一些系统可利用PAM。例如，Cas12a(Cpf1或C2c1)或FnCas12a可使用切割位点上游的TTTN的PAM，而新出现的Cas12a直系同源物可具有降低的PAM需求(例如，YTN)，其方式诸如Teng等人，“Enhanced mammalian genome editingby new Cas12a orthologs with optimized crRNA scaffolds”，Genome Biology，第20卷：第15页，2019年中所述的，这些文献的全部内容以引用方式并入本文。Cas12可来源于生物体诸如新凶手弗朗西丝氏菌(Francisella novicida)、氨基酸球菌属菌种(Acidaminococcus sp.)、毛螺菌科菌种(Lachnospiraceae sp.)和普氏菌属菌种(Prevotella sp.)。关于Cas12a的进一步细节，参见Covsky等人，“CRISPR-Cas12aexploits R-loop asymmetry to form double-strand breaks”，eLife，第9卷：e55143，2020年，该文献的全部内容以引用方式并入本文。

CRISPR-Cas系统还可包括工程化和/或程序化的指导RNA(gRNA)。如本文所用，术语“指导RNA”和“gRNA”(并且在本领域中有时称为单指导RNA，或sgRNA)旨在表示包括与靶DNA序列的区域互补或基本上互补并且将Cas蛋白引导至该区域的序列的RNA。指导RNA可包括除了与靶DNA序列的区域互补或基本上互补的核苷酸序列之外的核苷酸序列。用于设计gRNA的方法是本领域熟知的，并且非限制性示例提供于以下参考文献中，这些文献中的每一篇的全部内容以引用方式并入本文：Stevens等人，“A novel CRISPR/Cas9associatedtechnology for sequence-specific nucleic acid enrichment,”PLoS ONE 14(4):e0215441，第1-7页(2019)；Fu等人，“Improving CRISPR-Cas nuclease specificityusing truncated guide RNAs,Nature Biotechnology 32(3):279-284(2014)；Kocak等人，“Increasing the specificity of CRISPR systems with engineered RNAsecondary structures,”Nature Biotechnology 37:657-666(2019)；Lee等人，“CRISPR-Cap:multiplexed double-stranded DNA enrichment based on the CRISPR system,”Nucleic Acids Research 47(1):e1,1-13(2019)；Quan等人，“FLASH:a next-generationCRISPR diagnostic for multiplexed detection of antimicrobial resistancesequences,”Nucleic Acids Research 47(14):e83,1-9(2019)；和Xu等人“CRISPR-assisted targeted enrichment-sequencing(CATE-seq),”https://doi.org/10.1101/672816,1-30(2019)。

在一些示例中，gRNA包括嵌合体，例如与反式活化CRISPR RNA(tracrRNA)融合的CRISPR RNA(crRNA)。这种嵌合单指导RNA(sgRNA)描述于Jinek等人，“Aprogrammabledual-RNA-guided endonuclease in adaptive bacterial immunity”，Science，第337卷第6096期：第816-821页，2012年中。Cas蛋白可通过嵌合sgRNA导向任何基因座，随后是5'-NGG原型间隔区相邻基序(PAM)。在一个非限制性示例中，crRNA和tracrRNA可使用包括T7启动子的合成双链DNA模板通过体外转录来合成。tracrRNA可具有固定序列，而靶序列可决定crRNA序列的一部分。可将等摩尔浓度的crRNA和tracrRNA混合并在55℃处加热30秒。可在37℃处以相同的摩尔浓度添加Cas9，并与RNA混合物温育10分钟。然后可将10倍至20倍摩尔过量的所得Cas9-gRNA RNP添加靶DNA中。结合反应可在15分钟内发生。可容易地使用其他合适的反应条件。

如本文所用，术语“融合蛋白”和“嵌合蛋白”旨在表示包括彼此具有不同功能特性(诸如不同酶活性)的两个或更多个多肽结构域的元件。这些结构域可彼此共价或非共价偶联。融合蛋白可任选地包括可操作地连接到所述多肽结构域中的一个或多个其他多肽结构域的第三多肽结构域、第四多肽结构域或第五多肽结构域或其他多肽结构域。融合蛋白可包括相同多肽结构域的多个拷贝。融合蛋白还可以或另选地包括在所述多肽中的一个或多个多肽中的一个或多个突变。融合蛋白可包括一个或多个非蛋白元件，诸如多核苷酸(说明性地，gRNA)和/或将结构域彼此偶联的衔接子。对于融合蛋白的非限制性示例，参见以下参考文献，这些参考文献的全部内容以引用方式并入本文：Guilinger等人，“Fusion ofcatalytically inactive Cas9to Fokl nuclease improves the specificity ofgenome modification”，Nature Biotechnology，第32期，第577-582页，2014年；Bhatt等人，“Targeted DNA transposition using a dCas9-transposase fusion protein”，https://doi.org/10.1101/571653，第1-89页，2019年；以及Strecker等人，“RNA-guidedDNA insertion with CRISPR-associated transposases”，Science，第365卷第6448期：第48-53页，2019年。另一种示例性融合蛋白是ShCAST(Scytonema hofmanni CRISPR相关转座酶)，其包括Cas12k和Tn7样转座酶。关于ShCAST的进一步细节，包括其中的Cas12k和Tn7，参见Strecker等人，“RNA-Guided DNA insertion with CRISPR-associatedtransposases,”Science 365(6448):48-53(2019)，该文献的全部内容以引用方式并入本文。

如本文所用，术语“转座酶”旨在表示能够将寡核苷酸偶联到多核苷酸的酶。在一些示例中，寡核苷酸可包括扩增衔接子，并且任选地可包括独特分子标识符(UMI)。转座酶可切割多核苷酸，同时向其添加寡核苷酸。转座酶的一个非限制性示例是Tn5。在另外的示例中，转座酶可包括来自逆转录转座子或逆转录病毒的整合酶。转座酶、转座子和转座子复合物通常是本领域技术人员已知的，如US2010/0120098的公开内容所示例，该专利的全部内容以引用方式并入本文。

对于可以诸如本文提供的方式使用的转座酶的另外的非限制性示例，参见以下参考文献，这些文献中的每一篇的全部内容以引用方式并入本文：Strecker等人，“RNA-guided DNA insertion with CRISPR-associated transposases”，Science，第365卷第6448期：第48-53页，2019年；Klompe等人，“Transposon-encoded CRISPR-Cas systemsdirect RNA-guided DNA integration”，Nature，第571卷：第219-225页，2019年；以及Bhatt等人，“Targeted DNA transposition using a dCas9-transposase fusionprotein”，https://doi.org/10.1101/571653，第1-89页，2019年。可用于所提供的方法的已知转座体系的其他示例包括但不限于：金黄色葡萄球菌(Staphylococcus aureus)Tn552、Tyl、转座子Tn7、Tn/O和IS10、Mariner转座酶、Tel、P因子、Tn3、细菌插入序列、逆转录病毒和酵母的逆转录转座子(参见例如，Colegio等人，2001年，J.Bacteriol.，第183卷：第2384-2388页；Kirby等人，2002年，Mol.Microbiol.，第43卷：第173-186页；Devine和Boeke，1994年，Nucleic Acids Res.，第22卷：第3765-3772页；国际专利申请号WO 95/23875；Craig，1996年，Science，第271卷：第1512页；Craig，1996年，Curr Top MicrobiolImmunol.中的综述，第204卷：第27-48页；Kleckner等人，1996年，Curr Top MicrobiolImmunol.，第204卷：第49-82页；Lampe等人，1996年，EMBO J，第15卷：第5470-5479页；Plasterk，1996年，Curr Top Microbiol Immunol，第204卷：第125-143页；Gloor，2004年，Methods Mol.Biol.，第260卷：第97-114页；Ichikawa和Ohtsubo，1990年，J Biol.Chem.，第265卷：第18829-18832页；Ohtsubo和Sekine，1996年，Curr.Top.Microbiol.Immunol.，第204卷：第1-26页；Brown等人，1989年，Proc Natl Acad Sci USA，第86卷：第2525-2529页；以及Boeke和Corces，1989年，Annu Rev Microbiol.，43：403-34)。作为另一个示例，ShCAST(Scytonema hofmanni CRISPR相关转座酶)包括Tn7样转座酶；关于进一步细节，参见Strecker等人，“RNA-Guided DNA insertion with CRISPR-associated transposases”，Science，第365卷第6448期：第48-53页(2019年)，该文献的全部内容以引用方式并入本文。

在一些示例中，转座酶可执行可被称为“标签化”或“转座”的过程，该过程导致靶多核苷酸的片段化和衔接子与双链DNA片段的两条链的5'末端或与5'末端和3'末端的连接，例如其方式诸如US2010/0120098或WO 2010/04860中所述的，这些专利中的每一篇的全部内容以引用方式并入本文。

转座酶可形成“转座复合物”，该转座复合物包含转座酶、包含转座子末端的组合物和双链多核苷酸，并且可催化包含转座子末端的组合物插入或转座到双链靶多核苷酸中。示例性转座复合物包括但不限于：由高活性Tn5转座酶和Tn5型转座子末端，或由MuA转座酶和包含R1末端序列和R2末端序列的Mu转座子末端形成的那些。参见例如以下参考文献，这些文献中的每一篇的全部内容以引用方式并入本文：Goryshin等人，“Tn5in vitrotransposition”，J.Biol.Chem.，第273卷：第7367-7394页，1998年；Mizuuchi，“In vitrotransposition of bacteriophage Mu:a biochemical approach to a novelreplication reaction”，Cell，第35卷(3pt 2)：第785-794页，1983年；以及Savilahti等人，“The phage Mu transposomes core:DNA requirements for assembly andfunction”，EMBO J，第14卷第19期：第4893-4903页，1995年。转座酶和转座子末端的组合可被称为“转座体”。

转座酶和其他合适的转座体系的另外的示例包括金黄色葡萄球菌Tn552(参见例如，Colegio等人，“In vitro transposition system for efficient generation ofrandom mutants of Campylobacter jejuni”，J Bacteriol，第183卷：第2384-2388页，2001年以及Kirby等人，“Cryptic plasmids of Mycobacterium avium:Tn552to therescue”，Mol Microbiol.，第43卷第1期：第173-186页，2002年)；TyI(Devine等人，“Efficient integration of artificial transposons into plasmid targets invitro:a useful tool for DNA mapping,sequencing and genetic analysis”，NucleicAcids Res.，第22卷第18期：第3765-3772页，1994年以及国际专利申请号WO 95/23875)；转座子Tn7(Craig，“V(D)J recombination and transposition:Closer than expected”，Science，第271卷第5255期：第1512页，1996年以及Craig，Curr Top Microbiol Immunol中的综述，第204卷：第27-48页，1996年)；TnIO和ISlO(Kleckner等人，Curr Top MicrobiolImmunol，第204卷：第49-82页，1996年)；Mariner转座酶(Lampe等人，“A purified marinertransposase is sufficient to mediate transposition in vitro”，EMBO J，第15卷第19期：第5470-5479页，1996年)；Tci(Plasterk，Curr Top Microbiol Immunol，第204卷：第125-143页，1996年)、P因子(Gloor，“Gene targeting in Drosophila”，Methods MolBiol，第260卷：第97-114页，2004年)；TnJ(Ichikawa等人，“In vitro transposition oftransposon Tn3”，J Biol Chem.，第265卷第31期：第18829-18832页，1990年)；细菌插入序列(Ohtsubo等人，“Bacterial insertion sequences”，Curr.Top.Microbiol.Immunol.，第204卷：第1-26页，1996年)；逆转录病毒(Brown等人，“Retroviral integration:Structureof the initial covalent product and its precursor,and a role for the viral INprotein”，Proc Natl Acad Sci USA，第86卷：第2525-2529页，1989年)；和酵母的逆转录转座子(Boeke等人，“Transcription and reverse transcription of retrotransposons”，Annu Rev Microbiol.，第43卷：第403-434页，1989年)。

如本文所用，术语“核酸酶”旨在表示能够切割多核苷酸的核苷酸亚单位之间的磷酸二酯键的酶。术语“内切核酸酶”是指能够切割多核苷酸链内的磷酸二酯键的酶。

如本文所用，术语“切口酶”是指仅切割DNA双链体的单链的内切核酸酶。一些CRISPR-Cas系统可仅切割双链多核苷酸的一条链，因此可被称为CRISPR切口酶或Cas-gRNARNP切口酶。例如，术语“Cas9切口酶”是指通常通过灭活Cas9蛋白的一个核酸酶结构域而衍生自Cas9蛋白的切口酶。CRISPR切口酶的非限制性示例包括具有第一突变D10A和第二突变H840A的酿脓链球菌Cas9。

在多肽的上下文中，如本文所用，术语“变体”和“衍生物”是指包含已通过引入氨基酸残基置换、缺失或添加而改变的多肽的氨基酸序列或多肽片段的多肽。多肽的变体或衍生物可以是包含多肽的氨基酸序列的一部分的融合蛋白。如本文所用，术语“变体”或“衍生物”也指已经经化学修饰的多肽或多肽片段，例如通过将任何类型的分子共价附接到多肽来进行。例如但不限于，多肽或多肽片段可被化学修饰，例如通过糖基化、乙酰化、聚乙二醇化、磷酸化、酰胺化、通过已知保护/阻断基团的衍生化、蛋白水解切割、与细胞配体或其他蛋白质的连接等。变体或衍生物以不同于天然存在的或起始的肽或多肽的方式在所附接的分子的类型或位置方面进行修饰。变体或衍生物进一步包括肽或多肽上天然存在的一个或多个化学基团的缺失。多肽或多肽片段的变体或衍生物可使用本领域技术人员已知的技术通过化学修饰进行化学修饰，所述技术包括但不限于特异性化学切割、乙酰化、制剂、衣霉素的代谢合成等。此外，多肽或多肽片段的变体或衍生物可包含一种或多种非典型氨基酸。多肽变体或衍生物可具有与本文所述的多肽或多肽片段相似或相同的功能。与本文所述的多肽或多肽片段相比，多肽变体或衍生物可具有附加的或不同的功能。

如本文所用，术语“测序”旨在表示测定多核苷酸的序列。测序可包括边合成边测序、桥接PCR、链终止测序、边杂交边测序、纳米孔测序和边连接边测序中的一者或多者。

如本文所用，术语“去宿主”旨在表示一个物种的多核苷酸相对于另一物种的多核苷酸的选择性失活或降解。例如，第一物种诸如哺乳动物(例如，人)可充当许多其他物种(诸如细菌、真菌和病毒)的宿主。可能希望使第一物种的多核苷酸选择性失活或降解，使得一种或多种其他物种的多核苷酸可被扩增和测序。

如本文所用，对元件具有“选择性”旨在表示与该靶标偶联而不与不同元件偶联。例如，对种特异性重复元件具有选择性的Cas-gRNA RNP可与该种特异性重复元件偶联而不与不同的种特异性重复元件偶联。

如本文所用，术语“种特异性重复元件”旨在表示存在于给定种的多核苷酸内并且可能不存在于另一种的多核苷酸内的重复序列。具有多个染色体的种(诸如哺乳动物，例如人)可在每个染色体上包括不同的种特异性元件，或者可在每个染色体上包括相同的种特异性元件，或者在每个染色体上包括相同和不同的种特异性元件的混合物。种特异性重复元件的一个示例是邻近基序的光间隔基，或PAM序列，诸如NGG。Cas-gRNA RNP的gRNA可具有与种特异性重复元件杂交的序列。

如本文所用，术语“独特分子标识符”和“UMI”旨在表示可与多核苷酸偶联并且可经由其鉴定多核苷酸的寡核苷酸。例如，可将一组不同的UMI与多个不同的多核苷酸偶联，并且可使用与该多核苷酸偶联的特定UMI来鉴定这些多核苷酸中的每一者。

如本文所用，术语物种的“全基因组”或“WG”旨在表示一组一种或多种多核苷酸，这些多核苷酸一起提供该物种的细胞过程所使用的大多数多核苷酸。物种的全基因组可包括物种的染色体DNA和/或线粒体DNA的任何合适的组合，并且在植物物种的情况下可包括叶绿体中所含的DNA。该组的一种或多种多核苷酸一起可提供由该物种的细胞过程所使用的多核苷酸的至少约50％、或至少约60％、或至少约70％、或至少约80％、或至少约90％、或至少约95％、或至少约98％、或至少约99％。

如本文所用，术语“片段”旨在表示多核苷酸的一部分。例如，多核苷酸可以是总数目的碱基长度，并且该多核苷酸的片段可小于总数目的碱基长度。

如本文所用，术语“样本”旨在意指包括一种或多种多核苷酸的一定体积的流体。样本中的多核苷酸可包括全基因组，或可仅包括全基因组的一部分。样本可包括来自单一物种或来自多个物种的多核苷酸。

如本文所用，术语“抗体”涵盖单克隆抗体(包括全长单克隆抗体)、多克隆抗体、多特异性抗体(例如双特异性抗体)和抗体片段，只要它们表现出结合靶抗原位点及其目标同种型的期望生物活性。术语“抗体片段”包括全长抗体的一部分，通常是其抗原结合区或可变区。如本文所用，术语“抗体”涵盖源自任何物种和资源的任何抗体，包括但不限于人抗体、大鼠抗体、小鼠抗体、兔抗体等，并且可以是合成制备的或天然存在的。

如本文所用，术语“单克隆抗体”是指从基本上均质的抗体群获得的抗体。即，包括群体的单个抗体是相同的，除了可能以少量存在的可能天然存在突变以外。单克隆抗体是高度特异性的，针对单个抗原位点。此外，与通常包括针对不同决定簇(表位)的不同抗体的常规(多克隆)抗体制剂相反，各单克隆抗体针对抗原上的单一决定簇。“单克隆抗体”也可使用本领域已知的技术从噬菌体抗体文库中分离。如本文所用的术语单克隆抗体可包括“嵌合”抗体(免疫球蛋白)，其中重链和/或轻链的一部分与源自特定物种或属于特定抗体类别或亚类的抗体中的相应序列相同或同源，而链的其余部分与源自另一物种或属于另一抗体类别或亚类的抗体中的相应序列相同或同源，以及此类抗体的片段，只要它们表现出期望的生物活性。

如本文所用，当用于指向导RNA或其他多核苷酸时，诸如“靶特异性”和“选择性”的术语旨在意指包括对另一多核苷酸内的序列具有特异性(与该另一多核苷酸内的序列基本上互补且可杂交)的序列的多核苷酸。

如本文所用，术语“互补”和“基本上互补”，当用于指多核苷酸时，旨在表示该多核苷酸包括在某些条件下能够与另一多核苷酸中的序列选择性杂交的序列。

如本文所用，术语诸如“扩增(amplification)”和“扩增(amplify)”是指使用任何合适的扩增方法来产生多核苷酸的扩增子。聚合酶链反应(PCR)是一种非限制性扩增方法。本领域已知的其他合适的扩增方法包括但不限于滚环扩增；核糖引物(riboprimer)扩增(例如，如美国专利号7,413,857中所述)；ICAN；UCAN；ribospia；末端标记(例如，如U.S.2005/0153333中所述)；和Eberwine型aRNA扩增或链置换扩增。另外，扩增方法的非限制性示例描述于以下专利中：WO 02/16639；WO 00/56877；AU 00/29742；U.S.5,523,204；U.S.5,536,649；U.S.5,624,825；U.S.5,631,147；U.S.5,648,211；U.S.5,733,752；U.S.5,744,311；U.S.5,756,702；U.S.5,916,779；U.S.6,238,868；U.S.6,309,833；U.S.6,326,173；U.S.5,849,547；U.S.5,874,260；U.S.6,218,151；U.S.5,786,183；U.S.6,087,133；U.S.6,214,587；U.S.6,063,604；U.S.6,251,639；U.S.6,410,278；WO 00/28082；U.S.5,591,609；U.S.5,614,389；U.S.5,773,733；U.S.5,834,202；U.S.6,448,017；U.S.6,124,120；和U.S.6,280,949。

如本文所用，术语“聚合酶链反应”和“PCR”是指其中扩增少量多核苷酸(例如RNA和/或DNA)的程序。通常，扩增引物与多核苷酸偶联以在PCR期间使用。参见例如以下参考文献，这些文献的全部内容以引用方式并入本文：Mullis的U.S.4,683,195；Mullis等人，ColdSpring Harbor Symp.Quant.Biol.，第51卷：第263页，1987年；以及Erlich编辑，PCRTechnology，(Stockton Press，NY，1989年)。如本领域技术人员已知的，多种酶和试剂盒可用于进行PCR。例如，在一些示例中，使用来自EPICENTRE Biotechnologies(Madison，Wis.)的FAILSAFE^TMPCR系统或MASTERAMP^TMExtra-Long PCR系统如制造商所述进行PCR扩增。

如本文所用，术语诸如“连接(ligation)”和“连接(ligating)”旨在表示在两个或多个多核苷酸的末端之间形成共价键或连接。键或连接的性质可广泛变化，并且连接可通过酶促或化学方式进行。连接可通过酶促方式进行以在一个寡核苷酸的5'碳末端核苷酸和另一个核苷酸的3'碳之间形成磷酸二酯键。模板驱动的连接反应描述于以下参考文献中，这些文献中的每一篇的全部内容以引用方式并入本文：U.S.4,883,750；U.S.5,476,930；U.S.5,593,826；和U.S.5,871,921。连接还可使用磷酸二酯键的非酶促形成或者多核苷酸两端之间的非磷酸二酯共价键(诸如硫代磷酸酯键、二硫键等)的形成进行。

如本文所用，术语“衬底(substrate)”是指用作本文所描述的组合物的支撑物的材料。示例性基底材料可包含玻璃、二氧化硅、塑料、石英、金属、金属氧化物、有机硅酸酯(例如，多面体有机倍半硅氧烷(POSS))、聚丙烯酸酯、氧化钽、互补金属氧化物半导体(CMOS)、或它们的组合。POSS的示例可以是Kehagias等人在Microelectronic Engineering86(2009)第776-778页中所述的POSS，该文献以引用方式全文并入。在一些示例中，本申请中使用的基底包含二氧化硅类基底，如玻璃、熔融硅石、或其它含二氧化硅材料。在一些示例中，基于二氧化硅的基底可包括硅、二氧化硅、氮化硅或硅烷。在一些示例中，本申请中使用的基底包含塑料材料或组分，如聚乙烯、聚苯乙烯、聚(氯乙烯)、聚丙烯、尼龙、聚酯、聚碳酸酯、和聚(甲基丙烯酸甲酯)。示例性塑料材料包含聚(甲基丙烯酸甲酯)、聚苯乙烯、和环烯烃聚合物基底。在一些示例中，基底为或包含二氧化硅类材料或塑料材料或它们的组合。在特定示例中，基底具有包括玻璃或硅基聚合物的至少一个表面。在一些示例中，基底可包括金属。在一些此类示例中，金属为金。在一些示例中，基底具有包括金属氧化物的至少一个表面。在一个示例中，表面包括氧化钽或氧化锡。丙烯酰胺、烯酮、或丙烯酸酯也可用作基底材料或组分。其他基底材料可包括但不限于砷化镓、磷化铟、铝、陶瓷、聚酰亚胺、石英、树脂、聚合物和共聚物。在一些示例中，基底和/或基底表面可以是或包括石英。在一些其他示例中，基底和/或基底表面可以是或包括半导体，诸如GaAs或ITO。前述列表旨在说明但不限于本申请。基底可包括单一材料或多种不同材料。基底可以是复合材料或层压物。在一些示例中，基底包括有机硅酸盐材料。

基底可以是平坦的、圆形的、球形的、杆状的或任何其他合适的形状。基底可以是刚性的或柔性的。在一些示例中，基底为小珠或流通池。

基底可以在基底的一个或多个表面上被非图案化，纹理化或图案化。在一些示例中，基底被图案化。此类图案可包括柱、垫、孔、脊、通道或其他三维凹形或凸形结构。图案在整个基底表面上可以是规则的或不规则的。例如，可以通过纳米压印光刻或通过使用例如在非金属表面上形成特征的金属垫来形成图案。

在一些示例中，本文所描述的基底形成流通池的至少部分、或位于流通池中、或与流通池耦合。流通池可包含划分成多个泳道或多个分区的流动腔室。可用于本文阐述的方法和组合物中的示例性流通池和用于制造流通池的基底包括但不限于可从Illumina,Inc.,San Diego,CA商购获得的那些。

用于Cas-gRNA RNP介导的去宿主的组合物和方法

本文的一些示例涉及Cas-gRNA RNP介导的去宿主。例如，图1A至图1K示意性地示出了Cas-gRNA RNP介导的去宿主的工艺流程中的示例性组合物和操作。

更复杂的物种(例如哺乳动物)可作为多种其他更简单物种(诸如细菌、真菌和病毒)的宿主。可能希望对作为宿主的物种的多核苷酸(诸如DNA)进行测序，但可能难以将此类多核苷酸与宿主物种的多核苷酸充分分离。例如，来自宿主的流体或组织的纯化多核苷酸样本主要可包括来自宿主的多核苷酸(例如，约99％或更多)和相对少量的来自其他物种的多核苷酸(例如，约1％或更少)。因此，对该样本的测序主要可产生宿主的序列，而关于其他物种的序列的信息相对较少。如本文所提供的，给定物种(诸如宿主)的多核苷酸可以增强对该样本内的一种或多种其他物种的多核苷酸进行测序的能力的方式从样本中去除。

例如，如图1A所示，从第一物种获得的样本可包括来自第一物种的第一双链多核苷酸和来自一个或多个第二物种的第二双链多核苷酸的混合物。说明性地，第一物种(S1)可以是哺乳动物(例如，人)，其可充当许多其他物种(诸如细菌、真菌和病毒(S2、S3等))的宿主。在图1A所示的非限制性示例中，组合物101包括来自第一物种的多核苷酸S1-1、S1-2、S1-3；来自第二物种的多核苷酸S2-1；和来自第三物种的多核苷酸S3-1的混合物。来自第一物种的第一物种多核苷酸S1-1、S1-2、S1-3中的每一者可包括物种特异性重复元件140，诸如图1A所示。例如，当第一物种是哺乳动物时，来自该物种的多核苷酸可包括哺乳动物特异性重复元件。例如，当第一物种是人时，来自该人的每个多核苷酸可包括一个或多个人特异性重复元件140。

应当理解，来自每个给定物种的多核苷酸的浓度、数量和类型对于每个特定样本可以不同。例如，如果第一物种是第二物种和第三物种的宿主，则样本可含有比第二物种和第三物种显著更高浓度的来自第一物种的多核苷酸。另外，第一物种可具有更大的遗传复杂性，例如，可包括具有多个多核苷酸的基因组，诸如用于人的二十三个相对长的染色体S1-1、S1-2、S1-3...S1-23，而第二物种和/或第三物种可以是遗传上更简单的并且可例如包括仅具有单个相对短的多核苷酸的基因组。另外，混合物中的一种或多种物种的多核苷酸可被离体片段化成比那些物种在正常生理过程期间在体内通常使用的片段更短的片段。另外，混合物中一种或多种物种的多核苷酸可以是环状的(诸如S3-1)，并且因此可不具有任何末端。

如图1A所示，混合物中的每个多核苷酸可以是双链的。例如，多核苷酸S1-1可包括第一链111和互补的第二链111'；多核苷酸S1-2可包括第一链112和互补的第二链112'；多核苷酸S1-3可包括第一链113和互补的第二链113'；多核苷酸S2-1可包括第一链121和互补的第二链121'；多核苷酸S3-1可包括第一链131和互补的第二链131'。在一些示例中，来自第一物种、第二物种和/或第三物种的双链多核苷酸可包括双链DNA。

第一双链多核苷酸的末端和第二双链多核苷酸(如果有的话)的末端可被保护。例如，如图1B所示，组合物102包括保护性元件150，其保护混合物中的双链多核苷酸的任何末端。说明性地，保护性元件150与第一物种的多核苷酸S1-1、S1-2和S1-3的末端和第二物种的多核苷酸S2-1的末端偶联并且保护所述末端。因为第三物种的多核苷酸S3-1是环状的，所以此类多核苷酸可不具有可与保护性元件150偶联的任何末端。保护性元件150可包括抑制一种或多种酶(诸如核酸外切酶)对与此类保护性元件偶联的双链多核苷酸末端的作用的任何合适的化学部分。例如，如图1B的插图所示，保护性元件150可包括修饰的碱基151、连接到末端的发夹衔接子152或5'-去磷酸化末端。修饰的碱基151可例如包括硫代磷酸酯键或3'磷酸酯，并且可使用末端转移酶添加。发夹衔接子152可包括寡核苷酸，该寡核苷酸包括彼此杂交的茎序列和在茎序列之间延伸的环序列，并且可以诸如本领域已知的方式添加，例如进行末端修复以填充任何突出端，然后添加A突出端(“A尾”)(例如，使用核酸外切酶诸如Klenow片段外切-)，并且然后将发夹衔接子152连接到末端。双链多核苷酸的5'末端可使用合适的磷酸酶去磷酸化。

在保护第一双链多核苷酸和第二双链多核苷酸的末端之后，可选择性地生成第一双链多核苷酸内的游离末端。例如，图1C示出了组合物103，其中Cas-gRNA RNP 160与存在于第一双链多核苷酸内且不存在于第二双链多核苷酸内的序列杂交，例如与物种特异性重复元件140杂交。然后可用Cas-gRNA RNP切割序列，从而以诸如图1D所示的方式生成游离末端，包括组合物104，其中游离末端141、141'在多核苷酸S1-1的链中生成，游离末端142、142'在多核苷酸S1-2的链中生成，并且游离末端143、143'在多核苷酸S1-3的链中生成，但游离末端不在多核苷酸S2-1和S3-1中生成，因为那些多核苷酸不包括与Cas-gRNA RNP 160选择性杂交的物种特异性重复元件150。Cas可包括例如Cas9。

然后第一双链多核苷酸可从由Cas-gRNA RNP 160生成的游离末端向受保护末端降解。例如，图1E所示的组合物105包括用于降解第一双链多核苷酸S1-1、S1-2、S1-3的核酸外切酶170。可使用任何合适的核酸外切酶170。说明性地，游离末端可以诸如图1E的插图的上部所示的方式包括3'末端，并且第一双链多核苷酸S1-1、S1-2、S1-3可以使用核酸外切酶III降解。作为另一个纯粹说明性的示例，游离末端可以诸如图1E的插图的下部所示的方式包括5'末端，并且第一双链多核苷酸S1-1、S1-2、S1-3中的每一者的一条链可使用λ核酸外切酶降解。根据所使用的保护性元件150的特定类型，核酸外切酶的使用可产生图1F中所示的组合物106，其中多核苷酸S1-1、S1-2、S1-3中的每一者的两条链都被降解，或产生图1G中所示的组合物107，其中多核苷酸S1-1、S1-2、S1-3成为单链。说明性地，如果保护性元件150包括发夹寡核苷酸，则在降解一条链后，核酸外切酶可跟随发夹降解另一条链，从而导致两条链的降解。作为另一个示例，如果保护性元件150包括修饰的碱基或5'-去磷酸化的碱基，则在核酸外切酶降解一条链后，保护性元件可抑制核酸外切酶降解另一条链。不管所使用的特定核酸外切酶以及第一物种的多核苷酸是否被完全降解或成为单链，多核苷酸S2-1和S3-1可能不被该核酸外切酶降解，因为多核苷酸S2-1的末端被保护性元件150保护，并且多核苷酸3S3-1缺少末端。

在第一物种的多核苷酸降解后，扩增衔接子可连接到混合物中任何剩余的双链多核苷酸的末端。例如，图1H示出了组合物108，其中多核苷酸S1-1、S1-2和S1-3被降解(例如，如图1F所示，两条链都被降解，或者如图1G和图1H所示，多核苷酸成为单链)，并且其中从混合物中的任何剩余双链多核苷酸(例如，从多核苷酸S2-1)去除保护基150。也可去除与第一物种的多核苷酸的任何剩余部分偶联的任何剩余保护基150。如图1I所示，可例如使用标签化、剪切或其他合适的片段化技术打开任何环状多核苷酸(例如，第三物种的S3-1)，该片段化技术也可以片段化混合物中任何剩余的双链多核苷酸，例如，S2-1。然后可将扩增衔接子连接到剩余的双链多核苷酸，例如第二物种和第三物种的剩余双链多核苷酸，或者可将剩余的双链多核苷酸标签化以获得图1J中所示的组合物109。组合物109包括来自第一物种的基本上仅单链的多核苷酸S1-1、S1-2、S1-3；来自第二物种和/或第三物种的基本上仅双链的多核苷酸S2-1、S3-1；以及连接到第二双链多核苷酸S2-1、S3-1的片段末端并且基本上不连接到第一双链多核苷酸S1-1、S1-2、S1-3的任何末端的扩增衔接子180。应当理解，如果第一物种的多核苷酸以诸如参考图1F所述的方式被完全降解，则组合物109反而可不包括来自第一物种的任何多核苷酸。以诸如图1J中所示的方式，扩增衔接子180可以是Y形的并且可包括诸如以下参考文献中所述的独特分子标识符(UMI)，这些参考文献各自的全部内容以引用方式并入本文：Kennedy等人，“Detecting ultralow-frequency mutations byDuplex Sequencing”，Nat Protoc.，第9卷：第2586–2606页(2014年)；和Kivioja等人，“Counting absolute numbers of molecules using unique molecular identifiers”，Nature Methods，第9卷：第72-42页(2012年)。随后可对双链多核苷酸S2-1和S3-1进行扩增(例如，使用PCR)和测序，基本上不对来自第一物种的任何多核苷酸进行测序。因此，多核苷酸S2-1和S3-1的序列可以相对低的或甚至基本上没有来自第一物种的背景信号获得，该第一物种可能已经是第二物种和第三物种的宿主。

注意，第一物种的多核苷酸S1-1、S1-2和S1-3不必被完全降解以使这些多核苷酸不能用于扩增和测序。例如，扩增衔接子180可被配置为选择性地连接到任何双链多核苷酸，并且因此基本上不会连接到任何单链多核苷酸。因此，可对混合物中连接有扩增衔接子的任何双链多核苷酸进行扩增然后测序，而任何单链多核苷酸都不可以被扩增，因为它们缺少合适的扩增衔接子。说明性地，标签化可仅向dsDNA添加衔接子，并且可不向ssDNA添加衔接子。作为另一个示例，T4DNA连接酶可仅对dsDNA起作用。在这点上，注意扩增衔接子180在这两种方法中的任一种中可以是平的或A尾的。

图1K示出了用于处理来自第一物种的第一双链多核苷酸和来自第二物种的第二双链多核苷酸的混合物的方法中的示例性操作流程。图1K中说明的方法1000可包括在混合物中保护第一双链多核苷酸的末端和第二双链多核苷酸的任何末端(操作1001)。例如，以诸如参考图1B所述的方式，可将保护性元件150添加到第一双链多核苷酸S1-1、S1-2和S1-3的末端以及第二双链多核苷酸S2-1的末端，而双链多核苷酸S3-1缺少末端并且因此可不与保护性元件150偶联。

图1K中说明的方法1000还可包括，在保护第一双链多核苷酸和第二双链多核苷酸的末端之后，在第一双链多核苷酸内选择性地生成游离末端(操作1002)。例如，以诸如参考图1C所述的方式，Cas-gRNA RNP 160可与在第一物种的多核苷酸S1-1、S1-2和S1-3内且不在第二物种的多核苷酸S2-1(或第三物种的多核苷酸S3-1)内的序列(诸如物种特异性重复元件)选择性杂交。Cas-gRNA RNP 160可切割第一物种的多核苷酸S1-1、S1-2和S1-3以生成游离末端，诸如参考图1D所述。图1K中示出的方法1000还可包括从游离末端向受保护末端降解第一双链多核苷酸(操作1003)。例如，以诸如参考图1E至图1G所述的方式，核酸外切酶可用于从相应的游离末端141、141'、142、142'和143、143'降解第一物种的多核苷酸S1-1、S1-2和S1-3。随后可将扩增衔接子以诸如参考图1I至图1J所述的方式(任选地包括添加扩增衔接子之前的片段化)与第二物种的多核苷酸S2-1偶联，并且然后对多核苷酸进行扩增并测序。

因此，如本文所提供的，Cas-gRNA RNP可用于在期望物种的多核苷酸中选择性地生成游离末端，并且那些多核苷酸随后以使得它们基本上不可用于扩增或测序的方式降解，从而有利于可被扩增和测序的一种或多种其他物种的多核苷酸。

将全基因组(WG)片段化成不同的确定的片段大小

本文的一些示例涉及将全基因组(WG)片段化成不同的确定的片段大小。例如，图2A至图2K示意性地示出了用于将WG片段化成不同的确定的片段大小的工艺流程中的示例性组合物和操作。

取决于物种，该物种的WG包括明确数量的染色体。已经很好地表征了每个人类染色体的一般序列，尽管每个个体的染色体的序列包括对该个体具有特异性的遗传变异。此外，一条或多条染色体的序列有时甚至可在个体内改变，例如，如果个体的肿瘤具有与该个体的正常组织不同的遗传变异；肿瘤甚至可在不同位置具有不同的遗传变异。这些和其他类型的遗传变异使得希望进行WG测序。通常，WG测序开始于从个体获得血液或其他流体或组织的等分试样，纯化该等分试样内的DNA，并且然后将该DNA片段化成具有待测序的合适大小的较小片段。根据用于对DNA测序的特定仪器，可能仅适当地对某一大小范围(例如，约100个至约1000个碱基对)的片段进行测序。然而，先前已知的使用机械过程片段化DNA的方法(诸如超声处理或酶促片段化)生成相对宽分布的不同片段大小。仅该分布内的小部分片段(例如，约20％)可具有适于测序的范围内的大小，并且WG的剩余部分(例如，约80％)可被丢弃。如本文所提供的，WG-或任何其他合适的多核苷酸或多核苷酸的集合-可被片段化成任何希望数目的不同片段大小，其中每个片段大小可被相对良好地控制。

例如，如图2A所示，可获得WG的第一纯化样本201，其包括给定物种的一些或甚至全部染色体。在图2A所示的非限制性示例中，样本201包括人的WG，并且因此包括二十三个DNA染色体C1、C2...C23。应当理解，可被加工的给定样本(诸如本文提供的)可包括任何合适数量的任何合适类型的多核苷酸。样本201内的染色体C1、C2...C23沿着它们的长度包括不同的序列210、220，并且那些序列的不同部分可用作Cas-gRNA RNP的预定靶标，该Cas-gRNA RNP用于在近似均匀间隔的位置切割染色体，以便形成近似均匀大小的片段。说明性地，第一序列210可彼此间隔开大约第一数目的碱基对，并且第二序列220可彼此间隔开大约第二数目的碱基对。注意，序列210不必在每个单独位置处包括相同的特定序列，并且类似地，序列220不必在每个单独位置处包括相同的特定序列。相反，序列210表示不同染色体内用作第一组Cas-gRNA RNP的预定靶标的第一组选择位置，每个Cas-gRNA RNP可被靶向至序列210中的特异性序列，并且序列220表示不同染色体内用作第二组Cas-gRNA RNP的预定靶标的第二组选择位置，这些RNP中的每个RNP可被靶向至序列220中的特异性序列。

图2B所示的组合物202包括与第一序列210杂交的Cas-gRNA RNP的第一组251，和与第二序列220杂交的Cas-gRNA RNP 252的第二组252。Cas-gRNA RNP的第一组251和第二组252可分别用于切割样本内的第一序列和第二序列以生成各自具有彼此大约相同数目的碱基对的WG片段。Cas可包括Cas9。Cas-gRNA RNP的第一组251和第二组252各自可包括任何合适数目的Cas-gRNA RNP。第一组251的RNP中的每个给定RNP可与第一组或第二组中的一个或多个其他RNP相同，在这种情况下，此类RNP可以靶向彼此相同的特异性序列210或220，或者可以不同于第一组或第二组中的多个其他RNP，在这种情况下，该RNP靶向与此类其他RNP不同的特异性序列。类似地，第二组252的RNP中的每个给定RNP可与第一组或第二组中的一个或多个其他RNP相同，在这种情况下，此类RNP可靶向彼此相同的特异性序列210或220，或者可以不同于第一组或第二组中的多个其他RNP，在这种情况下，该RNP靶向与此类其他RNP不同的特异性序列。

可适当地选择Cas-gRNA RNP的第一组251和第二组252的每一者中的RNP数目，以便片段化希望的多核苷酸(例如，一个或多个双链DNA染色体，或整组双链DNA染色体)。说明性地，Cas-gRNA RNP的第一组251可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。说明性地，Cas-gRNA RNP的第二组252可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。

图2C中所示的组合物203由Cas-gRNA RNP的第一组251和第二组252的此类切割产生，并且包括一组片段260或基本上由该组片段组成，每个该组片段包括大约X个碱基对。因此，第一样本201中基本上整个WG(或任何合适的多核苷酸)可被片段化成确定大小的片段260。应当理解，可选择分别被Cas-gRNA RNP的第一组251和第二组252靶向的沿着染色体C1、C2...C23的序列210、220的特定位置，以便提供任何合适长度的片段260。在该特定示例中，序列210被间隔开的碱基对的第一数目与序列220被间隔开的碱基对的第二数目大致相同，使得序列210和220基本上沿着每个染色体的长度交替。说明性地，碱基对的第一数目可为约100个至约2000个(例如，为约500个至约700个)，并且碱基对的第二数目可以为约100个至约2000个(例如，为约500个至约700个)，或者碱基对的第一数目可以为约1000个碱基对至约3000个碱基对(说明性地，约2000个碱基对)，并且碱基对的第一数目可以为约1000个碱基对至约3000个碱基对(说明性地，约2000个碱基对)。

因为序列210和序列220共同处于适当预定的和相对均匀间隔的位置，所以每个片段260中碱基对的数目可以具有相对紧密的分布。例如，WG片段260中碱基对的数目变化可小于约20％、或小于约10％、或小于约5％、或小于约2％、或甚至小于约1％。说明性地，每个WG片段260中碱基对的数目(X)可为约100个碱基对与约1000个碱基对，例如为约200个碱基对与约400个碱基对(例如，约300个碱基对)，或者可为约1000个碱基对与约3000个碱基对(说明性地，约2000个碱基对)。

注意，Cas-gRNA RNP的第一组和/或第二组可用于生成具有其他长度的WG片段。实际上，对于给定的WG，可能希望生成具有彼此不同的确定长度的片段，并且然后比较使用此类不同的确定长度中的每种长度获得的序列。如本文所提供的，不同片段长度可分别在WG的不同样本(或其他多核苷酸的不同样本)内生成。例如，如图2D中所示，可获得WG的第二纯化样本204，该第二纯化样本类似于图2A中所示的样本201，包括二十三个DNA染色体C1、C2...C23，该染色体具有以大约第一数目的碱基对彼此间隔开的第一序列210和以大约第二数目的碱基对彼此间隔开的第二序列220。尽管未在图2A中具体示出，染色体C1、C2...C23可包括其他序列，该序列可以代表不同染色体内可以用作第一组Cas-gRNA RNP的预定靶标的其他组选定位置。例如，图2D中所示的序列230代表不同染色体内用作第三组Cas-gRNA RNP的预定靶标的第三组选定位置，这些RNP中的每个RNP可被靶向至序列230中的特异性序列。

图2E中所示的组合物205包括与第一序列210杂交的Cas-gRNA RNP的第一组251和与第二序列220杂交的Cas-gRNA RNP 252的第二组252，以及与第三序列230杂交的Cas-gRNA RNP的第三组253。以类似于参考图2B所述的方式，Cas-gRNA RNP的第一组251、第二组252和第三组253可分别用于切割样本内的第一序列、第二序列和第三序列以生成各自具有彼此大约相同数目的碱基对的WG片段。Cas可包括Cas9。以类似于参考图2B所述的方式，Cas-gRNA RNP的第一组251、第二组252和第三组253各自可包括任何合适数目的Cas-gRNARNP。第一组251的RNP中的每个给定RNP可与第一组、第二组或第三组中的一个或多个其他RNP相同，在这种情况下，此类RNP可以靶向彼此相同的特异性序列210、220或230，或者可不同于第一组、第二组或第三组中的多个其他RNP，在这种情况下，该RNP靶向与此类其他RNP不同的特异性序列。类似地，第二组252的RNP中的每个给定RNP可与第一组、第二组或第三组中的一个或多个其他RNP相同，在这种情况下，此类RNP可以靶向彼此相同的特异性序列210、220或230，或者可不同于第一组、第二组或第三组中的多个其他RNP，在这种情况下，该RNP靶向与此类其他RNP不同的特异性序列。类似地，第三组253的RNP中的每个给定RNP可与第一组、第二组或第三组中的一个或多个其他RNP相同，在这种情况下，此类RNP可以靶向彼此相同的特异性序列210、220或230，或者可不同于第一组、第二组或第三组中的多个其他RNP，在这种情况下，RNP靶向与此类其他RNP不同的特异性序列。

可适当地选择Cas-gRNA RNP的第一组251、第二组252和第三组253的每一者中的RNP数目，以便片段化希望的多核苷酸(例如，一个或多个双链DNA染色体，或整组双链DNA染色体)。说明性地，Cas-gRNA RNP的第一组251可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。说明性地，Cas-gRNA RNP的第二组252可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。说明性地，Cas-gRNA RNP的第三组253可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。

图2F中所示的组合物206由Cas-gRNA RNP的第一组251、第二组252和第三组253的此类切割产生，并且包括一组片段270或基本上由该组片段组成，每个组片段包括大约Y个碱基对(X≠Y)。因此，第二样本204中基本上整个WG(或任何合适的多核苷酸)可以被片段化成确定大小的片段270。应当理解，可选择分别被Cas-gRNA RNP的第一组251、第二组252和第三组253靶向的沿着染色体C1、C2...C23的序列210、220、230的特定位置，以便提供任何合适长度的片段270。在该特定示例中，序列210被间隔开的碱基对的第一数目与序列220被间隔开的碱基对的第二数目大致相同，使得序列210和220基本上沿着每个染色体的长度以类似于参考图2A至图2C所述的方式交替。然而，序列230被间隔开的碱基对的第三数目可不同于碱基对的第一数目和/或第二数目。因此，尽管序列210和序列220可基本上沿着每个染色体的长度交替，但是序列230可以诸如图2E中所示的方式规则地插入序列210和序列220的不同序列之间。说明性地，碱基对的第一数目可为约100个至约2000个(例如，为约500个至约700个)，碱基对的第二数目为约100个至约2000个(例如，为约500个至约700个)，并且碱基对的第三数目为约100个至约2000个(例如，为约200个至约400个)，或者碱基对的第一数目可为约1000个至约3000个(例如，约2000个)，碱基对的第二数目可为约1000个至约3000个(例如，约2000个)，并且碱基对的第三数目可为约500个至约2000个(例如，约1000个)。

因为序列210、序列220、序列230共同处于适当预定的和相对均匀间隔的位置，所以每个片段270中碱基对的数目可具有相对紧密的分布。例如，WG片段270中碱基对的数目变化可小于约20％、或小于约10％、或小于约5％、或小于约2％、或甚至小于约1％。说明性地，每个WG片段270中碱基对的数目(Y)可为约100个至约1000个碱基对，例如为约100个至约200个碱基对(例如，约150个碱基对)。

比较使用样本201进行的处理与使用样本204进行的处理，可以理解，Cas-gRNARNP的相同组可用于生成具有彼此不同长度的WG片段。例如，Cas-gRNA RNP的第一组251和第二组252可用于生成具有长度X的片段260，并且也可(与Cas-gRNA RNP的第三组253组合)用于生成具有长度Y(X≠Y)的片段270。Cas-gRNA RNP的第一组、第二组和/或第三组类似地可用于生成WG的其他样本的其他确定长度的片段，而不需要提供Cas-gRNA RNP的其他不同组。

例如，如图2G中所示，可获得WG的第三纯化样本207，该第三纯化样本类似于图2A中所示的样本201和图2D中所示的样本204，包括二十三个DNA染色体C1、C2...C23，该染色体具有彼此间隔开大约第一数目的碱基对的第一序列210。尽管未在图2G中具体示出，染色体C1、C2...C23可包括其他序列，该序列可代表不同染色体内可用作其他组Cas-gRNA RNP的预定靶标的其他组选定位置。例如，图2A中所示的序列220和图2D中所示的序列230代表不同染色体内用作其他组Cas-gRNA RNP的预定靶标的其他组选择位置。图2H中所示的组合物208包括与第一序列210杂交的Cas-gRNA RNP的第一组251。以类似于参考图2B所述的方式，Cas-gRNA RNP的第一组251可用于切割样本内的第一序列210以生成各自具有彼此大约相同数目的碱基对的WG片段。Cas可包括Cas9。以类似于参考图2B所述的方式，Cas-gRNARNP的第一组251各自可包括任何合适数目的Cas-gRNA RNP。第一组251的RNP中的每个给定RNP可与第一组中的一个或多个其他RNP相同，在这种情况下，此类RNP可靶向彼此相同的特异性序列210，或者可不同于第一组中的多个其他RNP，在这种情况下，该RNP靶向与此类其他RNP不同的特异性序列。可适当地选择Cas-gRNA RNP的第一组251中的RNP数目，以便片段化希望的多核苷酸(例如，一个或多个双链DNA染色体，或整组双链DNA染色体)。说明性地，Cas-gRNA RNP的第一组251可包括至少约50,000个不同的Cas-gRNA RNP，或至少约100,000个不同的Cas-gRNA RNP，或至少约1,000,000个不同的Cas-gRNA RNP，或至少约10,000,000个不同的Cas-gRNA RNP，或至少约20,000,000个不同的Cas-gRNA RNP。

图2I中所示的组合物209由Cas-gRNA RNP的第一组251的此类切割产生(图2H中所示)，并且包括一组片段280或基本上由该组片段组成，每个组片段包括大约Z个碱基对(X≠Y≠Z)。因此，第三样本207中基本上整个WG(或任何合适的多核苷酸)可被片段化成确定大小的片段280。应当理解，可选择分别被Cas-gRNA RNP的第一组251靶向的沿着染色体C1、C2...C23的序列210的特定位置，以便提供任何合适长度的片段280。说明性地，碱基对的第一数目可为约100个至约2000个(例如，为约500个至约700个，例如，约600个，或为约200个至约400，例如，约300个)，或者可为约1000个碱基对至约3000个碱基对，例如，约2000个碱基对。因为序列210共同处于适当预定的和相对均匀间隔的位置，所以每个片段280中碱基对的数目可具有相对紧密的分布。例如，WG片段280中碱基对的数目变化可小于约20％、或小于约10％、或小于约5％、或小于约2％、或甚至小于约1％。说明性地，每个WG片段280中碱基对的数目(Z)可为约100个碱基对至约1000个碱基对，例如为约500个碱基对至约700个碱基对(例如，约600个碱基对)，或为约200个碱基对至约400个碱基对(例如，约300个碱基对)，或者可为约1000个碱基对至约3000个碱基对，例如，约2000个碱基对。

应当理解，代替与第三样本207一起使用Cas-gRNA RNP的第一组251，可使用第二组252或第三组253代替第一组251，以便改为靶向可提供具有其他长度的片段的序列220或序列230。还应当理解，可使用任何合适数目的Cas-gRNA RNP组(包括一组)制备任何合适数目的多核苷酸(包括一个多核苷酸)的任何合适数目的样本(包括一个样本)。例如，图2J示出了生成WG片段的方法中的操作流程。图2J中所示的方法2000包括将一组Cas-gRNA RNP与WG样本中彼此间隔开大约一定数目的碱基对的序列杂交(操作2001)。所得的组合物可包括与WG样本中彼此间隔开大约一定数目的碱基对的序列杂交的Cas-gRNA RNP组。该组Cas-gRNA RNP可分别用于切割样本内的序列以生成各自具有彼此大约相同数目的碱基对的WG片段。例如，图2J中所示的方法2000可包括分别用该组Cas-gRNA RNP切割序列以生成各自具有彼此大约相同数目的碱基对的一组WG片段(操作2002)。序列之间的碱基对数目可为约100个至约2000个，例如，为约500个至约700个(例如，约600个)，或为约200个至约400个(例如，约300个)，或为约100个至约200个(例如，约150个)，或者可为约1000个碱基对至约3000个碱基对，例如，约2000个碱基对。在一些示例中，WG片段中碱基对的数目可为约100个至约2000个，例如，为约100个至约200个(例如，约150个)，或为约200个至约400个(例如，约300个)，或为约500个至约700个(例如，约600个)，或者可为约1000个碱基对至约3000个碱基对，例如，约2000个碱基对。WG片段组的WG片段中碱基对的数目的变化可小于约20％。

附加地或另选地，在其他样本中，Cas-gRNA RNP的一个或多个其他组可彼此组合使用以生成WG片段。例如，图2K示出了在WG样本中生成WG片段的另一方法中的操作流程。图2K中所示的方法2010可包括将第一组Cas-gRNA RNP与WG中彼此间隔开大约第一数目的碱基对的第一序列杂交(操作2011)。图2K中所示的方法2010还可包括将第二组Cas-gRNA RNP与WG中彼此间隔开大约第二数目的碱基对的第二序列杂交(操作2012)。操作2011和操作2012可彼此同时进行，例如通过使WG的样本与第一组和第二组Cas-gRNA RNP接触来进行。另选地，可使样本与第一组Cas-gRNA RNP接触，并且随后与第二组Cas-gRNA RNP接触，或反之亦然。图2K中所示的方法2010还可包括分别用第一样本中的第一组Cas-gRNA RNP和第二组Cas-gRNA RNP切割第一序列和第二序列，以生成各自具有彼此大约相同数目的碱基对的第一组WG片段。第一序列和第二序列可彼此同时切割；另选地，第一序列可用第一组Cas-gRNA RNP切割，并且随后用第二组Cas-gRNA RNP切割，或反之亦然。应当理解，可适当地修饰图2K，以便使用一个或多个额外组的Cas-gRNA RNP例如以如参考图2D至图2F所述的方式来切割额外的序列。

不管用于切割给定样本中的多核苷酸的Cas-gRNA RNP组的具体数目如何，应当理解所得片段可被扩增和测序。例如，扩增衔接子可以类似于参考图1J所述的方式连接到片段的末端，扩增子可由连接有扩增衔接子的片段生成，并且对扩增子进行测序。例如，可将扩增衔接子连接到片段260、270和/或280的末端，然后对此类片段进行扩增和测序。在一些示例中，扩增衔接子包括独特分子标识符(UMI)。不同组的片段可彼此分开进行扩增和测序，或者可混合在一起进行扩增和/或测序。说明性地，片段260、270和/或280中任何合适片段的扩增子可混合在一起进行扩增和/或测序。

因此，本文提供了一种组合物，其包括或基本上由一组至少约1,000,000个WG片段组成，每个WG片段具有彼此大约相同数目的碱基对。说明性地，碱基对的数目可为约100个至约200个(例如，约150个)，或为约200个至约400个(例如，约300个)，或为约500个至约700个(例如，约600个)，或为约1000个至约3000个，例如，约2000个。组合物可源自物种的全基因组，并且可被扩增和测序以提供全基因组的序列。可使WG片段的大小适合用于所使用的测序技术，并且与其中WG的相对低部分可具有可用于测序的长度的机械片段化技术相比，可对给定样本中的基本上整个WG进行测序。

使用切口标记多核苷酸

如本文别处所注意的，独特分子标识符(UMI)可与相应的多核苷酸偶联，作为标记用于测序的多核苷酸的方式。说明性地，与给定UMI偶联的给定多核苷酸分子的任何扩增子也可包括该UMI，与来自与其他UMI偶联的其他多核苷酸分子相比，那些扩增子可经由该UMI被唯一地鉴定为源自该多核苷酸分子。然而，此类UMI可能在扩增过程期间发生突变，并且此类突变可抑制鉴定衍生扩增子的多核苷酸分子的能力。如本文提供的，Cas-gRNA RNP可用于以标记那些多核苷酸分子和它们的扩增子以用于测序的方式切割多核苷酸分子，而不需要UMI，尽管此类UMI任选地可与以如本文提供的方式切割的多核苷酸偶联。

例如，图3A至图3E示意性地示出了用于使用切口标记多核苷酸的工艺流程中的示例性组合物和操作。图3A示出了包括靶多核苷酸(诸如双链DNA)的第一分子M1和第二分子M2的组合物301。分子M1、M2中的每一者可具有基本上相同的序列，并且因此哪个分子被认为是“第一”以及哪个分子被认为是“第二”是任意的。靶多核苷酸的序列可包括可用于在一个或多个彼此不同的位置切割多核苷酸分子M1、M2的不同亚序列，并且此类切口的相应位置可被认为是标记相应的多核苷酸分子。例如，每个多核苷酸分子可包括第一Cas-gRNARNP可被靶向的第一亚序列311(其具有与gRNA的相关部分互补的序列)、第二Cas-gRNA RNP可被靶向的第二亚序列312、第三Cas-gRNA RNP可被靶向的第三亚序列313和第四Cas-gRNARNP可被靶向的第四亚序列314。第一亚序列311和第二亚序列312可仅部分地彼此重叠，并且第三亚序列313和第四亚序列314可仅部分地彼此重叠。

在图3B所示的组合物302中，使靶多核苷酸的第一分子M1和第二分子M2在流体中与多个第一Cas-gRNA RNP 351和第二Cas-gRNA RNP 352中的每一者接触，并且还可与多个第三Cas-gRNA RNP 353和第四Cas-gRNA RNP 354中的每一者接触。根据哪种RNP最初与分子M1、分子M2中的每一者内的相应亚序列杂交，可以诸如图3B所示的方式抑制其他RNP与那些分子内的其他亚序列杂交。在一个非限制性示例中，第一Cas-gRNA RNP 351中的一个Cas-gRNA RNP可与第一分子M1中的第一亚序列311杂交，并且第二Cas-gRNA RNP中的一个Cas-gRNA RNP可与第二分子M2中的第二亚序列312杂交。因为第一亚序列311和第二亚序列312仅部分地彼此重叠，所以与第一分子M1杂交的第一Cas-gRNA RNP 351中的该一个Cas-gRNA RNP可抑制第二Cas-gRNA RNP 351中的任何Cas-gRNA RNP与第一分子M1中的第二亚序列312的杂交，并且与第二分子M2杂交的第二Cas-gRNA RNP 352中的该一个Cas-gRNARNP可抑制第一Cas-gRNA RNP 351中的任何Cas-gRNA RNP与第二分子M2中的第一亚序列311的杂交。即，一旦第一Cas-gRNA RNP 351中的一个Cas-gRNA RNP与一个分子杂交，第二Cas-gRNA RNP 352就也可不与该分子杂交，并且一旦第二Cas-gRNA RNP 352中的一个Cas-gRNA RNP与一个分子杂交，第一Cas-gRNA RNP 351就也可不与该分子杂交。以诸如参考图3C更详细描述的方式，然后可在与第一Cas-gRNA RNP 351或第二Cas-gRNA RNP 352杂交的第一亚序列311或第二亚序列312处切割分子。因此，切口可在彼此不同的位置处。说明性地，第一分子M1中的切口可在靶多核苷酸序列中与第二分子M2中的切口不同的位置处。应当理解，在一些情况下，相同类型的RNP可与第一分子M1和第二分子M2杂交，在这种情况下，分子可在相同位置处被切割。

以诸如图3B所示的方式，第三Cas-gRNA RNP 353和第四Cas-gRNA RNP 354类似地可与第三亚序列313或第四亚序列314杂交，并且可抑制其他RNP与那些亚序列的杂交。例如，第三Cas-gRNA RNP 353中的一个Cas-gRNA RNP可与第一分子M1中的第三亚序列313杂交，并且可抑制第四Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子M1中的第四亚序列314的杂交。以诸如参考图3C更详细描述的方式，然后可使用第三Cas-gRNA RNP 353中的该一个Cas-gRNA RNP在第三亚序列处切割第一分子M1来生成片段。另选地，第四Cas-gRNARNP 354中的一个Cas-gRNA RNP可与第一分子M1中的第四亚序列354杂交，并可抑制任何第三Cas-gRNA RNP与第一分子中的第三亚序列的杂交。以诸如参考图3C更详细描述的方式，然后可使用第四Cas-gRNA RNP 354中的该一个Cas-gRNA RNP在第四亚序列处切割第一分子M1来生成片段。RNP可以类似方式与第二分子M2的不同亚序列杂交。例如，第三Cas-gRNARNP 353中的一个Cas-gRNA RNP可与第二分子M2中的第三亚序列313杂交，并且可抑制第四Cas-gRNA RNP 354中的任何Cas-gRNA RNP与第二分子M2中的第四亚序列314的杂交。以诸如参考图3C更详细描述的方式，然后可使用第三Cas-gRNA RNP 354中的该一个Cas-gRNARNP在第三亚序列313处切割第二分子M1来生成片段。另选地，第四Cas-gRNA RNP 354中的一个Cas-gRNA RNP可与第二分子M2中的第四亚序列314杂交，并且可抑制第三Cas-gRNARNP 353中的任何Cas-gRNA RNP与第二分子M2中的第三亚序列313的杂交。以诸如参考图3C更详细描述的方式，然后可使用第四Cas-gRNA RNP 354中的该一个Cas-gRNA RNP在第四亚序列处切割第二分子M2来生成片段。应当理解，在一些情况下，相同类型的RNP可与第一分子M1和第二分子M2杂交，在这种情况下，分子可在相同位置处被切割。然而，在统计学上，更可能地是，第一分子和第二分子中的至少一个切口在靶多核苷酸序列中的位置可能彼此不同。

现在转到图3C，可使用Cas-gRNA RNP切割第一分子M1和第二分子M2以生成组合物303。说明性地，可使用与其杂交的第一Cas-gRNA RNP351中的该一个Cas-gRNA RNP在位置341处切割第一分子M1，并且可使用第二Cas-gRNA RNP中的该一个Cas-gRNA RNP在位置342处切割第二分子M2。类似地，可使用与其杂交的第三Cas-gRNA RNP 353或第四Cas-gRNARNP 354中的该一个Cas-gRNA RNP在位置343或位置344处切割第一分子M1，并且可使用与其杂交的第三Cas-gRNA RNP 353或第四Cas-gRNA RNP 354中的该一个Cas-gRNA RNP在位置343或位置344处切割第二分子M2。然而，应当理解，靶多核苷酸的任何分子可在任何合适的位置(例如Cas-gRNA RNP可与之杂交的位置)处被切割。一个分子中位置341处的切口与另一分子中位置342处的切口可例如在靶多核苷酸序列中偏移约两个碱基对至约四十个碱基对(例如，约2-20个碱基对，或约5-10个碱基对)类似地，一个分子中位置343处的切口与另一分子中位置344处的切口可例如在靶多核苷酸序列中偏移约两个碱基对至约四十个碱基对(例如，约2-20个碱基对，或约5-10个碱基对)因此，如图3C所示，根据在第一分子M1和第二分子M2中的每一者中产生的切口341或切口342和切口343或切口344的特定组合，可形成不同长度且具有不同数目碱基对的片段。例如，片段331可具有在切口341和切口343的位置之间的长度；片段332可具有在切口342和切口344的位置之间的长度；片段333可具有在切口341和切口344的位置之间的长度；并且片段334可具有在切口342和切口343的位置之间的长度。注意，片段331和片段332可具有彼此大约相同的长度，但可短于片段333且长于片段334，因为切口在各种片段中的特定位置。片段331、332、333、334中的每一者可具有约100个碱基对至约1000个碱基对的长度，例如约500个碱基对至约700个碱基对(说明性地，约600个碱基对)，或约200个碱基对至约400个碱基对(说明性地，约300个碱基对)，或约100个碱基对至约200个碱基对(说明性地，约150个碱基对)，或约1000个碱基对至约3000个碱基对，例如，约2000个碱基对。

因此，图3C中所示的组合物303可包括具有序列的靶多核苷酸的第一分子M1和第二分子M2。第一分子(例如，片段331或片段333)可在第一亚序列311处具有第一末端，并且第二分子(例如，片段332或片段334)可在第二亚序列312处具有第一末端。以诸如参考图4所描述的方式，第一亚序列311、312可仅部分地与第二亚序列重叠。第一分子的第一末端在靶多核苷酸序列中的位置可与第二分子的第一末端不同。第一分子的第一末端与第二分子的第一末端可例如在靶多核苷酸的序列中偏移约两个碱基对至约十个碱基对。第一分子(例如，片段331)还可在第三亚序列313处具有第二末端，并且第二分子(例如，片段332或片段334)还可在第三亚序列313处或在第四亚序列314处具有第二末端。第三亚序列可仅部分地与第四亚序列重叠。第一分子的第二末端在靶多核苷酸序列中的位置可与第二分子的第二末端不同。第一分子的第二末端与第二分子的第二末端可在靶多核苷酸的序列中偏移约两个碱基对至约十个碱基对。第一分子和第二分子可包括彼此不同数目的碱基对，或者可具有彼此相同数目的碱基对。

在一些示例中，Cas包括切割与相应的Cas-gRNA RNP 351、352、353和/或354杂交的分子的Cas9。在其他示例中，Cas包括失活的Cas9(dCas9)。在一个非限制性示例中，当第一Cas-gRNA RNP 351中的一个和第三Cas-gRNA RNP 353或第四Cas-gRNA RNP 354中的一个Cas-gRNA RNP与第一分子M1杂交时，第一分子的不在该第一Cas-gRNA RNP和该第三Cas-gRNA RNP或第四Cas-gRNA RNP之间的任何部分可例如使用核酸外切酶III或核酸外切酶VII来降解。在另一个非限制性示例中，当第二Cas-gRNA RNP 352中的一个Cas-gRNA RNP和第三Cas-gRNA RNP 353或第四Cas-gRNA RNP 354中的一个Cas-gRNA RNP与第二分子M2杂交时，第二分子的不在该第二Cas-gRNA RNP和该第三Cas-gRNA RNP或第四Cas-gRNA RNP之间的任何部分可例如使用核酸外切酶III或核酸外切酶VII来降解。即，合适的核酸外切酶可用于降解分子的不位于与其杂交的Cas-gRNA RNP之间的部分。因此，Cas-gRNA RNP可被认为保护其间的分子部分。

使用本方法生成的片段可被扩增和测序。例如，如图3D所示，扩增衔接子360可以类似于参考图1J所述的方式连接到片段的末端，扩增子可由连接有扩增衔接子的片段生成，并且对扩增子进行测序。例如，可将扩增衔接子360连接到片段331、332、333、334的末端，然后对此类片段进行扩增和测序。在一些示例中，扩增衔接子包括独特分子标识符(UMI)，然而此类UMI是完全任选的。在与扩增衔接子相同的操作中，可将任何UMI偶联并连接到第一片段和第二片段的末端。

第一亚序列311、第二亚序列312、第三亚序列313和第四亚序列314可用于将不同片段的扩增子鉴定为源自第一分子M1和第二分子M2的不同分子。说明性地，片段331及其扩增子可具有在落入亚序列311内的位置341处的第一末端和在落入亚序列313内的位置342处的第二末端；片段332及其扩增子可具有在落入亚序列312内的位置342处的第一末端和在落入亚序列314内的位置344处的第二末端；片段333及其扩增子可具有在落入亚序列311内的位置341处的第一末端和在落入亚序列314内的位置344处的第二末端；并且片段334及其扩增子可具有在落入亚序列312内的位置342处的第一末端和在落入亚序列313内的位置332处的第二末端。因此，基于给定扩增子在亚序列311、312、313、314内相应末端的位置，可确定此类扩增子源自分子M1或M2中的特定分子。任何UMI类似地可用于将扩增子鉴定为源自分子M1或M2中的特定分子。这种鉴定来源于特定分子的所有读段的能力允许那些读段被折叠，以便确定原始分子的真实序列。在实践中，这可提供误差校正和提高的准确度，从而允许鉴定真正的变体，而不是在制备和测序期间可能已经引入的误差。这也提供了添加UMI的高效方式。相比之下，在扩增之前连接的UMI可能具有差的转化效率。本方法可将UMI鉴定构建到文库的切割中，可更少地经受在PCR期间引入的误差，并且因此更准确。

图3E示出了用于切割多核苷酸的方法中的操作的示例性流程。图3E中所示的方法3000包括在流体中使靶多核苷酸的第一分子和第二分子与多个第一Cas-gRNA RNP和第二Cas-gRNA RNP接触(操作3001)。图3E中所示的方法3000包括将第一Cas-gRNA RNP中的一个Cas-gRNA RNP与第一分子中的第一亚序列杂交(操作3002)。例如，以诸如参考图3B所述的方式，第一Cas-gRNA RNP 351中的一个Cas-gRNA RNP可与分子M1中的第一亚序列311杂交。图3E中所示的方法3000包括将第二Cas-gRNA RNP中的一个Cas-gRNA RNP与第二分子中的第二亚序列杂交，第二亚序列仅部分地与第一亚序列重叠(操作3003)。例如，以诸如参考图3B所述的方式，第二Cas-gRNA RNP 352中的一个Cas-gRNA RNP可与分子M2中的第二亚序列312杂交。图3E中所示的方法3000包括通过第一Cas-gRNA RNP中的该一个Cas-gRNA RNP抑制第二Cas-gRNA RNP中的任何Cas-gRNA RNP与第一分子中的第二亚序列杂交(操作3004)。例如，与分子M1杂交的第一Cas-gRNA RNP 351可抑制第二Cas-gRNA RNP 352也与该分子杂交。图3E中所示的方法3000包括通过第二Cas-gRNA RNP中的该一个Cas-gRNA RNP抑制第一Cas-gRNA RNP中的任何Cas-gRNA RNP与第二分子中的第一亚序列杂交(操作3005)。例如，与分子M2杂交的第二Cas-gRNA RNP 352可抑制第一Cas-gRNA RNP 351也与该分子杂交。图3E中所示的方法3000包括在第一亚序列处切割第一分子(操作3006)，和在第二亚序列处切割第二分子(操作3007)。参考图3C提供了使用Cas-gRNA RNP切割此类分子的示例性操作。

因此，可以理解的是，靶多核苷酸的不同分子可在确定的位置处被切割以便在不同位置处生成末端，并且在扩增和测序之后，此类末端在靶多核苷酸的序列中的位置可用于鉴定衍生扩增子的分子。

将扩增衔接子与多核苷酸偶联

将扩增衔接子与多核苷酸偶联有助于它们的扩增和测序。如本文提供的，可使用包括Cas-gRNA RNP和转座酶二者的融合蛋白将扩增衔接子与多核苷酸偶联。例如，图4A至图4J示意性地示出了用于将扩增衔接子并入多核苷酸的工艺流程中的示例性组合物和操作。如图4A所示，组合物401可包括靶多核苷酸P1(诸如双链DNA)，其包括可使用第一Cas-gRNA RNP靶向的第一亚序列410(即，包括Cas-gRNA RNP的gRNA可与之杂交的序列)。任选地，组合物401还可包括可使用第二Cas-gRNA RNP靶向的第二亚序列420。如图4B所示，靶多核苷酸P1可与流体中的第一融合蛋白430和任选的第二融合蛋白440接触。第一融合蛋白430(以及，如果存在的话，第二融合蛋白440)可与流体中的靶多核苷酸P1处于近似化学计量比。

第一融合蛋白430可包括与第一转座酶432偶联的第一Cas-gRNA RNP 431，该第一转座酶偶联有第一扩增衔接子(由虚线指示)。任选的第二融合蛋白440可包括与第二转座酶442偶联的第二Cas-gRNA RNP 441，该第二转座酶偶联有第二扩增衔接子(由点线指示)。下文参考图4F至图4I进一步提供了将Cas-gRNA RNP与转座酶偶联的非限制性示例。应当理解，可使用转座酶432、442将任何合适的扩增衔接子与靶多核苷酸偶联。说明性地，第一扩增衔接子可包括P5衔接子，并且第二扩增衔接子可包括P7衔接子。任选地，第一扩增衔接子还可包括第一独特分子标识符(UMI)，并且第二扩增衔接子可包括第二UMI。UMI可在测序期间以诸如本文别处所述的方式使用。

在促进第一Cas-gRNA RNP 431(和，如果存在的话，第二Cas-gRNA RNP 441)的活性和抑制第一转座酶432(和，如果存在的话，第二转座酶442)的活性的同时，可提供图4B中示出的组合物402，其中第一Cas-gRNA RNP 431与靶多核苷酸P1中的第一亚序列410杂交，并且，如果存在的话，第二Cas-gRNA RNP 441与靶多核苷酸中的第二亚序列420杂交。在一些示例中，使用流体的条件可促进第一Cas-gRNA RNP 431和第二Cas-gRNA RNP 441的活性并且可抑制转座酶432、442的活性。例如，众所周知不同的酶可使用某些离子发挥作用。说明性地，Cas-gRNA RNP 431、441可使用钙离子(Ca2+)、锰离子(Mn2+)或钙离子和锰离子两者起作用，例如分别与序列420、序列430杂交。相比之下，转座酶432、442可使用镁离子(Mg2+)起作用，例如将扩增衔接子与靶多核苷酸P偶联。因此，通过使靶多核苷酸P1与第一融合蛋白430和第二融合蛋白440在具有包括存在用于Cas-gRNA RNP 431、441的活性的足够量的钙离子、锰离子或钙和锰离子两者以及不存在用于转座酶432、442的活性的足够量的镁离子的条件的流体中接触，Cas-gRNA RNP可适当地起作用，而转座酶则不能起作用。附加地或另选地，转座酶与靶多核苷酸的结合可以任何合适的方式被抑制，例如可逆地阻断转座酶上的结合位点，使用与用于转座酶的温度不同的温度来杂交Cas-gRNA RNP，和/或延迟转座酶衔接子与转座酶的结合直到Cas-gRNA已经与靶多核苷酸杂交以便延迟转座酶与靶多核苷酸结合的能力，等等。任选地，当第一融合蛋白430的Cas-gRNA RNP 431与第一亚序列410杂交并且第二融合蛋白440的Cas-gRNA RNP 441与第二亚序列420杂交时，靶多核苷酸P1的不在Cas-gRNA RNP 431、441之间的任何部分可例如使用核酸外切酶III或核酸外切酶VII来降解。

随后，当促进第一转座酶432和第二转座酶442的活性时，第一转座酶可用于将第一扩增衔接子添加到靶多核苷酸P1中的第一位置，并且第二转座酶可用于将第二扩增衔接子添加到靶多核苷酸中的第二位置。例如，可使用流体的第二条件(诸如存在足够量的用于转座酶活性的镁离子)促进转座酶432、442的活性。说明性地，镁离子可混合到流体中。因此，可提供图4C中所示的组合物403，其中转座酶432、442作用于靶多核苷酸P1以将第一扩增衔接子和第二扩增衔接子与其偶联。靶多核苷酸P1可从第一融合蛋白430和第二融合蛋白440释放以提供图4D中所示的组合物404，其包括在一端具有第一扩增衔接子并且在另一端具有第二扩增衔接子的靶多核苷酸P1的片段450。此类释放可使用蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者来进行。可对偶联有扩增衔接子的片段450进行扩增和测序。

片段450的长度可与例如大约第一序列410和第二序列420之间的距离紧密相关。例如，如图4C所示，融合蛋白430的第一Cas-gRNA RNP 431可经由衔接子433与第一转座酶432偶联，并且融合蛋白440的第二Cas-gRNA RNP 441可经由衔接子443与第二转座酶442偶联。下文参考图4F至图4I更详细地提供衔接子433、衔接子443的非限制性示例。衔接子433、衔接子443可具有明确限定的长度，并且因此可提供转座酶可从相应的Cas-gRNA RNP移动的确定距离。因此，当Cas-gRNA RNP 431、441与它们在靶多核苷酸P1中的相应序列410、420杂交并且转座酶432、442被激活(例如，使用流体条件)时，转座酶可分别在衔接子433、443的长度所允许的任何位置与靶多核苷酸的相对接近Cas-gRNA RNP的区域偶联。然而，因为转座酶可能不与靶多核苷酸P1中的特定序列偶联(如Cas-gRNA RNP那样)，所以可能存在转座酶可分别偶联的一系列位置。说明性地，转座酶432添加第一衔接子的第一位置可在第一亚序列410的约10个碱基内，并且转座酶442添加第二衔接子的第二位置可在第二亚序列420的约10个碱基内。

应当理解，图4D中所示的片段450可具有任何合适的长度，例如由序列410、序列420之间的距离大致限定的长度(如图4A至图4C所示)。例如，片段450可具有约100个碱基对至约1000个碱基对的长度，例如约500个碱基对至约700个碱基对(说明性地，约600个碱基对)，或约200个碱基对至约400个碱基对(说明性地，约300个碱基对)，或约100个碱基对至约200个碱基对(说明性地，约150个碱基对)，或约1000个碱基对至约3000个碱基对(说明性地，约2000个碱基对)的长度。

如图4E所示，分别在第一融合蛋白430和第二融合蛋白440内的gRNA 434、444可具有任何合适的长度和序列以促进其与相应序列410、420的杂交。例如，与第一亚序列410或第二亚序列420杂交的gRNA434、444的5'末端可相对于在Cas-gRNA RNP中更通常使用的gRNA的5'末端被截短。说明性地，如图4E所示，典型的gRNA可具有长度x的5'末端，其中x可以是约20个核苷酸，而gRNA 434、444可具有长度y的5'末端，其中y小于x。在一些示例中，gRNA 434的与第一亚序列410杂交的部分y可具有约15个至约18个核苷酸的长度，并且gRNA444的与第二亚序列420杂交的部分y可具有约15个至约18个核苷酸的长度。关于截短gRNA的进一步细节，参见Fu等人，“Improving CRISPR-Cas nuclease specificity usingtruncated guide RNAs”，Nat.Biotechnol.，第32卷第3期：第279-284页(2014年)，该文献的全部内容以引用方式并入本文。

应当理解，任何合适的Cas和任何合适的转座酶可用于融合蛋白430、融合蛋白440中。说明性地，Cas可包括dCas9(例如，以便在激活转座酶之前抑制Cas切割靶多核苷酸P1)，并且转座酶可包括Tn5(例如，以便转座酶的活性可通过流体条件(诸如添加足够量的镁离子)良好地控制)。Cas和转座酶可经由任何合适的键(例如经由共价键或经由非共价键)彼此偶联。说明性地，可经由铜(I)催化的点击反应，或应变促进的叠氮化物-炔环加成形成共价键。非共价键可以任何合适的方式形成。例如，以诸如图4F所示的方式，Cas-gRNA RNP可与抗体461共价偶联，并且转座酶可与和抗体非共价偶联的抗原462共价偶联，或者以诸如图4G所示的方式，Cas-gRNA RNP可与抗原461共价偶联，并且转座酶可与和抗原非共价偶联的抗体462共价偶联。另选地，以诸如图4H所示的方式，Cas-gRNA可经由gRNA的部分463与第一扩增衔接子或第二扩增衔接子之间的杂交与转座酶非共价偶联。作为另一个示例，以诸如图4I所示的方式，Cas-gRNA可经由gRNA的部分464与转座酶内的寡核苷酸465之间的杂交与转座酶非共价偶联。关于Cas可与另一蛋白偶联的方式的其他示例，参见以下参考文献，这些参考文献的全部内容以引用方式并入本文：Guilinger等人，“Fusion ofcatalytically inactive Cas9to Fokl nuclease improves the specificity ofgenome modification”，Nature Biotechnology，第32期，第577-582页(2014年)；和Bhatt等人，“Targeted DNA transposition in vitro using a dCas9-transposase fusionprotein”，Nucleic Acids Res.第47期：第8126-8135页(2019年)。

图4J示出了生成具有序列的靶多核苷酸的片段的方法中的操作的示例性流程。图4J中示出的方法4000包括在流体中使靶多核苷酸与第一融合蛋白和第二融合蛋白接触(操作4001)，该第一融合蛋白和第二融合蛋白各自包括与偶联有扩增衔接子的转座酶偶联的Cas-gRNA RNP。例如，靶多核苷酸P1可以诸如参考图4B所述的方式与第一融合蛋白430和第二融合蛋白440接触。图4J中所示的方法4000包括，在促进Cas-gRNA RNP的活性和抑制转座酶的活性的同时：(i)使第一Cas-gRNA RNP与靶多核苷酸中的第一亚序列杂交，以及(ii)使第二Cas-gRNA RNP与靶多核苷酸中的第二亚序列杂交(操作4002)。例如，流体可具有第一条件，其促进第一Cas-gRNA RNP 431与第一亚序列410以及第二Cas-gRNA RNP 442与第二亚序列420的此类杂交，同时以诸如参考图4B所述的方式(说明性地，存在足够量的Ca2+和/或Mn2+并且不存在足够量的Mg2+)抑制转座酶432和转座酶442的活性。图4J中所示的方法4000包括，在促进第一转座酶和第二转座酶的活性的同时：(i)使用第一转座酶将第一扩增衔接子添加到靶多核苷酸中的第一位置，以及(ii)使用第二转座酶将第二扩增衔接子添加到靶多核苷酸中的第二位置(操作4003)。例如，流体可具有以诸如参考图4C所述的方式促进第一转座酶432和第二转座酶442的活性的第二条件(说明性地，存在足够量的Mg2+)。

在一些具体实施中，可使用ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向的文库制备和富集。

在文库制备后使用单独的富集步骤对特定基因进行靶向测序可能是耗时的。例如，这种单独的富集步骤可涉及使寡核苷酸探针与文库DNA杂交，并在链霉抗生物素蛋白包被的小珠上分离杂交的DNA。尽管在效率和所需时间方面有显著的改进，但这种单独的富集方案可能花费约两小时，并且许多试剂可能使这种方案难以自动化。

相比之下，本文的一些示例可用于制备和富集用于特定基因的靶向测序的文库，使用单一步骤进行制备和富集。

例如，图7A至图7H示意性地示出了用于将扩增衔接子与多核苷酸偶联的另一工艺流程中的示例性组合物和操作。首先参考图7A，组合物701可包括靶多核苷酸P3(诸如双链DNA)，其包括可使用第一Cas-gRNA RNP靶向的第一亚序列710(即，包括Cas-gRNA RNP的gRNA可与之杂交的序列)。任选地，组合物701还可包括可使用第二Cas-gRNA RNP靶向的第二亚序列720。靶多核苷酸P3可包括部分片段化的dsDNA，诸如无细胞DNA，或已以诸如本文其他地方所述的方式片段化的DNA。另选地，靶多核苷酸P3可包括整个染色体的DNA。如图7B所示，靶多核苷酸P3可与流体中的第一融合蛋白730和任选的第二融合蛋白740以类似于参考图4A至图4D所述的方式接触。第一融合蛋白730(以及，如果存在的话，第二融合蛋白740)可与流体中的靶多核苷酸P3处于近似化学计量比。

第一融合蛋白730可包括包含标签733并与第一转座酶732偶联的第一Cas-gRNARNP 731，该第一转座酶偶联有第一扩增衔接子(由虚线指示)。任选的第二融合蛋白740可包括包含标签733并与第二转座酶742偶联的第二Cas-gRNA RNP 741，该第二转座酶偶联有第二扩增衔接子(由点线指示)。标签733可以任何合适的方式与相应Cas-gRNA RNP的任何合适的部分偶联。上文参考图4F至图4I进一步提供了将Cas-gRNA RNP与转座酶偶联的非限制性示例。应当理解，可使用转座酶732、742将任何合适的扩增衔接子与靶多核苷酸偶联。说明性地，第一扩增衔接子可包括P5衔接子，并且第二扩增衔接子可包括P7衔接子。任选地，第一扩增衔接子还可包括第一独特分子标识符(UMI)，并且第二扩增衔接子可包括第二UMI。UMI可在测序期间以诸如本文别处所述的方式使用。

在促进第一Cas-gRNA RNP 731(和，如果存在的话，第二Cas-gRNA RNP 741)的活性和抑制第一转座酶732(和，如果存在的话，第二转座酶742)的活性的同时，可提供图7B中示出的组合物702，其中第一Cas-gRNA RNP 731与靶多核苷酸P3中的第一亚序列710杂交，并且，如果存在的话，第二Cas-gRNA RNP 741与靶多核苷酸中的第二亚序列720杂交。在一些示例中，使用流体的条件以诸如参考图4A至4D所述的方式可促进第一Cas-gRNA RNP 731和第二Cas-gRNA RNP 741的活性并且可抑制转座酶732、742的活性。

可使用标签733富集靶多核苷酸P3。例如，在图7C所示的组合物703中，可使具有与其杂交的第一Cas-gRNA RNP 731和第二Cas-gRNA RNP 732(分别与标签733和转座酶732、742偶联)的靶多核苷酸与经由相应的衔接子与标签配偶体751偶联的基底750接触。可选择标签配偶体751以便与标签733共价或非共价偶联，形成如图7D所示的组合物704，其中靶多核苷酸P3经由标签733和标签配偶体751与基底750偶联。未与基底750偶联的任何其他多核苷酸可被洗掉。

随后，当促进第一转座酶732和第二转座酶742的活性时，第一转座酶可用于将第一扩增衔接子添加到靶多核苷酸P3中的第一位置，并且第二转座酶可用于将第二扩增衔接子添加到靶多核苷酸中的第二位置。例如，转座酶732、742的活性可使用流体的第二条件以诸如参考图4A至图4D所述的方式来促进。因此，可提供图7E中所示的组合物705，其中转座酶732、742作用于靶多核苷酸P3以将第一扩增衔接子和第二扩增衔接子与其偶联。多核苷酸P3可从第一融合蛋白730和第二融合蛋白740释放以提供图7F中所示的组合物706，其包括在一端具有第一扩增衔接子并且在另一端具有第二扩增衔接子的靶多核苷酸P3的片段760。此类释放可使用蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者；通过使Cas-gRNA RNP 731、741变性，通过使标签733与标签配偶体751分离，切割标签配偶体751与基底750之间的衔接子等来进行。另选地，片段760可仍然与基底750偶联以用于后续处理。在任一示例中，图7F中示出的所得富集片段760(任选地与基底750偶联，未具体说明)可以诸如参考图5G至图5H或图5I至图5J所述的方式进一步分析。

可对偶联有扩增衔接子的片段760进行扩增和测序。以诸如参考图4A至图4E所述的方式，片段760的长度可与例如大约第一序列710和第二序列720之间的距离紧密相关。应当理解，图7G中所示的片段760可具有任何合适的长度，例如由序列710、序列720之间的距离大致限定的长度。例如，片段760可具有约100个碱基对至约1000个碱基对的长度，例如约500个碱基对至约700个碱基对(说明性地，约600个碱基对)，或约200个碱基对至约700个碱基对(说明性地，约300个碱基对)，或约100个碱基对至约200个碱基对(说明性地，约150个碱基对)，或约1000个碱基对至约3000个碱基对(说明性地，约2000个碱基对)的长度。

应当理解，可使用任何合适的标签733和标签配偶体751将靶多核苷酸P3下拉至基底750。例如，标签配偶体751可包括SNAP蛋白，并且标签733可包括O-苄基鸟嘌呤；标签配偶体可包括CLIP蛋白，并且标签可包括O-苄基胞嘧啶；标签配偶体可包括SpyTag，并且标签可包括SpyCatcher；标签配偶体可包括SpyCatcher，并且标签可包括SpyTag；标签配偶体可包括生物素，并且标签可包括链霉抗生物素蛋白；标签配偶体可包括链霉抗生物素蛋白，并且标签可包括生物素；标签配偶体可包括NTA，并且标签可包括His-Tag；标签配偶体可包括His-Tag，并且标签可包括NTA；标签配偶体可包括抗体(诸如抗FLAG抗体)，并且标签可包括抗体对其具有选择性的抗原(诸如FLAG标签)；标签配偶体可包括抗原(诸如FLAG标签)，并且标签可包括对抗原具有选择性的抗体(诸如抗FLAG抗体)；或者标签配偶体可包括第一寡核苷酸，并且标签可包括与第一寡核苷酸互补并杂交的第二寡核苷酸。标签配偶体751可经由任何合适的键(例如经由共价键或经由非共价键)与基底750偶联。类似地，标签733可分别经由任何合适的键(例如经由共价键或经由非共价键)例如以类似于参考图4F至图4I所述的方式与Cas-gRNA RNP 731、732偶联。在一些示例中，分别在第一融合蛋白730和第二融合蛋白740内的gRNA 734、744可以诸如图7G所示的方式与标签733偶联。例如，与标签偶联的RNA寡核苷酸可商业购买，并且它们的制备是本领域已知的。

应当理解，任何合适的Cas和任何合适的转座酶可用于融合蛋白730、融合蛋白740中。说明性地，Cas可包括dCas9(例如，以便在激活转座酶之前抑制Cas切割靶多核苷酸P3)，并且转座酶可包括Tn5(例如，以便转座酶的活性可通过流体条件(诸如添加足够量的镁离子)良好地控制)。在其他示例中，Cas可包括Cas12k并且转座酶可包括Tn7或Tn7样转座酶(例如，使得转座酶的活性可通过流体条件(诸如添加足够量的镁离子)良好地控制)。Cas和转座酶可经由任何合适的键(例如经由共价键或经由非共价键)以诸如参考图4F至图4I或Strecker等人所述的方式彼此偶联。

例如，图6A至图6B示意性地示出了用于ShCAST(贺氏伪枝藻属CRISPR相关转座酶)靶向文库制备和富集的示例性组合物和工艺中的操作。ShCAST 6000包括Cas12k 6001和Tn7样转座酶6002，其能够使用RNA向导6004将DNA 6003插入大肠杆菌基因组中的特定位点。本文提供的一些示例利用ShCAST或掺入Tn5转座酶的ShCAST的修饰形式(ShCAST-Tn5)来靶向扩增特定基因。因此，将文库制备和富集步骤组合，因此简化并提高了靶文库测序工作流程的效率，并促进自动化。

说明性地，gRNA 6004可设计成靶向特定基因(序列)，并且gRNA的间隔可控制插入序列大小。在一些示例中，gRNA 6004和/或ShCAST/ShCAST-Tn5 6002可与标签6005偶联，例如可以是生物素化的。以诸如图6A中所示的方式，可将gRNA 6004和具有衔接子6003(例如，Illumina衔接子)的转座元件加载到ShCAST的转座酶6002上，产生复合物6000。以诸如图6B的工艺流程6010中所示的方式，所得ShCAST/ShCAST-Tn5复合物6000可在抑制标签化的流体条件(例如，低或无镁Mg2+)下与基因组DNA(靶多核苷酸)6011混合，同时允许复合物以类似于参考图4A至图4J和图7A至图7G所述的方式结合到靶DNA中的相应序列。然后可使用与标签配偶体偶联的基底(诸如与标签化的(例如，生物素化的)gRNA和/或ShCAST/ShCAST-Tn5偶联的链霉抗生物素蛋白小珠6012)分离复合物。可以洗去任何未结合的DNA，例如以减少或最小化脱靶标签化。然后可以类似于参考图4A至图4J所述的方式改变流体条件(例如，充分增加镁)以促进标签化。在准备测序时，可使用间隙填充连接步骤，随后热解离以从小珠释放文库。

注意，在诸如图6A至图6B所示的组合物和操作中，复合物6000的转座酶部分6002可以能够随机插入DNA中。这种插入可通过将ShCAST/ShCAST-Tn5复合物与基因组DNA在抑制标签化的流体条件(例如，低镁或无镁)下混合来抑制或最小化，从而允许靶标被结合。

关于ShCAST的进一步细节，包括其中的Cas12k和Tn7，参见Strecker等人，“RNA-Guided DNA insertion with CRISPR-associated transposases,”Science 365(6448):48-53(2019)，该文献的全部内容以引用方式并入本文。

应当理解，标签733或标签6005可在任何合适的时间与标签配偶体偶联(并因此与基底偶联)，并且此类偶联不必在融合蛋白或复合物结合至靶多核苷酸之后发生，并且实际上可在融合蛋白或复合物结合至靶多核苷酸之前发生。说明性地，以诸如图7G中所示的方式与标签733偶联的gRNA 734、744可使用标签733和标签配偶体751之间的相互作用与基底750偶联。还包括转座酶的融合蛋白或复合物的Cas然后可与基底结合的gRNA偶联。然后靶多核苷酸可与Cas偶联，从而使靶多核苷酸与基底偶联。

还应当理解，参考图4J所示的工艺流程可被修改，以便包括以诸如参考图6A至图6B和图7A至图7G所述的方式使用标签。例如，在相对于操作4001和4002的任何合适的时间，分别与Cas-gRNA RNP偶联的标签可用于将靶多核苷酸下拉到基底上。以诸如参考图7A至图7F所述的方式，可在使多核苷酸与Cas-gRNA RNP接触之前将标签与Cas-gRNA RNP偶联；另选地，标签可与gRNA偶联并与和基底偶联的标签配偶体偶联，并且使Cas-转座酶融合蛋白或复合物与gRNA接触。然后可进行操作4003以促进转座酶的活性并将扩增衔接子添加至靶多核苷酸。

因此，可以理解，可在任何合适的位置对处切割多核苷酸以形成片段，并且可使用Cas-gRNA RNP/转座酶融合蛋白将任何合适的扩增引物与所得的片段末端偶联。然后可对片段进行扩增和测序。

用于靶向表观遗传测定的组合物和方法

本文的一些示例提供了多核苷酸(诸如DNA)的富集以生成表观遗传感兴趣的片段，并且使用Cas-gRNA RNP在沿着那些片段的基因座处测定蛋白。给出了具有特定工作流程操作和排序的测定的几个非限制性示例，但是可以容易地设想其他示例。在本示例中，可使用寡核苷酸标记沿着片段的蛋白，随后对该寡核苷酸进行测序，并且该寡核苷酸可用于表征该蛋白。例如，寡核苷酸的序列可提供关于蛋白在给定片段的基因座处的存在的信息，可提供关于蛋白在给定片段的基因座处的位置的信息，可提供关于蛋白在给定片段的基因座处的量的信息，或此类信息的任何合适组合。该片段可被富集，例如特别选自给定的多核苷酸，而该多核苷酸的其他部分和其他多核苷酸的部分可被丢弃。此类基因座相关的蛋白质组分析可说明性地用于提供基因组范围的蛋白质组图谱，其补充全基因组测序以提供基因型表型之间关系的增强的表征，或更好地表征与特定基因座相关的表观遗传特征并理解对于研究或临床应用和疗法重要的表观遗传机制。

例如，图5A至图5K示意性地示出了靶向表观遗传测定的工艺流程中的示例性组合物和操作。如图5A所示，组合物501可包括靶多核苷酸P2(诸如双链DNA)，其包括可使用第一Cas-gRNA RNP靶向的第一亚序列511(即，包括Cas-gRNA RNP的gRNA可与之杂交的序列)和可使用第二Cas-gRNA RNP靶向的第二亚序列512。靶多核苷酸P2可包括以诸如本文别处更详细描述的方式(例如，参考图2A至图2K、图3A至图3E或图4A至图4J)生成的片段，或者可包括整个染色体或其部分。蛋白521、522和染色质523可与第一亚序列511和第二亚序列512之间的靶多核苷酸P2的相应基因座偶联。任选地，蛋白521、522可以是交联的，例如以便在随后的加工操作期间增强它们的稳定性，诸如将它们沿着靶多核苷酸P2留在适当位置，同时保持它们被相应抗体以诸如如下所述的方式选择性靶向的能力。

在图5B所示的示例性组合物502中，靶多核苷酸P2可与流体中的第一Cas-gRNARNP 531和第二Cas-gRNA RNP 532接触。第一Cas-gRNA RNP 531和第二Cas-gRNA RNP 532各自可包括相应的标签533，该标签可用于选择性地下拉第一亚序列511和第二亚序列512之间的靶多核苷酸P2的部分，从而以诸如下面参考图5D至图5F更详细描述的方式富集多核苷酸的该部分。在非限制性示例中，Cas包括Cas9或可切割靶多核苷酸P2的其他合适的Cas。第一Cas-gRNA RNP 531和第二Cas-gRNA 532与靶多核苷酸P2中的第一亚序列511和第二亚序列512杂交，并且分别在第一亚序列和第二亚序列处切割靶多核苷酸以形成片段。说明性地，图5C中所示的所得组合物503包括片段540，该片段具有一个第一蛋白521、两个第二蛋白522和与其相应基因座偶联的染色质523，以及分别与标签533偶联并分别与亚序列511、512杂交的第一Cas-gRNA RNP 531和第二Cas-gRNA RNP 532，从而将标签533与片段540偶联。片段540可具有任何合适的长度，例如约100个碱基对至约1000个碱基对，诸如约500个碱基对至约700个碱基对，或约200个碱基对至约400个碱基对，或约100个碱基对至约200个碱基对，或约1000个碱基对至约3000个碱基对(说明性地，约2000个碱基对)的长度。多核苷酸P2的剩余部分541、542可具有任何长度，并且在一些示例中可在去除片段540之后形成染色体的平衡。

片段540可使用标签533来富集。例如，如图5D所示，可使具有与其杂交的第一Cas-gRNA RNP 531和第二Cas-gRNA RNP 532(分别与标签533偶联)的片段540以及多核苷酸P2的剩余部分541、542与经由相应衔接子与标签配偶体551偶联的基底550接触。可选择标签配偶体551以与标签533共价或非共价偶联，从而形成诸如图5E所示的组合物，其中片段540经由标签533和标签配偶体551与基底550偶联，而剩余部分541、542不与基底550偶联并且可被洗掉。然后，可例如通过使Cas-gRNA RNP531、532变性(在这种情况下，蛋白521、522可能已经预先交联以抑制它们的变性)，通过使标签533与标签配偶体551分离，切割标签配偶体551与基底之间的衔接子等来使片段540从基底550中释放。另选地，片段540可仍然与基底550偶联以用于后续处理。在任一示例中，图5F中示出的所得富集片段540(任选地与基底550偶联，未具体说明)可以诸如参考图5G至图5H或图5I至图5J所述的方式进一步分析。

应当理解，可使用任何合适的标签533和标签配偶体551下拉片段540。例如，标签配偶体551可包括SNAP蛋白，并且标签533可包括O-苄基鸟嘌呤；标签配偶体可包括CLIP蛋白，并且标签可包括O-苄基胞嘧啶；标签配偶体可包括SpyTag，并且标签可包括SpyCatcher；标签配偶体可包括SpyCatcher，并且标签可包括SpyTag；标签配偶体可包括生物素，并且标签可包括链霉抗生物素蛋白；标签配偶体可包括链霉抗生物素蛋白，并且标签可包括生物素；标签配偶体可包括NTA，并且标签可包括His-Tag；标签配偶体可包括His-Tag，并且标签可包括NTA；标签配偶体可包括抗体(诸如抗FLAG抗体)，并且标签可包括抗体对其具有选择性的抗原(诸如FLAG标签)；标签配偶体可包括抗原(诸如FLAG标签)，并且标签可包括对抗原具有选择性的抗体(诸如抗FLAG抗体)；或者标签配偶体可包括第一寡核苷酸，并且标签可包括与第一寡核苷酸互补并杂交的第二寡核苷酸。标签533可分别经由任何合适的键(例如经由共价键或经由非共价键)例如以类似于参考图4F至图4I或图7G所述的方式与Cas-gRNA RNP 531、532偶联。类似地，标签配偶体551可经由任何合适的键(例如经由共价键或经由非共价键)与基底550偶联。

如本文提供的，相应的寡核苷酸可用于分别标记与片段的相应基因座偶联的蛋白521、522中的每一者(该片段可以诸如参考图5A至图5F所述的方式制备和富集)，然后可对此类寡核苷酸进行测序。使用相应的寡核苷酸可鉴定蛋白，可鉴定基因座，和/或可定量蛋白。

在一些参考图5G至图5H将解释的示例中，使用相应的寡核苷酸分别标记蛋白中的每种蛋白可包括使富集的片段540与对不同蛋白具有特异性的抗体的混合物接触，这些抗体中的每种抗体与可用于以表征蛋白的方式标记蛋白的相应寡核苷酸偶联。例如，图5G中所示的组合物504包括富集的片段540，其与多个第一抗体551、第二抗体552、第三抗体553和第四抗体554中的每一者接触，该抗体分别与相应的第一寡核苷酸、第二寡核苷酸、第三寡核苷酸和第四寡核苷酸偶联。抗体551、552、553、554中的每一者对不同的蛋白具有特异性。应当理解，富集的片段540可与任何合适数量和类型的不同抗体接触，该抗体对不同蛋白或可能与沿着该片段的基因座偶联并且可能是表观遗传感兴趣的其他染色质具有特异性。对于混合物中对与富集片段540的相应基因座偶联的蛋白具有特异性的任何抗体，那些抗体和相应的寡核苷酸可经由抗体/靶结合与那些蛋白非共价偶联。在图5E所示的非限制性示例性组合物505中，第一抗体551对第一蛋白521具有特异性并与之偶联，而第二抗体552对第二蛋白522具有特异性并与之偶联。注意，多个第二蛋白522与相应的一个基因座偶联，并且混合物中的多个第二抗体552与该基因座处的蛋白偶联。在该示例中，富集的片段540不包括第三抗体553和第四抗体554对其具有特异性的蛋白，并且因此那些抗体(和它们相应的寡核苷酸)不与片段偶联。

定制的寡核苷酸缀合的抗体是可商购的，或者可使用已知技术制备，例如，诸如以下参考文献中所描述的，这些文献中的每一篇的全部内容以引用方式并入本文：Gong等人，“Simple method to prepare oligonucleotide-conjugated antibodies and itsapplication to multiplex protein detection in single cells”，BioconjugateChem.，第27卷：第217–225页(2016年)；和Stoeckius等人，“Simultaneous epitope andtranscriptome measurement in single cells”，Nature Methods，第14卷：第865-868页(2017年)。

可对分别与抗体551、552偶联的第一寡核苷酸和第二寡核苷酸进行测序并分别用于鉴定富集的片段540内蛋白521、522的存在和任选鉴定其量。在一些示例中，第一寡核苷酸和第二寡核苷酸可例如通过应用消化蛋白521、522和抗体551、552的蛋白酶从片段540释放，然后进行扩增和测序。此类测序可以任何合适的方式进行。例如，对相应的寡核苷酸进行测序可包括将相应的寡核苷酸与小珠阵列例如使用Illumina BeadArray^TM技术(SanDiego，CA)来杂交，或对相应的寡核苷酸进行边合成边测序(SBS)。寡核苷酸任选地可包括扩增衔接子(例如，P5和P7衔接子，或Y形衔接子)和/或UMI，或者此类扩增衔接子和/或UMI可在扩增和测序之前使用已知技术(诸如PCR)添加到寡核苷酸中。

不考虑所用的特定测序方法，对应寡核苷酸的相应存在可用于鉴定和任选地定量与富集片段540偶联的蛋白。例如，可使用小珠阵列或SBS检测第一寡核苷酸和第二寡核苷酸的存在，并且基于此类存在，可推断出第一蛋白521和第二蛋白522存在于片段540中。对应寡核苷酸的相应量也可用于定量蛋白。例如，因为富集的片段540包括两个第二蛋白522，所以两个拷贝的第二抗体552与两个拷贝的第二寡核苷酸一起与这两个第二蛋白偶联，相比之下，一个第一蛋白521与一个拷贝的第一抗体551和一个拷贝的第一寡核苷酸偶联。第一寡核苷酸(一个拷贝)和第二寡核苷酸(两个拷贝)的相对量指示富集片段540内的第一蛋白521(一个拷贝)和第二蛋白522(两个拷贝)的相对量。第三寡核苷酸和第四寡核苷酸的缺失表明第三抗体553和第四抗体554分别对其具有选择性的蛋白不存在于富集的片段540中。因此，本方法提供富集片段540的表观遗传学特征的测定，更具体地说，提供与沿着富集片段540的基因座偶联的蛋白的表观遗传学特征的测定。

在其他参考图5I至图5J将解释的示例中，使用相应的寡核苷酸分别标记蛋白中的每种蛋白可包括使片段与多种转座酶接触，这些转座酶中的每种转座酶与相应的寡核苷酸偶联，该寡核苷酸可用于以表征蛋白的方式标记蛋白。例如，图5I中所示的组合物506包括与分别包括寡核苷酸的多种转座酶561接触的富集的片段540(其可以诸如参考图5A至图5F所述的方式制备)。在非限制性示例中，转座酶可包括Tn5。

与富集片段的相应基因座偶联的蛋白可抑制该基因座处转座酶的活性。因此，转座酶561可在基因座以外的位置处与片段540偶联。在转座酶561与片段540偶联的位置处，转座酶可将相应的寡核苷酸与片段偶联。此过程可将片段540划分成亚片段。在图5J所示的非限制性示例性组合物507中，亚片段571包括第一蛋白521和寡核苷酸，亚片段572包括染色质523和寡核苷酸，并且亚片段573包括蛋白522和寡核苷酸。在这点上，注意到因为转座酶561(在图5I中示出)可在不被蛋白521、522或染色质523的存在所抑制(即，对给定的蛋白或片段的部分不具有特异性)的任何位置处与片段540偶联，此类转座酶可将它们相应的寡核苷酸添加到任何此类位置。

可对分别与第二片段571、第一片段572和第三片段573偶联的寡核苷酸进行测序并分别用于鉴定蛋白521、522和染色质523的存在和任选鉴定其量，例如以诸如参考图5G至图5H所述的方式。寡核苷酸的片段571、572、573中的相应位置可用于鉴定蛋白和/或染色质的相应基因座。例如，在图5I和图5J所示的纯说明性视图中，蛋白521抑制任何转座酶作用于该蛋白的基因座，蛋白522抑制任何转座酶作用于那些蛋白的基因座，并且染色质523抑制任何转座酶作用于该染色质所在的位置。因此，片段572、571、573中的第二寡核苷酸、第一寡核苷酸和第三寡核苷酸中的蛋白522、521和/或染色质523的相应位置可被理解为在除了添加寡核苷酸的位置之外的位置。

图5K示出了表征与靶多核苷酸的相应基因座偶联的蛋白的方法5000中的操作的示例性流程。方法5000可包括使靶多核苷酸与第一Cas-gRNA RNP和第二Cas-gRNA RNP接触(操作5001)，例如以诸如参考图5A至图5C所述的方式。任选地，方法5000可包括在使用对应的寡核苷酸分别标记与片段的相应基因座偶联的蛋白中的每种蛋白之前富集片段。例如，第一Cas-gRNA RNP和第二Cas-gRNA RNP可分别与标签偶联，使得片段经由第一Cas-gRNARNP和第二Cas-gRNA RNP与标签偶联，例如以诸如参考图5B至图5C所述的方式。富集可包括使经由第一Cas-gRNA RNP和第二Cas-gRNA RNP偶联到标签的片段与偶联到标签配偶体的基底接触，例如以诸如参考图5D所述的方式。富集还可包括将标签偶联到标签配偶体以将片段偶联到基底，例如以诸如参考图5E所述的方式。富集还可包括去除靶多核苷酸的未与基底偶联的任何部分，例如以诸如参考图5F所述的方式。

方法5000可包括使第一Cas-gRNA RNP和第二Cas-gRNA RNP分别与靶多核苷酸中的第一亚序列和第二亚序列杂交，其中蛋白与第一亚序列和第二亚序列之间的靶多核苷酸的相应基因座偶联(操作5002)，例如以诸如参考图5A至图5C所述的方式。方法5000可包括使用第一Cas-gRNA RNP在第一亚序列处并使用第二Cas-gRNA RNP在第二亚序列处切割靶多核苷酸以形成片段，其中蛋白与片段的相应基因座偶联(操作5003)，例如以诸如参考图5A至5C所述的方式。方法5000可包括使用对应的寡核苷酸分别标记与片段的相应基因座偶联的蛋白中的每种蛋白(操作5004)，并对对应的寡核苷酸进行测序(操作5005)，例如以诸如参考图5G至图5H所述的方式和/或以诸如参考图5I至图5J所述的方式。

应当理解，诸如分别参考图5G至图5H和图5I至图5J所述的工艺流程可使用任何合适长度的多核苷酸来进行，并且不必使用已经使用诸如参考图5A至图5C所述的工艺流程生成的片段来进行。因此，参考图5K所述的方法5000的操作5001-5003应当被理解为是任选的。

因此，从图5A至图5K可以理解，在本文的一些示例中，Cas-gRNA RNP可用于生成和富集与蛋白偶联的多核苷酸片段，并且那些蛋白的位置、数量和/或身份可使用例如本文所述的表观遗传测定来表征。

使用Cas-gRNA RNP切口酶富集选择的多核苷酸片段

本文提供的一些方法解决了用于完整dsDNA片段的靶向测序的长期且费力的工作流程的问题。如根据本公开将清楚的，Cas-gRNA RNP可提供多核苷酸(例如dsDNA)中的靶区域的快速和特异性切割。如现在将参考图8A至图8H所述的，Cas-gRNA RNP切口酶和聚合酶延伸可用于通过从基底洗脱而选择性富集dsDNA片段。此类方法和组合物可用于回收完整的原始片段。这在可能不希望通过Cas-gRNA RNP进行完全dsDNA切割的应用中，例如在对无细胞DNA(cfDNA)进行测序中可能特别有用。这还可以或另选地是有用的，因为测序文库的基本大小不被CRISPR切割改变，这意味着减少或避免非常短的产物的生成。

更具体地，图8A至图8H示意性地示出了使用Cas-gRNA RNP切口酶富集所选多核苷酸片段的工艺流程中的示例性组合物和操作。图8A示出了用于选择性洗脱靶区域的CRISPR切口酶延伸的示例性工艺流程的概述。在工艺流程的操作A中，dsDNA片段P4(其任选地可以诸如本文别处所述的方式生成)可被3'官能化(“B”)以促进片段与小珠的偶联。例如，片段可使用诸如下文参考图8C所述的方法进行3'生物素化。一些片段P4可包括希望富集和检测的相应靶序列，而其他片段可不必包括此类序列；例如，图8A所示的片段P4包括靶序列810，而其他片段可包括其他靶序列或可不包括任何此类靶序列。

在图8A所示的工艺流程的操作B中，3'官能化片段P4可与一个或多个基底(例如，以与3'官能化片段P4偶联的方式官能化的小珠)偶联。在一个非限制性示例中，小珠820可包括与3'生物素化的片段P4偶联的链霉抗生物素蛋白。在例示的示例中，dsDNA片段P4的官能化的3'末端中的每个3'末端与不同的小珠820偶联，但是应当理解，在其他示例中，给定片段P4的3'官能化末端可与彼此相同的小珠偶联。可从溶液中取出小珠820(例如，小珠可以是铁磁性的或顺磁性的并且可使用外部磁体从溶液中取出)，然后洗涤小珠以提供与小珠偶联的纯化的dsDNA片段P4，同时可基本上洗掉任何其他dsDNA。

如图8A所示，在操作C中，小珠偶联的片段P4可与多个Cas-gRNA RNP切口酶(在本文中也称为CRISPR切口酶)接触。Cas-gRNA RNP切口酶中的每种Cas-gRNA RNP切口酶的gRNA可靶向dsDNA的相应单链内的特定区域(亚序列)，并且该区域可以是交错的，使得切口酶在彼此偏移并且在希望富集的双链靶区域810的相对侧上的位置处切割相应的链。例如，以诸如图8A的操作C所示的方式，第一Cas-gRNA RNP切口酶851的gRNA可靶向靶序列810的正向(“fwd”)区域，并且第二Cas-gRNA RNP切口酶852的gRNA可靶向靶序列810的反向(“rev”)区域。因此，第一切口酶851和第二切口酶852的向导序列可被认为在正向方向和反向方向上“侧接”靶序列810。第一Cas-gRNA RNP切口酶851在小珠偶联的dsDNA片段P4的一条链中产生缺口(切口)，第二Cas-gRNA RNP切口酶852在小珠偶联的dsDNA片段P4的另一条链中在偏离切口酶851所产生缺口的位置处产生缺口。应当理解，可设计任何合适数目的gRNA以指导对应的Cas-gRNA RNP切口酶在dsDNA片段内的侧接特异性序列的位置处切割相应的链。例如，可使用多个不同的gRNA(例如，1000-100,000个gRNA，或多于100,000个gRNA)以便同时富集样本中的许多不同的感兴趣序列。注意gRNA不一定必须“侧接”给定的靶序列810，而是每个靶序列至少两个向导可结合给定片段P4内的相对链并在其上产生缺口。

如图8A的操作D所示，去除Cas-gRNA RNP切口酶851、852以暴露缺口的3'末端，例如使用温和的热和/或试剂破坏Cas-gRNA RNP切口酶(诸如蛋白酶K、蛋白酶或SDS洗涤剂)来去除。因为每个给定的dsDNA片段P4的链仍然彼此杂交，所以该片段基本上仍然与对应的小珠820偶联。

然后，dsDNA的链中侧接相对缺口的靶序列810可选择性地洗脱到溶液中，而片段P4的剩余部分仍然与小珠820偶联。例如，可使带缺口的片段P4与聚合酶和核苷酸接触(未具体示出)。以诸如图8A的操作E所示的方式，聚合酶可从由缺口暴露的3'末端延伸片段的相应链，并且此类延伸可置换结合的链，从而导致靶序列810的洗脱。非靶向区域仍然与小珠820偶联，并与洗脱的靶序列810例如使用磁性或其他分离技术来分离。聚合酶延伸导致完整序列810的洗脱，而不管缺口在片段P4内出现的位置。

使用Cas9切口酶和聚合酶延伸以从基底洗脱来富集λDNA中的靶标的示例性工作流程

图8A示出了可用于使用Cas9切口酶富集λDNA中的靶标的示例性工作流程。使用靶向λ基因组的四个区域的特异性向导RNA序列。图12至图16提供了在工作流程的各个步骤之后的文库结构的示意图，如下面更详细描述的。表1提供了向导RNA序列以及它们所靶向的区域。

表1.向导RNA序列

Cas9酶装载有向导RNA序列。将向导序列分别装载到Cas9上，最终体积为50uL，该最终体积含有1uM向导、1uM Cas9切口酶(Integrated DNA Technologies，S.p.Cas9D10A切口酶V3，1081062)和1x磷酸盐缓冲盐水。将组分在室温下放置10分钟，然后以等体积合并以制备Cas9切刻混合物。将溶液储存在冰上直至使用。

通过用小珠连接的转座体进行标签化制备文库

使用小珠连接的转座体制备通过3'末端与小表面附接的文库。

步骤1：将500ngλDNA与10uL TB1和10uL eBLT(来自Illumina DNA制备和富集试剂盒)一起孵育，总体积为50uL。将混合物加热至41℃持续5分钟。

步骤2：通过添加10uL ST2去除Tn5，并在37℃下加热5分钟。

图12显示了步骤2之后的文库结构。元件1200显示了DNA插入物中的PAM位点。

步骤3：将反应板放置在磁力架上，并使小珠沉淀。去除上清液，并通过添加150uLTWB洗涤小珠。然后去除磁体，并通过移液将溶液混合。使小珠再次沉淀在磁体上，之后去除磁体。弃去上清液。

步骤4：向溶液中添加50uL ELM(来自Illumina DNA制备型无PCR试剂盒)。将溶液在37℃下孵育15分钟以在插入物的3'末端和转座子的非转移链之间进行间隙填充并连接。

图13显示了步骤4之后的文库结构。元件1200显示了DNA插入物中的PAM位点。

步骤5：使小珠沉淀在磁体上。去除上清液，并用TWB洗涤。

步骤6：通过添加体积为50uL的1x NEBuffer 1(New England Biolabs)中的0.5uL核酸外切酶III(New England Biolabs，M0206)来去除可能导致产生背景的任何不完全间隙填充和连接的片段。通过移液管混合并加热至37℃持续10分钟使小珠再悬浮。

Cas9切刻反应

步骤1：通过添加总体积为20uL的2uL合并的装载Cas9切口酶与1x NEBuffer 2.1(New England Biolabs)来去除上清液。通过移液管混合并加热至37℃持续30分钟使小珠再悬浮。

图14显示了Cas9如何在每条链上切刻出靶片段。

步骤2：通过添加10uL ST2并加热至37℃持续5分钟来去除Cas9。使小珠沉淀并用TWB洗涤两次。弃去上清液。

图15显示了此时的文库结构，每条链中有一个缺口。元件1200显示了DNA插入物中的PAM位点。

从小珠上洗脱靶片段的聚合酶延伸

向溶液中添加0.5uL DNA聚合酶I(New England Biolabs，M0210)或Bsu DNA聚合酶(New England Biolabs，M0330)。使用1x NEBuffer 2(New England Biolabs)，并添加200uM每种dNTP，总体积为50uL。将溶液加热至37℃，持续10分钟。

图16显示了聚合酶延伸后的情况。如图所示，片段不再具有3'生物素，并且因此释放到溶液中。元件1200显示了DNA插入物中的PAM位点。

纯化和PCR

步骤1：使小珠沉淀并将40uL含有所选靶片段的上清液转移到新管中。使用Illumina纯化小珠(IPB)通过添加100uL ITB、充分混合并在室温下孵育5分钟来纯化小珠。使小珠在磁体上沉淀并用180uL 80％乙醇洗涤两次。去除上清液并干燥2分钟，然后再悬浮于27uL水中。将溶液充分混合，并使小珠沉淀并将25uL上清液转移到新管中。

步骤2：使用以下PCR程序，通过添加20uL EPM和5uL索引引物混合物来扩增文库：

-98℃，持续1分钟

-98℃持续20秒的12个循环

-60℃，持续30秒

-72℃，持续30秒

-冷却至10℃

测序

使用Qubit试剂盒(dsDNA BR测定试剂盒，Thermo Scientific)和荧光计来定量文库，然后在MiSeq上以12pM装载浓度进行测序。

图17显示了富集四种靶标后跨λ基因组的测序深度。

图8B示出了关于在片段P4上使用至少两个CRISPR事件来引起选择性洗脱的进一步细节，诸如参考图8A所述的。在图8B所示的操作A中，没有发生切刻事件，并且因此片段P4仍然与小珠820偶联。在图8B所示的操作B中，以诸如参考操作C(参考图8A所述)所述的方式发生了两个切刻事件，并且可以看出，随后使用聚合酶延伸缺口置换了与相应小珠偶联的两个末端，从而洗脱了靶序列810。在图8C所示的操作C中，仅发生了单个切刻事件，例如，因为Cas-gRNA RNP切口酶在片段P4的脱靶序列811处产生缺口，因此对应的切口酶不在片段P4的侧接序列811的相对部分处产生缺口。可以看出，尽管随后使用聚合酶对缺口进行3'延伸置换了与相应小珠偶联的末端中的一个末端，但另一末端仍然与小珠偶联并且因此未被洗脱。因此，从图8B可以理解，在靶序列810的任一侧的相对链上切刻的片段相对于未被切刻的片段或仅在单链上被切刻的片段可被优先洗脱。注意，gRNA可被设计成与对应切口酶可在靶序列810的3'的相应位置处生成缺口的区域偶联，并且因此可使用聚合酶延伸成功洗脱，而在靶序列的5'的位置处生成的任何缺口可能不能延伸超过模板链上的缺口，例如以诸如下文参考图8G更详细描述的方式。注意Cas-gRNA RNP切口酶任选地可靶向不同的链。尽管附图可示出靶向与gRNA杂交的链的单一切口酶，但可使用切刻另一链的另一切口酶。这可提供用于切刻的序列的改进选择，因为可使用基因组中的两条链。

图8C示出了用于从测序文库富集dsDNA片段的示例性工艺流程，该测序文库在切刻和延伸操作之前已经经历了PCR扩增，诸如参考图8A至图8B所述。例如，如果Cas-gRNARNP切口酶结合和切刻步骤不是100％有效的并且/或者如果存在相对低数目的dsDNA片段，例如，如果dsDNA获自无细胞DNA(cfDNA)测序文库，则此类PCR扩增可用于增强灵敏度和/或扩增足够的材料以进行质量控制和从小基因包测序。在图8C所示的操作A中，经由任何合适的方法(例如，诸如参考图1J、图3D、图4A至图4J、图6A至图6B或图7A至图7G所述)添加扩增衔接子。扩增衔接子任选地可以诸如参考图1J和图3D所述的方式为Y形，并且可分别提供读段1和读段2测序引物。在一个非限制性示例中，除了双链ME、ME'区之外，扩增衔接子还可包括A14和B15扩增衔接子(其互补物为A14'和B15')。例如，如图8C操作A所示，dsDNA片段P4的第一链的3'末端可经由ME'序列与B15'扩增衔接子偶联，并且该链的5'末端可经由ME序列与A14扩增衔接子偶联。片段P4的第二链的3'末端可经由ME'序列与B15'扩增衔接子偶联，并且该链的5'末端可经由ME序列与A14扩增衔接子偶联。然而，应当理解，可将任何其他序列和/或扩增衔接子添加至该链，例如UMI、样本索引、簇扩增引物等。

在用扩增衔接子制备文库后，进行PCR扩增以分别扩增初始片段P4的两条链，如图8C的操作B所示。在该操作期间或结束时，片段可以类似于参考图8A的操作A所述的方式在3'末端官能化(例如，生物素化)。说明性地，非模板添加(例如，使用Taq聚合酶)或末端转移酶可用于将生物素化的核苷酸添加到扩增链的3'末端，如图8C的操作B所示。随后的操作可如参考图8A所述的类似地进行。例如，如图8C的操作C所示，整个文库可经由片段P4的3'官能团以诸如参考图8A的操作B所述的方式与一个或多个基底(诸如小珠820)偶联，并且Cas-gRNA RNP切口酶用于以诸如参考图8A的操作C所述的方式生成3'侧接相应靶序列810的缺口。如图8C的操作D所示，然后可以诸如参考图8A的操作D所述的方式去除Cas-gRNA RNP切口酶，并以诸如参考图8A的操作E所述的方式添加聚合酶以从缺口延伸并引起靶序列810的洗脱。然后可例如使用PCR或簇扩增进一步扩增洗脱的靶序列，在此期间任选地可添加扩增UMI、样本索引和/或成簇衔接子，例如条件是在图8C的操作A期间不添加此类序列。样本索引的非限制性示例包括Illumina i5和i7索引。成簇衔接子的非限制性示例包括P5和P7引物。可在任何合适的平台(例如Illumina边合成边测序平台)上对偶联有任何合适序列的洗脱片段进行测序，作为靶向测序测定的一部分。

应当理解，尽管PCR可用于将合适的衔接子与片段P4偶联并在Cas-gRNA介导的洗脱之前扩增片段，但PCR不必如此使用。例如，图8D示出了用于从无PCR的片段化和连接的测序文库富集片段的工艺流程。此处，在图8D的操作A中，经由任何合适的方法(例如，诸如参考图1J、图3D、图4A至图4J、图6A至图6B或图7A至图7G所述)生成片段P4并添加扩增衔接子(例如，ME/ME'区和5'扩增衔接子)。在图8D所示的非限制性示例中，3'官能团(诸如生物素)可通过衔接子连接(例如，使用包括ME/ME'和单一A14衔接子的简化衔接子)来添加。衔接子可被修饰以包括尿嘧啶(U)，该尿嘧啶可以诸如下文参考图8D的操作C和操作D进一步描述的方式暂停聚合酶延伸。在图8D的操作B中，3'官能团以诸如参考图8A的操作B所述的方式与基底(诸如小珠820)偶联，并且Cas-gRNA RNP切口酶用于以诸如参考图8A的操作C所述的方式生成3'侧接相应靶序列810的缺口。如图8D的操作C所示，然后可以诸如参考图8A的操作D所述的方式去除Cas-gRNA RNP切口酶，并以诸如参考图8A的操作E所述的方式添加聚合酶以从缺口延伸并引起靶序列810的洗脱。然而，修饰的衔接子(例如，A14-U)内的尿嘧啶导致聚合酶在该尿嘧啶的位置处暂停。如图8D的操作C所示，包括第二测序引物(例如，B15)的模板开关寡核苷酸允许暂停的延伸产物停止(prime off)并将3'扩增衔接子附加到洗脱的靶片段上。洗脱的靶片段810然后任选地可以诸如本文别处所述的方式被PCR扩增，包括添加簇扩增衔接子(例如，P5和P7)、UMI和/或样本索引。然而，应当理解，适当地可实施无PCR工艺流程，例如，通过在图8D所示的工艺流程的操作A和操作D处添加全测序/簇扩增衔接子和样本索引来实施。关于参考图8D所述的所选操作的进一步细节，参见题为“Methods forIncreasing Yield of Sequencing Libraries”的国际专利公开号WO 2021/252617，该国际专利公开的全部内容以引用方式并入本文。

应当理解，诸如参考图8A至图8D所述的工艺流程适当地可适应于与任何类型的文库、仪器或工作流程一起使用。图8E示出了与Illumina Nextera工作流程一起使用的工艺流程的非限制性示例。此处，可使用Nextera系统通过同时片段化和5'衔接子添加来制备样本文库。Nextera系统可以诸如参考图8A的操作B所述的方式与基底(例如，小珠820)结合，使得初始片段化事件可用于将片段P4与基底偶联。如图8E的操作A所示，可生成Nextera文库，该文库例如经由3'官能团(诸如生物素)与小珠820偶联。在一些示例中，可使用包括相应的扩增衔接子(诸如A14和B15衔接子)的转座体的混合物生成文库，在这种情况下，片段P4的一部分(例如，约一半)可在任一端(如此处所示)包括A14和B15衔接子。其他片段可不必包括A14和B15衔接子两者，例如，可缺少B15衔接子但包括两个A14衔接子，或者可缺少A14衔接子但包括两个B15衔接子。

作为Nextera片段化过程的结果，每个片段P4可在3'末端和ME区之间包括约9个碱基对长的间隙。如图8E的操作B所示，可例如使用聚合酶和连接酶通过延伸连接来密封间隙。注意，密封缺口可抑制利用聚合酶的任何非特异性延伸和洗脱。另选地，随后可添加终止碱基以抑制不需要的延伸，并且随后用TdT或聚合酶以及双脱氧碱基洗脱。然后，以与参考图8A的操作C所述类似的方式，可将Cas-gRNA RNP切口酶应用于基底上的片段，从而以诸如图8E的操作C所示的方式产生侧接靶序列810的靶向缺口。然后，以与参考图8A的操作E所述类似的方式，可以诸如图8E的操作D所示的方式添加聚合酶以使靶序列洗脱。洗脱后，另外的扩增衔接子和/或样本索引可以诸如本文别处所述的方式例如在测序前使用PCR或簇扩增与片段偶联。就这一点而言，具有两个B15衔接子或两个A14衔接子的任何片段P4在此类PCR扩增期间可能不被扩增，并且因此可能不被测序。应当理解，模板开关机制(诸如参考图8D的操作D所述)可用于通过置换衔接子来减少此类B15-B15片段和A14-A14片段的损失，以便提供A14和B15衔接子二者，使得此类片段可使用PCR或簇扩增来扩增，并且随后测序。

图8F示出了用于缺口延伸洗脱操作的聚合酶选项，诸如参考图8A的操作E、图8B的操作B、图8C的操作D、图8D的操作C和图8E的操作D所述。在图8F的实施例A中，使用链置换聚合酶导致3'官能化(例如，3'生物素化)链从靶序列810置换出来，从而导致靶向洗脱。在图8F的实施例B中，包括使用具有5'核酸外切酶活性的聚合酶的缺口平移方法导致3'官能化(例如，3'生物素化)链的5'至3'降解，从而导致靶序列810的靶向洗脱。

图8G比较了在靶序列3'的缺口的使用(操作A)和在靶序列5'的缺口的使用(操作B)。如从操作A可以理解的，在靶序列810的3'的两个缺口事件导致靶序列从基底(例如，小珠820)洗脱。如从操作B可以理解的，在靶序列810的5'的两个缺口事件可导致聚合酶在缺口处暂停，导致靶序列仍然与基底(例如，小珠820)结合。

注意，许多分离技术与诸如参考图8A至图8G所述的工艺流程兼容，并且不限于使用诸如所述的小珠的磁性分离。例如，可在流动系统(例如填充柱或流通池)内提供基底。靶片段可在此类系统中使用流动来洗脱。

还应当理解，片段P4可被官能化以包括任何合适的标签，并且基底可被官能化以包括用于将片段P4下拉至基底的任何合适的标签配偶体。例如，标签配偶体可包括SNAP蛋白，并且标签可包括O-苄基鸟嘌呤；标签配偶体可包括CLIP蛋白，并且标签可包括O-苄基胞嘧啶；标签配偶体可包括SpyTag，并且标签可包括SpyCatcher；标签配偶体可包括SpyCatcher，并且标签可包括SpyTag；标签配偶体可包括生物素，并且标签可包括链霉抗生物素蛋白；标签配偶体可包括链霉抗生物素蛋白，并且标签可包括生物素；标签配偶体可包括NTA，并且标签可包括His-Tag；标签配偶体可包括His-Tag，并且标签可包括NTA；标签配偶体可包括抗体(诸如抗FLAG抗体)，并且标签可包括抗体对其具有选择性的抗原(诸如FLAG标签)；标签配偶体可包括抗原(诸如FLAG标签)，并且标签可包括对抗原具有选择性的抗体(诸如抗FLAG抗体)；或者标签配偶体可包括第一寡核苷酸，并且标签可包括与第一寡核苷酸互补并杂交的第二寡核苷酸。标签配偶体可经由任何合适的键(例如经由共价键或经由非共价键)与基底偶联。类似地，标签可分别经由任何合适的键(例如经由共价键或经由非共价键)与片段P4 3'偶联。

另外，诸如参考图8A至图8G所述的组合物和操作可在任何合适的方法或背景中使用。例如，图8H示出了生成双链多核苷酸的片段的示例性方法8000中的操作流程。尽管方法8000可以描述对特定多核苷酸进行的操作，但应当理解，该方法可应用于包括若干不同的可以所述方式同时操作的多核苷酸的混合物。在一些示例中，双链多核苷酸可包括dsDNA，并且任选地可包括cfDNA。

方法8000可包括将双链多核苷酸与基底偶联(操作8001)。例如，以诸如参考图8A的操作A、图8C的操作B、图8D的操作A或图8E的操作A所述的方式，双链多核苷酸的3'末端可被官能化，例如可与标签或标签配偶体偶联。另外，以诸如参考图8A的操作B、图8C的操作C、图8D的操作B或图8E的操作A所述的方式，双链多核苷酸的3'官能化末端可与基底偶联，例如与偶联到双链多核苷酸的标签或标签配偶体的标签配偶体或标签偶联的基底。尽管参考图8A至图8G描述的一些示例可包括作为基底的链霉抗生物素蛋白小珠和作为3'官能团的生物素，但可容易地设想基底和标签/标签配偶体对的许多其他示例。

图8H所示的方法8000还可包括使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)切口酶和第二Cas-gRNA RNP切口酶分别与双链多核苷酸中的第一亚序列和第二亚序列杂交(操作8002)。第一亚序列可在沿着双链多核苷酸的第一链的靶序列的3'，并且第二亚序列可在沿着双链多核苷酸的第二链的靶序列的3'。例如，以诸如参考图8A的操作C、图8B的操作B、图8C的操作C、图8D的操作B、图8E的操作C、图8F的实施例A、图8F的实施例B和图8G的实施例A所述的方式，第一Cas-gRNA RNP切口酶851的gRNA可选择性地在“fwd”3'位置与双链多核苷酸P4的第一链偶联，并且第二Cas-gRNA RNP切口酶852的gRNA可选择性地在“rev”3'位置与双链多核苷酸P4的第二链偶联。切口酶可被认为3'“侧接”靶序列。如上所述，切口酶可靶向gRNA杂交链或相对链。

图8H所示的方法8000还可包括使用第一Cas-gRNA RNP切口酶在第一亚序列处切割第一链，并且使用第二Cas-gRNA RNP切口酶在第二亚序列处切割第二链(操作8003)。例如，以诸如参考图8A的操作C、图8B的操作B、图8C的操作C、图8D的操作B、图8E的操作C、图8F的实施例A、图8F的实施例B和图8G的实施例A所述的方式，第一Cas-gRNA RNP切口酶851的切口酶可选择性地在由该切口酶的gRNA偶联的亚序列限定的位置处切刻双链多核苷酸P4的第一链，并且第二Cas-gRNA RNP切口酶852的切口酶可选择性地在由该切口酶的gRNA偶联的亚序列限定的位置处切刻双链多核苷酸P4的第二链。所得切口可被认为3'“侧接”靶序列。这两个切割实例可同时进行，或者可在彼此不同的时间进行。例如，可将大量的第一链和第二链CRISPR切口酶复合物立即与样本一起孵育。应当理解，操作8002和操作8003可使用任何合适的Cas-gRNA RNP切口酶进行，说明性地为具有第一突变D10A和第二突变H840A的酿脓链球菌Cas9。

方法8000还可包括使用聚合酶从相应的切口延伸第一链和第二链并从基底洗脱靶序列(操作8004)。例如，可以诸如参考图8A的操作D和操作E、图8B的操作B、图8C的操作D、图8D的操作C、图8E的操作D、图8F的实施例A、图8F的实施例B和图8G的实施例A所述的方式去除Cas-gRNA RNP切口酶以暴露在操作8003中生成的缺口的3'末端，并添加合适的聚合酶以从3'末端延伸双链的靶序列。此类延伸置换双链多核苷酸的与基底偶联且仍然与基底结合的部分，并洗脱靶序列。因此，靶序列从基底中释放。应当理解，操作8004可使用任何合适的聚合酶进行。例如，聚合酶可包括链置换聚合酶，诸如参考图8F的实施例A所述的，说明性地为Vent或Bsu。或者，例如，聚合酶可具有5'核酸外切酶活性，说明性地为Taq、Bst或DNA聚合酶I。

方法8000还可包括对洗脱的靶序列进行测序(操作8005)。此类测序可以任何合适的方式并且使用任何合适的仪器(例如，可从Illumina,Inc.商购的仪器)来进行。在测序之前的任何合适的时间，靶序列可例如以诸如参考图8C的操作A至操作D、图8D的操作A至操作D或图8E的操作A至操作D所述的方式合适地与扩增衔接子偶联。此类扩增衔接子可在操作8001、操作8002、操作8003和操作8004中任何合适的操作之前或之后添加。另外，在测序前的任何合适的时间，可例如使用PCR或簇扩增来扩增靶序列。此类扩增可在操作8001、操作8002、操作8003和操作8004中任何合适的操作之前或之后进行。

使用Cas-gRNA RNP将扩增衔接子连接到选择的多核苷酸片段

本文提供的一些方法解决了用于完整dsDNA片段的靶向测序的长期且费力的工作流程的问题。如根据本公开将清楚的，Cas-gRNA RNP可提供与多核苷酸(例如dsDNA)中的靶区域的快速和特异性杂交。如现在将参考图9A至图9F所述的，包括Cas-gRNA RNP和扩增衔接子的复合物可用于将扩增衔接子连接到选择的片段，使得那些片段随后可被扩增和测序，而其他片段不连接到此类衔接子，并且因此不被扩增和测序。因此，所选片段可以简化方式富集和测序。这在可能希望在衔接子连接期间保存和富集双链多核苷酸的应用中，例如在对无细胞DNA(cfDNA)进行测序中可能特别有用，而先前已知的富集方法可能涉及单链多核苷酸。附加地或另选地，为了额外的精确性，用双链UMI标记cfDNA分子的两条链可能是有用的。

虽然一些先前已知的连接方法可与双链多核苷酸兼容，但此类方法可能不提供所选片段的任何富集。例如，图9A示意性地示出了用于将扩增衔接子连接到dsDNA文库的片段的先前已知的工艺流程中的示例性组合物和操作。如操作A所示，dsDNA文库可被片段化。此类片段化可天然发生(例如，在cfDNA的情况下)，可机械地或酶促地进行，或者可从RNA文库生成。所得的多个片段可具有不平坦的末端，其可使用末端修复以诸如图9A的操作B所示的方式平端化。然后5'末端可以诸如图9A的操作C所示的方式磷酸化。然后使用加A尾以诸如图9A的操作D所示的方式将未模板化的A核苷酸添加到3'末端。Y形(叉状)扩增衔接子然后可使用衔接子连接以诸如图9A的操作E所示的方式与片段偶联。衔接子可具有允许在PCR扩增后鉴定两条起始链的序列。如图9A的操作F所示，然后可使用PCR扩增片段，在此期间可添加样本索引。然后可对所扩增片段进行测序。从图9A所示的工艺流程，应当理解，操作A中存在的基本上每个dsDNA片段最终可连接有扩增衔接子，并且因此可被扩增和测序。尽管在一些情况下可能希望获得给定样本中基本上所有dsDNA片段的序列，但在其他情况下可能希望仅对片段(例如cfDNA的片段)的小的、选择的子集进行测序。

与参考图9A所述的先前已知的工艺流程相比，图9B至图9F示意性地示出了用于使用Cas-gRNA RNP将扩增衔接子连接到所选多核苷酸片段的工艺流程中的示例性组合物和操作。如操作A所示，dsDNA文库可被片段化。此类片段化可天然发生(例如，在cfDNA的情况下)，可机械地或酶促地进行，或者可从RNA文库生成。一些片段可包括希望富集和检测的相应靶序列，而其他片段可不必包括此类序列；例如，图9A所示的片段P5包括靶序列910，而其他片段可包括其他靶序列或可不包括任何此类靶序列。

以类似于参考图9A所述的方式，所得的多个片段可具有不平坦的末端，其可使用末端修复以诸如图9A的操作B所示的方式平端化。然后5'末端可以诸如图9A的操作C所示的方式磷酸化。然后使用加A尾以诸如图9A的操作D所示的方式将未模板化的A核苷酸添加到3'末端。以诸如下文参考图9C更详细描述的方式，Y形(叉状)扩增衔接子然后可以诸如图9B的操作E所示的方式选择性地与包括靶序列910的片段偶联，而此类衔接子不添加至缺乏该序列的任何片段。衔接子可具有允许在PCR扩增后鉴定两条起始链的序列。例如，衔接子可包括双链UMI。如图9B的操作F所示，然后可使用PCR扩增连接有衔接子的片段，在此期间可添加样本索引，而不扩增未连接有衔接子的片段。然后可对所扩增的片段进行测序，而不对未连接有衔接子的片段进行测序。从图9A所示的工艺流程，应当理解，基本上只有操作A中存在的包括靶序列910的多核苷酸片段最终可连接有扩增衔接子，因此可被扩增和测序。因此，图9B所示的工艺流程提供了对给定样本中的片段(例如cfDNA片段)的子集进行选择性测序的简化方式。

图9C示意性地示出了关于衔接子可选择性地与包括靶序列910的片段P6偶联的方式的进一步细节。如图9C所示，在操作A中，片段P6可分别与第一复合物950和第二复合物950'接触，该复合物包含经由接头953与扩增衔接子952偶联的酶促失活的Cas-gRNA RNP951。例如，可将复合物950、950'中的多个复合物与片段化的加A尾样本dsDNA混合。每个Cas-gRNA RNP 951的gRNA可靶向dsDNA的相应单链内的特定区域(亚序列)，并且这些区域可以是交错的，使得Cas-gRNA RNP在彼此偏移并且在希望富集的双链靶区域910的相对侧上的位置处与相应的链杂交。例如，以诸如图9C的操作A所示的方式，复合物950的Cas-gRNARNP 951的gRNA可靶向靶序列910的正向(“fwd”)区域，并且复合物950'的Cas-gRNA RNP951的gRNA可靶向靶序列910的反向(“rev”)区域。因此，第一复合物950和第二复合物950'的向导序列可被认为在正向方向和反向方向上“侧接”靶序列910。应当理解，可设计任何合适数目的gRNA以指导复合物的相应Cas-gRNA RNP在dsDNA片段内侧接特异性序列的位置处的相应链杂交。例如，可使用多个不同的gRNA(例如，1000-100,000个gRNA，或多于100,000个gRNA)以便同时富集样本中的许多不同的感兴趣序列。注意gRNA不一定必须“侧接”给定的靶序列910，而是每个靶序列至少两个向导可结合给定片段P6内的相对链。gRNA和对应的复合物可能不与缺乏此类gRNA靶标的序列的任何片段结合。注意，对于每个片段使用至少两个Cas-gRNA RNP以在每个末端接受衔接子预期有助于特异性。

在一些示例中，复合物950、950'的衔接子952可以是或包括类似于参考图3D、图8C或图8D所述的那些的Y形衔接子对。任选地，衔接子可以诸如参考图9D所述的方式包括UMI。附加地或另选地，衔接子可包括可与片段上的任何A尾杂交的未配对的T。就这一点而言，注意到预期Cas-gRNA RNP 951与片段的相应亚序列的特异性结合相对快速和强，并且因此优于T-碱基衔接子配对与片段的A尾的非特异性结合。这种选择性可通过在升高的温度下使Cas-gRNA RNP 951与相应的亚序列杂交来增强。另外，与标准连接条件相比，通过降低复合物950、950'的浓度可显著降低不需要的背景连接。例如，在先前已知的方法中，衔接子通常相对于模板大量过量(例如相对于模板为10-1000x)，而在本示例中，衔接子952可以显著低于模板的浓度(例如相对于模板为0.001-0.1x)提供，以便提供低背景，因为仅靶向总片段的子部分。

从图9C所示的操作A可进一步理解，当第一复合物950和第二复合物950'的gRNA与给定片段的相应亚序列杂交时，那些复合物的衔接子952被带到该片段的末端附近。因此，如图9C的操作B所示，使用在操作B期间与复合物和片段接触的连接酶(未具体示出)，第一复合物950的扩增衔接子952可连接到片段P6的第一末端，并且第二复合物950'的扩增衔接子952可连接到片段P6的第二末端。连接酶还可密封衔接子和片段末端之间的键。作为一个非限制性示例，连接酶可包括T4DNA连接酶。在将衔接子952连接到包括侧接亚序列的靶序列的片段P6的相应末端后，其中Cas-gRNA RNP 951的gRNA对该亚序列是特异性的，Cas-gRNA RNP 951可被热灭活并去除，或使用合适的试剂诸如蛋白酶K、SDS或蛋白酶去除。任何剩余的接头953可保持与衔接子952偶联，因此可以诸如图9C所示的方式保持与包括靶序列910的片段偶联。然后可以诸如本文别处所述的方式对与衔接子952偶联的片段进行扩增和测序。缺乏靶序列910的任何片段都不能与衔接子952偶联，因此不能被扩增和测序。因此，富集包括靶序列910的片段。

应当理解，图9C所示的操作可按任何合适的次序执行。在一些示例中，将Cas-gRNARNP 951与相应的亚序列杂交，因此在加入连接酶并用于将那些衔接子连接到该片段的末端之前进行的单独操作中，使衔接子952接近对应片段P6的末端。在其他示例中，Cas-gRNARNP 951在存在连接酶的情况下与相应的亚序列杂交，使得连接酶可将那些接头相对快速地连接到该片段的末端。另选地，在此类示例中，可在一段时间后添加ATP作为“开关”以将连接操作与Cas-gRNA RNP杂交操作分开，使得杂交基本上可在进行连接之前(在无活性连接酶存在下)进行(在通过新添加的ATP活化的连接酶存在下)。

附加地或另选地，在一些示例中，包括靶序列910的片段可以类似于参考图8A至图8H所述的方式选择性地偶联至基底。例如，复合物950、950'的任何合适的部分诸如gRNA、Cas-gRNA RNP 951或衔接子952可被官能化，然后经由这种官能化与基底偶联。例如，该复合物可与标签或标签配偶体偶联，并且该基底与标签配偶体或标签偶联，该标签配偶体或标签反应以使该复合物与该基底偶联。不包括靶序列910并且因此不与复合物950、950'偶联的任何片段也不与基底偶联(例如，因为它们缺少与基底处的标签配偶体或标签反应的标签或标签配偶体)并且可被洗掉。说明性地，标签配偶体可包括SNAP蛋白，并且标签可包括O-苄基鸟嘌呤；标签配偶体可包括CLIP蛋白，并且标签可包括O-苄基胞嘧啶；标签配偶体可包括SpyTag，并且标签可包括SpyCatcher；标签配偶体可包括SpyCatcher，并且标签可包括SpyTag；标签配偶体可包括生物素，并且标签可包括链霉抗生物素蛋白；标签配偶体可包括链霉抗生物素蛋白，并且标签可包括生物素；标签配偶体可包括NTA，并且标签可包括His-Tag；标签配偶体可包括His-Tag，并且标签可包括NTA；标签配偶体可包括抗体(诸如抗FLAG抗体)，并且标签可包括抗体对其具有选择性的抗原(诸如FLAG标签)；标签配偶体可包括抗原(诸如FLAG标签)，并且标签可包括对抗原具有选择性的抗体(诸如抗FLAG抗体)；或者标签配偶体可包括第一寡核苷酸，并且标签可包括与第一寡核苷酸互补并杂交的第二寡核苷酸。标签配偶体可经由任何合适的键(例如经由共价键或经由非共价键)与基底偶联。类似地，标签可分别经由任何合适的键(例如经由共价键或经由非共价键)与复合物950、950'偶联。

应当理解，复合物950、950'可以任何合适的方式制备。如上文参考图9B所述，复合物950、950'可包括Cas-gRNA RNP 951，该Cas-gRNA RNP 951包括靶向特定亚序列并且经由接头953偶联至衔接子952的gRNA。图9D示意性地示出了复合物950的示例性配置。在图9D所示的实施例A和实施例B中，Cas-gRNA 951的Cas可被工程化，从而不在与gRNA互补的序列处切割靶多核苷酸，例如可包括dCas9。在图9D所示的实施例A和实施例B中，Y形扩增衔接子952可以类似于参考图8A至图8H所述的方式包括读段1(A14)和读段2(B15)衔接子以及ME/ME'区。任选地，衔接子952可包括未配对的T以与片段的A尾杂交。另选地，衔接子952可连接到平末端。附加地或另选地，衔接子952可包括如图9D所示的双链双链体UMI。在图9D所示的实施例A中，衔接子952经由接头953(例如，基于蛋白的接头)缀合至Cas-gRNA RNP 951的Cas蛋白。例如，Cas蛋白和系链953可共表达，或在表达后以诸如本文别处所述的方式或以诸如在Aird等人，“Increasing Cas-9mediated homology-directed repair efficiencythrough covalent tethering ofDNA repair template”，Communications Biology，第1卷第54期(2018年)，doi.org/10.1038/s42003-018-0054-2中所述的方式适当地彼此偶联。在图9D所示的实施例B中，衔接子952经由接头953(例如，基于寡核苷酸的接头)以诸如本文别处所述的方式与Cas-gRNA RNP 951的gRNA偶联。然而，应当理解，接头953可包括任何合适的蛋白、多核苷酸或聚合物(例如，PEG)。

还应当理解，多种不同的亚序列可用于富集包括所需靶序列910的片段。例如，图9E的操作A示出了可如何设计排列在片段P6的靶序列910之上和周围的多个gRNA(“向导”)。当与片段中的相应亚序列结合时，包含此类gRNA的复合物950可以诸如图9E的操作B所示的方式使该片段在靶序列910的一些或全部上饱和。该策略可有助于富集随机片段化的片段和/或可包括靶序列910内的断裂，这是通过增加将复合物950与该序列偶联的可能性并因此将相应的衔接子952置于足够接近该片段的末端以用于连接到那些末端，使得该片段随后可被扩增和测序。例如，基于接头953的长度，衔接子952可连接到片段末端，该片段末端在与相应复合物的Cas-gRNA RNP偶联的亚序列的限定数目的碱基对内，例如约5-30个碱基对，或约10-25个碱基对，或约15-20个碱基对。

图9F示出了生成双链多核苷酸的片段的示例性方法9000中的操作流程。图9F所示的方法9000可包括使第一复合物和第二复合物分别与双链多核苷酸中的第一亚序列和第二亚序列杂交(操作9001)。第一复合物和第二复合物中的每一者均可包含与扩增衔接子偶联的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。例如，以诸如参考图9C的操作A所述的方式，复合物950、950'可分别包括与扩增衔接子952偶联的Cas-gRNA RNP 951。在非限制性示例中，Cas-gRNA RNP可包括dCas9。

任选地，每个复合物还可包括将Cas-gRNA RNP与扩增衔接子偶联的接头953。在一些示例中，复合物可以诸如参考图9D所述的方式制备。例如，接头可与Cas-gRNA RNP的Cas偶联。或者，例如，接头可与gRNA偶联。在一些示例中，衔接子可包括蛋白、多核苷酸或聚合物。在一些示例中，扩增衔接子是Y形的。附加地或另选地，扩增衔接子可分别包括独特分子标识符。附加地或另选地，方法9000还可包括在杂交之前将双链多核苷酸加A尾，并且扩增衔接子包括未配对的T以与A尾杂交。另选地，扩增衔接子可连接到平末端。

可选择复合物950、950'的gRNA以便与双链多核苷酸P6的相应链上的亚序列杂交，例如在充分靠近多核苷酸相应末端的位置处侧接靶序列910，使得扩增衔接子可连接到此类末端。在一些示例中，第一亚序列在沿着双链多核苷酸的第一链的靶序列的3'，并且第二亚序列在沿着双链多核苷酸的第二链的靶序列的3'。

图9F所示的方法9000还可包括将杂交的第一复合物和第二复合物的扩增衔接子分别连接到双链多核苷酸的第一末端和第二末端(操作9002)。例如，以诸如参考图9C的操作B所述的方式，复合物950、950'与相应亚序列的杂交使对应的扩增衔接子952足够接近多核苷酸的相应末端以与该多核苷酸连接。该连接可包括使用连接酶。以诸如参考图9C的操作B所述的方式，连接酶任选地可在杂交期间存在。连接酶在杂交期间可以是失活的，并且可使用ATP活化以用于连接。另选地，可在杂交后添加连接酶。

图9F所示的方法9000还可包括从双链多核苷酸去除第一复合物和第二复合物的Cas-gRNA RNP(操作9003)，例如以诸如参考图9C的操作C所述的方式。在复合物包括接头953的示例中，当Cas-gRNA RNP被去除时，例如以诸如参考图9C所述的方式，接头任选地可保持与扩增衔接子偶联。

图9F所示的方法9000可包括例如以诸如本文别处所述的方式，对连接有扩增衔接子的双链多核苷酸进行测序(操作9004)。

生成具有5'突出端的片段，并将衔接子与该片段偶联

在一些示例中，本文提供的方法和组合物解决了用于靶向扩增和/或靶向测序的长期且费力的工作流程的问题。如从本公开内容显而易见的，Cas-gRNA RNP可用于生成多核苷酸片段，作为靶标富集方法的一部分。可使用许多额外的步骤添加扩增衔接子，例如以诸如本文别处所述的方式使用末端修复、加A尾和衔接子连接。如现在将参考图10A至图10C描述的，Cas-gRNA RNP可用于生成具有5'突出端的片段，也具有5'突出端的扩增衔接子可用相对少且简单的步骤容易地连接到这些片段。如本文所提供的，通过片段化的基于快速Cas-gRNA RNP的富集和简化的衔接子添加的组合为靶向测序应用提供了更快且更容易的完整工作流程。特别地，某些类型的Cas-gRNA RNP可用于生成准备用于衔接子连接的片段，而不需要末端修复或加A尾。

图10A至图10C示意性地示出了用于使用Cas-gRNA RNP生成片段并将衔接子与该片段偶联的工艺流程中的示例性组合物和操作。首先参见图10A，在操作A，多核苷酸P8可包括期望富集、扩增和测序的靶序列1010。说明性地，靶序列1010可以是约150-600个碱基对长，或诸如本文所示例的任何其他长度。以类似于本文别处提供的方式，在操作B中，多核苷酸P8可与具有向导RNA序列的第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP 1051'接触，这些向导RNA序列与多核苷酸P8中侧接靶序列1010的第一序列(“fwd”)和第二序列(“rev”)特异性杂交。第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP 1051'可分别用于切割多核苷酸的第一序列和第二序列以生成具有第一末端和第二末端以及其间的靶序列的片段。例如，如图10A的操作C所示，第一Cas-gRNA RNP 1051可与多核苷酸P8中的第一序列(“fwd”)杂交，并且第二Cas-gRNA RNP 1051'可与多核苷酸中的第二序列(“rev”)杂交。以诸如本文别处所述的方式，第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP 1051'可在侧接靶序列1010的位置处切割多核苷酸P8，生成包括靶序列1010的片段。任选地，以诸如将参考图10B所述的方式，在操作C中生成的片段的第一末端任选地可具有至少一个碱基的第一5'突出端，并且片段的第二末端任选地可具有至少一个碱基的第二5'突出端。即，任选地可使用生成此类突出端的特定类型的Cas-gRNA RNP，例如，诸如参考图10B所述。

如图10A的操作D所示，并且以下文将参考图10B所述的方式，扩增衔接子(例如，Y形衔接子中的A14和B15序列)可连接到片段的第一末端和第二末端。任选地，以诸如参考图10B所述的方式，第一扩增衔接子任选地可具有与片段的第一末端处的5'突出端互补的5'突出端，并且第二扩增衔接子可具有与片段的第二末端处的5'突出端互补的5'突出端。如图10A的操作E所示，偶联有衔接子的片段可被扩增(例如，使用PCR)以便添加样本索引(i7及其互补物)和测序衔接子(例如，P5和P7衔接子及其互补物)。在扩增期间，每个片段产生双向扩增子以用于双向测序读取，因为靶向区域的“顶部”和“底部”链由于叉形衔接子结构的连接而产生不同的取向。这意味着两个测序读取可从靶序列1010的任一端进行，从而提供额外的覆盖。扩增还添加了额外的聚类序列(例如，P5、P7)和样本索引序列(例如，i5、i7)以用于多重测序。图10A至图10B所示的衔接子序列(例如，A14、B15、ME)是可用于Illumina测序的示例，但可根据需要转换为任何其他合适的序列。然后可对所得的偶联有扩增和测序衔接子的富集片段进行测序以鉴定靶序列1010。

尽管单个多核苷酸P8和对应的第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP1051'如图10A所示，但应当理解，这种方法可容易地以诸如本文别处提供的方式进行扩展，例如，通过使多个不同的多核苷酸与具有相应的向导RNA序列的第一和第二多个Cas-gRNARNP接触，相应的向导RNA序列特异性地杂交到侧接具有这些多核苷酸的靶序列的多核苷酸的所选多核苷酸中的第一或第二序列。

图10B示意性地示出了使用Cas-gRNA RNP生成具有5'突出端的片段并将衔接子与该片段偶联的工艺流程中的示例性组合物和操作。在图10B的操作A所示的组合物中，第一Cas-gRNA RNP 1051与多核苷酸P8中的第一序列杂交，并且第二Cas-gRNA RNP 1051'与多核苷酸中的第二序列杂交，第二序列与第一序列间隔至少靶序列1010。第一Cas-gRNA RNP可被配置并用于切割第一链上位点1011处和第二链上位点1012处的多核苷酸P8，位点1012在5'方向上偏离位点1011至少一个碱基，例如2-5个碱基或约5个碱基。类似地，第二Cas-gRNA 1051'可被配置并用于切割第一链上位点1011'处和第二链上位点1012'处的多核苷酸P8，位点1012'在5'方向上偏离位点1011'至少一个碱基，例如2-5个碱基或约5个碱基。Cas-gRNA RNP 1051、1051'可包括可使用的任何合适的Cas-gRNA RNP，该Cas-gRNA RNP在dsDNA切割后留下至少一个碱基的单链5'突出区。说明性地，Cas可包括Cas12a，例如Cas12a(Cpf1或C2c1)或FnCas12a，或Cas12a直系同源物，诸如描述于Teng等人，“Enhancedmammalian genome editing by new Cas12a orthologs with optimized crRNAscaffolds”，Genome Biology，第20卷：第15页(2019年)，该文献的全部内容以引用方式并入本文。

在图10B的操作B所示的组合物中，通过操作A生成的片段1050的第一末端可具有至少一个碱基的第一5'突出端1015，并且片段的第二末端可具有至少一个碱基的第二5'突出端1016。例如，第一和第二5'突出端各自可以是约2-5个碱基长，说明性地约5个碱基长。突出端可以但不一定必须彼此长度相同。在片段的第一末端，包括突出端1015的链可包括5'磷酸酯基团，并且另一链可包括3'OH基团。类似地，在片段的第二末端，包括突出端1016的链可包括5'磷酸酯基团，并且另一链可包括3'OH基团。第一5'突出端1015和第二5'突出端1016可具有彼此不同的序列，例如，由于第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP1051'的gRNA分别杂交的多核苷酸P8内的特定序列。

在图10B的操作C所示的组合物中，片段1050与包括相应5'突出端1065、1066的衔接子1060、1060'接触，相应5'突出端1065、1066分别与5'突出端1015、1016互补。5'突出端1065、1066可具有彼此相同的长度，或者可具有彼此不同的长度。在图10B所示的非限制性示例中，“fwd”衔接子1060的5'突出端1065可包括与片段1050的5'突出端1015中的多个碱基互补的多个碱基，或可基本上由其组成。5'突出端1065可具有与5'突出端1015相同的长度，例如可以是约2-5个碱基长，例如可以是约5个碱基长。“rev”衔接子1060的5'突出端1066可包括与片段1050的5'突出端1016的多个碱基互补的多个碱基，或可基本上由其组成。5'突出端1066可具有与5'突出端1016相同的长度，例如可以是约2-5个碱基长，例如可以是约5个碱基长。衔接子1060、1060'可包括任何其他合适的序列，例如本文别处所述的序列。例如，每个衔接子1060、1060'可包括具有任选UMI的Y形衔接子对。在图10B所示的非限制性示例中，衔接子1060、1060'包括正向扩增衔接子(例如，A14、A14')、反向扩增衔接子(例如，B15、B15')，并且任选地可包括ME/ME'序列和/或UMI/UMI′序列。

因为片段1050的第一5'突出端1015和第二5'突出端1016可具有彼此不同的序列，衔接子1060、1060'的突出端1065、1066类似地可具有彼此不同并且与相应片段突出端1015、1016互补的序列。例如，扩增衔接子1060可具有与第一5'突出端1015互补但不与第二5'突出端1016互补的5'突出端1065；并且扩增衔接子1060'可具有与第二5'突出端1016互补但不与第一5'突出端1015互补的5'突出端。因此，扩增衔接子1060可与5'突出端1015特异性杂交，并且扩增衔接子1060'可与5'突出端1016特异性杂交。说明性地，5'突出端1015可包括5-碱基序列CGACT，5'突出端1065的5-碱基序列GCTGA可与该5-碱基序列CGACT杂交，并且5'突出端1016可包括5-碱基序列TTGCA，突出端1066的5-碱基序列AACGT可与该5-碱基序列TTGCA杂交。应当理解，这些5-碱基序列仅仅是说明性的。

衔接子1060、1060'可以任何合适的方式连接到片段1050，以形成偶联有衔接子的片段，诸如图10B的操作D所示。例如，在图10B的操作C所示的组合物可包括用于将第一扩增衔接子1060连接到片段1050的第一末端并且用于将第二扩增衔接子1060连接到片段1050的第二末端的至少一种连接酶。在一个非限制性示例中，连接酶可包括T4DNA连接酶，但应当理解，可使用其他合适的连接酶。在这种连接之后，如图10B的操作E所示，偶联有衔接子的片段可被扩增(例如，使用PCR)以便添加样本索引(i7及其互补物)和测序衔接子(例如，P5和P7衔接子及其互补物)。然后可对所得的偶联有扩增和测序衔接子的富集片段进行测序以鉴定靶序列1010。

尽管单个多核苷酸P8、对应的第一Cas-gRNA RNP 1051和第二Cas-gRNA RNP1051'以及对应的衔接子1060、1060'如图10B所示，但应当理解，该方法可容易地以诸如本文别处提供的方式进行扩展。例如，参考图10B所述的操作A可用于生成多个多核苷酸片段。如图10B的操作B所示，每个片段可具有第一末端和第二末端以及其间的靶序列，第一末端具有至少一个碱基的第一5'突出端，第二末端具有至少一个碱基的第二5'突出端。第一5'突出端和第二5'突出端可具有与彼此不同的序列，也可具有与其他片段的第一5'突出端和第二5'突出端不同的序列。该多个片段可与多个第一扩增衔接子和多个第二扩增衔接子以诸如参考图10B的操作C所述的方式接触。这些第一扩增衔接子中的每个第一扩增衔接子均可具有第三5'突出端，该第三5'突出端与对应片段的第一5'突出端互补且不与该片段的第二5'突出端互补且不与其他片段的第一5'突出端或第二5'突出端互补。这些第二扩增衔接子中的每个第二扩增衔接子均可具有第四5'突出端，该第四5'突出端与对应片段的第二5'突出端互补且不与该片段的第一5'突出端互补且不与其他片段的第一5'突出端或第二5'突出端互补。就扩增衔接子而言，使用术语“第三”或“第四”5'突出端旨在帮助将这些相应的突出端与片段的第一突出端和第二突出端区分开，而不是暗示任何扩增衔接子具有三个或四个5'突出端。连接酶还可用于将第一扩增衔接子连接到第一和第三5'突出端互补的第一末端，以及用于将第二扩增衔接子连接到第二和第四5'突出端互补的第二末端，例如以诸如参考图10B的操作D所述的方式。

图10C示出了生成多核苷酸的片段的示例性方法10000中的操作流程。方法10000可包括使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与多核苷酸中的第一序列杂交(操作10001)，并且可包括使第二Cas-gRNA RNP与多核苷酸中的与第一序列间隔至少靶序列的第二序列杂交(操作10002)。例如，以诸如参考图10A的操作C和图10B的操作A所述的方式，可选择第一Cas-gRNA RNP和第二Cas-gRNA RNP以便侧接靶序列1010。注意，操作10001和10002可彼此同时执行。方法10000还可包括用第一Cas-gRNA RNP和第二Cas-gRNARNP切割第一序列和第二序列以生成包含第一末端和第二末端以及其间的靶序列的片段，第一末端具有至少一个碱基的第一5'突出端，第二末端具有至少一个碱基的第二5'突出端(操作10003)。例如，Cas可包括Cas12a。以诸如参考图10B所述的方式，具有互补5'突出端的第一扩增衔接子可连接到片段的第一末端，并且具有互补5'突出端的第二扩增衔接子可连接到片段的第二末端。

因此，应当理解，任何合适数目的多核苷酸内的靶序列可通过以下过程来富集：其中Cas-gRNA RNP用于以特异性侧接感兴趣的靶序列并生成具有5'突出端的片段，然后将具有互补的5'突出端的扩增衔接子以特异性偶联至片段的突出端，从而可选择性地扩增片段。两个特异性层(经由Cas-gRNA RNP以及经由扩增衔接子上的互补5'突出端连接)可提供特别高水平的富集，这在对所得片段进行测序时可能很有用。

生成具有3'突出端的片段，包括衔接子和聚合酶延伸

在一些示例中，本文提供的方法和组合物解决了用于靶向扩增和/或靶向测序的长期且费力的工作流程的问题。如从本公开内容显而易见的，Cas-gRNA RNP可用于生成多核苷酸片段，作为靶标富集方法的一部分。可使用许多额外的步骤添加扩增衔接子，例如以诸如本文别处所述的方式使用末端修复、加A尾和衔接子连接。如现在将参考图11A至图11G描述的，包括修饰的gRNA的Cas-gRNA RNP(该gRNA包括引物结合位点和扩增衔接子位点)可用于生成具有包括扩增衔接子的3'突出端的片段。如本文所提供的，通过片段化的基于快速Cas-gRNA RNP的富集和简化的衔接子添加的组合为靶向测序应用提供了更快且更容易的完整工作流程。特别地，Cas-gRNA RNP可用于生成至少包括扩增所需衔接子子集的片段，而不需要末端修复、加A尾或连接整组衔接子。

图11A至图11G示意性地示出了使用Cas-gRNA RNP生成片段并将衔接子与该片段偶联的工艺流程中的示例性组合物和操作。首先参见图11A，在操作A中，提供了至少一种gRNA 1100，该至少一种gRNA 1100包括引物结合位点1101、扩增衔接子位点1102和CRISPR前间隔序列1103。在图11A所示的非限制性示例中，扩增衔接子位点1102位于引物1101和CRISPR前间隔序列1103之间。引物结合位点1101可与CRISPR前间隔序列1103的至少一部分大致互补，例如，使得引物结合位点和CRISPR前间隔序列可以诸如本文更详细描述的方式与多核苷酸的互补链杂交。gRNA任选地可包括环1104和/或1105，其可位于扩增衔接子位点1102和CRISPR前间隔序列1103之间。关于包括环和CRISPR前间隔序列的延伸gRNA的进一步细节，参见Anzalone等人，“Search-and-replace genome editing without double-strand breaks or donor DNA”，Nature，第576卷：第149-157页(2019年)，该文献的全部内容以引用方式并入本文。

如图11A的操作B所示，操作A的gRNA的CRISPR前间隔序列1103可被第一Cas-gRNARNP 1150的Cas蛋白1151结合。以诸如图11A的操作B所示的方式，引物结合位点1101和扩增衔接子位点1102可延伸到Cas蛋白之外。Cas蛋白1151可被配置为进行双链多核苷酸切割，例如，可包括Cas9、Cas12a或Cas12f。Cas-gRNA RNP 1150可与多核苷酸P9形成复合物，其中第一CRISPR前间隔序列1103与多核苷酸P9的第一链杂交，并且第一引物结合位点1101与多核苷酸的第二链杂交。第一链和第二链被第一Cas-gRNA RNP在基于第一CRISPR前间隔序列1103的序列的相应位置处切割。这种切割可例如在至少第一CRISPR前间隔序列1103与多核苷酸P9的第一链杂交之后进行。在一些示例中，在这种切割之后，第一引物结合位点1101与多核苷酸P9的第二链杂交。

注意，Cas-gRNA RNP 1150的gRNA 1100包括与可用于本文某些其他示例中的gRNA相比相对长的3'延伸部，并且包括可用于将扩增衔接子附接到第二多核苷酸链的切割的3'末端的引物结合位点1101和衔接子位点1102。更具体地，如图11A的操作C所示，当引物结合位点1101在被Cas1151切割的3'末端附近与第二链的部分1155杂交时，衔接子位点1102位于引物结合位点1101和部分1155之间的双链体的3'端的位置。在操作C中可包括聚合酶(诸如逆转录酶(RT))，该操作使用双链体的部分1155作为引物，基于衔接子位点1102的序列从该引物延伸3'末端。因此，聚合酶可在第二链中由Cas蛋白1151引起的切口处生成衔接子位点1102的扩增子1156，并且该扩增子可用作扩增衔接子。聚合酶(例如，RT)任选地可与Cas蛋白1151偶联，例如以类似于Anzalone等人所述的方式。例如，RT和Cas蛋白1151可以是第一融合蛋白的组分或以其他方式适当地彼此偶联。另选地，可在任何合适的操作期间(例如，在图11A所示的操作B或操作C期间)添加RT。

在操作B中多核苷酸P9的双链切割和在操作C中扩增衔接子1156的生成之后，RT和Cas蛋白1151可从多核苷酸P9解离，例如使用热或任何其他方法(例如，使用试剂诸如蛋白酶K、蛋白酶或SDS)，产生图11A的操作D所示的片段1160。片段1160可包括3'突出端，该3'突出端包括扩增衔接子1156或基本上由其组成。然后可将5'扩增衔接子1157与片段1160的切割的5'末端偶联，与衔接子1156相对。例如，扩增衔接子1157可包括与衔接子1156的对应亚序列互补并因此与之杂交的亚序列1158。杂交的扩增衔接子1157可用DNA连接酶密封到片段1160的切割的5'末端，形成新的5'末端。

虽然图11A详细描述了可在第一区域切割多核苷酸并将扩增衔接子添加到所得切割端的方式，但应当理解，也可在第二区域切割多核苷酸并将扩增衔接子添加到所得切割端。即，该组切口可用于形成适于扩增和测序的片段。该片段可包括靶序列，并且切割和扩增步骤可以类似于本文别处所述的方式富集该靶序列。

例如，如图11B的操作A所示，多核苷酸P9可与如参考图11A所述类似配置的第一Cas-gRNA RNP 1150和包括第二gRNA 1100'的第二Cas-gRNA RNP 1150'接触。第二gRNA1100'可包括第二引物结合位点1101'、第二扩增衔接子位点1102'和第二CRISPR前间隔序列1103'，其与针对向导RNA 1100所述类似配置。以类似于本文别处所述的方式，第一和第二CRISPR前间隔序列1103、1103'可靶向侧接靶序列1110的序列。如图11B所示，第二CRISPR前间隔序列1103'可与第一链(即，与第一CRISPR前间隔序列1103杂交的链相反的链)杂交，并且第二引物结合位点1101'与第二链(即，与引物结合位点1101杂交的链相反的链)杂交。以类似于参考图11A所述的方式，第二Cas蛋白1151'结合第二CRISPR前间隔序列1103'，并且任选地可包括Cas9或可在双链多核苷酸中生成切口的其他合适的Cas蛋白。

以类似于参考图11A所述的方式，多核苷酸P9的第一链和第二链可被第一Cas-gRNA RNP 1150在基于第一CRISPR前间隔序列1103的序列的相应位置处切割，并且也可被第二Cas-gRNA RNP 1150'在基于第二CRISPR前间隔序列1103'的序列的相应位置处切割。如从图11B的操作A可以理解，第一链和第二链中由第二Cas-gRNA RNP形成的切口与第一链和第二链中由第一Cas-gRNA RNP形成的切口间隔至少靶序列1110。在图11B的操作B中，以诸如参考图11A的操作C所述的方式，可提供第一聚合酶(例如，RT)用于在由第一Cas蛋白1151引起的第一链中的切口处产生扩增衔接子位点1102的扩增子，并且可提供第二聚合酶(例如，RT)用于在由第二Cas蛋白引起的第二链中的切口处产生扩增衔接子位点1102'的扩增子。在一些示例中，第二聚合酶(例如，RT)可与第二Cas蛋白偶联；例如，第二聚合酶和第二Cas蛋白1151'任选地可以是第二融合蛋白的组分。

在图11B所示的操作C中，可去除Cas-gRNA RNP 1150、1150'和聚合酶以产生部分双链的多核苷酸片段1170，该多核苷酸片段包括第一末端和第二末端，以及位于第一末端和第二末端之间的靶序列1110。第一末端可包括第一3'突出端1115，其可包括第一扩增衔接子1156(例如，A14'和任选的ME'序列或包括在第一衔接子位点1102中的其他合适序列)。第二末端可包括第二3'突出端1115'，其可包括第二扩增衔接子1156'(例如，A14'和任选的ME'序列或包括在第二衔接子位点中的其他合适序列)。如图11B的操作D所示，然后可将5'扩增衔接子1157与片段1170的切割的5'末端偶联，与衔接子1156相对。例如，扩增衔接子1157可包括与衔接子1156的对应ME'(或其他)序列互补并因此与之杂交的ME(或其他)序列。类似地，扩增衔接子1157'可包括与衔接子1156'的对应ME'(或其他)序列互补并因此与之杂交的ME(或其他)序列。杂交的扩增衔接子1157、1157'可用DNA连接酶密封到片段1160的切割的5'末端，形成新的5'末端。

如图11B的操作E所示，偶联有衔接子1156、1157、1156'、1157'的片段可被扩增(例如，使用PCR)以便添加样本索引(i5和i7及其互补物)和测序衔接子(例如，P5和P7衔接子及其互补物)。在扩增期间，每个片段产生双向扩增子以用于双向测序读取，因为靶向区域的“顶部”和“底部”链由于叉形衔接子结构的连接而产生不同的取向。这意味着两个测序读取可从靶序列1110的任一端进行，从而提供额外的覆盖。扩增还添加了额外的聚类序列(例如，P5、P7)和样本索引序列(例如，i5、i7)以用于多重测序。图11B所示的衔接子序列(例如，A14、B15、ME)是可用于Illumina测序的示例，但可根据需要转换为任何其他合适的序列。然后可对所得的偶联有扩增和测序衔接子的富集片段进行测序以鉴定靶序列1110。

尽管单个多核苷酸P9和对应的第一Cas-gRNA RNP 1150和第二Cas-gRNA RNP1150'如图11A至图11B所示，但应当理解，这种方法可容易地以诸如本文别处提供的方式进行扩展，例如，通过使多个不同的多核苷酸与具有相应的向导RNA序列(特别是CRISPR前间隔序列)的第一和第二多个Cas-gRNA RNP接触，相应的向导RNA序列特异性地杂交到侧接具有这些多核苷酸的靶序列的多核苷酸的所选多核苷酸中的第一或第二序列。

应当理解，图11B示出了用于将扩增衔接子添加到被富集片段的两个末端的工艺流程的非限制性示例，并且可适当地使用其他工艺流程。图11C示出了包括操作A的实施例，其中Cas-gRNA RNP 1150用于以诸如参考图11A的操作A和B以及图11B的操作A所述的方式在多核苷酸P10中生成切口。在图11C的操作B中，使用聚合酶(例如，RT)以诸如参考图11A的操作C和图11B的操作B所述的方式，使用与gRNA 1100的引物结合位点1101杂交的链的部分作为引物，并且使用衔接子位点1102作为模板以生成与被切割的3'末端偶联并具有与衔接子位点1102互补的序列的扩增子，来延伸被Cas-gRNA RNP 1150切割的3'末端。在图11C的操作C中，去除Cas-gRNA RNP和聚合酶，从而以诸如参考图11A的操作D和图11B的操作C所述的方式暴露3'衔接子(例如，A14'和ME'序列)。

在图11C的操作D中，多核苷酸可与包括5'衔接子的转座体(例如，Tn5或Tn7)接触，并且转座体可切割多核苷酸并且将衔接子以诸如本文别处所述的方式添加到其切割的5'末端。注意，在该示例中，转座体活性可以是非特异性的，因此可在随机位置将多核苷酸标签化。此操作可与操作A至C中的任一者同时、在其之前或之后执行。然后可如图11C的操作E所示去除转座体，并且所得片段可包括第一链和第二链，第一链包括5'和3'衔接子(例如，B15和A14')，第二链缺乏扩增衔接子的，尽管该链可包括在标签化期间由转座体添加的ME'序列。如图11C的操作F所示，片段然后可被扩增(例如，使用PCR)以便添加样本索引(i5和i7及其互补物)和测序衔接子(例如，P5和P7衔接子及其互补物)。在扩增期间，包括A14和B15的片段呈指数扩增。然后可对所得的偶联有扩增和测序衔接子的富集片段进行测序以鉴定靶序列1110。

图11D示出了也包括操作A、B和C的替代实施例，这些操作可参考图11C所述的方式进行。在图11D的操作D中，多核苷酸可与Cas-gRNA RNP/转座酶融合蛋白接触，诸如参考图4A至图4J或图6A至图6B所述。可使Cas-gRNA RNP失活(例如，可包括dCas9或Cas12k)，以便与多核苷酸中的特定序列杂交，但不切割多核苷酸。响应于与多核苷酸杂交的融合蛋白的Cas-gRNA RNP，融合蛋白的转座酶可将多核苷酸标签化以包括5'扩增衔接子。流体和/或生化条件可任选地以诸如本文别处所述的方式进行控制，以便抑制转座酶的活性，直到Cas-gRNA RNP与多核苷酸杂交之后。注意，在该示例中，尽管转座体活性可以是非特异性的，但是Cas-gRNA RNP是序列特异性的，因此可在被选择为在操作B期间在该切口的另一侧上侧接靶序列的位置处将多核苷酸标签化。该操作可与图11D的操作A至C中的任一者同时、在其之前或之后执行。然后可如图11D的操作E所示去除转座体，并且所得片段可包括第一链和第二链，第一链包括5'和3'衔接子(例如，B15和A14')，第二链缺乏扩增衔接子的，尽管该链可包括在标签化期间由转座体添加的ME'序列。如图11D的操作F所示，片段然后可被扩增(例如，使用PCR)以便添加样本索引(i5和i7及其互补物)和测序衔接子(例如，P5和P7衔接子及其互补物)。在扩增期间，包括A14和B15的片段呈指数扩增。然后可对所得的偶联有扩增和测序衔接子的富集片段进行测序以鉴定靶序列1110。

图11E和图11F分别示出了可使用图11C和图11D的工艺流程生成的片段。如图11C所示，可在沿多核苷酸长度的随机位置处进行非特异性标签化，产生一系列片段大小和不包括靶序列1110的片段子集。相比之下，如图11D所示，使用Cas-gRNA RNP/转座酶融合蛋白进行的特异性标签化可产生包括靶序列1110的基本上均匀大小的片段。

根据前述内容，应当理解多种不同的技术可用于生成具有适合以简化方式用于扩增和测序的衔接子的片段。方法11000示出了方法中的步骤流程。该方法可包括使Cas-gRNARNP与包括第一链和第二链的多核苷酸接触(操作11001)。Cas-gRNA可包括含有引物、扩增衔接子位点和CRISPR前间隔序列的向导RNA。Cas-gRNA还可包括结合CRISPR前间隔序列的Cas蛋白。方法11000还可包括使CRISPR前间隔序列与第一链杂交(操作11002)。方法11000还可包括使引物与第二链杂交(操作11003)。参考图11A至图11D提供了gRNA、Cas蛋白、这种Cas-gRNA RNP与多核苷酸的接触以及某些gRNA组分与多核苷酸的选定区域的杂交的非限制性示例。

任选地，方法11000可包括通过Cas-gRNA RNP在基于CRISPR前间隔序列的序列的相应位置切割第一链和第二链，例如以诸如参考图11A至图11D所述的方式。任选地，方法11000还可包括使用第一逆转录酶在第二链中由第一Cas蛋白引起的切口处生成扩增衔接子位点的扩增子，例如以诸如参考图11A至图11D所述的方式。

任选地，方法11000可包括使多核苷酸与第二Cas-gRNA RNP接触。第二Cas-gRNARNP可包括第二向导RNA，该第二向导RNA包括第二引物、第二扩增衔接子位点和第二CRISPR前间隔序列；和结合第二CRISPR前间隔序列的第二Cas蛋白。方法11000可包括使第二CRISPR前间隔序列与第一链杂交；以及使第二引物与第二链杂交。第二Cas-gRNA RNP任选地可基于第二CRISPR前间隔序列的序列在相应位置处切割第一链和第二链。第一链和第二链中由第二Cas-gRNA RNP形成的切口可与第一链和第二链中由第一Cas-gRNA RNP形成的切口间隔开至少一个靶序列。第二逆转录酶可用于在由第二Cas蛋白引起的第二链中的切口处生成扩增衔接子位点的扩增子。第一Cas-gRNA RNP和第二Cas-gRNA RNP以及第一逆转录酶和第二逆转录酶可生成具有第一末端和第二末端的部分双链的多核苷酸片段，该第一末端包括第一3'突出端；该第二末端包括第二3'突出端；以及位于第一末端和第二末端之间的靶序列，例如以诸如参考图11B所述的方式。第一3'突出端可包括第一扩增衔接子位点的扩增子，并且第二3'突出端可包括第二扩增衔接子位点的扩增子。方法11000还可包括将第三扩增衔接子连接到第一末端处的5'基团；将第四扩增衔接子连接到第二末端处的5'基团；使用第一扩增衔接子、第二扩增衔接子、第三扩增衔接子和第四扩增衔接子扩增片段；以及对扩增的片段进行测序，例如以诸如参考图11B所述的方式。

另外的讨论

应当理解，本文提供的工艺流程的任何合适的方面可以彼此任何合适的组合来执行。例如，参考图1K描述的方法1000的任何合适的操作、参考图2J描述的方法2000的任何合适的操作、参考图2K描述的方法2010的任何合适的操作、参考图3E描述的方法3000的任何合适的操作、参考图4J描述的方法4000的任何合适的操作、参考图5K描述的方法5000的任何合适的操作、参考图6A至图6B描述的任何合适的操作、参考图7A至图7G描述的任何合适的操作、参考图8H描述的方法8000的任何合适的操作、参考图9F描述的方法9000的任何合适的操作、参考图10C描述的方法10000的任何合适的操作和/或参考图11G描述的方法11000的任何合适的操作。作为一个纯粹说明性的示例，方法1000可用于从样本中基本上去除一个物种的遗传物质，来自方法2000、2010、3000、4000、8000、9000、10000或11000的操作可用于制备用于测序的剩余多核苷酸，并且来自方法5000的操作可用于对那些多核苷酸进行表观遗传测定。作为另一个纯粹说明性的示例，方法1000可用于从样本中基本上去除一个物种的遗传物质，并且来自方法5000的操作可用于对剩余的多核苷酸进行表观遗传测定。作为又一个纯粹说明性的示例，来自方法2000、2010、3000、4000、8000、9000、10000和/或11000的操作可用于制备用于测序的多核苷酸，并且来自方法5000的操作可用于对那些多核苷酸进行表观遗传测定。表观遗传测定的结果可与多核苷酸的序列进行比较。

因此，可以理解的是，本公开提供了用于基因座靶向的表观遗传鉴定的方法，方法可包括提供包含多核苷酸的组合物，该多核苷酸具有与其结合的表观遗传蛋白；使该多核苷酸与第一Cas-gRNA RNP和第二Cas-gRNA RNP杂交，并切割该多核苷酸以提供其间的杂交多核苷酸的片段，该第一Cas-gRNA RNP和第二Cas-gRNA RNP分别与该多核苷酸的不同的第一靶区域和第二靶区域特异性杂交，其中该第一和/或第二RNP具有与之结合的标记物；以及用与该标记物结合的捕获元件纯化该杂交的多核苷酸片段和RNP，从而富集组合物中具有与多核苷酸相关的表观遗传蛋白的多核苷酸。

在一些示例中，本公开还提供了从多核苷酸中去除RNP。在一些示例中，本公开还提供了测定多核苷酸和相关的表观遗传蛋白。在一些示例中，本公开提供了用基因座靶向的高多重蛋白质组寡联抗体测定、和/或基因座靶向的ATAC测序测定、和/或ChIP测序测定来测定多核苷酸和相关的表观遗传蛋白。在一些示例中，本公开提供了表观遗传蛋白的基因座特异性指示。

在一些示例中，本公开提供了多于一种表观遗传蛋白的基因座特异性鉴定。在一些示例中，本公开提供了杂交多核苷酸、多于一对的Cas-gRNA RNP和第二Cas-gRNA RNP分别与该多核苷酸的不同的第一靶区域和第二靶区域特异性杂交，并切割该多核苷酸以提供其间杂交的多核苷酸的多个片段。在一些示例中，每对Cas-gRNA RNP的第一和/或第二RNP具有与之结合的标记物，用于用与标记物结合的捕获元件纯化杂交的多核苷酸片段和RNP，从而富集组合物中具有与多核苷酸相关的表观遗传蛋白的多核苷酸。

在一些示例中，本公开提供了同一染色体上多于一种表观遗传蛋白的基因座特异性鉴定。在一些示例中，本公开提供了使Cas-gRNA RNP对同一基因组但在不同染色体上的多核苷酸杂交。在一些示例中，本公开提供了基因组中多于一种表观遗传蛋白的基因座特异性指示。

在一些示例中，本公开提供了用基因座靶向的高多重蛋白质组寡联抗体测定来测定多核苷酸和相关的表观遗传蛋白，包括使多核苷酸和相关的表观遗传蛋白与用对应于表观遗传蛋白的寡核苷酸标记物标记的抗表观遗传蛋白抗体接触。

在一些示例中，本公开提供了用基因座靶向的ATAC序列测定来测定多核苷酸和相关的表观遗传蛋白，例如，如参考图5I至图5J所述。

由于测定简单且对染色质可及性进行广泛的全基因组评估，先前已知的ATAC测序能够进行基于NGS的表观遗传研究。然而，先前的ATAC测序不能直接鉴定在每个DNA位点处结合的蛋白，也不能深入解析对于研究和临床标记(例如，液体活检)重要的结合位点和表观遗传变化。先前已知的ChIP测序方法使用涉及由与感兴趣蛋白结合的抗体引导的Tn5-蛋白A标签化的方法直接解析特定蛋白的DNA结合位点。关于先前已知的表观遗传测定的进一步细节，参见例如以下参考文献，其中这些文献中的每一篇的全部内容以引用方式并入本文：Kaya-Okur等人，“CUT&Tag for efficient epigenomic profiling of small samplesand single cells”，Nat Comm，第10卷，1930，第1-10页(2019年)；Wang等人，“CoBATCH forhigh-throughput single-cell epigenomic profiling”，Mol Cell，第76卷第1期：第206-216页.e7(2019年)；Ai等人，“Profiling chromatin states using single cell itCHIP-seq”，Nat Cell Biol，第21卷：第1164-1172页(2019年)；Carter等人，“Mapping histonemodifications in low cell number and single cells using antibody-guidedchromatin tagmentation(ACT-seq)”，Nat Comm，第10卷：第3747页，1-5(2019年)。

在一些示例中，本公开提供了用外源独特分子标识符(UMI)增强多核苷酸片段，例如，诸如参考图3A至图3E所述。在一些示例中，本公开提供了用外源UMI生成靶向测序文库。在一些示例中，通过靶向具有重叠DNA结合足迹的多个Cas核酸酶以在片段末端产生多样性，在多核苷酸片段的末端产生UMI，例如，诸如参考图4A至图4J所述；就这一点而言，不同的片段末端本身可被认为提供UMI，与可偶联至片段末端的单独UMI序列相区别。应当理解，不同的片段末端可与任何合适的测序或测定技术结合使用，诸如Cas9介导的负富集、CRISPR-DS或其他基于双Cas9的CRISPR靶向LP方法。

在一些示例中，本公开提供了Cas9介导的负富集方法，其中从基因组DNA起始材料开始，Cas-gRNA RNP结合、切割并保护多核苷酸区域免受核酸外切酶(III、VII)影响。另选地，dCas9可用于阻断核酸外切酶活性，允许更灵活的序列靶向，其中允许任何dCas9取向，因为它不会将靶向区域暴露于核酸外切酶活性。诸如参考图4A至图4J所述的Cas核酸酶足迹重叠可确保仅一个Cas核酸酶可作用于每个片段末端。在一些示例中，本公开提供了使用非随机UMI Y衔接子的基于标准连接的LP(ER、A尾、lig)。在一些示例中，本公开提供了使用能够实现无靶向PCR的全长衔接子。在一些示例中，该方法也可在没有UMI的情况下使用，依赖于非随机的独特片段末端来解析分子。该方法包括更多的Cas9交错切割，以实现大多数测定应用的适当片段末端复杂性。在一些示例中，本公开提供了使用片段末端坐标和UMI的组合来唯一地鉴定分子。

在一些示例中，本公开提供了Cas-gRNA RNP介导的DNA去宿主，其使用CRISPR/Cas切割宿主重复元件，然后使用核酸外切酶降解它们，例如以诸如参考图1A至图1J所述的方式。在一些示例中，本公开提供了利用Cas-gRNA RNP的可编程核酸酶活性来靶向重复元件，这些重复元件通常构成基因组多核苷酸的>50％并且分布在整个人类基因组中。在一些示例中，本公开提供了使用一组Cas-gRNA RNP(例如，10个至1,000,000个Cas-gRNA RNP)来特异性切割每条人类染色体超过一次。在一些示例中，本公开提供了用于选择性降解宿主DNA片段同时保留未切割的非宿主/微生物DNA片段的方法。

在诸如参考图1A至图1K描述的一些示例中，本公开提供了用于Cas-gRNA RNP DNA去宿主的方法，该方法包括：(a)修饰样本混合物中的DNA以保护末端免受核酸外切酶处理；(b)用靶向宿主(例如，人)重复元件的Cas-gRNA RNP切割多核苷酸，暴露未受保护的宿主DNA片段末端；以及(c)应用一种或多种核酸外切酶以选择性降解具有未保护的DNA末端的宿主DNA。在一些示例中，在操作(a)中，为了抑制核酸外切酶介导的线性非宿主DNA的降解，在Cas-gRNA RNP之前用一种或多种以下方法预处理DNA样本。在一些示例中，本公开提供了通过将核酸外切酶保护性DNA衔接子连接到DNA分子的末端上来抑制核酸外切酶介导的线性非宿主DNA的降解，诸如用发夹衔接子或包括抗核酸外切酶活性的碱基修饰的DNA衔接子(例如，硫代磷酸酯键或3'磷酸酯提供针对许多核酸外切酶活性的保护，包括ExoIII)。在一些示例中，本公开提供了通过使DNA片段5'末端去磷酸化以保护免受λ核酸外切酶活性的影响来抑制核酸外切酶介导的线性非宿主DNA的降解，λ核酸外切酶仅用5'磷酸酯作用于dsDNA上的5'→3'。在该示例中，宿主DNA位点处的Cas-gRNA RNP切割将暴露5'磷酸酯，λ核酸外切酶切割的基底。在一些示例中，本公开提供了通过用末端转移酶3'添加核酸外切酶保护修饰的核苷酸来保护核苷酸，从而抑制核酸外切酶介导的线性非宿主DNA的降解。在一些示例中，使用Taq DNA聚合酶将非模板化核苷酸添加到掺入了硫代磷酸酯连接核苷酸的dsDNA中。

在一些示例中，本公开提供了均匀片段化基因组DNA的方法，诸如用于随后的基因座靶向的表观遗传鉴定，包括使用Cas-gRNA RNP核酸酶在精确位置切割DNA，控制DNA片段化的长度和均匀性，例如，诸如参考图2A至图2K所述。该方法可包括使用双重测序(DS)来解析独特的分子，并且在此可用于全基因组DNA分析。当应用于宏基因组/混合样本时，双sgRNA库可用于宿主DNA耗尽。例如，可使用具有生物素化的/标签化的Cas9的LegacyRiboZero型下拉装载sgRNA库，或文库制备后宿主文库分子的低输入相容的“DASH”型耗尽Cas9切割，诸如Crawford等人，“Depletion of abundant sequences by hybridization(DASH):using Cas9to remove unwanted high-abundance species in sequencinglibraries and molecular counting applications”，Genome Biology，第17卷：41，第1-13页(2016年)所述，该文献的全部内容以引用方式并入本文。

参考图2A至图2K描述了通过文库制备后宿主文库分子的Cas-gRNA RNP切割进行大小受控的全基因组片段化的示例性方法。基于多重Cas-gRNA RNP消化的靶向基因组片段化方法产生相似长度的DNA片段。这些片段可通过简单的大小选择来富集，从而实现靶向富集。另外，同源长度片段可显著降低PCR扩增偏差，并且可增强读取可用性。本公开提供了具有双重测序的靶标富集，使用双链分子标签化来校正测序错误。CRISPR-DS技术实现了小基因组区域的有效靶标富集、均匀覆盖、超精确测序和减少的DNA输入。在一些示例中，本公开提供了与通过将多个Cas-gRNA RNP靶向至靶向区域来生成DNA片段末端多样性的UMI方法相结合，这种CRISPR-DS靶向方法可用于增加具有给定数目的UMI的可解析文库复杂性，并且增加单个Cas切割位点的测序覆盖率。

已知Cas-gRNA RNP切割主要产生平末端，但也产生小突出端。在文库制备的末端修复操作期间的核酸外切酶活性可能导致切割位点处/附近的序列信息丢失。在一些示例中，用多个向导RNA使靶标处的切割位点交错可减少局部覆盖率损失，例如以诸如参考图3A至图3E所述的方式。注意，由于Cas-gRNA RNP靶向的高序列特异性，可有把握地推断切割位点处或其附近的碱基的同一性。

在一些示例中，本文提供的方法包括在靶多核苷酸和转座子末端组合物经历转座反应以生成混合物的条件下，将至少一种转座酶和至少一种包含寡核苷酸的转座子末端组合物应用于包含靶多核苷酸的样本，其中靶多核苷酸被片段化以生成多个靶多核苷酸片段，并因此将寡核苷酸序列掺入多个靶多核苷酸片段的每个靶多核苷酸片段中。

另外的注释

除非另有说明，本公开的实践可采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术，这些技术在本领域的技术范围内。此类技术在文献中有充分解释，诸如Molecular Cloning:A Laboratory Manual，第2版(Sambrook等人，1989年)；Oligonucleotide Synthesis(M.J.Gait编辑，1984年)；Animal Cell Culture(R.I.Freshney编辑，1987年)；Methods in Enzymology(Academic Press,Inc.)；CurrentProtocols in Molecular Biology(F.M.Ausubel等人编辑，1987年并定期更新)；PCR:ThePolymerase Chain Reaction(Mullis等人编辑，1994年)；Remington，The Science andPractice of Pharmacy，第20版(Lippincott，Williams&Wilkins，2003年)以及Remington，The Science and Practice of Pharmacy，第22版(Pharmaceutical Press andPhiladelphia College of Pharmacy at University of the Sciences，2012年)。

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同每篇单独的出版物、专利或专利申请被具体且单独地指明通过引用并入本文。

虽然上文描述了各种说明性示例，但本领域的技术人员将显而易见，可在不脱离本发明的情况下在其中作出各种改变和修改。所附权利要求书打算涵盖落入本发明的真正实质和范围内所有此类改变和修改。

序列表

<110> 伊鲁米那股份有限公司（ILLUMINA, INC.）

伊卢米纳剑桥有限公司（ILLUMINA CAMBRIDGE LIMITED）

<120> 使用CAS-gRNA核糖核蛋白的基因组文库制备

和靶向表观遗传测定

<130> IP-2061-PCT

<150> US 63/158,492

<151> 2021-03-09

<150> US 63/162,775

<151> 2021-03-18

<150> US 63/163,381

<151> 2021-03-19

<150> US 63/228,344

<151> 2021-08-02

<150> US 63/246,879

<151> 2021-09-22

<150> US 63/295,432

<151> 2021-12-30

<160> 4

<170> PatentIn 3.5版

<210> 1

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

aatgatacgg cgaccaccga gauctacac 29

<210> 2

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> 尚未归类的特征

<222> (23)..(23)

<223> n = G或8-氧代鸟嘌呤

<400> 2

caagcagaag acggcatacg agnat 25

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

aatgatacgg cgaccaccga 20

<210> 4

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 4

caagcagaag acggcatacg a 21

Claims

1.一种处理来自第一物种的第一双链多核苷酸和来自第二物种的第二双链多核苷酸的混合物的方法，所述方法包括：

保护所述第一双链多核苷酸的末端和所述第二双链多核苷酸的任何末端；

在保护所述第一双链多核苷酸和所述第二双链多核苷酸的所述末端之后，选择性地生成所述第一双链多核苷酸内的游离末端；以及

从所述游离末端向所述受保护末端降解所述第一双链多核苷酸。

2.根据权利要求1所述的方法，其中在所述第一双链多核苷酸内选择性生成所述游离末端包括使CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与存在于所述第一双链多核苷酸内但不存在于所述第二双链多核苷酸内的序列杂交，以及用所述Cas-gRNA RNP切割所述序列。

3.根据权利要求2所述的方法，其中所述序列包含哺乳动物特异性重复元件。

4.根据权利要求3所述的方法，其中所述哺乳动物特异性重复元件包括人特异性重复元件。

5.根据权利要求1所述的方法，其中所述第一双链核苷酸包含来自所述第一物种的多个染色体。

6.根据权利要求1至5中任一项所述的方法，其中所述第二物种是细菌、真菌或病毒。

7.根据权利要求1至6中任一项所述的方法，其中保护所述第一双链多核苷酸和所述第二双链多核苷酸的末端包括将发夹衔接子连接到所述末端。

8.根据权利要求1至6中任一项所述的方法，其中保护所述第一双链多核苷酸和所述第二双链多核苷酸的末端包括将所述末端5'-去磷酸化。

9.根据权利要求1至6中任一项所述的方法，其中保护所述第一双链多核苷酸和所述第二双链多核苷酸的末端包括将经修饰的碱基添加到所述末端。

10.根据权利要求9所述的方法，其中所述经修饰的碱基包括硫代磷酸酯键。

11.根据权利要求9或权利要求10所述的方法，其中使用末端转移酶来添加所述经修饰的碱基。

12.根据权利要求1至11中任一项所述的方法，其中使用核酸外切酶进行所述第一双链多核苷酸的降解。

13.根据权利要求1至12中任一项所述的方法，其中所述游离末端包括3'末端。

14.根据权利要求13所述的方法，其中使用核酸外切酶III进行所述第一双链多核苷酸的降解。

15.根据权利要求1至12中任一项所述的方法，其中所述游离末端包括5'末端。

16.根据权利要求15所述的方法，其中使用λ核酸外切酶进行所述第一双链多核苷酸的降解。

17.根据权利要求1至16中任一项所述的方法，还包括随后将扩增衔接子连接到所述混合物中任何剩余的双链多核苷酸的所述末端。

18.根据权利要求17所述的方法，其中所述扩增衔接子包括独特分子标识符(UMI)。

19.根据权利要求17或权利要求18所述的方法，还包括随后扩增所述双链多核苷酸以及对所述双链多核苷酸进行测序。

20.根据权利要求1至19中任一项所述的方法，其中所述第一双链多核苷酸包括双链DNA。

21.根据权利要求1至20中任一项所述的方法，其中所述第二双链多核苷酸包括双链DNA。

22.根据权利要求1至21中任一项所述的方法，其中所述第二双链多核苷酸包括环状DNA。

23.根据权利要求1至22中任一项所述的方法，其中所述Cas包括Cas9。

24.一种组合物，所述组合物包含：

来自第一物种的第一双链多核苷酸，其中所述第一双链多核苷酸的末端被保护；

来自第二物种的第二双链多核苷酸，其中所述第二双链多核苷酸的任何末端被保护；和

与存在于所述第一双链多核苷酸内但不存在于所述第二双链多核苷酸内的序列杂交的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，所述Cas-gRNA RNP用于切割所述序列以便在所述第一双链多核苷酸内选择性地生成游离末端。

25.根据权利要求24所述的组合物，其中所述序列包含哺乳动物特异性重复元件。

26.根据权利要求25所述的组合物，其中所述哺乳动物特异性重复元件包括人重复元件。

27.根据权利要求24至26中任一项所述的组合物，其中所述第二物种是细菌、真菌或病毒。

28.根据权利要求24至27中任一项所述的组合物，其中使用发夹衔接子保护所述第一双链多核苷酸和所述第二双链多核苷酸的所述末端。

29.根据权利要求24至28中任一项所述的组合物，其中使用5'-去磷酸化保护所述第一双链多核苷酸和所述第二双链多核苷酸的所述末端。

30.根据权利要求24至29中任一项所述的组合物，其中使用经修饰的碱基保护所述第一双链多核苷酸和所述第二双链多核苷酸的所述末端。

31.根据权利要求30所述的组合物，其中所述经修饰的碱基包括硫代磷酸酯键。

32.根据权利要求24至31中任一项所述的组合物，其中所述游离末端包括3'末端。

33.根据权利要求24至31中任一项所述的组合物，其中所述游离末端包括5'末端。

34.根据权利要求24至33中任一项所述的组合物，其中所述第一双链多核苷酸包括双链DNA。

35.根据权利要求24至34中任一项所述的组合物，其中所述第二双链多核苷酸包括双链DNA。

36.根据权利要求24至35中任一项所述的组合物，其中所述第二双链多核苷酸包括环状DNA。

37.根据权利要求24至36中任一项所述的组合物，其中所述Cas包括Cas9。

38.一种处理来自第一物种的第一双链多核苷酸和来自第二物种的第二双链多核苷酸的混合物的方法，所述方法包括：

选择性地使所述混合物中的所述第一双链多核苷酸成为单链；

随后将扩增引物选择性地连接到所述混合物中任何剩余的双链多核苷酸；以及

随后扩增所述混合物中连接到扩增引物的任何双链多核苷酸。

39.一种组合物，所述组合物包含：

来自第一物种的基本上仅单链多核苷酸；

来自第二物种的基本上仅双链多核苷酸；和

连接到所述第二双链多核苷酸的末端且基本上不连接到所述第一双链多核苷酸的任何末端的扩增引物。

40.一种生成全基因组(WG)的片段的方法，所述方法包括：

在所述WG的第一样本内：

使第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)与所述WG中的第一序列杂交，所述第一序列彼此间隔开大约第一数目的碱基对；

使第二组Cas-gRNA RNP与所述WG中的第二序列杂交，所述第二序列彼此间隔开大约第二数目的碱基对；以及

分别用所述第一样本中的所述第一组Cas-gRNA RNP和所述第二组Cas-gRNA RNP切割所述第一序列和所述第二序列，以生成各自具有彼此大约相同数目的碱基对的第一组WG片段。

41.根据权利要求40所述的方法，其中碱基对的所述第一数目与碱基对的所述第二数目大致相同。

42.根据权利要求40或权利要求41所述的方法，其中碱基对的所述第一数目为约100个至约2000个，并且其中碱基对的所述第二数目为约100个至约2000个。

43.根据权利要求42所述的方法，其中碱基对的所述第一数目为约500个至约700个，并且其中碱基对的所述第二数目为约500个至约700个。

44.根据权利要求40至43中任一项所述的方法，其中所述第一组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

45.根据权利要求40至44中任一项所述的方法，还包括：

在所述WG的第二样本内：

使所述第一组Cas-gRNA RNP与所述WG中的所述第一序列杂交；

使所述第二组Cas-gRNA RNP与所述WG中的所述第二序列杂交；

使第三组Cas-gRNA RNP与所述WG中的第三序列杂交，

所述第三序列彼此间隔开大约第三数目的碱基对；以及

分别用所述第一组Cas-gRNA RNP、所述第二组Cas-gRNARNP和所述第三组Cas-gRNARNP切割所述第一序列、所述第二序列和所述第三序列，以生成各自具有彼此大约相同数目的碱基对的第二组WG片段。

46.根据权利要求45所述的方法，其中碱基对的所述第三数目不同于碱基对的所述第一数目。

47.根据权利要求45或权利要求46所述的方法，其中碱基对的所述第三数目不同于碱基对的所述第二数目。

48.根据权利要求45至47中任一项所述的方法，其中碱基对的所述第三数目为约100个至约2000个。

49.根据权利要求48所述的方法，其中碱基对的所述第三数目为约200个至约400个。

50.根据权利要求45至49中任一项所述的方法，其中所述第二组WG片段中的所述WG片段中碱基对的所述近似数目不同于所述第一组WG片段中的所述WG片段中碱基对的所述近似数目。

51.根据权利要求45至50中任一项所述的方法，其中所述第二组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

52.根据权利要求45至51中任一项所述的方法，还包括：

在所述WG的第三样本内：

使所述第一组Cas-gRNA RNP、所述第二组Cas-gRNARNP或所述第三组Cas-gRNA RNP分别与所述WG中的所述第一序列、所述第二序列或所述第三序列杂交；以及

分别用所述第一组Cas-gRNA RNP、所述第二组Cas-gRNARNP或所述第三组Cas-gRNARNP切割所述第一序列、所述第二序列或所述第三序列，以生成各自具有彼此大约相同数目的碱基对的第三组WG片段。

53.根据权利要求52所述的方法，其中所述第三组WG片段中的所述WG片段中碱基对的所述近似数目不同于所述第一组WG片段中的所述WG片段中碱基对的所述近似数目。

54.根据权利要求52或权利要求53所述的方法，其中所述第三组WG片段中的所述WG片段中碱基对的所述近似数目不同于所述第二组WG片段中的所述WG片段中碱基对的所述近似数目。

55.根据权利要求52至54中任一项所述的方法，其中所述第三组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

56.根据权利要求52至55中任一项所述的方法，还包括：

将扩增衔接子连接到所述第三组WG片段中的所述WG片段的末端；

生成连接有所述扩增衔接子的所述第三组WG片段中的所述WG片段的扩增子；以及

对所述第三组WG片段中的所述WG片段的所述扩增子进行测序。

57.根据权利要求56所述的方法，其中将所述第二组WG片段和所述第三组WG片段中的所述WG片段的扩增子混合在一起进行所述测序。

58.根据权利要求56或权利要求57所述的方法，其中将所述第一组WG片段和所述第三组WG片段中的所述WG片段的扩增子混合在一起进行所述扩增和测序。

59.根据权利要求52至58中任一项所述的方法，其中所述第三组WG片段中的所述WG片段中碱基对的所述数目为约100个至约1000个。

60.根据权利要求52至59中任一项所述的方法，其中所述第三组WG片段中的所述WG片段中碱基对的所述数目为约500个至约700个。

61.根据权利要求52至60中任一项所述的方法，其中所述第三组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

62.根据权利要求45至61中任一项所述的方法，还包括：

将扩增衔接子连接到所述第二组WG片段中的所述WG片段的末端；

生成连接有所述扩增衔接子的所述第二组WG片段中的所述WG片段的扩增子；以及

对所述第二组WG片段中的所述WG片段的所述扩增子进行测序。

63.根据权利要求62所述的方法，其中将所述第一组WG片段和所述第二组WG片段中的所述WG片段的扩增子混合在一起进行所述扩增和测序。

64.根据权利要求45至63中任一项所述的方法，其中所述第二组WG片段中的所述WG片段中碱基对的所述数目为约100个至约1000个。

65.根据权利要求40至64中任一项所述的方法，其中所述第二组WG片段中的所述WG片段中碱基对的所述数目为约100个至约200个。

66.根据权利要求40至65中任一项所述的方法，还包括：

将扩增衔接子连接到所述第一组WG片段中的所述WG片段的末端；

生成连接有所述扩增衔接子的所述第一组WG片段中的所述WG片段的扩增子；以及

对所述第一组WG片段中的所述WG片段的所述扩增子进行测序。

67.根据权利要求40至66中任一项所述的方法，其中所述扩增衔接子包括独特分子标识符(UMI)。

68.根据权利要求40至67中任一项所述的方法，其中所述第一组WG片段中的所述WG片段中碱基对的所述数目为约100个至约1000个。

69.根据权利要求40至68中任一项所述的方法，其中所述第一组WG片段中的所述WG片段中碱基对的所述数目为约200个至约400个。

70.根据权利要求40至69中任一项所述的方法，其中所述第一组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

71.根据权利要求40至70中任一项所述的方法，其中所述第二组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

72.根据权利要求40至71中任一项所述的方法，其中所述WG包括双链DNA。

73.根据权利要求40至72中任一项所述的方法，其中所述Cas包括Cas9。

74.一种组合物，所述组合物包含：

全基因组(WG)的样本；

与所述WG中的第一序列杂交的第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)，所述第一序列彼此间隔开大约第一数目的碱基对；和

与所述WG中的第二序列杂交的第二组Cas-gRNA RNP，所述第二序列彼此间隔开大约第二数目的碱基对，

所述第一组Cas-gRNA RNP和所述第二组Cas-gRNA RNP分别用于切割所述样本内的所述第一序列和所述第二序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

75.根据权利要求74所述的组合物，其中碱基对的所述第一数目与碱基对的所述第二数目大致相同。

76.根据权利要求74或权利要求75所述的组合物，其中碱基对的所述第一数目为约100个至约2000个，并且其中碱基对的所述第二数目为约100个至约2000个。

77.根据权利要求76所述的组合物，其中碱基对的所述第一数目为约500个至约700个，并且其中碱基对的所述第二数目为约500个至约700个。

78.根据权利要求74至77中任一项所述的组合物，其中所述WG片段中碱基对的所述数目变化小于约20％。

79.根据权利要求74至78中任一项所述的组合物，其中所述WG片段中碱基对的所述数目为约100个碱基对至约1000个碱基对。

80.根据权利要求74至79中任一项所述的组合物，其中所述WG片段中碱基对的所述数目为约200个碱基对至约400个碱基对。

81.根据权利要求74至80中任一项所述的组合物，其中所述第一组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

82.根据权利要求74至81中任一项所述的组合物，其中所述第二组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

83.根据权利要求74至82中任一项所述的组合物，其中所述WG包括双链DNA。

84.根据权利要求74至83中任一项所述的组合物，其中所述Cas包括Cas9。

85.一种组合物，所述组合物包含：

全基因组(WG)的样本；

与所述WG中的第一序列杂交的第一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)，所述第一序列彼此间隔开大约第一数目的碱基对；

与所述WG中的第二序列杂交的第二组Cas-gRNA RNP，所述第二序列彼此间隔开大约第二数目的碱基对；和

与所述WG中的第三序列杂交的第三组Cas-gRNA RNP，所述第三序列彼此间隔开大约第三数目的碱基对，

所述第一组Cas-gRNA RNP、所述第二组Cas-gRNA RNP和所述第三组Cas-gRNA RNP分别用于切割所述样本内的所述第一序列、所述第二序列和所述第三序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

86.根据权利要求85所述的组合物，其中碱基对的所述第一数目与碱基对的所述第二数目大致相同。

87.根据权利要求85或权利要求86所述的组合物，其中碱基对的所述第一数目为约100个至约2000个，其中碱基对的所述第二数目为约100个至约2000个，并且其中碱基对的所述第三数目为约100个至约2000个。

88.根据权利要求87所述的组合物，其中碱基对的所述第一数目为约500个至约700个，其中碱基对的所述第二数目为约500个至约700个，并且其中碱基对的所述第三数目为约200个至约400个。

89.根据权利要求85至88中任一项所述的组合物，其中碱基对的所述第三数目不同于碱基对的所述第一数目。

90.根据权利要求85至89中任一项所述的组合物，其中碱基对的所述第三数目不同于碱基对的所述第二数目。

91.根据权利要求85至90中任一项所述的组合物，其中所述WG片段中碱基对的所述数目变化小于约20％。

92.根据权利要求85至91中任一项所述的组合物，其中所述WG片段中碱基对的所述数目为约100个至约1000个。

93.根据权利要求92所述的组合物，其中所述WG片段中碱基对的所述数目为约100个至约200个。

94.根据权利要求85至93中任一项所述的组合物，其中所述第一组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

95.根据权利要求85至94中任一项所述的组合物，其中所述第二组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

96.根据权利要求85至95中任一项所述的组合物，其中所述第三组Cas-gRNA RNP包括至少约1,000,000个不同的Cas-gRNA RNP。

97.根据权利要求85至96中任一项所述的组合物，其中所述WG包括双链DNA。

98.根据权利要求85至97中任一项所述的组合物，其中所述Cas包括Cas9。

99.一种生成全基因组(WG)的片段的方法，所述方法包括：

使一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)与所述WG中的序列杂交，所述序列彼此间隔开大约一定数目的碱基对；以及

分别用所述组Cas-gRNA RNP切割所述序列，以生成各自具有彼此大约相同数目的碱基对的一组WG片段。

100.根据权利要求99所述的方法，其中碱基对的所述数目为约100个至约1000个。

101.根据权利要求99或权利要求100所述的方法，其中碱基对的所述数目为约500个至约700个，或约200个至约400个，或约100个至约200个。

102.根据权利要求99至101中任一项所述的方法，其中所述组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

103.根据权利要求99至102中任一项所述的方法，其中所述组WG片段中的所述WG片段中碱基对的所述数目为约100个至约1000个。

104.根据权利要求99至103中任一项所述的方法，其中所述组WG片段中的所述WG片段中碱基对的所述数目为约100个至约200个，或约200个至约400个，或约500个至约700个。

105.根据权利要求99至104中任一项所述的方法，还包括：

将扩增衔接子连接到所述组WG片段中的所述WG片段的末端；

生成连接有所述扩增衔接子的所述组WG片段中的所述WG片段的扩增子；以及

对所述组WG片段中的所述WG片段的所述扩增子进行测序。

106.根据权利要求105所述的方法，其中所述扩增衔接子包括独特分子标识符(UMI)。

107.根据权利要求99至106中任一项所述的方法，其中所述WG包括双链DNA。

108.根据权利要求99至107中任一项所述的方法，其中所述Cas包括Cas9。

109.一种组合物，所述组合物包含：

全基因组(WG)的样本；和

与所述WG中的序列杂交的一组CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，所述序列彼此间隔开大约一定数目的碱基对，

所述组Cas-gRNA RNP分别用于切割所述样本内的所述序列以生成各自具有彼此大约相同数目的碱基对的WG片段。

110.根据权利要求109所述的组合物，其中碱基对的所述数目为约100个至约1000个。

111.根据权利要求109或权利要求110所述的组合物，其中碱基对的所述数目为约500个至约700个，或约200个至约400个，或约100个至约200个。

112.根据权利要求109至111中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

113.根据权利要求109至112中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目为约100个至约1000个。

114.根据权利要求109至113中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目为约100个至约200个，或约200个至约400个，或约500个至约700个。

115.根据权利要求109至114中任一项所述的组合物，其中所述WG包括双链DNA。

116.根据权利要求109至115中任一项所述的组合物，其中所述Cas包括Cas9。

117.一种组合物，所述组合物包含一组各自具有彼此大约相同数目的碱基对的至少约1,000,000个WG片段。

118.根据权利要求117所述的组合物，其中碱基对的所述数目为约100个至约200个。

119.根据权利要求117所述的组合物，其中碱基对的所述数目为约200个至约400个。

120.根据权利要求117所述的组合物，其中碱基对的所述数目为约500个至约700个。

121.根据权利要求117至120中任一项所述的组合物，其中所述WG包括双链DNA。

122.根据权利要求117至121中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目变化小于约20％。

123.根据权利要求117至122中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目变化小于约10％。

124.根据权利要求117至123中任一项所述的组合物，其中所述组WG片段中的所述WG片段中碱基对的所述数目变化小于约5％。

125.根据权利要求117至124中任一项所述的组合物，其中所述组合物使用根据权利要求99至108中任一项所述的方法来制备。

126.一种切割具有序列的靶多核苷酸的分子的方法，所述方法包括：

在流体中使所述靶多核苷酸的第一分子和第二分子与多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)和第二Cas-gRNA RNP接触；

使所述第一Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第一亚序列杂交；

使所述第二Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的第二亚序列杂交，所述第二亚序列仅部分地与所述第一亚序列重叠；

通过所述第一Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第二Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第一分子中的所述第二亚序列杂交；

通过所述第二Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第一Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第二分子中的所述第一亚序列杂交；

在所述第一亚序列处切割所述第一分子；以及

在所述第二亚序列处切割所述第二分子。

127.根据权利要求126所述的方法，其中所述第一分子中的切口在所述靶多核苷酸的所述序列中的位置与所述第二分子中的切口不同。

128.根据权利要求126或权利要求127所述的方法，其中所述第一分子中的所述切口与所述第二分子中的所述切口在所述靶多核苷酸的所述序列中偏移约两个碱基对至约十个碱基对。

129.根据权利要求126至128中任一项所述的方法，其中使用所述第一Cas-gRNA RNP中的所述一个Cas-gRNA RNP切割所述第一分子，并且其中使用所述第二Cas-gRNA RNP中的所述一个Cas-gRNARNP切割所述第二分子。

130.根据权利要求126至129中任一项所述的方法，其中所述靶多核苷酸包括双链DNA。

131.根据权利要求126至130中任一项所述的方法，其中所述Cas包括Cas9或dCas9。

132.根据权利要求126至131中任一项所述的方法，还包括：

在所述流体中使所述靶多核苷酸的所述第一分子和所述第二分子与多个第三Cas-gRNA RNP和第四Cas-gRNA RNP接触；

使所述第三Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第三亚序列杂交；

通过所述第三Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第四Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第一分子中的第四亚序列杂交，所述第四亚序列仅部分地与所述第三亚序列重叠；以及

使用所述第三Cas-gRNA RNP中的所述一个Cas-gRNA RNP在所述第三亚序列处切割所述第一分子以生成第一片段。

133.根据权利要求126至132中任一项所述的方法，还包括：

使所述第四Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第四亚序列杂交；

通过所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第三Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第一分子中的第三亚序列杂交；以及

使用所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP在所述第四亚序列处切割所述第一分子以生成第一片段。

134.根据权利要求132或权利要求133所述的方法，还包括：

使所述第三Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的所述第三亚序列杂交；

通过所述第三Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第四Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第二分子中的所述第四亚序列杂交；以及

使用所述第三Cas-gRNA RNP中的所述一个Cas-gRNA RNP在所述第三亚序列处切割所述第二分子以生成第二片段。

135.根据权利要求132或权利要求133所述的方法，还包括：

使所述第四Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的所述第四亚序列杂交；

通过所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP抑制所述第三Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第二分子中的所述第三亚序列杂交；以及

使用所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP在所述第四亚序列处切割所述第二分子以生成第二片段。

136.根据权利要求132至135中任一项所述的方法，还包括，当所述第一Cas-gRNA RNP中的所述一个Cas-gRNA RNP和所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNARNP与所述第一分子杂交时，降解所述第一分子的不位于所述第一Cas-gRNARNP中的所述一个Cas-gRNA RNP与所述第三Cas-gRNARNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP之间的任何部分。

137.根据权利要求134至136中任一项所述的方法，还包括，当所述第二Cas-gRNA RNP中的所述一个Cas-gRNA RNP和所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNARNP与所述第二分子杂交时，降解所述第二分子的不位于所述第二Cas-gRNARNP中的所述一个Cas-gRNA RNP与所述第三Cas-gRNARNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP之间的任何部分。

138.根据权利要求136或权利要求137所述的方法，其中使用核酸外切酶III或核酸外切酶VII进行所述降解。

139.根据权利要求134至138中任一项所述的方法，其中使用所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNARNP切割所述第一分子，并且其中使用所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP切割所述第二分子。

140.根据权利要求134至139中任一项所述的方法，其中所述第一片段和所述第二片段包括彼此不同数目的碱基对。

141.根据权利要求134至140中任一项所述的方法，其中所述第一片段具有约100个碱基对至约1000个碱基对的长度，并且其中所述第二片段具有约100个碱基对至约1000个碱基对的长度。

142.根据权利要求134至141中任一项所述的方法，其中所述第一片段具有约500个碱基对至约700个碱基对的长度，并且其中所述第二片段具有约500个碱基对至约700个碱基对的长度。

143.根据权利要求134至142中任一项所述的方法，其中所述第一片段具有约200个碱基对至约400个碱基对的长度，并且其中所述第二片段具有约200个碱基对至约400个碱基对的长度。

144.根据权利要求134至143中任一项所述的方法，其中所述第一片段具有约100个碱基对至约200个碱基对的长度，并且其中所述第二片段具有约100个碱基对至约200个碱基对的长度。

145.一种对靶多核苷酸测序的方法，所述方法包括：

使用根据权利要求134至144中任一项所述的方法生成所述靶多核苷酸的第一片段和第二片段；

将扩增衔接子连接到所述第一片段和所述第二片段的末端；

分别生成连接有所述扩增衔接子的所述第一片段和所述第二片段的扩增子；以及

对所述第一片段和所述第二片段的所述扩增子进行测序。

146.根据权利要求145所述的方法，还包括使用所述第一亚序列、所述第二亚序列、所述第三亚序列和所述第四亚序列，将所述第一片段的所述扩增子鉴定为源自所述第一分子，并且将所述第二片段的所述扩增子鉴定为源自所述第二分子。

147.根据权利要求145或权利要求146所述的方法，还包括：

在生成所述扩增子之前将独特分子标识符(UMI)连接到所述第一片段和所述第二片段的所述末端；以及

使用所述UMI，将所述第一片段的所述扩增子鉴定为源自所述第一分子，并且将所述第二片段的所述扩增子鉴定为源自所述第二分子。

148.根据权利要求147所述的方法，其中在与所述扩增衔接子相同的操作中，将所述UMI偶联到并连接到所述第一片段和所述第二片段的所述末端。

149.一种组合物，所述组合物包含：

具有序列的靶多核苷酸的第一分子和第二分子；和

多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)和第二Cas-gRNA RNP，

所述第一Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第一亚序列杂交，并且抑制所述第二Cas-gRNARNP中的任何Cas-gRNA RNP与所述第一分子中的第二亚序列杂交，所述第二亚序列仅部分地与所述第一亚序列重叠，并且

所述第二Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的所述第二亚序列杂交，并且抑制所述第一Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第二分子中的所述第一亚序列杂交。

150.根据权利要求149所述的组合物，其中所述第一分子中的所述切口在所述靶多核苷酸的所述序列中的位置与所述第二分子中的所述切口不同。

151.根据权利要求149或权利要求150所述的组合物，其中所述第一分子中的所述切口与所述第二分子中的所述切口在所述靶多核苷酸的所述序列中偏移约两个碱基对至约十个碱基对。

152.根据权利要求149至151中任一项所述的组合物，其中所述第一Cas-gRNA RNP中的所述一个Cas-gRNA RNP用于切割所述第一分子，并且其中所述第二Cas-gRNA RNP中的所述一个Cas-gRNARNP用于切割所述第二分子。

153.根据权利要求149至152中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

154.根据权利要求149至153中任一项所述的组合物，其中所述Cas包括Cas9或dCas9。

155.根据权利要求149至154中任一项所述的组合物，还包含：

多个第三Cas-gRNA RNP和第四Cas-gRNA RNP；

所述第三Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第三亚序列杂交，抑制所述第四Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第一分子中的第四亚序列杂交，并且用于在所述第三亚序列处切割所述第一分子以生成第一片段，所述第四亚序列仅部分地与所述第三亚序列重叠。

156.根据权利要求149至154中任一项所述的组合物，还包含：

多个第三Cas-gRNA RNP和第四Cas-gRNA RNP；

所述第四Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第一分子中的第四亚序列杂交，抑制所述第三Cas-gRNA RNP中的任何Cas-gRNA RNP与所述第一分子中的第三亚序列杂交，并且用于在所述第四亚序列处切割所述第一分子以生成第一片段，所述第四亚序列仅部分地与所述第三亚序列重叠。

157.根据权利要求155或权利要求156所述的组合物，所述第三Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的所述第三亚序列杂交，抑制所述第四Cas-gRNA RNP中的任何Cas-gRNARNP与所述第二分子中的所述第四亚序列杂交，并且用于在所述第三亚序列处切割所述第二分子以生成第二片段。

158.根据权利要求155或权利要求156所述的组合物，所述第四Cas-gRNA RNP中的一个Cas-gRNA RNP与所述第二分子中的所述第四亚序列杂交，抑制所述第三Cas-gRNA RNP中的任何Cas-gRNARNP与所述第二分子中的所述第三亚序列杂交，并且用于在所述第四亚序列处切割所述第二分子以生成第二片段。

159.根据权利要求155至158中任一项所述的组合物，还包含用于降解所述第一分子的不位于所述第一Cas-gRNA RNP中的所述一个Cas-gRNA RNP与所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP之间的任何部分的核酸外切酶。

160.根据权利要求157至159中任一项所述的组合物，还包含用于降解所述第二分子的不位于所述第二Cas-gRNA RNP中的所述一个Cas-gRNA RNP与所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP之间的任何部分的核酸外切酶。

161.根据权利要求159或权利要求160所述的组合物，其中所述核酸外切酶包括核酸外切酶III或核酸外切酶VII。

162.根据权利要求158至161中任一项所述的组合物，其中所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNARNP用于切割所述第一分子，并且其中所述第三Cas-gRNA RNP或所述第四Cas-gRNA RNP中的所述一个Cas-gRNA RNP用于切割所述第二分子。

163.根据权利要求158至162中任一项所述的组合物，其中所述第一片段和所述第二片段包括彼此不同数目的碱基对。

164.根据权利要求158至163中任一项所述的组合物，其中所述第一片段具有约100个碱基对至约1000个碱基对的长度，并且其中所述第二片段具有约100个碱基对至约1000个碱基对的长度。

165.根据权利要求158至164中任一项所述的组合物，其中所述第一片段具有约500个碱基对至约700个碱基对的长度，并且其中所述第二片段具有约500个碱基对至约700个碱基对的长度。

166.根据权利要求158至164中任一项所述的组合物，其中所述第一片段具有约200个碱基对至约400个碱基对的长度，并且其中所述第二片段具有约200个碱基对至约400个碱基对的长度。

167.根据权利要求158至164中任一项所述的组合物，其中所述第一片段具有约100个碱基对至约200个碱基对的长度，并且其中所述第二片段具有约100个碱基对至约200个碱基对的长度。

168.一种组合物，所述组合物包含：

具有序列的靶多核苷酸的第一分子和第二分子，

所述第一分子在第一亚序列处具有第一末端，

所述第二分子在第二亚序列处具有第一末端，其中所述第一亚序列仅部分地与所述第二亚序列重叠。

169.根据权利要求168所述的组合物，其中所述第一分子的所述第一末端在所述靶多核苷酸的所述序列中的位置与所述第二分子的所述第一末端不同。

170.根据权利要求168或权利要求169所述的组合物，其中所述第一分子的所述第一末端与所述第二分子的所述第一末端在所述靶多核苷酸的所述序列中偏移约两个碱基对至约十个碱基对。

171.根据权利要求168至170中任一项所述的组合物，

所述第一分子在第三亚序列处还具有第二末端，

所述第二分子在所述第三亚序列处或在第四亚序列处还具有第二末端，其中所述第三亚序列仅部分地与所述第四亚序列重叠。

172.根据权利要求171所述的组合物，其中所述第一分子的所述第二末端在所述靶多核苷酸的所述序列中的位置与所述第二分子的所述第二末端不同。

173.根据权利要求171或权利要求172所述的组合物，其中所述第一分子的所述第二末端与所述第二分子的所述第二末端在所述靶多核苷酸的所述序列中偏移约两个碱基对至约十个碱基对。

174.根据权利要求168至173中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

175.根据权利要求168至174中任一项所述的组合物，其中所述第一分子和所述第二分子包括彼此不同数目的碱基对。

176.根据权利要求168至175中任一项所述的组合物，其中所述第一分子具有约100个碱基对至约1000个碱基对的长度，并且其中所述第二分子具有约100个碱基对至约1000个碱基对的长度。

177.根据权利要求168至176中任一项所述的组合物，其中所述第一片段具有约500个碱基对至约700个碱基对的长度，并且其中所述第二片段具有约500个碱基对至约700个碱基对的长度。

178.根据权利要求168至176中任一项所述的组合物，其中所述第一片段具有约200个碱基对至约400个碱基对的长度，并且其中所述第二片段具有约200个碱基对至约400个碱基对的长度。

179.根据权利要求168至176中任一项所述的组合物，其中所述第一片段具有约100个碱基对至约200个碱基对的长度，并且其中所述第二片段具有约100个碱基对至约200个碱基对的长度。

180.一种生成具有序列的靶多核苷酸的片段的方法，所述方法包括：

在流体中使所述靶多核苷酸与第一融合蛋白和第二融合蛋白接触，

所述第一融合蛋白包含与第一转座酶偶联的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，所述第一转座酶偶联有第一扩增衔接子，

所述第二融合蛋白包含与第二转座酶偶联的第二Cas-gRNARNP，所述第二转座酶偶联有第二扩增衔接子；

在促进所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP的活性并抑制所述第一转座酶和所述第二转座酶的活性的同时：

使所述第一Cas-gRNA RNP与所述靶多核苷酸中的第一亚序列杂交；以及

使所述第二Cas-gRNA RNP与所述靶多核苷酸中的第二亚序列杂交；并且然后

在促进所述第一转座酶和所述第二转座酶的活性的同时：

使用所述第一转座酶将所述第一扩增衔接子添加到所述靶多核苷酸中的第一位置；以及

使用所述第二转座酶将所述第二扩增衔接子添加到所述靶多核苷酸中的第二位置。

181.根据权利要求180所述的方法，其中使用所述流体的第一条件促进所述Cas-gRNARNP的活性并且抑制所述转座酶的所述活性。

182.根据权利要求181所述的方法，其中所述流体的所述第一条件包括存在足够量的用于所述Cas-gRNA RNP活性的钙离子、锰离子或钙离子和锰离子两者。

183.根据权利要求181或权利要求182所述的方法，其中所述流体的所述第一条件包括不存在足够量的用于所述转座酶活性的镁离子。

184.根据权利要求180至183中任一项所述的方法，其中使用所述流体的第二条件促进所述转座酶的活性。

185.根据权利要求184所述的方法，其中所述流体的所述第二条件包括存在足够量的用于所述转座酶活性的镁离子。

186.根据权利要求180至185中任一项所述的方法，还包括在所述第一融合蛋白的所述Cas-gRNA RNP与所述第一亚序列杂交并且所述第二融合蛋白的所述Cas-gRNA RNP与所述第二亚序列杂交时，降解所述靶多核苷酸的不位于所述第一融合蛋白的所述Cas-gRNA RNP和所述第二融合蛋白的所述Cas-gRNA RNP之间的任何部分。

187.根据权利要求188所述的方法，其中使用核酸外切酶III或核酸外切酶VII进行所述降解。

188.根据权利要求180至187中任一项所述的方法，还包括从所述第一融合蛋白和所述第二融合蛋白中释放所述靶多核苷酸以提供在一个末端具有所述第一扩增衔接子并且在另一末端具有所述第二扩增衔接子的所述靶多核苷酸的片段。

189.根据权利要求188所述的方法，其中使用蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者进行所述释放。

190.根据权利要求188或权利要求189所述的方法，其中所述片段具有约100个碱基对至约1000个碱基对的长度。

191.根据权利要求188至190中任一项所述的方法，其中所述片段具有约500个碱基对至约700个碱基对的长度。

192.根据权利要求188至190中任一项所述的方法，其中所述片段具有约200个碱基对至约400个碱基对的长度。

193.根据权利要求188至190中任一项所述的方法，其中所述片段具有约100个碱基对至约200个碱基对的长度。

194.根据权利要求180至193中任一项所述的方法，其中所述Cas包括dCas9。

195.根据权利要求180至194中任一项所述的方法，其中所述转座酶包括Tn5。

196.根据权利要求180至195中任一项所述的方法，其中所述第一扩增衔接子包括P5衔接子，并且其中所述第二扩增衔接子包括P7衔接子。

197.根据权利要求180至196中任一项所述的方法，其中所述第一扩增衔接子包括第一独特分子标识符(UMI)，并且其中所述第二扩增衔接子包括第二UMI。

198.根据权利要求180至197中任一项所述的方法，其中所述第一位置在所述第一亚序列的约10个碱基内，并且其中所述第二位置在所述第二亚序列的约10个碱基内。

199.根据权利要求180至198中任一项所述的方法，其中在所述第一融合蛋白和所述第二融合蛋白的每一者中，所述Cas-gRNA RNP经由共价键与所述转座酶偶联。

200.根据权利要求180至198中任一项所述的方法，其中在所述第一融合蛋白和所述第二融合蛋白的每一者中，所述Cas-gRNA RNP经由非共价键与所述转座酶偶联。

201.根据权利要求200所述的方法，其中所述Cas-gRNA RNP与抗体共价偶联并且所述转座酶与所述抗体非共价偶联的抗原共价偶联，或者其中所述Cas-gRNA RNP与抗原共价偶联并且所述转座酶与所述抗原非共价偶联的抗体共价偶联。

202.根据权利要求200所述的方法，其中所述Cas-gRNA经由所述gRNA与所述第一扩增衔接子或所述第二扩增衔接子之间的杂交与所述转座酶非共价偶联。

203.根据权利要求200所述的方法，其中所述Cas-gRNA经由所述gRNA与所述转座酶内的寡核苷酸之间的杂交与所述转座酶非共价偶联。

204.根据权利要求180至203中任一项所述的方法，其中：

在所述第一融合蛋白中，与所述第一亚序列杂交的所述gRNA部分具有约15个核苷酸至约18个核苷酸的长度，并且

在所述第二融合蛋白中，与所述第二亚序列杂交的所述gRNA部分具有约15个核苷酸至约18个核苷酸的长度。

205.根据权利要求180至204中任一项所述的方法，其中所述第一融合蛋白和所述第二融合蛋白与所述靶多核苷酸处于近似化学计量比。

206.根据权利要求180至205中任一项所述的方法，其中所述靶多核苷酸包括双链DNA。

207.一种对靶多核苷酸测序的方法，所述方法包括：

使用根据权利要求188至206或294至302中任一项所述的方法生成所述靶多核苷酸的片段；

生成所述片段的扩增子；以及

对所述扩增子进行测序。

208.一种组合物，所述组合物包含：

具有序列的靶多核苷酸；和

第一融合蛋白，所述第一融合蛋白包含与第一转座酶偶联的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，所述第一转座酶偶联有第一扩增衔接子，所述第一Cas-gRNA RNP与所述靶多核苷酸中的第一亚序列杂交。

209.根据权利要求208所述的组合物，还包含：

第二融合蛋白，所述第二融合蛋白包含与第二转座酶偶联的第二Cas-gRNA RNP，所述第二转座酶偶联有第二扩增衔接子，所述第二Cas-gRNA RNP与所述靶多核苷酸中的第二亚序列杂交。

210.根据权利要求208或权利要求209所述的组合物，还包含具有促进所述第一Cas-gRNA RNP的活性并抑制所述第一转座酶的活性的条件的流体。

211.根据权利要求210所述的组合物，其中所述流体的所述条件包括存在足够量的用于所述第一Cas-gRNA RNP活性的钙离子、锰离子或钙离子和锰离子两者。

212.根据权利要求210或权利要求211所述的组合物，其中所述流体的所述条件包括不存在足够量的用于所述第一转座酶活性的镁离子。

213.根据权利要求208或权利要求209所述的组合物，还包含具有促进所述第一转座酶活性的条件的流体，并且其中所述第一转座酶将所述第一扩增衔接子添加到所述靶多核苷酸中的第一位置。

214.根据权利要求213所述的组合物，其中所述第二转座酶将所述第二扩增衔接子添加到所述靶多核苷酸中的第二位置。

215.根据权利要求214所述的组合物，其中所述流体的所述条件包括存在足够量的用于所述第一转座酶活性的镁离子。

216.根据权利要求214所述的组合物，还包含试剂，所述试剂用于从所述第一融合蛋白和所述第二融合蛋白中释放所述靶多核苷酸以提供在一个末端具有所述第一扩增衔接子并且在另一末端具有所述第二扩增衔接子的所述靶多核苷酸的片段。

217.根据权利要求216所述的组合物，其中所述试剂包括蛋白酶K、十二烷基硫酸钠(SDS)或蛋白酶K和SDS两者。

218.根据权利要求216或权利要求217所述的组合物，其中所述片段具有约100个碱基对至约1000个碱基对的长度。

219.根据权利要求216至218中任一项所述的组合物，其中所述片段具有约500个碱基对至约700个碱基对的长度。

220.根据权利要求216至218中任一项所述的组合物，其中所述片段具有约200个碱基对至约400个碱基对的长度。

221.根据权利要求216至218中任一项所述的组合物，其中所述片段具有约100个碱基对至约200个碱基对的长度。

222.根据权利要求209至221中任一项所述的组合物，还包含用于降解所述靶多核苷酸的不位于所述第一Cas-gRNA RNP与所述第二Cas-gRNA RNP之间的任何部分的核酸外切酶。

223.根据权利要求222所述的组合物，其中所述核酸外切酶包括核酸外切酶III或核酸外切酶VII。

224.根据权利要求208至223中任一项所述的组合物，其中所述Cas包括dCas9。

225.根据权利要求208至224中任一项所述的组合物，其中所述转座酶包括Tn5。

226.根据权利要求209至225中任一项所述的组合物，其中所述第一衔接子包括P5衔接子，并且其中所述第二衔接子包括P7衔接子。

227.根据权利要求209至226中任一项所述的组合物，其中所述第一扩增衔接子包括第一独特分子标识符(UMI)，并且其中所述第二扩增衔接子包括第二UMI。

228.根据权利要求209至227中任一项所述的组合物，其中所述第一位置在所述第一亚序列的约10个碱基内，并且其中所述第二位置在所述第二亚序列的约10个碱基内。

229.根据权利要求208至228中任一项所述的组合物，其中所述第一Cas-gRNA RNP经由共价键与所述第一转座酶偶联。

230.根据权利要求208至229中任一项所述的组合物，其中所述第一Cas-gRNA RNP经由非共价键与所述第一转座酶偶联。

231.根据权利要求230所述的组合物，其中所述第一Cas-gRNA RNP与抗体共价偶联并且所述第一转座酶与所述抗体非共价偶联的抗原共价偶联，或者其中所述第一Cas-gRNARNP与抗原共价偶联并且所述第一转座酶与所述抗原非共价偶联的抗体共价偶联。

232.根据权利要求231所述的组合物，其中所述第一Cas-gRNA经由所述gRNA与所述第一扩增衔接子之间的杂交与所述第一转座酶非共价偶联。

233.根据权利要求231所述的组合物，其中所述第一Cas-gRNA经由所述gRNA与所述第一转座酶内的寡核苷酸之间的杂交与所述第一转座酶非共价偶联。

234.根据权利要求208至233中任一项所述的组合物，其中：

在所述第一融合蛋白中，与所述第一亚序列杂交的所述gRNA部分具有约15个核苷酸至约18个核苷酸的长度。

235.根据权利要求208至234中任一项所述的组合物，其中所述第一融合蛋白与所述靶多核苷酸处于近似化学计量比。

236.根据权利要求208至235中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

237.一种表征与靶多核苷酸的相应基因座偶联的蛋白的方法，所述方法包括：

使所述靶多核苷酸与所述第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)和所述第二Cas-gRNA RNP接触；

使所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP分别与所述靶多核苷酸中的第一亚序列和第二亚序列杂交，其中所述蛋白与所述第一亚序列和所述第二亚序列之间的所述靶多核苷酸的相应基因座偶联；

使用所述第一Cas-gRNA RNP在所述第一亚序列处并使用所述第二Cas-gRNA RNP在所述第二亚序列处切割所述靶多核苷酸以形成片段，其中所述蛋白与所述片段的相应基因座偶联；

使用对应的寡核苷酸来分别标记与所述片段的所述相应基因座偶联的所述蛋白中的每种蛋白；以及

对所述对应的寡核苷酸进行测序。

238.根据权利要求237所述的方法，还包括在使用所述对应的寡核苷酸分别标记与所述片段的所述相应基因座偶联的所述蛋白中的每种蛋白之前富集所述片段。

239.根据权利要求238所述的方法，其中所述第一Cas-gRNA RNP和所述第二Cas-gRNARNP分别与标签偶联，使得所述片段经由所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP与所述标签偶联；并且

其中所述富集包括：

使经由所述第一Cas-gRNA RNP和所述第二Cas-gRNARNP偶联到所述标签的所述片段与偶联到标签配偶体的基底接触；

将所述标签偶联到所述标签配偶体以将所述片段偶联到所述基底；以及

去除所述靶多核苷酸的未与所述基底偶联的任何部分。

240.根据权利要求237至239中任一项所述的方法，还包括使用所述对应的寡核苷酸鉴定所述蛋白。

241.根据权利要求237至240中任一项所述的方法，还包括使用所述对应的寡核苷酸鉴定所述基因座。

242.根据权利要求237至241中任一项所述的方法，还包括使用所述对应的寡核苷酸定量所述蛋白。

243.根据权利要求237至242中任一项所述的方法，其中使用对应的寡核苷酸分别标记所述蛋白中的每种蛋白包括：

使所述片段与对不同蛋白具有特异性的抗体的混合物接触，所述抗体中的每种抗体与对应的寡核苷酸偶联；以及

对于所述混合物中对与所述片段的所述相应基因座偶联的所述蛋白具有特异性的任何抗体，分别将那些抗体和所述对应的寡核苷酸与那些蛋白偶联。

244.根据权利要求243所述的方法，其中所述多个蛋白与所述基因座中的相应基因座偶联，并且所述混合物中的多个抗体与所述基因座处的所述蛋白偶联。

245.根据权利要求243或权利要求244所述的方法，其中对所述对应的寡核苷酸进行测序包括使所述对应的寡核苷酸与小珠阵列杂交。

246.根据权利要求243或权利要求244所述的方法，其中对所述对应的寡核苷酸进行测序包括对所述对应的寡核苷酸进行边合成边测序。

247.根据权利要求243至246中任一项所述的方法，其中所述对应的寡核苷酸包括独特分子标识符(UMI)。

248.根据权利要求243至247中任一项所述的方法，包括使用所述对应的寡核苷酸的相应存在来鉴定所述蛋白。

249.根据权利要求243至248中任一项所述的方法，包括使用所述对应的寡核苷酸的相应量来定量所述蛋白。

250.根据权利要求237至242中任一项所述的方法，其中使用对应的寡核苷酸分别标记所述蛋白中的每种蛋白包括：

使所述片段与多种转座酶接触，所述转座酶中的每种转座酶与对应的寡核苷酸偶联；

通过与所述片段的所述相应基因座偶联的所述蛋白抑制所述基因座处所述转座酶的活性；以及

在所述基因座以外的位置处，使用所述转座酶将所述对应的寡核苷酸添加到所述片段。

251.根据权利要求250所述的方法，其中对所述对应的寡核苷酸进行测序包括对添加有所述对应的寡核苷酸的所述片段进行边合成边测序。

252.根据权利要求250或权利要求251所述的方法，包括使用所述对应的寡核苷酸的所述片段中的相应位置来鉴定所述蛋白的所述相应基因座。

253.根据权利要求250至252中任一项所述的方法，其中所述转座酶将所述片段分成亚片段，并对所述亚片段进行边合成边测序。

254.根据权利要求250至253中任一项所述的方法，其中所述对应的寡核苷酸包括扩增衔接子。

255.根据权利要求254所述的方法，其中所述扩增衔接子包括P5和P7衔接子。

256.根据权利要求254或权利要求255所述的方法，其中所述扩增衔接子包括独特分子标识符(UMI)。

257.根据权利要求237至256中任一项所述的方法，其中所述Cas包括Cas9。

258.根据权利要求237至257中任一项所述的方法，其中所述片段具有约100个碱基对至约1000个碱基对的长度。

259.根据权利要求237至258中任一项所述的方法，其中所述片段具有约500个碱基对至约700个碱基对的长度。

260.根据权利要求237至259中任一项所述的方法，其中所述片段具有约200个碱基对至约400个碱基对的长度。

261.根据权利要求237至260中任一项所述的方法，其中所述片段具有约100个碱基对至约200个碱基对的长度。

262.根据权利要求237至261中任一项所述的方法，其中所述靶多核苷酸包括双链DNA。

263.一种组合物，所述组合物包含：

靶多核苷酸的片段，其中蛋白与所述片段的相应基因座偶联；和

对不同蛋白具有特异性的抗体的混合物，所述抗体中的每种抗体与对应的寡核苷酸偶联；

其中对于所述混合物中对与所述片段的所述相应基因座偶联的所述蛋白具有特异性的任何抗体，那些抗体和所述对应的寡核苷酸与那些蛋白偶联。

264.根据权利要求263所述的组合物，其中所述多个蛋白与所述基因座中的相应基因座偶联，并且所述混合物中的多个抗体与所述基因座处的所述蛋白偶联。

265.根据权利要求263或权利要求264所述的组合物，其中所述对应的寡核苷酸包括独特分子标识符(UMI)。

266.根据权利要求263至265中任一项所述的组合物，其中所述对应的寡核苷酸的相应存在用于鉴定所述蛋白。

267.根据权利要求263至266中任一项所述的组合物，其中所述对应的寡核苷酸的相应量用于定量所述蛋白。

268.根据权利要求263至267中任一项所述的组合物，其中所述片段具有约100个碱基对至约1000个碱基对的长度。

269.根据权利要求263至268中任一项所述的组合物，其中所述片段具有约500个碱基对至约700个碱基对的长度。

270.根据权利要求263至268中任一项所述的组合物，其中所述片段具有约200个碱基对至约400个碱基对的长度。

271.根据权利要求263至268中任一项所述的组合物，其中所述片段具有约100个碱基对至约200个碱基对的长度。

272.根据权利要求263至271中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

273.一种组合物，所述组合物包含：

多种转座酶，所述转座酶中的每种转座酶与对应的寡核苷酸偶联，

与所述片段的所述相应基因座偶联的所述蛋白抑制所述基因座处所述转座酶的活性；并且

所述转座酶在所述基因座以外的位置处将所述对应的寡核苷酸添加到所述片段。

274.根据权利要求273所述的组合物，其中所述对应的寡核苷酸的所述片段中的相应位置用于鉴定所述蛋白的所述相应基因座。

275.根据权利要求273或权利要求274所述的组合物，其中所述转座酶将所述片段分成亚片段。

276.根据权利要求273至275中任一项所述的组合物，其中所述对应的寡核苷酸包括扩增衔接子。

277.根据权利要求276所述的组合物，其中所述扩增衔接子包括P5和P7衔接子。

278.根据权利要求276或权利要求277所述的组合物，其中所述扩增衔接子包括独特分子标识符(UMI)。

279.根据权利要求273至278中任一项所述的组合物，其中所述转座酶包括Tn5。

280.根据权利要求273至279中任一项所述的组合物，其中所述片段具有约100个碱基对至约1000个碱基对的长度。

281.根据权利要求273至280中任一项所述的组合物，其中所述片段具有约500个碱基对至约700个碱基对的长度。

282.根据权利要求273至280中任一项所述的组合物，其中所述片段具有约200个碱基对至约400个碱基对的长度。

283.根据权利要求273至280中任一项所述的组合物，其中所述片段具有约100个碱基对至约200个碱基对的长度。

284.根据权利要求273至283中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

285.一种组合物，所述组合物包含：

具有多个亚序列的靶多核苷酸；和

多个复合物，每个复合物包含与向导RNA(gRNA)偶联的ShCAST(贺氏伪枝藻属CRISPR相关转座酶)，所述ShCAST偶联有扩增衔接子，

所述复合物中的每个复合物均与所述靶多核苷酸中所述亚序列的对应亚序列杂交。

286.根据权利要求285所述的组合物，还包含具有促进所述复合物与所述亚序列杂交并抑制所述转座酶的活性的条件的流体。

287.根据权利要求286所述的组合物，其中所述流体的所述条件包括不存在足够量的用于所述转座酶活性的镁离子。

288.根据权利要求285所述的组合物，还包含具有促进所述转座酶活性的条件的流体，并且其中所述转座酶将所述扩增衔接子添加到所述靶多核苷酸中的位置。

289.根据权利要求288所述的组合物，其中所述流体的所述条件包括存在足够量的用于所述转座酶活性的镁离子。

290.根据权利要求285至289中任一项所述的组合物，其中所述ShCAST包括Cas12k。

291.根据权利要求285至290中任一项所述的组合物，其中所述转座酶包括Tn5或Tn7样转座酶。

292.根据权利要求285至291中任一项所述的组合物，其中所述衔接子包括P5衔接子和P7衔接子中的至少一者。

293.根据权利要求285至292中任一项所述的组合物，其中所述靶多核苷酸包括双链DNA。

294.根据权利要求285至292中任一项所述的组合物，其中所述gRNA和所述转座酶中的至少一者是生物素化的，所述组合物还包含与所述生物素化的所述gRNA和所述转座酶中的至少一者偶联的链霉抗生物素蛋白包被的小珠。

295.根据权利要求180至206中任一项所述的方法，其中第一标签与所述第一Cas-gRNARNP偶联，并且第二标签与所述第二Cas-gRNARNP偶联。

296.根据权利要求294所述的方法，还包括将所述第一标签偶联至与基底偶联的第一标签配偶体，并且将所述第二标签偶联至与所述基底偶联的第二标签配偶体。

297.根据权利要求295所述的方法，其中在所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP分别与所述第一亚序列和所述第二亚序列杂交之后进行所述偶联。

298.根据权利要求295或权利要求296所述的方法，其中在将所述第一标签和所述第二标签分别添加到所述第一标签配偶体和所述第二标签配偶体中之后添加所述第一和扩增衔接子。

299.根据权利要求294至297中任一项所述的方法，其中所述第一标签和所述第二标签包括生物素。

300.根据权利要求298所述的方法，其中所述第一标签配偶体和所述第二标签配偶体包括链霉抗生物素蛋白。

301.根据权利要求295至299中任一项所述的方法，其中所述基底包括小珠。

302.根据权利要求294至300中任一项所述的方法，其中所述Cas-gRNARNP包括Cas12k。

303.根据权利要求294至301中任一项所述的方法，其中所述转座酶包括Tn5或Tn7样转座酶。

304.根据权利要求208至236中任一项所述的组合物，还包含与所述第一Cas-gRNA RNP偶联的第一标签。

305.根据权利要求303所述的组合物，还包含基底和与所述基底和所述第一标签偶联的第一标签配偶体。

306.根据权利要求209至236中任一项所述的组合物，还包含与所述第一Cas-gRNA RNP偶联的第一标签和与所述第二Cas-gRNA RNP偶联的第二标签。

307.根据权利要求305所述的组合物，还包含基底、与所述基底和所述第一标签偶联的第一标签配偶体，以及与所述基底和所述第二标签偶联的第二标签配偶体。

308.根据权利要求306所述的组合物，其中所述第一标签和所述第二标签包括生物素。

309.根据权利要求307所述的组合物，其中所述第一标签配偶体和所述第二标签配偶体包括链霉抗生物素蛋白。

310.根据权利要求303至308中任一项所述的组合物，其中所述基底包括小珠。

311.根据权利要求303至309中任一项所述的组合物，其中所述Cas-gRNA RNP包括Cas12k。

312.根据权利要求303至309中任一项所述的组合物，其中所述转座酶包括Tn5或Tn7样转座酶。

313.一种生成双链多核苷酸的片段的方法，所述方法包括：

将所述双链多核苷酸与基底偶联；

使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)切口酶和第二Cas-gRNARNP切口酶分别与所述双链多核苷酸中的第一亚序列和第二亚序列杂交，

所述第一亚序列在沿着所述双链多核苷酸的第一链的靶序列的3'，并且

所述第二亚序列在沿着所述双链多核苷酸的第二链的所述靶序列的3'；

使用所述第一Cas-gRNA RNP切口酶在所述第一亚序列处切割所述第一链；

使用所述第二Cas-gRNA RNP切口酶在所述第二亚序列处切割所述第二链；

使用聚合酶从所述相应的切口延伸所述第一链和所述第二链并从所述基底洗脱所述靶序列；以及

对所述洗脱的靶序列进行测序。

314.根据权利要求312所述的方法，其中所述基底包括小珠。

315.根据权利要求312或权利要求313所述的方法，其中所述双链多核苷酸的3'末端与标签偶联，并且所述基底与标签配偶体偶联，所述偶联包括将所述标签与所述标签配偶体偶联。

316.根据权利要求314所述的方法，其中所述标签包括生物素，并且所述标签配偶体包括链霉抗生物素蛋白。

317.根据权利要求312至315中任一项所述的方法，其中所述第一Cas-gRNA RNP切口酶和所述第二Cas-gRNA RNP切口酶包括Cas9。

318.根据权利要求312至316中任一项所述的方法，其中所述聚合酶包括链置换聚合酶。

319.根据权利要求317所述的方法，其中所述聚合酶包括Vent或Bsu。

320.根据权利要求312至316中任一项所述的方法，其中所述聚合酶具有5'核酸外切酶活性。

321.根据权利要求319所述的方法，其中所述聚合酶包括Taq、Bst或DNA聚合酶I。

322.根据权利要求312至320中任一项所述的方法，其中所述双链多核苷酸包括测序文库的一部分。

323.根据权利要求312至321中任一项所述的方法，还包括将测序衔接子添加到所述洗脱的靶序列。

324.一种组合物，所述组合物包含：

与基底偶联的双链多核苷酸；和

分别与所述双链多核苷酸中的第一亚序列和第二亚序列杂交的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)切口酶和第二Cas-gRNA RNP切口酶，

所述第二亚序列在沿着所述双链多核苷酸的第二链的所述靶序列的3'。

325.根据权利要求323所述的组合物，其中所述基底包括小珠。

326.根据权利要求323或权利要求324所述的组合物，其中所述双链多核苷酸的3'末端与标签偶联，并且所述基底与标签配偶体偶联，所述标签配偶体与所述标签偶联。

327.根据权利要求325所述的组合物，其中所述标签包括生物素，并且所述标签配偶体包括链霉抗生物素蛋白。

328.根据权利要求323至326中任一项所述的组合物，其中所述第一Cas-gRNA RNP切口酶和所述第二Cas-gRNA RNP切口酶包括Cas9。

329.根据权利要求323至327中任一项所述的组合物，其中所述双链多核苷酸包括测序文库的一部分。

330.一种生成双链多核苷酸的片段的方法，所述方法包括：

使第一复合物和第二复合物分别与所述双链多核苷酸中的第一亚序列和第二亚序列杂交，

所述第一复合物和所述第二复合物中的每一者均包含与扩增衔接子偶联的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)；

将所杂交的第一复合物和第二复合物的所述扩增衔接子分别连接到所述双链多核苷酸的第一末端和第二末端；

从所述双链多核苷酸中去除所述第一复合物和所述第二复合物的所述Cas-gRNA RNP；以及

对连接有所述扩增衔接子的所述双链多核苷酸进行测序。

331.根据权利要求329所述的方法，其中所述第一亚序列在沿着所述双链多核苷酸的第一链的靶序列的3'，并且所述第二亚序列在沿着所述双链多核苷酸的第二链的所述靶序列的3'。

332.根据权利要求329或权利要求330所述的方法，其中所述扩增衔接子是Y形的。

333.根据权利要求329至331中任一项所述的方法，其中每个复合物还包括将所述Cas-gRNA RNP与所述扩增衔接子偶联的接头。

334.根据权利要求332所述的方法，其中所述接头与所述Cas-gRNARNP的所述Cas偶联。

335.根据权利要求332所述的方法，其中所述接头与所述gRNA偶联。

336.根据权利要求332至334中任一项所述的方法，其中所述接头包括蛋白、多核苷酸或聚合物。

337.根据权利要求332至335中任一项所述的方法，其中当所述Cas-gRNA RNP被去除时，所述接头保持与所述扩增衔接子偶联。

338.根据权利要求329至336中任一项所述的方法，其中所述连接包括使用连接酶。

339.根据权利要求337所述的方法，其中所述连接酶在所述杂交期间存在。

340.根据权利要求338所述的方法，其中所述连接酶在所述杂交期间是失活的，并且使用ATP活化以用于所述连接。

341.根据权利要求337所述的方法，其中所述连接酶在所述杂交之后添加。

342.根据权利要求329至340中任一项所述的方法，还包括在所述杂交之前将所述双链多核苷酸加A尾，并且其中所述扩增衔接子包括未配对的T以与所述A尾杂交。

343.根据权利要求329至341中任一项所述的方法，其中所述扩增衔接子包括独特分子标识符。

344.根据权利要求329至342中任一项所述的方法，其中所述Cas-gRNARNP包括dCas9。

345.一种组合物，所述组合物包含：

双链多核苷酸的片段；和

与所述双链多核苷酸中的第一亚序列和第二亚序列杂交的第一复合物和第二复合物，

所述第一复合物和所述第二复合物中的每一者均包含与扩增衔接子偶联的CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)。

346.根据权利要求344所述的组合物，其中所述第一亚序列在沿着所述双链多核苷酸的第一链的靶序列的3'，并且所述第二亚序列在沿着所述双链多核苷酸的第二链的所述靶序列的3'。

347.根据权利要求344或权利要求345所述的组合物，其中所述扩增衔接子是Y形的。

348.根据权利要求344至346中任一项所述的组合物，其中每个复合物还包括将所述Cas-gRNA RNP与所述扩增衔接子偶联的接头。

349.根据权利要求347所述的组合物，其中所述接头与所述Cas-gRNARNP的所述Cas偶联。

350.根据权利要求348所述的组合物，其中所述接头与所述gRNA偶联。

351.根据权利要求347至349中任一项所述的组合物，其中所述接头包括蛋白、多核苷酸或聚合物。

352.根据权利要求344至348中任一项所述的组合物，其中所述双链多核苷酸包括A尾，并且其中所述扩增衔接子包括未配对的T以与所述A尾杂交。

353.根据权利要求344至351中任一项所述的组合物，其中所述扩增衔接子包括独特分子标识符。

354.根据权利要求344至352中任一项所述的组合物，其中所述Cas-gRNA RNP包括dCas9。

355.一种生成多核苷酸的片段的方法，所述方法包括：

使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)与所述多核苷酸中的第一序列杂交；

使第二Cas-gRNA RNP与所述多核苷酸中的第二序列杂交，所述第二序列与所述第一序列间隔开至少一个靶序列；以及

用所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP切割所述第一序列和所述第二序列以生成包含第一末端和第二末端以及其间的所述靶序列的片段，所述第一末端具有至少一个碱基的第一5'突出端，所述第二末端具有至少一个碱基的第二5'突出端。

356.根据权利要求354所述的方法，其中所述第一5'突出端和所述第二5'突出端各自的长度为约2-5个碱基。

357.根据权利要求354所述的方法，其中所述第一5'突出端和所述第二5'突出端各自的长度为约5个碱基。

358.根据权利要求354至356中任一项所述的方法，其中所述第一5'突出端和所述第二5'突出端具有与彼此不同的序列。

359.根据权利要求357所述的方法，还包括将第一扩增衔接子连接到所述片段的所述第一末端并将第二扩增衔接子连接到所述片段的所述第二末端，

所述第一扩增衔接子具有与所述第一5'突出端互补的第三5'突出端，

所述第二扩增衔接子具有与所述第二5'突出端互补的第四5'突出端，

所述第三5'突出端和所述第四5'突出端具有与彼此不同的序列。

360.根据权利要求358所述的方法，还包括生成连接有所述第一扩增衔接子和所述第二扩增衔接子的所述片段的扩增子；

对所述扩增子进行测序；以及

基于所述测序鉴定所述靶多核苷酸。

361.根据权利要求358或权利要求359所述的方法，其中所述扩增衔接子包括独特分子标识符(UMI)。

362.根据权利要求354至360中任一项所述的方法，其中所述Cas包括Cas12a。

363.一种组合物，所述组合物包含：

多核苷酸；

与所述多核苷酸中的第一序列杂交的第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)；和

与所述多核苷酸中的第二序列杂交的第二Cas-gRNA RNP，所述第二序列与所述第一序列间隔开至少一个靶序列，

所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP分别用于切割所述多核苷酸的所述第一序列和所述第二序列以生成具有第一末端和第二末端以及其间的所述靶序列的片段，所述第一末端具有至少一个碱基的第一5'突出端，所述第二末端具有至少一个碱基的第二5'突出端。

364.根据权利要求362所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约2-5个碱基。

365.根据权利要求362所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约5个碱基。

366.根据权利要求362至364中任一项所述的组合物，其中所述第一5'突出端和所述第二5'突出端具有与彼此不同的序列。

367.根据权利要求362至365中任一项所述的组合物，其中所述Cas包括Cas12a。

368.一种组合物，所述组合物包含：

多核苷酸片段，所述多核苷酸片段各自具有第一末端和第二末端以及其间的所述靶序列，所述第一末端具有至少一个碱基的第一5'突出端，所述第二末端具有至少一个碱基的第二5'突出端，所述第一5'突出端和所述第二5'突出端具有彼此不同的序列；

具有第三5'突出端的第一扩增衔接子，所述第三5'突出端与所述第一5'突出端互补且不与所述第二5'突出端互补；和

具有第四5'突出端的第二扩增衔接子，所述第四5'突出端与所述第二5'突出端互补且不与所述第一5'突出端互补。

369.根据权利要求367所述的组合物，还包括至少一种连接酶，所述至少一种连接酶用于将所述第一扩增衔接子连接到所述第一末端并且用于将所述第二扩增衔接子连接到所述第二末端。

370.根据权利要求367或权利要求368所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约2-5个碱基。

371.根据权利要求367或权利要求368所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约5个碱基。

372.根据权利要求367至370中任一项所述的组合物，其中所述第一扩增衔接子和所述第二扩增衔接子包括独特分子标识符(UMI)。

373.根据权利要求368至371中任一项所述的组合物，其中所述连接酶包括T4 DNA连接酶。

374.一种组合物，所述组合物包含：

多个多核苷酸片段，所述多个多核苷酸片段各自具有第一末端和第二末端以及其间的所述靶序列，所述第一末端具有至少一个碱基的第一5'突出端，所述第二末端具有至少一个碱基的第二5'突出端，所述第一5'突出端和所述第二5'突出端具有彼此不同的序列以及与其他片段的所述第一5'突出端和所述第二5'突出端不同的序列。

375.根据权利要求373所述的组合物，还包含多个第一扩增衔接子，所述多个第一扩增衔接子各自具有第三5'突出端，所述第三5'突出端与对应片段的所述第一5'突出端互补且不与所述片段的所述第二5'突出端互补且不与其他片段的所述第一5'突出端或所述第二5'突出端互补；和

多个第二扩增衔接子，所述多个第二扩增衔接子各自具有第四5'突出端，所述第四5'突出端与对应片段的所述第二5'突出端互补且不与所述片段的所述第一5'突出端互补且不与其他片段的所述第一5'突出端或所述第二5'突出端互补。

376.根据权利要求374所述的组合物，还包含用于将所述第一扩增衔接子连接到所述第一5'突出端和所述第三5'突出端互补的所述第一末端和用于将所述第二扩增衔接子连接到所述第二5'突出端和所述第四5'突出端互补的所述第二末端的连接酶。

377.根据权利要求375所述的组合物，其中所述连接酶包括T4 DNA连接酶。

378.根据权利要求375或权利要求376所述的组合物，其中所述第一扩增衔接子和所述第二扩增衔接子包括独特分子标识符(UMI)。

379.根据权利要求373至377中任一项所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约2-5个碱基。

380.根据权利要求373至377中任一项所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约5个碱基。

381.一种组合物，所述组合物包含：

多个多核苷酸；

与所述多核苷酸中的相应第一序列杂交的多个第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)；和

与所述多核苷酸中的相应第二序列杂交的多个第二Cas-gRNARNP，所述第二序列与所述相应第一序列间隔开至少一个相应靶序列，

所述第一多个Cas-gRNA RNP和所述第二多个Cas-gRNA RNP分别用于切割所述相应多核苷酸的所述第一序列和所述第二序列以生成分别具有第一末端和第二末端的片段，所述第一末端和所述第二末端在其间的所述相应靶序列内，所述第一末端具有至少一个碱基的第一5'突出端，所述第二末端具有至少一个碱基的第二5'突出端。

382.根据权利要求380所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约2-5个碱基。

383.根据权利要求380所述的组合物，其中所述第一5'突出端和所述第二5'突出端各自的长度为约5个碱基。

384.根据权利要求380至383中任一项所述的组合物，其中所述第一5'突出端和所述第二5'突出端具有与彼此不同的序列。

385.根据权利要求380至384中任一项所述的组合物，其中所述Cas包括Cas12a。

386.一种向导RNA，所述向导RNA包括引物结合位点、扩增衔接子位点和CRISPR前间隔序列。

387.根据权利要求386所述的向导RNA，其中所述引物结合位点与所述CRISPR前间隔序列的至少一部分大致互补。

388.根据权利要求386或权利要求387所述的向导RNA，其中所述扩增衔接子位点位于所述引物结合位点和所述CRISPR前间隔序列之间。

389.根据权利要求386至388中任一项所述的向导RNA，还包括至少一个环。

390.根据权利要求389所述的向导RNA，其中第一环位于所述扩增衔接子位点与所述CRISPR前间隔序列之间。

391.根据权利要求390所述的向导RNA，其中第二环位于所述扩增衔接子位点与所述CRISPR前间隔序列之间。

392.一种CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNA RNP)，所述Cas-gRNA RNP包括：

根据权利要求386至391中任一项所述的gRNA；和

结合所述CRISPR前间隔序列的Cas蛋白。

393.根据权利要求392所述的Cas-gRNA RNP，其中所述Cas蛋白被配置为进行双链多核苷酸切割。

394.根据权利要求393所述的Cas-gRNA RNP，其中所述Cas蛋白包括Cas9、Cas 12a或Cas12f。

395.根据权利要求392至394中任一项所述的Cas-gRNA RNP，其中所述引物结合位点和所述扩增衔接子位点延伸到所述Cas蛋白之外。

396.一种复合物，所述复合物包含：

包括第一链和第二链的多核苷酸；和

第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)，所述第一Cas-gRNA RNP包括：

包括第一引物结合位点、第一扩增衔接子位点和第一CRISPR前间隔序列的第一向导RNA；和

结合所述第一CRISPR前间隔序列的第一Cas蛋白，

其中所述第一CRISPR前间隔序列与所述第一链杂交，并且所述第一引物结合位点与所述第二链杂交。

397.根据权利要求396所述的复合物，其中所述第一链和所述第二链被所述第一Cas-gRNA RNP在基于所述第一CRISPR前间隔序列的所述序列的相应位置处切割。

398.根据权利要求397所述的复合物，其中所述第一Cas蛋白包括Cas9、Cas 12a或Cas12f。

399.根据权利要求397或权利要求398所述的复合物，还包含第一逆转录酶，所述第一逆转录酶用于在所述第二链中由所述第一Cas蛋白引起的所述切口处形成所述扩增衔接子位点的扩增子。

400.根据权利要求399所述的复合物，其中所述第一逆转录酶与所述第一Cas蛋白偶联。

401.根据权利要求400所述的复合物，其中所述第一逆转录酶和所述第一Cas蛋白是第一融合蛋白的组分。

402.根据权利要求396至401中任一项所述的复合物，其中所述第一引物结合位点与所述第一CRISPR前间隔序列的至少一部分大致互补。

403.根据权利要求396至402中任一项所述的复合物，其中所述第一扩增衔接子位点位于所述第一引物结合位点与所述第一CRISPR前间隔序列之间。

404.根据权利要求396至403中任一项所述的复合物，其中所述第一gRNA还包括至少一个环。

405.根据权利要求404所述的复合物，其中第一环位于所述第一扩增衔接子位点与所述第一CRISPR前间隔序列之间。

406.根据权利要求405所述的复合物，其中第二环位于所述第一扩增衔接子位点与所述第一CRISPR前间隔序列之间。

407.根据权利要求396至406中任一项所述的复合物，还包含第二Cas-gRNA RNP，所述第二Cas-gRNA RNP包括：

包括第二引物结合位点、第二扩增衔接子位点和第二CRISPR前间隔序列的第二向导RNA；和

结合所述第二CRISPR前间隔序列的第二Cas蛋白，

其中所述第二CRISPR前间隔序列与所述第一链杂交，并且所述第二引物结合位点与所述第二链杂交。

408.根据权利要求407所述的复合物，其中所述第一链和所述第二链被所述第二Cas-gRNA RNP在基于所述第二CRISPR前间隔序列的所述序列的相应位置处切割。

409.根据权利要求408所述的复合物，其中所述第一链和所述第二链中由所述第二Cas-gRNA RNP形成的所述切口与所述第一链和所述第二链中由所述第一Cas-gRNA RNP形成的所述切口间隔开至少一个靶序列。

410.根据权利要求408或权利要求409所述的复合物，其中所述第二Cas蛋白包括Cas9、Cas 12a或Cas12f。

411.根据权利要求408至410中任一项所述的复合物，还包含第二逆转录酶，所述第二逆转录酶用于在所述第二链中由所述第二Cas蛋白引起的所述切口处形成所述扩增衔接子位点的扩增子。

412.根据权利要求411所述的复合物，其中所述第二逆转录酶与所述第二Cas蛋白偶联。

413.根据权利要求412所述的复合物，其中所述第二逆转录酶和所述第二Cas蛋白是第二融合蛋白的组分。

414.根据权利要求407至413中任一项所述的复合物，其中所述第二引物结合位点与所述第二CRISPR前间隔序列的至少一部分大致互补。

415.根据权利要求396至414中任一项所述的复合物，其中所述第二扩增衔接子位点位于所述第二引物结合位点与所述第二CRISPR前间隔序列之间。

416.一种部分双链多核苷酸片段，所述部分双链多核苷酸片段包括：

包括第一3'突出端的第一末端；

第二末端；和

位于所述第一末端和所述第二末端之间的靶序列。

417.根据权利要求416所述的片段，其中所述第一3'突出端包括第一扩增衔接子。

418.根据权利要求416或权利要求417所述的片段，其中所述第二末端包括第二3'突出端。

419.根据权利要求418所述的片段，其中所述第二3'突出端包括第二扩增衔接子。

420.一种方法，所述方法包括：

使第一CRISPR相关蛋白向导RNA核糖核蛋白(Cas-gRNARNP)与包括第一链和第二链的多核苷酸接触，

其中所述第一Cas-gRNA包括：

包括第一引物结合位点、第一扩增衔接子位点和第一CRISPR前间隔序列的第一向导RNA；以及

结合所述第一CRISPR前间隔序列的第一Cas蛋白；

使所述第一CRISPR前间隔序列与所述第一链杂交；以及

使所述第一引物结合位点与所述第二链杂交。

421.根据权利要求420所述的方法，还包括由所述第一Cas-gRNA RNP在基于所述第一CRISPR前间隔序列的所述序列的相应位置处切割所述第一链和所述第二链。

422.根据权利要求421所述的方法，其中所述第一Cas蛋白包括Cas9、Cas 12a或Cas12f。

423.根据权利要求421或权利要求422所述的方法，还包括使用第一逆转录酶在所述第二链中由所述第一Cas蛋白引起的所述切口处生成所述扩增衔接子位点的扩增子。

424.根据权利要求423所述的方法，其中所述第一逆转录酶与所述第一

Cas蛋白偶联。

425.根据权利要求424所述的方法，其中所述第一逆转录酶和所述第一

Cas蛋白是第一融合蛋白的组分。

426.根据权利要求420至425中任一项所述的方法，其中所述第一引物结合位点与所述第一CRISPR前间隔序列的至少一部分大致互补。

427.根据权利要求420至426中任一项所述的方法，其中所述第一扩增衔接子位点位于所述第一引物结合位点与所述第一CRISPR前间隔序列之间。

428.根据权利要求420至427中任一项所述的方法，其中所述第一gRNA还包括至少一个环。

429.根据权利要求428所述的方法，其中第一环位于所述第一扩增衔接子位点与所述第一CRISPR前间隔序列之间。

430.根据权利要求429所述的方法，其中第二环位于所述第一扩增衔接子位点与所述第一CRISPR前间隔序列之间。

431.根据权利要求420至430中任一项所述的方法，还包括：

使所述多核苷酸与第二Cas-gRNA RNP接触，

其中所述第二Cas-gRNA RNP包括：

结合所述第二CRISPR前间隔序列的第二Cas蛋白；

使所述第二CRISPR前间隔序列与所述第一链杂交；以及

使所述第二引物结合位点与所述第二链杂交。

432.根据权利要求431所述的方法，还包括由所述第二Cas-gRNA RNP在基于所述第二CRISPR前间隔序列的所述序列的相应位置处切割所述第一链和所述第二链。

433.根据权利要求432所述的方法，其中所述第一链和所述第二链中由所述第二Cas-gRNA RNP形成的所述切口与所述第一链和所述第二链中由所述第一Cas-gRNA RNP形成的所述切口间隔开至少一个靶序列。

434.根据权利要求432或433所述的方法，其中所述第二Cas蛋白包括Cas9、Cas 12a或Cas12f。

435.根据权利要求432至434中任一项所述的方法，还包括使用第二逆转录酶在所述第二链中由所述第二Cas蛋白引起的所述切口处生成所述扩增衔接子位点的扩增子。

436.根据权利要求435所述的方法，其中所述第二逆转录酶与所述第二Cas蛋白偶联。

437.根据权利要求436所述的方法，其中所述第二逆转录酶和所述第二Cas蛋白是第二融合蛋白的组分。

438.根据权利要求431至437中任一项所述的方法，其中所述第二引物结合位点与所述第二CRISPR前间隔序列的至少一部分大致互补。

439.根据权利要求431至438中任一项所述的方法，其中所述第二扩增衔接子位点位于所述第二引物结合位点与所述第二CRISPR前间隔序列之间。

440.根据权利要求435至439中任一项所述的方法，其中所述第一Cas-gRNA RNP和所述第二Cas-gRNA RNP以及所述第一逆转录酶和所述第二逆转录酶生成具有第一末端和第二末端的部分双链的多核苷酸片段，

所述第一末端包括第一3'突出端；

所述第二末端包括第二3'突出端；以及

位于所述第一末端和所述第二末端之间的靶序列。

441.根据权利要求440所述的方法，其中所述第一3'突出端包括所述第一扩增衔接子位点的所述扩增子。

442.根据权利要求440或权利要求441所述的方法，其中所述第二3'突出端包括所述第二扩增衔接子位点的所述扩增子。

443.根据权利要求442所述的方法，还包括：

将第三扩增衔接子连接到所述第一末端处的5'基团；

将第四扩增衔接子连接到所述第二末端处的5'基团；

使用所述第一扩增衔接子、所述第二扩增衔接子、所述第三扩增衔接子和所述第四扩增衔接子扩增所述片段；以及

对所扩增的片段进行测序。