CN114174499A

CN114174499A - 具有组合基因修饰的工程化细胞的生产和跟踪

Info

Publication number: CN114174499A
Application number: CN202080016536.6A
Authority: CN
Inventors: M·萨利特; L·M·施泰因梅茨; R·圣昂格; J·D·史密斯; K·罗伊
Original assignee: United States Government Represented By Secretary Of Commerce; Leland Stanford Junior University
Current assignee: United States Government Represented By Secretary Of Commerce; Leland Stanford Junior University
Priority date: 2019-02-08
Filing date: 2020-02-07
Publication date: 2022-03-11
Also published as: WO2020163779A1; JP2022520063A; EP3921411A4; CA3129265A1; EP3921411A1; US20220389415A1

Abstract

本文描述了通过将基因变体(设计的或随机的)或构建体(基因或其他任意的DNA)的组合引入细胞群来制造基因修饰的细胞以及通过在称为条形码基因座的公共基因座(染色体或质粒)处顺序构建条形码阵列来跟踪每个变体组合的方法。还描述了通过这些方法制成的细胞。

Description

具有组合基因修饰的工程化细胞的生产和跟踪

相关申请的交叉引用

本申请要求于2019年2月8日提交的美国临时申请号62/803,242的优先权，该申请的全部内容通过引用并入本文。

有关联邦资助的研究或发展的声明

本发明是在美国国家卫生研究院授予的合同HG000205和美国国家标准与技术研究院授予的合同70NANB15H268的政府支持下完成的。政府拥有本发明的某些权利。

背景技术

揭露复杂表型的基因基础以及工程化具有期望性质的生物系统是数量遗传学和合成生物学中的核心挑战。为了实现这些目标，需要能够并行测试许多不同的基因变体和途径的功能输出的技术。DNA合成的最新进展已使得能够很容易地构建CRISPR引导文库、配对的引导RNA供体DNA文库和基因变体文库，从而使得能够生成大池的基因变体。虽然存在在多重测试中跟踪此类单个变体的方法，其中每个细胞具有单个扰动，但是当前几乎没有可用于以混合格式产生和跟踪基因变体的更高阶组合的可扩展的方法。此类技术对于了解变体如何相互作用以调整表型来说至关重要。

因此，仍然需要更有效、灵活和可扩展的在单个细胞中产生和跟踪任意数量的基因改变的方法。

发明内容

本公开涉及一种用于将基因变体(设计的或随机的)或构建体(基因或其他任意的DNA)的组合引入细胞群以及通过在称为条形码基因座的公共基因座(染色体或质粒)处顺序构建条形码阵列来跟踪每个变体组合的方法。每个变体、基因构建体或基因修饰由所述阵列内的独特条形码表示，使得条形码阵列的DNA测序使得能够通过基于测序的计数来跟踪群内每个变体组合的丰度。重要的是，本文描述的方法不限于与CRISPR介导的基因组编辑的关联，并且对于产生设计或随机的基因变化的任何基因修饰过程或对于在DNA中存储和压缩任意数字信息来说具有更广泛的应用。

在一个方面，本公开涉及一种产生多个基因工程细胞的方法。在实施例中，所述方法包括(a)使多个细胞与第一基因编辑剂和第一多个重组多核苷酸接触，每个重组多核苷酸包含独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞具有插入条形码基因座中的所述第一独特的多核苷酸条形码以及第一独特的基因修饰；以及(b)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂和第二多个重组多核苷酸接触，每个重组多核苷酸包含独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞具有插入条形码基因座中的所述第二独特的多核苷酸条形码以及第二独特的基因修饰；从而产生多个基因工程细胞。在实施例中，所述方法包括重复步骤(b)一次或多次，其中步骤(b)的每次重复采用多个重组多核苷酸，使得所述条形码基因座包括具有重组多核苷酸条形码的独特组合的条形码阵列。

在一个方面，提供了一种通过下列方式产生多个基因工程细胞的方法：(a)使多个细胞与第一基因编辑剂接触，从而产生各自具有第一独特的基因修饰的第一多个基因编辑细胞；(b)将第一多个重组多核苷酸转染到所述第一多个基因编辑细胞中，每个重组多核苷酸包含第一独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞具有插入条形码基因座的所述第一独特的多核苷酸条形码和所述第一独特的基因修饰；(c)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂接触，从而产生各自具有第二独特的基因修饰的第二多个基因编辑细胞；以及(d)将第二多个重组多核苷酸转染到所述第二多个基因编辑细胞中，每个重组多核苷酸包含第二独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，使得将第二独特的多核苷酸条形码插入所述第二多个基因编辑和条形码化的细胞中每一个的条形码基因座中，每个基因编辑和条形码化的细胞具有插入条形码基因座中的所述第二独特的多核苷酸条形码和所述第二独特的基因修饰；从而产生多个基因工程细胞。在实施例中，所述方法包括重复步骤(c)和(d)一次或多次，其中步骤(c)和(d)的每次重复采用多个重组多核苷酸，使得所述条形码基因座包括条形码阵列，其包含重组多核苷酸条形码的独特组合。

在实施例中，所述第一独特的多核苷酸条形码与所述第一多个基因编辑和条形码化的细胞中每一个中的所述第一独特的基因修饰相关联。在实施例中，对所述第一多个基因编辑和条形码化的细胞中每一个的所述条形码基因座和所述基因组的至少一部分进行测序，使得所述第一独特的多核苷酸条形码与数据库中的所述第一独特的基因修饰相关联。

在实施例中，所述第二独特的多核苷酸条形码与所述第二多个基因编辑和条形码化的细胞中每一个中的所述第二独特的基因修饰相关联。在实施例中，对所述第二多个基因编辑和条形码化的细胞中每一个的所述条形码基因座和所述基因组的至少一部分进行测序，使得所述第二独特的多核苷酸条形码与数据库中的所述第二独特的基因修饰相关联。

在实施例中，所述方法包括通过对所述条形码基因座进行测序来识别所述多个基因工程细胞中每一个中的基因突变。

在一个方面，提供了一种产生多个条形码化的细胞的方法。在实施例中，所述方法包括(a)使多个细胞与第一多个重组多核苷酸接触，每个重组多核苷酸包含独特的多核苷酸条形码序列，使得将第一独特的多核苷酸条形码插入所述第一多个细胞中每一个的条形码基因座中，从而形成第一多个条形码化的细胞。在实施例中，所述方法还包括(b)使所述第一多个条形码化的细胞与第二多个重组多核苷酸接触，每个重组多核苷酸包含独特的多核苷酸条形码序列，使得将第二独特的多核苷酸条形码插入所述第一多个基因编辑和条形码化的细胞中每一个的所述条形码基因座中，从而形成第二多个基因编辑和条形码化的细胞。

在一个方面，提供了一种将多核苷酸信息压缩成细胞内单个条形码的方法。在实施例中，所述方法包括获得细胞，其在条形码基因座(条形码阵列)中具有至少两个独特的多核苷酸条形码；在所述细胞的所述条形码基因座中插入新的独特的多核苷酸条形码；以及对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码(压缩器条形码)与所述至少两个独特的多核苷酸条形码相关联。在实施例中，所述方法还包括从具有留在所述条形码基因座中的所述压缩器条形码的所述细胞的所述条形码基因座去除所述至少两个独特的多核苷酸条形码。此过程可以称为“条形码压缩”。

在一个方面，提供了通过本文描述的方法制成的多个基因编辑和条形码化的细胞。

在一个方面，提供了通过本文描述的方法制成的一种基因编辑和条形码化的细胞。

在实施例中，与所述条形码基因座中所述先前独特的多核苷酸条形码相邻近地添加每个独特的多核苷酸条形码。在实施例中，在所述条形码基因座中所述先前独特的多核苷酸条形码的上游添加每个独特的多核苷酸条形码。在实施例中，在所述条形码基因座中所述先前独特的多核苷酸条形码的下游添加每个独特的多核苷酸条形码。

在实施例中，每个独特的多核苷酸条形码在所述重组多核苷酸上的侧翼是右同源臂和/或左同源臂。即，右同源臂可以在所述独特的多核苷酸条形码的一侧，并且左同源臂在另一侧。参见，例如，图1A至1D。在实施例中，每个第一独特的多核苷酸条形码在所述第一多个多核苷酸的每个重组多核苷酸上的侧翼是第一右同源臂、第二右同源臂和左同源臂，使得所述第一右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。在实施例中，每个第二独特的多核苷酸条形码在所述第二多个多核苷酸的每个重组多核苷酸上的侧翼是所述第二右同源臂、所述左同源臂并且可选的是第三右同源臂，使得在将所述第一独特的多核苷酸条形码整合到所述条形码基因座中之后，所述第二右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。

在实施例中，所述第一多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第二右同源臂之间的第一标记多核苷酸。在实施例中，所述第二多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第三右同源臂之间的第二标记多核苷酸。在实施例中，所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。在实施例中，每个重组多核苷酸还包括标记多核苷酸。在实施例中，所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。在实施例中，所述方法包括选择存在整合至所述条形码基因座中的所述标记多核苷酸的细胞。在实施例中，所述方法包括选择不存在从所述条形码基因座去除的所述标记多核苷酸的细胞。在实施例中，所述第一多个重组多核苷酸中的所述标记多核苷酸不同于所述第二多个重组多核苷酸中的所述标记多核苷酸。

在实施例中，通过同源重组将每个独特的多核苷酸插入所述条形码基因座中。在实施例中，每个独特的多核苷酸通过非同源末端连接插入所述条形码基因座中。在实施例中，每个独特的多核苷酸使用整合酶或转座酶插入所述条形码基因座中。

在实施例中，所述第一基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、RNA引导的核酸酶、化学试剂、重组酶、整合酶或转座酶。在实施例中，所述第二基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、成簇的规律间隔的短回文重复序列(CRISPR)系统、化学试剂、重组酶、整合酶或转座酶。在实施例中，所述第一和/或第二基因编辑剂是RNA引导的核酸酶。在实施例中，所述第一基因编辑剂是CRISPR系统。在实施例中，所述第一基因编辑剂是CRISPR/Cas9系统。在实施例中，所述第二基因编辑剂是CRISPR系统。在实施例中，所述第二基因编辑剂是CRISPR/Cas9系统。在实施例中，所述第一基因编辑剂和所述第二基因编辑剂相同。在实施例中，所述第一基因编辑剂和所述第二基因编辑剂不同。

在实施例中，所述方法包括对源于所述第一多个基因编辑和条形码化的细胞中的细胞的所述染色体的至少一部分进行测序。在实施例中，所述方法包括对源于所述第二多个基因编辑和条形码化的细胞中的细胞的所述染色体的至少一部分进行测序。在实施例中，对所述条形码基因座进行测序。在实施例中，至少一个基因修饰是通过测序确定的。

在实施例中，所述方法包括用独特的多核苷酸条形码识别至少一个基因修饰。

在实施例中，所述方法包括(i)在每个细胞的所述条形码基因座中插入新的独特的多核苷酸条形码，其中在插入所述新的独特的多核苷酸条形码之前，所述条形码基因座包含至少两个独特的多核苷酸条形码。在实施例中，所述方法包括(ii)对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码与所述至少两个先前独特的多核苷酸条形码相关联。在实施例中，所述方法包括(iii)从每个细胞的所述条形码基因座去除所述至少两个先前独特的多核苷酸条形码。在实施例中，所述方法包括重复步骤(a)、(b)、(c)和/或(d)，从而产生多个基因工程细胞。在实施例中，所述方法包括重复步骤(i)、(ii)和/或(iii)，从而产生多个基因工程细胞。

在实施例中，每个重组多核苷酸还包括编码RNA引导的核酸酶(或切口酶)的第三多核苷酸。在实施例中，每个重组多核苷酸还包括供体多核苷酸。在实施例中，所述RNA引导的核酸酶由整合到所述细胞的所述基因组中的载体或第二核酸序列提供。在实施例中，所述RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。在实施例中，所述Cas核酸酶是Cas9或Cas12a。在实施例中，所述RNA引导的核酸酶是SpCas9、SaCas9、NmCas9、St1Cas9、FnCas9、Cas12a(例如，FnCpf1、AsCpf1、LbCpf1)、Mad7、CasX、CasY、Cas13a、C2c1、C2c2、C2c3、LshC2c2、Cas14、dSpCas9-FokI、Split-SpCas9、SpCas9-切口酶。

在实施例中，任何或每个重组多核苷酸由载体提供。在实施例中，所述载体是质粒载体或病毒载体。在实施例中，所述载体是高拷贝数载体。在实施例中，通过例如，反转录子系统来表达和逆转录任何或每个重组多核苷酸。

在实施例中，每个重组多核苷酸还包括编码能够与所述重组多核苷酸杂交的引导RNA(例如，引导X)的第二核酸序列。在实施例中，所述引导RNA与每个细胞中的核酸酶形成复合物，使得所述引导RNA-核酸酶复合物切割所述重组多核苷酸。在实施例中，所述重组多核苷酸是质粒载体并且核酸酶复合物(例如，引导RNA-核酸酶复合物)使所述质粒载体线性化。

在实施例中，从所述细胞去除所述载体(例如，质粒)(例如，在所述插入步骤之后)。在实施例中，所述载体被所述细胞中的核酸酶切割。在实施例中，例如，通过细胞在不选择用于保留所述载体的培养基中的生长来使所述载体从所述细胞被动地失去。

在实施例中，每个重组多核苷酸还包括编码能够与所述重组多核苷酸杂交的引导RNA(例如，引导X)的第二核酸序列，其中所述引导RNA与每个细胞中的核酸酶形成复合物，使得所述引导RNA-核酸酶复合物切割所述条形码基因座。在实施例中，编码引导RNA的所述核酸序列位于与所述供体DNA和/或所述条形码多核苷酸不同的多核苷酸上。在实施例中，在与包含所述条形码多核苷酸的所述多核苷酸分开的步骤中，所述细胞与编码引导RNA的所述核酸序列接触。

在实施例中，所述条形码基因座是染色体条形码基因座。在实施例中，所述条形码基因座是质粒条形码基因座。

在实施例中，所述基因修饰是设计的基因修饰。

鉴于本文的公开内容，本领域的技术人员将容易想到本主题公开内容的这些和其他实施例。

附图说明

图1A至1D示出了递归条形码键合的元素。图1A示出了条形码化方法的示例用途。图1B至1D示出了递归条形码化的示例操作。其示出了两个版本的条形码递归，其是通过它们是由可选标记(左)辅助还是不包括可选标记(右)来定义的。条形码化由宿主细胞同源重组(HR)启用，其利用了两个同源臂，称为左同源(LH)和右同源(RH)。

图2A至2C示出了条形码压缩的示例。图2A表示整合到多个细胞中的条形码阵列，所述多个细胞中的每一个已经在条形码基因座中包含了多个条形码。图2B示出了将压缩器条形码(bc_1..4)插入到已经包含多个条形码(bc4、bc3、bc2、bc1)的条形码基因座中，接下来对条形码基因座进行测序以将bc4、bc3、bc2和bc1“压缩”成bc_1..4。如图2C所示，可以执行额外的递归条形码键合，而无需对后续读数中的压缩条形码进行测序。

图3A至3B示出了去除了条形码并且回收了插入元素的条形码压缩。图3A示出了将压缩器条形码(bc_1..4)插入到已经包含多个条形码(bc4、bc3、bc2、bc1)的条形码基因座中，接下来对条形码基因座进行测序以将bc4、bc3、bc2和bc1“压缩”成bc_1..4。图3B示出了下一轮条形码化，其使得能够去除不再需要的键合的条形码。在该示例中，邻近bc_1..4的左侧插入bc5，并且在该过程中，去除了bc1、bc2、bc3和bc4，以及RH1、RH2、RH3、RH4和RH5及其相关联的切割位点。这允许在下一系列的条形码化轮次中回收这些元素。

图4A至4B示出了递归条形码压缩。图4A示出了第二轮的条形码压缩，其在结构上可以与第一轮相同(例如，如图3A至3B所述)，这涉及使用相同的RH元素，但却不同的同源性和切割位点，以进一步实现至左侧的条形码键合和至右侧的条形码压缩。在该示例轮次的条形码压缩中，传入的条形码bc_1..7压缩键合的条形码bc5、bc6和bc7以及先前压缩的bc_1..4两者。如图4B所示，至左侧的下一轮条形码键合去除了bc5、bc6和bc7以及先前压缩的bc_1..4，从而使得能够在下一系列的条形码化轮次中回收先前使用的插入元素。

图5A至5B示出了递归条形码键合和压缩的示例操作。

图6示出了文库克隆以键合引导-供体与独特的DNA条形码的示例方法。

图7示出了经由自毁质粒同时进行编辑和条形码整合的示例方法。

图8示出了条形码的高阶的引导-供体编辑和顺序键合的示例方法。

图9示出了引导-供体条形码压缩的示例方法。

图10示出了经由条形码压缩的超高阶编辑的示例方法。

图11A至11B示出了具有用于起始(第0轮)细胞的不同可选择标记的示例条形码基因座。

图12示出了在没有引导-供体整合的情况下，用于条形码整合的示例克隆条形码化的引导-供体文库。

图13示出了在没有引导-供体整合的情况下，用于条形码整合的一系列特定轮次插入物的构建示例。

图14示出了在没有引导-供体整合的情况下，关联引导-供体条形码与插入物条形码以进行条形码整合的示例方法。

图15A至15C示出了针对单个条形码的同时发生的基因组编辑，引导-供体条形码整合和质粒自毁。

图16A至16C示出了总体方法。源于第1轮的两个不同的条形码化菌株进行了与单个条形码化CAN1引导-供体质粒的第二轮的递归条形码键合，其中通过Sanger测序确认了在条形码基因座处的条形码键合(图16C)。

图17示出了在存在或不存在RH近侧切割位点的情况下条形码化效率对RH长度的依赖性。所有构建体都具有LH近侧切割位点。

图18示出了构建多核苷酸文库的示例方法，每个多核苷酸包含用于插入染色体整合位点中的基因变体和相关联的条形码。

图19示出了在条形码基因座处同时发生的条形码键合和条形码化的基因串联的示例方法。

图20示出了对全基因文库和用于在任意基因座处插入基因的途径进行条形码化的示例方法。

图21示出了同时发生的在条形码基因座处的条形码插入和在任意基因座处的基因插入。

图22A至22C示出了对具有位于供体侧翼的反转录子元素的引导-供体质粒的修饰。供体由RNA聚合酶II启动子转录，核酶去除了5′帽和聚(A)尾，并且反转录子元素(msr/msd)促进了供体RNA的逆转录以生成供体cDNA。在此系统修饰中，对靶变体的编辑可以通过与供体cDNA或基于质粒的供体的同源重组而进行。

图23A至23C示出了经由供体质粒和条形码基因座上的多个切割位点整合引导-供体质粒的示意图。详细描述了用于在期望的基因座进行引导-供体整合的多个切割位点的序列。除了用于基因编辑的核酸酶(本示例中为Cas9)之外的可诱导核酸酶(此处示出了Cpf1/Cas12a和I-SceI)使得能够将质粒的引导-供体部分整合到基因组中，以及进行后续的引导-供体质粒破坏。

图24A是已用照片上所示的条形码化的方法暴露于半乳糖十二代的平板接种有酵母的培养皿的照片。在具有和没有锤头核酶(HHR)的帮助以去除引导前导的情况下，Cpf1/Cas12a引导在两个不同的启动子(RPR1-TetO和GAL7)下以两个不同的引导序列(X1和X2)表达。对于最左侧五列而言，Cpf1/Cas12a被置于Gal-L启动子的控制之下。对于所示列而言，具有和不具有双核定位信号(NLS)的I-SceI核酸酶被置于Gal-L启动子的控制之下。将大约1000个酵母细胞平板接种在所示的培养基上。YPD使得所有存活细胞能够形成集落，5FC-HIS选择经过条形码整合和质粒去除的细胞，5FOA选择经过条形码整合的细胞，并且-URA选择没有经过条形码整合的细胞。针对无引导和无SceI的对照指示在没有引导切割的情况下，不会进行条形码整合和质粒去除。

图24B是在时间零(无半乳糖诱导)下平板接种有酵母的培养皿的照片，其示出了Cpf1/Cas12a-引导X系统或I-SceI系统的最少泄漏。

图24C是已暴露于半乳糖六代的平板接种有酵母的培养皿的照片。将大约1000个酵母细胞平板接种在所示的培养基上。在不同培养基上的生长指出条形码整合和质粒去除的不同百分比。

图25是酵母集落阵列的照片，其示出了在1536密度YPD琼脂上生长期间被动的Cas9质粒丢失。具有yKR4(删除了URA3基因的对照)、yKR267(质粒上的Cas9/URA3/hphMX)和yKR649(基因组中的Cas9/URA3/hphMX)的集落阵列首先被压印在YPD上，以允许每个集落中一小部分细胞失去Cas9质粒(左上角)。然后将该阵列复制平板接种到由维持对Cas9的选择的YPD+潮霉素B(YPD+Hyg，左下角)，维持对Cas9的选择的-URA(右上角)以及需要丢失Cas9质粒以使得能够实现集落生长的5-FOA所组成的琼脂。具有基因组Cas9(yKR649)的菌株不会丢失Cas9/URA3/hphMX构建体，这是因为其与酵母基因组稳定遗传。

图26是示出具有与其他质粒组分相反方向中的TDH3-HDV-msr/msd反转录子序列的引导-供体质粒的示意图。

图27是平板接种有yKR649酵母的培养皿的照片，其示出了与瞬时表达的SceI的条形码整合。编码针对SceI的DNA的PCR产物与供体质粒共转化。SceI在基因组和质粒多切割位点进行切割，以用于条形码和迭代位点整合以及用于供体质粒破坏。针对包含HIS3基因的引导-供体质粒，平板在5-FC反选择培养基上平板接种有yKR649酵母菌株。与低效掺入(零或少数集落)相比，具有高效的引导-供体或条形码掺入的平板显示出大量集落。

图28A至28C呈现了与MARVEL质粒的体内组装同时地进行编辑的策略。图28A：图示显示了克隆到质粒骨架中引导-供体寡核苷酸，其中与供体邻近地添加了标记为bc0的条形码序列。图28B：图示显示了可以首先在酵母或细菌中解析第1轮质粒以创建文库，其中每个引导-供体具有完美的序列并且以相等的丰度存在，并且随后通过体外SceI酶处理去除MARVEL第1轮插入物，从而留下左同源性(CYC1t)和右同源性(msd)。图28C：图示显示了由SceI切割生成的线性化骨架可以与适当轮次的MARVEL插入物一起直接转化至酵母中。酵母同源性定向修复经由存在于引导-供体骨架和条形码化的MARVEL插入物上的左同源性(CYC1t)和右同源性(msd)来组装质粒。

具体实施方式

在阅读了该描述之后，本领域的技术人员将清楚如何在各种替代实施例和替代应用中实现本文所述的技术。然而，本文将不会描述所有的各种实施例。应当理解，这里呈现的实施例是仅作为示例而非限制来呈现的。就这点而言，各种替代实施例的详细描述不应被解释为限制如本文所阐述的本公开的范围或广度。

应当理解，以下描述的方面不限于具体的组合物、制备此类组合物的方法或其用途并且因此当然可以变化。还应当理解，本文所用的术语仅用于描述特定方面的目的，并且不旨在进行限制。

将详细描述分成各个部分仅是为了方便读者，并且在任何部分中的公开内容可以与在另一部分中的进行组合。为了方便读者，说明书中可能会使用标题或副标题，其不旨在影响本公开的范围。

定义

除非另有定义，否则本文使用的所有技术和科学术语具有与本技术所属领域的普通技术人员通常理解的相同的含义。在本说明书和随后的权利要求中，将引用许多应定义为具有以下含义的术语：

本文所用的术语仅用于描述特定实施例的目的，并且不旨在进行限制。如本文所使用的，单数形式“一个”、“一种”和“该”也旨在包括复数形式，除非上下文另有明确指示。

“可选的”或“可选地”是指随后描述的事件或情况可能或不可能发生，以及描述包括其中发生了该事件或情况的实例以及未发生该事件或情况的实例。

当在数字名称，例如，温度、时间、量、浓度等(包括范围)前使用时，术语“约”表示近似值，其可以变化(+)或(-)10％、5％、1％或其之间的任何子范围或子值。优选地，当关于量使用时，术语“约”表示该量可以变化+/-10％。

“包括”或“包含”旨在表示组合物和方法包括所述的要素，但并不排除其他要素。当用于定义组合物和方法时，“基本上由......组成”应该表示排除了对用于所述目的的组合具有任何重要显著性的其他要素。因此，基本上由如本文定义的元素组成的组合物不排除不会实质上影响权利要求的基本和新颖特性的其他材料或步骤。“由……组成”应该表示排除其他组分的微量元素以及实质性的方法步骤。由这些过渡术语中的每一个定义的实施例都在本公开的范围内。

“条形码”是指一种或多种多核苷酸序列，其用于识别条形码所关联的核酸或细胞。条形码的长度可以是3-1000或更多个核苷酸。在实施例中，长度优选为10-250个核苷酸。在实施例中，长度为10-30个核苷酸。在实施例中，长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000个核苷酸。例如，可以使用条形码来识别核酸所源于的单个细胞、细胞亚群、集落或样品。条形码也可用于识别核酸所源于的细胞、集落或样品的位置(即，位置条形码)，诸如集落在细胞阵列中的位置、孔在多孔板中的位置或管、烧瓶或其他容器在架子上的位置。特别地，条形码可以用于识别核酸所源于的基因修饰细胞。在一些实施例中，条形码用于识别特定类型的基因组编辑。例如，引导RNA-供体多核苷酸盒本身可以用作条形码来识别核酸所源于的基因修饰细胞。替代地，可以使用独特的条形码来识别在多重基因组编辑中使用的每个引导-RNA-供体多核苷酸盒。此外，可以组合使用多个条形码来识别核酸的不同特征。例如，位置条形码化(例如，用于识别阵列、多孔板或架子中的细胞、集落、培养物或样品的位置)可以与条形码组合，该条形码识别用于基因组编辑中的引导-RNA-供体多核苷酸盒。在一些实施例中，在每轮基因组编辑时将条形码插入核酸中(例如，在“条形码基因座”处)以识别用于细胞的基因修饰中的引导-RNA和/或供体多核苷酸。

术语“多肽”和“蛋白质”是指氨基酸残基的聚合物并且不限于最小长度。因此，肽、寡肽、二聚体、多聚体等包括在定义内。该定义包含全长蛋白及其片段。该术语还包括多肽的表达后修饰，例如糖基化、乙酰化、磷酸化、羟基化等。此外，出于本公开的目的，“多肽”是指包括修饰，诸如对天然序列的缺失、添加和取代的蛋白质，只要该蛋白质表现出期望的活性即可。这些修饰可能是有意的，如通过位点定向诱变进行的，或者可能是偶然的，诸如通过产生蛋白质或由于PCR扩增产生错误的宿主突变进行的。

术语“基因修饰”是指细胞基因组(染色体或染色体外，例如质粒、线粒体)内的任何变化。基因修饰可以包括但不限于多核苷酸序列中一个或多个核苷酸的突变、缺失、插入或取代；多核苷酸序列的插入；多核苷酸序列的缺失，例如，基因或基因的一部分；多核苷酸序列的易位或相互易位；染色体融合；和/或对多核苷酸序列的表观基因修饰。

如本文所使用的，术语“Cas9”包含来自任何种类的II型成簇的规律间隔的短回文重复序列(CRISPR)系统Cas9核酸内切酶，并且还包括其保留Cas9核酸内切酶活性(即催化DNA的位点定向切割以生成双链断裂)的生物活性片段、变体、类似物和衍生物。Cas9核酸内切酶在包括与其结合的引导RNA(gRNA)互补的序列的位点处结合并且切割DNA。

Cas9多核苷酸、核酸、寡核苷酸、蛋白质、多肽或肽是指源自任何来源的分子。分子不必物理地源于生物体，而是可以是合成或重组产生的。源于许多细菌物种的Cas9序列是本领域中公知的，并且列在国家生物技术信息中心(NCBI)的数据库中。参见，例如，用于Cas9的NCBI条目源于：化脓性链球菌(WP_002989955、WP_038434062、WP_011528583)；空肠弯曲杆菌(WP_022552435、YP_002344900)、大肠弯曲杆菌(WP_060786116)；胎儿弯曲杆菌(WP_059434633)；溃疡棒状杆菌(NC_015683、NC_017317)；白喉棒状杆菌(NC_016782、NC_016786)；粪肠球菌(WP_033919308)；栖苍蝇螺原体(NC_021284)；中间普氏菌(NC_017861)；台湾螺原体(NC_021846)；海豚链球菌(NC_021314)；波罗的海贝尔氏菌(NC_018010)；扭曲冷弯曲菌(NC_018721)；嗜热链球菌(YP_820832)、变形链球菌(WP_061046374、WP_024786433)；无害李斯特菌(NP_472073)；单核细胞增生李斯特菌(WP_061665472)；嗜肺军团菌(WP_062726656)；金黄色葡萄球菌(WP_001573634)；土拉弗朗西斯菌(WP_032729892、WP_014548420)、粪肠球菌(WP_033919308)；鼠李糖乳杆菌(WP_048482595、WP_032965177)；以及脑膜炎奈瑟菌(WP_061704949、YP_002342100)；所有这些序列(截至本申请的提交日期录入的)均通过引用并入本文。包括与其具有至少约70-100％序列同一性的序列，包括在该范围内的任何百分比同一性，诸如70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％的序列同一性的这些序列或其变体中的任一个可以用于基因组编辑，如本文所述，其中变体保留生物活性，诸如Cas9位点定向核酸内切酶活性。由包括与其具有至少约70-100％序列同一性的氨基酸序列，包括在该范围内的任何百分比同一性，诸如70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％的序列同一性的这些序列或其变体中的任一个制成的氨基酸序列可以用于基因组编辑，如本文所述，其中变体保留生物活性，诸如Cas9位点定向核酸内切酶活性。也可以参见Fonfara等，(2014)Nucleic Acids Res.，42(4)：2577-90；Kapitonov等，(2015)J.Bacteriol，198(5)：797-807，Shmakov等，(2015)Mol.Cell.，60(3):385-397以及Chylinski等，(2014)Nucleic Acids Res.，42(10)：6091-6105)；其用于序列比较和讨论Cas9的遗传多样性和系统发育分析。

如本文所述的RNA引导的核酸酶可以是切口酶。CRISPR/Cas切口酶突变体在DNA中引入gRNA靶向的单链断裂，而不是由野生型Cas酶创建的双链断裂。

“衍生物”是指对感兴趣的天然多肽、天然多肽的片段或其各自类似物的任何合适的修饰，诸如糖基化、磷酸化、聚合物缀合(诸如，与聚乙二醇)或另外添加外源部分，只要保留了天然多肽的期望的生物活性即可。用于制造多肽片段、类似物和衍生物的方法通常是本领域中可获得的。

“片段”是指仅由完整的全长序列和结构的一部分组成的分子。该片段可以包括多肽的C-末端缺失、N-末端缺失和/或内部缺失。特定蛋白质或多肽的活性片段通常将包括全长分子的至少约5-10个连续的氨基酸残基，优选为全长分子的至少约15-25个连续的氨基酸残基，并且最优选为全长分子的至少约20-50个或更多个连续的氨基酸残基，或5个氨基酸与全长序列之间的任何整数，只要所讨论的片段保留了生物活性，诸如Cas9位点定向核酸内切酶活性即可。

“基本纯化的”通常是指隔离物质(化合物、多核苷酸、核酸、蛋白质、多肽、多肽组合物)，使得该物质包括其所在样品中的大部分百分比。通常在样品中，基本上纯化的组分包括样品的50％，优选为80％-85％，更优选为90-95％。用于纯化感兴趣的多核苷酸和多肽的技术是本领域中众所周知的并且包括例如，离子交换层析、亲和层析和根据密度的沉降。

“隔离的”是指，当提及多肽时，所指示的分子与具有其的整个生物体是分离和离散的，该分子是在自然界中发现的，或存在于基本上不存在相同类型的其他生物大分子的情况下。关于多核苷酸，术语“隔离的”是全部或部分缺乏通常在自然界中与其相关联的序列；或存在于自然界中，但却具有与其相关联的异源序列；或与染色体分离的分子的核酸分子。

如本文所使用的，短语“异质细胞群”是指至少两种类型细胞的混合物，一种类型是感兴趣的细胞(例如，具有感兴趣的基因组修饰)。异质细胞群可以源自任何生物体。

如本文在选择具有感兴趣的基因组修饰的细胞或细胞群的背景中所使用的，术语“隔离”和“隔绝”是指使具有感兴趣的基因组修饰的细胞或细胞群与异质细胞群分离，诸如通过正向或负向选择，或诸如通过与复杂集落阵列的克隆隔离来进行。

术语“选择标记”或“标记”是指可以用于通过正向选择(选择表达标记的细胞)或通过负向选择(不包括表达标记的细胞)来从异质细胞群识别或富集细胞群。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中用于包括任何长度的核苷酸的聚合形式，核糖核苷酸或脱氧核糖核苷酸。该术语仅指分子的一级结构。因此，该术语包括三链、双链和单链DNA，以及三链、双链和单链RNA。其还包括修饰，诸如通过甲基化和/或通过加帽进行，以及多核苷酸的未修饰形式。更特别地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多聚脱氧核糖核苷酸(包含2-脱氧-D-核糖)、多聚核糖核苷酸(包含D-核糖)、为嘌呤或嘧啶碱基的N-或C-糖苷的任何其他类型的多核苷酸以及包含非核苷酸骨架的其他聚合物，例如，聚酰胺(例如，肽核酸(PNA))和多吗啉(可以从Anti-Virals,Inc.,Corvallis,Oreg.以Neugene名购得)聚合物，以及其他合成序列特异性核酸聚合物，只要聚合物包含处于允许碱基配对和碱基堆积的构型中的核碱基，诸如在DNA和RNA中找到的即可。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在长度上没有有意的区别，并且这些术语将互换使用。因此，这些术语包括，例如，3'-脱氧-2'，5'-DNA、寡脱氧核糖核苷酸N3'P5'氨基磷酸酯、2'-O-烷基取代的RNA、双链和单链DNA，以及双链和单链RNA、微RNA、DNA：RNA杂交体以及PNA和DNA或RNA之间的杂交体，并且还包括已知类型的修饰，例如本领域已知的标记、甲基化、“帽”、用类似物取代天然存在的核苷酸中的一种或多种(例如，2-氨基腺苷、2-硫胸苷、肌苷、吡咯-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫胞苷)、核苷酸间修饰，诸如，例如，具有不带电的键的那些(例如，甲基膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等)，具有带负电荷的键的那些(例如，硫代磷酸酯、二硫代磷酸酯等)，以及具有带正电荷的键的那些(例如，氨基烷基磷酰胺酯、氨基烷基磷酸三酯)、包含侧基部分的那些，诸如，例如，蛋白质(包括，核酸酶、毒素、抗体、信号肽、聚-L-赖氨酸等)、带有嵌入剂的那些(例如，吖啶、补骨脂素等)、包含螯合剂的那些(例如，金属、放射性金属、硼、氧化金属等)、包含烷基化剂的那些、带有修饰键的那些(例如，α异头核酸等)，以及未修饰形式的多核苷酸或寡核苷酸。该术语还包括锁核酸(例如，包括具有在2'-氧原子和4'-碳原子之间的亚甲基桥的核糖核苷酸)。参见，例如，Kurreck等，(2002)Nucleic Acids Res.，30:1911-1918；Elayadi等，(2001)Curr.OpinionInvest.Drugs 2:558-561；Orum等，(2001)Curr.Opinion Mol.Ther.3:239-243；Koshkin等，(1998)Tetrahedron 54:3607-3630；Obika等，(1998)Tetrahedron Lett.39：5401-5404。

术语“杂交”和“杂交化”是指在核苷酸序列之间形成复合物，其足够互补以经由Watson-Crick碱基配对形成复合物。

术语“同源区域”是指与另一个核酸区域同源的核酸区域。因此，参考在相同或不同分子中的另一个核酸区域来确定“同源区域”是否存在于核酸分子中。此外，由于核酸通常是双链的，如本文所使用的，术语“同源区域”是指核酸分子彼此杂交的能力。例如，单链核酸分子可以具有两个能够彼此杂交的同源区域。因此，术语“同源区域”包括具有互补序列的核酸区段。同源区域的长度可以变化，但通常将在4和500个核苷酸之间(例如，约4至约40、约40至约80、约80至约120、约120至约160、约160至约200、约200至约240、约240至约280、约280至约320、约320至约360、约360至约400、约400至约440等)。

如本文所用，术语“互补的”或“互补性”是指能够彼此形成碱基对的多核苷酸。碱基对通常由多核苷酸链之间反平行取向中的核苷酸单元之间的氢键形成。互补多核苷酸链可以是采用Watson-Crick方式(例如，A到T、A到U、C到G)或采用允许形成双链体的任何其他方式的碱基对。如本领域的技术人员所意识到的，当使用RNA而非DNA时，尿嘧啶(U)而非胸腺嘧啶(T)被认为是与腺苷互补的碱基。然而，当在本公开的背景中表示尿嘧啶时，除非另有说明，否则暗示了取代胸腺嘧啶的能力。“互补性”可能存在于两条RNA链之间、两条DNA链之间或一条RNA链和一条DNA链之间。通常理解，两个或更多个多核苷酸可以是“互补的”并且能够形成双链体，尽管具有不太完美或小于100％的互补性。如果每个多核苷酸序列的至少连续部分包括互补区域，优选为具有其他多核苷酸而在该区域内没有任何错配或中断的碱基对，两个序列则是“完美互补的”或“100％互补的”。即使一个或两个多核苷酸包含额外的非互补序列，但只要在每个多核苷酸内的连续互补区域能够与另一个完美杂交，两个或更多个序列则被认为是“完美互补的”或“100％互补的”。“不太完美”的互补性是指在这种互补区域内少于所有的连续核苷酸能够彼此碱基配对的情况。确定两个多核苷酸序列之间的互补性百分比是本领域的普通技术人员的事情。出于Cas9靶向的目的，gRNA可以包括与靶序列“互补”的序列(例如，主要或次要等位基因)，其能够进行足够的碱基配对以形成双链体(即，gRNA与靶序列杂交)。此外，gRNA可以包括与PAM序列互补的序列，其中gRNA还与靶DNA中的PAM序列杂交。

“靶位点”或“靶序列”是被引导RNA(gRNA)或供体多核苷酸的同源臂识别(即，对于杂交来说足够互补)的核酸序列。靶位点可以是等位基因特异性的(例如，主要或次要等位基因)。

术语“供体多核苷酸”是指提供预期编辑的序列以通过HDR在靶基因座处整合至基因组中的多核苷酸。

“同源臂”是指供体多核苷酸的一部分，其负责将供体多核苷酸靶向细胞中待编辑的基因组序列。供体多核苷酸通常包括杂交至5'基因组靶序列的5'同源臂和杂交至3'基因组靶序列的3'同源臂，其位于包括至基因组DNA的预期编辑的核苷酸序列的侧翼。同源臂在本文中被称为5'和3'(即，上游和下游)同源臂，其涉及同源臂与包括供体多核苷酸内的预期编辑的核苷酸序列的相对位置。5'和3'同源臂杂交至待修饰的基因组DNA中靶基因座内区域，其在本文中被分别称为“5'靶序列”和“3'靶序列”。包括预期编辑的核苷酸序列在被5'和3'同源臂识别(即，对于杂交来说足够互补)的基因组靶基因座处通过HDR被整合至基因组DNA中。

向细胞“施用”核酸，诸如供体多核苷酸、引导RNA或Cas9表达系统包括转导、转染、电穿孔、移位、融合、吞噬、射击或冲击方法等，即，核酸可以用于跨细胞膜运输的任何方式。

关于引导RNA的“选择性结合”是指引导RNA优先结合至感兴趣的靶序列或以比其他基因组序列更大的亲和力结合至靶序列。例如，gRNA将结合至基本互补的序列而非不相关的序列。“选择性结合”至特定等位基因，诸如特定突变等位基因(例如，包括取代、插入或缺失的等位基因)的gRNA表示优先结合至特定靶等位基因，但却以较小的程度结合至野生型等位基因或其他序列的gRNA。选择性结合至特定靶DNA序列的gRNA将选择性地指导在靶位点处将RNA引导的核酸酶(例如，Cas9)结合至基本互补的序列并且不会结合至不相关的序列。

如本文所用，术语“重组靶位点”表示包括由在靶位点处结合并且在靶位点处催化DNA的特定序列的重组的位点特异性重组酶识别的结合位点或序列特异性基序的核酸分子的区域。位点特异性重组酶催化在这两个靶位点之间的重组。靶位点的相对取向确定了重组的结果。例如，如果重组靶位点在分开的DNA分子上，则会发生易位。

如本文所使用的，术语“标记”和“可检测的标记”是指能够检测的分子，包括但不限于，放射性同位素、荧光剂、化学发光剂、发色团、酶、酶底物、酶辅因子、酶抑制剂、半导体纳米颗粒、染料、金属离子、金属溶胶、配体(例如，生物素、链霉亲和素或半抗原)等。术语“荧光剂”是指能够在可检测范围内显示荧光的物质或其一部分。可以在本公开的实践中使用的标签的特定示例包括，但不限于SYBR绿色、SYBR金色、CAL Fluor染料，诸如CAL Fluor金色540、CAL Fluor橙色560、CAL Fluor红色590、CAL Fluor红色610和CAL Fluor红色635、Quasar染料，诸如Quasar570、Quasar670和Quasar705、Alexa Fluor，诸如Alexa Fluor350、Alexa Fluor 488、Alexa Fluor 546、Alexa Fluor 555、Alexa Fluor 594、AlexaFluor 647和Alexa Fluor 784，花青染料，诸如Cy3、Cy3.5、Cy5、Cy5.5和Cy7，荧光素、2',4',5',7'-四氯-4-7-二氯荧光素(TET)、羧基荧光素(FAM)、6-羧基-4',5'-二氯-2',7'-二甲氧基荧光素(JOE)、六氯荧光素(HEX)、罗丹明、羧基-X-罗丹明(ROX)、四甲基罗丹明(TAMRA)、FITC、丹酰、伞形酮、二甲基吖啶酯(DMAE)、德克萨斯红、鲁米诺、NADPH、辣根过氧化物酶(HRP)和α-β-半乳糖苷酶。

“同源性”是指两个多核苷酸或两个多肽部分之间的百分比同一性。当序列在分子的限定长度上表现出至少约50％序列同一性，优选为至少约75％序列同一性，更优选为至少约80％至85％序列同一性时，更优选为至少约90％序列同一性，并且最优选为至少约95％至98％序列同一性时，两个核酸或两个多肽序列彼此“基本上同源”。如本文所使用的，基本上同源也指显示与指定序列的完全同一性的序列。

一般而言，“同一性”分别指两个多核苷酸或多肽序列的精确的核苷酸对核苷酸或氨基酸对氨基酸的对应关系。可以通过比对序列、计算两个比对序列之间的精确匹配数、除以较短序列的长度并且将结果乘以100来直接比较两个分子之间的序列信息而确定百分比同一性。可以使用现成的计算机程序来辅助分析，诸如华盛顿特区国家生物医学研究基金会的增刊3:353 358的蛋白质序列和结构地图集M.O.Dayhoff编辑的ALIGN,Dayhoff,M.O.，其采用了Smith和Waterman的局部同源性算法以用于肽分析，该算法在Appl.Math.2:482489,1981中进行了描述。用于确定核苷酸序列同一性的程序可以在威斯康星序列分析包第8版(可从Genetics Computer Group,Madison,WI购得)中获得，例如，BESTFIT、FASTA和GAP程序，其也依赖于Smith和Waterman算法。这些程序很容易与制造商推荐的默认参数一起使用，并且在上面提到的威斯康星序列分析包中进行了描述。例如，特定核苷酸序列与参考序列的百分比同一性可以使用具有默认评分表和六个核苷酸位置的空位罚分的Smith和Waterman同源性算法来确定。

在本公开的背景下建立百分比同一性的另一种方法是使用由爱丁堡大学版权所有，由John F.Collins和Shane S.Sturrok开发并且由IntelliCorp,Inc.分发的MPSRCH程序包由爱丁堡大学版权所有、由John F.Collins和Shane S.Sturrok开发并由IntelliCorp,Inc.分发的MPSRCH程序包。(加州山景城)。从这组包，可以采用SmithWaterman算法，其中默认参数用于评分表(例如，空位开放罚分12、空位扩展罚分1和空位6)。从生成的数据，“匹配”值反映了“序列同一性”。用于计算序列之间的百分比同一性或相似性的其他合适的程序是本领域中公知的，例如，另一种比对程序是与默认参数一起使用的BLAST。例如，可以使用下列默认参数来使用BLASTN和BLASTP：基因编码＝标准；过滤器＝无；链＝两者；截断＝60；预期＝10；矩阵＝BLOSUM62；描述＝50个序列；排序依据＝高分；数据库＝非冗余，基因库+EMBL+DDBJ+PDB+基因库CDS翻译+Swiss蛋白质+Spupdate+PIR。这些程序的详细信息很容易获得。

替代地，同源性可以通过多核苷酸在同源区域之间形成稳定双链体的条件下杂交，接下来用单链特异性核酸酶消化，并且进行消化片段的尺寸确定。基本上同源的DNA序列可以在Southern杂交实验中识别，例如在严格条件下，如针对特定系统所限定的。限定适当的杂交条件在本领域的技术范围内。参见，例如，Sambrook等，同上；DNA克隆，同上；核酸杂交，同上。

如本文所用，用于描述核酸分子的“重组体”是指基因组、cDNA、病毒、半合成或合成来源的多核苷酸，由于其来源或操作，其不与其在自然界中相关联的多核苷酸的所有或一部分相关联。相关于蛋白质或多肽使用的术语“重组体”是指通过重组多核苷酸的表达而产生的多肽。通常，感兴趣的基因被克隆并且然后在转化的生物体中进行表达，如下文进一步描述。宿主生物体表达外源基因以在表达条件下产生蛋白质。

术语“转化”是指将外源多核苷酸插入宿主细胞中，这与用于插入的方法无关。例如，包括了通过交配或f-交配进行的直接摄取、转导和细胞至细胞融合。外源多核苷酸可以保持为非整合载体，例如质粒，或者替代地可以整合到宿主基因组中。

“重组宿主细胞”、“宿主细胞”、“细胞”、“细胞系”、“细胞培养物”和其他表示作为单细胞实体培养的微生物或高等真核细胞系的此类术语是指可以或已经用作重组载体或其他转移DNA的受体，并且包括已转化的原始细胞的原始后代的细胞。在某些实施例中，待基因修饰的细胞是真核细胞或原核细胞。在实施例中，细胞是酵母细胞，其可以是单倍体或二倍体酵母细胞。在实施例中，细胞是哺乳动物细胞、细菌细胞、真菌细胞或植物细胞。在实施例中，细胞是人类细胞。

“编码序列”或“编码”所选多肽的序列是当置于适当的调控序列(或“控制元件”)的控制下时在体内被转录(在DNA的情况下)和翻译(在mRNA的情况下)成多肽的核酸分子。编码序列的边界可以由5'(氨基)末端的起始密码子和3'(羧基)末端的翻译终止密码子确定。编码序列可以包括但不限于来自病毒、原核或真核mRNA的cDNA，来自病毒或原核DNA的基因组DNA序列，以及甚至是合成DNA序列。转录终止序列可以位于编码序列的3'。

典型的“控制元件”包括但不限于转录启动子、转录增强子元件、转录终止信号、聚腺苷酸化序列(位于翻译终止密码子的3')、用于优化翻译起始的序列(位于编码序列的5')、内含子(位于RNA中的任何位置)和翻译终止序列。

“可操作地键合”是指元件的布置，其中如此描述的组件被配置为执行其通常的功能。因此，当存在合适的酶时，可操作地键合至编码序列的给定启动子能够影响编码序列的表达。启动子不需要与编码序列相邻，只要其起到指导其表达的作用即可。因此，例如，可以在启动子序列和编码序列之间插入未翻译但却转录的序列，并且启动子序列仍然可以被认为是“可操作地联接”至编码序列。

术语“转染”用于指代细胞对外源DNA的摄取。当外源DNA已被引入细胞膜内部时，细胞已被“转染”了。许多转染技术在本领域中是公知的。参见，例如，Graham等，(1973)病毒学，52：456，Sambrook等，(2001)分子克隆，实验室手册，第3版，冷泉港实验室，纽约，Davis等，(1995)分子生物学的基本方法，第2版，McGraw-Hill和Chu等，(1981)基因13:197。此类技术可以用于将一种或多种外源DNA部分引入合适的宿主细胞中。该术语是指基因材料的稳定且瞬时的摄取，并且包括肽或抗体键合的DNA的摄取。

“载体”能够将核酸序列转移至靶细胞(例如，病毒载体、非病毒载体、微粒载体和脂质体)。通常，“载体构建体”、“表达载体”和“基因转移载体”表示能够指导感兴趣的核酸表达并且能够将核酸序列转移至靶细胞的任何核酸构建体。因此，该术语包括克隆和表达载体，以及质粒和病毒载体。

术语“变体”、“类似物”和“突变蛋白”是指参考分子的生物活性衍生物，其保留了期望活性，诸如位点定向Cas9核酸内切酶活性。一般而言，术语“变体”和“类似物”是指具有天然多肽序列和结构的化合物，其相对于天然分子具有一个或多个氨基酸添加、取代(通常本质上是保守的)和/或缺失，只要修饰不会破坏生物活性并且与如下定义的参考分子“基本同源”即可。一般而言，当比对两个序列时，此类类似物的氨基酸序列将与参考序列具有高度的序列同源性，例如超过50％，通常超过60％-70％，甚至更特别地80％-85％或更多，诸如至少90％-95％或更多。通常，类似物将包括相同数目的氨基酸，但却将包括取代，如本文所解释的。术语“突变蛋白”还包括多肽，其具有一个或多个氨基酸样分子，包括但不限于仅包括氨基和/或亚氨基分子的化合物、包含一个或多个氨基酸类似物(包括例如，非天然氨基酸等)的多肽、具有取代键的多肽，以及本领域已知的其他修饰，可以是天然存在的和非天然存在的(例如，合成的)、环化的、支化的分子等。该术语还包括分子，其包括一个或多个N-取代的甘氨酸残基(“类肽”)和其他合成氨基酸或肽。(参见，例如，用于描述类肽的美国专利号5,831,005；5,877,278；以及5,977,301；Nguyen等，Chem.Biol.(2000)7:463-473；以及Simon等，Proc.Natl.Acad.Sci.USA(1992)89:9367–9371)。用于制造多肽类似物和突变蛋白的方法是本领域已知的并且在下文进一步描述。

如上面所解释的，类似物通常包括本质上保守的取代，即发生在其侧链中相关的氨基酸家族内的取代。具体地，氨基酸一般分为四个家族：(1)酸性——天冬氨酸和谷氨酸；(2)碱性——赖氨酸、精氨酸、组氨酸；(3)非极性——丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸、色氨酸；以及(4)不带电荷的极性——甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、丝氨酸苏氨酸和酪氨酸。苯丙氨酸、色氨酸和酪氨酸有时被归类为芳香族氨基酸。例如，可以合理地预测，用异亮氨酸或缬氨酸单独替换亮氨酸，用谷氨酸替换天冬氨酸，用丝氨酸替换苏氨酸，或用结构相关的氨基酸对氨基酸进行的类似的保守替换将不会对生物活性具有主要影响。例如，感兴趣的多肽可以包括多达约5-10个保守或非保守的氨基酸取代，或甚至多达约15-25个保守或非保守的氨基酸取代，或5-25之间的任何整数，只要分子的期望功能保持完整即可。本领域的技术人员可以通过参考本领域中公知的Hopp/Woods和Kyte-Doolittle图很容易地确定能够容忍变化的感兴趣的分子的区域。

“基因转移”或“基因递送”是指将感兴趣的DNA或RNA可靠地插入宿主细胞中的方法或系统。此类方法可以导致非整合的转移DNA的瞬时表达、转移复制子(例如，附加体)的染色体外的复制和表达，或转移的基因材料至宿主细胞的基因组DNA中的整合。基因递送表达载体包括但不限于源自细菌质粒载体、病毒载体、非病毒载体、腺病毒、逆转录病毒、甲病毒、痘病毒和痘苗病毒的载体。

术语“源自”在本文中用于识别分子的原始来源，但并不意味着限制制造分子的方法，其可以是例如通过化学合成或重组方式进行的。

“源自”指定序列的多核苷酸是指包括对应于指定核苷酸序列的区域，即与其相同或互补的大约至少约6个核苷酸，优选为至少约8个核苷酸，更优选为至少约10-12个核苷酸，以及甚至更优选为至少约15-20个核苷酸的连续序列的多核苷酸序列。衍生的多核苷酸不一定物理上源自感兴趣的核苷酸序列，而是可以以任何方式生成，包括但不限于化学合成、复制、逆转录或转录，其基于由多核苷酸所源自的区域中的碱基序列所提供的信息。就这点而言，其可以代表原始多核苷酸的有义或反义取向。

应当理解，本文描述的实例和实施方案仅用于说明目的，并且鉴于其的各种修改或改变将被建议给本领域技术人员，并且将被包括在本申请的精神和范围以及附加的权利要求的范围之内。本文所引用的所有出版物、专利和专利申请均出于所有目的以其整体通过并入。

在详细描述本公开之前，应当理解，本公开不限于特定的配方或工艺参数，因此当然可以变化。还应当理解，本文所用的术语仅用于描述本公开的特定实施例的目的，并且不旨在进行限制。

尽管在本公开的实践中可以使用与本文所述的那些相似或等效的许多方法和材料，但本文描述了优选的材料和方法。

方法

本文描述了用于将基因变体(设计的或随机的)或构建体(基因或其他任意的DNA)的组合引入细胞群以及通过在称为条形码基因座的公共基因座(染色体或质粒)处顺序构建条形码阵列来跟踪每个变体组合的方法。每个变体、基因构建体或基因修饰由独特条形码表示，使得测序条形码及其相邻的条形码能够通过基于测序的计数来跟踪细胞群内的每个变体排列的丰度。

在一个方面，本公开涉及一种产生多个基因工程细胞的方法。在实施例中，所述方法包括(a)使多个细胞与第一基因编辑剂和第一多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第一独特的多核苷酸条形码以及第一独特的基因修饰；以及(b)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂和第二多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第二独特的多核苷酸条形码以及第二独特的基因修饰；从而产生多个基因工程细胞。在实施例中，所述方法包括重复步骤(b)一次或多次，其中步骤(b)的每次重复采用相同或不同的多个重组多核苷酸，每个重组多核苷酸包括独特的多核苷酸条形码序列。

在一个方面，提供了一种通过下列方式产生多个基因工程细胞的方法：(a)使多个细胞与第一基因编辑剂接触，从而产生各自包括第一独特的基因修饰的第一多个基因编辑细胞；(b)将第一多个重组多核苷酸转染到所述第一多个基因编辑细胞中，每个重组多核苷酸包括第一独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座的所述第一独特的多核苷酸条形码和所述第一独特的基因修饰。以这种方式，细胞可以通过未知(例如，随机)突变或其他变化进行基因修饰，并且在细胞内进行突变/变化之后，条形码可以与该变化相关联。在实施例中，所述方法包括(c)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂接触，从而产生各自包括第二独特的基因修饰的第二多个基因编辑细胞；以及(d)将第二多个重组多核苷酸转染到所述第二多个基因编辑细胞中，每个重组多核苷酸包括第二独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，使得将第二独特的多核苷酸条形码插入所述第二多个基因编辑和条形码化的细胞中每一个的条形码基因座中，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第二独特的多核苷酸条形码和所述第二独特的基因修饰；从而产生多个基因工程细胞。在实施例中，所述方法包括重复步骤(c)和(d)一次或多次，其中步骤(c)和(d)的每次重复采用相同或不同的多个重组多核苷酸，每个重组多核苷酸包括独特的多核苷酸条形码序列。

在实施例中，多个基因工程细胞可以通过下列的任何组合来制成：(a)使多个细胞与第一基因编辑剂和第一多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第一独特的多核苷酸条形码以及第一独特的基因修饰；(b)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂接触，从而产生各自包括第二独特的基因修饰的第二多个基因编辑细胞；以及(c)将第二多个重组多核苷酸转染到所述第二多个基因编辑细胞中，每个重组多核苷酸包括第二独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，使得将第二独特的多核苷酸条形码插入所述第二多个基因编辑和条形码化的细胞中每一个的条形码基因座中，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第二独特的多核苷酸条形码和所述第二独特的基因修饰。步骤(a)和(b)/(c)可以以任何顺序执行。在实施例中，步骤(a)和/或(b)/(c)重复一次或多次以对多个细胞进行进一步的基因修饰。

多个细胞可以由所有相同的细胞组成(例如，相同属/种的细胞，和/或在每个细胞中具有相同的基因序列)或可以是不同的细胞(例如，其中至少一些细胞具有与多个细胞中的另一个细胞或多个细胞相比，基因组序列中的至少一个碱基对变化)。如本文所使用的，术语“基因组序列”或“基因组”可以是细胞内编码至少一个基因的任何DNA，包括但不限于染色体、质粒或线粒体DNA。

术语“独特的多核苷酸条形码序列”或“独特的多核苷酸条形码”表示多个细胞中的许多或所有细胞在其中具有不同的多核苷酸条形码序列。在实施例中，多个重组多核苷酸是多核苷酸文库，其中每个多核苷酸包括不同的条形码序列。如本领域技术人员将理解的，多核苷酸文库可以包括多于给定重组多核苷酸的单个拷贝，但在多个重组多核苷酸中，将存在各自具有不同序列的重组多核苷酸群。在实施例中，每个重组多核苷酸还包括包含基因修饰(和/或可以用于在细胞内创建基因修饰)的序列(例如，供体DNA序列)。在此类实施例中，条形码和基因修饰相关联(例如，在数据库中)，使得可以通过确定在条形码基因座中存在哪个(些)条形码(例如，通过测序进行)来将细胞识别为具有基因修饰。类似地，“独特的基因修饰”表示多个细胞中的许多或所有细胞在其中具有不同的基因修饰。

在实施例中，第一独特的多核苷酸条形码与所述第一多个基因编辑和条形码化的细胞中每一个中的第一独特的基因修饰相关联。在该背景中的“关联的”是指基因修饰与条形码的对应关系，使得对条形码的了解(例如，细胞包含特定条形码)指示细胞包含对应的基因修饰。在实施例中，对所述第一多个基因编辑和条形码化的细胞中每一个的条形码基因座和基因组的至少一部分进行测序，使得第一独特的多核苷酸条形码与数据库中的第一独特的基因修饰相关联。在实施例中，第二独特的多核苷酸条形码与所述第二多个基因编辑和条形码化的细胞中每一个中的第二独特的基因修饰相关联。在实施例中，对所述第二多个基因编辑和条形码化的细胞中每一个的条形码基因座和基因组的至少一部分进行测序，使得第二独特的多核苷酸条形码与数据库中的第二独特的基因修饰相关联。例如，在细胞中对条形码基因座和包含基因修饰的基因组中的至少一部分进行测序，以识别在包含特定独特的条形码的细胞中存在什么基因修饰，以及该信息被输入至数据库，使得条形码与基因修饰相关联。这允许将来通过仅对条形码基因座进行测序来将细胞识别为具有基因修饰。

在一些实施例中，在使多个细胞与多个重组多核苷酸接触之前，条形码与基因修饰(例如，在数据库中)相关联。即，每个重组多核苷酸可以包含独特的条形码和独特的遗传修饰两者(例如，供体DNA或其他序列，其包括修饰和/或将在靶细胞中引起修饰)，以及在使多个细胞与重组多核苷酸接触之前，独特的条形码和独特的基因修饰是相关联的(例如，通过对重组多核苷酸进行测序确定的)。

在实施例中，所述方法包括通过对条形码基因座进行测序来识别多个基因工程细胞中每一个中的基因突变。每个细胞(或源于每个细胞的克隆集落)中条形码基因座的测序将确定每个细胞中存在的条形码序列。这可用于查询数据库并且确定与该条形码相关联的基因修饰。如果存在多个条形码，则查询数据库中的每个条形码序列，这允许确定单个细胞中的多个基因修饰。另外，呈现条形码的顺序表示进行修饰的顺序。

在一个方面，提供了一种产生多个条形码化的细胞的方法。在实施例中，所述方法包括(a)使多个细胞与第一多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，使得将第一独特的多核苷酸条形码插入所述第一多个细胞中每一个的条形码基因座中，从而形成第一多个条形码化的细胞。在实施例中，所述方法还包括(b)使所述第一多个条形码化的细胞与第二多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，使得将第二独特的多核苷酸条形码插入所述第一多个基因编辑和条形码化的细胞中每一个的所述条形码基因座中，从而形成第二多个基因编辑和条形码化的细胞。此类细胞中的条形码可以与数据库中的任何相关信息键合/关联，使得对条形码基因座进行测序以及查询数据库将提供关于每个细胞的信息。例如，条形码可能与基因突变、缺失、插入、取代、易位、表观遗传修饰、转基因的添加、调节序列的修饰、DNA组装、人工染色体、用于CRISPR干扰的功能引导RNA序列构建体或任何其他信息相关联。

在一个方面，提供了一种将多核苷酸信息压缩成细胞内单个条形码的方法。在实施例中，所述方法包括获得细胞，其在条形码基因座中包括至少两个独特的多核苷酸条形码；在所述细胞的所述条形码基因座中插入新的独特的多核苷酸条形码；以及对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码(压缩器条形码)与所述至少两个独特的多核苷酸条形码相关联。在实施例中，所述方法还包括从所述细胞的所述条形码基因座去除所述至少两个独特的多核苷酸条形码。此过程可以称为“条形码压缩”。

在实施例中，每个独特的多核苷酸条形码在所述重组多核苷酸上的侧翼是右同源臂和/或左同源臂。在实施例中，每个第一独特的多核苷酸条形码在所述第一多个多核苷酸的每个重组多核苷酸上的侧翼是第一右同源臂、第二右同源臂和左同源臂，使得所述第一右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。第二右同源臂位于第一右同源臂和左同源臂之间，使得其在条形码基因座处与第一独特的多核苷酸条形码整合。在实施例中，每个第二独特的多核苷酸条形码在所述第二多个多核苷酸的每个重组多核苷酸上的侧翼是所述第二右同源臂、所述左同源臂并且可选的是第三右同源臂，使得在将所述第一独特的多核苷酸条形码整合到所述条形码基因座中之后，所述第二右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。

在实施例中，所述第一多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第二右同源臂之间的第一标记多核苷酸。在实施例中，所述第二多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第三右同源臂之间的第二标记多核苷酸。在实施例中，所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。在实施例中，每个重组多核苷酸还包括标记多核苷酸。在实施例中，所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。在实施例中，所述方法包括选择存在所述标记多核苷酸的细胞。在实施例中，所述方法包括选择不存在所述标记多核苷酸的细胞。在实施例中，所述第一多个重组多核苷酸中的所述标记多核苷酸不同于所述第二多个重组多核苷酸中的所述标记多核苷酸。

多核苷酸(和可选的任何相关联的序列，例如，标记序列、同源臂等)可以通过任何方式插入到条形码基因座中。在实施例中，通过同源重组将每个独特的多核苷酸条形码插入所述条形码基因座中。在实施例中，每个独特的多核苷酸条形码通过非同源末端连接插入所述条形码基因座中。在实施例中，每个独特的多核苷酸条形码使用整合酶插入所述条形码基因座中。在实施例中，每个独特的多核苷酸条形码使用转座酶插入所述条形码基因座中。

在实施例中，所述第一基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、RNA引导的核酸酶、化学试剂、重组酶、整合酶或转座酶。在实施例中，所述第二基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、成簇的规律间隔的短回文重复序列(CRISPR)系统、化学试剂、重组酶、整合酶或转座酶。在实施例中，所述第一和/或第二基因编辑剂是RNA引导的核酸酶。在实施例中，所述第一基因编辑剂是CRISPR系统。在实施例中，所述第一基因编辑剂是CRISPR/Cas9系统。在实施例中，所述第一基因编辑剂是CRISPR/Cas12a系统。在实施例中，所述第二基因编辑剂是CRISPR系统。在实施例中，所述第二基因编辑剂是CRISPR/Cas9系统。在实施例中，所述第二基因编辑剂是CRISPR/Cas12a系统。

在实施例中，所述第一基因编辑剂和所述第二基因编辑剂相同。在实施例中，所述第一基因编辑剂和所述第二基因编辑剂不同。

在实施例中，所述方法包括(i)在每个细胞的所述条形码基因座中插入新的独特的多核苷酸条形码，其中在插入所述新的独特的多核苷酸条形码之前，所述条形码基因座包括至少两个独特的多核苷酸条形码。在实施例中，所述方法包括(ii)对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码与所述至少两个独特的多核苷酸条形码相关联。在实施例中，所述方法包括(iii)从每个细胞的所述条形码基因座去除所述至少两个独特的多核苷酸条形码。在实施例中，所述方法包括重复基因修饰/条形码化步骤(例如，步骤(a)、(b)、(c)和/或(d))，从而产生多个基因工程细胞。

在实施例中，每个重组多核苷酸由载体提供。在实施例中，所述载体是质粒载体或病毒载体。在实施例中，所述载体是高拷贝数载体。在某些实施例中，每个重组多核苷酸是作为线性DNA提供的。在某些实施例中，线性或载体DNA上的每个重组多核苷酸可操作地键合到RNA聚合酶启动子以使得能够在宿主细胞中进行转录，并且与RNA序列元素可操作地联接以使得能够进行重组RNA的逆转录以生成单链供体DNA。生成单链DNA的方法是本领域普通技术人员已知的并且包括使用细菌反转录子系统(例如，Ec86反转录子)或病毒逆转录酶(例如，莫洛尼小鼠白血病病毒逆转录酶)。例如，所述方法还可以包括扩增包括作为PCR产物提供的基因组编辑盒的重组多核苷酸。

在实施例中，所述条形码基因座是染色体条形码基因座。

在实施例中，所述基因修饰是设计的基因修饰。

重要的是，本文描述的条形码不限于与CRISPR基因组编辑构建体的关联，而是对于产生已知或未知变化的任何基因修饰过程或者对于DNA中任意数字信息的存储和压缩来说，具有更广泛的应用。此类应用的非限制性示例包括基因组修饰、基因构建体、表观遗传修饰和谱系追踪(图1A)。

基因编辑剂是本领域中已知的。基因编辑剂可以是导致定向(设计)基因修饰的试剂，或导致自发(随机)基因突变的物理和化学试剂(例如，诱变剂)。在实施例中，基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、RNA引导的核酸酶、热、辐射、化学试剂、重组酶、整合酶或转座酶。

在实施例中，基因编辑剂是RNA引导的核酸酶。在实施例中，RNA引导的核酸酶是CRISPR系统。在实施例中，RNA引导的核酸酶是CRISPR/Cas系统。在实施例中，RNA引导的核酸酶是CRISPR/Cas9系统。在实施例中，RNA引导的核酸酶是CRISPR/Cas12a系统。在实施例中，所述CRISPR系统可以是任何这样的系统，包括但不限于SpCas9、SaCas9、NmCas9、St1Cas9、FnCas9、Cas12a(例如，FnCpf1、AsCpf1、LbCpf1)、Mad7、CasX、CasY、Cas13a、C2c1、C2c2、C2c3、LshC2c2、Cas14、dSpCas9-FokI、Split-SpCas9、SpCas9-切口酶。额外的CRISPR系统是已知的，例如，如在Komor等，Nature(2016)533(7603)：420-4中描述的，该文献通过引用整体并入本文。

在实施例中，使用位点特异性重组酶系统在条形码基因座处执行条形码的整合。可用于此目的的示例性位点特异性重组酶系统包括Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统和Dre-rox位点特异性重组酶系统。对于这些和其他可以使用的位点特异性重组酶系统的描述，参见，例如，Wirth等，(2007)Curr.Opin.Biotechnol.18(5):411-419；Branda等，(2004)Dev.Cell 6(1):7-28；Birling等，(2009)Methods Mol.Biol.561:245-263；Bucholtz等，(2008)J.Vis.Exp.May29(15)pii:718；Nern等，(2011)Proc.Natl.Acad.Sci.U.S.A.108(34):14198-14203；Smith等，(2010)Biochem.Soc.Trans.38(2):388-394；Turan等，(2011)FASEB J.25(12):4088-4107；Garcia-Otin等，(2006)Front.Biosci.11:1108-1136；Gaj等(2014)BiotechnolBioeng.111(1):1-15；Krappmann(2014)Appl.Microbiol.Biotechnol.98(5):1971-1982；Kolb等，(2002)Cloning Stem Cells 4(1):65-80；以及Lopatniuk等(2015)J.Appl.Genet.56(4):547-550；其通过引用整体并入本文。

可以将用于位点特异性重组酶的重组靶位点添加到条形码基因座以允许通过位点特异性重组进行整合。另外，重组多核苷酸可以设计有用于位点特异性重组酶的匹配的重组靶位点，使得在重组多核苷酸上的重组靶位点和在条形码基因座处的重组靶位点之间的位点特异性重组导致基因组编辑盒在条形码基因座处的整合。

在某些实施例中，所述方法还包括抑制非同源末端连接(NHEJ)。例如，NHEJ可以通过使细胞与选自渥曼青霉素和Scr7所组成的组的小分子抑制剂接触来抑制。替代地，可以使用RNA干扰或CRISPR干扰来抑制NHEJ途径的蛋白质组分的表达。

在其他实施例中，所述方法还包括使用HDR增强剂或主动供体募集来增加细胞中HDR的频率。在某些实施例中，非同源末端连接(NHEJ)途径的抑制剂用于进一步增加由HDR基因修饰的细胞的频率。NHEJ途径抑制剂的示例包括抑制或阻断NHEJ途径中任何蛋白质组分的表达或活性的任何化合物(试剂)。NHEJ途径的蛋白质组分包括但不限于Ku70、Ku86、DNA蛋白激酶(DNA-PK)、Rad50、MRE11、NBS1、DNA连接酶IV和XRCC4。示例性抑制剂是渥曼青霉素，其抑制NHEJ途径的至少一种蛋白质组分(例如，DNA-PK)。另一种示例性抑制剂是Scr7(5,6-双((E)-苯亚甲基氨基)-2-硫脲嘧啶-4-醇)，其抑制DSB的连接(Maruyama等，(2015)Nat.Biotechnol.33(5):538-542，Lin等，(2016)Sci.Rep.6:34531)。也可以使用RNA干扰或CRISPR干扰来阻断NHEJ途径的蛋白质组分的表达(例如，DNA-PK或DNA连接酶IV)。例如，小干扰RNA(siRNA)、发夹RNA和可以在体内切割或解离以形成siRNA的其他RNA或RNA:DNA种类可以用于通过RNA干扰来抑制NHEJ途径。替代地，失活的Cas9(dCas9)与和NHEJ途径的启动子或外显子序列互补的单引导RNA(sgRNA)一起可以用于通过CRISPR干扰进行的转录阻抑。替代地，可以使用HDR增强剂，诸如RS-1来增加细胞中HDR的频率(Song等，(2016)Nat.Commun.7:10548)。

基因组编辑可以在感兴趣的单个细胞或细胞群上进行，并且可以在任何类型的细胞上进行，包括来自原核、真核或古菌生物体，包括细菌、古菌、真菌、原生生物、植物和动物的任何细胞。源于组织、器官和活组织检查的细胞，以及重组细胞、基因修饰的细胞、源于体外培养的细胞系的细胞以及人工细胞(例如，纳米颗粒、脂质体、聚合物囊泡或包裹核酸的微胶囊)都可以用于本文描述的方法和组合物的实践中。本文所述的方法也适用于编辑在包括核酸的细胞片段、细胞组分或细胞器(例如，动物和植物细胞中的线粒体、植物细胞和藻类中的质体(例如，叶绿体))中的核酸。可以在执行如本文所述的基因组编辑之前或之后培养或扩增细胞。在一个实施例中，细胞是酵母细胞。

RNA引导的核酸酶系统

在实施例中，每个重组多核苷酸还包括编码RNA引导的核酸酶的第三多核苷酸。在实施例中，每个重组多核苷酸还包括供体多核苷酸。在实施例中，RNA引导的核酸酶由载体提供。在实施例中，RNA引导的核酸酶由整合到细胞的基因组中的第二核酸序列提供。在实施例中，RNA引导的核酸酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。在实施例中，Cas核酸酶是Cas9或Cas12a。在实施例中，在与独特的条形码序列相同的重组多核苷酸上提供RNA引导的核酸酶。在实施例中，供体多核苷酸(例如，供体DNA)和/或编码引导RNA(gRNA)的多核苷酸被并入每个细胞中。在实施例中，gRNA能够在待修饰的基因组靶基因座处杂交。在实施例中，供体多核苷酸包括与5'基因组靶序列杂交的5'同源臂和与3'基因组靶序列杂交的3'同源臂，其位于包括要整合至基因组靶基因座中的预期编辑的核苷酸序列的侧翼。在实施例中，每个重组多核苷酸包括不同的基因组编辑盒，其包括不同的引导RNA-供体多核苷酸组合，使得多个重组多核苷酸能够在一个或多个基因组靶基因座处产生多个不同的预期编辑。在实施例中，RNA引导的核酸酶在一个或多个基因组靶基因座处的细胞的基因组DNA中创建双链断裂，并且存在于每个细胞中的供体多核苷酸整合在由其5'同源臂和3'同源臂通过同源性定向修复(HDR)识别的基因组靶基因座处处，使得产生多个基因修饰的细胞。

在实施例中，每个重组多核苷酸由载体提供。在实施例中，所述载体是质粒载体或病毒载体。在实施例中，所述载体是高拷贝数载体。在某些实施例中，每个重组多核苷酸是作为线性DNA提供的。例如，所述方法还可以包括扩增包括作为PCR产物提供的基因组编辑盒的重组多核苷酸。

在某些实施例中，RNA引导的核酸酶也由载体提供。在某些实施例中，基因组编辑盒和RNA引导的核酸酶由单个载体或分开的载体提供。在另一个实施例中，将编码RNA引导的核酸酶的重组多核苷酸整合到宿主细胞的基因组中。

引导RNA的转录通常将取决于启动子的存在，启动子可能包括在基因组编辑盒中，或在载体中或在插有基因组编辑盒的基因组基因座(例如，条形码基因座)处。启动子可以是组成型或可诱导启动子。在某些实施例中，每个基因组编辑盒包括可操作地键合至编码引导RNA的多核苷酸的启动子。在其他实施例中，条形码基因座包括启动子，其变得可操作地键合至编码整合在条形码基因座处的任何基因组编辑盒的引导RNA的多核苷酸。在某些实施例中，每个重组多核苷酸由载体提供，其中载体包括可操作地键合至编码引导RNA的多核苷酸的启动子。在某些实施例中，引导RNA和/或供体DNA盒与重组多核苷酸条形码一起整合至条形码基因座中。在其他实施例中，仅多核苷酸条形码整合到条形码基因座中。

在某些实施例中，基因编辑剂(可选地与供体多核苷酸和/或引导RNA组合)能够在单个基因内的多个位点处产生突变。在其他实施例中，基因编辑剂能够在不同基因的多个基因座或基因组中的任何位置产生突变。例如，基因编辑剂(例如，供体多核苷酸)可以将不同的突变引入基因中，诸如插入、缺失或取代。在另一个实施例中，至少一种基因编辑剂(例如，供体多核苷酸)引入使基因失活的突变。在另一个实施例中，至少一种基因编辑剂(例如，供体多核苷酸)从基因去除突变。在另一个实施例中，至少一种基因编辑剂(例如，供体多核苷酸)将精确的基因改变插入至基因组DNA中。

在某些实施例中，每个重组多核苷酸还包括位于基因组编辑盒侧翼的一对限制性位点。在一些实施例中，限制性位点由生成DNA双链断裂的大范围核酸酶(例如，SceI)识别。大范围核酸酶的表达可以由可诱导启动子控制。

在另一个实施例中，基因组编辑盒还包括在编码引导RNA的核苷酸序列的5'末端处的tRNA基因。

在另一个实施例中，基因组编辑盒还包括在编码引导RNA的核苷酸序列的5'末端处的编码丁型肝炎病毒(HDV)核酶的核苷酸序列。在另一个实施例中，基因组编辑盒还包括在邻近RNA聚合酶II或RNA聚合酶III的启动子的编码引导RNA的核苷酸序列的5'末端处的编码锤头核酶(HHR)的核苷酸序列。在另一个实施例中，基因组编辑盒还包括编码核酶，例如，CPEB3、PMAR1或RiboJ的核苷酸序列。

在另一个实施例中，RNA引导的核酸酶是Cas核酸酶(例如，Cas9或Cas12a)或工程化的RNA引导的FokI核酸酶。

在另一个实施例中，基因组编辑盒的侧翼是由大范围核酸酶识别的限制性位点。

在实施例中，每个基因组编辑盒还包括用于识别由每个基因组编辑盒编码的引导RNA和供体多核苷酸的独特的条形码序列。在一个实施例中，所述方法还包括删除在条形码基因座处整合的编码引导RNA的多核苷酸和供体多核苷酸，同时在所述条形码基因座处保留表示所删除序列的独特的条形码。在另一个实施例中，所述方法还包括在至少一个基因修饰的细胞的条形码基因座处对条形码进行测序，以识别用于基因修饰所述细胞的基因组编辑盒。

在某些实施例中，所述方法还包括对每个基因组编辑盒进行测序。例如，可以在将基因组编辑盒连接到载体中或在转染细胞之前的中间克隆步骤执行基因组编辑盒的测序以将条形码键合至特定的gRNA-供体多核苷酸组合。替代地或另外地，已整合在条形码基因座处的基因组编辑盒的测序可以用于确定在基因修饰的细胞上执行的基因组编辑。

RNA引导的核酸酶可以通过改变其引导RNA序列而靶向特定的基因组序列(即，待修饰的基因组靶序列)。靶特异性引导RNA包括与基因组靶序列互补的核苷酸序列，并且从而通过在靶位点的杂交来介导核酸酶-gRNA复合物的结合。例如，gRNA可以设计有与次要等位基因的序列互补的序列，以使核酸酶-gRNA复合物靶向突变位点。突变可以包括插入、缺失或取代。例如，突变可以包括单核苷酸变异、基因融合、易位、倒位、复制、移码、错义、无义或与感兴趣的表型或疾病相关联的其他突变。靶向的次要等位基因可能是常见的基因变异或罕见的基因变异。在某些实施例中，gRNA被设计为选择性地结合至具有单碱基对区分的次要等位基因，例如，以允许将核酸酶-gRNA复合物结合至单核苷酸多态性(SNP)。特别地，gRNA可以设计为靶向感兴趣的疾病相关的突变，以用于进行基因组编辑以从基因去除突变。替代地，gRNA可以设计有与主要或野生型等位基因的序列互补的序列，以将核酸酶-gRNA复合物靶向等位基因，以进行基因组编辑，以将突变引入细胞的基因组DNA中的基因中，诸如，插入、缺失或取代。例如，此类基因修饰的细胞可以用于改变表型、赋予新特性或产生用于药物筛选的疾病模型。

在某些实施例中，用于基因组修饰的RNA引导的核酸酶是成簇的规律间隔的短回文重复序列(CRISPR)系统Cas核酸酶。任何能够催化DNA的位点定向切割以允许通过HDR机制整合供体多核苷酸的RNA引导的Cas核酸酶可以用于基因组编辑中，包括CRISPR系统I型、II型或III型Cas核酸酶。Cas蛋白质的示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1或Csx12)、Cas10、Cas10d、Cas12a、Mad7、CasX、CasY、Cas13a、Cas14、C2c1、C2c2、C2c3、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966，及其同系物或修饰版本。

在某些实施例中，使用II型CRISPR系统Cas9核酸内切酶。来自任何种类的Cas9核酸酶或其保留Cas9核酸内切酶活性(即，催化DNA的位点定向切割以生成双链断裂)的生物活性片段、变体、类似物或衍生物可以用于执行如本文所述的基因组修饰。Cas9不必物理地源于生物体，而是可以是合成或重组产生的。源于许多细菌物种的Cas9序列是本领域中公知的，并且列在国家生物技术信息中心(NCBI)的数据库中。参见，例如，用于Cas9的NCBI条目源于：化脓性链球菌(WP_002989955、WP_038434062、WP_011528583)；空肠弯曲杆菌(WP_022552435、YP_002344900)、大肠弯曲杆菌(WP_060786116)；胎儿弯曲杆菌(WP_059434633)；溃疡棒状杆菌(NC_015683、NC_017317)；白喉棒状杆菌(NC_016782、NC_016786)；粪肠球菌(WP_033919308)；栖苍蝇螺原体(NC_021284)；中间普氏菌(NC_017861)；台湾螺原体(NC_021846)；海豚链球菌(NC_021314)；波罗的海贝尔氏菌(NC_018010)；扭曲冷弯曲菌(NC_018721)；嗜热链球菌(YP_820832)、变形链球菌(WP_061046374、WP_024786433)；无害李斯特菌(NP_472073)；单核细胞增生李斯特菌(WP_061665472)；嗜肺军团菌(WP_062726656)；金黄色葡萄球菌(WP_001573634)；土拉弗朗西斯菌(WP_032729892、WP_014548420)、粪肠球菌(WP_033919308)；鼠李糖乳杆菌(WP_048482595、WP_032965177)；以及脑膜炎奈瑟菌(WP_061704949、YP_002342100)；所有这些序列(截至本申请的提交日期录入的)均通过引用并入本文。包括与其具有至少约70-100％序列同一性的序列，包括在该范围内的任何百分比同一性，诸如70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％的序列同一性的这些序列或其变体中的任一个可以用于基因组编辑，如本文所述。也可以参见Fonfara等，(2014)Nucleic AcidsRes.，42(4)：2577-90；Kapitonov等，(2015)J.Bacteriol，198(5)：797-807，Shmakov等，(2015)Mol.Cell.，60(3):385-397以及Chylinski等，(2014)Nucleic Acids Res.，42(10)：6091-6105)；其用于序列比较和讨论Cas9的遗传多样性和系统发育分析。

CRISPR-Cas系统天然存在于细菌和古菌中，其在RNA介导的针对外来DNA的适应性免疫中发挥作用。细菌2类II型CRISPR系统使用内切核酸酶Cas9，其与引导RNA(gRNA)形成复合物，引导RNA(gRNA)特异性地杂交至互补的基因组靶序列，其中Cas9核酸内切酶催化切割以产生双链断裂。Cas9的靶向通常还依赖于直接位于gRNA结合位点的3'处的DNA中的原间隔序列邻近基序(PAM)的存在。

基因组靶位点通常包括与gRNA互补的核苷酸序列，并且还可以包括原间隔序列邻近基序(PAM)。在某些实施例中，在源于化脓性链球菌的Cas9(SpCas9)的情况下，除了3个碱基对的PAM之外，靶位点还包括20-30个碱基对。通常，PAM的第一核苷酸可以是任何核苷酸，而其他两个核苷酸将取决于所选的特异性SpCas9变体。示例性的PAM序列是本领域的技术人员已知的并且包括但不限于NNG、NGN、NAG和NGG，其中N代表任何核苷酸。在某些实施例中，gRNA靶向的等位基因包括在等位基因内创建PAM的突变，其中PAM促进Cas9-gRNA复合物至等位基因的结合。

在某些实施例中，gRNA的长度为5-50个核苷酸、10-30个核苷酸、15-25个核苷酸、18至22个核苷酸或19至21个核苷酸，或所述范围之间的任何长度，包括例如，10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个核苷酸的长度。引导RNA可以是在单个RNA分子中包括crRNA和tracrRNA序列的单个引导RNA，或者引导RNA可以包括两个RNA分子，其中crRNA和tracrRNA序列存在于单独的RNA分子中。

在另一个实施例中，可以使用来自普氏菌和弗朗西丝菌1(Cpf1/Cas12a)的CRISPR核酸酶。Cas12a是与Cas9具有相似性的2类V型CRISPR/Cas系统RNA引导的核酸酶并且可以类似地使用。与Cas9不同，Cas12a不需要tracrRNA并且仅依赖于其引导RNA中的crRNA，这提供了与Cas9相比，更短的引导RNA可以与Cas12a一起用于靶向的优势。Cas12a能够切割DNA或RNA。由Cas12a识别的PAM位点具有序列5'-YTN-3'(其中“Y”是嘧啶并且“N”是任何核碱基)或更常见的5'-TTTV-3'(其中“V”是任何碱基但T)，这与由Cas9识别的富含G的PAM位点形成了对比。Cas12a对DNA的切割产生了双链断裂，其中粘性末端具有4或5个核苷酸突出。对于Cas12a的讨论，参见，例如，Ledford等，(2015)Nature.526(7571):17-17,Zetsche等，(2015)Cell.163(3):759-771，Murovec等，(2017)Plant Biotechnol.J.15(8):917-926,Zhang等，(2017)Front.Plant Sci.8:177,Fernandes等，(2016)Postepy Biochem.62(3):315-326；其通过引用并入本文。

C2c1是可以使用的另一种2类V型CRISPR/Cas系统RNA引导的核酸酶。类似于Cas9，C2c1取决于crRNA和tracrRNA以引导至靶位点。对于C2c1的描述，参见，例如，Shmakov等，(2015)Mol.Cell.60(3):385-397,Zhang等，(2017)Front Plant Sci.8:177；其通过引用并入本文。

在又一个实施例中，可以使用工程化的RNA引导的FokI核酸酶。RNA引导的FokI核酸酶包括无活性的Cas9(dCas9)和FokI核酸内切酶(FokI-dCas9)的融合，其中dCas9部分在FokI上赋予引导RNA依赖性靶向。对于工程化的RNA引导的FokI核酸酶的描述，参见，例如，Havlicek等，(2017)Mol.Ther.25(2):342-355,Pan等，(2016)Sci Rep.6:35794,Tsai等(2014)Nat Biotechnol.32(6):569-576；其通过引用并入本文。

RNA引导的核酸酶可以以蛋白质的形式提供，诸如，与gRNA复合的核酸酶，或由编码RNA引导的核酸酶的核酸提供，诸如，RNA(例如，信使RNA)或DNA(表达载体)。可以优化密码子的使用以提高在特定细胞或生物体中RNA引导的核酸酶的产生。例如，与天然存在的多核苷酸序列相比，编码RNA引导的核酸酶的核酸可以被修饰以取代在酵母细胞、细菌细胞、人类细胞、非人类细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他感兴趣的宿主细胞中具有更高使用频率的密码子。当将编码RNA引导的核酸酶的核酸引入细胞中时，蛋白质可以在细胞中瞬时、条件性或组成性表达。

供体多核苷酸和gRNA很容易通过标准技术合成，例如，经由亚磷酰胺化学进行的固相合成，如在通过引用并入本文的美国专利号4,458,066和4,415,732中所公开的；Beaucage等，Tetrahedron(1992)48:2223-2311；以及应用生物系统用户公告第13号(1987年4月1日)。其他化学合成方法包括，例如，Narang等，Meth.Enzymol.(1979)68:90描述的磷酸三酯方法以及Brown等，Meth.Enzymol.(1979)68:109公开的磷酸二酯方法。鉴于gRNA(通常长度为约20个核苷酸)和供体多核苷酸(通常为约100-150个核苷酸)的较短长度，gRNA供体多核苷酸盒可以通过标准寡核苷酸合成技术生产并且随后连接到载体中。此外，可以使用高度并行的基于阵列的寡核苷酸文库合成方法(参见，例如，Cleary等，(2004)NatureMethods 1:241-248,Svensen等，(2011)PLoS One 6(9):e24906)轻松创建针对数千个基因组靶标的gRNA-供体多核苷酸盒的文库。

此外，可以将接头序列添加到寡核苷酸中以促进高通量扩增或测序。例如，可以在寡核苷酸的5'和3'末端处添加一对接头序列，以允许通过同一组引物对多个寡核苷酸同时进行扩增或测序。另外地，可以将限制性位点掺入寡核苷酸以促进寡核苷酸至载体中的克隆。例如，包括gRNA供体多核苷酸盒的寡核苷酸可以设计有共同的5'限制性位点和共同的3'限制性位点以促进至基因组修饰载体中的连接。在共同的5'限制性位点和共同的3'限制性位点处选择性地切割每个寡核苷酸的限制性消化，以产生限制性片段，其可以克隆到载体(例如，质粒或病毒载体)中，随后用包括gRNA-供体多核苷酸盒的载体来转化细胞。

编码gRNA-供体多核苷酸盒的多核苷酸的扩增可以在例如，连接到基因组修饰载体之前或测序之前和条形码化之后进行。可以使用用于扩增寡核苷酸的任何方法，包括但不限于聚合酶链式反应(PCR)、等温扩增、基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)、链置换扩增(SDA)和连接酶链式反应(LCR)。在一个实施例中，基因组编辑盒包含共同的5'和3'引发位点，以允许与一组通用引物并行地扩增gRNA-供体多核苷酸序列。在另一个实施例中，一组选择性引物用于从混合的混合物选择性地扩增gRNA-供体多核苷酸的子集。

用包括基因组编辑盒的重组多核苷酸转化的细胞可以是原核细胞或真核细胞，并且优选地被设计用于通过转化高效掺入gRNA-供体多核苷酸文库。将核酸引入宿主细胞中的方法是本领域中公知的。常用的转化方法包括化学诱导转化，通常使用二价阳离子(例如，CaCl2)和电穿孔。参见，例如，Sambrook等，(2001)分子克隆，实验室手册，第3版，冷泉港实验室，纽约，Davis等，(1995)分子生物学的基本方法，第2版，McGraw-Hill和Chu等，(1981)基因13:197；其通过引用整体并入本文。

细胞内供体DNA至DNA断裂的随机扩散可能会针对同源修复限制速率。通过有利于HDR而非NHEJ和细胞死亡的竞争途径，主动供体募集可以用于增加由供体DNA基因修饰的细胞的频率。用于主动供体募集的方法包括：a)将融合蛋白引入细胞中，所述融合蛋白包括选择性地结合至DNA断裂的蛋白质，所述DNA断裂连接至包括核酸结合域的多肽；以及b)将供体多核苷酸引入细胞中，所述供体多核苷酸包括i)足够互补以杂交至邻近DNA断裂的序列的核苷酸序列，以及ii)包括被融合蛋白的核酸结合域识别的结合位点的核苷酸序列，其中核酸结合域选择性地结合至供体多核苷酸上的结合位点以在供体多核苷酸和融合蛋白之间产生复合物，从而将供体多核苷酸募集到DNA断裂并且促进HDR。

DNA断裂可以由位点特异性核酸酶，诸如但不限于，Cas核酸酶(例如，Cas9、Cas12a或C2c1)、工程化的RNA引导的FokI核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、限制性核酸内切酶、大范围核酸酶(例如，I-SceI、I-CreI或I-DmoI)、归巢核酸内切酶等创建。可以使用在用于供体多核苷酸的靶整合位点处选择性地切割序列的任何位点特异性核酸酶。

DNA断裂可以是单链(切口)或双链DNA断裂。如果DNA断裂是单链DNA断裂，所使用的融合蛋白则包括选择性地结合至单链DNA断裂的蛋白质，而如果DNA断裂是双链DNA断裂，所使用的融合蛋白则包括选择性地结合至双链DNA断裂的蛋白质。

在整合中，选择性地结合至DNA断裂的蛋白质可以是，例如，RNA引导的核酸酶，诸如，Cas核酸酶(例如，Cas9或Cas12a)或工程化的RNA引导的FokI核酸酶。

供体多核苷酸可以是单链或双链的，并且可以由RNA或DNA组成。包括DNA的供体多核苷酸可以从包括RNA的供体多核苷酸产生，如果需要，通过使用逆转录酶的逆转录进行，诸如在细菌反转录子系统或病毒逆转录酶中。取决于融合蛋白中核酸结合域的类型，供体多核苷酸可以包括，例如，包括由RNA结合域识别的RNA序列或由DNA结合域识别的DNA序列的对应的结合位点。例如，融合蛋白可以构建有要与供体多核苷酸中对应的LexA结合位点相匹配的LexA DNA结合域。在另一个实例中，融合蛋白可以构建有要与供体多核苷酸中对应的Fkh1结合位点相匹配的Fkh1 DNA结合域。

在另一个实施例中，融合蛋白还可以包括磷酸苏氨酸结合域(例如，FHA)，其中供体多核苷酸被选择性地募集到具有包括磷酸化苏氨酸残基的蛋白质的DNA断裂，对于磷酸苏氨酸结合域来说，所述磷酸化苏氨酸残基位于足够靠近DNA断裂处，以结合至磷酸化苏氨酸残基。磷酸苏氨酸结合域可以与任何DNA结合域组合(例如，与LexA融合以生成LexA-FHA)以用于供体募集。

在实施例中，每个重组多核苷酸还包括编码能够与重组多核苷酸杂交的引导RNA(例如，引导X)的第二核酸序列。在实施例中，引导RNA与每个细胞中的核酸酶形成复合物，使得引导RNA-核酸酶复合物切割重组多核苷酸。在实施例中，重组多核苷酸是质粒载体并且引导RNA-核酸酶复合物使质粒载体线性化。

在实施例中，每个重组多核苷酸还包括编码能够与重组多核苷酸杂交的引导RNA(例如，引导X)的第二核酸序列，其中引导RNA与每个细胞中的核酸酶形成复合物，使得引导RNA-核酸酶复合物切割条形码基因座。

序列验证

在某些实施例中，所述方法还包括排列多个基因修饰细胞，随后对阵列中每个集落的条形码基因座进行高度并行的序列验证。示例可以在美国专利公开号2016/0122748中找到，该专利的全部内容通过引用并入本文。在实施例中，所述方法包括：a)将有序阵列中的多个基因修饰细胞平板培养在适合基因修饰细胞生长的培养基上；b)在每个基因修饰细胞在有序阵列中产生克隆集落的条件下培养多个基因修饰细胞；c)将基因组修饰条形码从有序阵列中的集落引入条形码器细胞中，其中条形码器细胞包括核酸，核酸包括用于位点特异性重组酶的重组靶位点以及识别基因组修饰条形码所对应的有序阵列中集落的位置的相应条形码序列；d)使用位点特异性重组酶系统将基因组修饰条形码易位至与条形码器细胞的条形码序列相邻的位置，其中用条形码器细胞的重组靶位点进行的位点特异性重组生成核酸，其包括键合至基因组修饰条形码的条形码序列；e)对包括键合至基因组修饰条形码的条形码器细胞的条形码序列进行测序，以识别来自集落的基因组修饰条形码的序列，其中条形码器细胞的条形码序列被用于识别基因组修饰条形码所源自的有序阵列中集落的位置；以及f)从由条形码器细胞的条形码所识别的有序阵列中的集落挑选包括基因组修饰条形码的克隆。基因组修饰条形码所对应的基因组编辑盒(例如，引导RNA和供体多核苷酸)可以从先前通过例如，在转染之前，对基因组修饰条形码和基因组修饰盒所在的载体进行测序确定的基因组编辑盒-条形码关联的数据库识别。在实施例中，所述方法包括从由条形码器细胞的条形码识别的有序阵列中的集落挑选包括基因修饰条形码的克隆。在实施例中，所述方法并行进行，使得挑选多个克隆并对其进行测序。

术语“条形码器细胞”是指包括核酸的细胞，所述核酸包括条形码序列。在一个实施例中，条形码识别包括条形码器细胞的集落的位置。

例如，基因修饰细胞可以是单倍体酵母细胞，条形码器细胞可以是能够与基因修饰细胞交配的单倍体酵母细胞，其中将基因组编辑盒条形码从有序阵列中的基因修饰单倍体酵母集落引入到条形码器单倍体酵母细胞包括将来自集落的单倍体酵母克隆与条形码器单倍体酵母细胞交配以产生二倍体酵母细胞。如本文所述，后续的位点特异性重组生成了包括键合至二倍体酵母细胞中的基因组编辑盒的条形码序列的核酸。基因修饰的细胞可以是菌株MATα并且条形码器酵母细胞可以是菌株MATa。替代地，基因修饰的细胞可以是菌株MATa并且条形码器酵母细胞可以是菌株MATα。

在某些实施例中，条形码器细胞中的重组酶系统是Cre-loxP位点特异性重组酶系统、Flp-FRT位点特异性重组酶系统、PhiC31-att位点特异性重组酶系统或Dre-rox位点特异性重组酶系统。在一个实施例中，条形码器细胞的重组靶位点包括loxP重组位点。

在另一个实施例中，条形码器细胞中的重组酶系统使用大范围核酸酶来生成DNA双链断裂。在另一个实施例中，条形码器细胞中的大范围核酸酶是半乳糖可诱导SceI大范围核酸酶。在另一个实施例中，基因组编辑盒的侧翼是由大范围核酸酶识别的限制性位点。

在另一个实施例中，所述方法还包括使用可选择标记，其选择已经经历成功的位点特异性重组的克隆。

在另一个实施例中，所述方法还包括使用可选择标记，其选择已经在一个或多个基因组靶基因座处经历了供体多核苷酸的成功整合的克隆。

在另一个实施例中，所述方法还包括对有序阵列中的至少一个克隆进行表型分析。

在另一个实施例中，所述方法还包括对有序阵列中的至少一个克隆的完全基因组进行测序。

在另一个实施例中，所述方法还包括以有序阵列中的所有集落重复步骤(a)至(e)，以识别用于有序阵列中的每个集落的基因组编辑盒条形码(以及因此为其所对应的引导RNA和供体多核苷酸)的序列。

在另一方面，提供了包括通过本文描述的方法产生的基因修饰细胞的克隆的集落的有序阵列，其中集落根据期望的条形码重新排列。在一个实施例中，为在原始阵列组上识别的每个独特的基因组编辑盒条形码挑选单个集落。这使得能够合并文库，其中每个集落对应于期望的基因组编辑的独特的条形码。在又一个实施例中，在该合并阵列中的集落可以混合在一起，以用于竞争性生长实验，由于针对每个条形码化的菌株的几乎相等的起始丰度，其具有较少文库偏差的优势。

示例实施例和方法

这种方法的基本的一个原理是与另一个条形码邻近地插入一个条形码，例如，通过同源定向重组(HDR)进行，从而导致相同DNA分子上的条形码的物理键合(图1B至1D)。多个单独的条形码有效组合以生成更大的单个条形码，其中条形码的顺序代表添加基因组编辑的顺序，从而使得能够进行基于测序的方法来识别条形码(即，变体)排列或组合且对其进行计数。本公开以几种新颖的方式建立在通过引用整体并入本文的美国临时申请号62/559,493中描述的条形码系统上，以使得能够进行后续轮次的条形码化。

DNA条形码可以编码细胞的多种变化，包括由已知(即，测序的)或未知DNA构建体的共同递送介导的那些变化。条形码和DNA构建体可以物理键合在一起，诸如，在相同的载体或扩增子上，其中载体的测序可以将条形码与DNA构建体键合起来。条形码可以代表未知的DNA修饰，诸如通过随机诱变或基于进化的方法生成的修饰。条形码还可以指向表观遗传修饰，并且可以用于跟踪细胞群的谱系。通常，条形码池的复杂性将远大于要进行条形码化的DNA或细胞群的复杂性，使得相同的条形码序列与两个不同的细胞或DNA构建体相关联的概率将足够低。

条形码(和相关联的多核苷酸序列)可以通过任何方式整合到条形码基因座中。在实施例中，通过同源重组将每个独特的条形码插入到条形码基因座中。在实施例中，通过非同源末端连接将每个独特的条形码插入到条形码基因座中。在实施例中，使用整合酶将每个独特的条形码插入到条形码基因座中。

在实施例中，将条形码整合到具有可选择标记的条形码基因座中。在实施例中，不使用可选择标记。图1A至1D显示了条形码键合递归的示例，其中使用(左侧)或不使用(右侧)可选择标记。条形码化可以由宿主细胞同源重组(HR)启用，其利用了两个同源臂，称为左同源(LH)和右同源(RH)。由位点特异性核酸酶(诸如，RNA引导的核酸酶)进行的切割可以用于大大加强HR效率。替代地，可以使用与切割无关的HR来整合传入的条形码构建体。双向可选择/可反向选择的标记的使用是可选的，并且用于去除未在期望基因座处掺入条形码的细胞的部分。

可选择标记是本领域中公知的。选择使用哪种可选择标记取决于，例如，细胞类型(例如，真核或原核)、细胞培养系统等，并且可以由本领域的技术人员确定。可以用于本文所述方法的可选择标记包括但不限于，抗生素抗性基因、除草剂抗性基因、抗代谢物标记基因和报告基因。

在实施例中，条形码的插入涉及能够插入又一个条形码的序列元素的共同插入。如图1C所示，这些插入元素可能包括用于位点特异性核酸酶、新的右同源性(RH2)以及可选的新标记(标记_偶数)的切割位点2。第N轮的条形码化可以由第N+1轮接续，其中可选标记在每一轮中变化，例如，在标记_奇数和标记_偶数之间来回切换(图1D)。条形码继续彼此邻近地累积，由右同源臂(RH1、RH2、RH3等)分开。短条形码的紧密键合启用了有效且经济的高通量测序方法来跟踪复杂池内的条形码的组合。

在实施例中，每轮条形码化添加新的条形码(通常长度为20-30bp)，由在条形码一侧上的修复同源性的短(通常为40-60bp)段分开。因此，连续轮次的条形码串联增加了60-90bp。对条形码阵列的长度存在实际限制，因为超过3至5轮的条形码化将导致要通过高通量测序来实际或经济地遍历太大的构建体。为了规避这个问题，可以使用称为“条形码压缩”的特殊轮次的条形码化以将条形码(例如，4至8个条形码)映射到单个短条形码上。

DNA条形码可以编码任意信息。这使得条形码能够代表其他键合的条形码的阵列，诸如已在条形码基因座处累积的那些。在该设置中，条形码不会键合至任何事物直到邻近条形码阵列的整合为止。如上所述，建议条形码池的复杂性要远大于要进行条形码化的细胞群的复杂性。

图2A至2C显示了可以如何插入一组“压缩器”条形码的示例，从而使得一个长测序读数能够将一组键合的条形码“压缩”至单个压缩的条形码上。此后，可以通过对单个条形码进行测序来简单地识别该条形码组合。图2B显示了将4个条形码压缩成单个bc_1..4。条形码压缩之后可以进行进一步轮次的递归条形码键合，其中不再需要(以及不再进行测序)的条形码累积至右侧。可以定期执行压缩，以使询问群所需的测序读数的长度最小化。

这种方法的一个缺点是，由于意外重组可能会去除条形码阵列的部分，所以右同源(RH)元素不能在后续轮次中重新使用。为了解决这个问题，可以引入专用的条形码压缩位点，例如，在图3A中所示的条形码基因座的右侧，其中使用了通用右同源(RH)和保留的切割位点1*，以及不同组的标记1*和2*的可选帮助。在这个压缩条形码的右侧，整合了插入元素，其被保留以用于未来轮次的条形码压缩。在这个压缩条形码的左侧，引入了一个特殊的同源性，称为RH^压缩和N+1切割位点。这些使下一轮的条形码化能够替换bc1、bc2、bc3和bc4，从而从条形码基因座去除旧的条形码。如图3B所示，在对键合条形码进行测序并且将其计算映射至压缩的条形码上之后，下一轮次的条形码化使得能够去除不再需要的键合的条形码。压缩的条形码还可以针对后续轮次的条形码键合引入切割位点和同源性。在该示例中，邻近bc_1..4的左侧插入bc5，并且在该过程中，去除了bc1、bc2、bc3和bc4，以及RH1、RH2、RH3、RH4和RH5及其相关联的切割位点。这使得能够回收较早的插入元素，并且防止条形码基因座不断生长。与递归条形码键合一样，这种压缩的条形码也可选地引入标记、同源性和切割位点，以用于未来轮次的压缩(图4A至4B)。

如图4A至4B所示，第二轮的条形码压缩在结构上可以与第一轮相同，其涉及使用相同的RH元素，但却不同的同源性和切割位点，以用于将条形码进一步键合至左侧并且将条形码压缩至右侧。在该示例轮次的条形码压缩中，传入的条形码bc_1..7压缩键合的条形码bc5、bc6和bc7以及先前压缩的bc_1..4两者。至左侧的下一轮的条形码键合可选地去除了bc5、bc6和bc7以及先前压缩的bc_1..4，从而使得能够在下一系列的条形码化轮次中回收先前使用的插入元素。

(1)至左侧的条形码键合，(2)在右侧上插入压缩的条形码，以及(3)用下一个条形码去除条形码阵列的整个过程可以重复任意次数。在图5A至5B中示出了该过程的示例方法：

(1)条形码键合操作使基因座扩张至左侧(图5A)或右侧(图5B)，其中每个传入的条形码使用相同的LH_通用、轮次特异性(RH_x)同源性，并且在左侧上带来同源性，以用于未来轮次的条形码键合(RH_x+1)。

(2)条形码压缩使基因座扩张至右侧(图5A)或左侧(图5B)，并且允许将存储在任意数量的键合条形码中的数据压缩至单个条形码上。原始基因座包含RH_通用和LH_y压缩同源性，其被保留用于可能在任意轮次的条形码键合之后发生的一轮条形码压缩。

(3)具有基因座收缩的条形码键合使得能够回收LH和RH元素，以用于未来几轮的条形码键合和压缩。压缩的条形码的右侧伴随有LH_y+1压缩同源性，以用于又一个未来轮次的压缩，并且左侧伴随有RH_x+1(压缩)同源性，这使得能够进行下一轮的条形码键合以去除先前键合的条形码并且收缩基因座。整个一组的操作是对称的，如(图5A)和(图5B)所示。这种方法使得能够用单个条形码或短条形码阵列构建和跟踪更高阶的组合基因修饰。

除了引导-供体外，还可以对用于CRISPR干扰或激活的引导RNA或小发夹RNA盒进行条形码化。然后可以通过转化将这些条形码化的构建体作为圆形或线性载体引入至细胞群中。将条形码(以及可选的其相关联的构建体)插入条形码基因座中是由条形码任一侧上的特异性同源序列介导的，从而使得能够进行同源重组。同源重组可以被动发生或可以被刺激，例如，通过位点特异性核酸酶(仅蛋白质的核酸酶或RNA引导的核酸酶)，通过体外或体内条形码化的构建体的线性化，或通过主动供体募集进行。在一个实施例中，可以在体外执行条形码之间的同源序列的重组(例如，通过Gibson组装进行)。

在一个实施例中，所述方法可以用于在菌株多样化或菌株进化期间跟踪未知的基因修饰以使得能够进行谱系追踪。在相关的实施例中，可以在无引导的基因多样化过程，诸如，基因或途径的随机全基因组诱变或易错PCR之后将条形码插入条形码基因座中。在这种设置中，条形码所代表的基因修饰最初是未知的。多轮的基因多样化、条形码键合和选择使得能够构建谱系树。最终对具有期望特性的克隆进行测序可以产生关于变化组合最终会如何导致感兴趣的表型的丰富信息。此外，可以通过我们的重组酶定向索引方法(美国专利申请公开号2016/0122748，其通过引用整体并入本文)从数千个未知克隆的复杂池快速隔离单独的克隆。在又一个实施例中，条形码可以在2位DNA编码空间中编码任意数字信息。后续条形码键合可以用于临时存储信息，并且条形码压缩使得能够进行数据压缩。

在又一个实施例中，诸如全基因的基因构建体可以进行条形码化(在合成、PCR扩增或通过诸如，GATEWAY克隆的方法克隆至受体载体中期间)以及整合。如图18所示，可以通过多种方法，包括多重化Gibson组装(步骤1)来构建基因变体文库。在这个示例中，所有基因变体在末端都包含共同的扩增序列。长读技术可以用于使独特的bc1序列与基因序列相关联(步骤2)。如步骤3中所示，将基因构建体从第2轮右同源(R2RH)序列分开的限制性位点使得能够插入具有细菌和酵母特异性标记的R2LH序列。用于第2轮的切割位点位于标记的侧翼。引导1和Cas9的转化和诱导使得能够在条形码基因座处插入基因变异构建体(步骤4)。

以与上述的引导-供体设置类似的风格包括递归整合元素使得条形码化基因构建体的阵列能够在条形码基因座处串联。图19显示了代替源于图18的基因A盒的标记部分的经由引导2位点至条形码基因座中的第二基因变体(基因B)插入物。结果是基因A与基因B以及bc1与bc2的串联。重复该过程允许将任意数量的基因一起插入，其中条形码键合后进行条形码压缩和条形码基因座收缩，如图5A至5B所示。

这种方法的一种变型可以在整个基因组中的期望位置处引入基因，其中质粒上的基因通过同源性位于期望基因组区域的侧翼，从而基本上成为具有大基因组插入的供体DNA(图20和21)。值得注意的是，这些条形码化方法可以在所述方法的后续轮次中组合，使得第1轮可以代表基因组编辑文库，第二轮是全基因的文库，使得任意条形码类型(基因组编辑、全基因、CRISPR干扰/激活盒)可以混合和匹配。

所述方法的一个限制包括对顺序编辑和条形码化步骤的需要。另一个则是通过对具有非常高复杂性的池中每个克隆进行全基因组测序来确认所有实际编辑或修饰则可能是不切实际的。最后，由于大量的变体与大量的基因构建体混合在一起并且构建体被随机引入每个变体中，因此必须询问的组合必须是全部对全部，其具有诸如多对多，少对多，多对少或少对多的方法的形式。因此，使得能够完全覆盖所有期望的变体组合所需的每个转化的大小随着每轮编辑和条码化呈指数增长，使得在3轮编辑之后，1000个初始变体导致1000个选择3，或1000*999*998/(3*2*1)＝166,167,000个可能的组合，从而随着进一步的轮次而爆发。选择从其开始(少对多)的期望的变体或缩小要添加(多对少)的基因构建体的大小使得能够管理组合空间。管理该问题的一种方式是使用重组酶定向索引(REDI)以在编辑后创建菌株阵列。如通过引用整体并入本文的美国临时专利申请号62/559,493中详述的，本文所述的方法与重组酶定向索引相兼容以解析修饰的菌株。在将菌株解析为阵列格式后，可以选择特定菌株以接收第二或之后的圆形条形码盒的文库。实际考虑，诸如实验室中采用的培养体积和充分覆盖大变体群所需的测序读数的数量将决定最终可以检测的变体组合的数量。

在实施例中，对多个细胞执行至少两轮条形码化。在实施例中，对多个细胞执行至少三轮条形码化。在实施例中，对多个细胞执行至少四轮条形码化。在实施例中，对多个细胞执行至少五轮条形码化。在实施例中，对多个细胞执行至少六轮、至少七轮、至少八轮、至少九轮或至少十轮条形码化。

在实施例中，对多个细胞执行2至100轮条形码化。在实施例中，对多个细胞执行2至50轮条形码化。在实施例中，对多个细胞执行2至20轮条形码化。在实施例中，对多个细胞执行2至15轮条形码化。在实施例中，对多个细胞执行2至10轮条形码化。在实施例中，对多个细胞执行2至8轮条形码化。在实施例中，对多个细胞执行2至6轮条形码化。在实施例中，对多个细胞执行2至5轮条形码化。在实施例中，对多个细胞执行2至4轮条形码化。在实施例中，对多个细胞执行3至20轮条形码化。在实施例中，对多个细胞执行4至20轮条形码化。在实施例中，对多个细胞执行5至20轮条形码化。在实施例中，对多个细胞执行6至20轮条形码化。在实施例中，对多个细胞执行8至20轮条形码化。在实施例中，对多个细胞执行10至20轮条形码化。

在实施例中，在条形码压缩之前对多个细胞执行至少两轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行至少三轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行至少四轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行至少五轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行至少六轮、至少七轮、至少八轮、至少九轮或至少十轮条形码化。

在实施例中，在条形码压缩之前对多个细胞执行2至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至15轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至10轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至8轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至6轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至5轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至4轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行3至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行4至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行5至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行6至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行8至20轮条形码化。在实施例中，在条形码压缩之前对多个细胞执行10至20轮条形码化。

在实施例中，对多个细胞执行至少两轮基因编辑和条形码化。在实施例中，对多个细胞执行至少三轮基因编辑和条形码化。在实施例中，对多个细胞执行至少四轮基因编辑和条形码化。在实施例中，对多个细胞执行至少五轮基因编辑和条形码化。在实施例中，对多个细胞执行至少六轮、至少七轮、至少八轮、至少九轮或至少十轮的基因编辑和条形码化。

在实施例中，对多个细胞执行2至20轮基因编辑和条形码化。在实施例中，对多个细胞执行2至15轮基因编辑和条形码化。在实施例中，对多个细胞执行2至10轮基因编辑和条形码化。在实施例中，对多个细胞执行2至8轮基因编辑和条形码化。在实施例中，对多个细胞执行2至6轮基因编辑和条形码化。在实施例中，对多个细胞执行2至5轮基因编辑和条形码化。在实施例中，对多个细胞执行2至4轮基因编辑和条形码化。在实施例中，对多个细胞执行3至20轮基因编辑和条形码化。在实施例中，对多个细胞执行4至20轮基因编辑和条形码化。在实施例中，对多个细胞执行5至20轮基因编辑和条形码化。在实施例中，对多个细胞执行6至20轮基因编辑和条形码化。在实施例中，对多个细胞执行8至20轮基因编辑和条形码化。在实施例中，对多个细胞执行10至20轮基因编辑和条形码化。

在实施例中，在条形码压缩之前对多个细胞进行至少两轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞进行至少三轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞进行至少四轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞进行至少五轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行至少六轮、至少七轮、至少八轮、至少九轮或至少十轮基因编辑和条形码化。

在实施例中，在条形码压缩之前对多个细胞执行2至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至15轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至10轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至8轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至6轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至5轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行2至4轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行3至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行4至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行5至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行6至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行8至20轮基因编辑和条形码化。在实施例中，在条形码压缩之前对多个细胞执行10至20轮基因编辑和条形码化。

在实施例中，仅一个质粒文库是通过细菌中克隆创建的。在实施例中，可以用大范围核酸酶(例如，SceI大范围核酸酶)体外切割初始的第1轮文库以线性化引导-供体骨架。在实施例中，可以根据期望将所得的引导-供体的单个文库与任何未来一轮的插入物一起直接转化至酵母中。这不仅消除了用于每个新轮次的条形码化/编辑的多个费力的第2步克隆程序的需要，而且由于线性片段激活了HDR机理，这也大大增强了编辑效率。这种方法展示了一种设置，其特征为用于增强HDR的三种独立的正交方法：供体募集、供体扩增和线性化化供体载体。

示例

本领域的技术人员将理解，对本文所述的制造和使用颗粒的描述仅用于说明目的，并且本公开不受该说明的限制。

示例1.第一轮条形码整合

编码引导-供体的寡核苷酸以高密度阵列格式合成，并且从阵列表面切下以生成复杂池。包含引导RNA-供体DNA序列(引导-供体)的寡核苷酸池在聚合酶链式反应(PCR)期间进行条形码化并且被克隆至载体中(图6，步骤1、2)。每个寡核苷酸包含位于引导-供体盒侧翼的共同的扩增序列，以使得能够扩增特定子池。正向引物在其3'末端包含限制性位点(AscI)，并且反向引物在其5'末端编码不同的限制性位点(NotI)，随后是排除非法限制性位点(NotI、AscI和BspQI)的编码伪随机序列(NNNVHTGNNNVHTGNNNVHTGNNNVHTGNNN或NNNTGVHNNNTGVHNNNTGVHNNNTGVHNNN)的简并条形码(bc1)。简并条形码的侧翼是称为第1轮同源性(r1h)和第2轮同源性(r2h)的50bp的同源序列。NotI和AscI位点使得能够将粘性末端克隆至多拷贝受体载体，其中AscI位点位于引导RNA启动子的3′端。引导和供体序列由IIS型限制性位点(BspQI)分开，IIS型限制性位点(BspQI)使得能够有任意突出进行克隆，在这种情况下，GTTT直接位于引导序列的3'末端，以使得能够在引导RNA的恒定结构组分中进行克隆。

跨引导、供体和条形码的测序为每个条形码分配了精确的引导-供体序列(图6，步骤3)。第一步克隆产物的高通量测序(HTS)使得能够将引导-BspQI-供体序列与独特的条形码(bc1)键合起来。在基于质量的读数1和读数2合并之后，双端测序可以用于提高碱基判读的置信度。

然后将包含引导支架和可选择标记的插入物克隆在引导和供体之间(图6，步骤4、5)。步骤4a：结构引导RNA组分与酵母特异性(例如，URA3、LYS2或HIS3)和细菌特异性(例如，kanR)选择标记一起用在其5'末端包含BspQI序列的引物进行扩增。反向引物包括位于Illumina读数2启动序列的3的'额外的条形码(bc*；NNNNNN或NNNNNNHVVNHBBHBHD)，其被修饰为在BspQI位点的第一位置处包含G至A SNP。步骤4b：用BspQI切割第一步克隆产物，然后进行磷酸酶处理，这使得能够对结构gRNA插入物进行无痕克隆。这些第二步文库是用卡那霉素选择的，以使得能够富集包含插入物的载体。bc*-供体和bc1的双端HTS使得能够将条形码映射至独特的引导-供体组合(图6，步骤5)。

第二克隆步骤后的引导-供体载体被转化到酵母中，并且用插入物特异性标记(URA3)进行选择(图7)。对于每个供体DNA/基因构建体而言可以不同的引导RNA靶向针对双链断裂的特定基因组位点，其由对应的供体DNA修复，从而在整个基因组中的期望位置产生精确的基因组修饰。受体菌株被修饰为包含具有可反向选择的标记(FCY1)的条形码整合基因座。除了来自文库的引导序列之外，引导-供体质粒还包含条形码引导1表达单元以促进条形码整合，其中条形码引导1切割位点位于FCY1的侧翼。转化后，引导-供体质粒通过过度生长而累积至高拷贝数。在引导-供体质粒上第1轮同源(r1h)序列的右侧是条形码引导1切割位点，其使得质粒稍后能够线性化以加速编辑后的质粒丢失。

第二个通用的引导RNA或位点特异性核酸酶靶向条形码基因座和/或引导-供体质粒(导致质粒线性化)和条形码基因座处的同源重组。在通过引用整体并入本文的美国临时申请号62/559,493中描述了由引导-供体构建体限定的这个方面，该引导-供体构建体在具有或没有主动供体募集(诸如，由LexA-Fkh1或LexA-FHA介导的)的情况下在条形码基因座处将条形码插入基因组中，并且在其他地方进行了定义的基因组变化。另外地或替代地，可以通过主动供体募集来刺激条形码至条形码基因座中的掺入(参见美国临时申请号62/559,493)。

Cas9的诱导导致条形码引导1切割质粒和基因组条形码基因座，并且导致编辑引导1在基因组中的其他位置进行切割。(步骤2a)条形码引导1切割导致整个引导RNA-bc*-供体DNA-bc1盒经由存在于引导-供体质粒上和在染色体条形码位点中的5'通用左同源(LH)序列和轮次特异性3’同源性进行的基因组整合。(步骤2b)编辑引导1切割之后是供体DNA定向同源重组以生成编辑#1。

示例2.递归条形码整合

每个引导-供体条形码都与用于下一轮的同源性和切割位点整合。如图8所示：

(1)包含bc1变体的菌株池用标记为bc2的引导-供体质粒转化，以使得能够进行第二轮多重编辑，从而生成具有bc1和bc2所有可能组合的菌株池。用于第2轮引导-供体质粒的克隆策略如下：(a)相同的通用左同源性(LH)位于条形码引导3位点的侧翼，以使得能够进行后一轮的编辑(第3轮)；(b)在结构引导RNA插入物中使用不同的酵母标记(LYS2)；(c)第2轮同源性(r2h)与第1轮中用于引导-供体质粒相同(参见图6)，除了引导位点被置于3'末端上；(d)bc2的上游(US)位于用于第3轮整合的一段同源性(r3h)，其中条形码3引导位点位于r3h的5'末端。

(2)经由LH和r2H的整合导致bc1与bc2紧密键合在一起。在该步骤中去除了由bc1代表的先前的引导-供体盒。从第1轮去除整合的酵母标记(URA3)使得能够在第3轮中回收该标记。

(3)bc1和bc2序列现在紧密键合在一起，使得双端HTS能够识别用于菌株识别和混合表型分析的双条形码组合。

(4)(a)第3轮编辑和条形码化利用具有与用于条形码引导4的切割位点相同的LH的引导供体质粒，侧翼为各自具有在其侧翼的其各自的引导靶的r4h和r3h序列的bc3序列，以及条形码引导3表达单元。酵母内部标记可以被交换回第1轮的标记。使用可反向选择标记和引导-供体质粒的自毁从先前轮次的编辑去除了标记。第1轮之后，在URA3选择之后用5-FC进行FCY1反向选择确保了URA3盒的整合。第2轮之后，在LYS2选择之后用5-FOA进行URA3反向选择确保了LYS2盒的整合。第3轮之后，在URA3选择之后用α-氨基乙二酸进行LYS2反向选择确保了URA3盒的整合等等。(b)通过构建在LH的3′末端和r(n+1)h条形码整合序列的5′末端包含(n+1)条形码引导位点，在r(n)h的3'末端包含(n)条形码引导位点，以及在质粒上的其他位置包含用于(n)编辑引导的Pol III表达单元的引导-供体受体载体使得能够进行后续轮次的编程(第n轮)。每个右同源序列r(n)h和r(n+1)h不应包含与任何先前使用的右同源序列的显著同源性。这些可以通过生成具有定义的G/C/A/T含量范围的随机50聚体并且通过BLAST确认缺少与酵母基因组和其他右同源序列的显著同源性来进行设计。(n)和(n+1)条形码引导位点不应包含与具有原间隔序列邻近基序(PAM)的基因组中的任何其他位点的任何显著的同源性，并且这可以经由BLAST或为RNA引导的核酸酶定制的脱靶算法进行检查。

示例3.条形码压缩

条形码压缩可以用靶向压缩器着陆垫的引导构建体和包含压缩器条形码的PCR产物来实现(图9和10)。随着后续几轮编辑构建更长的条形码，HTS识别条形码组合的可行性和实用性变得有限，这是因为在双端测序的情况下，所需的读数长度在[(条形码长度)*(条形码数量)+(同源长度)*(条形码数量-1)]除以2的阶数上。图9显示了以下步骤：

(1)在任意数量的编辑轮次(例如，5轮)之后，包含称为1*的引导(其中**表示该引导将使得能够进行条形码压缩)的质粒与包含高度复杂的条形码(例如，N₃₀)的PCR扩增子一起被转化至编辑菌株池中。如图2A至2C所示，该扩增子也可以键合至用于选择的标记。条形码的侧翼是在引导1*位点处启用HDR的序列，其称为上游压缩轮1*同源性(US 1**)和右同源性(RH)。为了能够进行更多轮次的编辑和条形码化，将第6轮位点与r6h序列一起放置在邻近US 1*同源性处。为了实现未来一轮的条形码压缩，将第2*轮位点与US第2*轮同源序列一起在邻近RH同源性处进行工程化。条形码可以合成为一段简并序列(例如，N₃₀)，其侧翼是用于扩增的恒定序列(左上)。

(2)整个条形码基因座的HTS允许将单独的bc1、bc2、bc3、bc4和bc5序列键合到独特的bc1:5压缩条形码。此后，这些菌株可以单独地通过测序bc1:5进行表型分析。

将条形码bc1至bc5压缩至bc1:5，随后可以进行迭代轮次的编辑和条形码压缩(如图7和8所示)。图10显示了经由条形码压缩进行高阶编辑的步骤：

(1)下一个条形码(bc6)在邻近压缩条形码(bc1:5)处插入，这伴随有在基因组中任何地方进行的编辑#6(未示出)。

(2)引导-供体-bc6盒去除了所有的条形码bc1、bc2、bc3、bc4和bc5，以及其相邻的同源性，仅留下bc1:5。这防止了条形码基因座尺寸扩大，并且允许回收先前使用的引导1*至5*，及其用于后续轮次的编辑和条形码化的相关联的同源性r1h至r5h。

(3)递归条形码化继续，如图4B所示。

(4)与bc1:5相组合的条形码bc6至bc10还可以用使位点2*靶向bc1:5右侧的2*引导进行进一步的压缩。PCR扩增子类似于生成bc1:5条形码的扩增子，不同的是位点5被位点11替换，并且位点2*被3**位点替换。侧翼同源性US 2*(相当于第一轮条形码压缩的DS 1*)和在第1轮条形码压缩期间放置的通用右同源(RH)序列使得能够实现靶向。

(5)整个条形码基因座的HTS允许将单个bc1:5、bc6、bc7、bc8、bc9和bc10序列键合至单个条形码bc1:10。此后，这些菌株可以通过测序bc1:10进行询问。

(6)甚至进一步轮次的编辑和条形码化可以用引导11*启动，并且使用3**位点进一步压缩以生成任意数量的条形码编辑。

整合条形码而不是引导-供体序列(如图7和8所示)可能是有利的，这是因为基因组整合的引导和用于下一轮的传入引导之间可能存在竞争，这可能导致较低的编辑效率。此外，不整合供体允许对编辑进行更简单的WGS验证，这是因为人们不必担心来自供体的读数混淆在靶位点处的变体识别。

为了在不整合引导或供体的情况下整合条形码，可以将着陆垫设计为仅整合位于引导-供体之间插入物(图11A至11B)。图11A至11B显示了在接收第1轮条形码之前的初始着陆垫。左同源性可以任意长，并且在这种情况下，～1kb kanR细菌/酵母穿梭标记被用作同源性。由于该方法可以按照不同的可选择标记的顺序进行，因此可以构建各种出发菌株，其中标记的侧翼是位点1引导切割靶。右同源性比左同源性短，并且与Lox71位点相邻，其可以用于重组酶定向牵引以及其他Cre-Lox介导的条形码键合方法。出发菌株可以具有从基因组或从质粒表达的反式作用因子Cas9、TetR和LexA-FHA。

示例4.在没有引导-供体整合的情况下，用于条形码整合的克隆条形码化的引导-供体文库

这种设置的另一个优点是可以使用单个步骤1引导-供体质粒文库来接收用于多轮的插入物(图12至14)。为了实现这一点，在插入物克隆步骤期间添加另外的条形码，其通过测序步骤与引导-供体条形码(bc0)相关联(图14；请注意，在底部质粒图中仅显示了包含条形码的插入物的部分)。

在这个版本的方法中，引导-供体没有整合-仅插入物才整合。在克隆的第1步中添加到引导-供体的初始条形码也不会整合，但这很重要，这是因为其在第2步克隆中被映射至插入物的条形码上。请注意，插入物中的整合引导确实整合了。然而，其受到了TetR抑制，因此在没有脱水四环素(ATc)的情况下，其不会与传入的引导竞争。替代地，整合引导可以与不同的CRISPR核酸酶，诸如Cas12a配对。

图13显示了可以用于为每一轮构建插入物的步骤。一旦构建了，其则用作PCR的模板以生成条形码化的轮次特异性插入物。以下是构建这些插入物的示例策略：

步骤1)将包含引导位点的gBlock克隆到骨架中。

步骤2)克隆可诱导条形码整合引导以用于第n轮。

步骤3)克隆kanR酵母/细菌穿梭标记。这清理了内部克隆的背景并且还用作通用左臂同源性。

步骤4)每轮克隆多达3个不同的标记。例如，对于3轮编辑而言，可以用3个标记以6种不同的顺序进行：

a)HIS3-LEU2-LYS2

b)HIS3-LYS2-LEU2

c)LEU2-LYS2-HIS3

d)LEU2-HIS3-LYS2

e)LYS2-HIS3-LEU2

e)LYS2-LEU2-HIS3

用不同的标记顺序执行所述方法将在每一轮检查在工程化变体和细胞的特定营养缺陷状态之间是否发生基因交互。

在图14中，图13中的轮次特异性插入物模板用包含条形码、短右同源性(RH)和克隆位点的反向引物进行扩增。这些在TypeIIS限制性消化后通过粘性末端连接克隆到图12中的步骤1引导-供体文库。包含插入物条形码、供体和引导-供体条形码的扩增子允许将引导-供体条形码“映射”到插入物条形码上。

示例5.针对单个条形码整合的同时发生的基因组编辑，引导-供体条形码整合和质粒自毁

可以使用可诱导Cas9将条形码整合和编辑诱导至100％。WT和nej1Δ用GAL-Cas9和引导-供体盒转化，以在ADE2基因中引入过早终止密码子(PTC)。Cas9表达由半乳糖诱导，并且在指定的世代收获等分试样。通过NGS分析ADE2基因座，并且计算WT序列、NHEJ插入缺失和供体DNA定向编辑(完美或不完美修复)的分数(参见方法)。图15A显示了重复实验中每一代的平均百分比。

通过靶向用于单个ADE2引导-供体质粒(图15B，顶部)的染色体条形码基因座以及>100,000个条形码化的引导-供体质粒的复杂池的扩增来分析引导-供体条形码的整合。未裁剪的凝胶图像表明在条形码基因座处没有可检测的NHEJ插入缺失事件。引导-供体质粒的自毁是通过三引物PCR进行评估的，其中使用了共同的正向引物和引导-供体质粒特异性引物(顶部带)或Cas9质粒特异性引物(底部带)。

在指定的半乳糖诱导世代的培养物以每板～1000个细胞的密度在丰富培养基(YPD)和FCY1可反向选择的培养基(5-FC)上以一式四份进行平板培养(图15C)。显示了板上存活集落的分数。从引导-供体质粒的独立转化开始，用三个生物学重复来重复所有实验。

示例6.条形码键合的原理证明

对于条形码键合的原理证明，我们为第1轮引入了引导-供体编辑ADE2以及随后为第2轮引入了引导-供体编辑CAN1。为了测试条形码键合是否独立于条形码1工作，以不同的条形码生成了两个第1轮菌株，并且将单个条形码化的第2轮质粒引入每个菌株中(图16A)。图16B显示了第1轮之前(顶部)、第1轮之后(中)和第2轮递归条形码键合之后(底部)的条形码基因座。在这个原理证明中，第1轮引导-供体质粒靶向ADE2基因并且第2轮引导-供体质粒靶向CAN1基因。

用小分子脱水四环素(ATc)诱导条形码化引导导致与45-bp RH序列的成功重组，从而证明可以键合条形码(图16C)。突出显示的序列代表条形码。

示例6.确定作为RH长度和RH近侧切割位点的存在的函数的条形码化效率

多个对立因素影响RH序列的期望长度。一方面，RH序列需要足够长以促进有效的同源重组。另一方面，RH越短，越多的条形码可以键合在一起并且融入给定长度的读数中。另外，条形码键合长度越短，将在表型分析期间发生的流行的PCR重组就越少。此外，由于RH必须包括在反向引物中，这是对长度的额外实际约束。因此，我们试图找到支持有效整合、测试0、20、30、40、50和60bp的最小RH长度(图17A)。然后对这些质粒进行修饰，以在与RH直接相邻处包含额外的切割位点。这些质粒(包含ADE2引导-供体)被引入表达Cas9/TetR/LexA-FHA的菌株中，并且保存在-LYS-LEU培养基中，以针对过早的条形码整合进行选择以及保持引导-供体质粒。然后将其转移到-LEU+ATc培养基中以诱导条形码化，并且使用自动液体处理系统(TECAN Evo)每3代对等分试样进行采样。使用位于条形码基因座侧翼的引物进行的PCR表明未修饰的基因座(图17B，下带)与整合条形码(上带)的比率。条形码与非条形码器细胞的比率在～9代之后达到稳定状态，并且即使具有60bp的同源性，在15代后也没有完成。

引人注目的是，整合效率从RH的30bp到20bp有显著下降，其中20bp的RH的表现不优于0bp。条形码化的过程涉及Cas9::引导复合物在基因组整合位点处位于标记侧翼，以及在引导-供体质粒上长左同源性(LH)上游的两个位点进行切割。我们假定，如果在邻近RH处直接引入额外的切割位点，则会更有效地识别短RH序列。值得注意的是，添加RH近侧切割位点不仅大大增加了条形码化的动力学且仅在3代后就导致了接近完整的条形码化，而且导致了20bp RH的高效利用，其中具有与RH长度无关的可比拟的效率(图17C)。这表明条形码键合单元可以小至30bp(具有20bp RH序列的10bp条形码)，从而在需要压缩步骤之前启用更多的键合步骤，并且大大降低了PCR重组导致变体计数问题的可能性。这突出了自毁/自整合载体的独特强度，这是因为载体可以在需要通过整合载体的条形码化标记部分来为其标记进行选择的条件下线性化。

示例7.对整个基因文库和用于在任意基因座插入基因的途径进行条形码化

图20显示了一种对整个基因文库和用于在任意基因座插入基因的途径进行条形码化的方法。基因变体文库的条形码化和克隆是按示例3执行的。长读技术可以用于使独特的bc1序列与基因序列相关联，如示例3所述(图11A至11B)。利用两个单独的同源性，R1LH*和R1RH*，以在任意基因座插入基因变体。这些*同源性位于用于基因插入引导1的靶位点的侧翼。bc1和伴随的标记在条形码基因座处整合。

示例8.同时进行的在条形码基因座处的条形码插入和在任意基因座处的基因插入

图21显示了同时进行的在条形码基因座处的条形码插入和在任意基因座处的基因插入。来自示例4(图12)的条形码化基因变体质粒文库被转化到细胞中。基因插入引导1与条形码引导1分开或同时进行诱导。在期望的靶基因座处插入基因变体，并且在条形码基因座处插入bc1。重复该过程允许在跨基因组的预定义的基因座处插入任意数量的基因，而条形码基因座可能经历条形码键合，接下来进行条形码压缩和条形码基因座收缩，如图5A至5B所示。

示例9.用于使用来自种系编辑器的非冗余核酸酶进行条形码掺入的可诱导的自毁质粒

这个示例示出了一种在每一轮将供体DNA掺入基因组DNA之后破坏供体质粒的方法。如所表达的，供体质粒的序列从已经掺入感兴趣的酵母菌株(例如，Cas9)的基因组中的种系编辑核酸酶生成不同的非冗余核酸酶。如图23A至23C所示，可以使用核酸酶Cpf1。Cpf1可以在可诱导启动子(在这种情况下，为GAL7启动子)以及靶向图23A中所示的多切割位点引导RNA序列下进行表达。在存在半乳糖的情况下，图23B所示的包含Cpf1-供体质粒的细胞将表达Cpf1和Cpf1引导RNA。基因组和质粒DNA两者都在多切割位点被Cpf1切割。通过Cpf1切割生成的供体质粒序列被整合至基因组DNA中，这从上游同源位点(UH)开始，在这种情况下，供体DNA包含用于选择的HIS3基因；感兴趣的序列，包括条形码序列；以及下游同源位点(DH)，如图23B所示。在其他实施例中，供体DNA可以被限制为仅掺入条形码和用于后续轮次的位置(例如，同源域)。

图24A显示了在存在半乳糖的情况下生长12代之后的四种单独的酵母生长条件(从上到下：无选择(YPD)、用于质粒去除/条形码化的正向选择(5FC-HIS)、条形码化(5FOA)和无条形码化(-URA))。测试了供体质粒的各种配置(从左到右：带有X1或X2引导RNA的RPR1-HHR；带有X1或X2引导RNA的GAL7-HHR；无引导；Gal-SceI；Gal-NLS-SceI-NLS；以及无SceI.NLS：核定位信号。

图24B显示了第一代酵母后(暴露于半乳糖之前)具有与图24A类似的质粒配置的质粒去除/条形码化(5FC-HIS)和无条形码化(-URA)条件，从而表明供体质粒的最小泄露。在图24中示出了每代从供体质粒至基因组DNA的条形码掺入的速率。在半乳糖存在下生长六代后，包括X2 Cpf1引导序列的供体质粒的交换了大于50％(交换％＝(5FC-HIS集落/(5FC-HIS集落+-URA集落))x100％)，而包含X1 Cpf1引导的质粒则交换了<1％。包含SceI和NLS-SceI-NLS的供体质粒高度交换(分别为37％和70％)。

条形码整合和质粒破坏由聚合酶链式反应证实。

示例10.随时间的被动供体质粒丢失

随时间的被动供体质粒丢失如图25所示。三种酵母菌株yKR4(野生型ura3Δ，阴性对照)、yKR267(包含带有URA3和hphMX显性耐药标记盒的Cas9质粒)和yKR649(基因组整合Cas9与URA3和hphMX DDRM盒)以各种选择标记(-URA、YPD、YPD-HYG或潮霉素B和5-FOA)生长24小时。大集落表示阳性选择，并且非常小的集落或缺乏集落表示对各种生长培养基进行阴性选择。

缺少URA3基因的酵母菌株WT ura3Δ在YPD(阳性对照培养基)、包含5-FOA的培养基上生长，并且不在(+)HYG培养基(用于hthMX DDRM盒的阳性对照)上生长。酵母菌株yKR267在YPD、YPD-HYG、-URA和5-FOA培养基上生长，表明包含Cas9的质粒保留在无质粒表型培养基(5-FOA)和阳性质粒选择培养基(-URA)中(因此，这种酵母以逆向选择生长)。因此，酵母菌株yKR267可以在具有和不具有质粒的情况下生长。酵母菌株yKR649在YPD、YPD-HYG和–URA上生长，但不在5-FOA培养基上生长。因此，yKR649酵母菌株保留了URA3活性。

示例11.经由瞬时表达的SceI进行的供体质粒破坏

在这个示例中，酵母菌株yKR649用pKR255质粒进行转化。另外，SceI各种序列的PCR产物与质粒共转化以瞬时提高SceI表达，而无需用小分子(例如，半乳糖)进行诱导。示例中SceI的序列为：全长SceI序列、双NLS-侧翼SceI序列以及600bp±双NLS-侧翼SceI序列。细胞以足够的过度生长时间生长，以允许SceI表达和在多切割位点切割基因组和质粒，以及允许同源修复机制整合使用HIS3选择的条形码，如图27所示。SceI PCR产物的1:100的稀释进行了评估，并且还生成了有效的供体DNA掺入。

示例12.与MARVEL质粒的体内组装同时地进行编辑的策略

在这个示例中，图28A至28C呈现了与MARVEL质粒的体内组装同时地进行编辑的策略。引导-供体寡核苷酸被克隆到质粒骨架中，其中在邻近供体处添加了标记为bc0的条形码序列。这种方法与多种供体DNA增强方法兼容，包括由LexA-FHA进行的供体招募和由反转录子进行的ssDNA供体扩增。BspQI切割使得能够在MARVEL第1轮插入物中进行克隆，该MARVEL第1轮插入物包含用于第1轮条形码整合的SCEI位点和使得能够进行后续第2轮条形码整合的CREI位点。图28B显示了可以首先在酵母或细菌中解析第1轮质粒以创建文库，其中每个引导-供体具有完美的序列并且以相等的丰度存在。SCEI位点在体外被大范围核酸酶SceI切割以创建线性化引导-供体骨架文库。这个步骤的主要功能是引入长同源臂(一侧有～200bp的CYC1t序列并且另一侧有～45bp的msd反转录子序列)。图28C显示了由SceI切割生成的线性化骨架可以与适当轮次的MARVEL插入物一起直接转化至酵母中。质粒的线性化不仅消除了在细菌中进行额外的第2步克隆的需要，而且还增强了编辑效率。酵母在与编辑的同时组装质粒文库，并且可以通过对酵母池进行测序来将供体-bc0序列映射到新的条形码上。半乳糖诱导整合了条形码并且去除了质粒。奇数轮选择由5FC-HIS完成，并且偶数轮选择由5FC-LEU完成。

Claims

1.一种产生多个基因工程细胞的方法，所述方法包括：

(a)使多个细胞与第一基因编辑剂和第一多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第一独特的多核苷酸条形码以及第一独特的基因修饰；以及

(b)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂和第二多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第二独特的多核苷酸条形码以及第二独特的基因修饰；

从而产生多个基因工程细胞。

2.一种产生多个基因工程细胞的方法，所述方法包括：

(a)使多个细胞与第一基因编辑剂接触，从而产生第一多个基因编辑细胞，其各自包括第一独特的基因修饰；

(b)将第一多个重组多核苷酸转染至所述第一多个基因编辑细胞，每个重组多核苷酸包括第一独特的多核苷酸条形码序列，从而形成第一多个基因编辑和条形码化的细胞，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第一独特的多核苷酸条形码以及所述第一独特的基因修饰；

(c)使所述第一多个基因编辑和条形码化的细胞与第二基因编辑剂接触，从而产生第二多个基因编辑细胞，其各自包括第二独特的基因修饰；以及

(d)将第二多个重组多核苷酸转染至所述第二多个基因编辑细胞，每个重组多核苷酸包括第二独特的多核苷酸条形码序列，从而形成第二多个基因编辑和条形码化的细胞，使得第二独特的多核苷酸条形码被插入所述第二多个基因编辑和条形码化的细胞中每一个的条形码基因座中，每个基因编辑和条形码化的细胞包括插入条形码基因座中的所述第二独特的多核苷酸条形码以及所述第二独特的基因修饰；

从而产生多个基因工程细胞。

3.根据权利要求1所述的方法，其还包括重复步骤(b)一次或多次，其中步骤(b)的每次重复采用相同或不同的多个重组多核苷酸，每个重组多核苷酸包括独特的多核苷酸条形码序列。

4.根据权利要求2所述的方法，其还包括重复步骤(c)和(d)一次或多次，其中步骤(c)和(d)的每次重复采用相同或不同的多个重组多核苷酸，每个重组多核苷酸包括独特的多核苷酸条形码序列。

5.根据上述权利要求中任一项所述的方法，其中所述第一独特的多核苷酸条形码与所述第一多个基因编辑和条形码化的细胞中每一个中的所述第一独特的基因修饰相关联。

6.根据权利要求5所述的方法，其中对所述第一多个基因编辑和条形码化的细胞中每一个的所述条形码基因座和所述基因组的至少一部分进行测序，使得所述第一独特的多核苷酸条形码与数据库中的所述第一独特的基因修饰相关联。

7.根据上述权利要求中任一项所述的方法，其中所述第二独特的多核苷酸条形码与所述第二多个基因编辑和条形码化的细胞中每一个中的所述第二独特的基因修饰相关联。

8.根据权利要求7所述的方法，其中对所述第二多个基因编辑和条形码化的细胞中每一个的所述条形码基因座和所述基因组的至少一部分进行测序，使得所述第二独特的多核苷酸条形码与数据库中的所述第二独特的基因修饰相关联。

9.根据权利要求5至8中任一项所述的方法，其还包括通过对所述条形码基因座进行测序来识别所述多个基因工程细胞中每一个中的基因突变。

10.根据上述权利要求中任一项所述的方法，其中与所述条形码基因座中所述先前独特的多核苷酸条形码相邻近地添加每个独特的多核苷酸条形码。

11.根据上述权利要求中任一项所述的方法，其中在所述条形码基因座中所述先前独特的多核苷酸条形码的上游添加每个独特的多核苷酸条形码。

12.根据1至10中任一项所述的方法，其中在所述条形码基因座中所述先前独特的多核苷酸条形码的下游添加每个独特的多核苷酸条形码。

13.根据上述权利要求中任一项所述的方法，其中每个独特的多核苷酸条形码在所述重组多核苷酸上的侧翼是右同源臂和/或左同源臂。

14.根据上述权利要求中任一项所述的方法，其中每个第一独特的多核苷酸条形码在所述第一多个多核苷酸的每个重组多核苷酸上的侧翼是第一右同源臂、第二右同源臂和左同源臂，使得所述第一右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。

15.根据权利要求14所述的方法，其中每个第二独特的多核苷酸条形码在所述第二多个多核苷酸的每个重组多核苷酸上的侧翼是所述第二右同源臂、所述左同源臂并且可选的是第三右同源臂，使得在将所述第一独特的多核苷酸条形码整合到所述条形码基因座中之后，所述第二右同源臂和所述左同源臂与在所述条形码基因座处的序列同源。

16.根据权利要求14或15所述的方法，其中所述第一多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第二右同源臂之间的第一标记多核苷酸。

17.根据权利要求14至16中任一项所述的方法，其中所述第二多个多核苷酸中的每个重组多核苷酸包括在所述左同源臂和所述第三右同源臂之间的第二标记多核苷酸。

18.根据权利要求17所述的方法，其中所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。

19.根据上述权利要求中任一项所述的方法，其中通过同源重组将每个独特的多核苷酸插入所述条形码基因座中。

20.根据权利要求1至18中任一项所述的方法，其中每个独特的多核苷酸通过非同源末端连接插入所述条形码基因座中。

21.根据权利要求1至18中任一项所述的方法，其中每个独特的多核苷酸使用整合酶插入所述条形码基因座中。

22.根据上述权利要求中任一项所述的方法，其中每个重组多核苷酸还包括标记多核苷酸。

23.根据权利要求22所述的方法，其中所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。

24.根据权利要求22或23所述的方法，其还包括选择存在所述标记多核苷酸的细胞。

25.根据权利要求22或23所述的方法，其还包括选择不存在所述标记多核苷酸的细胞。

26.根据权利要求22至24中任一项所述的方法，其中所述第一多个重组多核苷酸中的所述标记多核苷酸不同于所述第二多个重组多核苷酸中的所述标记多核苷酸。

27.根据上述权利要求中任一项所述的方法，其中所述第一基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、成簇的规律间隔的短回文重复序列(CRISPR)系统、RNA引导的核酸酶、RNA引导的切口酶、化学试剂、重组酶、整合酶或转座酶。

28.根据上述权利要求中任一项所述的方法，其中所述第二基因编辑剂是大范围核酸酶、锌指核酸酶(ZFN)、基于转录激活因子样效应物的核酸酶(TALEN)、成簇的规律间隔的短回文重复序列(CRISPR)系统、RNA引导的核酸酶、RNA引导的切口酶、化学试剂、重组酶、整合酶或转座酶。

29.根据上述权利要求中任一项所述的方法，其中所述第一基因编辑剂和所述第二基因编辑剂相同。

30.根据权利要求1至28中任一项所述的方法，其中所述第一基因编辑剂和所述第二基因编辑剂不同。

31.根据上述权利要求中任一项所述的方法，其还包括对源于所述第一多个基因编辑和条形码化的细胞中的细胞的所述染色体的至少一部分进行测序。

32.根据上述权利要求中任一项所述的方法，其还包括对源于所述第二多个基因编辑和条形码化的细胞中的细胞的所述染色体的至少一部分进行测序。

33.根据权利要求31或32所述的方法，其中对所述条形码基因座进行测序。

34.根据权利要求31至33中任一项所述的方法，其中至少一个基因修饰是通过测序确定的。

35.根据权利要求31至34中任一项所述的方法，其还包括用独特的多核苷酸条形码识别至少一个基因修饰。

36.根据上述权利要求中任一项所述的方法，其还包括(i)在每个细胞的所述条形码基因座中插入新的独特的多核苷酸条形码，其中在插入所述新的独特的多核苷酸条形码之前，所述条形码基因座已经包括至少两个独特的多核苷酸条形码，(ii)对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码与所述至少两个独特的多核苷酸条形码相关联。

37.根据权利要求36所述的方法，其还包括(iii)从每个细胞的所述条形码基因座去除所述至少两个独特的多核苷酸条形码。

38.根据权利要求36或37所述的方法，其还包括重复步骤(a)、(b)、(c)和/或(d)，从而产生多个基因工程细胞。

39.根据上述权利要求中任一项所述的方法，其中所述第一和/或第二基因编辑剂是大范围核酸酶。

40.根据权利要求所述的方法，其中所述大范围核酸酶是I-SceI、I-CreI或I-Dmo。

41.根据上述权利要求中任一项所述的方法，其中所述第一和/或第二基因编辑剂是RNA引导的核酸酶或RNA引导的切口酶。

42.根据权利要求41所述的方法，其中所述RNA引导的核酸酶或RNA引导的切口酶是所述成簇的规律间隔的短回文重复序列(CRISPR)系统。

43.根据权利要求41或42所述的方法，其中每个重组多核苷酸还包括核苷酸编码RNA引导的核酸酶的第三多核苷酸。

44.根据权利要求41至43中任一项所述的方法，其中每个重组多核苷酸还包括供体多核苷酸。

45.根据权利要求41至44中任一项所述的方法，其中所述RNA引导的核酸酶或RNA引导的切口酶由整合到所述细胞的所述基因组中的载体或第二核酸序列提供。

46.根据上述权利要求中任一项所述的方法，其中每个重组多核苷酸由载体提供。

47.根据权利要求46所述的方法，其中所述载体是质粒载体或病毒载体。

48.根据权利要求46或47所述的方法，其中所述载体是高拷贝数载体。

49.根据权利要求27至48中任一项所述的方法，其中所述RNA引导的核酸酶或RNA引导的切口酶是Cas核酸酶或工程化的RNA引导的FokI核酸酶。

50.根据权利要求49所述的方法，其中所述Cas核酸酶或切口酶是Cas9、SpCas9、SaCas9、NmCas9、St1Cas9、FnCas9、Cas12a(例如，FnCpf1、AsCpf1、LbCpf1)、Mad7、CasX、CasY、Cas13a、C2c1、C2c2、C2c3、LshC2c2、Cas14、dSpCas9-FokI、Split-SpCas9、SpCas9-切口酶或其变体。

51.根据权利要求50所述的方法，其中所述Cas核酸酶或切口酶是Cas9或Cas12a。

52.根据上述权利要求中任一项所述的方法，其还包括使所述细胞与能够与所述重组多核苷酸杂交的引导RNA的第二核酸序列相接触，其中所述引导RNA与每个细胞中的核酸酶形成复合物，使得所述引导RNA-核酸酶复合物切割所述重组多核苷酸。

53.根据权利要求52所述的方法，其中所述重组多核苷酸是质粒载体并且所述引导RNA-核酸酶复合物使所述质粒载体线性化。

54.根据上述权利要求中任一项所述的方法，其还包括使所述细胞与编码能够与所述重组多核苷酸杂交的引导RNA的第二核酸序列相接触，其中所述引导RNA与每个细胞中的核酸酶形成复合物，使得所述引导RNA-核酸酶复合物切割所述条形码基因座。

55.根据权利要求52至54中任一项所述的方法，其中所述重组多核苷酸包括所述引导RNA。

56.根据权利要求52至54中任一项所述的方法，其中所述引导RNA位于与所述条形码不同的重组多核苷酸上。

57.根据上述权利要求中任一项所述的方法，其中所述条形码基因座是染色体条形码基因座。

58.根据上述权利要求中任一项所述的方法，其中所述基因修饰是设计的基因修饰。

59.根据上述权利要求中任一项所述的方法，其中从所述细胞去除所述载体。

60.根据权利要求59所述的方法，其中所述载体被所述核酸酶切割。

61.根据权利要求59所述的方法，其中所述载体是从所述细胞被动失去的。

62.通过根据上述权利要求中任一项所述的方法制成的多个基因编辑和条形码化的细胞。

63.通过根据权利要求1至58中任一项所述的方法制成的一种基因编辑和条形码化的细胞。

64.一种产生多个条形码化的细胞的方法，其包括：

(a)使多个细胞与第一多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，使得将第一独特的多核苷酸条形码插入所述第一多个细胞中每一个的条形码基因座中，从而形成第一多个条形码化的细胞；以及

(b)使所述第一多个条形码化的细胞与第二多个重组多核苷酸接触，每个重组多核苷酸包括独特的多核苷酸条形码序列，使得将第二独特的多核苷酸条形码插入所述第一多个基因编辑和条形码化的细胞中每一个的所述条形码基因座中，从而形成第二多个基因编辑和条形码化的细胞；

从而产生多个条形码化的细胞。

65.根据权利要求64所述的方法，其还包括重复步骤(b)一次或多次。

66.根据权利要求64或65所述的方法，其中每个独特的多核苷酸条形码与每个细胞中的基因修饰相关联。

67.根据权利要求64至66中任一项所述的方法，其中与所述条形码基因座中所述先前独特的多核苷酸条形码相邻近地添加每个独特的多核苷酸条形码。

68.根据权利要求64至67中任一项所述的方法，其中在所述条形码基因座中所述先前独特的多核苷酸条形码的上游添加每个独特的多核苷酸条形码。

69.根据权利要求64至67中任一项所述的方法，其中在所述条形码基因座中所述先前独特的多核苷酸条形码的下游添加每个独特的多核苷酸条形码。

70.根据权利要求64至69中任一项所述的方法，其中每个独特的多核苷酸条形码在所述重组多核苷酸上的侧翼是右同源臂和/或左同源臂。

71.根据权利要求64至70中任一项所述的方法，其中每个独特的多核苷酸通过同源重组插入所述条形码基因座中。

72.根据权利要求64至71中任一项所述的方法，其中每个重组多核苷酸还包括标记多核苷酸。

73.根据权利要求72所述的方法，其中所述标记多核苷酸被掺入具有所述独特的多核苷酸条形码的所述条形码基因座中。

74.根据权利要求72或73所述的方法，其还包括选择在任何步骤后存在所述标记的细胞。

75.根据权利要求72至74中任一项所述的方法，其中在所述第一多个重组多核苷酸中的所述标记不同于在所述第二多个重组多核苷酸中的所述标记。

76.根据权利要求72至75中任一项所述的方法，其还包括(i)在每个细胞的所述条形码基因座中插入新的独特的多核苷酸条形码，其中在插入所述新的独特的多核苷酸条形码之前，所述条形码基因座已经包括至少两个独特的多核苷酸条形码，(ii)对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码与所述至少两个独特的多核苷酸条形码相关联。

77.根据权利要求76所述的方法，其还包括重复步骤(a)和/或(b)，从而产生多个顺序条形码化的细胞。

78.根据权利要求64至77中任一项所述的方法，其中所述条形码基因座是染色体条形码基因座。

79.根据权利要求64至77中任一项所述的方法，其中条形码基因座是质粒条形码基因座。

80.通过根据权利要求64至79中任一项所述的方法制成的多个条形码化的细胞。

81.通过根据权利要求64至79中任一项所述的方法制成的一种条形码化的细胞。

82.一种将多核苷酸信息压缩成细胞内单个条形码的方法，所述方法包括：

(a)获得包括在条形码基因座中的至少两个独特的多核苷酸条形码的细胞；

(b)在所述细胞的所述条形码基因座中插入新的独特的多核苷酸条形码；以及

(c)对所述条形码基因座进行测序，使得所述新的独特的多核苷酸条形码与所述至少两个独特的多核苷酸条形码相关联。

83.根据权利要求82所述的方法，其还包括(d)从所述细胞的所述条形码基因座去除所述至少两个独特的多核苷酸条形码。

84.根据权利要求82或83所述的方法，其中所述条形码基因座是染色体条形码基因座。

85.通过根据权利要求82至84中任一项所述的方法制成的多个条形码化的细胞。

86.通过根据权利要求82至84中任一项所述的方法制成的一种条形码化的细胞。