CN113795587A

CN113795587A - 使用Tn7样转座子进行RNA引导的DNA整合

Info

Publication number: CN113795587A
Application number: CN202080033551.1A
Authority: CN
Inventors: S·H·斯特恩伯格; S·E·克洛普; P·H·佛
Original assignee: Columbia University in the City of New York
Current assignee: Columbia University in the City of New York
Priority date: 2019-03-07
Filing date: 2020-03-06
Publication date: 2021-12-14
Also published as: JP2022524037A; EP3935179A1; ZA202106516B; US20200325474A1; EP3935179A4; AU2020232850A1; WO2020181264A1; KR20210149060A; CA3132197A1; BR112021017655A2; IL286089A; SG11202109550TA; US10947534B2; US20200283769A1; US12331292B2

Abstract

在某些实施方案中，本发明的系统和方法使用Tn7样转座子，其编码用于可编程的RNA引导的DNA整合的CRISPR‑Cas系统。例如，CRISPR‑Cas机器指导Tn7转座子相关蛋白将DNA整合到被引导RNA(gRNA)识别的靶位点(例如，基因组靶位点)的下游。

Description

使用Tn7样转座子进行RNA引导的DNA整合

相关申请的交叉引用

本申请要求2019年3月7日提交的美国临时申请第62/815,187号、2019年3月22日提交的美国临时申请第62/822,544号、2019年5月8日提交的美国临时申请第62/845,218号、2019年5月31日提交的美国临时申请第62/855,814号、2019年6月25日提交的美国临时申请第62/866,270号、2019年7月12日提交的美国临时申请第62/873,455号、2019年7月18日提交的美国临时申请第62/875,772号、2019年8月8日提交的美国临时申请第62/884,600号和2019年9月18日提交的美国临时申请第62/902,171号的权益，每一篇所述美国临时申请的内容通过引用并入本文。

技术领域

本发明涉及用于修饰DNA和其它核酸以及用于基因靶向的方法和系统。具体而言，本发明涉及使用工程化的转座子编码的CRISPR(成簇的规律间隔的短回文重复序列)-Cas系统进行遗传工程的系统和方法。

背景技术

CRISPR-Cas系统是原核免疫系统，其可赋予对诸如质粒和噬菌体等外源遗传因子的抗性。所述CRISPR/Cas9系统利用了RNA引导的DNA结合和靶DNA的序列特异性切割。引导RNA(gRNA)与PAM(前间区序列邻近基序(protospacer adjacent motif))位点上游的靶DNA序列互补。Cas(CRISPR相关)9蛋白与gRNA和靶DNA结合，并在PAM位点上游的确定位置中引入双链断裂(DSB)。Geurts等人，Science 325，433(2009)；Mashimo等人，PLoS ONE 5，e8870(2010)；Carbery等人，Genetics 186，451-459(2010)；Tesson等人，Nat.Biotech.29，695-696(2011)。WiedenheR等人Nature 482，331-338(2012)；Jinek等人Science 337，816-821(2012)；Mali等人Science 339，823-826(2013)；Cong等人Science 339，819-823(2013)，全部参考文献通过引用并入本文。所述CRISPR-Cas9系统经编程不仅能切割病毒DNA，而且还能切割其它基因的能力为基因组工程开辟了新的领域。

然而，目前存在与使用CRISPR-Cas9和其它可编程核酸酶将大基因运载物插入真核生物基因组相关的很大的局限性和风险。利用CRISPR-Cas9进行的基因整合需要引入DSB，并使用携带适当设计的同源臂的合成修复供体模板。DSB是用于基因整合的CRISPR-Cas9介导的HDR途径的必要前体，已知其会对细胞造成危害。脱靶位点处的DSB引入脱靶突变；DSB可以引发DNA损伤反应(Haapaniemi等人，Nat.Med.24，927-930(2018)，其通过引用并入本文)；DSB可以导致p53无标志细胞(null cell)的选择，这增加了肿瘤发生的风险(Ihry等人，Nat.Med.24，939-946(2018)，其通过引用并入本文)；并且靶位点处的DSB修复可导致大规模的基因缺失、倒位或染色体易位(Kosicki等人，Nat Biotechnol.36，765-771(2018)，其通过引入并入本文)。当作为重组AAV载体或ssDNA提供时，同源供体的工作效率最高，但生产这些供体也极其费力(参见例如，Li等人，BioRxiv，1-24(2017)，其通过引用并入本文)。此外，克隆具有同源臂的dsDNA供体模板既耗时又繁琐。

另外，利用CRISPR-Cas9和供体模板进行的基因整合依赖于同源定向修复(HDR)来正确整合供体模板。然而，已知在许多不同的细胞类型中，HDR效率极低，并且在HDR之前的DSB总是在整个细胞群体中以不同的方式被修复：一些细胞在一个或两个等位基因上经历HDR，而更多的细胞在一个或两个等位基因上经历非同源末端连接(NHEJ)，这导致在靶位点处引入小的插入或缺失(综述于：Pawelczak等人，ACS Chem Biol.13，389-396(2018)，其通过引入并入本文)。这意味着，在整个细胞群体中(例如，如在治疗性或实验性应用中所编辑的)，只有一小部分细胞经历所需的位点特异性基因整合，而更大得多的比例的细胞经历异质修复。HDR的内源性机器在有丝分裂后细胞(即不经历DNA复制的非分裂细胞)诸如神经元和终末分化细胞中实际上是不存在的。因此，在这些细胞类型中没有精确的靶向基因整合的选择。

许多基因治疗产品，无论是商业化的还是临床试验中的，都使用随机整合的病毒将治疗剂运送到患者细胞的基因组中(Naldini等人，Science 353，1101-1102(2016)，其通过引用并入本文)。利用本发明方法，这些治疗基因被精确地整合到基因组内已知的安全港基因座中，在所述安全港基因座中可以确保稳定表达，并且完全避免插入诱变的风险(Bokhoven等人，J Virol.83，283-294(2009)，其通过引入并入本文)。

发明内容

用于RNA引导的DNA整合的本发明的系统和方法消除了引入DSB的需要，因此排除了上述危险。本发明的系统和方法在基因工程(包括哺乳动物细胞基因组工程)中具有显著的效用。

在一些实施方案中，本公开提供了用于RNA引导的DNA整合的系统，该系统包括：(i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统，其中工程化的CRISPR-Cas系统来自I型CRISPR-Cas系统，并包括引导RNA(gRNA)，其中gRNA对靶位点是特异性的；和(ii)来自Tn7样转座子系统的工程化的转座子系统，其中工程化的转座子系统包括TnsA、TnsB、TnsC和TnsD/TniQ。

本公开提供了用于RNA引导的DNA整合的方法。在一些实施方案中，所述方法可包括向细胞中引入：(i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)，其中工程化的CRISPR-Cas系统来自I型CRISPR-Cas系统，并包括对靶位点特异的引导RNA(gRNA)；(ii)来自Tn7样转座子系统的工程化的转座子系统，其中工程化的转座子系统包括TnsA、TnsB、TnsC和TnsD/TniQ；和(iii)待整合的供体DNA，其中供体DNA包含两侧是转座子末端序列的运载物核酸；其中工程化的CRISPR-Cas系统与靶位点结合，并且其中工程化的转座子系统将运载物DNA整合到靶位点附近。

所述方法可包括将本发明系统的一种或多种或所有组分引入细胞。

本发明系统可包括(i)一种或多种编码工程化的CRISPR-Cas系统的载体，和(ii)一种或多种编码工程化的转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同的载体上或在至少两个不同的载体上。

工程化的CRISPR-Cas系统可包括Cas6、Cas7、Cas5和Cas8。在一个实施方案中，Cas6、Cas7、Cas5和Cas8的化学计量比为1∶6∶1∶1。在一些实施方案中，Cas5和Cas8连接为功能性融合蛋白。在一些实施方案中，Cas5和Cas8是分开的。

CRISPR-Cas系统可包括I-F型变体CRISPR-Cas系统。在一些实施方案中，工程化的转座子系统来源于霍乱弧菌(Vibrio cholerae)、霍乱弧菌、伊氏发光杆菌(Photobacterium iliopiscarium)、假交替单胞菌属某种P1-25(Pseudoalteromonassp.P1-25)、鲁塞尼亚假交替单胞菌(Pseudoalteromonas ruthenica)、甘瓜发光杆菌(Photobacterium ganghwense)、希瓦氏菌属某种UCD-KL21(Shewanella sp.UCD-KL21)、重氮营养弧菌(Vibrio diazotrophicus)、弧菌属某种16(Vibrio sp.16)、弧菌属某种F12(Vibrio sp.F12)、灿烂弧菌(Vibrio splendidus)、沃丹弧菌(Aliivibrio wodanis)和海绵副希瓦氏菌(Parashewanella spongiae)的Tn7样转座子系统。在一些实施方案中，工程化的转座子系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。在一个示例性实施方案中，工程化的转座子系统来源于霍乱弧菌Tn6677。

工程化的CRISPR-Cas系统可以缺乏核酸酶。

本发明系统还可包括供体DNA。供体DNA包含两侧是转座子末端序列的运载物核酸。

整合可距离靶位点3’端约40个碱基对(bp)至约60bp、约48bp至约50bp、约48bp、约49bp或约50bp。

细胞可以是真核细胞或细菌细胞。真核细胞可以是哺乳动物细胞、禽细胞、植物细胞或鱼细胞。哺乳动物细胞可来源于人、灵长类动物、牛、绵羊、猪、狗、小鼠或大鼠细胞。在一个实施方案中，哺乳动物细胞是人细胞。植物细胞可来源于水稻、大豆、玉米、番茄、香蕉、花生、紫花豌豆(field pea)、向日葵、油菜、烟草、小麦、大麦、燕麦、马铃薯、棉花、康乃馨、高粱或羽扇豆。禽细胞可来源于鸡、鸭或鹅。

在一些实施方案中，所述系统和方法涉及无需同源重组的供体DNA的整合。靶位点可与前间区序列邻近基序(PAM)。

在一些实施方案中，本文提供了用于RNA引导的DNA整合的系统，所述系统包括一种或多种载体，所述载体编码：a)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：Cas5、Cas6、Cas7、Cas8；和b)工程化的Tn7样转座子系统，所述工程化的Tn7样转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

在一些实施方案中，CRISPR-cas系统是I-B型CRISPR-cas系统。在一些实施方案中，CRISPR-cas系统是I-F型CRISPR-cas系统。在一些实施方案中，CRISPR-cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，TnsD或TniQ包括TniQ。在一些实施方案中，所述系统还包括引导RNA(gRNA)，其中gRNA对靶位点是特异性的。在一些实施方案中，所述系统还包括待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列。

在一些实施方案中，第一转座子末端序列和第二转座子末端序列是Tn7转座子末端序列。在一些实施方案中，CRISPR-Cas系统和Tn7样转座子系统在同一载体上。在一些实施方案中，工程化的Tn7样转座子系统来源于霍乱弧菌Tn6677。在一些实施方案中，工程化的CRISPR-Cas系统缺乏核酸酶。在一些实施方案中，一种或多种载体是质粒。

在某些实施方案中，CRISPR-cas系统的至少一种cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，至少一种cas蛋白是C2c5。在一些实施方案中，CRISPR-cas系统的至少一种cas蛋白来自II-A型CRISPR-cas系统，并且其中至少一种Cas蛋白是Cas9。在一些实施方案中，工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，其两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，本文提供了用于RNA引导的DNA整合的方法，其包括：向细胞中引入：i)工程化的CRISPR-Cas系统，和/或一种或多种编码工程化的CRISPR-Cas系统的载体，ii)工程化的转座子系统，和/或一种或多种编码工程化的转座子系统的载体，和iii)包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列的供体序列，其中，当使用一种或多种载体时，CRISPR-cas系统和转座子系统在相同或不同的载体上，其中细胞包含具有靶位点的核酸序列，其中CRISPR-Cas系统包括：(a)至少一种cas蛋白，和(b)引导RNA(gRNA)，其中CRISPR-cas系统整合靶位点，并且其中转座子系统整合靶位点下游的供体序列。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，至少一种Cas蛋白来自I型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-Cas系统是I-B型或I-F型。在一些实施方案中，I型CRISPR-Cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，转座子系统来自Tn7样转座子系统。

在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，Tn7转座子系统来源于霍乱弧菌。在一些实施方案中，转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。在一些实施方案中，CRISPR-Cas系统的至少一种Cas蛋白来自V型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白是C2c5。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自II-A型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白是Cas9。在一些实施方案中，一种或多种载体是质粒(例如，仅一种质粒)。在一些实施方案中，工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，其两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，CRISPR-cas系统是I-B型或I-F型CRISPR-Cas系统。在一些实施方案中，CRISPR-Cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，Cas8和Cas8以单独的非融合蛋白形式表达。在一些实施方案中，一种或多种载体是质粒。

在一些实施方案中，所述系统还包括引导RNA(gRNA)，其中gRNA对靶位点是特异性的。在一些实施方案中，所述系统还包括待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列。在一些实施方案中，供体DNA的长度至少为2kb(例如，2kb...5kb...10kb...或更多)。在某些实施方案中，CRISPR-Cas系统和Tn7样转座子系统在同一载体上。在一些实施方案中，工程化的Tn7样转座子系统来源于霍乱弧菌Tn6677。在一些实施方案中，工程化的CRISPR-Cas系统缺乏核酸酶。

在一些实施方案中，本文提供了用于RNA引导的DNA整合的方法，其中所述方法包括向细胞中引入：a)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体，所述工程化的转座子编码的CRISPR-Cas系统包括：i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR关联(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：A)Cas5、Cas6、Cas7和Cas8，和B)引导RNA(gRNA)，其中gRNA对靶位点是特异性的；和ii)工程化的Tn7样转座子系统，所述工程化的Tn7样转座子系统包括：A)TnsA、B)TnsB、C)TnsC和D)TnsD和/或TniQ，和b)待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且其中所述工程化的转座子编码的CRISPR-Cas系统将供体DNA整合到所述靶位点附近，并且其中所述转座子编码的CRISPR-Cas系统和所述供体DNA在同一载体上或者在至少两个不同的载体上。

在一些实施方案中，CRISPR-cas系统是I-B型或I-F型CRISPR-cas系统。在一些实施方案中，CRISPR-cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，一种或多种载体编码工程化的CRISPR-Cas系统，其中一种或多种载体编码工程化的Tn7样转座子系统，并且其中CRISPR-Cas系统和Tn7样转座子系统位于至少两个不同的载体上。在一些实施方案中，供体DNA被整合到距离靶位点的3’约40个碱基对(bp)至约60bp处。在一些实施方案中，供体DNA被整合到距离靶位点的3’约48bp至约50bp处。在一些实施方案中，供体DNA被整合在距离靶位点的3’约50bp处。

在一些实施方案中，细胞是真核细胞或细菌细胞。在一些实施方案中，真核细胞是人细胞。在一些实施方案中，工程化的Tn7样转座子系统来源于霍乱弧菌Tn6677。在一些实施方案中，工程化的CRISPR-Cas系统缺乏核酸酶。在一些实施方案中，靶位点与前间区序列邻近基序(PAM)相邻。在一些实施方案中，本文提供了具有上述和本文所述的系统的细胞。

在一些实施方案中，本文提供了试剂盒，其包括：a)一种或多种载体，其编码：i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：Cas5、Cas6、Cas7、Cas8，和ii)工程化的Tn7样转座子系统，所述工程化的Tn7样转座子系统包括：A)TnsA、B)TnsB、C)TnsC和D)TnsD和/或TniQ，和b)至少一种选自由以下组成的组的组件：i)输注装置，ii)静脉内溶液袋，iii)具有可被皮下注射针刺穿的塞子的小瓶，iv)缓冲液，v)对照质粒，和vi)测序引物。

在一些实施方案中，一种或多种载体是质粒。在一些实施方案中，Cas5和Cas8以单独的非融合蛋白形式表达。在一些实施方案中，CRISPR-Cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，试剂盒还包括供体核酸序列，其中供体核酸序列包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列。

在一些实施方案中，本文提供了灭活微生物基因的方法，所述方法包括向一个或多个细胞中引入：a)工程化的转座子编码的CRISPR-Cas系统，和/或b)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体，其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对邻近微生物基因的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体DNA，其中转座子编码的CRISPR-Cas系统将供体DNA插入微生物基因中。

在一些实施方案中，微生物基因是细菌抗生素抗性基因、毒力基因或代谢基因。在一些实施方案中，供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列。在一些实施方案中，运载物核酸序列编码工程化的转座子编码的CRISPR-Cas系统。

在一些实施方案中，所述一种或多种细胞是细菌细胞，并且其中所述引入包括将含有转座子编码的CRISPR-Cas系统的初始细胞与受体细胞接触，使得转座子编码的CRISPR-Cas系统通过细菌接合传递给受体细胞。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，至少一种Cas蛋白来自I型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-cas系统是I-B型或I-F型。在一些实施方案中，I型CRISPR-cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。

在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，转座子系统来自Tn7转座子系统。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，Tn7转座子系统来源于霍乱弧菌。在一些实施方案中，转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。在一些实施方案中，CRISPR-Cas系统的至少一种Cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白是C2c5。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自II-A型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白是Cas9。在一些实施方案中，工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，其两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，本文提供了方法，所述方法包括：a)将样品与：i)工程化的转座子编码的CRISPR-Cas系统和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体接触，其中样品包含输入核酸序列，所述输入核酸序列包含：A)目标双链核酸序列(NASI)，B)NASI一侧上的双链第一侧翼区，和C)NASI的另一侧上的双链第二侧翼区，并且其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)工程化的转座子系统；iii)第一左转座子末端序列；iv)第一右转座子末端序列，其未共价附接至第一左转座子末端序列上；和v)将第一左转座子末端序列和第一右转座子末端序列靶向第一侧翼区的第一引导RNA(gRNA-1)，以及b)在使得第一左转座子末端序列和第一右转座子末端序列整合到第一侧翼区中的条件下孵育样品。

在一些实施方案中，本文提供了方法，所述方法包括：a)将样品与：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体接触，其中样品包含输入核酸序列，所述输入核酸序列包含：A)目标双链核酸序列(NASI)，B)NASI一侧上的双链第一侧翼区，和C)NASI另一侧上的双链第二侧翼区，并且其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)工程化的转座子系统；iii)第一左转座子末端序列；iv)第一右转座子末端序列，其未共价连接至第一左转座子末端序列；v)第二左转座子末端序列；vi)第二右转座子末端序列，其未共价附接至第二左转座子末端序列；vii)将第一左转座子末端序列和第一右转座子末端序列靶向第一侧翼区的第一引导RNA(gRNA-1)，和viii)将第二左转座子末端序列和第二右转座子末端序列靶向第二侧翼区的第二引导RNA(gRNA-2)；以及b)在这样的条件下孵育样品，所述条件使得：i)第一左转座子末端序列和第一右转座子末端序列被整合到第一侧翼区中，以及ii)第二左转座子末端序列和第二右转座子末端序列被整合到第二侧翼区中。

在一些实施方案中，所述方法还包括：c)将样品与：i)对第一左转座子末端序列或右转座子末端序列特异的第一引物，ii)对第二左转座子末端序列或右转座子末端序列特异的第二引物，和iii)聚合酶接触；以及d)在扩增条件下处理样品，使得NASI被扩增，从而产生扩增的NASI。在一些实施方案中，所述方法还包括：e)对扩增的NASI进行测序。在一些实施方案中，测序是下一代测序(NGS)。

在一些实施方案中，第一转座子左端序列或右端序列包含第一衔接子序列，并且第二转座子左端序列或右端序列包含第二衔接子序列。在一些实施方案中，所述方法还包括：c)将样品与：i)对第一衔接子序列特异的第一引物，ii)对第二衔接子序列特异的第二引物，和iii)聚合酶接触；以及d)在扩增条件下处理样品，使得NASI被扩增，从而产生扩增的NASI。在一些实施方案中，所述方法还包括：e)对扩增的NASI进行测序。在一些实施方案中，测序是下一代测序(NGS)。在一些实施方案中，第一衔接子序列和第二衔接子序列是下一代测序衔接子。在一些实施方案中，转座子左端序列包含第一UMI序列，并且转座子右端序列包含第二UMI序列。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，至少一种Cas蛋白来自I型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-cas系统是I-B型或I-F型。在一些实施方案中，I型CRISPR-cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，转座子系统来自Tn7样转座子系统。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。

在一些实施方案中，Tn7转座子系统来源于霍乱弧菌。在一些实施方案中，转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。在一些实施方案中，CRISPR-Cas系统的至少一种Cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白是C2c5。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自II-A型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白是Cas9。在一些实施方案中，工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，其两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，本文提供了用于在植物细胞中进行RNA引导的DNA整合的方法，其包括：向植物细胞中引入：a)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体，其中所述工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体DNA，其中所述转座子编码的CRISPR-Cas系统在植物细胞中将供体DNA整合到靶核酸位点附近。

在一些实施方案中，植物细胞是水稻、大豆、玉米、番茄、香蕉、花生、紫花豌豆(field pea)、向日葵、芸苔、烟草、小麦、大麦、燕麦、马铃薯、棉花、康乃馨、高粱、羽扇豆、番茄(Solanum lycopersicum)、大豆(Glycine max)、拟南芥、蒺藜苜蓿(Medicagotruncatula)、二穗短柄草(Brachypodium distachyon)、稻(Oryza sativa)、双色高粱(Sorghum bicolor)、玉蜀黍(Zea mays)或马铃薯(Solanum tuberosum)的细胞。在一些实施方案中，植物细胞属于矮牵牛属、颠茄属、芜菁甘蓝属(Rutabaga)、芹菜属(Celery)、柳枝稷属、苹果属、本氏烟草(Nicotiana benthamiana)或狗尾草(Setaria viridis)。在一些实施方案中，植物细胞是单子叶或双子叶植物的细胞。

在一些实施方案中，供体DNA的整合赋予植物细胞一个或多个以下性状的改变：穗粒数、籽粒大小、籽粒重量、穗大小、分蘖数、香味、营养价值、保存期、番茄红素含量、淀粉含量和/或ii)较低的面筋含量、降低的毒素水平、降低的甾体糖苷生物碱水平、有丝分裂对减数分裂的替代、无性繁殖、改良的单倍体育种和/或缩短的生长时间。在一些实施方案中，供体DNA的整合赋予植物细胞一个或多个以下性状：除草剂耐受性、耐旱性、雄性不育性、昆虫抗性、非生物胁迫耐受性、改良的脂肪酸代谢、改良的碳水化合物代谢、改良的种子产量、改良的油百分比、改良的蛋白质百分比、对细菌疾病的抗性、对真菌疾病的抗性和对病毒疾病的抗性。

在一些实施方案中，转座子编码的CRISPR-Cas系统将供体DNA整合到植物细胞的基因组中。在一些实施方案中，一种或多种编码转座子编码的CRISPR-Cas系统的载体通过土壤杆菌介导的植物细胞转化被引入植物细胞。

在一些实施方案中，供体DNA包含第一转座子末端序列和第二转座子末端序列。在一些实施方案中，转座子系统是细菌Tn7样转座子系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括TnsD和/或TniQ。在一些实施方案中，转座子编码的CRISPR-Cas系统包括TnsA、TnsB和TnsC。在一些实施方案中，转座子编码的CRISPR-Cas系统缺乏核酸酶。在一些实施方案中，转座子编码的CRISPR-Cas系统来自I型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括Cascade复合物。

在一些实施方案中，转座子编码的CRISPR-Cas系统来自II型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统来自V型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括C2c5。在一些实施方案中，靶位点的两侧是前间区序列邻近基序(PAM)。在一些实施方案中，供体DNA被整合在靶位点下游约46-bp至55-bp处。在一些实施方案中，供体DNA被整合在靶位点下游约47-bp至51-bp处。

在某些实施方案中，本文提供了通过上述和本文所述的方法产生的经修饰的植物细胞。在某些实施方案中，本文提供了包含此类植物细胞的植物或种子。在一些实施方案中，本文提供了此类植物的果实、植物部分或繁殖材料。

在一些实施方案中，本文提供了用于在动物细胞中进行RNA引导的DNA整合的方法，其包括：将以下引入动物细胞：a)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体，其中所述工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体DNA，其中所述转座子编码的CRISPR-Cas系统在动物细胞中将供体DNA整合到靶位点附近。

在一些实施方案中，动物细胞是小鼠、大鼠、兔、牛、绵羊、猪、鸡、马、水牛、骆驼、火鸡或鹅的细胞。在一些实施方案中，所述动物细胞是哺乳动物的细胞。在一些实施方案中，所述哺乳动物是猩猩、猴子、马、牛、绵羊、山羊、猪、驴、狗、兔、猫、大鼠或小鼠。在一些实施方案中，所述动物细胞是家畜动物的细胞。在一些实施方案中，转座子编码的CRISPR-Cas系统将供体DNA整合到动物细胞的基因组中。

在一些实施方案中，供体DNA包含转座子末端序列。在一些实施方案中，转座子系统是细菌Tn7样转座子系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括TnsD和/或TniQ。在一些实施方案中，转座子编码的CRISPR-Cas系统包括TnsA、TnsB和TnsC。在一些实施方案中，转座子编码的CRISPR-Cas系统缺乏核酸酶。在一些实施方案中，转座子编码的CRISPR-Cas系统来自I型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括Cascade复合物。在一些实施方案中，转座子编码的CRISPR-Cas系统来自II型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统来自V型CRISPR-Cas系统。在一些实施方案中，转座子编码的CRISPR-Cas系统包括C2c5。在一些实施方案中，靶位点的两侧是前间区序列邻近基序(PAM)。在一些实施方案中，供体DNA被整合在靶位点下游约46-bp至55-bp处。在一些实施方案中，供体DNA被整合在靶位点下游约47-bp至51-bp处。在一些实施方案中，Tn7样转座子系统来源于霍乱弧菌。

在一些实施方案中，本文提供了通过上述和本文所述的方法产生的经修饰的非人动物细胞。在一些实施方案中，本文提供了包含此类动物细胞的经遗传修饰的非人动物。在一些实施方案中，本文提供了包含此类动物细胞的细胞群体、组织或器官。

在一些实施方案中，本文提供了组合物，其包含：a)工程化的转座子编码的CRISPR-Cas系统，和/或b)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对人DNA中的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列的供体核酸，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列。

在一些实施方案中，本文提供了试剂盒，其包括：a)上述组合物，和b)用于保持组合物的装置。在一些实施方案中，所述装置选自由以下组成的组：输注装置、静脉内注射溶液袋和具有可被皮下注射针刺穿的塞子的小瓶。

在一些实施方案中，本文提供了治疗受试者(例如，人)的方法，其包括：a)向哺乳动物受试者施用(例如静脉内)一种或多种包含受试者细胞和微生物组细胞的组合物，其中所述一种或多种组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中所述工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对受试者细胞基因组或微生物组细胞基因组中的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列的供体核酸，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，其中转座子编码的CRISPR-Cas系统将供体核酸整合到至少一个受试者细胞的基因组和/或至少一个微生物组细胞的基因组中的靶位点附近。

在某些实施方案中，本文提供了体外处理细胞的方法，其包括：a)将至少一种细胞与组合物体外接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中所述工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对细胞基因组中的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中转座子编码的CRISPR-Cas系统将供体核酸整合到至少一种细胞的基因组中的靶位点附近。

在一些实施方案中，本文提供了用于在细胞中进行RNA引导的核酸整合的方法，其包括：a)将i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列引入细胞群，其中工程化的转座子编码的CRISPR-Cas系统包括：A)至少一种Cas蛋白，B)对细胞基因组中的靶位点特异的引导RNA(gRNA)，C)工程化的转座子系统，和D)长度至少为2kb的供体核酸，其中供体核酸序列包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列；和b)在使得转座子编码的CRISPR-Cas系统将供体核酸序列整合到细胞的基因组中的靶位点附近的条件下培养细胞。在一些实施方案中，供体核酸序列的长度至少为10kb，长度至少为50kb，长度至少为100kb，或长度为20kb至60kb。在一些实施方案中，所述细胞是细菌细胞，并且所述条件包括在低于细菌细胞的最佳生长温度至少5摄氏度的温度下培养细菌细胞。在一些实施方案中，细菌细胞是大肠杆菌(E.coli)细胞，并且其中大肠杆菌细胞在30摄氏度或更低的温度下培养。

在一些实施方案中，细胞是人细胞、植物细胞、细菌细胞或动物细胞。在一些实施方案中，一种或多种核酸序列包括一种或多种载体。在一些实施方案中，一种或多种核酸序列包括至少一种mRNA序列。

在一些实施方案中，受试者是人。在一些实施方案中，受试者是患有选自由以下组成的组的疾病的人：癌症、杜氏肌营养不良症(DMD)、镰状细胞病(SCD)、β-地中海贫血和遗传性酪氨酸血症I型(HT1)。在一些实施方案中，运载物核酸序列包含治疗性序列。

在一些实施方案中，转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合供体核酸序列。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；并且工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC和iv)TniQ。在一些实施方案中，以下至少一项适用：I)其中Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)TnsA和TnsB形成TnsA-TnsB融合蛋白。在一些实施方案中，TniQ与至少一种Cas蛋白融合，生成TniQ-Cas融合多肽。在一些实施方案中，至少一种Cas蛋白是Cas6。

在一些实施方案中，至少一种Cas蛋白来自I型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-Cas系统是I-B型或I-F型。在一些实施方案中，I型CRISPR-Cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。在一些实施方案中，TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

在一些实施方案中，所述方法、组合物和试剂盒还包含第二引导RNA(gRNA-2)，其中gRNA-2指导供体DNA整合到第二不同的靶位点附近。在一些实施方案中，所述方法、组合物和试剂盒还包含第三引导RNA(gRNA-3)，其中gRNA-3指导供体DNA整合到第三不同的靶位点附近。

在一些实施方案中，转座子系统来自Tn7样转座子系统。在一些实施方案中，Tn7转座子系统来源于霍乱弧菌。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白包含C2c5。在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻(Scytonema hofmannii)PCC 7110。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自II-A型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白是Cas9。在一些实施方案中，工程化的CRISPR-cas系统和工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，这两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，供体核酸的长度至少为2kb。在一些实施方案中，供体核酸的长度至少为10kb。在一些实施方案中，一种或多种核酸序列是选自由以下组成的组的一种或多种病毒载体：逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。在一些实施方案中，一种或多种核酸序列还包含一种或多种启动子。在一些实施方案中，一种或多种核酸序列是一种且仅一种载体。在一些实施方案中，一种载体包含一种且仅一种启动子。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8，并且其中Cas5和Cas8形成融合蛋白。在一些实施方案中，第一转座子末端序列是左转座子末端序列，并且其中第二转座子末端序列是右转座子末端序列。

在一些实施方案中，所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。在一些实施方案中，所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在供体核酸序列被整合到基因组中靶位点附近时，改变了供体核酸序列的取向偏差。在一些实施方案中，取向偏差有利于tRL。在一些实施方案中，取向偏差有利于tLR。

在一些实施方案中，第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。在一些实施方案中，受试者细胞或微生物组细胞的基因组包含靶蛋白编码基因，其中运载物核酸序列编码目标氨基酸序列，并且其中供体核酸序列被插入到靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中融合蛋白包含附加到靶蛋白的目标氨基酸序列。在一些实施方案中，目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子(degron)标签。

在一些实施方案中，细胞或微生物组细胞的基因组包含靶蛋白编码基因，其中运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于AASIER两侧的剪接受体和/或供体位点，并且其中供体核酸序列被插入在靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用目标氨基酸序列框内标记靶蛋白。

在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

在一些实施方案中，运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。在一些实施方案中，运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)至少一种对所述至少一种细胞的基因组中的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中运载物核酸的长度至少为2kb(例如，2kb...5kb...50kb...100kb..或更长)，并且其中转座子编码的CRISPR-Cas系统将供体核酸整合到至少一种细胞的基因组中的靶位点附近。

在一些实施方案中，本文提供了组合物，其包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中所述工程化的转座子编码的CRISPR-Cas系统包括：a)至少一种Cas蛋白，b)至少一种对至少一种细胞的基因组中的靶位点特异的引导RNA(gRNA)，c)工程化的转座子系统，和d)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中运载物核酸的长度至少为2kb(例如，2kb...5kb...50kb...100kb.或更长)。

在一些实施方案中，本文提供了组合物，其包含：可自转座的核酸序列，其包含：a)编码转座子编码的CRISPR-Cas系统的移动核酸序列，和b)位于移动核酸序列侧面的第一转座子末端序列和第二转座子末端序列，其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对靶位点特异的引导RNA(gRNA)，和iii)工程化的转座子系统。

在一些实施方案中，本文提供了用于靶向癌细胞的方法，其包括：向癌细胞中引入：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中工程化的转座子编码的CRISPR-Cas系统包括：A)至少一种Cas蛋白，B)对癌细胞基因组中的靶位点特异的引导RNA(gRNA)，C)工程化的转座子系统，和D)包含第一转座子末端序列和第二转座子末端序列的供体核酸序列。在某些实施方案中，引入是在使得转座子编码的CRISPR-Cas系统将供体核酸序列整合到癌细胞的基因组中的靶位点附近的条件下进行的。在一些实施方案中，靶位点在与癌基因相关联的基因组序列中。在一些实施方案中，供体核酸破坏癌基因的致病表达。

在一些实施方案中，组合物还包含载体，并且其中可自转座的核酸序列存在于载体中。在一些实施方案中，组合物还包含具有基因组DNA的细胞，并且其中可自转座的核酸序列存在于基因组DNA中。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，至少一种Cas蛋白来自I型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-cas系统是I-B型或I-F型。在一些实施方案中，I型CRISPR-cas系统是I-F型变体，其中Cas8和Cas5形成Cas8-Cas5融合物。在一些实施方案中，转座子系统包括TnsA、TnsB和TnsC。在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。在一些实施方案中，TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。在一些实施方案中，TniQ与至少一种Cas蛋白融合，生成TniQ-Cas融合多肽。在一些实施方案中，至少一种Cas蛋白是Cas6。在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

在一些实施方案中，转座子系统来自Tn7样转座子系统。在一些实施方案中，Tn7转座子系统来源于霍乱弧菌。在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，至少一种Cas蛋白是C2c5。在一些实施方案中，CRISPR-Cas系统的至少一种Cas蛋白来自II-A型CRISPR-Cas系统。在一些实施方案中，至少一种Cas蛋白是Cas9。在一些实施方案中，至少一种Cas蛋白包括Cas2、Cas3、Cas5、Cas6、Cas7和Cas8。在一些实施方案中，所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；并且工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC和iv)TniQ。在一些实施方案中，以下至少一项适用：I)其中Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)TnsA和TnsB形成TnsA-TnsB融合蛋白。

在一些实施方案中，第一转座子末端序列是左转座子末端序列，并且其中第二转座子末端序列是右转座子末端序列。在一些实施方案中，所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。在一些实施方案中，所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在供体核酸序列被整合到基因组中靶位点附近时，改变了供体核酸序列的取向偏差。在一些实施方案中，取向偏差有利于tRL。在一些实施方案中，取向偏差有利于tLR。

在一些实施方案中，第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。在一些实施方案中，工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC7110。

在一些实施方案中，本文提供了向受试者(例如人)施用上述和本文所述的组合物的方法。在一些实施方案中，本文提供了将细胞(例如人细胞)在体外与上文和本文所述的组合物接触的方法。在一些实施方案中，工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，其两者均来自V型CRISPR-cas系统和转座子系统。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)至少一种对至少一种细胞的基因组中的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体核酸，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中转座子编码的CRISPR-Cas系统将供体核酸整合到至少一种细胞的基因组中的靶位点附近。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)工程化的转座子系统，和iii)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中运载物核酸序列的至少一部分编码至少一种对细胞的基因组中的靶位点特异性的引导RNA(gRNA)，以及其中转座子编码的CRISPR-Cas系统将供体核酸整合到至少一种细胞的基因组中的靶位点附近。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中工程化的转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)至少一种对靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统包括：A)TnsA，B)TnsB，C)TnsC，和D)TniQ家族蛋白，其中TnsA包含一个或多个失活点突变，和iv)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中转座子编码的CRISPR-Cas系统使用涉及复制型转座的复制粘贴式转座途径，将供体核酸的拷贝整合到至少一种细胞的基因组中的靶位点附近。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)第一和第二工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码第一和第二工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中第一转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对第一靶位点特异的第一RNA(gRNA)，iii)工程化的转座子系统，和iv)第一供体核酸序列，其包含第一运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中第一运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中第二转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对第二靶位点特异的第二RNA(gRNA)，iii)工程化的转座子系统，和iv)第二供体核酸序列，其包含第二运载物核酸序列以及第三转座子末端序列和第四转座子末端序列，其中第二运载物核酸序列的两侧是第三转座子末端序列和第四转座子末端序列，并且其中第一转座子编码的CRISPR-Cas系统将第一供体核酸整合到至少一种细胞中的第一靶位点附近，并且其中第二转座子编码的CRISPR-Cas系统将第二供体核酸整合到至少一种细胞中的第二靶位点附近。

在一些实施方案中，本文提供了方法，所述方法包括：a)将样品与：i)工程化的转座子编码的CRISPR-Cas系统和/或ii)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体接触，其中样品包含输入核酸序列，所述输入核酸序列包含：A)目标双链核酸序列(NASI)，B)NASI一侧上的双链第一侧翼区，和C)NASI另一侧上的双链第二侧翼区，并且其中转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)工程化的转座子系统；iii)第一左转座子末端序列；iv)第一右转座子末端序列，其未共价附接至第一个左转座子末端序列；v)第二左转座子末端序列；vi)第二右转座子末端序列，其未共价附接至第二左转座子末端序列；vii)将第一左转座子末端序列和第一右转座子末端序列靶向第一侧翼区的第一引导RNA(gRNA-1)，和viii)将第二左转座子末端序列和第二右转座子末端序列靶向第二侧翼区的第二引导RNA(gRNA-2)，和ix)第三引导RNA(gRNA-3)，b)在这样的条件下孵育样品，所述条件使得：i)第一左转座子末端序列和第一右转座子末端序列被整合到第一侧翼区中；ii)第二左转座子末端序列和第二右转座子末端序列被整合到第二个侧翼区中，从而产生包含两侧为第一左转座子末端序列和第二右转座子末端序列的NASI的可转座的序列；和iii)所述可转座的序列被工程化的转座子系统从其在基因组中的位置处切下，并被gRNA-3引导粘贴到到基因组中的不同位置。

在一些实施方案中，本文提供了处理细胞的方法，其包括：a)使至少一种细胞与组合物接触，所述组合物包含：i)第一和第二工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码第一和第二工程化的转座子编码的CRISPR-Cas系统的核酸序列，其中第一转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对细胞的基因组中的第一靶位点特异的第一RNA(gRNA)，iii)工程化的转座子系统，和iv)第一供体核酸序列，其包含第一运载物核酸序列以及第一转座子末端序列和第二转座子末端序列的，其中第一运载物核酸序列的两侧是第一转座子末端序列和第二转座子末端序列，并且其中第二转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对细胞的基因组中的第二靶位点特异的第二RNA(gRNA)，iii)工程化的转座子系统，和iv)第二供体核酸序列，其包含第二运载物核酸序列以及第三转座子末端序列和第四转座子末端序列，其中第二运载物核酸序列的两侧是第三转座子末端序列和第四转座子末端序列，和b)在这样的条件下孵育细胞，所述条件使得：i)第一转座子编码的CRISPR-Cas系统将第一供体核酸整合到至少一种细胞的基因组中的第一靶位点附近；ii)第二转座子编码的CRISPR-Cas系统将第二供体核酸整合至少一种细胞的基因组中的第二靶位点附近，从而产生包含第一转座子末端序列、第四转座子末端序列以及第一转座子末端序列与第四转座子末端序列之间的基因组区域的可转座的序列；以及iii)所述可转座的序列被工程化的转座子系统从其在基因组中的位置处切下，并被粘贴到基因组中的不同位置。

在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。在一些实施方案中，所述至少一种引导RNA包括至少两种不同的gRNA，每种gRNA指导供体核酸整合到不同靶位点附近。在某些实施方案中，所述至少一种引导RNA包括至少10种不同的gRNA，每种gRNA指导供体核酸整合在不同的靶位点。

在一些实施方案中，第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。在一些实施方案中，细胞的基因组包含靶蛋白编码基因，其中运载物核酸序列编码目标氨基酸序列，并且其中供体核酸序列被插入到靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中融合蛋白包含附加到靶蛋白的目标氨基酸序列。在一些实施方案中，目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子标签。在一些实施方案中，细胞的基因组包含靶蛋白编码基因，其中运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于AASIER两侧的剪接受体和/或供体位点，并且其中供体核酸序列被插入到靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用目标氨基酸序列框内标记靶蛋白。

在一些实施方案中，至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。在一些实施方案中，I型CRISPR-cas系统是I-F型变体。在一些实施方案中，I-F型变体来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。在某些实施方案中，I-F型变体来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株，假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。在一些实施方案中，I-F型变体来自霍乱弧菌HE-45株。

在一些实施方案中，CRISPR-cas系统的至少一种Cas蛋白来自V型CRISPR-cas系统。在一些实施方案中，V型CRISPR-Cas系统来自贺氏伪枝藻PCC 7110(PCC 7110)。

在一些实施方案中，转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合供体核酸序列。在一些实施方案中，至少一种gRNA包含靶向加长靶位点的加长引导序列，其中加长引导序列的长度至少为25个核苷酸(例如，25...30...40...50个或更多个)。在一些实施方案中，至少一种gRNA包括加长引导序列。

在一些实施方案中，工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。在一些实施方案中，TnsA与TnsB融合成单个TnsA-TnsB融合多肽。在一些实施方案中，TniQ与至少一种Cas蛋白融合，生成TniQ-Cas融合多肽。

在一些实施方案中，本文提供了用于进行RNA引导的DNA整合的系统，其包括：从5’至3’包含以下序列的载体(或其它核酸序列)：a)编码一种或多种转座子系统蛋白的核酸；b)编码引导RNA的核酸；和c)编码包含第一转座子末端和第二转座子末端以及运载物核酸的供体核酸的核酸。

在一些实施方案中，编码引导RNA的核酸靠近所述第一转座子末端，从而防止靠近所述引导RNA的自我靶向。在一些实施方案中，编码引导RNA的核酸靠近供体核酸，从而防止靠近所述引导RNA的自我靶向。

在一些实施方案中，编码引导RNA的核酸在所述第一转座子末端的10,000个碱基以内(例如，在每一转座子末端10,000...5000...2000...1000...500，200...100...50...20...10个碱基)。在一些实施方案中，编码引导RNA的核酸在第一转座子末端的1000或500个碱基内。

在一些实施方案中，转座子系统蛋白质包括TnsA、TnsB、TnsC和TnsD和/或TniQ中的一种或多种。在一些实施方案中，载体还包含表达一种或多种cas蛋白的核酸，所述核酸位于编码一种或多种转座子系统蛋白的所述核酸与编码供体的所述核酸之间。在一些实施方案中，一种或多种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；或c2C5。

在一些实施方案中，本文提供了减少RNA引导的DNA整合系统的自我靶向的方法，其包括在细胞中表达上述载体(或其它核酸序列)。在一些实施方案中，细胞是其适合度受载体的维持影响的细胞类型。

附图说明

图1A至图1I显示了利用霍乱弧菌转座子进行的RNA引导的DNA整合。图1A是Tn6677转座到与gRNA互补的质粒或基因组靶位点中的示例性方案。图1B是转座实验的典型质粒示意图，在所述转座实验中转座子被反式动员。CRISPR阵列包含两个重复序列(灰色菱形)和单个间隔子(褐红色矩形)。图1C是被gRNA-1和gRNA-2靶向的基因组基因座、两种潜在转座产物以及选择性扩增它们的PCR引物对。图1D是通过琼脂糖凝胶电泳解析的用非靶向(nt)gRNA和gRNA-1进行的转座的PCR分析。图1E是通过琼脂糖凝胶电泳解析的使用四个不同引物对，利用gRNA-nt、gRNA-1和gRNA-2进行的转座的PCR分析。图1F是来自利用gRNA-1和gRNA-2进行的实验的基因组整合转座子的上游和下游连接的桑格测序色谱图。gRNA-2的重叠峰表明存在多个整合位点。前间区序列的3’端与转座子序列的第一个碱基之间的距离称为“d”。TSD，靶位点重复序列。图1G是利用4个引物对针对gRNA-1和gRNA-2测定的Cascade靶位点与转座子整合位点之间距离的下一代测序(NGS)分析。图1H是被gRNA-3和gRNA-4靶向的基因组基因座。图1I是通过琼脂糖凝胶电泳解析的利用gRNA-nt、gRNA-3和gRNA-4进行的转座的PCR分析。

图2A至图2F表明，TniQ与Cascade形成复合物，并用于RNA引导的DNA整合。图2A是通过琼脂糖凝胶电泳解析的利用gRNA-4和一小组基因缺失或点突变进行的转座的PCR分析。图2B是纯化的TniQ、Cascade和TniQ-Cascade共复合物的SDS-PAGE分析。*表示HptG污染物。图2C是共纯化核酸的变性尿素-PAGE分析。图2D是与Cascade共纯化的RNA的RNA测序分析(顶部)。映射到CRISPR阵列的读数揭示了成熟的gRNA序列(SEQ ID NO：1655，底部)。图2E是测试是通用的R环形成还是人工TniQ拴系可以指导靶向整合的转座实验的PCR分析(左)。霍乱弧菌转座子和TnsA-TnsB-TnsC与包含霍乱弧菌Cascade(Vch)、铜绿假单胞菌Cascade(Pae)或化脓性链球菌(S.Pyogenes)dCas9-RNA(dCas9)的DNA靶向组分组合。TniQ或者以其自身从pTnsABCQ表达，或者作为在Cas6 C端(6)、Cas8 N端(8)或dCas9 N端(N)或C端(C)与靶向复合物融合的融合物(pCas-Q)表达。示意图(右)显示了一些正在测试的实施方案。图2F是通过Cascade与靶DNA结合形成的R环的示意图，其中标示了每个蛋白质亚单位的大致位置。标示了假定的TniQ结合位点和到主要整合位点的距离。

图3A至图3K证明了运载物大小、PAM序列和gRNA错配对RNA引导的DNA整合的影响。图3A是替代整合取向和用于通过qPCR选择性检测它们的引物对的示意图。图3B是gRNA-nt、gRNA-3和gRNA-4在两个取向上的转座效率的基于qPCR的定量。图3C是作为转座子大小的函数的gRNA-4的总整合效率。箭头表示在整个本研究中大多数测定中使用的“WT”pDonor。图3D显示了相对于gRNA-4(4.0)(顶部)以1-bp的增量沿着lacZ基因平铺的gRNA的示意图，以及通过qPCR测定的所得整合效率(底部)。将数据以gRNA-4.0作归一化，显示了每种gRNA的2核苷酸PAM。图3E是显示通过NGS测定的图3D中每个平铺的gRNA(y-轴)的整合位置分布(x-轴)的热图。每个gRNA的49-bp的距离用黑框标示。图3F是引入gRNA-靶DNA错配的4-nt区段中gRNA突变(上图)，以及通过qPCR测定的所得整合效率(底部)的示意图。将数据以gRNA-4作归一化。图3G是gRNA-4间隔子长度缩短或延长12-nt(上图)，所得整合效率通过qPCR测定(底部)。将数据以gRNA-4作归一化。插图显示了通过NGS测定的gRNA-4和gRNA-4+12的整合位点分布的比较。图3H是作为转座子运载物大小的函数的gRNA-4的总整合效率的另一个实例。所述大小包括运载物和转座子末端，箭头表示原始pDonor。图3I是作为转座子运载物大小的函数的gRNA-4的总整合效率的第三个实例。所述大小不包括左端序列和右端序列。图3J是gRNA-4和gRNA-4(mm29-32)的整合位点分布的比较。图3K显示了gRNA-4间隔子长度缩短或延长6nt的增量后的结果，以及通过qPCR测定的整合效率(左)。将数据以gRNA-4作归一化。右侧显示了gRNA-4和gRNA-4(+12nt)的整合位点分布的比较。图3B至图3D、图3F和图3G中的数据显示为n＝3个生物独立样品的平均值±s.d.。

图4A至图4G是可编程的RNA引导的DNA整合的全基因组分析。图4A是被gRNA 4-8靶向的基因组基因座(上图)，以及通过琼脂糖凝胶电泳解析的转座的PCR分析(底部)的示意图。图4B是用于全基因组转座事件的深度测序的示例性Tn-seq工作流程的示意图。图4C是来自利用mariner转座子和利用用gRNA-nt或gRNA-4编程的霍乱弧菌转座子进行的转座实验的映射的Tn-seq读数。gRNA-4靶位点用褐红色三角形标示。图4D是所有mariner Tn-seq读数的序列标示符，突出了TA二核苷酸靶位点偏好(target-site preference)。图4E是针对T-RL产物的通过PCR扩增子测序和Tn-seq测定的gRNA-4的整合位点分布的比较；显示了Cascade靶位点与转座子整合位点之间的距离。图4F是利用gRNA-4进行的实验的主要整合位点处Tn-seq读数覆盖度的放大图，突出了5-bp靶位点的重复序列(TSD)；显示了与Cascade靶位点的距离。图4G是来自利用针对霍乱弧菌转座子的gRNA 9-16的转座实验的基因组映射Tn-seq读数的全基因组分布。每个靶位点的位置用褐红色三角形标示。

图5A至图5B是由编码CRISPR-Cas系统的Tn7样转座子进行的RNA引导的DNA整合的提出的模型。霍乱弧菌Tn6677转座子编码称为Cascade的可编程的RNA引导的DNA结合复合物，其与TniQ形成新型共复合物。TniQ-Cascade复合物监视细胞以匹配DNA靶位点，所述靶位点可在宿主染色体或可移动的遗传元件上找到。在靶结合和R-环形成时，结合了DNA的TniQ募集了非序列特异性DNA结合蛋白TnsC，根据以前对大肠杆菌Tn7的研究，这可能导致最终形成被称为转座体的大的、兆道尔顿大小的结构，所述结构包括与TniQ-Cascade结合的靶DNA、TnsC和与与TnsAB结合的转座子供体DNA。转座子本身在左右两端被TnsA和TnsB结合，形成被TnsC募集到靶DNA中的所谓的配对端复合物。转座子从其供体位点的切除允许在结合了DNA的TniQ-Cascade下游的固定距离处进行靶向整合，导致5-bp的靶位点重复序列。

图6A至图6F显示了大肠杆菌Tn7转座子的转座和来自霍乱弧菌的Tn6677转座子的遗传结构。图6A是邻近其在glmS基因内的已知附着位点(attTn 7)的天然大肠杆菌Tn7转座子的基因组组织。图6B是Tn7转座实验的示例性表达和供体质粒的示意图。图6C是包含保守的TnsD结合位点(attTn 7)的基因组基因座的示意图，包括预期的和替代取向的Tn7转座产物和选择性扩增它们的PCR引物对。图6D是通过琼脂糖凝胶电泳解析的Tn7转座的PCR分析。rssA的扩增作为上样对照。图6E是基因组整合的Tn7的上游和下游接合处的桑格测序色谱图。TSD，靶位点重复序列。图6F是天然霍乱弧菌HE-45株Tn6677转座子的基因组组织。突出了在Tn6677与大肠杆菌Tn7转座子之间以及Tn6677与来自铜绿假单胞菌的典型I-FCRISPR-Cas系统之间保守的基因。分别在适应性免疫的适应和干扰阶段介导间隔子获得和DNA降解的cas1和cas2-3基因，从Tn7样转座子编码的CRISPR-Cas系统中缺失。同样，促进非序列特异性转座的tnsE基因也不存在。霍乱弧菌HE-45基因组包含另一个Tn7样转座子(位于GenBank登录号ALED01000025.1中)，所述转座子缺乏编码的CRISPR-Cas系统，并且表现出与本研究中研究的Tn6677转座子序列相似性低。

图7A至图7G是对大肠杆菌培养物和含有lacZ整合转座子的菌株分离物的分析。图7A显示了被gRNA-3和gRNA-4靶向的基因组基因座，包括潜在的转座产物和选择性扩增它们的PCR引物对(顶部)。利用两个备选引物对测定的针对gRNA-3(左)和gRNA-4(右)的Cascade靶位点与转座子整合位点之间的距离的下一代测序(NGS)分析。图7B显示了在用gRNA-4进行转座实验后，具有或不具有整合转座子的lacZ基因座的示意图(上图)；T-LR和T-RL分别表示其中转座子左端和右端接近靶位点的转座产物。引物对g和h(外部-内部)选择性地扩增整合的基因座，而引物对i(外部-外部)扩增未整合的和整合的基因座。在+IPTG平板上生长24小时后对10个菌落进行的PCR分析(左下方)表明，所有菌落在两个取向(引物对g和h)上都包含整合事件，但效率足够低，以至于用引物对i扩增后未整合的产物占优势。在重新悬浮细胞后，允许在-IPTG平板上进行额外18小时的克隆生长，并对10个菌落进行相同的PCR分析(右下方)，现在10个菌落中有3个在T-LR取向上表现出克隆整合(比较引物对h和i)。剩余的菌落在两个取向上都显示出低水平的整合，这可能是在额外的18小时生长过程中由于泄漏表达而发生的。这些分析表明，在+IPTG平板上生长后，菌落在遗传上是异质的，并且RNA引导的DNA整合仅发生在生长菌落中的一部分细胞中。I，整合产物；U，未整合的产物；*，引导错误的产物也存在于阴性(未整合)对照中。图7C是用于蓝白色菌落筛选的LB琼脂平板的照片。将来自含IPTG的平板的细胞重新铺在含X-gal的平板上，并选择预期含有lacZ失活转座子插入的白色菌落进行进一步表征。图7D是通过蓝白色菌落筛选鉴定的含有克隆整合的转座子的大肠杆菌株的PCR分析，如图7B所示。图7E是如图7D中所示的菌株的跨lacZ基因座的桑格测序覆盖度的示意图。图7F是如图7B所示，在用来自对照菌株的裂解物连续稀释来自克隆整合菌株的裂解物以模拟可变整合效率后用gRNA-4进行的转座实验的PCR分析。可通过用外部-内部引物对以高于0.5％的效率进行PCR来可靠地检测转座产物，但PCR偏向导致使用外部-外部引物对以明显低于100％的任何效率优先扩增未整合的产物。图7G是具有或不具有整合的Tn7的lacZ基因座的示意图(顶部)，以及通过琼脂糖凝胶电泳和在图7B中解析的使用引物对a(中间)或引物对b(底部)对利用gRNA4的Tn7转座实验进行的进一步菌落PCR分析。

图8A至图8E是霍乱弧菌Cascade和TniQ-Cascade复合物的分析。图8A是用于重组蛋白或核糖核蛋白复合物纯化的示例性表达载体的示意图。图8B显示了纯化的TniQ、Cascade和TniQ-Cascade复合物的SDS-PAGE分析(左)，突出显示了为凝胶内胰蛋白酶消化和质谱分析而切除的蛋白质条带。表格(右)列出了从这些数据中鉴定的大肠杆菌和重组蛋白，以及它们相关肽的光谱计数。请注意，用于此分析的Cascade和TniQ-Cascade样品与图2中所示的样品不同。图8C是在Superose 6 10/300柱上的TniQ-Cascade共复合物的尺寸排阻色谱图(左)，以及使用蛋白质标准生成的校准曲线(右)。TniQ-Cascade(褐红色)的测量的保留时间与分子量约440kDa的复合物一致。图8D是通过变性尿素-PAGE解析的与Cascade和TniQ-Cascade共纯化的核酸的RNA酶A和DNA酶I敏感性。图8E是通过尺寸排阻色谱解析的TniQ、Cascade和Cascade+TniQ结合反应的结果(左)；通过SDS-PAGE分析所指示的级分(右)。*表示HptG污染物。

图9A至图9C是证明利用Cas9和铜绿假单胞菌Cascade的高效DNA靶向的对照实验。图9A是化脓性链球菌Cas9-sgRNA(II-A型，左)和铜绿假单胞菌Cascade(PaeCascade)和Cas2-3(I-F型，右)的示例性质粒表达系统的示意图。从图2E中描述的实验中省略了Cas2-3表达质粒。图9B是通过确定质粒转化时的菌落形成单位(CFU)监测的使用化脓性链球菌Cas9-sgRNA(左)或PaeCascade和Cas2-3(右)的细胞杀伤实验的结果图。用与霍乱弧菌gRNA-3和gRNA-4靶向相同基因组lacZ位点的gRNA对复合物进行编程，使得高效的DNA靶向和降解导致致死性，从而降低转化效率。图9C是来自使用霍乱弧菌转座子供体和TnsA-TnsB-TnsC以及包含霍乱弧菌Cascade(Vch)、铜绿假单胞菌Cascade(Pae)或化脓性链球菌dCas9-RNA的DNA靶向组分的实验的基于qPCR的转座效率定量的结果图。TniQ或者以其自身从pTnsABCQ表达，或者作为在Cas6 C端(6)、Cas8 N端(8)或dCas9 N端(N)或C端(C)与靶向复合物融合的融合物(pCas-Q)表达。使用与图2E中完全相同的样品裂解物。图9B和图9C中的数据显示为n＝3个生物学独立样品的平均值±s.d.。

图10A至图10E是RNA引导的DNA整合效率的基于qPCR的定量。图10A是gRNA-3和gRNA-4的在任一取向上的潜在lacZ转座产物以及选择性扩增它们的qPCR引物对的示意图。T-LR和T-RL分别表示其中转座子左端和右端接近靶位点的转座产物。图10B包括通过以已知比例混合克隆整合的和未整合的裂解物产生的T-LR和T-RL取向的模拟整合效率相对于通过qPCR测量的实验测定的整合效率的比较图。图10C是gRNA-4的双向整合效率的模拟混合物相对于通过qPCR测量的实验测定的整合效率的比较图，所述模拟混合物是通过以已知比例混合克隆整合的和未整合的裂解物而产生的。图10D是通过qPCR测量的针对gRNA-3和gRNA-4的作为IPTG浓度的函数的RNA引导的DNA整合效率的图。图10E是通过qPCR测量的gRNA4的双向整合效率的模拟混合物的双向整合效率的图，所述模拟混合物是通过以已知比例混合克隆整合的和未整合的裂解物而产生的。图10B至图10C显示为n＝3个生物独立样品的平均值±s.d.。

图11A至图11D显示转座子末端序列对RNA引导的DNA整合的影响。图11A显示了霍乱弧菌Tn6677左右端序列的序列(顶部)和示意图(底部)。假定的TnsB结合位点(蓝色)是根据与TnsB结合位点的序列相似性确定的。8-bp末端显示为黄色，根据经验确定的转座所需的最小末端序列用红色虚线框标示。图11B是如通过qPCR测定的作为转座子末端长度的函数的gRNA-4的整合效率的图。图11C是通过qPCR测定的作为转座子末端长度的函数的两个整合取向的相对分数的图。ND，未测定的。图11D是通过qPCR对两个方向独立地测定的作为转座子末端截短的函数的gRNA-4的整合效率的图(底部)。经验确定的所需最小末端序列如虚线框所示。图11B和图11C中的数据显示为n＝3个生物学独立样品的平均值±s.d.。

图12A至图12D是PAM-平铺的gRNA和延长间隔区长度的gRNA的RNA引导的DNA整合的分析。图12A是通过NGS测定的图3D至图3E中所述的归一化转座效率＞20％的所有gRNA的整合位点分布图。图12B是通过NGS测定的在位置29-32处含有错配的gRNA的整合位点分布与gRNA-4的分布相比的比较图。图12C显示了gRNA-4间隔子长度缩短或延长6-nt增量后，通过qPCR测定的所得整合效率。将数据以gRNA-4作归一化，并显示为n＝3个生物独立样品的平均值±s.d.。图12D是通过NGS确定的与gRNA-4的分布相比较的加长gRNA的整合位点分布图。

图13A至图13H显示转座子插入测序(Tn-seq)的发展和分析。图13A是霍乱弧菌转座子末端序列的示意图。转座子的8-bp末端序列被框起来并以浅黄色突出显示。被产生来引入MmeI识别位点的突变以红色显示，所产生的识别位点以红色突出显示。MmeI的切割发生在距离转座子末端17-19bp处，产生2-bp的悬突。图13B是通过qPCR测定的野生型转座子供体与含MmeI的转座子供体的整合效率的比较图。x轴上的标记表示最后转化的质粒；与pDonor最后被转化时相比，当pQCascade最后被转化时(gRNA-4)，可重复地观察到更高的整合效率。所有Tn-seq实验均使用在转座子“右”端含有MmeI位点的转座子(R*-L pDonor)。数据显示为n＝3个生物学独立样品的平均值±s.d.。图13C是Himar1C9和mariner转座子的质粒表达系统示意图。图13D是显示了用mariner转座子进行的Tn-seq实验的两个生物学重复之间的相关性的散点图。通过大肠杆菌基因注释对读数进行了分箱，并且显示了线性回归拟合和皮尔逊线性相关系数(r)。图13E是用于利用霍乱弧菌转座子的转座实验的Tn-seq分析的100-bp分箱方法(binning approach)的示意图，其中bin-1被定义为紧接在Cascade靶位点下游(PAM末端)的前100-bp。图13F是显示利用用gRNA-4编程的霍乱弧菌转座子进行的Tn-seq实验的生物学重复之间的相关性的散点图。所有高采样读数都落在箱-1范围内；还观察到了低水平但可再现的至刚好在主要整合位点(箱-1、2和3)的上游和下游的100-bp箱中的长距离整合。图13G是显示利用用gRNA-nt编程的霍乱弧菌转座子进行的Tn-seq实验的生物学重复之间的相关性的散点图。图13H是显示利用表达TnsA-TnsB-TnsC-TniQ但不表达Cascade的霍乱弧菌转座子进行的Tn-seq实验的生物学重复之间的相关性的散点图。对于图13F至图13H，仅当箱在任一数据集中包含至少一个读数时才绘制箱。

图14A至图14E是测试的额外gRNA的Tn-seq数据。图14A和图14B是来自利用用gRNA1-8(图14A)和gRNA 17-24(图14B)编程的霍乱弧菌转座子进行的转座实验的基因组映射Tn-seq读数的全基因组分布。每个靶位点的位置用褐红色三角形标示。

发现gRNA-3的lacZ靶位点在λDE3前噬菌体内重复，转座子整合位点也是如此；该数据集的Tn-seq读数被映射到两个基因组基因座，仅用于可视化目的，尽管它们所源自的基因座无法确定。图14C至图14E是从Tn-seq数据确定的gRNA 1-24的整合位点分布分析的图；显示了Cascade靶位点与转座子整合位点之间的距离。两个整合取向的数据被叠加，其中填充的蓝色条代表T-RL取向，黑色轮廓代表T-LR取向。每个图右上角的值给出了中靶特异性(％)(计算为由在主要整合位点的100-bp内整合产生的读数占与基因组对齐的总读数的百分比)和取向偏差(X∶Y)(计算为T-RL取向的读数与T-LR取向的读数之比)。大多数基gRNA倾向于在Cascade靶位点下游49-50bp处以T-RL取向整合。gRNA-21呈灰色，因为预期的主要整合位点存在于重复的一段DNA中，这使我们无法自信地映射读数。*表示对于其超过1％的基因组映射读数不能被唯一地映射的样品被标记。

图15显示细菌转座子也含有编码C2c5的V-U5型CRISPR-Cas系统。来自各种细菌物种的代表性基因组基因座包含可鉴定的转座子末端(蓝框，L和R)、与tnsB-tnsC-tniQ同源的基因(黄色阴影)、CRISPR阵列(褐红色)和CRISPR相关基因c2c5(蓝色)。来自H.byssoidea(顶部)的实例突出显示了靶位点重复和末端重复，以及在转座子的运载物部分内发现的基因。与含I型CRISPR-Cas系统的Tn7样转座子一样，含V型CRISPR-Cas系统的转座子似乎更倾向于包含与先天免疫系统功能(诸如限制-修饰系统)相关的基因。C2c5基因的两侧经常是预测的转录调节因子merR(浅蓝色)，含有C2c5的转座子似乎通常正好落在tRNA基因的上游(绿色)，这种现象也在其它原核整合元件中观察到。对来自用CRISPRTarget显示的8个CRISPR阵列的50个间隔区的分析显示，6个间隔区具有不完全匹配的靶标(平均6个错配)，没有一个映射到噬菌体、质粒或含有转座子本身的同一细菌基因组。

图16A至图16B是通过剪切粘贴对比复制粘贴机器进行的转座的示例性示意图。图16A是剪切粘贴式转座的示意图。大肠杆菌Tn7转座子通过剪切粘贴机器动员。TnsA和TnsB在两个末端处切割转座子DNA的两条链，导致线性dsDNA的干净切除，其在两个末端包含短的3-核苷酸5’-悬突(未显示)。然后，游离的3’-OH末端被TnsB用作亲核试剂，攻击靶DNA两条链上的磷酸二酯键，导致协同的转酯反应。间隙填充后，转座反应完成，由于间隙填充反应，整合的转座子两侧是5-bp的靶位点重复序列(TSD)。图16是复制粘贴(复制型)转座的示意图。一些转座子通过复制粘贴途径动员，也称为复制型转座。当转座子供体DNA的5’端在切除步骤中没有断裂时，就会出现这种情况，就像编码转座蛋白的基因操纵子中不存在tnsA核酸内切酶基因时的情况一样。在这种情况下，3’-OH末端仍然被释放，并且可在TnsB的催化下参与与靶DNA的交错转酯反应(插图，中右)，但转座子的5’端仍然与供体DNA分子(其可以是基因组或质粒载体)中的剩余DNA共价连接。这种复制粘贴反应产生了所谓的Shapiro中间体(中)，其中整个供体DNA，包括转座子序列本身以及侧翼序列，与断裂的靶DNA连接在一起。这个中间体只能在随后的DNA复制过程中被解析(左下)，这就产生了所谓的共合体(cointegrate)产物。该共合体包含转座子本身的两个拷贝(橙色矩形)，一侧是TSD。重要的是，共合体还包含了供体DNA分子的全部，以及靶DNA分子的全部。因此，在于质粒载体上编码转座子的情况下，载体的整体在复制型转座过程中与靶DNA连接。在一些频率下，共合体产物可通过专用的分解酶(resolvase)蛋白(例如，Tn5090/Tn5053中的TniR蛋白)的作用，或者通过内源性同源重组(因为共合体产物中转座子本身的两个拷贝之间具有广泛的同源性)被分解成右侧所示的产物。共合体解析产生了含有单个转座子的靶DNA(其两侧是TSD)，以及供体DNA分子的再生形式。

图17A至图17C显示了包含I-F型和V型CRISPR-Cas系统的转座子中的转座基因的比较。图17A是文献中描述的Tn7和Tn7样转座子的示意图。(图复制自图9.1b并改编自Peters等人，Mol Microbiol 93，1084-1092(2014))。图17B是代表性Tn7样转座子的示意图，所述Tn7样转座子包含I-F型变体CRISPR-Cas系统，其基因编码Cascade复合物；来自霍乱弧菌的介导RNA引导的DNA插入的Tn6677转座子就是该家族的成员。注意在Tn6677及相关转座子和Tn7中发现的转座基因的相似性：tnsA-tnsB-tnsC操纵子得以保持，而被称为tniQ的tnsD同源物被编码在操纵子内，所述操纵子编码共同形成RNA引导的TniQ-Cascade复合物的Cas8-Cas7-Cas6蛋白。TnsA和TnsB蛋白产物介导转座子切除，而TnsB介导转座子整合到靶DNA中。图17C是代表性Tn7样转座子的示意图，所述Tn7样转座子包含V型CRISPR-Cas系统，其基因编码Cas12k(也称为C2c5)。而tnsB、tnsC和tniQ基因存在于这些转座子中，而tnsA基因不存在，表明这些转座子不编码介导剪切粘贴式转座所必需的机器。相反，它们可能会通过复制粘贴复制型转座进行，从而产生共合体产物，而不是干净的整合产物。

图18是涉及每种组分的单个载体的表达策略。利用霍乱弧菌的CRISPR-Tn7系统进行RNA引导的DNA整合所必需的每一种组分都编码在单独的哺乳动物表达质粒上。蛋白质编码基因是经人密码子优化(hCO)的，克隆在CMV启动子的下游，并包含N端核定位信号(NLS)。在其它实施方案中，也可以串联方式或在蛋白质的C端引入NLS。编码gRNA的CRISPR阵列被克隆在人U6(hU6)启动子的下游，并被设计成重复序列-间隔区-重复序列阵列，这通过Cas6进行加工。选择特定的间隔区序列(褐红色)来对应于所需的DNA靶位点。在这个实施方案中，所有8个质粒被共转染以在细胞中重建TniQCascade和TnsABC，它们与pDonor一起可以介导RNA引导的DNA整合。

图19是涉及多顺反子载体的示例性表达策略。pTnsABC_hCO编码TnsA、TnsB和TnsC的人密码子优化的形式，其中显示了NLS肽和T2A肽。pQCascade_hCO编码的TniQ、Cas6、Cas7和Cas8的人密码子优化的形式，以及编码gRNA的CRISPR阵列。显示了两种载体的启动子。在其它实施方案中，改变基因的顺序以优化表达，并且改变NLS肽和2A肽的位置和身份。编码gRNA的CRISPR阵列被克隆在人U6(hU6)启动子的下游，并被设计成重复序列-间隔区-重复序列阵列，这通过Cas6进行加工。选择特定的间隔区序列(褐红色)来对应于所需的DNA靶位点。在该实施方案中，两种质粒被共转染以在细胞中重建TniQ-Cascade和TnsABC，它们与pDonor一起可以介导RNA引导的DNA整合。pQCascade_hCO变体(pSL1079)编码靶向大肠杆菌的lacZ特异性序列的gRNA，所述gRNA一个实施方案，被克隆在用于在真核细胞进行RNA引导的DNA整合实验的pTarget内。

图20A至图20C显示了可能的递送方法。图20A显示了一个实施方案，其中HEK293T细胞用载体转染，所述载体编码概括RNA引导的DNA整合的相应蛋白质和RNA机器。图20B显示了另一个实施方案，其中合成了5’-封端的(红圈)且3’-多腺苷酸化的mRNA，以及前体gRNA(显示)或完全加工的成熟gRNA(未显示)，然后用mRNA和gRNA的混合物转染HEK293T细胞。图20C显示了另一个实施方案，其中重组地纯化所有必需的蛋白质和RNA组分，然后用纯化的蛋白质和核糖核蛋白组分转染HEK293T细胞。上述策略与供体DNA的递送相组合(例如，如在pDonor上)。

图21A和图21B是用于在HEK293T细胞中进行RNA引导的DNA整合的示例性实验策略。图21A是一个实施方案的示意图，在所述实施方案中HEK293T细胞用CRISPR-Tn7表达载体与pDonor和pTarget一起共转染。pDonor包含微型转座子构建体，所述微型构建体含有位于目标遗传运载物两侧的Tn7转座子末端(“L”和“R”)；pTarget包含与gRNA间隔区互补的靶位(褐红色)。成功的RNA引导的DNA整合包括从pDonor中切除转座子(由TnsA和TnsB介导)，然后在RNA引导下将转座子整合到pTarget中，与靶位点保持固定的距离。pDonor和pTarget可包含荧光报告基因和/或抗药性标记，以使得能够选择经历整合事件的细胞。图21B是另一个实施方案的示意图，在所述实施方案中转座子再次编码在pDonor上，但gRNA被设计成将RNA引导的DNA整合导向人基因组内的位点(用红色染色体图解)。这导致转座子在距靶位点固定距离处的基因组整合(褐红色)。质粒的序列仅代表各自质粒的一种可能设计。pTarget_Int是指RNA引导的DNA整合到pTarget后的整合产物。整合的转座子可通过PCR、qPCR和/或下一代测序来检测和进一步分析。

图22A至图22C是用于选择并且/或者检测HEK293T细胞中RNA引导的DNA整合的示例性实验策略。图22A是一个称为启动子捕获方法的实施方案的示意图，在所述实施方案中HEK293T细胞用CRISPR-Tn7表达载体与pDonor一起共转染，所述pDonor包含微型转座子构建体，所述微型转座子构建体含有位于遗传运载物两侧的Tn7转座子末端(“L”和“R”)，所述运载物包括通过2A肽连接至EGFP基因的嘌呤霉素抗性基因(puroR)。遗传运载物不合启动子元件，因此不表达，除非RNA引导的DNA整合将运载物置于真核启动子元件的下游。靶向启动子可存在于质粒(例如pTarget)或基因组中。一旦整合，报告基因被开启，整合可通过流式细胞术和/或药物选择来检测。pA是指多腺苷酸化信号，启动子(黑色箭头)可以是CMV启动子或其它组成型或诱导型启动子。图22B是其中选择靶位点，使得整合也破坏了编码mCherry的另一个荧光报告基因的示意图。在这个实验设置中，RNA引导的DNA整合导致GFP信号的增加和mCherry信号的丢失。图22C是显示另一个实施方案的示意图，在所述实施方案中pDonor中的报告子在遗传运载物中也包含启动子元件，使得pDonor质粒本身表达EGFP和嘌呤霉素抗性基因。在这种情况下，无论整合位点附近是否存在启动子元件，遗传运载物到基因组或pTarget质粒中的整合都会导致表达。

图23A至图23D是减少启动子数量的示例性表达构建体设计。图23A是前述pQCascade质粒(pSL0828，编码gRNA-4)的示意图，所述质粒包含两个独立的T7启动子，其中一个驱动CRISPR RNA表达，另一个驱动TniQ-Cas8-Cas7-Cas6操纵子表达。图23B是仅包含单个T7启动子的工程化的pQCascade-B和pQCascade-C的示意图，所述启动子驱动CRISPRRNA和TniQ-Cas8-Cas7-Cas6操纵子的表达。CRISPR阵列位于转录物的5’或3’端。图23C是利用pDonor(pSL0527)和pTnsABC进行的RNA引导的DNA整合实验的示意图，所述pDonor包含两侧是Tn7转座子末端的遗传运载物，所述pTnsABC编码TnsA-TnsB-TnsC操纵子。图23D是在大肠杆菌BL21(DE3)细胞中进行的并通过qPCR定量的RNA引导的DNA整合实验的结果。绘制利用pDonor(pSL0527)、pTnsABC(pSL0283)和pQCascade-B(pSL1016)或pQCascade-C(pSL1018)进行的实验的总整合效率。

图24A至24F是从一个质粒表达所有CRISPR和Tn7相关机器的示例性表达构建体设计。图24A是编码来自两个T7启动子的CRISPR阵列和TniQ-Cas8-Cas7-Cas6-TnsA-TnsA-TnsB操纵子的pTQC-A(pSL1020)的示意图。图24B是编码来自单个T7启动子的CRISPR阵列和TniQ-Cas8-Cas7-Cas6-TnsA-TnsA-TnsB操纵子的pTQC-B(pSL1022)的示意图。图24C是编码来自两个T7启动子的TnsA-TnsB-TnsC操纵子和TniQ-Cas8-Cas7-Cas6-CRISPR操纵子的pTQC-C(pSL1024)的示意图。图24D是编码来自单个T7启动子的TnsA-TnsB-TnsC-TniQ-Cas8/Cas5融合蛋白-Cas7-Cas6-CRISPR操纵子的pTQC-D(pSL1026)的示意图。图24E是由pTQC-B(左)和pTQC-D(右)编码的融合mRNA和CRISPR RNA转录物的示意图；通过Cas6进行的酶促CRISPR RNA加工释放了成熟的gRNA，而不干扰剩余的编码所有蛋白质组分的mRNA转录物。图24F显示了在大肠杆菌BL21(DE3)细胞中进行并通过qPCR定量的RNA引导的DNA整合实验的结果。如所显示的，绘制利用pDonor(pSL0527)和pTQC-A、pTQC-B、pTQC-C或pTQC-D进行的实验的总整合效率。

图25A至图25B是示例性表达构建体设计，所述表达构建体用于从一个质粒中表达所有CRISPR相关机器和Tn7相关机器以及微型转座子供体。图25A是pAIO-A(pSL1120)的示意图，所述pAIO-A(pSL1120)编码来自单个T7启动子的CRISPR阵列和TniQ-Cas8-Cas7-Cas6-TnsA-TnsA-TnsB操纵子，并且还具有下游微型转座子供体DNA，所述微型转座子供体DNA包含在目标运载物两侧的Tn7转座子末端(“L”和“R”)。图25B是编码来自单个T7启动子的CRISPR阵列和TniQ-Cas8-Cas7-Cas6-TnsA-TnsA-TnsB操纵子的pAIO-A(pSL1120)的示意图。这个完整的表达盒被克隆在微型转座子供体DNA中，其包括Tn7转座子末端(“L”和“R”)。利用该构建体进行的RNA引导的DNA整合导致编码在供体DNA本身内动员的CRISPR相关机器和Tn7相关机器的遗传组分。

图26A至图26B是示例性表达构建体设计，所述表达构建体用于优化启动子强度、质粒拷贝数和运载物大小，以用于一体化RNA引导的DNA整合实验。图26A显示了pAIO-A(pSL1120)，其被进一步修饰以携带四种组成型大肠杆菌启动子之一(顶部)，并将整个表达盒引入四种不同的载体主链中(左侧)。在大肠杆菌BL21(DE3)细胞中测试所得的四乘四矩阵的RNA引导的DNA整合活性，并通过PCR、qPCR和/或下一代测序进行分析。这些实验揭示了给定拷贝数的表达质粒的最佳表达水平。图26B是经修饰包括大小从0.17千碱基对(kbp)到10kbp的遗传运载物的pAIO-A(pSL1120)的示意图。测试所得质粒在大肠杆菌BL21(DE3)细胞中的RNA引导的DNA整合活性，并通过PCR、qPCR和/或下一代测序进行分析。这些实验揭示了运载物大小对不同表达结构和设计的依赖性。

图27是用于在选择的异源宿主中表达和重建RNA引导的DNA整合的示例性启动子策略。一体化表达载体pAIO-A(pSL1120)被进一步修饰以携带在各种其它表达宿主(用斜体标示)中被识别和表达的替代启动子(红色)。在一个实施方案中(右下)，选择的启动子具有广泛的宿主范围活性，并且可在各种已知的人共生菌和致病菌中被识别。在又一实施方案中，选择附加的启动子来匹配附加的目标宿主细菌物种。

图28是C2c5同源物的生物信息学分析。对C2c5蛋白进行多序列比对后，构建系统发育树，并使用交互式生命树(Interactive Tree of Life)进行可视化。基于许多标准，包括序列多样性、遗传结构和可容易鉴定的转座子末端序列，选择了五个同源物及其相关的Tn7样转座子组分进行进一步的实验研究，用细菌物种信息标记并用红色箭头突出显示。

图29是Tn7样转座子的遗传结构，所述Tn7样转座子包含编码C2c5的V-U5型CRISPR-Cas系统。显示了来自五个选定细菌物种的代表性基因组位点。显示了Tn7样转座子末端(深蓝色矩形)、Tn7相关基因tnsB-tnsC-tniQ(黄色阴影)、CRISPR阵列(褐红色)和CRISPR相关基因c2c5(蓝色)。与含I型CRISPR-Cas系统的Tn7转座子一样，含V型CRISPR-Cas系统的Tn7样转座子胜过与先天免疫系统功能(诸如限制性修饰系统)相关的港湾基因(harbor gene)。C2c5基因的两侧经常是预测的转录调节因子merR(灰色)，并且含有C2c5的Tn7样转座子似乎总是刚好落在tRNA基因的上游(绿色)，在其它原核整合元件中也观察到了这种现象。

图30A至图30B显示了研究通过含C2c5的Tn7样转座子进行的RNA引导的DNA整合的示例性实验装置。图30A是用于Tn7-C2c5转座实验的通用质粒表达系统的示意图。CRISPR阵列包含两个重复序列(灰色菱形)和单个间隔区序列(褐红色矩形)。pDonor上的微型转座子被反式表达的转座酶动员。图30B是被合成gRNA靶向的lacZ基因组基因座的示意图，其包括两个潜在的Tn7转座产物和选择性扩增它们的PCR引物对。

图31A至图31B是示范用来自阿波藻蓝细菌(Cyanobacterium aponinum)IPPAS B-1202(Cap)的Tn7样转座子进行转座的实验数据。图31A是被六种不同gRNA靶向的lacZ内基因组位点的示意图；标示了不同的PAM序列(黄色)，并且靶位点以褐红色标示。图31B是通过琼脂糖凝胶电泳解析的整合事件的基于PCR的检测。对lacZ基因3’端特异的单个上游引物与通读左转座子末端的引物组合使用(如图30B所示，引物对c2)。显示了1∶10和1∶100稀释的裂解物的反应，以及阳性对照(+C)在裂解物上运行，所述裂解物与霍乱弧菌Tn7转座子靶向相同区域。对于gRNA4、5和6中显示的PAM序列，检测到潜在的整合事件。

图32A至图32C是用于靶向DNA富集的代表性现有方法。图32A是概述用于DNA富集的PCR过程的示意图。可以以单重形式、以利用多个引物对的多重形式，或者利用定制的基于乳液的技术(诸如Rainstorm)产生PCR扩增子来富集目标DNA靶标。图32B显示了分子倒置探针(molecular inversion probes)(MIP)与目标区域两侧的输入DNA退火以进行富集，导致间隙填充和探针通过连接环化的示意图。图32C是最广泛使用的靶向DNA富集方法的示意图，基于寡核苷酸的探针池用于以阵列形式(固体载体)或溶液形式与目标序列杂交，随后进行洗涤和洗脱步骤。该图转载自：Mamanova等人，Nat Meth 7，111-118(2010)，其通过引用并入本文。

图33A至图33D是使用利用CRISPRTn7的RNA引导的DNA整合进行靶向DNA富集的示意图。在图33A中，可以是纯化的基因组DNA的输入DNA包含期望富集的目标序列(蓝色)。gRNA是针对目标位点(靶-1和靶-2)设计的，它们位于目标序列的侧翼；靶位点本身与前间区序列邻近基序或PAM邻接，在霍乱弧菌CRISPR-Tn7序列的一个实施方案中，PAM是5’-CC-3’。具有gRNA-1和gRNA-2的纯化的TniQ-Cascade复合物结合两个靶位点，导致TnsC的募集和随后包含TnsA、TnsB和转座子末端(L和R)的配对末端复合物(PEC)的募集。成功的募集导致转座子末端序列在与两个gRNA互补的靶位点下游固定距离处的RNA引导的整合。整合既在整合位点对输入DNA进行片段化，同时也附加转座子末端序列，在一个实施方案中，附加衔接子序列，可用于下游PCR扩增和/或NGS文库制备和下一代测序(NGS)。配对末端复合物中TnsA和TnsB的化学计量是未知的，TnsC的化学计量也是未知的。转座子的L端和R端分别用浅紫色和浅橙色标示；任选的衔接子序列用深紫色和深橙色显示。通过针对转座子末端序列、衔接子序列或两者设计引物，可以在随后的PCR步骤中选择性地扩增(例如富集)目标序列。样品特异性指数也可在随后的PCR扩增步骤中加入。图33B是所示的转座子末端序列的可能衍生物的示意图。在一个实施方案中，配对末端复合物包含两个独特的转座子末端(紫色和橙色)，这导致独特的序列整合在输入DNA的沃尔森和克里克链上，用于下游PCR扩增。在其它实施方案中，转座子末端被进一步工程化，使得经修饰的左(L*)或经修饰的右(R*)末端在RNA引导的DNA整合过程中被TnsB识别并忠实地整合，导致相同转座子末端序列的均匀整合，从而允许使用识别两个末端的单个引物进行下游PCR扩增。在又一实施方案中，转座子末端被工程化或修饰，使得一个末端在随后的PCR扩增步骤中保持“暗”，使得L和R端的取向特异性整合允许仅靶向扩增某些目标DNA序列以用于靶向DNA富集。“暗”末端也可以仅仅是在PCR扩增步骤中被功能性排除的R端和L端。最下面一行代表没有附加衔接子序列的转座子末端序列(深紫色、深橙色)。图33C显示了可能的靶位点和整合位点的几何形状，其不同之处在于靶位点相对于目标DNA序列的相对定位，导致在后续步骤中保留的替代结果(例如整合转座子末端的PCR扩增)。在实施方案1中，靶标-2被保留；在实施方案2中，靶标-1和靶标-2都被保留；在实施方案3中，靶标-1被保留；在实施方案4中，两个靶标都没被保留。在实施方案5中，靶标被选择来以PAM-in构型存在于目标DNA序列中，使得转座子末端的RNA引导的DNA整合恰好发生在目标序列之外。进一步的实施方案在一端组合这样的策略，在另一端靶标位于目标序列之外。图33D是用于指导输入DNA内高度多重化的RNA引导的DNA整合的gRNA文库的示意图，所述高度多重化的RNA引导的DNA整合允许随后靶向富集许多目标DNA序列。

图34A至图34B是从输入DNA生成随机片段文库的现有方法的示意图。图34A是常规方法的示意图，所述常规方法涉及输入DNA的机械(例如超声处理)或酶促(例如dsDNA片段化酶，NEB)片段化，所述输入DNA可以是纯化的基因组DNA。然后，在末端补齐和末端加A之后，将测序衔接子附加到所有dsDNA末端，并且使用与通用衔接子互补的引物的PCR扩增导致跨越整个输入DNA的DNA文库，可在随后的步骤中使用大规模并行DNA测序(诸如使用Illumina平台的NGS)对其进行测序。图34B是用工程化的Tn5转座酶(例如，与Nextera试剂盒一样)的标记(tagmentation)的示意图，所述转座酶将DNA片段化和衔接子插入组合在单个且快速的步骤中，从而使得大大节省了时间、成本和劳动力。在NGS之前，将转座子末端或转座子衔接子在随后的PCR扩增中直接引物化。该图取自：Adey等人，Genome Biol 11，R119(2010)。

图35A至图35E是用于体外RNA引导的DNA整合的重组CRISPR-Tn7组分的制备的示意图。图35A是被克隆以重组表达和纯化霍乱弧菌CRISPR-Tn7机器的每个单独的蛋白质组分的示例性表达质粒的示意图。每个质粒编码目标蛋白上游的N端十组氨酸标签、MBP增溶标签和TEV蛋白酶识别序列。图35B是gRNA生成的示意图，所述gRNA通过来自dsDNA(显示，顶部)或部分ssDNA/dsDNA(未显示)模板的体外转录，通过包含自切割核酶的较长转录物的转录(中间)，或通过化学合成(底部)来生成。通过设计DNA模板文库或化学合成gRNA文库来生成gRNA文库。图35C显示了其它实施方案，其中使用所示的表达质粒，将TniQ-Cascade重组地纯化为包含TniQ、Cas8、Cas7、Cas6和gRNA的复合物。所提到的pCRISPR质粒(pSL0915)编码靶向lacZ的gRNA-3，但这可能被编码不同gRNA的其它质粒所取代。在另一个实施方案中，从表达不同gRNA文库的异质细胞池中纯化TniQ-Cascade(右)。图35D显示了其它实施方案，其中使用所示的表达质粒将TnsA和TnsB纯化为异二聚体(左)，或者使用所示的表达质粒将TnsA、TnsB和TnsC都纯化为共复合物(右)。图35E是多顺反子表达质粒的示意图。

图36是用于下一代测序的整合的DNA的PCR扩增。在一个实施方案中，转座子末端序列(橙色线)在目标DNA序列两侧的靶向RNA引导的DNA整合之后，用作PCR扩增的引物结合位点(见图33)。PCR引物还可在悬突上包含附加序列(诸如Illumina测序平台内桥扩增所需的p5/p7序列)，用于下游下一代测序所需的序列的索引和/或附加。经过PCR和标准净化步骤后，样品可直接用于下一代DNA测序。

图37是在RNA引导的DNA整合过程中独特的分子标识符(UMI)的整合。在RNA引导的DNA整合(上游步骤未显示)过程中使用的转座子末端序列以这样的方式设计，即独特的分子标识符(在图中用UMI表示，并用各种颜色描绘)被整合到转座子末端供体序列之一中。这导致相同目标序列(蓝色阴影)的不同分子携带独特的标签，所述标签在随后的PCR步骤中被保存和扩增，所述PCR步骤添加了下一代DNA测序所需的衔接子。

图38显示了通过用靶和整合位点侧翼连接目标序列来生成测序文库的方法。在该实施方案中，目标序列(蓝色)可以是已知的或未知的，但在一侧上与已知序列(褐红色)侧接，所述已知序列用作可针对其设计互补gRNA的靶位点。通过CRISPR-Tn7系统进行的RNA引导的DNA整合导致转座子末端(在描述的实施方案中为橙色/紫色)整合到靶位点下游约50-bp处。通过设计对靶位点(褐红色)和转座子末端序列之一(橙色)特异的引物，这种排列允许目标序列在下游PCR步骤中被选择性扩增。用于下一代测序的衔接子(灰色)也可作为悬突添加到PCR步骤中，允许下游下一代测序。所述方法可在许多不同目标序列上复用。

图39A至图39B是不同的示例性质粒设计，所述质粒用于表达RNA引导的DNA整合所必需的蛋白质和RNA组分。图39A是一个实施方案的示意图，在所述实施方案中使用三质粒方法来表达RNA引导的DNA整合(INTEGRATE)组分。图39B是另一个实施方案的示意图，在所述实施方案中一体化单质粒用于RNA引导的DNA整合(INTEGER)组分的精简表达(streamlined expression)和递送。还显示了简化的示意图(顶部)。

图40是通过复制型复制粘贴式转座形成共合体产物，并通过同源重组最终分解为最终产物的示意图。

图41是可使用红霉素抗性(ErmR)选择的扩增构建体的设计示意图，所述红霉素抗性仅在构建体被整合到转录的基因组基因座中后表达。

图42是调节抗生素抗性的示例性方法的示意图。

图43A至图43D是霍乱弧菌TniQ-Cascade复合物的整体结构。图43A是Tn6677转座子(顶部)的遗传结构，以及用于表达和纯化TniQ-Cascade共复合物的质粒构建体。右侧显示了多个取向的选定冷冻电镜无参考2D类(cryo-EM reference-free 2D classes)。图43B是TniQ-Cascade复合物的冷冻电镜图谱的正交视图，显示了Cas8(粉色)、六种Cas7单体(绿色)、Cas6(鲑鱼红)、crRNA(灰色)和TniQ单体(蓝色、黄色)。所述复合体采用在两端具有凸起的螺旋状结构。图43C是Cas8中的柔性结构域，其包含残基277-385(灰色)，只能在低通滤波图中看到。未锐化的图谱显示为半透明的灰色图，覆盖在根据图43A分段和着色的后处理图上。图43D是源自图43B所示的冷冻电磁图谱的TniQ Cascade复合物的精修模型。

图44A至图44D显示TniQ以二聚体头接尾构型结合Cascade。图44A(左)是覆盖在如43中分段和着色的后处理图上的TniQ-Cascade冷冻电镜未锐化图谱(灰色)的整体视图。图44A(右)是冷冻电镜图谱(顶部)和TniQ二聚体的精修模型(底部)。这两种单体以头接尾构型彼此作用，并通过Cas6和Cas7.1锚定至Cascade。图44B是TniQ二聚体的二级结构图解：11个α-螺旋被组织到N端螺旋-转折-螺旋(HTH)结构域和C端TniQ结构域。指示了H3与H11之间的二聚体相互作用以及与Cas6和Cas7.1的相互作用位点。图44C是H3-H11相互作用的冷冻电镜密度，显示出清晰的侧链特征(顶部)，允许对相互作用进行精确建模(底部)。图44D是二聚体相互作用的示意图，显示了HTH结构域与TniQ结构域之间的重要二聚化界面。

图45A至图45E显示Cas6和Cas7.1形成了TniQ的结合平台。图45A是顶部放大的区域，显示了Cascade与TniQ二聚体的相互作用位点。Cas6和Cas7.1显示为分子范德瓦尔斯表面，crRNA显示为灰色球体，TniQ单体显示为带状物。图45B是连接TniQ.1α螺旋H6和H7(蓝色)的环，其结合在Cas6的疏水腔内。图45C显示Cas7.1主要通过H2和连接H2与H3的环与TniQ.2单体(黄色)的HTH结构域相互作用。图45D至图45E是对TniQ-Cas6(图45D)和TniQ-Cas 7.1(图45E)相互作用观察到的实验冷冻电镜密度。

图46A至图46D是TniQ-Cascade复合物的结合了DNA的结构。图46A是在结合了DNA的TniQ-Cascade的电子密度图谱中实验观察到的crRNA和dsDNA底物部分的示意图。显示了靶标链(TS)、非靶链(NTS)以及PAM和种子区。图46B是为结合了DNA的TniQ-Cascade选择的冷冻电镜无参考2D类；在2D平均值(白色箭头)中，可以直接观察到对应于dsDNA的密度从Cas8组分突出。图46C是结合了DNA的TniQ-Cascade的冷冻电镜图。crRNA呈深灰色，DNA呈红色。在右侧和底部，图谱的PAM和种子识别区域的详细视图，其中精修模型表示为电子密度内的棒。Cas8显示为粉色，Cas7显示为绿色，crRNA显示为灰色，DNA显示为红色。图46D是霍乱弧菌转座子，其编码利用crRNA的序列内含物结合互补的DNA靶位点的TniQ-Cascade共复合物(左)。在结构中观察到的不完整的R环(中间)可能代表中间状态，所述中间状态可能先于下游的“锁定”步骤，所述“锁定”步骤牵涉对RNA-DNA互补性的校对。TniQ位于结合了DNA的Cascade复合物的PAM远端，其中其可能在RNA引导的DNA插入的下游步骤中与TnsC相互作用。

图47A至图47D是冷冻电镜样品优化和图像处理工作流程。图47A是500nM TniQ-Cascade的代表性负染色显微照片。图47B(左)是2μM TniQ-Cascade的代表性冷冻电镜图像。由200幅图像组成的小数据集被收集在配备有Gatan K2相机的Tecnai F20显微镜中。图47B(右)是该初始冷冻电镜数据集的无参考2D类平均值。图47C(左)是来自在配备有GatanK3检测器的Tecnai Polara显微镜中收集的大数据集的代表性图像。图47C(中)是获得的详细的2D类平均值，其用于使用在Relion3中实现的SGD算法的初始模型生成(图47C，右)。图47D是图像处理工作流程，用于鉴定呈开放和关闭构象的TniQcascade复合体的两个主要类别。利用软掩模的局部精修用于提高复合体末端凸起内的图谱质量。这些图谱有助于从头建模和初始模型精修。

图48A至图48E是呈关闭构象的TniQ-Cascade复合物的傅立叶壳层相关(FSC)曲线、局部分辨率和未锐化的滤波图。图48A是使用半映射的黄金标准FSC曲线；根据FSC0.143标准，全局分辨率估计为

图48B是交叉验证模型-vs-图谱FSC。蓝色曲线，针对半图谱1精修的堆叠模型(shacked model)之间的FSC；红色曲线，针对半图谱2的FSC，未包括在精修中；黑色曲线，最终模型对比最终图谱之间的FSC。在蓝色曲线与红色曲线之间观察到的重叠保证了非过拟合模型(non-overfitted model)。图47C是如通过RESMAP所报道的根据局部分辨率着色的未锐化的图谱。图48D是根据通过REFMAC计算的B因子着色的最终模型。图48E是包含残基277-385的柔性Cas8结构域在新月形形状的另一侧与TniQ二聚体接触。对未锐化的图谱应用宽度不断增加的高斯滤波器，允许更好地可视化该柔性区域。

图49是TniQ-Cascade与结构相似的Cascade复合物的叠加。霍乱弧菌I-F变体TniQ-Cascade复合物(左)与铜绿假单胞菌I-F Cascade11(也称为Csy复合物；中间，PDBID：6845)和大肠杆菌I-E Cascade9(右，PDB ID：4TVX)叠加。显示了整个复合物的叠加(顶部)、Cas8和Cas5亚单位与5’crRNA柄的叠加(中上)，Cas7亚单位与crRNA的片段的叠加(中下)，以及Cas6亚单位与3’crRNA柄的叠加(底部)。

图50A至图50H是呈关闭构象的TniQ-Cascade复合物的所有组分的代表性冷冻电镜密度。图50A是TniQ-Cascade的最终精修模型，其中Cas8为紫色，Cas7单体为绿色，Cas6为红色，TniQ单体为蓝色和黄色，crRNA为灰色。图50B至图50H是插入到TniQ-Cascade复合物的所有分子组分的选定区域的最终冷冻电镜密度中的最终的精修模型。残基已编号。

图51显示了Cas8和Cas6与crRNA的相互作用。i)是TniQ-Cascade的精修模型，显示为插入半透明范德瓦尔斯表面的带状物，如图1所示着色的。ii)和iii)是Cas8的放大视图，其与crRNA的5’端相互作用。插图显示了突变显示的区域的电子密度，其中核苷酸C1的碱基通过与精氨酸残基R584和R424的堆积相互作用而稳定。iv)显示Cas6与crRNA“柄”(核苷酸45-60)的3’端相互作用。v)是富含精氨酸的α-螺旋，其深深插入末端茎-环的大沟内。这种相互作用由Cas6的碱性残基与crRNA的带负电荷的磷酸主链之间的静电相互作用介导。vi)显示Cas6(红色)也与Cas7.1(绿色)相互作用，从而建立了由两种蛋白质贡献的β链形成的β-折叠。

图52A至图52B是通过TniQ-Cascade进行的crRNA和靶DNA识别的示意图。图52A显示了与crRNA相互作用的TniQ-Cascade残基已被指示出来。还显示了复合物的所有蛋白质组分的大致位置，以及每个Cas7“手指”的位置。图52B显示了与crRNA和靶DNA相互作用的TniQ-Cascade残基，如图52A中所示的。

图53A至图53E是呈开放构象的TniQ-Cascade复合物的傅里叶壳层相关(FSC)曲线、局部分辨率和局部精修图。图53A是使用半图谱的黄金标准FSC曲线；根据FSC 0.143标准，全局分辨率估计为

图53B是交叉验证模型-vs-图谱FSC。蓝色曲线，针对半图谱1精修的堆叠模型之间的FSC；红色曲线，针对半图谱2的FSC，未包括在精修中；黑色曲线，最终模型对比最终图谱之间的FSC。蓝色与红色曲线之间的重叠保证了非过拟合模型。图53C是如通过RESMAP报道的根据局部分辨率着色的未锐化的图谱。右边，通过左边上显示的图谱的切片。图53D显示使用软掩模的局部精修改善了柔性区域中的图谱。显示了对应于TniQ二聚体的图谱的区域。显示了掩模精修之前(左)和之后(右)的根据局部分辨率估计着色的未锐化的图谱。图53E是根据通过REFMAC计算的局部B因子着色的TniQ二聚体区域的最终模型。

图54A至图54C显示TniQ含有参与TniQ二聚体内的蛋白质-蛋白质相互作用的HTH结构域。使用精修的TniQ模型作为探针的DALI搜索发现了具有PDB条目4r24(图54A)与3uc(图54B)的TniQ的N端结构域之间的显著相似性(Z评分4.1/4.1，r.m.s.d.3.8/5.1)。这两种蛋白质都含有螺旋-转折-螺旋(HTH)结构域，并且HTH结构域经常参与核酸识别和介导蛋白质-蛋白质相互作用。图53C表明TniQ二聚体通过由来自两种单体的HTH结构域和TniQ结构域介导的相互作用而稳定(呈头接尾构型)。

图55A至图55C是结合了DNA的TniQ-级联复合物的傅里叶壳层相关(FourierShell Correlation，FSC)曲线、局部分辨率和非锐化过滤图。图55A是使用半映射的黄金标准FSC曲线；根据FSC 0.143标准，全局分辨率估计为2.9A。图55B是交叉验证模型-vs-图谱FSC。蓝色曲线，针对半图谱1精修的堆叠模型(shacked model)之间的FSC；红色曲线，针对半图谱2的FSC，未包括在精修中；黑色曲线，最终模型对比最终图谱之间的FSC。在蓝色曲线与红色曲线之间观察到的重叠保证了非过拟合模型。图55C(左)是如通过RESMAP报道的根据局部分辨率着色的未锐化的图谱。在复合物的右上突出外部可见dsDNA。图54C(右)是根据通过REFMAC计算的B-因子着色的最终模型。

图56是结合了DNA的TniQ-Cascade与结构相似的Cascade复合物的叠加。霍乱弧菌I-F变体TniQ-Cascade复合物(左)的结合了DNA的结构与铜绿假单胞菌I-F Cascade 11(又称Csy复合物；中间，PDB ID：6B44)和大肠杆菌I-E Cascade9(右，PDB ID：5H9F)的结合了DNA的结构叠加。显示了整个复合物的叠加(上图)、Cas8和Cas5亚单位与5’crRNA柄和双链PAM DNA的叠加(中上)、Cas7亚单位与一段crRNA的叠加(中下)，以及Cas6亚单位与3’crRNA柄的叠加(底部)。

图57A至图57F是C2c5同源物之间的配对序列身份。

图58A至图58C是对来自图57的C2c5同源物的C2c5基因组基因座的分析。

图59是来自Vch，霍乱弧菌Vch的TnsA(SEQ ID NO：141)；Ecl，阴沟肠杆菌(Enterobacter cloacae)(SEQ ID NO：1715)；Asa，杀鲑气单胞菌(Aeromonassalmonicida)(SEQ ID NO：716)；Pmi，奇异变形杆菌(Proteus mirabilis)(SEQ ID NO：1717)；Eco，大肠杆菌(SEQ ID NO：1714)的TnsA的多序列比对。保守的催化残基用红色三角形标示。

图60是来自Vch，霍乱弧菌Vch的TnsB(SEQ ID NO：143)；Ecl，阴沟肠杆菌(SEQ IDNO：1719)；Asa，杀鲑气单胞菌(SEQ ID NO：1720)；Pmi，奇异变形杆菌(SEQ ID NO：1721)；Eco，大肠杆菌(SEQ ID NO：1718)的TnsB的多序列比对。保守的催化残基用红色三角形标示。

图61是来自Vch，霍乱弧菌Vch的TnsC(SEQ ID NO：145)；Ecl，阴沟肠杆菌(SEQ IDNO：1723)；Asa，杀鲑气单胞菌(SEQ ID NO：1724)；Pmi，奇异变形杆菌(SEQ ID NO：1725)；Eco，大肠杆菌(SEQ ID NO：1722)的TnsC的多序列比对。显示了AAA+ATP酶特有的Walker A和Walker B基序，并且参与ATP酶活性的活性位点残基用蓝色三角形标示。一些TnsC同源物被注释为TniB。

图62是来自Vch，霍乱弧菌的TniQ/TnsD(SEQ ID NO：147)；Ecl，阴沟肠杆菌(SEQID NO：1727)；Asa，杀鲑气单胞菌(SEQ ID NO：1728)；Pmi，奇异变形杆菌(SEQ ID NO：1729)；Eco，大肠杆菌(SEQ ID NO：1726)的TniQ/TnsD的多序列比对。将VchTniQ与TniQ/TnsD家族成员比对。保守的锌指基序残基用蓝色箭头标示。

图63是来自Vch，霍乱弧菌(SEQ ID NO：153)；Rho，罗思河小杆菌属某种(Rhodanobacter sp)(SEQ ID NO：1730)；Bpl，植物伯克霍尔德氏菌(Burkholderiaplantarii)(SEQ ID NO：1731)；Idi，海源菌属某种H105(diomarina sp.H105)(SEQ ID NO：1732)；Pae，铜绿假单胞菌(SEQ ID NO：1733)的Cas6的多序列比对。VchCas6与其它I-FCas6蛋白对齐，所述蛋白通常被注释为Cas6f或Csy4。保守的催化残基用红色箭头标示。

图64是来自Vch(SEQ ID NO：151)，霍乱弧菌；Rho，罗河杆菌属某种(SEQ ID NO：1734)；Bpl，植物伯克霍尔德氏菌(SEQ ID NO：1735)；Idi，海源菌属某种H105(SEQ ID NO：1736)；Pae，铜绿假单胞菌(SEQ ID NO：1737)的Cas7的多序列比对。将VchCas7与其它I-FCas7蛋白(通常被注释为Csy3)比对齐。

图65A和图65B是来自Vch，霍乱弧菌(SEQ ID NO：149)；Rho，罗河杆菌属某种(分别为SEQ ID NO：1738和1742)；Bpl，植物伯克霍尔德氏菌(分别为SEQ ID NO：1739和1743)；海源菌属某种H105(分别为SEQ ID NO：1740和1744)；Pae，铜绿假单胞菌(分别为SEQ ID NO：1741和1745)的Cas8和Cas5的多序列比对。将VchCas8(一种天然的Cas8-Cas5融合蛋白)与其它I-F Cas8蛋白比对(图65A)(其通常被注释为Csy1)，以及与其它I-F Cas5蛋白(图65B)(其通常被注释为Csy2)比对。

图66是编码I-F型CRISPR-Cas系统的Tn7样转座子中tnsA-tnsB融合物发生的示意图。转座子和来自选定转座子的CRISPR-Cas机器的基因组织，所述选定转座子包括大肠杆菌Tn7(顶部)、霍乱弧菌Tn6677(上数第二个)和来自海绵副希瓦氏菌(倒数第二个)和沃丹弧菌(底部)的新候选Tn7样转座子。在下面两个实例中，tnsA-tnsB之间存在自然的融合。还指示了来自CRISPR-Cas操纵子的基因(tniQ、cas8、cas7、cas6和CRISPR阵列)。在基因示意图下面指示了底部两个系统的蛋白质登录ID。“R”和“L”分别表示转座子的右端和左端。

图67A和图67B是来自霍乱弧菌Tn6677转座子的工程化的TnsA-TnsB融合蛋白的设计和测试。从编码来自霍乱弧菌的天然TnsA、TnsB和TnsC操纵子的pTnsABC载体开始，基于与其它天然存在的TnsA-TnsB融合物的比对，构建了TnsA-TnsB的合成融合物，以产生新的经修饰的pTns(AB)_fC载体pSL 1738(图67A和SEQ ID NO：935)。将已包含微型转座子质粒供体(pDonor；pSL0527，SEQ ID NO：7)和编码TniQ-Cascade(crRNA-4)复合物的质粒(pSL0828，SEQ ID NO：14)的大肠杆菌BL21(DE3)感受态细胞用空载体(作为对照)(pSL0008，SEQ ID NO：3)、原始pTnsABC载体(编码TnsA、TnsB和TnsC)或包含TnsA-TnsB融合蛋白以及TnsC的新的工程化的载体(pSL1738)进行转化。通过qPCR定量靶标-4下游的两种可能的整合取向(tRL和tLR)的整合效率(图67B)。工程化的融合蛋白表现出与pSL0283/pTnsABC(SEQ ID NO：13)构建体接近的野生型活性，证明工程化的TnsA-TnsB融合蛋白在体内对于RNA引导的DNA整合是有功能的。

图68是显示右转座子末端序列截短对RNA引导的DNA整合的优选取向的影响的图，在4个另外的靶位点上验证了来自图11C的结果。x轴显示右侧转座子末端序列的长度。蓝色调表示T-LR(转座子的R端靠近靶位点)整合事件，而橙色调表示T-RL整合事件(转座子的R端靠近靶位点)。将右转座子末端截短至97bp或更短，导致在TRL取向上向优选整合的转变(约95％的整合事件)，并且对所有测试的靶位点都是一致的。

图69是在混合文库实验中产生和测试工程化的转座子末端序列的示例性方法的示意图。

图70是用于从寡核苷酸文库中产生单独转座子末端文库的示例性克隆方法的示意图。右转座子末端文库是通过用HindIII和BamHI消化插入物和载体而产生的。左转座子末端文库是通过用KpnI和XbaI消化产生的。对于文库a)，产生了三个不同位置的TnsB结合位点的所有可能组合。对于文库b)，产生了两个不同位置的TnsB结合位点的所有可能组合。文库c)在整个右侧包含2bp突变。文库d)构成了8bp右端的所有可能的ibp突变。文库e)包括影响右转座子末端的三个不同可能的开放阅读框的错义突变。文库f)改变了位置1与位置2中TnsB结合位点之间的距离。左转座子末端文库g)改变了位置1和2或位置2和3中TnsB结合位点之间的距离。同样的间隔序列也被分别突变，以比较距离和序列同一性的影响。

图71A至图71G是“右侧三结合位点”文库(文库a)的成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL(tRL))和红色(T-LR(tLR))。相对整合效率是根据变体END.1.2.3计算的，所述变体最类似于天然转座子末端(END.1.2.3是其取向偏差预计会严重偏向tRL的标准pDonor的90bp截短形式)。在该文库中，右端中的三个TnsB结合位点的位置得到保持，但改变了它们的身份，以产生所有可能的结合位点组合。除了六种不同的TnsB结合位点身份外，还测试了转座子右端内天然存在的回文序列的位置。这七个不同的序列编号为1-7(分别为SEQ ID NO：936-942)。x轴显示从未端转座子右端开始计数，在位置1和2中存在的TnsB结合位点身份(1-7)(参见图68)。

图72是“右侧两结合位点”文库(文库b)成员的相对整合效率的图。转座子可以整合的两个不同取向显示为蓝色(顶部的T-RL(tRL)和红色(底部的T-LR(tLR))。相对整合效率是根据变体END.1.2.3计算的。在该文库中，右端两个TnsB结合位点的位置得到保持，但改变了它们的身份，以产生所有可能的结合位点组合。除了六种不同的TnsB结合位点身份外，还测试了转座子右端内天然存在的回文序列的位置。这七个不同的序列编号为1-7，如图71中所示。x轴显示从未端转座子右端开始计数，在位置1和2中存在的TnsB结合位点身份(1-7)(参见图68)。

图73是“右侧2bp突变体”文库(文库c)成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL)和红色(T-LR)。相对整合效率是根据变体END.1.2.3计算的。x轴表示从最末端的右转座子末端碱基开始计数的受影响碱基的位置。

图74是“右侧末端突变体”文库(文库d)成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL)和红色(T-LR)。相对整合效率是根据变体END.1.2.3计算的。x轴表示从最末端碱基对开始计数的被改变的碱基位置和新的核苷酸身份。

图75A至图75C是“右侧接头序列”文库(文库e)成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL)和红色(T-LR)。相对整合效率是根据变量END.1.2计算的。x轴表示由突变引起的氨基酸变化。

图76是“右侧间距”文库(文库f)成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL)和红色(T-LR)。相对整合效率是根据变体END.1.2.3计算的。文库f)在第一TnsB结合位点与第二TnsB结合位点之间，从末端转座子右端开始，具有可变的间距。x轴表示结合位点之间的距离。

图77A至图77E是“左侧间距”文库(文库g)成员的相对整合效率的图。转座子可以整合的两种不同取向显示为蓝色(T-RL)和红色(T-LR)。相对整合效率是根据标准pDonor的未突变截短(122bp)形式计算的(基于发表在Klompe等人，Nature 571，219-225(2019)(通过引用并入本文)中的截短数据，预计具有0.60(T-RL)：0.40(T-LR)的取向偏差)。另外，所有这些克隆的右侧包含与WT相比整合效率降低约40％的MmeI识别位点。每个图的x轴表示在该特定变体中存在哪种突变。如果所述变化影响了结合位点之间的距离，这被表示为现在构成间距的碱基对的数量。如果变化是序列身份，则指示受影响碱基的位置(从间距内最末端碱基开始计数)。

图78是用于候选CRISPR_转座子系统的生物信息学鉴定和选择的示例性流程图。每个方框按照箭头确定的顺序突出显示了用于收集大量候选CRISPR-转座子系统进行实验研究的步骤。某些步骤被指出为任选的，并且可基于各种种子策略选通整个管线。例如，在所示的示例性流程图中，整个搜索算法是基于tnsB基因播种的。在其它实施方案中，搜索是基于其它转座子相关基因、基于CRISPR相关基因、基于CRISPR阵列本身或基于转座子末端序列播种的。

图79显示了具有I-F型变体CRISPR-Cas系统的CRISPR转座子系统的生物信息学鉴定，其中tnsA与tnsB融合。两个所示的种类包含CRISPR-转座子系统，其中tnsA和tnsB基因存在于天然融合基因中。显示了RNA引导的DNA整合所需的其余组分的排列，以及NCBI蛋白登录ID。对于来自海绵副希瓦氏菌HJ039株的tnsA-tnsB基因，HHpred分析证实对于TnsA(PF05367.11)和TnsB(PF09039.11和PF02914.15)均存在标志物Pfams。

图80A和图80B显示了用于牵涉CRISPR-转座子同源物的RNA引导的DNA整合实验的载体方法。gRNA和所有蛋白质组分均由pCQT表达(表示存在三个模块：CRISPR阵列、tniQ-cas8-cas7-cas6基因和tnsA-tnsB-tnsB基因)，其中单个T7启动子驱动编码前体引导RNA和所有七种蛋白质组分的较长mRNA的表达(图80A)。pCQT(单表达效应质粒)与pDonor组合(图80A)，所述pDonor包含两侧为转座子末端序列(左(L)和右(R))的DNA运载物。所述两种载体编码壮观霉素和羧苄西林抗性。图80B是工程化的CRISPR转座子系统所源自的生物体列表。左边一列表示生物体信息；第二列包含每个系统用于pCQT的质粒的标识符信息(分别为SEQID NO：855、1623、1624、1625、1626、1627、1628、1903、1629、1904、1905、1630、1906、1907、1908)；第三列包含每个系统用于pDonor的质粒的标识符信息(分别为SEQ ID NO：1614、1615、1616、1617、1618、1619、1620、1897、1621、1898、1899、1622、1900、1901、1902)。每对pCQT和pDonor质粒可以配对，因为pDonor上的转座子末端序列被同源pCQT载体上的蛋白质组分特异性识别。来自沃丹弧菌和海绵副希瓦氏菌的CRISPR转座子系统编码tnsA-tnsB融合蛋白。

图81是修饰的pDonor载体主链的RNA引导的DNA整合数据的图表。使用霍乱弧菌HE-45株的CRISPR-转座子系统，通过qPCR测定pDonor衍生物的整合效率。相对于pSL0527(SEQ ID NO：7)，pSL0921(SEQ ID NO：1613)在外来lac启动子中具有缺失，pSL1235(SEQ IDNO：1614)去除了额外的外来序列。pSL0001(SEQ ID NO：5)是等同于pUC19的空载体对照，pSL1209(SEQ ID NO：1612)是一个空载体对照，但去除了与pSL1235中也不存在的相似的外来序列。绘制tRL和tLR取向的整合效率(分别以红色和蓝色显示)。pSL0921和pSL1235供体质粒显示出比pSL0527稍高的整合效率，因此，pSL1235是用作其它同源CRISPR-转座子系统的pDonor载体的基准的设计。

图82A至图82C显示了来自使用同源CRISPR-转座子系统的转座测定的RNA引导的DNA整合产物的PCR检测。图82A是实验的示意图，在所述实验中大肠杆菌lacZ基因内的靶-4被靶向用于近端DNA整合。微型转座子供体DNA可以以两个取向(tRL(顶部，底部)和tLR(底部，底部))之一插入，并将不同的引物对用于通过PCR检测每个取向。图82B是用图例所示的质粒转化的大肠杆菌BL21(DE3)细胞的PCR分析。对于每个实验，将细胞用两种质粒转化，在含有诱导剂的LB琼脂平板上生长，然后刮取细胞，制备裂解物，并进行PCR分析以检测整合产物。将PCR反应物通过1％琼脂糖凝胶电泳进行解析。左上图显示了被设计用于扩增tRL产物的引物对的结果；左下图显示了完全相同的裂解物组(但引物对被设计用于扩增tLR产物)的结果。这些反应测试了来自以下生物体的CRISPR-转座子同系物：1)来自霍乱弧菌HE-45株但缺乏pDonor的系统的阴性对照；2)霍乱弧菌HE-45株；3)霍乱弧菌4874株；4)伊氏发光杆菌NCIMB株；5)假交替单胞菌属某种P1-25；6)鲁塞尼亚假交替单胞菌S3245株；7)甘瓜发光杆菌JCM株；8)希瓦氏菌属某种UCD-KL21；9)霍乱弧菌OYP7G04株；10)霍乱弧菌M1517株。图82C是用图例中所示的质粒转化的大肠杆菌BL21(DE3)细胞的PCR分析。对于每个实验，将细胞用两种质粒转化，在含有诱导剂的LB琼脂平板上生长，然后刮取细胞，制备裂解物，并进行PCR分析以检测整合产物。将PCR反应物通过1％琼脂糖凝胶电泳进行解析。左上图显示了被设计用于扩增tRL产物的引物对的结果；左下图显示了完全相同的裂解物组(但引物对被设计用于扩增tLR产物)的结果。这些反应测试了来自以下生物体的CRISPR-转座子同系物：1)重氮营养弧菌60.6F株；2)弧菌属某种16；3)弧菌属某种F12；4)灿烂弧菌UCD-SED10株；5)沃丹弧菌06/09/160；6)海绵副希瓦氏菌HJ039株。注意，反应号/泳道5和6中的CRISPR-转座子系统编码TnsA-TnsB融合蛋白。*表示非特异性PCR扩增子。

图83A和83B显示了用于测试利用V型CRISPR-Cas系统相关转座子进行的RNA引导的DNA整合的载体布局。图83A是不同示例性载体布局的示意图。实验或者使用一体化载体(pAIO，上图)，或者使用表达该机器的载体(pCCT，中图)组合单独的供体载体(pDonor，下图)来完成。左转座子末端序列和右转座子末端序列分别用“L”和“R”表示。图83B是用于测试来自贺氏伪枝藻PCC 7110株的V型CRISPR-Cas相关转座子的示例性载体：pSL1117(SEQID NO：1767)、pSL1114(SEQ ID NO：1632)和pSL0948(SEQ ID NO：1631)的质粒ID。“NT/克隆”表明这些质粒编码全长sgRNA，但引导序列在大肠杆菌中没有靶标，因此是非靶向的(NT)。此外，这些载体使得能够方便地克隆新的引导序列。

图84A至图84D显示了使用V型系统进行的RNA引导的DNA整合。图84A是分别靶向lacZ上四个不同位点和cynX基因上游一个位点的示例性方法的示意图。使用基因组特异性引物与两个转座子特异性引物之一的组合来分析整合事件，以拉出微型转座子可以整合的不同取向。图84B显示了通过PCR和随后的琼脂糖凝胶电泳进行的分析，所述分析揭示了所有四种引导序列的成功的位点特异性整合，所述引导序列经测试具有偏向于在tLR取向上而不是在tRL取向上的整合。图84C是在不同靶位点使用qPCR完成的定量分析的图。这些数据证实了取向偏差揭示了图84B，并对于所有测试的靶向引导序列显示出高效整合。图84D是原理验证实验的示意图和来自所述原理验证实验的结果，所述实验证明该系统的一体化形式也有助于RNA引导的DNA整合。

图85A至图85C是三种不同CRISPR-转座子系统(两种V型(图85A和85B)和一种I型(图85C)相关系统)的全基因组特异性。针对每个系统(顶行和中间行)测试了两个不同的引导序列(由每个图顶部的tSL#表示)。相应的靶位点在x轴上显示为褐红色三角形。映射到中靶位点的读数百分比在可能的情况下以红色显示在峰旁边。对于每个系统，我们在y轴上放大到读数的0.5％(底部一行)。中靶特异性以红色粗体文本给出。

图86A至图86G显示了简化RNA引导的DNA整合的表达和重构的工程化的载体设计的概述。图86A是RNA引导的DNA整合过程的示意性概图，所述DNA整合过程涉及通过CRISPR-Cas系统进行DNA靶向，以及通过转座子系统将供体DNA整合到靶位点附近。图86B是I-F型变体CRISPR-Cas系统对两侧是前间区序列邻近基序(PAM)的32-bp基因组靶位点的靶向导致供体DNA在下游约47-51bp处的整合的示意图。供体DNA可以以两个潜在取向(由离靶位点最近的转座子末端的顺序表示)之一插入；因此，tRL是由转座子的右端插入到靶位点附近引起的，而tLR是由转座子的左端插入到靶位点附近引起的。图86C是用于重建RNA引导的DNA整合的三质粒系统的示意图。pQCascade编码由T7启动子驱动的gRNA，以及同样由T7启动子驱动的来自单个操纵子的TniQ、Cas8、Cas7和Cas6。pTnsABC在单个操纵子内编码由T7启动子驱动的TnsA、TnsB和TnsC。pDonor含有两侧是转座子末端序列r供体DNA。图86D是用于重建RNA引导的DNA整合的双质粒系统的示意图。pCQT编码在单个T7启动子的控制下的gRNA和所有7种蛋白质组分。操纵子的3’端有一个转录终止子。供体DNA仍然编码在pDonor(pSL1119)上。图86E是用于重建RNA引导的DNA整合的单个工程化的一体化(AIO)质粒系统的示意图。pAIO编码gRNA和所有7种蛋白质组分，也含有供体DNA。图86F是一个示意图，其展示了来自pCQT/pAIO的单个长转录物(其包含单操纵子mRNA的前体CRISPR RNA 5’)可如何容易地被I型CRISPR-Cas系统中的Cas6加工成成熟的gRNA(也称为CRISPR RNA，或crRNA)，保留完整的下游mRNA供核糖体翻译。图86G是一个示意图，其展示了来自pCQT/pAIO的单个长转录物(其包含单操纵子mRNA的前体CRISPR RNA 3’)可如何容易地被I型CRISPR-Cas系统中的Cas6加工成成熟的gRNA(也称为CRISPR RNA，或crRNA)，保留完整的上游mRNA供核糖体翻译。用pSL1022(SEQ ID NO：855)(所有质粒序列均可在SEQ ID NO：9、848-861和1746-1764中找到)举例说明图D中的pCQT；用pSL1119(SEQ ID NO：1755)举例说明图C和图D中的pDonor。

图87A和图87B显示了含有较少载体和启动子元件的工程化的载体的优化。图87A(左图)是工程化的载体的迭代筛选的示意图，在所述载体中gRNA和TniQ-Cas8-Cas7-Cas6操纵子的表达由一个单个T7启动子驱动，而不是由两个独立的T7启动子驱动。克隆三种衍生质粒(pQCascade、pQCascade-B和pQCascade-C)，并在大肠杆菌BL21(DE3)细胞中测试了所述衍生质粒的与pTnsBC和pDonor结合的RNA引导的DNA整合。所有三种质粒都表现出相似活性(图87A，右图)，表明单个T7启动子可以驱动所有必需分子组分的高效产生。图87B(左图)是工程化的载体的迭代筛选的示意性概图，在所述载体中gRNA和TniQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC操纵子的表达由单个T7启动子驱动，而不是由两个或三个T7启动子驱动。克隆载体pC7QT、pCQT、pT7QC和pTQC，它们具有可变顺序的组分和数量的T7启动子，然后在大肠杆菌BL21(DE3)细胞中测试了它们的RNA引导的DNA整合。图87B，右图是定量的整合效率(通过qPCR测量的)的图表。与另外的载体相比，pCQT的效率有所提高。在图87A中：pQCascade＝pSL0828(SEQ ID NO：14)，pQCascade-B＝pSL1016(SEQ ID NO：849)，pQCascade-C＝pSL1018(SEQ ID NO：851)，pTnsABC＝pSL0283(SEQ ID NO：6)，pDonor＝pSL1119(SEQ ID NO：1755)。在图87B中：pC7QT＝pSL1020(SEQ ID NO：853)，pCQT＝pSL1022(SEQ ID NO：855)，pT7QC＝pSL1024(SEQ ID NO：857)，pTQC＝pSL1026(SEQ ID NO：859)

图88A至图88C是可变载体主链和特定gRNA的整合效率分析图。克隆了一体式pAIO载体的衍生物，其中完全相同的构建体被交换到多个不同的载体主链中，包括pCDF、pUC19、pSC101和pBBR1。所述载体具有不同的抗生素抗性，重要的是，具有不同的稳态拷贝数。用每种载体转化BL21(DE3)细胞，并通过qPCR定量RNA引导的DNA整合效率(图88A)。数据显示，在这项比较研究中，pBBR1和pSC101载体主链对于RNA引导的DNA整合是最高效的。系统地比较了包括多个T7启动子和驱动gRNA的载体、TniQ-Cas8-Cas7-Cas6操纵子和TnsA-TnsB-TnsC操纵子的一体化质粒设计(pAIO)和3-质粒设计在5个不同靶位点的RNA引导的DNA整合的效率。将3-质粒系统的效率以1作归一化，并绘制了pAIO质粒的相对效率(图88B)。结果表明，在所有情况下，单个一体化质粒系统的总效率为3-质粒系统的2-5倍。图88C显示了Tn-seq对工程化的一体化(pAIO)载体的全基因组RNA引导的DNA插入特异性的评估。在进行基于Tn-seq的实验以评估全基因组特异性后，通过考虑映射到中靶整合位点的读取数与基因组映射读取总数的对比来计算中靶整合百分比。pAIO载体主链中的所有五种gRNA都以约100％的中靶特异性指导整合。在图A中：用pSL1213(SEQ ID NO：1751)举例说明“pCDF”，用pSL1121(SEQ ID NO：861)举例说明“pUC19”，用pSL1220(SEQ ID NO：1752)举例说明“pSC101”，用pSL1222(SEQ ID NO：1753)举例说明“pBBR1”。

图89是工程化的一体化pAIO载体的Tn-seq数据。通过绘制跨越5.6-Mbp的大肠杆菌基因组的所有Tn-seq读数来显示pAIO载体中的gRNA-1、gRNA-4、gRNA-12、gRNA-13、gRNA-17的全基因组特异性。右边的插图显示了中靶峰的放大图，并列出同一gRNA-1的中靶特异性(文本的第2行)和tRL：tLR取向的比率(文本的第3行)。

图90A至图90C显示了用于RNA引导的DNA整合的具有不同启动子的工程化的载体。图90A显示，从包含诱导型T7启动子的一体化pAIO质粒开始，启动子被各种不同表达强度的合成生物学启动子(J系列)以及lac启动子或宽宿主范围启动子(所述启动子来源于先前的研究，该研究开发使用接合质粒进行原位细菌工程的方法)所取代(Ronda，C.，Chen，S.P.，Cabral，V.，Yaung，S.J.&Wang，H.H.Nat Meth 16，167-170(2019)，其通过引用并入本文)。克隆所需质粒后，用含有所述启动子的pAIO转化大肠杆菌BL21(DE3)细胞，并通过qPCR定量RNA引导的DNA整合的效率。最强的J23119启动子表现出最佳活性，整合效率随着启动子强度的降低而降低。使用Tn-seq进行的全基因组特异性测量表明，随着机器表达水平的变化或绝对整合效率的变化，全基因组特异性没有变化(图90B)。使用包含可变启动子强度的一体化pAIO载体，进行了RNA指导的DNA整合测定，其中转化的大肠杆菌细胞在37℃(红色)、30℃(黄色)或25℃(蓝色)下培养。然后在24小时的固体培养基培养后，通过qPCR定量b整合效率(图90B)。结果表明，当细胞在较低温度下培养时，低效率的构建体，诸如在37℃下活性低的弱J23114启动子，实现了约100％的整合效率。这些实验为在载体或启动子条件下提高整合效率提供了简易的实验策略，否则在升高的温度下整合效率是不理想的。在图A中：用pSL1130(SEQ ID NO：864)举例说明“J23119”，用pSL1133(SEQ ID NO：867)举例说明“J23114”，用pSL1279(SEQ ID NO：1750)举例说明“MAGIC-1”。在图C中：用pSL1213(SEQ IDNO：1751)举例说明T7-lacO，用pSL1130(SEQ ID NO：864)举例说明“J23119”，用pSL1133(SEQ ID NO：867)举例说明“J23114”。

图91A至91B表明，RNA引导的DNA整合独立于特定的宿主因子和重组因子进行。使用包含强组成型启动子J23119的一体化pAIO载体，转化了多个不同的大肠杆菌株，包括MG1655、BW25113和BL21(DE3)。在每个遗传背景下分析RNA引导的DNA整合的全基因组特异性，绘制的数据代表在中靶位点处的整合事件(图91A)。另外，每个图中右上方的文本报告了中靶特异性(第2行)(通过比较中靶位点处的读数除以所有基因组映射读数测量的)以及tRL：tLR的取向偏差。这些实验表明，在多个不同的大肠杆菌株中，针对tRL的有利特异性分布和近乎排他的取向偏好被极好地复制。通过使用包含强组成型启动子J23119(以pSL1130，SEQ ID NO：864为例)的一体化pAIO载体，多个Keio敲除菌株被转化，其中基因敲除沿着x轴显示。对于每种菌株，将整合效率相对于WT BW25113菌株作图(图91B)。这些结果表明，recA重组酶对于RNA引导的DNA整合来说是完全不可或缺的，因子recD、recF和mutS也是如此。

图92A至图92C表明，RNA引导的DNA整合可通过在较低的温度下培养进行刺激，从而允许高效地插入超过10-kb的大的遗传有效载荷。双质粒系统用于RNA引导的DNA整合实验，包括通过T7启动子驱动的pDonor和pCQT，并用crRNA-4靶向大肠杆菌基因组。如通过qPCR测量的，阴性对照实验(非靶crRNA，“nt”；无供体DNA)显示不存在任何整合。当转化的大肠杆菌细胞在37℃的固体培养基上培养时，随着遗传有效载荷的大小从0.98kb增加到10kb，整合效率严重下降(图92A)。然而，当完全相同的转化细胞相反地在30℃下于固体培养基上培养时，无论在转座子末端之间插入pDonor的遗传有效载荷的大小如何，整合效率保持在约100％。在图92B中进行了类似的实验，不同之处在于表达载体采用J23119启动子而不是T7启动子。与在37℃下培养相比，较低温度培养再次显示出总整合效率的一致且统计学上显著的增加，而无论有效载荷大小如何。在图92C中进行类似实验，不同之处在于表达载体采用J23119启动子而不是T7启动子，并且使用crRNA-13代替crRNA-4。与在37℃下培养相比，较低温度培养再次显示出总整合效率的一致且统计学上显著的增加，而无论有效载荷大小如何。用pSL1022(SEQ ID NO：855)举例说明pCQT。用pSL1119(SEQ ID NO：1755)(针对0.98kb形式)举例说明pDonor，以及用pSL1619(SEQ ID NO：1756)(针对10kb形式)举例说明pDonor。

图93A至93B表明，完全自主的、可自我移动的可移动遗传元件经历了高效的RNA引导的DNA整合。构建了自主的一体化质粒(pAAIO)(图93A)，其中编码gRNA和所有7种蛋白质组分(TniQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC)的启动子驱动的操纵子直接插入在转座子的左端与右端之间。这将微型转座子转化为可自我移动的元件，其中指导RNA引导的DNA整合的机器将供体DNA插入靶位点，然后所述靶位点编码机器以继续将相同的供体DNA动员到CRISPR阵列中编程的任何靶位。尽管遗传有效载荷的大小很大(＞10kb)，但当转化的大肠杆菌细胞在30℃而不是37℃下培养时，pAAIO中的供体DNA的RNA引导的DNA整合(图93B)以约100％的效率进行而无需任何药物选择。用pSL1184(SEQ ID NO：1747)举例说明pAAIO。

图94A至图94C演示了使用多间隔区CRISPR阵列进行的多重RNA引导的DNA整合。通过在扩展的CRISPR阵列中编码多个不同的间隔区，工程化的CRISPR转座子系统可被容易地转变成多重平台，用于将DNA插入到同一基因组DNA内的多个靶位点附近(图94A)。在I型CRISPR-Cas系统中简化长前体CRISPR RNA的加工，所述I型CRISPR-Cas系统采用Cas6进行核糖核溶解(ribonucleolytic)加工。构建了CRISPR阵列(图94B，左)，其中褐红色间隔区序列是不存在(最上方)、唯一存在的间隔区存在(从上下数第二个)、或多个不同间隔区中的一个并且相对于CRISPR阵列5’的转录起始位点位于CRISPR阵列的不同位置内。对于每个不同的构建体，在大肠杆菌BL21(DE3)细胞中进行RNA引导的DNA整合实验，并通过qPCR测量接近由褐红色间隔区编程的基因组靶位点的RNA引导的DNA整合的效率。当褐红色间隔区是阵列中唯一的间隔区时，相对于该间隔区的效率绘制总效率(图94B，右)。结果表明，即使作为三个不同间隔区之一存在，褐红色间隔区仍能以＞50％的野生型效率指导RNA引导的DNA整合，并且当其最接近5’转录起始位点时具有最高的活性。使用编码三个不同间隔区序列的CRISPR阵列，由经历多重供体DNA整合的细胞产生Tn-seq文库的全基因组特异性分析(图94C)。Tn-seq分析显示，99.6％的读数仅存在于三个靶位点之一，这表明多重整合具有非常高的效率和中靶准确性。因为已知连接效率是序列依赖性的，并且其它混杂因素对下一代测序峰的总高度有影响，所以无法从Tn-seq谱中得出关于这三个位点处的DNA整合的相对效率的结论。用pSL1202(SEQ ID NO：1757)举例说明2-间隔区-阵列构建体，用pSL1341(SEQIOD NO：1758)举例说明3-间隔区-阵列构建体。

图95A至图95B显示多重RNA引导的DNA整合导致可预测的表型结果。构建了多间隔区CRISPR阵列，其中一个间隔区靶向thrC以进行插入失活，第二间隔区靶向lysA以进行插入失活(图95A，顶部)。经历多重RNA引导的DNA整合的细胞应该会成为苏氨酸和赖氨酸的营养缺陷型，因为它们由于这两个基因内的敲除插入而不再能从碳源合成这些氨基酸。为了检验这一假设，转化大肠杆菌细胞，然后将所得转化体铺在M9基本培养基、M9基本培养基加赖氨酸、M9基本培养基加苏氨酸或M9基本培养基加苏氨酸和赖氨酸上。成为营养缺陷型的细胞只能在含有相应氨基酸的平板上生长，因此，在各种LB琼脂平板上的相对菌落计数直接揭示了多重RNA引导的DNA整合的效率。这些实验表明，约20％的细胞在这种一步多重RNA引导的DNA整合活性后立即成为双营养缺陷型(图95A，底部)。为了进一步证实这些结果，将从各种平板分离的克隆在各种培养基来源存在的情况下在液体培养物中生长，然后在摇动的微孔板培养箱和读取器中随时间推移测量它们的生长。结果(图95B)证明了预期为双营养缺陷型的菌株确实完全不能单独在基本培养基中生长，而是需要在M9基本培养基中同时含有苏氨酸和赖氨酸(“TL”)才能存活。用pSL1642(SEQ ID NO：1759)举例说明图A中的构建体。

图96A至图96C显示了用于动员细胞内供体DNA的工程化的CRISPR-转座子系统。Tn7样转座子表现出靶标免疫，其中一个基因组整合的转座子的存在抑制同一靶位点进行另一轮整合。图96A概述了研究免疫的示例性工作流程。在左边，使用温度敏感型一体化质粒(pAIO-ts)对基因组进行RNA引导的DNA整合，使得在成功的整合事件后，可从细胞中去除质粒。然后，使这些细胞成为学感受态，并经历另一轮转化，在所述转化中，蛋白质-RNA机器与独特的可追踪的pDonor分子一起被递送(pCQT)。如果系统表现出靶标免疫，则同一个靶位点应该不能作为另一个供体DNA分子的高效接受者。图96B示出了测试靶标免疫的距离范围的示例性实验。从含有基因整合的供体DNA(一种“免疫”状态)的细胞株开始，用gRNA转化pCQT，所述gRNA靶向预先存在的供体DNA上游的可变靶位点，范围为0至5003bp，一直到距离第一供体DNA位点＞1Mb的靶位点。然后，通过qPCR测量原初WT株的局部整合效率，以及通过qPCR测量免疫株的整合效率，来计算整合的相对效率。绘制了比值图，结果表明相对于靶DNA结合与供体DNA整合之间的距离，靶标免疫可在长距离尺度上运行。在另一个实施方案(图96C)中，由pCQT编码的机器被递送至免疫株，但没有pDonor的另一个拷贝。在这个实施方案中，机器可以将供体DNA从其在基因组中预先存在的位点处切下，并基于pCQT内的间隔区内容将其动员到新的靶位点。该实施方案提供了用于在细胞内进行程序性易位的方法，前提是它们具有预先存在的供体DNA，所述供体DNA具有由CRISPR-转座子系统识别的转座子末端。用pSL1223(SEQ ID NO：1754)举例说明图A中的pAIO-ts。用pSL1022(SEQ ID NO：855)举例说明图中的pCQT。

图97A至97B表明，两个工程化的CRISPR-转座子系统不会交叉反应，因此可以用作正交的RNA引导的DNA整合系统。图97A是正交RNA引导整合酶的示意图。来源于霍乱弧菌HE-45株(左)的I-F型变体CRISPR-转座子系统，用于在大肠杆菌中用pDonor质粒和pCQT表达质粒重建RNA引导的DNA整合。利用pDonor质粒(Sho-pDonor)以及编码在T7启动子控制下的sgRNA和在第二T7启动子控制下的Cas 12k-TnsB-TnsC-TniQ操纵子的质粒(Sho-PCCT)，使用来源于贺氏伪枝藻PCC 7110株的V型CRISPR-转座子系统(右)在大肠杆菌中重建RNA引导的DNA整合。进行实验以研究Vch-pCQT是否能够动员Sho-pDonor供体DNA，以及Sho-pCCT是否能够动员Vch-pDonor供体DNA。凝胶上显示的质粒以各种组合用于转化大肠杆菌BL21(DE3)细胞，并将引物对用于检测RNA引导的DNA整合产物；选择不同的引物对来选择性扩增tRL产物或tLR产物。结果(图97B)清楚地表明，虽然Vch-pCQT使用其自身的Vch-供体供体DNA催化RNA导向的DNA整合，但它不能使用Sho-Donor供体DNA指导RNA导向的DNA整合；反之亦然。然而，当表达质粒与同源供体DNA质粒配对时，这两种系统都能够催化高效且稳健的RNA引导的DNA整合。在图A中：用pSL1022(SEQ ID NO：855)举例说明Vch-pCQT，用pSL1119(SEQ ID NO：1755)举例说明Vch-pDonor，用pSL1115举例说明Sho-pCCT，用pSL0948(SEQ IDNO：1631)举例说明Sho-pDonor。

图98A至图98D表明，工程化的CRISPR-转座子系统在多种其它细菌物种中具有强大的功能。产生了经修饰的、工程化的一体化质粒，其具有来源于霍乱弧菌HE-45株的CRISPR-转座子系统，其中机器和供体DNA被克隆到广泛的宿主范围pBBR1主链(pAIO-BBR1)中。在该载体中，我们使用了强组成型J23119启动子，已知该启动子可被多种革兰阴性菌识别。利用该工程化的质粒，克隆了不同的间隔区序列，以指导产酸克雷伯氏菌和恶臭假单胞菌中的RNA引导的DNA整合。恶臭假单胞菌和产酸克雷伯氏菌用含有靶向多个不同基因的间隔区的pAIO-BBR1进行电穿孔，并使用四个不同引物对a-d之一来探测成功的整合，以寻找tRL或tLR取向(图98B)，并观察上游和下游基因组-转座子连接。图98C显示了通过琼脂糖凝胶电泳分析的指示细菌物种中的RNA引导的DNA整合的PCR分析(顶部)。凝胶中显示了靶向两个靶基因之一的gRNA的数据(参见图顶部中的基因标签)，并用四个引物对a、b、c和d之一对细胞裂解物进行了探测。凝胶顶部的条带表明了强健的RNA引导的DNA整合，这得到了后续桑格测序分析的证实。在凝胶上方进行的PCR扩增了参考持家基因，并呈现为用于裂解物制备的上样对照。从转化的细胞中纯化基因组DNA，并对其进行RNA引导的DNA整合的全基因组特异性的Tn-seq分析。对于产酸克雷伯氏菌和恶臭假单胞菌，Tn-seq分析均表明约95-100％的整合事件发生在预期的靶位点，与之前在大肠杆菌中观察到的距离规则相同(图98D)。对于显示低得多的特异性的两个恶臭假单胞菌引导序列，这些可归因于基因组中其它地方高度相似的脱靶序列。用于产酸克雷伯氏菌的pAIO-BBR1构建体用pSL1813(SEQ IDNO：1761)举例说明。用于恶臭假单胞菌的pAIO-BBR1构建体用pSL1802(SEQ ID NO：1760)举例说明。

图99A至图99E显示了避免CRISPR-转座子系统的自我失活的方法。因为来源于霍乱弧菌HE-45株的CRISPR-转座子系统可以靶向CRISPR阵列重复序列(5’-AC-3)的3’端内的自身-PAM序列，尽管效率较低，但该系统容易自我失活。也就是说，如果所述机器杂乱地靶向CRISPR阵列本身中存在的自身靶标(其编码gRNA)，则供体DNA在下游的整合可能会使该机器失活(在图99A中用红色的X表示))并且/或者导致质粒不稳定。在维持质粒会导致细胞适应成本的条件下，或者在期望的RNA引导的DNA整合事件会导致细胞适应成本的情况下，这种影响会减轻。通过RNA引导的DNA整合，使用工程化的CRISPR转座子系统靶向bdhA和nirC两者以进行插入失活的实验，显示了通过自我靶向导致的系统自我失活的明确证据(图。99B)。通过分析Tn-seq数据(所述数据提供了全基因组所有整合位点的无偏评估)，发现了相对于映射到基因组的极少量读数的大量过量的读数，这是由CRISPR编码的间隔区的自靶向性导致的。为了解决这个问题，在pBBR1主链上克隆了一个反向一体化质粒(表示为pRAIO-BBR1)，其中CRISPR阵列现在位于多顺反子构建体的3’端，跟随编码TnsA-TnsB-TnsC-TniQ-Cas8-Cas7-Cas6的mRNA蛋白(图。99C)。这种替代取向将自身靶标紧邻供体DNA放置在pRAIO-BBR1载体上，因此，由于靶标免疫机器，可能会抑制任何逃逸的自身靶向。当重复来自图99B的实验(但使用新的pRAIO-BBR1载体)时，自失活问题被完全消除；所有读数都映射到基因组中的靶位点，CRISPR阵列下游的自我失活和RNA引导的DNA整合没有产生任何读数。因此，这种工程化的系统被期望用于细胞在灭活CRISPR-转座子系统方面具有适应性益处的实验中。为了进一步证实工程化的pRAIO-BBR1载体的效用，绘制了所有映射到靶位点的Tn-seq读数的百分比(图99E)，并且发现对于这两个难以敲除的基因，新工程化的pRAIO-BBR1载体表现出优异的中靶特异性。用pSL1802(SEQ ID NO：1760)举例说明pAIO-BBR1，用pSL1780(SEQ ID NO：1763)举例说明pRAIO-BBR1。

图100A至图100J是引导RNA和基因组靶位点的表格。*坐标用于大肠杆菌BL21(DE3)基因组(GenBank登录CP001509)。

PAM序列表示非靶链上紧邻靶标(霍乱弧菌和铜绿假单胞菌Cascade)5’的2个核苷酸或紧邻靶标(化脓性链球菌Cas9)3’的3个核苷酸。

图101A至图101C是用于PCR(图101A)、qPCR(图101B)和NGS(图101C)的寡核苷酸的表。

图102A至图102C是预期的CRISPR转座子系统的表。

图103A至图103C显示了用于跨细胞群的RNA引导的DNA整合事件文库的合并gRNA文库的生成。图103A显示，通过设计并合成含有目标间隔区或引导序列的寡核苷酸阵列文库，克隆了gRNA文库。使用标准分子生物学和分子克隆方法，将这些寡核苷酸转化为双链DNA，并克隆到CRISPR阵列内的表达质粒中，使得CRISPR阵列的转录产生gRNA或被Cas6加工成成熟的gRNA的gRNA前体。表达质粒可以仅包含CRISPR阵列，或者包含CRISPR阵列和一种或多种蛋白质编码基因，诸如参与RNA引导的DNA整合的基因。CRISPR阵列还可包含在供体DNA本身中。然后将合并gRNA文库质粒用于转化目标靶细胞，从而在细胞群中产生不同的RNA引导的DNA插入事件的相应文库。在任选的下一步骤中，细胞群体可经历选择步骤，从而富集由插入文库产生的目标表型。最后，测序或下一代测序(NGS)用于从合并文库中鉴定引起目标表型的gRNA。在该方法的一个实施方案中，最初在质粒DNA中产生合并gRNA文库，然后将其转化为慢病毒gRNA文库，用于真核细胞实验。来自合并文库实验的细胞(图103B)将包含具有gRNA文库成员之一的CRISPR阵列，以及邻近与gRNA互补的靶位点的供体DNA的插入。可对gRNA基因座或插入位点或两者进行测序。图103C是一个实施方案的示意图，其中编码gRNA的CRISPR阵列直接插入供体DNA运载物中。在另一个实施方案中，在供体DNA运载物中克隆合并的gRNA文库。在这个实施方案中，RNA引导的DNA整合导致了gRNA在供体DNA中的保存，使得关于驱动DNA插入该特定基因组区域的gRNA的信息保存在供体元件本身中。然后将插入位点的NGS分析(例如通过转座子插入测序)用于提取整合位点和gRNA信息。

图104A至图104D显示供体DNA编码的gRNA指导高效的RNA引导的DNA整合。图104A是用于RNA引导的DNA整合的工程化的双质粒系统的示意图。效应质粒(pCQT；例如pSL1022，SEQ ID NO：855)编码gRNA(通过CRISPR阵列)以及所有蛋白质组分，在该实施方案中包含TniQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC。供体质粒(pDonor；例如pSL0527，SEQ ID NO：7)含有两侧为转座子左右端的供体DNA。图104B是用于RNA引导的DNA整合的改良的工程化的双质粒系统的示意图。效应质粒(pQT；例如pSL1466，SEQ ID NO：2001)编码所有蛋白质组分，在该实施方案中包含TniQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC。供体_CRISPR质粒(pDonor_CRISPR-R，例如pSL1805，SEQ ID NO：2002)包含两侧为转座子左右端的供体DNA；编码gRNA的CRISPR阵列包含在转座子右端附近的运载物供体DNA自身中。在另一个实施方案中，pDonor_CRISPR质粒在T7启动子下游额外地去除了lac操纵子序列(例如pSL1766，SEQ IDNO：2005)。图104C是pDonor_CRISPR的修饰形式的示意图，所述pDonor_CRISPR的修饰形式在左转座子末端(pSL1632，SEQ ID NO：2003)附近或在运载物中间附近(pSL1631，SEQ IDNO：2004)包含CRISPR阵列。图104D是使用gRNA靶向lacZ的大肠杆菌BL21(DE3)细胞中的RNA引导的DNA整合活性的图。每个实验中使用的两种质粒的身份列于柱状图下方。在固体LB-琼脂培养基上过夜培养后，使用细胞裂解物，通过qPCR定量整合效率。pDonor_CRISPR-R质粒的效率要高得多，其中CRISPR阵列包含在右转座子末端附近。

具体实施方式

在某些实施方案中，本发明的系统和方法使用Tn7样转座子，其编码用于可编程的RNA引导的DNA整合的CRISPR-Cas系统。具体地，CRISPR-Cas机器指导Tn7转座子相关蛋白整合由引导RNA(gRNA)识别的靶位点(例如，基因组靶位点)下游的DNA。

1.RNA引导的DNA整合

用于基因整合的RNA引导的转座酶机器不通过双链断裂(DSB)中间体进行，因此不会导致非同源末端连接(NHEJ)介导的插入或缺失。相反，DNA的靶向导致通过协同的酯交换反应的直接整合，而无任何脱离路径(off-pathway)的替代方案。由于靶向依赖于gRNA，因此本发明的方法和系统不需要为每个新的靶位点重新设计同源臂。

出于治疗目的，gRNA可被设计成靶向特定的基因或染色体区域，诸如与疾病、症状或疾患相关的基因或染色体区域。

本发明的系统和方法可产生任何期望的效果。在一个实施方案中，本发明的系统和方法可导致靶基因的转录减少。

本发明的系统和方法可以靶向任何靶位点，或在DNA内的任何位点，例如在编码或非编码区中、在基因内或基因附近(例如前导序列、拖尾序列或内含子)，或在非转录区内(编码区的上游或下游)插入供体DNA。靶位点或靶序列可包含任何多核苷酸，诸如DNA或RNA多核苷酸。

本发明的RNA引导的DNA整合系统和方法允许在各种类型的细胞中进行DNA整合，所述细胞包括有丝分裂后细胞和非分裂细胞，诸如神经元和终末分化细胞。因此，还提供了包含本发明的RNA引导的DNA整合系统的细胞。

本发明系统和方法可来源于包含CRISPR-Cas系统的细菌或古细菌转座子，诸如Tn7样转座子。在一个实施方案中，Tn7样转座子系统来源于霍乱弧菌Tn6677。所述系统可包含功能获得性Tn7突变体(Lu等人EMBO 19(13)：3446-3457(2000)；美国专利公布第20020188105号)以及复制型Tn7转座突变体(May等人Science 272：401-404(1996))。Tn7样转座子包括但不限于霍乱弧菌的Tn6677转座子、Tn5090/Tn5053转座子、Tn6230转座子和Tn6022转座子。参见，Peters等人，Recruitment of CRISPR-Cas systems by Tn7-liketransposons，Proc Natl Acad Sci USA 114，E7358-E7366(2017)。Peters，J.E.Tn7.Microbiol Spectr 2(2014)。

Tn7样转座子可编码各种类型的CRISPR-Cas系统，诸如I型CRISPR-Cas系统(诸如I-B亚型、I-F亚型(包括I-F变体))和V型CRISPR-Cas系统(诸如V-U5)。

在某些实施方案中，本发明系统和方法可包括I型CRISPR-Cas系统。I型系统可包括多亚单位效应子复合物，诸如Cascade或Csy复合物。在一个实施方案中，Cascade复合物来源于霍乱弧菌Tn7转座子，其包含I-F型Cascade和TniQ蛋白。TniQ可将CRISPR-Cas机器与Tn7相关DNA整合机器联系起来。本发明系统可能缺乏核酸酶。在一个实施方案中，Tn7相关I-F型系统可能缺乏Cas3核酸酶。

规范I-F CRISPR-Cas系统中的级联复合物由命名为cas8(或csy1)、cas5(或csy2)、cas7(或csy3)和cas6(或csy4)的4个基因编码；每个基因也可用亚型特异性限定符进一步分类，如在cas8f、cas5f、cas7f和cas6f中。

在一个实施方案中，Tn7样转座子包含I-F型变体CRISPR-Cas系统，其基因编码级联复合物。Tn7样转座子包含tnsA-tnsB-tnsC操纵子，而被称为tniQ的tnsD同源物被编码在Cas8/Cas5融合物-Cas7-Cas6蛋白的操纵子内，所述蛋白共同形成了RNA引导的TniQ-Cascade复合物。TnsA和TnsB蛋白产物介导转座子切除，而TnsB介导转座子整合到靶DNA中。

Tn7样转座子可包含转座酶TnsA和TnsB。TnsA和TnsB可以形成异聚体转座酶。TnsB是DDE型转座酶，其催化协同断裂和重新连接反应，将供体末端的3’-羟基连接至靶DNA的插入位点处的5’-磷酸基团上。TnsA在结构上类似限制性核酸内切酶，在供体DNA分子的相反链上进行切刻反应。辅助蛋白TnsC可调节异聚体TnsAB转座酶的活性。当TnsC与靶DNA和靶选择蛋白TnsD或TnsE复合时，其可激活转座。在TnsD或TnsE不存在的情况下，TnsC变体可促进转座。在某些实施方案中，TnsA、TnsB和/或TnsC的野生型或变体(包括与野生型蛋白相比具有缺失、插入或氨基酸取代的变体)可用于本发明系统和方法。本发明系统可包括一个或多个以下变体：TnsA S69N、TnsA E73K、TnsA A65V、TnsA E185K、TnsA Q261Z、TnsA G239S、TnsA G239D、TnsA Q261Z、TnsB M3661、TnsB A325T和TnsB A325V(参见，Lu等人，(EMBO J.9(3)：3446-57，2000))。

在一个实施方案中，本发明的工程化的转座子编码的CRISPR-Cas系统来源于霍乱弧菌HE-45(命名为Tn6677，在转座子登记处登记)。参见，Roberts等人Revisednomenclature for transposable genetic elements，Plasmid 60，167-173(2008)。Tn6677指天然霍乱弧菌转座子序列，包含转座子末端和人工运载物的小型化转座子构建体被称为mini-Tn6677，或更一般地称为微型转座子(mini-Tn)。Tn6677中发现的CRISPR-Cas系统是I-F变体系统，Cascade操纵子包含cas8-cas5融合基因(其在本文中也称为cas8)、cas7和cas6，以及上游的tniQ基因。转座子相关机器和CRISPR相关机器以反式方式进行的表达用于将微型Tn6677从包含供体DNA的载体转置到DNA整合位点。

在一个实施方案中，本发明系统和方法包括工程化的霍乱弧菌Tn7转座子，其包含TnsA、TnsB、TnsC、TniQ、Cas8/Cas5融合物、Cas7、Cas6和至少一种gRNA。

在某些实施方案中，本发明系统和方法可以包括V型CRISPR-Cas系统。V型系统属于2类CRISPR-Cas系统，其特征在于用gRNA进行编程的单蛋白质效应子复合物。在一个实施方案中，本发明的Tn7样转座子包括V-U5型系统，其编码诸如C2c5等酶(Shmakov等人，NatRev Microbiol.15，169-182(2017))。本发明系统可能缺乏核酸酶。在一个实施方案中，本发明系统缺乏tnsA(缺乏TnsA基因)。

C2c5可来源于双囊藻属某种NIES-3709(NCBI登录ID：WP_066116114.1)。转座子相关V型CRISPR-Cas系统可来源于：多变鱼腥藻ATCC 29413(Anabaena variabilis ATCC29413)(或多变三离藻ATCC 29413(参见GenBank CP000117.1))、皂荚蓝细菌IPPAS B-1202、丝状蓝细菌CCP2(Filamentous cyanobacterium CCP2)、点状念珠藻PCC 73102(Nostoc punctiforme PCC 73102)和贺氏伪枝藻PCC 7110。

在一个实施方案中，本发明系统和方法包括工程化的Tn7样转座子，其编码V-U5型CRISPR-Cas系统，所述系统包括TnsB、TnsC、TniQ、C2c5和至少一个gRNA。

术语“转座子”涵盖具有顺式作用位点的DNA片段(其可包含异源DNA序列)，以及编码反式作用蛋白的基因，所述反式作用蛋白作用于那些顺式作用位点，以动员由这些位点定义的DNA区段，而无论它们在DNA中是如何组织的。目前的转座子，诸如Tn7样转座子，也编码CRISPR-Cas系统。实施本发明方法不需要整个转座子。因此，如本文中所用，术语“转座子衍生物”、“可转座元件”或“可插入元件”也可以指最低程度包含顺式作用位点的DNA，反式作用蛋白质在所述顺式作用位点上作用以动员由这些位点定义的区段。还应理解，这些位点可包含异源DNA。蛋白质可以以核酸(编码该蛋白质的DNA或RNA)形式或蛋白质(例如，纯化的蛋白质)形式提供。

如本文中所用，术语“Tn7转座子”是指原核可转座因子Tn7，以及它们的修饰形式或与Tn7转座子共享同源性的转座子(“Tn7样转座子”)。Tn7最常在大肠杆菌中进行研究。“Tn7转座子”可涵盖明显不包含Tn7基因，但可通过使用Tn7基因产物TnsA和TnsB(所述TnsA和TnsB协同形成Tn7转座酶)将其进行转座的DNA形式，或其修饰。这种DNA被转座酶可识别的5’和3’DNA序列结合，所述5’和3’DNA序列可作为转座子末端序列。Tn7转座子末端序列的实例可在以下文献中找到：Arciszewska等人(1991)J Biol Chem 266：21736-44(PMID：1657979)，Tang等人(1995)Gene 162：41-6(PMID：7557414)，Tang等人(1991)NucleicAcids Res 19：3395-402(PMID：1648205)，Biery等人(2000)Nucleic Acids Res 28：1067-77(PMID：10666445)，Craig(1995)Cur Top Microbiol Immunol 204：27-48(PMID：8556868)和其它已发表的来源，并应允许转座给定适当的Tns蛋白。不希望受到任何理论的束缚，据信转座子末端通过TnsA和TnsB与供体DNA相对。据信，这两种Tns蛋白随后会协同执行作为转座基础的断裂和连接反应。

Tn7转座子含有特征性的左右转座子末端序列，编码五个tns基因tnsA-E，它们共同编码异聚体转座酶(TnsA和TnsB)，所述异聚体转座酶是催化酶，其通过协同的双链断裂切除转座子供体；TnsB(逆转录病毒整合酶超家族的成员)催化DNA整合；TnsD和TnsE构成相互排斥的靶向因子，其指定DNA整合位点；而TnsC是在TnsAB与TnsD或TnsE之间进行通信的ATP酶。在大肠杆菌中，TnsD介导位至glmS基因下游的保守的Tn7附着位点(attTn7)中的位点特异性Tn7转座，而TnsE在复制过程中介导至后随链模板中的随机转座。在大肠杆菌中，位点特异性转座涉及由TnsD结合attTn7，随后与TnsC调节蛋白相互作用以直接募集TnsA-TnsB-供体DNA。TnsC、TnsD和TnsE与靶DNA相互作用，以通过两种不同的途径调节转座酶的活性。TnsABC+TnsD以高频率指导至attTn7(大肠杆菌染色体上的离散位点)的转座，以低频率指导至其它松散相关的“伪att”位点的转座。可选的组合TnsABC+E以低频率指至染色体中许多不相关的非attTn7位点的转座，并优先至接合质粒的转座。因此，attTn7和可接合质粒包含将转座子募集到这些靶DNA的正信号。可选的靶位点选择机器使Tn7能够检查细胞中各种潜在的靶位点，并选择最有可能确保其存活的那些靶位点。

如本文中所用，术语“转座酶”是指催化转座的酶。

如本文中所用，术语“转座”指复杂的遗传重排过程，包括DNA序列从一个位置移动并插入另一个位置，例如在基因组与DNA构建体(诸如质粒、杆粒(bacmid)、粘粒和病毒载体)之间。

本公开提供了用于在细胞中进行RNA引导的DNA整合的工程化的转座子编码的CRISPR-Cas系统，其包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)Tn7样转座子系统。

本公开还包括用于在细胞中进行RNA引导的DNA整合的系统和方法，所述系统和方法包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码Tn7样转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开提供了工程化的转座子编码的CRISPR-Cas系统和用于在细胞中进行RNA引导的DNA整合的方法，其包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)工程化的转座子系统。

本公开还提供了用于细胞中RNA引导的DNA整合的系统和方法，其包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码工程化的转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开提供了用于在细胞中进行RNA引导的DNA整合的方法，所述方法包括将工程化的转座子编码的CRISPR-Cas系统引入动物细胞，其中转座子编码的CRISPR-Cas系统包括：(i)至少一种Cas蛋白，(ii)对靶位点特异的引导RNA(gRNA)，(iii)工程化的转座子系统，和(iv)供体DNA，其中转座子编码的CRISPR-Cas系统将供体DNA整合到靶位点附近。

本发明系统和方法可包括TnsD或TniQ。本发明系统可包括TnsA、TnsB和TnsC。本发明系统可包括TnsB和TnsC。

本发明系统和方法可来自1类CRISPR-Cas系统。本发明和方法可来自2类CRISPR-Cas系统。本发明和方法可来源于I型CRISPR-Cas系统(诸如I-B亚型、I-F亚型(包括I-F变体))。本发明和方法可来自V型CRISPR-Cas系统(诸如V-U5)。本发明和方法可来自II型CRISPR-Cas系统(诸如II-A)。

本发明系统可能缺乏核酸酶。本发明系统和方法可以单独地或作为融合蛋白包括Cas6、Cas7和Cas5和Cas8。本发明系统和方法可包括Cas9。

本发明系统和方法可包括级联复合体。本发明系统可包括C2c5。

转座子编码的CRISPR-Cas系统可将供体DNA整合到细胞基因组中。

本发明系统和方法还可包括供体DNA，其中供体DNA包含两侧是转座子末端序列的运载物核酸。两端的转座子末端序列可以相同或不同。转座子末端序列可以是内源性Tn7转座子末端序列，或者可以包括缺失、取代或插入。内源性Tn7转座子末端序列可被截短。在一些实施方案中，转座子末端序列包括相对于内源Tn7转座子末端序列约40个碱基对(bp)的缺失。在一些实施方案中，转座子末端序列包括相对于内源Tn7转座子末端序列约100个碱基对的缺失。缺失的形式可以是转座子末端序列的远端(相对于运载物)处的截断。

整合可以是靶位点下游(3’)的约40bp至约60bp、约46bp至约55bp、约47bp至约51bp、约48bp至约50bp、约43bp至约57bp、约45bp至约50bp、约48bp、约49bp或约50bp。

靶位点的两侧可以是前间区序列邻近基序(PAM)。

本公开提供了用于编码本发明系统的一种或多种组分的DNA或一种或多种多核苷酸的瞬时表达或稳定整合的系统和方法。

本发明系统和方法可以对一个靶位点特异，或者可以对2、3、4、5、6、7、8、9、10个或更多个靶位点特异。

在某些实施方案中，本发明系统和方法可通过剪切粘贴机器(例如，I-F型CRISPR-Cas系统，诸如来源于大肠杆菌Tn7或霍乱弧菌Tn6677的系统)起作用。在某些实施方案中，本发明系统和方法可通过复制粘贴机器(或复制型转座)(例如，包含C2c5(Cas12k)的V型CRISPR-Cas系统)起作用。

本发明系统和方法可通过剪切粘贴机器起作用，其中供体DNA被从供体部位完全切除并插入靶位置(Bainton等人，Cell，1991；65(5)，第805-816页)。TnsA和TnsB在两个末端处切割转座子DNA的两条链，导致线性dsDNA的干净切除，其在两个末端包含短的3-核苷酸5’-悬突(未显示)。然后，游离的3’-OH末端被TnsB用作亲核试剂，攻击靶DNA两条链上的磷酸二酯键，导致协同的转酯反应。间隙填充后，转座反应完成，由于间隙填充反应，整合的转座子两侧是5-bp的靶位点重复序列(TSD)。

本发明系统和方法可通过复制粘贴机器(也称为复制型转座)起作用。当转座子供体DNA的5’端在切除步骤中没有断裂时，就会出现这种情况，就像编码转座蛋白的基因操纵子中不存在tnsA核酸内切酶基因时的情况一样。在这种情况下，3’-OH末端仍然被释放，并且可参与由TnsB催化的与靶DNA的交错转酯反应，但转座子的5’端仍然共价连接至供体DNA分子内的剩余DNA，所述供体DNA分子可以是基因组或质粒载体。这种复制粘贴反应产生了所谓的Shapiro中间体，其中整个供体DNA，包括转座子序列本身，以及侧翼序列，与断裂的靶标DNA连接在一起。这种中间体只能在随后的DNA复制过程中被拆分，这就产生了所谓的共合体产物。这种共整合体包含转座子本身的两个拷贝，一侧是TSD。重要的是，共合体还包含了供体DNA分子的全部，以及靶DNA分子的全部。因此，在于质粒载体上编码转座子的情况下，载体的整体在复制型转座过程中与靶DNA连接。在一些频率下，共合体产物可以通过专用的拆分酶(resolvase)蛋白(例如Tn5090/Tn5053中的TniR蛋白)的作用，或者由于共合体产物中转座子本身的两个拷贝之间具有广泛的同源性而通过内源性同源重组，拆分成右侧所示的产物。共合体解析产生了含有单个转座子的靶DNA(其两侧是TSD)，以及供体DNA分子的再生形式。

在一个实施方案中，本发明系统和方法包括Tn7转座子或Tn7样转座子，其中在TnsA活性位点(TnsA D114A)存在单点突变。DNA断裂可发生在供体每条链的3’端(May和Craig.Science，1996；272(5260)：401-4)。在没有完全切除供体DNA的情况下，所述系统切换到复制型复制粘贴机器，产生共合体产物，其最终通过重组分拆而得到运载物的两个相同拷贝。在另一个实施方案中，本发明系统包括Tn7转座子或Tn7样转座子，其中霍乱弧菌TnsA蛋白(TnsA D90A)中存在单点突变(D90A)。在又一个实施方案中，为了提高重组效率和共合体产物的分辨率，运载物包括位点特异性重组酶(诸如Cre或CinH)及其识别序列。在天然存在的复制型转座子诸如Tn3和Mu中，这种重组酶辅助策略已被证明可用于共合体的解析(Nicolas等人Microbiology Spectrum.2015；3(4))。

在一些实施方案中，Cas蛋白、Tns蛋白和编码gRNA的核酸提供于同一核酸(例如，载体)上。在一些实施方案中，Cas蛋白、Tns蛋白和编码gRNA的核酸被提供于不同的核酸(例如，不同的载体)上，例如，在2、3、4、5、6个或更多个载体上。替代地或另外地，Cas蛋白和/或Tns蛋白可以以蛋白质形式于细胞中提供或引入细胞中。

在一些实施方案中，可对编码Cas蛋白和/或Tns蛋白的核苷酸序列进行密码子优化以在宿主细胞中表达。在一些实施方案中，一种或多种Cas蛋白和/或Tns蛋白是野生型蛋白的同源物或直向同源物。

在一些实施方案中，可修饰编码Cas蛋白和/或Tns蛋白的核苷酸序列以改变所述蛋白的活性。替代地或者另外地，可将Cas蛋白和/或Tns蛋白与另一种蛋白或其部分融合。在一些实施方案中，将Cas蛋白和/或Tns蛋白与荧光蛋白(例如，GFP、RFP、mCherry等)融合。在一些实施方案中，与荧光蛋白融合的Cas蛋白和/或Tns蛋白用于标记并且/或者可视化基因组基因座或者鉴定表达所述蛋白的细胞。

在某些实施方案中，本发明系统包括一种或多种载体DNA或多核苷酸，所述DNA或多核苷酸包含选自SEQ ID No：1-139的一种或多种核苷酸序列及其等同物。在某些实施方案中，本发明系统包括包含一种或多种核苷酸序列的一种或多种载体，所述核苷酸序列与选自SEQ ID NO：1-139中的核苷酸序列具有约80％至约100％同一性。载体可包含与SEQ IDNo：1-139中所示的核苷酸序列中的任一个具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的核苷酸序列。

在某些实施方案中，本发明系统和方法包括一种或多种载体、DNA或多核苷酸，所述载体、DNA或多核苷酸具有选自以下序列的一种或多种核苷酸序列：SEQ ID NO：140(TnsA)、SEQ ID NO：142(TnsB)、SEQ ID NO：144(TnsC)、SEQ ID NO：146(TniQ)、SEQ ID NO：148(Cas8/Cas5整合物)、SEQ ID NO：150(Cas7)、SEQ ID NO：152(Cas6)及其等同物。在某些实施方案中，本发明系统包括一种或多种载体、DNA或多核苷酸，所述载体、DNA或多核苷酸包含与选自以下序列的核苷酸序列具有约80％至约100％同一性的一种或多种核苷酸序列：SEQ ID NO：140、SEQ ID NO：142、SEQ ID NO：144、SEQ ID NO：146、SEQ ID NO：148、SEQID NO：150和SEQ ID NO：152。载体可包含核苷酸序列，所述核苷酸序列与SEQ ID NO：140、SEQ ID NO：142、SEQ ID NO：144、SEQ ID NO：146、SEQ ID NO：148、SEQ ID NO：150和SEQ IDNO：152中所示的核苷酸序列中的任一个具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

在某些实施方案中，本发明系统和方法包括一种或多种蛋白质，所述蛋白质具有选自以下序列的一种或多种氨基酸序列：SEQ ID NO：141(TnsA)、SEQ ID NO：143(TnsB)、SEQ ID NO：145(TnsC)、SEQ ID NO：147(TniQ)、SEQ ID NO：149(Cas8/Cas5整合物)、SEQ IDNO：151(Cas7)、SEQ ID NO：153(Cas6)及其等同物。在某些实施方案中，本发明系统包括含有一种或多种氨基酸序列的一种或多种蛋白质，所述氨基酸序列与选自以下的氨基酸序列具有约80％至约100％同一性：SEQ ID NO：141(TnsA)、SEQ ID NO：143(TnsB)、SEQ ID NO：145(TnsC)、SEQ ID NO：147(TniQ)、SEQ ID NO：149(Cas8)、SEQ ID NO：151(Cas7)和SEQ IDNO：153(Cas6)。蛋白质可包含氨基酸序列，所述氨基酸序列与SEQ ID NO：141(TnsA)、SEQID NO：143(TnsB)、SEQ ID NO：145(TnsC)、SEQ ID NO：147(TniQ)、SEQ ID NO：149(Cas8)、SEQ ID NO：151(Cas7)和SEQ ID NO：153(Cas6)中所示的氨基酸序列中的任一个具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

在一个实施方案中，本发明的系统和方法包含编TnsA的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：140或其等同物。编码TnsA的核苷酸序列可以与SEQ ID NO：140中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsA的氨基酸序列可包含SEQ ID NO：141或其等同物。TnsA的氨基酸序列可包含与SEQ ID NO：141中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TnsB的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：142或其等同物。编码TnsB的核苷酸序列可以与SEQ ID NO：142中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsB的氨基酸序列可包含SEQ ID NO：143或其等同物。TnsB的氨基酸序列可包含与SEQ ID NO：143中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TnsC的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：144或其等同物。编码TnsC的核苷酸序列可与SEQ ID NO：144中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsC的氨基酸序列可包含SEQ ID NO：145或其等同物。TnsC的氨基酸序列可包含列与SEQ ID NO：145中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明的系统和方法包含编码TniQ的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：146或其等同物。编码TniQ的核苷酸序列可与SEQ ID NO：146中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TniQ的氨基酸序列可包含SEQ ID NO：147或其等同物。TniQ的氨基酸序列可包含与SEQ ID NO：147中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码Cas8(Cas5/Cas8)的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：148或其等同物。编码Cas8(Cas5/Cas8)的核苷酸序列可与SEQ ID NO：148中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas8(Cas5/Cas8)的氨基酸序列可包含SEQ ID NO：149或其等同物。Cas8(Cas5/Cas8)的氨基酸序列可包含与SEQ ID NO：149中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码Cas7的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：150或其等同物。编码Cas7的核苷酸序列可与SEQ ID NO：150中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas7的氨基酸序列可包含SEQ ID NO：151或其等同物。Cas7的氨基酸序列可包含与SEQ ID NO：151中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明的系统和方法包含编码Cas6的核苷酸序列，其中所述核苷酸序列是SEQ ID NO：152或其等同物。编码Cas6的核苷酸序列可与SEQ ID NO：152中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas6的氨基酸序列可包含SEQ ID NO：153或其等同物。Cas6的氨基酸序列可包含与SEQ ID NO：153中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包括编码TnsA的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：768、1777、1786、1795、1804、1813、1822、1831、1909、1925、1941、1957或其等同物。编码TnsA的核苷酸序列可与SEQ ID NO：68、1777、1786、1795、1804、1813、1822、1831、1909、1925、1941、1957中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsA的氨基酸序列可包含SEQ ID NO：1714-1717、1840、1847、1854、1861、1868、1875、1882、1889、1896、1918、1934、1950、1966中的任一个所示的氨基酸序列或其等同物。TnsA的氨基酸序列可包含与SEQ ID NO：1714-1717、1840、1847、1854、1861、1868、1875、1882、1889、1896、1918、1934、1950或1966中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TnsB的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1769、1778、1787、1796、1805、1814、1823、1832、1910、1926、1942、1958或其等同物。编码TnsB的核苷酸序列可与SEQ ID NO：1769、1778、1787、1796、1805、1814、1823、1832、1910、1926、1942和1958中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsB的氨基酸序列可包含SEQ ID NO：1841、1848、1855、1862、1869、1876、1883、1890、1919、1935、1951、1967中的任一个中所示的氨基酸序列或其等同物。TnsB的氨基酸序列可包含与SEQ ID NO：1841、1848、1855、1862、1869、1876、1883、1890、1919、1935、1951或1967中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TnsA/TnsB融合物的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1973、1987或其等同物。编码TnsA/TnsB融合物的核苷酸序列可与SEQ ID NO：1973和1987中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsA/TnsB融合蛋白的氨基酸序列可包含SEQ ID NO：1981、1995中的任一个中所示的氨基酸序列或其等同物。TnsA/TnsB融合物的氨基酸序列可包含与SEQ ID NO：1981和1995中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TnsC的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1770、1779、1788、1797、1806、1815、1824、1833、1911、1927、1943、1959、1974、1988或其等同物。编码TnsC的核苷酸序列可与SEQ ID NO：1770、1779、1788、1797、1806、1815、1824、1833、1911、1927、1943、1959、1974和1988中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TnsC的氨基酸序列可包含SEQ ID NO：1842、1849、1856、1863、1870、1877、1884、1891、1920、1936、1952、1968、1982、1996中的任一个中所示的氨基酸序列或其等同物。TnsC的氨基酸序列可包含与SEQ ID NO：1842、1849、1856、1863、1870、1877、1884、1891、1920、1936、1952、1968、1982和1996中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码TniQ的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1771、1780、1789、1798、1807、1816、1825、1834、1912、1928、1944、1960、1975、1989或其等同物。编码TniQ的核苷酸序列可与SEQ ID NO：1771、1780、1789、1798、1807、1816、1825、1834、1912、1928、1944、1960、1975和1989中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

TniQ的氨基酸序列可包含SEQ ID NO：1843、1850、1857、1864、1871、1878、1885、1892、1921、1937、1953、1969、1983、1997中的任一个中所示的氨基酸序列或其等同物。TniQ的氨基酸序列可包含与SEQ ID NO：1843、1850、1857、1864、1871、1878、1885、1892、1921、1937、1953、1969、1983和1997中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码Cas7的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1773、1782、1791、1800、1809、1818、1827、1836、1914、1930、1946、1962、1977、1998或其等同物。编码Cas7的核苷酸序列可与SEQ ID NO：1773、1782、1791、1800、1809、1818、1827、1836、1914、1930，1946、1962、1977和1998中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas7的氨基酸序列可包含SEQ ID NO：1845、1852、1854、1866、1873、1880、1887、1899、1923、1939、1955、1971、1958、1999中的任一个中所示的氨基酸序列或其等同物。Cas7的氨基酸序列可包含与SEQ ID NO：1845、1852、1854、1866、1873、1880、1887、1899、1923、1939、1955、1971、1958和1999中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码Cas6的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1774、1783、1792、1801、1810、1819、1828、1837、1915、1931、1947、1963、1978、1992或其等同物。编码Cas6的核苷酸序列可与SEQ ID NO：1774、1783、1792、1801、1810、1819、1828、1837、1915、1931、1947、1963、1978和1992中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas6的氨基酸序列可包含SEQ ID NO：1846、1853、1860、1867、1874、1881、1888、1895、1924、1940、1956、1972、1986、2000中的任一个中所示的氨基酸序列或其等同物。Cas6的氨基酸序列可包含与SEQ ID NO：1846、1853、1860、1867、1874、1881、1888、1895、1924、1940、1956、1972、1986和2000中的任一个中所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

在一个实施方案中，本发明系统和方法包含编码Cas8/Cas5融合物的核苷酸序列，其中所述核苷酸序列选自SEQ ID NO：1772、1781、1790、1799、1808、1817、1826、1835、1913、1929、1945、1961、1976、1990或其等同物。编码Cas8/Cas5的核苷酸序列可与SEQ ID NO：1772、1781、1790、1799、1808、1817、1826、1835、1913、1929、1945、1961、1976和1990中的任一个中所示的氨基酸序列具有约80％至约100％、至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性。

Cas8/Cas5的氨基酸序列可包含SEQ ID NO：1844、1851、1858、1865、1872、1879、1886、1893、1922、1938、1954、1970、1984、1998中的任一个所示的氨基酸序列或其等同物。Cas8/Cas5的氨基酸序列可包含与SEQ ID NO：1844、1851、1858、1865、1872、1879、1886、1893、1922、1938、1954、1970、1984和1998中的任一个所示的氨基酸序列具有至少或约70％、至少或约75％、至少或约80％、至少或约81％、至少或约82％、至少或约83％、至少或约84％、至少或约85％、至少或约86％、至少或约87％、至少或约88％、至少或约89％、至少或约90％、至少或约91％、至少或约92％、至少或约93％、至少或约94％、至少或约95％、至少或约96％、至少或约97％或约100％同一性的氨基酸序列。

本发明系统和方法可包括(i)一种或多种编码工程化的CRISPR-Cas系统的载体，和(ii)一种或多种编码工程化的转座子系统的载体，其中CRISPR-Cas系统和转座子系统在同一载体上或在至少两个不同的载体上。在一个实施方案中，第一载体编码TnsB、TnsC和TniQ(例如，pTnsBCQ)；第二载体编码C2c5(例如，pC2c5)；第三载体编码供体DNA(例如，pDonor)。

本发明系统和方法的蛋白质包括野生型蛋白质以及野生型蛋白质的任何基本同源的蛋白质和变体。术语蛋白质的“变体”旨在指通过天然蛋白质中一个或多个氨基酸的缺失(截短)、添加和/或取代而从自天然蛋白质衍生的蛋白质。此类变体可以由例如遗传多态性或人操作产生。当至少约80％、至少约90％或至少约95％的天然蛋白质的变体的氨基酸序列与天然蛋白质的氨基酸序列相同时，所述天然蛋白质的变体可以与天然蛋白质“基本同源”。

本发明系统和方法提供了将核酸插入任何生物体的任何DNA片段的方法。此外，本发明系统和方法还提供了插入到任何合成DNA片段中的方法。

还提供了可自转座的核酸，其包含编码如上所述转座子编码的CRISPR-cas系统的可移动核酸序列，以及位于所述可移动核酸序列两侧的第一转座子末端序列和第二转座子末端序列。转座子编码的CRISPR-cas系统的运载物核酸的两侧也可连接转座子末端序列。可自转座的核酸可存在于载体中。“载体”或“表达载体”是可以可将另一DNA区段例如“插入物”附接于其或并入其中以使附接的区段在细胞中复制的复制子，诸如质粒、噬菌体、病毒或粘粒。可自转座的核酸可以存在于细胞的基因组DNA中。

a.供体DNA

供体DNA可以是细菌质粒、噬菌体、植物病毒、逆转录病毒、DNA病毒、自主复制的染色体外DNA元件、线性质粒、线粒体或其它细胞器DNA、染色体DNA等的一部分。供体DNA包含两侧是转座子末端序列的运载物核酸序列。

供体DNA，进而运载物核酸可具有任何合适的长度，包括例如约50-100bp(碱基对)、约100-1000bp、至少或约10bp、至少或约20bp、至少或约25bp、至少或约30bp、至少或约35bp、至少或约40bp、至少或约45bp、至少或约50bp、至少或约55bp、至少或约60bp、至少或约65bp、至少或约70bp、至少或约75bp、至少或约80bp、至少或约85bp、至少或约90bp、至少或约95bp、至少或约100bp、至少或约200bp、至少或约300bp、至少或约400bp、至少或约500bp、至少或约600bp、至少或约700bp、至少或约800bp、至少或约900bp、至少或约1kb(千碱基对)、至少或约2kb、至少或约3kb、至少或约4kb、至少或约5kb、至少或约6kb、至少或约7kb、至少或约8kb、至少或约9kb、至少或约10kb或少于10kb的长度或更长。供体DNA和运载物核酸可为至少或约10kb，至少或约50kb，至少或约100kb，20kb至60kb、20kb至100kb。

b.CRISPR

CRISPR-Cas系统已成功用于编辑各种生物体的基因组，所述生物体包括但不限于细菌、人、果蝇、斑马鱼和植物。参见，如Jiang等人，Nature Biotechnology(2013)31(3)：233；Qi等人，Cell(2013)5：1173；DiCarlo等人，Nucleic Acids Res.(2013)7：4336；Hwang等人，Nat.Biotechnol(2013)，3：227)；Gratz等人，Genetics(2013)194：1029；Cong等人，Science(2013)6121：819；Mali等人，Science(2013)6121：823；Cho等人Nat.Biotechnol(2013)3：230；和Jiang等人，Nucleic Acids Research(2013)41(20)：e188。

本发明系统可包括Cas6、Cas7、Cas5和Cas8。在一些实施方案中，Cas5和Cas8连接为功能性融合蛋白。本发明系统可以包括Cas9。

本发明系统可来自1类CRISPR-Cas系统。本发明系统可来自2类CRISPR-Cas系统。本发明系统可来自I型CRISPR-Cas系统。本发明系统可来自II型CRISPR-Cas系统。本发明系统可来自V型CRISPR-Cas系统。

本发明系统可包括Cascade复合体。本发明系统可包括C2c5。

c.gRNA

gRNA可以是crRNA/tracrRNA(或单一引导RNA，sgRNA)。

术语“gRNA”、“引导RNA”和“CRISPR引导序列”在整个说明书中可以互换使用，是指包含决定CRISPR-Cas系统的结合特异性的序列的核酸。gRNA与宿主细胞中的靶核酸序列(例如，基因组)杂交(与其部分或完全互补)。与靶核酸(靶位点)杂交的gRNA或其部分的长度可为15至25个核苷酸、18至22个核苷酸或19至21个核苷酸。在一些实施方案中，与靶核酸杂交的gRNA序列的长度为15、16、17、18、19、20、21、22、23、24或25个核苷酸。在一些实施方案中，与靶核酸杂交的gRNA序列的长度为10-30个核苷酸，或15-25个核苷酸。本公开中使用的gRNA或sgRNA的长度可以是约5至100个核苷酸，或更长(例如，5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个、75个、76个、77个、78个、79个、80个、81个、82个、83个、84个、85个、86个、87个、88个、89个、90个、91个、92个、93个、94个、95个、96个、97个、98个、99个或100个核苷酸，或更长)。在一个实施方案中，gRNA或sgRNA的长度可为约15至约30个核苷酸(例如，长度约为15-29个、15-26个、15-25个；16-30个、16-29个、16-26个、16-25个；或约为18-30个、18-29个、18-26个或18-25个核苷酸)。

为了方便gRNA的设计，许多计算工具已经被开发出来(参见Prykhozhij等人(PLoSONE，10(3)：(2015))；Zhu等人(PLoS ONE，9(9)(2014))；Xiao等人(Bioinformatics.Jan 21(2014))；Heigwer等人(Nat Methods，11(2)：122-123(2014))。Zhu论述了用于引导RNA设计的方法和工具(Frontiers in Biology，10(4)第289-296页(2015))，所述文献通过引用并入本文。另外，有许多公开可用的软件工具可用于促进一种或多种sgRNA的设计；包括但不限于Genscript Interactive CRISPR gRNA设计工具、WU-CRISPR和Broad Institute GPPsgRNA Designer。还有可公开获得的预先设计的gRNA序列，用于靶向许多物种(人、小鼠、大鼠、斑马鱼、秀丽隐杆线虫)的基因组中的许多基因和位置，包括但不限于IDT DNAPredesigned Alt-R CRISPR-Cas9引导RNA、Addgene Validated gRNA靶序列和GenScriptGenome-wide gRNA数据库。

除了结合靶核酸的序列之外，在一些实施方案中，gRNA还可包含支架序列(例如，tracrRNA)。在一些实施方案中，这种嵌合gRNA可被称为单个引导RNA(sgRNA)。示例性支架序列对于本领域技术人员来说是显而易见的，并且可见于例如Jinek等人Science(2012)337(6096)：816-821和Ran等人，Nature Protocols(2013)8：2281-2308中。

在一些实施方案中，gRNA序列不包含支架序列，并且支架序列以单独的转录物形式表达。在此类实施方案中，gRNA序列还包含与支架序列的一部分互补，并且用于结合(杂交)支架序列的附加序列。

在一些实施方案中，gRNA序列与靶核酸具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或至少100％互补性。在一些实施方案中，gRNA序列与靶核酸的3’端(例如，靶核酸的3’端的最后5、6、7、8、9或10个核苷酸)具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或至少100％的互补性。

gRNA可以是非天然存在的gRNA。

靶核酸的两侧可以是前间区序列邻近基序(PAM)。PAM位点是靠近靶序列的核苷酸序列。例如，PAM可以是紧随被CRISPR/Cas系统靶向的DNA序列的DNA序列。

靶序列的两侧可以是也可以不是前间区序列邻近基序(PAM)序列。在某些实施方案中，如果存在合适的PAM，则核酸引导的核酸酶只能切割靶序列，参见，例如Doudna等人，Science，2014，346(6213)：1258096，其通过引用并入本文。PAM可以是靶序列的5’或3’。PAM可位于靶序列的上游或下游。在一个实施方案中，靶序列的3’端紧接PAM序列。PAM的长度可为1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。在某些实施方案中，PAM的长度为2至6个核苷酸。靶序列可以与PAM序列相邻，也可以不相邻(例如，PAM序列紧邻靶序列的3’)(例如，对于I型CRISPR/Cas系统和II型CRISPR/Cas系统)。在一些实施方案(例如I型系统)中，PAM在前间区序列的另一侧(5’端)上。Makarova等人描述了CRISPR系统的所有类别、类型和亚型的命名法(Nature Reviews Microbiology 13：722-736(2015))。引导结构和PAM由R.Barrangou(Genome Biol.16：247(2015))描述。

PAM序列的非限制性实例包括：CC、CA、AG、GT、TA、AC、CA、GC、CG、GG、CT、TG、GA、AGG、TGG、富含T的PAM(诸如TTT、TTG、TTC、TTTT(SEQ ID NO：385)等)、NGG、NGA、NAG、NGGNG和NNAGAAW(W＝A或T，SEQ ID NO：912)、NNNNGATT(SEQ ID NO：913)、NAAR(R＝A或G)、NNGRR(R＝A或G)、NNAGAA(SEQ ID NO：914)和NAAAAC(SEQ ID NO：915)，其中“N”是任意核苷酸。

“互补性”是指核酸通过常规沃尔森-克里克或其它非常规类型与另一个核酸序列形成一个或多个氢键的能力。互补性百分比表示核酸分子中可与第二个核酸序列形成氢键(例如，沃尔森-克里克碱基对)的残基的百分比。不一定需要完全互补，只要有足够的互补性来引起杂交即可。PAM远端可能存在错配。

d.转座子

任何编码CRISPR-Cas系统的Tn7转座子都可用于本发明方法和系统。

例如，I型Cascade复合物可用于本发明方法和系统。I型CRISPR-Cas系统编码称为Cascade的多亚单位蛋白质-RNA复合物，所述多亚单位蛋白质-RNA复合物在免疫反应过程中利用crRNA(或引导RNA)靶向双链DNA。Cascade本身没有核酸酶活性，而靶向DNA的降解是由称为Cas3的反式作用核酸酶介导的。有趣的是，在Tn7转座子中发现的I-F和I-B系统始终缺乏Cas3基因，这表明这些系统不再保留任何DNA降解能力，并已被简化为RNA引导的DNA结合复合物。另外，Tn7转座子用于选择转座子移动性目的DNA靶位点的核心蛋白之一TnsD(也称为TniQ)明显由直接位于这些系统中的Cas基因操纵子内的基因编码，这表明由Cas基因编码的Cascade复合物与由Tn(Tns)转座酶基因编码的转座体酶促机器之间存在直接的耦合或功能关系。

在本方法中可使用来源于霍乱弧菌的系统，该系统含有I-FCRISPR-Cas系统。其它系统(对于其CRISPR-Cas系统被归类为I-F型或I-B型)也可用于本方法。这些系统包括来自霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌的CRISPR系统。

编码被称为c2c5的推定的效应基因的V型系统可用于本发明方法和系统。V型系统编码推定的效应子，其可以是利用单一gRNA发挥功能的单蛋白质。这些系统可具有不同的包装尺寸、组装、核定位等。V型CRISPR-Cas系统属于2类系统，其依赖与引导RNA一起的单蛋白效应子，因此仍然有可能通过使用如C2c5等单蛋白效应子而不是I型系统(即Cascade)编码的多亚基蛋白-RNA复合物来简化工程策略。这些操纵子可被克隆到同一主链上。

任何CRISPR-Cas/Tn7转座子均可用于本发明方法和系统。它们可具有不同的效率、不同的特异性、不同的编码大小、不同的PAM特异性、不同的转座子末端序列等。

本发明系统可包括TnsD或TniQ。本发明系统可包括TnsA、TnsB和TnsC。本发明系统可包括TnsB和TnsC。

e.载体

此处描述的方法和组合物的Cas蛋白和/或Tns蛋白可从生物体中工程化、嵌合或分离。可将Cas蛋白和/或Tns蛋白以蛋白质形式或编码该蛋白质的核酸形式(诸如mRNA或cDNA)引入细胞。

本公开还提供了工程化的、非天然存在的载体和载体系统，其可编码本发明系统的一种或多种组分。

本发明系统和方法可包括一种或多种用于在原核细胞或真核细胞中进行RNA引导的DNA整合的载体。

可使用一种或多种载体(例如，1、2、3、4、5、6、7、8、9种或更多种载体)将本发明系统递送至受试者或细胞。一种或多种gRNA(例如sgRNA)可存在于单个(一个)载体或两个或多个载体中。载体还可包含供体DNA。一种或多种Cas蛋白和/或Tns蛋白可存在于同一载体或单独的载体中。

可向患者(体内)直接施用载体，或者可将它们用于体外或离体操作细胞，其中可向患者施用经修饰的细胞。将本公开的载体递送至受试者的真核细胞。通过本发明系统对真核细胞的修饰可在细胞培养物中进行，其中所述方法包括在修饰之前从受试者中分离真核细胞。在一些实施方案中，所述方法还包括将所述真核细胞和/或源自其的细胞返回给受试者。

常规的基于病毒和非病毒的基因转移方法可用于将编码本发明系统的组分的核酸引入细胞、组织或受试者。此类方法可用于向培养中的细胞或宿主生物体中的细胞施用编码本发明系统的组分的核酸给。非病毒载体递送系统包括DNA质粒、粘粒、RNA(如本文所述载体的转录物)、核酸和与递送载体复合的核酸。病毒载体递送系统包括DNA和RNA病毒，所述病毒在递送到细胞后具有附加型基因组或整合的基因组。病毒载体包括例如逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。

在某些实施方案中，必需的蛋白质和RNA机器可以与转座子供体在同一质粒上表达，因此整个系统是完全自主的。引导DNA靶向和DNA整合的机器可被编码在转座子本身内，使得其可以自主地引导进一步的动员，无论是在最初转化的细菌中，还是在其它细菌中(例如在接合质粒的环境中，在微生物组的环境中，等等)。

在某些实施方案中，必需的蛋白质和RNA机器可以在两个或更多个质粒上表达。

可使用的启动子包括T7 RNA聚合酶启动子、组成型大肠杆菌启动子和可被广泛细菌生物体中的转录机器广泛识别的启动子。所述系统可用于各种细菌宿主。

在某些实施方案中，可使用非复制性的质粒，或者可通过高温固化的质粒。转座子和转座子/CRISPR相关机器可以在某些条件下从工程化的细胞中去除。这可允许通过转化目标细菌进行RNA引导的整合，但随后留下的工程化的菌株对用于促进RNA引导的DNA整合的质粒没有记忆。

可采用药物选择策略来正选择经历了RNA引导的DNA整合的细胞。转座子可在运载物中包含一种或多种药物选择标记。然后假设原始转座子供体质粒被去除(通过本文描述的方法)，药物选择可用于富集整合的克隆。

菌落筛选可用于分离克隆事件。

多种病毒构建体可用于将本发明系统(诸如一种或多种Cas蛋白和/或Tns蛋白、一种或多种gRNAgRNA、供体DNA等)递送到靶细胞和/或受试者。此类重组病毒的非限制性实例包括重组腺相关病毒(AAV)、重组腺病毒、重组慢病毒、重组逆转录病毒、重组单纯疱疹病毒、重组痘病毒、噬菌体等。本公开提供了能够在宿主基因组中整合的载体，诸如逆转录病毒或慢病毒。参见，例如，Ausubel等人，Current Protocols in Molecular Biology，JohnWiley&Sons，New York，1989；Kay，M.A.等人，2001 Nat.Medic.7(1)：33-40；以及WaltherW.和Stein U.，2000Drugs，60(2)：249-71，其通过引用并入本文。

本公开还提供了编码本文公开的蛋白质的DNA片段、包含这些片段的载体和包含所述载体的宿主细胞。所述载体可用于在合适的宿主细胞中扩增该区段并且/或者允许从该区段表达(即，表达载体)。本领域普通技术人员将知道可用于克隆的DNA序列的扩增和表达的各种载体。在一个实施方案中，编码一种或多种本发明蛋白质的DNA区段包含在质粒载体中，所述载体允许一种或多种蛋白质表达以及随后分离和纯化由重组载体产生的蛋白质。因此，本文公开的蛋白质可在由天然转座子表达后纯化，通过化学合成获得，或者通过重组方法获得。

为了构建表达本发明系统的细胞，可通过本文所述的常规方法构建用于本发明系统的稳定或瞬时表达的表达载体并将其引入入宿主细胞。例如，可将编码本发明系统的组分的核酸克隆到合适的表达载体，诸如与合适的启动子可操作键联的质粒或病毒载体中。表达载体/质粒/病毒载体的选择应适合在真核细胞中进行整合和复制。

在某些实施方案中，本公开的载体可使用哺乳动物表达载体驱动哺乳动物细胞中的一种或多种序列的表达。哺乳动物表达载体的实例包括pCDM8(Seed，Nature(1987)329：840，其通过引用并入本文)和pMT2PC(Kaufman等人，EMBO J.(1987)6：187，其通过引用并入本文)。当用于哺乳动物细胞时，表达载体的控制功能通常由一个或多个调控元件提供。例如，常用的启动子来源于多瘤病毒、腺病毒2、巨细胞病毒、猿猴病毒40以及本文公开的和本领域已知的其它病毒。关于用于原核和真核细胞两者的其它合适的表达系统，参见例如Sambrook等人，MOLECULAR CLONING：A LABORATORY MANUAL.第2版，Cold Spring HarborLaboratory，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.，1989的第16章和第17章(其通过引用并入本文)。

本公开的载体可包含本领域已知的许多启动子中的任一种，其中启动子是组成型的、可调节的或诱导型的、细胞类型特异性的、组织特异性的或物种特异性的。除了足以指导转录的序列之外，本发明的启动子序列还可包括参与调节转录的其它调控元件(例如，增强子、kozak序列和内含子)的序列。可用于驱动基因的组成型表达的许多启动子/调控序列在本领域中是可用的，包括但不限于，例如，CMV(巨细胞病毒启动子)、EF1a(人延伸因子1α启动子)、SV40(猿猴空泡病毒40启动子)、PGK(哺乳动物磷酸甘油酸激酶启动子)、Ubc(人遍在蛋白C启动子)、人β-肌动蛋白启动子、啮齿动物β-肌动蛋白启动子、CBh(鸡β-肌动蛋白启动子)、CAG(含有CMV增强子、鸡β-肌动蛋白启动子和兔β-珠蛋白剪接受体的杂交启动子)、TRE(四环素应答元件启动子)、H1(人聚合酶III RNA启动子)、U6(人U6小核启动子)等。可用于表达本发明系统的组分的其它启动子包括但不限于巨细胞病毒(CMV)中间早期启动子、病毒LTR诸如劳斯肉瘤病毒LTR、HIV-LTR、HTLV-1 LTR、莫洛尼鼠白血病病毒(MMLV)LTR、髓增生性肉瘤病毒(Maloney murine leukemia virus)(MPSV)LTR、脾病灶形成病毒(SFFV)LTR、猿猴病毒40(SV40)早期启动子、单纯疱疹tk病毒启动子、延伸因子1-α(EF1-α)启动子(有或无EF1-α内含子)。其它启动子包括任何组成型活性启动子。或者，可以使用任何可调控的启动子，使得可在细胞内调节其表达。

此外，通过将编码这种分子的核酸置于诱导型或组织特异性启动子/调控序列的控制下，可以实现RNA、跨膜蛋白或其它蛋白的诱导型和组织特异性表达。可用于此目的的组织特异性或诱导型启动子/调控序列的实例包括但不限于视紫红质启动子、MMTV LTR诱导型启动子、SV40晚期增强子/启动子、突触蛋白1启动子、ET肝细胞启动子、GS谷氨酰胺合酶启动子和许多其它启动子。各种商购可得的遍在启动子以及组织特异性启动子和肿瘤特异性启动子是可以例如从InvivoGen获得。此外，本领域公知的启动子可以响应于诱导剂诸如金属、糖皮质激素、四环素、激素等而被诱导，也预期用于本发明。因此，应当理解，本公开包括本领域已知的能够驱动与其可操作连接的所需蛋白质表达的任何启动子/调控序列的用途。

本公开的载体可指导核酸在特定细胞类型中的表达(例如，组织特异性调控元件用于表达核酸)。此类调控元件包括组织特异性或细胞特异性的启动子。当其用于启动子时，术语“组织特异性的”是指能够指导目标核苷酸序列在特定类型的组织(例如，种子)中选择性表达，但在不同类型的组织中相对不表达所述相同的目标核苷酸序列的启动子。当用于启动子时，术语“细胞类型特异性的”是指能够指导目标核苷酸序列在特定类型的细胞中选择性表达，但在相同组织内的不同细胞中相对不表达所述相同目标核苷酸序列的启动子。当应用于启动子时，术语“细胞类型特异性的”也指能够促进目标核苷酸序列在单个组织内的区域中选择性表达的启动子。启动子的细胞类型特异性可使用本领域公知的方法，例如免疫组织化学染色来评估。

另外，载体可包含例如以下的一部分或全部：选择标记基因，诸如用于在宿主细胞中选择稳定或瞬时转染子的新霉素基因；用于高水平转录的来自人CMV的立即早期基因的增强子/启动子序列；用于mRNA稳定性的来自SV40的转录终止和RNA处理信号；来自高表达基因如α-珠蛋白或β-珠蛋白的用于mRNA稳定性和翻译效率的5’-和3’-非翻译区；SV40多瘤复制起点和用于正常附加体复制的ColE1；内部核糖体结合位点(IRES)，通用多克隆位点；用于有义和反义RNA体外转录的T7和SP6 RNA启动子；“自杀开关”或“自杀基因”，其在被触发时导致携带载体的细胞死亡(例如，HSV胸苷激酶、诱导型半胱天冬酶诸如iCasp9)，以及用于评估嵌合受体表达的报告基因。用于产生含有转基因的载体的合适载体和方法是公知的，并且在本领域中是可获得的。选择标记还包括氯霉素抗性、四环素抗性、壮观霉素抗性、链霉素抗性、红霉素抗性、利福平抗性、博菜霉素抗性、热适应卡那霉素抗性、庆大霉素抗性、潮霉素抗性、甲氧苄啶抗性、二氢叶酸还原酶(DHFR)、GPT；酿酒酵母的URA3、HIS4、LEU2和TRP1基因。

当载体被引入宿主细胞时，其可保持为自主复制序列或染色体外元件，或者可被整合到宿主DNA中。

在一个实施方案中，供体DNA可使用与用于递送Cas蛋白和/或Tns蛋白(包含在同一载体上)的基因转移系统相同的基因转移系统递送，或者可使用不同的递送系统递送。在另一个实施方案中，可使用与递送gRNA的转移系统相同的转移系统递送供体DNA。

在一个实施方案中，本公开包括将外源DNA整合到内源性基因中。

或者，外源DNA未被整合到内源性基因中。可将DNA包装到染色体外或附加型载体(诸如AAV载体)中，所述载体以染色体外状态存在于细胞核中，并提供供体模板递送和表达而不整合到宿主基因组中。Wade-Martins R详细论述了染色体外基因载体技术的用途(Methods Mol Biol.2011；738：1-17，其通过引用并入本文)。

本发明系统(例如，蛋白质、编码这些蛋白质的多核苷酸、供体多核苷酸和包含本文所述蛋白质和/或多核苷酸的组合物)可通过任何合适的方式递送。在某些实施方案中，体内递送所述系统。在其它实施方案中，将所述系统被体外递送至分离/培养的细胞(例如，自体iPS细胞)，以提供用于体内递送至患有疾病或疾患的患者的经修饰的细胞。

根据本公开的载体可被转化、转染或以其它方式引入多种宿主细胞。转染指的是宿主细胞对载体的摄取，而无论实际上是否表达了任何编码序列。本领域普通技术人员已知多种转染方法，例如，lipofectamine、磷酸钙共沉淀、电穿孔、DEAE-葡聚糖处理、显微注射、病毒感染和本领域已知的其它方法。转导是指病毒进入细胞并且表达(例如，转录和/或翻译)由病毒载体基因组递送的序列。在重组载体的情况下，“转导”通常指重组病毒载体进入细胞并表达由载体基因组递送的目标核酸。

包含编码本发明系统的组分的核酸序列的任何载体也在本公开的范围内。这种载体可通过合适的方法递送到宿主细胞中。将载体递送至细胞的方法在本领域中是公知的，并且可包括DNA或RNA电穿孔、递送DNA或RNA的转染剂诸如脂质体或纳米颗粒；通过机械变形进行的DNA、RNA或蛋白质的递送(参见，例如Sharei等人Proc.Natl.Acad.Sci.USA(2013)110(6)：2082-2087，其通过引用并入本文)；或者病毒转导。在一些实施方案中，通过病毒转导将载体递送至宿主细胞。可将核酸作为更大构建体(诸如质粒或病毒载体)的一部分递送，或者直接递送，例如通过电穿孔、脂质囊泡、病毒转运体、显微注射和生物弹射(biolistics)(高速粒子轰击)。类似地，包含一种或多种转基因的构建体可通过任何适于将核酸引入细胞的方法来递送。在一些实施方案中，构建体或编码本发明系统的组分的核酸是DNA分子。在一些实施方案中，编码本发明系统的组分的核酸是DNA载体，并且可被电穿孔至细胞。在一些实施方案中，编码本发明系统的组分的核酸是可被电穿孔至细胞的RNA酸分子。

另外，可使用诸如基于纳米颗粒和脂质的mRNA或蛋白质递送系统等递送载体。递送载体的其它实例包括慢病毒载体、核糖核蛋白(RNP)复合物、基于脂质的递送系统、基因枪、流体动力学、电穿孔或核转染显微注射和生物弹射。Nayerossadat等人(Adv BiomedRes.2012；1：27)和Ibraheem等人(Int J Pharm.2014年1月1日；459(1-2)：70-83)详细论述了各种基因传递方法，所述文献通过引用并入本文。

2.组合物

本发明系统和可自转座的核酸序列可以作为药物组合物在药学上可接受的载体或赋形剂中施用。

本发明系统或组合物的施用可以在整个治疗过程中以一剂、连续或间歇的方式施用。施用可通过任何合适的施用方式，包括但不限于：静脉内、动脉内、肌内、心内、鞘内、脑室下、硬膜外、脑内、脑室内、视网膜下、玻璃体内、关节内、眼内、腹膜内、子宫内、皮内、皮下、经皮肤、经粘膜、局部和吸入。

确定最有效的施用方式和剂量的方法是本领域技术人员已知的，并且会随着用于治疗的组合物、治疗目的和所治疗的受试者变化而变化。可进行单次或多次施用，剂量水平和模式由治疗医生选择。

在一些实施方案中，本发明系统的组分或可自转座的核酸序列可以与药学上可接受的载体混合以形成药物组合物，这也在本公开的范围内。

为了实施本文所述的方法，可向需要治疗的受试者施用有效量的本发明系统、可自转座的核酸序列或本发明组合物。如本文中所用，术语“有效量”可以与术语“治疗有效量”互换使用，并且是指剂、细胞群或药物组合物(例如，包含剂和/或造血细胞的组合物)的量，所述量足以在向有需要的受试者施用时产生期望的活性。在本公开的说明书中，术语“有效量”是指足以延迟通过本公开的方法治疗的疾病的表现、阻止其进展、缓解或减轻其至少一种症状的化合物、细胞群或药物组合物的量。应注意，当施用活性成分的组合时，所述组合的有效量可以包括或可以不包括单独施用时有效的每种成分的量。

正如本领域技术人员所认识到的，有效量是变化的，这取决于所治疗的特定疾患、疾患的严重程度、包括年龄、身体状况、体型、性别和体重在内的个体患者参数、治疗的持续时间、并行疗法的性质(如果有的话)、具体施用途径以及卫生执业医师的知识和专业技能范围内的类似因素。在一些实施方案中，有效量缓解、减轻、改善、改善、减少症状或延迟受试者中任何疾病或疾患的进展。在一些实施方案中，受试者是人。在一些实施方案中，受试者是患有造血系统恶性肿瘤的人患者。

在本公开的说明书中，只要其涉及本文所述的任何疾病状况，术语“治疗(treat)”、“治疗(treatment)”等意指减轻或缓解与这种状况相关的至少一种症状，或者减缓或逆转这种状况的进展。在本公开的含义内，术语“治疗”还表示阻止、延迟疾病发作(即，疾病临床表现之前的时期)并且/或者降低疾病发展或恶化的风险。例如，与癌症相关的术语“治疗”可意味着消除或减轻患者的肿瘤负荷，或预防、延迟或抑制转移等。

如与本公开的组合物和/或细胞结合使用的，短语“药学上可接受的”是指此类组合物的分子实体和其它成分，它们是生理上可耐受的，并且当向受试者(例如哺乳动物、人)施用时通常不会产生不良反应。优选地，如本文中所用，术语“药学上可接受的”是指由联邦或州政府的监管机构批准或在美国药典或其它公认的药典中列出的用于哺乳动物，更具体地说用于人的。“可接受的”意指载体与组合物的活性成分(例如，核酸、载体、细胞或治疗性抗体)相容，并且不会对施用了组合物的受试者产生负面影响。用于本发明方法的任何药物组合物和/或细胞可包含呈冻干形式或水溶液形式的药学上可接受的载体、赋形剂或稳定剂。

药学上可接受的载体，包括缓冲液，是本领域公知的，并且可包括磷酸盐、柠檬酸盐和其它有机酸；包括抗坏血酸和甲硫氨酸在内的抗氧化剂；防腐剂；低分子量多肽；蛋白质，诸如血清白蛋白、明胶或免疫球蛋白；氨基酸；疏水性聚合物；单糖；二糖；和其它碳水化合物；金属络合物；和/或非离子表面活性剂。参见，例如，Remington：The Science andPractice of Pharmacy第20版(2000)Lippincott Williams and Wilkins，编辑K.E.Hoover。

3.应用

a.遗传分析

本发明系统和方法可用于遗传分析。遗传分析包括但不限于：无效等位基因表型(由于转座子区段中断基因而不表达功能性蛋白)的评估；评估特定活性DNA结构或序列的插入对染色体或其部分的遗传特性(诸如但不限于对DNA酶I或足迹试剂的可及性，或附近可转录基因的表达或沉默)，或对遗传或表观遗传过程的活性(诸如，但不限于同源重组、化学诱变、氧化DNA损伤、DNA甲基化、前病毒或逆转座子的插入)的影响的评估；通过在多结构域蛋白质的基因内产生多个断点进行的蛋白质结构域结构的评估，其中缺失多结构域蛋白质的一个或多个结构域的基因产物可能表现出一种或多种部分活性，包括抗原活性或免疫显性表位；通过在可转座的区段内产生靶中的启动子与报告基因(例如β半乳糖苷酶或绿色荧光蛋白或氯霉素转乙酰酶或萤光素酶)的转录融合物进行的表达模式的评估；通过产生由靶标编码的基因产物的一部分与由可转座的区段编码的基因产物或抗原肽(例如β半乳糖苷酶或表位标签或亲和标签)的翻译融合物进行的表达模式的评估；操纵子结构的评估，其中通过在基因的上游进行插入来中断转录导致基因表达的改变，而不破坏该基因的编码序列；基因的无理由表达，其中无论可转座的区段内的启动子的转录是否受到调控，从可转座的区段内的启动子转录均导致可转座的区段的插入位置下游的基因表达；蛋白质融合物的无理由表达，其中从可转座的区段内的启动子转录导致蛋白质翻译，所述蛋白质翻译始于可转座的区段内并向转座子外部进行，然后继续进入所述可转座的区段所插入的基因内，产生转座子编码的蛋白与靶蛋白的融合物；将完全在可转座的区段内编码的任何转录物或基因产物引入宿主细胞的后果的评估，尤其是在需要评估位置效应的情况下(不仅是表达的后果，而且是在基因组内不同位置表达的后果)。

本发明系统和方法可用于靶向DNA富集，其中用户定义的遗传有效载荷被导向整合在DNA中用户定义的位点处。该方法可应用于各种应用领域，诸如用于临床上重要的工作流程。这些包括但不限于全外显子组测序(WES；参见Suwinski等人，Front.Genet.10，49(2019)；Warr等人，G3(Bethesda)5，1543-1550(2015))；患者适应性免疫库(adaptiveimmune repertoires)，特别是T细胞受体和免疫球蛋白多样化的深度测序(参见Friedensohn等人，Trends Biotechnol 35，203-214(2017)和Rosati等人，BMCBiotechnol.17，61(2017)，其通过引用并入本文)；以及肿瘤学背景下癌症生物标志物的靶向富集和深度测序(Kamps等人，Int J Mol Sci 18，(2017)，其通过引用并入本文)。

在一个实施方案中，本发明系统可用于目标核酸序列(NASI)的侧翼。NASI可在NASI的一侧具有第一侧翼序列，在另一侧具有第二侧翼序列。所述方法包括转座子编码的CRISPR-Cas系统，如本文所述，所述系统包括对第一侧翼区特异的第一引导RNA和对第二侧翼区特异的第二引导RNA。因此，CRISPR-Cas系统将左转座子末端整合到第一侧翼区中，并将右转座子末端整合到第二侧翼区中。

在另一个实施方案中，本发明系统和方法用于通过在体外进行生化RNA引导的DNA整合(例如，利用纯化的蛋白质/RNA组分和输入的DNA)来进行靶向DNA富集。靶向DNA富集可包括在扩增条件下将样品与对左转座子末端序列特异的第一引物、对右转座子末端序列特异的第二引物和聚合酶接触。扩增后，如上所述，可用下一代测序(NGS)或全外显子组测序(WES)对NASI进行测序。

CRISPR-Tn7系统的所有必需的或足够的分子组分都是重组表达和纯化的，在来自霍乱弧菌的CRISPR-Tn7系统的情况下，所述分子组分包括Vch TnsA、TnsB、TnsC、TniQ、gRNACas7、Cas6，以及Cas8和Cas5多肽的天然融合物。gRNA可包含单个gRNA，但在大多数实施方案中，包含gRNA文库，所述gRNA文库被设计成靶向互补的目标DNA序列(例如，两侧是前间区序列邻近基序或PAM的32-bp的前间区序列)，使得RNA引导的DNA整合发生在目标DNA序列附近，用于下游富集。

蛋白质和gRNA组分与工程化的转座子左(“L”)端和右(“R”)端序列组合，其可呈现为位于内部遗传有效载荷两侧的单个线性双链DNA(dsDNA)，或者呈现为两个独立的DNA分子，每个分子包含dsDNA L端或R端；转座子末端也可以共价附接至遗传有效载荷。遗传有效载荷可以是短的衔接子，诸如在PCR扩增步骤中用于下游引物结合的序列，对于用于大规模并行DNA测序的NGS文库制备物，也如此进行，诸如使用Illumina、Pacbio、Ion Torrent或Nanopore平台。转座子末端序列本身也可以作为下游NGS文库制备的引物结合位点。工程化的转座子左(“L”)和右(“R”)端序列可包含UMI(唯一分子标识符)序列。唯一分子标识符(UMI)或分子条形码(MBC)是添加到DNA片段的短序列或分子“标签”，通常用于一些下一代测序文库制备方案，以鉴定输入DNA分子。然后，将蛋白质和RNA分子组分，连同转座子末端序列(其有时与用户定义的遗传有效载荷或衔接子连接)与含有待富集的一种或多种目标序列的输入DNA组合。所述DNA可以是纯化的基因组DNA、细胞裂解物或其它细胞提取物中的基因组DNA、宏基因组样品中的DNA混合物、来自病毒的DNA、来自细菌、古细菌和/或真核细胞中的DNA或其它类型的DNA样品。

b.遗传修饰

本文还提供了产生由本发明系统修饰的核酸分子或细胞的方法。所述方法可包括提供细胞并将本发明系统的组分引入细胞以用于基因组编辑。在一些实施方案中，将包含与靶位点杂交的gRNA的核酸引入细胞。在一些实施方案中，将gRNA在载体上引入细胞。在一些实施方案中，将Cas蛋白和/或Tns蛋白引入细胞。在一些实施方案中，将Cas蛋白和/或Tns蛋白作为编码所述蛋白的核酸引入细胞。在一些实施方案中，将gRNA和编码一种或多种Cas蛋白和/或Tns蛋白的核苷酸序列在同一核酸(例如，同一载体)上引入细胞。在一些实施方案中，将gRNA和编码一种或多种Cas蛋白和/或Tns蛋白的核苷酸序列在不同的核酸(例如，不同的载体)上引入细胞。在一些实施方案中，将Cas蛋白和/或Tns蛋白以蛋白质形式引入细胞。在一些实施方案中，在体外预先形成Cas蛋白核酸内切酶和gRNA，并将其作为复合物引入细胞。

本公开提供了由本发明系统和方法产生的经修饰的细胞、包含所述细胞的生物体(例如，动物、植物等)、包含所述细胞的细胞群、包含所述细胞的生物体(例如，动物、植物等)的组织以及包含所述细胞的生物体(例如，动物、植物等)的至少一个器官。本公开还涵盖经遗传修饰的生物体(例如，动物、植物等)的后代、克隆、细胞系或细胞。

本公开提供了经遗传修饰的生物体(例如，动物、植物等)。经遗传修饰的生物体(例如，动物、植物等)对于遗传修饰可以是纯合的或杂合的。

本发明系统和方法可用于产生用于实验和筛选测定的所需疾病、病症或疾患的动物模型。

本公开还提供了经遗传修饰的细胞的后代，其中所述后代可与其所源自的经遗传修饰的细胞包含相同的遗传修饰。本公开还提供了包含经遗传修饰的细胞的组合物。

在一些实施方案中，经遗传修饰的宿主细胞可产生经遗传修饰的生物体。例如，经遗传修饰的宿主细胞是多能干细胞，其可产生经遗传修饰的生物体。产生经遗传修饰的生物体的方法是本领域已知的。

可使用包括例如从动物获得的组织样品的Northern印迹分析、原位杂交分析、Western分析、诸如酶联免疫吸附测定等的免疫测定和逆转录酶PCR(RT-PCR)的技术来评估遗传修饰。整合位点可以通过桑格测序来确定。例如，由分析性PCR反应扩增DNA，并通过凝胶电泳进行分离。然后通过凝胶提取分离DNA，并分析样品。整合位点可通过下一代测序来确定(NGS)。

CRISPR作为基因编辑技术相对于以前的基于蛋白质的技术(诸如ZFN和TALEN)的优势在于对gRNA的依赖意味着特异性可以容易地改变，gRNA文库可被直接克隆，同时靶向数万个位点。

gRNA文库可被用于以下两种方法。首先，可在单个异质细胞群中，使用整个群体的gRNA文库将本发明的转座子靶向多个独特位点(例如，数百至数万个独特位点)，用于筛选目的或细胞工程目的。这可能在细菌和真核细胞中有用。

其次，可将gRNA文库引入单一的、工程化的CRISPR阵列中，使得单一的含有CRISPR的转座子具有一套gRNA，所述gRNA可将系统动员到许多DNA靶位点，无论何时在细胞环境中遇到这些位点。单个自主的包含CRISPR的转座子可用大的gRNA文库同时编程，用于多重RNA引导的DNA整合。

本发明转座子可被同时整合到单个细菌克隆中的多个基因组位点。

在一些实施方案中，用于RNA引导的DNA整合的本发明方法和系统递送运载物基因，转座子末端序列(其是通过TnsA和TnsB机器进行特异性切除和整合所需要的)留下或未留下疤痕。这些末端序列可具有不同的序列特异性。一个或多个碱基对可被突变而不会降低整合效率。本发明方法和系统可以允许以尽可能小的疤痕整合，并且/或者整合允许蛋白质编码序列延伸通过转座子末端序列。

本发明的方法和系统可用于特异性标记目标基因的N端或C端(或将其内部标记)，由此整合的末端序列将编码接头样氨基酸序列，其将天然蛋白质与转座子供体内编码的运载物(诸如表位标签、荧光报告蛋白等)桥接。

目前使用可编程核酸酶将大的运载物插入细胞是有限制的。本发明系统和方法允许插入大的供体DNA运载物。供体DNA运载物的长度可以是至少或约2kb、至少或约10kb、至少或约50kb、至少或约100kb、20kb至60kb、或20kb至100kb。

大的供体DNA运载物可被插入任何细胞(真核细胞或原核细胞)。在一些实施方案中，将大的供体DNA插入细菌细胞。细菌细胞可以是大肠杆菌细胞。细菌细胞可在比所述细菌细胞的最佳生长温度低至少5摄氏度的条件下培养。培养温度可以低于37摄氏度，包括例如约32摄氏度、约30摄氏度、约28摄氏度、约26摄氏度、约24摄氏度、约22摄氏度、约20摄氏度、20至32摄氏度、25至30摄氏度或28至32摄氏度。

a.植物

植物的遗传修饰是满足日益增长的食物需求的有力工具。转基因植物有可能提高作物产量，增强营养价值，以及延长保质期。它们还能抵抗不利的环境条件、昆虫和杀虫剂。参见，例如，Genetic engineering for improving quality and productivity ofcrops，Agriculture&Food Security，2013，2：15，其通过引用并入本文。第一个被美国农业部批准用于商业生产的遗传修饰植物是1992年的FLAVR SAVR番茄。对FLAVR SAVR番茄进行了修饰，以增加番茄的硬度，从而延长保质期。

已经用于遗传修饰植物的系统包括锌指核酸酶(ZFN)、TALEN(转录激活因子样效应核酸酶)、寡核苷酸定向诱变(ODM)和CRISPR-Cas。参见，例如，Shah T，Andleeb T等人Plant Physiology and Biochemistry，2018，131：12-21，其通过引用并入本文。与可将重组分子(DNA、RNA或蛋白质)直接转化到其中以进行基因组编码的动物、酵母或细菌细胞不同，通常通过土壤杆菌介导的转化、基因枪法或由于细胞壁的存在而进行的原生质体转化将重组质粒DNA递送到植物细胞中。另外，与其中基因靶向是一种既定的工具的微生物和哺乳动物系统相反，在植物中实现成功的基因靶向是极其低效和困难的，这主要归因于同源重组的低频率。因此，迫切需要开发新的技术，用以在植物中实现更高效且更特异的基因打靶和基因组编辑。

本发明系统和方法在基因发现和验证、突变和同源基因育种以及杂交育种中具有广泛的应用。这些应用应促进新一代遗传修饰农作物的生产，所述农作物具有各种改良的农艺性状，诸如除草剂抗性、除草剂耐受性、耐旱性、雄性不育性、抗虫性、非生物胁迫耐受性、改良的脂肪酸代谢、改良的碳水化合物代谢、提高的种子产量、提高的油百分比、提高的蛋白质百分比、对细菌疾病的抗性、对疾病(例如细菌、真菌和病毒)的抗性、高产率和优良品质。这些应用还可促进新一代遗传修饰农作物的生产，所述农作物具有优化的香味、营养价值、保质期、色素沉着(例如番茄红素含量)、淀粉含量(例如，低筋小麦)、毒素水平、繁殖和/或育种和生长时间。参见，例如，CRISPR/Cas Genome Editing and Precision PlantBreeding in Agriculture (Annual Rev of Plant Biology，2019)，其通过引用并入本文。

本公开提供了工程化的转座子编码的CRISPR-Cas系统和方法，用于在植物细胞中进行RNA引导的DNA整合，所述CRISPR-Cas系统和方法包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)工程化的转座子系统。

本公开提供了工程化的转座子编码的CRISPR-Cas系统和方法，用于在植物细胞中进行RNA引导的DNA整合，所述CRISPR-Cas系统和方法包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)Tn7样转座子系统。

本公开还包括用于在植物细胞中进行RNA引导的DNA整合的系统和方法，所述系统和方法包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码Tn7样转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开还提供了用于在植物细胞中进行RNA引导的DNA整合的系统和方法，所述系统和方法包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码工程化的转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开提供了用于在植物细胞中进行RNA引导的DNA整合的方法，所述方法包括将工程化的转座子编码的CRISPR-Cas系统引入植物细胞，其中转座子编码的CRISPR-Cas系统包括：(i)至少一种Cas蛋白，(ii)对靶位点特异的引导RNA(gRNA)，(iii)工程化的转座子系统，和(iv)供体DNA，其中转座子编码的CRISPR-Cas系统将供体DNA整合到靶位点附近。

所述系统和方法还可包括供体DNA。供体DNA包含运载物核酸和转座子末端序列。转座子编码的CRISPR-Cas系统可将供体DNA整合到植物细胞的基因组中。

运载物核酸的两侧可以是转座子末端序列。整合可在靶位点下游约46-bp至55-bp。整合可在靶位点下游约47-bp至51-bp。

靶位点的两侧可以是前间区序列邻近基序(PAM)。转座子系统可以是细菌Tn7样转座子系统。Tn7经由剪切粘贴式机制(II类)转座。Choi等人PNAS 110(22)：E2038-E2045(2013)；Ivics等人Nature Methods 6(6)：415-422(2009)。转座子系统可来源于霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。工程化的转座子编码的CRISPR-Cas系统可来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

在一个实施方案中，转座子系统来源于霍乱弧菌Tn6677。所述系统可包含功能获得性Tn7突变体(Lu等人EMBO 19(13)：3446-3457(2000)；美国专利公布第20020188105号)以及复制型Tn7转座突变体(May等人Science 272：401-404(1996))。

转座子系统可包括TnsD或TniQ。本发明系统可包括TnsA、TnsB和TnsC。本发明系统可包括TnsB和TnsC。

所述系统可来自1类CRISPR-Cas系统。本发明系统可来自2类CRISPR-Cas系统。本发明系统可来自I型CRISPR-Cas系统。本发明系统可来自V型CRISPR-Cas系统。

本发明系统可能缺乏核酸酶。本发明系统可包括Cas6、Cas7和Cas8/Cas5融合物。本发明系统可包括Cas6、Cas7、Cas8和Cas5。所述系统可包括Cascade复合物。本发明系统可包括C2c5(Cas12k)。

可使用本发明系统和方法进行遗传修饰的植物的非限制性实例包括：谷物、饲料作物、水果、蔬菜、油料作物、棕榈、林业、藤本植物、玉米(玉米、玉蜀黍)、香蕉、花生、紫花豌豆、向日葵、番茄、油菜、烟草、小麦、大麦、燕麦、马铃薯、大豆、棉花、康乃馨、高粱、羽扇豆、水稻、拟南芥、蒺藜苜蓿、番茄、大豆、二穗短柄草、稻、高粱和马铃薯。在一些实施方案中，植物属于矮牵牛属、颠茄属、芜菁甘蓝属、柳枝稷属、苹果属、本氏烟草或狗尾草。

本发明系统和方法可用于修饰单子叶植物，包括水稻、模式植物和农作物物种。本发明的系统和方法可用于修饰双子叶植物，包括例如大豆、马铃薯(茄属(Solanum))和拟南芥。

本发明系统和方法可用于转化许多单子叶和双子叶植物以及植物细胞系统，包括双子叶植物诸如红花、苜蓿、大豆、咖啡、苋菜、油菜籽(高芥酸和油菜)、花生或向日葵，以及单子叶植物诸如油棕、甘蔗、香蕉、苏丹草、玉米、小麦、黑麦、大麦、燕麦、水稻、小米或高粱。也适合裸子植物，诸如冷杉和松树。

因此，本文所述的方法可用于例如属于以下目的双子叶植物：木兰目(Magniolales)、八角茴香(目Illiciales)、樟目(Laurales)、胡椒目(Piperales)、马兜铃目(Aristochiales)、睡莲目(Nymphaeales)、毛茛目(Ranunculales)、Papeverales、瓶子草目(Sarraceniaceae)、昆栏树目(Trochodendrales)、金缕梅目(Hamamelidales)、杜仲目(Eucomiales)、塞子木目(Leimeriales)、杨梅目(Myricales)、壳斗目(Fagales)、木麻黄目(Casuarinales)、石竹目(Caryophyllales)、肉穗果目(Batales)、蓼目(Polygonales)、蓝雪目(Plumbaginales)、五桠果目(Dilleniales)、山茶目(Theales)、锦葵目(Malvales)、荨麻目(Urticales)、玉蕊目(Lecythidales)、目(Violales)、目(Salicales)、目(Capparales)、堇菜目(Ericales)、梅目(Diapensales)、柿树目(Ebenales)、报春花目(Primulales)、蔷薇目(Rosales)、蚕豆目(Fabales)、川草目(Podostemales)、小二仙草目(Haloragales)、桃金娘目(Myrtales)、山茱萸目(Cornales)、山龙眼目(Proteales)、檀香目(San tales)、大花草目(Rafflesiales)、卫矛目(Celastrales)、大戟目(Euphorbiales)、鼠李目(Rhamnales)、无患子目(Sapindales)、胡桃目(Juglandales)、牻牛儿苗目(Geraniales)、远志目(Polygalales)、伞形目(Umbellales)、龙胆目(Gentianales)、花葱目(Polemoniales)、唇形目(Lamiales)、车前草目(Plantaginales)、玄参目(Scrophulariales)、桔梗目(Campanulales)、茜草目(Rubiales)、川续断目(Dipsacales)和菊目(Asterales)。本文所述的方法也可用于单子叶植物，诸如属于以下目的那些植物：泽泻目(Alismatales)、水蕨目(Hydrocharitales)、茨藻目(Najadales)、霉草目(Triuridales)、鸭跖草目(Commelinales)、谷精草目(Eriocaulales)、帚灯草目(Restionales)、禾本目(Poales)、灯芯草目(Juncales)、莎草目(Cyperales)、香蒲目(Typhales)、凤梨目(Bromeliales)、姜目(Zingiberales)、槟榔目(Arecales)、环花目(Cyclanthales)、露兜树目(Pandanales)、天南星目(Arales)、百合目(Lilliales)和兰目(Orchid ales)，或用于属于裸子植物的植物，例如松目(Pinales)、银杏目(Ginkgoales)、苏铁目(Cycadales)和买麻藤目(Gnetales)。

所述方法可用于广泛的植物物种，包括来自以下双子叶植物属的物种：颠茄属(Atropa)、油丹属(Alseodaphne)、腰果属(Anacardium)、落花生属(Arachis)、琼楠属(Beilschmiedia)、芸薹属(Brassica)、红花属(Carthamus)、木防己属(Cocculus)、巴豆属(Croton)、黄瓜属(Cucumis)、柑橘属(Citrus)、西瓜属(Citrullus)、辣椒属(Capsicum)、长春花属(Catharanthus)、椰子属(Cocos)、咖啡属(Coffea)、南瓜属(Cucurbita)、胡萝卜属(Daucus)、半聚果属(Duguetia)、金英花属(Eschscholzia)、榕属(Ficus)、草莓属(Fragaria)、海罂粟属(Glaucium)、大豆属(Glycine)、棉属(Gossypium)、向日葵属(Helianthus)、橡胶树属(Hevea)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、卷枝藤属(Landolphia)、亚麻属(Linum)、木姜子属(Litsea)、番茄属(Lycopersicon)、羽扇豆属(Lupinus)、木薯属(Manihot)、(Majorana)、苹果属(Malus)、苜蓿属(Medicago)、烟草属(Nicotiana)、木犀榄属(Olea)、银胶菊属(Parthenium)、罂粟属(Papaver)、鳄梨属(Persea)、菜豆属(Phaseolus)、黄连木属(Pistacia)、豌豆属(Pisum)、梨属(Pyrus)、樱桃属(Prunus)、萝卜属(Raphanus)、蓖麻属(Ricinus)、千里光属(Senecio)、风龙属(Sinomenium)、千金藤属(Stephania)、白芥属(Sinapis)、茄属(Solanum)、可可属(Theobroma)、车轴草属(Trifolium)、胡卢巴属(Trigonella)、野豌豆属(Vicia)、蔓长春花属(Vinca)、葡萄属(Vilis)以及豇豆属(Vigna)：单子叶植物种属葱属(Allium)、须芒草属(Andropogon)、剪股颖属(Aragrostis)、天门冬属(Asparagus)、燕麦属(Avena)、狗牙根属(Cynodon)、油棕属(Elaeis)、羊茅属(Festuca)、羊茅黑麦草属(Festulolium)、(Heterocallis)、(Hordeum)、大麦属(Lemna)、黑麦草属(Lolium)、芭蕉属(Musa)、稻属(Oryza)、黍属(Panicum)、狼尾草属(Pannesetum)、梯牧草属(Phleum)、霞禾属(Poa)、黑麦属(Secale)、高粱属(Sorghum)、小麦属(Triticum)以及玉米属(Zea)；或裸子植物(gymnosperm)种属冷杉属(Abies)、杉木属(Cunninghamia)、云杉属(Picea)、松属(Pinus)和黄杉属(Pseudotsuga)。

用于工程的目标植物和植物细胞包括但不限于那些单子叶和双子叶植物，诸如包括谷物作物(例如，小麦、玉米、水稻、小米、大麦)、水果作物(例如，番茄、苹果、梨、草莓、橙子)、饲料作物(例如，苜蓿)、根菜作物(例如，胡萝卜、马铃薯、甜菜、山药)、叶菜作物(例如，莴苣、菠菜)；开花植物(例如，矮牵牛、玫瑰、菊花)、针叶树和松树(例如，松杉、云杉)；用于植物修复的植物(例如，积累重金属的植物)；油料作物(例如，向日葵、油菜籽)和用于实验目的的植物(例如，拟南芥)。因此，所公开的方法和组合物可用于广泛的植物，包括但不限于来自以下属的物种：天门冬属、燕麦属、芸苔属、柑橘属、西瓜属、辣椒属、南瓜属、胡萝卜属、大豆属(Glycine)、大麦属、莴苣属、番茄属、苹果属、木薯属、烟草属、稻属、鳄梨属、豌豆属、梨属、李属、萝卜属、黑麦属、马铃薯、高粱属、小麦属、葡萄属、豇豆属和玉蜀黍属。本领域技术人员将认识到，在表达盒被稳定地整合在转基因植物中并被证实是可操作的之后，可通过有性杂交将其引入其它植物中。根据要杂交的物种，可使用多种标准育种技术中的任一种。

植物细胞可以是水稻、大豆、玉米、番茄、香蕉、花生、紫花豌豆、向日葵、油菜、烟草、小麦、大麦、燕麦、马铃薯、棉花、康乃馨、高粱或羽扇豆的细胞。植物细胞可以是番茄、大豆、拟南芥、蒺藜苜蓿、二穗短柄草、稻、双色高粱、玉蜀黍或马铃薯、矮牵牛属、颠茄属、芜菁甘蓝属、芹菜属、柳枝稷属、苹果属、本氏烟草或狗尾草的细胞。

植物细胞可以是单子叶植物或双子叶植物的细胞。

本发明系统和方法可赋予植物细胞一种或多种下列特性：除草剂耐受性、耐旱性、雄性不育性、抗虫性、非生物胁迫耐受性、改良的脂肪酸代谢、改良的碳水化合物代谢、提高的种子产量、提高的油百分比、提高的蛋白质百分比、抗细菌疾病、抗真菌疾病和抗病毒疾病。

本公开提供了由本发明系统和方法产生的经修饰的植物细胞、包含所述植物细胞的植物以及所述植物的种子、果实、植物部分或繁殖材料。本公开还涵盖转基因植物的后代、克隆、细胞系或细胞。

本公开提供了转基因植物。转基因植物的遗传修饰可以是纯合的或杂合的。

本公开还提供了转化的或经遗传修饰的植物细胞、包含所述转化的或经遗传修饰的植物细胞的组织、植物和产品。

在一个实施方案中，转化的或经遗传修饰的细胞、组织和产品包含整合到基因组中的核酸，并且由于转化或遗传修饰，植物细胞产生基因产物。

本公开的转化的或经遗传修饰的植物细胞可以作为细胞群，或者作为组织、种子、整株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植物田地(field of plant)等。

将外源核酸引入植物细胞的方法是本领域公知的。此类植物细胞被认为是“转化的”。可通过各种方法将DNA构建体引入植物细胞，所述方法包括但不限于PEG或电穿孔介导的原生质体转化、组织培养或通过基因枪法进行的植物组织转化，或土壤杆菌介导的瞬时和稳定转化。在一个实施方案中，可用质粒构建体高效转化水稻原生质体。转化可以是瞬时的或稳定的转化。合适的方法还包括病毒感染(诸如双链DNA病毒)、转染、接合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接显微注射、碳化硅晶须技术、土壤杆菌介导的转化等。方法的选择通常取决于被转化的细胞的类型和转化发生的环境(即，体外、离体或体内)。基于土壤细菌根癌土壤杆菌(Agrobacterium tumefaciens)的转化方法可用于将外源核酸分子引入维管植物。土壤杆菌属的野生型形式包含Ti(肿瘤诱导)质粒，其指导在宿主植物上生长的致瘤性冠瘿的产生。将Ti质粒的肿瘤诱导性T-DNA区域转移到植物基因组需要Ti质粒编码的毒力基因以及T-DNA边界，所述边界是一组同向DNA重复序列，描绘了要转移的区域。基于土壤杆菌的载体是Ti质粒的修饰形式，其中肿瘤诱导功能被引入植物宿主的目标核酸序列取代。

土壤杆菌介导的转化通常采用共合体载体或二元载体系统，其中Ti质粒的组分分为辅助载体和穿梭载体，所述辅助载体永久存在于土壤杆菌宿主中并携带毒力基因的，所述穿梭载体包含由T-DNA序列结合的目标基因。多种二元载体在本领域中是公知的，并且可以例如从Clontech(Palo Alto，Calif.)商购获得。例如，将土壤杆菌与培养的植物细胞或受伤组织诸如叶组织、根外植体、下胚轴、茎段或块茎共培养的方法在本领域中也是公知的。参见，例如，Glick和Thompson，(eds.)，Methods in Plant Molecular Biology andBiotechnology，Boca Raton，Fla.：CRC Press(1993)，其通过引用并入本文。在一个实施方案中，将转座子编码的CRISPR-Cas系统通过土壤杆菌介导的植物细胞转化引入植物细胞。

微弹介导的转化也可用于产生转基因植物。这种方法(最早由Klein等人(Nature327：70-73(1987)(其通过引用并入本文)描述)依赖于通过用氯化钙、亚精胺或聚乙二醇沉淀而用所需核酸分子包被的微弹(microprojectile)诸如金或钨。使用诸如BIOLISTIC PD-1000(Biorad；Hercules Calif.)等装置以高速将微弹颗粒加速到被子植物组织中。

可以例如通过体内或离体方案，将核酸以使得所述核酸能够进入一个或多个植物细胞的方式引入一个或多个植物细胞。“体内”是指向植物的活体中施用所述核酸。“离体”是指在植物体外修饰细胞或外植体，然后将此类细胞或器官再生为植物。已经描述了许多适合用于植物细胞的稳定转化或转基因植物的建立的载体，包括在Weissbach和Weissbach，(1989)Methods for Plant Molecular Biology Academic Press，和Gelvin等人，(1990)Plant Molecular Biology Manual，Kluwer Academic Publishers(其通过引用并入本文)中描述的那些载体。具体的实例包括来自根癌土壤杆菌的Ti质粒的那些，以及Herrera-Estrella等人(1983)Nature 303：209，Bevan(1984)Nucl Acid Res.12：8711-8721，Klee(1985)Bio/Technolo 3：637-642(其通过引用并入本文)公开的那些。可选地，非Ti载体可用于通过使用自由DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法，可产生转基因植物诸如小麦、水稻(Christou(1991)Bio/Technology 9：957-9和4462，其通过引用并入本文)和玉米(Gordon-Kamm(1990)Plant Cell2：603-618，其通过引用并入本文)。未成熟的胚也可以是对单子叶植物进行直接DNA递送技术(通过使用粒子枪(particlegun))(Weeks等人。(1993)Plant Physiol 102：1077-1084；Vasil(1993)Bio/Technolo 10：667-674；Wan和Lemeaux(1994)Plant Physiol 104：37-48以及进行土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14：745-750))的良好靶组织，所有这些文献均通过引用并入本文。将DNA引入叶绿体的示例性方法是基因枪法(Biolistic-bombardment)、原生质体的聚乙二醇转化和显微注射(Daniell等人Nat.Biotechnol 16：345-348，1998；Staub等人Nat.Biotechnol 18：333-338，2000；O′Neill等人Plant J.3：729-738，1993；Knoblauch等人Nat.Biotechnol 17：906-909；美国专利第5,451,513号、第5,545,817号、第5,545,818号和第5,576,198号；国际申请第WO 95/16783号中；以及Boynton等人，Methodsin Enzymology 217：510-536(1993)，Svab等人，Proc.Natl.Acad.Sci.USA90：913-917(1993)和McBride等人，Proc.Nati.Acad.Sci.USA 91：7301-7305(1994)，其通过引用并入本文)中。任何适用于基因枪法、原生质体的聚乙二醇转化和显微注射方法的载体都适合作为用于叶绿体转化的靶向载体。任何双链DNA载体都可用作转化载体，尤其是当引入方法不利用土壤杆菌时。

本发明系统和方法可用于修饰植物干细胞。术语“干细胞”在本文中用来指具有自我更新和产生分化细胞类型的能力的细胞(例如植物干细胞)(参见Morrison等人(1997)Cell 88：287-298，其通过引用并入本文)。干细胞的特征可在于存在特定标志物(例如，蛋白质、RNA等)和不存在特定标志物。干细胞也可通过体外和体内的功能测定，特别是与干细胞产生多个分化后代的能力相关的测定来鉴定。目标干细胞包括多能干细胞(PSC)。术语“多能干细胞”或“PSC”在本文中用于表示能够产生生物体的所有细胞类型的干细胞。植物的多能干细胞能够产生植物的所有细胞类型(例如根、茎、叶等的细胞)。

在一些实施方案中，经遗传修饰的宿主细胞可产生经遗传修饰的生物体。例如，经遗传修饰的宿主细胞是多能干细胞(即，PSC，诸如多能植物干细胞等)，其可产生经遗传修饰的生物体。产生经遗传修饰的生物体的方法是本领域已知的例如，参见Husaini等人，GMCrops.2011，2(3)：150-62，其通过引用并入本文。

本发明系统和方法可用于植物和农作物物种中的特定基因靶向和精确基因组编辑。在一个实施方案中，本发明系统和方法适于在植物中使用。在一个实施方案中，提供了一系列植物特异性RNA引导的基因组编辑载体(pRGE质粒)，以用于在植物中表达本发明系统。质粒可被优化用于本发明系统在植物原生质体中的瞬时表达，或者用于通过土壤杆菌属介导的转化在完整植物中进行稳定的整合和表达。在一个方面，质粒载体构建体包含含有DNA依赖性RNA聚合酶III启动子的核苷酸序列，其中所述启动子可操作地连接至gRNA分子和Pol III终止子序列，其中所述gRNA分子包含DNA靶序列；和核苷酸序列，其包含可操作地连接至编码核酸酶的核酸序列的DNA依赖性RNA聚合酶II启动子。

在某些实施方案中，本发明系统和方法使用单子叶植物启动子来驱动本发明系统的一种或多种组分(例如，gRNA)在单子叶植物中的表达。在某些实施方案中，本发明系统和方法使用双子叶植物启动子来驱动本发明系统的一种或多种组分(例如，gRNA)在双子叶植物中的表达。在一个实施方案中，启动子是水稻UBI10启动子(OsUBI10启动子)。参见美国专利公布第20150067922号，其通过引用并入本文。

在一个实施方案中，本发明系统在植物原生质体中瞬时表达。用于植物瞬时转化的载体包括但不限于pRGE3、pRGE6、pRGE31和pRGE32。在一个实施方案中，载体可被优化用于特定的植物类型或物种，诸如pStGE3。

在一个实施方案中，本发明系统可以例如通过土壤杆菌介导的转化稳定整合到植物基因组中。此后，本发明系统的一种或多种成分(例如，转基因)可通过遗传杂交和分离去除，这可导致产生非转基因但经遗传修饰的植物或农作物。在一个实施方案中，载体被优化用于土壤杆菌介导的转化。在一个实施方案中，用于稳定整合的载体是pRGEB3、pRGEB6、pRGEB31、pRGEB32或pStGEB3。

一方面，基因编辑可使用本发明系统和方法通过删除或插入获得。另一方面，具有阳性(例如，除草剂或抗生素抗性)和/或阴性(例如，毒素基因)选择标记的供体DNA片段可以与本发明系统共引入植物细胞中，以用于靶向基因修复/校正和敲入(基因插入和替换)。在与不同的供体DNA片段的组合中，本发明系统可用于修饰各种农艺性状以进行遗传改良。

被引入植物细胞的核酸可用于向基本上任何植物赋予所需的性状。本发明系统和方法可以产生遗传工程化的植物。gRNA可被设计成专门特异性靶向任何植物基因或DNA序列。在植物基因组中高效且特异地产生靶向突变的能力极大地促进了许多具有改良或新型农艺性状的新农作物品种的开发。这些包括但不限于通过疾病易感性基因或编码植物防御基因的负调节因子的基因(例如，Mlo基因)的靶向突变产生的抗病作物、通过编码非生物胁迫耐受性的负调节因子的基因的靶向突变产生的耐旱和耐盐作物、通过蜡质基因的靶向突变产生低直链淀粉谷物、通过糊粉层中的主要脂肪酶基因的靶向突变产生的酸败减少的水稻或其它谷物等。

如本文中所用，经遗传修饰的植物包括其中已引入了外源多核苷酸的植物。经遗传修饰的植物还包括已被遗传操作而使得内源性核苷酸已被改变以包括突变(诸如缺失、插入、转换、颠换或其组合)的植物。例如，内源编码区可被删除。此类突变可导致多肽具有与内源性多核苷酸编码的氨基酸序列不同的氨基酸序列。经遗传修饰的植物的另一个实例是具有改变的调控序列(诸如启动子)，导致可操作连接的内源编码区表达增加或减少的植物。

本公开提供了用于植物瞬时表达或稳定整合编码本发明系统的一种或多种组分的转基因的系统和方法。

可通过各种常规技术将DNA构建体引入所需植物宿主的基因组中。关于此类技术的综述，参见，例如，Weissbach&Weissbach Methods for Plant Molecular Biology(1988，Academic Press，N.Y.)第VIII部分，第421-463页；和Grierson&Corey，PlantMolecular Biology(1988，第2版)，Blackie，London，第7-9章，其通过引用并入本文。例如，可使用诸如植物细胞原生质体的电穿孔和显微注射等技术将所述DNA构建体直接引入植物细胞的基因组DNA中，或者可使用基因枪法(诸如DNA粒子轰击)(参见，例如，Klein等人(1987)Nature 327：70-73，其通过引用并入本文)将该DNA构建体直接引入植物组织中。或者，可将所述DNA构建体与合适的T-DNA侧翼区组合，并引入常规的根癌土壤杆菌宿主载体中。根癌土壤杆菌介导的转化技术，包括消除和使用二元载体，在科学文献中有很好的描述。参见，例如，Horsch等人(1984)Science 233：496-498和Fraley等人(1983)Proc.Nat′l.Acad.Sci.USA 80：4803，其通过引用并入本文。当通过使用T DNA载体的细菌((Bevan(1984)Nuc.Acid Res.12：8711-8721，其通过引用并入本文)或共培养方法(Horsch等人(1985)Science 227：1229-1231，其通过引用并入本文)感染细胞时，根癌土壤杆菌宿主的毒力功能将指导构建体和邻近标记插入植物细胞的DNA中。通常，土壤杆菌转化系统可用于工程化双子叶植物(Bevan等人(1982)Ann.Rev.Genet 16：357-384；Rogers等人(1986)Methods Enzymol.118：627-641，其通过引用并入本文)。土壤菌转化系统也可用于将DNA转化以及转移到单子叶植物和植物细胞中。参见Hernalsteen等人(1984)EMBO J 3：3039-3041；Hooykass-Van Slogteren等人(1984)Nature 311：763-764；Grimsley等人(1987)Nature 325：1677-179；Boulton等人(1989)Plant Mol.Biol.12：31-40；和Gould等人(1991)Plant Physiol.95：426-434，全部文献通过引用并入本文。

替代的基因转移和转化方法包括但不限于通过钙离子、聚乙二醇(PEG)或电穿孔介导的裸DNA摄取进行的原生质体转化(参见Paszkowski等人(1984)EMBO J3：2717-2722，Potrykus等人(1985)Molec.Gen.Genet.199：169-177；Fromm等人(1985)Proc.Nat.Acad.Sci.USA 82：5824-5828；和Shimamoto(1989)Nature 338：274-276，全部文献均通过引用并入本文)和植物组织的电穿孔(D′Halluin等人(1992)Plant Cell 4：1495-1505，其通过引用并入本文)。植物细胞转化的其它方法包括显微注射、碳化硅介导的DNA摄取(Kaeppler等人(1990)Plant Cell Reporter 9：415-418，其通过引用并入本文)和微弹轰击(microprojectile bombardment)(参见Klein等人(1988)Proc.Nat.Acad.Sci.USA85：4305-4309；和Gordon-Kamm等人(1990)Plant Cell 2：603-618，全部文献通过引用并入本文)。

本发明系统和方法可用于将外源序列插入植物细胞基因组的预定位置。因此，编码例如营养物、抗生素或治疗性分子的基因可通过靶向重组插入植物基因组中有利于它们表达的区域。

可以培养通过任何上述转化技术产生的转化植物细胞，以再生具有转化基因型并因此具有所需表型的完整植物。此类再生技术依赖于对组织培养生长培养基中某些植物激素的操作，通常依赖于与所需核苷酸序列一起引入的杀生物剂和/或除草剂标记。培养原生质体的植物再生描述于Evans等人，Handbook of Plant Cell Culture中的″ProtoplastsIsolation and Culture″，第124-176页，Macmillian Publishing Company，New York，1983；和Binding，Regeneration of Plants，Plant Protoplasts，第21-73页，CRC Press，Boca Raton，1985，其通过引用并入本文。再生也可以从植物愈伤组织、外植体、器官、花粉、胚胎或其部分获得。此类再生技术通常描述于Klee等人(1987)Ann.Rev.of PlantPhys.38：467-486(其通过引用并入本文)中。

转化或经遗传修饰的细胞、愈伤组织、组织或植物可通过选择或筛选工程化的细胞的特定性状或活性(例如，由标记基因或抗生素抗性基因编码的那些)来鉴定和分离。此类筛选和选择方法是本领域普通技术人员熟知的。稳定地融合到植物细胞中的多核苷酸可使用例如标准育种技术引入到其它植物中。

转化的植物细胞、愈伤组织、组织或植物可通过选择或筛选工程化的植物材料的性状来鉴定和分离，所述性状由转化DNA上存在的标记基因编码。例如，可通过在含有抑制量的转化基因构建体赋予针对其的抗性的抗生素或除草剂的培养基上生长工程化的植物材料来进行选择。另外，还可通过筛选可能存在于重组核酸构建体上的任何可见标记基因(例如，β-葡糖醛酸糖苷酶、萤光素酶、B或C1基因)的活性来鉴定转化的植物和植物细胞。此类选择和筛选方法是本领域技术人员熟知的。

物理和生化方法也可用于鉴定含有插入的基因构建体的植物或植物细胞转化体。这些方法包括但不限于：1)Southern分析或PCR扩增，其用于检测和确定重组DNA插入物的结构；2)Northern印迹、S1 RNA酶保护、引物延伸或逆转录酶PCR扩增，其用于检测和检查基因构建体的RNA转录物；3)酶促测定法，其用于检测酶或核酶活性，其中此类基因产物由基因构建体编码；4)蛋白质凝胶电泳、蛋白质印迹技术、免疫沉淀或酶联免疫分析，其中基因构建产物是蛋白质。其它技术，诸如原位杂交、酶染色和免疫染色，也可用于检测重组构建体在特定植物器官和组织中的存在或表达。进行所有这些测定的方法是本领域技术人员熟知的。

使用本文公开的方法进行基因操作的效果可通过例如从目标组织中分离的RNA(例如，mRNA)的northern印迹来观察。通常，如果mRNA的量增加了，则可以假设相应的内源性基因以比以前更快的速度表达。可使用测量基因和/或CYP74B活性的其它方法。根据使用的底物和检测反应产物或副产物增加或减少的方法，可使用不同类型的酶促测定法。另外，表达的和/或CYP74B蛋白的水平可通过免疫化学方法(即ELISA、RIA、EIA和本领域技术人员熟知的其它基于抗体的测定)，诸如通过电泳检测测定(利用染色或蛋白质印迹)来测量。转基因可选择性地在植物的一些组织中或在一些发育阶段表达，或者转基因可以在基本上所有的植物组织中，基本上顺着其整个生命周期表达。然而，任何组合表达模式也适用。

一方面，提供了用于在组织培养物或植物组织中进行土壤杆菌介导的瞬时表达或稳定转化的载体。特别地，用于在植物、植物原生质体、组织培养物或植物组织中瞬时表达的质粒载体包含：(1)控制工程化的gRNA分子在植物细胞中表达的DNA依赖性RNA聚合酶III(Pol III)启动子(例如，水稻snoRNA U3或U6启动子)，其中转录被Pol III终止子(Pol IIITerm)终止，(2)控制一种或多种蛋白质/酶表达的DNA依赖性RNA聚合酶II(Pol II)启动子(例如，35S启动子)；(3)用于插入编码gRNA的DNA序列的多重克隆位点(MCS)。

在某些实施方案中，为了促进土壤杆菌介导的转化，提供了二元载体，其中将来自植物瞬时表达质粒载体的工程化的转座子编码的CRISPR-Cas系统盒插入到土壤杆菌转化载体，例如pCAMBIA 1300载体中。

在一个实施方案中，本发明系统在植物原生质体中瞬时表达，并且不整合到基因组中。对于可从原生质体再生的植物物种或栽培品种，编码本发明系统的组分的序列可被引入二元载体，例如，pRGEB32和pStGEB3载体。在一个实施方案中，所得转基因农作物可以与野生型植物回交，以除去转基因，产生非转基因栽培品种。在一个实施方案中，耐除草剂农作物可通过取代植物基因诸如编码乙酰乳酸合酶(ALS)和原卟啉原氧化酶(PPO)的那些基因中的特定核苷酸来产生。

b.动物

本发明涉及使用工程化的转座子编码的CRISPR(cluster regularlyinterspaced)-Cas系统在动物基因组中进行遗传工程的系统和方法。可使用这些系统和方法来产生经遗传修饰的动物。

如本文中所用，经遗传修饰的动物包括已经引入外源多核苷酸的动物。经遗传修饰的动物还包括已被遗传操作从而使得内源性核苷酸已被改变以包括突变(诸如缺失、插入、转换、颠换或其组合)的动物。例如，内源编码区可被删除。此类突变可导致多肽具有与内源性多核苷酸编码的氨基酸序列不同的氨基酸序列。经遗传修饰的动物的另一个实例是这样的动物，其具有改变的调控序列(诸如启动子)，导致可操作连接的内源编码区的表达增加或减少。

可使用本发明系统和方法进行遗传修饰的动物的非限制性实例包括：哺乳动物，诸如灵长类动物(例如，猿、黑猩猩、猕猴)、啮齿动物(例如，小鼠、兔、大鼠)、犬科动物或狗、家畜(母牛/牛、驴、绵羊/绵羊、山羊或猪)、飞禽或家禽(例如，鸡)和鱼类(例如，斑马鱼)。本发明的方法和系统可用于其它真核生物模型，例如果蝇、秀丽隐杆线虫等。

在某些实施方案中，哺乳动物是人、非人灵长类动物(例如，狨猴、恒河猴、黑猩猩)、啮齿动物(例如，小鼠、大鼠、沙鼠、豚鼠、仓鼠、棉鼠、裸鼹鼠)、兔、家畜动物(例如，山羊、绵羊、猪、母牛、牛、水牛、马、骆驼)、宠物哺乳动物(例如，狗、猫)、动物园哺乳动物、有袋动物、濒危哺乳动物及其远交或随机繁殖群体。

术语“家畜”包括传统上在家畜养殖中饲养的动物，诸如牛(例如肉牛、奶牛)、猪、绵羊、山羊、马、骡子、水牛和骆驼。该术语还包括商业饲养的肉或蛋类禽类(即，鸡、火鸡、鸭、鹅、珍珠鸡和雏鸽)。

本发明的细胞、组织和器官可用于移植，诸如异种移植。移植物可包括细胞、组织或器官。在一个实施方案中，移植物包含造血干细胞。在另一个实施方案中，移植物包括骨髓。在又一个实施方案中，移植物包括心脏、肾脏、肝脏、胰腺、肺、肠、皮肤、小肠、气管、角膜或其组合。

本公开提供了用于在动物细胞中进行RNA引导的DNA整合的工程化的转座子编码的CRISPR-Cas系统，所述CRISPR-Cas系统包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)Tn7样转座子系统。

本发明还包括用于在动物细胞中进行RNA引导的DNA整合的系统，其包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码Tn7样转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开提供了用于在动物细胞中进行RNA引导的DNA整合的工程化的转座子编码的CRISPR-Cas系统，所述CRISPR-Cas系统包括：(i)至少一种Cas蛋白，(ii)引导RNA(gRNA)，和(iii)工程化的转座子系统。

本公开还提供了用于在动物细胞中进行RNA引导的DNA整合的系统，所述系统包括：(i)一种或多种编码工程化的CRISPR-Cas系统的载体，其中所述CRISPR-Cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和(ii)一种或多种编码工程化的转座子系统的载体，其中CRISPR-Cas系统和转座子系统在相同或不同的载体上。

本公开提供了用于在动物细胞中进行RNA引导的DNA整合的方法，所述方法包括将工程化的转座子编码的CRISPR-Cas系统引入动物细胞，其中转座子编码的CRISPR-Cas系统包括：(i)至少一种Cas蛋白，(ii)对靶位点特异的引导RNA(gRNA)，(iii)工程化的转座子系统，和(iv)供体DNA，其中转座子编码的CRISPR-Cas系统将供体DNA整合到靶位点附近。

靶位点的两侧可以是前间区序列邻近基序(PAM)。

转座子系统可以是细菌Tn7样转座子系统。Tn7可经由剪切粘贴式机制(II类)转座。Choi等人PNAS 110(22)：E2038-E2045(2013)；Ivics等人Nature Methods 6(6)：415-422(2009)。Tn7样转座子系统可能来源于霍乱弧菌、霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。工程化的转座子编码的CRISPR-Cas系统可来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。在一个实施方案中，Tn7样转座子系统来源于霍乱弧菌Tn6677。所述系统可包含功能获得性Tn7突变体(Lu等人EMBO 19(13)：3446-3457(2000)；美国专利公布第20020188105号)以及复制型Tn7转座突变体(May等人Science 272：401-404(1996))。

本发明系统可能缺乏核酸酶。本发明系统可包括Cas6、Cas7、Cas8和Cas5。Cas8和Cas5可以是融合蛋白。所述系统可包括Cascade复合物。本发明系统可包括C2c5(Cas12k)。

本公开提供了由本发明系统和方法产生的经修饰的动物细胞、包含所述动物细胞的动物、包含所述细胞的细胞群、组织和动物的至少一个器官。本公开还包括经遗传修饰的动物的后代、克隆、细胞系或细胞。

本公开提供了经遗传修饰的动物。经遗传修饰的动物对于遗传修饰可以是纯合的或杂合的。

可使用本发明系统和方法进行遗传修饰的动物的非限制性实例包括：哺乳动物，诸如灵长类动物(例如，猿、黑猩猩、猕猴)、啮齿动物(例如，小鼠、兔、大鼠)、犬科动物或狗、家畜(母牛/牛、绵羊/羊、山羊或猪)、飞禽或家禽(例如，鸡)和鱼类(例如，斑马鱼)。

在某些实施方案中，哺乳动物是人、非人灵长类动物(例如，狨猴、恒河猴、黑猩猩)、啮齿动物(例如，小鼠、大鼠、沙鼠、豚鼠、仓鼠、棉鼠、裸鼹鼠)、兔子、家畜动物(例如，山羊、绵羊、猪、母牛、牛、马、骆驼)、宠物哺乳动物(例如，狗、猫)、动物园哺乳动物、有袋动物、濒危哺乳动物及其远交或随机繁殖群体。

本发明系统和方法可用于修饰干细胞。术语“干细胞”在本文中用来指具有自我更新和产生分化细胞类型的能力的细胞(参见Morrison等人(1997)Cell 88：287-298，其通过引用并入本文)。干细胞的特征可在于存在特定标志物(例如，蛋白质、RNA等)和不存在特定标志物。干细胞也可通过体外和体内的功能测定，特别是与干细胞产生多个分化后代的能力相关的测定来鉴定。目标干细胞包括多能干细胞(PSC)。术语“多能干细胞”或“PSC”在本文中用于表示能够产生生物体的所有细胞类型的干细胞。

如本文中所用，经遗传修饰的动物包括其中已引入了外源多核苷酸的动物。经遗传修饰的动物还包括已被遗传操作从而使得内源性核苷酸已被改变成包括突变(诸如缺失、插入、转换、颠换或其组合)的动物。例如，内源编码区可被删除。此类突变可导致多肽具有与内源性多核苷酸编码的氨基酸序列不同的氨基酸序列。经遗传修饰的动物的另一个实例是这样的动物，其具有改变的调控序列(诸如启动子)，导致可操作连接的内源编码区的表达增加或减少。

本公开提供了用于针对动物的编码本发明系统的一种或多种组分的转基因的瞬时表达或稳定整合的系统和方法。

可使用包括例如从动物获得的组织样品的Northern印迹分析、原位杂交分析、Western分析、诸如酶联免疫吸附测定等的免疫测定和逆转录酶PCR(RT-PCR)的技术来评估遗传修饰。

哺乳动物表达质粒可用于所有必需组分(所有基因和gRNA)。可使用任何合适的药物选择或基于荧光的分选策略来鉴定经历靶向整合的细胞。表达质粒可包含组分，诸如核定位信号、哺乳动物启动子等。

利用CRISPR-Cas9进行的基因整合需要引入DSB，并使用携带适当设计的同源臂的合成修复供体模板。当以重组AAV载体或ssDNA的形式提供时，同源供体的工作效率最高，但生产这些供体也极其费力[参见，例如，H.Li，M.D.Leonetti，BioRxiv，1-24(2017)]。此外，克隆具有同源臂的dsDNA供体模板既耗时又繁琐。相比之下，所公开的系统将消除为每个新的靶位点重新设计同源臂的需要，因为靶向将完全来自引导RNA，并且相同的供体可用于任何任意的靶位点。

利用CRISPR-Cas9和供体模板的基因整合依赖于同源定向修复(homology-directed repair)(HDR)来正确整合供体模板。然而，已知在许多不同的细胞类型中，HDR效率极低，并且在HDR之前的DSB总是在整个细胞群中以不同的方式被修复：一些细胞在一个或两个等位基因上经历HDR，而更多的细胞在一个或两个等位基因上经历非同源末端连接(NHEJ)，这导致在靶位点处引入小的插入或缺失[综述于：K.S.Pawelczak，N.S.Gavande，P.S.VanderVere-Carozza，J.J.Turchi，ACS Chem Biol.13，389-396(2018)，其通过引用并入本文]。这意味着，在整个细胞群(例如，如在治疗或实验应用中所编辑的)中，只有一小部分细胞经历了所需的位点特异性基因整合，而更大得多的比例的细胞经历了异质修复。相比之下，用于基因融合的RNA引导的转座酶机器不会通过DSB中间体进行，因此不会出现NHEJ介导的插入或缺失；相反，DNA的靶向导致与靶DNA上磷酸二酯键的溶核断裂同时发生的直接整合，使得靶向包括直接整合，而无任何其它脱离路径的替代物。

HDR的内源性机器在有丝分裂后细胞(即不经历DNA复制的非分裂细胞)诸如神经元和终末分化细胞中实际上是不存在的。因此，在这些细胞类型中没有精确的靶向基因整合的选择。另一方面，目前的RNA引导的转座酶系统/机器仍然可容易地用作这些细胞类型中的DNA整合策略。

DSB是用于基因整合的CRISPR-Cas9介导的HDR途径的必要前体，已知其会对细胞造成危害。脱靶位点处的DSB引入脱靶突变；DSB可以引发DNA损伤反应[E.Haapaniemi，S.Botla，J.Persson，B.Schmierer，J.Taipale，Nat.Med.24，927-930(2018)，其通过引用并入本文]；DSB可以导致p53无标志细胞的选择，这增加了肿瘤发生的风险[R.J.Ihry等人，Nat.Med.24，939-946(2018)，其通过引用并入本文]；而在中靶位点处的DSB修复会导致大规模的基因缺失、倒位或染色体易位[M.Kosicki，K.Tomberg，A.Bradley，NatBiotechnol.36，765-771(2018)，其通过引用并入本文]。

c.治疗疾病或疾患

此处描述的方法还用于治疗受试者的疾病或疾患。所述方法可包括在体内或通过移植离体处理过的细胞向受试者施用治疗有效量的一种或多种编码本发明系统或可自转座的核酸序列的载体。所述方法可包括向受试者施用本发明的药物组合物。

“受试者”或“患者”可以是人或非人，并且可包括例如用作研究目的的“模型系统”的动物品系或物种，诸如本文所述的小鼠模型。同样，患者可以包括成人或青少年(例如儿童)。此外，患者可指任何可受益于施用本文所述组合物的活生物体，优选哺乳动物(例如，人或非人)。哺乳动物的实例包括但不限于哺乳动物类的任何成员：人、诸如黑猩猩以及其它猿类和猴类等非人灵长类动物；诸如牛、马、绵羊、山羊、猪等家畜；诸如兔子、狗和猫等家养动物；实验室动物，包括啮齿动物，诸如大鼠、小鼠和豚鼠等。非哺乳动物的实例包括但不限于禽类、鱼类等。在本文提供的方法和组合物的一个实施方案中，哺乳动物是人。受试者可包括受试者的细胞和受试者的微生物组的任何细胞。

在一些实施方案中，组合物用于通过改变病原体或寄生虫来治疗受试者身上或体内的病原体或寄生虫。单基因疾病包括但不限于(疾病(示例性靶基因))：Stargardt病(ABCA4)、Usher综合征(MYO7A)、脉络膜缺失(REP1)、全色盲(Achromatopsia)(CNGB3)、X连锁视网膜劈裂症(RS1)、β-地中海贫血(HBB)、镰状细胞病(HBB)、血友病(因子IX)、Wiskott-Aldrich综合征(WAS)、X连锁慢性肉芽肿病(CYBB)、粘多糖贮积症IIIB(NAGLU)、芳香族L-氨基酸脱羧酶缺乏症(DDC)、隐性营养不良性大疱性表皮松解症(COL7A1)，1型粘多糖贮积症(IDUA)，α1抗胰蛋白酶缺乏症(SERPINA1)，纯合性家族性高胆固醇血症(LDLR)，哈钦森-吉尔福德早衰综合征(LMNA)，软骨发育不全(FGFR3)，MECP2复制综合征(MECP2)、Pendred综合征(PDS)、Leber遗传性视神经病变(MT-ND1-ND4、ND4L、ND6)、Noonan综合征(PTPN11、SOS1、RAF1、KRAS)、先天性肌无力综合征(RAPSN、CHAT、COLQ、DOK7)和遗传性出血性毛细血管扩张症(ACVRL1、ENG、SMAD4)。本发明系统和方法可用于癌症、杜氏肌营养不良症(DMD)、镰状细胞病(SCD)、β-地中海贫血、遗传性I型酪氨酸血症(HT1)、Leber先天性黑蒙症和其它形式的遗传/遗传性失明、视网膜疾病(例如脉络膜缺失)、血友病、严重联合免疫缺陷症(SCID)、腺苷脱氨酶(ADA)缺乏症、帕金森病和囊性纤维化。

本发明系统和方法可用于基因失活。基因失活可用于治疗(诸如癌症疗法)、减缓或预防衰老、基因分析等。

本发明系统和方法可用于癌症免疫疗法，诸如CAR-T疗法，其中嵌合抗原受体被整合到T细胞中，所述T细胞被设计成识别特定癌症类型的特定表位(June等人，N.Engl.J.Med.379，64-73(2018)，其通过引用并入本文)。最近的工作表明，当CAR基因被整合到基因组中的确定位点，而不是随机位点时，CAR-T细胞的功效会增强(Eyquem等人，Nature.543，113-117(2017)，其通过引用并入本文)。与依赖于DSB和HDR的现有低效率方法相比，本发明方法提供了更安全的替代方法来产生这些种类的基因产物。

本公开提供了能够切除疾病相关基因(例如癌基因)的基因编辑方法，所述方法又可用于患者的体内基因疗法。在一些实施方案中，基因编辑方法破坏疾病相关基因(例如癌基因)的致病性表达。在一些实施方案中，基因编辑方法包括含有治疗性基因的供体核酸。供体核酸可选自经修饰的单纯疱疹病毒1型、脂蛋白脂肪酶、β珠蛋白和因子IX、腺苷脱氨酶。

本发明系统和方法可用于向细胞或受试者递送可表达的治疗性分子，诸如蛋白质、核酸、抗体等。例如，可将启动子(诱导型或组成型)与治疗性核酸(例如，反义寡核苷酸、miRNA等)连接并整合到细胞中，使得细胞表达所述治疗性分子。此类方法可用于治疗疾病，诸如癌症、巨细胞病毒视网膜炎、常见的高胆固醇血症、出血热病毒、HIV/AIDS、脊髓性肌萎缩症、杜氏肌营养不良症和高甘油三酯血症。

在一个实施方案中，本公开提供将一种或多种编码本发明系统或可自转座的核酸序列的载体引入真核细胞。细胞可以是来自任何真核细胞或生物体的有丝分裂和/或有丝分裂后细胞(例如单细胞真核生物的细胞、植物细胞、藻类细胞、真菌细胞(例如，酵母细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫、昆虫、蛛形纲动物等)的细胞)、来自脊椎动物(例如，鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物的细胞、来自啮齿动物的细胞、来自人的细胞等)，或者原生动物细胞。任何类型的细胞都可以是令人感兴趣的(例如干细胞，例如胚胎干细胞(ES)、诱导的多能干细胞(iPS)、生殖细胞；体细胞，例如成纤维细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞、肝细胞、肺细胞、皮肤细胞；处于任何阶段的胚胎的体外或体内胚胎细胞，例如1-细胞、2-细胞、4-细胞、8-细胞等阶段的斑马鱼胚胎；等等)，细胞可来自已建立的细胞系，或者它们可以是原代细胞，其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用，是指来源于受试者并允许在体外生长有限的传代次数的细胞和细胞培养物，即培养物的分裂。例如，原始培养物是可能已经传代0次、1次、2次、4次、5次、10次或15次，但没有足够次数经历危机阶段的培养物。在一些情况下，原代细胞系在体外保持少于10代。靶细胞在一些情况下是单细胞生物体或者在培养中生长。

如果细胞是原代细胞，那么它们可通过任何方便的方法从个体中获得。例如，白细胞可以通过血浆分离置换法、白细胞血浆分离置换法(leukocytapheresis)、密度梯度分离等方便地获得，而来自诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等组织的细胞通过活组织检查最方便地获得。合适的溶液可用于分散或悬浮收获的细胞。这种溶液通常是结合低浓度的可接受的缓冲液的方便地补充有胎牛血清或其它天然存在的因子的平衡盐溶液，例如生理盐水、磷酸盐缓冲盐水(PBS)、Hank′s平衡盐溶液等。细胞可以立即使用，也它们可被长期储存、冷冻、解冻并能够重复使用。在此类情况下，通常将细胞冷冻在10％或更高的DMSO、50％或更高的血清和约40％的经缓冲的培养基，或本领域常用的一些其它溶液中，以在此类冷冻温度下保存细胞，并以本领域公知的解冻冷冻培养细胞的方式解冻。

所述细胞可以是癌细胞。所述细胞可以是干细胞。干细胞的实例包括多能、多潜能和单能干细胞。多能干细胞的实例包括胚胎干细胞、胚胎生殖细胞、胚胎癌细胞和诱导的多能干细胞(iPSC)。所述细胞可以是例如来源于受试者的成纤维细胞的诱导的多能干细胞(iPSC)。在另一个实施方案中，所述细胞可以是成纤维细胞。

细胞替代疗法可用于预防、纠正或治疗疾病或疾患，其中将本公开的方法应用于分离的患者细胞(离体)，然后将经遗传修饰的细胞施用到患者体内。

所述细胞对于施用了该细胞的受试者可以是自体的或同种异体的。如本文中所述，经遗传修饰的细胞对于受试者可以是自体，即，从需要治疗的受试者获取细胞，将其进行遗传工程改造，然后向同一受试者施用。或者，宿主细胞是同种异体细胞，即从第一受试者获得细胞，将其进行遗传工程改造，并向与第一受试者不同但属于同一种的第二受试者施用。在一些实施方案中，经遗传修饰的细胞是同种异体细胞，并且已经被进一步遗传工程化以减少移植物抗宿主病。

“诱导的多能干细胞”，通常缩写为iPS细胞或iPSC，是指通过引入称为重编程因子的某些因子，从非多能细胞(通常为成体体细胞)或终末分化细胞(例如成纤维细胞、造血细胞、肌细胞、神经元、表皮细胞等)人工制备的多能干细胞类型。

本发明方法还可包括将iPS细胞分化为分化细胞。例如，可从皮肤活组织检查中收集患者成纤维细胞并转化为iPS细胞。参见，例如Dimos JT等人(2008)Science 321：1218-1221；Nature Reviews Neurology 4，582-583(November 2008)和Luo等人，TohokuJ.Exp.Med.2012，226(2)：151-9，两者均通过引用并入本文。通过本发明系统和方法的遗传修饰可在这个阶段完成。可以筛选和选择校正的细胞克隆。然后可分化和测试校正的细胞克隆。可将分化的细胞自体地移植回供体患者体内。

在本公开中描述的向受试者施用的用于细胞疗法的校正细胞可用药学上可接受的载体配制。例如，细胞可单独施用或作为药物制剂的组分施用。可将细胞与一种或多种药学上可接受的无菌等渗水溶液或非水溶液(例如，平衡盐溶液(BSS))、分散体、悬浮液或乳液、或可在即将使用前复原成无菌注射溶液或分散体的无菌粉末组合施用，所述无菌粉末可含有抗氧化剂、缓冲剂、抑菌剂、溶质或助悬剂或增稠剂。

术语“自体的”是指来自同一个体的任何材料，所述材料随后将被重新引入所述同一个体。

术语“同种异体”是指来源于与将材料引入其中的个体属于同一物种的不同动物的任何材料。同一个物种的两个或更多个个体被认为是同种异体。

本发明系统和方法可用于治疗癌症，包括但不限于肺癌、耳鼻咽喉癌、结肠癌、黑色素瘤、胰腺癌、乳腺癌(mammary cancer)、前列腺癌、乳腺癌、卵巢癌、基底细胞癌、胆道癌；造血系统癌症、膀胱癌；骨癌；乳腺癌；宫颈癌；绒毛膜癌；结肠癌和直肠癌；结缔组织癌；消化系统癌症；子宫内膜癌；食道癌；眼癌；头颈癌；胃癌；上皮内肿瘤；肾癌；喉癌；肝癌；纤维瘤、神经母细胞瘤；口腔癌症(例如，唇、舌、口和咽)；卵巢癌；胰腺癌；前列腺癌；视网膜母细胞瘤；横纹肌肉瘤；直肠癌；肾癌；呼吸系统癌症；肉瘤；皮肤癌；胃癌；睾丸癌；甲状腺癌；子宫癌；泌尿系统癌症，以及其它癌症和肉瘤。

癌是上皮来源的癌症。旨在用本公开的方法治疗的癌包括但不限于腺泡癌、腺泡癌、肺泡腺癌(也称为腺囊性癌、腺肌上皮癌、筛状癌和圆柱瘤)、腺瘤样癌(carcinomaadenomatosum)、腺癌、肾上腺皮质癌、肺泡癌、肺泡细胞癌(也称为细支气管癌、肺泡细胞瘤和肺腺瘤病)、基底细胞癌、基底细胞癌(carcinoma basocellulare)(也称为基底细胞瘤，或基底细胞瘤和毛发基质癌)、基底样癌、基底鳞状细胞癌、乳腺癌、细支气管肺泡癌、细支气管癌、支气管肺癌、脑型癌(cerebriform carcinoma)、胆管细胞癌(也称为胆管瘤和胆管上皮癌)、绒毛膜癌、胶质癌、粉刺癌、体癌(corpus carcinom)、筛状癌、铠甲状癌、皮肤癌、圆柱状癌(cylindrical carcinoma)、圆柱状细胞癌(cylindrical cell carcinoma)、导管癌、硬膜癌(carcinoma durum)、胚胎癌、髓样癌、眼球上癌、表皮样癌、腺样上皮癌、溃疡外癌(carcinoma exulcere)、纤维癌、胶样癌(gelatiniform carcinoma)、胶状癌、巨细胞癌、巨细胞瘤(gigantocellulare)、腺癌、粒层细胞癌、毛发基质癌、血样癌、肝细胞癌(也称为肝瘤、恶性肝瘤和肝癌)、惠氏细胞癌(Huirthle cell carcinoma)、胶样癌、肾上腺样癌、婴儿胚胎癌、原位癌、表皮内癌、上皮内癌、克氏癌(Krompecher′s carcinoma)、库尔奇茨基细胞癌(Kulchitzky-cell carcinoma)、豆状癌(lenticular carcinoma)、豆状癌(carcinomalenticulare)、脂瘤样癌、淋巴上皮癌、乳腺炎性癌(carcinoma mastitoides)、髓样癌、髓样癌(medullary carcinoma)、黑色素癌、黑色素癌(melanotic carcinoma)、粘液癌、粘液癌(carcinoma muciparum)、粘液细胞癌、粘液表皮样癌、粘液癌(carcinoma mucosum)、粘液癌(mucous carcinoma)、鼻咽癌、黑色素癌、燕麦细胞癌、骨化性癌、骨样癌、卵巢癌、乳头状癌、门静脉周围癌、浸润前癌、前列腺癌、肾脏的肾细胞癌(也称为肾腺癌和旁腺样癌(hypemephoroid carcinoma))、储备细胞癌(reserve cell carcinoma)、肉瘤样癌、申德仁癌(scheinderian carcinoma)、硬癌、阴囊癌、印戒细胞癌(signet-ring cellcarcinoma)、单纯癌、小细胞癌、马铃薯状癌(solanoid carcinoma)、球状细胞癌、梭形细胞癌、海绵状癌、鳞癌、鳞状细胞癌、串珠癌(string carcinoma)、血管扩张性癌、毛细血管外胚层癌(carcinoma telangiectodes)、移行细胞癌(transitional cell carcinoma)、结节性皮癌(carcinoma tuberosum)、结节性皮癌(tuberous carcinoma)、疣状癌(verrucouscarcinoma)、绒毛癌(carcinoma vilosum)。在优选实施方案中，本公开的方法用于治疗患有乳腺癌、宫颈癌、卵巢癌、前列腺癌、肺癌、结直肠癌、胰腺癌、胃癌或肾癌的受试者。

肉瘤是在骨骼和软组织中发生的间充质肿瘤。识别出不同类型的肉瘤，并且这些类型包括：脂肪肉瘤(包括粘液样脂肪肉瘤和多形脂肪肉瘤)、平滑肌肉瘤、横纹肌肉瘤、恶性周围神经鞘肿瘤(也称为恶性神经鞘瘤、神经纤维肉瘤或神经源性肉瘤)、尤文氏肿瘤(包括骨尤文氏肉瘤、骨外(即非骨)尤文氏肉瘤和原始神经外胚层肿瘤[PNET])、滑膜肉瘤、血管肉瘤、血管瘤、淋巴管肉瘤、卡波西氏肉瘤、血管内皮瘤、纤维肉瘤、硬纤维瘤(desmoidtumor)(也称为侵袭性纤维瘤病)、隆突性皮肤纤维肉瘤(DFSP)、恶性纤维组织细胞瘤(MFH)、血管外皮细胞瘤、恶性间叶瘤、肺泡软组织肉瘤、上皮样肉瘤、透明细胞肉瘤、促结缔组织增生小细胞瘤、胃肠间质瘤(GIST)(也称为GI间质瘤)、骨肉瘤(也称为成骨性肉瘤)-骨骼和骨外，以及软骨肉瘤。

在一些实施方案中，待治疗的癌症可以是难治性癌症。如本文中所用，“难治性癌症”是指对规定的护理标准具有抵抗性的癌症。这些癌症最初可对治疗有反应(然后复发)，或者对治疗完全没有反应。普通的护理标准会因癌症类型和患者的进展程度而异。其可以是化学疗法，或手术，或放射，或其组合。本领域普通技术人员知道这种护理标准。因此，根据本公开治疗难治性癌症的受试者可能已经接受了针对其癌症的另一种治疗。或者，如果癌症可能是难治性的(例如，给出了受试者的癌细胞或病史的分析)，则受试者可能还没有接受过另一种治疗。难治性癌症的实例包括但不限于白血病、黑色素瘤、肾细胞癌、结肠癌、肝(肝(hepatic))癌、胰腺癌、非霍奇金淋巴瘤和肺癌。

d.微生物基因失活

本发明系统可用于各种细菌宿主，包括医学上重要的人病原体、作为农业工业中的关键靶标的细菌害虫以及其抗生素抗性形式；例如，致病性假单胞菌属菌株、金黄色葡萄球菌(Staphylococcus aureus)、肺炎杆菌物种(Pneuomoniae species)、幽门螺杆菌(Helicobacter pylori)、肠杆菌科(Enterobacteriaceae)、弯曲杆菌属某些种(Campylobacter spp.)、淋病奈瑟氏菌(Neisseria gonorrhoeae)、屎肠球菌(Enterococcus Faecium)、鲍曼不动杆菌(Acinetobacter Baumannii)、大肠杆菌、肺炎克雷伯菌(Klebsiella pneumoniae)等。

可转座元件如此普遍的一个原因是它们编码整个蛋白质(在这种情况下是RNA)机器，以促进动员途径的所有步骤，即转座子DNA切除、DNA靶向和转座子DNA整合。

本发明系统可在接合质粒上表达，并转移到微生物组环境中的许多细菌门。此外，通过用靶向特定保守区域的gRNA和这些群落中的一组确定的细菌对CRISPR阵列进行综合编程，遗传运载物可以特异性和选择性地整合在目标细菌物种中。

CRISPR阵列还可用靶向常见的和医学相关的抗生素抗性基因的gRNA进行编程，已知所述抗生素抗性基因驱动多药耐药细菌的进化。因为本发明转座子可以随意选择性整合，所以自主转座子可被编程为插入无活性抗生素抗性基因，就像微生物组环境中共享的质粒上可能存在的那样。与使用CRISPR和其它工具作为靶特异性抗微生物剂的现有策略相比，本发明系统的有利方面是，本发明转座子可能不(或可能)杀死靶细菌，而只是在永久整合到相关基因组或质粒中时使多药耐药性失活，从而持续扩散到群体中。本发明的转座子可用一组gRNA编程，使得它们保留在目标微生物组中的永久性安全港基因座(permanentsafe-harbor locus)中，提供了RNA引导的转座酶库，所述RNA引导的转座酶可以在遇到病原体序列时灭活它们。

除了医学背景之外，本发明方法和系统可以用于农业。对于细菌性害虫，靶向抗菌剂可能仅仅因为规模(例如，跨英亩和数英亩的农作物)而无效。借助于本发明系统，被递送用于杀死细菌害虫或使其丧失能力的遗传有效载荷将在群体中传播的同时，大量增加。

本发明的RNA引导的转座子可以作为基因驱动，其可以在群体中持续存在，同时具有仅驱动所需基因的靶特异性。

细菌中抗生素抗性的出现正在全球范围内迅速发生(疾病控制和预防中心，传染病办公室。2013年美国抗生素抗性威胁。2013年4月)，其原因是临床和工业环境中抗生素的不当过度使用。虽然对几乎所有引入的抗生素都观察到了耐药性(疾病控制和预防中心，传染病办公室。2013年美国抗生素抗性威胁。2013年4月)，但在过去十年中，由于各种经济和监管障碍，新药的开发明显放缓。为了在细菌的遗传水平上对抗进化的抗性，两项同时进行的研究证明了通过利用Cas9核酸酶在这些基因的靶序列上诱导不可修复的、致命的双链断裂(DSB)来特异性杀死抗性细菌和消除携带抗性基因的质粒(Bikard等人NatBiotechnol.2014；32(11)：1146-1150；Citorik等人，Nat Biotechnol.2014；32(11)：1141-1145，两者均通过引用并入本文)。

然而，主要的不利方面是Cas9靶向不足以高效消除所有靶标，杀死易感细胞导致对含有突变的Cas9酶、引导RNA(gRNA)阵列或靶标本身的幸存者突变体的强选择(Yosef等人Proc Natl Acad Sci U S A.2015；112(23)：7267-7272，其通过引用并入本文)。此外，研究中探索的基于噬菌体的递送方法还不能高效地应用于临床相关环境中更复杂的细菌群。

本发明系统和方法可用于灭活微生物基因。在一些实施方案中，所述基因是抗生素抗性基因。例如，可以通过插入DNA序列在体内破坏细菌抗性基因的编码序列，导致对药物治疗的非选择性再致敏。在一个实施方案中，除了破坏抗性基因之外，当本发明系统充当复制型转座子并且本发明系统被整合到插入的运载物上时，所述系统还可与靶质粒一起繁殖自身。此外，通过包括靶向细菌基因组的间隔区，所述构建体还可将其自身稳定地插入“安全港”基因组区域，允许系统的稳定维持和延长的免疫。换句话说，通过将本发明系统转化为复制型作用模式，并在运载物上包含本发明机器，系统将自身从供体复制到靶抗性基因，并因此随着靶质粒的任何后续水平转移而进一步繁殖自身。一旦被引入新细胞，gRNA阵列中靶向基因组位点的间隔区将导致构建体的拷贝稳定地插入基因组，完成循环。

本发明系统和方法可用于治疗受试者中的多药耐药性细菌感染。本发明系统和方法可用于复杂细菌联合体(bacterial consortia)内的基因组工程。

除了抗性基因之外，所述系统和方法可被设计成靶向任何基因或任何基因的组，诸如毒力或代谢基因，用于其它实施方案中的临床和工业应用。

本发明系统和方法可用于靶向毒力基因并将其从群体中消除，以进行原位基因敲除，或将新的遗传元件稳定地引入微生物组的宏基因组池。

4.试剂盒

包括本发明系统或组合物的组分的用于治疗用途的试剂盒也在本公开的范围内。

所述试剂盒可包括本文所述的任何方法的使用说明。说明书可包括对向受试者施用本发明系统或组合物以达到预期效果的描述。说明书通常包括关于预期治疗的剂量、给药方案和给药途径的信息。试剂盒还可包括基于鉴定受试者是否需要治疗来选择适合治疗的受试者的说明。

容器可以是单位剂量、批量包装(例如多剂量包装)或亚单位剂量。本公开的试剂盒中提供的说明通常是标签或包装插页上的书面说明。标签或包装插页表明药物组合物用于治疗、延缓受试者的疾病或病症的发作并且/或者减轻受试者的疾病或病症。

本文提供的试剂盒采用合适的包装。合适的包装包括但不限于小瓶、瓶、罐、软包装等。还设想了与特定装置诸如吸入器、鼻腔施用装置或输注装置组合使用的包装。试剂盒可具有无菌入口(例如，容器可以是静脉内注射液袋或具有可被皮下注射针刺穿的塞子的小瓶)。容器也可具有无菌入口。

试剂盒任选地可提供附加的组分，诸如缓冲液和解释信息。通常，试剂盒包括容器和容器上或与之相关的标签或一张或多张包装插页。在一些实施方案中，本公开提供了包括上述试剂盒内容物的制品。

试剂盒还可包括用于保持本发明系统或组合物的装置。所述装置可包括输注装置、静脉内注射溶液袋和/或具有可被皮下注射针刺穿的塞子的小瓶。

本公开还提供了用于在体外进行RNA引导的DNA整合的试剂盒。所述试剂盒可包括本发明系统的组件。试剂盒的任选的组件包括以下一项或多项：(1)缓冲剂成分，(2)对照质粒，(3)测序引物。

含有靶位点的多核苷酸/DNA可包括但不限于纯化的染色体DNA、总cDNA、根据组织或表达状态(例如在热休克后或细胞因子处理或其它处理后)或表达时间(在任何此类处理后)或发育阶段分级的cDNA、质粒、粘粒、BAC、YAC、噬菌体文库等。含有靶位点的多核苷酸/DNA可以包括来自生物体的DNA，所述生物体是例如智人、家鼠、地中海小家鼠、家犬、牛属(Bos)、秀丽隐杆线虫、恶性疟原虫、间日疟原虫、旋盘尾丝虫、马来丝虫、犬恶丝虫(Dirofilaria immitis)、利什曼原虫、玉蜀黍、拟南芥、大豆、黑腹果蝇(Drosophilamelanogaster)、酿酒酵母、粟酒裂殖酵母、脉胞霉属(Neurospora)、大肠杆菌、鼠伤寒沙门氏菌(Salmonella typhimurium)、枯草芽孢杆菌(Bacillus subtilis)、淋病奈瑟休菌(Neisseria gonorrhoeae)、金黄色葡萄球菌(Staphylococcus aureus)、肺炎链球菌(Streptococcus pneumonia)、结核分枝杆菌(Mycobacterium tuberculosis)、产水菌属(Aquifex)、水生栖热菌(Thermus aquaticus)、激烈火球菌(Pyrococcus furiosus)、海滨栖热菌(Thermus littoralis)、热自养甲烷杆菌(Methanobacteriumthermoautotrophicum)、石灰硫化叶菌(Sulfolobus caldoaceticus)等等。

实施例

以下是本发明的实例，并且不应被解释为限制性的。

实施例1

转座子编码的CRISPR-Cas系统指导RNA引导的DNA整合

常规CRISPR-Cas系统通过利用引导RNA对包括质粒和病毒在内的可移动遗传元件进行核酸酶依赖性降解来保持基因组的完整性。此处，与这一范式相反，细菌Tn7样转座子与核酸酶缺陷型CRISPR-Cas系统合作，以催化可移动遗传元件至基因组中的RNA引导的整合。霍乱弧菌Tn6677在大肠杆菌中的可编程转座利用了CRISPR相关分子机器和转座子相关分子机器，包括Cascade与转座蛋白TniQ之间的新型复合物。供体DNA整合在靶DNA序列下游固定距离处以两个可能取向之一发生，并容纳可变长度的遗传有效载荷。深度测序实验揭示了跨越数十个独特靶位点的高度特异性的全基因组DNA整合。

水平基因转移(HGT)是允许遗传信息在系统发育不相关的物种之间传递的过程，是跨生命的三个领域的基因组进化的主要驱动者。促进HGT的可移动遗传元件(MGE)在细菌和古细菌中特别普遍，其中病毒、质粒和转座子构成了巨大的原核移动体(mobilome)。为了应对遗传寄生虫的不断攻击，细菌已进化出了许多先天和适应性防御策略来保护自己，包括由成簇的规则间隔短回文重复序列(CRISPR)和CRISPR相关(cas)基因赋予的RNA引导的免疫系统。CRISPR-Cas的进化与由MGE提供的大基因库相关联，其中核心酶促机器参与新的间隔区获取(Cas1)和源自转座因子的RNA引导的DNA靶向(Cas9和Cas12)。

充分研究的大肠杆菌Tn7转座子是独特的，因为其通过两种互斥的途径动员，一种途径涉及复制过程中非序列特异性整合到后随链模板中，第二种途径涉及保守基因组序列下游的位点特异性整合。那些与CRISPR-Cas系统特异性相关的Tn7样转座子缺乏参与DNA靶向的关键基因，它们编码的CRISPR-Cas系统缺乏参与DNA降解的关键基因。

在本实施例中，霍乱弧菌的CRISPR-Cas效应复合物指导伴随的转座酶将DNA融合到与引导RNA互补的基因组靶位点下游。该系统举例说明了无需同源重组的简便的位点特异性DNA整合。

Cascade指导位点特异性的DNA 整合研究充分的剪切粘贴式DNA转座子，大肠杆菌Tn7，被用于开发用于监测从质粒编码的供体到基因组中的转座的测定(图6A)。Tn7转座子包含特征性的左端和右端序列，并编码五个tns基因tnsA-E，它们共同编码异聚体转座酶：TnsA和TnsB是催化酶，通过协调的双链断裂切除转座子供体；TnsB，逆转录病毒整合酶超家族成员，催化DNA整合；TnsD和TnsE构成相互排斥的靶向因子，其指定DNA整合位点；而TnsC是在TnsAB与TnsD或TnsE之间进行通信的ATP酶。先前的研究表明，在大肠杆菌中，EcoTnsD介导位点特异性Tn7转位到glmS基因下游的保守Tn7附着位点(attTn7)，而EcoTnsE在复制过程中介导随机转座到后随链模板中。通过用pEcoTnsABCD和pEcoDonor转化大肠杆菌BL21(DE3)细胞来概括TnsD介导的转座，并且通过PCR和桑格测序检测了基因组转座子插入事件(SEQ ID NO：图1-139和图6A至图6F)。

为了测试CRISPR相关靶向复合物是否将转座子导向与引导RNA互补的基因组位点(图1A)，选择来自霍乱弧菌HE-45株的代表性转座子Tn6677，其编码变体I-F型CRISPR-Cas系统(如以下文献中所述：McDonald，N.D.等人，BMC Genomics 20，105(2019)和Makarova，K.S.等人，The CRISPR Journal 1，325-336(2018)，其通过引用并入本文)(图6F，SEQ IDNO：140-153)。该转座子由左端和右端序列界定，可通过其TnsB结合位点区分，并包括包含tnsA、tnsB和tnsC基因的末端操纵子。有趣的是，tniQ基因(大肠杆菌tnsD的同源物)编码在cas操纵子内而不是tns操纵子内，而tnsE则完全不存在。与其它此类转座子编码的CRISPR-Cas系统(Peters，J.E.等人，Proc Natl Acad Sci USA 114，E7358-E7366(2017)，其通过引用并入本文)一样，负责间隔区获取的cas1和cas2基因不存在，负责靶DNA降解的cas3基因也不存在。推定的DNA靶向复合物Cascade，也称为Csy复合物(Hille，F.等人Cell 172，1239-1259(2018)，其通过引用并入本文)，对于该I-F型变体，由3个基因：cas6、cas7和天然cas8-cas5融合物编码，所述天然cas8-cas5融合物由Makarova，K.S.等人The CRISPRJournal 1，325-336(2018)(通过引用并入本文)描述，(在本实施例中，当提及I-F型变体时，下文简称为cas8)。天然CRISPR阵列(包含四个重复序列和三个间隔区序列组成，编码不同的成熟CRISPR RNA(crRNA)，称为引导RNA(gRNA)。

用编码霍乱弧菌转座子组分的质粒转化大肠杆菌，所述转座子组分包括转座子供体(pDonor)、tnsA-tnsB-tnsC操纵子(pTnsABC)和I-F型变异体tniQ-cas8-cas7-cas6操纵子以及合成CRISPR阵列(pQCascade)(图1B)。CRISPR阵列被设计成产生非靶向gRNA(gRNA-nt)或gRNA-1，其靶向两侧是5’-CC-3’前间区序列邻近基序(PAM)的glmS下游的基因组位点(图100)。在含有表达gRNA-1的pTnsABC、pDonor和pQCascade的实验中，从基因组特异性引物与两个转座子特异性引物的任一者之间的细胞裂解物中观察到PCR产物，但对于gRNA-nt或任何空载体对照未观察到所述PCR产物(图1C和图1D)。

因为具有相取方向的转座子引物的平行反应揭示了同一生物样品中的整合事件，所以与大肠杆菌Tn7不同，RNA引导的转座可能在任一取向上发生。进行了添加下游基因组引物并用在相同基因组基因座中但在相反链上发现的gRNA-2靶向附加位点的附加PCR。对于gRNA-1和gRNA-2，在两个取向上都存在转座产物，尽管基于相对带强度具有不同的取向偏好(图1E)。基于离散条带的存在，整合似乎发生在距离靶位点一定距离的地方，事实上，桑格和下一代测序(NGS)揭示，对于gRNA-1，＞95％的整合事件发生在距离靶位点3’边缘49-bp的地方。对于gRNA-2观察到的模式更复杂，其中相对于49-bp，整合明显偏好48-bp和50-bp的距离。两种测序方法还揭示了预期的5-bp靶位点重复(TSD)，其为Tn7转座产物的特征(图1F和图1G)。

霍乱弧菌Tn6677转座子不天然存在于glmS下游，也不紧邻与已知的EcoTnsD结合位点(attTn7)高度相似的DNA序列，并且当省略gRNA时，未发现该位基因座内位点特异性转座的证据(图1D)。然而，为了确保整合特异性仅由gRNA序列引导，而不是由对glmS基因座的任何内在偏好引导，克隆并测试了靶向lacZ编码序列内相反链的gRNA-3和gRNA-4。再次观察到两个靶位点下游48-50bp的双向整合，在含X-gal的LB琼脂平板上进行蓝白菌落筛选后，能够分离克隆整合的lacZ敲除菌株(图1H、图1I和图7A至图7G)。总的来说，这些实验证明转座子整合到与引导RNA互补的基因组靶位点的下游。

RNA引导的DNA整合的蛋白质需求

为了证实转座子相关蛋白和CRISPR相关蛋白参与催化RNA引导的DNA整合，克隆并测试了一系列质粒，在所述质粒每个单独的tns和cas基因被删除，或者每个单独的酶活性位点被突变。去除任何蛋白质成分都会消除转座活性，正如催化DNA整合的TnsB转座酶、调节靶位点选择的TnsC ATP酶和催化gRNA加工的Cas6核糖核酸酶中的活性位点突变一样(图2A)。催化受损的TnsA突变体仍然促进了RNA引导的DNA整合。基于以前对大肠杆菌Tn7的研究，这种变体系统有望通过复制型转座而不是剪切粘贴式转座来动员。

在大肠杆菌中，位点特异性转座包括通过EcoTnsD与attTn7结合，随后与EcoTnsC调节蛋白相互作用以直接募集EcoTnsA-TnsB-供体DNA。考虑到tniQ(一种tnsD同源物)在RNA指导的转座中的作用，以及其在I-F型变体cas8-cas7-cas6操纵子中的位置，Cascade可能直接结合tniQ，从而将其递送到基因组靶位点。重组表达CRISPR RNA和霍乱弧菌tniQ-cas8-cas7-cas6操纵子，所述操纵子在tniQ亚单位上含有N端His₁₀标签(图8A)。如SDS-PAGE和质谱所示，tniQ与Cas8、Cas7和Cas6共纯化，每种Cas蛋白的相对带强度与不合TniQ的Cascade相似，并与Wiedenheft，B.等人(Proc Natl Acad Sci USA 108，10092-10097(2011)，其通过引用并入本文)对于I-F变体Cascade复合物所描述的1∶6∶1 Cas8∶Cas7∶Cas6化学计量一致(图2B和图8B)。所述复合物通过凝胶过滤柱迁移，表观分子量约为440kDa，与其近似预期质量非常一致，并且Cascade和TniQ-Cascade都与60-nt RNA种类共纯化，这通过深度测序被确认为成熟的gRNA(图2C、图2D、图8C和图8D)。为了进一步验证Cascade与TniQ之间的相互作用，将单独纯化的样品在体外孵育，并通过尺寸排阻色谱法证明复合物的形成(图8E)。这些结果共同揭示了新型TniQ-Cascade共复合物的存在，这代表了I型CRISPR RNA引导的效应子复合物与非Cas蛋白直接相互作用的例子。

为了确定是否需要特定的TniQ-Cascade相互作用，或者TniQ是否可以直接转座到普通的R环结构附近，或者通过人工募集到DNA，将化脓性链球菌Cas9(SpyCas9)和铜绿假单胞菌Cascade(PaeCascade)用作正交的RNA引导的DNA靶向系统。如上述转座实验所述，在产生蛋白质-RNA表达质粒并用靶向相同lacZ位点的gRNA对两种效应物复合物进行编程后，通过证明在活性Cas9核酸酶或PaeCascade依赖性Cas2-3核酸酶存在的情况下的高效细胞杀伤来验证DNA靶向性(图9A和图9B)。当包含pTnsABCQ和pDonor的菌株用编码催化失活的Cas9-sgRNA(dCas9-sgRNA)或PaeCascade的质粒转化，并对所得细胞裂解物进行PCR分析时，未发现位点特异性转座的证据(图2E)，表明基因组R环不足以进行位点特异性整合。当TniQ直接与dCas9的任一末端融合，或者与PaeCascade的Cas8或Cas6亚单位融合时，至少对于所测试的接头序列，也未检测到转座(图2E)。然而，有趣的是，TniQ与VchCascade的Cas6亚单位而不是与Cas8亚单位的类似融合，恢复了RNA引导的转座活性(图2E和图9C)。

综合生化结果，得出结论：TniQ与Cascade形成相互作用，可能是通过Cas6亚单位，这可以解释RNA引导的DNA整合发生在Cas6所结合的靶位点PAM远端下游的发现(图2F)。因为在这些实验中TniQ被用于转座，其可能在DNA靶向和DNA整合过程中充当CRISPR相关机器和转座子相关机器之间的功能联系。

RNA引导的DNA整合的供体DNA要求

Tn7转座子的特片在于长度约100-150bp的左右两端保守，分别含有8-bp末端反向重复序列和3个及4个约20bp的TnsB结合位点(图11A)。为了确定RNA引导的DNA整合的最低供体要求，以及截短转座子末端和改变运载物大小的影响，开发了用于对转座效率进行评分的定量PCR(qPCR)方法，所述方法可以准确且灵敏地测量两个取向上的基因组整合事件(图10A至图10E)。使用靶向lacZ的gRNA-3和gRNA-4对来自转座实验的细胞裂解物进行的分析，在没有选择的情况下，产生分别为62％和42％r总整合效率。将转座子“右”端对比转座子“左”端整合到被Cascade靶向的基因组位点附近的偏好性对于gRNA-3为39比1，对于gRNA-4为1比1，表明存在调节整合取向的额外序列决定簇(图3A和图3B)。当转座子的两端分别被截短时，最多可以删除40-bp和80-bp的左端和右两端，而在整体整合效率上没有任何实质性缺陷。“右”端的不必要部分包括第三和第四个推定的TnsB结合位点，而去除左端中的三个TnsB结合位点中的任一个都是有害的。

使用这种定量测定，确定了转座子大小对RNA引导的整合效率的影响和可能的大小限制。从最初的转座子供体质粒(977bp)开始，逐渐缩短或延长供体末端之间的DNA运载物，并且在约775-bp转座子的情况下，三质粒表达系统的整合效率最大，并且随着所测试的运载物变短和变长，所述整合效率衰减(图3C和图3H)。有趣的是，编码CRISPR-Cas系统的天然存在的Tn7样转座子的范围为20kb至＞100kb，尽管它们的主动迁移能力未知。

转座子的两端分别被截短，发现左端约105bp和右端约47bp对于高效的RNA引导的DNA整合是重要的，分别对应于三个和两个完整的推定TnsB结合位点(图11A至图11D)。包含右端截短的较短转座子被更高效地整合，伴随着取向偏差的剧烈变化。

引导RNA和靶DNA的要求

Tn6677编码的CRISPR-Cas系统与I-F亚型关系最密切，其中通过Cascade识别DNA靶需要共有5’-CC-3’PAM，PAM-近端种子序列内高度的序列互补性，以及跨越整个32-bp前间区的额外碱基配对。为了确定RNA引导的DNA靶向的序列决定簇，通过相对于gRNA-4以1-bp的增量沿着lacZ基因滑动引导序列来测试12个二核苷酸PAM(图3D)。总的来说，8个不同的二核苷酸PAM在＞25％的5’-CC-3’PAM的水平上支持转座，并且转座在整个测试的PAM组中以＞1％的总效率发生(图3D)。当二核苷酸PAM与CRISPR重复序列的3’端序列相同时，这种效率是保守的。尽管这种所谓的“自身序列”通常在涉及DNA干扰或引发的典型免疫反应中的PAM依赖性靶搜索期间被排除，但通过Vch Cascade的DNA结合不会导致Cas3募集，这在研究充分的I型CRISPR-Cas系统中是PAM敏感的。额外的深度测序显示，在测试的一组gRNA中，Cascade靶位点与主要转座子整合位点之间的距离保持在约47-51bp(图3E和12A)。然而，这些实验强调了可以如何利用PAM识别可塑性来以碱基对分辨率指导高度插入灵活性和特异性。

为了探讨转座对RNA-DNA错配的敏感性，测试了沿着gRNA-4的引导部分的4-nt错配的连续区段(图3F和图3J)。8-nt种子序列内的错配严重减少了转座，这可能归因于不能形成稳定的R环。然而，出乎意料的是，结果突出显示了位置25-29处的第二错配区，其消除了DNA整合，尽管以前的研究表明，DNA结合稳定性在很大程度上对这个区域的错配不敏感。对于保留17％整合活性的末端错配区，观察到的整合位点的分布明显偏向于相对于gRNA-4距离靶位点更短的距离(图12B)，这可能是R环构象异质性的结果。

RNA引导的DNA整合模型涉及Cascade介导的TniQ向靶DNA的募集。先前对大肠杆菌Cascade的研究表明，具有延伸的间隔区的gRNA形成含有额外Cas7亚单位的复合物，这将增加PAM结合的Cas8与R环另一端处的Cas6之间的距离。克隆并测试了含有从3’端开始以6-nt增量缩短或延长的间隔区的经修饰的gRNA。具有截短的间隔区区的gRNA显示几乎未显示或未显示活性，而延长的间隔区促进了靶向整合，尽管随着长度的增加水平降低(图12C和图12D)。+12-nt gRNA定向转座到两个不同的区域：一个区域距离野生型32-nt间隔区的3’端约49-bp，另一个区域偏移了11-13-bp，与从PAM测量的R环长度的预期增加一致(图3G和图3K)。这些数据连同错配图一起提供了TniQ栓系于R环结构的PAM-远端的证据。

可编程性和全基因组特异性

克隆并测试了一系列靶向lac操纵子内两侧为5’-CC-3’PAM的额外基因组位点的gRNA。对于每个产生的细胞裂解物使用相同的引物对，通过PCR表明，对于每个不同的gRNA可以预测地重新定位转座(图4A)。

为了测试是否在别处(无论是在由Cascade结合的脱靶基因组位点，还是独立于Cascade靶向的基因组位点)同时发生非特异性整合，采用了先前为mariner转座子开发的转座子插入测序(Tn-seq)管道，其中全基因组的所有整合位点由NGS揭示(图4B和图13A至图13B)。Tn-seq被应用于质粒编码的mariner转座子，并且所述管道成功地概括了之前用Himar1c9转座酶观察到的全基因组整合情况(图4C、图4D、图13C和图13D)。

对用gRNA-4编程的RNA引导的霍乱弧菌转座子进行了相同的分析，并且观察到对lacZ特异性DNA整合的高度选择性(图4C)。观察到的整合位点占通过过滤标准的所有Tn-seq读数的99.0％，与通过先前的PCR扩增子NGS分析观察到的位点精确匹配(图4E)，并且在跨三个生物学重复的基因组中的其它地方没有可再现地观察到脱靶的整合事件(图13E和图13F)。Tn-seq数据产生了诊断性读数堆积(diagnostic readpileups)，其突出显示了5-bp TSD，并证实了前面讨论的转座子插入取向偏差的测量结果(图4F)。来自含有用非靶向gRNA-nt编程的pQCascade的大肠杆菌株的Tn-seq文库，或来自完全缺乏Cascade(但仍含有pDonor和pTnsABCQ)的菌株的Tn-seq文库，产生少得多的基因组映射读数，并且在多个生物学重复中没有一致地观察到整合位点(图4C和图13G至图13I)。

除了用靶向glmS和lacZ基因组基因座的gRNA进行Tn-seq(图14A)之外，克隆并测试了另外16个靶向大肠杆菌基因组的gRNA，它们位于围绕环状染色体等距分布的8个任意位置。除了要求靶位点是唯一的，两侧是5’-CC-3’PAM，并且位于基因间区域之外，没有应用进一步的设计规则或经验选择标准。当分析所得的Tn-seq数据时，16/16 gRNA指导级联靶标下游46-55-bp处的高度精确的RNA引导的DNA整合，其中约95％的所有过滤的Tn-seq读数映射到主要整合位点(图4G和图14B至图14E)。这些实验突出了转座子编码的CRISPR-Cas系统所指导的高度内在可编程性和全基因组整合特异性。

转座酶和整合酶通常被认为通过随机整合(具有低程度的序列特异性)或通过不灵活的序列特异性归巢机器靶向指定基因组基因座来动员其特定的遗传有效载荷。发现了完全可编程的整合酶，其中霍乱弧菌的异聚转座酶的DNA插入活性由称为Cascade的RNA引导的复合物指导，所述复合物的DNA靶向特异性可以很容易地调节。除了定义支配该活性的基本参数外，还发现了Cascade与TniQ之间的新型复合物，其在机械地连接转座子相关机器与CRISPR相关机器。基于上述结果以及先前对Tn7转座的研究，图5A和图5B中显示了编码CRISPR-Cas系统(使用I-F型变体为例)的Tn7样转座子的RNA引导的动员的建议模型。

许多生物技术产品(包括基因疗法、工程化的作物和生物制剂)需要大量遗传有效载荷的基因组整合，基于CRISPR的基因组编辑的出现增加了对有效敲入方法的需求。然而，与机整合转座酶和非同源末端连接方法一样，目前的基因组工程解决方案受到缺乏特异性的限制，或者与同源定向修复一样，受到缺乏效率和细胞类型多样性的限制。通过引导RNA-辅助靶向插入可转座元件(INTEGRATE)的能力提供了位点特异性DNA整合，其消除了对靶DNA中的双链断裂、供体DNA中的同源臂和宿主DNA修复因子的需要。凭借其易编程性，该技术可用于使用引导RNA文库的多路复用和大规模筛选。

材料和方法

质粒构建。本研究中使用的所有质粒均为SEQ ID NO：1-139，公开于SEQ ID NO：1-139，并且子集在Addgene上可用。简言之，编码霍乱弧菌HE-45株的TnsA-TnsB-TnsC和TniQ-Cas8-Cas7-Cas6的基因(SEQ ID NO：141、143、145、147、149、151和153)通过GenScript合成，并分别克隆到pCOLADuet-1和pCDFDuet-1中，得到pTnsABC和pQCascadeΔCRISPR。pQCascade入口载体(pQCascade_entry)是通过在第一个T7启动子下游插入两侧有两个CRISPR重复序列的串联BsaI限制性位点而产生的，随后通过寡双链连接克隆特性的间隔区(图100)，产生pQCascade。为了产生pDonor，将编码转座子两端的基因片段(GenScript)克隆到pUC19中，随后将氯霉素抗性基因插入转座子中。使用多种方法的组合克隆了这些质粒的进一步衍生物，所述方法包括Gibson组装、限制性消化-连接、杂交寡核苷酸的连接和环绕式PCR(around-the-horn PCR)。质粒在NEB Turbo细胞(NEB)中克隆和繁殖，使用Miniprep试剂盒(Qiagen)纯化，并通过桑格测序(GENEWIZ)验证。

对于涉及大肠杆菌Tn7转座子的转座实验，产生的pEcoDonor与pDonor相似，并从pCW4(Addgene质粒号8484)亚克隆了pEcoTnsABCD。简言之，将大肠杆菌tnsA-tnsB-tnsC-tnsD操纵子在T7启动子下游克隆到pCOLADuet-1中，产生pEcoTnsABCD，并将大肠杆菌转座子供体构建体克隆到pUC19中，产生pEcoDonor。对于涉及来自铜绿假单胞菌的I-F系统的转座和细胞杀伤实验，从pBW64亚克隆了编码Cas8-Cas5-Cas7-Cas6(也称为Csy1-Csy2-Csy3-Csy4)的基因，并从pCas1_Cas2/3(Addgene质粒号89240)亚克隆了编码天然Cas2/3融合蛋白的基因。对于涉及化脓性链球菌的II-A系统的转座和细胞杀伤实验，编码Cas9的基因是从内部载体亚克隆的。对于使用mariner转座子和Himar1C9转座酶的对照Tn-seq实验，从pSAM_Ec(Addgene质粒号102939)亚克隆克隆相关部分。

将用于蛋白质纯化的表达质粒从pQCascade亚克隆到p2CT-10(Addgene质粒#55209)中，并将gRNA表达构建体克隆到pACYCDuet-1中。

使用Clustal Omega，利用默认参数进行多序列比对，并用ESPript 3.0可视化。使用CRISPRTarget进行C2c5 CRISPR阵列的间隔区分析(图15)。

转座实验。所有转座实验均在大肠杆菌BL21(DE3)细胞(NEB)中进行。对于包括pDonor、pTnsABC和pQCascade(或其变体)的实验，首先用pDonor和pTnsABC、pDonor和pQCascade或pTnsABC和pQCascade共转化化学感受态细胞，并通过在双抗生素LB-琼脂平板上选择性铺板来分离转化体。然后从单个菌落接种液体培养物，使用标准方法使所得菌株变成化学感受态，将其等分并快速冷冻。通过热激将第三质粒引入新的转化反应中，在37℃的新鲜LB培养基中使细胞恢复1小时后，将细胞铺在含有100μg/mL羧苄西林、50μg/mL卡那霉素和50μg/mL壮观霉素的三重抗生素LB-琼脂平板上。在37℃过夜生长16小时后，从平板上刮取数百个菌落，一部分重新悬浮在新鲜LB培养基中，然后如前所述重新铺在三重抗生素LB-琼脂平板上，这次补充0.1mM IPTG以诱导蛋白质表达。为了避免生长竞争和种群瓶颈，选择固体培养基培养而不是液体培养。将细胞在37℃下再培养24小时，通常作为密集分布的菌落生长，然后刮取，重悬于LB培养基中，并为后续分析作准备。使用空载体和与上述完全相同的方案进行缺少一种或多种分子组分的对照实验。研究诱导水平对转座效率的影响的实验在培养基中具有不同的IPTG浓度(图10D)。为了通过蓝白色菌落筛选分离克隆的、整合了lacZ的菌株，将细胞重新铺在补充有1mM IPTG和100μg/mL X-gal(GoldBio)的三重抗生素LB-琼脂平板上，并在37℃生长过夜，然后进行菌落PCR分析。

转座产物的PCR和桑格测序分析。对重悬于LB培养基中的刮取菌落进行600nm处的光密度测量，将约3.2x10⁸个细胞(相当于200μL的OD₆₀₀＝2.0)转移至96孔板。通过以4000xg离心5分钟沉淀细胞，并重新悬浮在80μL H₂O中，然后通过在热循环仪中于95℃孵育10分钟来进行裂解。通过以4000x g离心5分钟沉淀细胞碎片，取出10μL裂解物，用90μL H₂O连续稀释，产生10倍和100倍裂解物稀释液，分别用于qPCR和PCR分析。

使用每12.5μL反应体积5μL 100倍稀释裂解物作为模板，用Q5热启动高保真DNA聚合酶(NEB)产生PCR产物。反应包含200μM dNTP和0.5μM的引物，通常进行30次热循环，退火温度为66℃。引物对包含一个基因组特异性引物和一个转座子特异性引物，并被改变，使得所有可能的整合取向都可以在靶位点的上游和下游被检测到(关于选定的寡核苷酸，参见图101)。菌落PCR(图7B和图7G)通过用单个菌落接种过夜培养物并如上所述进行PCR分析来进行。PCR扩增子通过1-2％琼脂糖凝胶电泳解析，并通过SYBR Safe(Thermo Scientific)染色显现。阴性对照样品总是与实验样品并行地进行分析，以鉴定错误引发的产物，其中一些推定是由对仍含有高拷贝pDonor的粗细胞裂解物进行分析产生的。最初使用不同的DNA聚合酶、可变的循环条件和不同的样品制备方法进行PCR。注意到较高浓度的粗裂解物似乎抑制整合的转座产物的成功扩增。

为了通过桑格测序来定位整合位点，通过凝胶电泳分离后切下条带，通过凝胶提取试剂盒(Qiagen)分离DNA，并将样品提交给GENEWIZ并由其进行分析。

通过PCR扩增子的下一代测序(NGS)进行整合位点分布分析。如上所述产生PCR-1产物，不同之处在于引物含有通用的Illumina接头作为5’悬突(表5)并且循环数减少到20。然后将这些产物稀释20倍，加入到含有索引的p5/p7引物的新鲜聚合酶链式反应(PCR-2)中，并使用65℃的退火温度进行10次额外的热循环。在通过分析凝胶电泳验证扩增后，合并带条形码的反应物，并通过2％琼脂糖凝胶电泳进行解析，通过凝胶提取试剂盒(Qiagen)分离DNA，并使用NEBNext文库定量试剂盒(NEB)通过qPCR对NGS文库进行定量。Illumina测序使用具有150个循环的单末端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率(basemiscalling rate))的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。

为了确定给定样品的整合位点分布，使用定制Python脚本执行了以下步骤。首先，根据它们包含20-bp完全匹配转座子末端序列的要求过滤读数。然后提取紧接转座子侧翼的15bp序列，并将其与gRNA匹配基因组靶位点周围的大肠杆菌BL21(DE3)基因组(GenBank登录号CP001509)的1-kb窗口比对。测定最近的转座子-基因组连接与32-bp靶位点的PAM-远端边缘之间的距离。在汇编了给定文库中所有读数的这些距离后，绘制直方图。

细胞杀伤实验。对于利用Cas9的实验，用100ng编码sgRNA-3或sgRNA-4(它们与霍乱弧菌gRNA-3和gRNA-4靶向等同但位于相反链上的lacZ位点)或来自含BsaI的入口载体的截短/无功能sgRNA的Cas9-sgRNA表达质粒，转化40μL化学感受态BL21(DE3)细胞(图100)。在37℃下恢复1小时后，将细胞的可变稀释物铺在含有100μg/mL羧苄西林和0.1mM IPTG的LB琼脂平板上，并在37℃下再生长16小时。在三次生物学重复中定量所得菌落的数量，并将数据绘制为每μg质粒DNA的菌落形成单位(cfu)。额外的对照实验使用了编码Cas9核酸酶失活D10A和H840A突变(dCas9)的表达质粒。

对于来自铜绿假单胞菌的Cascade和Cas2-3的实验，首先用Cas2-3表达载体转化BL21(DE3)细胞，并使所得菌株变成化学感受态。然后用100ng编码gRNA-Pae3或gRNA-Pae4(它们与霍乱弧菌gRNA-3和gRNA-4靶向等同的lacZ位点)或来自含BsaI的入口载体的截短/无功能gRNA的PaeCascade表达质粒，转化40μL的这些细胞(图100)。在37℃下恢复1小时后，将细胞的可变稀释物铺在含有100μg/mL羧苄西林和50μg/mL卡那霉素的LB琼脂平板上，并在37℃下再生长16小时。在三次生物学重复中定量所得菌落的数量，并将数据绘制为每μg质粒DNA的菌落形成单位(cfu)。在这些实验中，即使是低浓度的IPTG也导致了与gRNA无关的毒性，而在不存在诱导的情况下，很容易观察到gRNA依赖性细胞杀伤，推测是由于T7RNAP的泄漏表达引起的。在使用PaeCascade和Cas2-3的实验中省略了IPTG。

转座效率的qPCR分析。对于gRNA-3和gRNA-4，转座子特异性引物对和基因组特异性引物对被设计成扩增约140-240-bP的片段，所述片段由以任一取向在预期的lacZ基因座处进行的RNA引导的DNA整合产生。为了归一化目的，设计了一对单独的基因组特异性引物来扩增大肠杆菌参考基因(rssA)(图101)。qPCR反应(10μL)包含5μL SsoAdvanced通用SYBRGreen Supermix(BioRad)、1μL H₂O、2μL 2.5μM引物和2μL从刮取的菌落制备的10倍稀释裂解物，如上面针对PCR分析所述的。在384孔透明/白色PCR板(BioRad)中制备反应，并在CFX384实时PCR检测系统(BioRad)上使用以下热循环参数进行测量：聚合酶活化和DNA变性(98℃ 2.5min)、40个扩增循环(98℃ 10s、62℃ 20s)和终末解链曲线分析(以0.5℃/5秒的增量从65℃至95℃)。

裂解物是从含有pDonor和两种空表达载体(pCOLADuet-1和pCDFDuet-1)的对照BL21(DE3)菌株制备的，并且是从以两个取向上克隆整合到gRNA-3和gRNA-4靶位点下游的lacZ位点的菌株制备的。通过用跨五个数量级稀释的这些样品中的每一个测试引物对，然后确定所得的Cq值和PCR效率，证实实验扩增子和参考扩增子以相似的效率扩增，并且引物对选择性扩增预期的转座产物(图10A和图10B)。通过以各种比例混合对照裂解物和克隆整合裂解物，模拟了跨越五个数量级(范围从0.002-100％)的可变转座效率，并且在任一取向上，在两个靶位点处的转座产物的准确和可再现的检测经显示处于＞0.01％的水平(图10B)。最后，通过将克隆整合的裂解物以不同的比例与对照裂解物混合在一起来模拟可变的整合取向偏差，并且表明这些也可被精确测量(图10C和图10E)。

在另一个qPCR分析方案中，在三个并行反应中分析每个生物样品：一个反应包含针对大肠杆菌参考基因的引物对，第二个反应包含针对两个可能的整合取向之一的引物对，第三个反应包含针对另一个可能的整合取向的引物对。然后将每个取向的转座效率计算为2^ΔCq，其中ΔCq是实验反应与对照反应之间的Cq(定量循环)差。给定实验的总转座效率计算为两个取向的转座效率之和。文本中和图中呈现的所有测量值都是从三个独立的生物学重复中确定的。

pDonor变体的实验通过在最终转化步骤中递送pDonor来进行，而大多数其它实验通过在最终转化步骤中递送pQCascade来进行。结果，这两个实验的样品之间的整合效率似乎略有不同(比较图3B与图3C)。另外，为了不通过连续缩短PCR扩增子而使供体末端截短样品的qPCR分析产生偏差，对这些样品使用了不同的引物对。在左端和右端截短小组内(图11B至图11D)，未被干扰的转座子末端被选择性扩增用于qPCR分析。

重组蛋白的表达和纯化。Cascade、TniQ和TniQ-Cascade的蛋白质组分分别从在Cas8、TniQ和TniQ上包含N端His₁₀-MBP-TEV位点融合物的pET衍生载体中表达(参见图8A)。Cascade和TniQ-Cascade的gRNA是从pACYC衍生载体中分别表达的。将含有一种或两种质粒的大肠杆菌BL21(DE3)细胞在含有一种或多种适当的抗生素的2xYT培养基中于37℃生长至OD₆₀₀＝0.5-0.7，此时加入IPTG至终浓度为0.5mM，并允许在16℃下继续生长12-16小时。通过在4℃下以4,000x g离心20分钟收获细胞。

如下纯化Cascade和TniQ-Cascade。将细胞沉淀重悬于Cascade裂解缓冲液(50mMTris-C1，pH 7.5，100mM NaCl，0.5mM PMSF，不合EDTA的蛋白酶抑制剂混合片剂(Roche)，1mM DTT，5％甘油)中，用超声细胞破碎仪(Fisher)超声裂解，设定振幅为40％，总处理时间为12分钟(10秒开启和20秒关闭的周期，总共4分钟开启和8分钟关闭)。通过在4℃下以15,000x g离心30分钟来澄清裂解物。使用NiNTA洗涤缓冲液(50mM Tris-Cl，pH 7.5，100mMNaCl，10mM咪唑，1mM DTT，5％甘油)和NiNTA洗脱缓冲液(50mM Tris-Cl pH 7.5，100mMNaCl，300mM咪唑，1mM DTT，5％甘油)通过利用Ni-NTA琼脂糖(Qiagen)的固定金属离子亲和色谱进行初始纯化。His₁₀-MBP融合物通过与TEV蛋白酶在NiNTA洗脱缓冲液中于4℃孵育过夜而被去除，复合物通过阴离子交换色谱在AKTApure系统(GE Healthcare)上使用5mLHiTrap Q HP柱(GE Healthcare)进一步纯化，线性梯度为在20个柱体积内从100％缓冲液A(20mM Tris-Cl，pH 7.5，100mM NaCl，1mM DTT，5％甘油)至100％缓冲液B(20mM Tris-Cl，pH 7.5，1M NaCl，1mM DTT，5％甘油)。合并的级分通过SDS-PAGE分析鉴定并浓缩，通过在一个或两个用Cascade储存缓冲液(20mM Tris-Cl，pH 7.5，200mM NaCl，1mM DTT，5％甘油)平衡的串联Superose 6 Increase 10/300柱(GE Healthcare)上进行尺寸排阻色谱进一步精制样品。将级分合并，浓缩，在液氮中速冻，并在-80℃下储存。

类似地纯化TniQ，不同之处在于裂解、NiNTA洗涤和NiNTA洗脱缓冲液含有500mMNaCl而不是100mM NaCl。使用与上述相同的缓冲液A和缓冲液B，在5mL HiTrap SP HP柱(GEHealthcare)上进行离子交换色谱分离，最终的尺寸排阻色谱步骤在于Cascade储存缓冲液中的HiLoad Superdex 75 16/600柱(GE Healthcare)上进行。用于TniQ-Cascade结合实验的TniQ蛋白(图8E)包含N端StrepII标签。

质谱分析。在4-20％的梯度SDS-PAGE上分离0.5-5μg总蛋白，并用Imperial蛋白染色法(Thermo Scientific)进行染色。凝胶内消化基本上按照Shevchenko，A.等人(NatProtoc 1，2856-2860(2006)，其通过引用并入本文)所述，稍作修改来进行。切下蛋白质凝胶切片，用1∶1的乙腈∶100mM碳酸氢铵(v/v)洗涤30分钟，用100％乙腈脱水10分钟，并在不加热的情况下于speed-vac中干燥10分钟。将凝胶切片在56℃下用5mM DTT还原30分钟，然后在室温下于黑暗中用11mM碘乙酰胺烷基化30分钟。凝胶切片用100mM碳酸氢铵和100％乙腈各洗涤10分钟，多余的乙腈通过在不加热的情况下于speed-vac中干燥10分钟而除去。然后将凝胶切片在25ng/μl的于50mM碳酸氢铵溶液中的胰蛋白酶溶液中于冰上再水合30分钟，并在37℃下过夜进行胰蛋白酶消化。收集消化的肽，并在高速振荡下于MS提取缓冲液(1∶2的5％甲酸/乙腈(v/v))中从凝胶切片中进一步提取。将上清液在speed-vac中干燥，并将肽溶解在含有3％乙腈和0.1％甲酸的溶液中。

将脱盐肽注射到EASY-Spray PepMap RSLC C18 50cm x 75μm柱(ThermoScientific)上，所述柱耦接至Orbitrap Fusion Tribrid质谱仪(Thermo Scientific)。以250nL/min的流速，用5-30％MS缓冲液B的非线性100分钟梯度(MS缓冲液A：0.1％(v/v)的于水中的甲酸；MS缓冲液B：0.1％(v/v)的于乙腈中的甲酸)洗脱肽。肽前体的调查扫描在400至1575m/z的范围内进行，分辨率为120K FWHM(在200m/z下)，离子计数目标为2x10⁵，最大注入时间为50毫秒。仪器被设置为以最高速度模式运行，调查和MS/MS扫描周期为3秒。在调查扫描之后，通过在1.6Th的四极杆中分离它们，对表现出大于5x10³的强度的2至6的电荷状态的最丰富的前体进行串联MS。用35％的碰撞能量应用CID片段化，并在离子阱中使用快速扫描速率检测所得片段。MS/MS的AGC目标设置为1x10⁴，最大注入时间限制为35毫秒。动态排除设置为45秒，前体及其同位素周围的质量允差为10-ppm。单一同位素前体选择已启用。

使用Proteome Discoverer 2.2软件(Thermo Scientific)中的Sequest HT搜索引擎以及定制的序列和从Uniprot下载的参考大肠杆菌BL21(DE3)菌株数据库进行处理和搜索原始质谱数据。用于蛋白质鉴定的默认搜索设置如下：全胰蛋白酶的两次错误裂解(mis-cleavage)，半胱氨酸的固定脲甲基修饰和甲硫氨酸的氧化；天冬酰胺和谷氨酰胺的脱酰胺以及蛋白质N端的乙酰化被用作可变修饰。使用Percolator算法过滤鉴定的肽以获得最大1％的假发现率，并将PD2.2输出组合文件夹上传到Scaffold(蛋白质组软件)中进行数据可视化。光谱计数用于分析以比较样品。

gRNA分析和RNA-seq。为了分析与Cascade和TniQ-Cascade共同纯化的核酸组分，通过苯酚-氯仿提取分离核酸，通过10％变性尿素-PAGE进行解析，并通过SYBR Gold(Thermo Scientific)染色来进行显现。用约4pmol核酸和10μg RAN酶(ThermoScientific)或2单位DNA酶I(NEB)在10μL反应中进行分析RNA酶和DNA酶消化，并通过10％变性尿素-PAGE和SYBR Gold染色进行分析。

通常如Heidrich，N.等人，Methods Mol Biol 1311，1-21(2015)(其通过引用并入本文)中所述，进行RNA-seq。简言之，通过苯酚-氯仿提取、乙醇沉淀和使用T4多核苷酸激酶(NEB)5’-磷酸化/3’-去磷酸化，然后使用ssDNA/RNA Clean&Concentrator试剂盒(ZymoResearch)进行净化，从Cascade和TniQ-Cascade复合物中分离出RNA。将含有5’-腺苷酸化和3’-双脱氧胞苷修饰的ssDNA通用Illumina衔接子(表5)用T4 RNA连接酶1(NEB)连接至3’端，随后进行ssDNA逆转录酶引物的杂交并将ssRNA通用Illumina衔接子用T4 RNA连接酶1(NEB)连接至5’端。使用Maxima H Minus逆转录酶(Thermo Scientific)合成cDNA，然后使用索引的p5/p7引物进行PCR扩增。Illumina测序使用具有150个循环的单末端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。读数与用于重组Cascade和TniQ-Cascade表达和纯化的gRNA表达质粒对齐。

TniQ-Cascade结合实验。结合反应(120μL)包含1μM Cascade和5μM StrepII标记的TniQ，并在Cascade储存缓冲液中制备，在室温下孵育30分钟，然后装载入AKTApure系统(GE Healthcare)上的100μL样品环中。反应通过在于Cascade储存缓冲液中的Superose 6Increase 10/300柱(GE Healthcare)上进行尺寸排阻色谱来进行解析，每个峰级分中的蛋白质用丙酮沉淀，并用SDS-PAGE进行分析。对照反应不存在Cascade或TniQ。

Tn-seq实验。如上所述进行转座实验，不同之处在于pDonor在转座子右端含有两个引入MmeI限制性位点的点突变(图13A至图13B)。将来自含IPTG的三重抗生素LB-琼脂平板(通常编号在10²-10³的范围内)的菌落重新悬浮在4mL新鲜LB培养基中，并用Wizard基因组DNA纯化试剂盒(Promega)将0.5mL(相当于约2x10⁹个细胞)用于基因组DNA(gDNA)提取。该程序通常产生50μL的0.5-1.5μg/μL的gDNA，其是大肠杆菌环状染色体(4.6Mbp，拷贝数为1)、pDonor(3.6kb，拷贝数为100+)、pTnsABC(6.9kb，拷贝数为20-40)和pQCascade(8.4kb，拷贝数为20-40)的混合物。

如下所述，在96孔板上并行制备NGS文库。首先，在65℃加热灭活20分钟之前，在含有50μM S-腺苷甲硫氨酸和1X CutSmart缓冲液的50μL反应中，用4单位的MmeI(NEB)在37℃消化1μg的gDNA 12小时。MmeI切割末端重复序列外的转座子17/19核苷酸(nt)，留下2-nt3′-悬突。根据制造商的说明，使用1.8X Mag-Bind TotalPure NGS磁珠(Omega)净化反应物，并使用30μL的10mM Tris-Cl，pH 7.0进行洗脱。在含有16.86μL MmeI-消化的gDNA、280nM衔接子、400单位的T4 DNA连接酶(NEB)和1X T4 DNA连接酶缓冲液的20μL连接反应中，将MmeI消化的gDNA连接至含有末端5′-NN-3′悬突的双链i5通用衔接子(图101)。反应物在室温下孵育30分钟，然后像以前一样用磁珠进行净化。为了降低NGS文库中pDonor的污染程度，由于pDonor还包含具有MmeI位点的全长转座子，因此正好在pDonor内的转座子右端外使用了独特的HindIII限制性位点。因此，在65℃下进行热灭活步骤20分钟之前，在37℃下于34.4μL反应中用20单位的HindIII(NEB)消化整个衔接子连接的gDNA样品，持续1小时。如前所述，进行基于磁珠的DNA清除。

在PCR-1步骤中，使用通用i5衔接子引物和包含通用i7衔接子作为5’悬突的转座子特异性引物富集衔接子连接的转座子。反应体积为25μL，包含16.75μL的HindIII消化的gDNA、200μM dNTP、0.5μM引物、1X Q5反应缓冲液和0.5单位Q5热启动高保真DNA聚合酶(NEB)。允许扩增进行25个循环，退火温度为66℃。然后将反应产物稀释20倍，加入到第二个20μL聚合酶链式反应(PCR-2)中，所述反应包含索引的p5/p7引物，并使用65℃的退火温度对其进行10个额外的热循环。在通过分析凝胶电泳验证选择文库的扩增后，合并带条形码的反应并通过2％琼脂糖凝胶电泳进行解析，通过凝胶提取试剂盒(Qiagen)分离DNA，并使用NEBNext文库定量试剂盒(NEB)通过qPCR对NGS文库进行定量。Illumina测序使用具有150个循环的单末端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。

针对霍乱弧菌制备了具有mariner/Himar1C9，但有以下变化的Tn-seq文库。转化反应利用BL21(DE3)细胞和单个pDonor质粒，所述质粒编码两端都有MmeI位点的含KanR的mariner转座子，以及由lac启动子控制的Himar1C9转座酶的独立表达盒。在37℃下使转化的细胞恢复1小时，然后铺在含有100μg/mL羧苄西林的生物测定皿上，产生约5x10⁴个菌落。在单次16小时过夜生长后，将细胞重悬于20mL新鲜LB培养基中，相当于约2x10⁹个细胞用于基因组DNA(gDNA)提取。如上所述制备NGS文库，不同之处在于耗尽pDonor的限制性酶消化反应含有20单位的BamHI和KpnI而不是HindIII。

Tn-seq数据可视化和生物信息学分析。软件应用程序Geneious Prime用于根据以下三个标准进一步过滤读数：读数长度对应于预期产物(对于霍乱弧菌转座子为112-113-bp，对于mariner为87-88-bp)，所述预期产物由对基因组整合的转座子的MmeI切割和衔接子连接产生；每个读数包含预期的转座子末端序列(允许一个错配)；以及转座子侧翼序列(对于霍乱弧菌转座子修剪为17-bp，对mariner转座子修剪为14-bp)完美地映射到参考基因组。对大肠杆菌BL21(DE3)基因组(GenBank登录号CP001509)的映射是使用功能“映射到参考”和以下设置完成的。映射器(Mapper)：Geneious；微调：无(快速/读数映射)；字长：17；最大错配：0％；最大模糊度：1。“映射多个最佳匹配”设置被设置为“无”，有效地排除了除了唯一映射到单个位点的读数(称为“唯一映射读数”)之外的任何读数，或者设置为“全部”，这允许读数映射到大肠杆菌基因组上的一个或多个位点(称为“已处理的映射读数”)。两组读数都导出为fastq文件，并使用定制Python脚本进行下游分析。在此过程中移除的许多读数完全映射到供体质粒，表明HindIII或BamHI/KpnI切割不足以完全移除污染性pDonor衍生序列。“已处理的映射读取”的覆盖数据被导出以生成图4F。

为了可视化给定样品的全基因组整合位点分布，将“唯一映射读数”映射到相同的大肠杆菌参考基因组，但这次是使用定制Python脚本。每个读数的整合位点被定义为对应于映射的读数的3’边缘的基因组坐标(相对于参考基因组)。为了可视化的目的，计算5-kb箱内的整合事件，并在图4C、图4、图14A和图14B中绘制为全基因组直方图。绘图是使用Matplotlib图形库生成的。图4D中的序列标示符是使用WebLogo 3生成的。

比较生物学重复之间的整合位点的图(图13D至图13I)是通过使用GenBank登录号CP001509将基于基因注释(mariner)的全基因组直方图分箱或分箱到100-bp的箱(霍乱弧菌转座子)中生成的。对于霍乱弧菌转座子来说，将箱移位，使得每个样品的Cascade靶位点的3’端可对应于其相应的100-bp的箱的起点。Mariner图的线性回归和双变量分析(图13D)使用SciPy统计包进行。

为了分析每个样品的主要整合位点，使用定制Python脚本将“处理过的映射读数”映射到相应基因组靶位点周围的600-bp基因组窗口。对于映射到作为靶标的相反链的读数(即，对于T-LR取向，其中整合将转座子“左”端放置在最靠近Cascade结合位点的位置)，整合位点从靶位点的3’边缘移位了5-bp，以解释5-bp的TSD。该600-bp的窗口内的主要整合位点由最大数量的映射读数定义，同时任意指定以主要整合位点为中心的100bp作为“中靶”窗口。每个样品的中靶整合百分比计算为100-bp窗口内由转座产生的读数数量除以映射到基因组的读数总数。还确定了一个取向对比另一个取向的整合比；该参数仅利用中靶读数，计算为由最接近Cascade结合位点的转座子“右”端(T-RL)的整合产生的读数数量除以由最接近Cascade靶位点的转座子左端(T-LR)的整合产生的读数数量。对每个样品的两个取向绘制了主要位点周围的整合分布，并用于生成图4E和图14C至图14E。这种分析容易受到5’-NN-3’悬突衔接子连接中不同效率的潜在偏差的影响，这是没有考虑到的。

统计和再现性。通过琼脂糖凝胶电泳解析的分析性PCR在三个独立的重复中给出了相似的结果(图1D、图1E、图1I、图2A和图4A)或通过凝胶电泳分析一次(图2E、图6D、图7B、图7D和图7F)，但用qPCR对三个独立的重复进行了验证(图2E)。PCR扩增子的桑格测序和下一代测序进行了一次(图1F、图1G、图3E、图3G、图4E、图6E、图7A和图7E)。对相同蛋白质复合物的两种或更多种不同制剂进行SDS-PAGE实验，得到相似的结果(图2B和图8B)。进行蛋白质结合反应并通过SDS-PAGE分析一次(图8E)。从纯化的蛋白质制剂中提取核酸，对经过和未经过RNA酶或DNA酶处理的样品进行尿素-PAGE分析，进行两次，结果相似(图2C和图8D)；RNA测序进行了一次(图2D)。

实施例2

通过CRISPR-Tn7系统在真核细胞中进行RNA引导的DNA整合

编码CRISPR-Cas系统的Tn7样转座子可用于可编程的DNA整合，其中缺乏核酸酶的CRISPR-Cas机器(或者来自I型系统的Cascade，或者来自V型系统的C2c5)分别与Tn7转座子相关蛋白协同介导RNA引导的DNA靶向和DNA整合。

本文描述了在人细胞中异源表达所述机器的实验，以便在真核细胞中进行RNA引导的DNA整合实验。下面描述的表达构建体和实验细节可用于在永生化的人细胞系(例如HEK293T)中进行RNA引导的DNA整合。它们可以被修饰以使得能够在其它真核细胞类型中表达和重建RNA引导的DNA整合，例如通过改变启动子、密码子优化、核定位信号、载体设计和递送方法等参数。可以表达和重建CRISPR-Tn7的另外的真核细胞包括但不限于其它智人细胞系(永生化或原代T细胞、B细胞、造血干细胞、胚胎干细胞、诱导的多能干细胞等)、来源于小家鼠、秀丽隐杆线虫、果蝇、酿酒酵母等的细胞。

目前，使用CRISPR-Cas9和其它可编程的核酸酶将大的基因运载物插入真核生物基因组存在很大的局限性和风险。

利用CRISPR-Cas9进行的基因整合需要引入DSB，并使用携带适当设计的同源臂的合成修复供体模板。当以重组AAV载体或ssDNA提供时，同源供体的工作效率最高，但生产这些供体也非常费力[参见例如H.Li，M.D.Leonetti，BioRxiv，1-24(2017)，其通过引用并入本文]。此外，克隆具有同源臂的dsDNA供体模板既耗时又繁琐。相比之下，本文所述的方法不需要为每个新的靶位点重新设计同源臂，因为靶向完全来自引导RNA，并且相同的供体，即工程化的转座子供体DNA，用于任何任意的靶位点。

利用CRISPR-Cas9和供体模板的基因整合依赖于同源定向修复(HDR)来正确整合供体模板。然而，已知在许多不同的细胞类型中，HDR效率极低，并且在HDR之前的DSB总是在整个细胞群中以不同的方式被修复：一些细胞在一个或两个等位基因上经历HDR，而更多的细胞在一个或两个等位基因上经历非同源末端连接(NHEJ)，这导致在靶位点处引入小的插入或缺失[综述于：K.S.Pawelczak，N.S.Gavande，P.S.VanderVere-Carozza，J.J.Turchi，ACS Chem Biol.13，389-396(2018)，其通过引用并入本文]。这意味着，在整个细胞群(例如，如在治疗或实验应用中所编辑的)中，只有一小部分细胞经历了所需的位点特异性基因整合，而更大得多的比例的细胞经历了异质修复。相比之下，RNA引导的基因整合转座酶机器不通过DSB中间体进行，因此不允许NHEJ介导的插入或缺失出现。相反，DNA的靶向导致通过协同的转酯反应的直接整合，使得靶向包括直接整合，而无任何其它脱离路径的替代物。

HDR的内源性机器在有丝分裂后细胞(即不经历DNA复制的非分裂细胞)诸如神经元和终末分化细胞中实际上是不存在的。因此，在这些细胞类型中没有精确的靶向基因整合的选择。另一方面，本文描述的RNA引导的DNA整合方法为这些细胞类型的精确整合提供了替代方法。

DSB是用于基因整合的CRISPR-Cas9介导的HDR途径的必要前体，已知其会对细胞造成危害。脱靶位点处的DSB引入脱靶突变；DSB可以引发DNA损伤反应[E.Haapaniemi，S.Botla，J.Persson，B.Schmierer，J.Taipale，Nat.Med.224，927-930(2018)]；DSB可导致p53无标志细胞的选择，这增加了肿瘤发生的风险[R.J.Ihry等人，Nat.Med.24，939-946(2018)]；而中靶位点处的DSB修复会导致大规模的基因缺失、倒位或染色体易位[M.Kosicki，K.Tomberg，A.Bradley，Nat Biotechnol.36，765-771(2018)]。以RNA引向的靶特异性方式整合DNA的方法消除了对引入DSB的需要，从而排除了所有上述危险。

许多基因治疗产品，无论是商业化的还是处于临床试验中的，都使用随机整合病毒将治疗药物运送到患者细胞的基因组中[Naldini等人，Science 353，1101-1102(2016)]。利用本文所述的方法，这些治疗基因被整合到基因组内已知的安全港基因座中，在所述安全港基因座中可以确保稳定表达，并且完全避免插入透变的风险。[M.Bokhoven等人，J Virol.83，283-294(2009)]。

在一个实施方案中，本文所述的系统可用于癌症免疫疗法，这是一个快速发展和有前景的癌症治疗领域。最近的进展展示了CAR-T疗法的潜力，在这种疗法中，嵌合抗原受体被整合到被设计成识别某些癌症类型特有的特定表位的T细胞中。[C.H.June，M.Sadelain，N.Engl.J.Med.379，64-73(2018)]。最近的工作表明，当CAR基因整合到基因组中的确定的位点，而不是随机位点时，CAR-T细胞的功效会增加[J.Eyquem等人，Nature.543，113-117(2017)]。

表达载体的设计

在一个实施方案中，引导RNA(gRNA)和CRISPR相关基因和Tn7相关基因均从单个质粒中表达并瞬时递送(图18)。gRNA被编码为重复序列-间隔区-重复序列CRISPR阵列，并被克隆到人U6启动子的下游；可以使用其它启动子，并且在其它实施方案中，CRISPR阵列可以由RNA聚合酶II识别的启动子表达，例如如果CRISPR阵列编码在编码mRNA的3’非翻译区(UTR)内，允许输出到细胞质并在细胞质中加工。CRISPR相关(cas)基因和Tn7相关(tns和tni)基因被克隆在巨细胞病毒(CMV)增强子和启动子的下游，允许通过RNA Pol II表达，尽管在其它实施方案中，启动子可被其它组成型哺乳动物启动子或诱导型启动子取代，允许基因表达的小分子控制。上述载体设计需要所有组分的共转染，以便在真核细胞内重建CRISPR-Tn7机器，尽管其它策略也是可能的(例如，通过整合一种或多种组分的稳定转染、病毒转导等)。

在另一个实施方案中，CRISPR相关机器和Tn7相关机器由两个多顺反子载体表达(图19)，其也通过瞬时转染被递送至细胞；在其它实施方案中，表达构建体通过病毒转导被稳定转染或整合。在表达来自IF型变体霍乱弧菌的CRISPR-Tn7系统的实验中，一种多顺反子载体被命名为pTnsABC_hCO，并编码TnsA、TnsB和TnsC；而第二种多顺反子载体被命名为pQCascade_hCO，并编码TniQ、Cas8(Cas8是Cas8和Cas5多肽的天然融合体，在本实施例中对于IF型变体，以下简称为Cas8)、Cas7、Cas6和gRNA，编码为CRISPR阵列(即重复序列-间隔区-重复序列)。多顺反子载体表现出以下设计标准：

-单个CMV启动子驱动单个多肽融合构建体的表达；

-每个蛋白编码基因编码N端核定位信号(NLS)；

-融合构建体内的每个蛋白质编码基因，除3’-末端基因外，编码C端2A病毒衍生的“核糖体跳跃(ribosome skipping)”肽；以及

-人U6启动子驱动前体CRISPR RNA的表达。

2A肽来源于明脉扁刺蛾(thosea asigna)病毒(T2A)，但也可能来源于其它病毒2A序列；这些肽导致核糖体在肽的C端异常终止翻译，但随后立即在随后的密码子上重新开始翻译，允许从单个mRNA转录物表达多种多肽产物(Liu，Z.等人Sci Rep 7，2193(2017))。在该方法的其它实施方案中，使用不同的启动子，将NLS从N端移动到C端，去除NLS或添加额外的NLS，并且/或者重新排列多顺反子构建体中基因的顺序。一种或多种多顺反子载体还可与编码单个组分的表达载体共转染(一种“添加-返回”策略)，以便提供更高水平的特定分子组分的表达。CRISPR也可在其自己的质粒上单独编码，pQCascade_hCO可被修饰，以使其不再编码hU6驱动的CRISPR RNA。

CRISPR-Tn7机器的替代递送方法

CRISPR相关机器和Tn7相关机器也可通过基因转染来递送。在一个实施方案中，将编码CRISPR相关蛋白和Tn7相关蛋白的单个封端且多腺苷酸化的mRNA与CRISPR RNA一起共转染(图20)。CRISPR RNA可以作为完全成熟的gRNA进行递送；其可以作为前体CRISPR RNA递送，所述前体CRISPR RNA在5’和3’端含有完整的重复序列，所述重复序列将由细胞中的Cas6加工；其可包含额外的化学修饰以增加细胞稳定性。在另一个实施方案中，如上所述，类似地将CRISPR RNA连同编码与2A接头序列连接的多蛋白质产物的封端且多腺苷酸化的mRNA一起递送。

还可将CRISPR相关机器和Tn7-相关机器作为纯化的蛋白质和核糖核蛋白(RNP)组分来递送。在转染之前，将TniQ-Cascade、TnsA、TnsB和TnsC单独纯化，然后混合在一起。

CRISPR RNA也可被编码在合成的重复序列-间隔区-重复序列CRISPR阵列上，所述阵列是通过PCR扩增产生的，并作为线性DNA直接转染，而不是被克隆到pQCascade_hCO中。

用于在HEK293T细胞中重建RNA引导的DNA整合的实验策略

在真核细胞通过CRISPR-Tn7监测RNA引导的DNA整合活性的实验用多种不同的方法进行。

在一个实施方案(参见图21A)中，供体DNA存在于环状质粒上，表示为pDonor，而靶DNA(定义为与gRNA互补的DNA序列)存在于单独的环状质粒上，表示为pTarget。将HEK293T细胞与表达载体(如上所述)以及pDonor和pTarget共转染，导致从pDonor(由Tn7转座子末端序列定义)中切下遗传运载物，并将遗传运载物整合到pTarget上靶DNA下游的固定距离处。成功的整合事件的检测描述如下。pDonor和pTarget也可以与mRNA和CRISPR RNA组分一起转染，或者与纯化的蛋白质和RNP组分一起转染。

在另一个实施方案(见图21B)中，供体DNA存在于环状质粒上，表示为pDonor，而靶DNA(定义为与gRNA互补的DNA序列)存在于智人基因组上。将HEK293T细胞与表达载体(如上所述)和pDonor共转染，导致从pDonor(由Tn7转座子末端序列定义)中切下遗传运载物，并将遗传运载物整合到基因组内靶DNA下游的固定距离处。成功的整合事件的检测描述如下。还可将pDonor与mRNA和CRISPR RNA组分一起转染，或者与纯化的蛋白质和RNP组分一起转染。

供体DNA包含目标遗传运载物两侧的左右转座子末端序列，也可以作为病毒载体(例如rAAV)的一部分或作为线性双链DNA(dsDNA)递送。在线性dsDNA的情况下，转染的构建体可以刚好终止于转座子的左端和右端，或者可以包含额外的侧翼序列。

转染和HEK293T细胞培养

将HEK293T细胞传代并以10％的汇合度铺板(培养基：DMEM，10％Hi-FBS，1％PSG)。传代后约16小时，根据上述各种设计参数，用CRISPR-Tn7机器、pDonor和pTarget(当存在时)转染细胞。细胞培养至少24小时，并且不超过汇合度。当汇合时，将细胞从平板上提起并分成三份，三分之一用于流式细胞术，三分之一被裂解，细胞裂解物用作基于PCR的测定的模板，最后三分之一传代而不进一步分开。被选择用于流式细胞术分析的细胞被选通以获得活的单线态，并且从该选通，通过mCherry轴在GFP轴上进行可视化。如下节所述，在一个实施方案中，在mCherrynegative/EGFP阳性象限中的HEK293T细胞群应该已经经历了成功的RNA引导的DNA整合，并且这些细胞可以被分选(大块或单细胞)，生长至汇合，并被裂解用于基于PCR的分析。可使用多种转染方法，包括但不限于脂转染(例如，Lipofectamine)或核转染(例如，通过电穿孔)。

用于选择和/或检测RNA引导的DNA整合事件的策略

在一个称为“启动子捕获”测定的实施方案(图22A)中，pDonor上转座子末端内的遗传运载物在嘌呤霉素抗性基因(PuroR)和2A肽下游编码EGFP荧光报告蛋白。表达构建体含有5’Kozak序列和3’多腺苷酸化位点，但无启动子元件，因此报告蛋白的表达在pDonor上下文中不存在。然而，在RNA引导的DNA整合位于与gRNA互补的DNA靶位点下游(其中整合位点在内源启动子元件的下游)时，报告基因被表达。这种表达可通过在嘌呤霉素存在的情况下培养细胞来选择，因为只有成功的整合事件才会导致PuroR表达，从而导致嘌呤霉素抗性。也可使用流式细胞术通过检测EGFP阳性细胞群来检测整合。

在相关的实施方案中，靶标和/或整合位点嵌入正交荧光报道基因诸如mCherry中(图22B)。在这种情况下，HEK293T细胞最初表达mCherry，但在RNA引导的DNA整合时，mCherry开放阅读框(ORF)被遗传运载物的整合破坏，并且EGFP通过插入先前驱动mCherry表达的启动子元件的下游而表达。

因此，成功的RNA引导的DNA整合将其自身表现为从EGFP阴性/mCherry阳性到EGFP阳性/mCherry阴性的表型变化。这种方法可通过靶向在pTarget上编码的mCherry或被基因组整合的mCherry来进行。

在另一个实施方案中，pDonor在转座子末端内包含荧光报告基因以及其自身的内部启动子元件(图22C)。荧光报告蛋白在转染后从pDonor中表达，但细胞被培养足够长的时间，使得pDonor最终由于瞬时转染而丢失。在这种情况下，分裂的细胞只有在整合事件发生时才会维持报告蛋白的表达，整合事件可以发生在基因组内，也可以发生在含有SV40起源并因此通过分裂HEK293T细胞进行复制的pTarget内。

其它实施方案利用另外的选择策略，例如其它荧光报告基因和/或其它药物抗性标记。

筛选另外的gRNA

除了mCherry内的靶向位点之外，还选择了另外的gRNA来证明在替代基因组背景(例如，常染色质和异染色质区域、编码区和非编码区，以及编码区内的模板链和非模板链)中成功的RNA引导的DNA整合。还选择了另外的gRNA来筛选错配敏感性、PAM特异性、整合位点特异性和RNA引导的DNA整合反应的其它参数。

真核细胞中RNA引导的DNA整合的基因型检测和表征

HEK293T细胞在转染后培养一定时间，并且可以进行药物选择或荧光激活细胞分选(FACS)，以便富集可能已经进行了RNA引导的DNA整合的细胞群。然后收获细胞，裂解，并进行PCR分析。引物对被设计成选择性扩增整合的等位基因，其中一个引物在转座子遗传运载物内具有结合位点，另一个引物在整合位点两侧的DNA内具有结合位点；对于质粒到质粒的转座实验，这可存在于pTarget上，或者对于质粒到基因组的转座实验，其可存在于基因组上。在RNA引导的DNA整合事件中，扩增子是通过PCR成功产生的，而在靶向整合不存在的情况下，没有扩增子产生。

为了通过桑格测序确定整合的精确位点，在通过凝胶电泳分离后，切下从上述分析性PCR中扩增的DNA，通过凝胶提取试剂盒(Qiagen)分离DNA，并将样品提交给GENEWIZ并由其进行分析。对所得桑格测序数据的分析揭示了转座子末端(由pDonor编码)与靶DNA之间的联接。通过用多种不同的gRNA分析实验中的这种联接，并比较整合位点与gRNA指定的靶位点的相对位置，可以很容易地确定真核细胞中控制Cascade结合位点(由gRNA指定)与整合位点(TnsB在其中催化转座的位置)之间的距离的参数。结合基因组特异性引物和转座子运载物特异性引物的选择，这些实验也揭示了整合的优选取向；也就是说，Tn7转座子是否被引导仅在一个取向上整合，或者两个取向是否都在整合反应中被取样。

为了更精确地确定整合位点，还通过下一代测序(NGS)来分析PCR扩增子。如上所述产生PCR-1产物，不同之处在于引物含有通用的Illumina衔接子作为5’悬突，循环数减少到20。然后将这些产物稀释20倍，加入到含有索引的p5/p7引物的新鲜聚合酶链式反应(PCR-2)中，并使用65℃的退火温度进行10次额外的热循环。通过分析凝胶电泳验证扩增，合并带条形码的反应并通过2％琼脂糖凝胶电泳进行解析，通过凝胶提取试剂盒(Qiagen)分离DNA，使用NEBNext文库定量试剂盒(NEB)通过qPCR定量NGS文库。Illumina测序使用具有150个循环的单端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。

为了确定给定示例的集成站点分布，使用定制Python脚本执行以下步骤。首先，根据它们包含20-bp的完全匹配的转座子末端序列的要求过滤读数。随后提取紧接转座子侧翼的15bp序列并将其与匹配gRNA的基因组靶位点周围的DNA序列的1-kb窗口的DNA序列比对。测定最近的转座子-基因组联接与32-bp靶位点的PAM-远端边缘之间的距离。在汇编给定文库中的所有读数的这些距离后，绘制直方图。

qPCR方法用于定量转座效率，允许在大的参数空间中仔细比较，所述大的参数空间包括但不限于不同的蛋白质和/或gRNA变体、不同的转染条件、不同的表达构建体设计、不同的递送方法以及不同的培养和选择方法。成对的转座子组特异性引物和基因组特异性引物被设计用来扩增约140-240-bp的片段，所述片段是由以任一取向在预期基因座处的RNA引导的DNA整合产生的。为了归一化的目的，设计了一对单独的基因组特异性引物来扩增智人参考基因。qPCR反应(10μL)包含5μL SsoAdvanced通用SYBR Green Supermix(BioRad)、1μL H₂O、2μL的2.5μM引物和2μL稀释的HEK293T裂解物。在384孔透明/白色PCR板(BioRad)中制备反应，并在CFX384实时PCR检测系统(BioRad)上使用以下热循环参数进行测量：聚合酶活化和DNA变性(98℃ 2.5min)、40个扩增循环(98℃ 10s、62℃ 20s)和终末解链曲线分析(以0.5℃/5s的增量从65℃至95℃)。

在另一个qPCR分析方案中，在三个并行反应中分析每个生物样品：一个反应包含针对智人参考基因的引物对，第二个反应包含针对两个可能的整合取向之一的引物对，第三个反应包含针对另一个可能的整合取向的引物对。然后将每个取向的转座效率计算为2ΔCq，其中ΔCq是实验反应与对照反应之间的Cq差。给定实验的总转座效率计算为两个取向的转座效率之和。

确定真核细胞中RNA引导的DNA整合的全基因组特异性

为了探测全基因组转座，进行转座子插入测序(Tn-seq)。具体来说，如上所述进行RNA引导的DNA整合实验，不同之处在于pDonor在引入MmeI限制性位点的转座子末端含有点突变。在从收获的HEK293T细胞中提取基因组和质粒DNA后，如下在96孔板上并行制备NGS文库。首先，在65℃加热灭活20分钟之前，在含有50μM S-腺苷甲硫氨酸和1X CutSmart缓冲液的50μL反应中，用4单位的MmeI(NEB)在37℃消化1μg的gDNA 12小时。MmeI直接在末端重复序列外切割转座子，留下2-nt 3′-悬突。

根据制造商的说明，使用1.8X Mag-Bind TotalPure NGS磁珠(Omega)净化反应物，并使用30μL 10mM Tris-Cl，pH7.0进行洗脱。在含有16.86μL MmeI消化的gDNA、280nM衔接子、400单位的T4DNA连接酶(NEB)和1X T4 DNA连接酶缓冲液的20μL连接反应中，将MmeI消化的gDNA连接至含有末端5′-NN-3′悬突的双链i5通用衔接子。反应在室温下孵育30分钟，然后像以前一样用磁珠净化。为了降低NGS文库中pDonor的污染程度，由于pDonor还包含具有MmeI位点的全长转座子，因此利用正好存在于pDonor内的转座子右端外的独特HindIII限制性位点。因此，在65℃下进行热灭活步骤20分钟之前，在37℃下于34.4μL反应中用20单位的HindIII(NEB)消化整个衔接子连接的gDNA样品，持续1小时。如前所述，进行基于磁珠的DNA清除。

在PCR-1步骤中，使用通用i5衔接子引物和包含通用i7衔接子作为5’悬突的转座子特异性引物富集衔接子连接的转座子。反应体积为25μL，包含16.75μL的HindIII消化的gDNA、200μM dNTP、0.5μM引物、1X Q5反应缓冲液和0.5单位的Q5热启动高保真DNA聚合酶(NEB)。允许扩增进行25个循环，退火温度为66℃。然后将反应产物稀释20倍，加入到第二个20μL聚合酶链式反应(PCR-2)中，所述反应包含索引的p5/p7引物，并使用65℃的退火温度对其进行10个额外的热循环。在通过分析凝胶电泳验证选择文库的扩增后，合并带条形码的反应并通过2％琼脂糖凝胶电泳进行解析，通过凝胶提取试剂盒(Qiagen)分离DNA，并使用NEBNext文库定量试剂盒(NEB)通过qPCR对NGS文库进行定量。Illumina测序使用具有150个循环的单端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。如前所述，对Tn-seq数据进行分析。

在用于确定RNA引导的DNA整合的全基因组特异性的替代方法中，从收获的HEK293T细胞中纯化基因组DNA和质粒DNA，将DNA随机片段化，然后在末端修复后将Illumina衔接子连接至自由端(例如使用NEBNext Illumina文库制备试剂盒)。然后，通过将Illumina衔接子特异性引物与转座子或运载物特异性引物组合，将靶向PCR用于仅选择性扩增包含转座子和遗传运载物序列的那些DNA分子。然后将这些PCR扩增子进一步扩增以附加索引，并且通常如上所述进行Illumina NGS和分析。

实施例3

用于在细菌细胞中进行RNA引导的DNA整合的表达质粒构建的优化和简化

用来自IF型变体霍乱弧菌HE-45株的Tn7转座子进行的初步实验，从两种不同表达载体表达CRISPR相关分子组分和Tn7相关分子成分，所述两种载体由T7启动子驱动，称为pQCascade(TniQ-Cas8-Cas7-Cas6和gRNA)和pTnsABC(TnsA-TnsB-TnsC)。Cas8是Cas8和Cas5多肽的天然融合物，在本实施例中对于IF型变体，以下简称为Cas8。包含克隆在转座子左右两端之间的基因运载物的微型转座子构建体编码在称为pDonor的第三质粒上。参见图1B。

分子组分还可以组合成更少的质粒，而不会对RNA引导的DNA整合效率产生负面影响。在一个实施方案中，将所有组分组合到由单个启动子驱动的一个统一盒上，允许进一步表达质粒衍生的方便和直接的模块化设计，包括：使用不同的启动子，诸如在许多不同细菌物种中被识别的启动子；使用具有可变拷贝数的不同质粒主链；以及使用介导系统发育不同的细菌株之间的转移的接合质粒。此外，此类一体化单一质粒消除了对组合多个相容性质粒主链和多个抗生素抗性盒的需要，同时还简化了细菌转化过程。在一些实施方案中，所有CRISPR相关机器和Tn7相关机器与微型转座子供体DNA本身编码在同一质粒上，但不包含在转座子末端内；在这种形式中，分子组分起着动员供体DNA的作用，但它们不会随之移动。在其它实施方案中，CRISPR-和Tn7相关机器直接编码在微型转座子供体DNA本身中，使得转座子的动员导致RNA引导的DNA整合所需的机器的动员。这使得转座子能够自主行动。

减少用于RNA引导的DNA整合的启动子和质粒组分

在重建RNA引导的DNA整合的三质粒递送方法中，用单个T7启动子而不是用两个串联T7启动子进行测试引导RNA(gRNA)和IF型变体TniQ-Cas8-Cas7-Cas6操纵子在原始pQCascade质粒(pSL0828)上的表达(图23)。gRNA由包含重复序列-间隔区-重复序列阵列的合成CRISPR阵列编码；前体CRISPR RNA转录物被Cas6酶促加工成成熟的CRISPR RNA(crRNA)或gRNA。产生了两种设计：pQCascade-B(pSL1016)编码位于TniQ-Cas8-Cas7-Cas6操纵子上游的CRISPR阵列，而pQCascade-C(pSL1018)编码位于CRISPR阵列上游的TniQ-Cas8-Cas7-Cas6操纵子(图23A和图23B)。包含霍乱弧菌pDonor(pSL0527)和pTnsABC(pSL0283)质粒(图23C，如前所述)的化学感受态大肠杆菌BL21(DE3)细胞通过热激用pQCascade-B或pQCascade-C单独转化，在37℃的新鲜LB培养基中使细胞恢复1小时后，将细胞铺在含有100μg/mL羧苄西林、50μg/mL卡那霉素和50μg/mL壮观霉素的三重抗生素LB琼脂平板上。在37℃下过夜生长16小时后，从平板上刮取数百个菌落，一部分重新悬浮在新鲜LB培养基中，然后如前所述重新铺在三重抗生素LB-琼脂平板上，不同之处在于补充0.1mMIPTG以诱导蛋白质表达。为了避免生长竞争和种群瓶颈，选择固体培养基培养而不是液体培养。将细胞在37℃下再培养24小时，并作为密集分布的菌落生长，然后刮取，重悬于LB培养基中，并为后续分析做准备。

对重悬于LB培养基中的刮取菌落进行600nm处的光密度测量，并将约3.2x10⁸个细胞(相当于200μL的OD₆₀₀＝2.0)转移至96孔板。通过以4000x g离心5分钟沉淀细胞，并重新悬浮在80μL H2O中，然后通过在热循环仪中于95℃孵育10分钟来进行裂解。通过以4000x g离心5分钟沉淀细胞碎片，取出10μL裂解物，用90μL H2O连续稀释，产生10倍裂解物稀释液，用于qPCR分析。成对的转座子组特异性引物和基因组特异性引物被设计用来扩增约140-240-bp的片段，所述片段由以任一取向在预期的gRNA-4lacZ基因座处进行的RNA引导的DNA整合产生。为了归一化目的，设计了一对单独的基因组特异性引物来扩增大肠杆菌参考基因(rssA)。qPCR反应(10μL)包含5μL SsoAdvanced通用SYBR Green Supermix(BioRad)、1μLH₂O、2μL 2.5μM引物和2μL从刮取的菌落制备的10倍稀释裂解物。

在384孔透明/白色PCR板(BioRad)中制备反应，并在CFX384实时PCR检测系统(BioRad)上使用以下热循环参数进行测量：聚合酶活化和DNA变性(98℃ 2.5min)、40个扩增循环(98℃ 10s、62℃ 20s)和终末解链曲线分析(以0.5℃/5秒的增量从65℃至95℃)。

qPCR分析的结果(图23D)证明了利用pQCascade-B和pQCascade-C的RNA引导的DNA整合表现出与先前描述的具有串联启动子的原始pQCascade质粒相似的效率。gRNA和IF型变体TniQ-Cas8-Cas7-Cas6操纵子的表达都可以由单个T7启动子驱动，Cas6亚单位对crRNA的加工基本上不影响蛋白质合成。

测试了其中RNA引导的DNA整合所需的单独质粒的总数减少到两个的表达和递送条件。TnsA-TnsB-TnsC操纵子与gRNA和TniQ-Cas8-Cas7-Cas6操纵子在同一质粒上表达；表示为pTnsABC-QCascade-CRISPR或pTQC(图。24)。来自pTnsABC的TnsA-TnsB-TnsC操纵子被克隆在pQCascade(pSL0828)上的TniQ-Cas8-Cas7-Cas6操纵子的下游，以产生pTQC-A(pSL1020，图24A)，或pQCascade-C(pSL1018)上的TniQ-Cas8-Cas7-Cas6操纵子的上游，以成生pTQC-C(pSL1024，图24C)。从pTQC-A开始，位于CRISPR与蛋白质操纵子之间的T7启动子被去除，以产生pTQC-B的单启动子设计(pSL1022，图24B)。从pTQC-C开始，在TnsA-TnsB-TnsC操纵子与TniQ-Cas8-Cas7-Cas6操纵子之间的T7启动子被去除，以产生pTQC-D(pSL1026，图24D)的单启动子设计。两种单启动子质粒(pTQC-B和pTQC-D)被设计成使得使CRISPR阵列位于mRNA转录物的5’或3’端，这样Cas6对前体CRISPR RNA的加工才不会破坏mRNA内的蛋白质编码基因，因为剩余的转录物将保持完整(图24E)。

分别用pTQC-A、pTQC-B、pTQC-C或pTQC-D通过热激转化包含霍乱弧菌pDonor(pSL0527)的化学感受态大肠杆菌BL21(DE3)细胞，并在37℃的新鲜LB培养基中使细胞恢复1小时后，将细胞铺在含有100μg/mL羧苄西林和50μg/mL壮观霉素的双抗生素LB-琼脂平板上。在37℃下过夜生长16小时后，从平板上刮取数百个菌落，一部分重新悬浮在新鲜LB培养基中，然后如前所述重新铺在双抗生素LB-琼脂平板上，这次补充0.1mM IPTG以诱导蛋白质表达。随后裂解细胞，并使用如上所述的细胞裂解物的qPCR测定RNA引导的DNA整合效率。

由qPCR测定的RNA引导的DNA整合效率(图24F)显示，所有四个pTQC质粒设计导致的效率与使用先前描述的原始三质粒系统的整合相当或比其显著更高(将pTQC-B的约70％的效率与使用pSL0828作为pQCascade的三质粒系统的约40％效率进行比较)。在单启动子表达的两种设计(pTQC-B和pTQC-D)之间，pTQC-B显示出更优的活性。因此，对于随后的简化的表达质粒设计，使用了来自pTQC-B的单个表达盒中组分的CRISPR-TniQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC排序。

已经表明，在由单个T7启动子驱动的一个简化盒中可以实现RNA引导的DNA整合所需的整套CRISPR相关组分和Tn7相关组分的表达，设计了“一体化”单质粒方法来进行RNA引导的DNA整合。在这个实施方案中，来自pTQC-B(pSL1022)的简化的霍乱弧菌盒被克隆到pDonor质粒(pSL0527)上，或者在微型转座子本身的外部产生pAIO-A(pSL1120，图25A)，或者在微型转座子自身内部，产生pAIO-B(pSL1123，图25B)。用pAIO-A或pAIO-B通过热激转化化学感受态大肠杆菌BL21(DE3)细胞，并将细胞被铺在含有100μg/mL羧苄西林的单一抗生素LB琼脂平板上。在37℃下过夜生长16小时后，从平板上刮取数百个菌落，一部分重新悬浮在新鲜LB培养基中，然后如前所述重新铺在抗生素LB琼脂平板上，这次补充0.1mM IPTG以诱导蛋白质表达。如上所述进行随后的裂解和qPCR分析，以确定pAIO质粒的转座效率。用这种方法成功地实现了RNA引导的DNA整合，使得大肠杆菌或其它细菌物种的转化只需单个表达载体就能完成，所述表达载体包含所有必需的CRISPR-Tn7机器和供体DNA，以指导RNA引导的DNA整合。

用于RNA引导的DNA整合的启动子和载体拷贝数的优化

在使用一体化pAIO-A质粒设计(pSL1120，图25A)验证霍乱弧菌CRISPR-Tn7系统的基线RNA引导的DNA整合活性后，系统的最佳表达水平通过同时改变驱动整个盒表达的单一启动子的强度，同时改变一体化质粒的拷贝数来确定的。这一系列实验突出显示了一体化设计的模块化：以pAIO-A质粒为起点，可以并行地克隆和比较不同的启动子和质粒主链。

在pUC19亲本载体主链内产生并克隆一组pAIO质粒设计，其中CRISPR-Tn7表达由以下强度逐渐减弱的四种不同的组成型大肠杆菌启动子驱动：J23119、J23101、J23105和J23114。这些启动子来源于标准生物部件注册处，并且之前已经过验证(Yan，Q.&Fong，S.S.JBiol Eng 11，33(2017))。在其它实施方案中，还结合对精确的表达构建体的进一步改变(包括基因顺序、非翻译区(UTR)设计和密码子使用(codon usage)等参数)测试了更大组的启动子。将每个完整的盒克隆到3个其它亲本质粒主链上：pSC101(约5个拷贝/细胞)、pACYC(约10-12个拷贝/细胞)和pBBR1(约15-40个拷贝/细胞)，以产生一小组16个组合了4个启动子强度和4个拷贝数水平的一体化质粒(图26A)。如上所述，在大肠杆菌BL21(DE3)细胞中测试用每个质粒设计实现的RNA引导的DNA整合效率，并通过qPCR进行测定。在其它实施方案中，测试了更大组的亲本载体主链，包括接合质粒、其复制限于某些大肠杆菌株的质粒和可从细菌群中去除的温度敏感型质粒。

为了确定使用pAIO-A的一体化表达方法能够高效动员的运载物大小的限制，用以下先前在三质粒方法中描述过的各种长度的运载物序列替代pAIO-A上的0.98kb原始运载物：2.00kb(pSL1168)、3.26kb(pSL1169)、4.24kb(pSL1170)、5.32kb(pSL1171)和10.1kb(pSL1172；参见图26B)。之前已经显示，5kb和10kb运载物(其具有工业应用的潜力，诸如代谢途径的插入)的转座效率在三质粒系统中下降至低于0.98kb运载物的效率的15％；然而，使用更高效的一体化方法可以提高较大运载物的效率。如前所述，还测试了包含172-bp和必要转座子末端序列的“最小”运载物的RNA引导的DNA整合效率。

其它细菌物种中的RNA引导的DNA整合

通过上述表达和递送的优化和简化，CRISPR-Tn7系统可被进一步用于在其它细菌宿主中实现RNA引导的DNA整合，重点是工业生物技术应用以及对临床和生物医学相关的人致病细菌物种的靶向。从一体化质粒(其中载体主链被选择来显示与被靶向的细菌物种的广泛宿主范围相容性)开始，用被选择来匹配目标物种的另外的启动子换出所述单一启动子。可选择已知在系统发育上不同的细菌中具有广泛活性的其它启动子，诸如存在于肠道微生物组中的不同细菌(Johns等人Nat Meth 15，323-329(2018)；Ronda等人Nat Meth 16，167-170(2019))。表1列出了可被选择用于异源RNA引导的DNA整合实验的候选细菌物种和菌株的列表；选择一些大肠杆菌株作为已知缺乏同源重组(HR)的模型菌株，从而进行实验以表明利用CRISPR-Tn7进行的RNA引导的DNA整合不依赖于任何HR宿主因子。在其它实施方案中，选择另外的启动子，并且选择额外的细菌物种用于异源重建利用CRISPR-Tn7系统的RNA引导的DNA整合。

表1：用于异源RNA引导的DNA整合的潜在细菌物种和菌株

实施例4

使用编码V型CRISPR-Cas系统并由该系统编程的Tn7样转座子的RNA引导的DNA整合

系统选择

进行使用来自双囊藻属某种NIES-3709的C2c5作为查询(NCBI登录ID：WP_066116114.1)的psi-BLASTp分析。经过2次迭代后，汇编了分布在不同的细菌门中的403个候选C2c5同源物(参见SEQ ID NO：450-847)的列表。根据这些同源物的多重序列比对，生成了系统发育树，并对分布在整个系统发育树中的同源物进行了优先排序以进行进一步的分析和研究(参见图28)。一组20种同源物被优先排序用于进一步分析。首先，在20种同源物之间进行成对序列比对，以避免选择任何两个高度相似，从而预期具有相似功能的同源物进行进一步测试。研究了每个c2c5基因周围的基因组基因座，并提取了以下参数(参见图57和图58)：侧翼CRISPR阵列的存在和长度；C2c5基因的长度；编码c2c5的Tn7样转座子是否被整合在tRNA基因附近；c2c5两侧是否有merR基因；也包含在推定的Tn7样转座子中的基因运载物的性质；Tns操纵子(其由TnsB、TnsC和TniQ组成)的长度；系统的任何其它特性。将给定系统排除在实验研究优先排序之外的标准包括基因/操纵子长度大大偏离平均值，或缺乏关键组分，诸如CRISPR阵列。merR经常被发现与c2c5基因相邻。基于该基因被注释为编码转录调控因子，merR可控制C2c5的表达并作为调控点。

基于这些分析，选择了五个转座子相关V型CRISPR-Cas系统。这些系统来源于：变异鱼腥藻ATCC 29413(Ava)、阿波藻蓝细菌IPPAS B-1202(Cap)、丝状蓝细菌CCP2(Fcy)、点状念珠藻PCC 73102(Npu)和贺氏伪枝藻PCC 7110(Sho)。这些系统的基因组织示意图如图29所示。请注意，多变鱼腥藻ATCC 29413似乎也被称为不同的物种名称，多变三离藻ATCC29413(参见GenBank CP000117.1)。

克隆方法

在最初的实验中，合成了编码tnsB、tnsC和tniQ的操纵子，并将其克隆到pCOLADuet-1主链中T7启动子的下游，以下称为pTnsBCQ。c2c5基因和由两个重复序列及一个间隔区组成的CRISPR被克隆到入口载体pCDFDuet-1(下文称为pC2c5)中单独的T7启动子的下游。Tn7样转座子末端和氯霉素抗性基因作为运载物被克隆到pUC19(下文称为pDonor)中。图30A中显示了pTnsBCQ、pC2c5和pDonor的示意图，对于优先排序用于实验研究的5个系统中的每一个，这些质粒中的每一个的实际质粒序列可见于图57中。每个基因和所得蛋白质组分的序列可在SEQ ID NO：410-449中找到。

转座测定

使用与霍乱弧菌I-F型CRISPR-Cas系统中的TniQ-Cascade复合物用于RNA引导的DNA整合相同的实验设置来测试所选的编码C2c5系统的Tn7样转座子(示于图30B中)。简言之，制备了化学感受态BL21(DE3)细胞，所述细胞含有用于最终转座测定的三种质粒(pTnsBCQ、pC2c5和pDonor)中的两种。通过热激将第三种质粒引入新的转化反应中，在37℃的新鲜LB培养基中使细胞恢复1小时后，将细胞铺在含有100μg/mL羧苄西林、50μg/mL卡那霉素和50μg/mL壮观霉素的三重抗生素LB-琼脂平板上。在37℃下过夜生长16小时后，从平板上刮取数百个菌落，一部分重新悬浮在新鲜LB培养基中，然后如前所述重新铺在补充有0.1mM IPTG以诱导蛋白质表达的三重抗生素LB-琼脂平板上。将细胞在37℃下再孵育24小时，然后刮取并重新悬浮在LB培养基中。取等分试样，使每个样品包含约3.2x10⁸个细胞(基于光密度测量)，通过以4000x g离心5分钟沉淀细胞，将其重悬于80μL H₂O，然后在热循环仪中于95℃下孵育10分钟进行裂解。通过以4000x g离心5分钟沉淀细胞碎片，用10μL裂解物用90μL H₂O连续稀释，分别产生10倍和100倍裂解物稀释液用于qPCR和PCR分析。使用每12.5μL反应体积5μL 100倍稀释裂解物作为模板，用Q5热启动高保真DNA聚合酶(NEB)产生PCR产物。反应包含200μM dNTP和0.5μM引物，通常进行30次热循环，退火温度为66℃。引物对包含一种基因组特异性引物和一种转座子特异性引物，专门检测整合事件。PCR扩增子通过1-2％琼脂糖凝胶电泳解析，并通过SYBR Safe(Thermo Scientific)染色显现。

与先前利用霍乱弧菌Tn7转座子编码I-F型变体CRISPR-Cas系统的实验类似，含C2c5的Tn7样转座子的整合位点通过改变CRISPR阵列内的间隔区序列来进行重新编程，以便编码具有不同靶特异性的gRNA。通过将不同的间隔区序列克隆到pC2c5中，将整合导向大肠杆菌BL21(DE3)基因组中的lacZ基因(参见表2)。总的来说，V型系统偏爱富含T的PAM，因此最初测试了“TTT”、“TTG”、“TTC”和“TTTT”(SEQ ID NO：385)。另外的PAM变体也可能是可行的，因为PAM识别可能有些混乱，这取决于Cas蛋白变体。

来自阿波藻蓝细菌IPPAS B-1202(Cap)的Tn7样转座子的初步数据如图31A和图31B所示。实验样品中存在特异性扩增子(泳道4-5)，但阴性对照泳道中不存在特异性扩增子，在所述阴性对照中间隔区被在大肠杆菌基因组中无匹配的非靶向序列取代，这表明在lacZ引物结合位点附近发生了DNA整合。同一凝胶上的阳性对照(+C)是来自利用gRNA-4编程的TniQ-Cascade引导的霍乱弧菌Tn7转座子实验的转座产物，利用霍乱弧菌Tn7转座子(其由用gRNA-4编程的TniQ-Cascade引导)进行的实验的转座产物，在这些实验中，所述转座子紧邻被一小组用C2c5测试的gRNA靶向的DNA位点。

表2：由独特的C2c5 gRNA靶向的DNA位点的序列，均在大肠杆菌的lacZ基因中找到

定义C2c5介导的转座的整合位点

为了通过桑格测序确定整合的精确位点，在通过凝胶电泳分离后，切下从上述分析性PCR中扩增的DNA，通过凝胶提取试剂盒(Qiagen)分离DNA，并将样品提交给GENEWIZ并由其进行分析。对所得桑格测序数据的分析揭示了微型Tn7样转座子(由pDonor编码)与大肠杆菌基因组之间的联接。通过用多种不同的gRNA分析实验中的这种联接，并比较整合位点与由gRNA指定的靶位点的相对位置，可以很容易地确定控制C2c5结合位点(由gRNA指定)与整合位点(TnsB在其中催化转座的位置)之间的距离的参数。结合基因组特异性引物和转座子运载物特异性引物的选择，这些实验也揭示了整合的优选取向；也就是说，由C2c5-gRNA引导的Tn7样转座子是否被引导仅在一个取向上整合，或者两个取向是否都在整合反应中被取样。

为了确定给定示例的集成站点分布，使用定制Python脚本执行以下步骤。首先，根据它们包含20-bp的完全匹配的转座子末端序列的要求过滤读数。随后提取紧接转座子侧翼的15bp序列并将其与匹配gRNA的基因组靶位点周围的大肠杆菌BL21(DE3)基因组(GenBank登录号CP001509)的1-kb窗口比对。测定最近的转座子-基因组联接与37-bp靶位点的PAM-远端边缘之间的距离。在汇编给定文库中的所有读数的这些距离后，绘制直方图。

这些分析定义了gRNA指定的DNA靶位点与转座子自身被整合的整合位点之间的距离。在一小组独特的gRNA中，对上述五种不同的编码C2c5的Tn7样转座子进行实验，所述gRNA靶向具有不同前间区序列邻近基序(PAM)的各种不同的靶位点。

转座效率的qPCR分析

为了定量转座效率，允许不同蛋白质和/或gRNA变体之间的仔细比较，使用了qPCR方法。成对的转座子组特异性引物和基因组特异性引物被设计用来扩增约140-240-bp的片段，所述片段是由以任一取向在预期基因座处的RNA引导的DNA整合产生的。为了归一化的目的，设计了一对单独的基因组特异性引物来扩增大肠杆菌参考基因(rssA)。qPCR反应(10μL)包含5μL SsoAdvanced通用SYBR Green Supermix(BioRad)、1μL H₂O、2μL的2.5μM引物和2μL从刮取的菌落制备的10倍稀释裂解物，如上面针对PCR分析所述的。在384孔透明/白色PCR板(BioRad)中制备反应，并在CFX384实时PCR检测系统(BioRad)上使用以下热循环参数进行测量：聚合酶活化和DNA变性(98℃ 2.5min)、40个扩增循环(98℃ 10s、62℃ 20s)和终末解链曲线分析(以0.5℃/5s的增量从65℃至95℃)。

为了对qPCR分析进行基准测试，从含有pDonor和两个空表达载体(pCOLADuet-1和pCDFDuet-1)的对照BL21(DE3)菌株以及经历整合到lacZ基因座中的克隆性整合的菌株制备裂解物。通过用跨五个数量级稀释的这些样品中的每一个测试引物对，然后确定所得的Cq值和PCR效率，证实实验扩增子和参考扩增子以相似的效率扩增，并且引物对选择性扩增预期的转座产物。通过以各种比例混合对照裂解物和克隆整合裂解物，模拟了跨五个数量级(范围从0.002-100％)的可变转座效率，并将所述可变转座效率用于显示任一取向上的转座产物的准确且可重复的检测，水平＞0.01％。通过将克隆整合的裂解物以不同的比例与对照裂解物混合在一起来模拟可变整合取向偏差，并使用这来表明这些可变整合取向偏差也可被精确测量。

在另一个qPCR分析方案中，在三个并行反应中分析每个生物样品：一个反应包含针对大肠杆菌参考基因的引物对，第二个反应包含针对两个可能的整合取向之一的引物对，第三个反应包含针对另一个可能的整合取向的引物对。然后将每个取向的转座效率计算为2^ΔCq，其中ΔCq是实验反应与对照反应之间的Cq差。给定实验的总转座效率计算为两个取向的转座效率之和。

确定编码C2c5的Tn7样转座子对RNA引导的DNA整合的遗传要求

为了确定利用编码C2c5的Tn7样转座子进行的RNA引导的DNA整合的必需要求，改变pTnsBCQ和pC2c5，使得每个基因(tnsB、tnsC、tniQ和c2c5)一次被删除一个。然后使用上述的PCR和qPCR分析来定量缺少一个关键基因的每个改变的质粒的转座效率。在转座效率下降到0％或接近0％的情况下，这些数据表明，在该实验中删除的基因对于通过该特定的Tn7样转座子进行的RNA引导的DNA整合至关重要。单个基因的作用可通过包括tnsB中的点突变(所述突变经预测消除转座子的切除和整合酶促活性)，或TniQ的锌指结构域中的突变或C2c5的区域中的突变(所述突变经预测参与DNA结合)来测试。所得的转座效率的下降可表明这些蛋白质产物可能是高效的RNA引导的DNA整合所必需的。

在另一系列实验中，为了确定Tn7相关蛋白忠实识别工程化的转座子所需的最小必需识别序列，系统地截短每个测试的Tn7样转座子的转座子末端。例如，通过人工检查转座子左右两端的反向重复序列性质，可以很容易地鉴定推定的TnsB结合位点，去除这些结合位点可能会导致转座效率下降。通过以1-bp、5-bp和10-bp的增量截短转座子末端，可以通过实验确定最小转座子末端序列。这些信息指导用于开发基于RNA引导的DNA整合的工具的转座子的未来工程。这些实验是针对每一个编码C2c5的Tn7样转座子进行的，所述转座子显示出RNA引导的DNA整合活性。

另一个实验包括确定Tn7和CRISPR相关机器可以有效动员的运载物大小。从每个活性系统的pDonor开始，通过分子克隆缩短内部运载物，或者通过克隆转座子末端内部的额外运载物序列延长内部运载物，并重复上述转座测定。通过使用PCR和/或qPCR作为RNA引导的DNA整合的读出，可以比较每个工程化的微型Tn7样转座子运载物的相对效率。这些实验确定了可由目标系统动员的最小和最大遗传有效载荷。

确定通过C2c5指导DNA结合的精确gRNA分子

为了分析通过C2c5指导DNA结合的核酸组分，进行了来自经历转座的大肠杆菌裂解物的小RNA测序。具体而言，将特定大小范围(例如(例如＜100，＜90，＜80，＜70或＜60-nt)的核酸通过凝胶电泳(10％变性尿素-PAGE)进行解析，通过用SYBR Gold(ThermoScientific)染色进行可视化，从凝胶中提取，洗脱到缓冲水溶液中，并通过苯酚-氯仿提取进行分离。分析性RAN酶和DNA酶消化是在10μL反应中用约4pmol核酸和10μgRNA酶A(ThermoScientific)或2单位的DNA酶I(NEB)进行的，并通过10％变性尿素-PAGE和SYBR Gold染色进行分析。RNA-seq通常按照描述(Heidrich，N.等人，Methods Mol Biol 1311，1-21(2015))进行。简言之，使用T4多核苷酸激酶(NEB)对RNA进行5’-磷酸化/3’-去磷酸化，然后使用ssDNA/RNA Clean&Concentrator试剂盒(Zymo Research)进行净化。用T4 RNA连接酶1(NEB)将含有5’-腺苷酯化和3’-双脱氧胞苷修饰的ssDNA通用Illumina衔接子连接至3’端，随后进行ssDNA逆转录酶引物的杂交并用T4 RNA连接酶1(NEB)将ssRNA通用Illumina衔接子连接至5’端。使用Maxima H Minus逆转录酶(Thermo Scientific)合成cDNA，然后使用索引的p5/p7引物进行PCR扩增。Illumina测序使用具有150个循环的单端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。将读数与pC2c5比对，覆盖范围的清晰边界指示gRNA的加工位点，根据与来自V型CRISPR-Cas系统的其它效应子(诸如Cpf1、Cas12c和Cas12d)的同源性，推测所述加工位点由C2c5内的核糖核酸酶结构域催化。

确定PAM和靶位点的特异性

为了确定C2c5识别PAM的灵活性，针对不同C2c5同源物中的每一种的gRNA各不相同，因此对所有具有可变PAM的靶位点进行了测试。在一个实施方案中，简单地通过沿着目标基因座以1-bp的增量平铺gRNA来改变PAM；在另一个实施方案中，改变gRNA，以便查询不同的基因座，同时也改变PAM。使用上述qPCR方法，可定量每个靶位点的RNA引导的DNA整合效率，并且数据的比较允许强有力地确定高活性PAM序列，以及将来避免几乎不表现或者不表现靶向活性的PAM序列。

为了测试由RNA引导的C2c5靶向DNA的特异性，以及Tn7转座酶对DNA整合活性产生的影响，将错配系统地引入靶向大肠杆菌基因组中的固定序列的gRNA。具体而言，沿着间隔区序列的整个37-nt长度以1-nt、2-nt、3-nt或4-nt的增量引入错配，然后如上所述进行转座实验。通过使用qPCR来定量所测试的一小组gRNA中所得的RNA引导的DNA整合效率，确定了C2c5提供的DNA靶向的序列特异性，并确定了作为沿着gRNA/靶标的长度的位置的函数的RNA-DNA异源双链体中错配的任何鉴别(或缺乏鉴别)。通过在多个不同的靶位点上进行实验，可以推导出靶位点选择的一般规则。

在这些实验的进一步的实施方案中，gRNA文库被用于更详尽地确定对RNA引导的DNA整合过程中的PAM识别和靶标识别的序列要求。具体而言，在合并文库格式中，其中CRISPR阵列克隆在Tn7样转座子运载物本身内，在大的细胞池(例如10⁶-10⁸个细胞)中进行转座，然后对转座产物进行深度测序。通过使用配对末端测序，可以确定整合位点，以及使得能够整合的特定gRNA变体，因为间隔区序列本身嵌入被测序的扩增子中。设计gRNA的诱变文库，使得在单个合并文库实验中探测每一种可能的单错配、双错配、三错配和四错配，所得数据分析允许推断出一组更丰富的规则，所述规则定义了C2c5对DNA结合期间的靶位点选择。

定义RNA引导的全基因组DNA整合特异性

为了探测全基因组转座，进行转座子插入测序。具体而言，如上所述进行转座实验，不同之处在于pDonor在引入MmeI限制性位点的转座子末端含有点突变。将来自含IPTG的三重抗生素LB琼脂平板(通常编号在10²-10³的范围内)的菌落重新悬浮在4mL新鲜LB培养基中，将0.5mL(相当于约2x10⁹个细胞)用于使用Wizard基因组DNA纯化试剂盒(Promega)提取基因组DNA(gDNA)。该方法通常产生50μL的0.5-1.5μg/μL gDNA，其是大肠杆菌环状染色体、pDonor、pTnsBCQ和pC2c5的混合物。

如下在96孔板上并行制备NGS文库。首先，在65℃加热灭活20分钟之前，在含有50μM S-腺苷甲硫氨酸和1X CutSmart缓冲液的50μL反应中，用4单位的MmeI(NEB)在37℃消化1μg的gDNA12小时。MmeI直接在末端重复序列外切割转座子，留下2-nt 3′-悬突。根据制造商的说明，使用1.8X Mag-Bind TotalPure NGS磁珠(Omega)净化反应物，并使用30μL的10mMTris-Cl，pH 7.0进行洗脱。在含有16.86μL MmeI-消化的gDNA、280nM衔接子、400单位的T4DNA连接酶(NEB)和1X T4 DNA连接酶缓冲液的20μL连接反应中，将MmeI消化的gDNA连接至含有末端5′-NN-3′悬突的双链i5通用衔接子。反应在室温下孵育30分钟，然后像以前一样用磁珠净化。为了降低NGS文库中pDonor的污染程度，由于pDonor还包含具有MmeI位点的全长转座子，因此利用正好存在于pDonor内的转座子右端外的独特HindIII限制性位点。因此，在65℃下进行热灭活步骤20分钟之前，在37℃下于34.4μL反应中用20单位的HindIII(NEB)消化整个衔接子连接的gDNA样品，持续1小时。如前所述，进行基于磁珠的DNA清除。

在PCR-1步骤中，使用通用i5衔接子引物和包含通用i7衔接子作为5’悬突的转座子特异性引物富集衔接子连接的转座子。反应体积为25μL，包含16.75μL的HindIII消化的gDNA、200μM dNTP、0.5μM引物、1X Q5反应缓冲液和0.5单位Q5热启动高保真DNA聚合酶(NEB)。允许扩增进行25个循环，退火温度为66℃。然后将反应产物稀释20倍，加入到第二个20μL聚合酶链式反应(PCR-2)中，所述反应包含索引的p5/p7引物，并使用65℃的退火温度对其进行10个额外的热循环。在通过分析凝胶电泳验证选择文库的扩增后，合并带条形码的反应并通过2％琼脂糖凝胶电泳进行解析，通过凝胶提取试剂盒(Qiagen)分离DNA，并使用NEBNext文库定量试剂盒(NEB)通过qPCR对NGS文库进行定量。Illumina测序使用具有150个循环的单端读取以及自动解多路复用和衔接子修剪的NextSeq中等输出试剂盒(Illumina)来进行。Phred质量分数低于20(对应于＞1％的碱基误判率)的单个碱基被更改为“N”，并且仅保留至少一半被调用的碱基高于Q20的读数用于后续分析。

如下进行Tn-seq数据分析。将软件应用程序Geneious Prime用于根据以下三个标准进一步过滤读数：读数长度对应于预期产物，所述预期产物由对基因组整合的转座子的MmeI切割和衔接子连接产生；每个读数包含预期转座子末端序列(允许一个错配)；以及转座子侧翼序列完美地映射到参考基因组。对大肠杆菌BL21(DE3)基因组(GenBank登录号CP001509)的映射是使用功能“映射到参考”和以下设置完成的。映射器(Mapper)：Geneious；微调：无(快速/读数映射)；字长：17；最大错配：0％；最大模糊度：1。“映射多个最佳匹配”设置被设置为“无”，有效地排除了除了唯一映射到单个位点的读数(称为“唯一映射读数”)之外的任何读数，或者设置为“全部”，这允许读数映射到大肠杆菌基因组上的一个或多个位点(称为“已处理的映射读数”)。两组读数都导出为fastq文件，并使用定制Python脚本进行下游分析。

为了可视化给定样品的全基因组整合位点分布，使用定制Python脚本将“唯一映射读数”映射到相同的大肠杆菌参考基因组。每个读数的整合位点被定义为对应于映射的读数的3’边缘的基因组坐标(相对于参考基因组)。出于可视化的目的，计算5-kb箱内的整合事件，并使用Matplotlib图形库将其绘制为全基因组直方图。

比较生物重复中整合位点的图是通过将全基因组直方图分箱到100个bp的箱中生成的。将箱移位，使得每个样品的C2c5靶位点的3’端可对应于其相应的100-bp的箱的起点。

为了分析每个样品的主要整合位点，使用定制Python脚本将“处理过的映射读数”映射到相应基因组靶位点周围的600-bp基因组窗口。对于映射到作为靶标的相反链的读数(即，对于T-LR取向，其中整合将转座子“左”端放置在最靠近C2c5结合位点的位置)，整合位点从靶位点的3’边缘开始移位，以解释靶位点重复。该600-bp的窗口内的主要整合位点由最大数量的映射读数定义，同时以主要整合位点为中心的100bp被定义为“中靶”窗口。每个样品的中靶整合百分比计算为100-bp窗口内由转座产生的读数数量除以映射到基因组的读数总数。还确定了一个取向对比另一个取向的整合比；该参数利用中靶读数，计算为由最接近C2c5结合位点的转座子“右”端(T-RL)的整合产生的读数数量除以由最接近C2c5靶位点的转座子左端(T-LR)的整合产生的读数数量。对每个样品的两个取向绘制了主要位点周围的整合分布。

其它调查领域

与编码I-F型CRISPR-Cas系统诸如霍乱弧菌系统的Tn7转座子不同，编码V-U5型CRISPR-Cas系统(C2c5)的Tn7样转座子似乎缺乏tnsA基因。经过充分研究的Tn7转座子中的TnsA蛋白在切除过程中指导Tn7转座子的5’端的切割，因此有可能由C2c5引导其动员的Tn7样转座子，可以通过除由大肠杆菌Tn7和霍乱弧菌RNA引导的Tn7采用的剪切粘贴外的不同机器，特别是通过复制型转座来进行转座。通过设计PCR实验来监测最终在基因组上整合的整个运载物，可以区分剪切粘贴对比复制粘贴动员途径。

另外，含有C2c5的Tn7样转座子通常存在于它们所存在的基因组中的tRNA基因旁边。上述实验表明这些转座子是否保留了直接转座到tRNA基因附近的机器。

实施例5

通过可编程的RNA引导的DNA整合进行靶向DNA富集

尽管下一代DNA测序(NGS)的成本降低了，但对大量基因组，特别是真核基因组(例如临床人样品)进行全基因组测序仍然不切实际。因此，通常需要富集选定的目标基因组区域，以进行靶向富集和测序，从而节省时间、金钱和数据存储需求，同时提高样品通量。因此，近年来，大量的努力集中在靶标富集方法上，即在进行NGS之前，从纯化的DNA样品中“捕获”目标区域。当前靶标富集策略通常可分为三类：基于PCR的靶标富集，其中PCR引物的选择允许指定用户定义的基因座；基于靶标环化的分子倒置探针(MIP)；和基于杂交捕获的直接选择。

在基于PCR的靶富集中，可以进行多重PCR以在单个反应容器中同时扩增许多区域，然而这通常导致高水平的非特异性扩增，并且许多扩增子不能高效扩增。基于PCR的方法的另一个主要不利方面是扩增效率在不同的扩增子之间差异很大，因此在合并和加条形码之前必须验证单个PCR，以便在下游NGS应用中实现目标PCR产物的均匀覆盖。可以使用类似于乳液PCR的微滴技术，并且可使用其它策略来提高基于PCR的靶标富集的保真度，例如，rhAmpSeq(Integrated DNA Technologies；Dobosy等人，BMC Biotechnol.11，80(2011))。

分子倒置探针的捕获均匀性差，而且MIP寡核苷酸成本高，难以大量获得。

基于杂交捕获的直接选择依赖于合成寡核苷酸从基于核酸杂交的鸟枪法输入文库中捕获所需分子，并且可以在固体支持物(阵列捕获)上或在溶液(溶液杂交)中进行。在阵列捕获中，DNA微阵列被设计成包含针对目标基因组区域的短探针，在杂交步骤中将输入样品添加到阵列中，并且在一系列洗涤之后，洗脱捕获的DNA分子并为下游NGS做准备。溶液内捕获依赖于目标杂交分子的基于珠粒的下拉，随后是洗脱和为下游NGS作准备。这些方法有重要的不利方面，包括需要昂贵的硬件(在阵列捕获的情况下)；片段长度对捕获效率的强烈偏差；对低或高G+C含量的DNA的严重偏差；对于样品完整性可能较低的临床样品，回收率较低；由于退火和/或二级结构不良导致的异常恢复，因为输入DNA和探针必须变性并用作单链DNA。

关于靶标富集策略的综述，参见图32A至图32C和Mamanova等人，Nat Meth 7，111-118(2010)。

最近，研究人员还探索了使用基于CRISPR-Cas9和dCas9的方法进行靶标富集(参见例如：Slesarev等人，Sci Rep 9，3587(2019)；Lee等人，Nucleic Acids Res.47，e1(2019)；和其中的参考文献)。然而，这些方法在实际的DNA富集方面表现不佳(即非常低的中靶比率和大量脱靶DNA的回收)，并且由这些方法生成的文库产生的NGS数据测序质量低。

靶向DNA富集目前用于许多临床重要的工作流程，包括但不限于：全外显子组测序(WES；参见Suwinski等人，Front.Genet.10，49(2019)；Warr等人，G3(Bethesda)5，1543-1550(2015))；患者适应性免疫库的深度测序，特别是T细胞受体和免疫球蛋白多样化(参见Friedensohn等人，Trends Biotechnol 35，203-214(2017)；Rosati等人，BMCBiotechnol.17，61(2017))；以及肿瘤学背景下癌症生物标志物的靶向富集和深度测序(Kamps等人，Int J Mol Sci 18，(2017))。

用于体外生化RNA引导的DNA整合(即具有纯化的蛋白质/RNA组分和输入DNA)的CRISPR-Tn7系统，可用作靶向DNA富集的方法。重组表达并纯化了CRISPR-Tn7系统的所有足够或必需的分子组分，在来自霍乱弧菌的CRISPR-Tn7系统的情况下，所述分子组分包括例如VchTnsA、TnsB、TnsC、TniQ、Cas8、Cas7、Cas6和gRNA。Cas8是Cas8和Cas5多肽的天然融合物，在本实施例中以下简称为Cas8。gRNA可包含单个gRNA，但在大多数实施方案中，包含gRNA文库，所述gRNA文库被设计成靶向互补的目标DNA序列(例如，32-bp的前间区序列，两侧是前间区序列邻近基序，或PAM)，使得RNA引导的DNA整合发生在目标DNA序列附近，以用于下游富集。

将蛋白质和gRNA组分与工程化的转座子左(“L”)端和右(“R”)端序列组合，其可呈现为位于内部遗传有效载荷两侧的单个线性双链DNA(dsDNA)，或者呈现为两个独立的DNA分子，每个分子包含dsDNA L端或R端；转座子末端也可以共价附接至遗传有效载荷。遗传有效载荷可以是短衔接子，诸如在PCR扩增步骤中用于下游引物结合的序列，就像对于用于进行大规模并行DNA测序(诸如使用Illumina平台)的NGS文库制备物所进行的那样。转座子末端序列本身也可以作为下游NGS文库制备的引物结合位点。然后，将蛋白质和RNA分子组分，连同转座子末端序列(其有时与用户定义的遗传有效载荷或衔接子连接)与含有待富集的一种或多种目标序列的输入DNA组合。所述DNA可以是纯化的基因组DNA、细胞裂解物或其它细胞提取物中的基因组DNA、宏基因组样品中的DNA混合物、来自病毒的DNA、来自细菌、古细菌和/或真核细胞中的DNA或其它类型的DNA样品。

在一个实施方案中，对输入DNA进行高度多路复用的体外RNA引导的DNA整合(图33A至图33D)，由此转座子末端(具有或不具有不同的衔接子序列)在由所用的特定gRNA文库指定的1-10个、10-100个、100-1,000个、1,000-10,000个或10,000-100,000个不同的整合位点上共价融合。

在该实施方案中，RNA引导的DNA整合有两个目的：输入DNA(例如纯化的基因组DNA)，在整合反应过程中被TnsB的酶促活性片段化，以及转座子末端序列(和当存在时，衔接子序列)共价连接至目标DNA分子。然后，在随后的扩增步骤中使用特异性结合这些通用序列的引物对通过PCR扩增这些转座子末端序列(或者当存在时，衔接子序列)，避免了对多重PCR或寡核苷酸和基于杂交的捕获方法的任何需要。对于标准的NGS文库制备步骤，RNA引导的DNA整合有效地用于指定待富集的DNA序列，并在近端整合方便且通用的引物结合位点。

从概念上讲，使用CRISPR-Tn7进行靶富集，作为其它方法诸如多重PCR和/或杂交捕获的替代方法，为简化的NGS文库制备提供了类似的有利方面，这是通过基于标记(tagmentation)的NGS文库制备方法实现的，例如在“Nextera”试剂盒中使用工程化的Tn5转座酶进行DNA片段化和接头插入(图34A和图34B)。然而，Tn5转座酶本质上几乎没有或没有靶特异性，尽管存在明显的插入偏差(Reznikoff，Annu Rev Genet 42，69-286(2008)；Adey等人，Genome Biol 11，R119(2010))。相反，CRISPR-Tn7系统是完全可编程的，因为DNA靶向完全由gRNA序列决定，并且转座子(或工程化的微型转座子)的整合发生在gRNA-互补靶位点下游固定距离处的整合位点。因此，与只能用于随机插入目标遗传标签或衔接子的Tn5和Nextera不同，CRISPR-Tn7用于在用户定义的基因组位点精确和高度精确地插入目标遗传标签或衔接子。这使得gRNA能够被设计用于在所有待富集的DNA序列的侧翼区域选择性插入衔接子，使得随后的PCR允许一致和通用的引物组在单个步骤中扩增所有DNA序列，但没有多重引物对、MIP或杂交捕获方法的复杂性。

该方法的有利方面包括但不限于：

-劳力的显著减少；RNA引导的DNA整合消除了对劳动密集型机器和酶操作的需要，诸如DNA片段化、末端修复、连接、DNA微阵列合成、捕获探针或MIP探针合成等；

-时间的减少；许多步骤被单个生化RNA引导的DNA整合反应所取代，所述反应在5-10分钟、10-30分钟、30-60或60-120分钟或120-240分钟内完成；

-低输入要求；由于减少了步骤和分子生物学步骤的数量，该方法允许更小的输入DNA样品适合于下游的NGS文库制备；以及

-更低的序列偏差和更好的靶向富集的一致性。

因为这种方法引入了通用衔接子序列，所以产生NGS文库的PCR扩增步骤不会受到异常和可变的扩增效率、探针或输入DNA二级结构问题、扩增中的G+C偏差、引物结合位点变化等的影响。与通常需要的众多步骤(包括，将DNA片段化；添加克隆扩增和/或引发测序反应所需的通用衔接子序列；以及通过上述方法之一富集目标靶序列)相反，所述方法在单一反应中用纯化的CRISPR-Tn7组分和针对目标靶DNA序列设计的gRNA进行这些步骤。然后可使用单一PCR步骤来扩增并从而选择性地富集经过衔接子整合的靶序列。在另一个实施方案中，整合的DNA可以直接用于大规模并行DNA测序，而不需要PCR扩增。

该方法可应用于各种应用领域，诸如用于临床上重要的工作流程。这些包括但不限于：全外显子组测序(WES；参见Suwinski等人，Front.Genet.10，49(2019)和Warr等人，G3(Bethesda)5，1543-1550(2015)，其通过引用并入本文)；患者适应性免疫库的深度测序，特别是T细胞受体和免疫球蛋白多样化(参见Friedensohn等人，Trends Biotechnol 35，203-214(2017)和Rosati等人，BMC Biotechnol.17，61(2017)，其通过引用并入本文)；以及肿瘤学背景下癌症生物标志物的靶向富集和深度测序(Kamps等人，Int J Mol Sci 18，(2017)，其通过引用并入本文)。

CRISPR-Tn7组分的纯化

在一个实施方案中，所有霍乱弧菌蛋白质组分(TnsA、TnsB、TnsC、TniQ、Cas6、Cas7和Cas8)被单独重组表达和纯化，并且随后通过在体外将蛋白质与gRNA混合在一起来重建RNA引导的DNA整合。

产生表达质粒以编码自霍乱弧菌的每一种单独的蛋白质，所述蛋白质具有用N端十组氨酸标签和麦芽糖结合蛋白(MBP)增溶标签，由T7启动子驱动(图35A)。所述质粒还在MBP增溶标签下游编码TEV蛋白酶识别位点，允许在纯化过程中去除N端标签。在其它实施方案中，组氨酸标签可以被移动到C端或被替代亲和标签取代；MBP标签可被移动到C端，被替代增溶标签取代，或者从表达构建体中完全去除；T7启动子可被替代启动子取代；并且可以改变表达载体的其它设计标准。gRNA可通过体外转录从编码成熟gRNA的DNA模板产生；其可通过从在5’和/或3’端也含有核酶的DNA模板进行体外转录，然后进行核酶切割以释放成熟的gRNA来产生；或者其可以化学合成为成熟的60个核苷酸的gRNA(图35B中)。通常，通过直接化学合成库，或通过体外转录，从编码成熟gRNA或其前体的DNA模板库开始，产生合并的gRNA文库。DNA模板库可以通过DNA寡核苷酸阵列合成产生。gRNA也可作为前体CRISPR RNA产生，然后通过纯化的Cas6进行酶处理，Cas6是天然的核糖核酸酶，其将前体CRISPR RNA加工成成熟的CRISPR RNA(即gRNA)。

在另一个实施方案中，包含用户定义的gRNA或用户定义的gRNA的合并文库的TniQ-Cascade复合物作为共复合物被重组表达和纯化。TniQ-Cascade复合物以2∶1∶6∶1的化学计量包含TniQ、Cas6、Cas7和Cas8，并且在大肠杆菌中从pQCascade和pCRISPR一起表示的质粒中表达(图35C)；CRISPR阵列也可以直接编码在同一蛋白编码pQCascade质粒上。质粒可编码单个成熟的gRNA，或者可包含编码相应gRNA文库的间隔区文库，使得重组纯化的TniQ-Cascade复合物代表RNA引导的DNA靶向复合物的库，所述复合物的库包含针对用于靶向DNA富集的所有靶DNA序列的gRNA。

已知来自大肠杆菌的TnsA和TnsB形成直接异二聚体相互作用(Choi等人，ProcNatl Acad Sci USA 110，E2038-45(2013))，来自大肠杆菌的TnsA和TnsC也形成特异性相互作用(Ronning等人，EMBO J 23，2972-2981(2004)；Peters，Microbiol Spectr 2，(2014))。在一个实施方案中，霍乱弧菌TnsA和TnsB作为单一操纵子被克隆到大肠杆菌表达载体中，仅在TnsA亚单位上存在亲和标签和增溶标签，并且TnsA-TnsB复合物被共纯化(图35D)。在另一个实施方案中，将整个TnsA-TnsB-TnsC操纵子克隆到大肠杆菌表达载体中，在TnsA上存在单一亲和标签和增溶标签，并且TnsA-TnsB-TnsC复合物被共纯化(图35D)。在进一步的实施方案中，基因的顺序可以转换，亲和标签和/或增溶标签的选择和位置可以改变。

根据以下一般方案纯化蛋白质，尽管基于针对各种实施方案的蛋白质特异性要求引入了差异。将含有一种或多种质粒的大肠杆菌BL21(DE3)细胞在37℃下生长至OD₆₀₀＝0.5-0.7，此时加入IPTG至终浓度为0.5mM，并允许在16℃下继续生长12-16小时。通过在4℃下以4,000x g离心20分钟来收获细胞。将细胞沉淀重新悬浮在裂解缓冲液(50mM Tris-Cl，pH 7.5，100mM NaCl，0.5mM PMSF，不合EDTA的蛋白酶抑制剂混合片剂(Roche)，1mM DTT，5％甘油)中，并用超声细胞破碎仪(Fisher)超声裂解，设定振幅为40％，总处理时间为12分钟(10秒开启和20秒关闭的周期，总共4分钟开启和8分钟关闭)。通过在4℃下以15,000x g离心30分钟来澄清裂解物。使用NiNTA洗涤缓冲液(50mM Tris-Cl，pH 7.5，100mM NaCl，10mM咪唑，1mM DTT，5％甘油)和NiNTA洗脱缓冲液(50mM Tris-Cl pH 7.5，100mM NaCl，300mM咪唑，1mM DTT，5％甘油)通过利用Ni-NTA琼脂糖(Qiagen)的固定金属离子亲和色谱进行初始纯化。His₁₀-MBP融合物通过与TEV蛋白酶在NiNTA洗脱缓冲液中于4℃孵育过夜而被去除，蛋白质/复合物通过阴离子交换色谱在AKTApure系统(GE Healthcare)上使用5mLHiTrap Q HP柱或HiTrap SP HP柱(GE Healthcare)进一步纯化，线性梯度为在20个柱体积内从100％缓冲液A(20mM Tris-Cl，pH 7.5，100mM NaCl，1mM DTT，5％甘油)至100％缓冲液B(20mM Tris-Cl，pH 7.5，1M NaCl，1mM DTT，5％甘油)。合并的级分通过SDS-PAGE分析鉴定并浓缩，并通过尺寸排阻色谱法进一步精制样品。将级分合并，浓缩，在液氮中速冻，并在-80℃下储存。通常，当纯化多蛋白复合物时，裂解缓冲液和Ni-NTA缓冲液含有100mM NaCl，但当纯化单个蛋白时，含有500mM NaCl。

CRISPR-Tn7左右转座子末端的工程化

在利用来自霍乱弧菌的含CRISPR-Cas的Tn7样转座子的一个实施方案中，转座子的左端和右端被工程化以促进靶向DNA富集(图33B和图11A至图11C)。除其它可能的变更外，该工程化可能包括：1)转座子末端的截短，从最外面序列的远端开始，一直到最小长度，仍然保持RNA引导的DNA整合活性(该活性可在体内或体外测定)；2)嵌合转座子末端的产生，其中左端或右端序列在两端重复；3)左端和/或右端内推定和注释的TnsB结合位点的重排；4)左端和/或右端内推定/注释的TnsB结合位点之间的相对间距的变化；5)转座子左端和右端的诱变。

进行实验以确定霍乱弧菌CRISPR-Tn7系统在RNA引导的DNA整合过程中必需的转座子末端序列。在一种方法中，通过使用在每个位置都具有混合碱基的合成寡核苷酸克隆经修饰的微型转座子，对每个末端序列时行彻底的随机诱变，使所得合并的寡核苷酸在转座子末端长度内包含所有可能的单错配、双错配和三错配(图35A至图35D)。以这种方式分别诱变每个转座子末端来制备微型转座子质粒文库，并将质粒文库用于体内RNA引导的DNA整合实验。通过进行实验，其中微型转座子内的内部遗传有效载荷包含抗生素抗性基因，所述抗生素抗性基因仅在大肠杆菌基因组内启动子下游的靶向RNA引导的DNA整合后表达(启动子捕获测定)，将细胞置于抗生素选择，以富集经历成功的RNA引导的DNA整合的细胞。然后通过大规模并行DNA测序(下一代测序)，例如通过转座子插入测序(Tn-seq)，在大肠杆菌细胞群中分析整合的转座子，使得所得NGS文库不仅包含关于整合位点的信息，而且还包含导致成功整合的转座子末端的序列的信息。通过对输入转座子质粒文库和进行整合的转座子文库进行测序，分析数据以确定那些被耗尽的转座子末端序列(意味着突变对功能有害)对比那些被富集的转座子末端序列(意味着突变仍然允许RNA引导的DNA整合)。基于这些和相关的实验，产生了进一步工程化的转座子，其包含仍然概括高效的RNA引导的DNA整合的最小的序列。

对于下文描述的体外RNA引导的DNA整合实验，其中将输入DNA(例如纯化的基因组DNA)进行转座子插入，由前面描述的实验鉴定的最低必要和工程化的转座子L端和R端序列被分成两个dsDNA分子，每个分子包含用于靶标富集的L端和R端。在RNA引导的DNA整合过程中，这些dsDNA分子被单个CRISPR-Tn7转座子复合物结合并整合，但两端本身没有共价连接，导致整合位点处的输入DNA片段化，以及相对于整合位点的DNA上游和下游分子上的L端和R端共价整合(图11A至图11C)。基于实施例1(其证明了利用霍乱弧菌CRISPR-Tn7系统进行的RNA引导的DNA与的整合可以双向发生)和上述关于工程转化的座子末端的数据，单独的L端和R端在靶向整合位点处的整合可在两个取向上可以以相似的效率发生，或者以一定的频率偏向一个取向，或者完全设定在两个确定的取向之一。

在一个实施方案中，最小的和工程化的转座子末端序列本身充当靶标富集管道内所有后续PCR扩增步骤的引物结合位点(图36)。在对输入DNA进行多重RNA引导的DNA整合后，通过与整合的转座子L端和R端结合，使用一对通用引物进一步扩增所有被靶向用于富集的区域。这种通用引物对可包含为下一代目标DNA测序平台定制的附加的悬突；例如，利用Illumina测序平台，可以在文库制备的这个阶段引入桥扩增和簇生成所必需的p5和p7序列。

在另一个实施方案中，Tn7转座子末端被进一步工程化，以紧接右端和左端上的最低要求转座子末端序列的上游(5’)包含额外的测序衔接子。例如，这些衔接子可以与用于利用Truseq或Nextera平台的现有Illumina测序的读取引物序列相同或相似。然后，这些外源衔接子可以作为随后的PCR扩增步骤的引物结合位点，允许利用RNA引导的DNA整合产生的靶标富集文库直接用于现有的Illumina平台。与通用Illumina衔接子序列退火的引物可包含为下一代目标DNA测序平台定制的附加悬突；例如，利用Illumina测序平台，可以在文库制备的这个阶段引入桥扩增和簇生成所必需的p5和p7序列。注意，在该实施方案中，根据工程化的转座子末端和衔接子的特定设计，以及读取引物的选择，在用标准Illumina读取引物进行下一代测序期间产生的“读数”将包含来源于转座子末端的碱基以及目标靶DNA序列。

在又一个实施方案中，在整合的输入DNA的PCR扩增步骤期间，通用引物对在与整合的转座子末端或整合的衔接子互补的区域上游携带独特的索引序列，诸如在Illumina测序平台中使用的i5和i7索引，以使得能够在许多不同的样品中对不同的靶标富集文库进行条形编码。这种索引方法使得能够在96孔或384孔板中进行相同的RNA引导的DNA整合，其中每个孔包含独特的输入DNA样品，但所有孔都包含相同的CRISPR-Tn7蛋白/gRNA和转座子末端组分。转座子末端整合后，接下来的PCR扩增使用带索引的引物对来附加特异性好的索引或索引对，从而允许随后的文库步骤和下游测序步骤在许多不同输入样品的合并富集文库上进行。

在另一个实施方案中，独特的分子标识符(UMI，也称为UID)被掺入工程化的转座子末端，在随后的PCR扩增中用作引物结合位点的序列的3’(图37)。以与所述方式相同的方式进行RNA引导的DNA整合反应，随后使用针对引物结合位点的通用引物(也可以包含独特的索引)进行PCR扩增。UMI保存在最终的NGS文库中，允许在所得的数据分析中进行误差和偏差校正，以及对输入文库中序列/等位基因丰度的改进的理解。

进行体外RNA引导的DNA整合的反应设计

在靶向输入DNA中进行RNA指导的DNA整合的反应包含以下成分：纯化的TnsA、TnsB、TnsC、TniQ、Cas6、Cas7、Cas8、一种或多种gRNA、工程化的转座子末端(以dsDNA的形式存在)、输入DNA(即“样品”)和反应缓冲液。在一个实施方案中，所述反应包含纯化的TniQ-Cascade(包括TniQ、Cas6、Cas7、Cas8和gRNA)代替单个组分。gRNA可包含1-10个、10-100个、100-1,000个、1,000-10,000个或10,000-100,000个独特的引导序列。工程化的转座子末端可包含独特的分子标识符(UMI)，并且可以是完全双链的，或者可以包含双链区域和单链区域。输入的DNA可以是纯化的基因组DNA、细胞裂解物或其它细胞提取物中的基因组DNA、宏基因组样品中的DNA混合物、来自病毒的DNA、来自细菌、古细菌和/或真核细胞的DNA或其它类型的DNA样品。

反应缓冲液可含有各种辅因子和添加剂，包括但不限于：设定为不同的pH值(例如5.0、5.5、6.0、6.5、7.0、7.5、8.0、8.5、9.0)的缓冲剂(例如Tris、HEPES、磷酸钠)；单价盐(例如NaCl、KCl、谷氨酸钾、谷氨酸钠)；二价盐(例如MgCl₂、CaCl₂、MnCl₂)；核苷酸，诸如ATP、ADP、ADPNP、ADPCP和/或ATP-γS；拥挤剂(crowding agent)，诸如聚乙二醇(PEG)；去垢剂(例如Triton X-100、Tween-20)；冷冻保护剂，诸如甘油；还原剂(例如β-巯基乙醇、DTT、T-CEP)。

将反应孵育5-10分钟、10-30分钟、30-60分钟或60-120分钟或120-240分钟，并在5-10℃、10-15℃、15-20℃、20-25℃、25-30℃、30-35℃、35-40℃、40-45℃或45-50℃下孵育。反应可用各种方法淬灭，包括但不限于：加入EDTA；热失活；加入变性剂，诸如苯酚-氯仿或盐酸胍；加入蛋白酶试剂诸如蛋白酶K；添加核糖核酸酶试剂。在进行下一代测序文库制备(其可包括基于PCR的扩增)所需的后续分子生物学步骤之前，将反应净化以去除变性碎片和蛋白质组分。

在CRISPR-Tn7 RNA引导的DNA整合过程中，产生两侧是靶位点和整合位点的短(约50-bp)测序文库的方法

CRISPR-Tn7系统通过使用gRNA识别与导向序列互补的DNA靶位点，然后在整合位点将转座子供体DNA整合到靶位点下游的固定距离处；在霍乱弧菌CRISPR-Tn7系统中，TniQ-Cascade复合物促进DNA靶向，DNA整合由靶位点下游(PAM-远端)约49-bp的TnsB催化。

靶位点和整合位点的相对排列为定义和扩增/富集大小约为49-bp的DNA文库提供了直接的方法，所述文库来自异质的输入DNA样品，用于通过大规模并行下一代DNA测序(NGS)进行下游分析(图38)。该实施方案中的靶位点是已知序列，对于霍乱弧菌CRISPR-Tn7系统，其将是32-bp的前间区序列靶位点，两侧是2核苷酸PAM。整合位点在下游约49-bp处，也将包含已知序列，因为转座子末端是用户定义的，可以如上所述进行工程改造。因此，在转座子末端-其可以是一个连续dsDNA分子的一部分，或者可以包含代表L端和R端的两个单独的dsDNA分子-整合后，靶向输入DNA将包含由已知靶位点和实验整合位点邻接的短的约49-bp。在随后的分子生物学步骤中，可使用利用户定义的引物对(其引物结合位点是靶位点本身和转座子末端序列)的PCR扩增，来产生大的序列文库，其中内部约49-bp的“插入物”未知，但可在下游步骤中由NGS测序。

实施例6

通过可编程的RNA引导的DNA整合灭活微生物抗生素抗性基因

全球范围内细菌对抗生素抗性的增加导致了以前可以控制的感染的治疗方法减少。随着抗生素的常规开发放缓，焦点已经开始转向开发对抗耐药病理细菌的更新的方法。特别是，可以直接靶向进化中的耐药细菌基因组的抗微生物方法已经出现，所述方法利用通过CRISPR-Cas9核酸酶技术实现的序列特异性DNA靶向，以及提高耐药菌株全基因组测序的简易性。然而，这些方法具有某些缺点，特别是对耐受Cas9靶向或核酸酶活性的存活突变体的强选择，以及低效的噬菌体递送将使用局限于非常窄的靶物种和菌株。

如本文中所述，细菌抗性基因的编码序列在体内通过插入DNA序列而被破坏，导致对药物治疗的非选择性再致敏。这种方法利用了本文所述的可编程系统，该系统包括由霍乱弧菌HE-45转座子(也称为Tn6677，有时被称为霍乱弧菌Tn7样转座子或Tn7转座子)编码的分子机器，其能够实现用户定义的遗传运载物的位点特异性RNA引导的插入。除了破坏抗性基因之外，所述系统还可与靶质粒一起进一步繁殖。此外，通过包括靶向细菌基因组的间隔区，所述构建体还可将其自身稳定地插入“安全港”基因组区域，允许系统的稳定维持和延长的免疫。总的来说，证明了基因组工程平台在复杂细菌联合体内的效用，以及针对抗生素抗性的复杂细菌群落的免疫。

对可编程的RNA引导的DNA转座使用三质粒表达策略(图39A)，这7个基因在由IPTG诱导型T7启动子驱动的两个独立质粒上的两个操纵子中表达，含有目标运载物的DNA供体包含在第三个质粒上。虽然这种最初的方法为机器的研究提供了高度模块化，但此处为了高效地为下游应用递送和表达系统，对构建体进行了简化。重新设计的一体化质粒(图39B)在一个启动子的控制下，在单一连续转录物上表达转座的所有必需组分。在转座子末端内编码整个构建体允许在体内发生转座时与运载物一起传播。如前所述，通过用该构建体转化大肠杆菌BL21(DE3)细胞并使用靶向qPCR定量整合活性水平，该构建体能够高效转座。

由于在高拷贝质粒上保持构建体的高表达水平可能不利于高效整合，因此确定了活性对表达水平和主链拷贝数的依赖性。T7启动子被具有一系列表达水平的组成型大肠杆菌启动子取代(Yan和Fong，J Biol Eng.2017；11：33)，并且先前使用的高拷贝数pUC19主链被保持可变拷贝数的其它主链替代。在这个小组中，还包括了广宿主可移动载体pBBR1(Szpirer等人J Bacteriol.2001；183(6)：2101-2110)和最近的宏基因组挖掘研究中描述的广宿主启动子(Johns等人，Nat Methods.2018；15(5)：323-329)，它们用于在后期的多物种环境中表达系统。该小组中的构建体的效率利用qPCR来确定。

“剪切粘贴”转座获得支持，其中将供体DNA从供体部位完全切下并插入在靶位置(Bainton等人，Cell，1991；65(5)，第805-816页)。因此，当多个间隔区或靶位点可用，或者通过转座子机器进行的可能的持续切除时，整合的运载物可能从其破坏的基因中丢失。如果该基因的原始拷贝存在于细胞中的其它地方，这导致可能通过同源重组修复来重现原始基因序列(Hagemann和Craig，Genetics.1993；133(1)：9-16)。

大肠杆菌Tn7转座子的TnsA活性位点(D114A)发生单点突变，已显示DNA断裂只发生在供体每条链的3’端(May和Craig.Science，1996；272(5260)：401-4)。在没有完全切除供体DNA的情况下，系统切换到复制型复制粘贴机器，产生了共合体产物，其最终通过重组分解，产生运载物的两个相同拷贝(图40)。

这种复制粘贴机器是利用霍乱弧菌TnsA蛋白中的一个类似突变(D90A)概括的，先前显示该突变支持主动转座。通过靶向PCR和产物测序，显示了共合体产物的存在。使用类似的靶向PCR方法，通过在异质群体细胞中或通过随时间连续培养克隆性共合体菌落，探测单个插入运载物在基因组靶位点处的存在来表征该产物的分辨率。在另一个实施方案中，为了提高共合体产物的重组效率和分辨率，将位点特异性重组酶诸如Cre或CinH以及其识别序列包含在运载物中。在天然存在的复制型转座子诸如Tn3和Mu中，这种重组酶辅助策略已被证明可用于共合体的解析(Nicolas等人Microbiology Spectrum.2015；3(4))。

此外，使用这种方法测定多重整合的效率。在一个实施方案中，在靶向CRISPR阵列中包含多个间隔区导致在所有相应靶位点处同时发生整合事件。通过将构建体在温度敏感型质粒上递送，将质粒从细胞中去除，然后引入包含相同拷贝的靶位点的第二种质粒，运载物的整合基因组拷贝自我移动并拷贝到靶质粒上。在两个位点分离同时整合的克隆。

多个细菌物种中的抗性基因破坏和免疫

此处，证明了运载物至抗生素抗性基因中的整合导致细胞对抗生素治疗的再致敏(图42)。在一个实施方案中，用含有靶向KanR基因的间隔区的RNA引导的DNA整合构建体转化耐卡那霉素(KanR)的BW25113大肠杆菌。在具有KanR基因的基因组拷贝的细胞中和在KanR基因保持在稳定的氨苄青霉素选择性质粒上的细胞中重复进行该实验。与接受具有非靶向gRNA构建体的对照细胞相比，细胞失去了卡那霉素抗性，如通过选择性琼脂铺板和CFU定量所测定的。通过靶向PCR和测序证实编码序列的整合和破坏。此外，这些细胞通过与对照细胞在多代中共同培养而保持存活和健壮，具有相当的生长率。含有被破坏的KanR的靶质粒在细胞中保持稳定，并且可被提取并且转化至原初细胞中。通过应用多路复用能力并在gRNA阵列中使用不同的间隔区组合，含有氨苄青霉素选择性质粒的细胞变得对用这两种药物中的一种或两种进行的治疗再致敏，所述质粒包含有卡那霉素和壮观霉素抗性基因。

在本发明的另一个实施方案中，当RNA引导的DNA整合机器在大肠杆菌中稳定保持在质粒上时，其破坏了在随后的转化事件中引入的抗生素抗性基因。使用与以前类似的分析，RNA引导的DNA整合机器不会阻止质粒的转化，但与包含非靶向系统的细胞相比，细胞无法获得对药物治疗的抗性，因此被有效免疫。

在该实施方案的基础上，通过添加基因组靶向间隔区，将RNA引导的DNA整合机器插入基因组，并且所述系统的插入基因组拷贝能够破坏转化的抗性基因。

为了将所述系统应用于复杂的细菌群，诸如肠道菌群中，使用本文所述的标准转化和qPCR测定来研究所述系统是否能够支持几种细菌物种的主动转座。在一个实施方案中，最初的一小组细菌包括实验室培养的大肠杆菌、肠道沙门菌(S.enterica)、霍乱弧菌和铜绿假单胞菌的菌株，所述菌株都是系统发育相关的革兰氏阴性普通肠道定殖物种，之前也显示出能高效地从大肠杆菌供体接收接合质粒。用于这些实验的RNA引导的DNA整合机器利用了宽宿主范围的主链和启动子。筛选每个物种内的多个不同的“安全港”基因座，以确定允许高整合效率并且在每个物种的多个菌株之间足够保守的位点。这些位点作为稳定的基因组整合位点，用于在后期体内维持系统进入它们各自的物种。通过插入条件表达的红霉素抗性(ErmR)编码序列来评估分离基因组整合的克隆的能力(图41)。

肠道菌群的体内免疫

按照前述方法，使用包含RP4接合机器的营养缺陷型供体大肠杆菌株，通过接合和测试效率来递送RNA引导的DNA整合机器构建体。在供体与每个单独的受体菌株之间进行直接接合测定后，使用在选择性培养基上的生长来确认成功的接合。为了概括免疫实验，RNA引导的DNA整合机器质粒，以及含有靶KanR盒的氨苄青霉素选择性靶质粒都通过接合而被同时递送至每个受体菌株。通过选择成功的双转移接合子，证明了针对耐药性的免疫。接合后在有氧和厌氧生长条件下分别进行实验。其它实施方案采用类似的方法，但使用不同的质粒主链(目的是结合到更多的细菌物种中)，或者使用包含一小组不同主链的质粒文库。

在一个实施方案中，评价了当递送给细菌混合物时系统的活性。上面描述的接合和免疫实验是使用先前评估的四个物种中的每一个的相等混合物来概括的。评估回收的双转移接合子的卡那霉素敏感性，并且还利用16S rRNA测序来确认所有四种受体物种的存在。

在又一实施方案中，所述方法应用于刚从C57BL/6小鼠粪便中分离的肠道细菌。在厌氧条件下，将肠道细菌分离为多种不同物种的复杂混合物，并如前所述进行接合测定(Ronda等人Nat Methods16：167-170，2019)。评估通过接合递送RNA引导的DNA整合机器质粒或KanR-靶质粒，然后同时递送两者的能力。在每个阶段，选择双转移接合子，并通过16SrRNA测序确定受体物种。在另一个实施方案中，证实了RNA引导的DNA整合机器至分离的肠道细菌的基因组中的稳定插入。将间隔区添加到靶向多个不同的基因组位点的阵列中，以及将ErmR基因添加到运载物中，这种扩展的RNA引导的DNA整合机器构建体通过接合被递送至提取的肠道细菌。在红霉素培养基上选择稳定整合的细菌并对其进行测序以确认它们的系统发育身份。

所述系统对小鼠肠道微生物组的体内免疫的能力通过使用扩展的和基因组可插入的RNA引导的DNA整合机器构建体来证明，所述构建体靶向KanR。在一个实施方案中，使用两个分离的大肠杆菌供体群通过口服管饲法将构建体和KanR靶质粒同时引入小鼠肠道，然后定期从粪便中分离细菌。对照包括不合KanR靶向间隔区的构建体和不合靶向基因组位点的间隔区的构建体。与前者相比，后者导致针对卡那霉素抗性的更高免疫，但具有靶向两者的间隔区的完整系统导致甚至更有效的免疫。通过转移接合子的16S分析，利用靶质粒进行进一步传播允许具有KanR间隔区的基因组靶向RNA引导的DNA整合机器构建体，与没有KanR间隔区的构建体相比，可以更有效地传播。在又一实施方案中，通过在递传KanR靶标之前将RNA引导的DNA整合机器构建体递送到小鼠中来重复免疫实验。

本实施例中描述的方法利用了可编程的DNA整合酶。该系统源自霍乱弧菌株，利用四个Tn7相关基因和CRISPR相关基因在靶位置特异性整合DNA运载物(Klompe等人，Nature571，219-225(2019)，其通过引用并入本文)。通过证明整合酶的靶向可以通过改变相关gRNA阵列中编码的间隔序列来定义，所述系统可以被改造成高度可编程的DNA插入工具，即通过引导RNA辅助靶向插入转座元件(Insertion of Transposable Elements by GuideRNA-Assisted Targeting)(INTEGRATE)。

应用INTEGRATE可以将一种DNA运载物特异性地靶向并插入抗生素抗性基因的编码序列中，从而破坏其表达而不产生致死的DSB。通过使用这种策略，抗生素抗性得以消除，而不会导致细胞死亡，从而避免了对存活突变体的同时选择。通过使用与Harris Wang实验室描述的MAGIC系统相似的接合型质粒策略(Ronda等人，Nat Methods 16：167-170，2019，其通过引用并入本文)，所述系统被递送至模型小鼠肠道微生物组，由此所述系统稳定地插入到几个物种的基因组中，并用作监测工具。这使得细胞被有效地免疫，防止对水平遗传的抗性基因的药物选择产生抗性(Blair等人，Nature Reviews Microbiology，13，42-51(2015)，其通过引用并入本文)。此外，通过将INTEGRATE转化为复制型作用模式，并在运载物上包括整个INTEGRATE机器，所述系统将自身从供体复制到靶抗性基因，从而随着靶质粒的任何后续水平转移进一步繁殖其自身。一旦被引入新细胞，gRNA阵列中靶向基因组位点的间隔区将导致构建体的拷贝稳定地插入基因组，完成循环。因此，通过劫持抗生素抗性基因的自然水平转移，该方法解决了有效递送的问题，同时发挥其预期的干扰效果。

使用INTEGRATE对抗抗生素抗性的策略解决了抗性在复杂细菌群中传播的问题。该项目还展示了通过INTEGRATE的可编程转座用于微生物工程应用中的效用。例如，所述方法可以很容易地重新设计，以从群体中靶向和消除毒力基因，进行原位基因敲除，或将新的遗传元件稳定地引入微生物组的宏基因组池。

通过非致死性破坏抗生素抗性基因，所述方法规避了幸存者选择的挑战，并利用了构建体的二次繁殖。除了抗性基因之外，所述方法还可被重新设计以靶向任何一组基因，诸如毒力或代谢基因，在其它实施方案中用于临床和工业应用。

实施例7

用于植物中可编程RNA引导的DNA整合的方法

水稻(单子叶谷类作物)中丝裂原活化蛋白(MAP)激酶基因的靶向突变短PAM序列以高频率存在于植物基因组中(例如，在1110中通过OsMPK5基因的编码区发现了141个PAM)，这表明使用这种方法靶向和编辑每个植物基因的可能性。三个20-22nt引导RNA(gRNA)被设计用来靶向水稻基因组中有丝裂原活化蛋白激酶基因的三个特定位点。两个RNA引导的基因组编辑载体(pRGE3和pRGE6)被创建用于在植物细胞中表达本发明系统的组分。在这两种载体中，CaMV 35S启动子用于控制一种或多种蛋白质/酶的表达，所述蛋白质/酶与核定位信号和FLAG标签融合。pRGE3和pRGE6载体包含：(1)DNA依赖性RNA聚合酶III(Pol III)启动子(分别为水稻snoRNA U3或U6启动子)，其控制植物细胞中gRNA分子的表达，其中转录被Pol III终止子(Pol III Term)终止；(2)控制一种或多种蛋白质/酶的表达的DNA依赖性RNA聚合酶II(Pol II)启动子(例如，CaMV 35S启动子)；(3)位于Pol III启动子与gRNA支架之间的多克隆位点(MCS)，其用于插入编码gRNA的15-30nt DNA序列。对于根癌土壤杆菌介导的转化，将来自pRGE3和pRGE6的转座子编码的CRISPR-Cas系统盒分别插入pCambia 1300载体的T-DNA区域，以产生pRGEB3和pRGEB6。

为了证明在植物中的RNA引导的基因组编辑，将编码胁迫应答水稻丝裂原活化蛋白激酶的OsMPK5基因用于通过本发明系统进行的靶向突变。基于OsMPK5基因座中相应的靶位点(PS1、PS2和PS3)，设计了三个引导RNA(gRNA)序列。PS1-gRNA(22nt)对OsMPK5的模板链是特异的。PS2-gRNA和PS3-gRNA(分别为20nt和22nt)对OsMPK5的编码链是特异的。随后，通过将编码gRNA的合成DNA寡核苷酸插入pRGE3载体，制备了三个gRNA-Cas9构建体。

水稻原生质体瞬时表达系统用于测试工程化的gRNACas9构建体。用携带绿色荧光蛋白(GFP)标记基因的质粒构建体证明了水稻原生质体的高效转化。原生质体中GFP表达的荧光显微分析在转化后约18小时和转化后约36-72小时进行。进行PCR和/或测序以确认基因组编辑。为了评估基因组编辑的效率，进行了T7核酸内切酶I(T7E1)测定，以检测OsMPK5基因座中所有三个靶位点的突变。在该测定中，从基因组DNA中扩增包含靶位点的扩增子，并在解链和退火后用错配敏感型T7E1处理，如果扩增产物包含突变型和野生型DNA，则将检测到切割的DNA片段。

通过土壤杆菌介导的转化产生表达本发明系统的稳定转基因水稻品系。表达PS1-gRNA(TG4品系)和PS3-gRNA(TG5品系)的转基因水稻植株通过T7E1测定、PCR和测序来检测。

材料和方法

用于植物系统的RNA引导的基因组编辑载体的构建为了构建 pRGE3和pRGE6载体，使用引物对从水稻品种日本晴(Nipponbare)基因组DNA中扩增水稻snoRNA U3和U6启动子。使用一对引物从pX330载体中扩增编码gRNA支架的DNA序列。U3或U6启动子与gRNA支架的PCR产物通过重叠PCR重新融合。然后通过Giboson组装法将U3或U6启动子-gRNA片段克隆到pUGW11-BsaI载体的Hind III位点，产生pUGW-U3-gRNA和pUGWU6-gRNA。pUGW11-BsaI是通过使用定点诱变(Strategene)去除Amp抗性基因和35S启动子中的两个BsaI位点而从pUGW11衍生而来的。编码本发明系统的蛋白质/酶的序列随后通过LR反应(Invitrogen)被引入到pUGW-U3-gRNA或pUGW-U6-gRNA中，产生pRGE3和pRGE6载体。此外，通过将转座子编码的CRISPR-Cas系统盒从pRGE3和pRGE6插入pCAMBIA 1300-BsaI载体，制备了两个二元载体(pRGEB3和pRGEB6)。pCAMBIA 1300-BsaI是通过使用定点诱变(Stratagene)去除35S启动子中的BsaI位点从pCAMBIA1300衍生而来的。

用于精确破坏OsMPK5基因的基因靶向构建体编码gRNA的DNA序列被设计成靶向OsMPK5的外显子中的三个特定位点。对于每个靶位点，合成一对具有合适克隆接头的DNA寡核苷酸。将每对寡核苷酸磷酸化、退火，然后连接至Bsa I消化的pRGE3或pRGE6载体中。转化到大肠杆菌DH5-α后，所得构建体用QIAGEN Plasmid Midi试剂盒(Qiagen)纯化，用于随后用于水稻原生质体转染。为了稳定转化，将已用于构建PS1-gRNA和PS3-gRNA的DNA寡核苷酸插入到pRGEB3中。将所得基因构建体引入根癌土壤杆菌EHA105株。

水稻原生质体的制备和转化水稻原生质体是在MS培养基中萌发后从日本晴品种(Oryza sativa spp.japonica)的10日龄幼苗制备。原生质体是通过在消化液(10mM MESpH5.7，0.5M甘露醇，1mM CaCl₂，5mMβ-巯基乙醇，0.1％BSA，1.5％纤维素酶R10(YakultPharmaceutical，Japan)和0.75％Macerozume R10(Yakult Pharmaceutical，Japan))中消化稻鞘条5小时分离而来的。通过尼龙网(35um)过滤后，收集原生质体，并在室温(25℃)下在W5溶液(2mM MES pH5.7，154mM NaCl，5mM KCl，125mM CaCl₂)中孵育1小时。然后通过以300xg离心5分钟除去W5溶液，将水稻原生质体重悬在MMG溶液(4mM MES，0.6M甘露醇，15mMMgCl₂)中至终浓度为1.0x10₇/ml。为了转化，将10ul质粒(5-10ug)与100ul原生质体和110ul的PEG-CaCl₂溶液(0.6M甘露醇，100mM CaCl₂和40％PEG4000)轻轻混合，然后在室温下孵育20分钟。通过添加2倍体积的W5溶液来停止转化。

通过离心收集转化的原生质体，并重悬于WI溶液(4mM MES pH5.7，0.6M甘露醇，4mM KCl)中。转化的原生质体保存在24孔培养板中。在WI溶液中孵育24-72小时后，通过以300xg离心2分钟收集原生质体，并在-80℃冷冻。

土壤杆菌介导的水稻转化根据前述方法(Xiong和Yang，The Plant Cell，2003，15：745-759)，将来源于日本晴品种的种子的胚性愈伤组织用于土壤杆菌介导的稳定转化。

基因组DNA提取通过加入100μl预热的CTAB缓冲液并在65℃下孵育20分钟，从水稻原生质体或幼苗叶片中提取基因组DNA。然后加入40μl氯仿；所得混合物在室温(25℃)下在端对端摇杆(end-to-top rocker)中孵育20分钟。在以16000xg离心5分钟后，将上清液转移到新试管中，并与250μl乙醇混合。在冰上孵育10分钟后，通过在室温下以16000xg离心10分钟沉淀基因组DNA。用0.5ml 70％的乙醇洗涤DNA沉淀，并风干。然后将基因组DNA溶解在100μl dH₂O中，用分光光度计测定其浓度。

T7核酸外切酶I测定为了通过T7核酸外切酶I(T7E1)测定来检测突变，使用一对引物和Phusion高保真DNA聚合酶(NEB)从基因组DNA中扩增包含靶位点的DNA片段。使用PCR纯化柱(Zymo Research)纯化PCR产物，并用分光光度计测定浓度。然后将100ng纯化的PCR产物在以下条件下变性退火：95℃ 5min，以0.1℃/秒的速度降至25℃，并在25℃下再孵育30分钟。然后用5U T7E1在37℃下消化退火的PCR产物2小时。T7E1消化产物通过1％琼脂糖凝胶电泳分离，并用溴乙锭染色。使用Image J软件计算DNA条带的强度。

土豆(马铃薯，双子叶食物作物)中的基因组编辑引导RNA被设计成靶向马铃薯天冬酰胺合酶基因(StAS1)。本发明系统通过瞬时表达被递送到马铃薯叶原生质体中。一种马铃薯基因组编辑载体(pStGE3)被产生来表达靶向马铃薯基因和本发明系统的另外组分的工程化的gRNA。pStGE3载体包含几个重要的功能元件：(1)DNA依赖性RNA聚合酶III(polIII)启动子(拟南芥U3启动子)，其用于控制植物细胞中靶向马铃薯基因的工程化的gRNA的表达，其中转录将被pol III终止子(Pol III Term)终止；(2)驱动蛋白质/酶表达的DNA依赖性RNA聚合酶II(pol II)启动子(CaMV 35S启动子)；以及(3)位于Pol III启动子与gRNA支架之间的克隆位点，其将用于插入编码gRNA的DNA序列。另外，通过将转座子编码的CRISPR-Cas系统盒(如pStGE3的转座子编码盒)插入pCAMBIA 1300载体的T-DNA区域，也构建了适用于土壤杆菌介导的转化的二元载体。

StAS1先前被鉴定和表征为调节丙烯酰胺在诸如薯条和薯片等马铃薯产品中的积累。因此，StAS1的成功靶向突变将显著降低马铃薯中天冬酰胺的含量，导致加工的马铃薯产品中存在的丙烯酰胺减少。基于StAS1基因中相应的靶位点(PS1和PS2)，设计了两个引导RNA(gRNA)序列。Ps1-gRNA(20nt)被设计成与StAS1的模板链配对。Ps2-gRNA(20nt)与StAS1的编码链配对。随后，编码PS1和PS2的DNA被插入到pStGE3载体中。

原生质体瞬时表达系统用于测试PS1和PS2基因组编辑构建体。以前建立了简单有效的从马铃薯块茎(tube potatoe)中分离和再生原生质体的方法，并且开发了PEG介导的瞬时转化方法。使用携带绿色荧光蛋白(GFP)基因的质粒构建体证明了马铃薯原生质体的分离和转染。

为了检测原生质体中gRNA引导的基因组编辑，在转化后24小时从转染的原生质体中提取马铃薯基因组DNA。提取的DNA通过PCR和/或测序进行分析。

植物材料四周至六周龄的马铃薯植株在温室(23-25℃)中重新生长。获得了马铃薯DM1-3 516 R44(称为DM)，其为来自从经典组织培养获得的双单倍体克隆的测过序的品种。

用于靶向基因突变的基因构建体编码gRNA的DNA序列被设计成靶向StAS1外显子中的两个特定位点。对于每个靶位点，合成一对具有合适克隆接头的DNA寡核苷酸。将每对寡核苷酸磷酸化、退火，然后连接至BsaI消化的pStGE3载体中。转化到大肠杆菌DH5-α中后，所得构建体用QIAGEN Plasmid Midi试剂盒(Qiagen)纯化，用于随后用于马铃薯原生质体转化。

马铃薯原生质体的制备和转化马铃薯原生质体是从DM品种(二倍体马铃薯)的4至6周龄马铃薯叶片制备的。首先将马铃薯叶在条件培养基中培养，所述培养基含有1x MS，100mg/L酪蛋白水解物，3mM MES pH 5.7，0.35M甘露醇，2mg/L NAA和1mg/L BA。然后通过在消化液(1x MS，3mM MES pH5.7，0.3M甘露醇，1mM CaCl₂，5mMβ-巯基乙醇，0.2％BSA，1％纤维素酶R10[Yakult Pharmaceutical，Japan]，和0.375％Macerozume R10(YakultPharmaceutical，Japan))中消化这些马铃薯叶3.5小时来分离原生质体。通过尼龙网(35μm)过滤后，将原生质体在室温(25℃)下用W5溶液(2mM MES pH5.7，154mM NaCl，5mM KCl，125mM CaCl₂)洗涤3-5次，然后收集并在W5溶液中孵育30分钟。然后通过以300xg离心3分钟除去W5溶液，并将马铃薯原生质体重新悬浮在MMG溶液(4mM MES，0.6M甘露醇，15mM MgCl₂)中至终浓度为5.0x10⁶/ml。为了转化，将10μl质粒(5-10μg)与100μl原生质体和110μl PEG-CaCl₂溶液(0.6M甘露醇，100mM CaCl₂和40％PEG4000)轻轻混合，然后在室温下孵育20分钟。通过添加2倍体积的W5溶液来终止转化。然后通过离心收集转化的原生质体，并重新悬浮在W5溶液中。转化的原生质体保存在24孔培养板中。在W5溶液中孵育24-48小时后，通过以300xg离心2分钟收集原生质体，并在-80℃下冷冻用于进一步分析。

基因组DNA提取通过加入150μl提取缓冲液(200mM Tris-HCl PH7.5，250mMNaCl，25mM EDTA，0.5％SDS，10mg/L RNA酶I)并摇动混合物1分钟，从马铃薯原生质体中提取基因组DNA。以12000rpm离心5分钟后，将上清液转移到新试管中，并与150异丙醇混合。在冰上孵育20分钟后，通过在4℃下以12000rpm离心15分钟沉淀基因组DNA。用0.5ml 70％乙醇洗涤DNA沉淀，并风干。然后将基因组DNA溶解在80μl的H₂O中，其浓度通过分光光度计测定。

玉米植物中的基因组修饰编码本发明系统的蛋白质/酶的基因是按照本领域已知的标准技术优化的玉米密码子，并且引入马铃薯ST-LS1内含子以消除其在大肠杆菌和土壤杆菌属中的表达。为了促进蛋白质/酶在玉米细胞中的核定位，将猿猴病毒40(SV40)单份氨基端核定位信号和根癌土壤杆菌二份VirD2 T-DNA边界核酸内切酶羧基端核定位信号分别整合在开放阅读框的氨基端和羧基端。玉米优化基因通过标准分子生物学技术可操作地连接至玉米组成型或调节型启动子上。

为了在玉米中赋予高效的引导RNA表达(或双重crRNA和tracrRNA的表达)，将位于8号染色体上的玉米U6聚合酶III启动子和玉米U6聚合酶III终止子分离并可操作地融合到引导RNA的末端。

通过根癌土壤杆菌介导的转化在拟南芥中时行的AtPDS3的靶向突变两个gRNA被设计成靶向编码拟南芥八氢番茄红素脱氢酶的AtPDS3编码区中的两个不同位点。AtPDS3缺陷的植物表现出叶片漂白表型，这使得检测基因敲除效率变得容易。合成了两个编码gRNA的DNA序列，并分别克隆到pRGEB3和pStGEB3中。

将两套RGE载体用于利用土壤杆菌介导的花序浸泡法(floral dip method)对拟南芥中的AtPDS3进行靶向诱变。一个在pRGEB3中包含35S启动子驱动的蛋白质/酶和水稻U3启动子驱动的gRNA，而另一个在pStGEB3中包含35S启动子驱动的蛋白质/酶和拟南芥U3启动子驱动的gRNA。在土壤杆菌介导的转化之后，分析了30-40个转基因拟南芥品系。

实施例8

用于动物细胞中可编程的RNA引导的DNA整合的方法

在猪细胞中测试转座子编码的CRISPR-Cas系统将猪肾PK15细胞在补充有10％胎牛血清、100U/ml青霉素和100μg/ml链霉素的高葡萄糖DMEM(Life Technologies，#31966)中于37℃、5％CO₂的潮湿培养箱中进行培养。

潜在的小引导RNA靶位点最初是根据目标猪基因的编码序列内前间区序列邻近基序(PAM)的存在鉴定的。

使用Neon电穿孔仪(设置在2个1400mV的脉冲，每个脉冲持续20ms)将编码sgRNA序列、本发明系统的其它组分和CMV驱动的eGFP的质粒共转染到6X10⁵ PK15细胞中。将转染的细胞在无抗生素的完全培养基中恢复。转染后三天，通过荧光激活细胞分选分GFP阳性细胞，通过培养扩增，并使用Qiagen DNeasy血液和组织试剂盒制备基因组DNA。使用Accuprime高保真聚合酶对该基因组DNA进行PCR。按照制造商(Transgenomic)的推荐对PCR产物进行细胞分析。在2％TAE琼脂糖凝胶上解析消化的PCR产物。

牛细胞中的转座子编码的CRISPR-Cas系统的测试 sgRNA的潜在靶位点最初是基于目标牛基因的编码序列或紧接编码序列两侧的序列中PAM序列的存在来鉴定的。选择9个潜在的sgRNA结合位点(三个在编码序列的5’端，三个在编码序列内，三个在终止密码子的3’端)。

对于每个鉴定的sgRNA结合位点，重新设计两个引导序列；20-聚体结合序列和19-聚体、18-聚体或17-聚体结合序列。

使用Neon电穿孔仪(设置在单个1800mV的脉冲，持续20ms)，将1微克编码本发明系统的组分的质粒miniprep DNA(Qiagen)转染到6X10⁵个牛胚胎成纤维细胞(BEF)中。转染后两天，使用Qiagen DNeasy血液和组织试剂盒制备基因组DNA。使用Accuprime高保真聚合酶对该基因组DNA进行PCR。

按照制造商(NEB)的推荐，对纯化的PCR产物进行T7核酸内切酶分析。在1.4％TAE琼脂糖凝胶上解析消化的PCR产物。

用于猪囊泡胚中的DNA整合的转座子编码的CRISPR-Cas系统在细胞培养中成功验证后，将一种或多种引导RAN序列与T7启动子组装在一起。用T7驱动的构建体组装有助于体外转录和产生RNA。简言之，使用T7体外转录试剂盒(Ambion)转录sgRNA。同样，本发明系统的其它组分使用T7体外转录试剂盒和/或T7 Megascript体外转录试剂盒进行重转录。

使用Eppendorf Femtojet注射器，在连续流动环境下，将编码本发明系统的组分的mRNA(100ng/μL)和靶向目标猪基因的sgRNA(50ng/μL)注射到1-细胞猪受精卵中。使注射的胚胎再进行6天的胚泡阶段，收集DNA，并在靶位点周围进行PCR扩增。靶基因突变的存在通过PCR扩增子的测序来评估。使用基因特异性引物扩增靶位点周围的序列，克隆到PCR2.1载体(Invitrogen)中，转化到DH5α细胞(NEB)中，并基于卡那霉素抗性选择转化体。将菌落培养过夜，小量制备并通过桑格测序法对质粒进行测序。

遗传修饰的猪模型的产生将编码本发明系统的组分的mRNA和靶向目标猪基因的sgRNA注射到体外受精的猪胚胎中。简言之，来自母猪的成熟卵母细胞购自ART Inc.(Madison，Wis.)，并在其商业成熟培养基#1中过夜运输。在置于成熟培养基#1(由ART提供)中24小时后，将50至75个卵丘-卵母细胞复合体(COC)置于500μl组织培养基199(TCM 199)中，该培养基含有0.14％PVA，10ng/ml表皮生长因子、0.57mM半胱氨酸、0.5IU/ml猪FSH和0.5IU/ml羊LH，并在38.5℃和空气中5％CO₂、100％湿度下再培养20小时。将COC在0.1％的于含0.01％PVA的HEPES缓冲培养基中的透明质酸酶中涡旋4分钟，以去除成熟后的卵丘细胞。将成组的30-35个成熟、裸露的卵母细胞置于100μL改良的Tris缓冲培养基(mTBM)中，并根据既定方案使用新鲜的稀释的公猪精液(extended boar semen)进行受精。简言之，将1-2ml稀释精液与含有1mg/ml BSA的杜尔贝科磷酸盐缓冲盐水(Dulbecco′s PhosphateBuffered Saline)(DPBS)混合至终体积为10ml，并以1000xg在25℃下离心4分钟；将精子在DPBS总共清洗三次。最后一次洗涤后，将精子重悬于mTBM培养基中，以5X10⁵个精子/ml的终浓度添加到卵母细胞中，并在38.5℃和5％CO₂下共同孵育5小时。受精后5小时，推定的合子重新注射编码本发明系统的组分的mRNA和sgRNA，通过中线切口暴露生殖道，将完整胚胎通过手术转移到同步化的雌性受体动物的输卵管中。让动物从手术中恢复。

另一种选择是使用体内受精的1-细胞胚胎进行CRISPR介导的NANOS2靶向和编辑动物的产生。通过首先用Regumate(Alterenogest)喂养14-16天，然后在第17天皮下注射PG600(5ml)以及在第20天注射1000IU的hCG来使胚胎供体动物同步发情和超数排卵。将动物繁殖三次，一次在站立发情期(第20天)，第21天间隔8小时再进行两次授精。动物在第22天被人道屠宰，胚胎通过冲洗输卵管获得。胚胎被注射编码本发明系统的组分的mRNA和sgRNA，并如上所述在同一天手术转移到同步化的受体(或代孕)动物中。

通过胚胎注射产生经遗传修饰的动物设计了靶向目标猪基因的候选sgRNA。使用T7 mMessage Machine试剂盒(Ambion)体外转录编码本发明系统的组分的mRNA和靶向目标猪基因的sgRNA，用Megaclear试剂盒(Ambion)进行净化，并注射到体内受精的猪1-细胞胚胎中。使一个队列的12只8-9月龄的动物同步发情并用于实验。其中8只同步化的动物被培育用作胚胎供体，而其余4只动物被同步的，但未被培育用作代孕动物。通过喂食5ml孕酮类似物Regumate(或Matrix)14天来同步发情。最后一次Regumate喂养24小时后，给动物皮下注射一剂PMSG(1200IU，Sigma)，72小时后通过皮下注射HCG(1000IU，Chorulon，Merck)诱导排卵。用公猪精液(PIC Genetics)给处于发情旺期的供体动物(n＝8)人工授精。来自供体动物的体内胚胎在人工授精后24小时，通过用无菌PVA TL-Hepes培养基从输卵管逆行冲洗而手术回收。用编码本发明系统的组分的mRNA和sgRNA注射体内衍生的胚胎，并在PZM3培养基中培养过夜。显微注射后一天，将30个胚胎通过手术移植到每只代孕动物的输卵管中。

对于胚胎移植，用氯胺酮/甲苯噻嗪混合物(6.6mg/kg和1-2mg/kg IM)麻醉供体猪和代孕猪，并让它们躺在手术台上。通过监测心率、体温、全节律呼吸、瞳孔收缩以及眼睑反射减少或缺失来评估足够的麻醉深度。麻醉的母猪的生殖道通过腹部中线切口暴露出来。只有输卵管和子宫尖端暴露出来。在供体中，通过子宫-输卵管连接处逆行冲洗胚胎，从输卵管口收集胚胎。为了将胚胎移植到代孕者体内，将含有胚胎的tom-cat导管穿过漏斗放置，并将胚胎植入输卵管。在使用可吸收缝线(USP#3体壁，#3脂肪，#1sub-q)对切口进行三层缝合后，让动物恢复。通过没有恢复发情(21天)以及在胚胎移植后28进行超声波检查来证实妊娠。

通过体细胞核移植(SCNT)产生经遗传修饰的动物

由从D35妊娠Duroc猪回收的胎儿建立猪胚胎成纤维细胞(PFF)。用编码本发明系统的组分的CMV启动子驱动的一种或多种质粒对候选雄性和雌性PFF品系进行核感染。核感染后一天，将核感染的细胞单独分选到96孔板的每个孔中。用辐照过的成纤维细胞条件生长培养基喂养细胞，并使其形成集落。经过一周的培养，集落开始出现在孔中。将细胞克隆繁殖，提取DNA并使用DNA测序筛选突变。将突变纯合的细胞通过体细胞核移植克隆以产生经遗传修饰的雄性和雌性小猪。

实施例9

转座子编码的CRISPR-Cas系统靶向DNA的结构基础

霍乱弧菌Tn6677转座子经历由CRISPR RNA(crRNA)指导的可编程转座，除了CRISPR阵列之外，该活性还使用四个转座子相关基因和三个CRISPR相关基因(图43A)。尽管TnsA、TnsB和TnsC表现出的功能与其来自相关且研究充分的剪切粘贴式DNA转座子的同源物一致，但大肠杆菌Tn7、TniQ(大肠杆菌TnsD的同源物)与I-F型变体CRISPR-Cas系统编码的Cascade核糖核蛋白复合物形成共复合物。这一发现提示了TniQ与EcoTnsD在Tn7转座过程中识别靶位点的作用相比的另一种作用。通过Cascade进行的RNA引导的DNA靶向可以以与下游转座子形成相容的方式将TniQ递送到DNA，并且TniQ可能在crRNA的3’端附近与Cascade相互作用，这与RNA引导的DNA插入发生在靶位点PAM远端边缘下游约49-bp处一致。

为了明确地确定这一点，纯化装载有天然crRNA的霍乱弧菌TniQ-Cascade复合物，并通过冷冻电镜确定其结构。整个复合体采用了两端都有突起的螺旋结构(图43、图47和图48)。除了大量由TniQ引起的附加密度(见下文)之外，总体结构类似于之前从I-E和I-F系统确定的Cascade结构(图49)。在Relion3中实现的最大似然分类方法允许鉴定整个复合体中的显著动态，这似乎是“呼吸”，拓宽和缩窄两个突起之间的距离(图47D)。由天然Cas8-Cas5融合蛋白编码的大亚单位(以下在本实施例中简称为Cas8)形成一个突起，并通过碱基特异性和主链特异性接触识别crRNA的5’端(图50、图51A至图51C、图52A)，类似于Cas8和Cas5扮演的规范角色(图49)。Cas8展示了两个主要由α-螺旋形成的主亚结构，以及大约100个残基(残基277至385)的第三结构域，预计该结构域将形成三个α-螺旋，但由于其固有的柔性而无法构建在图谱中(图43C)。然而，低通滤波图显示，这一柔性结构域与新月形复合体的相对端处的TniQ突起相连(图48E)。另外，由于在关闭状态下观察到Cas8柔性结构域的密度更大，因此Cas8柔性结构域和复合体的整体“呼吸”之间似乎存在松散的耦合(图47D)。

六个Cas7亚单位通过沿其长度形成螺旋丝来保护大部分crRNA(图43B和图43D)，类似于其它I型Cascade复合物(图49)。Cas7中的“手指”基序以规则的间隔夹住了crRNA，导致32-57nt间隔区的每六个核苷酸(nt)翻转，同时留下侧翼核苷酸用于DNA识别(图50F和图52)。这些碱基被预先排列在短螺旋区段中，每个区段的第一个碱基下方都有保守的苯丙氨酸堆积。离Cas8最远的单体Cas7.1与Cas6(也称为Csy4)相互作用，Cas6是负责处理来源于CRISPR基因座的前体RNA转录物的核糖核酸酶。Cas6-Cas7.1相互作用由β-折叠介导，该折叠由Cas6的β-链和形成Cas7.1的指的两条β-链贡献形成(图51(vi))。Cas6还与重复序列衍生的3’crRNA手柄中的保守茎环形成广泛的相互作用(图43和图51(iv和v))，富含精氨酸的α-螺旋(残基110至128)停靠在大沟中，将多个碱性残基定位在带负电荷的RNA主链的相互作用距离内。

Cas6与Cas7.1之间建立的相互作用形成了TniQ对接的连续表面，从而形成了新月形的另一个突起。复合物的内在柔性使得图谱的这一区域的局部分辨率较低，这一点通过使用局部比对掩蔽包含TniQ、Cas6、Cas7.1和crRNA括柄的区域而得以克服(图53)。增强的图谱允许TniQ从头建模和精修TinQ，以前没有关于这方面的结构或同源性模型的报道(图44)。值得注意的是，TniQ以具有首尾相接构型的二聚体形式与Cascade结合(图44)，这是一个令人惊讶的结果，因为预期EcoTnsD在Tn7转座过程中作为单体发挥作用。

TniQ由两个结构域组成：由大约100个残基组成的N端结构域(由三个短α螺旋形成)，和另一个更大的结构域，由大约300个残基组成，具有TniQ家族的特征序列。使用精修的TniQ模型作为探针的DALI搜索产生了N端结构域与含有螺旋-转折-螺旋(HTH)结构域的蛋白质的显著结构相似性(图54)。该结构域通常参与核酸识别，然而有报道称其被重新用于蛋白质-蛋白质相互作用。剩余的C端TniQ结构域由10个具有可变长度的α-螺旋形成，并经预测包含两个串联的锌指基序，尽管该区域在图谱中定义不明确(图44)。总的来说，TniQ的双结构域组成导致了在HTH与TniQ结构域的联接处弯曲的细长结构(图44)。一个单体的HTH结构域通过α-螺旋3(H3)和α-螺旋11(H11)之间的相互作用分别以紧密的蛋白质-蛋白质相互作用与另一个单体的TniQ结构域接合(图44C)。这种相互作用由来自两个单体的TniQ结构域之间建立的多重相互作用(如PISA报道的多达45个非共价相互作用)补充。

TniQ二聚体至Cascade的栓系是通过与Cas6和Cas7.1两者建立的特定相互作用来实现的(图45)。TniQ的一个单体通过其C端TniQ结构域与Cas6相互作用，而另一个TniQ单体通过其N端HTH结构域与Cas7.1接触(图44B和图45)。连接第一个TniQ单体的TniQ结构域的α-螺旋H6和H7的环被插入在Cas6的两个α-螺旋的界面处形成的疏水空腔中(图45B和图45D)。TniQ组氨酸残基265参与重排连接H6与H7的疏水环(图45D)，所述疏水环被插入由残基L20、Y74、M78、Y83和F84形成的Cas6的疏水口袋中。另一个TniQ单体的HTH结构域通过主要由α-螺旋H2和连接H2与H3的接头建立的相互作用网络与Cas7.1相互作用(图45C和图45E)。因此，HTH结构域和TniQ结构域似乎都发挥双重作用来驱动TniQ二聚化并停靠在Cascade上。

为了探索TniQ-Cascade复合物识别DNA的结构决定簇，测定了结合到双链DNA(dsDNA)底物上的复合物的结构，所述底物含有32-bp的靶序列、5’-CC-3’PAM和两端上的20-bp的侧翼dsDNA(图46和图55)。靶标链(TS)的28个核苷酸和非靶链(NTS)的8个核苷酸的密度可被可靠地分配在重建的图谱中(图46C)。与以前的I-F Cascade结构一样，Cas8识别出了小沟内的双链PAM(图56)，精氨酸残基(R246)与TS上的鸟嘌呤核苷酸建立了堆积相互作用，这就像一个楔子，将双链PAM从邻近的解开的DNA中分离出来，在那里开始与crRNA的碱基配对(图46B)。

32-bp靶内TS的22个核苷酸显示出清晰的密度，但令人惊讶的是，末端9个核苷酸没有排序。TS与crRNA的间隔区在短的、不连续的螺旋区段中进行碱基配对，如之前对于结合了I-E DNA和I-F DNA的Cascade复合物所观察到的那样，通过插入Cas7手指，每6个碱基从异源双链中翻转出来(图52B)。观察到的22-bp异源双链体被靠近PAM的四个Cas7单体(Cas7.6-7.3)稳定，但即使在局部掩蔽精修后，也没有观察到任何与Cas7.2和Cas7.1结合的crRNA间隔区3’端碱基配对的TS核苷酸的密度。这两种Cas7单体靠近Cas6，并且在先前描述的区域中由于Cas8柔性结构域与TniQ-二聚体内表面的相互作用而表现出动力学。此外，无序的核苷酸也对应于靶的位置25-28，在这些位置上，RNA-DNA错配对RNA引导的DNA整合是有害的。因此，部分R环结构可代表难以整合的中间构象，进一步的结构重排可能对开放构象的进一步稳定至关重要，这可能是由TnsC ATP酶的募集驱动的。

与转座蛋白TniQ结合的CRISPR-Cas效应子复合物的第一个冷冻电镜结构，无论有无靶DNA，都揭示了TniQ作为二聚体的意外存在，该二聚体在Cascade复合物中与Cas6和Cas7.1形成二份相互作用，形成下游作用转座蛋白的可能募集平台(图46D)。该结构进一步揭示了可能的保真度检查点，由此形成完整的R环需要构象重排，这可能依赖于广泛的RNA-DNA互补性和/或下游因子募集；这个校对步骤可以解释先前针对霍乱弧菌转座子所报道的高度特异性的RNA引导的DNA整合。

TniQ-Cascade的纯化。TniQ-Cascade的蛋白质组分表达自含有天然霍乱弧菌miQ-cas8-cas7-cas6操纵子的pET衍生载体，所述操纵子在TniQ上具有N端His₁₀-MBP-TEV位点融合。crRNA是从pACYC衍生载体中单独表达的，所述pACYC衍生载体含有编码来自内源性霍乱弧菌CRISPR阵列的间隔区的最小重复序列-间隔区-重复序列CRISPR阵列。如前所述过表达和纯化TniQ-Cascade复合物，并储存在Cascade储存缓冲液(20mM Tris-Cl，pH 7.5，200mMNaCl，1mM DTT，5％甘油)中。

用于电子显微镜检查的样品制备。对于阴性染色，将3μl范围从100nM到2μM的纯化的TniQ Cascade与经等离子体处理的(H₂/O₂气体混合物，Gatan Solarus)CF400碳涂层网(EMS)一起孵育1分钟。吸干多余溶液，再加入3μl 0.75％甲酸双氧铀进行1分钟。吸走多余染料，将网被风干过夜。阴性染色和冷冻条件下的网筛选在Tecnai-F20显微镜(FEI)上进行，该显微镜在200KeV下运行，并配备有Gatan K2-Summit直接检测器。使用Legion/Appion软件进行显微镜操作和数据收集。最初的阴性染色网筛选允许确定适合冷冻条件的浓度范围。使用在4℃、100％湿度、吸干力3、排水时间0、等待时间15秒和吸干时间3至5秒的条件下运行的Vitrobot Mark-II，在1-4μM浓度范围内测试了几种网的几何形状。采用0.6/1UltrAuFoil网(Quantifoil)获得了最佳的冰分布和颗粒密度。

电子显微镜检查。使用Tecnai-F20显微镜采集了300幅低温图像的初步数据集，像素大小为

照明条件调整为8e-/像素/秒，帧窗口为200ms。预处理和图像处理在Relion3中整体完成，ctf估计通过包装器集成到Gctf。使用Relion3中实现的SGD算法计算的初始模型被用作精修3D工作的初始参考，该工作生成具有大约10,000个选定粒子的亚纳米重建。确定了2D平均值和3D重建中清晰的二级结构特征。

对于含有DNA的结合了DNA的TniQ-Cascade复合物，在杂交缓冲液(20mM Tris-Cl，pH 7.5，100mM KCl，5mM MgCl₂)中于95℃下预孵育两个互补的74-nt寡核苷酸

5分钟，以形成dsDNA，随后将其等分并快速冷冻。通过在玻璃化前将3倍摩尔过量的dsDNA与TniQ-Cascade在37℃下孵育5分钟来进行复合物的形成，这遵循了针对apo复合物(定义为TniQ-Cascade与crRNA而非与DNA配体)所优化的条件。

apo复合物的高分辨率数据是在配备有K3直接检测器(Gatan)的300KeV下操作的Tecnai-Polara-F30显微镜中收集的。使用30μm C2孔径，像素大小为

微探针模式下的照明条件调整为16e-/像素/秒的通量。在计数模式下收集帧宽为

的4秒图像。

对于结合了DNA的复合物，高分辨率数据是在配备有能量过滤器(20eV狭缝宽度)和以300KeV运行的K2直接探测器(Gatan)的Titan Krios显微镜(FEI)中收集的。使用50μmC2孔径，像素大小为

照明条件在纳米探针模式下调整为8e-/像素/秒的流量。在计数模式下收集帧宽为

的8秒图像。

图像处理。对每张显微照片进行运动校正，应用在Relion3中实现的Motioncor2所描述的算法，其中5X5的面片(patche)用于K2数据，7X5的面片用于K3数据。使用集成在Relion3中的Gctf获得每个运动校正显微照片的对比度传输函数(contrast transferfunction)的参数。使用

的复合物的估计尺寸，利用Relion3的自动挑选模块的Laplacian工具执行随机选择的200幅图像的子集的初始颗粒挑选。在300像素的框大小中提取了15,000个颗粒，并为初始2D分类作业分箱了3次。从该作业中选择的2D平均值被用作自动挑选完整数据集的模板。对装箱粒子(binned particle)的完整数据集进行2D分类工作，以鉴定能够生成具有清晰二级结构特征的平均值的粒子。在2D分类选择之后，所选择的装箱粒子的亚组相对于由SGD利用F20数据获得的3D体积被精修。检查这个“一致”体积，以定位在该复合物的新月形特征两端明确鉴定的异质性区域。然后，使用约20个像素的软掩模对两端进行单独掩蔽，这些掩模随后用于分类作业，而无需在Relion3中比对。用于此分类作业的T参数是6，类的总数是10。这个策略允许我们鉴定两个主要的粒子群，它们对应于复合体的“开放”和“关闭”状态。来自两个亚组的粒子被分别重新提取，以获得未分箱的数据集，用于进一步精修。Relion3中实现的新特性，即贝叶斯修正(Bayesian polishing)和ctf参数精修，使得两个apo和结合了DNA的复合物的分辨率分别扩展到

和

后处理是使用5个像素的软掩模进行的，该软掩模是根据标准实践在Relion3中自动估计的B因子。使用用于分类的掩模执行最后一组局部精修。局部对齐的图谱对于C形的末端表现出非常好的质量。这些图谱用于从头建模和初始模型精修。

模型构建和精修。对于Cas7和Cas6单体，大肠杆菌同源物(PDB登录号4TVX)最初与嵌合体对接，并转化为聚丙氨酸模型。Cas7单体的手指区以及Cas6的其它二级结构元素的大量重排是在多丙氨酸模型的氨基酸取代之前在COOT中手动进行的。明确定义的芳族残基的庞大侧链允许对寄存器进行可靠的分配。crRNA在图谱中也有很好的定义，并用COOT从头追踪。特别是对于Cas8和TniQ，在能够解释密度的公开结构中没有发现结构相似性。在新月形复合体的两端使用软掩模进行局部精修的图谱渲染出分辨率低于

的清晰图谱。这些图谱用于人工从头追踪COOT中的聚丙氨酸模型，所述模型随后突变为霍乱弧菌序列。芳族残基的庞大侧链显示出优异的密度，并被用作调节序列记录的标志。

为了进行精修，使用Phenix包的phenix.real_space精修工具对冷冻电镜图谱进行了初始的真实空间精修步骤，并激活了二级结构约束。在Refmac5中执行了倒易空间精修(reciprocal space refinement)的第二步，用Prosmart28和LibG计算二次约束。如先前所报道的，调整了几何项对比实验项的权重，以避免模型将模型过度拟合到冷冻电镜图谱中。模型验证在Molprobity进行。

数据可用性。图谱和模型存放在EMDB(登录号20349、20350和20351)和PDB(登录号6PIF、6PIG和6PIJ)。

霍乱弧菌TniQ-Cascade突变体的设计和测试基于霍乱弧菌TniQ-Cascade共复合物的冷冻电镜结构，在apo状态和结合了DNA的状态下，设计了一系列点突变、突变延伸(mutation stretch)或缺失来干扰蛋白质-RNA、蛋白质-DNA或蛋白质-蛋白质相互作用。对这些突变进行了体内RNA引导的DNA整合活性测试，以筛选可具有改善的保真度(即较低的脱靶整合事件)或改善的效率(即更大百分比的经历整合的细胞)的变体。

在表3中，根据突变体设计用于调节的界面或相互作用对各种突变/缺失进行分类。所有突变都被引入pQCascade(crRNA-4)细菌表达质粒，所述质粒含有靶向大肠杆菌lacZ的引导RNA。注意，表3中的“Cas8”是指天然的Cas8-Cas5融合物。

表3：蛋白质突变

表4：数据收集、精修和验证统计

实施例10

使用工程化的TnsA-TnsB融合物进行RNA引导的DNA整合

鉴定了一类转座子，其编码TnsA核酸内切酶与TnsB DDE家族整合酶之间的融合物。这些TnsA-TnsB融合基因存在于多个不同的Tn7样转座子家族中，它们在Tn7样转座子中被鉴定，所述转座子编码I-F型变体CRISPR-Cas系统，其基因与霍乱弧菌Tn6677转座子中的基因同源。此处，源自Tn6677霍乱弧菌转座子的机器的工程化形式将单独的TnsA和TnsB多肽转化为单一融合TnsA-TnsB融合多肽，其保留了体内RNA引导的DNA整合活性的功能，从而通过一个组分降低了系统的复杂性。

表达载体设计基于霍乱弧菌Tn6677转座子的TnsA和TnsB蛋白与来自海绵副希瓦氏菌HJ039株和沃丹弧菌06/09/160株中的新鉴定的转座子的TnsA-TnsB融合蛋白之间的序列比对(图66)，通过修饰pSL0283中的序列构建了新的工程化的霍乱弧菌TnsA-TnsB融合构建体，以产生pSL1738(图67A)。这些质粒序列由SEQ ID NO：3、6和935表示，融合霍乱弧菌TnsA-TnsB蛋白的序列为SEQ ID NO：935。

融合TnsA-TnsB蛋白的功能测试为了测试工程化的TnsA-TnsB融合蛋白的体内RNA引导的DNA整合活性，在大肠杆菌中按照与此处和Klompe等人Nature 571，219-225(2019)(其通过引用并入本文)中先前所述的相似的方案进行转座实验。简言之，产生了化学感受态大肠杆菌BL21(DE3)细胞，其包含质粒编码的微型转座子供体DNA、pSL0527和表达具有crRNA-4的TniQ-Cascade复合物的质粒pSL0828。用空载体对照(pSL0008；pCOLADuet-1)、编码霍乱弧菌TnsA、TnsB和TnsC的原始野生型pTnsABC质粒(pSL0283)或编码TnsC和工程化的TnsA-TnsB融合构建体的新质粒(pSL1738)转化这些细胞。整合通过qPCR评估，其中引物对选择性扩增新型基因组-微型-转座子连接，并允许定量两种可能取向(表示为tRL(靶标-右端-左端)和tLR(靶标-左端-右端))的整合效率。结果表明，融合TnsA-TnsB蛋白具有接近野生型的RNA引导的DNA整合活性(图67B)。

这些实验表明，合成的、工程化的TnsA和TnsBr融合物对于RNA引导的DNA整合具有完全的功能，并且这些工程化的融合蛋白可被认为是工程实验的替代形式，特别是在其中可通过使用包含总数减少的分子组分的系统改善和/或简化机器的表达和/或递送的细胞中。先前的结果还表明，TniQ-Cas8/Cas5-Cas7-Cas6操纵子可被工程化以编码TniQ-Cas6融合蛋白，并且该融合蛋白还支持体内RNA引导的DNA整合活性，提供了包含更少部分的工程化系统的另一个实例。附加的功能性融合物设计可用于通过预先存在的组分之间的融合，或与另外的DNA靶向或DNA切割/整合组分的融合，进一步减少组分的数量。

实施例11

对转座子末端DNA序列进行改造以提高RNA引导的DNA整合效率和调节整合取向

如上所述，通过源自Tn6677的霍乱弧菌CRISPR转座子的RNA引导的DNA整合需要保守的转座子末端序列。具体而言，微型转座子供体DNA序列具有“左(L)”和“右(R)”转座子末端，以便被TnsA/TnsB异聚转酶正确识别，并且任一转座子末端序列的实质部分的缺失导致RNA引导的DNA整合活性部分或完全丧失(图11A至图11C)。如上所述，整合通常在与CRISPRRNA(crRNA)互补的DNA靶位点下游的固定距离处双向发生。具体而言，在一群细胞中，整合事件是异质的，一些发生使得转座子的R端接近靶位点(T-RL取向)，而另一些发生使转座子的L端接近靶位点(T-LR取向)。尽管一些位点显示出大约50∶50的T-RL与T-LR插入产物的比例(例如在与crRNA-4互补的位点处)，但一般来说，T-RL取向比T-LR取向更受偏爱。

使用高通量合并文库方法，产生诱变转座子L和R序列的大文库，以鉴定更高活性的变体和具有改变的取向偏差的变体。

在多个靶位点验证转座子末端截断变体以前的数据(图11)证明转座子末端序列中存在的序列特征控制插入和取向。特别地，当右转座子末端被截短成刚好位于TnsB结合位点内部的回文序列时，观察到整合的优选取向发生了变化。在不同的靶位点(tSL0005-tSL0008)测试了相同的供体构建体(pSL0527、pSL0708、pSL0710、pSL0711、pSL0712)。简言之，用表达TniQ、Cascade和靶向不同靶位点的CRISPR阵列(pSL0829-pSL0832分别对应tSL0005-tSL0008)以及编码微型转座子的截短变体的载体共转化已携带用于表达TnsA、TnsB和TnsC的载体(pSL0283)的感受态BL21(DE3)大肠杆菌细胞。将右转座子末端截短至97bp或更短(图68)导致优先在T-RL取向上的整合(约占所有整合事件的95％)。

用于高通量转座子末端序列工程和测试的方法使用寡阵列合成产生工程化的转座子末端序列的合并文库(图69)。简言之，寡核苷酸被设计为单个大型合并文库中的多个子库，并由Agilent合成。使用独特的引物对从库中扩增每个子库。用匹配的限制性酶消化PCR扩增子及其指定的主链载体，连接纯化的消化产物，然后用这些连接产物转化电感受态大肠杆菌NEB Turbo细胞。将转化反应物与合适的抗生素一起铺在大的LB琼脂生物测定皿上，并在37℃下生长过夜。然后刮取菌落并重新悬浮在LB中，从中纯化出质粒DNA。对这些合并质粒文库进行深度测序，以评估起始输入文库(见下文)，并用于后续转座分析。

为右(R)和左(L)转座子末端设计和制备了单独的转座子末端文库。这些合理设计的文库包含野生型转座子末端序列以及包括以下内容的干扰：

a)所有六个预测的TnsB结合位点(TBS)，以及接近TBS的回文序列(此处编号为1至7)排列成三个的所有可能排列，以构成新的转座子右端；

b)所有六个预测的TnsB结合位点(TBS)，以及接近TBS的回文序列(此处编号为1至7)排列成两个的所有可能排列，构成一个新的转座子右端；

c)平铺在整个转座子右端的2-bp突变；

d)转座子右端的末端8-bp内所有可能的1-bp突变；

e)对转座子右端进行突变以用常规密码子替代终止密码子，以及用编码更适合作为蛋白质接头的氨基酸的密码子取代编码庞大/带电荷的氨基酸的密码子；

f)转座子右端的TBS之间的可变间距；和

g)转座子左端的TBS之间的可变间距。

改变的转座子右(R)端序列被克隆到pSL0938质粒主链中。简言之，使用独特的引物对单个文库进行PCR扩增(附录11.1)，并用BamHI和HindIII消化。pSL0938同样通过添加去磷酸化步骤进行消化。将消化产物纯化(从凝胶或使用PCR clean-up试剂盒)并在多个独立的反应中连接。将单独的反应合并、纯化，并用于通过电穿孔转化NEBTurbo大肠杆菌细胞。将整个转化反应置于大型生物测定皿上，以确保获得足够的菌落来代表文库中存在的多样性。第二天，将菌落重新悬浮在LB中，用于质粒提取。克隆策略的示意图可见于图70。转座子右端的所有序列变体的序列可在SEQ ID NO：955-1521中找到。

使用与转座子右端文库相同的克隆策略，将改变的转座子左(L)端序列克隆到pSL0938质粒主链中，不同之处在于使用XbaI和KpnI进行消化。克隆策略的示意图可见于图70。转座子左端的所有序列变体的序列可在SEQ ID NO：1524-1611中找到。

变体转座子文库的RNA指导的DNA整合活性的测试方案将约200ng的单个右侧翼或左侧翼文库与约200ng的pSL1022(pMachinery，从具有壮观霉素抗性的pCDFDuet-1主链上的单个T7启动子表达CRISPR阵列(靶标4)、TniQ、Cascade和TnsABC)一起转化到电感受态BL21(DE3)中。将转化的细胞铺在含有羧苄西林/壮观霉素/IPTG(0.1mM)的琼脂平板上，并在37℃下生长24小时。生长后，从平板上刮取菌落并重新悬浮在LB中。使用

基因组DNA纯化试剂盒(Promega)，将等于1ml的过夜液体培养物(约5.6x10⁹个细胞)用于提取基因组DNA。

使用携带Illumina衔接子的转座子特异性引物和基因组特异性引物，通过20个循环的PCR扩增基因组靶位点处的整合事件。将PCR反应物以1：20稀释到第二PCR反应物(PCR2)中，其中10个循环将特定条形码添加到Illumina衔接子上。将PCR2的级分在凝胶上运行，并根据其条带的强度合并原始储存液。将所得的组合样品在凝胶上运行并提取。通过qPCR进行文库定量后，使用具有250nt单端读数的中等输出试剂盒在Illumina NextSeq上对组合文库进行测序。相同的PCR方法用于原始质粒文库，以采样文库的多样性和每个变体的相对丰度。

为了计算每个转座子变体的相对整合效率，将每个变体的读数数量以野生型读数的分数作归一化。然后用这些归一化的数字计算起始质粒文库与基因组整合转座子之间的丰度差异。

利用变体转座子文库分析RNA引导的DNA整合活性文库a)测试了转座子右端中三个不同位置中的TnsB结合位点的所有可能组合(图71A至图71G)。发现了一些高效率变体。特别是，具有多个拷贝的来自右转座子末端的最末端的TnsB结合位点和中间TnsB结合位点的变体。文库b)测试了转座子右端两个不同位置中的TnsB结合位点的所有可能组合(图72)。文库b)的结果证实了文库a)的结果，因为具有两个拷贝的来自右转座子末端的最末端TnsB结合位点的变体大大提高了整合效率。

文库c)研究了平铺在整个转座子右端上的2-bp突变的影响，并显示(图73)其中残基允许高效转座的非常有趣的模式。右转座子末端最内部的TnsB结合位点中的突变提高了转座效率。最末端和中间TBS上的突变显示出非常相似的效果，并证明TBS的第7至第10和第13至第14个碱基控制高效整合。与关于大肠杆菌Tn7转座子的现可用信息相反，除了最末端的2-bp外，8-bp末端序列似乎对突变非常灵活。文库d)探索转座子右端的末端8-bp内的1-bp突变的效果并验证(图74)来自2-bp突变组的数据，揭示了8-bp序列中大多数位点对突变的高度可塑性。然而，其中三个变体似乎完全不能转座。

文库e)研究了右转座子末端的突变，以常规密码子替换终止密码子，并以编码更适合用作蛋白质接头的氨基酸的密码子替换编码庞大/带电荷的氨基酸的密码子(图75A至图75C)。库f)和库g)检查了改变TBS之间距离的效果(图76和图77A至图77E)。在这些间隔内改变核苷酸身份似乎无关紧要，然而，在TBS之间的适当距离允许高效的转座。这些数据以10bp的间隔揭示了令人惊讶的模式，表明TBS在双链DNA螺旋三维结构上的定位可能很重要。

实施例12

含有I-F型变体CRISPR-Cas系统的其它CRISPR-转座子同源物的鉴定和功能测试

开发了计算和生物信息学管道来鉴定另外的CRISPR转座子系统。所述管道可包括以下步骤(图78)：

1.候选转座子相关基因诸如tnsB基因的psi-BLASTp，搜索所有已测序和可用的细菌基因组和基因组重叠群，以鉴定其它tnsB家族成员

2.任选地，利用对特定CRISPR-cas亚型特异的候选CRISPR相关(cas)基因进行并行psi-BLASTp，使得仅分析那些包含tnsB直向同源物和候选cas基因的共现的测过序的基因组和基因组重叠群。基于两个基因在一级序列空间中分开的距离小于一定距离，这种共现可能进一步受到限制。cas基因可包括但不限于以下基因：Cas12、cas9、cas8、cas7、cas6、cas5、csy1、csy3、csy2，以及这些cas基因家族的其它亚型特异性变体。

3.tnsB基因两侧的转座子边界序列的自动检测。该检测步骤返回位于tnsB基因两侧的候选转座子末端对(左和右，L和R)。该转座子末端检测算法可包括以下启发式：

a.从先前的转座事件中检测到直接重复，构成靶位点重复序列(TSD)。TSD的长度可以是5个碱基对。

b.高度保守的末端反向重复序列的检测。末端反向重复序列的长度可以是8个碱基对，候选左(L)和右(R)转座子末端内的反向重复序列可以是相同的，或者在两个末端之间不完全匹配。

c.检测多个反向重复元件，根据与大肠杆菌的研究充分的Tn7转座子的同源性，这些元件通常被认为是TnsB结合位点。这些结合位点可以通过与已知TnsB结合位点(例如来自大肠杆菌Tn7、霍乱弧菌Tn6677或另外的转座子序列)的序列相似性、通过这两种方法的组合或通过其它启发式论据重新(即没有任何先验序列信息)鉴定。

d.基因间区域内转座子末端序列的检测Tn7转座子或Tn5053样转座子的其它已知或预期组分的另外的基因同源物(包括tnsA、tnsC、tniQ、这些基因的其它变体或其它转座子相关基因)的存在。

4.在多个候选转座子末端的情况下，可以采用额外的人工检查来进一步区分转座子末端对的候选组的优先级或进行比较。

5.基于HHpred分析或其它类似分析方法，对候选转座子中发现的另外的基因进行生物信息学分析

6.使用可用的CRISPRfinder工具(例如CRISPRCasFINDER，可通过CRISPR-Cas++在线访问)或定制CRISPR阵列检测算法进行CRISPR阵列检测。

使用完整的I-F变体CRISPR-Cas系统对CRISPR-转座子系统进行生物信息学鉴定使用上述管道，提取了包含以下基因家族的共现的来自NCBI的所有基因组和基因组重叠群序列：tnsA、tnsB、tnsC、tniQ、cas8、cas7和cas6。这些生物信息学搜索以来源于霍乱弧菌Tn6677转座子的基因直向同源物作为种子。利用tnsB同源性构建系统进化树，候选tnsB基因/蛋白质被进一步分成不同的“门群”，包括离散的进化枝。如上所述进行转座子末端检测后，鉴定出CRISPR转座子系统。

包含天然tnsA-tnsB融合物的CRISPR转座子系统与完整的I-F变体CRISPR-Cas系统的生物信息学鉴定另外，psi-BLASTp搜索以霍乱弧菌Tn6677的tnsA和tnsB基因的人工融合物作为种子，以寻找包含天然tnsA-tnsB融合物的密切相关的同源物。此类天然的融合同源物可以很容易地鉴定出来，正如候选tnsA-tnsB融合基因的HHpred分析所证实的那样(图79)，这些融合基因与I-F型变体CRISPR-Cas系统共同出现。

用于新候选CRISPR-转座子系统的表达质粒和微型转座子供体DNA质的设计如上所述，当CRISPRRNA(crRNA，也称为引导RNA，或gRNA)和所有7个蛋白质编码基因从单个上游T7启动子表达时，来源于霍乱弧菌Tn6677转座子的分子机器在大肠杆菌表达宿主中强劲地催化了RNA引导的DNA整合。编码这种系统的代表性单表达效应质粒用pSL1022(SEQ ID NO：855)来代表，所述pSL1022利用crRNA-4靶向lacZ进行DNA整合。表达所有蛋白质和RNA组分的单表达效应质粒与编码微型转座子的pDonor质粒组合，其中任意遗传运载物的两侧是转座子的左(L)端和右(R)端。将本实施方案中的单表达效应质粒克隆到pCDFDuet-1衍生载体上，并将微型转座子供体DNA克隆到pUC19衍生载体上。

基于霍乱弧菌Tn6677系统的有效设计，为14个新的候选CRISPR转座子系统设计并合成了单表达效应质粒和相关的微型转座子供体DNA质粒(图80)。单表达效应质粒被设计成使用与来自霍乱弧菌系统的crRNA-4完全相同的32-核苷酸间隔区序列，靶向邻近5’-CC-3’前间区序列邻近基序(PAM)的lacZ，pDonor质粒被设计成动员与先前利用霍乱弧菌的实验中使用的相同的氯霉素抗性基因(CmR)。本文采用的pDonor设计依赖于之前用霍乱弧菌系统测试的稍微新的载体设计，其中去除了多克隆位点(MCS)附近的lacZ-α片段和启动子-操纵子元件。当并行测试时(图81)，与较早的pDonor设计(由pSL0527(SEQ ID NO：7)编码的)相比，利用这些新的pDonor设计(例如由分别为SEQ ID NO：1613和1614的pSL0921和pSL1235编码的)的RNA引导的DNA整合在大肠杆菌中显示出稍高的整合效率。

8个CRISPR转座子系统以及单表达效应质粒和微型转座子供体DNA质粒的质粒标识符的列表，可以在图80B中找到。所有质粒的完整序列可在SEQ ID NO：1612-1630和1897-1908找到。每个同源CRISPR-转座子系统的基因、蛋白质、CRISPR重复序列和转座子末端的序列可以在SEQ ID NO：1768-1896和1909-2000中找到。

对于甘瓜发光杆菌JCM 12487株，天然存在的tnsB基因被分成两个单独的开放阅读框(ORF)，在NCBI被注释为两个单独的蛋白质登录ID，WP_053061936.1和WP_053061935.1。仔细观察这种基因排列，在这两个ORF的联接处直接鉴定出潜在的移码序列，进一步比对证实，这两个单独的ORF编码蛋白质(该蛋白质在其它同源系统中作为单个连续的ORF存在)和TnsB蛋白。因此，为了避免移码的任何要求，或者截短的TnsB蛋白表达的可能性，对编码序列进行工程化以消除polyA移码热点，并且插入单个C，以产生包含单个连续ORF的全长TnsB基因。该序列可在来自甘瓜发光杆菌JCM 12487株的CRISPR-转座子系统的最终单表达效应质粒序列(pSL1785，SEQ ID NO：1627)中找到。

选自沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株的CRISPR-转座子系统包含tnsA与tnsB基因之间的天然存在的融合物，这很容易通过HHpred的结构域分配来检测。这些系统是在含有TnsA-TnsB融合物的工程载体中设计和测试的。

用新的候选CRISPR-转座子系统进行RNA引导的DNA整合的实验测试根据先前利用来源自Tn6677的霍乱弧菌HE-45株的CRISPR-转座子系统的工作，在大肠杆菌表达系统中测试了14个CRISPR-转座子系统的RNA引导的DNA整合。首先用pDonor质粒转化化学感受态BL21(DE3)细胞，将细胞铺在含有羧苄西林的LB琼脂平板上，挑选单个菌落接种过夜培养物。然后使这些培养物成为化学感受态，然后用同源单表达效应质粒转化，同源单表达效应质粒所述也称为pCQT(其中CQT表示载体上模块的顺序：C＝CRISPR阵列，Q＝TniQ-Cas8-Cas7-Cas6操纵子，以及T＝TnsA-TnsB-TnsC操纵子)。在每种情况下，pDonor载体都包含转座子末端，所述转座子末端来自相同的CRISPR-转座子系统，与所述CRISPR-转座子系统匹配的pCQT编码相关的CRISPR-和转座子相关因子将细胞铺在含有羧苄西林和壮观霉素以及0.1mM IPTG的LB琼脂平板上，以诱导编码在pCQT上的蛋白质和RNA组分表达。

在固体培养基上过夜生长后，从平板上刮取菌落并进行PCR分析。选择PCR引物，其中一个引物在转座子供体DNA内具有pDonor质粒所共有的互补结合位点(位于CmR抗生素抗性基因内)，第二个引物在基因组DNA的lacZ序列内具有互补结合位点。选择的引物对将扩增呈靶标-右-左取向(tRL(T-RL))的整合产物，或呈靶标-左-右取向(tLR(T-LR))的整合产物；两种取向的产物也可能都存在，因为在本实验中，数十至数百个菌落作为合并混合物进行分析，因此在同一混合物中存在异质基因组。具体而言，扩增tRL产物的PCR使用引物oSL1164(5’-CGCCGCACATCTGAACTTC-3’SEQ ID NO：353)和oSL0763(5’-GTGGTATTCACTCCAGAGCG-3’SEQ ID NO：343)。扩增tLR产物的PCR反应使用引物oSL1179(5’-CTGAACTTCAGCCTCCAGTAC-3’SEQ ID NO：1765)和oSL1656(5’-CCATGTCGGCAGAATGCTTA-3’SEQ ID NO：1766)。

在存在真正整合事件的情况下，组合引物对于tRL产生约为700个碱基对的PCR产物，对于tLR产生约为500个碱基对的PCR产物。如图82所示，对于包含I-F变体CRISPR-Cas系统的所有14个CRISPR-转座子同源物，以及包含来源于霍乱弧菌HE-45株的系统的阳性对照，观察到稳健的RNA引导的DNA整合；对于阴性对照没有观察到产物，在所述阴性对照中pSL1022(霍乱弧菌HE-45的pCQT)与代替pDonor的空载体对照组合。测试的系统在tLR和tRL取向上都显示出整合。qPCR或下一代测序用于确定许多不同靶位点整合取向和整合效率的定量差异。

为了进一步证实观察到的PCR产物指示真正的RNA引导的转座，即RNA引导的DNA整合，从凝胶中切下选定的产物条带，使用QIAquick gel试剂盒纯化，并提交用于桑格测序分析。对于由旨在扩增tRL产物的引物对产生的PCR产物，用对供体DNA内的CmR特异的引物(有效地向外测序至转座子-基因组联接处)或用lacZ基因组特异性引物(有效地向内测序至基因组-转座子联接处)对条带进行测序。对于由旨在扩增tLR产物的引物对产生的PCR产物，只对利用对供体DNA中的CmR特异的引物(有效地向外测序至转座子-基因组联接处)的条带进行测序。桑格测序最终证实了所有预期的转座产物，并且在所有情况下，揭示了在靶位点下游47-51bp的插入位点，该位点与crRNA-4的间隔区序列互补。如前所述，插入位点在细胞群中可能略有不同，因此，对于插入位点选择具有更多异质性的细胞群，这在桑格测序数据中本身表现为混合峰，测序反应通过转座子-基因组联接时立即出现。在这个lacZ靶向实验中，对于一些系统诸如来源于霍乱弧菌4874株的系统，这种特征很容易观察到。这些混合峰通常导致通过基因组-转座子联接处的序列与参考序列之间出现明显的不一致，然而，如前所述，这可能归因于在实验中测试的基因组群体中该整合位点的异质性。相比之下，其它系统，诸如来源于假交替单胞菌属某种P1-25的系统，在通过转座子-基因组联接处的峰中缺乏广泛的异质性，表明这些系统表现出更精确和均匀的插入位点选择。

实施例13

含有V型CRISPR-Cas系统的其它CRISPR-转座子同源物的鉴定和功能测试

对使用V型CRISPR-Cas系统(本文称为Sho-INTEGRATE或ShoINT)的来自贺氏伪枝藻PCC 7110株的CRISPR相关转座子进行了表征。使用类似于上述工作中使用的设计的载体设计(图83)，通过PCR和qPCR显示了RNA引导的DNA整合(图84)。还采用随机片段化测序方法来揭示本系统以及以下两个先前公开的CRISPR转座子系统的全基因组特异性(图85)：由Strecker等人(Nature Communications 10，212(2019)，其通过引用并入本文，在本文中称为ShCAST)公开的V型系统，以及上述来自霍乱弧菌的I型系统(公开于Klompe等人，Nature571，219-225(2019)，其通过引用并入本文，在本文中称为Vch-INTEGRATE或VchINT)。

测试RNA引导的DNA整合活性的方案所用质粒的序列信息可在SEQ ID NO：1631-1633、1641和1643-1644中找到。使用这种V型变异体的单个基因、CRISPR重复序列、蛋白质和微型转座子的序列可SEQ ID NO：422-425、437-449和1648-1650中找到。

用pDonor(pSL0948，SEQ ID NO：1631)和pCCT(pSL1114(SEQ ID NO：1632)或其衍生物)共转化BL21(DE3)大肠杆菌细胞将转化物铺在含有壮观霉素/羧苄西林的琼脂平板上，并在37℃下孵育。第二天早上将菌落重悬于LB中，并铺在含有壮观霉素/羧苄西林/IPTG(0.1mM)的琼脂平板上，并再次在37℃下孵育。24小时后将菌落重悬于LB中，进行OD测量，并将归一化的量转移至新试管中。将等分试样离心并重悬于水中。然后将样品在95℃下煮沸10分钟，之后将样品离心，并稀释上清液用于下游分析。

使用转座子特异性引物和基因组特异性引物，通过30个循环的PCR扩增基因组靶位点的整合事件。用琼脂糖凝胶电泳分析PCR反应。

整合事件的定量是使用具有转座子特异性引物和基因组特异性引物的qPCR和SsoAdvanced^TM Universal

Green Supermix(BioRad)完成的。

使用

dsDNA

(New England Biolabs)对基因组DNA(用来自Promega的“Wizard基因组DNA纯化”试剂盒分离)进行随机片段化14分钟。使用

Total Pure NGS磁珠(Omega)纯化片段化的DNA并选择大小。所有后续步骤均遵循针对

(New England Biolabs)的

Ultra^TM II DNA文库制备试剂盒所述的确切方案。增加了额外的步骤，以通过使用转座子特异性引物和针对通用衔接头的引物的组合来选择性扩增含有转座子序列的片段。此后，通过10个PCR循环和Illumina的PCR2索引引物对单个样品进行条形码标记。合并文库，使用NEBNext文库定量试剂盒(NewEngland Biolabs)进行定量，并在mid-output Illumina NextSeq上运行。将可在“Sternberg Lab at Columbia University”下于GitHub上获得的定制python脚本用于分析数据。

表征了可使用V型CRISPR-Cas系统动员进行靶位点选择的CRISPR转座子。该系统优选与最接近靶位点的左转座子末端整合，该取向在本文中称为tLR或T-LR。每个引导RNA的整合效率不同，但一般在30-40％之间。对载体进行了简化，使得所有成分都存在于单个质粒上。深度测序显示，与两种V型系统相比，I型系统对VchINT具有高得多的特异性。另外，已表明每个系统在整合位点与靶位点的距离方面具有不同的模式，因为ShoINT始终整合到约28bp之外，ShoCAST偏好约40bp的距离，并且VchINT主要发现于从靶序列3’端开始计数的约49bp。

实施例14

用于高效、多重细菌基因组工程的CRISPR RNA引导整合酶的开发

上文描述了与CRISPR-Cas系统相关的Tn7样转座酶，其介导高效的RNA引导的DNA插入(图86A至图86D)。在本文中，简化的系统被开发并优化来能够以＞90％的效率进行准确的插入，同时由单一可转化质粒表达(图86E)。整合了多重crRNA阵列，以进行多次同时插入，而不会显著影响效率和特异性(图94)。因为提出的转座机器是自足的，并且需要最少的宿主因子，所以转座不依赖于常见的大肠杆菌重组途径因子，并且该系统的应用被迁移到其它目标物种。

单质粒RNA引导的DNA整合(INTEGRATE)构建体允许高效且精确的RNA指导的DNA整合转座子运载物序列、crRNA和七种功能性蛋白的初始表达方法涉及3个独立的质粒(图86C)：表达crRNA以及形成Q-Cascade天然操纵子的四种蛋白质的pQCascade、表达TnsABC天然操纵子的pTnsABC和包含运载物的pDonor。

从这种3-质粒方法开始，系统性克隆了几种组合单个RNA引导的DNA整合组分的质粒设计(图86D和图86E)，并通过qPCR进行了基准化。这导致了效应质粒设计pCQT，其中单个lac诱导型T7启动子驱动包含crRNA阵列的转录物，随后是QCascade-TnsABC融合操纵子的表达(图86G)。

为了进一步简化，将运载物序列克隆到pCQT上，并在4种不同的具有不同拷贝数的质粒主链之间测试这种一体化(pAIO)质粒构建体(图87)。总的来说，对于我们的最低拷贝数主链观察到了较高的效率，基于pBBR1和pSL101的AIO构建体达到了90+％的整合率(图88A)。为了了解效率的提高是否会在多个靶标间迁移，评估了先前在上述实施例中使用的五个靶位点处的效率，并确定了基于pBBR1的AIO与最初的3-质粒方法相比导致了效率的显著提高(图88B和图88C)。这种高效的单质粒系统保持了显著的全基因组特异性，并在三种常见的实验室大肠杆菌株之间迁移，如通过改进的TnSeq分析所揭示的(图89)。

令人惊讶的是，对pAIO构建体的qPCR分析也显示，先前对于最初的3-质粒表达观察到的某些靶标处的强双向整合显著减少。在研究这种效应时，在我们最初的pDonor上的右转座子末端上游鉴定了lac启动子。移除该lac启动子导致受影响的靶标处的双向整合减少。

表达强度的作用通过修饰驱动表达的单个启动子或RNA引导的DNA整合组分来评估(图90)。在一小组不同强度的人工组成型大肠杆菌启动子，观察到更强的表达，通常会推动更高的整合率，同时不影响全基因组特异性(图90A和图90B)。最近宏基因组微生物组工程采用的天然宽宿主启动子也显示了高效的整合，证实了表达单一转录物构建体的灵活性。

由于降低了培养温度，观察到整合效率显著提高(图90C)。这种情况在三种启动子配置中得到了复制，并且不以特异性为代价。

研究了单质粒构建体递送大的多-kb遗传有效载荷的能力(图92)。pCQT/pDonor表达方法用于大型运载物而没有潜在不稳定AIO质粒的并发症。使用pT7驱动的pCQT的初始数据显示，对于较大运载物的效率急剧下降，类似于3-质粒系统(图92A)。转化效率受IPTG存在的影响，因此T7启动子被强组成型启动子取代，以表达无IPTG毒性的系统。这种替换改善了大型运载物的效率降低(图92B至图92C)。值得注意的是，孵化温度进一步降低到30℃，在我们的运载物尺寸的小组中观察到超过90％的整合效率，并且这种效果在不同的靶位点得到复制。

正交RNA引导的DNA整合(INTEGRATE)系统实现多次迭代插入霍乱弧菌INTEGRATE对转座子末端两侧的任何运载物的有效动员可以表明，使用相同的系统对同一基因组内的不同基因座进行多次迭代插入可能是有问题的，因为一旦引入新的靶标，先前插入的运载物也会被动员到新的位点。为了证实这一现象，在温度敏感质粒主链上使用AIO构建体将运载物插入lacZ靶位点，分离完全整合的克隆并进行基于温度的去除。随后引入无供体效应质粒(该质粒具有新的靶向第二个基因座(glmS)的crRNA)导致了基因整合的运载物的整合，标志着该运载物的再动员。当第二个供体与机器一起被纳入时，在glmS基因座处观察到竞争性插入。虽然大部分插入来自新的外源引入的供体，但存在少量但可检测到的基因组衍生供体。因此，在迭代轮的整合过程中存在基因组整合的运载物序列的再动员能力和不同运载物的潜在交叉污染效应。

利用功能性CRISPR相关的、RNA引导的转座酶的多样的潜在库，发现了来自贺氏伪枝藻PCC 7110株的系统发育上遥远但活跃的转座酶系统，其利用V型、C2c5(Cas12k)蛋白质进行DNA结合。这种ShoC2c5系统以两种可能的取向插入供体，也表现出类似于Vch系统的靶位点免疫。

虽然这两个系统都在各自的供体上发挥作用，但它们无法指导彼此的供体进行引导的插入，这一点已被PCR证实。因此，使用这种Sho INTEGRATE系统，将干净的第二次DNA插入到先前与Vch运载物整合的分离克隆中，如qPCR数据所证实的(图97)。

Vch RNA引导的DNA整合(INTEGRATE)作为单步多重DNA插入的有力工具由于运载物序列与其预期靶标的独立性，有可能通过多个crRNA的同时表达，在单个步骤中同一基因组内的多个基因座处插入相同的运载物(图94A)。此外，通过利用Cas6的天然crRNA加工能力，这些多个间隔区作为单启动子、单质粒AIO构建体的一部分在单个CRISPR阵列中表达，为方便的单步多重整合提供了途径。

评估了这些多间隔区阵列产生功能性插入的能力。通过qPCR，当lacZ间隔区首先在一个、两个或三个间隔区crRNA阵列中时，在lacZ基因座处测量整合效率；向阵列中添加更多的间区并未显著影响活性。在三间隔区阵列中，lacZ间隔区移动到第二或第三位置，与第一位置相比，观察到活性逐渐但最低程度的降低(图94B)。

通过使用多间隔区AIO构建体，在所有位点观察到PCR整合。对转化群体的全基因组Tn-Seq分析证实，多间隔区INTEGRATE(multi-spacer INTEGRATE)保留了高特异性，同时将插入分布到多个靶位点。此外，通过PCR分离双插入和三插入克隆(图94C)。

探索了多重可扩增系统的概念验证应用，其也可以证实这些同时插入确实发生在同一个体基因组中，而不是正交地发生在多克隆集落内的多个基因组中。第一应用利用多重AIO构建体来指导多个基因的单步插入敲除，参与氨基酸营养缺陷型的基因被靶向，特别是thrC和lysA，因为在大肠杆菌中敲除这些基因会在M9基础生长培养基中产生针对苏氨酸和赖氨酸的表型需求。thrC和lysA的间隔区被整合到2-间隔区AIO构建体中，并且通过在基础培养基上的菌落筛选常规分离双敲除(图95A)。分离的双敲除通过PCR以及过夜生长测定来证实，其中分离的克隆生长需要赖氨酸和苏氨酸。另外，这些双插入的稳定性通过在丰富培养体中连续培养克隆来探测，所有相关的机器仍然存在，大约50个倍增周期(图95B)。除非提供氨基酸的组合，否则所产生的细胞对基础培养基生长仍然是难治性的，这表明INTEGRATE插入在产生功能性表型中的稳定性。

RNA引导的DNA整合(INTEGRATE)在不同遗传背景中的应用不受理论的束缚，典型大肠杆菌Tn7系统的建议机器可包括在供体两端以及插入位点处的交错的双链切割，随后将切下的转座子的3’端连接至靶标的5’端，随后简单修复5’转座子末端的剩余间隙。由于本文所述的RNA引导的DNA整合系统利用了与典型Tn7之一同源的转座酶蛋白，因此研究了DNA转座活性是否依赖于常见的同源重组因子或错配修复。通过qPCR评价了一小组其中RecA、B、C、D、F或mutS被分别敲除的Keio大肠杆菌株的转座效率，并且在所有6个敲除中观察到了活性转座(图91)。

扩展到大肠杆菌遗传背景之外，该系统被应用于其它遗传背景。产酸克雷伯氏菌(一种与抗药性感染相关的临床相关病原体)和恶臭假单胞菌(一种用于生物技术和工业应用的重要细菌平台)被选择为用RNA引导的DNA整合系统进行测试(图98A)。使用由强J23119组成型启动子驱动的pBBR1质粒主链上的AIO构建体。通过PCR观察所有4/4恶臭假单胞菌和5/5产酸克雷伯氏菌靶位点处的活性(图4)，并通过桑格测序证实所述活性(图98B和图98C)。Tn-Seq分析的数据进一步证实了在这些位点处的成功运载物整合，以及高的全基因组特异性(图98D)。

具有Vch RNA引导的DNA整合(INTEGRATE)的自繁殖遗传元件产生了完全可编程的、自繁殖的自主转座子系统，所述构建体在转座子侧翼序列中包含多间隔区、单CQT操纵子，允许该系统现在动员其自身效应子单元的遗传编码作为运载物的一部分。证明了通过引入新的间隔区或靶标，基因组插入的运载物能够被重新动员的能力(图93)，因此，通过首先使用间隔区插入水平转移的质粒，自主系统以预先编程的方式自我繁殖。一旦质粒通过接合转移到不同的原初细胞，机载系统就会利用第二个基因组特异性间隔区整合到这个原初细胞内的预定基因座，完成一个繁殖周期。

在具有接合能力的大肠杆菌S17株中评估了自足的自主的INTEGRATE构建体(pAAIO)。pAAIO的测试形式包含2-间隔区阵列：一个允许插入到大肠杆菌的初始基因组，以及从大肠杆菌插入到我们的接合pBBR1质粒上的相似靶位点；第二个间隔区靶向产酸克雷伯氏菌基因组β-内酰胺酶基因。pAAIO以90+％的效率成功整合到大肠杆菌中，随后进行载体质粒(vessel plasmid)的温度去除和整合克隆的选择。

无需DSB或药物选择就能高效地将大型遗传运载物精确插入细菌基因组的能力，对于各种菌株工程应用来说是有价值的。通过合理的工程步骤，表达所有必需组分的霍乱弧菌RNA引导的DNA整合系统的形式是使用双质粒或一体化单质粒构建体中的最小遗传部分构建的。这些最小的构建体使得在很少的克隆步骤中进行定制成为可能，并且在单个转化步骤和随后的孵育之后产生高效的插入。利用Cas6亚单位的crRNA加工，AIO形式很容易被修改以表达多间隔区CRISPR阵列，并在相同的简单工作流程中促进多个同时插入，允许细菌基因组的快速工程化。

在低于37℃的温度下进行RNA引导的DNA整合用RNA引导的DNA整合所需的合适质粒转化感受态大肠杆菌细胞，在37℃的LB培养基中使转化体恢复1-1.5小时。然后将恢复的细胞铺在含有适当抗生素选择的LB-琼脂上，如果需要诱导T7启动子，加入0.1mM IPTG。平板在20-35℃，例如30℃或25℃下孵育至少24小时，例如30小时。然后刮取菌落并裂解，用于进一步分析。

利用多个gRNA进行的多重RNA引导的DNA整合使用2对或3对具有相容性粘性末端的寡双链体将2个或3个间隔区的组合克隆到pAIO进载体中的CRISPR阵列中。用一种或多种所得构建体转化感受态大肠杆菌细胞，并使用前述方法进行RNA引导的DNA整合测定。通过跨每个相应靶位点的菌落PCR，或者通过基于整合靶标的表型选择(例如，lacZ插入的蓝白菌落筛选，靶向thrC或lysA的插入的M9基础培养基上的菌落筛选)，筛选双插入或三插入的细胞。

使用CRISPR-转座子-重组酶系统的编程的基因组删除用含有一对如前所述克隆的间隔区的pAIO衍生构建体转化感受态大肠杆菌细胞，其中两个gRNA都靶向相同的基因组链，并且gRNA位于旨在删除的序列的两侧。微型转座子供体DNA含有重组序列，诸如loxP识别序列，与转座子右端序列相邻；在其它实施方案中，可以使用替代的重组序列，并且重组序列可以包含在供体DNA的其它区域内。将转化的细胞在液体LB培养基中于37℃恢复1-1.5小时，并在37℃具有适当抗生素选择的LB琼脂上孵育24小时。刮取菌落并以不同的稀释度铺在LB琼脂上进行第二个过夜，以获得克隆菌落。筛选双插入的菌落，然后使用标准方法使其成为感受态。

本发明的范围不受上文具体示出和描述的内容的限制。本领域技术人员将认识到，对于所描述的材料、构型、构造和尺寸的实例，存在合适的替代方案。在本发明的描述中引用和讨论了许多参考文献，包括专利和各种出版物。提供这些参考文献的引用和讨论仅仅是为了阐明本发明的描述，而不是承认任何参考文献是本文所述的发明的现有技术。在本说明书中引用和讨论的所有参考文献均通过引用以其整体并入本文。在不脱离本发明的精神和范围的情况下，本领域普通技术人员将会想到本文描述的内容的变化、修改和其它实现。虽然已经示出和描述了本发明的某些实施方案，但是对于本领域技术人员来说显而易见的是，在不脱离本发明的精神和范围的情况下，可以进行改变和修改。前面描述中阐述的内容仅作为说明而非限制提供。

Claims

1.一种用于RNA引导的DNA整合的系统，所述系统包括：

i)工程化的CRISPR-cas系统，和/或一种或多种编码所述工程化的CRISPR-cas系统的载体，其中所述CRISPR-cas系统包括：(a)至少一种Cas蛋白，和(b)引导RNA(gRNA)；和

ii)工程化的转座子系统，或一种或多种编码所述工程化的转座子系统的载体，

其中，当使用一种或多种载体时，所述CRISPR-cas系统和所述转座子系统在相同或不同的载体上。

2.如权利要求1所述的系统，其中所述至少一种cas蛋白包括Cas5、Cas6、Cas7和Cas8。

3.如权利要求1所述的系统，其中所述至少一种cas蛋白衍生自I型CRISPR-cas系统。

4.如权利要求3所述的系统，其中所述至少一种cas蛋白包括Cas5、Cas6、Cas7和Cas8。

5.如权利要求4所述的系统，其中所述I型CRISPR-cas系统是I-B型或I-F型。

6.如权利要求4所述的系统，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

7.如权利要求1所述的系统，其中所述转座子系统包括TnsA、TnsB和TnsC。

8.如权利要求1所述的系统，其中所述转座子系统衍生自Tn7 转座子系统。

9.如权利要求8所述的系统，其中所述转座子系统包括TnsA、TnsB和TnsC。

10.如权利要求8所述的系统，其中Tn7转座子系统来源于霍乱弧菌。

11.如权利要求1所述的系统，其中所述转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。

12.如权利要求1所述的系统，所述系统还包括待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列。

13.如权利要求12所述的系统，其中所述第一转座子末端序列和第二转座子末端序列是Tn7转座子末端序列。

14.如权利要求1所述的系统，其中所述CRISPR-cas系统的所述至少一种cas蛋白衍生自V型CRISPR-cas系统。

15.如权利要求13所述的系统，其中所述至少一种Cas蛋白是C2c5。

16.如权利要求1所述的系统，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

17.一种用于进行RNA引导的DNA整合的方法，所述方法包括：

向细胞中引入：i)工程化的CRISPR-Cas系统，和/或一种或多种编码所述工程化的CRISPR-Cas系统的载体，ii)工程化的转座子系统，和/或一种或多种编码所述工程化的转座子系统的载体，和iii)供体序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，

其中，当使用一种或多种载体时，所述CRISPR-Cas系统和所述转座子系统在相同或不同的载体上，

其中所述细胞包含具有靶位点的核酸序列，

其中所述CRISPR-cas系统包括：(a)至少一种cas蛋白，和(b)引导RNA(gRNA)，

其中所述CRISPR-cas系统结合目标位点，并且

其中所述转座子系统将所述供体序列整合到所述靶位点的下游。

18.如权利要求17所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

19.如权利要求17所述的方法，其中所述至少一种Cas蛋白衍生自I型CRISPR-Cas系统。

20.如权利要求19所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

21.如权利要求20所述的方法，其中所述I型CRISPR-Cas系统是I-B型或I-F型。

22.如权利要求20所述的方法，其中所述I型CRISPR-Cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

23.如权利要求17所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

24.如权利要求17所述的方法，其中所述转座子系统衍生自Tn7样转座子系统。

25.如权利要求24所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

26.如权利要求24所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

27.如权利要求17所述的方法，其中所述转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。

28.如权利要求17所述的方法，其中所述CRISPR-Cas系统的所述至少一种Cas蛋白衍生自V型CRISPR-Cas系统。

29.如权利要求28所述的方法，其中所述至少一种Cas蛋白是C2c5。

30.如权利要求17所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

31.如权利要求30所述的方法，其中所述至少一种Cas蛋白是Cas6。

32.如权利要求17所述的方法，其中所述一种或多种载体是质粒。

33.一种用于RNA引导的DNA整合的系统，所述系统包括一个或多个载体，所述载体编码：

a)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：Cas5、Cas6、Cas7和Cas8；以及

b)工程化的Tn7样转座子系统，所述工程化的Tn7样转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

34.如权利要求33所述的系统，其中所述CRISPR-cas系统是I-B型或I-F型CRISPR-Cas系统。

35.如权利要求33所述的系统，其中所述CRISPR-Cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

36.如权利要求33所述的系统，其中所述Cas5和Cas8以单独的非融合蛋白形式表达。

37.如权利要求33所述的系统，其中所述一种或多种载体是质粒。

38.如权利要求33所述的系统，所述系统还包括引导RNA(gRNA)，其中所述gRNA对靶位点是特异性的。

39.如权利要求33所述的系统，所述系统还包括待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列。

40.如权利要求39所述的系统，其中所述供体DNA的长度至少为2kb。

41.如权利要求33所述的系统，其中所述CRISPR-Cas系统和所述Tn7样转座子系统在同一载体上。

42.如权利要求33所述的系统，其中所述工程化的Tn7样转座子系统来源于霍乱弧菌Tn6677。

43.如权利要求33所述的系统，其中所述工程化的CRISPR-Cas系统缺乏核酸酶。

44.一种用于RNA引导的DNA整合的方法，其中所述方法包括向细胞中引入：

a)一种或多种编码工程化的转座子编码的CRISPR-Cas系统的载体，其包括：

i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR相关(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：A)Cas5、Cas6、Cas7和Cas8，和B)引导RNA(gRNA)，其中所述gRNA对靶位点是特异性的；和

ii)工程化的Tn7样转座子系统，所述工程化的Tn7样转座子系统包括：A)TnsA、B)TnsB、C)TnsC和D)TnsD和/或TniQ；和

b)待整合的供体DNA，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，以及

其中所述工程化的转座子编码的CRISPR-Cas系统将供体DNA整合到靶位点附近，并且其中所述转座子编码的CRISPR-Cas系统和所述供体DNA位于同一载体上或至少两个不同的载体上。

45.如权利要求44所述的方法，其中所述CRISPR-cas系统是I-B型或I-F型CRISPR-cas系统。

46.如权利要求44所述的方法，其中所述CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

47.如权利要求44所述的方法，其中一种或多种载体编码所述工程化的CRISPR-Cas系统，其中一种或多种载体编码所述工程化的Tn7样转座子系统，并且其中所述CRISPR-Cas系统和所述Tn7样转座子系统位于至少两个不同的载体上。

48.如权利要求44所述的方法，其中所述供体DNA被整合到所述靶位点的3’约40个碱基对(bp)至约60bp处。

49.如权利要求48所述的方法，其中所述供体DNA被整合到所述靶位点的3’约48bp至约50bp处。

50.如权利要求49所述的方法，其中所述供体DNA被整合到所述靶位点的3’约50bp处。

51.如权利要求44所述的方法，其中所述细胞是真核细胞或细菌细胞。

52.如权利要求51所述的方法，其中所述真核细胞是人细胞。

53.如权利要求44所述的方法，其中所述工程化的Tn7样转座子系统来源于霍乱弧菌Tn6677。

54.如权利要求44所述的方法，其中所述工程化的CRISPR-Cas系统缺乏核酸酶。

55.如权利要求44所述的方法，其中所述靶位点邻近前间区序列邻近基序(PAM)。

56.一种细胞，其包含权利要求44的系统。

57.一种试剂盒，其包括：

a)一种或多种载体，所述载体编码：

i)工程化的成簇的规则间隔短回文重复序列(CRISPR)-CRISPR 相关(Cas)(CRISPR-Cas)系统，所述工程化的CRISPR-Cas系统包括：Cas5、Cas6、Cas7和Cas8；以及

b)至少一种选自由以下组成的组的组分：

i)输注装置，

ii)静脉内注射溶液袋，

iii)具有可被皮下注射针刺穿的塞子的小瓶，

iv)缓冲液，

v)对照质粒，和

vi)测序引物。

58.如权利要求57所述的试剂盒，其中所述一种或多种载体是质粒。

59.如权利要求57所述的试剂盒，其中所述Cas5和Cas8以单独的非融合蛋白形式表达。

60.如权利要求57所述的试剂盒，其中所述CRISPR-Cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

61.如权利要求57所述的试剂盒，所述试剂盒还包括供体核酸序列，其中所述供体核酸序列包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列。

62.一种用于灭活微生物基因的方法，所述方法包括向一个或多个细胞中引入：a)工程化的转座子编码的CRISPR-Cas系统，和/或b) 一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的载体，

其中所述转座子编码的CRISPR-Cas系统包括：i)至少一种Cas蛋白，ii)对靠近所述微生物基因的靶位点特异的引导RNA(gRNA)，iii)工程化的转座子系统，和iv)供体DNA，

其中所述转座子编码的CRISPR-Cas系统将所述供体DNA插入所述微生物基因中。

63.如权利要求62所述的方法，其中所述微生物基因是细菌抗生素抗性基因、毒力基因或代谢基因。

64.如权利要求62所述的方法，其中所述供体DNA包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列。

65.如权利要求64所述的方法，其中所述运载物核酸序列编码工程化的转座子编码的CRISPR-Cas系统。

66.如权利要求62所述的方法，其中所述一种或多种细胞是细菌细胞，并且其中所述引入包括使含有所述转座子编码的CRISPR-Cas系统的初始细胞与受体细胞接触，使得所述转座子编码的CRISPR-Cas系统通过细菌接合传递给所述受体细胞。

67.如权利要求62所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

68.如权利要求62所述的方法，其中所述至少一种Cas蛋白来源于I型CRISPR-cas系统。

69.如权利要求68所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

70.如权利要求69所述的方法，其中所述I型CRISPR-cas系统是I-B型或I-F型。

71.如权利要求68所述的方法，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

72.如权利要求62所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

73.如权利要求62所述的方法，其中所述转座子系统来源于Tn7转座子系统。

74.如权利要求73所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

75.如权利要求73所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

76.如权利要求62所述的方法，其中所述转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。

77.如权利要求62所述的方法，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-Cas系统。

78.如权利要求77所述的方法，其中所述至少一种Cas蛋白是C2c5。

79.如权利要求62所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

80.如权利要求79所述的方法，其中所述至少一种Cas蛋白是Cas6。

81.一种方法，其包括：

a)将样品与：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的载体接触，

其中所述样品包含输入核酸序列，所述核酸序列包含：A)目标双链核酸序列(NASI)，B)在所述NASI一侧上的双链第一侧翼区，和C)在所述NASI另一侧上的双链第二侧翼区，并且

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)工程化的转座子系统；

iii)第一左转座子末端序列；

iv)第一右转座子末端序列，其未共价附接至所述第一左转座子末端序列；以及

v)将所述第一左转座子末端序列和第一右转座子末端序列靶向所述第一侧翼区的第一引导RNA(gRNA-1)，以及

b)在使所述第一左转座子末端序列和所述第一右转座子末端序列被整合到所述第一侧翼区的条件下孵育所述样品。

82.一种方法，其包括：

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)工程化的转座子系统；

iii)第一左转座子末端序列；

iv)第一右转座子末端序列，其未共价附接至所述第一左转座子末端序列；

v)第二左转座子末端序列；

vi)第二右转座子末端序列，其未共价附接至所述第二左转座子末端序列；

vii)将所述第一左转座子末端序列和第一右转座子末端序列靶向到所述第一侧翼区的第一引导RNA(gRNA-1)，以及

viii)将所述第二左转座子末端序列和第二右转座子末端序列靶向所述第二侧翼区的第二引导RNA(gRNA-2)；以及

b)在这样的条件下孵育所述样品，所述条件使得：i)所述第一左转座子末端序列和所述第一右转座子末端序列被整合到所述第一侧翼区中，以及ii)所述第二左转座子末端序列和所述第二右转座子末端序列被整合到所述第二侧翼区中。

83.如权利要求82所述的方法，所述方法还包括：c)将所述样品与：i)对所述第一左转座子末端序列或第一右转座子末端序列特异的第一引物，ii)对所述第二左转座子末端序列或第二右转座子末端序列特异的第二引物，和iii)聚合酶接触；以及d)在扩增条件下处理所述样品，使得所述NASI被扩增，从而产生扩增的NASI。

84.如权利要求83所述的方法，所述方法还包括：e)对所述扩增的NASI进行测序。

85.如权利要求84所述的方法，其中所述测序是下一代测序(NGS)。

86.如权利要求82所述的方法，其中所述第一转座子左端或右端序列包含第一衔接子序列，并且所述第二转座子左端或右端序列包含第二衔接子序列。

87.如权利要求86所述的方法，所述方法还包括：c)将所述样品与：i)对所述第一衔接子序列特异的第一引物，ii)对所述第二衔接子序列特异的第二引物，和iii)聚合酶接触；以及d)在扩增条件下处理所述样品，使得所述NASI被扩增，从而产生扩增的NASI。

88.如权利要求87所述的方法，所述方法还包括：e)对所述扩增的NASI进行测序。

89.如权利要求88所述的方法，其中所述测序是下一代测序(NGS)。

90.如权利要求86所述的方法，其中所述第一衔接子序列和第二衔接子序列是下一代测序衔接子。

91.如权利要求82所述的方法，其中所述转座子左端序列包含第一UMI序列，所述转座子右端序列包含第二UMI序列。

92.如权利要求82所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

93.如权利要求82所述的方法，其中所述至少一种Cas蛋白来自I型CRISPR-cas系统。

94.如权利要求93所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

95.如权利要求93所述的方法，其中所述I型CRISPR-cas系统是I-B型或I-F型。

96.如权利要求93所述的方法，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

97.如权利要求82所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

98.如权利要求82所述的方法，其中所述转座子系统衍生自Tn7样转座子系统。

99.如权利要求98所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

100.如权利要求98所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

101.如权利要求82所述的方法，其中所述转座子系统包括：i)TnsA、TnsB和TnsC，和ii)TnsD和/或TniQ。

102.如权利要求82所述的方法，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-Cas系统。

103.如权利要求102所述的方法，其中所述至少一种Cas蛋白是C2c5。

104.如权利要求82所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

105.如权利要求104所述的方法，其中所述至少一种Cas蛋白是Cas6。

106.一种用于在植物细胞中进行RNA引导的DNA整合的方法，其包括：

向植物细胞中引入：a)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的载体，其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)供体DNA，

其中所述转座子编码的CRISPR-Cas系统在植物细胞中将所述供体DNA整合到靶核酸位点附近。

107.如权利要求106所述的方法，其中所述植物细胞是水稻、大豆、玉米、番茄、香蕉、花生、紫花豌豆、向日葵、油菜、烟草、小麦、大麦、燕麦、马铃薯、棉花、康乃馨、高粱、羽扇豆、番茄、大豆、拟南芥、蒺藜苜蓿、二穗短柄草、稻、双色高粱、玉蜀黍或马铃薯的细胞。

108.如权利要求106所述的方法，其中所述植物细胞属于矮牵牛属、颠茄属、芜菁甘蓝属、芹菜属、柳枝稷属、苹果属、本氏烟草或狗尾草。

109.如权利要求106所述的方法，其中所述植物细胞是单子叶植物的细胞。

110.如权利要求106所述的方法，其中所述植物细胞是双子叶植物的细胞。

111.如权利要求106所述的方法，其中所述供体DNA的所述整合赋予i)植物细胞一个或多个以下性状的改变：穗粒数、籽粒大小、籽粒重量、穗大小、分蘖数、香味、营养价值、保存期、番茄红素含量、淀粉含量和/或ii)较低的面筋含量、降低的毒素水平、降低的甾体糖苷生物碱水平、有丝分裂对减数分裂的替代、无性繁殖、改良的单倍体育种和/或缩短的生长时间。

112.如权利要求106所述的方法，所述供体DNA的所述整合赋予所述植物细胞一个或多个以下性状：除草剂耐受性、耐旱性、雄性不育性、昆虫抗性、非生物胁迫耐受性、改良的脂肪酸代谢、改良的碳水化合物代谢、改良的种子产量、改良的油百分比、改良的蛋白质百分比、对细菌疾病的抗性、对真菌疾病的抗性和对病毒疾病的抗性。

113.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统将所述供体DNA整合到所述植物细胞的基因组中。

114.如权利要求106所述的方法，其中所述一种或多种编码所述转座子编码的CRISPR-Cas系统的载体通过土壤杆菌介导的所述植物细胞转化被引入所述植物细胞。

115.如权利要求106所述的方法，其中所述供体DNA包含第一转座子末端序列和第二转座子末端序列。

116.如权利要求106所述的方法，其中所述转座子系统是细菌Tn7样转座子系统。

117.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统包括TnsD和/或TniQ。

118.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统包括TnsA、TnsB和TnsC。

119.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统缺乏核酸酶。

120.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统来自I型CRISPR-Cas系统。

121.如权利要求120所述的方法，其中所述转座子编码的CRISPR-Cas系统包括Cascade复合物。

122.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统来自II型CRISPR-Cas系统。

123.如权利要求106所述的方法，其中所述转座子编码的CRISPR-Cas系统来自V型CRISPR-Cas系统。

124.如权利要求123所述的方法，其中所述转座子编码的CRISPR-Cas系统包括C2c5。

125.如权利要求106所述的方法，其中所述靶位点的两侧是前间区序列邻近基序(PAM)。

126.如权利要求106所述的方法，其中所述供体DNA被整合在所述靶位点下游约46-bp至55-bp处。

127.如权利要求106所述的方法，其中所述供体DNA被整合在所述靶位点下游约47-bp至51-bp处。

128.一种经修饰的植物细胞，其通过权利要求106的方法产生。

129.一种植物，其包含权利要求128的植物细胞。

130.一种如权利要求129所述的植物的种子。

131.一种如权利要求129所述的植物的果实、植物部分或繁殖材料。

132.一种用于在动物细胞中进行RNA引导的DNA整合的方法，其包括：

将以下引入动物细胞：a)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的载体，

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)供体DNA，

其中所述转座子编码的CRISPR-Cas系统在所述动物细胞中将所述供体DNA整合至靶位点附近。

133.如权利要求132所述的方法，其中所述动物细胞是小鼠、大鼠、兔、牛、绵羊、猪、鸡、马、水牛、骆驼、火鸡或鹅的细胞。

134.如权利要求132所述的方法，其中所述动物细胞是哺乳动物的细胞。

135.如权利要求134所述的方法，其中所述哺乳动物是猩猩、猴子、马、牛、绵羊、山羊、猪、驴、狗、兔、猫、大鼠或小鼠。

136.如权利要求132所述的方法，其中所述动物细胞是家畜动物的细胞。

137.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统将所述供体DNA整合到所述动物细胞的基因组中。

138.如权利要求132所述的方法，其中所述供体DNA包含转座子末端序列。

139.如权利要求132所述的方法，其中所述转座子系统是细菌Tn7样转座子系统。

140.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统包括TnsD和/或TniQ。

141.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统包括TnsA、TnsB和TnsC。

142.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统缺乏核酸酶。

143.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统来自I型CRISPR-Cas系统。

144.如权利要求143所述的方法，其中所述转座子编码的CRISPR-Cas系统包括Cascade复合物。

145.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统来自II型CRISPR-Cas系统。

146.如权利要求132所述的方法，其中所述转座子编码的CRISPR-Cas系统来自V型CRISPR-Cas系统。

147.如权利要求146所述的方法，其中所述转座子编码的CRISPR-Cas系统包括C2c5。

148.如权利要求132所述的方法，其中所述靶位点的两侧是前间区序列邻近基序(PAM)。

149.如权利要求132所述的方法，其中所述供体DNA被整合在所述靶位点下游约46-bp至55-bp处。

150.如权利要求132所述的方法，其中所述供体DNA被整合在所述靶位点下游约47-bp至51-bp处。

151.如权利要求132所述的方法，其中所述Tn7样转座子系统来源于霍乱弧菌。

152.一种经修饰的非人动物细胞，其通过权利要求132的方法产生。

153.一种经遗传修饰的非人动物，其包含权利要求152的动物细胞。

154.一种细菌群、组织或器官，其包含权利要求152的动物细胞。

155.一种治疗受试者的方法，其包括：

a)向哺乳动物受试者施用一种或多种包含受试者细胞和微生物组细胞的组合物，其中所述一种或多种组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对所述受试者细胞基因组或所述微生物组细胞基因组中的靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列的供体核酸，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和所述第二转座子末端序列，

其中所述转座子编码的CRISPR-Cas系统将所述供体核酸整合到至少一个所述受试者细胞的基因组和/或至所述少一个所述微生物组细胞的所述基因组中的靶位点附近。

156.如权利要求155所述的方法，其中所述一种或多种核酸序列包括一种或多种载体。

157.如权利要求155所述的方法，其中所述一种或多种核酸序列包括至少一种mRNA序列。

158.如权利要求155所述的方法，其中所述受试者是人。

159.如权利要求155所述的方法，其中所述受试者是患有选自由以下组成的组的疾病的人：癌症、杜氏肌营养不良症(DMD)、镰状细胞病(SCD)、β-地中海贫血和遗传性酪氨酸血症I型(HT1)的疾病的人。

160.如权利要求155所述的方法，其中所述运载物核酸序列包含治疗性序列。

161.如权利要求155所述的方法，其中所述转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合所述供体核酸序列。

162.如权利要求155所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

163.如权利要求155所述的方法，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

164.如权利要求163所述的方法，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6 形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

165.如权利要求163所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

166.如权利要求163所述的方法，其中所述至少一种Cas蛋白是Cas6。

167.如权利要求155所述的方法，其中所述至少一种Cas蛋白来自I型CRISPR-Cas系统。

168.如权利要求155所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

169.如权利要求168所述的方法，其中所述I型CRISPR-Cas系统是I-B型或I-F型。

170.如权利要求168所述的方法，其中所述I型CRISPR-Cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

171.如权利要求155所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

172.如权利要求155所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

173.如权利要求172所述的方法，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

174.如权利要求155所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

175.如权利要求155所述的方法，所述方法还包括第二引导RNA(gRNA-2)，其中所述gRNA-2指导所述供体DNA整合到第二不同的靶位点附近。

176.如权利要求175所述的方法，所述方法还包括第三引导RNA(gRNA-3)，其中所述gRNA-3指导所述供体DNA整合到第三不同的靶位点附近。

177.如权利要求155所述的方法，其中所述转座子系统来自Tn7样转座子系统。

178.如权利要求177所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

179.如权利要求155所述的方法，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-cas系统。

180.如权利要求179所述的方法，其中所述至少一种Cas蛋白包括C2c5。

181.如权利要求155所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC7110。

182.如权利要求155所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

183.如权利要求182所述的方法，其中所述至少一种Cas蛋白是Cas6。

184.如权利要求155所述的方法，其中所述供体核酸的长度至少为2kb。

185.如权利要求155所述的方法，其中所述供体核酸的长度至少为10kb。

186.如权利要求155所述的方法，其中所述一种或多种核酸序列是选自由以下组成的组的一种或多种病毒载体：逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。

187.如权利要求155所述的方法，其中所述一种或多种核酸序列还包含一种或多种启动子。

188.如权利要求155所述的方法，其中所述一种或多种核酸序列是一种且仅一种载体。

189.如权利要求188所述的方法，其中所述一种载体包含一种且仅一种启动子。

190.如权利要求155所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

191.如权利要求190所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8，并且其中所述Cas5和Cas8形成融合蛋白。

192.如权利要求155所述的方法，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

193.如权利要求192所述的方法，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

194.如权利要求192所述的方法，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

195.如权利要求194所述的方法，其中所述取向偏差有利于tRL。

196.如权利要求194所述的方法，其中所述取向偏差有利于tLR。

197.如权利要求155所述的方法，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

198.如权利要求155所述的方法，其中所述受试者细胞或微生物组细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列编码目标氨基酸序列，并且其中所述供体核酸序列被插入到所述靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中所述融合蛋白包含附加到所述靶蛋白的所述目标氨基酸序列。

199.如权利要求198所述的方法，其中所述目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子标签。

200.如权利要求155所述的方法，其中所述细胞或微生物组细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于所述AASIER两侧的剪接受体和/或供体位点，并且其中所述供体核酸序列被插入在所述靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用所述目标氨基酸序列框内标记所述靶蛋白。

201.如权利要求155所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

202.如权利要求155所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

203.如权利要求155所述的方法，其中所述运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。

204.如权利要求155所述的方法，其中所述运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

205.一种组合物，其包含：

a)工程化的转座子编码的CRISPR-Cas系统，和/或b)编码所述工程化的转座子编码的CRISPR-Cas系统的一种或多种核酸序列，

其中所述工程化的转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对人DNA中的靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)供体核酸，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列。

206.如权利要求204所述的组合物，其中所述一种或多种核酸序列包括一种或多种载体。

207.如权利要求204所述的组合物，其中所述一种或多种核酸序列包括至少一种mRNA序列。

208.如权利要求204所述的组合物，所述组合物还包含缓冲剂。

209.如权利要求204所述的组合物，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

210.如权利要求208所述的组合物，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

211.如权利要求204所述的组合物，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

212.如权利要求210所述的组合物，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

213.如权利要求210所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

214.如权利要求212所述的方法，其中所述至少一种Cas蛋白是Cas6。

215.如权利要求204所述的组合物，所述组合物还包含第二引导RNA(gRNA-2)，其中所述gRNA-2指导所述供体DNA整合到第二不同的靶位点附近。

216.如权利要求214所述的组合物，所述方法还包括第三引导RNA(gRNA-3)，其中所述gRNA-3指导所述供体DNA整合到第三不同的靶位点附近。

217.如权利要求204所述的组合物，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

218.如权利要求216所述的组合物，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

219.如权利要求204所述的组合物，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

220.如权利要求204所述的组合物，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

221.如权利要求219所述的组合物，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

222.如权利要求219所述的组合物，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

223.如权利要求221所述的组合物，其中所述取向偏差有利于tRL。

224.如权利要求221所述的组合物，其中所述取向偏差有利于tLR。

225.如权利要求204所述的组合物，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

226.如权利要求204所述的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

227.如权利要求204所述的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

228.如权利要求204的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC 7110。

229.如权利要求204所述的组合物，其中所述运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。

230.如权利要求204所述的组合物，其中所述运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

231.一种试剂盒，其包括：

a)权利要求204的组合物，和

b)用于保持所述组合物的装置。

232.如权利要求230所述的试剂盒，其中所述装置选自由以下组成的组：输注装置、静脉内注射溶液袋和具有可被皮下注射针刺穿的塞子的小瓶。

233.一种体外处理细胞的方法，其包括：

a)使至少一种细胞与组合物体外接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对所述细胞基因组中的靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且

其中所述转座子编码的CRISPR-Cas系统将所述供体核酸整合到至少一种细胞的所述基因组中的靶位点附近。

234.如权利要求232所述的方法，其中所述细胞是人细胞、植物细胞、细菌细胞或动物细胞。

235.如权利要求232所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

236.如权利要求234所述的方法，其中所述Ca8和所述Ca5形成Ca8-Ca5融合物。

237.如权利要求232所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

238.如权利要求236所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

239.如权利要求237所述的方法，其中所述至少一种Cas蛋白是Cas6。

240.如权利要求232所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

241.如权利要求239所述的方法，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

242.如权利要求232所述的方法，所述方法还包括第二引导RNA(gRNA-2)，其中所述gRNA-2指导所述供体DNA整合到第二不同的靶位点附近。

243.如权利要求241所述的方法，所述方法还包括第三引导RNA(gRNA-3)，其中所述gRNA-3指导所述供体DNA整合到第三不同的靶位点附近。

244.如权利要求232所述的方法，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

245.如权利要求243所述的方法，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

246.如权利要求232所述的方法，其中所述转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合所述供体核酸序列。

247.如权利要求232所述的方法，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

248.如权利要求246所述的方法，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

249.如权利要求246所述的方法，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

250.如权利要求248所述的方法，其中所述取向偏差有利于tRL。

251.如权利要求248所述的方法，其中所述取向偏差有利于tLR。

252.如权利要求232所述的方法，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

253.如权利要求232所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列编码目标氨基酸序列，并且其中所述供体核酸序列被插入到所述靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中所述融合蛋白包含附加到所述靶蛋白的所述目标氨基酸序列。

254.如权利要求252所述的方法，其中所述目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子标签。

255.如权利要求232所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于所述AASIER两侧的剪接受体和/或供体位点，并且其中所述供体核酸序列被插入在所述靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用所述目标氨基酸序列框内标记所述靶蛋白。

256.如权利要求232所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

257.如权利要求232所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

258.如权利要求232所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC 7110。

259.如权利要求232所述的方法，其中所述运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。

260.如权利要求232所述的方法，其中所述运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

261.一种用于在细胞中进行RNA引导的核酸整合的方法，其包括：

a)将i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列引入细胞群，

其中所述工程化的转座子编码的CRISPR-Cas系统包括：

A)至少一种Cas蛋白，

B)对所述细胞基因组中的靶位点特异的引导RNA(gRNA)，

C)工程化的转座子系统，以及

D)长度至少为2kb的供体核酸，其中所述供体核酸序列包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中运载物核酸序列的两侧是所述第一转座子末端序列和所述第二转座子末端序列；和

b)在使得所述转座子编码的CRISPR-Cas系统将所述供体核酸序列整合到所述细胞的所述基因组中的所述靶位点附近的条件下培养所述细胞。

262.如权利要求260所述的方法，其中所述一种或多种核酸序列包括一种或多种载体。

263.如权利要求260所述的方法，其中所述一种或多种核酸序列包括至少一种mRNA序列。

264.如权利要求260所述的方法，其中所述供体核酸序列的长度至少为10kb。

265.如权利要求260所述的方法，其中所述供体核酸序列的长度至少为50kb。

266.如权利要求260所述的方法，其中所述供体核酸序列的长度至少为100kb。

267.如权利要求260所述的方法，其中所述供体核酸序列的长度为20kb至60kb。

268.如权利要求260所述的方法，其中所述细胞是细菌细胞，并且所述条件包括在低于所述细菌细胞的最佳生长温度至少5摄氏度的温度下培养所述细菌细胞。

269.如权利要求267所述的方法，其中所述细菌细胞是大肠杆菌细胞，并且其中所述大肠杆菌细胞在30摄氏度或更低的温度下培养。

270.如权利要求260所述的方法，其中所述转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合所述供体核酸序列。

271.如权利要求260所述的方法，其中所述至少一种Cas蛋白来自I型CRISPR-cas系统。

272.如权利要求270所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

273.如权利要求271所述的方法，其中所述I型CRISPR-cas系统是I-B型或I-F型。

274.如权利要求271所述的方法，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

275.如权利要求260所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

276.如权利要求260所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

277.如权利要求275所述的方法，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

278.如权利要求275所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

279.如权利要求277所述的方法，其中所述至少一种Cas蛋白是Cas6。

280.如权利要求260所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

281.如权利要求260所述的方法，所述方法还包括第二引导RNA(gRNA-2)，其中所述gRNA-2指导所述供体DNA整合到第二不同的靶位点附近。

282.如权利要求280所述的方法，所述方法还包括第三引导RNA(gRNA-3)，其中所述gRNA-3指导所述供体DNA整合到第三不同的靶位点附近。

283.如权利要求260所述的方法，其中所述转座子系统来自Tn7样转座子系统。

284.如权利要求282所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

285.如权利要求260所述的方法，其中所述Cas5和所述Cas8以单独的非融合蛋白形式表达。

286.如权利要求260所述的方法，其中所述一种或多种核酸序列是一种或多种载体，所述载体是质粒。

287.如权利要求260所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

288.如权利要求286所述的方法，其中所述至少一种Cas蛋白是Cas6。

289.如权利要求260所述的方法，其中所述一种或多种核酸序列是选自由以下组成的组的一种或多种病毒载体：逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。

290.如权利要求260所述的方法，其中所述gRNA是非天然存在的gRNA。

291.如权利要求260所述的方法，其中所述一种或多种核酸序列还包含一种或多种启动子。

292.如权利要求260所述的方法，其中所述一种或多种核酸序列包含一种且仅一种载体。

293.如权利要求291所述的方法，其中所述仅一种载体具有一种且仅一种启动子。

294.如权利要求260所述的方法，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

295.如权利要求293所述的方法，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

296.如权利要求260所述的方法，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

297.如权利要求295所述的方法，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

298.如权利要求295所述的方法，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

299.如权利要求297所述的方法，其中所述取向偏差有利于tRL。

300.如权利要求297所述的方法，其中所述取向偏差有利于tLR。

301.如权利要求260所述的方法，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

302.如权利要求260所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列编码目标氨基酸序列，并且其中所述供体核酸序列被插入到所述靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中所述融合蛋白包含附加到所述靶蛋白的所述目标氨基酸序列。

303.如权利要求301所述的方法，其中所述目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子标签。

304.如权利要求260所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于所述AASIER两侧的剪接受体和/或供体位点，并且其中所述供体核酸序列被插入在所述靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用所述目标氨基酸序列框内标记所述靶蛋白。

305.如权利要求260所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

306.如权利要求260所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

307.如权利要求260所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC 7110。

308.如权利要求260所述的方法，其中所述运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。

309.如权利要求260所述的方法，其中所述运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

310.一种处理细胞的方法，其包括：

a)使至少一种细胞与组合物接触，所述组合物包含：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)至少一种对所述至少一种细胞的基因组中的靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，和

iv)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸的长度至少为2kb，并且

其中所述转座子编码的CRISPR-Cas系统将所述供体核酸整合到所述至少一种细胞的所述基因组中的所述靶位点附近。

311.如权利要求309所述的方法，其中所述运载物酸序列的长度至少为10kb。

312.如权利要求309所述的方法，其中所述运载物核酸序列的长度至少为50kb。

313.如权利要求309所述的方法，其中所述运载物核酸序列的长度至少为100kb。

314.如权利要求309所述的方法，其中所述运载物核酸序列的长度为20kb至60kb。

315.一种组合物，其包含：

i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述转座子编码的CRISPR-Cas系统包括：

a)至少一种Cas蛋白，

b)至少一种对至少一种细胞的基因组中的靶位点特异的引导RNA(gRNA)，

c)工程化的转座子系统，以及

d)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸的长度至少为2kb。

316.如权利要求314所述的方法，其中所述运载物核酸序列的长度至少为10kb。

317.如权利要求314所述的方法，其中所述运载物核酸序列的长度至少为50kb。

318.如权利要求314所述的方法，其中所述运载物核酸序列的长度至少为100kb。

319.如权利要求314所述的方法，其中所述运载物核酸序列的长度为20kb至60kb。

320.一种组合物，其包含：可自转座的核酸序列，其包含：

a)编码转座子编码的CRISPR-Cas系统的可移动核酸序列，和

b)位于所述可移动核酸序列侧面的第一转座子末端序列和第二转座子末端序列，

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对靶位点特异的引导RNA(gRNA)，和

iii)工程化的转座子系统。

321.如权利要求319所述的组合物，所述组合物还包含载体，并且其中所述可自转座的核酸序列存在于所述载体中。

322.如权利要求319所述的组合物，所述组合物还包含具有基因组DNA的细胞，并且其中所述可自转座的核酸序列存在于所述基因组DNA中。

323.如权利要求319所述的组合物，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

324.如权利要求319所述的组合物，其中所述至少一种Cas蛋白来自I型CRISPR-cas系统。

325.如权利要求323所述的组合物，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

326.如权利要求324所述的组合物，其中所述I型CRISPR-cas系统是I-B型或I-F型。

327.如权利要求324所述的组合物，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Ca8-Cas5融合物。

328.如权利要求319所述的组合物，其中所述转座子系统包括TnsA、TnsB和TnsC。

329.如权利要求319所述的组合物，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

330.如权利要求328所述的组合物，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

331.如权利要求328所述的组合物，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

332.如权利要求330所述的组合物，其中所述至少一种Cas蛋白是Cas6。

333.如权利要求319所述的组合物，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

334.如权利要求319所述的组合物，其中所述转座子系统来自Tn7样转座子系统。

335.如权利要求333所述的组合物，其中所述Tn7转座子系统来源于霍乱弧菌。

336.如权利要求319所述的组合物，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-cas系统。

337.如权利要求335所述的组合物，其中所述至少一种Cas蛋白是C2c5。

338.如权利要求319所述的组合物，其中所述工程化CRISPR-cas系统和所述工程化转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

339.如权利要求337所述的组合物，其中所述至少一种Cas蛋白是Cas6。

340.如权利要求319所述的组合物，其中所述至少一种Cas蛋白包括Cas2、Cas3、Cas5、Cas6、Cas7和Cas8。

341.如权利要求319所述的组合物，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

342.如权利要求340所述的组合物，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

343.如权利要求319所述的组合物，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

344.如权利要求342所述的组合物，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

345.如权利要求342所述的组合物，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

346.如权利要求344所述的组合物，其中所述取向偏差有利于tRL。

347.如权利要求344所述的组合物，其中所述取向偏差有利于tLR。

348.如权利要求319所述的组合物，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

349.如权利要求319所述的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

350.如权利要求319所述的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

351.如权利要求319所述的组合物，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC 7110。

352.一种方法，其包括：向受试者施用权利要求319的组合物。

353.如权利要求351所述的方法，其中所述受试者是人。

354.一种方法，其包括：使细胞在体外与权利要求319的组合物接触。

355.如权利要求353所述的方法，其中所述细胞是人细胞。

356.一种靶向癌细胞的方法，其包括：

向癌细胞中引入：i)工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述工程化的转座子编码的CRISPR-Cas系统包括：

A)至少一种Cas蛋白，

B)对所述癌细胞的基因组中的靶位点特异的引导RNA(gRNA)，

C)工程化的转座子系统，以及

D)供体核酸序列，其包含第一转座子末端序列和第二转座子末端序列。

357.如权利要求355所述的方法，其中在使得所述转座子编码的CRISPR-Cas系统将所述供体核酸序列整合到所述癌细胞的所述基因组中的所述靶位点附近的条件下进行所述引入。

358.如权利要求355所述的方法，其中所述供体核酸还包含运载物核酸序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列。

359.如权利要求355所述的方法，其中所述一种或多种核酸序列包含一种或多种载体。

360.如权利要求355所述的方法，其中所述一种或多种核酸序列包括至少一种mRNA序列。

361.如权利要求355所述的方法，其中所述靶位点在与癌基因相关的基因组序列中。

362.如权利要求355所述的方法，其中所述供体核酸破坏癌基因的致病表达。

363.如权利要求355所述的方法，其中所述转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合所述供体核酸序列。

364.如权利要求355所述的方法，其中所述至少一种Cas蛋白来自I型CRISPR-Cas系统。

365.如权利要求363所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

366.如权利要求364所述的方法，其中所述I型CRISPR-cas系统是I-B型或I-F型。

367.如权利要求364所述的方法，其中所述I型CRISPR-cas系统是I-F型变体，其中所述Cas8和所述Cas5形成Cas8-Cas5融合物。

368.如权利要求355所述的方法，其中所述转座子系统包括TnsA、TnsB和TnsC。

369.如权利要求355所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TnsD和/或TniQ。

370.如权利要求368所述的方法，其中所述TnsA和TnsB以TnsA-TnsB融合蛋白形式表达。

371.如权利要求368所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

372.如权利要求370所述的方法，其中所述至少一种Cas蛋白是Cas6。

373.如权利要求355所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

374.如权利要求355所述的方法，所述方法还包括第二引导RNA(gRNA-2)，其中所述gRNA-2指导所述供体DNA整合到第二不同的靶位点附近。

375.如权利要求373所述的方法，所述方法还包括第三引导RNA(gRNA-3)，其中所述gRNA-3指导所述供体DNA整合到第三不同的靶位点附近。

376.如权利要求355所述的方法，其中所述转座子系统来自Tn7样转座子系统。

377.如权利要求375所述的方法，其中所述Tn7转座子系统来源于霍乱弧菌。

378.如权利要求355所述的方法，其中所述Cas5和所述Cas8以单独的非融合蛋白形式表达。

379.如权利要求355所述的方法，其中所述一个或多个核酸序列包含质粒。

380.如权利要求355所述的方法，其中所述工程化的CRISPR-cas系统和所述工程化的转座子系统来自I型CRISPR-cas系统和转座子系统，并且其中所述系统还包括第二工程化的CRISPR-cas系统和第二工程化的转座子系统，所述两者都来自V型CRISPR-cas系统和转座子系统。

381.如权利要求379所述的方法，其中所述至少一种Cas蛋白是Cas6。

382.如权利要求1所述的方法，其中所述一种或多种核酸序列是选自由以下组成的组的一种或多种病毒载体：逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体和单纯疱疹病毒载体。

383.如权利要求355所述的方法，其中所述gRNA是非天然存在的gRNA。

384.如权利要求355所述的方法，其中所述一种或多种核酸序列包含一种或多种启动子。

385.如权利要求355所述的方法，其中所述一种或多种核酸序列是一种且仅一种载体。

386.如权利要求384所述的方法，其中所述仅一种载体具有一种且仅一种启动子。

387.如权利要求355所述的方法，其中：A)所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8；和B)所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ。

388.如权利要求386所述的方法，其中至少一种如下：I)其中所述Cas5和Cas8形成Cas5-Cas8融合蛋白；II)其中所述TniQ和Cas6形成TniQ-Cas6融合蛋白；并且/或者III)所述TnsA和TnsB形成TnsA-TnsB融合蛋白。

389.如权利要求355所述的方法，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-cas系统。

390.如权利要求388所述的方法，其中所述至少一种Cas蛋白是C2c5。

391.如权利要求355所述的方法，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

392.如权利要求390所述的方法，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

393.如权利要求390所述的方法，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

394.如权利要求392所述的方法，其中所述取向偏差有利于tRL。

395.如权利要求392所述的方法，其中所述取向偏差有利于tLR。

396.如权利要求355所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

397.如权利要求355所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

398.如权利要求355所述的方法，其中所述工程化的转座子编码的CRISPR-Cas系统来自贺氏伪枝藻PCC 7110。

399.一种处理细胞的方法，其包括：

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

iii)工程化的转座子系统，和

iv)供体核酸，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，以及

400.如权利要求398所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

401.如权利要求398所述的方法，其中所述至少一种引导RNA包括至少两种不同的gRNA，每种所述gRNA指导所述供体核酸整合到不同靶位点附近。

402.如权利要求398所述的方法，其中所述至少一种引导RNA包括至少十种不同的gRNA，每种所述gRNA指导所述供体核酸整合在不同的靶位点。

403.如权利要求398所述的方法，其中所述第一转座子末端序列是左转座子末端序列，并且其中所述第二转座子末端序列是右转座子末端序列。

404.如权利要求402所述的方法，其中所述左转座子末端序列和/或右转座子末端序列是变体序列，所述变体序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，提高了所述供体核酸序列的整合效率。

405.如权利要求402所述的方法，其中所述左转座子末端序列和/或右转座子末端序列与相应的野生型左转座子末端序列和/或右转座子末端序列相比，在所述供体核酸序列被整合到所述基因组中所述靶位点附近时，改变了所述供体核酸序列的所述取向偏差。

406.如权利要求404所述的方法，其中所述取向偏差有利于tRL。

407.如权利要求404所述的方法，其中所述取向偏差有利于tLR。

408.如权利要求398所述的方法，其中所述第一转座子末端序列和/或第二转座子末端序列编码功能性蛋白质接头序列。

409.如权利要求398所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列编码目标氨基酸序列，并且其中所述供体核酸序列被插入到所述靶蛋白编码基因附近或内部以产生融合蛋白编码序列，其中所述融合蛋白包含附加到所述靶蛋白的所述目标氨基酸序列。

410.如权利要求408所述的方法，其中所述目标氨基酸序列选自由以下组成的组：荧光蛋白、表位标签和降解决定子标签。

411.如权利要求398所述的方法，其中所述细胞的所述基因组包含靶蛋白编码基因，其中所述运载物核酸序列包含：i)目标氨基酸序列编码区(AASIER)，ii)位于所述AASIER两侧的剪接受体和/或供体位点，并且其中所述供体核酸序列被插入在所述靶蛋白编码基因附近或内部，以产生合成工程化的外显子，所述外显子使得能够用所述目标氨基酸序列框内标记所述靶蛋白。

412.如权利要求398所述的方法，其中所述至少一种Cas蛋白包括Cas5、Cas6、Cas7和Cas8。

413.如权利要求411所述的方法，其中所述I型CRISPR-cas系统是I-F型变体。

414.如权利要求412所述的方法，其中所述I-F型变体来自选自由以下组成的组的细菌：霍乱弧菌、伊氏发光杆菌、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌、甘瓜发光杆菌、希瓦氏菌属某种UCD-KL21、重氮营养弧菌、弧菌属某种16、弧菌属某种F12、灿烂弧菌、沃丹弧菌和海绵副希瓦氏菌。

415.如权利要求412所述的方法，其中所述I-F型变体来自选自由以下组成的组的细菌：霍乱弧菌4874株、伊氏发光杆菌NCIMB株、假交替单胞菌属某种P1-25、鲁塞尼亚假交替单胞菌S3245株、甘瓜发光杆菌JCM株、希瓦氏菌属某种UCD-KL21、霍乱弧菌OYP7G04株、霍乱弧菌M1517株、重氮营养弧菌60.6F株、弧菌属某种16、弧菌属某种F12、灿烂弧菌UCD-SED 10株、沃丹弧菌06/09/160和海绵副希瓦氏菌HJ039株。

416.如权利要求412所述的方法，其中所述I-F型变体来自霍乱弧菌HE-45株。

417.如权利要求398所述的方法，其中所述CRISPR-cas系统的所述至少一种Cas蛋白来自V型CRISPR-cas系统。

418.如权利要求416所述的方法，其中所述V型CRISPR-Cas系统来自贺氏伪枝藻PCC7110。

419.如权利要求398所述的方法，其中所述转座子编码的CRISPR-Cas系统使用剪切粘贴式转座途径整合所述供体核酸序列。

420.如权利要求398所述的方法，其中所述至少一种gRNA包含靶向加长靶位点的加长引导序列，其中所述加长引导序列的长度至少为25个核苷酸。

421.如权利要求398所述的方法，其中所述至少一种gRNA包括加长引导序列。

422.如权利要求398所述的方法，其中所述工程化的转座子系统包括：i)TnsA，ii)TnsB，iii)TnsC，和iv)TniQ家族蛋白。

423.如权利要求421所述的方法，其中所述TnsA和TnsB融合成单个TnsA-TnsB融合多肽。

424.如权利要求421所述的方法，其中所述TniQ与所述至少一种Cas蛋白融合，产生TniQ-Cas融合多肽。

425.如权利要求423所述的方法，其中所述至少一种Cas蛋白是Cas6。

426.如权利要求398所述的方法，其中所述运载物核酸序列包含选自由以下组成的组的元件：天然转录启动子元件、合成转录启动子元件、诱导型转录启动子元件、组成型转录启动子元件、天然转录终止元件、合成转录终止元件、复制起点、复制终止序列、着丝粒序列和端粒序列。

427.如权利要求398所述的方法，其中所述运载物核酸序列编码以下至少一种：治疗性蛋白、代谢途径和/或生物合成途径。

428.一种处理细胞的方法，其包括：

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)工程化的转座子系统，和

iii)供体核酸序列，其包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且其中所述运载物核酸序列的至少一部分编码至少一种对所述细胞的基因组中的靶位点特异的引导RNA(gRNA)，并且

429.一种处理细胞的方法，其包括：

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)至少一种对靶位点特异的引导RNA(gRNA)，

iii)工程化的转座子系统，其包括：A)TnsA，B)TnsB，C)TnsC，和D)TniQ家族蛋白，其中所述TnsA包含一个或多个失活点突变，和

其中所述转座子编码的CRISPR-Cas系统使用涉及复制转座的复制粘贴式转座途径，将所述供体核酸的拷贝整合到所述至少一种细胞的基因组中靶位点附近。

430.一种处理细胞的方法，其包括：

a)使至少一种细胞与组合物接触，所述组合物包含：i)第一和第二工程化的转座子编码的CRISPR-Cas系统，和/或ii)一种或多种编码所述第一和第二工程化的转座子编码的CRISPR-Cas系统的核酸序列，

其中所述第一转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对第一靶位点特异的第一RNA(gRNA)，

iii)工程化的转座子系统，和

iv)第一供体核酸序列，其包含第一运载物核酸序列以及第一转座子末端序列和第二转座子末端序列，其中所述第一运载物核酸序列的两侧是所述第一转座子末端序列和第二转座子末端序列，并且

其中所述第二转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对第二个靶位点特异的第二个RNA(gRNA)，

iii)工程化的转座子系统，和

iv)第二供体核酸序列，其包含第二运载物核酸序列以及第三转座子末端序列和第四转座子末端序列，其中所述第二运载物核酸序列的两侧是所述第三转座子末端序列和第四转座子末端序列，并且

其中所述第一转座子编码的CRISPR-Cas系统将所述第一供体核酸整合到所述至少一种细胞中的所述第一靶位点附近，并且

其中所述第二转座子编码的CRISPR-Cas系统将所述第二供体核酸整合到所述至少一种细胞中的所述第二靶位点附近。

431.一种方法，其包括：

其中所述转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)工程化的转座子系统；

iii)第一左转座子末端序列；

v)第二左转座子末端序列；

viii)将所述第二左转座子末端序列和第二右转座子末端序列靶向所述第二侧翼区的第二引导RNA(gRNA-2)，以及

ix)第三个引导RNA(gRNA-3)，

b)在这样的条件下孵育所述样品，所述条件使得：

i)所述第一左转座子末端序列和所述第一右转座子末端序列被整合到所述第一侧翼区中；

ii)所述第二左转座子末端序列和所述第二右转座子末端序列被整合到所述第二侧翼区中，从而产生包含两侧为所述第一左转座子末端序列和所述第二右转座子末端序列的所述NASI的可转座的序列；以及

iii)所述可转座的序列由所述工程化的转座子系统从其在所述基因组中的位置处切下，并由所述gRNA-3引导粘贴到所述基因组中的不同位置。

432.一种处理细胞的方法，其包括：

其中所述第一转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对所述细胞的基因组中的第一靶位点特异的第一RNA(gRNA)，

iii)工程化的转座子系统，和

其中所述第二转座子编码的CRISPR-Cas系统包括：

i)至少一种Cas蛋白，

ii)对所述细胞的所述基因组中的第二靶位点特异的第二RNA(gRNA)，

iii)工程化的转座子系统，和

b)在这样的条件下孵育所述细胞，所述条件使得：

i)所述第一转座子编码的CRISPR-Cas系统将所述第一供体核酸整合到所述至少一种细胞的所述基因组中的所述第一靶位点附近；

ii)所述第二转座子编码的CRISPR-Cas系统将所述第二供体核酸整合到所述至少一种细胞的基因组中的所述第二靶位点附近，从而产生包含所述第一转座子末端序列、所述第四转座子末端序列以及所述第一转座子末端序列与所述第四转座子末端序列之间的所述基因组区域的可转座的序列；以及

iii)所述可转座的序列被所述工程化的转座子系统从其在所述基因组中的位置切下，并粘贴到所述基因组中的不同位置。

433.一种用于RNA引导的DNA整合的系统，所述系统包括：从5’至3’包含以下核酸的载体：a)编码一种或多种转座子系统蛋白的核酸；b)编码引导RNA的核酸；和c)编码包含第一转座子末端和第二转座子末端的供体和运载物的核酸。

434.如权利要求432所述的系统，其中所述编码引导RNA的核酸靠近所述第一转座子末端，从而防止靠近所述引导RNA的自我靶向。

435.如权利要求432所述的系统，其中所述编码引导RNA的核酸在所述第一转座子末端的5000个碱基内。

436.如权利要求434所述的系统，其中所述编码引导RNA的核酸在所述第一转座子末端的1000个碱基内。

437.如权利要求435所述的系统，其中所述编码引导RNA的核酸在所述第一转座子末端的500个碱基内。

438.如权利要求432所述的系统，其中所述转座子系统蛋白质包括TnsA、TnsB、TnsC和TnsD和/或TniQ中的一种或多种。

439.如权利要求432所述的系统，其中所述载体还包含表达一种或多种cas蛋白的核酸，所述核酸位于编码一种或多种转座子系统蛋白的所述核酸与编码供体的所述核酸之间。

440.如权利要求438所述的系统，其中所述一种或多种cas蛋白包括Cas5、Cas6、Cas7和Cas8。

441.一种减少RNA引导的DNA整合系统的自我靶向的方法，其包括在细胞中表达权利要求432-439中任一项的载体。

442.如权利要求440所述的方法，其中所述细胞是其适合度受载体维持影响的细胞类型。