CN116829707A

CN116829707A - 提高定点整合频率的方法

Info

Publication number: CN116829707A
Application number: CN202180090223.XA
Authority: CN
Inventors: J·布拉德利; L·A·吉伯特森; E·纳吉; C·什于; 杨佩真; 叶旭东
Original assignee: Monsanto Technology LLC
Current assignee: Monsanto Technology LLC
Priority date: 2020-11-11
Filing date: 2021-11-10
Publication date: 2023-09-29
Also published as: AU2021378791A1; JP2023550323A; US12157893B2; US20220162625A1; CA3201517A1; WO2022103878A1; US20250051790A1; EP4244343A1; AU2021378791A9

Abstract

本公开涉及用于提高植物细胞基因组中定点整合频率的组合物和方法。

Description

提高定点整合频率的方法

相关申请的交叉引用

本申请要求于2020年11月11日提交的美国临时申请第63/112,438号的权益，其全部内容通过引用并入本文。

引入序列表

序列表包含在名为“P34835WO00_SL.TXT”的文件中，82,749字节(在中测量)，其于2021年11月10日创建，以电子方式随此申请提交并通过引用整体并入。

技术领域

本公开涉及使用环状T-DNA用于提高定点整合频率的组合物和方法。

背景技术

大豆(Glycine max)和玉米(Zea mays)转化中的定点整合(SDI)频率都非常低。因此，大豆或玉米的转化需要筛选大量的初级转化体以鉴定SDI事件。非常需要增加SDI绝对频率、丰富初级转化体中SDI事件再生或两者都有的方法。

转移DNA(T-DNA)从农杆菌的肿瘤诱导(Ti)质粒转移到宿主植物的核DNA基因组中。通过切割Ti质粒的右边界(RB)，将T-DNA插入到植物细胞的基因组中，这会得到一个从T-DNA的左边界(LB)到RB的单链DNA区域。在RB被切割后，单链DNA合成取代了单链DNA区域，LB被切割，并且单链T-DNA片段可被整合到植物细胞的基因组中。

成功的农杆菌介导的植物细胞转化典型地导致植物基因组中的随机整合。如果转基因插入到必需的内源基因中，这种随机整合会对植物细胞产生有害影响。类似地，由于转基因插入的染色体的位置效应，这种随机整合可能对转基因的表达产生有害影响。本领域需要通过农杆菌介导的植物细胞转化来改进SDI。曾经使用过一种定点整合(SDI)方法，所述方法利用农杆菌介导的转化并依赖于非同源末端连接(NHEJ)策略将T-DNA整合到由引导核酸酶切割的靶位点中。然而，所述方法在玉米和大豆中产生极低频率(大约0.3％)的质量(例如，单个转基因、全长)SDI事件。

在这里，发明人开发了新的方法和组合物以在使用环化T-DNA的农杆菌介导的转化中提高SDI。

发明内容

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)第一重组位点和第二重组位点；(c)引导核酸酶的靶位点；(d)与第一启动子可操作地连接的目标基因；和(e)右边界序列，其中引导核酸酶的靶位点和与第一启动子可操作地连接的目标序列位于第一重组位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)第一重组位点和第二重组位点；(c)与第一启动子可操作地连接的目标序列；(d)引导核酸酶的靶位点；(e)第二启动子；和(f)右边界序列，其中与第一启动子可操作地连接的目标序列和引导核酸酶的靶位点位于第一重组位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)第一启动子；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第二个启动子可操作地连接的目标序列；和(f)右边界序列，其中引导核酸酶的靶位点和与第二启动子可操作地连接的目标序列位于第一重组位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含：(a)第一左边界(LB)序列；(b)第一重组位点和第二重组位点；(c)与第一启动子可操作地连接的目标序列；(d)引导核酸酶的靶位点；(e)第一右边界(RB)序列；(f)第二RB序列；和(g)第二LB序列，其中与第一启动子可操作地连接的目标序列和引导核酸酶的靶位点位于第一重组位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)编码选择标记基因的序列；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第一启动子可操作地连接的目标序列；(f)第二启动子；和(g)右边界序列，其中第二启动子和选择标记基因处于同一方向，并且其中引导核酸酶的靶位点和与第一启动子可操作地连接的目标序列位于第一重组位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含(a)左边界序列；(b)至少一个与第一启动子可操作地连接的引导RNA；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第二个启动子可操作地连接的目标序列；和(f)右边界序列，其中引导核酸酶的靶位点和编码与第二启动子可操作地连接的目标序列的序列位于第一重组位点和第二重组位点之间。

一方面，本公开提供了编辑植物细胞基因组的方法，所述方法包含：(a)将本文提供的任何重组核酸构建体提供给至少一个植物细胞；和(b)从步骤(a)中选择至少一个植物细胞，其中至少一个植物细胞包含插入植物细胞基因组中的目标序列。

一方面，本公开包含含有本文提供的任何重组核酸构建体的植物细胞或植物。

一方面，本公开提供了一种方法，其包含向细胞引入本文提供的任何重组DNA构建体，其中引导核酸酶切割引导核酸酶的靶位点和基因组靶位点，并且其中将目标序列插入基因组靶位点中。

一方面，本公开提供了工程化的双链供体DNA分子，其包含一个或多个与至少一个目标序列相邻的引导核酸酶的靶位点，其中引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置20至23的序列是基因组靶位点内的目标链的核苷酸位置20至23的序列的反向互补序列。

附图说明

图1：包含图1A和图1B。图1A描述了农杆菌T-DNA载体的配置的示意图，其包含aadA标记、LbCas12a蛋白、LbCas12a引导RNA的表达盒和用于将供体盒定向整合到GmTS1靶位点的供体盒。供体盒包含GOI-1(目标基因-1)，两侧是被LbCas12a-gRNA复合物识别的靶位点(每个都用“X”表示)。图1B描述了GmTS1位点处的T-DNA整合的配置的示意图。LB和RB表示T-DNA的左边界和右边界序列。Pro表示启动子，GOI＝目标基因。虚线箭头表示RB-LB末端连接。

图2：描述了aadA选择标记盒的示意图。P表示启动子。L表示前导(leader)。I表示内含子，CTP表示叶绿体转运肽，T表示终止子。

图3：描述了右边界(RB)和左边界(LB)内边界序列区域，并且设计删除所述区域以导致剪接后内含子中较少的内部序列区域(图2)的示意图。

图4：描述了包含RB和/或LB截短、分裂标记盒和CRISPR核酸酶的靶位点的载体的示意图。

图5：描述了农杆菌T-DNA载体的配置示意图，所述载体设计有两个在T链上表达的gRNA：一个靶向环化T链中的一个单一位点，并且一个靶向基因组中的单一位点。

图6：描述了农杆菌T-DNA载体的配置示意图，所述载体设计用于通过Cre/lox重组在体内产生环状底物。Cre介导的从T-DNA中切除供体盒激活标记基因表达。这间接地促进了包含供体的部分已环化的事件的选择。LB和RB表示T-DNA的左边界和右边界序列。Pro＝启动子；GOI＝目标基因。当方向性至关重要时，水平箭头指示元件的方向性。

图7：描述了农杆菌T-DNA载体的配置示意图，其设计用于通过Cre/lox重组在体内产生环状底物，以促进GOI盒和标记盒在基因组基因座处的定向整合。LB和RB表示T-DNA的左边界和右边界序列。Pro＝启动子；GOI＝目标基因。

图8：描述了农杆菌T-DNA载体的两种配置(A和B)的示意图，所述载体设计用于通过Cre/lox重组系统在体内产生环状底物，以促进GOI盒在基因组位点的定向整合。Cre介导的P::GOI盒的切除激活LbCas12a基因表达。LB和RB表示T-DNA的左边界和右边界序列。Pro＝启动子；GOI＝目标基因。当方向性至关重要时，水平箭头指示元件的方向性。

图9：描述了农杆菌T-DNA载体的配置的示意图，所述载体设计用于通过Cre/lox重组产生环状底物，以促进GOI盒和标记盒在基因组位点的定向整合。LB和RB表示T-DNA的左边界和右边界序列。Pro＝启动子；GOI＝目标基因。当方向性至关重要时，水平箭头指示元件的方向性。

图10：描述了包含两个单独的T-DNA区域的载体的配置的示意图，其中一个区域包含PRO::GOI1盒，其两侧是RB和LB元件，其以或不可被如图3那样被截短，和CRISPR核酸酶的靶位点；和第二T-DNA区域，其包含用于表达CRISPR核酸酶、gRNA和选择标记基因的盒

图11：描述了如图10中包含两个单独的T-DNA区域的载体的配置的示意图，除了在所述实施方案中，两个单独的T-DNA区域位于单独的复制子上。

图12：包含图12A和图12B。图12A和12B：描述了减少包含骨架的事件的载体的配置的示意图。部分标记(Partial.Marker)：3’端标记基因盒的部分片段。

图13：描述了用于通过同源重组进行定向定点整合的载体的配置的示意图。HR1：同源臂1，HR2：同源臂2。

图14：描述了假设染色体和供体DNA的初始DNA末端具有共同的5个核苷酸元件(粗体文本)。A和B中所示的实施例是平端的，但考虑了交错的实施方案(如LbCas12a介导的整合的情况)。在被连接在一起之前，初始端可能会受到来自原始切割位点的一定程度的“磨损(fraying)”或“单链退火(chew back)”。图14A中所示的实施方案导致连接，其中每个位置明确归因于染色体(大写)或供体(小写)来源。14B所示的实施方案导致连接，其中5bp的区域(大写和粗体)具有模糊起源(例如，最初可衍生自任一亲本链)。

图15：描述了微同源潜在途径的示例。图15A描述了末端的平端连接可以重建模糊区域(“人工微同源”)。图15B描述了“粘性末端”(“完全微同源”)的单链退火和连接，其中5’端或3’端突出端的单链DNA区域完美退火。图15C描述了部分单链退火的5’端或3’端单链末端的连接，在链的末端产生一个或多个碱基配对，随后是碱基对的假定填充和连接以完成插入。

图16：描述了典型的LbCas12a介导的DNA切割。Cas12a在23-nt的目标区域切割，所述区域紧邻PAM位点(斜体)。当LbCas12a切割时，它在顶部链(也称为非目标链)的位置19之后和相反链(也称为目标链)的位置23之后切割，在每条链上产生4-nt 5’突出端。带有实线轮廓的箭头表示待切割的DNA上的23-mer靶位点。带有虚线轮廓的箭头表示切割的靶位点。显示的目标序列仅用于说明目的。箭头指向从斜体显示的PAM位点到23-mer目标区域末端的方向。目标链上的4nt 5’突出端和靶位点的19nts标有字母名称(此处：“A”)。非目标链上的4-nt 5’突出端标记为A’。A’是A的反向互补，并且理论上可以完美地重新单链退火到A突出端。单下划线核苷酸＝A。双下划线核苷酸＝A’。

图17：描述了环化、切割和线性化的T-DNA插入。环化和LbCas12a切割的T-DNA绝大多数以相反方向插入。序列(大写字体)表示为T-DNA。序列(小写字体)表示为染色体DNA序列。T-DNA中的实线箭头(上图)表示Cas12a靶位点。T-DNA靶序列以粗体显示。第二和第三个图中的实线箭头表示切割的TDNA靶位点。第三图中的虚线箭头表示染色体上的切割靶位点。环化的定向插入主要是反向插入，其中T-DNA(大写)中目标区域的其余部分(实线箭头)的方向与染色体(小写字母)中目标区域的其余部分(虚线箭头)方向相反，导致一端两个略微截短的A’区域与另一端两个略微截短的A区域之间的连接。带下划线的碱基对说明了A’/A’连接处的微同源。显示的目标序列仅用于说明目的；附图未按比例绘制。

图18A：描述了GmTS1靶位点和在染色体和T-DNA上产生的A’切割产物的示意图。PAM位点以斜体显示；23-bp靶位点以粗体显示。靶位点的位置1-19仅与A切割产物相关，因此为清楚起见仅显示为N。带实线的箭头：染色体目标GmTS1的全长A’突出端。带虚线的箭头：GmTS1的T-DNA拷贝的全长A’突出端。图18B：描述了当染色体和T-DNA上的靶位点是相同的GmTS1位点时，A’/A’连接处的微同源。每个框需确认末端是否能够退火，并指示两个A’区域的所有可能的小截断的可能的退火的bp数。十六种组合中的四种预测可能的1bp末端连接：在两种情况下是单个AT配对，在两种情况下是单个CG配对。图18C：描述了染色体上的GmTS1靶位点和T-DNA上的工程化靶位点(GmTS1_4RC)以及各自产生的A’切割产物的图示。PAM位点以斜体显示；23-bp靶位点以粗体显示。靶位点的位置1-19仅与A裂解产物相关，因此为清楚起见，仅显示为N。GmTS1_4RC靶位点内的位置20至23是GmTS1中位置20至23的反向互补(RC)。图18D：描述了当染色体靶位点是GmTS1并且T-DNA靶位点是工程靶位点GmTS1_4RC时，A’/A’连接处的微同源潜力。微同源潜力增加到16个配对中的10个，其中六个可能具有大于1bp的退火。

图19：描述了农杆菌T-DNA载体的配置的示意图，所述载体设计用于通过Cre/lox重组系统在体内产生环状底物，以促进GOI盒在基因组位点的定向整合。Cre介导的P::GOI盒的切除激活gRNA表达。LB和RB表示T-DNA的左边界和右边界序列。Pro＝启动子；GOI＝目标基因。当方向性至关重要时，水平箭头指示元件的方向性。

图20：描述了用于通过同源重组进行定向定点整合的载体的配置的示意图。HR-L：左同源臂，HR-R：右同源臂。

图21：描述了用于通过同源重组进行定向定点整合的载体配置的示意图。HR1：同源臂1，HR2：同源臂2。

图22：描述了农杆菌T-DNA载体的配置的示意图，所述载体设计用于通过Cre/lox重组系统在体内产生环状底物，以促进GOI盒在基因组基因座的定向整合。T-DNA整合后，TALE(转录激活因子样效应子)蛋白与TALE结合位点(TBS)结合，并通过35S最小启动子(min35S)驱动Cre重组酶的转录。Cre介导的Pro::GOI盒的切除断开了TBS与Cre盒的连接，从而限制了Cre表达。

图23：描述了农杆菌T-DNA载体的配置的示意图，所述载体设计为通过Cre/lox重组系统在体内产生多个环状底物以促进GOI盒在基因组位点载体处的定向整合。

图24：描述了农杆菌T-DNA载体的配置的示意图，所述载体被设计成使用病毒复制子在体内产生环状底物以促进GOI盒在基因组位点载体处的定向整合。

具体实施方式

除非另有定义，所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员普遍理解的相同含义。当术语以单数形式提供时，发明人还考虑了本公开各方面由所述术语的复数形式描述的内容。在通过引用并入的参考文献中使用的术语和定义存在差异的情况下，本申请中使用的术语应具有本文给出的定义。使用的其他技术术语在使用它们的领域中所具有的它们的普通含义，例如各种领域专用词典，例如“The AmericanScience Dictionary”(美国传统词典编辑，2011年，Houghton MifflinHarcourt，Boston和New York)，“McGraw-Hill Dictionary of Scientific和TechnicalTerms”(第6版，2002年，McGraw-Hill，New York)，或“Oxford Dictionary of Biology”(第6版，2008年，牛津大学出版社、Oxford和New York)。发明人无意于限于作用机制或作用模式。提供对其的参考仅用于说明目的。

除非另有说明，否则本公开中描述的组合物和方法的实践包含生物化学、化学、分子生物学、微生物学、细胞生物学、植物生物学、基因组学、生物技术和遗传学的常规技术，这些技术在本领域的技术范围内。参见，例如，Green和Sambrook，Molecular Cloning:ALaboratory Manual，第4版(2012年)；Current Protocols In Molecular Biology(F.M.Ausubel等编辑,(1987))；Plant Breeding Methodology(N.F.Jensen,Wiley-Interscience(1988))；Methods In Enzymology系列(学术出版社):PCR 2:A PracticalApproach(M.J.MacPherson,B.D.Hames和G.R.Taylor编辑(1995))；Harlow和Lane,编辑(1988)Antibodies,A Laboratory Manual；Animal Cell Culture(R.I.Freshney编辑(1987))；Recombinant Protein Purification:Principles and Methods,18-1142-75,GE医疗生命科学；C.N.Stewart,A.Touraev,V.Citovsky,T.Tzfira编辑(2011)PlantTransformation Technologies(Wiley-Blackwell)；以及R.H.Smith(2013)Plant TissueCulture:Techniques and Experiments(学术出版社)。

本文引用的任何参考文献，包含例如所有专利、公开的专利申请和非专利出版物，均通过引用整体并入本文。

当呈现一组可选方案时，将具体设想构成所述可选方案组的成员的任何和所有组合。例如，如果从由A、B、C和D组成的组中选择一项，发明人具体单独设想了每个可选方案(例如，单独的A、单独的B等)，以及诸如A、B、D；A和C；B和C等。术语“和/或”在包含两个或多个项目的列表中使用时，是指单独列出的任何一项或与任何一项或多项其他列出的项目的组合。例如，表述“A和/或B”旨在表示A和B中的一个或两个——即单独的A、单独的B或A和B的组合。表述“A、B和/或C”旨在表示单独的A、单独的B、单独的C、A和B的组合、A和C的组合、B和C的组合，或A、B和C的组合。

当本文提供数字范围时，所述范围被理解为包含所述范围的边缘以及所述范围的定义边缘之间的任何数字。例如，“1到10之间”包含1到10之间的任何数字，以及数字1和数字10。

如本文所用，单数和单数形式的术语“一(a)”、“一个(an)”和“该(the)”包含复数指代，除非内容另有明确规定。

现有许多方法可用于转化植物细胞。一种流行的方法涉及使用根癌农杆菌(Agrobacterium tumefaciens)，它能够将来自肿瘤诱导(Ti)质粒的转移DNA(T-DNA)片段插入植物细胞的基因组中。通过切割Ti质粒的右边界(RB)将T-DNA插入植物细胞的基因组中，这会产生从T-DNA的左边界(LB)到RB的单链DNA区域(称为“T链”)。在RB被切割后，单链DNA合成取代了单链DNA区域，LB被切割，且单链T-DNA片段可被整合到植物细胞的基因组中。

尽管农杆菌介导的转化被广泛使用，但一个主要缺点是无法控制T-DNA在植物细胞基因组中的插入位置。在此，申请人开发了用于使用农杆菌介导的转化增加T-DNA靶向定点整合到植物细胞基因组中的组合物。

已知T链会环化。参见Koukolíková-Nicola等，Nature，313-191-196(1985)。环状T链的连接序列恰好出现在通常在Ti质粒的T-DNA区域末端发现的25个核苷酸的直接重复序列内，且证据表明在整合前，单链T-DNA分子被转化为双链的链状DNA(dsDNA)。参见Singer等，Plant Physiol.,160:511-522(2012)。Singer等提出环化双链T-DNA是“死端(deadend)”产物，其不能够插入植物基因组中。

令人惊讶的是，申请人已经发现了一种机制，可以使“死端”环化的双链T-DNA分子复活并允许它们整合到植物的基因组中。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界(LB)序列；(b)第一重组位点和第二重组位点；(c)引导核酸酶的靶位点；(d)可操作地连接至第一启动子的目标序列；(e)右边界(RB)序列，其中引导核酸酶的靶位点和与第一启动子可操作地连接的目标序列位于第一重组位点和第二重组位点之间。一方面，重组核酸构建体还包含编码至少一种选择标记基因的序列，其中编码至少一种选择标记基因的序列包含(a)第二启动子；(b)至少一个内含子；(c)蛋白质编码序列。一方面，第二启动子位于目标序列和RB序列之间，且蛋白质编码序列位于LB序列和目标序列之间。一方面，LB序列和RB序列位于第二启动子和蛋白质编码序列之间。一方面，重组核酸构建体被环化，并且第二启动子序列和RB序列位于LB序列的5’端。一方面，LB序列和RB序列均位于目标序列的5’端。一方面，重组核酸构建体按5’端至3’端顺序包含以下组分：第二启动子、第一重组位点、引导核酸酶的靶位点、目标序列、第二重组位点和至少一种选择标记基因，其中第二启动子和至少一种选择标记基因处于同一方向。一方面，重组核酸构建体按5’端至3’端的顺序包含以下组分：第一重组位点、至少一个选择标记基因、引导核酸酶的靶位点、目标序列、第二启动子，和第二重组位点，其中第二启动子和至少一个选择标记基因处于同一方向。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界(LB)序列；(b)第一重组位点和第二重组位点；(c)与第一启动子可操作地连接的目标序列；(d)引导核酸酶的靶位点；(e)第二启动子；和(f)右边界(RB)序列，其中与第一启动子可操作地连接的目标序列和引导核酸酶的靶位点位于第一重组位点和第二重组位点之间。一方面，重组核酸构建体进一步包含编码引导核酸酶的序列，其中编码引导核酸酶的序列包含第一内含子序列和第二内含子序列。一方面，重组核酸构建体包含位于第一内含子序列和第二内含子序列之间的LB序列和RB序列，其中第一内含子序列和第二内含子序列位于第二启动子和编码引导核酸酶的序列之间，并且其中第二启动子与编码引导核酸酶的序列可操作地连接。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)第一启动子；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第二个启动子可操作地连接的目标序列；和(f)右边界序列，其中引导核酸酶的靶位点和与第二启动子可操作地连接的目标序列位于第一重组位点和第二重组位点之间。一方面，重组核酸构建体还包含至少一个与第三启动子可操作地连接的选择标记基因。一方面，重组核酸构建体还包含编码重组酶的序列。一方面，重组核酸构建体还包含编码引导RNA的序列。一方面，重组核酸构建体还包含编码引导核酸酶的序列。一方面，重组核酸构建体包含按5’端至3’端顺序排列的以下组分：第一启动子、第一重组位点、引导核酸酶的靶位点、与第二启动子可操作地连接的目标序列、第二重组位点，以及编码引导核酸酶的序列，其中第一启动子和编码引导核酸酶的序列处于同一方向。一方面，重组核酸构建体包含按5’端至3’端顺序排列的以下组分：第一启动子、第一重组位点、引导核酸酶的靶位点、与第二启动子可操作地连接的目标序列、第二重组位点，和编码gRNA的序列，其中第一启动子和编码gRNA的序列处于同一方向，并且其中编码引导核酸酶的序列与第三启动子可操作地连接。一方面，重组核酸构建体按5’端至3’端顺序包含以下组分：编码引导核酸酶的序列、第一重组位点、选择标记基因、引导核酸酶的靶位点、与第二启动子可操作地连接的目标序列、第一启动子、第二重组位点和第三启动子，其中编码引导核酸酶的序列和第三启动子处于同一方向，并且其中选择标记基因和第一启动子处于编码引导核酸酶序列和第三个启动子的序列的相反方向。

一方面，本公开提供了重组核酸构建体，其包含：(a)第一左边界(LB)序列；(b)第一重组位点和第二重组位点；(c)与第一启动子可操作地连接的目标序列；(d)引导核酸酶的靶位点；(e)第一右边界(RB)序列；(f)第二RB序列；和(g)第二LB序列，其中与第一启动子可操作地连接的目标序列和引导核酸酶的靶位点位于第一重组位点和第二重组位点之间。一方面，重组核酸构建体进一步包含(h)编码与第二启动子可操作地连接的引导RNA的序列。一方面，重组核酸构建体进一步包含(h)至少一个与第二启动子可操作地连接的选择标记基因的序列。一方面，重组核酸构建体进一步包含(h)编码与第二启动子可操作地连接的引导核酸酶的序列。一方面，重组核酸构建体包含位于第一LB序列和第一RB序列之间的目标序列。一方面，重组核酸构建体包含物理地连接在一个核酸载体中的组分(a)、(b)、(c)、(d)、(e)、(f)和(g)。一方面，重组核酸构建体包含物理地连接在一个核酸载体中的组分(a)、(b)、(c)、(d)、(e)、(f)、(g)和编码与第二启动子可操作地连接的引导DNA的序列。一方面，重组核酸构建体包含物理地连接在一个核酸载体中的组分(a)、(b)、(c)、(d)、(e)、(f)、(g)，和编码与第二启动子可操作地连接的选择标记基因的序列。一方面，重组核酸构建体包含物理地连接在一个核酸载体中的组分(a)、(b)、(c)、(d)、(e)、(f)、(g)和编码与第二启动子可操作地连接的序列。一方面，重组核酸构建体的组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中重组核酸构建体组分的(e)、(f)和(g)物理地连接在第二核酸载体中。一方面，重组核酸构建体的组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中重组核酸构建体的组分(e)、(f)、(g)，和编码与第二启动子可操作地连接的引导RNA的序列物理地连接在第二核酸载体中。一方面，重组核酸构建体的组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中组分(e)、(f)、(g)，和编码至少一个与第二启动子可操作地连接的选择标记基因的序列物理地连接在第二核酸载体中。一方面，重组核酸构建体的组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且组分(e)、(f)、(g)，和编码与第二启动子可操作地连接的引导核酸酶的序列物理地连接在第二核酸载体中。

一方面，本公开提供了重组核酸构建体，其包含：(a)左边界序列；(b)编码选择标记基因的序列；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第一启动子可操作地连接的目标序列；(f)第二启动子；和(g)右边界序列，其中第二启动子和选择标记基因处于同一方向，并且其中引导核酸酶的靶位点和与第一启动子可操作地连接的目标序列位于第一重组之间位点和第二重组位点之间。

一方面，本公开提供了重组核酸构建体，其包含(a)左边界序列；(b)至少一个可操作地连接至第一启动子的引导RNA；(c)第一重组位点和第二重组位点；(d)引导核酸酶的靶位点；(e)与第二个启动子可操作地连接的目标序列；(f)右边界序列，其中引导核酸酶的靶位点和编码与第二启动子可操作地连接的目标序列的序列位于第一重组位点和第二重组位点之间。

一方面，本公开提供了编辑植物细胞基因组的方法，所述方法包含：(a)将本文提供的任何重组核酸构建体提供给至少一个植物细胞；(b)从步骤(a)中选择至少一个植物细胞，其中所述至少一个植物细胞包含插入植物细胞基因组中的目标序列。一方面，所述方法进一步包含(c)从步骤(b)中选择的至少一个植物细胞再生植物。

一方面，本公开包含植物细胞或植物，所述植物细胞或植物包含本文提供的任何重组核酸构建体。

如本文所用，关于核酸(DNA或RNA)分子、蛋白质、构建体、载体等的术语“重组”是指的人造且通常在自然界中不存在的核酸或氨基酸分子或序列，和/或包括核酸分子(DNA或RNA)分子、蛋白质、构建体等存在于自然界中通常不存在的环境中，包含多核苷酸或蛋白质序列的组合，其在没有人为干预的情况下不会自然地连续或紧密靠近地出现的序列，和/或多核苷酸分子、蛋白质、构建体等，其包含至少两个彼此异源的多核苷酸或蛋白质序列。

一方面，本文提供的方法和组合物包含载体。如本文所用，术语“载体”是指用作将外源遗传物质携带到细胞中的载体的DNA分子。一方面，在一个载体中提供重组核酸构建体。一方面，在两个或更多个载体中提供重组核酸构建体。

一方面，来自重组核酸构建体的一个或多个多核苷酸序列被稳定地整合到植物的基因组中。一方面，来自载体的一个或多个多核苷酸序列被稳定地整合到植物的基因组中。

一方面，在单个载体中提供第一核酸序列和第二核酸序列。一方面，在第一载体中提供第一核酸序列，并且在第二载体中提供第二核酸序列。

如本文所用，术语“T链”是指当从载体的右边界(RB)DNA序列开始转录时产生的单链DNA拷贝。在天然存在的Ti质粒中，转移DNA(T-DNA)的合成起始于称为“右边界”(RB)的25个碱基对共有DNA序列，且T链合成终止发生于称为“左边界”(LB)的25bp共有DNA序列。典型地，RB序列或LB序列包含各自的25bp共有DNA序列以及3’端、5’端或两者的侧翼DNA序列。如本文所用，“RB”或“LB”序列是指相应的25bp共有DNA序列以及侧翼DNA序列。一方面，LB序列是截短的边界序列。一方面，RB序列是截短的边界序列。一方面，本文提供的RB DNA序列或LB DNA序列可以是任何长度，使得DNA片段能够通过农杆菌或其他根瘤菌介导的方法转化植物组织(参见美国专利号US 5,731,179和US 6,265,638；以及美国专利公开号US2003/110532；US2005/0183170；US2007/0271627；和US2019/0211344)。一方面，RB DNA序列或LBDNA序列包含至少25个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少50个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少100个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少200个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少300个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少400个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少500个核苷酸。一方面，RB DNA序列或LB DNA序列包含至少600个核苷酸。

如本文所用，“截短的边界序列”是指比天然边界序列短的边界序列并且包含用于RB DNA序列或LB DNA序列的25bp共有DNA序列。作为一个非限制性示例，如果天然RB DNA序列包含300个核苷酸，包含25bp共有DNA序列，则截短的RB DNA序列可以包含等于或少于299个核苷酸，前提是25bp共有DNA序列仍然存在。一方面，“截短的LB序列”是指包含25bp共有DNA序列和来自位于LB共有序列5’端的侧翼序列的片段的DNA序列。一方面，“截短的RB序列”是指包含25bp共有DNA序列和保守的“过度驱动(overdrive)”序列的DNA序列(参见Toro等人，PNAS；85：8558-8562(1988))。另一方面，“截短的RB序列”是指包含25bp共有DNA序列、保守的“过度驱动”序列和来自位于RB共有序列3’端侧翼序列的片段的DNA序列。

一方面，重组核酸构建体包含至少一个LB序列。一方面，重组核酸构建体包含至少两个LB序列。一方面，重组核酸构建体包含至少三个LB序列。一方面，重组核酸构建体包含至少一个RB序列。一方面，重组核酸构建体包含至少两个RB序列。一方面，重组核酸构建体包含至少三个RB序列。

当彼此具有至少一些序列同源性的DNA片段之间发生DNA链交换时，发生位点特异性重组。位点特异性重组酶能够识别并结合“重组位点”，这些位点是由重组酶切割的短的特定DNA序列，允许DNA链交换，随后进行链修复。典型地，每个重组酶蛋白都结合到特定且独特的重组位点。如本文所用，“重组酶”指能够催化DNA内的位点特异性重组事件的酶。重组酶能够切除DNA、插入DNA、反转DNA、易位DNA和/或交换DNA。

若干实施方案涉及T-DNA载体，所述T-DNA载体包含用于位于重组位点之间的定点整合的目标序列。在一些实施方案中，目标序列包含一个或多个引导核酸酶的靶位点。在一些实施方案中，T-DNA载体还包含编码重组酶的表达盒。在一些实施方案中，T-DNA载体进一步包含编码引导核酸酶的表达盒，其中编码引导核酸酶的表达盒被目标序列和重组位点破坏。在一些实施方案中，T-DNA载体还包含编码标记的表达盒，其中编码标记的表达盒被目标序列和重组位点破坏。在一些实施方案中，T-DNA载体还包含分裂标记盒。

一方面，重组酶是酪氨酸重组酶。一方面，酪氨酸重组酶选自下组：Cre重组酶和Flp重组酶。一方面，重组酶是Cre重组酶。Cre-lox是衍生自噬菌体P1的位点特异性重组系统。Cre-lox可用于插入核酸序列、删除核酸序列或易位核酸序列。在所述系统中，Cre重组酶重组一对lox核酸序列。Lox位点包含34个核苷酸，其中第一个和最后13个核苷酸(臂)是回文的。在一些实施方案中，Cre重组酶蛋白结合不同核酸上的两个lox位点并在lox位点切割。切割的核酸被剪接在一起(相互易位)，并且重组完成。在一些实施方案中，Cre重组酶蛋白结合目标序列侧翼的两个lox位点，并从包含目标序列的T-DNA切除一个环。在一些实施方案中，目标序列包含引导核酸酶的靶位点。

在几个实施方案中，本文所述的T-DNA载体包含修饰的lox位点，例如lox66和lox71位点(参见Albert等人，1995，Plant J，7，649-659)。Cre介导的重组会在这些修饰的lox位点之间产生一个野生型loxP位点和一个双突变体lox66-71位点，后者对Cre重组酶显示出非常低的亲和力，因此无法与loxP位点重组。

一方面，重组酶是翻转酶(Flp)。Flp-FRT位点特异性重组系统是来自面包酵母酿酒酵母(Saccharomyces cerevisiae)的2μ质粒。Flp能够诱导翻转酶识别目标(FRT)位点之间的重组。FRT位点包含34个核苷酸。Flp与FRT位点的“臂”结合(一个臂处于相反方向)并在中间核酸序列的任一端切割FRT位点。切割后，Flp重组两个FRT位点之间的核酸序列。

一方面，重组酶是丝氨酸重组酶。一方面，丝氨酸重组酶选自下组：PhiC31整合酶、R4整合酶和TP-901整合酶。一方面，重组酶是PhiC31整合酶。一方面，重组酶是R4整合酶。一方面，重组酶是TP-901整合酶。

一方面，重组酶是Hin重组酶。一方面，重组酶是Dre重组酶。一方面，重组酶是KD重组酶。一方面，重组酶是B2重组酶。一方面，重组酶是B3重组酶。一方面，重组酶是λ整合酶。一方面，重组酶是HK022整合酶。一方面，重组酶是HP1整合酶。一方面，重组酶是Tn3分解酶。一方面，重组酶是Gin重组酶。一方面，重组酶是ParA分解酶。一方面，重组酶是γδ分解酶。一方面，重组酶是Bxb1整合酶。

一方面，重组酶选自下组：Cre重组酶、FLP重组酶、Gin重组酶、Tnpl重组酶、Bxb1整合酶、phiC31整合酶、R4整合酶和TP-901整合酶。

一方面，重组核酸构建体包含至少一个重组位点。一方面，重组核酸构建体包含至少两个重组位点。一方面，重组核酸构建体包含至少三个重组位点。一方面，重组核酸构建体包含至少四个重组位点。一方面，重组核酸构建体包含至少五个重组位点。一方面，重组核酸构建体包含至少六个重组位点。当重组核酸构建体包含编码两种或更多种重组酶的序列时，重组酶可以彼此相同，或者它们可以是两种或更多种不同的重组酶。

一方面，重组位点包含至少10个核苷酸。一方面，重组位点包含至少20个核苷酸。一方面，重组位点包含至少30个核苷酸。一方面，重组位点包含至少40个核苷酸。一方面，重组位点包含至少50个核苷酸。一方面，重组位点包含至少60个核苷酸。一方面，重组位点包含至少70个核苷酸。一方面，重组位点包含至少80个核苷酸。一方面，重组位点包含至少90个核苷酸。一方面，重组位点包含至少100个核苷酸。一方面，重组位点包含10个核苷酸至200个核苷酸。一方面，重组位点包含10个核苷酸至150个核苷酸。一方面，重组位点包含10个核苷酸至100个核苷酸。一方面，重组位点包含10个核苷酸至75个核苷酸。一方面，重组位点包含10个核苷酸至50个核苷酸。一方面，重组位点包含25个核苷酸至200个核苷酸。一方面，重组位点包含25个核苷酸至150个核苷酸。一方面，重组位点包含25个核苷酸至100个核苷酸。一方面，重组位点包含34个核苷酸。一方面，重组位点包含48个核苷酸。

一方面，重组位点是lox位点。一方面，lox位点选自下组：loxP位点、lox2272位点、loxN位点、lox511位点、lox5171位点、lox71位点、lox66位点、loxLTR位点、M2位点、M3位点、M7位点和M11位点。一方面，重组位点是FRT位点。一方面，重组位点是attP位点。一方面，重组位点是attB位点。一方面，重组位点是Hin结合位点。

一方面，重组核酸构建体包含第一重组位点和第二重组位点。一方面，第一重组位点和第二重组位点是lox位点。一方面，第一重组位点和第二重组位点是FRT位点。

一方面，第一重组位点和第二重组位点彼此相同。一方面，第一重组位点和第二重组位点包含相同的序列。一方面，第一重组位点和第二重组位点包含不同的序列。一方面，第一重组位点和第二重组位点是修饰的lox位点，它们只能进行一轮Cre介导的重组，导致产生一个野生型lox位点和一个彼此不相容的双突变位点(参见Albert等，1995，Plant J.,7,649–659)。一方面，第一重组位点是lox66，且第二重组位点是lox71。

一方面，第一重组位点和第二重组位点彼此相容。如本文所用，关于第一重组位点和第二重组位点，“相容”是指相同的重组酶可以作用于两个重组位点并促进它们之间的重组。

如本文所用，“引导核酸酶”是指能够结合并在核酸分子内的特定靶位点处或附近切割(例如，引导核酸酶的靶位点)的核酸酶。

如本文所用，关于靠近特定靶位点，“靠近”是指在靶位点的5’端或3’端的250个核苷酸以内。

一方面，本公开提供了引导核酸酶。一方面，本公开提供了至少一种引导核酸酶。一方面，本公开提供了至少两种引导核酸酶。一方面，本公开提供了编码引导核酸酶的核酸序列。一方面，编码引导核酸酶的核酸序列与启动子可操作地连接。

一方面，本公开提供了编码至少一种引导核酸酶的核酸序列。一方面，本公开提供了编码至少两种引导核酸酶的核酸序列。一方面，本公开提供了编码至少三种引导核酸酶的核酸序列。

一方面，编码引导核酸酶的序列包含第一内含子序列和第二内含子序列。

引导核酸酶结合和/或切割的序列在本文中称为“引导核酸酶的靶位点”或简称为“靶位点”。位于染色体内的靶位点称为“基因组靶位点”。对于由RNA引导核酸酶切割的靶位点，靶位点包含PAM序列和由引导RNA的间隔区序列识别的序列。一方面，引导核酸酶的靶位点位于重组核酸构建体中。一方面，引导核酸酶的靶位点位于目标序列的5’端。一方面，引导核酸酶的靶位点位于目标序列的3’端。一方面，本文提供的重组核酸构建体包含不超过一个引导核酸酶的靶位点。一方面，本文提供的重组核酸构建体缺乏引导核酸酶的第二靶位点。一方面，引导核酸酶的靶位点位于第一重组位点和第二重组位点之间。

一方面，引导核酸酶的靶位点存在于植物的基因组中。一方面，植物的基因组是核基因组。一方面，植物的基因组是线粒体基因组。一方面，植物的基因组是质体基因组。一方面，植物的基因组选自下组：核基因组、线粒体基因组和质体基因组。

一方面，引导核酸酶的相同靶位点存在于植物基因组和重组核酸构建体中。一方面，植物基因组中引导核酸酶的靶位点和重组核酸构建体中引导核酸酶的靶位点相同。一方面，植物基因组中引导核酸酶的靶位点和重组核酸构建体中引导核酸酶的靶位点不相同。

一方面，引导核酸酶的靶位点包含18个核苷酸。一方面，引导核酸酶的靶位点包含19个核苷酸。一方面，引导核酸酶的靶位点包含20个核苷酸。一方面，引导核酸酶的靶位点包含21个核苷酸。一方面，引导核酸酶的靶位点包含22个核苷酸。一方面，引导核酸酶的靶位点包含23个核苷酸。一方面，引导核酸酶的靶位点包含24个核苷酸。一方面，引导核酸酶的靶位点包含25个核苷酸。

一方面，引导核酸酶的靶位点包含至少10个核苷酸。一方面，引导核酸酶的靶位点包含至少15个核苷酸。一方面，引导核酸酶的靶位点包含至少20个核苷酸。一方面，引导核酸酶的靶位点包含至少25个核苷酸。一方面，引导核酸酶的靶位点包含至少30个核苷酸。一方面，引导核酸酶的靶位点包含至少40个核苷酸。一方面，引导核酸酶的靶位点包含至少50个核苷酸。一方面，引导核酸酶的靶位点包含至少60个核苷酸。一方面，引导核酸酶的靶位点包含至少70个核苷酸。一方面，引导核酸酶的靶位点包含至少80个核苷酸。一方面，引导核酸酶的靶位点包含至少90个核苷酸。一方面，引导核酸酶的靶位点包含至少100个核苷酸。一方面，引导核酸酶的靶位点包含至少150个核苷酸。一方面，引导核酸酶的靶位点包含至少200个核苷酸。

一方面，引导核酸酶的靶位点包含10个核苷酸至250个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至200个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至100个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至75个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至50个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至30个核苷酸。一方面，引导核酸酶的靶位点包含10个核苷酸至25个核苷酸。一方面，引导核酸酶的靶位点包含15个核苷酸至30个核苷酸。一方面，引导核酸酶的靶位点包含15个核苷酸至20个核苷酸。

一方面，引导核酸酶选自下组：RNA引导核酸酶、锌指核酸酶(ZFN)、大范围核酸酶、转录激活物样效应物(TALE)核酸酶(TALEN)和TALE-样蛋白质。

一方面，引导核酸酶是RNA引导核酸酶。一方面，RNA引导核酸酶是CRISPR(成簇规律间隔区短回文重复序列)核酸酶。CRISPR核酸酶(例如，Cas12a、Cas9、CasX)是在细菌中发现的蛋白质，它们被引导RNA(“gRNA”)引导至目标核酸分子，其中核酸内切酶可以切割目标核酸分子的一条或两条链。尽管CRISPR核酸酶起源于细菌，但许多CRISPR核酸酶已被证明在真核细胞中发挥作用。

不受任何特定科学理论的限制，CRISPR核酸酶与引导RNA(gRNA)形成复合物，其与靶位点互补的序列杂交，从而将CRISPR核酸酶引导至靶位点。在II类CRISPR-Cas系统中，包含间隔区序列(spacer)在内的CRISPR列阵在遇到识别的入侵DNA时被转录，并被加工成小干扰CRISPR RNA(crRNA)。crRNA包含重复序列和间隔区序列，所述间隔区序列与入侵病原体中的特定原始间隔区序列互补。可以将间隔区序列设计为与真核基因组中的靶序列互补。

CRISPR核酸酶以其活性形式与各自的crRNA结合。CasX(类似于II类核酸内切酶Cas9)需要另一种非编码RNA成分(称为反式激活crRNA(tracrRNA))才能具有功能活性。本文提供的核酸分子可以将crRNA和tracrRNA组合成一个核酸分子，在本文中称为“单引导RNA”(sgRNA)。Cas12a不需要将tracrRNA引导至靶位点；对于Cas12a，单独的crRNA就足够了。gRNA将活性CRISPR核酸酶复合物引导至靶位点，其中CRISPR核酸酶可切割靶位点。

一方面，本公开提供了至少一种引导RNA。一方面，本公开提供了至少两种引导RNA。一方面，本公开提供了至少三种引导RNA。一方面，本公开提供了编码至少一种引导RNA的核酸序列。一方面，编码引导RNA的核酸序列与启动子可操作地连接。一方面，引导RNA是单引导RNA。一方面，引导RNA包含tracrRNA。一方面，引导RNA包含crRNA。

一方面，本公开提供第一引导RNA和第二引导RNA。一方面，第一引导RNA和第二引导RNA各自与启动子可操作地连接。一方面，第一引导RNA与第一启动子可操作地连接，并且第二引导RNA与第二启动子可操作地连接。一方面，第一引导RNA和第二引导RNA与相同启动子可操作地连接。一方面，第一引导RNA和第二引导RNA与不同的启动子可操作地连接。

一方面，引导RNA能够与引导核酸酶的靶位点杂交，或与位于引导核酸酶靶位点50个核苷酸内的核酸序列杂交。

一方面，引导RNA能够与引导核酸酶的靶位点杂交。一方面，引导RNA能够与本文提供的重组DNA构建体中的引导核酸酶的靶位点杂交，但不能与植物基因组中的靶位点杂交。一方面，引导RNA能够与植物基因组中的引导核酸酶的靶位点杂交，但不能与本文提供的重组DNA构建体中的靶位点杂交。一方面，引导RNA能够与重组DNA构建体中的引导核酸酶的第一靶位点和植物基因组中的引导核酸酶的第二靶位点杂交，其中第一和第二靶位点包含相同的序列。

一方面，引导RNA包含至少10个核苷酸。一方面，引导RNA包含至少11个核苷酸。一方面，引导RNA包含至少12个核苷酸。一方面，引导RNA包含至少13个核苷酸。一方面，引导RNA包含至少14个核苷酸。一方面，引导RNA包含至少15个核苷酸。一方面，引导RNA包含至少16个核苷酸。一方面，引导RNA包含至少17个核苷酸。一方面，引导RNA包含至少18个核苷酸。一方面，引导RNA包含至少19个核苷酸。一方面，引导RNA包含至少20个核苷酸。一方面，引导RNA包含至少21个核苷酸。一方面，引导RNA包含至少22个核苷酸。一方面，引导RNA包含至少23个核苷酸。一方面，引导RNA包含至少24个核苷酸。一方面，引导RNA包含至少25个核苷酸。一方面，引导RNA包含至少26个核苷酸。一方面，引导RNA包含至少27个核苷酸。一方面，引导RNA包含至少28个核苷酸。一方面，引导RNA包含至少30个核苷酸。一方面，引导RNA包含至少35个核苷酸。一方面，引导RNA包含至少40个核苷酸。一方面，引导RNA包含至少45个核苷酸。一方面，引导RNA包含至少50个核苷酸。一方面，引导RNA包含至少75个核苷酸。一方面，引导RNA包含至少100个核苷酸。一方面，引导RNA包含至少125个核苷酸。

一方面，引导RNA包含10个核苷酸至150个核苷酸。一方面，引导RNA包含10个核苷酸至125个核苷酸。一方面，引导RNA包含10个核苷酸至100个核苷酸。一方面，引导RNA包含10个核苷酸至75个核苷酸。一方面，引导RNA包含10个核苷酸至50个核苷酸。一方面，引导RNA包含10个核苷酸至40个核苷酸。一方面，引导RNA包含10个核苷酸至30个核苷酸。一方面，引导RNA包含10个核苷酸至20个核苷酸。一方面，引导RNA包含16个核苷酸至28个核苷酸。一方面，引导RNA包含16个核苷酸至25个核苷酸。一方面，引导RNA包含16个核苷酸至20个核苷酸。

一方面，引导核酸酶的靶位点与引导RNA 100％互补。一方面，引导核酸酶的靶位点与引导RNA 99％互补。一方面，引导核酸酶的靶位点与引导RNA 98％互补。一方面，引导核酸酶的靶位点与导向RNA 97％互补。一方面，引导核酸酶的靶位点与引导RNA 96％互补。一方面，引导核酸酶的靶位点与引导RNA 95％互补。一方面，引导核酸酶的靶位点与导向RNA 94％互补。一方面，引导核酸酶的靶位点与引导RNA 93％互补。一方面，引导核酸酶的靶位点与引导RNA 92％互补。一方面，引导核酸酶的靶位点与引导RNA 91％互补。一方面，引导核酸酶的靶位点与引导RNA 90％互补。一方面，引导核酸酶的靶位点与引导RNA 85％互补。一方面，引导核酸酶的靶位点与引导RNA 80％互补。一方面，引导核酸酶的靶位点与引导RNA 75％互补。一方面，引导核酸酶的靶位点与引导RNA 70％互补。

当RNA引导的CRISPR核酸酶和引导RNA形成复合物时，整个系统被称为“核糖核蛋白”。一方面，本公开提供了核糖核蛋白。

通过CRISPR核糖核蛋白切割靶位点的先决条件是在靶位点附近存在保守的原型间隔区相邻基序(Protospacer Adjacent Motif，PAM)。切割可以发生在距离PAM位点一定数量的核苷酸内(例如，对于Cas12a，在18-23个核苷酸之间)，这取决于CRISPR核酸酶。只有I型和II型CRISPR相关蛋白需要PAM位点，并且不同的CRISPR核酸内切酶识别不同的PAM位点。不限于以下实例，Cas12a至少可以识别以下PAM位点：TTTN和YTN；CasX至少可以识别以下PAM位点：TTCN、TTCA和TTC(其中T是胸腺嘧啶；C是胞嘧啶；A是腺嘌呤；Y是胸腺嘧啶或胞嘧啶；且N是胸腺嘧啶、胞嘧啶、鸟嘌呤或腺嘌呤)。一方面，引导核酸酶的靶位点包含PAM位点。

一方面，引导核酸酶的靶位点包含至少一个PAM位点。一方面，引导核酸酶的靶位点与包含至少一个PAM位点的核酸序列相邻。一方面，引导核酸酶的靶位点在至少一个PAM位点的5个核苷酸内。另一方面，引导核酸酶的靶位点在至少一个PAM位点的10个核苷酸内。一方面，引导核酸酶的靶位点在至少一个PAM位点的15个核苷酸内。一方面，引导核酸酶的靶位点在至少一个PAM位点的20个核苷酸内。一方面，引导核酸酶的靶位点在至少一个PAM位点的25个核苷酸内。一方面，引导核酸酶的靶位点在至少一个PAM位点的30个核苷酸内。

Cas12a(也称为Cpf1)是II类V型CRISPR/Cas系统的RNA引导核酸酶。Cas12a核酸酶在切割目标核酸分子时会产生交错切割。

一方面，RNA引导核酸酶是Cas12a核酸酶。一方面，Cas12a核酸酶是毛螺菌科细菌Cas12a(LbCas12a)核酸酶。一方面，Cas12a核酸酶是氨基酸球菌属Cas12a(AsCas12a)核酸酶。一方面，本文提供的Cas12a核酸酶是新弗朗西斯氏菌Cas12a(FnCas12a)核酸酶。一方面，Cas12a核酸酶或编码Cas12a核酸酶的核酸衍生自选自下组的细菌属：链球菌、弯曲杆菌、硝化菌、葡萄球菌、小杆菌、罗斯伯利亚、奈瑟菌、葡萄糖醋杆菌、固氮螺菌、球毛菌、乳杆菌、真杆菌、棒状杆菌、肉杆菌、红杆菌、李斯特菌、帕卢迪杆菌、梭状芽胞杆菌、毛螺菌科、梭状芽胞杆菌、纤毛菌、弗朗西斯菌、军团菌、脂环酸杆菌、嗜甲烷菌、卟啉单胞菌属、普氏菌属、拟杆菌属、螺杆菌属、左旋体属、脱硫弧菌属、脱磺钠菌属、丰佑菌属、结核杆菌属、芽孢杆菌属、短杆菌属、甲基杆菌属、氨基酸球菌属、游隼细菌、丁酸弧菌、短杆菌、史密斯氏菌属、候选菌、莫拉氏菌和钩端螺旋菌。

一方面，RNA引导核酸酶是Cas9核酸酶。一方面，RNA引导核酸酶是CasX核酸酶。一方面，RNA引导核酸酶是CasY核酸酶。一方面，RNA引导核酸酶选自下组：Cas12a、Cas9、CasX、CasY、C2c2、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3和Csf4。

据观察，在整合事件之后，原始染色体序列和整合序列之间的连接包含一个或多个碱基对，这些碱基对不能明确指向是衍生自染色体或整合序列的。据推测，这些短的(通常但不总是6个碱基对或更少)微同源(microhomologies)可能与整合效率有关，参见图14。

序列来源的模糊性可通过至少三种机制发生：(a)片段的平端连接产生模糊区域(例如，artificial的微同源)；(b)“粘性末端”的单链退火和连接，类似于体外限制酶介导的亚克隆，其中5’端或3’端突出的单链DNA区域完美单链退火(例如，完全微同源)；(c)连接部分退火的5’端或3’端单链末端，在链的末端产生一个或多个碱基配对，然后进行碱基对的假定填充和连接以完成插入(例如，部分微同源)，参见图15。还参见实施例5。

与Cas9相比，Cas12a和CasX等酶具有不同的切割模式。Cas9在同一位置切割两条链，留下平端。Cas12a在切割目标核酸分子时产生交错切割，导致每条切割链上出现突出端。Cas12a在23-nt的目标区域切割，所述区域紧接PAM位点。当Cas12a切割时，它在一条链(也称为非目标链)上的位置19(从PAM开始计算)之后和反义链(也称为目标链)上的位置23之后切割，在每条链上生成4-nt 5’端的突出端(参见图16和Zetsche等人，2015年，Cell，163:759-771)。对于包含PAM的靶位点(例如，由RNA引导核酸酶切割的靶位点)，从PAM开始计算核苷酸位置，PAM之后的第一个核苷酸被认为是位置1。对于没有PAM的切割位点的核酸酶，核苷酸位置从目标链上从5’端到3’端的切割位点倒数，距离切割位点最近的核苷酸被认为是位置23。

另请注意，各种版本的Cas12a变体可能会以不同长度的突出端进行切割——例如，已知某些Cas12a变体会在位置18之后进行切割，从而产生5bp的突出端(参见Zetsche等人，2015年，Cell，163：759-771)。CasX还在靶位点上生成交错的末端。例如，由于在非目标链上的PAM位置后切割12-14个核苷酸，在目标链上的PAM位置后切割22-25个核苷酸，DpbCasX生成的产物具有约10个核苷酸的交错末端(参见Liu等人，2019，Nature，566(7743)：28-223)。

如本文所用，“目标链”是指被引导RNA结合的靶位点的DNA链。目标链与“非目标链”互补，后者不受引导RNA的约束。目标链和非目标链都可以被RNA引导核酸酶切割。

出于本公开的目的，含有PAM位点的目标链上的5’突出端表示为“A”。不包含PAM位点的非目标链上的5’突出端表示为A’(参见图16)。A’是A的反向互补，理论上可以完美地重新退火到A突出端。一方面，A’包含10个核苷酸的突出端。一方面，A’包含9个核苷酸的突出端。一方面，A’包含8个核苷酸的突出端。一方面，A’包含7个核苷酸的突出端。一方面，A’包含6个核苷酸的突出端。一方面，A’包含5个核苷酸的突出端。一方面，A’包含4个核苷酸的突出端。一方面，A’包含3个核苷酸的突出端。一方面，A’包含2个核苷酸的突出端。一方面，A’包含1个核苷酸的突出端。

一方面，非目标链包含10个核苷酸的突出端。一方面，非目标链包含9个核苷酸的突出端。一方面，非目标链包含8个核苷酸的突出端。一方面，非目标链包含7个核苷酸的突出端。一方面，非目标链包含6个核苷酸的突出端。一方面，非目标链包含5个核苷酸的突出端。一方面，非目标链包含4个核苷酸的突出端。一方面，非目标链包含3个核苷酸的突出端。一方面，非目标链包含2个核苷酸的突出端。一方面，非目标链包含1个核苷酸突出端。

一方面，目标链包含10个核苷酸的突出端。一方面，目标链包含9个核苷酸的突出端。一方面，目标链包含8个核苷酸的突出端。一方面，目标链包含7个核苷酸的突出端。一方面，目标链包含6个核苷酸的突出端。一方面，目标链包含5个核苷酸的突出端。一方面，目标链包含4个核苷酸的突出端。一方面，目标链包含3个核苷酸的突出端。一方面，目标链包含2个核苷酸的突出端。一方面，目标链包含1个核苷酸突出端。

一方面，目标链突出端包含至少1个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少2个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少3个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少4个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少5个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少6个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少7个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少8个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少9个与基因组靶位点序列互补的核苷酸。一方面，目标链突出端包含至少10个与基因组靶位点序列互补的核苷酸。

一方面，非目标链突出端包含至少1个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少2个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少3个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少4个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少5个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少6个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少7个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少8个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少9个与基因组靶位点序列互补的核苷酸。一方面，非目标链突出端包含至少10个与基因组靶位点序列互补的核苷酸。

一方面，引导核酸酶能够切割基因组靶位点。一方面，本公开提供了一种方法，其包含将本文提供的任何重组DNA构建体引入细胞，其中引导核酸酶切割引导核酸酶的靶位点和基因组靶位点，并且其中目标序列被插入到基因组靶位点。

一方面，引导核酸酶的靶位点内目标链的核苷酸位置20至23的序列是基因组靶位点内目标链的核苷酸位置20至23的序列的反向互补序列。一方面，引导核酸酶的靶位点内目标链的核苷酸位置1至19的序列与基因组靶位点内目标链的核苷酸位置1至19的序列相同。一方面，引导核酸酶的靶位点内目标链的核苷酸位置1至19的序列与基因组靶位点内目标链的核苷酸位置1至19的序列不同。一方面，引导核酸酶的靶位点内目标链的第1至19位核苷酸序列是基因组靶位点内目标链的第1至19位核苷酸序列的反向互补序列。

一方面，本公开提供了工程化的双链供体DNA分子，其包含与至少一个目标序列相邻的引导核酸酶的一个或多个靶位点，其中所述引导核酸酶的一个或多个靶位点内目标链的核苷酸位置20至23的序列是基因组靶位点内的目标链的核苷酸位置20至23的序列的反向互补序列。一方面，引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列与基因组靶位点内的目标链的核苷酸位置1至19的序列相同。一方面，引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列与基因组靶位点内的目标链的核苷酸位置1至19的序列不同。一方面，引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列是基因组靶位点内目标链的核苷酸位置1至19的序列的反向互补。一方面，双链供体DNA分子包含两个或更多个引导核酸酶的靶位点，并且其中双链供体DNA分子包含至少一个位于至少一个目标序列5'端的引导核酸酶的靶位点和至少一个位于至少一个目标序列3'端的引导核酸酶的靶位点。一方面，双链供体DNA分子包含至少两个目标基因。

一方面，本公开提供了将双链供体DNA分子引入细胞的方法。

一方面，在引导核酸酶的靶位点处或附近切割重组核酸构建体后，引导核酸酶产生4个核苷酸的突出端。一方面，引导核酸酶在切割植物基因组中引导核酸酶的靶位点后，或在植物基因组中靶位点的50个核苷酸内的位点处产生4个核苷酸的突出端。

一方面，引导核酸酶是锌指核酸酶(ZFN)。ZFN是合成蛋白质，由融合到FokI限制性核酸酶切割结构域的工程化锌指DNA结合结构域组成。ZFN可设计用于切割几乎任何长的双链DNA以修饰锌指DNA结合域。ZFN由单体形成二聚体，该单体由融合到经过工程化以结合靶DNA序列的锌指阵列的FokI核酸酶的非特异性DNA切割结构域构成。

ZFN的DNA结合域典型地由3-4个锌指阵列组成。相对于锌指∞-螺旋起点的-1、+2、+3和+6位氨基酸，其有助于与目标DNA的位点特异性结合，可以被改变和被定制以适合特定目标序列。其他氨基酸形成共有骨架以生成具有不同序列特异性的ZFN。为ZFN选择目标序列的规则是本领域已知的。

FokI核酸酶结构域需要二聚化以切割DNA，因此需要两个具有其C末端区域的ZFN来结合切割位点的相反DNA链(相隔5-7个核苷酸)。如果两个ZF结合位点是回文的，则ZFN单体可以切割靶位点。如本文所用，术语ZFN是宽泛的，并且包含可以在没有另一个ZFN帮助的情况下切割双链DNA的单体ZFN。术语ZFN也用于指一对ZFN中的一个或两个成员，这些ZFN被工程化为协同工作以在同一位点切割DNA。

不受任何科学理论的限制，因为原则上可以使用多种方法之一重新工程化锌指结构域的DNA结合特异性，因此理论上可以构建定制的ZFN以靶向几乎任何基因序列。用于工程化锌指结构域的公开可用方法，包含相邻装配(CoDA)、OPEN组装(Oligomerized PoolEngineering)和模块组装。

一方面，引导核酸酶是大范围核酸酶。通常在微生物中发现的大范围核酸酶是具有高活性和长识别序列(>14nt)的独特酶，可导致目标DNA的位点特异性消化。天然存在的大范围核酸酶的工程化版本典型地具有扩展的DNA识别序列(例如，14nt到40nt)。大范围核酸酶的工程化可比ZFN和TALEN的工程化更具挑战性，因为大范围核酸酶的DNA识别和切割功能在单个结构域中交叉在一起。专门的诱变和高通量筛选方法已被用于创建识别独特序列并具有改进的核酸酶活性的新型大范围核酸酶变体。

一方面，引导核酸酶是转录激活物样效应物核酸酶(TALEN)。一方面，引导核酸酶是转录激活物样效应物样(TALE样)蛋白。

TALEN是通过将转录激活因子样效应(TALE)DNA结合结构域与FokI核酸酶结构域融合而产生的人工限制酶。当TALEN对的每个成员都与靶位点侧翼的DNA位点结合时，FokI单体二聚化并在靶位点引起双链DNA断裂。除了野生型FokI切割结构域外，具有突变的FokI切割结构域变体会被设计以提高切割特异性和切割活性。FokI结构域作为二聚体发挥作用，需要两个具有独特DNA结合域的构建体，用于目标基因组中具有合适方向和间距的位点。。TALEN DNA结合域和FokI切割域之间的氨基酸残基数量以及两个单独的TALEN结合位点之间的碱基数量都是实现高水平活性的参数。

TALEN是通过将转录激活因子样效应(TALE)DNA结合结构域与核酸酶结构域融合而产生的人工限制酶。一方面，核酸酶选自下组：PvuII、MutH、TevI和FokI、AlwI、MlyI、SbfI、SdaI、StsI、CleDORF、Clo051、Pept071。当TALEN对的每个成员都与靶位点侧翼的DNA位点结合时，FokI单体二聚化并在靶位点引起双链DNA断裂。

如本文所用，术语TALEN包含可以在没有另一个TALEN帮助的情况下切割双链DNA的单体TALEN。术语TALEN也用于指代在同一位点共同切割DNA的一对TALEN中的一个或两个成员。

转录激活因子样效应子(TALE)可以被工程化以结合几乎任何DNA序列。TALE蛋白是衍生自黄单胞菌属的各种植物细菌病原体的DNA结合域。X病原体在感染期间将TALE分泌到宿主植物细胞中。TALE移动到细胞核，在那里它识别并结合宿主基因组中特定基因启动子区域中特定DNA序列启动子区域中的特定DNA序列，从而调节基因表达。TALE具有中心DNA结合域，由33-34个氨基酸的13-28个重复单体组成。除了第12位和第13位的高变氨基酸残基外，每个单体的氨基酸都高度保守。这两个可变氨基酸称为重复可变双残基(RVD)。RVD的氨基酸对NI、NG、HD和NN分别优先识别腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤/腺嘌呤，RVDs的调节可以识别连续的DNA碱基。氨基酸序列和DNA识别之间的这种简单关系，允许通过选择含有适当RVD的重复片段组合来工程化特定的DNA结合域。如本文所用，“TALE结合位点”(TBS)是指被TALE蛋白的TALE DNA结合结构域识别和结合的特定DNA序列。

除了野生型FokI切割结构域外，具有突变的FokI切割结构域变体会被设计以提高切割特异性和切割活性。FokI结构域作为二聚体发挥作用，，需要两个具有独特DNA结合结构域的构建体，用于目标基因组中具有合适方向和间距的位点。TALEN DNA结合域和FokI切割域之间的氨基酸残基数量以及两个单独的TALEN结合位点之间的碱基数量都是实现高水平活性的参数。PvuII、MutH和TevI切割域是用于TALE的FokI和FokI变体的有用替代品。当与TALE偶联时，PvuII充当高度特异性的切割域(参见Yank等，2013.PLoS One.8:e82539)。MutH能够在DNA中引入链特异性缺口(参见Gabsalilow等人，2013.Nucleic AcidsResearch.41:e83)。TevI在靶位点引入DNA双链断裂(参见Beurdeley等，2013.NatureCommunications.4:1762)。

氨基酸序列和TALE结合域的DNA识别之间的关系允许设计的蛋白质。DNA Works等软件程序可用于设计TALE结构。设计TALE构建体的其他方法是本领域技术人员已知的。参见Doyle等，Nucleic Acids Research(2012)40：W117-122；Cermak等，Nucleic AcidsResearch(2011)39:e82和tale-nt[dot]cac[dot]cornell[dot]edu/about。

如本文所用，“目标序列”是指待整合到基因组靶序列中的多核苷酸序列。一方面，目标序列对于它被整合到其中的植物基因组是外源的。一方面，目标序列对于它被整合到其中的植物基因组是内源的。

一方面，本公开提供了目标基因。如本文所用，目标基因是指可以产生功能单元(例如但不限于，例如蛋白质或非编码RNA分子)的多核苷酸序列。一方面，本公开提供了目标基因，其编码赋予植物农艺学益处(例如抗虫性、除草剂抗性、抗病性、抗旱性、氮利用效率、蛋白质表达等)的蛋白质。一方面，本公开提供了至少一种目标基因。一方面，本公开提供了至少两种目标基因。一方面，本公开提供了至少三种目标基因。

一方面，重组核酸构建体包含至少一个目标序列，用于整合到植物基因组中的选定靶位点。一方面，重组核酸构建体包含至少两个目标序列，用于整合到植物基因组中的选定靶位点。

目标序列可包含以下一个或多个：启动子、增强子序列、前导序列、转录起始位点、蛋白质编码序列、转录终止位点、聚腺苷酸化位点、一个或多个外显子、一个或多个内含子、5’端-UTR、3’端-UTR、重组酶结合位点、目标基因或其任何组合。一方面，目标序列编码非编码RNA分子或其前体。一方面，目标序列编码蛋白质。一方面，目标序列包含表达盒。一方面，目标序列包含引导核酸酶的靶位点。

非编码RNA分子的非限制性实例包含微小RNA(miRNA)、miRNA前体(pre-miRNA)、小干扰RNA(siRNA)、小RNA(长度为18至26个核苷酸)和编码它们的前体、异色siRNA(hc-siRNA)、Piwi相互作用RNA(piRNA)、发夹双链RNA(hairpin dsRNA)、反义作用siRNA(ta-siRNA)、天然存在的反义siRNA(nat-siRNA)、CRISPR RNA(crRNA)、示踪RNA(tracrRNA)、引导RNA(gRNA)和单引导RNA(sgRNA)。一方面，非编码RNA分子包含miRNA。一方面，非编码RNA分子包含siRNA。一方面，非编码RNA分子包含ta-siRNA。一方面，非编码RNA分子选自下组：miRNA、siRNA和ta-siRNA。

一方面，目标基因可操作地连接至启动子。一方面，目标基因可操作地连接至其天然启动子。一方面，目标基因可操作地连接至异源启动子。如本文所用，关于启动子的术语“异源”是相对于其相关的可转录DNA序列、编码序列或基因(或转基因)具有不同起源的启动子序列，和/或非天然存在于待转化的植物物种中的启动子序列。术语“异源”可以更广泛地指两个或多个DNA分子或序列的组合，例如启动子和相关的可转录DNA序列、编码序列或基因，当这种组合是人造的且通常不存在于自然界时。相反，关于启动子的术语“天然”是相对于其相关的可转录DNA序列具有相同起源并且与相关的可转录DNA序列天然存在的启动子序列。

如本文所用，术语“启动子”是指含有RNA聚合酶结合位点、转录起始位点和/或TATA盒并辅助或促进相关的可转录多核苷酸序列和/或基因的转录和表达的DNA序列(或转基因)。启动子可以合成产生、改变或衍生自已知或天然存在的启动子序列或其他启动子序列。启动子还可以包括包含两个或多个异源序列的组合的嵌合启动子。因此，本申请的启动子可以包括在组成上与本文已知或提供的其他启动子序列相似但不相同的启动子序列的变体。启动子可根据与启动子可操作地连接的相关编码或可转录序列或基因(包含转基因)的表达模式有关的各种标准进行分类，例如组成型、发育型、组织特异型、细胞周期特异型、诱导型等

一方面，重组核酸构建体包含至少一个启动子。一方面，重组核酸构建体包含至少两个启动子。一方面，重组核酸构建体包含至少三个启动子。一方面，重组核酸构建体包含至少四个启动子。一方面，重组核酸构建体包含至少五个启动子。

如本文所用，“有效连接”是指两个或多个元件之间的功能连接。例如，目标基因和调节序列(例如，启动子)之间的可操作连接是允许目标基因表达的功能性连接。可操作地连接的元件可以是连续的或不连续的。

在植物的所有或大部分组织中驱动表达的启动子被称为“组成型”启动子。在特定时期或发育阶段驱动表达的启动子被称为“发育”启动子。“诱导型”启动子是响应环境刺激(如热、冷、干旱、光或其他刺激(如伤害或化学应用))而启动转录的启动子。启动子也可以根据其来源进行分类，例如异源、同源、嵌合、合成等。

一方面，本文提供的启动子是组成型启动子。在另一方面，本文提供的启动子是诱导型启动子。一方面，本文提供的启动子是组织特异型启动子。一方面，本文提供的启动子选自下组：组成型启动子、诱导型启动子和组织特异型启动子。

RNA聚合酶III(Pol III)启动子可用于驱动非蛋白质编码RNA分子的表达。一方面，本文提供的启动子是Pol III启动子。一方面，本文提供的Pol III启动子与编码非蛋白质编码RNA的核酸分子可操作地连接。在另一方面，本文提供的Pol III启动子与编码单引导RNA的核酸分子可操作地连接。另一方面，本文提供的Pol III启动子与编码CRISPR RNA(crRNA)的核酸分子可操作地连接。一方面，本文提供的Pol III启动子与编码示踪RNA(tracrRNA)的核酸分子可操作地连接。

Pol III启动子的非限制性实例包含U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。参见，例如，Schramm和Hernandez,2002,Genes&Development,16:2593-2620，其全部内容通过引用并入本文。一方面，本文提供的Pol III启动子选自下组：U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。一方面，本文提供的引导RNA与选自下组的启动子可操作地连接：U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。一方面，本文提供的引导RNA与选自下组的启动子可操作地连接：U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。一方面，本文提供的CRISPR RNA与选自下组的启动子可操作地连接：U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。一方面，本文提供的示踪剂RNA与选自下组的启动子可操作地连接：U6启动子、H1启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。

一方面，本文提供的启动子是大丽花花叶病毒(DaMV)启动子。一方面，本文提供的启动子是U6启动子。一方面，本文提供的启动子是肌动蛋白启动子。一方面，本文提供的启动子是花椰菜花叶病毒(CaMV)35S启动子。一方面，本文提供的启动子是泛素蛋白启动子。

一方面，组成型启动子选自下组：CaMV35S启动子、肌动蛋白启动子和泛素启动子。

在本文中描述可使用的启动子的例子包含但不限于：美国专利第6,437,217号(玉米RS81启动子)，美国专利第5,641,876号(水稻肌动蛋白启动子)，美国专利第6,426,446号(玉米RS324启动子)，美国专利第6,429,362号(玉米PR-1启动子)，美国专利第6,232,526号(玉米A3启动子)，美国专利第6,177,611号(组成型玉米启动子)，美国专利第5,322,938、5,352,605、5,359,142和5,530,196号(35S启动子)，美国专利第6,433,252号(玉米L3油质蛋白启动子)，美国专利第6,429,357号(水稻肌动蛋白2启动子和水稻肌动蛋白2内含子)，美国专利第5,837,848号(根特异性启动子)，美国专利第6,294,714号(光诱导启动子)，美国专利第6,140,078号(盐诱导型启动子)，美国专利第6,252,138号(病原体诱导型启动子)，美国专利第6,175,060号(磷缺乏诱导型启动子)，美国专利第6,635,806号(γ-薏苡素启动子)和美国专利申请号09/757,089(玉米叶绿体醛缩酶启动子)。可以使用的其他启动子是胭脂碱合酶(nopaline synthase,NOS)启动子(Ebert等，1987)、章鱼碱合酶(octopinesynthase,OCS)启动子(其携带在根癌农杆菌的肿瘤诱导质粒上)、花椰菜病毒启动子，例如花椰菜花叶病毒(cauliflower mosaic virus,CaMV)19S启动子(Lawton等，PlantMolecular Biology(1987)9:315-324)、CaMV35S启动子(Odell等，Nature(1985)313:810-812)、玄参花叶病毒35S-启动子(美国专利第6,051,753；5,378,619号)，蔗糖合酶启动子(Yang和Russell,Proceedings of the National Academyof Sciences,USA(1990)87:4144-4148)，R基因复合启动子(Chandler等，Plant Cell(1989)1:1175-1183)，以及叶绿素a/b结合蛋白基因启动子、PC1SV(美国专利第5,850,019号)和AGRtu.nos(GenBank登录号V00087；Depicker等，Journal of Molecular和Applied Genetics(1982)1:561-573；Bevan等,1983)启动子。

也可以使用和构建启动子杂交体以增强转录活性(参见美国专利第5,106,739号)，或结合所需的转录活性、诱导性和组织特异型或发育特异型。在植物中起作用的启动子包含但不限于诱导的、病毒的、合成的、组成型的、时间调节的、空间调节的和时空调节的启动子。组织增强的、组织特异型的或发育调节的其他启动子也是本领域已知的并且预期在本公开的实践中具有实用性。

由于选择剂(如抗生素或除草剂)的存在，选择标记可用于帮助选择转化的细胞或组织，其中选择标记基因提供对选择剂的耐受性或抗性。因此，选择剂可以偏向或有利于表达选择标记基因的转化细胞的存活、发育、生长、增殖等。常用的选择标记基因包含但不限于那些赋予抗生素耐受性或抗性的基因，例如卡那霉素(kanamycin)和巴龙霉素(paromomycin,nptII)、潮霉素B(hygromycin B,aphIV)、链霉素(streptomycin)或大观霉素(spectinomycin,aadA)和庆大霉素(gentamycin,aac3和aacC4)，或对草铵膦(glufosinate,bar或pat)、麦草畏(dicamba,DMO)和草甘膦(glyphosate,aroA或Cp4-EPSPS)等除草剂具有耐受性或抗性的那些。也可以使用选择标记基因，其提供视觉筛选转化体的能力。非限制性实例包含萤光素酶或绿色荧光蛋白(GFP)，或表达β葡糖醛酸糖苷酶或uidA基因(GUS)的基因，其各种显色底物是已知的。一方面，本文提供的核酸分子包含选自下组的选择标记基因：nptII、aphIV、aadA、aac3、aacC4、bar、pat、DMO、EPSPS、aroA、萤光素酶、GFP和GUS。

一方面，本公开提供了选择标记基因。一方面，本公开提供了编码选择标记基因的序列。一方面，本公开提供了至少一种选择标记基因。一方面，本公开提供了至少两种选择标记基因。一方面，本公开提供了至少三种选择标记基因。一方面，重组核酸构建体包含至少一种选择标记基因。

一方面，编码选择标记基因的序列与启动子可操作地连接。一方面，编码选择标记基因的序列包含至少一个内含子。一方面，编码选择标记基因的序列包含至少两个内含子。一方面，内含子包含已分裂成两个或更多个内含子序列的单个内含子序列。

一方面，编码选择标记基因的序列包含蛋白质编码序列。一方面，编码至少一个可选择标记的序列包含(a)启动子；(b)至少一个内含子；和(c)蛋白质编码序列。一方面，重组核酸构建体包含至少一个编码至少一个选择标记基因的序列。一方面，重组核酸构建体包含至少两个编码至少两个选择标记基因的序列。

一方面，本公开提供组合物和方法，用于利用来自双生病毒和纳米病毒的复制酶蛋白和长基因间区(LIR)序列来促进目标DNA序列在植物基因组中的选定位置处的整合。双生病毒科和纳米病毒科是具有环状ssDNA基因组的植物感染病毒科。双生病毒和纳米病毒典型地由滚环机制进行复制。复制起始蛋白/复制酶(Rep)识别大基因间区(LIR)中的一个域，并在LIR发夹结构上发现的9-nt保守位点对DNA进行切割，以促进滚环复制。结果，新合成的ssDNA复制子形成并再次转化为dsDNA复制子。如本文所用，“长基因间区”、“长基因间区重复序列”或“LIR”是指含有复制酶/rep结合位点的长基因间区域，该区域可以介导病毒复制酶/Rep蛋白的切除和复制。LIR包含在滚环复制过程中被同源病毒复制酶蛋白识别、结合和切割的保守或部分保守位点。一方面，LIR衍生自双生病毒。一方面，LIR衍生自大豆退绿斑病毒。一方面，LIR衍生自纳米病毒。一方面，LIR衍生自蚕豆坏死黄化病毒。如本文所用，“复制酶”或“复制起始蛋白”或“病毒复制酶”或“Rep”是指能够复制与其同源LIR序列相关的DNA的蛋白质。一方面，复制酶衍生自双生病毒。一方面，复制酶衍生自大豆退绿斑病毒。一方面，复制酶衍生自纳米病毒。一方面，复制酶衍生自蚕豆坏死黄病毒。

若干实施例涉及用于通过在目标DNA序列侧翼具有LIR序列并提供同源复制酶来提供目标DNA序列的多个拷贝以用于在植物基因组中的选定位点处定向整合的方法和组合物。在一些实施方案中，目标DNA序列包含用于引导核酸酶的靶位点(例如，TALEN靶位点、ZFN靶位点、Cas12a靶位点、Cas9靶位点、Isce1靶位点等)。在一些实施方案中，目标DNA序列包含一个或多个同源臂。在一些实施方案中，通过农杆菌介导的转化将目标DNA序列和侧翼LIR序列提供给T-DNA上的植物细胞。在一些实施方案中，T-DNA还包含以下一个或多个：编码复制酶的表达盒、编码引导核酸酶的表达盒、编码选择标记的表达盒、编码一个或多个引导RNA的表达盒，其中在LIR序列之间不提供一个或多个表达盒。在一些实施例中，引导核酸酶切割植物基因组中的靶位点。在一些实施方案中，引导核酸酶切割植物基因组中的靶位点和目标DNA序列中的靶位点。在一些实施方案中，T-DNA包含一个或多个表达盒，所述表达盒编码靶向植物基因组中的位点的引导RNA和靶向目标DNA序列中的位点的引导RNA。在一些实施方案中，提供了第二T-DNA，其进一步包含编码复制酶的表达盒。

纳米病毒科包含两个属：巴布病毒属和纳米病毒属。所述家族中的所有病毒都是多部分的，这意味着它们将其基因组保持在环状正义ssDNA的多个片段中。纳米病毒的实例包含蚕豆坏死黄病毒(faba bean necrotic yellow virus,FBNYV)、地下三叶草矮化病毒(ubterranean clover stunt virus,SCSV)、紫云英矮化病毒(milk vetch dwarf virus,MDV)、香蕉束顶病毒(banana bunchy top virus,BBTV)、蕉麻束顶病毒(abaca bunchy topvirus,ABTV)、椰子叶腐病病毒(coconut foliar decay virus,CFDV)、豆蔻浓密矮缩病毒(cardamom bushy dwarf virus,CBDV)、黑军医卷叶病毒(black medic leaf roll virus,BMLRV)和豌豆黄矮病毒(pea yellow stunt virus,PYSV)。

双生病毒科是一个更大的科，包含14个属。这些包含贝克病毒(Becurtovirus)、贝戈莫病毒(Begomovirus)、头孢病毒(Capulavirus)、环状病毒(Curtovirus)、画眉病毒(Eragrovirus)、草状病毒(Grablovirus)、马斯特病毒(Mastrevirus)、拓扑病毒(Topocuvirus)和转角病毒(Turncurtovirus)。双生病毒的实例包含玉米条纹病毒(Maizestreak virus,MSV)、大豆退黄斑病毒(Soybean Chlorotic spot virus,SCSV)、卷心菜卷叶病毒(cabbage leaf curl virus,CLCV/CaLCuV)、番茄金花叶病毒(tomato goldenmosaic virus,TGMV)、豆黄矮病毒(bean yellow dwarf virus,BeYDV；也称为鹰嘴豆褪绿矮缩病毒(chickpea chlorotic dwarf virus))、非洲木薯花叶病毒(African cassavamosaic virus)、小麦矮缩病毒(wheat dwarf virus,WDV)、芒条状肥大病毒(miscanthusstreak mastrevirus)、烟草黄矮病毒(tobacco yellow dwarf virus)、番茄黄曲叶病毒(tomato yellow leaf curl virus,TyLCV)、豆金花叶病毒(bean golden mosaic virus)、甜菜卷顶病毒(beet curly top virus)和番茄假卷曲顶病毒(tomato pseudo-curly topvirus)。一方面，本文提供的目标序列被整合到植物基因组中。一方面，将目标序列整合到植物基因组中包含定点整合。

如本文所用，“定点整合”是指全部或部分所需序列(例如，目标序列)被插入或整合到植物基因组内的所需位点或基因座(例如，目标序列)。一方面，重组核酸构建体进一步包含第一同源臂(HR1)和第二同源臂(HR2)。如本文所用，“同源臂”是指序列与植物基因组内靶位点处或附近的序列基本相同或基本互补。在一些实施方案中，同源臂至少约2个、至少约3个、至少约4个、至少约5个、至少约6个、至少约7个、至少约8个、至少约9个、至少约10个、至少约20个、至少约25个、至少约30个、至少约35个、至少约40个、至少约45个、至少约50个、至少约55个、至少约60个、至少约65个、至少约70个、至少约75个、至少约80个、至少约85个、至少约90个、至少约95个、至少约100个、至少约150个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个或更多个核苷酸。同源臂可以通过同源重组将目标序列整合到植物基因组内的靶位点，其中同源臂与植物基因组内靶位点处或附近的序列基本相同或基本互补。一方面，目标序列包含在其5’端的同源臂和在其3’端的同源臂。一方面，引导核酸酶的靶位点位于同源臂之间。一方面，目标序列包含引导核酸酶的靶位点，其位于序列之外，两侧是同源臂。一方面，重组核酸构建体包含与两个同源臂之间的间隔区互补的靶序列。

一方面，本文提供的方法包含目标序列(例如，目标基因、表达元件、编码非编码RNA的序列、重组位点、引导核酸酶的靶位点、转录终止位点等)进入植物细胞的基因组的定点整合。

对于定点整合，首先可以通过在此提供的引导核酸酶或核糖核蛋白(例如Cas12a系统、Cas9系统等)在植物基因组中的引导核酸酶的靶位点产生双链断裂(DSB)或缺口。在存在目标序列的情况下，DSB或缺口可以通过目标序列和目标序列的同源臂之间的同源重组(HR)或通过非同源末端连接(NHEJ)进行修复，或通过微同源介导的末端连接(MMEJ)导致全部或部分目标序列定点整合到植物基因组中引导核酸酶的靶位点中，以在DSB或缺口位点产生定向插入事件。

一方面，定点整合包含使用细胞内源性的NHEJ修复机制。一方面，定点整合包含使用细胞内源性HR修复机制。一方面，定点整合包含使用细胞内源性的MMEJ修复机制。

一方面，本公开提供了包含本文提供的重组DNA构建体的植物。一方面，本公开提供了包含本文提供的重组DNA构建体的植物细胞。一方面，本公开提供了包含由本文提供的方法提供的目标整合序列的植物。一方面，本公开提供了包含由本文提供的方法提供的目标整合序列的植物细胞。

任何植物或植物细胞都可以与本文提供的方法和组合物一起使用。一方面，植物是被子植物。一方面，植物是裸子植物。一方面，植物是单子叶植物。一方面，植物是双子叶植物。一方面，植物细胞是被子植物细胞。一方面，植物细胞是裸子植物细胞。一方面，植物细胞是单子叶植物细胞。一方面，植物细胞是双子叶植物细胞。

一方面，植物或植物细胞是选自下组的植物或植物细胞：葱科(Alliaceae)、漆树科(Anacardiaceae)、伞形科(Apiaceae)、槟榔科(Arecaceae)、菊科(Asteraceae)、十字花科(Brassicaceae)、云实科(Caesalpiniaceae)、葫芦科(Cucurbitaceae)、杜鹃花科(Ericaceae)、豆科(Fabaceae)、胡桃科(Juglandaceae)、锦葵科(Malvaceae)、含羞草科(Mimosaceae)、桑科(Moraceae)、芭蕉科(Musaceae)、兰科(Orchidaceae)、凤蝶科(Papilionaceae)、松科(Pinaceae)、禾本科(Poaceae)、蔷薇科(Rosaceae)、芸香科(Rutaceae)、茜草科(Rubiaceae)和茄科(Solanaceae)。

一方面，植物选自下组：玉米植物、水稻植物、高粱植物、小麦植物、紫花苜蓿植物、大麦植物、小米植物、黑麦植物、甘蔗植物、棉花植物、大豆植物、油菜植物、番茄植物、洋葱植物、黄瓜植物、拟南芥植物和马铃薯植物。一方面，植物细胞选自下组：玉米细胞、水稻细胞、高粱细胞、小麦细胞、苜蓿细胞、大麦细胞、小米细胞、黑麦细胞、甘蔗细胞，棉花细胞、大豆细胞、油菜细胞、番茄细胞、洋葱细胞、黄瓜细胞、拟南芥细胞和马铃薯细胞。

一方面，植物是玉米植物。一方面，植物是大豆植物。一方面，植物细胞是玉米细胞。一方面，植物细胞是大豆细胞。

一方面，将本文提供的重组核酸构建体提供给植物细胞或转化到植物细胞中。农杆菌介导的转化在美国专利第5,159,135；5,824,877；5,591,616；6,384,301；5,750,871；5,463,174；和5,188,958号中有详细描述，所有这些都通过引用并入本文。

任何合适的植物细胞都可用于农杆菌介导的转化。用于转化的受体植物细胞或外植体目标包含但不限于种子细胞、果实细胞、叶细胞、子叶细胞、下胚轴细胞、分生组织细胞、胚细胞、胚乳细胞、根细胞、芽细胞、干细胞、荚细胞、花细胞、花序细胞、茎细胞、花梗细胞、花柱细胞、柱头细胞、花托细胞、花瓣细胞、萼片细胞、花粉细胞、花药细胞、花丝细胞、子房细胞、胚珠细胞、果皮细胞、韧皮部细胞、芽细胞或维管组织细胞。一方面，本公开提供了植物叶绿体。另一方面，本公开提供了表皮细胞、保卫细胞、毛状体细胞、根毛细胞、贮藏根细胞或块茎细胞。一方面，本公开提供原生质体。一方面，本公开提供植物愈伤组织细胞。

可以从中再生出可育植物的任何细胞都被认为是用于实施本公开的有用受体细胞。愈伤组织可以从各种组织来源开始，包含但不限于未成熟胚或胚的部分、幼苗顶端分生组织、小孢子等。那些能够增殖为愈伤组织的细胞可以作为转化的受体细胞。用于制备本公开的转基因植物的实用转化方法和材料(例如，各种培养基和受体靶细胞、未成熟胚的转化和可育转基因植物的后续再生)公开于例如美国专利第6,194,636和6,232,526号以及美国专利申请号2004/0216189中，所有这些都通过引用并入本文。

转化的外植体、细胞或组织可以进行额外的培养步骤，例如本领域已知的愈伤组织诱导、选择、再生等。含有重组DNA插入的转化细胞、组织或外植体可根据本领域已知的方法在培养物、塞(plugs)或土壤中生长、发育或再生为转基因植物。一方面，本公开提供了不是繁殖材料并且不介导植物的自然繁殖的植物细胞。一方面，本公开还提供植物细胞，其是繁殖材料并介导植物的自然繁殖。一方面，本公开提供了不能通过光合作用维持自身的植物细胞。一方面，本公开提供了植物体细胞。与种系细胞相反，体细胞不介导植物繁殖。一方面，本公开提供了非生殖植物细胞。

术语“多核苷酸”或“核酸分子”的使用不旨在将本公开限制为包含脱氧核糖核酸(DNA)的多核苷酸。例如，还设想了核糖核酸(RNA)分子。本领域普通技术人员将认识到，多核苷酸和核酸分子可包含脱氧核糖核苷酸、核糖核苷酸或核糖核苷酸和脱氧核糖核苷酸的组合。该脱氧核糖核苷酸和核糖核苷酸包含天然存在的分子和合成的类似物。本公开的多核苷酸还涵盖所有形式的序列，包含但不限于单链形式、双链形式、发夹、茎环结构等。一方面，本文提供的核酸分子是DNA分子。一方面，本文提供的核酸分子是RNA分子。一方面，本文提供的核酸分子是单链的。一方面，本文提供的核酸分子是双链的。

核酸分子由于其结构的性质而具有方向性或“取向”。典型地，单链DNA或RNA具有5’端，其中磷酸基团连接至核糖环的5’碳，以及3’端，其中羟基连接至核糖环的3’碳。核酸以正向或5’端到3’端方向转录。如果称两个序列处于“相同方向”，则它们在核酸链中都处于5’端到3’端方向，或者它们都处于3’端到5’端方向。如果一个序列处于5’端到3’端方向，则称它与3’端到5’端方向的序列处于相反方向。

可使用本领域常规技术分离核酸。例如，可以使用任何方法分离核酸，包含但不限于重组核酸技术和/或聚合酶链式反应(PCR)。一般的PCR技术在例如PCR Primer:ALaboratory Manual,Dieffenbach&Dveksler,Eds.,Cold Spring Harbor LaboratoryPress,1995中有所描述。重组核酸技术包含，例如，限制酶消化和连接，其可用于分离核酸。分离的核酸也可以化学合成，作为单个核酸分子或作为一系列寡核苷酸。可以通过已知方法从天然来源(例如生物样品)中纯化多肽，例如DEAE离子交换、凝胶过滤和羟基磷灰石层析。也可以例如通过在表达载体中表达核酸来纯化多肽。此外，可以通过化学合成获得纯化的多肽。可以使用任何合适的方法测量多肽的纯度程度，例如柱层析、聚丙烯酰胺凝胶电泳或HPLC分析。

不受限制地，可以使用杂交来检测核酸。Sambrook等详细的讨论了核酸之间的杂交(1989年，Molecular Cloning:A Laboratory Manual,第2版，Cold Spring HarborLaboratory出版社，Cold Spring Harbor,NY)。

如本文所用的关于两个或多个核苷酸或蛋白质序列的术语“同一性百分比”或“同一百分比”通过以下方式计算：(i)在比较窗口中比较两个最佳比对的序列(核苷酸或蛋白质)，(ii)确定两个序列中出现相同核酸碱基(对于核苷酸序列)或氨基酸残基(对于蛋白质)的位置的数量，以产生匹配位置的数量，(iii)将匹配位置的数量除以比较窗口中总数量的位置，然后(iv)将所述商乘以100％以产生同一性百分比。如果在没有指定特定比较窗口的情况下计算与参考序列有关的“百分比同一性”，则通过将比对区域上匹配位置的数量除以参考序列的总长度来确定百分比同一性。因此，为了本申请的目的，当两个序列(查询和目标)最佳比对时(考虑到它们比对中的间隙)，查询序列的“同一性百分比”等于两个序列之间相同位置的数量序列除以查询序列在其长度(或比较窗口)内的位置总数，然后乘以100％。当序列同一性的百分比用于参考蛋白质时，考虑到不相同的残基位置通常会因保守氨基酸取代而不同，其中氨基酸残基被具有相似化学性质(例如，电荷或疏水性)的其他氨基酸残基取代，因此不会改变分子的功能特性。当序列在保守取代方面不同时，序列同一性百分比可以向上调整以校正取代的保守性质。因此类保守取代而不同的序列被称为具有“序列相似性”或“相似性”。

如本文所用的关于两个核苷酸序列的术语“序列互补百分比”或“互补百分比”类似于同一性百分比的概念，但指当查询序列和目标序列线性排列并且最佳碱基配对且没有二级折叠结构(例如环、茎或发夹)时，查询序列中与目标序列的核苷酸最佳碱基配对或杂交的核苷酸的百分比。该互补百分比可以在两条DNA链、两条RNA链或DNA链和RNA链之间。“互补百分比”可以通过以下方式计算：(i)在比较窗口中以线性和完全延伸的排列(即没有折叠或二级结构)最佳地碱基配对或杂交两个核苷酸序列，(ii)确定比较窗口内两个序列之间碱基配对的位置数量，以产生互补位置的数量，(iii)将互补位置的数量除以比较窗口中的位置总数，以及(iv)将此商乘以100％产生两个序列的互补百分比。两个序列的最佳碱基配对可以基于已知的核苷酸碱基配对(例如GC、AT和AU)通过氢键结合来确定。如果在没有指定特定比较窗口的情况下相对于参考序列计算“互补百分比”，则通过将两个线性序列之间的互补位置数除以参考序列的总长度来确定同一性百分比。因此，为了本申请的目的，当两个序列(查询和目标)最佳碱基配对时(允许错配或非碱基配对核苷酸)，查询序列的“互补百分比”等于两个序列之间的碱基配对位置数量除以查询序列在其长度上的位置总数，然后乘以100％。

如本文所用，“基本相同”序列是指与第二序列至少95％相同的序列。如本文所用，“基本互补”序列是指与第二序列至少95％互补的序列。

为了序列的最佳比对以计算它们的同一性百分比，各种成对或多序列比对算法和程序是本领域已知的，例如Clustal W或基本局部比对搜索工具等，它们可用于比较两个或多个核苷酸或蛋白质序列之间的序列同一性或相似性。尽管本领域已知其他比对和比较方法，但两个序列之间的比对和同一性百分比(包含上述同一性百分比范围)可由Clustal W算法确定，参见例如ChennaR等，“Multiple sequence alignment with theClustal series of programs”，Nucleic Acids Research 31：3497-3500(2003)；Thompson JD等，“Clustal W:Improving the sensitivity of progressive multiplesequence alignment through sequence weighting,position-specific gap penaltiesand weight matrix choice”，Nucleic Acids Research 22：4673-4680(1994)；Larkin MA等，“Clustal W and Clustal X version 2.0”，Bioinformatics 23：2947-48(2007)；和Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.&Lipman,D.J.(1990)"Basic localalignment search tool."J.Mol.Biol.215:403-410(1990)，其全部内容和公开内容通过引用并入本文。

如本文所用，在适当的体外和/或体内温度和溶液离子强度条件下，第一核酸分子(例如，引导RNA)可以通过非共价相互作用(例如，Watson-Crick碱基配对)以序列特异性、反平行方式(即，核酸特异性结合互补核酸)“杂交”第二个核酸分子(例如，指导核酸酶的靶位点)。如本领域已知的，标准的Watson-Crick碱基配对包含：腺嘌呤与胸腺嘧啶配对、腺嘌呤与尿嘧啶配对以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA、RNA]。此外，本领域还已知对于两个RNA分子(例如，dsRNA)之间的杂交，鸟嘌呤碱基与尿嘧啶配对。例如，在tRNA反密码子碱基与mRNA中的密码子配对的情况下，G/U碱基配对对遗传密码的简并性(即冗余)部分负责。在本公开的上下文中，目标DNA靶向RNA分子的蛋白质结合区段(dsRNA双链体)的鸟嘌呤被认为与尿嘧啶互补，反之亦然。因此，当G/U碱基对可以在目标DNA靶向RNA分子的蛋白质结合片段(dsRNA双链体)的给定核苷酸位置处形成时，该位置不被认为是非互补的，相反被认为是互补的。

杂交和洗涤条件是众所周知的，并在Sambrook,J.,Fritsch,E.F.和Maniatis,T.Molecular Cloning:A Laboratory Manual,第二版，Cold Spring Harbor Laboratory出版社,Cold Spring Harbor(1989)，特别是第11章和表11.1；和Sambrook,J和Russell,W，Molecular Cloning:ALaboratory Manual,第三版，Cold Spring Harbor Laboratory出版社，Cold Spring Harbor(2001)。温度和离子强度条件决定了杂交的“严格性”。

杂交要求两个核酸包含互补序列，尽管碱基之间的错配是可能的。适合于两个核酸之间杂交的条件取决于核酸的长度和互补程度，这是本领域熟知的变量。两个核苷酸序列之间的互补程度越大，具有这些序列的核酸杂交体的解链温度(Tm)值就越大。对于具有短互补性(例如超过35个或更少核苷酸互补)的核酸之间的杂交，错配的位置变得很重要(参见Sambrook等)。典型地，可杂交核酸的长度至少为10个核苷酸。可杂交核酸的示例性最小长度为：至少15个核苷酸；至少18个核苷酸；至少20个核苷酸；至少22个核苷酸；至少25个核苷酸；和至少30个核苷酸)。此外，本领域技术人员将认识到可以根据互补区域的长度和互补程度等因素，视需要调整温度和洗涤溶液盐浓度。

在本领域中理解多核苷酸的序列不需要与其靶核酸的序列100％互补才能特异性杂交或可杂交。此外，多核苷酸可在一个或多个区段上杂交，使得间插或相邻区段不参与杂交事件(例如，环结构或发夹结构)。例如，其中反义化合物的20个核苷酸中有18个与目标区域互补并因此特异性杂交的反义核酸将代表90％互补。在这个实例中，剩余的非互补核苷酸可以与互补核苷酸成簇或散布，并且不需要彼此相邻或与互补核苷酸相邻。核酸内特定核酸序列片段之间的互补百分比可以使用程序(基本局部比对搜索工具)和本领域已知的Power BLAST程序常规确定(参见Altschul等，J.Mol.Biol.,1990,215,403-410；Zhang and Madden,Genome Res.,1997,7,649-656)或使用Gap程序(WisconsinSequence Analysis Package,Version 8for Unix,Genetics Computer Group,University Research Park,Madison Wis)，使用默认设置，它使用Smith和Waterman的算法(Adv.Appl.Math.,1981,2,482-489)。

各种物种对特定氨基酸的某些密码子表现出特定的偏好。密码子偏好(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关，而信使RNA(mRNA)又被认为取决于被翻译的密码子的特性以及特定转移RNA(tRNA)分子的可用性。细胞中所选tRNA的优势通常反映了肽合成中最常用的密码子。因此，可以基于密码子优化来定制基因以在给定生物体中实现最佳基因表达。密码子使用表很容易获得，例如，在www[dot]kazusa[dot]or[dot]jp[forwards slash]codon上的“Codon Usage Database”中，这些表可以通过多种方式进行修改。参见Nakamura等，2000,Nucl.Acids Res.28:292。还可以使用用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法，例如Gene Forge(Aptagen；Jacobus,PA)。

如本文所用，“密码子优化”或“密码子优化的”是指通过替换至少一个密码子(例如，至少1、2、3、4、5、10、15、20、25、50或更多个密码子)的序列，其密码子在宿主细胞的基因中更频繁或最频繁地使用，同时保持原始氨基酸序列(例如，引入沉默突变)。

一方面，编码重组酶、引导核酸酶、目的序列或选择标记基因的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多，或所有密码子)对应于特定氨基酸的最常用密码子。关于植物中的密码子使用，参考Campbell和Gowri，1990，Plant Physiol,92:1-11；和Murray等，1989，Nucleic Acids Res,17:477-98，每一篇均通过引用整体并入本文。

一方面，编码引导核酸酶的核酸序列针对植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对单子叶植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对双子叶植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对玉米细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对大豆细胞进行了密码子优化。

一方面，编码重组酶的核酸序列针对植物细胞进行了密码子优化。一方面，编码重组酶的核酸序列针对单子叶植物细胞进行了密码子优化。一方面，编码重组酶的核酸序列针对双子叶植物细胞进行了密码子优化。一方面，编码重组酶的核酸序列针对玉米细胞进行了密码子优化。一方面，编码重组酶的核酸序列针对大豆细胞进行了密码子优化。

一方面，核酸序列针对植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对单子叶植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对双子叶植物细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对玉米细胞进行了密码子优化。一方面，编码引导核酸酶的核酸序列针对大豆细胞进行了密码子优化。一方面，编码赋予农艺学益处的蛋白质的核酸序列针对单子叶植物细胞进行了密码子优化。一方面，编码赋予农艺学益处的蛋白质的核酸序列针对双子叶植物细胞进行了密码子优化。一方面，编码赋予农艺学益处的蛋白质的核酸序列针对玉米细胞进行了密码子优化。一方面，编码赋予农艺学益处的蛋白质的核酸序列针对大豆细胞进行了密码子优化。

一方面，编码选择标记基因的核酸序列针对植物细胞进行了密码子优化。一方面，编码选择标记基因的核酸序列针对单子叶植物细胞进行了密码子优化。一方面，编码选择标记基因的核酸序列针对双子叶植物细胞进行了密码子优化。一方面，编码选择标记基因的核酸序列针对玉米细胞进行了密码子优化。一方面，编码选择标记基因的核酸序列针对大豆细胞进行了密码子优化。

现在已经对本公开进行了一般性描述，通过参考以说明方式提供的以下实施例将更容易理解本公开，除非另有说明，否则不旨在限制本公开。

实施例

实施例1.供体载体的设计和测试

此实施例描述了供体载体的设计和测试，所述载体包含选择标记基因盒、CRISPRRNA引导的LbCas12a核酸内切酶表达系统和侧翼为核酸酶靶位点的目标基因(GOI)，用于在大豆基因组中的GmTS1靶位点进行定点整合(SDI)。

如图1所示，农杆菌T-DNA载体的配置包含位于五个表达盒两侧的右边界(RB)DNA序列(SEQ ID NO：1)和左边界(LB)DNA序列(SEQ ID NO：2)。

盒1是选择标记基因aadA的表达盒。表达盒(SEQ ID NO：3)包含启动子(SEQ IDNO：4)、前导序列(SEQ ID NO：5)和内含子序列(SEQ ID NO：6)，均衍生自拟南芥Actin7基因，其5’端与编码拟南芥属EPSPS转运肽(SEQ ID NO：7)的核苷酸序列可操作地连接，随后是大肠杆菌aadA报告基因(SEQ ID NO：8)和来自农杆菌nos基因的转录终止序列(SEQ IDNO：9)。

盒2是包含在非组成型启动子控制下的目标基因(GOI 1)的表达盒。

盒3是编码来自毛螺菌科细菌ND2006(LbCas12a)(SEQ ID NO:33)CRISPR/Cas12a核酸酶的表达盒。

盒4是编码LbCas12a gRNA的表达盒并且包含与编码LbCas12a引导RNA的DNA可操作地连接的大豆U6启动子(SEQ ID NO：34)。引导RNA包含21个核苷酸的crRNA(SEQ ID NO：24)，其是与LbCas12a酶兼容的常见的引导RNA支架序列，以及与大豆基因组中的GmTS1靶位点互补的独特的23个核苷酸间隔区。

盒5是在组成型启动子的控制下编码第二目标基因(GOI 2)的表达盒。如图1所示，盒5的两侧是GmTS1靶位点。T-DNA结构被设计成在LbCas12a同时切割GOI 1侧翼靶位点和染色体靶位点后，将GOI 1整合到特定的染色体靶位点(GmTS1)中，而选择标记基因与其他辅助核酸酶基因盒一起，整合在单独的染色体位置。这种配置允许整合的GOI 1在后代中与标记基因分离。

来自A3555大豆植物的切下胚与包含上述载体的农杆菌共培养。在大观霉素上选择转化的植物。10周后收获来自再生小植物的叶样品，并从枝条组织中提取基因组DNA。

为了鉴定在GmTS1靶位点具有定点整合GOI1的植物，进行与WO2019/084148(其通过引用整体并入本文)中描述的那些类似的侧翼PCR测定，使用位于预期GmTS1靶位点侧翼的一对PCR引物。来自阳性侧翼PCR结果的基因组DNA表明推定的SDI事件被测序。

如上所述，预期GOI 1将从T-DNA中切除，无论是在T-DNA整合到染色体中之前还是之后，然后插入，其独立于T-DNA的其余部分，位于被LbCas12a-gRNA切割的染色体中的特定靶位点。

从1000个小植物中，对67个具有阳性侧翼PCR产物的事件进行了序列分析，其中总共鉴定了10个SDI事件。在GmTS1染色体靶位点确定了八个单拷贝SDI事件，并对这些事件进行了详细的序列分析。

在分析的8个事件中，所有事件都包含通过非同源末端连接(NHEJ)插入靶位点的T-DNA。没有发现具有完整盒的单拷贝插入和预期的转基因/基因组连接的SDI事件。有趣的是，在所分析的8个事件中，有6个显示出RB和LB序列的意外联系，如图1B所示。这种意想不到的构象可以通过CRISPR核酸酶至少切割两个gRNA靶位点之一，使环化T-DNA线性化，然后通过NHEJ在染色体中的GmTS1靶位点整合线性化T-DNA来解释。

还通过相同的序列分析策略分析了T-DNA在GmTS1靶位点以外的位点随机插入的16个事件。这16个非目标事件中没有一个显示出在目标事件中观察到的新RB和LB连接的证据。

之前已经描述了植物中的T链/T-DNA环化(参见Koukolíková-Nicola等(1985)；Singer等(2012))。环化的T-DNA结构已从与农杆菌共培养的植物细胞中拯救出来。环状中间体的连接序列被证实出现在通常发现于Ti质粒T-DNA区域末端的25核苷酸直接重复序列中(Koukolíková-Nicola等(1985))。证据表明，单链T-DNA在整合之前会转化为双链形式(Singer等(2012))。线性双链T-DNA的末端会被植物的DNA双链断裂修复机制识别和修复已经被提出，这导致整合到染色体中，形成染色体外复杂的随后可能整合的T-DNA结构，或T-DNA的染色体外环状形式(Singer等(2012))。与线性双链T-DNA相比，环状T-DNA被推测是植物细胞中的死端(Singer等(2012))。

不受任何科学理论的束缚，在T-DNA分子的子集中，dsDNAT-DNA自发环化，将RB端连接至LB端，形成一个不精确的连接，其可以包含两端的截断。LbCas12a介导的环状T-DNA的切割至少一个GmTS1靶位点使其线性化，从而为将线性化的T-DNA定向插入由gRNA定向核酸酶切割的染色体靶位点创建了底物。

实施例2.T-DNA载体的设计和测试

此实施例描述了T-DNA载体的设计和测试，所述载体包含与RB和LB相邻的分裂标记盒以及CRISPR LbCas12a核酸酶系统的单个靶位点。这种载体配置预计将丰富大豆基因组中的定向插入，并导致随机T-DNA整合中的标记基因盒被破坏。

aadA选择标记盒：实施例1中描述的aadA表达盒(SEQ ID NO：3)(参见图2)包含启动子(P-ACT7)(SEQ ID NO：4)、前导序列(L-)(SEQ ID NO：5)和内含子序列(I-Act7)(SEQID NO：6)，均衍生自拟南芥肌动蛋白7基因，其5’端可操作地连接至编码拟南芥属EPSPS转运肽(CTP)(SEQ ID NO：7)的核苷酸序列，随后是大肠杆菌aadA报告基因(aadA)(SEQ IDNO：8)和来自农杆菌nos基因(T-nos)转录终止序列(SEQ ID NO：9)。aadA盒的Actin7(Act7)内含子序列中的位置270被选为分裂位点。包含Act7内含子的启动子、前导序列和前270个核苷酸部分的aadA盒的5'端部分(5'标记盒)如SEQ ID NO:10所示。“3’端标记盒”(SEQ IDNO:11)包含Act7内含子的3’端部分、aadA编码序列和nos转录终止子。

RB和LB截短：实施例1中描述的载体利用505个核苷酸的章鱼碱RB序列(SEQ IDNO：1)和442个核苷酸的章鱼碱LB序列(SEQ ID NO：2)。为了便于在内含子内放置边界序列并促进有效的内含子剪接，RB和/或LB内的内边界序列被截断(参见图3)。设计截断以减少分裂内含子内部末端连接后的边界残基大小。为此目的，设计了两种农杆菌T-DNA载体，如下所述。

Glycine max分裂标记载体1：GmSMV1 T-DNA载体包含RB和LB内部边界序列缺失(参见图3)，这将导致在T-DNA末端连接后重组的Act7内含子中保留26个核苷酸的边界残基。181个核苷酸截短的LB序列(tLB)序列如SEQ ID NO：12所示，且218个核苷酸截短的RB序列(tRB)如SEQ ID NO：13所示。如图3所示，25个核苷酸必需的核心LB序列(SEQ ID NO：14)和必需的核心RB序列(SEQ ID NO：15)保留在截短版本中。如图4所示，5’端标记盒(SEQ IDNO：10)被PCR扩增并且5’端融合到tRB。如图4所示，3’端标记盒(SEQ ID NO：11)被PCR扩增并且3’端融合到tLB。此外，GmSMV1载体包含4个功能盒，存在于实施例1中描述的载体中(参见图4)。

盒1是在非组成型启动子控制下的目标基因(GOI 2)的表达盒。盒2是LbCas12a核酸酶(SEQ ID NO:33)的表达盒。盒3是LbCas12agRNA的表达盒，且包含与21个核苷酸crRNA序列可操作地连接的大豆U6启动子(SEQ ID NO：34)和与GmTS1靶位点互补的独特23个核苷酸间隔区序列。盒4是在组成型启动子的控制下编码第二目标基因(GOI 1)的表达盒。所述载体还包含编码位于GOI 2盒3’端的GmTS1靶位点的27个核苷酸序列。最后，具有GmTS1靶位点的GOI 2盒两侧是LoxP重组位点(参见US2020/0032289，其通过引用整体并入本文)。

Glycine max分裂标记载体2：GmSMV2T-DNA载体的设计类似于GmSMV1，具有四个功能盒、分裂标记和tRB边界序列，但包含完整且更长的LB序列(参见图3和图4)。这导致265个核苷酸的边界残基在T-DNA末端连接后保留在重建的Act7内含子中。

植物转化和SDI筛选：将来自A3555大豆植物的切下胚与如上所述的包含GmSMV1或GmSMV2的农杆菌共培养。总共有48,000个外植体与这两种构建体共培养，并在大观霉素培养基上选择用于枝条伸长。不受任何科学理论的束缚，在大多数外植体中，线性T-DNA随机整合到染色体中的DSB中。由于aadA标记盒不起作用，这些外植体预计不会在大观霉素选择培养基中存活。在T-DNA分子的子集中，dsDNA T-DNA自发环化，将RB端连接至LB端。环化重组了一个可剪接的内含子(在可选择的标记盒内)并产生了功能性的aadA表达盒。这导致植物恢复，其中T-DNA通过环化途径或已连接至其他T-DNA以形成具有RB-LB连接的二聚体。

将大观霉素抗性枝条转移到土塞中用于生根。从叶样品中提取DNA并通过本领域已知的基于TaqMan^TM的测定法用于拷贝数测定。为了鉴定在GmTS1位点具有T-DNA定点整合的植物，使用位于预期GmTS1靶位点侧翼的一对PCR引物进行了类似于WO2019/084148(其通过引用整体并入本文)中描述的那些侧翼PCR测定。对来自侧翼PCR阳性推定靶向事件的DNA进行序列分析。总共收集和分析了336个样本(84个样本/板)以确定目标事件(见表1)。从这50个具有低拷贝数(1-2个拷贝)的事件中，每个构建体的任一侧翼区域的侧翼PCR阳性结果进一步推进用于基因组测序和详细整合分析。结果总结在表1中，并与从包含完整aadA选择标记盒的对照T-DNA载体产生的事件进行比较，如实施例1中所述。

质量SDI事件被定义为T-DNA在靶位点的单拷贝插入，具有完整的盒和基本上符合预期的转基因/基因组连接。SDI率定义为质量SDI事件与样本的比率。2个拷贝事件中的质量SDI率表明这些植物具有2个TDNA拷贝，其中至少1个TDNA是质量SDI插入。这些植物将需要为单拷贝的商业质量SDI事件分离后代。

表1.SDI构建体转化总结。“TF”表示转化频率，“QSDI”表示质量定点整合事件。对照T-DNA如实施例1中所述。

如表1所示，与对照相比，GmSMV1的质量SDI事件生成率增加了十倍。与对照相比，观察到GmSMV2增加了七倍。与GmSMV2共培养外植体的1.58％ TF相比，在GmSMV1共培养外植体中观察到3％的转化频率(TF)。这表明，在不受任何科学理论限制的情况下，SMV2中Act7内含子内存在较长的LB残基可能会对有效的内含子剪接和功能产生负面影响。

实施例3.T-DNA载体的设计和测试。

此实施例描述了T-DNA载体的设计和测试，其具有与RB和LB相邻的分裂标记盒以及CRISPR LbCas12a核酸酶系统的靶位点。这种载体配置预计将丰富玉米ZmTS1基因组区域的靶向插入，并导致随机T-DNA整合中的标记基因盒被破坏。

CP4选择标记盒：功能性CP4表达盒(SEQ ID NO：17)包含水稻肌动蛋白1启动子(SEQ ID NO：18)、前导序列(SEQ ID NO：19)和内含子序列(SEQ ID NO：20)，其5’端与编码拟南芥属EPSPS转运肽(SEQ ID NO：7)的核苷酸序列可操作地连接，随后是农杆菌EPSPS-CP4报告基因的编码序列(SEQ ID NO：21)，它提供对草甘膦的抗性，和来自农杆菌nos基因的转录终止序列(SEQ ID NO：9)。选择CP4盒的Actin1内含子序列中的位置239作为分裂位点。包含Actin1内含子的启动子、前导序列和前239个核苷酸的CP4盒(5’端CP4标记盒)的5’端部分如SEQ ID NO:22所示。包含239个核苷酸的肌动蛋白1内含子的3'部分、CP4编码序列和nos转录终止子的“3'CP4标记盒”如SEQ ID NO:23所示。

玉米分裂标记载体1：ZmSMV1T-DNA载体包含tRB(SEQ ID NO：13)和tLB(SEQ IDNO：12)序列、四个功能盒和分裂CP4标记盒(参见图4)。5’端CP4标记盒(SEQ ID NO：22)位于tRB的5’端。3’端标记盒(SEQ ID NO：23)位于tLB的3’端。所述载体还包含在非组成型启动子控制下的目标基因(GOI 1)的表达盒和LbCas12a核酸酶(SEQ ID NO：26)的表达盒。包含编码包含21个核苷酸的crRNA(SEQ ID NO:24)的LbCas12a引导RNA的表达盒、与LbCas12a酶相容的通用引导RNA支架序列，并进一步提供了与Zm7.1_TS1靶位点互补的独特23核苷酸间隔区。还提供了在组成型启动子的控制下编码第二目标基因(GOI 2)的表达盒。所述载体还包含编码位于GOI 2盒的3’端的ZM TS1靶位点的27个核苷酸序列。最后，带有ZmTS1靶位点的GOI 2盒的两侧是LoxP重组位点。

实施例4.玉米转化。

玉米转化、侧翼PCR和SDI确认：使用本领域已知的方法，用实施例3中描述的含有ZmSMV1 T-DNA载体的农杆菌转化玉米01DKD2栽培种胚。在草甘膦上选择稳定转化的植物。两周后收获来自再生小植物的叶样品，并提取基因组DNA用于通过本领域已知的基于TaqMan^TM的测定法测定拷贝数。

为了鉴定在ZmTS1位点具有定点整合T-DNA的植物，使用位于预期靶位点侧翼的一对PCR引物进行侧翼PCR测定。对来自侧翼PCR阳性推定SDI事件的DNA进行序列分析。具有低拷贝数(1-2个拷贝)和任一侧翼区域的侧翼PCR阳性结果的事件进一步推进用于基因组测序和详细的整合分析，以确定商业质量SDI的事件和比率。如表2所示，在分析的84个样本中，确定了1个SDI事件。

表2.SDI构建体转化总结。TF表示转化频率，且QSDI表示质量定点整合事件。

实施例5.二元构建体的设计。

这个实施例描述了一个二元构建体的设计，在T-DNA上提供了两个gRNA表达盒：一个靶向T-DNA中的独特位点，第二个靶向基因组中的独特位点(参见例如，图5)。

Cas12a在23-nt的目标区域切割，所述区域紧接在一个PAM位点。当Cas12a切割时，它在一条链(“非目标链”)上的位置19之后和相反链(“目标链”)上的位置23之后切割，在每条链上产生4-nt 5’突出端(见例如，图16)。包含PAM位点和靶位点19nt的末端的5’突出端用字母名称A标记。另一个片段的5’突出端，只有4-nt靶位点片段且不包含PAM，表示为A’。A’是A的反向互补，且理论上可以完美地重新退火到A突出端。

实施例1和2中的观察表明，T-DNA和基因组之间不同的LbCas12a靶向位点可导致SDI效率提高。观察到的绝大多数SDI事件都处于“反向”方向，其中T-DNA插入的切割靶位点的方向与基因组上切割的靶位点的方向相反，参见例如图17。如图17所示，在一端，一对倒置的切割靶位点(减去一定量的序列退火(chew back))连接(A到A连接)，而在另一端，连接位于目标区域的4bp 3'端之间，是反向的，并且有一些序列退火。参见图17；A′到A′连接。与在所有其他NHEJ连接组上观察到的反向退火相比，在反向事件的A'至A'连接处观察到的退火明显更短，这似乎具有相似的幅度。参见表2。在不受任何科学理论限制的情况下，这可以是反向SDI的始发事件，因此避免了暴露于退火。

6号染色体(CR06)A’端的平均序列退火仅为5.7个核苷酸，且T-DNA A’端为1.8个核苷酸。此外，模糊匹配的发生率比随机发生的预期要大得多：21个事件中的14个(67％)显示了这一点，在14个事件中的12个中，该模糊与微同源介导的切割T-DNA 5'单链末端与CR06 5'单链末端的退火一致。只有三个事件被观察到具有稍微更长的额外两个或三个核苷酸的退火。这些观察结果特异于相反(REV)方向的事件。正向(FWD)方向的事件更少(总共6个)并且具有更长的退火。

表3。FWD和REV事件中所有连接处的平均退火长度(碱基对)衍生自实施例1中描述的供体载体和染色体上的靶位点GmTS1。

综合起来，这些数据为两类事件提供了证据。相反(REV)方向的I类事件，以A'/A'连接处的短退火为代表，表观微同源(交界处的1-3nt序列，可归因于任一预连接片段)的高流行率，并且以提高的频率发生。以更长的退火为代表的II类事件似乎对方向性没有偏好(两个方向的数量大致相等)。数据还提供证据表明微同源提高了定向插入的效率。不希望受特定理论的束缚，通过最大限度地提高生产性微同源辅助NHEJ的可能性，同时最大限度地减少非生产性NHEJ的发生(如下所述)，可以最大限度地提高供体插入的效率。当染色体的5’突出端(A’)和T-DNA的5’突出端(A’)(每个全长或部分退火)具有退火碱基对时，在它们的终点处会发生微同源辅助的NHEJ，其可以填充以修复连接处。参见图15C。不受任何理论的束缚，通过改变T链靶位点以最大化与裂解的基因组靶位点的微同源潜力，有可能提高反向、1类事件的效率。

为了可视化这个过程，可以生成潜在重叠的图表，既可以识别可直接参与微同源的配对，也可以识别可能的微同源中涉及的碱基对的数量。参见图17。为了最大化微同源潜力，优选将T-DNA链上靶位点的至少最后四个核苷酸(nt)改变为它们的反向互补序列(例如比较图18C中的GmTS1和GmTS1_4RC)。如图18D所示，切割的基因组靶位点和切割的T-DNA靶位点之间的A'/A'相互作用在具有微同源潜力的配对数量以及这些个体潜力的bp长度方面显着增加。

鉴定了大豆染色体内的两个靶位点20.38.4(SEQ ID NO：27)和05.37.8(SEQ IDNO：30)，并且设计了gRNA间隔区序列以靶向这些位点(参见表4)。将T-DNA靶位点设计成促进与每个基因组靶位点(TS)的微同源辅助退火(参见表4，第2、3、5和6行)。将构建体设计成以两种不同方式促进微同源辅助SDI的增加。

在第一设计(“设计1”)中，基因组靶位点和T-DNA靶位点的位置1到19相同。然而，T-DNA靶位点内的第20至23位被设计为基因组靶位点第20至23位的反向互补(RC)。例如，比较表4中的第1行和第2行或第4行和第5行。由于T-DNA有插入染色体的趋势，因此切割后的T-DNA的A’端与裂解的染色体的A’端配对(以及裂解的T-DNA的A端与裂解的染色体的A端配对)，起始端所涉及的链将是互补的(最大化微同源辅助)并且即使稍微删除任何一条链，也有很多机会获得更短的微同源。

在第二设计(“设计2”)中，T-DNA靶位点的序列与基因组靶位点完全无关，除了与之前的设计一样，设计了T-DNA靶位点内的第20至23位是基因组靶位点20到23位的反向互补(RC)。例如，比较表4中的第1行和第3行或第4行和第6行。如果设计1产生的gRNA被预测为性能不佳的gRNA，或产生脱靶切割，设计2可更有效地切割环化的gRNAT-DNA。此外，由于第二端的序列不会与目标1的切割基因组拷贝形成短的反向重复序列，因此如果不存在反向重复序列会提高所述端的愈合效率，则可导致效率提高。还预期设计的3’端倒置的替代长度在1到6个核苷酸的范围内，所有这些都预计同样会为微同源辅助整合率的增加创造机会。

表4.大豆靶位点和T-DNA目标序列。反向互补设计的四个碱基对被加下划线，包含大豆基因组靶位点中不存在的序列的T-DNA靶位点以粗体显示。

产生了6个T-DNA构建体，其按5’端到3’端顺序包含截短的左边界(tLB)序列；3’端标记盒片段(SEQ ID NO:11)；与编码Cas12a的序列可操作地连接的启动子；与编码引导RNA阵列的序列可操作地连接的启动子，所述阵列包含gRNA1和gRNA2(gRNA1靶向天然染色体靶位点，而gRNA2靶向T-DNA的位点)；与编码目标基因的序列2可操作地连接的启动子，lox位点，与编码目标基因的序列1可操作地连接的启动子，被Cas12a和gRNA2识别的靶位点，第二lox位点，5’端标记盒片段(SEQ ID NO：10)；和截断的右边界(tRB)序列，参见图5。

表5：包含gRNA阵列的载体

通过农杆菌介导的转化将构建体引入植物细胞。T-DNA的子集环化，Cas12a-gRNA2复合物切割环化的T-DNA，Cas12a-gRNA1复合物切割基因组靶位点。T-DNA环化和随后的切割允许将线性化的T-DNA定向整合到基因组靶位点中。环化和线性化还在标记盒内重建了可剪接的内含子，从而允许启动子驱动选择标记基因的表达，从而允许选择已经经历环化然后进行T-DNA整合的事件。进行侧翼PCR测定和基因组DNA测序以鉴定具有定向整合事件的植物。分析测试和对照载体之间的定向整合率，以确定T-DNA和基因组靶位点中Cas12a切割片段的A’末端之间增加的微同源是否会导致定向整合效率的提高。

实施例6.通过减少含有事件的载体骨架来提高SDI频率。

对如实施例1和2中所述创建的转基因植物进行拷贝数和载体骨架分析，如表6所示。两种分裂标记T-DNA构建体的单拷贝事件频率是对照T-DNA配置观察到的一半此外，超过75％的来自两个分裂标记T-DNA配置(GmSMV1和GmSMV2)的转基因事件具有两个或更多个转基因拷贝。

表6.转基因拷贝数和载体骨架存在的分子分析

这些观察结果提供了一个机会，以通过减少或消除包含载体骨架的事件来提高目标整合事件的频率。描述了两种策略来减少包含骨架的事件的发生。

A)带有crtB盒的分裂标记载体：之前已经表明非致死性阴性选择标记的表达，(例如，crtB基因)在二元载体骨架中可以显著降低含有骨架的事件频率(参见Ye等，Transgenic Res.17:827-38(2008)；和美国专利第7,575,917号；两者均通过整体引用并入本文)。GmSMV3，被设计成修饰的SMV1载体，其中包含crtB基因(SEQ ID NO：36)的表达盒被引入到载体骨架中。GmSMV3载体包含T-DNA构建体，所述构建体按5’端到3’端的顺序包含截短的左边界(tLB)序列(SEQ ID NO:12)；正向的3’端标记盒(SEQ ID NO：11)，在非组成型启动子控制下的目标基因(GOI 2)的表达盒；用于编码Cas12a核酸酶的序列的表达盒；靶向大豆基因组内GmTS2靶位点的Cas12agRNA表达盒；第一lox位点；在组成型启动子控制下的目标基因1(GOI 1)的表达盒；编码GmTS2靶位点的27个核苷酸序列；间隔区序列(SEQ ID NO：16)；第二Lox位点；正向的5’端标记盒(SEQ ID NO：10)和截短的右边界(tRB)(SEQ ID NO：13)。所述载体进一步包含crtB基因的表达盒，其可操作地连接至位于T-DNA序列之外的花椰菜花叶病毒35S组成型启动子。参见图12A。为所述实验生成了两个对照。对照1是包含功能性aadA标记盒的标准对照载体，其设计类似于实施例1中描述的设计。对照2与GmSMV3载体相同但缺少crtB表达盒。

将来自A3555大豆植物的切除胚与包含GmSMV3或对照载体的农杆菌共培养，并在大观霉素培养基上选择转化植物用于枝条伸长。将大观霉素抗性枝条转移到土塞中用于生根。从叶样品中提取DNA并用于通过基于TaqMan^TM的测定法测定拷贝数。侧翼PCR测定用于鉴定在GmTS2位点具有定点整合T-DNA的植物。来自侧翼PCR阳性推定靶向事件的DNA进一步用于基因组测序以确认SDI并分析载体骨架的存在。结果总结在表7和表8中。

表7：SDI构建体转化总结。TF表示转化频率，QSDI表示质量定点整合事件。

表8.转基因拷贝数和载体骨架存在的分子分析

如表8所示，GmSMV3中crtB盒的存在导致骨架阳性事件显著减少。

B)重叠标记载体：第二种策略是在T-DNA的一端引入重叠标记片段，例如，与RB相邻(参见图12B，部分标记)。所述片段显示与LB附近存在的标记基因同源(参见图12B)。T-DNA的直接末端连接不会产生功能性标记基因盒，并且单拷贝插入或多拷贝堆叠不会表达功能性标记基因以允许植物在选择下再生。再生植物只能从重叠标记片段之间发生同源重组导致重组功能标记的事件中产生。

设计GmSMV4 T-DNA载体，它按5’端到3’端的顺序包含截短的左边界(tLB)序列(SEQ ID NO:12)；正向的3’端aadA标记盒(SEQ ID NO：11)，在非组成型启动子控制下的目标基因(GOI 2)的表达盒；用于编码Cas12a核酸酶的序列的表达盒；靶向大豆基因组内GmTS3靶位点的Cas12a gRNA表达盒；第一lox位点；在组成型启动子控制下的目标基因1的表达盒；编码GmTS2靶位点的27个核苷酸序列；间隔区序列(SEQ ID NO：16)；第二Lox位点；正向的5’端aadA标记盒(SEQ ID NO:10)；包含正向的3’端aadA标记盒的部分片段的序列(SEQ ID NO：25)和截短的右边界(tRB)(SEQ ID NO：13)。SEQ ID NO：25是944bp的序列，包含与来自aadA标记的5’端CDS片段融合的3’端拟南芥肌动蛋白内含子，并显示出与LB附近存在的3’端aadA标记盒的同源性。还生成了与GmSMV4相同但缺少部分3’端标记盒片段(SEQID NO25)的对照载体。

将来自A3555大豆植物的切下胚与包含GmSMV4或对照载体的农杆菌共培养，并在大观霉素培养基上选择转化植物用于枝条伸长。将大观霉素抗性枝条转移到土塞中用于生根。从叶样品中提取DNA并用于通过基于TaqMan^TM的测定进行拷贝数测定。侧翼PCR测定用于鉴定在GmTS2位点具有定点整合T-DNA的植物。来自侧翼PCR阳性推定靶向事件的DNA进一步用于基因组测序以确认SDI并分析载体骨架的存在。结果总结在表9和10中。如表10所示，与RB相邻的部分3’端aadA标记盒的存在导致骨架载体阳性事件的减少。

表9：SDI构建体转化总结。TF表示转化频率，Q SDI表示质量定点整合事件。

表10.转基因拷贝数和载体骨架存在的分子分析

实施例7.通过同源重组的SDI

环状T-DNA和分裂标记配置也可用于同源重组定向整合，如图13所示。与基因组靶位点同源的两个同源臂插入在GOI和标记基因启动子之间。内部切割位点位于同源臂之间。在植物细胞中T-DNA环化和重新线性化后，两端暴露的同源臂(HR1和HR2)促进了GOI和基因组靶位点之间的同源重组。可以包含图12A和实施例6中描述的骨架减少策略以进一步提高同源重组频率。

实施例8.使用Cre/lox进行定向插入

此实施例描述了包含Cre/lox重组酶系统的Cre-Circle T-DNA载体的设计和测试，所述系统预计可诱导T-DNA环化和供体DNA在玉米ZmTS1基因组区域的靶向插入。

产生了T-DNA构建体，它以5’端到3’端的顺序包含左边界(LB)序列；核酸酶盒(SEQID NO:26)，其包含与编码Cas12a的序列可操作地连接的启动子；包含聚合酶III启动子的引导RNA盒，所述启动子与编码靶向ZmTS1的引导RNA序列可操作地连接；正向水稻肌动蛋白启动子(SEQ ID NO：18)、前导序列(SEQ ID NO：19)和内含子序列(SEQ ID NO：20)；第一lox位点；ZmTS1 Cas12a靶位点；与编码目标基因的序列可操作地连接的启动子；第二lox位点；正向编码选择标记CP4基因盒的序列，其包含编码拟南芥属EPSPS转运肽(SEQ ID NO：7)的核苷酸序列，随后是农杆菌EPSPS-CP4报告基因的编码序列(SEQ ID NO：21)，和来自农杆菌nos基因的转录终止序列(SEQ ID NO：9)；包含水稻肌动蛋白启动子(SEQ ID NO：18)、前导序列(SEQ ID NO：19)和内含子(SEQ ID NO：20)的重组酶盒，其与编码Cre重组酶的序列可操作地连接(WO2021026165中的SEQ ID NO13)；和右边界(RB)序列，参见图6。

不受任何特定理论的束缚，假设一旦构建体通过农杆菌介导的转化被引入植物细胞，T-DNA随机插入植物细胞的基因组中，并且Cre重组酶的表达切除并环化T-DNA片段，该T-DNA片段包含Cas12a靶位点和与编码目标基因序列可操作地连接的启动子。这种切除然后允许启动子在随机染色体插入位点驱动选择标记基因的表达，从而允许选择已经经历这种环化的事件。Cas12a切割环化的T-DNA片段和基因组中的靶位点，允许GOI整合到目标染色体位置。

使用本领域已知的方法，用含有CreCircle T-DNA载体的农杆菌转化玉米01DKD2栽培种胚。在草甘膦上选择稳定转化的植物。两周后收获来自再生小植物的叶样品，并提取基因组DNA用于通过本领域已知的基于TaqMan的测定法测定拷贝数。侧翼PCR测定用于鉴定在ZmTS1位点具有定点整合GOI的植物。来自侧翼PCR阳性推定靶向事件的DNA进一步用于基因组测序，以确认SDI和商业质量SDI的比率。表11中总结的结果表明，用CreCircle T-DNA观察到3个SDI事件，其中1个是商业质量SDI事件。

表11.SDI构建体转化总结。TF表示转化频率，QSDI表示质量定点整合事件。

实施例9.使用Cre/lox进行靶向插入

T-DNA构建体，它以5’端到3’端的顺序包含左边界(LB)序列；与编码Cas12a的序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的启动子；第一lox位点，编码正向选择标记基因的序列；Cas12a靶位点，与编码目标基因的序列可操作地连接的启动子；正向启动子；第二lox位点；与编码Cre重组酶的序列可操作地连接的启动子；和右边界(RB)序列，参见图7。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组中。一旦Cre重组酶被表达，它就会切除并环化T-DNA的片段，所述片段包含启动子、第二lox位点、编码选择标记基因的序列、与编码目标基因的序列可操作地连接的启动子，以及Cas12a靶位点。这种切除然后允许启动子驱动选择标记基因的表达，允许选择已经经历这种环化的事件。Cas12a切割环化的T-DNA片段和基因组中的靶位点，允许正向启动子、选择标记基因和与编码目标基因的序列可操作地连接的启动子以整合到目标染色体位置。

实施例10.使用Cre/lox进行靶向插入

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；与编码选择标记基因的序列可操作地连接的启动子；与编码Cas12a引导RNA的序列可操作地连接的聚合酶III启动子；正向启动子；第一lox位点；Cas12a靶位点；与编码目标基因的序列可操作地连接的启动子；第二lox位点，正向编码Cas12a的序列；与编码Cre重组酶的序列可操作地连接的启动子；和右边界(RB)序列，参见图8a。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。Cre重组酶被表达并切除和环化包含Cas12a靶位点和与编码目标基因的序列可操作地连接的启动子的T-DNA片段。在Cre重组酶介导的切除后，启动子与编码Cas12a的序列可操作地连接。Cas12a的表达允许切割环化的T-DNA片段以及切割基因组中的靶位点，从而允许目标基因整合到目标染色体位置。

T-DNA按5’端到3’端的顺序包含左边界(LB)序列；与编码选择标记的序列可操作地连接的启动子；与编码Cas12a引导RNA的序列可操作地连接的启动子；正向启动子；lox66位点；Cas12a靶位点；目标基因；lox71位点，正向编码Cas12a的序列；与编码Cre重组酶的序列可操作地连接的启动子；和右边界(RB)序列。参见图8b。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。在表达Cre重组酶后，它会切除并环化包含Cas12a靶位点和目标基因的T-DNA片段。切除后，正向启动子可以驱动Cas12a在随机染色体插入位点的表达。Cas12a的表达允许环化的T-DNA片段被切割以及切割基因组中的靶位点，从而允许目标基因整合到靶染色体位置。在T-DNA构建体中使用修饰的lox位点的目的是产生一种植物，其中最终靶向染色体插入中的突变lox位点(lox66-71)无法与随机整合的T-DNA中的lox位点(loxP)重组，因此避免了包含目标基因的靶向事件与随机整合的T-DNA之间不需要的染色体重排。

实施例11.使用Cre/lox进行靶向插入

产生T-DNA构建体，它以5’端到3’端的顺序包含：左边界(LB)序列；与Cas12a引导RNA可操作地连接的启动子；编码Cre重组酶的序列可操作地连接的启动子；反向编码Cas12a的序列；第一lox位点；正向编码选择标记的序列；Cas12a靶位点；目标基因；正向启动子；第二lox位点；反向启动子；和右边界(RB)序列。参见图9。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组中。表达后，Cre重组酶切除并环化包含正向启动子的T-DNA片段、编码正向选择标记基因的序列和目标基因。切除后，启动子与编码Cas12a的序列可操作地连接。Cas12a的表达允许切割基因组靶位点。它还允许切割环化的T-DNA片段，从而允许启动子以正向驱动编码选择标记基因和目标基因的序列的表达，以整合到目标染色体位置。此配置中提供的T-DNA将Cas12a表达限制在切除两侧为重组位点的序列之后，并且选择标记基因的表达允许选择已经发生环化的事件。

实施例12.2T构建体

为了减少由切除频率引起的低效率，可以采用“2T”结构，参见图10。通常，2T构建体包含两个独立整合到基因组中的T-DNA。它们被亚克隆成并置的单个构建体(在大多数情况下，右边界彼此靠近且方向相反，以最大化独立T-DNA链产生的可能性)。在随机插入实验中，多达30％的回收植物具有每种T-DNA的整合。在农杆菌中，构建体的右侧(参见图10)产生可随机整合的T-DNA链(#1)并包含SDI所需的所有机制，包含LbCas12a的表达盒、gRNA的表达盒，以及用于选择标记的表达盒。构建体的左侧(参见图10)产生T-DNA链(#2)，它最少含有：RB和LB元件(通常长度缩短以最小化最终插入中的non-cargo序列，引导核酸酶的靶位点，以及一个或多个cargo元件。在某些情况下，cargo是目标基因(GOI)的表达盒，但更复杂的设计，例如，具有多个元件的设计是可能的。环化后，#2链能够在基因组中的目标位置进行SDI。根据T-DNA#1插入中的标记选择植物，并可检测基因组中目标位置是否存在T-DNA#2。假设T-DNA#1的随机整合发生在距靶位点大于100cM的距离处，则可以通过简单的高频分离来完成SDI机制的去除。这种方法避免了使用Cre-lox或其他重组方案来去除植物中不需要的机制。

所述方法与图5中详述的多个gRNA的使用兼容。将所述策略添加到所述方法涉及在T-DNA#2中提供新的靶位点并从T-DNA#1表达两个gRNA，一个靶向基因组位点和另一个靶向T-DNA#2中存在的新位点。使用组合策略可以提高T-DNA链#2的靶向插入效率。

实施例13.双T-DNA策略

图11描述了用于定点整合目标基因的双T-DNA策略的实施例。通过使用独立的复制起点在农杆菌中共表达，可以将两个T-DNA成功地共引入植物中。目前使用的起源已知支持农杆菌中的不同拷贝数，因此起源的选择可用于影响引入植物靶标的T-DNA链的比率，可用于优化所需最终目标的频率产品。双T-DNA策略还具有涉及两个较小质粒的优势，这可能更容易亚克隆和维护。此外，由于可以在一个质粒上提供SDI机制，因此需要有限数量的包含引导核酸酶的质粒设计进行优化。可以更容易地生成多个结构(因为尺寸更短)，其中包含协调的靶位点和不同的目标cargos。

在随机插入实验中，多达30％的回收植物具有每种T-DNA的整合。在农杆菌中，第一构建体产生第一T-DNA，它可以随机整合并包含SDI所需的机制，包含LbCas12a的表达盒、靶向gRNA的表达盒和选择标记的表达盒。第二构建体产生第二T-DNA，它最少包含：RB和LB元件(通常长度较短，以尽量减少最终插入中的non-cargo序列)；靶位点；和cargo元件。在某些情况下，cargo是目标基因(GOI)，但更复杂的设计和具有多个元件的设计是可能的。第二T-DNA可以通过环化中间体的切割插入到基因组靶位点，如上所述。植物是根据第一T-DNA插入中的标记选择的，并且可以分析第二T-DNA在基因组靶位点插入的存在。假设第一T-DNA的随机整合发生在距基因组靶位点大于100cM的距离处，则可以通过简单的分离来完成第一T-DNA(以及引导核酸酶和选择标记的表达盒)的去除。这种方法避免了使用Cre-lox或其他重组方案来去除不需要的盒，这对于那些重组策略效率低下的植物系统来说可能是至关重要的。

此方法与多个gRNA的使用兼容，例如，如图5中详述。将多个gRNA的使用添加到此方法涉及利用第二T-DNA中的新靶位点，以及第一T-DNA表达两个gRNA，一个靶向基因组靶位点，另一个靶向第二T-DNA中存在的新靶位点。使用组合策略可以提高将第二T-DNA靶向插入基因组的效率。

实施例14.二元构建体的设计。

这个实施例描述了构建体的设计，它具有从T-DNA表达的两个gRNA：一个靶向T-DNA中的独特靶位点，第二个靶向基因组中的GmTS1靶位点(SEQ ID NO：61)(参见例如图5)。

设计了靶向大豆染色体内GmTS1靶位点的gRNA间隔区序列。设计了两个T-DNA靶位点以促进与基因组靶位点的微同源辅助退火(参见表12)。在第一设计(“GmTS1-RC”)中，T-DNA靶位点是27bp的序列，包含4bpPAM和23bp间隔区序列(SEQ ID NO：62)。间隔区互补序列中的位置1至19在基因组GmTS1靶位点和T-DNA靶位点之间是相同的。然而，T-DNA靶位点内的第20至23位被设计为基因组靶位点的间隔区互补序列第20至23位的反向互补(RC)，以最大化与基因组链的微同源潜力。

对于第二设计，假设如果独特T-DNA靶位点周围的序列与染色体GmTS1靶位点周围的序列匹配，T-DNA中存在的独特靶位点可能会提高SDI的率。因此，在第二设计中，T-DNA靶位点(GmTS1-RC1+flanks)是91bp的序列(SEQ ID NO：63)，包含设计1中描述的GmTS1-RC靶位点，侧翼为26bp左翼和38bp右翼序列，其包含大豆基因组中GmTS1序列侧翼的染色体序列。

表12：大豆靶位点和T-DNA靶序列。PAM序列以斜体显示。反向互补设计的四个碱基对以粗体显示。GmTS1侧翼且存在于T-DNA靶位点中的序列以小写字母显示。

表13：包含gRNA阵列的载体。对照构建体包含靶向相同基因组和T-DNA靶位点的单引导RNA。

产生了3个T-DNA构建体。GmSMV5以5’端到3’端的顺序包含：截短的左边界(tLB)序列；正向的3’端标记盒片段(SEQ ID NO:11)；与编码Cas12a的序列可操作地连接的启动子；与编码引导RNA阵列的序列可操作地连接的启动子，所述引导RNA阵列包含靶向染色体上的GmTS1的gRNA1和靶向GmTS1-RC的gRNA2；目标基因2，lox位点，目标基因1，正向的GmTS1-RC靶位点(SEQ ID NO：62)，第二lox位点，正向的5’端标记盒片段(SEQ ID NO：10)；和截断的右边界(tRB)序列。参见图5。

GmSMV6以5’端到3’端的顺序包含：截短的左边界(tLB)序列；正向的3’端标记盒片段(SEQ ID NO:11)；与编码Cas12a的序列可操作地连接的启动子；与编码引导RNA阵列的序列可操作地连接的启动子，所述引导RNA阵列包含靶向染色体上的GmTS1的gRNA1和靶向GmTS1-RC的gRNA2；目标基因2，lox位点，目标基因1，正向的’GmTS1-RC+Flanks’靶位点(SEQID NO：63)，第二lox位点，正向的5’端标记盒片段(SEQ ID NO：10)；和截断的右边界(tRB)序列。

GmSMV7以5’端到3’端的顺序包含：截短的左边界(tLB)序列；正向的3’端标记盒片段(SEQ ID NO:11)；编码Cas12a的序列可操作地连接的启动子；与编码引导RNA阵列的序列可操作地连接的启动子，所述引导RNA阵列包含靶向染色体上的GmTS1的gRNA1和靶向GmTS1-RC的gRNA2；目标基因2，lox位点，目标基因1，反向的’GmTS1-RC+Flanks’靶位点(SEQID NO:63)，第二lox位点，正向的5’端标记盒片段(SEQ ID NO：10)；和截断的右边界(tRB)序列。

通过农杆菌介导的转化将构建体引入植物细胞。实施例2中描述的GmSMV1用作对照。在植物细胞内，T-DNA的子集环化。Cas12a-gRNA2复合物切割环化的T-DNA，Cas12a-gRNA1复合物切割基因组靶位点。T-DNA环化和随后的切割允许将线性T-DNA定向整合到基因组靶位点中。环化和线性化还在标记盒内重建了可剪接的内含子，从而允许启动子驱动选择标记基因的表达，从而允许选择已经经历环化然后进行T-DNA整合的事件。进行侧翼PCR测定和基因组DNA测序以鉴定具有定向整合事件的植物。数据总结于表14中。质量SDI事件被定义为T-DNA在靶位点的单拷贝插入，具有几乎如预期的完整盒和转基因/基因组连接。SDI率定义为质量SDI事件与样本的比率。2个拷贝事件中的质量SDI率表明这些植物具有2个TDNA拷贝，其中至少1个TDNA是质量SDI插入。这些植物需要分离后代以进行单拷贝商业质量SDI事件。

如表14所示，商业质量SDI事件是从所有测试的构建体中生成的。最高商业质量SDI率(9.52％)是在GmSMV6构建体中观察到的，所述构建体包含正向的91bp’GmTS1-RC+flanks’T-DNA靶位点。包含91bp’GmTS1-RC+flanks’TDNA靶位点的GmSMV7构建体在反向方向也产生了大量商业质量事件并且具有4.76％的Q-SDI率。不受任何理论的束缚，假设使用具有侧翼的较大91bp靶位点的潜在好处是T-DNA上的靶位点离上游和下游所需的T-DNA元件更远出现在商业质量事件中，允许在SDI之后保留其完整序列的更大可能性。第二个潜在的好处是侧翼可以促进T-DNA靶序列与其他T-DNA序列/元件的空间分离，其中一些可能对靶序列的功能产生负面影响。

表14.SDI构建体转化的总结。TF表示转化频率，Q SDI表示质量定点整合事件

实施例15.使用Cre/lox进行靶向插入

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；编码选择标记基因的序列可操作地连接的启动子；与编码Cas12a核酸酶的序列可操作地连接的启动子；正向聚合酶III启动子；第一lox位点；Cas12a靶位点；目标基因；第二lox位点，编码正向引导RNA的序列；与编码Cre重组酶的序列可操作地连接的启动子；和右边界(RB)序列，参见图19。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。一旦Cre重组酶激活，它就会切除并环化包含Cas12a靶位点和与编码目标基因的序列可操作地连接的启动子的T-DNA片段。切除后，正向聚合酶III启动子可以驱动随机染色体插入位点的引导RNA表达。Cas12a和gRNA的表达允许环化T-DNA片段被切割以及切割基因组中的靶位点，从而允许启动子可操作地连接至编码目标基因的序列以整合到目标染色体位置。

实施例16.使用Cre/lox通过同源重组进行靶向插入

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；与编码Cas12a核酸酶的序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的聚合酶III启动子；第一lox位点；Cas12a靶位点；左同源臂(HR-L)，其包含显示与基因组靶位点的左侧翼具有同源性的序列；目标基因；右同源臂(HR-R)，其包含显示与基因组靶位点右侧具有同源性的序列；第二lox位点；与编码Cre重组酶的序列可操作地连接的启动子；与编码选择标记基因的序列可操作地连接的启动子；和右边界(RB)序列。参见图20。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。一旦Cre重组酶激活，它就会切除并环化包含Cas12a靶位点和两侧为HR-L和HR-R的目标基因的T-DNA片段。Cas12a和gRNA的表达允许切割环化的T-DNA片段以及基因组中的靶位点，从而使目标基因整合到目标染色体位置。T-DNA片段可以通过非同源末端连接机制(NHEJ)整合到靶位点，这将导致整合片段中第二lox位点的保留。或者，同源臂的存在可以促进目标基因通过同源重组(HR)机制整合到基因组靶位点，由此整合片段中不存在第二Lox位点。

实施例17.使用Cre/lox通过同源重组进行靶向插入

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；与编码Cas12a核酸酶的序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的聚合酶III启动子；第一lox位点；右同源重组臂(HR-R)，包含显示与基因组靶位点右侧同源的序列；Cas12a靶位点；左同源重组臂(HR-L)，包含显示与基因组靶位点左侧同源的序列；与编码目标基因的序列可操作地连接的启动子；第二lox位点；与编码Cre重组酶的序列可操作地连接的启动子；与编码选择标记基因的序列可操作地连接的启动子；和右边界(RB)序列。参见图21。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。一旦Cre重组酶激活，它就会切除并环化包含Cas12a靶位点和启动子的T-DNA片段，所述启动子与编码侧翼为HR-L和HR-R的目标基因的序列可操作地连接。Cas12a和gRNA的表达允许环化的T-DNA片段被切割以及切割基因组中的靶位点，从而允许启动子与编码目标基因的序列可操作地连接，以整合到目标染色体位置。暴露的HR臂的存在可通过同源重组(HR)机制或通过微同源介导的末端连接(MMEJ)促进目标基因盒整合到基因组靶位点。

实施例18.使用TALE诱导Cre表达和Cre/lox进行靶向插入

此实施例描述了T-DNA载体设计，它利用TALE(转录激活因子样效应子)蛋白来诱导Cre重组酶的表达，从而导致T链环形成，从而导致Cre失活，从而限制重组酶的表达。转录激活样效应子(TALE)是包含C末端激活结构域的转录因子，一旦它们与基因启动子处或附近的TALE结合位点(TBS)DNA结合，就可以激活或增加基因的表达。

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；与编码Cas12a核酸酶的序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的聚合酶III启动子；与编码包含激活结构域的TALE蛋白序列可操作地连接的启动子；第一lox位点；Cas12a靶位点；目标基因；TALE结合位点(TBS)；第二lox位点；与编码Cre重组酶的序列可操作地连接的最小启动子(例如，35S最小启动子)；与编码选择标记基因的序列可操作地连接的启动子；和右边界(RB)序列，参见图22。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。TALE蛋白被表达并与位于导致Cre表达的最小启动子相邻的TBS结合。Cre重组酶切除并环化包含Cas12a靶位点的T-DNA片段；目标基因和TBS。Cas12a和gRNA的表达允许环化的T-DNA片段被切割以及切割基因组中的靶位点，从而允许目标基因整合到目标染色体位置。T-DNA片段的切除导致TBS从Cre盒中断开连接，因此Cre不再表达。限制Cre表达可能有助于防止目标基因在整合到基因组靶位点后与位于基因组另一个位点的其余T-DNA之间发生不需要的重组事件。有限的Cre表达也可以减少在一些双子叶植物物种(例如大豆)中归因于Cre表达的负表型。

虽然优选实施方案使用TALE来激活Cre表达，但可以使用与转录因子(TF)激活域(dCas12a-TF)融合的无催化活性的Cas12a(dCas12a)代替TALE蛋白。dCas12a包含Nuc结构域中的R1226A突变，导致蛋白质缺乏核酸酶活性，但在适当的gRNA存在的情况下保留与靶位点结合的能力。dCas12a-TF可用于激活与最小启动子和适当的dCas12a目标结合位点可操作相关的Cre的表达。在另一个实施方案中，可以利用天然转录因子，消除T-DNA中对TALE或dCas12a-TF盒的需要。在这种情况下，T-DNA中的TBS被适当的天然转录因子的结合位点取代。

实施例19.从单个T-DNA生成多个环化T-DNA片段

此实施例描述了T-DNA载体，其被设计成通过从单个T-DNA载体生成多个Cre介导的环化T-DNA片段来增加SDI的频率。

产生的T-DNA按5’端到3’端的顺序包含：左边界(LB)序列；与编码Cas12a核酸酶的序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的聚合酶III启动子；第一lox位点；第一右同源臂(HR-R)，包含显示与基因组靶位点右侧具有同源性的序列；第一Cas12a靶位点；第一左同源臂(HR-L)，包含显示与基因组靶位点左侧翼同源的序列；第一目标基因；第二lox位点；第二HR-R臂，第二Cas12a靶位点；第二目标基因；第三lox位点；第三HR-R序列；第三Cas12a靶位点；第三HR-L序列；第三GOI；第四lox位点；与编码Cre重组酶的序列可操作地连接的启动子；与编码选择标记基因的序列可操作地连接的启动子；和右边界(RB)序列。参见图23。在上述设计中，侧翼为lox位点的每个T-DNA序列可以被切除并环化以提供T-DNA片段SDI底物。因此，上述设计产生了3个环化的T-DNA片段SDI底物。

经过农杆菌介导的转化将构建体引入植物细胞，T-DNA随机插入植物细胞的基因组。表达后，Cre重组酶切除并环化位于lox位点两侧的T-DNA片段。T环的切除可以通过多种方式进行，可以单独切除每个T环底物，或者可以切除一个大的环化T-DNA片段，然后分解为3个单独的环，每个均包含Cas12a靶位点和两侧为HR-L和HR-R的目标基因。Cas12a和gRNA的表达允许环化的T-DNA片段被切割以及切割基因组中的靶位点，从而使目标基因整合到染色体靶位点。暴露的同源臂的存在可通过同源重组(HR)机制或通过微同源介导的末端连接(MMEJ)促进目标基因盒整合到基因组靶位点。多个环化T-DNA片段的存在可导致更多的SDI底物，从而增加SDI频率。

实施例20.使用病毒复制子进行靶向插入

此实施例描述了T-DNA载体设计，所述设计利用来自纳米病毒和双生病毒的复制酶和长基因间区(LIR)元件来提供足够高拷贝数的环化片段，以实现高效SDI。

ssDNA植物病毒的双生病毒科和纳米病毒科通过滚环机制进行复制。复制起始蛋白/复制酶(Rep)识别病毒DNA大基因间区(LIR)中的一个结构域，并在LIR发夹结构上发现的保守位点对DNA进行切割，以促进滚环复制和环状病毒的产生。先前已有报道称，双生病毒和纳米病毒复制酶可以识别并环化携带侧翼为其同源LIR的供体序列的DNA(参见Aronson等，2002，The Plant Journal，31(6)，767-775；参见Baltes等，2014，The PlantCell，26:1,151-163)。此外，包含供体DNA的工程双生病毒复制子在与靶向染色体切割结合时已显示可促进供体DNA序列的定向整合(参见Aronson等，2002年，The Plant Journal,31(6),767-775)。

双生病毒T-DNA载体：产生的T-DNA按5’端到3’端顺序包含:左边界(LB)序列；与编码选择标记基因的序列可操作地连接的启动子；与编码Cas12a核酸酶的序列可操作地连接的启动子；第一序列，包含来自大豆退绿斑点病毒双生病毒(SCSV)的LIR(SEQ ID NO：64)；Cas12a靶位点；第一目标基因；第二序列，包含来自SCSV的LIR；SCSV Rep(复制酶)盒，其包含与编码SCSV Rep(SEQ ID NO：65)的DNA序列可操作地连接的启动子；与编码引导RNA的序列可操作地连接的聚合酶III启动子；和右边界(RB)序列。还生成了设计相同但缺少Rep盒的对照载体。

纳米病毒T-DNA载体：产生的T-DNA按5’端到3’端顺序包含：左边界(LB)序列；与编码选择标记基因的序列可操作地连接的启动子；与编码Cas12a核酸酶的序列可操作地连接的启动子；第一序列，包含来自(蚕豆坏死黄病毒(FBNYV)(SEQ ID NO:66)的LIR；Cas12a靶位点；第一目标基因；第二序列，包含来自FBNYV的LIR；FBNYV Rep盒，其包含与编码FBNYVRep的DNA序列可操作地连接的启动子(SEQ ID NO 67)；与编码引导RNA的序列可操作地连接的聚合酶III启动子；和右边界(RB)序列。还生成了设计相同但缺少Rep盒的对照载体。参见图24。

经过农杆菌介导的转化将测试和对照构建体引入植物细胞。T-DNA随机插入植物细胞的基因组中。预计来自测试构建体的病毒Rep蛋白的成功表达将使包含侧翼为LIR的目的基因的构建体片段环化。Cas12a和gRNA的表达允许环化的T-DNA片段被切割以及切割基因组中的靶位点，从而允许目标基因整合到目标染色体位置。

使用包含病毒复制酶-LIR元件的T-DNA载体的一个优点是可能在病毒复制酶蛋白存在的情况下在细胞核内产生高拷贝数的包含GOI盒的环状片段。这反过来可以提高SDI率。病毒复制酶介导的SDI富集可以通过在统计上有意义的方式在测试中比在对照中更高的整合率来证明。

实施例21：分裂标记载体的内含子

此实施例提供了单子叶植物内含子的实例，其可用于代替实施例3中描述的玉米分裂标记载体中使用的肌动蛋白内含子(SEQ ID NO：22)。

表15：单子叶植物内含子

Claims

1.重组核酸构建体，其包含：

(a)左边界序列；

(b)第一重组位点和第二重组位点；

(c)引导核酸酶的靶位点；

(d)目标序列；和

(e)右边界序列，

其中所述引导核酸酶的靶位点和所述目标序列位于所述第一重组位点和所述第二重组位点之间。

2.根据权利要求1所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

3.根据权利要求1所述的重组核酸构建体，其中所述构建体还包含编码至少一种选择标记的表达盒。

4.根据权利要求3所述的重组核酸构建体，其中所述选择标记选自下组：nptII、aphIV、aadA、aac3、aacC4、bar、pat、DMO、EPSPS、aroA、荧光素酶、GFP和GUS。

5.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体还包含编码与启动子可操作地连接的引导核酸酶的序列。

6.根据权利要求3所述的重组核酸构建体，其中编码至少一种选择标记的表达盒包含(a)启动子；(b)至少一个内含子；和(c)蛋白质编码序列。

7.根据权利要求6所述的表达盒，其中所述启动子位于目标序列和RB序列之间，并且其中所述蛋白质编码序列位于LB序列和目标序列之间。

8.根据权利要求6所述的表达盒，其中所述至少一个内含子包含已分裂成两个或更多个内含子序列的单个内含子序列。

9.根据权利要求8所述的表达盒，其中所述单个内含子序列选自SEQ ID NO:22、68、69、70、71和72。

10.根据权利要求6所述的表达盒，其中所述启动子选自下组：组成型启动子、诱导型启动子和组织特异型启动子。

11.根据权利要求6所述的表达盒，其中，LB序列和RB序列位于启动子和蛋白质编码序列之间。

12.根据权利要求5所述的重组核酸构建体，其中所述构建体被环化，并且其中所述启动子序列和RB序列位于LB序列的5’端。

13.根据权利要求1所述的重组核酸构建体，其中LB、RB或两者是截短的边界序列。

14.根据权利要求1所述的重组核酸构建体，其中所述构建体还包含编码至少一种重组酶的序列。

15.根据权利要求14所述的重组核酸构建体，其中所述至少一种重组酶选自下组：Cre重组酶、FLP重组酶、Gin重组酶、Tnp1重组酶、Bxb1整合酶、phiC31整合酶、R4整合酶，和TP-901整合酶。

16.根据权利要求1所述的重组核酸构建体，其中所述第一重组位点和所述第二重组位点彼此相同。

17.根据权利要求1所述的重组核酸构建体，其中所述第一重组位点和所述第二重组位点彼此相容。

18.根据权利要求1所述的重组核酸构建体，其中所述引导核酸酶的靶位点位于目标序列的5’端。

19.根据权利要求1所述的重组核酸构建体，其中所述引导核酸酶的靶位点位于目标序列的3’端。

20.根据权利要求1所述的重组核酸构建体，其中所述第一重组位点和所述第二重组位点是lox位点。

21.根据权利要求1所述的重组核酸构建体，其中所述第一重组位点和所述第二重组位点是FRT位点。

22.根据权利要求3所述的重组核酸构建体，其中所述构建体以5’端至3’端的顺序包含以下组分：第二启动子、第一重组位点、引导核酸酶的靶位点、目标序列、第二重组位点，和至少一个编码选择标记的序列，其中第二启动子和至少一个编码选择标记的序列处于同一方向。

23.根据权利要求3所述的重组核酸构建体，其中所述构建体以5’端至3’端的顺序包含以下组分：第一重组位点、编码至少一个选择标记的序列、引导核酸酶的靶位点、目标序列、第二启动子和第二重组位点，其中第二启动子和至少一个选择标记的序列处于同一方向。

24.根据权利要求5所述的重组核酸构建体，其中所述引导核酸酶选自下组：RNA引导核酸酶、锌指核酸酶、大范围核酸酶、转录激活因子样效应物(TALE)核酸酶和TALE样蛋白质。

25.根据权利要求24所述的重组核酸构建体，其中所述RNA引导核酸酶选自下组：Cas12a(Cpf1)、Cas9、CasX、CasY、C2c2、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3和Csf4。

26.根据权利要求1所述的重组核酸构建体，其中所述构建体还包含编码一个或多个引导RNA(gRNA)的序列，所述序列与Pol III启动子可操作地连接。

27.根据权利要求26所述的重组核酸构建体，其中所述编码一个或多个gRNA的序列编码第一gRNA，所述第一gRNA能够与重组核酸构建体中的引导核酸酶的靶位点杂交。

28.根据权利要求1所述的重组核酸构建体，其中所述引导核酸酶的靶位点与植物基因组中的序列基本相同。

29.根据权利要求1所述的重组核酸构建体，其中所述引导核酸酶在引导核酸酶的靶位点切割构建体后产生4个核苷酸的突出端。

30.根据权利要求27所述的重组核酸构建体，其中所述构建体还包含编码第二gRNA的序列。

31.根据权利要求30所述的重组核酸构建体，其中所述第二gRNA能够与植物基因组中的靶位点杂交，其中所述植物基因组中的靶位点不同于所述重组核酸构建体中的引导核酸酶的靶位点。

32.根据权利要求30所述的重组核酸构建体，其中所述第二gRNA不与所述重组核酸构建体杂交。

33.根据权利要求27所述的重组核酸构建体，其中所述引导核酸酶在切割植物基因组中的靶位点后产生4个核苷酸的突出端。

34.根据权利要求1所述的重组核酸构建体，其中所述第一启动子序列选自下组：组成型启动子、诱导型启动子和组织特异型启动子。

35.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体中的引导核酸酶的靶位点包含4bp的PAM和23bp的间隔区互补序列。

36.根据权利要求1所述的重组核酸构建体，其中LB序列和RB序列均位于目标序列的5’端。

37.根据权利要求1所述的重组核酸构建体，其中所述构建体还包含第一同源臂(HR1)和第二同源臂(HR2)。

38.根据权利要求37所述的重组核酸构建体，其中所述引导核酸酶的靶位点位于HR1和HR2之间。

39.根据权利要求1所述的重组核酸构建体，其中所述构建体缺少引导核酸酶的第二靶位点。

40.根据权利要求1所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

41.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

42.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

43.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

44.根据权利要求1所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

45.重组核酸构建体，其包含：

(a)左边界序列；

(b)第一重组位点和第二重组位点；

(c)目标序列；

(d)引导核酸酶的靶位点；

(e)启动子；和

(f)右边界序列，

其中所述目标序列和所述引导核酸酶的靶位点位于所述第一重组位点和所述第二重组位点之间。

46.根据权利要求45所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

47.根据权利要求45所述的重组核酸构建体，其中所述构建体还包含编码引导核酸酶的序列。

48.根据权利要求47所述的重组核酸构建体，其中所述编码引导核酸酶的序列包含第一内含子序列和第二内含子序列。

49.根据权利要求48所述的重组核酸构建体，其中左边界序列和右边界序列位于第一内含子序列和第二内含子序列之间，其中第一内含子序列和第二内含子序列位于启动子和编码引导核酸酶的序列之间，并且其中启动子与编码引导核酸酶的序列可操作地连接。

50.根据权利要求49所述的重组核酸构建体，其中所述第一内含子序列和所述第二内含子序列独立地选自SEQ ID NO：22、68、69、70、71和72。

51.根据权利要求45所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

52.根据权利要求45所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

53.根据权利要求45所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

54.根据权利要求45所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

55.根据权利要求45所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

56.重组核酸构建体，其包含：

(a)左边界序列；

(b)第一启动子；

(c)第一重组位点和第二重组位点；

(d)引导核酸酶的靶位点；

(e)目标序列；和

(f)右边界序列，

57.根据权利要求56所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

58.根据权利要求56所述的重组核酸构建体，其中所述构建体还包含至少一个与第二启动子可操作地连接的选择标记基因。

59.根据权利要求56所述的重组核酸构建体，其中所述构建体还包含编码与第二启动子可操作地连接的重组酶的序列。

60.根据权利要求56所述的重组核酸构建体，其中所述构建体还包含编码一个或多个引导RNA(gRNA)的序列。

61.根据权利要求60所述的重组核酸构建体，其中编码一个或多个gRNA的序列与第二启动子可操作地连接。

62.根据权利要求56所述的重组核酸构建体，其中所述构建体还包含编码引导核酸酶的序列。

63.根据权利要求62所述的重组核酸构建体，其中所述构建体以5’端至3’端的顺序包含以下组分：第一启动子、第一重组位点、引导核酸酶的靶位点、目标序列、第二重组位点，以及编码引导核酸酶的序列，其中第一启动子和编码引导核酸酶的序列处于同一方向。

64.根据权利要求60所述的重组核酸构建体，其中所述构建体以5’端至3’端的顺序包含以下组分：第一启动子、第一重组位点、引导核酸酶的靶位点、目标序列、第二重组位点，以及编码一个或多个gRNA的序列，其中第一启动子和编码一个或多个gRNA的序列处于同一方向，并且其中编码引导核酸酶的序列与第二启动子可操作地连接。

65.根据权利要求58所述的重组核酸构建体，其中所述构建体以5’端至3’端的顺序包含以下组分：编码引导核酸酶的序列、第一重组位点、选择标记基因、引导核酸酶的靶位点、目标序列、第一启动子、第二重组位点和第二启动子，其中编码引导核酸酶的序列和第二启动子处于同一方向，并且其中选择标记基因和第一启动子与编码引导核酸酶的序列和第二启动子处于相反方向。

66.根据权利要求56所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

67.根据权利要求66所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

68.根据权利要求66所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

69.根据权利要求66所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

70.根据权利要求66所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

71.重组核酸构建体，其包含：

(a)第一左边界(LB)序列；

(b)第一重组位点和第二重组位点；

(c)目标序列；

(d)引导核酸酶的靶位点；

(e)第一右边界(RB)序列；

(f)第二RB序列；和

(g)第二LB序列，

72.根据权利要求71所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

73.根据权利要求71所述的重组核酸构建体，其中所述构建体还包含(h)编码与第一启动子可操作地连接的引导RNA的序列。

74.根据权利要求71所述的重组核酸构建体，其中所述构建体还包含(h)编码至少一个与第一启动子可操作地连接的选择标记基因的序列。

75.根据权利要求71所述的重组核酸构建体，其中所述构建体还包含(h)编码与第一启动子可操作地连接的引导核酸酶的序列。

76.根据权利要求71所述的重组核酸构建体，其中所述目标序列位于第一LB序列和第一RB序列之间。

77.根据权利要求71所述的重组核酸构建体，其中组分(a)、(b)、(c)、(d)、(e)、(f)和(g)物理地连接在一个核酸载体中。

78.根据权利要求73所述的重组核酸构建体，其中组分(a)、(b)、(c)、(d)、(e)、(f)、(g)和(h)物理地连接在一个核酸载体中。

79.根据权利要求74所述的重组核酸构建体，其中组分(a)、(b)、(c)、(d)、(e)、(f)、(g)和(h)物理地连接在一个核酸载体中。

80.根据权利要求75所述的重组核酸构建体，其中组分(a)、(b)、(c)、(d)、(e)、(f)、(g)和(h)物理地连接在一个核酸载体中。

81.根据权利要求71所述的重组核酸构建体，其中组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中组分(e)、(f)和(g)物理地连接在第二核酸载体中。

82.根据权利要求73所述的重组核酸构建体，其中组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中组分(e)、(f)、(g)和(h)物理地连接在第二核酸载体中。

83.根据权利要求74所述的重组核酸构建体，其中组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中组分(e)、(f)、(g))和(h)物理地连接在第二核酸载体中。

84.根据权利要求75所述的重组核酸构建体，其中组分(a)、(b)、(c)和(d)物理地连接在第一核酸载体中，并且其中组分(e)、(f)、(g))和(h)物理地连接在第二核酸载体中。

85.根据权利要求71所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

86.根据权利要求85所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

87.根据权利要求85所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

88.根据权利要求85所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

89.根据权利要求85所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

90.重组核酸构建体，其包含：

(a)左边界序列；

(b)编码选择标记的序列；

(c)第一重组位点和第二重组位点；

(d)引导核酸酶的靶位点；

(e)目标序列；

(f)第一启动子；和

(g)右边界序列，

其中所述第一启动子和所述编码选择标记的序列处于同一方向，并且其中所述引导核酸酶的靶位点和所述目标序列位于所述第一重组位点和所述第二重组位点之间。

91.根据权利要求90所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

92.根据权利要求90所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

93.根据权利要求92所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

94.根据权利要求92所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

95.根据权利要求92所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

96.根据权利要求92所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

97.重组核酸构建体，其包含：

(a)左边界序列；

(b)编码至少一个与第一启动子可操作地连接的引导RNA的序列；

(c)第一重组位点和第二重组位点；

(d)引导核酸酶的靶位点；

(e)目标序列；和

(f)右边界序列，

98.根据权利要求97所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

99.根据权利要求97所述的重组核酸构建体，其中所述引导核酸酶能够切割基因组靶位点。

100.根据权利要求99所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

101.根据权利要求99所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

102.根据权利要求99所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

103.根据权利要求99所述的重组核酸构建体，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列的反向互补序列。

104.重组核酸构建体，其包含：

(a)左边界序列；

(b)第一大基因间区(LIR)和第二LIR；

(c)目标序列；

(d)引导核酸酶的靶位点；和

(e)右边界序列，

其中所述目标序列和所述引导核酸酶的靶位点位于所述第一LIR和所述第二LIR之间。

105.根据权利要求104所述的重组核酸构建体，其中所述目标序列包含与编码除草剂耐受蛋白或杀虫蛋白的序列可操作地连接的启动子。

106.根据权利要求104所述的重组核酸构建体，其中所述构建体还包含以下一个或多个：编码引导核酸酶的表达盒、编码选择标记的表达盒、编码一个或多个引导RNA的表达盒、编码Rep蛋白的表达盒。

107.编辑植物细胞基因组的方法，所述方法包含：

(a)向至少一个植物细胞提供权利要求1-106中任一项所述的重组核酸构建体；和

(b)从步骤(a)中选择至少一个植物细胞，其中所述至少一个植物细胞包含插入所述植物细胞的基因组中的第一目标序列。

108.根据权利要求107所述的方法，其中所述方法还包含(c)从步骤(b)中选择的至少一个植物细胞再生植物。

109.根据权利要求107所述的方法，其中所述植物细胞选自下组：玉米细胞、水稻细胞、大豆细胞、油菜细胞、苜蓿细胞、高粱细胞、小麦细胞、大麦细胞、小米细胞、黑麦细胞、甘蔗细胞、棉花细胞、番茄细胞、洋葱细胞、黄瓜细胞、拟南芥细胞和马铃薯细胞。

110.根据权利要求107所述的方法，其中所述植物细胞的基因组选自下组：核基因组、线粒体基因组和质体基因组。

111.防止过早的RNA引导核酸酶活性的方法，所述方法包含向植物细胞提供权利要求73所述的重组核酸构建体，其中切除位于第一重组位点和第二重组位点之间的核酸序列以允许第一个启动子序列驱动编码引导核酸酶的序列的表达。

112.防止过早的RNA引导核酸酶活性的方法，所述方法包含向植物细胞提供权利要求74的重组核酸构建体，其中切除位于第一重组位点和第二重组位点之间的核酸序列以允许第一个启动子序列驱动编码gRNA的序列的表达。

113.植物细胞，其包含权利要求1-106中任一项所述的重组核酸构建体。

114.包含向细胞中引入重组DNA构建体的方法，所述重组DNA构建体包含：

(a)左边界序列；

(b)第一重组位点和第二重组位点；

(c)引导核酸酶的靶位点；

(d)目标序列；和

(e)右边界序列，

其中所述引导核酸酶的靶位点和所述目标序列位于所述第一重组位点和所述第二重组位点之间，其中所述引导核酸酶切割引导核酸酶的靶位点和基因组靶位点，并且其中所述目标序列被插入到基因组靶位点。

115.根据权利要求114所述的方法，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列是基因组靶位点的间隔区互补序列内目标链的核苷酸位置20至23的序列的反向互补序列。

116.根据权利要求114所述的方法，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列相同。

117.根据权利要求114所述的方法，其中所述重组核酸构建体中引导核酸酶的靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列与基因组靶位点的间隔区互补序列内目标链的核苷酸位置1至19的序列不同。

118.工程化的双链供体DNA分子，其包含与至少一个目标序列相邻的引导核酸酶的一个或多个靶位点，其中所述引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置20至23的序列是基因组靶位点内的目标链的核苷酸位置20至23的序列的反向互补序列。

119.根据权利要求118所述的工程化双链供体DNA分子，其中所述引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列与基因组靶位点内的目标链的核苷酸位置1至19的序列相同。

120.根据权利要求118所述的工程改造的双链供体DNA分子，其中所述引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列与基因组靶位点内的目标链的核苷酸位置1至19的序列不同。

121.根据权利要求118所述的工程改造的双链供体DNA分子，其中所述引导核酸酶的一个或多个靶位点内的目标链的核苷酸位置1至19的序列是基因组靶位点内目标链的核苷酸位置1至19的序列的反向互补。

122.根据权利要求118所述的工程化双链供体DNA分子，其中所述双链供体DNA分子包含两个或更多个引导核酸酶的靶位点，并且其中所述双链供体DNA分子包含位于至少一个目标序列5’端的至少一个引导核酸酶的靶位点和位于至少一个目标序列3’端的至少一个引导核酸酶的靶位点。

123.根据权利要求118所述的工程化双链供体DNA分子，其包含至少两个目标基因。

124.根据权利要求118所述的工程化双链供体DNA分子，其中所述引导核酸酶是RNA引导核酸酶。

125.根据权利要求124所述的工程化双链供体DNA分子，其中所述RNA引导核酸酶是Cas12a核酸酶。

126.根据权利要求118所述的工程化双链供体DNA分子，其中在切割引导核酸酶的一个或多个靶位点后产生的突出序列与在切割基因组靶位点后产生的突出序列的至少两个核苷酸互补。

127.根据权利要求118所述的工程化双链供体DNA分子，其中在切割引导核酸酶的一个或多个靶位点后产生的突出序列与在切割基因组靶位点后产生的突出序列的至少五个核苷酸互补。

128.包含将权利要求118所述的工程化双链供体DNA分子引入细胞的方法。