CN114072498A

CN114072498A - Crispr-cas9基因组编辑的供体设计策略

Info

Publication number: CN114072498A
Application number: CN202080050299.5A
Authority: CN
Inventors: A·达斯; S·卡奴甘地; A·莫罕蒂; S·斯维塔舍夫; V·S·塔瓦
Original assignee: Pioneer Hi Bred International Inc
Current assignee: Pioneer Hi Bred International Inc
Priority date: 2019-07-23
Filing date: 2020-07-17
Publication date: 2022-02-18
Also published as: US20220307006A1; CA3143016A1; EP4004198A4; WO2021016098A1; BR112022001230A2; EP4004198A1

Abstract

提供了用于使用异源多核苷酸的串联体改善植物细胞中双链断裂的同源定向修复的方法和组合物，这些串联体的侧翼是能够与指导RNA进行序列杂交的序列。在一些方面，该双链断裂由RNA指导的Cas内切核酸酶产生。该双链断裂的同源定向修复可包括并入异源多核苷酸，例如编码具有农艺学重要性的性状的基因。该双链断裂的同源定向修复可作为使用异源多核苷酸作为修复模板的模板定向修复的结果而发生。

Description

CRISPR-CAS9基因组编辑的供体设计策略

相关申请的交叉引用

本申请要求于2019年7月23日提交的美国临时专利申请序列号62/877,359的权益，其全部内容通过引用并入本文。

以电子方式递交的序列表的引用

该序列表的官方副本经由EFS-Web作为ASCII格式的序列表以电子方式提交，文件名为7824WOPCT_SequenceListing_ST25.txt，创建于2020年7月13日且具有41,654字节大小，并与本说明书同时提交。包括在该ASCII格式的文件中的序列表是本说明书的一部分并且以其全文通过引用并入本文。

技术领域

本披露涉及分子生物学领域，具体涉及用于修饰细胞基因组的组合物和方法。

背景技术

重组DNA技术使得在靶基因组位置处插入DNA序列和/或修饰特定内源染色体序列成为可能。已经使用了采用位点特异性重组系统的位点特异性整合技术以及其他类型的重组技术来在各种生物体中产生目的基因的靶向插入。基因组编辑技术如设计师的锌指核酸酶(ZFN)、转录激活子样效应子核酸酶(TALEN)或归巢大范围核酸酶可以用于产生靶向基因组干扰，但这些系统倾向于具有低特异性并且使用需要对每个靶位点进行重新设计的经设计的核酸酶，这使得它们的制备成本高昂且耗时。

已经鉴定了利用古细菌或细菌适应性免疫系统的较新技术，称为CRISPR(成簇的规律间隔的短回文重复序列(Clustered Regularly Interspaced Short PalindromicRepeats))，其包含效应子蛋白的不同结构域，所述效应子蛋白包含多种活性(DNA识别、结合、切割和修复)。双链断裂的修复可以通过非同源末端连接(NHEJ)或同源定向修复(HDR)/同源重组(HR)进行。HDR/HR可以通过几种机制实现，包括在靶位点的同源重组，这可进一步包括引入模板进行模板定向修复或引入DNA分子进行靶向整合。

仍然需要用于改善双链断裂位点的同源定向修复频率的方法和组合物。

发明内容

提供了用于修复靶多核苷酸中的双链断裂并增加同源定向修复或同源重组频率的方法。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该异源多核苷酸是插入该双链断裂的供体DNA分子。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该异源多核苷酸是引导该双链断裂修复的模板DNA分子。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中每个异源多核苷酸的侧翼是一组第二侧翼序列，该组中的每个第二侧翼序列是1、1和5之间、5、5和10之间、10、10和15之间、15、15和20之间、20、20和25之间或大于25个核苷酸的长度并且与双链断裂的50、75、100、200、300、400、500、600、700、800、900、1000、1200、1300、1400、1500、1600、1700、1800、1900、2000、2500、3000、3500、4000、4500、5000或大于5000个核苷酸内的序列具有至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％同一性，并且其中所述组第二侧翼序列的侧翼是该组第一侧翼序列。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中提供了多个不同的指导RNA分子，并且其中这些第二侧翼序列能够与该多个不同的指导RNA分子杂交。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该靶多核苷酸在细胞中。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该靶多核苷酸在细胞中，其中该细胞是植物细胞。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该多个序列单元稳定地整合到该植物细胞中。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该指导RNA分子通过粒子轰击提供。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该多个序列单元通过农杆菌介导的转化提供。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该多个序列单元通过粒子轰击提供。

在一方面，该方法包括向靶多核苷酸提供Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸，并与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，其中该靶多核苷酸的该双链断裂位点处的同源重组修复频率大于同一位点的非同源末端连接修复率。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物(isoline plant)相比，该植物包含至少一种表型性状的改变。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；其中每个异源多核苷酸的侧翼是一组第二侧翼序列，该组中的每个第二侧翼序列是1、1和5之间、5、5和10之间、10、10和15之间、15、15和20之间、20、20和25之间或大于25个核苷酸的长度并且与双链断裂的50、75、100、200、300、400、500、600、700、800、900、1000、1200、1300、1400、1500、1600、1700、1800、1900、2000、2500、3000、3500、4000、4500、5000或大于5000个核苷酸内的序列具有至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％同一性，并且其中所述组第二侧翼序列的侧翼是该组第一侧翼序列。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；其中该细胞是单子叶植物细胞。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；其中该细胞是单子叶植物细胞，其中该单子叶植物细胞选自由以下组成的组：玉米、稻、高粱、大麦和小麦。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；其中该细胞是双子叶植物细胞。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；其中该细胞是双子叶植物细胞，其中该双子叶植物细胞选自由以下组成的组：大豆、卡诺拉油菜、棉花、甘蔗和拟南芥。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变，其中该表型性状是平均产率。

在一个方面，该方法提供了改变植物表型性状的方法，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；进一步包括获得该植物的组织、部分或繁殖元件，其中该组织、部分或繁殖元件包含从其中获得该组织、部分或繁殖元件的植物的该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰。

在一个方面，该方法提供通过改变植物表型性状的方法获得或衍生的后代植物，包括向植物细胞提供一组分子，这些分子包含Cas内切核酸酶、与该Cas内切核酸酶形成复合物以在植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子、以及多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与该指导RNA杂交；用该复合物切割该多个序列单元以释放该异源多核苷酸；与提供该多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合，和从该植物细胞获得植物，其中与未提供该组分子的同系植物相比，该植物包含至少一种表型性状的改变；进一步包括获得该植物的组织、部分或繁殖元件，其中该组织、部分或繁殖元件包含从其中获得该组织、部分或繁殖元件的植物的该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰或任何前述的组合；其中该后代植物包含所述核苷酸插入、缺失、取代、修饰或其组合。

附图和序列表的说明

根据下列的详细描述和附图以及序列表，可以更全面地理解本公开，所述详细描述和附图以及序列表形成本申请的一部分。

图1描绘了串联体供体DNA/模板DNA的概念，其中每个DNA单元的侧翼是指导RNA靶序列。

图2描绘了用于一般单指导方法的载体构建的示意图。

图3描绘了用于一般双指导方法的载体构建的示意图。

图4是稻GL3串联体实验(供体/模板的串联拷贝)中使用的用于转化稻的构建体#1的载体图。

图5是稻GL3串联体单拷贝修复模板对照实验(单供体/模板1靶位点)中使用的用于转化稻的构建体#2的载体图。

图6是稻GL3串联体单拷贝修复模板控制实验(单供体/模板2靶位点)中使用的用于转化稻的构建体#3的载体图。

图7A描绘了使用具有侧翼靶位点序列的单供体/模板拷贝，使用反向取向的PAM序列的载体构建的示意图。

图7B描绘了使用具有侧翼靶位点序列的单供体/模板拷贝，使用载体中相同取向的PAM序列的载体构建的示意图。

图7C描绘了使用具有侧翼靶位点序列的串联供体/模板拷贝，使用载体中相同取向的PAM序列的载体构建的示意图。

图8是对照实验(单供体/模板，根据图7A)中使用的用于转化玉米的构建体#4的载体图。

图9是对照实验(单供体/模板，根据图7B)中使用的用于转化玉米的构建体#5的载体图。

图10是对照实验(串联供体/模板，根据图7C)中使用的用于转化玉米的构建体#5的载体图。

图11A描绘了使用具有侧翼靶位点序列的200nt的单供体/模板拷贝的载体构建的示意图。

图11B描绘了使用具有侧翼靶位点序列的各200nt的串联供体/模板拷贝的载体构建的示意图。

图11C描绘了使用具有侧翼靶位点序列的828nt的单供体/模板拷贝的载体构建的示意图。

这些序列描述以及所附序列表遵守如37C.F.R.§§1.821和1.825所列出的管理专利申请中核苷酸和氨基酸序列公开内容的规则。这些序列描述包含如在37C.F.R.§§1.821和1.825中所定义的用于氨基酸的三字母代码，将其通过引用结合在此。

SEQID NO：1是水稻(Oryza sativa)的稻(Rice)U3 PolIII Chr4启动子(OSU3POLIII CHR4 PRO)DNA序列。

SEQID NO：2是水稻的稻GL3 gRNA靶位点序列(CR1)的DNA序列。

SEQID NO：3是指导RNA序列的人工DNA序列。

SEQID NO：4是玉蜀黍(Zea mays)的玉米(Maize)泛素启动子(UBI1ZM PRO)DNA序列。

SEQID NO：5是玉蜀黍的玉米泛素5′UTR(UBI1ZM 5UTR)DNA序列。

SEQID NO：6是玉蜀黍的玉米泛素内含子1(UBI1ZM INTRON1)DNA序列。

SEQID NO：7是化脓链球菌的化脓链球菌Cas9 CDS DNA序列。

SEQID NO：8是PinII终止子的DNA序列。

SEQID NO：9是水稻的稻GL3同源区域1(HDR-OS-GL3FRAG2)DNA序列。

SEQID NO：10是水稻的稻GL3模板DNA序列。

SEQID NO：11是水稻的稻GL3同源区域2(HDR-OS-GL3FRAG3)DNA序列。

SEQID NO：12是花椰菜花叶病毒35S启动子(CAMV35S PRO-V4)DNA序列。

SEQID NO：13是HYG-Z5 Yellow N1选择性标志物的人工DNA序列。

SEQID NO：14是用于将gRNA克隆到稻U3中Slot1 Aar1位点的引物的人工DNA序列。

SEQID NO：15是用于将gRNA克隆到稻U3中Slot1 Aar1位点的引物的人工DNA序列。

SEQID NO：16是BamHl接头的人工DNA序列。

SEQID NO：17是HindIII接头的人工DNA序列。

SEQID NO：18是用于在Nco1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：19是用于在Nco1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：20是用于在BamH1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：21是用于在BamH1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：22是用于在Bglll处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：23是用于在Bglll处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：24是用于在HindIII处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：25是用于在HindIII处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：26是用于在Stu1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：27是用于在Stu1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：28是用于在Stu1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：29是用于在Stu1处克隆异源多核苷酸的引物的人工DNA序列。

SEQID NO：30是玉蜀黍AXIG1启动子DNA序列。

SEQID NO：31是玉蜀黍WUS2形态发生因子(ALT1)DNA序列。

SEQID NO：32是根癌农杆菌NOS终止子DNA序列。

SEQID NO：33是玉蜀黍PLTP启动子DNA序列。

SEQID NO：34是玉蜀黍PLTP 5′UTR DNA序列。

SEQID NO：35是玉蜀黍ODP2形态发生因子(ALT1)DNA序列。

SEQID NO：36是水稻T28终止子DNA序列。

SEQID NO：37是玉蜀黍泛素启动子DNA序列。

SEQID NO：38是玉蜀黍泛素5′UTR DNA序列。

SEQID NO：39是玉蜀黍泛素内含子1 DNA序列。

SEQID NO：40是猿猴病毒40的T抗原单部分核定位信号DNA序列。

SEQID NO：41是化脓链球菌的Cas9外显子1 DNA序列。

SEQID NO：42是马铃薯的LS1内含子2 DNA序列。

SEQID NO：43是化脓链球菌的Cas9外显子2 DNA序列。

SEQID NO：44是根癌农杆菌的来自VirD2内切核酸酶的C末端二分型核定位信号的DNA序列。

SEQID NO：45是马铃薯的PinII终止子DNA序列。

SEQID NO：46是玉蜀黍的U6 PolIII Chr8启动子DNA序列。

SEQID NO：47是玉蜀黍DNA序列，其编码针对Zm靶位点的指导RNA的VT结构域的DNA序列。

SEQID NO：48是指导RNA序列的人工DNA序列。

SEQID NO：49是玉蜀黍的Zm gRNA靶位点序列(CR1)的DNA序列。

SEQID NO：50是玉蜀黍的Zm同源区1的DNA序列。

SEQID NO：51是Zm靶位点模板的人工DNA序列。

SEQID NO：52是玉蜀黍的Zm同源区2的DNA序列。

SEQID NO：53是大肠杆菌的NPTII选择性标志物的DNA序列。

详细说明

CRISPR/Cas辅助的靶向基因组编辑可以通过同源重组(HR)通过模板依赖性修复对基因序列进行编辑以生成“等位基因编辑”。一些方法涉及在DNA双链断裂后对靶基因组DNA进行单模板依赖性修复。然而，这种涉及供体或修复模板的编辑策略的成功率和频率在某些类型的生物体(例如某些植物)的基因组中可能受到限制。靶基因组的模板依赖性修复或编辑效率的提高能够实现高通量靶向基因组编辑，并且可能通过靶向多个基因或一个基因中的多个靶标在遗传途径工程化中发挥关键作用。

通过提供串联重复序列的串联体，可以增加由CRISPR内切核酸酶产生的双链断裂(DSB)的同源重组(HR)或同源定向修复(HDR)的频率。每个串联重复序列的侧翼是间隔区和指导RNA的靶标(相同或不同，用于单或双或多指导方法)，它们被Cas内切核酸酶切割并释放以整合到DSB中，或用于DSB的模板定向修复。通过在DSB处提供多个修复模板或可整合序列来增加HR/HDR的频率。串联体可以通过基因枪或通过农杆菌方法递送到靶组织。

提出了使用供体DNA模板的串联体来增加双链断裂同源定向修复频率的新颖方法和组合物。

设计了新颖构建体设计来测试CRISPR/Cas9系统的模板定向DSB修复的功效，其中在单构建体中使用供体或模板的多个拷贝，每个拷贝的任一侧侧翼是CRISPR/Cas9靶标(串联体)。“串联体”在本文中定义为多个相同的多核苷酸，其侧翼是作为Cas内切核酸酶-指导RNA复合物的靶标的序列。在一些方面，此类侧翼序列能够与复合物的指导RNA杂交。

在串联体设计中，Cas酶在模板拷贝之间的每个靶标处产生DNA双链断裂。如此生成的游离模板能以多个拷贝用于宿主DNA修复系统。

引入靶细胞的载体质粒包含三个主要组分：Cas9、指导RNA(gRNA)和修复模板：多个(例如，四个)串联的单元，每个单元的任一侧侧翼是由相同gRNA识别的靶序列。

该策略的基本原理旨在在细胞核内的编辑过程中生成更多可用的修复模板。多个修复模板(4个单元)的克隆在细胞内是可切除的。虽然含有所有组分的较长环状质粒可以通过粒子轰击直接在某些植物组织中转化，但在细胞内切除相同的gRNA后释放较短的游离修复模板可能会提供更多的模板，并且这些可能更容易接近DNA靶位点。

串联体方法的一个目的是通过串联的供体/模板的多个拷贝来增加供体/模板分子的体内负载，而不会由于重复元件而引发潜在的沉默效应。这种方法的优点包括供体或模板分子的一个以上拷贝的可用性，通过侧翼PAM序列和指导物体内释放供体/模板，以及编辑的模板以避免在修复/整合后被Cas靶向。

除非另有指定，否则权利要求书和说明书中使用的术语如下文阐述定义。必须注意，除非上下文另外清楚地指明，否则如本说明书及所附权利要求书中所用，单数形式“一个/一种(a/an)”和“该(the)”包括复数指示物。

定义

如本文所用，“核酸”意指多核苷酸，并且包括脱氧核糖核苷酸或核糖核苷酸碱基的单链或双链聚合物。核酸还可以包括片段和修饰的核苷酸。因此，术语“多核苷酸”、“核酸序列”、“核苷酸序列”和“核酸片段”可互换使用以表示单链或双链的RNA和/或DNA和/或RNA-DNA的聚合物，任选地包含合成的、非天然的或改变的核苷酸碱基。核苷酸(通常以其5′-单磷酸酯形式发现)以其单字母名称表示如下：“A”表示腺苷或脱氧腺苷(分别用于RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

术语“基因组”当应用于原核或真核细胞或生物体细胞时不仅涵盖在细胞核内发现的染色体DNA，还涵盖在细胞的亚细胞组分(例如线粒体、或质体)内发现的细胞器DNA。

“可读框”缩写为ORF。

术语“选择性杂交”包括参考在严格的杂交条件下将核酸序列杂交到特定的核酸靶序列上，相比其杂交到非靶核酸序列和基本上排除非靶核酸，该杂交达到可检测地更大程度(例如，至少为背景值的2倍)。选择性杂交序列典型地彼此具有约至少80％序列同一性、或90％序列同一性、高达并且包括100％序列同一性(即，完全互补)。

术语“严格条件”或“严格杂交条件”包括提及在体外杂交测定中探针将与其靶序列选择性杂交的条件。严格条件是序列依赖性的，并且在不同情况下将有所不同。通过控制杂交条件和/或洗涤条件的严格性，可以鉴定与探针100％互补的靶序列(同源探测)。可替代地，可以调节严格条件以允许序列中的一些错配，以便检测到更低程度的相似性(异源探测)。通常，探针长度为小于约1000个核苷酸，任选地是长度小于500个核苷酸。通常，严格条件将是以下条件：在pH 7.0至8.3下盐浓度为小于约1.5M Na离子、通常约0.01至1.0M Na离子浓度(或其他一种或多种盐)，并且对于短探针(例如，10至50个核苷酸)为至少约30℃，并且对于长探针(例如，超过50个核苷酸)为至少约60℃。添加去稳定剂如甲酰胺也可以实现严格条件。示例性低严格条件包括在37℃下用30％至35％甲酰胺、1M NaCl、1％SDS(十二烷基硫酸钠)的缓冲溶液杂交，并且在50℃至55℃下在1X至2X SSC(20X SSC＝3.0M NaCI/0.3M柠檬酸三钠)中洗涤。示例性中严格条件包括在37℃下在40％至45％甲酰胺、1M NaCl、1％SDS中杂交，并且在55℃至60℃下在0.5X至1X SSC中洗涤。示例性高严格条件包括在37℃下在50％甲酰胺、1M NaCl、1％SDS中杂交，并且在60℃至65℃下在0.1X SSC中洗涤。

“同源”意指DNA序列是相似的。例如，在供体DNA上发现的“与基因组区域同源的区域”是与细胞或生物体基因组中给定的“基因组序列”具有类似序列的DNA的区域。同源的区域可以具有足以促进在切割的靶位点处的同源重组的任何长度。例如，同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基，这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有结构相似性，使得它们能够充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100％序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。

如本文所用的，“基因组区域”是存在于靶位点任一例上的细胞的基因组中的染色体的区段，或者可替代地，进一步包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800。5-2900、5-3000、5-3100或更多个碱基，这样使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。

如本文所用，“同源重组(HR)”包括在同源的位点处的两个DNA分子之间的DNA片段的交换。同源重组的频率受多个因素影响。不同的生物体相对于同源重组的量和同源与非同源重组的相对比例而变化。通常，同源区域的长度会影响同源重组事件的频率：同源区域越长，频率越高。为观察同源重组而需要的同源区的长度也是随物种而异的。在许多情况下，已经利用了至少5kb的同源性，但已经观察到具有仅25-50bp的同源性的同源重组。参见，例如，Singer等人，(1982)Cell[细胞]31：25-33；Shen和Huang，(1986)Genetics[遗传学]112：441-57；Watt等人，(1985)Proc.Natl.Acad..Sci.USA[美国国家科学院院刊]82：4768-72，Sugawara和Haber，(1992)Mol Cell Biol[分子细胞生物学]12：563-75，Rubnitz和Subramani，(1984)Mol Cell Biol[分子细胞生物学]4：2253-8；Ayares等人，(1986)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]83：5199-203；Liskay等人，(1987)Genetics[遗传学]115：161-7。

在核酸的或多肽的序列的上下文中，“序列同一性”或“同一性”是指在两个序列中的核酸碱基或氨基酸残基当在指定的比较窗口上比对最大对应度时是相同的。

“序列同一性的百分比”是指通过在比较窗口上比较两个最佳比对的序列所确定的值，其中与参考序列(其不包含添加或缺失)比较两个序列的最佳比对时，该多核苷酸或多肽序列在比较窗口中的部分可以包含添加或缺失(即空位)。通过以下方式计算所述百分比：确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗口中的位置的总数目，然后将所述结果乘以100以产生序列同一性的百分比。百分比序列同一性的有用实例包括但不限于50％、55％、60％、65％、70％、75％、80％、85％、90％或95％，或从50％至100％的任何百分比。可以使用本文描述的任何程序确定这些同一性。

序列比对和百分比同一性或相似性计算可以使用设计用于检测同源序列的多种比较方法来确定，这些方法包括但不限于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlign^TM程序。在此申请的上下文中，应当理解的是，在使用序列分析软件来分析的情况下，分析的结果将基于参考的程序的“默认值”，除非另有说明。如本文所用，“默认值”将意指当第一次初始化时，最初加载该软件的任何一组值或参数。

“比对的Clustal V方法”对应于标记为Clustal V的比对方法(由以下描述：Higgins和Sharp，(1989)CABIOS 5：151-153；Higgins等人，(1992)Comput Appl Biosci[生物科学中的计算机应用]8：189-191)，并且发现于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlign^TM程序中。对于多重比对，默认值对应于空位罚分(GAP PENALTY)＝10和空位长度罚分(GAP LENGTH PENALTY)＝10。使用Clustal方法进行逐对比对和蛋白质序列的百分比同一性计算的默认参数为KTUPLE＝1、空位罚分＝3、窗口(WINDOW)＝5、以及存储的对角线(DIAGONALS SAVED)＝5。对于核酸，这些参数是KTUPLE＝2、空位罚分＝5、窗口＝4、并且存储的对角线＝4。使用Clustal V程序比对序列后，可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。“Clustal W比对方法”对应于标记为Clustal W的比对方法(由以下描述：Higgins和Sharp，(1989)CABIOS5：151-153；Higgins等人，(1992)Comput Appl Biosci[生物科学中的计算机应用]8：189-191)，并且发现于LASERGENE生物信息计算包(DNASTAR公司(DNASTAR Inc.)，麦迪逊(Madison)，威斯康星州)的MegAlign^TM v6.1程序中。用于多重比对的默认参数(空位罚分＝10、空位长度罚分＝0.2、延迟发散序列(Delay Divergen Seqs，％)＝30、DNA转换权重＝0.5、蛋白质权重矩阵＝Gonnet系列、DNA权重矩阵＝IUB)。使用Clustal W程序比对序列后，可能通过查看同一程序中的“序列距离”表来获得“百分比同一性”。除非另有说明，本文中提供的序列同一性/相似性值是指使用GAP版本10(GCG，Accelrys公司，圣迭戈，加利福尼亚州)使用以下参数获得的值：核苷酸序列的％同一性和％相似性采用50的空位产生罚分权重和3的空位长度延伸罚分权重以及nwsgapdna.cmp评分矩阵；氨基酸序列的％同一性和％相似性采用8的空位产生罚分权重和2的空位长度延伸罚分权重以及BLOSUM62评分矩阵(Henikoff和Henikoff，(1989)Proc.Natl.Acad.Sci.USA[美国科学院院报]89：10915)。GAP使用Needleman和Wunsch(1970)J Mol Biol[分子生物学杂志]48：443-53的算法来找到使匹配数目最大化并且使空位数目最小化的两个完整序列的比对。GAP考虑所有可能的比对和空位位置，并且使用匹配碱基的单位中的空位产生罚分和空位延伸罚分，产生具有最大数目的匹配碱基和最少的空位的比对。“BLAST”是美国国家生物技术信息中心(NationalCenter for Biotechnology Information，NCBI)提供的用于寻找生物序列之间的相似性的区域的搜索算法。该程序将核苷酸或者蛋白质序列与序列数据库比较，并计算匹配的统计显著性以鉴定出与查询序列具有足够的相似性的序列，这样使得相似性不会被预测为已经随机发生。BLAST报告鉴定的序列和它们与查询序列的局部比对。本领域技术人员很清楚地理解，许多水平的序列同一性在鉴定来自其他物种的多肽或修饰的天然的或合成的多肽中是有用的，其中这样的多肽具有相同或相似的功能或活性。百分比同一性的有用实例包括但不限于50％、55％、60％、65％、70％、75％、80％、85％、90％或95％，或从50％至100％的任何百分比。实际上，在描述本公开中，从50％至100％的任何氨基酸同一性会是有用的，如51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。

多核苷酸和多肽序列、其变体、以及这些序列的结构关系，可用术语“同源性”、“同源的”、“基本上相同的”、“基本上类似的”、以及“基本上相应”来描述，这些术语在本文中可互换使用。这些是指多肽或核酸序列，其中在一个或多个氨基酸或核苷酸碱基上的变化不影响分子的功能，如介导基因表达或产生某种表型的能力。这些术语还指相对于初始未修饰的核酸，基本上不改变所得核酸的功能特性的核酸序列的一个或多个修饰。这些修饰包括在核酸片段中一个或多个核苷酸的缺失、取代、和/或插入。所涵盖的基本上类似的核酸序列可以通过这些核酸序列与本文所示例的序列杂交，或与本文所公开的并且与任何本文所公开的核酸序列在功能上等价的核苷酸序列的任何部分杂交(在中严格条件下，例如0.5X SSC，0.1％SDS，60℃)的能力来定义。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列)，至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。杂交后的洗涤决定了严格条件。

“厘摩”(cM)或“图距单位”是两个多核苷酸序列、连锁的基因、标志物、靶位点、基因座或它们的任何配对之间的距离，其中1％的减数分裂的产物是重组的。因此，一厘摩与等于两个连锁的基因、标志物、靶位点、基因座或它们的任何配对之间的1％平均重组频率的距离相当。

“分离的”或“纯化的”核酸分子、多核苷酸、多肽或蛋白质或其生物活性部分是基本上或本质上不含与如在其天然存在的环境中发现的多核苷酸或蛋白质正常相伴或相互作用的组分。因此，分离的或纯化的多核苷酸或多肽或蛋白质当通过重组技术产生时基本上不含其他细胞物质或培养基，或者当化学合成时基本上不含化学前体或其他化学品。最佳地，“分离的”多核苷酸不含在从其衍生出该多核苷酸的生物体的基因组DNA中天然地在该多核苷酸侧翼的序列(即，位于该多核苷酸的5′和3′末端的序列)(最佳地是蛋白质编码序列)。例如，在不同实施例中，该分离的多核苷酸可以包含小于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸序列，在该多核苷酸从其衍生出的细胞的基因组DNA中，该核苷酸序列天然地位于该多核苷酸的侧翼。分离的多核苷酸可从它们天然存在于其中的细胞纯化。技术人员已知的常规核酸纯化方法可用于获得分离的多核苷酸。该术语也涵盖重组多核苷酸和化学合成的多核苷酸。

术语“片段”是指核苷酸或氨基酸的连续集合。在一个实施例中，片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或大于20个连续核苷酸。在一个实施例中，片段是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或大于20个连续氨基酸。片段可能表现出或可能不会表现出在所述片段的长度上共享一定百分比同一性的序列的功能。

术语“在功能上等价的片段”和“功能等价片段”在本文中可互换使用。这些术语是指分离的核酸片段或多肽的显示出与其衍生自的较长序列相同的活性或功能的一部分或子序列。在一个实例中，无论片段是否编码活性蛋白，该片段都保留改变基因表达或产生某种表型的能力。例如，片段可用于设计基因以在修饰的植物中产生所希望的表型。可以将基因设计为用于在抑制中使用，无论该基因是否编码活性酶，通过以相对于植物启动子序列的有义或反义取向连接其核酸片段。

“基因”包括表达功能性分子(诸如但不限于，特定蛋白质)的核酸片段，包括在编码序列之前(5’非编码序列)和之后(3’非编码序列)的调节序列。“天然基因”是指在其天然内源性位置中发现的具有其自身调节序列的基因。

术语“内源性”是指天然存在于细胞或生物体中的序列或其他分子。在一个方面，通常在细胞的基因组中发现内源多核苷酸；也就是说，不是异源的。

“等位基因”是占据染色体上给定基因座的基因的若干种替代形式中的一种。当染色体上在给定基因座处存在的所有等位基因都相同时，该植物在该基因座处是纯合的。如果染色体上在给定基因座处存在的等位基因不同，则该植物在该基因座处是杂合的。

“编码序列”是指编码特定氨基酸序列的多核苷酸序列。“调节序列”是指位于编码序列的上游(5’非编码序列)、内部或下游(3’非编码序列)的核苷酸序列，并且其影响相关的编码序列的转录、RNA加工或稳定性、或翻译。调节序列包括但不限于：启动子、翻译前导序列、5’非翻译序列、3’非翻译序列、内含子、聚腺苷酸化靶序列、RNA加工位点、效应子结合位点、和茎环结构。

“突变基因”是通过人为干预已经改变的基因。这样的“突变基因”具有通过至少一个核苷酸添加、缺失或取代而与相应的非突变基因的序列不同的序列。在本公开的某些实施例中，该突变的基因包含由如本文公开的指导多核苷酸/Cas内切核酸酶系统引起的改变。突变的植物是包含突变基因的植物。

如本文所用，术语“靶向突变”是通过使用本领域技术人员已知的任何方法(包括涉及如本文公开的指导的Cas内切核酸酶系统的方法)改变靶基因内的靶序列而产生的基因(称为靶基因)包括天然基因中的突变。

术语“敲除”、“基因敲除”和“基因敲除”在本文中可互换使用。敲除表示已经通过用Cas蛋白进行靶向使得细胞的DNA序列部分或完全无效；例如，这样的DNA序列在敲除之前可能已编码氨基酸序列，或可能已具有调节功能(例如，启动子)。

术语“敲入”、“基因敲入”、“基因插入”和“基因敲入”在本文中可互换使用。敲入代表通过用Cas蛋白(例如通过同源重组(HR)，其中还使用适合的供体DNA多核苷酸)靶向在细胞中的特异性DNA序列处进行的DNA序列的替换或插入。敲入的实例是异源氨基酸编码序列在基因的编码区中的特异性插入，或转录调节元件在遗传基因座中的特异性插入。

“结构域”意指核苷酸(可以为RNA、DNA和/或RNA-DNA组合序列)或氨基酸的连续延伸。

术语“保守结构域”或“基序”是指沿进化相关蛋白的比对序列在特定位置处保守的一组多核苷酸或氨基酸。虽然同源蛋白质之间在其他位置处的氨基酸可以发生变化，但在特定位置处高度保守的氨基酸表明对蛋白质的结构、稳定性或活性来说是必需的氨基酸。因为它们通过蛋白质同系物家族的比对序列中的高度保守性而被鉴定，所以它们可以用作标识符或“特征”，以确定具有新确定的序列的蛋白质是否属于先前鉴定的蛋白质家族。

“密码子修饰的基因”或“密码子偏好的基因”或“密码子优化的基因”是其密码子使用的频率被设计为模拟宿主细胞的偏好的密码子使用的频率的基因。

“优化的”多核苷酸是已经过优化以改善特定异源宿主细胞中的表达的序列。

“植物优化的核苷酸序列”是为了在植物中表达(特别是为了在植物中增加的表达)而优化的核苷酸序列。植物优化的核苷酸序列包括密码子优化的基因。可以使用一个或多个植物偏好的密码子来改善表达，通过修饰编码蛋白质(诸如像本文公开的Cas内切核酸酶)的核苷酸序列，来合成植物偏好的核苷酸序列。参见，例如，Campbell和Gowri(1990)Plant Physiol.[植物生理学]92：1-11对宿主偏好的密码子使用的讨论。

启动子是参与RNA聚合酶和其他蛋白质的识别和结合以起始转录的DNA区域。启动子序列由近端元件和较远端上游元件组成，后一元件通常称为增强子。“增强子”是可以刺激启动子活性的DNA序列，并且可以是该启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。启动子可以全部来源于天然基因，或者由来源于在自然界存在的不同启动子的不同元件构成，和/或包含合成的DNA区段。本领域技术人员应当理解，不同的启动子可能引导基因在不同组织或细胞类型中、或在不同发育阶段、或者响应于不同环境条件的表达。进一步认识到，由于在大多数情况下调节序列的确切边界尚未完全限定，一些变异的DNA片段可能具有相同的启动子活性。

在多数情况下引起基因在大多数细胞型中表达的启动子通常称为“组成型启动子”。术语“诱导型启动子”是指对内源或外源刺激的存在，例如通过化学化合物(化学诱导剂)响应，或对环境、激素、化学品、和/或发育信号响应，选择性表达编码序列或功能RNA的启动子。诱导型或调节型启动子包括例如通过光、热、胁迫、水淹或干旱、盐胁迫、渗透胁迫、植物激素、伤口或化学品(如乙醇、脱落酸(ABA)、茉莉酮酸酯、水杨酸或安全剂)诱导或调节的启动子。

“翻译前导序列”是指位于基因的启动子序列和编码序列之间的多核苷酸序列。翻译前导序列存在于翻译起始序列的mRNA上游。翻译前导序列可以影响初级转录物对mRNA的加工、mRNA稳定性、或翻译效率。已经描述了翻译前导序列的实例(例如，Turner和Foster，(1995)Mol Biotechnol[分子生物技术]3：225-236)。

“3’非编码序列”、“转录终止子”、或“终止序列”是指位于编码序列的下游的DNA序列，并且包括聚腺苷酸化识别序列和编码能够影响mRNA加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常特征在于影响聚腺苷酸片添加到mRNA前体的3’末端。由Ingelbrecht等人，(1989)Plant Cell[植物细胞]1：671-680示例了不同的3’非编码序列的用途。

“RNA转录物”是指由DNA序列的RNA聚合酶催化的转录产生的产物。当RNA转录物是DNA序列的完全互补拷贝时，RNA转录物被称为初级转录物或前mRNA。当RNA转录物是源自初级转录物前mRNA的转录后加工的RNA序列时，RNA转录物被称为成熟RNA或mRNA。“信使RNA”或“mRNA”是指不含内含子并且可以被细胞翻译成蛋白质的RNA。“cDNA”是指与mRNA模板互补并且使用逆转录酶从mRNA模板合成的DNA。cDNA可以是单链的或者可以使用DNA聚合酶I的Klenow片段转化成双链形式。“正义”RNA是指包含mRNA并且可以在细胞内或体外翻译成蛋白质的RNA转录物。“反义RNA”是指与靶初级转录物或mRNA的全部或部分互补、并且阻断靶基因的表达的RNA转录物(参见，例如美国专利号5，107，065)。反义RNA可与特定基因转录物的任何部分，即5’非编码序列、3’非编码序列、内含子或编码序列互补。“功能性RNA”是指反义RNA、核糖酶RNA、或可以不进行翻译但是仍对细胞过程具有作用的其他RNA。术语“互补序列”和“反向互补序列”在本文中关于mRNA转录物可互换使用，并且意在限定信使的反义RNA。

术语“基因组”指存在于生物体或病毒或细胞器的每个细胞中的遗传物质的全部互补序列(基因和非编码序列)；和/或从一个亲本遗传为(单倍体)单元的完整染色体组。

术语可操作地连接是指单个核酸片段上的核酸序列的关联，这样使得其中一个核酸序列的功能被另一个核酸序列调节。例如，当启动子能够调节编码序列的表达(即，该编码序列在启动子的转录控制下)时，启动子与该编码序列可操作地连接。编码序列可以在正义或反义取向上可操作地连接到调节序列。在另一个实例中，互补的RNA区域可以直接或间接与靶mRNA的5’、或靶mRNA的3’可操作地连接、或在靶mRNA内、或第一个互补区是5’且其互补序列是靶mRNA的3’。

通常，“宿主”是指已引入异源组分(多核苷酸、多肽、其他分子、细胞)的生物体或细胞。如本文所用，“宿主细胞”是指体内或体外的真核细胞、原核细胞(例如，细菌或古细菌细胞)，或来自作为单细胞实体培养的多细胞生物体的细胞(例如，细胞系)，其中已引入异源多核苷酸或多肽。在一些实施例中，所述细胞选自下组，所述组由以下组成：原始细胞、细菌细胞、真核细胞、真核单细胞生物体、体细胞、生殖细胞、干细胞、植物细胞、藻类细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼类细胞、青蛙细胞、鸟类细胞、昆虫细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人类的灵长类动物细胞和人类细胞。在一些情况下，该细胞是体外细胞。在一些情况下，该细胞是体内细胞。

术语“重组”是指例如通过化学合成或者通过基因工程技术操纵分离的核酸区段来将两个原本分开的序列区段进行人工组合。

术语“质粒”、“载体”和“盒”是指线性或环状染色体外元件，其通常携带非细胞中心代谢的一部分的基因，并且通常呈双链DNA的形式。这样的元件可以是衍生自任何来源的、单链或双链DNA或RNA的、处于直链或环状形式的自主复制序列、基因组整合序列、噬菌体、或核苷酸序列，其中许多核苷酸序列已经被连接或重组成能够将目的多核苷酸引入细胞中的独特构造。“转化盒”是指包含基因并具有促进特定宿主细胞转化的基因之外的元件的特定载体。“表达盒”是指包含基因并具有允许在宿主中表达该基因的基因之外的元件的特定载体。在一个方面，“供体DNA盒”包含待插入由双链断裂诱导剂(例如，Cas内切核酸酶和指导RNA复合物)产生的双链断裂位点的异源多核苷酸，所述异源多核苷酸可操作地连接到非编码性表达调节元件。在一些方面，供体DNA盒进一步包含与靶位点同源的多核苷酸序列，所述多核苷酸序列在与可操作地连接到非编码性表达调节元件的目的多核苷酸的侧翼。

术语“重组DNA分子”、“重组DNA构建体”、“表达构建体”、“构建体”、和“重组构建体”在本文中可互换使用。重组DNA构建体包含核酸序列，例如在自然界中未全部一起发现的调节序列和编码序列的人工组合。例如，重组DNA构建体可以包含衍生自不同来源的调节序列和编码序列，或者包含衍生自相同来源但以不同于天然发生的方式排列的调节序列和编码序列。这种构建体可以单独使用或可以与载体结合使用。如果使用载体，则载体的选择取决于如本领域技术人员熟知的将用于将载体引入宿主细胞的方法。例如，可以使用质粒载体。技术人员充分了解必须存在于载体上以便成功转化，选择和繁殖宿主细胞的遗传元件。本领域技术人员还将认识到，不同的独立转化事件可能导致不同的表达水平和模式(Jones等人，(1985)EMBO J[欧洲分子生物学组织杂志]4：2411-2418；De Almeida等人，(1989)Mol Gen Genetics[分子遗传学和普通遗传学]218：78-86)，因此典型地筛选多个事件，以获得显示所希望的表达水平和模式的品系。此类筛选可以是完成的标准分子生物学测定、生物化学测定以及其他测定，这些测定包括DNA的印迹分析、mRNA表达的Northern分析、PCR、实时定量PCR(qPCR)、逆转录PCR(RT-PCR)、蛋白表达的免疫印迹分析、酶测定或活性测定、和/或表型分析。

术语“异源性”是指特定多核苷酸或多肽序列的原始环境、位置或组成与其当前环境、位置或组成之间的差异。非限制性实例包括分类学衍生的差异(例如，如果从玉蜀黍(Zea mays)获得的多核苷酸序列插入到水稻(Oryza sativa)植物的基因组或玉蜀黍的不同变种或栽培品种的基因组中，则该多核苷酸序列是异源的；或从细菌获得的多核苷酸被引入植物的细胞中，则该多核苷酸序列是异源的)或序列的差异(例如从玉蜀黍获得的多核苷酸序列被分离、修饰并重新引入玉米黍植物中)。如本文所用，关于序列的“异源性”可以指该序列源于不同物种、变种、外来物种，或者，如果源于相同物种的话，则是通过蓄意人为干预从其在组合物和/或基因组基因座中的天然形式进行实质性修饰得到的序列。例如，可操作地连接到异源多核苷酸的启动子来自与从其衍生该多核苷酸的物种不同的物种，或者，如果来自相同/类似的物种，那么一方或双方基本上由它们的原来形式和/或基因组基因座修饰得到，或者该启动子不是被可操作地连接的多核苷酸的天然启动子。可替代地，本文提供的一个或多个调节区域和/或多核苷酸可以是整体地合成的。

如本文所用，术语“表达”是指处于前体抑或成熟形式的功能性终产物(例如，mRNA、指导RNA或蛋白质)的产生。

“成熟”蛋白质是指翻译后加工的多肽(即，从其中已经去除存在于初级翻译产物中的任何前肽(pre-peptide)或原肽(propeptide)的一种多肽)。

“前体”蛋白质是指mRNA的翻译的初级产物(即，仍存在前肽或原肽)。前肽或原肽可以是但不限于细胞内定位信号。

“CRISPR”(成簇的规律间隔的短回文重复序列(Clustered RegularlyInterspaced Short Palindromic Repeats))基因座是指DNA切割系统的某些遗传基因座编码组分，例如，被细菌和古细菌细胞用来破坏外源DNA的那些(Horvath和Barrangou，2010，Science[科学]327：167-170；2007年3月1日公开的WO 2007025097)。CRISPR基因座可以由CRISPR阵列组成，包含由短的可变DNA序列(称为‘间隔区’)分开的短的正向重复序列(CRISPR重复序列)，其可以是侧翼不同Cas(CRISPR相关的)基因。

如本文所用，“效应子”或“效应子蛋白”是具有包括识别、结合和/或切割或切口多核苷酸靶标的活性的蛋白质。效应子或效应子蛋白也可以是内切核酸酶。CRISPR系统的“效应子复合物”包括参与crRNA及靶标识别和结合的Cas蛋白。一些组分Cas蛋白可以另外包含参与靶多核苷酸切割的结构域。

中术语“Cas蛋白”是指由Cas(CRISPR-相关的(CRISPR associated))基因编码的多肽。Cas蛋白包括但不限于：Cas9蛋白、Cpfl(Cas12)蛋白、C2c1蛋白、C2c2蛋白、C2c3蛋白、Cas3、Cas3-HD、Cas5、Cas7、Cas8、Cas10或这些的组合或复合物。当与适合的多核苷酸组分复合时，Cas蛋白可以是能够识别、结合特定多核苷酸靶序列的全部或部分、并任选地使特定多核苷酸靶序列的全部或部分产生切口或切割特定多核苷酸靶序列的全部或部分的“Cas内切核酸酶”或“Cas效应子蛋白”。本文描述的Cas内切核酸酶包含一个或多个核酸酶结构域。本公开内容的内切核酸酶可以包括具有一个或多个RuvC核酸酶结构域的内切核酸酶。Cas蛋白被进一步定义为天然Cas蛋白的功能性片段或功能性变体，或与天然Cas蛋白的至少50个、50至100个、至少100个、100至150个、至少150个、150至200个、至少200个、200至250个、至少250个、250至300个、至少300个、300至350个、至少350个、350至400个、至少400个、400至450个、至少500个或大于500个连续氨基酸具有至少50％、50％至55％、至少55％、55％至60％、至少60％、60％至65％、至少65％、65％至70％、至少70％、70％至75％、至少75％、75％至80％、至少80％、80％至85％、至少85％、85％至90％、至少90％、90％至95％、至少95％、95％至96％、至少96％、96％至97％、至少97％、97％至98％、至少98％、98％至99％、至少99％、99％至100％或100％序列同一性并且保留至少部分活性的蛋白。

“Cas内切核酸酶”可包含使其能够充当双链断裂诱导剂的结构域。“Cas内切核酸酶”还可以包含一个或多个消除或降低其切割双链多核苷酸(dCas)的能力的修饰或突变。在一些方面，Cas内切核酸酶分子可以保留时单链多核苷酸产生切口的能力(例如，Cas9内切核酸酶分子中的D10A突变)(nCas9)。

Cas内切核酸酶的“功能性片段”、“功能上等效的片段”和“功能等效片段”在本文中可互换地使用，并且指本公开的Cas内切核酸酶的一部分或子序列，其中保留识别、结合靶位点并任选地使靶位点产生切口或切割(引入单链或双链断裂)靶位点的能力。Cas内切核酸酶的部分或子序列可包含其任何一个结构域的完整肽或部分(功能性)肽，例如但不限于Cas3 HD结构域完整的功能性部分、Cas3解旋酶结构域完整的功能性部分、Cascade蛋白完整的功能性部分(例如但不限于Cas5、Cas5d、Cas7和Cas8b1)。

Cas内切核酸酶或Cas效应子蛋白的术语“功能性变体”、“功能上等同的变体”和“功能上等同的变体”在本文中可互换使用，并且是指本文公开的Cas效应子蛋白的变体，其中保留识别、结合并任选地解旋、切口或切割全部或部分靶序列的能力。

Cas内切核酸酶还可包括多功能Cas内切核酸酶。术语“多功能Cas内切核酸酶”和“多功能Cas内切核酸酶多肽”在本文中可互换使用，并且包括提及具有Cas内切核酸酶功能(包含至少一个可用作Cas内切核酸酶的蛋白质结构域)和至少另一种功能的单个多肽，该至少另一种功能诸如但不限于，形成级联的功能(至少包括可与其他蛋白质形成级联的第二蛋白质结构域)。在一个方面，该多功能Cas内切核酸酶包含相对于Cas内切核酸酶的那些典型结构域的至少一个另外的蛋白结构域(在内部上游(5’)或下游(3’)，或在内部5’和3’两处，或其任何组合)。

术语“cascade”和“cascade复合物”在本文中可互换使用，并且包括提及可与多核苷酸组装形成多核苷酸-蛋白复合物(PNP)的多亚基蛋白复合物。cascade是一种依赖于多核苷酸的PNP，以实现复合物组装和稳定性以及鉴定靶核酸序列。cascade用作监视复合物，其发现并任选地结合与指导多核苷酸的可变靶向结构域互补的靶核酸。

术语“切割就绪的Cascade”、“crCascade”、“切割就绪的Cascade复合物”、“crCascade复合物”、“切割就绪的Cascade系统”、“CRC”和“crCascade系统”在本文中可互换使用，并包括提及可以与多核苷酸组装形成多核苷酸-蛋白复合物(PNP)的多亚基蛋白复合物，其中cascade蛋白之一是Cas内切核酸酶，所述Cas内切核酸酶能够识别、结合靶序列的全部或部分、并任选地使靶序列的全部或部分解旋、使靶序列的全部或部分产生切口或切割靶序列的全部或部分。

术语“5’-帽”和“7-甲基鸟苷酸(m7G)帽”在本文中可互换使用。7-甲基鸟苷酸残基位于真核生物中信使RNA(mRNA)的5′末端。在真核生物中，RNA聚合酶II(Pol II)转录mRNA。信使RNA加帽通常如下：用RNA末端磷酸酶去除mRNA转录物的最末端5’磷酸根基团，留下两个末端磷酸根。用鸟苷酸转移酶将一磷酸鸟苷(GMP)添加至转录物的末端磷酸根，在转录物末端处留下5′-5′三磷酸连接的鸟嘌呤。最后，此末端鸟嘌呤的7-氮被甲基转移酶甲基化。

术语“不具有5’-帽”等在本文中用于指具有例如5’-羟基基团而不是5’-帽的RNA。例如，此类RNA可以被称为“未带帽的RNA”。因为5’-带帽的RNA有核输出的倾向，转录以后未带帽的RNA可以更好地积累在细胞核中。本文中的一种或多种RNA组分是未带帽的。

如本文所用，术语“指导多核苷酸”涉及可以与Cas内切核酸酶(包括本文所述的Cas内切核酸酶)形成复合物，并且使得该Cas内切核酸酶能够识别、任选地结合并任选地切割DNA靶位点的多核苷酸序列。指导多核苷酸序列可以是RNA序列、DNA序列或其组合(RNA-DNA组合序列)。

术语指导RNA、crRNA或tracrRNA的“功能片段”、“功能上等效的片段”和“功能等效片段”在本文中可互换地使用，并且分别指本公开的指导RNA、crRNA或tracrRNA的一部分或子序列，其中分别保留用作指导RNA、crRNA或tracrRNA的能力。

术语指导RNA、crRNA或tracrRNA(分别地)的“功能性变体”、“功能上等效的变体”和“功能等效变体”在本文中可互换地使用，并且分别指本公开的指导RNA、crRNA或tracrRNA的变体，其中分别保留用作指导RNA、crRNA或tracrRNA的能力。

术语“单指导RNA”和“sgRNA”在本文中可互换使用，并涉及两个RNA分子的合成融合，其中包含可变靶向结构域(与tracrRNA杂交的tracr配对序列连接)的crRNA(CRISPRRNA)与tracrRNA(反式激活CRISPR RNA(trans-activating CRISPR RNA))融合。单指导RNA可以包含可与II型Cas内切核酸酶形成复合物的II型CRISPR/Cas系统的crRNA或crRNA片段和tracrRNA或tracrRNA片段，其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点，使得Cas内切核酸酶能够识别、任选地结合DNA靶位点、并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。

术语“可变靶向结构域”或“VT结构域”在本文中可互换使用，并且包括可以与双链DNA靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。第一个核苷酸序列结构域(VT结构域)与靶序列之间的互补百分比可以为至少50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、63％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。可变靶向结构域可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸长度。在一些实施例中，可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列或其任何组合构成。

术语(指导多核苷酸的)“Cas内切核酸酶识别结构域”或“CER结构域”在本文中可互换地使用，并且包括与Cas内切核酸酶多肽相互作用的核苷酸序列。CER结构域包含(反式作用)tracr核苷酸伴侣序列，随后是tracr核苷酸序列。CER结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(参见，例如，2015年2月26日公开的US 20150059010A1)或其任何组合构成。

如本文所用，术语“指导多核苷酸/Cas内切核酸酶复合物”、“指导多核苷酸/Cas内切核酸酶系统”、“指导多核苷酸/Cas复合物”、“指导多核苷酸/Cas系统”和“指导Cas系统”、“多核苷酸指导的内切核酸酶”、“PGEN”在本文中可互换使用，并且是指能够形成复合物的至少一种指导多核苷酸和至少一种Cas内切核酸酶，其中所述指导多核苷酸/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点，使Cas内切核酸酶能够对DNA靶位点进行识别、结合、并且任选地产生切口或进行切割(引入单链或双链断裂)。本文中的指导多核苷酸/Cas内切核酸酶复合物可包含一种或多种Cas蛋白和任何已知的CRISPR系统的一个或多个合适的多核苷酸组分(Horvath和Barrangou，2010，Science[科学]327：167-170；Makarova等人，2015，Nature Reviews Microbiology[自然微生物学综述]卷13：1-15；Zetsche等人，2015，Cell[细胞]163，1-13；Shmakov等人，2015，Molecular Cell[分子细胞]60，1-13)。

术语“指导RNA/Cas内切核酸酶复合物”、“指导RNA/Cas内切核酸酶系统”、“指导RNA/Cas复合物”、“指导RNA/Cas系统”、“gRNA/Cas复合物”、“gRNA/Cas系统”、“RNA指导的内切核酸酶”、“RGEN”在本文中可互换地使用并且指能够形成复合物的至少一种RNA组分和至少一种Cas内切核酸酶，其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点，使Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。

术语“靶位点”、“靶序列”、“靶位点序列”、“靶DNA”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”、“靶多核苷酸”和“前间隔子”在本文中可互换地使用，并且是指多核苷酸序列，例如，但不限于，在细胞的染色体、附加体、基因座或基因组中的任何其他DNA分子(包括染色体DNA、叶绿体DNA、线粒体DNA、质粒DNA)上的核苷酸序列，在这些序列处指导多核苷酸/Cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。靶位点可以是细胞的基因组中的内源性位点，或者可替代地，靶位点对于该细胞可以是异源的并且从而不是天然存在于细胞的基因组中，或者与在自然界发生的位置相比，可以在异质基因组位置中找到靶位点。如本文所用，术语“内源性靶序列”和“天然靶序列”在本文中可互换使用，是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中该靶序列的内源或天然位置处的靶序列。“人工靶位点”或“人工靶序列”在本文中可互换使用，并且是指已经引入细胞的基因组中的靶序列。这样的人工靶序列可以在序列上与细胞的基因组中的内源性或天然靶序列相同，但是位于细胞的基因组中的不同位置(即，非内源性的或非天然的位置)处。

本文中的“前间区序列邻近基序”(PAM)指与由本文所述的指导多核苷酸/Cas内切核酸酶系统识别的(靶向的)靶序列(前间区序列)邻近的短核苷酸序列。如果靶DNA序列后面不是PAM序列，则Cas内切核酸酶可能无法成功识别所述靶DNA序列。本文中的PAM的序列和长度可以取决于所使用的Cas蛋白或Cas蛋白复合物而不同。所述PAM序列可以是任何长度，但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。

“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用，并且是指如本文公开的靶序列，当与非改变的靶序列相比时，所述靶序列包含至少一个改变。此类“改变”包括，例如：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

“经修饰的核苷酸”或“经编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时，包含至少一个改变的目的核苷酸序列。此类“改变”包括，例如：(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用，并且是指用于产生改变的靶位点的方法。

如本文所用，“供体DNA”是DNA构建体，其包括待插入到Cas内切核酸酶的靶位点的目的多核苷酸。

术语“多核苷酸修饰模板”包括，当与待编辑的核苷酸序列相比时，包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地，多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列，其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。

本文的术语“植物优化的Cas内切核酸酶”是指由已经针对在植物细胞或植物中表达进行优化的核苷酸序列编码的Cas蛋白，包括多功能Cas蛋白。

“编码Cas内切核酸酶的植物优化的核苷酸序列”、“编码Cas内切核酸酶的植物优化的构建体”和“编码Cas内切核酸酶的植物优化的多核苷酸”在本文中可互换使用，并且是指编码Cas蛋白、或其变体或功能片段的核苷酸序列，已经针对在植物细胞或植物中表达对其进行优化。包含植物优化的Cas内切核酸酶的植物包括：包含编码Cas序列的核苷酸序列的植物，和/或包含Cas内切核酸酶蛋白的植物。在一个方面，植物优化的Cas内切核酸酶核苷酸序列是玉米优化、稻优化、小麦优化、大豆优化、棉花优化或卡诺拉油菜优化的Cas内切核酸酶。

术语“植物”一般包括整株植物、植物器官、植物组织、种子、植物细胞、种子和植物的后代。植物细胞包括但不限于得自下列物质的细胞：种子、悬浮培养物、胚、分生区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子。

“植物元件”或“植物部分”意在指整个植物或植物组分，可以包括分化和/或未分化的组织，例如但不限于植物组织、部分和细胞类型。在一个实施例中，植物元件是以下之一：整株植物、幼苗、分生组织、基本组织、维管组织、皮膜组织、种子、叶、根、芽、茎、花、果实、匍匐茎、鳞茎、块茎、球茎、无性末梢枝、芽、幼芽、肿瘤组织，以及细胞和培养物的各种形式(例如，单细胞、原生质体、胚和愈伤组织)，植物细胞、植物原生质体、可再生植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(如胚、花粉、胚珠、种子、叶、花、枝、果、核、穗、穗轴、壳、茎、根、根尖、花药等)中完好的植物细胞，连同这些部分自身。籽粒意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。这些再生植物的后代、变体和突变体也包括在本发明的范围内，条件是这些部分包含经引入的多核苷酸。术语“植物器官”是指植物组织或构成植物的形态上和功能上不同部分的一组组织。如本文所用，“植物元件”是植物的“部分”或“部份”的同义词，是指植物的任何部分，并且可以包括不同的组织和/或器官，并且可以在全文中与术语“组织”互换使用。类似地，“植物繁殖元件”意在一般性地指能够通过该植物的有性或无性繁殖而创造其他植物的任何植物部分，例如但不限于：种子、幼苗、根、芽、切条、接穗、嫁接苗、匍匐茎、鳞茎、块茎、球茎、无性末梢枝或幼芽。植物元件可以存在于植物中或植物器官、组织培养物或细胞培养物中。

“后代”包括植物的任何后续世代。

术语“单子叶植物的”或“单子叶植物”是指被子植物的亚类，也称为“单子叶植物纲”，其种子典型地仅包含一个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如，叶、茎、根等)、种子、植物细胞及其后代的指代。

术语“双子叶植物的”或“双子叶植物”是指被子植物的亚类，也称为“双子叶植物纲”，其种子典型地包含两个胚叶或子叶。该术语包括对整个植物、植物元件、植物器官(例如，叶、茎、根等)、种子、植物细胞及其后代的指代。

如本文使用，“雄性不育植物”是不产生有活力的或在其他情况下能够受精的雄配子的植物。如本文使用，“雌性不育植物”是不产生有活力的或在其他情况下能够受精的雌配子的植物。应当认识到雄性不育植物和雌性不育植物可以分别是雌性可育的和雄性可育的。应当进一步认识到，雄性可育(但雌性不育)植物当与雌性可育植物杂交时可以产生有活力的后代，并且雌性可育(但雄性不育)植物当与雄性可育植物杂交时可以产生有活力的后代。

本文中术语“非常规酵母”是指不是酵母属(例如，酿酒酵母)或裂殖酵母属酵母物种的任何酵母。(参见“Non-Conventional Yeasts in Genetics，Biochemistry andBiotechnology：Practical Protocols[遗传学、生物化学和生物技术中的非常规酵母菌：实践方案]”，K.Wolf，K.D.Breunig，G.Barth编辑，Springer-Verlag，Berlin，Germany[德国柏林施普林格出版社]，2003)。

在本公开的上下文中，术语“杂交的”或“杂交”(cross或crossing)是指经由授粉将配子融合从而产生后代(即，细胞、种子、或植物)。该术语涵盖有性杂交(一株植物被另一株植物授粉)和自交(自体授粉，即当花粉和胚珠(或小孢子和大孢子)是来自同一植物或基因相同的植物时)。

术语“渗入”是指基因座的期望等位基因从一种遗传背景传递到另一种遗传背景的现象。例如，可以经由两个亲本植物之间的有性杂交将指定基因座处的所希望的等位基因的渗入传递给至少一个后代植物，其中至少一个亲本植物在其基因组内具有所希望的等位基因。可替代地，例如等位基因的传递可以通过两个供体基因组之间的重组而发生，例如在融合原生质体中，其中至少其中一个供体原生质体在其基因组中具有所希望的等位基因。所希望的等位基因可以是，例如转基因、修饰的(突变的或编辑的)天然等位基因、或标志物或QTL的选择的等位基因。

术语“同系(isoline)”是一个比较性术语，指遗传上相同但处理方法不同的生物体。在一个实例中，可以将两个遗传上相同的玉米植物胚分成两个不同的组，一个组接受处理(如引入CRISPR-Cas效应子内切核酸酶)，而一个组作为对照不接受这种处理。因此，两组之间的任何表型差异都可能仅归因于该处理，而不是归因于该植物的内源基因组成的任何固有性。

“引入”旨在意指以这样一种方式将多核苷酸或多肽或多核苷酸-蛋白复合物提供于靶标，如细胞或生物体中，以致于这一种或多种组分得以进入该生物体的细胞的内部或进入细胞自身。

“目的多核苷酸”包括任何多核苷酸，其

在一些方面，“目的多核苷酸”编码出于特定目的的“目的”蛋白或多肽，例如选择性标志物。在一些方面，“目的”性状(“表型性状”)或多核苷酸是改善植物，特别是农作物的期望表型(即，具有农艺学重要性的性状)的那个。目的多核苷酸：包括但不限于，编码对农艺学、除草剂-抗性、杀昆虫抗性、疾病抗性、线虫抗性、除草剂抗性、微生物抗性、真菌抗性、病毒抗性、能育性或不育性、谷粒特征、商业产品、表型标志物而言重要的或任何其他具有重要农艺学或商业意义的性状的多核苷酸。目的多核苷酸可以另外以有义或反义取向加以利用。此外，可以一起或“堆叠”利用多于一个目的多核苷酸以提供额外的益处。在一些方面，“目的多核苷酸”可以编码基因表达调节元件，例如启动子、内含子、终止子、5’UTR、3’UTR或其他非编码性序列。在一些方面，“目的多核苷酸”可以包含编码RNA分子(例如能够与Cas内切核酸酶相互作用以结合靶多核苷酸序列的功能性RNA、siRNA、miRNA或指导RNA)的DNA序列。

“复杂性状基因座”包括具有彼此遗传连锁的多个转基因的基因组基因座。

本文的组合物和方法可以为植物提供改善的“农艺性状”或“具有农艺学重要性的性状”或“具有农艺学意义的性状”，这些性状可以包括但不限于以下：与不包含衍生自本文方法和组合物的修饰的同系植物相比的抗病性、耐旱性、耐热性、耐寒性、耐盐性、金属耐性、除草剂耐性、改善的水分利用效率、改善的氮利用率、改善的固氮作用、有害生物抗性、食草动物抗性、病原抗性、产量改善、健康增强、活力改善、生长改善、光合能力改善、营养增强、改变的蛋白质含量、改变的油含量、生物量增加、芽长度增加、根长度增加、根结构改善、代谢产物的调节、蛋白质组的调节、种子重量的增加、改变的种子碳水化合物组成、改变的种子油组成、改变的种子蛋白质组成、改变的种子营养成分。

“农艺性状潜力”意在指植物元件在其生命周期中的某个时刻表现出一种表型(优选地为一种改善的农艺性状)的能力，或将所述表型传递至在同一种植物中与其关联的另一种植物元件的能力。

如本文所用，术语“减少”、“较少”、“较慢”和“增加”、“较快”、“增强”、“更大”是指与未修饰的植物元件或产生的植物相比，经修饰的植物元件或产生的植物的特征降低或增加。例如，特征的降低可以是低于未处理的对照至少1％、至少2％、至少3％、至少4％、至少5％、5％至10％、至少10％、10％至20％、至少15％、至少20％、20％至30％、至少25％、至少30％、30％至40％、至少35％、至少40％、40％至50％、至少45％、至少50％、50％至60％、至少约60％、60％至70％、70％至80％、至少75％、至少约80％、80％至90％、至少约90％、90％至100％、至少100％、100％和200％、至少200％、至少约300％、至少约400％或更多，增加可以是高于未处理的对照至少1％、至少2％、至少3％、至少4％、至少5％、5％至10％、至少10％、10％至20％、至少15％、至少20％、20％至30％、至少25％、至少30％、30％至40％、至少35％、至少40％、40％至50％、至少45％、至少50％、50％至60％、至少约60％、60％至70％、70％至80％、至少75％、至少约80％、80％至90％、至少约90％、90％至100％、至少100％、100％和200％、至少200％、至少约300％、至少约400％或更多。

如本文所用，当提到序列位置时，术语“之前”是指一个序列在另一序列上游或5’处出现。

缩写的含义如下：“sec”意指秒、“min”意指分钟、“h”意指小时、“d”意指天、“μL”意指微升、“mL”意指毫升、“L”意指升、“μM”意指微摩尔、“mM”意指毫摩尔、“M”意指摩尔、“mmol”意指毫摩尔、“μmole”或“umole”意指微摩尔、“g”意指克、“μg”或“ug”意指微克、“ng”意指纳克、“U”意指单位、“bp”意指碱基对、以及“kb”意指千碱基。

双链断裂(DSB)诱导剂

由双链断裂诱导剂(例如在多核苷酸链中切割磷酸二酯键的内切核酸酶)诱导的双链断裂可导致DNA修复机制的诱导，包括非同源末端连接途径以及同源重组。内切核酸酶包括一系列不同的酶，包括限制性内切核酸酶(参见例如Roberts等人，(2003)NucleicAcids Res[核酸研究]1：418-20)，Roberts等人，(2003)Nucleic Acids Res[核酸研究]31：1805-12，和Belfort等人，(2002)在Mobile DNA[运动DNA]II，第761-783页，编辑Craigie等人，(ASM出版社，华盛顿特区))，大范围核酸酶(参见例如WO 2009/114321；Gao等人(2010)Plant Journal[植物杂志]1：176-187)，TAL效应子核酸酶或TALEN(参见例如US20110145940，Christian，M.，T.Cermak，等人2010.Targeting DNA double-strand breakswith TAL effector nucleases[用TAL效应子核酸酶靶向DNA双链断裂].Genetics[遗传学]186(2)：757-61和Boch等人，(2009)，Science[科学]326(5959)：1509-12)，锌指核酸酶(参见例如Kim，Y.G.，J.Cha，等人(1996).“Hybrid restriction enzymes：zinc fingerfusions to FokI cleavage[杂交限制性内切酶：锌指与FokI融合蛋白的切割]”)和CRISPR-Cas内切核酸酶(参见例如2007年3月1日公开的WO 2007/025097)。

除了双链断裂诱导剂，还可以实现位点特异性碱基转化以工程化一个或多个核苷酸变化，从而在基因组中创建一个或多个本文所述的EME。这些包括例如，由C·G至T·A或A·T至G·C碱基编辑脱氨酶介导的位点特异性碱基编辑(Gaudelli等人，Programmablebase editing of A·T to G·C in genomic DNA without DNA cleavage[在无DNA切割时基因组DNA中A·T至G·C的可编程碱基编辑].″Nature[自然](2017)；Nishida等人“Targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptiveimmune systems[使用杂交体原核和脊椎动物适应性免疫系统进行靶向核苷酸编辑].”Science[科学]353(6305)(2016)；Komor等人“Programmable editing of a target basein genomic DNA without double-stranded DNA cleavage[在无双链DNA切割时基因组DNA中靶碱基的可编程编辑].”Nature[自然]533(7603)(2016)：420-4)。

任何双链断裂或-切口或-修饰诱导剂均可用于本文所述的方法，包括例如但不限于：Cas内切核酸酶、重组酶、TALEN、锌指核酸酶、限制性内切核酸酶、大范围核酸酶和脱氨酶。

CRISPR系统和Cas内切核酸酶

提供了利用CRISPR相关(Cas)内切核酸酶进行多核苷酸修饰的方法和组合物。I类Cas内切核酸酶包含多亚基效应子复合物(I型、III型和IV型)，而2类系统包含单蛋白效应子(II型、V型和VI型)(Makarova等人，2015，Nature Reviews Microbiology[自然微生物学综述]卷13：1-15；Zetsche等人，2015，Cell[细胞]163，1-13；Shmakov等人，2015，MolecularCell[分子细胞学]60，1-13；Haft等人，2005，Computational Biology，PLoS Comput Biol[美国科学公共图书馆计算生物学]1(6)：e60；以及Koonin等人2017，Curr OpinionMicrobiology[微生物学新见]37：67-78)。在2类II型系统中，该Cas内切核酸酶与指导RNA(gRNA)复合起作用，该指导RNA引导Cas内切核酸酶切割DNA靶标，以使靶标能够被Cas内切核酸酶识别、结合和切割。该gRNA包括与Cas内切核酸酶相互作用的Cas内切核酸酶识别(CER)结构域，以及与靶DNA中的核苷酸序列杂交的可变靶向(VT)结构域。在一些方面，该gRNA包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)，以将Cas内切核酸酶指导到其DNA靶标上。该crRNA包含与双链DNA靶标的一条链互补的间隔区和与tracrRNA碱基配对形成RNA双链体的区域。在一些方面，该gRNA是包含crRNA和tracrRNA的合成融合体的“单指导RNA”(sgRNA)。在许多系统中，该Cas内切核酸酶指导的多核苷酸复合物识别与靶序列(前间区序列)相邻的短核苷酸序列，称为“前间区序列邻近基序”(PAM)。

Cas内切核酸酶的实例包括但不限于Cas9和Cpf1。Cas9(以前称为Cas5、Csn1或Csx12)是2类II型Cas内切核酸酶(Makarova等人，2015，Nature Reviews Microbiology[自然微生物学综述]卷13：1-15)。Cas9-gRNA复合物可识别靶位点的3’PAM序列(化脓链球菌Cas9为NGG)，从而使指导RNA的间隔区能够侵入双链DNA靶标，并且如果间隔区与前间区序列之间存在足够的同源性，则产生双链断裂切割。Cas9内切核酸酶包含一起产生双链断裂的RuvC结构域和HNH结构域，并且二者可分别产生单链断裂。对于化脓链球菌Cas9内切核酸酶，该双链断裂留下平末端。Cpfl是2类V型Cas内切核酸酶，并且包含核酸酶RuvC结构域，但缺少HNH结构域(Yamane等人，2016，Cell[细胞]165：949-962)。Cpf1内切核酸酶产生“粘性”突出端。

基因组靶位点上Cas9-gRNA系统的一些用途包括但不限于在靶位点上一个或多个核苷酸的插入、缺失、取代或修饰；修饰或替换目的核苷酸序列(如调节元件)；目的多核苷酸的插入；基因敲除；基因敲入；修饰剪接位点和/或引入替换的剪接位点；编码目的蛋白质的核苷酸序列的修饰；氨基酸和/或蛋白质融合；以及通过将反向重复序列表达为目的基因来进行基因沉默。

在一些方面，提供了“多核苷酸修饰模板”，与要编辑的核苷酸序列相比，该模板包含至少一个核苷酸修饰。核苷酸修饰可以是至少一个核苷酸取代、添加、缺失或化学改造。任选地，多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列，其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。

在一些方面，将目的多核苷酸插入靶位点并作为“供体DNA”分子的一部分提供。如本文所用，“供体DNA”是DNA构建体，其包括待插入到Cas内切核酸酶的靶位点的目的多核苷酸。供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。供体DNA可以与指导多核苷酸进行系链。系链的供体DNA可以允许共定位靶和供体DNA，可用于基因组编辑、基因插入和靶向的基因组调节，并且还可以用于靶向有丝分裂后期细胞，在这些细胞中内源HR机制的功能预计会大大降低(Mali等人，2013Nature Methods[自然方法]第10卷：957-963)。靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化并且包括总长度和/或区域。

使用修饰模板编辑Cas9-gRNA双链断裂位点的基因组序列的过程通常包括：为宿主细胞提供Cas9-gRNA复合物，该复合物识别宿主细胞基因组中的靶序列并能够诱导基因组序列中的单链或双链断裂，并且任选地提供包含与要编辑的核苷酸序列相比至少一个核苷酸改变的至少一种多核苷酸修饰模板。该多核苷酸修饰模板还可以包含侧翼于该至少一个核苷酸改变的核苷酸序列，其中侧翼序列与侧翼于双链断裂的染色体区域基本同源。已经在例如以下中描述了使用双链断裂诱导剂(如Cas9-gRNA复合物)的基因组编辑：2015年3月19日公开的US 20150082478，2015年2月26日公开的WO 2015026886，2016年1月14日公开的WO 2016007347，以及于2016年2月18日公开的WO 2016025131。

为了促进真核细胞的最佳表达和核定位，可以如2016年11月24日公开的WO2016186953中所述对包含Cas内切核酸酶的基因进行优化，然后通过本领域已知的方法将其作为DNA表达盒递送至细胞中。在一些方面，该Cas内切核酸酶作为多肽提供。在一些方面，该Cas内切核酸酶作为编码多肽的多核苷酸提供。在一些方面，该指导RNA作为编码一种或多种RNA分子的DNA分子提供。在一些方面，该指导RNA作为RNA或经化学修饰的RNA提供。在一些方面，该Cas内切核酸酶蛋白和指导RNA作为核糖核蛋白复合物(RNP)提供。

一旦在基因组中诱导了双链断裂，则细胞DNA修复机制被激活以修复断裂。

双链断裂修复和多核苷酸修饰

双链断裂诱导剂，例如引导Cas内切核酸酶可以识别、结合DNA靶序列，并且引入单链(切口)或双链断裂。一旦在DNA中诱导单链断裂或双链断裂，则细胞的DNA修复机制被激活来例如经由会导致靶位点处的修饰的非同源末端连接(NHEJ)、或同源定向修复(HDR)过程修复断裂。用来将断裂的末端结合在一起的最常见的修复机制是非同源末端连接(NHEJ)途径(Bleuyard等人，(2006)DNA Repair[DNA修复]5∶1-12)。染色体的结构完整性典型地通过修复来保存，但是缺失、插入或其他重排(如染色体易位)是可能的(Siebert和Puchta，2002Plant Cell[植物细胞]14：1121-31；Pacher等人，2007Genetics[遗传学]175：21-9)。NHEJ通常容易出错，并且可以在靶位点引入小突变。在植物中，NHEJ通常是修复DSB的优选途径。

靶多核苷酸的修饰包括以下任何一种或多种：至少一个核苷酸的插入、至少一个核苷酸的缺失、至少一个核苷酸的化学改变、至少一个核苷酸的替换或至少一个核苷酸的突变。在一些方面，DNA修复机制造成双链断裂的不完全修复，导致断裂位点处的核苷酸改变。在一些方面，可以将多核苷酸模板提供给断裂位点，其中修复导致了断裂的模板定向修复。在一些方面，可将供体多核苷酸提供至断裂位点，其中修复导致了供体多核苷酸并入断裂位点。

同源定向修复和同源重组

同源定向修复(HDR)是在细胞中用来修复双链DNA和单链DNA断裂的机制。同源-定向修复包括同源重组(HR)和单链退火(SSA)(Lieber.2010Annu.Rev.Biochem[生物化学年鉴].79：181-211)。HDR的最常见形式称为同源重组(HR)，其在供体和受体DNA之间具有最长的序列同源性要求。HDR的其他形式包括单链退火(SSA)和断裂诱导的复制，并且这些需要相对于HR更短的序列同源性。缺口(单链断裂)处的同源-定向修复可以经由与在双链断裂处的HDR不同的机制发生(Davis和Maizels.PNAS[美国科学院院报](0027-8424)，111(10)，第E924-E932页)。

“同源”意指DNA序列是相似的。例如，在供体DNA上发现的“与基因组区域同源的区域”是与细胞或生物体基因组中给定的“基因组序列”具有类似序列的DNA的区域。同源的区域可以具有足以促进在切割的靶位点处的同源重组的任何长度。例如，同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基，这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100％序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。

由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化，并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb，或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数，例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述，其包括约至少50％、55％、60％、65％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性，和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合，例如，足够的同源性可以被描述为与靶标基因座的区域具有至少80％序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性，参见例如Sambrook等人，(1989)Molecular Cloning：A Laboratory Manual[分子克隆：实验室手册](Cold Spring HarborLaboratory Press，NY[纽约冷泉港实验室出版社])；Current Protocols in MolecularBiology[分子生物学现代方案]，Ausubel等人，编辑(1994)Current Protocols[实验室指南](Greene Publishing Associates，Inc.[格林出版合伙公司]和John Wiley&Sons，Inc.[约翰威利父子公司])；以及Tijssen(1993)Laboratory Techniques in Biochemistryand Molecular Biology--Hybridization with Nucleic Acid Probes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](Elsevier[爱思唯尔出版社]，纽约)。

DNA双链断裂可以是刺激同源重组途径的有效因子(Puchta等人，(1995)PlantMol Biol[植物分子生物学]28：281-92；Tzfira和White，(2005)Trends Biotechnol[生物技术趋势]23：567-9；Puchta，(2005)J Exp Bot[实验植物学杂志]56：1-14)。使用DNA断裂剂，在植物中的人工构建的同源DNA重复序列之间观察到同源重组的两倍至九倍的增加(Puchta等人，(1995)Plant Mol Biol[植物分子生物学]28：281-92)。在玉米原生质体中，用线性DNA分子进行的实验证实了在质粒之间增强的同源重组(Lyznik等人，(1991)MolGen Genet[分子和普通遗传学]230：209-18)。

原核和真核细胞或生物细胞的基因组的改变，例如通过同源重组(HR)，对于基因工程而言的有力工具。已经证明了在植物中(Halfter等人，(1992)Mol Gen Genet[分子和普通遗传学]231：186-93)和昆虫中(Dray和Gloor，1997，Genetics[遗传学]147：689-99)的同源重组。在其他生物体中也可以实现同源重组。例如，在寄生原生动物利什曼原虫中，至少需要150-200bp的同源性进行同源重组(Papadopoulou和Dumas，(1997)Nucleic AcidsRes[核酸研究]25：4278-86)。在丝状真菌构巢曲霉中，已经用仅50bp侧翼同源性实现基因替代(Chaveroche等人，(2000)Nucleic Acids Res[核酸研究]28：e97)。在纤毛虫嗜热四膜虫中也已经证明了靶向基因替代(Gaertig等人，(1994)Nucleic Acids Res[核酸研究]22：5391-8)。在哺乳动物中，使用可以在培养基中生长、转化、选择、和引入小鼠胚胎中的多能胚胎干细胞系(ES)，同源重组在小鼠中已经是最成功的(Watson等人，(1992)RecombinantDNA[重组DNA]，第2版，Scientific American Books distributed by WH Freeman&Co.[由WH Freeman&Co.公司发行的科学美国人图书])。

提高DSB修复中HDR的概率

考虑了用于促进通过HDR修复双链断裂的方法和组合物。

在一些方面，与针对单切割策略情况下所观察到的相比，HR读段相对于总突变读段(NHEJ+HR)数量的分数为至少2、3、4、5、6、7、8、9、10、在10和15之间、15、在15和20之间、20、在20和25之间、25、在25和30之间、30、在30和40之间、40、在40和50之间、50、在50和60之间、60、在60和70之间、70、在70和80之间、80、在80和90之间、90、在90和100之间、100、在100和125之间、125、在125和150之间，大于150或无限大。

在一些方面，HR读段相对于总突变读段(NHEJ+HR)数量的百分比为至少2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、20％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。

基因组序列靶向

本文所述的组合物和方法可用于基因组序列靶向，例如靶向基因或调控元件。

通常，可以通过在具有与合适的指导多核苷酸组分缔合的Cas内切核酸酶的细胞中的特异性多核苷酸序列处切割一条或两条链来进行DNA靶向。一旦在DNA中诱导单链断裂或双链断裂，则细胞的DNA修复机制被激活来经由会导致靶位点处的修饰的非同源末端连接(NHEJ)、或同源定向修复(HDR)过程修复断裂。

双链断裂修复(例如，在靶位点)可以根据修复机制和/或产生的结果进行分类。在不存在任何引入的异源多核苷酸的情况下，双链断裂的导致“indel”(插入或缺失)的非同源末端连接被称为“SDN1”(对于位点-定向核酸酶(Site-Directed Nuclease))。在引入作为修复“模板”的异源多核苷酸存在下，双链断裂的导致靶位点一个或几个核苷酸修饰的同源定向修复被称为“SDN2”。导致在双链断裂处在靶位点插入引入的异源多核苷酸的同源重组被称为“SDN3”。HDR/HR可以通过供体/模板(具有高百分比同一性，例如大于90％的序列)上与靶位点双链断裂两侧DNA序列的“同源区域”的存在来促进。

在一些方面，本文描述的方法和组合物改善DSB处的非NHEJ修复机制结果的概率。在一方面，实现了(HDR或HR)与NHEJ修复比率的增加。

靶位点处的DNA序列的长度可以变化，并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或多于30个核苷酸长度的靶位点。还有可能靶位点可以是回文的，即，一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位点可以在靶序列内，或者切口/切割位点可以在靶序列之外。在另一种变异中，切割可以发生在彼此正好相对的核苷酸位置处，以产生平端切割，或者在其他情况下，切口可以交错以产生单链突出端，也称为“粘性末端”，其可以是5′突出端抑或3′突出端。还可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列同一性，其中所述活性变体保留生物活性，因此能够被Cas内切核酸酶识别和切割。

测量由内切核酸酶引起的靶位点的单链或双链断裂的测定是本领域已知的，并且通常测量试剂在包含识别位点的DNA底物上的总体活性和特异性。

本文的靶向方法能以例如在该方法中靶向两个或更多个DNA靶位点的这样的方式进行。这种方法可以任选地被表征为多重方法。在某些实施例中，可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多路复用方法典型地通过本文的靶向方法进行，其中提供了多个不同的RNA组分，每一个被设计成将指导多核苷酸/Cas内切核酸酶复合物引导到唯一的DNA靶位点。

基因组序列编辑

组合DSB和修饰模板来编辑基因组序列的过程通常包括：向宿主细胞引入DSB诱导剂或编码DSB诱导剂的核酸(识别染色体序列中的靶序列并且能够诱导基因组序列中的DSB)，和与待编辑的核苷酸序列相比时包含至少一个核苷酸改变的至少一个多核苷酸修饰模板。多核苷酸修饰模板还可以包含侧翼于所述至少一个核苷酸变化的核苷酸序列，其中侧翼序列与侧翼于DSB的染色体区域基本同源。已经在例如以下中描述了使用DSB诱导剂(如Cas-gRNA复合物)的基因组编辑：2015年3月19日公开的US 20150082478，2015年2月26日公开的WO 2015026886，2016年1月14日公开的WO 2016007347，以及于2016年2月18日公开的WO/2016/025131。

已经描述了指导RNA/Cas内切核酸酶系统的一些用途(参见例如：2015年3月19日公开的US 20150082478A1，2015年2月26日公开的WO 2015026886和2015年2月26日公开的US 20150059010)并且包括但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因退出、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。

可以按不同方式改变蛋白，这些方式包括氨基酸取代、缺失、截短、和插入。用于此类操作的方法通常是已知的。例如，可以通过在DNA中的突变制备一种或多种蛋白质的氨基酸序列变体。用于诱变和核苷酸序列改变的方法包括，例如，Kunkel，(1985)Proc.Natl.Acad.Sci.USA[美国科学院院报]82：488-92；Kunkel等人，(1987)Meth Enzymol[酶学方法]154：367-82；美国专利号4,873,192；Walker和Gaastra编辑(1983)Techniquesin Molecular Biology[分子生物学技术](MacMillan Publishing Company，New York[麦克米伦出版公司，纽约])，以及其中所引用的文献。发现关于不太可能影响蛋白质生物学活性的氨基酸取代的引导，例如，在Dayhoff等人，(1978)Atlas of Protein Sequence andStructure[蛋白质序列和结构图谱集](Natl Biomed Res Found，Washington，D.C.[国家生物医学研究基金会，美国华盛顿哥伦比亚特区])的模型中。保守取代，例如将一个氨基酸与具有相似特性的另一个氨基酸交换，会是优选的。未预期保守缺失、插入、和氨基酸取代会产生在蛋白质特征中的根本变化，并且可以通过常规筛选测定来评价任何取代、缺失、插入、或其组合的作用。对双链-断裂-诱导活性的测定是已知的，并且通常测量试剂对包含靶位点的DNA底物的总体活性和特异性。

本文描述了用于使用切割就绪的Cascade(Cleavage Ready Cascade，crCascade)复合物进行基因组编辑的方法。在对指导RNA和PAM序列进行表征后，可利用裂解就绪Cascade(crCascade)复合物的组分和相关联的CRISPR RNA(crRNA)来修饰包括植物在内的其他生物体中的染色体DNA。为了促进最佳表达和核定位(对于真核细胞)，可以如2016年11月24日公开的WO 2016186953中所述对包含crCascade的基因进行优化，然后通过本领域已知的方法将其作为DNA表达盒递送至细胞中。也可以将必需包含活性crCascade复合物的组分作为RNA(具有或不具有保护RNA免于降解的修饰)或作为有帽或无帽的mRNA(Zhang，Y.等人，2016，Nat.Commun.[自然通讯]7：12617)或Cas蛋白指导多核苷酸复合物(公开于2017年4月27日的WO 2017070032)、或其任何组合递送。另外，crCascade复合物和crRNA的一个或多个部分可以从DNA构建体表达，而将其他组分作为RNA(具有或不具有保护RNA免于降解的修饰)或以带帽或不带帽的mRNA(Zhang等人2016Nat.Commun.[自然通讯]7：12617)或Cas蛋白指导多核苷酸复合物(公开于2017年4月27日的WO 2017070032)或其任何组合递送。为了体内产生crRNA，tRNA衍生的元件也可以用于募集内源RNA酶以将crRNA转录物切割成能够将crCascade复合物指导至其DNA靶位点的成熟形式，例如，如2017年6月22日公开的WO2017105991中所述。crCascade切口酶复合物可单独使用或协同使用，以在一条或两条DNA链上产生单个或多个DNA切口。此外，可以通过改变切割结构域中的关键催化残基来使Cas内切核酸酶的切割活性灭活(Sinkunas，T.等人，2013，EMBO J[欧洲分子生物学学会杂志].32：385-394)，从而产生受RNA指导的解旋酶，其可用于增强同源定向修复，诱导转录激活或重塑局部DNA结构。而且，Cas切割和解旋酶结构域的活性可以都被敲除并与其他DNA剪切、DNA切口、DNA结合、转录激活、转录阻遏、DNA重塑、DNA脱氨、DNA解旋、DNA重组增强、DNA整合、DNA倒置和DNA修复剂组合使用。

可以如2016年11月24日公开的WO 2016186946和2016年11月24日公开的WO2016186953中所述推导用于CRISPR-Cas系统(如果存在的话)和CRISPR-Cas系统的其他组分(例如可变靶向结构域、crRNA重复序列、环、反重复序列)的tracrRNA的转录方向。

如本文所述，一旦建立了适当的指导RNA要求，就可以检查本文公开的每个新系统的PAM偏好。如果切割就绪的Cascade(crCascade)复合物导致随机PAM文库的降解，则可以通过诱变关键残基或通过在无ATP的情况下组装反应使ATP酶依赖性解旋酶活性无效，从而将crCascade复合物转化为切口酶，如先前所述(Sinkunas，T.等人，2013，EMBO J.[欧洲分子生物学学会杂志]32：385-394)。可以利用由两个前间隔子靶隔开的PAM随机化的两个区域来生成双链DNA断裂，所述双链DNA断裂可以被捕获并测序以检查支持各自的crCascade复合物切割的PAM序列。

在一个实施例中，本发明描述了用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种Cas内切核酸酶和指导RNA引入细胞中，并鉴定在所述靶位点上具有修饰的至少一个细胞。

待编辑的核苷酸可以位于由Cas内切核酸酶识别和切割的靶位点的内部或外部。在一个实施例中，该至少一个核苷酸修饰不是由Cas内切核酸酶识别和切割的靶位点上的修饰。在另一个实施例中，所述待编辑的至少一个核苷酸和基因组靶位点之间有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、30、40、50、100、200、300、400、500、600、700、900或1000个核苷酸。

可以通过插入缺失(通过NHEJ在靶DNA序列中插入或缺失核苷酸碱基)，或通过特异性去除在靶向位点处或其附近处降低或完全破坏序列功能的序列来产生敲除。

指导多核苷酸/Cas内切核酸酶诱导的靶向突变可以发生在位于由Cas内切核酸酶识别和切割的基因组靶位点内部或外部的核苷酸序列中。

用于编辑细胞的基因组中的核苷酸序列的方法可以是通过恢复无功能基因产物的功能而不使用外源选择性标志物的方法。

在一个实施例中，本发明描述了用于修饰细胞的基因组中的靶位点的方法，所述方法包括将至少一种本文所述的PGEN和至少一种供体DNA引入细胞中，其中所述供体DNA包含目的多核苷酸，并且任选地，所述方法进一步包括鉴定至少一个将所述目的多核苷酸整合到所述靶位点中或附近的细胞。

在一个方面，本文公开的方法可采用同源重组(HR)以在靶位点处提供目的多核苷酸的整合。

可以采用多种方法和组合物来产生具有通过本文所述的CRISPR-Cas系统组分的活性插入靶位点的目的多核苷酸的细胞或生物。在本文所述的一种方法中，经由供体DNA构建体，将目的多核苷酸引入生物体细胞。如本文所用，“供体DNA”是DNA构建体，其包括待插入到Cas内切核酸酶的靶位点的目的多核苷酸。供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。

供体DNA可以与指导多核苷酸进行系链。系链的供体DNA可以允许共定位靶和供体DNA，可用于基因组编辑、基因插入和靶向的基因组调节，并且还可以用于靶向有丝分裂后期细胞，在这些细胞中内源HR机制的功能预计会大大降低(Mali等人，2013Nature Methods[自然方法]第10卷：957-963)。

由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化，并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb，或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数，例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述，其包括约至少50％、55％、60％、65％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性，和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合，例如，足够的同源性可以被描述为与靶标基因座的区域具有至少80％序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性，参见例如Sambrook等人，(1989)Molecular Clonlng：A Laboratory Manual[分子克隆：实验室手册](Cold Spring HarborLaboratory Press，NY[纽约冷泉港实验室出版社])；Current Protocols in MolecularBiology[分子生物学现代方案]，Ausubel等人，编辑(1994)Current Protocols[实验室指南](Greene Publishing Associates，Inc.[格林出版合伙公司]和John Wiley&Sons，Inc.[约翰威利父子公司])；以及Tijssen(1993)Laboratory Techniques in Biochemistryand Molecular Biology--Hybridization with Nucleic Acid Probes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](Elsevier[爱思唯尔出版社]，纽约)。

还可以将附加体DNA分子连接至双链断裂中，例如，将T-DNA整合至染色体双链断裂中(Chilton和Que，(2003)Plant Physiol[植物生理学]133：956-65；Salomon和Puchta，(1998)EMBO J.[欧洲分子生物学学会杂志]17：6086-95)。一旦双链断裂周围的序列被改变，例如被涉及双链断裂的成熟的外切核酸酶活性改变，则基因转换途径可以恢复原始结构，如果有同源序列的话，例如非分裂的体细胞中的同源染色体，或DNA复制后的姊妹染色单体(Molinier等人，(2004)Plant Cell[植物细胞]16：342-52)。异位的和/或表观遗传的DNA序列还可以充当用于同源重组的DNA修复模板(Puchta，(1999)Genetics[遗传学]152：1173-81)。

在一个实施例中，本公开包括用于编辑细胞的基因组中的核苷酸序列的方法，所述方法包括引入至少一种本文所述的PGEN、和多核苷酸修饰模板，其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰，并且所述方法任选地进一步包括选择至少一个包含经编辑的核苷酸序列的细胞。

指导多核苷酸/Cas内切核酸酶系统可以与至少一个多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。(还参见2015年3月19日公开的US 20150082478和2015年2月26日公开的WO 2015026886)。

目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起，如在2012年9月27日公开的WO 2012129373和2013年8月1日公开的WO 2013112686中所述。本文所述的指导多核苷酸/Cas9内切核酸酶系统提供了用来产生双链断裂并允许将性状在复杂性状基因座中堆叠的有效系统。

如本文所述的介导基因靶向的指导多核苷酸/Cas系统可以在以下方法中使用，所述方法用于以类似于2012年9月27日公开的WO 2012129373中公开的方式引导异源基因插入和/或产生包含多个异源基因的复杂性状基因座，其中使用如本文公开的指导多核苷酸/Cas系统来代替使用双链断裂诱导剂引入目的基因。通过将独立的转基因插入在彼此的0.1、0.2、0.3、0.4、0.5、1.0、2、或甚至5厘摩(cM)内，这些转基因可以作为单个遗传基因座进行育种(例如，参见2013年10月3日公开的US 20130263324或2013年3月14日公开的WO2012129373)。在选择包含转基因的植物后，可以将包含(至少)一个转基因的植物进行杂交从而形成包含全部两个转基因的F1。在来自这些F1(F2或BC1)的后代中，1/500的后代将具有重组在相同的染色体上的两个不同的转基因。然后，可以将复合物基因座繁育为具有全部两个转基因性状的单遗传基因座。可以重复该过程以堆叠尽可能多的性状。

已经描述了指导RNA/Cas内切核酸酶系统的进一步用途(参见例如：2015年3月19日公开的US 20150082478，2015年2月26日公开的WO 2015026886，2015年2月26日公开的US20150059010，2016年1月14日公开的WO 2016007347，和2016年2月18日公开的PCT申请WO2016025131)并包括但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。

可以评估本文描述的基因编辑组合物和方法产生的特征。可以鉴定与目的表型或性状相关的染色体区间。本领域熟知的多种方法可用于鉴定染色体区间。此类染色体区间的边界扩展到涵盖将与控制目的性状的基因连锁的标志物。换句话说，扩展染色体区间，这样使得位于区间内的任何标志物(包括限定区间的边界的末端标志物)可以用作特定性状的标志物。在一个实施例中，染色体区间包含至少一个QTL，并且此外，确实可以包含多于一个QTL。相同区间中非常接近的多个QTL可以搅乱特定标志物与特定QTL的关联，因为一个标志物可显示与多于一个QTL连锁。相反地，例如如果非常接近的两个标志物显示与期望表型性状共分离，则有时分不清楚是否那些标志物中的每一个鉴定相同QTL或两个不同的QTL。术语“数量性状基因座”或“QTL”是指在至少一种遗传背景下(例如在至少一个育种群体中)，与数量表型性状的差异表达关联的DNA区域。QTL的区域涵盖或紧密地连锁于影响所考虑的性状的一个或多个基因。“QTL的等位基因”可以包含在连续的基因组区域或连锁群中的多个基因或其他遗传因子，例如单倍型。QTL的等位基因可以表示在指定窗口内的单倍型，其中所述窗口是可以用一组的一个或多个多态性标志物定义和追踪的连续的基因组区域。单倍型可以指定被窗口内的每一标志物的等位基因的独特指纹定义。

细胞的重组构建体和转化

可以将本文公开的指导多核苷酸、Cas内切核酸酶、多核苷酸修饰模板、供体DNA、指导多核苷酸/Cas内切核酸酶系统以及其任意一种组合(任选地进一步包含一个或多个目的多核苷酸)引入细胞中。细胞包括但不限于人、非人、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞，以及通过本文所述的方法产生的植物和种子。

本文使用的标准重组DNA和分子克隆技术是在本领域熟知的，并且更全面地描述于Sambrook等人，Molecular Cloning：A Laboratory Manual[分子克隆：实验室手册]；Cold Spring Harbor Laboratory：Cold Spring Harbor，NY[冷泉港实验室：冷泉港，纽约州](1989)中。转化方法是本领域技术人员熟知的并且在下文中进行了描述。

载体和构建体包括环状质粒和包含目的多核苷酸的线状多核苷酸，以及任选地包括接头、衔接子、用于调节或分析的其他组分。在一些实例中，识别位点和/或靶位点可以包含在内含子、编码序列、5′UTR、3′UTR、和/或调节区内。

用于在原核和真核细胞中表达和利用CRISPR-Cas系统的组分

本发明还提供了用于在原核或真核细胞/生物体中表达指导RNA/Cas系统的表达构建体，所述指导RNA/Cas系统能够识别、结合靶序列的全部或部分并任选地使靶序列的全部或部分产生切口、解旋或切割靶序列的全部或部分。

在一个实施例中，本发明的表达构建体包含与编码Cas基因的核苷酸序列(或经植物优化的，包括本文所述的Cas内切核酸酶基因)可操作地连接的启动子和与本公开的指导RNA可操作地连接的启动子。所述启动子能够驱动在原核或真核细胞/生物中可操作地连接的核苷酸序列的表达。

指导多核苷酸、VT结构域和/或CER结构域的核苷酸序列修饰可以选自但不限于由以下各项组成的组：5′帽、3′聚腺苷酸尾、核糖开关序列、稳定性控制序列、形成dsRNA双链体的序列、将指导多核苷酸靶向亚细胞位置的修饰或序列、提供跟踪的修饰或序列、提供蛋白质结合位点的修饰或序列、锁核酸(LNA)、5-甲基dC核苷酸、2，6-二氨基嘌呤核苷酸、2’-氟代A核苷酸、2’-氟代U核苷酸、2′-O-甲基RNA核苷酸、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18分子的连接、5’至3’共价连接、或其任何组合。这些修饰可以产生至少一个另外的有益特征，其中该另外的有益特征选自由以下组成的组：修改的或调节的稳定性、亚细胞靶向、跟踪、荧光标记、用于蛋白质或蛋白质复合物的结合位点、对互补靶序列的修改的结合亲和力、修改的细胞降解抗性和增加的细胞通透性。

在真核细胞中表达RNA组分(例如gRNA)用于进行Cas9介导的DNA靶向的方法已经使用RNA聚合酶III(Pol III)启动子，其允许具有精确定义的未修饰的5’-和3’-末端的RNA转录(DiCarlo等人，Nucleic Acids Res.[核酸研究]41：4336-4343；Ma等人，Mol.Ther.Nucleic Acids[分子治疗-核酸]3：e161)。此策略已经成功应用于若干不同物种(包括玉米和大豆)的细胞中(2015年3月19日公开的US 20150082478)。已经描述了用于表达并不具有5’帽的RNA组分的方法(2016年2月18日公开的WO 2016/025131)。

可以采用不同方法和组合物来获得细胞或生物体，所述细胞或生物体具有插入针对Cas内切核酸酶的靶位点中的目的多核苷酸。此类方法可以采用同源重组(HR)以提供目的多核苷酸在靶位点处的整合。在本文所述的一种方法中，经由供体DNA构建体，将目的多核苷酸引入生物体细胞。

供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物体基因组的靶位点中或位于所述靶位点侧翼的第一和第二基因组区域共享同源性。

由靶和供体多核苷酸共享的同源性或序列同一性的量可以变化，并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb，或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括所述范围内的每个整数，例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述，其包括至少约50％、55％、60％、65％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、98％至99％、99％、99％至100％或100％的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性，和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合，例如，足够的同源性可以被描述为与靶标基因座的区域具有至少80％序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性，参见例如Sambrook等人，(1989)Molecular Cloning：A Laboratory Manual[分子克隆：实验室手册](Cold Spring Harbor Laboratory Press，NY[纽约冷泉港实验室出版社])；CurrentProtocols in Molecular Biology[分子生物学现代方案]，Ausubel等人，编辑(1994)Current Protocols[实验室指南](Greene Publishing Associates，Inc.[格林出版合伙公司]和John Wiley&Sons，Inc.[约翰威利父子公司])；以及Tijssen(1993)LaboratoryTechniques in Biochemistry and Molecular Biology--Hybridization with NucleicAcid Probes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](Elsevier[爱思唯尔出版社]，纽约)。

在给定的基因组区域和在供体DNA上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如，由供体DNA的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％序列同一性，这样使得序列进行同源重组

供体DNA上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些情况下，同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性，但是应当认识到同源的区域可以被设计为与可能更靠近靶位点的5′或3′的区域具有足够的同源性。同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性

在一个实施例中，第一同源的区域进一步包含靶位点中的第一片段，并且第二同源的区域包含靶位点中的第二片段，其中第一片段和第二片段不同。

目的多核苷酸

在本文中进一步描述了目的多核苷酸，并且包括反映涉及作物发育的那些的商业市场和利益的多核苷酸。目的作物和市场发生变化，以及随着发展中国家打开国际市场，新作物和技术也将出现。此外，随着我们对农艺学性状和特征(例如产率和杂种优势增加)的理解逐渐深入，对用于基因工程的基因的选择将会相应变化。

目的多核苷酸的一般类别包括，例如涉及信息的那些目的基因(例如锌指)，涉及通讯的那些基因(例如激酶)，以及涉及管家的那些基因(例如热休克蛋白)。更具体的目的多核苷酸包括但不限于涉及具有农艺学重要性的性状的基因，所述具有农艺学重要性的性状例如但不限于：作物产量、谷粒质量、作物营养成分、淀粉和碳水化合物质量和数量的基因、连同及影响籽粒大小、蔗糖载量、蛋白质量和数量、固氮和/或氮利用、脂肪酸和油组成的那些基因、编码赋予对非生物胁迫(例如干旱、氮、温度、盐度、毒性金属、或痕量元素)的抗性的蛋白质，或赋予对毒素(例如杀有害生物剂和除草剂)的抗性的那些蛋白质的基因、编码赋予对生物胁迫(例如真菌、病毒、细菌、昆虫和线虫的攻击以及与这些生物体相关的疾病的发展)的抗性的蛋白质的基因。

除了使用传统的育种方法之外，还可通过遗传方式改变农艺学上重要的性状(例如油、淀粉、和蛋白质含量)。修饰包括增加油酸、饱和及不饱和油的含量、增加赖氨酸和硫的水平、提供必需氨基酸、以及还有对淀粉的修饰。在美国专利号5,703,049、5,885,801、5,885,802和5,990,389中描述了戈多硫蛋白(hordothionin)的蛋白修饰。

目的多核苷酸序列可以编码涉及提供疾病或有害生物抗性的蛋白。“疾病抗性”或“有害生物抗性”意在是植物避免为植物-病原体相互作用后果的有害症状的发生。有害生物抗性基因可以编码对严重影响产率的有害生物的抗性，这些有害生物例如根虫、切根虫、欧洲玉蜀黍螟等。疾病抗性基因和抗昆虫基因，例如用于抗细菌保护的溶菌酶或天蚕杀菌肽，或用于抗真菌保护的蛋白，例如防御素、葡聚糖酶、或几丁质酶，或用于控制线虫或昆虫的苏云金芽孢杆菌内毒素、蛋白酶抑制剂、胶原酶、凝集素、或糖苷酶，均是有用的基因产物的实例。编码疾病抗性性状的基因包括解毒基因，例如抗伏马毒素(美国专利号5,792,931)；无毒力(avr)和疾病抗性(R)基因(Jones等人(1994)Science[科学]266：789；Martin等人(1993)Science[科学]262：1432；和Mindrinos等人(1994)Cell[细胞]78：1089)；等。抗昆虫基因可以编码对严重影响产率的有害生物的抗性，这些有害生物例如根虫、切根虫、欧洲玉蜀黍螟等。此类基因包括，例如，苏云金芽孢杆菌毒性蛋白基因(美国专利号5,366,892；5,747,450；5,736,514；5,723,756；5,593,881；和Geiser等人(1986)Gene[基因]48：109)；等。

“除草剂抗性蛋白”或由“除草剂抗性编码核酸分子”表达生成的蛋白包括这样的蛋白，其赋予细胞与未表达该蛋白的细胞相比耐受更高浓度除草剂的能力，或赋予细胞与未表达该蛋白的细胞相比对某种浓度的除草剂耐受更长时段的能力。除草剂抗性性状可通过如下基因引入进植物中：编码对起到抑制乙酰乳酸合酶(ALS，也称为乙酰羟基酸合酶，AHAS)的作用的除草剂(特别是磺酰脲(sulfonylurea)(UK：磺酰脲(sulphonylurea))类除草剂)的抗性的基因、编码对起到抑制谷氨酰胺合酶的作用的除草剂(例如草丁膦或basta)的抗性的基因(例如bar基因)、编码对草甘膦的抗性的基因(例如EPSP合酶基因和GAT基因)、编码对HPPD抑制剂的抗性的基因(例如HPPD基因)或本领域已知的其他此类基因。参见例如美国专利号7,626,077、5,310,667、5,866,775、6,225,114、6,248,876、7,169,970、6,867,293和9,187,762。bar基因编码对除草剂basta的抗性，nptII基因编码对抗生素卡那霉素和遗传霉素的抗性，以及ALS-基因突变体编码对除草剂氯磺隆的抗性。

此外，认识到目的多核苷酸还可以包括与针对目的所靶向的基因序列的信使RNA(mRNA)的至少一部分互补的反义序列。构建反义核苷酸以与相应的mRNA杂交。可以对该反义序列作出修饰，只要该序列与相应的mRNA杂交并干扰相应的mRNA的表达。在该方式中，可以使用与相应的反义序列具有70％、80％、或85％序列同一性的反义构建体。此外，反义核苷酸的部分可以用来破坏该靶基因的表达。通常，可以使用至少50个核苷酸、100个核苷酸、200个核苷酸、或更多个核苷酸的序列。

此外，目的多核苷酸还可以按有义取向来使用从而抑制植物中内源基因的表达。以有义取向使用多核苷酸用于抑制植物中基因表达的方法是本领域已知的。这些方法通常涉及用包含启动子的DNA构建体的转化植物，该启动子可操作地连接到至少一部分的对应于该内源基因的转录物的核苷酸序列上，驱动在植物中的表达。通常，此类核苷酸序列与内源基因的转录物的序列具有实质性的序列同一性，通常大于约65％序列同一性、约85％序列同一性、或大于约95％序列同一性。参见美国专利号5,283,184和5,034,323。

目的多核苷酸也可以是表达调节元件，例如但不限于启动子、增强子、内含子、终止子或UTR(不翻译的调节序列)。UTR可能出现在编码或非编码序列的5’末端或3’末端。目的多核苷酸的其他实例包括编码核糖核苷酸分子的基因，例如mRNA、siRNA或其他核糖核苷酸。调节元件或RNA分子对于发生遗传修饰的细胞可以是内源的，或者对于所述细胞可以是异源的。

目的多核苷酸还可以是表型标志物。表型标志物是可筛选或选择性标志物，其包括视觉标志物和选择性标志物，无论它是阳性还是阴性选择性标志物。可以使用任何表型标志物。具体地，可选择或可筛选标志物包含允许人们通常在特定条件下鉴定或选择包含它的分子或细胞或对其进行选择的DNA区段。这些标志物可以编码活性，例如但不限于RNA、肽或蛋白质的产生，或可以提供RNA、肽、蛋白质、无机和有机化合物或组合物等的结合位点。

选择性标志物的实例包括但不限于包含限制性内切酶位点的DNA区段；编码对另外的毒性化合物提供抗性的产物的DNA区段，所述毒性化合物包括抗生素，例如壮观霉素、氨苄青霉素、卡那霉素、四环素、Basta、新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT)；编码在受体细胞中本身缺乏的产物的DNA区段(例如，tRNA基因、营养缺陷型标志物)；编码易于鉴定的产物的DNA区段(例如，表型标志物如β-半乳糖苷酶，GUS；荧光蛋白如绿色荧光蛋白(GFP)、青色(CFP)、黄色(YFP)、红色(RFP)和细胞表面蛋白)；产生用于PCR的新引物位点(例如，以前未并列的两个DNA序列的并列)，包含通过限制性内切核酸酶或其他DNA修饰酶、化学品等不起作用或起作用的DNA序列；并且包含允许其鉴定的特异性修饰(例如，甲基化)所需的DNA序列。

另外的选择性标志物包括赋予除草剂化合物(例如磺酰脲、草胺磷、溴草腈、咪唑啉酮和2，4-二氯苯氧基乙酸酯(2，4-D))抗性的基因。参见例如，用于对磺酰脲、咪唑啉酮、三唑并嘧啶磺酰胺、嘧啶水杨酸和磺酰基氨基羰基-三唑啉酮(Shaner和Singh，1997，Herbicide Activity：Toxicol Biochem Mol Biol[除草剂活性：毒理学，生物化学，分子生物学]69-110)；草甘膦抗性5-烯醇丙酮莽草酸-3-磷酸(EPSPS)(Saroha等人，1998，J.PlantBiochemistry&Biotechnology[植物生物化学&生物技术杂志]卷7：65-72)的抗性的乙酰乳酸合酶(ALS)；

目的多核苷酸包括与其他性状(例如但不限于除草剂抗性或本文描述的任何其他性状)组合堆叠或使用的基因。目的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起，如2013年10月3日公开的US 20130263324和2013年8月1日公开的WO/2013/112686中所述。

目的多肽包括由本文描述的目的多核苷酸编码的蛋白或多肽。

进一步提供了用于鉴定至少一个植物细胞的方法，该植物细胞在其基因组中包含在靶位点处整合的目的多核苷酸。可以使用多种方法来鉴定在靶位点处或靶位点附近插入到基因组中的那些植物细胞。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化，包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹法、及其任何组合。参见例如，2009年5月21日公开的US 20090133152。所述方法还包括从包含整合至其基因组中的目的多核苷酸的植物细胞重新获得植物。所述植物可以是不育的或可育的。应当认识到，可以提供任何目的多核苷酸，将该多核苷酸在靶位点处整合到植物的基因组中，并在植物中表达。

表达元件

可将编码Cas蛋白，其他CRISPR系统组分或本文公开的其他多核苷酸的任何多核苷酸功能性地连接至异源表达元件，以促进宿主细胞中的转录或调节。此类表达元件包括但不限于：启动子、前导子、内含子和终止子。表达元件可以是“最小的”-意指源自天然来源的较短序列，其仍充当表达调节子或修饰子起作用。可替代地，表达元件可以是“优化的”-意指其多核苷酸序列已经从其天然状态改变，以便在特定宿主细胞中以更期望的特征起作用(例如但不限于，可以将细菌启动子进行“玉米优化”以改善其在玉米植物中的表达)。可替代地，表达元件可以是“合成的”-意指其是用计算机设计的并且被合成用于在宿主细胞中使用。合成的表达元件可以是完全合成的或部分合成的(包含天然存在的多核苷酸序列的片段)。

已经显示某些启动子能够以比其他启动子更高的速率引导RNA合成。这些被称为“强启动子”。已经显示某些其他启动子仅以较高的水平在特定类型的细胞或组织中指导RNA合成，并且如果所述启动子优选在某些组织中而且还以降低的水平在其他组织中指导RNA合成则通常将其称为“组织特异性启动子”或“组织偏好性启动子”。

植物启动子包括能够在植物细胞中起始转录的启动子。关于植物启动子的综述，参见Potenza等人，2004In vitro Cell Dev Biol[体外细胞与发育生物学]40：1-22；Porto等人，2014，Molecular Biotechnology[分子生物技术](2014)，56(1)，38-49。

组成型启动子包括，例如，核心CaMV 35S启动子(Odell等人，(1985)Nature[自然]313：810-2)；稻肌动蛋白(McElroy等人，(1990)Plant Cell[植物细胞]2：163-71)；泛素(Christensen等人，(1989)Plant Mol Biol[植物分子生物学]12：619-32；ALS启动子(美国专利号5,659,026)等。

组织偏好性启动子可以用于靶向特定植物组织内的增强的表达。组织偏好性启动子包括，例如，2013年7月11日公开的WO 2013103367，Kawamata等人，(1997)Plant CellPhysiol[植物细胞生理学]38：792-803；Hansen等人，(1997)Mol Gen Genet[分子和普通遗传学]254：337-43；Russell等人，(1997)Transgenic Res[转基因研究]6：157-68；Rinehart等人，(1996)Plant Physiol[植物生理学]112：1331-41；Van Camp等人，(1996)PlantPhysiol.[植物生理学]112：525-35；Canevascini等人，(1996)Plant Physiol.[植物生理学]112：513-524；Lam，(1994)Results Probl Cell Differ[细胞分化中的结果与问题]20：181-96；以及Guevara-Garcia等人，(1993)Plant J.[植物杂志]4：495-505。叶偏好性启动子包括，例如，Yamamoto等人，(1997)Plant J[植物杂志]12：255-65；Kwon等人，(1994)Plant Physiol[植物生理学]105：357-67；Yamamoto等人，(1994)Plant Cell Physiol[植物细胞生理学]35：773-8；Gotor等人，(1993)Plant J[植物杂志]3：509-18；Orozco等人，(1993)Plant Mol Biol[植物分子生物学]23：1129-38；Matsuoka等人，(1993)Proc.Natl.Acad.Sci.USA[美国科学院院报]90：9586-90；Simpson等人，(1958)EMBO J[欧洲分子生物学学会杂志]4：2723-9；Timko等人，(1988)Nature[自然]318：57-8。根偏好性启动子包括，例如，Hire等人，(1992)Plant Mol Biol[植物分子生物学]20：207-18(大豆根特异性谷氨酰胺合酶基因)；Miao等人，(1991)Plant Cell[植物细胞]3：11-22(胞质谷氨酰胺合酶(GS))；Keller和Baumgartner，(1991)Plant Cell[植物细胞]3：1051-61(法国菜豆的GRP 1.8基因中的根特异性控制元件)；Sanger等人，(1990)Plant Mol Biol[植物分子生物学]14：433-43(根癌农杆菌(A.tumefaciens)的甘露氨酸合酶(MAS)的根特异性启动子)；Bogusz等人，(1990)Plant Cell[植物细胞]2：633-41(从榆科糙叶山黄麻(Parasponiaandersonii)和山黄麻(Trema tomentosa)分离的根特异性启动子)；Leach和Aoyagi，(1991)Plant Sci[植物科学]79：69-76(发根农杆菌(A.rhizogenes)rolC和rolD根诱导型基因)；Teeri等人，(1989)EMBOJ[欧洲分子生物学学会杂志]8：343-50(农杆菌伤口诱导的TR1′和TR2’基因)；VfENOD-GRP3基因启动子(Kuster等人，(1995)Plant Mol Biol[植物分子生物学]29：759-72)；以及rolB启动子(Capana等人，(1994)Plant Mol Biol[植物分子生物学]25：681-91)；菜豆球蛋白基因(Murai等人，(1983)Science[科学]23：476-82；Sengopta-Gopalen等人，(1988)Proc.Natl.Acad.Sci.USA[美国科学院院报]82：3320-4)。还参见美国专利号5,837,876；5,750,386；5,633,363；5,459,252；5,401,836；5,110,732和5,023,179。

种子偏好性启动子包括在种子发育期间有活性的种子特异性启动子以及在种子发芽期间有活性的种子发芽性启动子两者。参见Thompson等人，(1989)BioEssays[生物学分析]10：108。种子偏好性启动子包括但不限于Cim1(细胞分裂素诱导的信息)；cZ19B1(玉米19kDa玉米醇溶蛋白)；和milps(肌醇-1-磷酸盐合酶)；以及例如，在2000年3月2日公开的WO 2000011177和美国专利6,225,529中公开的那些。对于双子叶植物，种子偏好性启动子包括但不限于：菜豆β-菜豆素、油菜籽蛋白、β-伴大豆球蛋白、大豆凝集素、十字花科蛋白等。对于单子叶植物，种子偏好性启动子包括但不限于玉米15kDa玉蜀黍蛋白、22kDa玉蜀黍蛋白、27kDaγ玉蜀黍蛋白、蜡质、收缩素1、收缩素2、球蛋白1、油质蛋白和nuc1。还参见2000年3月9日公开的WO 2000012733，其中公开了来自END1和END2基因的种子偏好性启动子。

可以使用化学诱导型(调节型)启动子以通过应用外源化学调节剂来调节原核和真核细胞或生物体中的基因表达。在应用化学品诱导基因表达的情况下启动子可以是化学品诱导型启动子，或者在应用化学品阻抑基因表达的情况下启动子可以是化学品阻抑型启动子。化学品诱导型启动子包括但不限于：由苯磺酰胺除草剂安全剂激活的玉米In2-2启动子(De Veylder等人，(1997)Plant Cell Physiol[植物细胞生理学]38：568-77)、由用作出苗前除草剂的疏水性亲电子化合物激活的玉米GST启动子(GST-II-27，1993年1月21日公开的WO 1993001294)、以及由水杨酸激活的烟草PR-1a启动子(Ono等人，(2004)BiosciBiotechnol Biochem[生物科学生物技术生物化学]68：803-7)。其他化学品调节型启动子包括类固醇反应启动子(参见，例如，糖皮质激素诱导型启动子(Schena等人，(1991)Proc.Natl.Acad.Sci.USA[美国科学院院报]88：10421-5；McNellis等人，(1998)Plant J[植物杂志]14：247-257)；四环素诱导型启动子和四环素阻抑型启动子(Gatz等人，(1991)Mol Gen Genet[分子和普通遗传学]227：229-37；美国专利号5,814,618和5,789,156)。

在被病原体感染后诱导的病原体诱导型启动子包括但不限于调节PR蛋白、SAR蛋白、β-1，3-葡聚糖酶、几丁质酶等的表达的启动子。

胁迫诱导型启动子包括RD29A启动子(Kasuga等人(1999)Nature Biotechnol[自然生物技术].17：287-91)。本领域技术人员熟悉模拟胁迫条件(如干旱、渗透胁迫、盐胁迫、和温度胁迫)并评价植物的胁迫耐受性的规程，所述植物已经遭受了模拟的或天然存在的胁迫条件。

在植物细胞中有用的诱导型启动子的另一个实例是ZmCAS1启动子，描述于2013年11月21日公开的US 20130312137中。

不断发现在植物细胞中有用的不同类型的新启动子；许多实例可以在Okamuro和Goldberg，(1989)The Biochemistry of Plants[植物生物化学]，第115卷，Stumpf和Conn编辑(纽约，纽约州：学术出版社)1-82页的汇编中发现。

发育基因(形态发生因子)

形态发生因子(也通称为“发育基因”或“dev基因”，通篇同义使用)是多核苷酸，其通过多种机制增强靶向多核苷酸修饰的速率、效率和/或功效，其中一些机制与刺激细胞或组织生长的能力有关，包括但不限于促进整个细胞周期的进展，抑制细胞死亡(例如凋亡)，刺激细胞分裂和/或刺激胚发生。所述多核苷酸可分为几类，包括但不限于细胞周期刺激性多核苷酸、发育性多核苷酸、抗凋亡多核苷酸、激素多核苷酸、转录因子或针对细胞周期阻遏子或促凋亡因子的沉默构建体。通过包含编码形态发生因子的异源核苷酸的表达构建体转化植物外植体细胞来快速有效转化植物的方法和组合物描述于美国专利申请公开号US2017/0121722(2017年5月4日公开)。

形态发生因子(基因或蛋白)可以涉及植物代谢、器官发育、干细胞发育、细胞生长刺激、器官发生、体细胞胚发生的起始、体细胞胚成熟的加速、顶端分生组织的起始和/或发育、芽分生组织的起始和/或发育、或其组合。

在一些方面，形态发生因子是从以下类别中一种或多种选择的分子：1)细胞周期刺激性多核苷酸，其包括植物病毒复制酶基因，例如RepA、细胞周期蛋白、E2F、prolifera、cdc2和cdc25；2)发育性多核苷酸，例如Lecl、Kn1家族、WUSCHEL、Zwille、BBM、Aintegumenta(ANT)、FUS3，以及打结家族(Knotted family)的成员，例如Kn1、STM、OSH1和SbH1；3)抗凋亡多核苷酸，例如CED9、Bcl2、Bcl-X(L)、Bcl-W、A1、McL-1、Mac1、Boo和Bax抑制剂；4)激素多核苷酸，例如IPT、TZS和CKI-1；以及5)针对以下的沉默构建体：细胞周期阻遏子(例如Rb，CKl，阻抑素(prohibitin)和wee1)或凋亡刺激子(例如APAF-1、bad、bax、CED-4和半胱天冬酶-3)，以及植物发育转变的阻遏子，例如Pickle和WD聚梳基因，包括FIE和Medea。可以通过任何已知的方法使多核苷酸沉默，例如反义、RNA干扰、共阻遏、嵌合体成形术或转座子插入。

在一些方面，形态发生因子是WUS/WOX基因家族的成员(WUS1、WUS2、WUS3、WOX2A、WOX4、WOX5或WOX9)，参见美国专利7,348,468和7,256,322以及美国专利申请公开20170121722和20070271628；和Laux等人(1996)Development[发育]122：87-96；和Mayer等人(1998)Cell[细胞]95：805-815；van der Graaff等人，2009，Genome Biology[基因组生物学]10：248；Dolzblasz等人，2016，Mol.Plant[分子植物学]19：1028-39。Wuschel蛋白(以下称为WUS)在含有多能干细胞池的顶端分生组织的起始和维持中起关键作用(Endrizzi等人，(1996)Plant Journal[植物杂志]10：967-979；Laux等人，(1996)Development[发育]122：87-96；以及Mayer等人，(1998)Cell[细胞]95：805-815)。预期WUS/WOX的调节可调节植物和/或植物组织表型，包括植物代谢、器官发育、干细胞发育、细胞生长刺激、器官发生、体细胞胚发生的起始、体细胞胚成熟的加速、顶端分生组织的起始和/或发育、芽分生组织的起始和/或发育、或其组合。WUS编码一种可能作为转录调节剂的新型同源结构域蛋白(Mayer等人，(1998)Cell[细胞]95：805-815)。拟南芥芽分生组织的干细胞群体被认为通过促进器官起始的CLAVATA(CLV)基因与干细胞特性所需的WUS基因之间的调节环来维持，其中CLV基因在转录水平上阻遏WUS，并且WUS表达足以诱导分生组织细胞特性和干细胞标志物CLV3的表达(Brand等人，(2000)Science[科学]289：617-619；Schoof等人，(2000)Cell[细胞]100：635-644)。拟南芥WUS的表达可以在营养组织中诱导干细胞，其可以分化为体细胞胚(Zuo，等人(2002)Plant J[植物杂志]30：349-359)。在这方面也有意义的是MYB118基因(参见美国专利7,148,402)、MYB115基因(参见Wang等人(2008)Cell Research[细胞研究]224-235)、BABYBOOM基因(BBM；参见Boutilier等人(2002)Plant Cell[植物细胞]14：1737-1749)或CLAVATA基因(例如，参见美国专利7,179,963)。

在一些实施例中，形态发生因子或蛋白是AP2/ERF蛋白家族的成员。AP2/ERF蛋白家族是一类植物特异性的推定转录因子，所述推定转录因子调节多种不同发育过程并且特征是存在AP2 DNA结合结构域，所述结构域预计会形成结合DNA的两亲性α螺旋(PFAM登录号PF00847)。AP2结构域首先在APETALA2中鉴定，APETALA2是拟南芥蛋白，调节分生组织身份、花器官规格、种皮发育和花同源基因表达。基于保守结构域的存在，AP2/ERF蛋白被细分为不同的亚家族。最初，基于DNA结合结构域的数目将所述家族分成两个亚家族，ERF亚家族具有一个DNA结合结构域，并且AP2亚家族具有2个DNA结合结构域。随着更多的序列被鉴定，所述家族随后被细分为五个亚科：AP2、DREB、ERF、RAV等。(Sakuma等人(2002)BiochemBiophys Res Comm[生物化学与生物物理学研究通讯]290：998-1009)。

APETALA2(AP2)蛋白家族的成员在多种生物学事件中起作用，包括但不限于发育、植物再生、细胞分裂、胚发生和形态发生(参见例如，Riechmann和Meyerowitz(1998)BiolChem[生物化学]379：633-646；Saleh和Pagés(2003)Genetika[遗传学]35：37-50和daft.cbi.pku.edu.cn上的拟南芥转录因子数据库)。AP2家族包括但不限于AP2、ANT、Glossy15、AtBBM、BnBBM和玉米ODP2/BBM。

在本公开中有用的其他形态发生因子包括但不限于配珠发育蛋白2(ODP2)多肽和相关的多肽，例如Babyboom(BBM)蛋白家族蛋白。在一方面，包含两个AP2-DNA结合结构域的多肽是ODP2、BBM2、BMN2或BMN3多肽。本公开的ODP2多肽含有两个预测的APETALA2(AP2)结构域，并且是AP2蛋白家族的成员(PFAM登录号PF00847)。推定转录因子的AP2家族已显示出调节广泛的发育过程，并且家族成员的特征是存在AP2 DNA结合结构域。预测该保守核心形成结合DNA的两亲性α螺旋。AP2结构域首先在APETALA2中鉴定，APETALA2是拟南芥蛋白，调节分生组织身份、花器官规格、种皮发育和花同源基因表达。现在已经在多种蛋白质中发现了AP2结构域。ODP2多肽与AP2家族内的几种多肽具有同源性，例如参见US 8,420,893(其通过引用以其全部内容结合在此)中的图1，其提供了玉米和稻ODP2多肽与具有两个AP2结构域的其他八个蛋白的比对。在图1中还提供了出现在US 8420893的比对中的所有蛋白的共有序列。

在一些实施例中，形态发生因子是babyboom(BBM)多肽，其是AP2家族转录因子的成员。来自拟南芥属的BBM蛋白(AtBBM)优先在发育中的胚和种子中表达，并且已显示在调节胚特异性途径中起着核心作用。AtBBM的过表达已显示出诱导幼苗上体细胞胚和子叶状结构的自发形成。参见Boutiler等人(2002)The Plant Cell[植物细胞]14：1737-1749。玉米BBM蛋白还诱导胚发生并促进转化(参见美国专利号7,579,529，其通过引用以其全部内容结合在此)。因此，BBM多肽刺激增殖，诱导胚发生，增强植物的再生能力，增强转化，并且如本文所证明的，提高靶向的多核苷酸修饰的速率。如本文所用，“再生”是指形态发生应答，其导致产生衍生自单个细胞或一组细胞的新组织、器官、胚、整株植物或整株植物的一部分。再生可经由愈伤组织阶段间接进行或直接进行，而无中间愈伤组织阶段。“再生能力”是指植物细胞经历再生的能力。

可用于本公开的其他形态发生因子包括但不限于LEC1(Lotan等人，1998，Cell[细胞]93：1195-1205)、LEC2(Stone等人，2008，PNAS[美国科学院院报]105：3151-3156；Belide等人，2013，Plant Cell Tiss.Organ Cult[植物细胞组织器官培养]113：543-553)、KNl/STM(Sinha等人，1993.Genes Dev[基因与发育]7：787-795)、来自农杆菌的IPT基因(Ebinuma and Komamine，2001，In vitro Cell.Dev Biol-Plant[体外细胞发育生物学-植物]37：103-113)、MONOPTEROS-DELTA(Ckurshumova等人，2014，New Phytol.[新植物学家]204：556-566)、农杆菌AV-6b基因(Wabiko和Minemura 1996，Plant Physiol.[植物生理学]112：939-951)、农杆菌IAA-h和IAA-m基因的组合(Endo等人，2002，Plant Cell Rep.[植物细胞报告]，20：923-928)、拟南芥SERK基因(Hecht等人，2001，Plant Physiol.[植物生理学]127：803-816)、拟南芥AGL15基因(Harding等人，2003，Plant Physiol.[植物生理学]133：653-663)、和FUSCA基因(Castle和Meinke，Plant Cell[植物细胞]6：25-41)和PICKLE基因(Ogas等人，1999，PNAS[美国科学院院报]96：13839-13844)。

形态发生因子可以衍生自单子叶植物。在各个方面，形态发生因子衍生自大麦、玉米、粟、燕麦、稻、黑麦、狗尾草属物种(Setaria sp.)、高粱、甘蔗、柳枝稷、黑小麦、草皮草或小麦。

形态发生因子可以衍生自双子叶植物。形态发生因子可以衍生自羽衣甘蓝、花椰菜、西兰花、芥菜植物、卷心菜、豌豆、三叶草、苜蓿、蚕豆、番茄、木薯、大豆、卡诺拉油菜、苜蓿、向日葵、红花、烟草、拟南芥属、或棉花。

本公开涵盖分离的或基本上纯化的多核苷酸或多肽形态发生因子组合物。

可以按不同方式改变形态发生因子，这些方式包括氨基酸取代、缺失、截短、和插入。用于此类操作的方法是本领域通常已知的。例如，可以通过DNA中的突变来制备形态发生蛋白的氨基酸序列变体。用于诱变和核苷酸序列改变的方法是本领域熟知的。参见，例如，Kunkel(1985)Proc.Natl.Acad.Sci.USA[美国科学院院报]82：488-492；Kunkel等人，(1987)Methods in Enzymol.[酶学方法]154：367-382；美国专利号4,873,192；Walker和Gaastra编(1983)Techniques in Molecular Biology[分子生物学技术](麦克米伦出版公司，纽约)以及其中引用的参考文献。关于不影响目的蛋白的生物活性的适当的氨基酸取代的指导可以发现于Dayhoff等人，(1978)Atlas of Protein Sequence and Structure[蛋白序列和结构图谱](Natl.Biomed.Res.Found.[国家生物医学研究基金会]，Washington，D.C.[华盛顿特区])的模型中。保守取代，如将一个氨基酸与具有相似特性的另一个氨基酸交换，会是最佳的。

在一些实施例中，与已知的形态发生因子具有同源性和/或共有保守的功能结构域的多核苷酸或多肽可以通过以下来鉴定：使用程序例如BLAST或使用本领域已知的标准核酸杂交技术(例如描述于以下中：Tijssen(1993)Laboratory Techniques inBiochemistry and Molecular Biology-Hybridization with Nucleic Acid Probes[生物化学和分子生物学实验室技术-用核酸探针杂交]，部分I，章节2(爱思唯尔出版社(Elsevier)，纽约州)；Ausubel等人，编辑(1995)Current Protocols in MolecularBiology[分子生物学当前方案]，章节2(格林出版和威利国际科学出版社(GreenePublishing and Wiley-Interscience)，纽约州)；和Sambrook等人(1989)MolecularCloning：A Laboratory Manual[分子克隆：实验室手册](第2d版，冷泉港实验室出版社，平景城(Plainview)，纽约州))筛选序列数据库。

在一些方面，形态发生因子选自由以下组成的组：SEQ ID NO：1-5、11-16、22和23-47。在一些方面，形态发生蛋白选自由以下组成的组：SEQ ID NO：6-10、17-21和48-73。

在一些方面，选择多种形态发生因子。当使用多种形态发生因子时，编码每种因子的多核苷酸可存在于相同表达盒或分开的表达盒上。同样，编码一种或多种形态形成因子的一种或多种多核苷酸和编码双链断裂诱导剂的多核苷酸可以位于相同或不同的表达盒上。当通过分开的表达盒编码两种或更多种因子时，可以同时或顺序地将表达盒提供给生物体。

在一些方面，形态发生因子的表达是瞬时的。在一些方面，形态发生因子的表达是组成性的。在一些方面，形态发生因子的表达对特定的组织或细胞类型是特异性的。在一些方面，形态发生因子的表达在时间上受到调节。在一些方面，形态发生因子的表达受环境条件例如温度、一天中的时间或其他因素的调节。在一些方面，形态发生因子的表达是稳定的。在一些方面，形态发生因子的表达受到控制。受控表达可以是形态发生因子的脉冲表达持续特定时间段。可替代地，形态发生因子可仅在一些转化的细胞中表达而在其他细胞中不表达。可以通过本文公开的多种方法来控制形态发生因子的表达。

辅助质粒

农杆菌，一种天然植物病原体，已被广泛用于双子叶植物的转化，并且最近已被用于单子叶植物的转化。农杆菌介导的基因转移系统的优点是，它提供了以相对较高的频率再生转基因细胞而不显著降低植物再生速率的潜力。此外，相对于其他DNA递送方法，DNA转移至植物基因组的过程得到充分表征。经由农杆菌转移的DNA与经由直接递送而转移的DNA相比不太可能进行任何主要的重排，并且其通常以单拷贝或低拷贝数整合到植物基因组中。

最常用的农杆菌介导的基因转移系统是二元转化载体系统，其中农杆菌已被工程化以包含编码DNA转移所必需的vir功能的解毒的或非致瘤的Ti辅助质粒，以及称为二元载体质粒的小得多的单独的质粒(其携带转移的DNA或T-DNA区域)。T-DNA由每个末端的序列定义，所述序列称为T-DNA边界，其在T-DNA的产生和转移过程中起重要作用。

二元载体是其中毒力基因被置于与携带T-DNA区域的质粒不同的质粒上的载体(Bevan，1984，Nucl.Acids.Res.[核算研究]12：8711-8721)。T-DNA二元载体的开发使得植物细胞的转化更容易，因为它们不需要重组。一些毒力基因表现出基因剂量效应(Jin等人，J.Bacteriol.[细菌学杂志](1987)169：4417-4425)的发现导致了携带另外的毒力基因的超级二元载体(superbinary vector)的发展(Komari，T.等人，Plant Cell Rep.[植物细胞报告](1990)，9：303-306)。这些早期的超级二元载体携带来自超毒力Ti质粒pTiBo542的大“vir”片段(约14.8kbp)，该超毒力Ti质粒已被引入标准二元载体(同上)中。所述超级二元载体导致植物转化大大改善。例如，Hiei，Y.等人(Plant J.[植物杂志](1994)6：271-282)描述了农杆菌对稻的有效转化，并随后报道了将该系统用于玉米、大麦和小麦(Ishida，Y.等人，Nat.Biotech.[自然生物技术](1996)14：745-750；Tingay，S.等人，Plant J.[植物杂志](1997)11：1369-1376；以及Cheng，M.等人，Plant Physiol.[植物生理学](1997)115：971-980；还参见Hiei等人的美国专利号5,591,616)。先前的超级二元载体的实例包括pTOK162(日本专利申请(Kokai)号4-222527；EP-A-504,869；EP-A-604,662；以及美国专利号5,591,616)和pTOK233(参见Komari，T.，同上；和Ishida，Y.等人，同上)。

本披露包含利用含有vir基因的超级二元载体的方法和组合物。在各个方面，本公开提供了载体，所述载体包含：(a)用于在大肠杆菌中繁殖和稳定维持的复制起点；(b)用于在农杆菌属物种(Agrobacterium spp.)中繁殖和稳定维持的复制起点；(c)选择性标志物基因；以及(d)农杆菌属物种(Agrobacterium spp.)毒力基因virB1-B11；virC1-C2；virD1-D2；和virG基因。在一方面，该载体进一步包含农杆菌属物种毒力基因virA、virD3、virD4、virD5、virE1、virE2、virE3、virH、virH1、virH2、virK、virL、virM、virP、或virQ或其组合。在一方面，载体包含农杆菌属物种毒力基因virB1-B11；virC1-C2；virD1-D2；和virG基因。在另一方面，载体包含农杆菌属物种毒力基因virA、virB1-B11、virC1-C2；virD1-DS、virE1-E3、virG和virJ基因。

带有辅助质粒(例如pVIR9、pVIR7或pVIR10)的农杆菌可以显著改善瞬时蛋白表达、瞬时T-DNA递送、体细胞胚表型、转化频率、质量事件的恢复以及不同植物系中可用的质量事件(WO 2017078836 A1，公开于2017年5月11日)。

VIR基因也被用于改善苍白杆菌属的转化，例如，披露于2018年8月2日公开的US20180216123中。

将系统组分引入细胞

本文描述的方法不取决于用于将序列引入生物体或细胞中的具体方法，只要多核苷酸或多肽进入生物体的至少一个细胞的内部即可。引入包括提到将核酸合并到真核细胞或原核细胞中，其中核酸可以被并入细胞的基因组中，并且包括提到核酸、蛋白或核糖核蛋白复合物被瞬时(直接)提供至细胞中。

用于将多核苷酸或多肽或多核苷酸-蛋白复合物引入细胞或生物体的方法是本领域已知的，并且包括但不限于显微注射、电穿孔、稳定转化方法、瞬时转化方法、弹道粒子加速(粒子轰击)、晶须介导的转化、农杆菌介导的转化、直接基因转移、病毒介导的引入、转染、转导、细胞穿透肽、介孔二氧化硅纳米粒子(MSN)-介导的直接蛋白递送、局部应用、有性杂交、有性育种、及其任何组合。用于将多核苷酸引入细胞以进行转化的一般方法是本领域已知的，例如，农杆菌介导的转化，苍白杆菌介导的转化和粒子轰击介导的细胞转化。

例如，指导多核苷酸(指导RNA，cr核苷酸+tracr核苷酸，指导DNA和/或指导RNA-DNA分子)可以作为单链或双链多核苷酸分子直接引入细胞(瞬时地)。指导RNA(或crRNA+tracrRNA)还可以通过引入包含编码指导RNA(或crRNA+tracrRNA)的异源核酸片段的重组DNA分子被间接引入细胞中，所述指导RNA与能够在所述细胞中转录所述指导RNA(或crRNA+tracrRNA)的特异性启动子可操作地连接。特异性启动子可以是但不限于RNA聚合酶III启动子，其允许具有精确定义的未修饰的5’-和3’-末端的RNA转录(Ma等人，2014，Mol.Ther.Nucleic Acids[分子治疗-核酸]3：e161；DiCarlo等人，2013，Nucleic AcidsRes.[核酸研究]41：4336-4343；2015年2月26日公开的WO 2015026887)。可以使用能够在细胞中转录指导RNA的任何启动子，并且这些启动子包括可操作地连接到编码指导RNA的核苷酸序列的热休克/热可诱导的启动子。

用于在真核细胞例如植物或植物细胞中引入多核苷酸、多肽或多核苷酸-蛋白复合物的方案是已知的并且包括显微注射(Crossway等人，(1986)Biotechniques[生物技术]4：320-34和美国专利号6,300,543)；分生组织转化(美国专利号5,736,369)；电穿孔(Riggs等人，(1986)Proc.Nad.Acad.Sci.USA[美国科学院院报]83：5602-6)；农杆菌介导的转化(美国专利号5,563,055和5,981,840)；晶须介导的转化(Ainley等人2013，PlantBiotechnology Journal[植物生物技术杂志]11：1126-1134；Shaheen A.和M.Arshad2011Properties and Applications of Silicon Carbide[碳化硅的特性和应用](2011)，345-358，编辑：Gerhardt，Rosario.，出版商：印天科技公司(InTech)，里耶卡(Rijeka)，克罗地亚(Croatia)，代码：69PQBP；ISBN：978-953-307-201-2)；直接基因转移(Paszkowski等人，(1984)EMBO J[欧洲分子生物学学会杂志]3：2717-22)；以及弹道粒子加速(美国专利号4,945,050；5,879,918；5,886,244；5,932,782；Tomes等人，(1995)“Direct DNA Transferinto Intact Plant Cells via Microprojectile Bombardment”[经由微粒轰击将DNA直接转移到完整植物细胞中]在Plant Cell，Tissue，and Organ Culture.：FundamentalMethods[植物细胞、组织和器官培养：基本方法]，编辑Gamborg和Phillips(Springer-Verlag，Berlin[柏林施普林格出版社)；McCabe等人(1988)Biotechnology[生物技术]6：923-6；Weissinger等人，(1988)Ann Rev Genet[遗传学年鉴]22：421-77；Sanford等人，(1987)Particulate Science and Technology[微粒科学与技术]5：27-37(洋葱)；Christou等人，(1988)Plant Physiol[植物生理学]87：671-4(大豆)；Finer和McMullen，(1991)In vitro Cell Dev Biol[体外细胞与发育生物学]27P：175-82(大豆)；Singh等人，(1998)Theor Appl Genet[理论与应用遗传学]96：319-24(大豆)；Datta等人，(1990)Biotechnology[生物技术]8：736-40(稻)；Klein等人，(1988)Proc.Natl.Acad.Sci.USA[美国科学院院报]85：4305-9(玉蜀黍)；Klein等人，(1988)Biotechnology[生物技术]6：559-63(玉蜀黍)；美国专利号5,240,855；5,322,783和5,324,646；Klein等人，(1988)PlantPhysiol[植物生理学]91：440-4(玉蜀黍)；Fromm等人，(1990)Biotechnology[生物技术]8：833-9(玉蜀黍)；Hooykaas-Van Slogteren等人，(1984)Nature[自然]311：763-4；美国专利号5,736,369(谷类)；Bytebier等人，(1987)Proc.Natl.Acad.Sci.USA[美国科学院院报]84：5345-9(百合科(Liliaceae))；De Wet等人，(1985)在The Experimental Manipulationof Ovule Tissues[胚珠组织的实验操作]中，编辑Chapman等人，(Longman，New York[纽约朗文出版社])，第197-209页(花粉)；Kaeppler等人，(1990)Plant Cell Rep[植物细胞报告]9：415-8)以及Kaeppler等人，(1992)Theor Appl Genet[理论与应用遗传学]84：560-6(晶须介导的转化)；D′Halluin等人，(1992)Plant Cell[植物细胞]4：1495-505(电穿孔)；Li等人，(1993)Plant Cell Rep[植物细胞报告]12：250-5；Christou和Ford(1995)AnnalsBotany[植物学年鉴]75：407-13(稻)以及Osjoda等人，(1996)Nat Biotechnol自然生物技术]14：745-50(经由根癌农杆菌转化的玉蜀黍)。

可替代地，可以通过使细胞或生物体与病毒或病毒核酸接触来将多核苷酸引入细胞中。通常，此类方法涉及将多核苷酸并入病毒DNA或RNA分子内。在一些实例中，可以最初将目的多肽作为病毒多聚蛋白的一部分合成，然后将合成的多肽在体内或在体外通过蛋白水解加工从而产生所希望的重组蛋白。用于将多核苷酸引入植物，并且表达在其中编码的蛋白质(涉及病毒DNA或RNA分子)的方法是已知的，参见例如，美国专利号5,889,191、5,889,190、5,866,785、5,589,367、以及5,316,931。

本文提供的方法依赖于使用细菌介导的和/或生物射弹介导的基因转移以产生可再生的植物细胞。可用在本公开的方法中的细菌株包括但不限于卸甲(disarmed)农杆菌、苍白杆菌属(Ochrobactrum)细菌或根瘤菌科(Rhizobiaceae)细菌。粒子轰击(Finer和McMullen，1991，In Vitro Cell Dev.Biol.-Plant[体内细胞发育生物学-植物]27：175-182)、农杆菌属介导的转化(Jia等人，2015，Int J.Mol.Sci.[国际分子科学杂志]16：18552-18543；US 2017/0121722，通过引用以其整体并入本文)或苍白杆菌属介导的转化(US 2018/0216123，通过引用以其整体并入本文)的标准方案可用于本公开的方法和组合物。

可以使用多种瞬时转化方法，将多核苷酸或重组DNA构建体提供至或引入原核和真核细胞或生物体中。这种瞬时转化法包括但不限于将多核苷酸构建体直接引入植物中。

可以通过任何方法将核酸和蛋白提供给细胞，所述方法包括使用分子来促进受指导的Cas系统(蛋白和/或核酸)的任何或所有组分(例如细胞穿透肽和纳米载剂)的摄取的方法。还参见2011年2月10日公开的US 20110035836和2015年1月7日公开的EP2821486A1。

可以使用将多核苷酸引入原核和真核细胞或生物体或植物部分的其他方法，包括质体转化方法，以及用于将多核苷酸引入来自幼苗或成熟种子的组织中的方法。

“稳定转化”旨在表示经引入生物体中的核苷酸构建体合并到该生物体的基因组中，并且能够被其后代遗传。“瞬时转化”旨在表示将多核苷酸引入该生物体中并且不合并到该生物体的基因组中，或者将多肽引入生物体中。瞬时转化表明所引入的组合物仅在生物体中暂时表达或存在。

可以使用多种方法来鉴定在靶位点处或靶位点附近具有改变的基因组的那些细胞，而不使用可筛选标志物表型。此类方法可被认为是直接分析靶序列以检测靶序列中的任何变化，包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹法、及其任何组合。

细胞与生物体

可以将本文公开的多核苷酸和多肽引入细胞中。细胞包括但不限于人类、非人类、动物、哺乳动物、细菌、原生生物、真菌、昆虫、酵母、非常规酵母和植物细胞，以及通过本文所述的方法产生的植物和种子。在一些方面，生物体的细胞是生殖细胞、体细胞、减数分裂细胞、有丝分裂细胞、干细胞或多能干细胞。来自任何生物体的任何细胞都可以与本文所述的组合物和方法一起使用，包括单子叶植物和双子叶植物以及植物元件。

动物细胞

可以将本文公开的多核苷酸和多肽引入动物细胞中。动物细胞可以包括但不限于：以下门的生物体，所述门包括脊索动物门、节肢动物门、软体动物门、环节动物门、腔肠动物门或棘皮动物门；以下纲的生物体，所述纲包括哺乳动物、昆虫、鸟、两栖动物、爬行动物或鱼。在一些方面，所述动物是人类、小鼠、秀丽隐杆线虫(C.elegans)、大鼠、果蝇(果蝇属物种(Drosophila spp.))、斑马鱼、鸡、狗、猫、豚鼠、仓鼠、鸡、日本稻鱼、海七鳃鳗、河豚、树蛙(例如非洲爪蟾属物种(Xenopus spp.))、猴或黑猩猩。预期的特定细胞类型包括单倍体细胞、二倍体细胞、生殖细胞、神经元、肌肉细胞、内分泌或外分泌细胞、上皮细胞、肌肉细胞、肿瘤细胞、胚胎细胞、造血细胞、骨细胞、种质细胞、体细胞、干细胞、多能干细胞、诱导多能干细胞、祖细胞、减数分裂细胞和有丝分裂细胞。在一些方面，可以使用来自生物体的多个细胞。

本文所述的组合物和方法可用于以各种方式编辑动物细胞的基因组。在一个方面，可能需要缺失一个或多个核苷酸。在另一方面，可能期望插入一个或多个核苷酸。在一个方面，可能期望替换一个或多个核苷酸。在另一方面，可能期望通过与另一原子或分子的共价或非共价相互作用来修饰一个或多个核苷酸。

基因组修饰可用于在靶生物体上实现基因型和/或表型改变。这种改变优选与目的表型或生理学上重要的特征的改善、内源缺陷的校正或某种类型的表达标志物的表达有关。在一些方面，目的表型或生理学上重要的特征与以下有关：动物的整体健康、适应性或能育性、生物体的生态适应性或生物体与环境中其他生物体的关系或相互作用。

使用本文描述的组合物或方法进行了遗传修饰的细胞可以出于诸如基因疗法等目的移植到受试者，例如用于治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂，用于农业中生产遗传修饰的生物体或用于生物学研究。

植物细胞与植物

可以使用的单子叶植物的实例包括但不限于，玉蜀黍(玉蜀黍(Zea mays))、稻(水稻(Oryza sativa))、黑麦(黑麦(Secale cereale))、高粱(双色高粱(Sorghum bicolor)、高粱(Sorghum vulgare))、粟(例如，珍珠粟、御谷(Pennisetum glaucum))、黍稷(粟米(Panicum miliaceum))、谷子(谷子(Setaria italica))、穇子(龙爪稷(Eleusinecoracana))、小麦(小麦属物种，例如小麦(Triticum aestivum)、一粒小麦(Triticummonococcum))、甘蔗(甘蔗属物种(Saccharum spp.))、燕麦(燕麦属(Avena))、大麦(大麦属(Hordeum))、柳枝稷(柳枝黍(Panicum virgatum))、菠萝(菠萝(Ananas comosus))、香蕉(香蕉属物种(Musa spp.))、棕榈、观赏植物、草坪草、以及其他草。

可以使用的双子叶植物的实例包括但不限于大豆(大豆(Glycine max))、芸苔属物种(例如但不限于：油菜或卡诺拉油菜)(欧洲油菜(Brassica napus)和白菜型油菜(B.campestris)、芜菁(Brassica rapa)、芥菜(Brassica.juncea))、苜蓿(紫花苜蓿(Medicago sativa)、烟草(烟草(Nicotiana tabacum))、拟南芥属(Arabidopsis)(拟南芥(A.thaliana))、向日葵(向日葵(Helianthus annuus))、棉花(木本棉(Gossypiumarboreum)、海岛棉(Gossypium barbadense))、和花生(花生(Arachis hypogaea))、番茄(番茄(Solanum lycopersicum))、和马铃薯(马铃薯(Solanum tuberosum))等。

可以使用的另外的植物包括红花(safflower、Carthamus tinctorius)、甘薯(番薯(Ipomoea batatas))，木薯(cassava，Manihot esculenta)，咖啡(咖啡属物种(Coffeaspp.))，椰子(coconut，Cocos nucifera)，柑橘树(柑橘属物种(Citrus spp.))，可可(cocoa，Theobroma cacao)，茶树(tea，Camellia sinensis)，香蕉(芭蕉属物种(Musaspp.))，鳄梨(avocado，Persea americana)，无花果(fig或(Ficus casica))，番石榴(guava，Psidium guajava)，芒果(mango，Mangifera indica)，橄榄(olive，Oleaeuropaea)，木瓜(番木瓜(Caricapapaya))，腰果(cashew，Anacardium occidentale)，澳洲坚果(macadamia，Macadamia integrifolia)，巴旦杏(almond，Prunus amygdalus)，甜菜(sugar beets，Beta vulgaris)，蔬菜，观赏植物和针叶树。

可以使用的蔬菜包括番茄(Lycopersicon esculentum)、莴苣(例如，莴苣(Lactuca sativa))、青豆(菜豆(Phaseolus vulgaris))、利马豆(lima bean，Phaseoluslimensis)、豌豆(香豌豆属物种(Lathyrus spp.))和黄瓜属的成员诸如黄瓜(cucumber，C.sativus)、香瓜(cantaloupe，C.cantalupensis)和甜瓜(musk melon，C.melo)。观赏植物包括杜鹃(杜鹃花属物种(Rhododendron spp.))、八仙花(Macrophylla hydrangea)、朱槿(Hibiscus rosasanensis)、玫瑰(蔷薇属物种(Rosa spp.))、郁金香(郁金香属物种(Tulipa spp.))、水仙(水仙属物种(Narcissus spp.))、矮牵牛(Petunia hybrida)、康乃馨(Dianthus caryophyllus)、一品红(Euphorbia pulcherrima)和菊花。

可以使用的针叶树包括松树，如火炬松(loblolly pine，Pinus taeda)、湿地松(slash pine，Pinus elliotii)、西黄松(ponderosa pine，Pinus ponderosa)、黑松(lodgepole pine，Pinus contorta)和辐射松(Monterey pine，Pinus radiata)；花旗松(Douglasfir，Pseudotsuga menziesii)；西方铁杉(Western hemlock，Tsugacanadensis)；北美云杉(Sitka spruce，Picea glauca)；红杉(redwood，Sequoiasempervirens)；枞树(true firs)，如银杉(胶冷杉(Abies amabilis))和胶枞(香脂冷杉(Abies balsamea))；以及雪松，如西方红雪松(Thujd plicata)和阿拉斯加黄雪松(Chamaecyparis nootkatensis)。

在本公开的某些实施例中，可育植物是产生活雄配子和雌配子并且是自身可育的植物。这样的自体受精的植物可以产生后代植物，而没有来自任何其他植物的配子及其中所含的遗传物质的贡献。本公开的其他实施例可以涉及使用非自身可育的植物，因为该植物不产生有活力的或在其他情况下能够受精的雄配子或雌配子或二者。

本公开可用于包含一个或多个引入性状或经编辑的基因组的植物的育种。

如下描述两个性状如何以彼此之间例如5cM的遗传距离堆叠到基因组中的非限制性实例：将包含整合到基因组窗口内的第一DSB靶位点中且不具有第一目的基因组基因座的第一转基因靶位点的第一植物与第二转基因植物杂交，所述第二转基因植物在基因组窗口内的不同基因组插入位点处包含目的基因组基因座，并且所述第二植物不包含所述第一转基因靶位点。来自该杂交的约5％的植物后代将基因组窗口内具有整合到第一DSB靶位点中的第一转基因靶位点和整合在不同基因组插入位点处的第一目的基因组基因座。在定义的基因组窗口中具有两个位点的后代植物可以进一步与第三转基因植物杂交，所述第三转基因植物在定义的基因组窗口内包含整合到第二DSB靶位点中的第二转基因靶位点、和/或第二目的基因组基因座并且缺乏所述第一转基因靶位点和所述第一目的基因组基因座。然后选择具有在基因组窗口内的不同基因组插入位点处整合的第一转基因靶位点、第一目的基因组基因座和第二目的基因组基因座的后代。这样的方法可用于产生包含复杂性状基因座的植物，所述复杂性状基因座具有至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、19、19、20、21、22、23、24、25、26、27、28、29、30、31或更多个整合到DSB靶位点中的转基因靶位点和/或整合在基因组窗口内的不同位点的目的基因组基因座。以这种方式，可以产生各种复杂性状基因座。

尽管已经参照优选实施例和各种替代实施例明确展示和描述了本发明，但是本领域技术人员应理解，在不脱离本发明的精神和范围的情况下，可以对其在形式和细节上进行各种改变。例如，尽管下面的特定实例可以阐述本文中使用特定植物来描述的方法和实施例，但是这些实例中的原理可以应用于任何植物。因此，应当理解，本发明的范围被本文和说明书中记载的本发明的实施例所涵盖，而不是由以下示例的具体实例所涵盖。出于所有目的，在本申请中提到的所有引用的专利、申请和出版物通过引用以其全部内容结合在此，其程度如同它们各自单独和特别地通过引用结合。

实例

以下是本发明一些方面的具体实施例的实例。提供这些实例仅出于说明目的，而无意以任何方式限制本发明的范围。就使用的数字(例如量、温度等)而言，已努力确保其准确性，但仍应允许有一些实验误差和偏差。

开发了一种新颖构建体设计来测试由CRISPR/Cas9系统产生的双链断裂(DSB)的模板定向修复的功效，其中在单个构建体中使用供体模板的多个拷贝(供体DNA串联体)，每个拷贝任一侧侧翼是CRISPR/Cas9靶标。通过这种“串联体”设计，可以在模板拷贝之间的每个靶标处创建Cas酶生成的DNA DSB。如此生成的游离模板能以多个拷贝用于宿主DNA修复系统。

尽管这些实例使用植物细胞，但可以使用任何细胞，例如但不限于人细胞、鼠细胞、其他哺乳动物细胞、昆虫细胞、其他动物细胞、真菌细胞、原生生物细胞、细菌细胞和古细菌细胞。

实例1：载体构建

引入宿主细胞的载体的三个组分包括Cas内切核酸酶(Cas9用作示例性Cas内切核酸酶；可以使用任何Cas内切核酸酶)、至少一种同源指导RNA和异源DNA分子(其包含用于定向修复双链断裂(DSB)的模板，或用于插入DSB位点的多核苷酸)。

该策略的基本原理旨在在细胞核内的编辑过程中生成更多可用的修复模板/供体分子。独特的方面包括可在细胞内切除的修复模板/供体DNA分子的多个拷贝的克隆的组合。这些多个拷贝在“序列单元”(或“单元”)中以串联连接的重复形式存在。

每个单独的“序列单元”包含异源多核苷酸(用于插入DSB的供体DNA分子，或用于模板定向修复DSB的多核苷酸模板)，其侧翼是与靶多核苷酸切割位点(“靶位点”)处的、指导RNA能够杂交的序列相同的序列，以创建“单元”，该单元按以下顺序包含：靶位点序列、供体/模板序列、靶位点序列。每个序列单元还可以进一步包含能够被Cas内切核酸酶识别的PAM序列，使得能够与随Cas内切核酸酶所提供的一个或多个指导RNA杂交的靶序列在被Cas内切核酸酶识别并结合指导RNA后被切割。

异源多核苷酸可以任选地在侧翼靶位点内被另一组多核苷酸侧接(所述多核苷酸与靶位点的不是切割位点的某些区域(“同源区域”，或“HR”，或“HDR”区域)共享同源性)以创建“单元”，该单元按以下顺序包含：靶位点序列、同源区域、供体/模板序列、同源区域、靶位点序列。

同源区域的长度至少为10个核苷酸，并且与不是靶多核苷酸切割位点的靶多核苷酸区域具有至少80％的序列同一性。侧翼同源区(如果存在)可以彼此相同或彼此不同。

虽然可以通过基因枪或其他方法(例如但不限于农杆菌感染、苍白杆菌感染、真空浸润、病毒感染、电穿孔等)将包含所有组分的较长环状质粒递送至植物组织，但在细胞内切除相同的gRNA后释放较短的游离修复模板可能会提供更多的模板，并且这些可能更容易接近DNA靶位点。

修复模板被合成(侧翼靶序列在5’末端)并克隆到通路(gateway)兼容的入门载体中。其他组分(编码Cas9和gRNA)最初被克隆到入门载体中，最后所有入门载体都被克隆到单个二元载体骨架中。二元克隆通过NGS测序，并在转化前分离并纯化质粒DNA。

实例2：转化、再生和选择

在以下实例中，通过本领域已知的方法转化植物细胞。示例性转化方法包括粒子轰击和农杆菌介导的转化。

稻

将来自两个稻近交系(系A和系B)的种子在75％的乙醇中灭菌2-3分钟，并用水彻底洗涤，并在4％的次氯酸钠中孵育10分钟。然后将种子用水洗涤5次，并在室温下完全干燥。将干燥的种子接种在愈伤组织诱导培养基上，并将平板在28℃下于光照下孵育5-7天。之后，将从水稻种子中获得的增殖的愈伤组织置于渗透培养基中4小时，然后用DNA轰击：金颗粒。

称取足量的金颗粒(金颗粒的数量取决于轰击的数量)，并置于2.0ml的Eppendorf管中。将1ml 100％的乙醇添加到管中，并超声30秒，然后离心1min。将含有金颗粒的沉淀重悬于1ml100％乙醇中，涡旋30秒，并再次离心。将该步骤重复两次，然后将沉淀重悬于1ml无菌水中。将50μl金颗粒悬浮液等分到Eppendorf管中，并储存于4℃下。

将5μg的DNA，50μl的2.5mM CaCl2和20μl的0.1M亚精胺添加到50μl金颗粒悬浮液中；涡旋1-2分钟，并允许混合物沉降5分钟。将管离心2分钟，然后弃去上清液。将沉淀重悬于40μl 100％乙醇中，并通过涡旋轻轻混合，并将5μl样品快速分配到巨载体盘上并完全干燥。

将携带DNA：金颗粒制备物的巨载体盘装载到巨载体盘支架上，并在该盘的顶部放置一个停止屏(stopping screen)。遵循制造商的说明将DNA：金颗粒递送至置于渗透培养基上的组织样品上。轰击后，在32℃下在黑暗中将组织样品保持在相同的渗透培养基中24小时。

轰击后24小时后，将样品传代培养到静息培养基上，并在28℃下在黑暗中保持5天。然后将培养物转移到含有潮霉素作为选择试剂的选择培养基中。在3-4轮选择后，将增殖的，潮霉素抗性的和Zs-Yellow阳性愈伤组织变体传代培养到再生培养基上，然后传代培养到生根培养基和硬化培养基上以获得稳定的品系。将每个独立的品系转移到温室中的单独盆中，并收集样品以进行分子和表型分析。

玉米

将玉米(玉蜀黍(Zea mays L.))栽培品种的穗在20％(v/v)漂白剂(5.25％次氯酸钠)加1滴Tween 20中进行表面灭菌15-20分钟，然后在无菌水中洗涤3次。从穗分离未成熟胚(IE)，并将其置于具有乙酰丁香酮溶液的2ml农杆菌感染培养基中。胚的最佳大小因近交系而异，但是对于用WUS2和ODP2转化，可以使用大范围的未成熟胚大小。抽取溶液并将1ml农杆菌悬浮液添加到胚中，并将管涡旋5-10秒。允许微量离心管在通风橱中静置5分钟。将农杆菌悬浮液和胚倾倒在710I共培养基上。使用无菌刮刀将留在管中的任何胚转移到平板上。抽取农杆菌悬液并将胚置于培养基的轴侧。将平板用

薄膜(防潮柔性塑料，可在比米斯公司，尼纳中心1号4层，邮政信箱669，尼纳，威斯康星州54957(BemisCompany，Inc.，1Neenah Center 4^th floor，PO Box 669，Neenah，WI 54957)中获得)密封并在21℃在黑暗中进行孵育1-3天的共培养。

无需选择即可将胚转移到静息培养基(605T培养基)中。三到七天后，将它们转移到用于事件选择的选择培养基中，或转移到补充有选择剂的成熟培养基(289Q培养基)中。

预期可以例如与苍白杆菌属一起使用其他细菌介导的转化方法。

十六天后，将实例2中产生的具有健康体细胞胚的胚移至再生培养基上。

在一个实例中，用农杆菌处理胚，并在一天后将选择的胚分别移至605T培养基(第一周未选择)，具有含AA的0.1mg/l胺苯磺隆的605T培养基(用AA的早期选择)或具有0.1mg/l胺苯磺隆的605T培养基(不用AA的早期选择)中。对于下一次转移，将选择的胚移至它们各自的成熟培养基上。为了最终转移到生根培养基，移出单个事件的选择的幼苗。对于该实验，从农杆菌感染到温室的总耗时为48天。

在另一个实例中，将胚用农杆菌在液体中处理5分钟，然后在710I培养基上共培养一天。此时，将选择的胚分别转移到605T培养基、具有含AA的0.1mg/l胺苯磺隆的605T培养基或具有0.1mg/l胺苯磺隆的605T培养基上。十二天后，将605T上的胚分开到含0.1mg/l灭草烟的289Q培养基上或含0.5mg/l灭草烟的289Q培养基上。将来自具有含AA的0.1mg/l胺苯磺隆的605T培养基和具有0.1mg/l胺苯磺隆的605T培养基的胚移至289Q(无需进一步选择)。成熟后，将健康的幼苗(事件)转移至生根培养基13158H，其中将选择的事件分别从上述成熟处理中移出。

大豆

对于大豆的粒子轰击的标准方案(Finer和McMullen，1991，In Vitro CellDev.Biol.-Plant[体外细胞发育生物学-植物]27：175-182)、农杆菌介导的转化(Jia等人.，2015，Int J.Mol.Sci.[国际分子科学]16：18552-18543；US 20170121722；通过引用以其全文结合在此)或苍白杆菌属介导的转化(US 20180216123，通过引用以其全文结合在此)可与本公开的方法一起使用。

大豆转化基本上如Paz等人((2006)Plant Cell Rep[植物细胞报告]25：206-213)和美国专利7,473,822所述进行。如Di等人((1996)Plant Cell Rep[植物细胞报告]15：746-750)所述，使用氯气将来自大豆品系的成熟种子表面消毒16小时，所述氯气通过将3.5mL的12N HCl与100mL市售漂白剂(5.25％次氯酸钠)混合而产生。将消毒的种子在室温在无菌蒸馏水中浸泡16小时(在25×100mm培养皿中100粒种子)。

将在含有300μM乙酰丁香酮的感染培养基中进一步含有在OD600＝0.5下的载体PHP70365(SEQID NO：106)悬液的10mL体积的海沃德苍白杆菌H1 NRRL保藏B-67078添加到浸泡的种子中。然后沿着种脐纵向切割种子以分离子叶，并在海沃德苍白杆菌H1 NRRL保藏B-67078悬液中除去种皮、初生芽和胚轴，由此产生半种子外植体。将半种子外植体平面朝下放在具有4mL新鲜的苍白杆菌/感染培养基的深板中，没有子叶重叠。用封口膜(“Parafilm M”VWR目录#52858)密封板，然后超声处理(Sonicator-VWR型号50T)持续30秒。超声处理后，将半种子外植体转移至单层高压灭菌的无菌滤纸(VWR#415/目录#28320-020)上，共培养固体培养基(每个平板18-22个外植体；平面朝下)。用微孔胶带(目录#1530-0，3M，明尼苏达州圣保罗市(St.Paul，MN))将板密封，并在21℃在昏暗的光下(5-10μE/m²/s，白色冷荧光灯)孵育16小时，持续5天。

根据WO 2017040343 A1(2017年3月9日公开)中披露的那些执行再生方法。共培养后，将半粒种子外植体在液体芽诱导(SI)培养基中洗涤一次，然后将外植体在没有选择的情况下在用0.7％琼脂固化的芽诱导培养基上培养。将外植体的基部(即胚轴取出部分的外植体)嵌入培养基中，面朝上。在24℃的Percival生物培养箱中进行芽诱导，光周期为18小时，并且光强度为130-160μE/m²/s。14天后，将外植体转移到含有3mg/L双丙氨膦的新鲜芽诱导培养基中。每两周将半粒种子外植体转移到新鲜培养基中。在芽诱导培养基上培养四周后，将外植体转移至含有5mg/L双丙氨膦的芽伸长(SE)培养基中(表10)。六到十周后，分离伸长的芽(＞1-2cm)并转移到含有1mg/L双丙氨膦的生根培养基中(表10)。

卡诺拉油菜

如以下中所述进行农杆菌介导的转化和再生：(De Block，M.，等人(1989).“Transformation of Brassica napus and Brassica oleracea Using Agrobacteriumtumefaciens and the Expression of the bar and neo Genes in the TransgenicPlants.[使用根癌农杆菌转化甘蓝型油菜和羽衣甘蓝及其bar和neo基因在转基因植物中的表达]”Plant Physiology[植物生理学]91(2)：694-701)。

实例3：稻中双链断裂的HDR

作为一个实例，选择谷在长度3(GL3)基因(基因座ID：Os03g44500)来测试串联体策略。可以使用任何生物体的任何基因组基因座。

GL3(谷粒长度3)编码具有Kelch样重复结构域(OsPPKL1)的Ser/Thr蛋白磷酸酶。一种称为qgl3的稀有等位基因通过在OsPPKL1中第二个Kelch结构域的保守AVLDT基序中天冬氨酸到谷氨酸的转变导致长粒表型。GL3.1-WY3中有两个SNP很重要：天冬氨酸取代为谷氨酸(D364E；1092C-A)和组氨酸取代为酪氨酸(H499Y；1495C-T)。确定了三个近交系(系A、B和C)，它们包含第二个SNP((H499Y；1495C-T)。设计了一种策略来编辑天然GL3.1等位基因以通过“C”取代为“A”(GAC-GAA)将天冬氨酸转化为谷氨酸(D364E；1092C-A)来模拟GL3.1-WY3。具有3个SNP的240bp修复模板-将SNP编辑为天冬氨酸至谷氨酸(GAC至GAA)、编辑1T至A(Ala)和编辑2A至G(Thr)，用于供体异质性。每个修复模板由以下组成：240bp供体/模板，其侧翼是靶位点指导物靶标，以在体内释放单个片段。

在GL3基因中设计了单核苷酸编辑来替代一个氨基酸。在不改变编码模式(密码子简并性)的情况下修饰了覆盖gRNA靶的种子序列的两个另外碱基，以在HDR产物中产生异质性，从而使产物在HDR过程后保持稳定。

该实验的目的是提高使用Cas9/gRNA技术生成的DSB同源性定向修复(HDR)的效率和/或频率。它可用于测试SDN2(双链断裂位点的模板定向修复)和SDN3(异源多核苷酸在双链断裂位点的整合)中的增强效率。图2和图3描绘了一般载体设计。

稻愈伤组织如上所述进行转化，其中使用构建体#1(对于串联体修复模板)、构建体#2(对于具有一个侧翼同源区域的单拷贝修复模板)或构建体#3(对于具有两个侧翼同源区的单拷贝修复模板)，分别如图4、5和6所示。

构建体的序列包括表1中描述的序列。

表1：稻实验中使用的序列

具有串联体的构建体包含供体/模板的4个串联重复。“靶位点”是与被Cas内切核酸酶靶向切割的多核苷酸的位点序列相同的DNA序列，其与指导RNA VT结构域序列(在本实例中作为SEQID NO：2提供)杂交。

转化后，修复串联体被一个或多个Cas9/gRNA的复合物切割，释放出游离的单个修复模板单元，其通过提供更多的修复模板来促进HDR的增强，这些修复模板用于修复由相同的一个或多个Cas9/gRNA的复合物产生的基因组DNA双链断裂。在我们的实验中，我们使用单一指导物生成DSB，并使用串联体和单供体修复模板评估HDR事件的频率。DNA构建体通过粒子轰击递送到植物组织。

执行NGS分析以鉴定靶区域中的所有三个编辑并确认完全HDR事件(编辑)。编辑在两代-T0和T1中得到确认。

如表2所示，与单拷贝修复模板相比，当使用串联供体/修复模板时，基于HDR的SDN2效率显著提高。HDR效率在系A和系B(都是T0单等位基因的和嵌合的)中分别提高达3.2％和7.7％，而单拷贝修复模板未能产生基于HDR的编辑事件。系C筛选的变体太少，无法产生可靠的结果。

表2：稻CRISPR/Cas构建体的串联供体/模板DNA的HDR效率

表3A显示了被靶向切割的稻GL3基因座的基因组DNA序列，以及创建的SNPS的位置。

表3A：用于DSB修复的稻GL3基因座DNA模板(SNP用粗下划线字体表示).在SNP位置对应的野生型基因座核苷酸如下所示

表3B显示了使用串联体修复模板生成的T0基因组变体。

表3B：稻中串联体产生的变体的靶位点NGS读段

表4显示了稻系A的野生型和SDN2变体的NGS序列比对，其中显示了靶SNP的编辑以及两个另外的核苷酸编辑。

表4：稻系A的SDN2变体

样品	序列
		变体1	AACGGCA
变体2	AACGGCA
		变体3	AACGGCA
系A WT	CACAGCT
		WT参考系	CACAGCT

表5显示了稻系B的野生型和SDN2变体的NGS序列比对，其中显示了靶SNP的编辑以及两个另外的核苷酸编辑。

表5：稻系B的SDN2变体

样品	序列
		变体1	AACGGCA
变体2	AACGGCA
		系B WT	CACAGCT

这些结果表明，通过向DSB位点提供供体DNA片段或模板DNA的多个拷贝作为串联体的一部分，DSB的HDR频率得到提高，串联体在每个供体/模板的任一例被指导RNA(其识别并引导Cas内切核酸酶切割串联体中每个供体/模板单元侧翼的靶位点序列)切割。

实例4：玉米中双链断裂的HDR

该实验的目的是使用散布有gRNA靶位点的供体DNA的多(五)个拷贝来提高SDN2的效率，类似于上述方法。图7A、7B和7C描绘了一般载体设计。

在此实例中，证明在一个玉米靶位点处单个核苷酸的编辑可创建4个SNP。

该实验的目的是使用Cas9/gRNA技术提高同源依赖性修复(HDR)效率。它可用于测试SDN2(双链断裂位点的模板定向修复)和SDN3(异源多核苷酸在双链断裂位点的整合)中的增强效率。图7A、7B和7C描绘了一般载体设计。

使用农杆菌介导的T-DNA递送如上所述转化玉米胚，其中使用构建体#4(供体/模板的单拷贝，具有反向靶位点序列)、构建体#5(供体/模板的单拷贝，具有单向靶位点序列)和构建体#6(具有单向靶位点序列的串联体构建体)，分别如图8、9和10所描绘。

每个载体包含形态发生因子(分别在Axig和PLTP启动子下的WUS和ODP2)、由泛素启动子驱动的cas9、与玉米U6聚合酶III启动子可操作地连接的针对靶位点(TS)序列的gRNA，和在泛素启动子的调控下的选择性标志物基因-新霉素磷酸转移酶II(NptII)。

构建体的序列包括表6中描述的序列。

表6：玉米实验中使用的序列

具有串联体的构建体包含供体/模板的5个串联重复。“靶位点”是与被Cas内切核酸酶靶向切割的多核苷酸的靶位点序列相同的DNA序列，其与指导RNA VT结构域序列(在本实例中作为SEQID NO：47提供)杂交。

转化后，修复串联体被一个或多个Cas9/gRNA的复合物切割，释放出游离的单个修复模板单元，其通过提供更多的修复模板来促进HDR的增强，这些修复模板用于修复由相同的一个或多个Cas9/gRNA的复合物产生的基因组DNA双链断裂。

执行NGS分析以鉴定靶区域中的编辑并确认完全HDR。表7显示了被靶向切割的玉米基因座的基因组DNA序列，以及创建的SNPS的位置。

表7：用于DSB修复的玉米基因座DNA模板(SNP用粗下划线字体表示)，在SNP位置对应的野生型基因座核苷酸如下所示

(对应基因组基因座靶位点中的剪切位点用斜线(/)表示，PAM位点用框表示)

如表8所示，与单拷贝修复模板相比，当使用串联体修复模板作为供体分子时，模板定向修复效率显著提高(增加了一倍以上)。没有可归因于靶位点序列取向的显著差异。

表8：串联体供体/模板DNA的玉米实验结果

这些实例表明，当模板或供体DNA分子在串联体中以多拷贝形式存在时，靶多核苷酸中双链断裂的同源重组/同源定向修复的频率增加，其中每个拷贝的侧翼是与靶位点具有同源性并能够与指导RNA杂交的序列，该指导RNA与Cas内切核酸酶形成复合物以实现供体/模板的切割和释放。

实例5：更高的模板拷贝数以及更长的模板可改善HDR结果

进行进一步的实验以研究农杆菌介导的载体转化的结果，其中与200nt供体的单个拷贝的对照相比，使用了模板的多个拷贝(图11B)或更长的模板(图11C)。在所有情况下，供体多核苷酸的侧翼是与靶位点同源的区域。该实验在大量胚中进行，以验证统计分析。

如表9所示，增加模板数量会使SDN2频率增加两倍。更长的供体DNA片段使SDN2频率增加了50％。此外，更长的DNA产生更高频率的完整编辑(更少的嵌合植物，更好的传递)。

表9：串联体供体/模板DNA的玉米实验结果

Claims

1.一种改变靶多核苷酸的方法，该方法包括：

(a)向该靶多核苷酸提供：

(i)Cas内切核酸酶，

(ii)与该Cas内切核酸酶形成复合物以在该靶多核苷酸中产生双链断裂的指导RNA分子，以及

(iii)多个序列单元，其中每个序列单元包含异源多核苷酸，其中每个序列单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与(a)(ii)的指导RNA杂交；

(b)用(a)(ii)的复合物切割(a)(iii)的多个序列单元，释放该异源多核苷酸；

(c)与提供(a)(iii)的多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合。

2.如权利要求1所述的方法，其中该异源多核苷酸是插入该双链断裂的供体DNA分子。

3.如权利要求1所述的方法，其中该异源多核苷酸是引导该双链断裂的修复的模板DNA分子。

4.如权利要求1所述的方法，其中每个异源多核苷酸的侧翼是一组第二侧翼序列，该组中的每个第二侧翼序列的长度是至少10个核苷酸并且与该靶多核苷酸附近的序列具有至少80％同一性，并且其中该组第二侧翼序列的侧翼是该组第一侧翼序列。

5.如权利要求1所述的方法，其中在(a)(ii)中提供了多个不同的指导RNA分子，并且其中(a)(iii)的第一侧翼序列能够与该多个不同的指导RNA分子杂交。

6.如权利要求1所述的方法，其中该靶多核苷酸位于细胞中。

7.如权利要求6所述的方法，其中该细胞是植物细胞。

8.如权利要求1所述的方法，其中该多个序列单元被稳定地整合到该植物细胞中。

9.如权利要求1所述的方法，其中该指导RNA分子通过粒子轰击提供。

10.如权利要求1所述的方法，其中该Cas内切核酸酶和指导RNA作为核糖核蛋白复合物提供。

11.如权利要求1所述的方法，其中该靶多核苷酸的该双链断裂位点处的同源重组修复频率大于同一位点处的非同源末端连接修复率。

12.一种改变植物表型性状的方法，该方法包括：

(a)向植物细胞提供一组分子，该组分子包含：

(i)Cas内切核酸酶，

(ii)与该Cas内切核酸酶形成复合物以在该植物细胞中的靶多核苷酸中产生双链断裂的指导RNA分子，以及

(iii)多个序列单元，每个序列单元包含异源多核苷酸，其中每个单元的侧翼是一组第一侧翼序列，该组中的每个第一侧翼序列能够与(a)(ii)的指导RNA杂交；

(c)与提供(a)(iii)的多个序列单元之前的该靶多核苷酸的序列相比鉴定该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰，或前述的任何组合；并且

(d)由该植物细胞获得植物；

其中与未提供(a)的该组分子的同系植物相比，该植物包含至少一种表型性状的改变。

13.如权利要求12所述的方法，其中每个异源多核苷酸的侧翼是一组第二侧翼序列，该组中的每个第二侧翼序列的长度是至少10个核苷酸并且与该靶位点附近的序列具有至少80％同一性，并且其中该组第二侧翼序列的侧翼是该组第一侧翼序列。

14.如权利要求1或权利要求12所述的方法，其中该细胞是单子叶植物细胞。

15.如权利要求13所述的方法，其中该单子叶植物细胞选自由以下组成的组：玉米、稻、高粱、大麦和小麦。

16.如权利要求1或权利要求12所述的方法，其中该细胞是双子叶植物细胞。

17.如权利要求16所述的方法，其中该双子叶植物细胞选自由以下组成的组：大豆、卡诺拉油菜、棉花、甘蔗和拟南芥。

18.如权利要求12所述的方法，其中该表型性状是平均产率。

19.如权利要求12所述的方法，该方法进一步包括：获得(c)的植物的组织、部分或繁殖元件，其中该组织、部分或繁殖元件包含从其中获得该组织、部分或繁殖元件的植物的该靶多核苷酸的序列的至少一个核苷酸插入、缺失、取代或修饰或前述的任何。

20.一种从如权利要求19所述的方法获得或衍生的后代植物，其中该后代植物包含所述核苷酸插入、缺失、取代、修饰或前述的任何组合。