CN117441021A

CN117441021A - 用于改变蛋白积聚的方法和组合物

Info

Publication number: CN117441021A
Application number: CN202280041041.8A
Authority: CN
Inventors: K·德克; B·冈塔雷克; N·伊夫勒瓦; 李宏; M·玛伦戈; E·纳吉; B·奥布里恩; 齐群刚; G·塔拉米诺
Original assignee: Monsanto Technology LLC
Current assignee: Monsanto Technology LLC
Priority date: 2021-06-11
Filing date: 2022-06-09
Publication date: 2024-01-23
Also published as: AU2022288080A1; WO2022261348A1; CL2023003657A1; US20220403401A1; AU2022288080A9; BR112023025520A2; EP4352235A1; CA3222601A1

Abstract

Kozak序列是在真核mRNA转录物中作为蛋白翻译起始位点的核酸基序。还已知Kozak序列参与识别正确的AUG起始密码子以起始翻译。本发明提供了可用于调控真核细胞中蛋白表达的组合物和方法。本发明还提供了包含缺失的或优化的Kozak序列的转基因植物、经编辑的植物细胞、植物部分和种子，及其使用方法。

Description

用于改变蛋白积聚的方法和组合物

相关申请的交叉引用

本申请要求于2021年6月11日提交的美国临时申请号63/209,836的权益。该临时申请的全部内容通过引用并入本文。

序列表的并入

本申请包含以ASCII格式电子提交的序列表，其通过引用整体并入本文。创建于2022年6月9日的所述ASCII副本命名为P345055WO00_SL.txt，并且在Microsoft中测得的大小为86,016字节。

技术领域

本公开涉及与使用基因组编辑来改变蛋白表达水平相关的组合物和方法。

背景技术

Kozak序列是在真核mRNA转录物中作为蛋白翻译起始位点的核酸基序。Kozak序列调节翻译起始的特异性和效率。Kozak序列还介导核糖体在信使RNA(mRNA)转录物上的募集和组装。还已知Kozak序列参与识别正确的AUG起始密码子以起始翻译。

共有Kozak序列在不同物种中有差异，但通常包含在AUG起始密码子上游和下游约5-8个核苷酸内。共有Kozak序列内的核苷酸存在若干特征化的保守位置效应，其可影响翻译的总体强度。相对于AUG起始密码子中的A核苷酸(称为+1位)，如果Kozak序列的+4、-1、-2和-3位与针对该物种的共有Kozak序列匹配，则将其分类为具有强mRNA翻译效率。如果仅Kozak序列的-3和+4位之一与针对该物种的共有Kozak序列匹配，则将其分类为具有中mRNA翻译效率。如果Kozak序列的-3和+4位都与针对该物种的共有Kozak序列不匹配，则将其分类为具有弱mRNA翻译效率。

在此，申请人提供了用于改变靶基因的蛋白表达水平而不改变天然基因表达的组织特异性、发育调节和环境调节的新方法和组合物。

附图说明

图1包括图(A)和(B)。(A)分析99个高RNA、高核糖体保护玉米基因得到的Kozak共有序列(上图)和序列标志(下图)。(B)分析99个高RNA、高核糖体保护拟南芥基因得到的Kozak共有序列(上图)和序列标志(下图)。共有序列下方的数字表示核苷酸相对于起始密码子“ATG”的位置，其中起始密码子的“A”核苷酸描绘为+1。

图2.说明保守Kozak序列特征相对于玉米共有序列的位置(箭头)的示意图。“R”意指腺嘌呤(A)或鸟嘌呤(G)。共有序列下方的数字表示核苷酸相对于起始密码子“ATG”的位置，其中起始密码子的“A”核苷酸描绘为+1。

图3.说明保守Kozak序列特征相对于Dicot保守Kozak共有序列的位置(箭头)的示意图。“R”意指腺嘌呤(A)或鸟嘌呤(G)。共有序列下方的数字表示核苷酸相对于起始密码子“ATG”的位置，其中起始密码子的“A”核苷酸描绘为+1。

图4.5个玉米(Zea mays，Zm)和2个大豆(Glycine max，Gm)基因的Kozak序列周围区域的基因组序列的示意图。包含-3至+4位(对于Zm)和-4至+5位(对于Gm)的核心Kozak共有序列以粗体显示。指出了强度分类(强、中、弱)。在每种野生型(WT)Kozak序列下，列出了两种推定的编辑序列(Ed)，它们将WT Kozak序列转化为具有可替代的强度分类的Kozak。阴影核苷酸表示相对于WT序列的点突变。弯曲箭头表示起始密码子。

图5包括图(A)和(B)。通过在CRISPR靶位点插入或缺失可实现的Kozak序列的靶向突变的示意图。(A)显示了通过在-3位缺失‘C’(阴影)，ZmRad54的野生型(WT)弱Kozak序列转化为中Kozak序列，从而将侧翼‘G’滑入-3位。(B)通过4-bp‘AAAG’缺失(阴影)，将GmLOX基因的WT中Kozak序列转化为弱Kozak序列。核心Kozak序列以粗体显示。Fn-或LbCas12a的PAM位点以斜体显示。箭头指示Cas12a gRNA靶位点。弯曲箭头表示起始密码子。实心三角形表示缺失。

图6包括图(A)和(B)。含有编码目的蛋白的基因部分的Kozak的天然序列与用碱基编辑以改变mRNA翻译效率的可获得的修饰的Kozak序列的实例的比对。(A)ZmKu70的天然强Kozak序列与用胞嘧啶碱基编辑(CBE)可实现的工程化弱Kozak序列的实例的比对。图(i)或(ii)中所示的C到T的改变(阴影)中的任一个将产生中Kozak，而两个都改变将产生弱Kozak序列。(B)将大豆的αSNAP的中天然Kozak序列与用腺苷碱基编辑(ABE)将如所示的一个或多个‘A’变为‘G’(阴影)可实现的工程化的弱Kozak序列的实例的比对。改变可以由(i)LbCas12a或(ii)LbCas12-RR介导。核心Kozak序列以粗体显示。PAM位点以斜体显示。箭头指示Cas12a gRNA靶位点。箭头指示起始密码子。方框代表靶位点的8-14bp区域，其为本领域已知的Cas12a碱基编辑最容易接近的。

图7包括图(A)和(B)。含有编码目的蛋白的基因部分的Kozak序列与PEtracrRNA序列的比对，所述PEtracrRNA序列可用于先导编辑以改变Kozak序列的核糖体结合特性。(A)PEtracrRNA设计的两个实例可用于先导编辑以将玉米的ZmBM3基因的野生型强Kozak序列(ZmBM3_WT_强)转化为中(ZmBM3_Ed_Adeq)或弱(ZmBM3_Ed_弱)Kozak序列。阴影区域是通过先导编辑插入到Cas9切口位点中的7-bp添加，其代表新的Kozak序列。(B)用于先导编辑的PEtracrRNA设计的实例可用于将大豆的αSNAP基因的中Kozak序列(GmaSNAP_WT_Adeq)转化为强Kozak序列(GmaSNAP_WT_强)。阴影区域是通过先导编辑插入Cas9切口位点的2-bp添加，其代表新的Kozak序列。核心Kozak序列以粗体显示。PAM位点以斜体显示。箭头指示Cas9gRNA靶位点。箭头指示起始密码子。PEtracrRNA中的小写字母核苷酸表示来自Cas9tracrRNA的核苷酸。PEtracrRNA中的大写字母核苷酸表示独特的3’延伸。

图8包括图(A)、(B)、(C)和(D)。表5中描述了(A)目标蛋白1、(B)目标蛋白2、(C)目标蛋白3和(D)目标蛋白4的代表性的大约前60个氨基酸的氨基末端比对。N-末端修饰用阴影表示。POI 1-1、POI 2-1、POI 3-1和POI 4-1是天然/初始蛋白序列。

图9包括图(A)、(B)、(C)和(D)。Kozak和(A)POI 1、(B)POI 2、(C)POI 3和(D)POI 4的N-末端变体在原生质体中的蛋白积聚的图示。柱高度和误差条代表平均值±标准差。每个目标蛋白图内的不同字母代表具有显著不同蛋白表达的Kozak/N-末端修饰的间隔(α＝0.05，用Satterthwaite方法进行III型方差分析后的Tukey家族错误控制)。多个字母表示重叠的间隔。

图10包括图(A)、(B)、(C)和(D)。原生质体中(A)POI1、(B)POI2、(C)POI3和(D)POI4的Kozak和N-末端变体在log2空间中显示的标准化RNA积聚的图示。柱高度和误差条代表平均值±标准差。每个目标蛋白图内的不同字母代表具有显著不同蛋白表达的Kozak/N-末端修饰的间隔(α＝0.05，用Satterthwaite方法进行III型方差分析后的Tukey家族误差控制)。多个字母表示重叠的间隔。

图11包括图(A)和(B)。在稳定转化的F1玉米植物中从(A)POI 1和(B)POI 3的Kozak和N-末端变体测量的蛋白积聚的图示。每个目标蛋白图内的不同字母代表具有显著不同蛋白表达的Kozak/N-末端修饰的间隔(α＝0.05，Tukey家族误差控制)。

图12包括图(A)和(B)。在稳定转化的F1玉米植物中(A)POI1和(B)POI3的Kozak和N-末端变体的log2空间中显示的标准化RNA积聚的图示。ANOVA 21.94，p＝0.0000115。柱上的字母通过Tukey对比表示不同的95％置信区间。

图13.13个大豆(Gm)基因的Kozak序列周围的基因组序列的比对。包含-4至+5位的核心Kozak共有序列以粗体显示。显示了天然Kozak序列(强、中、弱)的mRNA翻译效率分类。弯曲箭头表示起始密码子。Part.表示部分。所有序列以5’至3’方向显示。

图14.大豆原生质体中的CRISPR核酸酶和LOC 344中gRNA靶位点的各种组合中，基于DNA的染色体切割速率。用于每种原生质体处理的不同CRISPR试剂的组合参见表10。误差条代表标准偏差。

图15.大豆原生质体中的CRISPR核酸酶、修复模板和靶向LOC 344中TS1的gRNA的各种组合中，基于RNP的染色体切割速率。用于每种原生质体处理的不同CRISPR试剂和对照的组合参见表11。误差条代表标准偏差。*表示p值为0.05

图16.大豆原生质体中的CRISPR核酸酶、修复模板和靶向LOC 344中TS1的gRNA的各种组合中，基于RNP的HDR介导的模板化编辑速率。用于每种原生质体处理的不同CRISPR试剂和对照的组合参见表11。误差条代表标准偏差。*表示p值为0.05。

图17.大豆原生质体中的CRISPR核酸酶、修复模板和靶向LOC 344中TS1的gRNA的各种组合中，基于RNP的SDSA介导的部分模板化编辑速率。用于每种原生质体处理的不同CRISPR试剂和对照的组合参见表11。误差条代表标准偏差。*表示0.05的p值。

发明概述

若干实施方案涉及改变经编辑的真核细胞中的蛋白积聚的方法，所述方法包括在Kozak序列的-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位的一个或多个核苷酸处编辑编码蛋白的核酸分子的Kozak序列以产生包含经编辑的Kozak序列的经编辑的核酸分子，其中与包含参考核酸序列的对照真核细胞内的蛋白积聚相比，包含经编辑的核酸分子的经编辑的真核细胞展现统计学显著的蛋白积聚改变。在一些实施方案中，与对照真核细胞相比，经编辑的真核细胞中的蛋白积聚增加。在一些实施方案中，蛋白积聚增加至少20％。在一些实施方案中，与对照真核细胞相比，经编辑的真核细胞中的蛋白积聚减少。在一些实施方案中，蛋白积聚减少至少20％。在一些实施方案中，蛋白积聚减少至少2倍。在一些实施方案中，所述核酸分子是内源核酸分子。在一些实施方案中，核酸分子是转基因核酸分子。在一些实施方案中，与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚增加。在一些实施方案中，与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚减少。在一些实施方案中，与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚没有统计学显著的差异。在一些实施方案中，真核细胞选自植物细胞、真菌细胞和动物细胞。在一些实施方案中，植物细胞选自双子叶植物细胞和单子叶植物细胞。在一些实施方案中，植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。在一些实施方案中，经编辑的Kozak序列包含选自由SEQ ID NO:1-7、85-89、95和105组成的组的序列。在一些实施方案中，编辑包括使用选自由模板编辑、碱基编辑和先导编辑组成的组的方法。在一些实施方案中，经编辑的Kozak序列是缺失的Kozak序列。在一些实施方案中，蛋白包含一个或多个N-末端氨基酸修饰。在一些实施方案中，蛋白包含一个或多个选自以下组成的组的N-末端氨基酸修饰：丙氨酸；精氨酸；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。在一些实施方案中，-3位的A或G被编辑为C或T。在一些实施方案中，+4位的G被编辑为A、C或T。在一些实施方案中，-1位的C被编辑为A、G或T。在一些实施方案中，-2位的C被编辑为A、G或T。在一些实施方案中，-4位的A被编辑为G、C或T。在一些实施方案中，-3位的A被编辑为G、C或T。在一些实施方案中，-2位的A被编辑为G、C或T。在一些实施方案中，-1位的A被编辑为G、C或T。在一些实施方案中，+4位的G被编辑为A、C或T。在一些实施方案中，+5位的C被编辑为A、G或T。

若干实施方案涉及产生经编辑的植物的方法，所述方法包括：(a)向植物细胞提供编辑酶或编码所述编辑酶的核酸分子；(b)在所述植物细胞中在编码蛋白的核酸分子的Kozak序列中产生编辑以产生经编辑的Kozak序列，其中所述编辑包含在Kozak序列的选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个核苷酸位置中编辑所述Kozak序列；和(c)从所述植物细胞再生经编辑的植物，其中所述经编辑的植物包含经编辑的Kozak序列，并且其中与在相当的条件下生长的对照植物相比，所述经编辑的植物中蛋白积聚改变。在一些实施方案中，编辑酶选自由Cas9核酸酶、Cas12a核酸酶、胞嘧啶碱基编辑器、腺嘌呤碱基编辑器、Cas9缺刻酶和Cas12a缺刻酶组成的组。在一些实施方案中，编辑酶还包含工程化逆转录酶。在一些实施方案中，所述方法还包括使用向导RNA(gRNA)或编码所述gRNA的核酸分子。在一些实施方案中，gRNA是单gRNA(sgRNA)。在一些实施方案中，所述gRNA是分离gRNA。在一些实施方案中，编辑酶和gRNA作为核糖核蛋白复合物提供。在一些实施方案中，所述提供包括选自以下的方法：农杆菌介导的转化、粒子轰击和碳纳米颗粒递送。在一些实施方案中，与对照植物相比，经编辑的植物中蛋白积聚增加。在一些实施方案中，蛋白积聚增加至少20％。在一些实施方案中，与对照植物相比，经编辑的植物中蛋白积聚减少。在一些实施方案中，蛋白积聚减少至少20％。在一些实施方案中，植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。在一些实施方案中，植物细胞是原生质体细胞或愈伤组织细胞。在一些实施方案中，核酸分子是内源核酸分子。在一些实施方案中，核酸分子是转基因核酸分子。在一些实施方案中，经编辑的Kozak序列包含选自由SEQ ID NO:1-7、85-89、95和105组成的组的序列。在一些实施方案中，所述方法还包括产生导致蛋白的一个或多个N-末端氨基酸修饰的编辑。在一些实施方案中，一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。在一些实施方案中，-3位的A或G被编辑为C或T。在一些实施方案中，+4位的G被编辑为A、C或T。在一些实施方案中，-1位的C被编辑为A、G或T。在一些实施方案中，-2位的C被编辑为A、G或T。在一些实施方案中，-4位的A被编辑为G、C或T。在一些实施方案中，-3位的A被编辑为G、C或T。在一些实施方案中，-2位的A被编辑为G、C或T。在一些实施方案中，-1位的A被编辑为G、C或T。在一些实施方案中，+4位的G被编辑为A、C或T。在一些实施方案中，+5位的C被编辑为A、G或T。

若干实施方案涉及先导编辑向导RNA(pegRNA)序列，其中所述pegRNA序列能够将先导编辑器(PE)导向核酸分子的Kozak序列，并且其中所述pegRNA包含与参考Kozak序列相比在Kozak序列的选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置处编辑的模板序列。在一些实施方案中，pegRNA是分离pegRNA。若干实施方案涉及编码pegRNA序列的DNA分子，其中所述pegRNA序列能够将先导编辑器(PE)导向核酸分子的Kozak序列，并且其中所述pegRNA包含与参考Kozak序列相比在Kozak序列的选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置处编辑的模板序列。在一些实施方案中，pegRNA是分离pegRNA。在一些实施方案中，分离pegRNA包含先导编辑tracrRNA(petracrRNA)和crRNA。在一些实施方案中，模板序列包含强Kozak序列。在一些实施方案中，强Kozak序列选自由SEQ ID NO:1、3、5、7、86、95和105组成的组。在一些实施方案中，模板序列包含中Kozak序列。在一些实施方案中，模板序列包含弱Kozak序列。在一些实施方案中，模板序列包含缺失的Kozak序列。在一些实施方案中，缺失的Kozak序列选自由SEQ IDNO:2、4和6组成的组。在一些实施方案中，pegRNA是核糖核蛋白复合物的一部分。在一些实施方案中，所述核糖核蛋白复合物包含(a)Cas9缺刻酶或(b)Cas12a缺刻酶；和(c)工程化逆转录酶。

若干实施方案涉及经编辑的真核细胞，其在编码靶蛋白的核酸分子内包含重组Kozak序列，其中与参考序列相比，所述重组Kozak序列在核苷酸中的独立选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置包含一个或多个突变，其中与对照真核细胞相比，所述经编辑的真核细胞表现出改变的靶蛋白积聚。在一些实施方案中，经编辑的真核细胞是经编辑的植物细胞。在一些实施方案中，植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。在一些实施方案中，重组Kozak序列包含一个或多个-3位的A或G；+4位的G；-1位的C；和-2位的C。在一些实施方案中，重组Kozak序列包含-3位的C或T，和+4位的A、C或T。在一些实施方案中，重组Kozak序列包含一个或多个-3位C或T；+4位的A、C或T；-1位的A、G或T；和-2位的A、G或T。在一些实施方案中，重组Kozak序列包含一个或多个-4位的A；-3位的A；-2位的A；-1位的A；+4位的G；和+5位的C。在一些实施方案中，重组Kozak序列包含一个或多个-4位的C、T或G；-3位的C、T或G；-2位的C、T或G；-1位的C、T或G；+4位的A、C或T；和+5位的A、G或T。在一些实施方案中，重组Kozak序列包含：(a)在-4至-1位的至少两个A；或(b)在-4至-1位的一个A和在+4位的一个G。在一些实施方案中，重组Kozak序列在-4至-1位包含少于两个A并且在+4位不包含G。在一些实施方案中，重组Kozak序列包含选自由SEQID NO:2、4和6组成的组的序列。在一些实施方案中，重组Kozak序列包含选自由SEQ ID NO:1、3、5、7、86、95和105组成的组的序列。

若干实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含选自以下组成的组的序列：a)与SEQ IDNO:1-7、85-89、95和105中任一个具有至少90％序列同一性的序列；和b)包含SEQ ID NO:1-7、85-89、95和105中任一个的序列。在一些实施方案中，所述序列与SEQ ID NO:1-7、85-89、95和105中任一个的DNA序列具有至少95％的序列同一性。在一些实施方案中，所述蛋白赋予植物除草剂耐受性。在一些实施方案中，所述蛋白赋予植物害虫抗性。若干实施方案涉及转基因植物细胞，其包含重组DNA分子，所述重组DNA分子包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含选自由以下组成的组的序列：a)与SEQ ID NO:1-7、85-89、95和105中任一个具有至少90％序列同一性的序列；和b)包含SEQ ID NO:1-7、85-89、95和105中任一个的序列。在一些实施方案中，转基因植物细胞是单子叶植物细胞。在一些实施方案中，转基因植物细胞是双子叶植物细胞。若干实施方案涉及转基因种子，其中所述种子包含重组DNA分子，所述重组DNA分子包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含选自由以下组成的组的序列：a)与SEQ ID NO:1-7、85-89、95和105中任一个具有至少90％序列同一性的序列；和b)包含SEQ ID NO:1-7、85-89、95和105中任一个的序列。

发明详述

除非另外定义，否则使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的相同含义。在以单数形式提供术语的情况下，发明人还预期由所述术语的复数形式描述的本公开的方面。在通过引用并入的参考文献中使用的术语和定义存在差异的情况下，本申请中使用的术语应具有本文给出的定义。所使用的其他技术术语具有其在所使用的技术领域中的普通含义，如由各种领域特定的词典所例示的，例如“美国科学词典”(Editors of the American Heritage Dictionaries，2011，HoughtonMifflin Harcourt，Boston and New York)，“科学和技术术语的McGraw-Hill词典”(6thedition，2002，McGraw-Hill，New York)，或“牛津生物学词典”(6th edition，2008，OxfordUniversity Press,Oxford and New York)。本发明人不意为限于作用的机制或模式。仅出于说明的目的提供对其的参考。

除非另有说明，本公开的实践包括生物化学、化学、分子生物学、微生物学、细胞生物学、植物生物学、基因组学、生物技术和遗传学的常规技术，其在本领域的技术范围内。参见，例如，Green and Sambrook,Molecular Cloning:A Laboratory Manual,4th edition(2012)；Current Protocols In Molecular Biology(F.M.Ausubel,et al.eds.,(1987))；Plant Breeding Methodology(N.F.Jensen,Wiley-Interscience(1988))；the seriesMethods In Enzymology(Academic Press,Inc.):PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames and G.R.Taylor eds.(1995))；Harlow and Lane,eds.(1988)Antibodies,A Laboratory Manual；Animal Cell Culture(R.I.Freshney,ed.(1987))；Recombinant Protein Purification:Principles And Methods,18-1142-75,GEHealthcare Life Sciences；C.N.Stewart,A.Touraev,V.Citovsky,T.Tzfira eds.(2011)Plant Transformation Technologies(Wiley-Blackwell)；and R.H.Smith(2013)PlantTissue Culture:Techniques and Experiments(Academic Press,Inc.)。

本文引用的任何参考文献，包括例如所有专利、公开的专利申请和非专利出版物，通过引用整体并入本文。

当替代分组出现时，构成替代分组的成员的任何和所有组合都被明确预期。例如，如果项目选自由A、B、C和D组成的组，则本发明人明确预期每个单独的替代方案(例如，单独的A，单独的B等)，以及组合，诸如A、B和D；A和C；B和C；等。

如本文所用，单数和单数形式的术语例如“一个”，“一种”和“所述”包括复数指示物，除非本文内容另有清楚的指明。

本文提供的任何组合物、核酸分子、多肽、细胞、植物等被明确预期用于本文提供的任何方法。

“同一性百分比”或“同一性％”是指两个最佳比对的DNA或蛋白片段在组分(例如核苷酸序列或氨基酸序列)的比对窗口中不变的程度。测试序列和参考序列的比对片段的“同一性分数”是两个比对片段的序列共有的相同组分的数目除以比对窗口内参考片段中序列组分的总数，比对窗口是完整测试序列或完整参考序列中较小的一个。

“植物”是指整个植物的任何部分，或来源于植物的细胞或组织培养物，其包含以下中的任一个：完整植物、植物组分或器官(例如叶、茎、根等)、植物组织、种子、植物细胞和/或其后代。植物细胞是植物的生物细胞，取自植物或从取自植物的细胞培养物获得。

本文所用的“启动子”是指位于基因的开放阅读框(或蛋白编码区)的翻译起始密码子上游或5’的核酸序列，其参与RNA聚合酶I、II或III和其它蛋白(反式作用转录因子)的识别和结合以起始转录。“植物启动子”是在植物细胞中有功能的天然或非天然启动子。组成型启动子在植物发育过程中在植物的大部分或所有组织中起作用。组织、器官或细胞特异性启动子分别仅在或主要在特定组织、器官或细胞类型中表达。启动子不是在给定的组织、植物部分或细胞类型中“特异性地”表达，而是与植物的其它部分相比，在植物的一种细胞类型、组织或植物部分中显示“增强的”表达，更高水平的表达。时间调节的启动子仅在或主要在植物发育的某些时期或在一天的某些时间起作用，例如在昼夜节律相关基因的情况下。诱导型启动子响应于内源性或外源性刺激(例如通过化学化合物(化学诱导剂))的存在或响应于环境、激素、化学和/或发育信号而选择性地表达可操作地连接的DNA序列。

关于核酸或多肽的“重组”是指材料(例如重组核酸、基因、多核苷酸、多肽等)已经通过人为干预而改变。术语重组也可以指含有重组材料的生物体，例如，含有重组核酸的植物被认为是重组植物。

如本文所用，术语“序列同一性”是指两个最佳比对的多核苷酸序列或两个最佳比对的多肽序列相同的程度。通过人工比对两个序列(例如参考序列和另一个序列)产生最佳序列比对，以使序列比对中具有适当内部核苷酸插入、缺失或缺口的核苷酸匹配数目最大化。

如本文所用，术语“序列同一性百分比”或“同一性百分比”或“同一性％”是同一性分数乘以100。与参考序列最佳比对的序列的“同一性分数”是最佳比对中核苷酸匹配的数目除以参考序列中核苷酸的总数，例如整个参考序列的全长中核苷酸的总数。因此，本发明的一个实施方案提供了一种DNA分子，当与选自SEQ ID NO:1-7、86-89、95和105的序列最佳比对时，其包含与选自SEQ ID NO:1-7、86-89、95和105的序列具有至少约85％同一性，至少约86％同一性，至少约87％同一性，至少约88％同一性，至少约89％同一性，至少约90％同一性，至少约91％同一性，至少约92％同一性，至少约93％同一性，至少约94％同一性，至少约95％同一性，至少约96％同一性，至少约97％同一性，至少约98％同一性，至少约99％同一性，或至少约100％同一性的序列。

“转基因”是指至少就其在宿主细胞基因组中的位置而言，与宿主细胞异源的可转录DNA分子，和/或在细胞的当前或任何先前传代中人工并入宿主细胞基因组中的可转录DNA分子。

“转基因植物”是指在其细胞内包含异源多核苷酸的植物。在一些实施方案中，异源多核苷酸被稳定地整合到基因组中，使得多核苷酸在连续传代中传递。异源多核苷酸可以单独或作为重组表达盒的一部分整合到基因组中。“转基因的”在本文中用于指任何细胞、细胞系、愈伤组织、组织、植物部分或植物，其基因型已通过异源核酸的存在而改变，包括最初如此改变的那些转基因生物体或细胞，以及由最初转基因生物体或细胞的杂交或无性繁殖产生的那些。本文所用的术语“转基因的”不包括通过常规植物育种方法(例如杂交)或通过天然发生的事件如随机交叉杂交、非重组病毒感染、非重组细菌转化、非重组转座或自发突变而改变基因组(染色体或染色体外)。

如本文所用，“重组DNA分子”是包含在没有人为干预的情况下不会天然一起存在的DNA分子的组合的DNA分子。例如，重组DNA分子可以是由至少两个彼此异源的DNA分子组成的DNA分子、包含与天然存在的DNA序列不同的DNA序列的DNA分子、包含合成DNA序列的DNA分子或通过遗传转化或基因编辑并入宿主细胞DNA中的DNA分子。

本文提供了涉及将任何核酸分子瞬时转化或稳定整合到任何植物或植物细胞中的方法。如本文所用，“植物原位转化”的“稳定整合”或“稳定地整合”是指将DNA转移到靶向细胞或植物的基因组DNA中，其允许靶细胞或植物将转移的DNA传递到转化生物体的下一代。稳定转化需要将转移的DNA整合到转化生物体的生殖细胞中。如本文所用，“瞬时转化的”或“瞬时转化”是指将DNA转移到未转移到转化生物体下一代的细胞中。在一个方面，用本文提供的一种或多种核酸分子稳定转化植物细胞或植物的方法。在另一个方面，用本文提供的一种或多种核酸分子瞬时转化植物细胞或植物的方法。

用重组核酸分子或构建体转化细胞的许多方法是本领域已知的，其可根据本申请的方法使用。根据本发明的方法，可以使用本领域已知的用于转化细胞的任何合适的方法或技术。转化植物的有效方法包括细菌介导的转化，如农杆菌介导的或根瘤菌介导的转化和微粒轰击介导的转化。本领域已知多种方法通过细菌介导的转化或微粒轰击来用转化载体转化外植体，然后培养这些外植体以再生或发育转基因植物。

在一个方面，方法包括通过农杆菌介导的转化向细胞提供核酸分子。在一个方面，方法包括通过聚乙二醇介导的转化向细胞提供核酸分子。在一个方面，方法包括通过基因枪转化向细胞提供核酸分子。在一个方面，方法包括通过脂质体介导的转染向细胞提供核酸分子。在一个方面，方法包括通过病毒转导向细胞提供核酸分子。在一个方面，方法包括通过使用一种或多种递送颗粒向细胞提供核酸分子。在一个方面，方法包括通过显微注射向细胞提供核酸分子。在一个方面，方法包括通过电穿孔向细胞提供核酸分子。

在一个方面，通过选自由以下组成的组的方法向细胞提供核酸分子：农杆菌介导的转化、聚乙二醇介导的转化、基因枪转化、脂质体介导的转染、病毒转导、使用一种或多种递送颗粒、显微注射和电穿孔。

用于转化的其它方法，例如真空渗透、压力、超声处理和碳化硅纤维搅拌，也是本领域已知的，并且预期用于本文提供的任何方法。

转化细胞的方法是本领域普通技术人员熟知的。例如，在美国专利号5,550,318；5,538,880；6,160,208；6,399,861和6,153,812中发现的通过用包被有重组DNA的颗粒进行微粒轰击(例如，基因枪转化)来转化植物细胞的具体说明；以及在美国专利号5,159,135；5,824,877；5,591,616；6,384,301；5,750,871；5,463,174和5,188,958中描述了农杆菌介导的转化，其全部通过引用并入本文。例如Compendium of Transgenic Crop Plants(2009)Blackwell Publishing可发现转化植物的其它方法。本领域技术人员已知的任何合适的方法可用于用本文提供的任何核酸分子转化植物细胞。

脂质转染在例如美国专利号5,049,386、4,946,787和4,897,355中描述；脂质转染试剂是市售的(例如Transfectam^TM和Lipofectin^TM)。适合于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Felgner、WO91/17424、WO 91/16024的那些。递送可以是至细胞(例如体外或离体施用)或靶组织(例如体内施用)。

用于表达核酸分子的一个或多个元件的递送媒介物、载体、颗粒、纳米颗粒、制剂及其组分如WO2014/093622中所使用。在一个方面，向细胞提供核酸分子或蛋白的方法包括通过递送颗粒递送。在一个方面，向植物细胞或植物提供核酸分子的方法包括通过递送囊泡递送。在一个方面，递送囊泡选自由外泌体和脂质体组成的组。在一个方面，向植物细胞或植物提供核酸分子的方法包括通过病毒载体递送。在一个方面，病毒载体选自由腺病毒载体、慢病毒载体和腺相关病毒载体。在另一方面，向植物细胞或植物提供核酸分子的方法包括通过纳米颗粒递送。在一个方面，向植物细胞或植物提供核酸分子的方法包括显微注射。在一个方面，向植物细胞或植物提供核酸分子的方法包括聚阳离子。在一个方面，向植物细胞或植物提供核酸分子的方法包括阳离子寡肽。

在一个方面，递送颗粒选自由外泌体、腺病毒载体、慢病毒载体、腺相关病毒载体、纳米颗粒、聚阳离子和阳离子寡肽组成的组。在一个方面，本文提供的方法包括使用一种或多种递送颗粒。在另一方面，本文提供的方法包括使用两种或更多种递送颗粒。在另一方面，本文提供的方法包括使用三种或更多种递送颗粒。

促进核酸转移到植物细胞中的合适试剂包括增加植物外部渗透性或增加植物细胞对寡核苷酸或多核苷酸渗透性的试剂。这些促进组合物转移到植物细胞中的试剂包括化学试剂或物理试剂或其组合。用于调节的化学试剂包括(a)表面活性剂、(b)有机溶剂、水溶液或有机溶剂的含水混合物、(c)氧化剂、(e)酸、(f)碱、(g)油、(h)酶、或其组合。

可用于调节植物对多核苷酸的渗透的有机溶剂包括DMSO、DMF、吡啶、N-吡咯烷、六甲基磷酰三胺、乙腈、二氧杂环已烷、聚丙二醇，以及其它可与水混溶或将膦酸溶于非水体系的溶剂(如用于合成反应)。可以使用具有或不具有表面活性剂或乳化剂的天然衍生的或合成的油。例如：可以使用植物来源的油、作物油(例如在9th Compendium of HerbicideAdjuvants中列出的那些，其可在www.herbicide.adjuvants.com在线公开获得)，例如：石蜡油、多元醇脂肪酸酯、或具有用酰胺或多胺(如聚乙烯亚胺或N-吡咯烷)修饰的短链分子的油。

可用的表面活性剂的实例包括脂肪酸的钠盐或锂盐(如牛脂或牛脂胺或磷脂)和有机硅表面活性剂。其它可用的表面活性剂包括有机硅氧烷表面活性剂(包括非离子有机硅氧烷表面活性剂)，例如：三硅氧烷乙氧基化物表面活性剂或硅氧烷聚醚共聚物(如聚环氧烷修饰的七甲基三硅氧烷和乙二醇甲基醚的共聚物)(L-77可商购获得)。

可用的物理试剂可包括(a)研磨剂如碳化硅、刚玉、沙子、方解石、浮石、石榴石等，(b)纳米颗粒如碳纳米管或(c)物理力。Kam et.al.(2004)Am.Chem.Soc,126(22):6850-6851、Liu et.al.(2009)Nano Lett,9(3):1007-1010和Khodakovskaya et.al.(2009)ACSNano,3(10):3221-3227公开了碳纳米管。物理力试剂可以包括加热、冷却、施加正压或超声处理。该方法的实施方案可以任选地包括孵育步骤、中和步骤(例如，中和酸、碱或氧化剂，或灭活酶)、漂洗步骤或其组合。本发明的方法可以进一步包括应用由于某些基因的沉默而具有增强效果的其它试剂。例如，当设计多核苷酸以调节提供除草剂抗性的基因时，随后施用除草剂可对除草剂功效具有显著影响。

用于实验室调节植物细胞以使多核苷酸渗透的试剂包括例如应用化学试剂、酶处理、加热或冷却、用正压或负压处理或超声处理。本领域内用于调节植物的试剂包括化学试剂如表面活性剂和盐。

一方面，转化或转染的细胞是植物细胞。用于转化的受体植物细胞或外植体靶包括但不限于种子细胞、果实细胞、叶细胞、愈伤组织细胞、子叶细胞、下胚轴细胞、分生组织细胞、胚细胞、胚乳细胞、根细胞、芽细胞、干细胞、荚细胞、花细胞、花序细胞、茎细胞、梗细胞、蒂细胞、花柱细胞、花座细胞、花瓣细胞、萼片细胞、花粉细胞、花药细胞、丝细胞、子房细胞、胚珠细胞、果皮细胞、韧皮细胞、芽细胞或维管组织细胞。在另一方面，本公开提供植物叶绿体。在进一步的方面，本公开提供表皮细胞、保卫细胞、毛状体细胞、根毛细胞、贮藏根细胞或块茎细胞。在另一方面，本公开提供了原生质体。在另一方面，本公开提供植物愈伤组织细胞。任何可再生可育植物的细胞被认为是用于实践本公开的有用的受体细胞。愈伤组织可以从各种组织来源开始，包括但不限于未成熟胚或胚的部分、幼苗顶端分生组织、小孢子等。能够增殖为愈伤组织的那些细胞可用作转化的受体细胞。用于制备本公开的转基因植物(例如，各种培养基和受体靶细胞，未成熟胚的转化，以及随后的可育转基因植物的再生)的实际转化方法和材料公开于，例如，美国专利6,194,636和6,232,526和美国专利申请2004/0216189，其全部通过引用并入本文。可以对转化的外植体、细胞或组织进行额外的培养步骤，例如如本领域已知的愈伤组织诱导、选择、再生等。根据本领域已知的方法，含有重组DNA插入片段的转化细胞、组织或外植体可以在培养物、塞子或土壤中生长、发育或再生为转基因植物。在一个方面，本公开提供了不是繁殖材料并且不介导植物的天然繁殖的植物细胞。在另一方面，本公开还提供了作为繁殖材料并介导植物的天然繁殖的植物细胞。在另一方面，本公开提供了不能通过光合作用维持自身的植物细胞。在另一方面，本公开内容提供了植物体细胞。与种系细胞相反，体细胞不介导植物繁殖。在一个方面，本公开提供了非繁殖植物细胞。

来自转基因的植物原位蛋白表达受到复杂的调节机制，并且可以通过不同的方法进行操作。通过在翻译起始密码子侧翼引入相关核苷酸来调节翻译效率可用作增强植物原位蛋白积聚的一种方法。Kozak序列是在真核mRNA转录物中起蛋白翻译起始位点作用的核酸基序(KozakM.，1987和1989)。它调节翻译起始的特异性和效率。它介导核糖体在mRNA上的募集和装配，并在正确的AUG起始密码子识别中启动翻译。天然基因的Kozak序列的变化改变了mRNA翻译的效率或强度，直接影响从给定的单个mRNA链产生多少蛋白。Kozak共有序列在物种间略有不同，并且通常包含在ATG起始密码子上游和下游的5-8个碱基对内。在本文所述的实施方案中，起始密码子“ATG”的A核苷酸描绘为+1，其中前面的碱基标记为-1。Kozak序列内的变化影响mRNA翻译。本文中的Kozak序列强度是指起始的有利性，影响mRNA翻译效率和从给定mRNA合成多少蛋白。来自实施例1和2中描述的Kozak序列分析的知识可用于优化转基因的ATG起始密码子周围的核苷酸序列(-9至+6)，以优化Kozak在植物原位所需的翻译效率。

在一个方面，与对照真核细胞相比，优化的Kozak序列增加经编辑的真核细胞中的蛋白积聚。在一个方面，蛋白积聚的增加为至少20％。在一个方面，蛋白积聚的增加为至少30％。在一个方面，蛋白积聚的增加为至少40％。在一个方面，蛋白积聚的增加为至少50％。在一个方面，蛋白积聚的增加为至少60％。在一个方面，蛋白积聚的增加为至少70％。在一个方面，蛋白积聚的增加为至少80％。在一个方面，蛋白积聚增加至少90％。在一个方面，蛋白积聚的增加为至少100％。在一个方面，蛋白积聚的增加为至少200％。在一个方面，蛋白积聚的增加为至少300％。在一个方面，蛋白积聚的增加为至少400％。在一个方面，蛋白积聚的增加为至少500％。在一个方面，蛋白积聚的增加为至少1000％。在一个方面，蛋白积聚的增加为至少1500％。在一个方面，蛋白积聚的增加为至少2000％。

在一个方面，与对照真核细胞相比，优化的Kozak序列减少了经编辑的真核细胞中的蛋白积聚。在一个方面，蛋白积聚减少至少20％。在一个方面，蛋白积聚减少至少30％。在一个方面，蛋白积聚减少至少40％。在一个方面，蛋白积聚减少至少50％。在一个方面，蛋白积聚减少至少60％。在一个方面，蛋白积聚减少至少70％。在一个方面，蛋白积聚减少至少80％。在一个方面，蛋白积聚减少至少90％。在一个方面，蛋白积聚减少至少95％。在一个方面，蛋白积聚减少至少100％。

在一个方面，优化的Kozak序列使经编辑的真核细胞中的蛋白积聚减少2倍。在一个方面，优化的Kozak序列使经编辑的真核细胞中的蛋白积聚减少3倍。在一个方面，优化的Kozak序列使经编辑的真核细胞中的蛋白积聚减少4倍。在一个方面，优化的Kozak序列使经编辑的真核细胞中的蛋白积聚减少5倍。

已知N-末端氨基酸(例如：靶蛋白N末端的2-8个氨基酸)调节蛋白稳定性，从而影响蛋白积聚。例如，对236种高丰度的植物(被子植物)蛋白的计算分析表明，从碱基+4至+12的三个下游密码子(在起始密码子ATG之后)-GCT TCC TCC-和相应的N-末端氨基酸残基(Ala2-Ser3-Ser4)是高度保守的(Sawant et al.，1999，2001)。不受任何理论的束缚，假设ATG起始器的有效核糖体募集涉及植物中+4至+11位和48S起始前复合物之间的相互作用(Sawant et al.，2001)。在236种高度表达的蛋白中(Sawant et al.，2001)，46％具有Met1-Ala2、18％具有Met1-Ala2-Ser3、17％具有Met1-Ala2-X3-Ser4、并且14％具有Met1-Ala2-Ser3-Ser4作为N-末端氨基酸。类似地，其它研究也报道了大多数植物蛋白序列在起始Met之后的第二位对Ala氨基酸的偏好(Shemesh et al.，2010；Joshi et al.，1997；Lukaszewicz et al.，2000)。在真核蛋白中也已经观察到在初始Met之后的第三和第四位对Ser和Leu氨基酸残基的偏好(Shemesh et al.，2010)。优选的氨基酸在进化上稳定的蛋白中的流行可能表明其在基因表达中的作用。因此，在蛋白N-末端优选氨基酸残基的特定位置引入保守核苷酸密码子可提高植物中重组蛋白的蛋白合成效率。

“编辑酶”是指可用于将一个或多个插入、缺失、取代、碱基修饰引入基因组序列中的序列特异性基因组修饰酶。在一些实施方案中，编辑酶可包括但不限于RNA引导的核酸酶编辑系统，诸如CRISPR相关核酸酶。CRISPR核酸酶和它们的同源向导核酸在作为系统在细胞中表达或引入时可以序列特异性方式修饰靶核酸。在一些实施方案中，CRISPR相关核酸酶选自I型CRISPR-Cas系统、II型CRISPR-Cas系统、III型CRISPR-Cas系统、IV型CRISPR-Cas系统、V型CRISPR-Cas系统或VI型CRISPR-Cas系统。CRISPR相关核酸酶的非限制性实例包括Cas1、cas1b、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、cas10、Cas12a(也称为Cpf1)、Csyl、Csy2、Csy3、Cse2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、CsxlO、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、casX，casY和Mad7。编辑酶的其他实例包括巨核酸酶、锌指核酸酶和转录激活剂样效应物核酸酶。在一些实施方案中，编辑酶可包含一个或多个序列特异性核酸结合域(DNA结合结构域)，其可来自例如CRISPR核酸酶效应蛋白(例如Cas9、Cas 12a)、锌指蛋白和/或转录激活剂样效应蛋白(TALE)和修饰DNA的效应结构域。效应结构域的实例包括切割结构域(例如核酸酶)，包括但不限于核酸内切酶(例如Fokl)、脱氨酶(例如胞嘧啶脱氨酶、腺嘌呤脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)、反转录酶、Dna2多肽和/或5’瓣状核酸内切酶(FEN)。在一些实施方案中，编辑酶是CRISPR相关的缺刻酶，例如:Cas9缺刻酶或Cas12a缺刻酶。

在一个实施方案中，编辑酶是Cas12a核酸酶。在一个方面中，本文提供的Cas12a是毛螺菌科细菌(Lachnospiraceae bacterium)Cas12a(LbCas12a)核酸酶。在另一方面，本文提供的Cas12a核酸酶是弗朗西斯氏菌(Francisella novicida)Cas12a(FnCas12a)。

在一些实施方案中，编辑酶是碱基编辑器(BE)。在一些实施方案中，碱基编辑器是基于胞嘧啶的编辑器(CBE)，其将靶向窗口中的C:G对变为T:A对。CBE包含与核酸酶(例如，Cas9、Cas9缺刻酶)融合的脱氨酶蛋白结构域(例如，APOBEC结构域)。此外，CBE可以包括尿嘧啶糖基化酶抑制剂(UGI)结构域，以帮助促进对非胞嘧啶碱基改变的修饰的修复(参见US20210230577)。在一些实施方案中，碱基编辑是基于腺嘌呤的编辑(ABE)，其将靶向窗口中的T:A对变为C:G对。ABE包含与核酸酶(例如，Cas9，Cas9缺刻酶)融合的腺嘌呤脱氨酶(例如：ecTadA)(参见US20210317440，Gaudelli et al.，Nature 551，464-471(2017))。

在一些实施方案中，编辑酶是先导编辑器(PE)。先导编辑是基因组编辑方法，其使用与聚合酶协同工作的核酸可编程DNA结合蛋白(例如：Cas9)将新的遗传信息直接写入特定的DNA位点，其中用专门的先导编辑(PE)向导RNA(“PEgRNA”)编程所述先导编辑系统，所述向导RNA既指定了靶位点又将所需编辑的合成模板化(参见WO2020191248)。在一个实施方案中，术语“先导编辑”是指包含napDNAbp(例如Cas9缺刻酶)和逆转录酶的融合构建体，其能够在pegRNA(或“延伸的向导RNA”)存在下对靶核苷酸序列进行先导编辑。术语“先导编辑器”可指融合蛋白或与pegRNA复合的融合蛋白，和/或进一步与第二链切口sgRNA复合的融合蛋白。在其它实施方案中，“先导编辑器”的逆转录酶组分可以反式提供。

CRISPR相关核酸酶需要另一种非编码核苷酸组分(称为向导核酸或向导RNA)以具有功能活性。当CRISPR效应蛋白和向导RNA形成复合物时，整个系统称为“核糖核蛋白”。本文提供的核糖核蛋白还可以包含额外的核酸或蛋白。

本文提供的向导核酸分子可以是DNA、RNA或DNA和RNA的组合。如本文所用，“向导RNA”或“gRNA”是指识别靶DNA序列并将CRISPR核酸酶指导或“引导”至靶DNA序列的RNA。Cas9的向导RNA由与靶DNA互补的区域(称为crRNA)和结合CRISPR效应蛋白的区域(称为tracrRNA)组成。Cas12a不需要tracrRNA，因此，在一个方面，当使用Cas12a时，gRNA包含crRNA。Cas12a crRNA包含重复序列和与靶序列互补的间隔区序列。“单链向导RNA”(或“sgRNA”)是包含通过接头序列与tracrRNA共价连接的crRNA的RNA分子，其可以表达为单个RNA转录物或分子。向导RNA可以是单个RNA分子(sgRNA)或两个单独的RNA分子(2-段gRNA)。在一些实施方案中，gRNA可以是分离gRNA。在一些实施方案中，gRNA可以是与先导编辑器结合使用并且包含用于逆转录酶的RNA模板(pegRN)的工程化的先导编辑向导RNA(pegRNA)。在一些实施方案中，gRNA是包含先导编辑tracrRNA(petracrRNA)和crRNA的分离pegRNA。

与靶序列相邻的保守原型间隔区相邻基序(PAM)的存在是CRIPSR相关核酸酶切割靶位点的先决条件。对于Cas9，PAM位点位于靶位点的下游，所述靶位点通常具有序列5-NGG-3，但不经常具有NAG。特异性由PAM上游大约12个碱基的“种子序列”提供，其必须在RNA和靶DNA之间匹配。Cas12a的PAM基序在靶位点的上游，并且对于Cas12a正向同源物LbCas12a和AsCas12a(氨基酸球菌属BV3L6 Cas12a)，PAM序列是5-TTTV-3，其中V可以是A、C或G。LbCas12a-RR是LbCas12a的变体，其包含突变G532R/K595R并识别PAM序列5-TYCV-3，其中Y可以是C或T(Gao et al.，2017)。FnCas12a的PAM基序是5-TTV-3。如本文所用，“原型间隔区相邻基序”(PAM)是指紧邻CRISPR复合物的靶序列的上游或下游的2-6个碱基对的DNA序列。

在不受任何特定科学理论限制的情况下，CRISPR核酸酶与向导RNA(gRNA)形成复合物，所述向导RNA与互补靶位点杂交，从而将CRISPR核酸酶引导至靶位点。在II类CRISPR-Cas系统中，CRISPR阵列(包括间隔区)在与识别的侵入性DNA相遇期间转录并且加工成小干扰CRISPR RNA(crRNA)。crRNA包含重复序列和与入侵病原体中的特定原型间隔区序列互补的间隔区序列。可以将间隔区序列设计成与真核基因组中靶位点的靶序列互补。

如本文所用，“靶序列”是指其中需要修饰(例如切割、插入、缺失、取代位点定向整合)的DNA分子的选定序列或区域。靶序列包含靶位点。

如本文所用，“靶位点”是指被CRISPR核酸酶修饰(例如切割)的靶序列的部分。与非靶核酸(例如，非靶ssDNA)或非靶区域相反，靶位点包含与向导核酸或向导RNA的显著互补性。

一方面，靶位点与向导核酸100％互补。另一方面，靶位点与向导核酸99％互补。另一方面，靶位点与向导核酸98％互补。在另一方面，靶位点与向导核酸97％互补。另一方面，靶位点与向导核酸96％互补。另一方面，靶位点与向导核酸95％互补。在另一方面，靶位点与向导核酸94％互补。另一方面，靶位点与向导核酸93％互补。在另一方面，靶位点与向导核酸92％互补。在另一方面，靶位点与向导核酸91％互补。另一方面，靶位点与向导核酸90％互补。在另一方面，靶位点与向导核酸85％互补。另一方面，靶位点与向导核酸80％互补。

一方面，靶位点包含至少一个PAM位点。一方面，靶位点与包含至少一个PAM位点的核酸序列相邻。在另一方面，靶位点在至少一个PAM位点的5个核苷酸内。在另一方面，靶位点在至少一个PAM位点的10个核苷酸内。在另一方面，靶位点在至少一个PAM位点的15个核苷酸内。在另一方面，靶位点在至少一个PAM位点的20个核苷酸内。在另一方面，靶位点在至少一个PAM位点的25个核苷酸内。在另一方面，靶位点在至少一个PAM位点的30个核苷酸内。

一方面，靶位点位于基因DNA内。另一方面，靶位点位于基因内。另一方面，靶位点位于目的基因内。另一方面，靶位点位于基因的启动子内。另一方面，靶位点位于Kozak序列附近。在另一方面，靶位点包含Kozak序列。另一方面，靶位点位于基因的外显子内。另一方面，靶位点位于基因的内含子内。在另一方面，靶位点位于基因的5′-UTR内。另一方面，靶位点位于基因间DNA内。

一方面，靶序列包含基因组DNA。一方面，靶序列位于核基因组内。一方面，靶序列包含染色体DNA。一方面，靶序列包含质粒DNA。一方面，靶序列位于质粒内。一方面，靶序列包括线粒体DNA。一方面，靶序列位于线粒体基因组内。一方面，靶序列包括质体DNA。一方面，靶序列位于质体基因组内。一方面，靶序列包括叶绿体DNA。一方面，靶序列位于叶绿体基因组内。一方面，靶序列位于选自由核基因组、线粒体基因组和质体基因组组成的组的基因组内。

如本文所用，“模板核酸分子”，“修复模板”，“供体模板”是指包含待插入靶DNA分子中的核酸序列的核酸分子。一方面，模板核酸分子包含单链DNA。另一方面，模板核酸分子包含双链DNA。进一步的方面，模板核酸分子包括单链RNA。另一方面，模板核酸分子包括双链RNA。另一方面，模板核酸分子包括DNA和RNA。一方面，当与待编辑的核苷酸序列比较时，模板核酸分子包含至少一个核苷酸修饰。在优选的实施方案中，模板核酸序列包含Kozak序列。一方面，模板核酸分子包含位于所需序列侧翼的一个或两个同源臂，以通过同源重组(HR)和/或同源定向修复(HDR)促进靶向插入事件。

作用于靶向DSB的内源DNA修复驱动模板整合过程。根据修复途径，整合可以通过同源定向修复(HDR)或非同源末端连接(NHEJ)发生(Schmidt et al.，2019；Van Eck，2020)。在HDR中，异源DNA片段的侧翼是染色体和整合DNA之间的同源区。供体和染色体之间的同源重组提供无痕的染色体整合。另一方面，NHEJ不使用或使用非常短的同源物进行修复。NHEJ更有效地愈合DSB，但通常伴随着连接处的点突变。在一些情况下，由HDR起始的整合是由另一臂上的NHEJ完成。这些情况可通过体细胞HDR途径合成依赖性链退火(SDSA)或可能通过各种其它DNA修复机制的组合产生(Schmidt etal.，2019)。

本文所述的方法可用于调节由农学目的基因编码的蛋白积聚。在一些实施方案中，可编辑农学目的基因的天然Kozak序列以赋予强mRNA翻译功效Kozak共有序列的特征。在一些实施方案中，可编辑农学目的基因的天然Kozak序列以赋予中mRNA翻译功效Kozak共有序列的特征的特征。在一些实施方案中，可编辑农学目的基因的天然Kozak序列以赋予弱mRNA翻译功效Kozak共有序列的特征。在一些实施方案中，可编辑农学目的基因的天然Kozak序列以去除强mRNA翻译功效Kozak共有序列的特征。在一些实施方案中，可编辑农学目的基因的天然Kozak序列以去除弱mRNA翻译功效Kozak共有序列的特征。

如本文所用，术语“天然”是指作为内源序列的序列、与内源序列相同的序列或未被编辑的序列。

如本文所用，术语“农学目的基因”是指当在特定植物组织、细胞或细胞类型中表达时赋予所需特性的可转录DNA分子。农学目的基因的产物可以在植物内起作用，以引起对植物形态、生理、生长、发育、产量、谷粒组成、营养特征、疾病或害虫抗性和/或环境或化学耐受性的影响，或者可以在以植物为食的害虫的饮食中作为杀虫剂起作用。有益的农学性状可以包括，例如，但不限于，除草剂耐受性、昆虫控制、改变的产量、疾病抗性、病原体抗性、改变的植物生长和发育、改变的淀粉含量、改变的油含量、改变的脂肪酸含量、改变的蛋白含量、改变的果实成熟、增强的动物和人营养、生物聚合物生产、环境胁迫抗性、药物肽、改善的加工品质、改善的风味、交种子生产效用、改善的纤维生产、增强的碳封存、所需的生物燃料生产。

本领域已知的农学目的基因的实例包括那些除草剂抗性(美国专利号6,803,501；6,448,476；6,248,876；6,225,114；6,107,549；5,866,775；5,804,425；5,633,435和5,463,175)、产率增加(美国专利号USRE38，446；6,716,474；6,663,906；6,476,295；6,441,277；6,423,828；6,399,330；6,372,211；6,235,971；6,222,098和5，716，837)、昆虫控制(美国专利号6,809,078；6,713,063；6,686,452；6,657,046；6,645,497；6,642,030；6,639,054；6,620,988；6,593,293；6,555,655；6,538,109；6,537,756；6,521,442；6,501,009；6,468,523；6,326,351；6,313,378；6,284,949；6,281,016；6,248,536；6,242,241；6,221,649；6,177,615；6,156,573；6,153,814；6,110,464；6,093,695；6,063,756；6,063,597；6,023,013；5,959,091；5,942,664；5,942,658,5,880,275；5,763,245和5，763，241)，真菌疾病抗性(美国专利号6，653，280；6,573,361；6,506,962；6,316,407；6,215,048；5,516,671；5,773,696；6,121,436；6,316,407和6,506,962)、病毒抗性(美国专利号6,617,496；6,608,241；6,015,940；6,013,864；5,850,023和5,304,730)、线虫抗性(美国专利号6,228,992)、细菌疾病抗性(美国专利号5,516,671)、植物生长和发育(美国专利号6,723,897和6,518,488)、淀粉生产(美国专利号6,538,181；6,538,179；6,538,178；5,750,876；6,476,295)、改性油的生产(美国专利号6,444,876；6,426,447和6,380,462)、高油生产(美国专利号6,495,739；5,608,149；6,483,008和6，476，295)、改性脂肪酸含量(美国专利号6,828,475；6,822,141；6,770,465；6,706,950；6,660,849；6,596,538；6,589,767；6,537,750；6,489,461和6,459,018)、高蛋白生产(美国专利号6,380,466)、水果成熟(美国专利号5,512,466)、增强的动物和人营养(美国专利号6，723，837；6,653,530；6,5412,59；5,985,605；和6,171,640)、生物聚合物(美国专利号US RE37，543；6,228,623；和5,958,745和6,946,588)、环境应激抗性(美国专利号6,072,103)，药用肽和可分泌肽(美国专利号6,812,379；6,774,283；6,140,075和6,080,560)、改进的加工特性(美国专利号6,476,295)、改进的可消化性(美国专利号6,531,648)，低棉子糖(美国专利号6,166,292)、工业酶生产(美国专利号5,543,576)、改进的风味(美国专利号6,011,199)、固氮作用(美国专利号5,229,114)，杂交种子生产(美国专利号5，689，041)、纤维生产(美国专利号6,576,18；6,271,443；5,981,834和5,869,720)和生物燃料生产(美国专利号5,998,700)的基因。

具体实施方案

以下实施方案是以说明的方式提供的，并且不旨在限制本发明，除非另有说明。

第一个实施方案涉及改变经编辑的真核细胞中的蛋白积聚的方法，所述方法包括在Kozak序列的-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位(其中ATG起始密码子的“A”核苷酸描绘为+1)的一个或多个核苷酸处编辑编码所述蛋白的核酸分子的Kozak序列，以产生包含经编辑的Kozak序列的经编辑的核酸分子，其中与包含参考核酸序列的对照真核细胞内蛋白积聚相比，包含所述经编辑的核酸分子的经编辑的真核细胞展现出统计学显著的蛋白积聚改变。

第二个实施方案涉及实施方案1的方法，其中与对照真核细胞相比，所述经编辑的真核细胞中的蛋白积聚增加。

第三个实施方案涉及实施方案2的方法，其中蛋白积聚增加至少20％。

第四个实施方案涉及实施方案1的方法，其中与对照真核细胞相比，所述经编辑的真核细胞中的蛋白积聚减少。

第五个实施方案涉及实施方案4的方法，其中蛋白积聚减少至少20％。

第六个实施方案涉及实施方案4的方法，其中蛋白积聚减少至少2倍。

第七个实施方案涉及实施方案1的方法，其中所述核酸分子是内源核酸分子。

第八个实施方案涉及实施方案1的方法，其中所述核酸分子是转基因核酸分子。

第九个实施方案涉及实施方案1的方法，其中与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚增加。

第十个实施方案涉及实施方案1的方法，其中与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚减少。

第十一个实施方案涉及实施方案1的方法，其中与对照真核细胞中从参考序列转录的mRNA的积聚相比，经编辑的真核细胞中从经编辑的核酸分子转录的mRNA的积聚没有统计学显著的差异。

第十二个实施方案涉及实施方案1的方法，其中所述真核细胞选自由植物细胞、真菌细胞和动物细胞组成的组。

第十三个实施方案涉及实施方案12的方法，其中所述植物细胞选自由双子叶植物细胞和单子叶植物细胞组成的组。

第十四个实施方案涉及实施方案12的方法，其中所述植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。

第十五个实施方案涉及实施方案1的方法，其中经编辑的Kozak序列包含选自由SEQ ID NO:1-7、86-89、95和105组成的组的序列。

第十六实施方案涉及实施方案1的方法，其中所述编辑包括使用选自由模板编辑、基本编辑和先导编辑组成的组方法。

第十七个实施方案涉及实施方案1的方法，其中经编辑的Kozak序列是缺失的Kozak序列。

第十八个实施方案涉及实施方案1的方法，其中所述蛋白包含一个或多个N-末端氨基酸修饰。

第十九个实施方案涉及实施方案18的方法，其中所述一个或多个N-末端氨基酸修饰引入由以下组成的组的N-末端序列：丙氨酸，其中丙氨酸由密码子GCG编码；丙氨酸，其中丙氨酸由GCT密码子编码；精氨酸；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

第二十实施方案涉及实施方案1的方法，其中-3位的A或G被编辑成C或T。

第二十一实施方案涉及实施方案1或20的方法，其中+4位的G被编辑成A、C或T。

第二十二实施方案涉及实施方案1、20或21的方法，其中-1位的C被编辑成A、G或T。

第二十三实施方案涉及实施方案1、20、21或22的方法，其中-2位的C被编辑成A、G或T。

第二十四实施方案涉及实施方案1的方法，其中-4位的A被编辑成G、C或T。

第二十五实施方案涉及实施方案1或24的方法，其中-3位的A被编辑成G、C或T。

第二十六实施方案涉及实施方案1、24或25的方法，其中-2位的A被编辑成G、C或T。

第二十七实施方案涉及实施方案1、24、25或26的方法，其中-1位的A被编辑成G、C或T。

第二十八实施方案涉及实施方案1、24、25、26或27的方法，其中+4位的G被编辑成A、C或T。

第二十九实施方案涉及实施方案1、24、25、26、27或28的方法，其中+5位的C被编辑为A、G或T。

第三十个实施方案涉及实施方案1的方法，其中所述真核细胞是单子叶细胞，并且其中-8位的核苷酸被编辑成T。

第三十一实施方案涉及实施方案1或30的方法，其中所述真核细胞是单子叶细胞，并且其中-5位的核苷酸被编辑为A或T。

第三十二个实施方案涉及实施方案1、30或31的方法，其中所述真核细胞是单子叶细胞，并且其中-4位的核苷酸被编辑成T。

第三十三个实施方案涉及实施方案1、30、31或32的方法，其中所述真核细胞是单子叶细胞，并且其中-3位的核苷酸被编辑为T或C。

第三十四个实施方案涉及实施方案1、30、31、32或33的方法，其中所述真核细胞是单子叶细胞，并且其中-2位的核苷酸被编辑为T或G。

第三十五个实施方案涉及实施方案1、30、31、32、33或34的方法，其中所述真核细胞是单子叶细胞，并且其中+4位的核苷酸被编辑为A、T或C。

第三十六个实施方案涉及实施方案1、30、31、32、33、34或35的方法，其中所述真核细胞是单子叶细胞，并且其中所述+5位的核苷酸被编辑为G或T。

第三十七实施方案涉及实施方案1、30、31、32、33、34、35或36的方法，其中所述真核细胞是单子叶细胞，并且其中+6位的核苷酸被编辑为A或T。

第三十八实施方案涉及实施方案1的方法，其中所述真核细胞是双子叶植物细胞，并且其中在-6位的核苷酸被编辑为C、G或T。

第三十九个实施方案涉及实施方案1或38的方法，其中所述真核细胞是双子叶植物细胞，并且其中-4位的核苷酸被编辑为C、G或T。

第四十实施方案涉及实施方案1、38或39的方法，其中所述真核细胞是双子叶植物细胞，并且其中-3位的核苷酸被编辑为C或T。

第四十一实施方案涉及实施方案1、38、39或40的方法，其中所述真核细胞是双子叶植物细胞，并且其中-2位的核苷酸被编辑为G或T。

第四十二个实施方案涉及实施方案1、38、39、40或41的方法，其中所述真核细胞是双子叶植物细胞，并且其中-1位的核苷酸被编辑为C、G或T。

第四十三个实施方案涉及实施方案1、38、39、40、41或42的方法，其中所述真核细胞是双子叶植物细胞，并且其中在+4位的核苷酸被编辑为C、A或T。

第四十四个实施方案涉及实施方案1、38、39、40、41、42或43的方法，其中所述真核细胞是双子叶植物细胞，并且其中+5位的核苷酸被编辑为G、A或T。

第四十五个实施方案涉及实施方案1、38、39、40、41、42、43或44的方法，其中所述真核细胞是双子叶植物细胞，并且其中+6位的核苷酸被编辑为C或A。

第四十六实施方案涉及一种产生经编辑植物的方法，所述方法包括：

向植物细胞提供编辑酶或编码所述编辑酶的核酸分子；

在所述植物细胞中，在编码蛋白的核酸分子的Kozak序列中产生编辑以产生经编辑的Kozak序列，其中所述编辑包括在所述Kozak序列的一个或多个核苷酸位置编辑所述Kozak序列，所述位置选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组；以及

从所述植物细胞再生经编辑的植物，其中所述经编辑的植物包含所述经编辑的Kozak序列，并且其中与在相当的条件下生长的对照植物相比，所述经编辑的植物中的蛋白积聚改变。

第四十七个实施方案涉及实施方案46的方法，其中所述编辑酶选自由Cas9核酸酶、Cas12a核酸酶、胞嘧啶碱基编辑器、腺嘌呤碱基编辑器、Cas9缺刻酶和Cas12a缺刻酶组成的组。

第四十八个实施方案涉及实施方案47的方法，其中所述编辑酶还包含工程化逆转录酶。

第四十九个实施方案涉及实施方案46的方法，其中所述方法还包括使用向导RNA(gRNA)或编码所述gRNA的核酸分子。

第五十实施方案涉及实施方案49的方法，其中所述gRNA是单gRNA(sgRNA)。

第五十一实施方案涉及实施方案49的方法，其中所述gRNA是分离gRNA。

第五十二实施方案涉及实施方案49的方法，其中所述编辑酶和所述gRNA作为核糖核蛋白复合物提供。

第五十三个实施方案涉及实施方案46的方法，其中所述提供包括选自由聚乙二醇介导的原生质体转化、农杆菌介导的转化、粒子轰击和碳纳米颗粒递送组成的组的方法。

第五十四个实施方案涉及实施方案46的方法，其中与对照植物相比，所述经编辑的植物中所述蛋白积聚增加。

第五十五个实施方案涉及实施方案54的方法，其中所述蛋白积聚增加至少20％。

第五十六个实施方案涉及实施方案46的方法，其中与对照植物相比，所述经编辑的植物中所述蛋白积聚减少。

第五十七个实施方案涉及实施方案56的方法，其中蛋白积聚减少至少20％。

第五十八实施方案涉及实施方案46的方法，其中所述植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。

第五十九个实施方案涉及实施方案46的方法，其中所述植物细胞是原生质体细胞或愈伤组织细胞。

第六十实施方案涉及实施方案46的方法，其中所述核酸分子是内源核酸分子。

第六十一实施方案涉及实施方案46的方法，其中所述核酸分子是转基因核酸分子。

第六十二个实施方案涉及实施方案46的方法，其中经编辑的Kozak序列包含选自由SEQ ID NO:1-7、86-89、95和105组成的组的序列。

第六十三个实施方案涉及实施方案46的方法，其中所述方法还包括产生导致所述蛋白的一个或多个N-末端氨基酸修饰的编辑。

第六十四个实施方案涉及实施方案63的方法，其中所述一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：丙氨酸，其中丙氨酸由密码子GCG编码；丙氨酸其中丙氨酸由GCT密码子编码；精氨酸；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

第六十五实施方案涉及实施方案46的方法，其中-3位的A或G被编辑成C或T。

第六十六个实施方案涉及实施方案46或65的方法，其中+4位的G被编辑成A、C或T。

第六十七实施方案涉及实施方案46、65或66的方法，其中-1位的C被编辑成A、G或T。

第六十八个实施方案涉及实施方案46、65、66或67的方法，其中-2位的C被编辑成A、G或T。

第六十九个实施方案涉及实施方案46的方法，其中-4位的A被编辑成G、C或T。

第70实施方案涉及实施方案46或69的方法，其中-3位的A被编辑成G、C或T。

第七十一实施方案涉及实施方案46、69或70的方法，其中-2位的A被编辑成G、C或T。

第72实施方案涉及实施方案46、69、70或71的方法，其中-1位的A被编辑成G、C或T。

第73实施方案涉及实施方案46、69、70、71或72的方法，其中+4位的G被编辑成A、C或T。

第七十四个实施方案涉及实施方案46、69、70、71、72或73的方法，其中+5位的C被编辑为A、G或T。

第七十五个实施方案涉及实施方案46的方法，其中所述植物是单子叶植物并且其中-8位的核苷酸被编辑成T。

第七十六实施方案涉及实施方案46或75的方法，其中所述植物是单子叶植物并且其中-5位的核苷酸被编辑为A或T。

第七十七个实施方案涉及实施方案46、75或76的方法，其中所述植物是单子叶植物并且其中在-4位的核苷酸被编辑成T。

第七十八个实施方案涉及实施方案46、75、76或77的方法，其中所述植物是单子叶植物并且其中在-3位的核苷酸被编辑成T或C。

第七十九个实施方案涉及实施方案46、75、76、77或78的方法，其中所述植物是单子叶植物并且其中-2位的核苷酸被编辑成T或G。

第八十实施方案涉及实施方案46、75、76、77、78或79的方法，其中所述植物是单子叶植物并且其中+4位的核苷酸被编辑为A、T或C。

第八十一个实施方案涉及实施方案46、75、76、77、78、79或80的方法，其中所述植物是单子叶植物并且其中+5位的核苷酸被编辑为G或T。

第八十二个实施方案涉及实施方案46、75、76、77、78、79、80或81的方法，其中所述植物是单子叶植物并且其中+6位的核苷酸被编辑为A或T。

第八十三个实施方案涉及实施方案46的方法，其中所述植物是双子叶植物，并且其中在-6位的核苷酸被编辑为C、G或T。

第八十四个实施方案涉及实施方案46或83的方法，其中所述植物是双子叶植物，并且其中-4位的核苷酸被编辑为C、G或T。

第八十五个实施方案涉及实施方案46、83或84的方法，其中所述植物是双子叶植物，并且其中在-3位的核苷酸被编辑为C或T。

第八十六个实施方案涉及实施方案46、83、84或85的方法，其中所述植物是双子叶植物，并且其中-2位的核苷酸被编辑为G或T。

第八十七个实施方案涉及实施方案46、83、84、85或86的方法，其中所述植物是双子叶植物，并且其中-1位的核苷酸被编辑为C、G或T。

第八十八实施方案涉及实施方案46、83、84、85、86或87的方法，其中所述植物是双子叶植物，并且其中+4位的核苷酸被编辑为C、A或T。

第八十九个实施方案涉及实施方案46、83、84、85、86、87或88的方法，其中所述植物是双子叶植物，并且其中+5位的核苷酸被编辑为G、A或T。

第十九个实施方案涉及实施方案46、83、84、85、86、87、88或89的方法，其中所述植物是双子叶植物，并且其中+6位的核苷酸被编辑为C或A。

第九十一个实施方案涉及先导编辑向导RNA(pegRNA)序列，其中所述pegRNA序列能够将先导编辑器(PE)引导至核酸分子的Kozak序列，并且其中与参考Kozak序列相比，所述pegRNA包含模板序列以在选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置处编辑所述Kozak序列。

第九十二个实施方案涉及实施方案91的pegRNA，其中所述pegRNA是分离pegRNA。

第九十三个实施方案涉及实施方案92的pegRNA，其中所述分离pegRNA包含先导编辑tracrRNA(petracrRNA)和crRNA。

第九十四个实施方案涉及实施方案91的pegRNA，其中所述模板序列包含强Kozak序列。

第九十五个实施方案涉及实施方案94的pegRNA，其中所述强Kozak序列选自由SEQID NO:1、3、5、7、86、95和105组成的组。

第九十六个实施方案涉及实施方案91的pegRNA，其中所述模板序列包含中Kozak序列。

第九十七个实施方案涉及实施方案91的pegRNA，其中所述模板序列包含弱Kozak序列。

第九十八个实施方案涉及实施方案91的pegRNA，其中所述模板序列包含缺失的Kozak序列。

第九十九个实施方案涉及实施方案98的pegRNA，其中所述缺失的Kozak序列选自由SEQ ID NO:2、4和6组成的组。

第一百个实施方案涉及实施方案91的pegRNA，其中所述pegRNA是核糖核蛋白复合物的一部分。

第一百零一个实施方案涉及实施方案100的pegRNA，其中所述核糖核蛋白复合物包含(a)Cas9缺刻酶或(b)Cas12a缺刻酶；和(c)工程化逆转录酶。

第一百零二个实施方案涉及核酸分子，其编码实施方案91的pegRNA。

第一百零三个实施方案涉及经编辑的真核细胞，其包含编码靶蛋白的核酸分子内的重组Kozak序列，其中与参照序列相比，所述所述重组Kozak序列独立地在核苷酸的选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置处包含一个或多个突变，其中与对照真核细胞相比，所述经编辑的真核细胞表现出改变的靶蛋白积聚。

第一百零四个实施方案涉及实施方案103的经编辑的真核细胞，其中所述经编辑的真核细胞是经编辑的植物细胞。

第一百零五个实施方案涉及实施方案104的经编辑的植物细胞，其中所述植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。

第一百零六个实施方案涉及植物或植物部分，其包含实施方案104的经编辑的植物细胞。

第一百零七个实施方案涉及植物产品，其包含实施方案104的经编辑的植物细胞。

第一百零八个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含-3位的一个或多个A或G；+4位的G；-1位的C；和-2位的C。

第一百零九个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含-3位的C或T，和+4位的A、C或T。

第一百一十个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含-3位一个或多个C或T；+4位的A、C或T；-1位的A、G或T；和-2位的A、G或T。

第一百一十一个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含-4位的一个或多个A；-3位的A；-2位的A；-1位的A；+4位的G；和+5位的C。

第一百一十二个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含-4位的一个或多个C、T或G；-3位的C、T或G；-2位的C、T或G；-1位的C、T或G；+4位的A、C或T；和+5位的A、G或T。

第一百一十三个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含：所述重组Kozak序列包含：(a)-4至-1位的至少两个A；或(b)-4至-1位的一个A和+4位的一个G。

第一百一十四个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含：-4至-1位的少于两个A，和+4位没有G。

第一百一十五个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含选自由SEQ ID NO:2、4和6组成的组的序列。

第一百一十六个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含选自由SEQ ID NO:1、3、5、7、86、95和105组成的组的序列。

第一百一十七个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含一个或多个-8位的T，-5位的A或T，-4位的T，-3位的T或C，-2位的T或G，+4位的A、T或C，+5位的G或T，和+6位的A或T。

第一百一十八个实施方案涉及实施方案103的经编辑的真核细胞，其中所述重组Kozak序列包含一个或多个-6位的C、G或T，-4位的C、G或T，-3位的C或T，-2位的G或T，-1位的C、G或T，+4位的C、A或T，+5位的G、A或T，和+6位的C或A。

第一百一十九个实施方案涉及实施方案103-118的经编辑的真核细胞，其中编码所述靶蛋白的所述核酸分子编码所述靶蛋白的一个或多个N-末端氨基酸修饰。

第一百二十个实施方案涉及实施方案119的经编辑的真核细胞，其中所述一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

第一百二十一个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含选自由以下组成的组的序列：a)与SEQ ID NO:1-7、86-89、95和105中任一个具有至少90％序列同一性的序列；和b)包含SEQ ID NO:1-7、86-89、95和105中任一个的序列。

第一百二十二个实施方案涉及实施方案121的重组DNA分子，其中所述序列与SEQID NO:1-7、86-89、95和105中任一个的DNA序列具有至少95％的序列同一性。

第一百二十三个实施方案涉及实施方案121的重组DNA分子，其中所述蛋白赋予植物除草剂耐受性。

第一百二十四个实施方案涉及实施方案121的重组DNA分子，其中所述蛋白赋予植物害虫抗性。

第一百二十五个实施方案涉及转基因植物细胞，其包含实施方案121的重组DNA分子。

第一百二十六个实施方案涉及实施方案125的转基因植物细胞，其中所述转基因植物细胞是单子叶植物细胞。

第一百二十七个实施方案涉及实施方案125的转基因植物细胞，其中所述转基因植物细胞是双子叶植物细胞。

第一百二十八个实施方案涉及转基因种子，其中所述种子包含实施方案121的重组DNA分子。

第一百二十九个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-3位的A或G；+4位的G；-1位的C；和-2位的C。

第一百三十个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-3位的C或T和+4位的A、C或T。

第一百三十一实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-3位的C或T；+4位的A、C或T；-1位的A、G或T；和和-2位的A、G或T。

第一百三十二个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-4位的A；-3位的A；-2位的A；-1位的A；+4位的G；和+5位的C。

第一百三十三个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-4位的C、T或G；-3位的C、T或G；-2位的C、T或G；-1位的C、T或G；+4位的A、C或T；和+5位的A、G或T。

第一百三十四个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含：(a)-4至-1位的至少两个A；或(b)-4至-1位的一个A和+4位的一个G。

第一百三十五个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列在-4至-1位包含少于两个A且+4位不包含G。

第一百三十六个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-8位的T，-5位的A或T，-4位的T，-3位的T或C，-2位的T或G，+4位的A、T或C，+5位的G或T，和+6位的A或T。

第一百三十七个实施方案涉及重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含重组Kozak序列，所述重组Kozak序列包含一个或多个-6位的C、G或T，-4位的C、G或T，-3位的C或T，-2位的G或T，-1位的C、G或T，+4位的C、A或T，+5位的G、A或T，和+6位的C或A。

第一百三十八个实施方案涉及实施方案129-137所述的重组DNA分子，其中编码所述蛋白的核酸分子编码所述蛋白的一个或多个N-末端氨基酸修饰。

第一百三十九个实施方案涉及实施方案138的重组DNA分子，其中所述一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

第一百四十个实施方案涉及实施方案129-139的重组DNA分子，其中所述蛋白赋予植物除草剂耐受性。

第一百四十一个实施方案涉及实施方案129-139的重组DNA分子，其中所述蛋白赋予植物害虫抗性。

第一百四十二个实施方案涉及转基因植物细胞，其包含实施方案129-141的重组DNA分子。

第一百四十三个实施方案涉及实施方案142的转基因植物细胞，其中所述转基因植物细胞是单子叶植物细胞。

第一百四十四个实施方案涉及实施方案142的转基因植物细胞，其中所述转基因植物细胞是双子叶植物细胞。

第一百四十五个实施方案涉及转基因种子，其中所述种子包含实施方案129-141的重组DNA分子。

第一百四十六个实施方案涉及鉴定赋予高翻译效率的Kozak序列的特征的方法，所述方法包括：

测定在真核细胞中表达的一组基因的RNA积聚和核糖体保护水平；

选择表现出高RNA积聚和/或核糖体保护水平的基因；

鉴定所选基因的Kozak序列；

比对所鉴定的Kozak序列；以及

产生Kozak共有序列。

第一百四十七个实施方案涉及实施方案146的方法，其中选择表现出50或更多个片段/千碱基转录物/百万(FPKM)的基因。

第一百四十八个实施方案涉及实施方案146的方法，其中选择表现出25或更多个片段/千碱基转录物/百万(FPKM)的基因。

第一百四十九个实施方案涉及实施方案146的方法，其中至少25个、至少50个、至少75个、至少100个、至少125个、至少150个、至少175个或至少200个基因被选择为表现出高RNA积聚和/或核糖体保护水平。

第一百五十个实施方案涉及实施方案146的方法，其中所述Kozak序列包含-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位的核苷酸，其中ATG起始密码子的“A”核苷酸描绘为+1。

第一百五十一个实施方案涉及实施方案146的方法，其还包括鉴定所选基因的Kozak序列内具有高度保守核苷酸的位置。

第一百五十二个实施方案涉及实施方案146的方法，其还包括鉴定在所选基因的Kozak序列内的位置上表现不佳的核苷酸。

第一百五十三个实施方案涉及鉴定赋予弱翻译效率的Kozak序列的特征的方法，所述方法包括：

选择显示低RNA积聚和/或核糖体保护水平的基因；

鉴定所选基因的Kozak序列；

比对所鉴定的Kozak序列；以及

产生Kozak共有序列。

第一百五十四个实施方案涉及实施方案153的方法，其中选择表现出小于5个片段/千碱基转录物/百万(FPKM)的基因。

第一百五十五个实施方案涉及实施方案153的方法，其中选择表现出小于1个片段/千碱基转录物/百万(FPKM)的基因。

第一百五十六个实施方案涉及实施方案153的方法，其中至少25个、至少50个、至少75个、至少100个、至少125个、至少150个、至少175个或至少200个基因被选择为表现出低RNA积聚和/或核糖体保护水平。

第一百五十七个实施方案涉及实施方案153的方法，其中所述Kozak序列包含-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位的核苷酸，其中ATG起始密码子的“A”核苷酸描绘为+1。

第一百五十八个实施方案涉及实施方案153的方法，其还包括鉴定所选基因的Kozak序列内具有高度保守核苷酸的位置。

第一百五十九个实施方案涉及实施方案153的方法，其还包括鉴定在所选基因的Kozak序列内的位置上表现不佳的核苷酸。

通过参考以下实施例可以更容易地理解本发明，除非另有说明，所述实施例是以举例说明的方式提供的，并且不旨在限制本发明。本领域技术人员应当理解，以下实施例中公开的技术代表本发明人发现的在本发明实践中作用良好的技术。然而，根据本公开内容，本领域技术人员应当理解，在不脱离本发明的精神和范围的情况下，可以对所公开的特定实施例进行许多改变，并且仍然获得相同或相似的结果，因此在附图中阐述或示出的所有内容应被解释为说明性的而不是限制性的。

实施例

实施例1.测定共有Kozak序列

测定共有玉米Kozak序列。Ribo-seq是研究全局翻译的高通量技术(参见Hsu etal.2016))，并且RNA-seq数据是从玉米叶样品产生并用作RiboTaper程序的输入(Calviello et al.2016)。将基因分类为低RNA积聚(5个或更少个片段/千碱基转录物/百万(FPKM))或高RNA积聚(>50FPKM)。在每个RNA积聚类别中，基因按根据RiboTaper计算的每百万可读框(核糖体保护的量度)进行排序。将这些排序中的每个的顶部和底部的约100个基因组装为类。根据RNA积聚和核糖体保护水平对该基因进行分类后，确定每类基因的Kozak序列，然后通过CLC主工作台(NCBI Resource Coordinators，2016；Schneider andStephens，1990；QIAGEN)比对序列标志。每个基因的ATG上游9bp和下游3bp用于Kozak序列比对。(起始密码子“ATG”的A核苷酸标为+1，前一个碱基标为-1)。从具有高mRNA表达和高核糖体保护的99个玉米基因的Kozak序列的比对鉴定了具有高翻译效率的基因的共有序列(SEQ ID NO:1)。参见表1，序列标志如图1A所示。

对‘强’(高翻译效率)Kozak序列的共有序列的进一步分析鉴定了以下特征：与共有G/A匹配的-3位的核苷酸(略优先于G)；与共有序列G匹配的+4位的核苷酸；-1位核苷酸与共有序列C匹配，并且-2位核苷酸与共有序列C匹配。此外，发现‘中’Kozak序列包含与共有序列匹配的-3和/或+4位的核苷酸，而‘弱’Kozak序列包含与共有序列匹配的-3和/或+4位的核苷酸。参见图2。Riboseq数据也用于鉴定在每个位置最不富集的核苷酸，并用于产生“缺失的”Kozak序列。参见表1。不受任何特定理论的束缚，预期包含缺失的Kozak序列通过降低mRNA翻译效率来改变基因表达。

测定共有拟南芥Kozak序列。使用与上述用于玉米相似的工作流程来分析公开的拟南芥(Arabidopsis)(Hsu et al.，2016)Riboseq数据集，除了高RNA积聚被定义为>25FPKM并且低RNA积聚被定义为<1FPKM。鉴定了具有高mRNA表达和核糖体保护的前100个基因，并确定了强Kozak和缺失的Kozak的共有序列(参见表1和图1B)。共有序列的进一步分析确定了‘强’拟南芥Kozak序列的以下特征：-4、-3、-2和-1位的核苷酸包含A；+4位的核苷酸包含G；+5位的核苷酸包含C。此外，‘中’拟南芥Kozak序列在-4至-1位包含至少两个A或在-4至-1位包含一个A和在+4位包含一个G。‘弱’拟南芥Kozak序列在-4至-1位包含少于两个A，并且在+4位没有G。

测定共有番茄Kozak序列。番茄中公开的Riboseq和RNAseq数据用于该分析(Wu etal，2019)。根据表达水平对基因进行分类；高(>25FPKM)、中(1-25FPKM)和低(<1FPKM)。然后根据翻译效率对基因进行分选。选择100个具有高mRNA表达和高翻译效率的番茄基因。每个基因的ATG的上游9bp和下游3bp用于Kozak序列比对。番茄强Kozak和缺失的Kozak的共有序列如表1所示。

表1：植物Kozak共有序列。下划线的核苷酸表示起始密码子。R＝A或G。N＝A、T、G或C。

实施例2.编辑天然Kozak序列以微调蛋白表达

基于实施例1中描述的序列信息，本发明人设计了通过在内源基因的Kozak序列中引入点突变来选择性地修饰mRNA翻译和蛋白积聚的方法。对于所选的玉米蛋白，选择所需的表达策略(例如，所选蛋白的表达的上调或下调)，并鉴定编码所选蛋白的基因的天然Kozak序列。然后将天然Kozak序列与‘强’(高翻译效率)基因的玉米共有序列(SEQ IDNO.1)比对，并通过将天然Kozak序列与鉴定为指示强、中或弱mRNA翻译效率的特征进行比较来确定天然Kozak序列的相对强度(强、中、弱)。参见图2。在天然Kozak序列不包含指示强mRNA翻译效率的特征(例如，-3位的A或G，+4位的G，-1位的C，和-2位的C)并且所选蛋白的积聚增加是所需的情况下，使用基因编辑来引入编辑以将天然序列从“弱”状态改变为“中”或“强”状态，或从“中”状态改变为“强”状态。在Kozak序列包含指示强或中的mRNA翻译效率的特征并且下调所选蛋白是所需的情况下，使用基因编辑将天然序列从“强”状态改变为“中”/“弱”状态，或从“中”改变为“弱”状态(例如，将-3位的A或G改变为C或T，和/或将+4位的G改变为C、T或A，和/或将-1位的C改变为G、T或A，和/或将-2位的C改变为G、T或A)。为了显著下调蛋白表达，可以引入精准突变以将天然Kozak转化为SEQ ID NO.2的‘缺失的’玉米Kozak序列。

通过在内源大豆基因的Kozak序列中引入点突变来实现对大豆植物中mRNA翻译和蛋白积聚的选择性修饰。对于所选大豆蛋白，选择所需的表达策略(例如，所选大豆蛋白表达的上调或下调)，并鉴定编码所选蛋白的基因的天然Kozak序列。然后将天然Kozak序列与‘强’(高翻译效率)双子叶植物基因(SEQ ID NO.3)的共有序列比对，并且通过将天然Kozak序列与鉴定为指示强、中或弱mRNA翻译效率的特征进行比较来确定天然Kozak序列的相对强度(强、中、弱)。参见图3。在天然Kozak序列不包含指示强mRNA翻译效率的特征(例如-4位的A，-3位的A，-2位的A，-1位的A，+4位的G和+5位的C)并且所选蛋白的积聚增加是所需的情况下，使用基因编辑将天然序列从“弱”状态改变为“中”/“强”状态，或从“中”状态改变为“强”状态。在Kozak序列包含指示强或中的mRNA翻译效率的特征并且下调所选大豆蛋白是所需的情况下，使用基因编辑将天然序列从“强”状态改变为“中”或“弱”状态，或从“中”改变为“弱”状态(例如，将-4位的A改变为T、C或G，将-3位的A改变为T、C或G，将-2位的A改变为T、C或G，将-1位的A改变为T，C或G，将+4位的G改变为C、T或A，和/或将+5位的C改变为G、T或A)。为了显著下调大豆蛋白表达，可以引入精准突变以将天然Kozak转化为SEQ ID NO.4的‘缺失的’双子叶植物Kozak序列。

实施例3：编辑玉米和大豆靶基因的Kozak序列

选择5个玉米基因和2个大豆基因来测试Kozak序列的靶向操纵是否导致蛋白表达的改变。玉米的Waxy基因具有可识别的表型，并广泛地在经典和分子遗传学中作为模型基因(参见Shure et al.，1983)。农学上，Waxy玉米表现出比常规玉米更好的饲料增益(参见Camp etal.，2003)。玉米褐色叶中脉(BM3)移码突变体具有降低的木质素含量和由此导致的改善的细胞壁可消化性(参见Jung et al.，2012)。Rad54和Ku70基因参与DNA修复和重组(参见Kragelund et al.，2016；Mazin et al.，2010)。这些基因表达的修饰可提供对细胞中减数分裂重组或其它DNA修复过程的一些控制。Rp1是玉米中抗玉米锈病的串联重复抗病性基因座(参见Smith et al.，2004)。操纵这些基因的表达可以对玉米中的抗病反应提供更多的控制。这些实例中所示的Rp1旁系同源物在玉米基因组中具有两个串联基因组拷贝。与单拷贝基因相比，一次改变不止一个而是两个相关基因的表达对总体表达和表型具有更大的影响。

大豆脂氧合酶(LOX)基因是脂肪酸代谢的关键因素，并且因此对食品和饲料的质量有直接影响(Eskin et al.，1977；Lenis et al.，2010)。大豆的α-SNAP蛋白参与细胞内转运并与大豆胞囊线虫抗性有关(Butler et al.，2019)。与玉米中的Rp1基因相似，α-SNAP在大豆的W82公共参考基因组中具有三个相同的拷贝。操纵多个基因拷贝的Kozak序列可以扩大基因表达的动态范围。这些基因的Kozak序列周围的基因组区域及其预测的mRNA翻译效率(强、中、弱)如表2所示。分析7个基因的Kozak位点周围的基因组序列以鉴定Cas12a和/或Cas9 CRISPR靶位点(参见表3和4)。考虑了三种原型间隔区相邻基序(PAM)识别不同的Cas12a酶：识别PAM序列TTTV的LbCas12a；包含突变G532R/K595R并识别PAM序列5-TYCV的变体LbCas12a-RR和识别PAM序列TTV的FnCas12a。

表2：玉米和大豆靶基因。SEQ ID NO代表包含Kozak序列、5’UTR的区域和包含起始位点的外显子1的区域的靶基因的基因组片段。

表3：5个玉米(Zm)和2个大豆(Gm)基因的Kozak序列处或附近的代表性Cas12aCRISPR靶位点的列表

表4：在玉米和大豆基因的Kozak序列处或附近的代表性Cas9CRISPR靶位点的列表

实施例4：用于递送编辑试剂的分子构建体和植物转化方法

可使用为在宿主植物中表达而优化的DNA表达载体将基因组编辑试剂递送到宿主植物中。基于DNA的分子构建体的递送方法包括但不限于(1)聚乙二醇(PEG)介导的原生质体转化、(2)农杆菌介导的转化、(3)粒子轰击和(4)碳纳米颗粒递送。

在农杆菌介导的植物转化(农杆菌转化)中，对植物病原体根癌农杆菌(Agrobacterium tumefaciens)或根瘤菌(Rhizobium)(以前是毛根农杆菌(Agrobacteriumr hizogenes))的IV型分泌系统进行工程化，使得转化到农杆菌中的外源质粒DNA(T-DNA)最终通过明确的分子机制整合到植物宿主基因组中。由于其对多种物种的广泛适应性和可扩展性，该方法是植物转化中最流行的方法。农杆菌T-DNA载体被设计用于将CRISPR核酸酶系统组分递送至植物细胞。CRISPR核酸酶由单独的表达盒编码，所述表达盒组装在适合用于根癌农杆菌菌株的二元载体中的单个T-DNA分子中。进一步设计T-DNA载体以含有用于产生至少一种合适gRNA的表达盒，所述gRNA与Cas12a或Cas9形成复合物并引导其与植物基因组中的靶位点杂交。在T-DNA载体中还提供了植物选择标记基因的表达盒，例如抗生素抗性或除草剂耐受性，以帮助选择转化的植物细胞。对于需要供体/修复模板的编辑方法(参见实施例5)，可以将供体/修复模板序列整合到表达载体中或单独递送。

选择基因表达调控元件，其包括但不限于启动子、内含子、聚腺苷酸化序列和转录终止序列，以提供T-DNA上每个表达元件的合适表达水平。利用以足够水平和时机表达基因盒的基因表达元件，从而在相同时间和相同组织中以足以产生靶向切割活性的水平提供所有必需组分。可以选择启动子和其它调节元件以提供系统所有组分的组成型基因表达。

Cas12a向导RNA表达盒包含与编码FnCas12a crRNA序列(也称为正向重复序列(SEQ ID NO:70))或LbCas12a正向重复序列(SEQ ID NO:169)的21个核苷酸的DNA序列可操作地连接的植物Pol III启动子；靶向表2描述的7个基因之一的23-25个核苷酸的间隔区DNA序列(玉米的SEQ ID NO:29-49，大豆的SEQ ID NO:51-65)，随后是编码19-核苷酸crRNA的DNA序列(SEQ ID NO:70)和T7终止序列。Cas9 gRNA表达盒包含与靶向表2中描述的靶基因之一的间隔区序列(SEQ ID NO:50、66、67)可操作性地连接的Pol III启动子，所述间隔区序列可操作地连接至编码包含crRNA和tracrRNA的Cas9单向导RNA(sgRNA)(SEQ ID NO:71)序列的76个核苷酸的DNA序列。

编辑组分也可以作为在转化前体外组装的核糖核酸蛋白(RNP)复合物递送。然而，在另一个实施方案中，它们可以作为RNA分子递送。其可以包括效应CRISPR核酸酶蛋白的信使RNA(mRNA)，和与其嵌合连接的crRNA/tracrRNA或sgRNA(可应用于特定实验的任何一个)的非编码RNA。或者，也可以递送单独的mRNA和一种或多种非编码RNA种类的混合物。尽管将Cas12a用作实例，但这些设计也适用于递送本领域已知的大多数其他效应蛋白，包括但不限于Cas9、Cas12b、Cas12k、Cas13；或其用于碱基编辑(BE)、先导编辑(PE)或DNA系链构建体如Cas:HUH或Cas:链霉亲和素的融合衍生物。除了天然Cas效应蛋白之外，还可以根据需要表达识别替代原型间隔区邻近基序(PAM)的氨基酸序列变体。虽然存在本领域已知的许多这样的变体，但实施例7突出了一个具体的实施例：LbCas12a-RR，其携带两个取代：G/R和K/R。相对于经典PAM TTTV，该变体识别PAM TYCV和CCCC(Gao et al.，2017；Zhong et al.，2018)。表3显示了表2中所列的目的基因中的Cas9、Cas12a和Cas12a-RR靶位点的实例。

在原生质体转化中，通过适当的酶混合物(包括纤维素酶、果胶酶和木聚糖酶)除去植物细胞壁。然后，将细胞悬浮于包含目标质粒、PEG和钙阳离子的溶液中。在PEG存在下，钙离子在细胞膜中形成促进质粒摄取的孔。就质粒/细胞比例而言，这种转化方法被认为是最有效的方法之一。在少数植物物种中，可以从转化体原生质体再生整个植物。在其它植物物种中，原生质体转化被认为是在使用备选的稳定的、基于植物的转化方法之前测试异源基因表达的实验模型。

在粒子轰击中，用目的质粒包被的金颗粒以破坏性方式递送到植物组织中。一旦金颗粒浸没到部分损伤的组织中，质粒可以溶解到胞质中。碳纳米颗粒转化是所有这些技术中最新的。化学惰性碳纳米颗粒首先被带正电荷的聚合物如聚乙烯亚胺(PEI)共价包被。然后，将这些静电活性纳米颗粒与带负电荷的DNA、RNA或RNP一起孵育，从而使它们被静电活性纳米颗粒吸收。接下来，这些纳米颗粒复合物通过合适的方法，例如叶渗透或显微注射递送到植物中。

以上列出的任何植物转化策略对于旨在编辑植物中的Kozak序列的实验可以是可行的选择。

实施例5：使用同源定向模板修复编辑Kozak序列

在Kozak序列处或其周围的CRISPR介导的染色体切割可在存在适当模板的情况下触发同源定向修复。这些模板可用于工程化编码目标蛋白的基因的Kozak序列，从而改变蛋白表达。对于每个靶向的Kozak序列，设计在天然Kozak序列的-4、-3、-2、-1、+4和/或+5位包含突变的修复模板，并将所述修复模板用于靶区域处Cas介导的切割后的同源定向修复。

具有针对7个靶基因的优化Kozak序列的可能修复模板的实例如图4所示。所有这些模板以一致的长度和方向显示。然而，它们的长度、链结构(ss/ds)和方向可以根据实验条件而变化。例如，在至少一些真核生物中，ssDNA模板优选与靶位点方向相同。然而，在大豆或玉米中没有完全确定模板方向的偏好。

可将模板并入设计用于农杆菌介导的转化的二元质粒中。在这种情况下，模板将是双链的，而其长度仍然是可变的。当使用PEG转化或粒子轰击时，单链或双链模板是任选的。

实施例6：通过筛选靶位点突变如插入或缺失(indel)编辑Kozak序列

由靶向双链断裂和随后的错误DNA修复引起的单或多核苷酸插入或缺失，如果其影响了Kozak序列的保守核苷酸之一，则其可改变mRNA翻译效率。如果CRISPR内切核酸酶(例如Cas9或Cas12a)的同源靶位点与编码目标蛋白的基因的Kozak序列重叠，使得靶向的双链断裂(以下称为‘切割位点’)与Kozak序列的一个或多个核苷酸一致或位于其侧翼，则筛选经编辑的植物中的indel以鉴定Kozak序列由于indel而被修饰的植物是可行的。

图5A说明了实例，其中ZmRad54的弱天然Kozak序列可以通过鉴定包括在-3位缺失‘C’的编辑而转变为中Kozak序列，从而将侧翼‘G’滑动到相同的位置。类似地，图5B显示了野生型如何将GmLOX基因的中Kozak序列转化为弱Kozak序列，其包含由Fn-或LbCas12a介导的在-4至-1位的4-bp(‘AAAG’)靶向缺失。

实施例7：通过碱基编辑(BE)编辑Kozak序列

胞嘧啶碱基编辑(CBE)由与受损形式的Cas9或Cas12a融合的单链胞苷脱氨酶组成，所述受损形式的Cas9或Cas12a在另一端也与尿嘧啶糖基化酶抑制剂(UGI)的一个(BE3)或两个(BE4)单体连接(Komor et al.，2016和2017)。CBE催化C到T的转化。腺嘌呤碱基编辑(ABE)包括催化腺苷转化成肌苷的脱氧腺苷脱氨酶。通过聚合酶将肌苷读为鸟嘌呤，从而最终将A转化为G(Gaudelli et al.，2017)。由于两种脱氨酶都使用ssDNA作为底物，仅单链R-环的最暴露部分中的核苷酸可用于这种碱基转化。更具体地，对于Cas12aBE，转化速率在PAM下游的8-14bp区域最佳。图6显示了分别使用CBE和ABE如何改变ZmKu70和GmSNAP的Kozak序列的两个实例。在这两种情况下，Kozak序列与相应靶位点的8-14bp区域重叠。

实施例8：通过先导编辑(PE)编辑Kozak序列

先导编辑是可以在CRISPR缺刻酶的切口位点处或附近引入选择的突变的基因组编辑技术(Anzalone et al.，2019)。先导编辑已被描述为“搜索-替换”基因组编辑技术，其介导靶向插入，缺失，所有12种可能的碱基-碱基转换及其组合，而不需要双链断裂(DSB)或供体DNA模板。先导编辑器是CRISPR相关缺刻酶(例如Cas9、Cas12a)和工程化逆转录酶之间的融合蛋白。先导编辑器蛋白通过工程化的先导编辑先导RNA(pegRNA)靶向编辑位点。pegRNA具有双重功能：它们将先导编辑器引导至指定的靶位点并在通常位于pegRNA的3’端的延伸中编码所需的编辑。在靶结合后，CRISPR缺刻酶在含有PAM的DNA链中引入单链断裂。然后，先导编辑器使用新释放的靶DNA位点的3’端，以pegRNA中的延伸作为模板来引发逆转录。成功的引发需要pegRNA中的延伸含有引物结合序列(PBS)，其可以与带切口的靶DNA链的3’端杂交以形成引物-模板复合物。另外，pegRNA含有逆转录模板，其引导经编辑的DNA链合成到靶DNA链的3’端上。逆转录模板含有所需的DNA序列变化，以及与靶位点同源的区域以促进DNA修复。

图7说明了如何通过先导编辑来改变ZmBM3(强Kozak)和GmSNAP(中Kozak)的天然Kozak区域。由于先导编辑可以通过使用单独的crRNA和先导编辑修饰的tracrRNA(petracrRNA)来运作，图7中描述的实施方案使用单独的crRNA和petracrRNA。ZmBM3_Cas9_TS1 crRNA序列如SED ID NO:72所示。SEQ ID NO:73的petracrRNA被设计为将BM3的天然强Kozak(SEQ ID NO:167)转化为中Kozak(SEQ ID NO:83)的模板。SEQ ID NO:74的petracrRNA被设计用于将BM3的天然强Kozak(SEQ ID NO:167)转化为弱Kozak(SEQ ID NO:84)。

天然GmSNAP基因具有中Kozak。GmSNAP_Cas9-TS1 crRNA序列如SEQ ID NO:75所示。petracrRNA(SEQ ID NO:76)被设计用于将GmSNAP的天然中Kozak(SEQ ID NO:85)转化为强Kozak。在另一个实施方案中，嵌合融合的pegRNA用于先导编辑。

实施例9：经编辑的植物的分子表征

用具有实施例4描述的编辑构建体之一的转化载体转化玉米或大豆切除的胚或外植体。作为对照，也转化缺乏gRNA盒的转化载体。将转化的胚或外植体转移到土壤块中生根。为了表征编辑和回收具有相关编辑的植物，从叶组织中提取DNA，并使用位于包含Kozak序列区的预期靶区侧翼的一对PCR引物进行基于PCR的测定。对PCR产物进行测序和分析以鉴定相关编辑。包含相关Kozak编辑的植物生长至成熟并自花授粉以获得对于经编辑的等位基因纯合的植物。比较来自经编辑的和对照植物的叶组织中的mRNA和蛋白表达。qRT-PCR或RNAseq分析用于评估mRNA表达水平，以及蛋白印迹或ELISA用于评估蛋白积聚。核糖体谱和随后的Ribo-seq(也称为核糖体足印)也可用于定量与蛋白积聚相关的核糖体占有率。对于具有强Kozak共有序列特征的经编辑的等位基因，与未经编辑的天然等位基因相比，经编辑的等位基因的相对蛋白表达增加。相反，缺乏强Kozak共有序列特征(例如，具有缺失的Kozak序列特征)的经编辑的等位基因的蛋白表达降低。显示出所需蛋白水平变化的经编辑的植物被进一步用于与每种性状相关的表型测定。

实施例10：通过设计转录起始位点周围的最佳序列来优化转基因蛋白表达

本实施例描述了Kozak序列变体和N-末端氨基酸修饰的测试及其对RNA表达和4种目标蛋白的蛋白积聚的影响。具体而言，合成编码目标蛋白的转基因的翻译起始密码子(ATG)侧翼的选定核苷酸序列(-9至+12)，并将其引入转基因表达盒中，以测试其对原生质体和植物中mRNA翻译效率和蛋白积聚的影响。

靶基因和修饰：选择编码目的蛋白1(POI 1)的目的基因1(GOI 1)；编码目的蛋白1(POI 2)的目的基因2(GOI 2)；编码目的蛋白3(POI 3)的目的基因3(GOI 3)和编码目的蛋白4(POI 4)的目的基因4(GOI 4)用于该分析。选择Kozak序列的4个变体和9个N-末端氨基酸修饰用于测试(参见表5)。选择通过具有高mRNA表达和指示高翻译效率的高核糖体保护的99个玉米基因的比对开发的“强”玉米共有Kozak序列(SEQ ID NO:1)(在表5中描述为“强-1”)(参见实施例1)用于测试。另外，选择通过具有低mRNA表达和高核糖体保护的100个玉米基因的比对开发的第二‘强’玉米共有Kozak序列(SEQ ID NO:86)(在表5中描述为“强-2”)和‘缺失的’玉米Kozak序列(SEQ ID NO:2)(在表5中描述为“缺失的”)用于测试。

表达构建体：产生了多个农杆菌T-DNA表达构建体，其包含含有相应Kozak变体和N-末端修饰的四个基因中每一个的基因表达盒(参见表5，图8)。每个基因表达盒包含编码具有Kozak和/或N-末端修饰的目的蛋白的基因，其可操作地连接至5’和3’非翻译区和植物可操作的启动子和前导序列。

表5：构建体身份、基因和修饰描述。原始＝天然N-末端序列。MASS₁＝甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码。MASS₂＝甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码。MAA＝甲硫氨酸-丙氨酸-丙氨酸。MASL＝甲硫氨酸-丙氨酸-丝氨酸-亮氨酸。MAAL＝甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。*表示包含未优化的Kozak序列和指定基因的原始N-末端序列的构建体。

原生质体转化：如Sheen和Bogorad，1985描述，从黄化幼苗分离玉米叶原生质体。使用PEG介导的转化，用表5中描述的构建体转化原生质体(Yoo et al.，2007，NatureProtocols.，2，1565-1572)。将荧光素酶表达构建体共转化并用作转化对照。原生质体在22℃孵育18-24小时。每次处理进行24次重复。在每个重复中，转化54k个原生质体。对于每次处理，将24个重复合并成4个重复。取出等于258k个细胞和54k个细胞的等分试样并分别进行蛋白定量和RNA定量。剩余的原生质体用于荧光素酶质量控制和标准化测定。

蛋白提取和定量：通过含有Tween洗涤剂的磷酸盐缓冲盐水从玉米叶原生质体样品中提取蛋白。用内部开发的抗体通过ELISA(酶联免疫吸附测定)定量目的蛋白(图9)。通过BCA总蛋白测定(Pierce，Thermofisher，Carlsbad，CA)将目的蛋白标准化为总蛋白。对于原生质体，还将目的蛋白标准化为共转化的荧光素酶水平。

RNA提取、纯化：将两份不锈钢BB与200μL TRI试剂一起加入到96孔板上的每个原生质体孔中。细胞以1100-1200rpm匀化4分钟。根据制造商的说明书，使用TRI试剂(Sigma)和Direct-zol(Zymo)96孔试剂盒提取并纯化RNA。洗脱到无RNase的水中后，根据制造商的说明书进行Turbo DNase(Thermofisher，Carlsbad，CA)消化。

RNA定量：在以下反应条件下使用多切割逆转录酶(Thermofisher，Carlsbad，CA)产生cDNA：25℃ 10分钟，37℃ 2小时，85℃ 5分钟，保持在4℃。用PerfeCTa FastMix II 2X(Quantabio，Beverly，MA)进行TaqMan定量PCR。将反应在95℃变性2分钟，然后以95℃ 10秒，60℃ 30秒和板扫描循环40X。

Kozak和N-末端修饰对原生质体表达的影响：在玉米叶原生质体中，Kozak和N-末端修饰可对蛋白积聚具有统计学上显著的影响，但该影响取决于目的基因的背景(图9)。具体而言，由于Kozak/N-末端修饰，POI 1和POI 3在蛋白积聚方面存在强烈且显著的差异，但POI 1和POI 3之间Kozak/N-末端修饰的排序不同。例如，在未优化的Kozak序列的情况下，POI 3的最高蛋白积聚来自MAAL N-末端修饰(参见图9d)。而对于POI 1，最高的蛋白积聚来自经修饰的强Kozak序列和MASSN-末端修饰(参见图9a)。特定构建体之间的蛋白积聚差异很大，约为5-10倍。不希望受特定理论的束缚，这些大效应可能是由于改进的核糖体募集和翻译起始和/或增强(参见Kozak,J.，Biol Chem.，1991，266，19867-19870)。具有缺失的Kozak序列的构建体一致地显示较低的蛋白表达。对于POI 1和POI 3，这种降低在统计学上是显著的。

Kozak和N-末端修饰在RNA水平对POI 2、POI 3和POI 4不具有显著影响(图10)。POI 1构建体(图10a)在RNA积聚方面显示出显著差异，但效果较小并且与图9a中对蛋白积聚的效果不匹配。例如，最高的POI 1蛋白积聚来自具有MASS N-末端修饰的强Kozak和具有MASL修饰的原始Kozak，但这些相同的构建体不引起最高的RNA积聚。构建体之间的RNA积聚差异很小，小于1.5倍。不希望受特定理论束缚，所观察到的对RNA积聚的小影响可能是由于核糖体募集的变化引起mRNA稳定性的变化(Presnyak et al.，2015，Cell，160，1111-1124)。

总之，这些结果与Kozak和N-末端修饰一致，所述修饰以背景依赖性方式在蛋白积聚水平上影响转基因表达，而通过这些相同的修饰，在RNA水平上的基因表达未改变或仅轻微改变。

表6：与具有天然Kozak和N-末端序列的转基因构建体相比，平均蛋白积聚和百分比差异。

*表示包含具有指定基因的原始N-末端序列的未优化Kozak序列的构建体。

Kozak和N-末端修饰对植物原位表达的影响：根据原生质体测定的结果，将显示为最强效果的修饰转移到玉米的稳定转化测试中。具体而言，推进GOI 1/POI 1和GOI 3/POI3变体用于植物原位测试。表7描述了测试的特定构建体。农杆菌介导的转化用于用表7中描述的T-DNA构建体之一转化玉米外植体。将具有单拷贝转基因的植物与非转基因植物异交以产生F1植物，并取样叶孔用于表达定量。如前所述的原生质体分析进行蛋白和RNA定量。

表7：植物原位稳定的蛋白表达。平均蛋白积聚和与天然蛋白序列的百分比差异。*表示包含具有指定基因的原始N-末端序列的未优化Kozak序列的构建体。

如图11所示，稳定转化植物的结果与原生质体测定中观察到的结果一致。例如，对于POI 1，具有MASS N-末端修饰的经修饰的强Kozak序列的变体和具有MASL N-末端修饰的中Kozak的变体与具有原始N-末端的中Kozak相比，显示出蛋白积聚的显著增加(ANOVAF＝10.2，p＝0.000378)(参见图11A和表7)。对于POI 3，还观察到不同变体之间蛋白积聚的显著差异(ANOVAF＝25.01，p＝0.00000476)。参见图11B和表7。具有MAAL修饰的中Kozak显示出最高的蛋白积聚。对于这两种蛋白，缺失的Kozak序列导致蛋白积聚的统计学显著减少。对于GOI 1没有观察到RNA表达的显著变化，但是对于GOI 3观察到RNA表达的显著变化(参见图12)。

总之，数据表明Kozak和N-末端修饰可以影响原生质体和稳定的玉米转化体中转基因蛋白的积聚。

实施例11：额外的大豆靶基因

选择13个具有一系列Kozak序列强度的大豆基因以测试Kozak序列的靶向操纵对蛋白表达水平的影响。如实施例1所述，通过将天然Kozak序列的序列特征与来自比对显示高mRNA表达和核糖体保护的前100个拟南芥属基因的Kozak序列的共有序列进行比较，测定天然Kozak序列的强度。这些基因的Kozak序列周围的基因组区域及其预测的驱动高翻译效率(强、中、弱)的能力如表8所示。分析13个基因的Kozak位点周围的基因组序列以鉴定Cas12a CRISPR靶位点(参见表9)。

表8：大豆靶基因。SEQ ID NO代表包含Kozak序列、5’UTR的区域和包含起始位点的外显子1的区域的靶基因的基因组片段。

表9：在大豆基因的Kozak序列处或附近的代表性Cas12aCRISPR靶位点的列表

实施例12：评价CRISPR介导的染色体切割的功效

选择LOC 344基因用于进一步分析。设计Cas12a向导RNA表达盒以将LbCas12a或FnCas12a引导至LOC 344基因中鉴定的Kozak序列处或附近的适当靶位点(参见表9)。gRNA盒包含与FnCas12a(SEQ ID NO:70)或LbCas12a(SEQ ID NO:169)的CRISPR正向重复序列可操作地连接的大豆U6 Pol III启动子和polyT(TTTTTTTT)转录终止子序列，所述FnCas12a或LbCas12a与靶向LOC344内的位点的23至25个核苷酸间隔区DNA序列(SEQ ID NO:202-209)可操作地连接。将gRNA盒插入pUC19载体的pUC57变体中(Yanisch-Perron et al.，1985)。

瞬时大豆原生质体测定用于测试向导RNA功效。通过聚乙二醇(PEG)，将向导RNA载体与编码合适的FnCas12a或LbCas12aCRISPR内切核酸酶的另一种二元载体共转化到大豆子叶原生质体中。

表10：用于原生质体gRNA功效测定的试剂的组合。

孵育2天后，从原生质体悬浮液中分离基因组DNA，并通过PCR扩增靶区域(9个循环的从67℃退火至58℃退火的降落PCR，随后是30个循环的58℃退火的标准PCR)。通过下一代测序(NGS)，通过本领域已知的标准方法对扩增子测序以鉴定包含指示向导RNA-Cas12a介导的编辑的插入或缺失(indel)的修饰序列。gRNA功效数据示于图14中。对于LOC 344，用FnCas12a或LbCas12a切割TS1导致最高的编辑效率。

实施例13：编辑大豆原生质体中Kozak序列

基于LOC 344的gRNA功效数据，选择最高切割gRNA核酸酶组合用于测试Kozak靶位点处的模板化编辑。如表8所示，天然LOC 344Kozak序列(SEQ ID NO:258的翻译起始密码子(ATG)侧翼的-9至+12位核苷酸)被确定为中Kozak，其基于与来自100个显示为高mRNA表达和核糖体保护的拟南芥属基因的Kozak序列比对的共有序列的比较。将包含靶向TS1和同源Cas内切核酸酶的gRNA、FnCas12a蛋白(SEQ ID NO:261)和LbCas12a蛋白(SEQ ID NO:262)的编辑系统与单链DNA修复(供体)模板一起体外组装为核糖核蛋白(RNP)复合物。LOC 344(SEQ ID NO:243)的修复DNA模板包含工程化的强Kozak共有序列，其侧翼为与天然Kozak序列侧翼的基因序列同源的同源臂。单链修复DNA模板在每个末端的最后两个磷酸二酯键处被硫代磷酸化，以使其抗核酸酶降解(Renaud et al.，2016)。通过本领域已知的标准PEG介导的转化方法，用表11中所示的各种测定组合转化原生质体。

表11：用于LOC 344模板化编辑测定的试剂组合。

处理	靶位点gRNA	酶	修复模板方向
				1	LOC344_LbCas12a_TS1	LbCas12a	正义
2	LOC344_LbCas12a_TS1	LbCas12a	反义
				3	LOC344_FnCas12a_TS1	FnCas12a	正义
4	LOC344_FnCas12a_TS1	FnCas12a	反义
				5(对照)	-	-	正义
6(对照)	-	-	反义

培养2天后，从原生质体悬浮液中分离基因组DNA，并通过PCR扩增靶区域。通过下一代测序(NGS)，通过本领域已知的标准方法对扩增子测序以测定编辑的存在并鉴定修复模板的靶向整合。对每种处理定量基于RNP的染色体indel率(参见图15)以及模板化编辑率(参见图16和17)。至少一种RNP/修复模板组合表现出统计学上显著的，高于背景的染色体切割和HDR介导的修复模板整合，分别如通过indel和模板化编辑的定量所揭示的(参见图16)。供体整合不是由Kozak序列上游的同源性介导的，但另外证明Kozak区域下游的完全同源性也可用于该分析。因此，这种整合也被定量并被统称为SDSA(合成依赖性链退火)介导的整合。来自HDR介导的整合事件和SDSA介导的整合事件的代表性序列分别提供为SEQ IDNO:259和SEQ ID NO:260。总之，该数据表明，在Cas12a介导的切割后，利用同源性引导的插入，天然Kozak可以被工程化的Kozak序列取代。此外，如LOC 344中所见，内源性的中Kozak序列可用强Kozak序列替代。

实施例14：编辑大豆愈伤组织中Kozak序列

大豆愈伤组织细胞将用于产生所需的编辑并确定对蛋白和RNA积聚的影响。编辑组分将在转化前，作为在体外组装的核糖核蛋白(RNP)复合物递送。靶向选择靶位点的gRNA将分别与其同源Cas内切核酸酶FnCas12a和LbCas12a在体外组装。然后将ss或ds链修复模板DNA以等摩尔浓度添加到RNP复合物中。修复模板DNA包含侧翼为同源臂的所需Kozak修饰。含有NptII抗生素抗性盒的dsDNA也作为卡那霉素选择的选择标记添加到混合物中。使用本领域已知的标准方法，使用PEG介导的转化将该RNP/DNA混合物转化到大豆愈伤组织细胞中。作为对照，用缺乏向导RNA-Cas内切核酸酶复合物的复合物转化细胞。愈伤组织细胞将被诱导用于细胞分裂，这将最终产生愈伤组织颗粒。

通过测序对愈伤组织进行基因分型。随后测定对照和经编辑的愈伤组织的核糖体结合特性的改变，并通过至少两种方法定量蛋白积聚的变化：半定量蛋白印迹和RiboSeq。为了适应上文列出的分析，将单个愈伤组织颗粒分成至少三个片段。将从一个片段中分离总基因组DNA，并通过本领域已知的下一代测序方法(例如，AmpliSeq，Illumina，sandiego，CA)对Kozak区域测序，并分析靶向编辑。从另一经编辑的愈伤组织片段中纯化总蛋白。使用可检测靶蛋白的特异性抗体对蛋白提取物进行半定量蛋白印迹。显著改变的蛋白印迹条带强度将指示改变的蛋白积聚。从经编辑的愈伤组织颗粒的第三片段分离总RNA和核糖体保护的RNA。Ribo-seq将用于定量测试和对照愈伤组织中改变的Kozak序列上的核糖体占有率。对于ribo-seq分析，将使用已发表方案的改良版本进行核糖体足迹分析(Ingolia etal.，2012)。具体地，使用液氮、研钵和研杵将冷冻组织研磨成粉末。100mg组织与400μL预冷的多核糖体提取缓冲液(2％聚氧乙烯(10)十三烷基醚、1％脱氧胆酸、1mM DTT、100μg/ul环己酰亚胺、10单位/mL DNase I(epicentre)、100mM Tris-HCl(pH8)、40mM KCl、20mMMgCl₂)混合。RNA将通过RNAase I(Ambion，Thermo Fisher，Waltham，MA)消化。如所述，MicroSpin S-400柱(Illustra，GE Healthcare，Chicago，IL)将用于清除反应。删除rRNA去除步骤，并用15％聚丙烯酰胺TBE-尿素凝胶(Invitrogen，Carlsbad CA)和ZR小RNA梯(ZymoResearch，Irvine，CA)凝胶纯化RNA。使用工程化凝胶破碎和5μM柱管从凝胶切片回收RNA，然后如所述沉淀，但使用在-80℃孵育10分钟并在15,000g离心15分钟。使用IlluminaTruSeq小RNA文库制备试剂盒制备纯化的核糖体足迹用于测序。使用KAPA RNA HyperPrep试剂盒(Roche，Indianapolis，IN)从相同的组织样品制备伴侣RNA-seq文库。使用IlluminaNextSeq测序得到的ribo-seq和RNA-seq文库。如实施例1所述进行Ribo seq和RNA seq分析。

Kozak编辑改变内源基因表达的充分性将在稳定编辑的大豆植物中得到证实。使用粒子轰击将相同的CRISPR试剂转化到外植体中。通过下一代基因测序方法的基因分型将鉴定具有改变的Kozak序列的R0植物。经编辑的个体将自花授粉，并且具有纯合Kozak编辑的植物将通过基因分型在R1代中鉴定。上述表型实验也将在R1植物中进行。

Claims

1.一种改变经编辑的真核细胞中的蛋白积聚的方法，所述方法包括在Kozak序列的-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位的一个或多个核苷酸处编辑编码所述蛋白的核酸分子的Kozak序列以产生包含经编辑的Kozak序列的经编辑的核酸分子，其中与包含参考核酸序列的对照真核细胞内所述蛋白积聚相比，包含所述经编辑的核酸分子的经编辑的真核细胞展现出统计学显著的蛋白积聚改变。

2.如权利要求1所述的方法，其中与对照真核细胞相比，所述经编辑的真核细胞中的蛋白积聚增加。

3.如权利要求1所述的方法，其中与对照真核细胞相比，所述经编辑的真核细胞中的蛋白积聚减少。

4.如权利要求1所述的方法，其中所述经编辑的Kozak序列包含选自由SEQ ID NO:1-7、6-89、95和105组成的组的序列。

5.如权利要求1的方法，其中所述经编辑的Kozak序列是缺失的Kozak序列。

6.如权利要求1所述的方法，其中所述蛋白包含一个或多个N-末端氨基酸修饰。

7.如权利要求6所述的方法，其中所述一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：丙氨酸，其中丙氨酸由密码子GCG编码；丙氨酸，其中丙氨酸由GCT密码子编码；精氨酸；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

8.如权利要求1所述的方法，其中以下的一项或多项：(a)-3位的A或G被编辑成C或T；(b)+4位的G被编辑成A、C或T；(c)-1位的C被编辑成A、G或T；(d)-2位的C被编辑成A、G或T；(e)-4位的A被编辑成G、C或T；(f)-3位的A被编辑成G、C或T；(g)-2位的A被编辑成G、C或T；(h)-1位的A被编辑成G、C或T；(i)+4位的G被编辑成A、C或T；和(j)+5位的C被编辑为A、G或T。

9.如权利要求1所述的方法，其中以下的一项或多项：(a)-3位的C或T被编辑成A或G；(b)+4位的A、C或T被编辑成G；(c)-1位的A、G或T被编辑成C；(d)-2位的A、G或T被编辑成C；(e)-4位的G、C或T被编辑成A；(f)-3位的G、C或T被编辑成A；(g)-2位的G、C或T被编辑成A；(h)-1位的G、C或T被编辑成A；(i)+4位的A、C或T被编辑成G；和(j)+5位的A、G或T被编辑为C。

10.一种产生经编辑的植物的方法，所述方法包括：

(a)向植物细胞提供编辑酶或编码所述编辑酶的核酸分子；

(b)在所述植物细胞中，在编码蛋白的核酸分子的Kozak序列中产生编辑以产生经编辑的Kozak序列，其中所述编辑包括在所述Kozak序列的选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个核苷酸位置中编辑所述Kozak序列；以及

(c)从所述植物细胞再生经编辑的植物，其中所述经编辑的植物包含所述经编辑的Kozak序列，并且其中与在相当的条件下生长的对照植物相比，所述经编辑的植物中所述蛋白积聚改变。

11.如权利要求10所述的方法，其中与对照植物相比，所述经编辑的植物中所述蛋白积聚增加。

12.如权利要求10所述的方法，其中与对照植物相比，所述经编辑的植物中所述蛋白积聚减少。

13.如权利要求10所述的方法，其中所述植物细胞选自由玉米细胞、大豆细胞、番茄细胞、水稻细胞、油菜细胞、胡椒细胞、小麦细胞、黄瓜细胞、洋葱细胞、油菜籽细胞和棉花细胞组成的组。

14.如权利要求10所述的方法，其中所述核酸分子是内源核酸分子或所述核酸分子是转基因核酸分子。

15.如权利要求10所述的方法，其中经编辑的Kozak序列包含选自由SEQ ID NO:1-7、86-89、95和105组成的组的序列。

16.如权利要求10所述的方法，其中所述方法还包括产生导致所述蛋白的一个或多个N-末端氨基酸修饰的编辑。

17.如权利要求16所述的方法，其中所述一个或多个N-末端氨基酸修饰引入选自由以下组成的组的N-末端序列：丙氨酸，其中丙氨酸由密码子GCG编码；丙氨酸其中丙氨酸由GCT密码子编码；精氨酸；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCG编码；甲硫氨酸-丙氨酸-丝氨酸-丝氨酸，其中丙氨酸由密码子GCT编码；甲硫氨酸-丙氨酸-丙氨酸；甲硫氨酸-丙氨酸-丝氨酸-亮氨酸；和甲硫氨酸-丙氨酸-丙氨酸-亮氨酸。

18.如如权利要求10所述的方法，其中以下的一项或多项：(a)-3位的A或G被编辑成C或T；(b)+4位的G被编辑成A、C或T；(c)-1位的C被编辑成A、G或T；(d)-2位的C被编辑成A、G或T；(e)-4位的A被编辑成G、C或T；(f)-3位的A被编辑成G、C或T；(g)-2位的A被编辑成G、C或T；(h)-1位的A被编辑成G、C或T；(i)+4位的G被编辑成A、C或T；和(j)+5位的C被编辑为A、G或T。

19.如权利要求10所述的方法，其中以下的一项或多项：(a)-3位的C或T被编辑成A或G；(b)+4位的A、C或T被编辑成G；(c)-1位的A、G或T被编辑成C；(d)-2位的A、G或T被编辑成C；(e)-4位的G、C或T被编辑成A；(f)-3位的G、C或T被编辑成A；(g)-2位的G、C或T被编辑成A；(h)-1位的G、C或T被编辑成A；(i)+4位的A、C或T被编辑成G；和(j)+5位的A、G或T被编辑为C。

20.一种经编辑的真核细胞，其包含编码靶蛋白的核酸分子内的重组Kozak序列，其中与参照序列相比，所述重组Kozak序列在核苷酸的独立选自由-9、-8、-7、-6、-5、-4、-3、-2、-1、+4和+5位组成的组的一个或多个位置处包含一个或多个突变，其中与对照真核细胞相比，所述经编辑的真核细胞表现出改变的靶蛋白积聚。

21.如权利要求20所述的经编辑的真核细胞，其中所述经编辑的真核细胞是经编辑的植物细胞。

22.一种植物或植物部分，其包含如权利要求21所述的经编辑的植物细胞。

23.一种植物产品，其包含如权利要求21所述的经编辑的植物细胞。

24.如权利要求20所述的经编辑的真核细胞，其中：

(a)所述重组Kozak序列包含一个或多个-3位的A或G；+4位的G；-1位的C；和-2位的C；

(b)所述重组Kozak序列包含-3位的C或T，和+4位的A、C或T；

(c)所述重组Kozak序列包含一个或多个-3位的C或T；+4位的A、C或T；-1位的A、G或T；和-2位的A、G或T；

(d)所述重组Kozak序列包含一个或多个-4位的A；-3位的A；-2位的A；-1位的A；+4位的G；和+5位的C；

(e)所述重组Kozak序列包含一个或多个-4位的C、T或G；-3位的C、T或G；-2位的C、T或G；-1位的C、T或G；+4位的A、C或T；和+5位的A、G或T；

(f)所述重组Kozak序列包含：(a)-4至-1位的至少两个A；或(b)-4至-1位的一个A和+4位的一个G；或

(g)所述重组Kozak序列包含：-4至-1位的少于两个A，和+4位没有G。

25.如权利要求20所述的经编辑的真核细胞，其中所述重组Kozak序列包含选自由SEQID NO:1-7、86-89、95和105组成的组的序列。

26.一种重组DNA分子，其包含可操作地连接至编码蛋白的异源核酸序列的植物可表达启动子，其中所述核酸序列包含选自由以下组成的组的序列：a)与SEQ ID NO:1-7、86-89、95和105中任一个具有至少90％序列同一性的序列；和b)包含SEQ ID NO:1-7、86-89、95和105中任一个的序列。

27.如权利要求26所述的重组DNA分子，其中所述蛋白赋予植物除草剂耐受性或所述蛋白赋予植物害虫抗性。

28.一种转基因植物细胞，其包含如权利要求26所述的重组DNA分子。

29.一种转基因种子，其中所述种子包含如权利要求26所述的重组DNA分子。