CN110607320A

CN110607320A - A plant genome directed base editing backbone vector and its application

Info

Publication number: CN110607320A
Application number: CN201811403794.0A
Authority: CN
Inventors: 张勇; 唐旭; 郑雪莲; 任秋蓉; 周建平; 邓科君
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-12-24
Anticipated expiration: 2038-11-23
Also published as: CN110607320B

Abstract

The invention belongs to the technical field of genetic engineering, and in particular relates to a plant genome-directed base editing backbone carrier and its application. The technical problem to be solved by the present invention is to improve the efficiency of targeted base editing in plant cell genomes and expand the base editing window. The technical solution of the present invention to solve the technical problem is to provide a plant genome-directed base editing backbone carrier, which is driven by a Pol II type promoter to express the nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression unit and synthetic guide RNA (sgRNA) Transcription of the core unit composed of two core regions of the transcription expression unit. The single transcription unit directional base editing backbone carrier of the present invention can effectively realize the simple, fast and efficient directional editing of cytosine base (C) into thymine base (T), and is a kind of effective realization of plant genome base directional editing. Molecular tools for editing.

Description

A plant genome directed base editing backbone vector and its application

技术领域technical field

本发明属于植物基因工程领域，涉及一种植物基因组定向碱基编辑骨架载体及其应用。The invention belongs to the field of plant genetic engineering, and relates to a plant genome-directed base editing backbone carrier and an application thereof.

背景技术Background technique

基因组定向修饰一直是生物学研究的前沿与热点领域，通过对基因组特定区域进行精确定向修饰：一方面可以针对目标序列进行精确突变，获得突变材料，对目标基因功能进行明确鉴定；另一方面可以进行目标序列的精确置换或插入，将外源基因随机导入造成的表达及遗传的不确定性降至最低。Targeted genome modification has always been a frontier and hot spot in biological research. Through precise targeted modification of specific regions of the genome: on the one hand, it can precisely mutate the target sequence, obtain mutation materials, and clearly identify the function of the target gene; on the other hand, it can Precise replacement or insertion of the target sequence minimizes the uncertainty of expression and inheritance caused by the random introduction of foreign genes.

2012年，研究者首次证明了CRISPR-Cas(Clustered regularly interspacedshort palindromic repeats-CRISPR associated protein)可以实现序列特异性DNA双链剪切，随后CRISPR-Cas9系统在包括食蟹猴、斑马鱼、小鼠、人源细胞系、拟南芥、水稻等动植物系统中实现了基于RNA导向的细胞内基因组定向编辑。在该基因组定向编辑体系中，Cas蛋白在向导RNA引导下，识别并剪切特定DNA序列产生DNA双链断裂(double strandbreaks，DSBs)，进而基于细胞内源DNA修复系统实现目标位点DNA序列定向编辑。目前已知的真核生物DNA修复系统可分为两大类：“同源重组”(homologous recombination,HR)修复；“非同源性末端连接”(nonhomologous end joining,NHEJ)修复。HR依据同源序列为模板，精确修复受损DNA区域；而NHEJ则不需要同源序列的存在，直接将DNA损伤形成的断裂末端进行连接，在完成修复的同时往往也引入不同程度的序列变异。In 2012, researchers proved for the first time that CRISPR-Cas (Clustered regularly interspacedshort palindromic repeats-CRISPR associated protein) can achieve sequence-specific DNA double-strand shearing, and then the CRISPR-Cas9 system was used in cynomolgus monkeys, zebrafish, mice, In human cell lines, Arabidopsis, rice and other animal and plant systems, RNA-guided intracellular genome-directed editing has been realized. In this genome-directed editing system, the Cas protein, guided by the guide RNA, recognizes and cuts specific DNA sequences to generate DNA double strand breaks (double strand breaks, DSBs), and then realizes the DNA sequence orientation of the target site based on the endogenous DNA repair system of the cell. edit. Currently known eukaryotic DNA repair systems can be divided into two categories: "homologous recombination" (homologous recombination, HR) repair; "nonhomologous end joining" (nonhomologous end joining, NHEJ) repair. HR uses homologous sequences as templates to accurately repair damaged DNA regions; while NHEJ does not require the existence of homologous sequences, and directly joins the broken ends formed by DNA damage, and often introduces different degrees of sequence variation when repairing .

尽管CRISPR-Cas基因组编辑工具可有效实现目标基因组序列定向编辑，但基于NHEJ修复途径的编辑事件主要是在目标修饰位点随机引入碱基插入或缺失突变，而基于HR修复途径的编辑事件尽管可依据供体模板DNA精确进行目标修饰位点序列替换，但其发生频率效率远低于NHEJ修复途径介导的编辑事件，极大限制了CRISPR-Cas基因组编辑工具进行精准碱基编辑相关基础研究及应用实践的有效应用。Although the CRISPR-Cas genome editing tool can effectively realize the directional editing of the target genome sequence, the editing events based on the NHEJ repair pathway mainly introduce base insertion or deletion mutations randomly at the target modification site, while the editing events based on the HR repair pathway can The sequence replacement of the target modification site is accurately carried out based on the donor template DNA, but its frequency and efficiency are much lower than the editing events mediated by the NHEJ repair pathway, which greatly limits the basic research and development related to precise base editing of CRISPR-Cas genome editing tools. Effective application of applied practice.

为了提高基因组目标位点特定碱基精准编辑效率，有效实现目标位点单碱基精准替换编辑，研究者在CRISPR-Cas基因组编辑工具基础上，通过将特定碱基脱氨酶与dCas9、nCas9或你Cas12a进行融合，实现了针对基因组目标位点特定碱基的精准替换编辑(如：碱基C替换为碱基T；碱基A替换为碱基G)，这种新型基因组编辑工具被称为碱基编辑器(baseeditor,BE)。定向碱基编辑技术，可以针对基因组目标位点特定单碱基进行有效替换编辑，是CRISPR-Cas基因组编辑技术的有益补充，于2017年被《科学》杂志评为全球十大年度科学突破之一，凸显了该技术在基础研究及应用实践中的重要潜力。In order to improve the efficiency of precise editing of specific bases at target sites in the genome and effectively achieve precise single-base substitution editing at target sites, researchers based on the CRISPR-Cas genome editing tool combined specific base deaminases with dCas9, nCas9 or The fusion of your Cas12a achieves the precise substitution and editing of specific bases at the target site of the genome (for example: base C is replaced by base T; base A is replaced by base G), this new genome editing tool is called Base editor (baseeditor, BE). Targeted base editing technology, which can effectively replace and edit specific single bases at genome target sites, is a useful supplement to CRISPR-Cas genome editing technology, and was named one of the top ten annual scientific breakthroughs in the world by Science magazine in 2017 , highlighting the important potential of this technology in basic research and applied practice.

基于CRISPR-Cas系统的定向碱基编辑工具，有效扩展了CRISPR-Cas系统的应用范围，显示了其广泛应用前景。但现有定向碱基编辑工具，普遍存在编辑效率偏低、编辑窗口有限的问题，特别是在植物基因组编辑应用实践中，此类问题更为明显，急需研发具备高碱基编辑效率、宽碱基编辑窗口的增强型植物定向碱基编辑工具，以便有效拓展基于CRISPR-Cas系统的定向碱基编辑技术在植物基因组功能研究及育种实践中的积极应用。The directional base editing tool based on the CRISPR-Cas system has effectively expanded the application range of the CRISPR-Cas system, showing its broad application prospects. However, the existing directional base editing tools generally have the problems of low editing efficiency and limited editing window, especially in the application practice of plant genome editing. An enhanced plant-directed base editing tool for the base editing window, in order to effectively expand the positive application of the CRISPR-Cas system-based directed base editing technology in plant genome function research and breeding practice.

发明内容Contents of the invention

本发明要解决的技术问题是提升植物细胞基因组的定向碱基编辑效率、拓展碱基编辑窗口。The technical problem to be solved by the present invention is to improve the efficiency of targeted base editing in plant cell genomes and expand the base editing window.

本发明解决技术问题的技术方案是提供一种植物基因组定向碱基编辑骨架载体。该骨架载体包含一个由nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达单元和合成向导RNA(sgRNA)转录表达单元两个核心区域构成的核心单元，该核心单元由一个PolⅡ型启动子驱动转录；The technical solution of the present invention to solve the technical problem is to provide a plant genome-directed base editing backbone vector. The backbone vector contains a core unit consisting of two core regions, an nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression unit and a synthetic guide RNA (sgRNA) transcriptional expression unit, which is driven by a PolⅡ-type promoter transcription;

所述核心单元从5’到3’方向依次为nCas9 ORF-PmCDA1-Poly A-sgRNA cloningscaffold-T；所述的nCas9 ORF为酿脓链球菌(Streptococcus pyogenes)核酸酶蛋白D10A突变体编码框；PmCDA1为胞嘧啶脱氨酶编码区功能单元；Poly A为多聚A区域；sgRNAcloning scaffold为sgRNA克隆及转录单元，且sgRNA cloning scaffold至少为一个；T为终止子。The core unit is nCas9 ORF-PmCDA1-Poly A-sgRNA cloningscaffold-T from 5' to 3' direction; the nCas9 ORF is Streptococcus pyogenes nuclease protein D10A mutant coding frame; PmCDA1 It is the functional unit of the cytosine deaminase coding region; Poly A is the poly A region; sgRNA cloning scaffold is the sgRNA cloning and transcription unit, and there is at least one sgRNA cloning scaffold; T is the terminator.

其中，上述骨架载体中所述的PmCDA1胞嘧啶脱氨酶编码区功能单元从N端到C端依次包含GGGS接头、SH3接头、PmCDA1编码区、NLS信号肽、UGI编码区、SGGS接头、NLS信号肽。Wherein, the functional unit of the PmCDA1 cytosine deaminase coding region described in the above-mentioned backbone vector includes GGGS linker, SH3 linker, PmCDA1 coding region, NLS signal peptide, UGI coding region, SGGS linker, NLS signal sequence from N-terminal to C-terminal peptide.

其中，上述骨架载体符合以下至少一项：Wherein, the above-mentioned skeleton carrier meets at least one of the following:

a、nCas9核酸酶蛋白D10A突变体编码框nCas9 ORF所编码的氨基酸序列为Seq IDNo.2中第1位至第1382位氨基酸所示；a. The amino acid sequence encoded by the nCas9 ORF coding frame of the nCas9 nuclease protein D10A mutant is shown in amino acids 1 to 1382 in Seq ID No.2;

b、PmCDA1胞嘧啶脱氨酶编码区功能单元所编码的氨基酸序列为Seq ID No.2中第1383位至第1788位氨基酸所示。b. The amino acid sequence encoded by the functional unit of the cytosine deaminase coding region of PmCDA1 is shown in amino acids 1383 to 1788 in Seq ID No.2.

其中，上述骨架载体中所述sgRNA克隆及转录单元sgRNA cloning scaffold从5’端到3’端依次包含tRNA-Gly编码序列、BsaI-ccdB-BsaI单元、sgRNA骨架编码序列、tRNA-Gly编码序列。Wherein, the sgRNA cloning and transcription unit sgRNA cloning scaffold described in the above-mentioned backbone vector comprises tRNA-Gly coding sequence, BsaI-ccdB-BsaI unit, sgRNA backbone coding sequence, tRNA-Gly coding sequence from 5' end to 3' end sequentially.

其中，上述骨架载体中所述的sgRNA克隆及转录单元为1～6个。Wherein, the number of sgRNA clones and transcription units described in the above-mentioned backbone vector is 1-6.

其中，上述骨架载体中所述的sgRNA克隆及转录单元sgRNA cloning scaffold的核苷酸序列为Seq ID No.1中第7432bp至第8300bp所示。Wherein, the nucleotide sequence of the sgRNA clone and the transcription unit sgRNA cloning scaffold described in the above-mentioned backbone vector is shown in the 7432bp to the 8300bp in Seq ID No.1.

a、nCas9核酸酶蛋白D10A突变体编码框nCas9 ORF所编码的核苷酸序列为Seq IDNo.1中第2011bp至第6156bp所示；a. The nucleotide sequence encoded by the nCas9 ORF coding frame of nCas9 nuclease protein D10A mutant is shown in 2011bp to 6156bp in Seq ID No.1;

b、PmCDA1胞嘧啶脱氨酶编码区功能单元所编码的核苷酸序列为Seq ID No.1中第6157bp至第7374bp所示。b. The nucleotide sequence encoded by the functional unit of the cytosine deaminase coding region of PmCDA1 is shown in the 6157th bp to the 7374th bp in Seq ID No.1.

c、多聚A区域Poly A的核苷酸序列为Seq ID No.1中第7384bp至第7431bp所示c. The nucleotide sequence of Poly A in the poly A region is shown in 7384bp to 7431bp in Seq ID No.1

d、所述的终止子为水稻HSP终止子HSP T，其核苷酸序列为Seq ID No.1中第8307bp至第8556bp所示的核苷酸序列所示。d. The terminator is the rice HSP terminator HSP T, and its nucleotide sequence is shown in the nucleotide sequence from 8307 bp to 8556 bp in Seq ID No.1.

e、所述的PolⅡ型启动子为玉米pZmUbi1启动子pZmUbi1，其核苷酸序列为Seq IDNo.1中第1bp至第2008bp所示。e. The Pol II type promoter is the maize pZmUbi1 promoter pZmUbi1, and its nucleotide sequence is shown in the 1st bp to the 2008th bp in Seq ID No.1.

其中，上述骨架载体中所述的核心单元具有pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T的结构。进一步的，所述的pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T核心单元的核苷酸序列如Seq ID No.1所示。Wherein, the core unit described in the above-mentioned backbone vector has the structure of pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T. Further, the nucleotide sequence of the pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T core unit is shown in Seq ID No.1.

基于上述的骨架载体，本发明还提供了针对植物基因组目标位点特定胞嘧啶碱基进行定向碱基编辑的重组表达载体的制备方法。该方法包括如下步骤：Based on the above-mentioned backbone vector, the present invention also provides a method for preparing a recombinant expression vector for targeted base editing of a specific cytosine base at a target site in a plant genome. The method comprises the steps of:

a、明确特定生物基因组目标DNA区域，分析具有PAM(PAM全称protospaceradjacent motif sequenc，候选识别位点的毗邻基序)特征的区域，选择PAM结构5’端相邻的15～30bpDNA序列作为特异性靶序列；a. Identify the target DNA region of a specific biological genome, analyze the region with the characteristics of PAM (PAM full name protospaceradjacent motif sequence, adjacent motif of candidate recognition site), and select the 15-30bp DNA sequence adjacent to the 5' end of the PAM structure as the specific target sequence;

b、按照选定的特异性靶序列，分别合成具有5’-CGGA-N_X-3’特征的正向寡核苷酸链和具有5’-AAAC-N_X-3’特征的反向寡核苷酸链，N表示A、G、C、T中的任一种，X为整数，且14≤X≤30，其中所述正向寡核苷酸链中的N_X和反向寡核苷酸中的N_X具有反向互补特征；通过退火获得互补寡核苷酸双链片段；b. According to the selected specific target sequence, synthesize the forward oligonucleotide chain with 5'-CGGA-N _X -3' characteristics and the reverse oligonucleotide chain with 5'-AAAC-N _X -3' characteristics Nucleotide chain, N represents any one of A, G, C, T, X is an integer, and 14≤X≤30, wherein the N _X in the forward oligonucleotide chain and the reverse oligonucleotide _NX in the nucleotide has reverse complementary characteristics; the complementary oligonucleotide double-stranded fragment is obtained by annealing;

c、将权利要求1～9任一项所述的植物基因组定向碱基编辑骨架载体与步骤b得到的互补寡核苷酸双链片段混合，反应体系中同时加入BsaI内切酶及T4 DNA连接酶，设置酶切-连接循环反应，得到针对位点的进行定向碱基编辑的重组表达载体。c. Mix the plant genome-directed base editing backbone carrier according to any one of claims 1 to 9 with the complementary oligonucleotide double-stranded fragment obtained in step b, and add BsaI endonuclease and T4 DNA connection to the reaction system at the same time Enzyme, set up restriction restriction-ligation cycle reaction, obtain the recombinant expression vector for targeted base editing.

进一步的，所述步骤a中特异性靶序列长度为18～21bp。优选的，步骤a中特异性靶序列长度为20bp。Further, the length of the specific target sequence in step a is 18-21 bp. Preferably, the length of the specific target sequence in step a is 20bp.

优选的，步骤b中18≤X≤21。Preferably, 18≤X≤21 in step b.

优选的，在实践操作中，步骤c中可应用融合PCR扩增策略，得到由tRNA序列间隔的多个sgRNA转录单元串联扩增产物，通过“BsaI酶切-T4 DNA连接酶连接”循环反应的方式，替换BsaI-ccdB-BsaI单元，将此多sgRNA转录单元克隆入sgRNA克隆及转录单元，得到可针对多个目标位点进行特异定向碱基编辑重组表达载体。Preferably, in practical operation, the fusion PCR amplification strategy can be applied in step c to obtain the tandem amplification products of multiple sgRNA transcription units separated by tRNA sequences, and the cycle reaction of "BsaI digestion-T4 DNA ligase connection" In this way, the BsaI-ccdB-BsaI unit is replaced, and the multiple sgRNA transcription unit is cloned into the sgRNA clone and transcription unit to obtain a recombinant expression vector capable of specific and directional base editing for multiple target sites.

本发明的有益效果在于：本发明通过由一个启动子驱动nCas9-PmCDA1融合蛋白和合成向导RNA(sgRNA)转录表达单元两个核心区域启动，构成了单一转录单元定向碱基编辑骨架载体的核心单元。使用包含了该核心单元的定向碱基编辑骨架载体，可以针对植物基因组目标序列有效实现胞嘧啶碱基(C)转变为胸腺嘧啶碱基(T)的简单、快捷、高效定向编辑。本发明相较于目前使用的植物碱基编辑工具，提升了碱基编辑效率、拓展了碱基编辑窗口，推进了定向碱基编辑策略在植物基因组定向编辑中的有效应用，是一种有效实现植物基因组碱基定向编辑的分子工具，具有很好的应用前景。The beneficial effect of the present invention is that the present invention is driven by a promoter to drive the two core regions of the nCas9-PmCDA1 fusion protein and the synthetic guide RNA (sgRNA) transcription expression unit, constituting the core unit of the single transcription unit directed base editing backbone vector . Using the directional base editing backbone vector containing this core unit, the simple, fast and efficient directional editing of cytosine base (C) into thymine base (T) can be effectively realized for the target sequence of plant genome. Compared with the currently used plant base editing tools, the present invention improves the base editing efficiency, expands the base editing window, and promotes the effective application of the directional base editing strategy in the directional editing of plant genomes. It is an effective implementation Molecular tools for base-directed editing of plant genomes have promising application prospects.

附图说明Description of drawings

图1、本发明中植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体的核心单元结构及工作示意图。Fig. 1. The core unit structure and working schematic diagram of the plant STU nCas9-PmCDA1 single transcription unit directed base editing backbone vector in the present invention.

图2、基于本发明中STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体瞬时转化水稻原生质体，基于Illumina高通量测序的目标位点胞嘧啶定向编辑效率分析。其中，nCas9-PmCDA1代表本发明中植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，nCas9-rApobec1为对照组(依据参考文献报道(Komor AC,Kim YB,Packer MS,Zuris JA,LiuDR.2016.Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage.Nature,533(7603):420-424.)，将rApobec1胞嘧啶脱氨酶替换本发明构建的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体中的PmCDA1单元)。Figure 2. Transient transformation of rice protoplasts based on STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, and STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vectors in the present invention, based on the target of Illumina high-throughput sequencing Analysis of locus cytosine-directed editing efficiency. Wherein, nCas9-PmCDA1 represents the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone carrier in the present invention, and nCas9-rApobec1 is a control group (according to references reported (Komor AC, Kim YB, Packer MS, Zuris JA, LiuDR. 2016. Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage.Nature, 533(7603):420-424.), replace rApobec1 cytosine deaminase with the single transcription of the plant STU nCas9-PmCDA1 constructed in the present invention PmCDA1 unit in a unit-directed base editing backbone vector).

图3基于本发明中STU nCas9-PmCDA1-OsCDC48-sgRNA01重组表达载体瞬时转化水稻原生质体，进行Illumina高通量测序，具体编辑位点处不同位置胞嘧啶碱基位点替换为胸腺嘧啶碱基的编辑效率分析。其中，nCas9-PmCDA1及nCas9-rApobec1同图2说明。Figure 3 is based on the transient transformation of rice protoplasts with the STU nCas9-PmCDA1-OsCDC48-sgRNA01 recombinant expression vector in the present invention, and performing Illumina high-throughput sequencing, and replacing cytosine base sites at different positions at specific editing sites with thymine bases Edit efficiency analysis. Among them, nCas9-PmCDA1 and nCas9-rApobec1 are as illustrated in Figure 2.

图4基于本发明中STU nCas9-PmCDA1-OsROC5-gRNA04重组表达载体瞬时转化水稻原生质体，进行Illumina高通量测序，具体编辑位点处不同位置胞嘧啶碱基位点替换为胸腺嘧啶碱基的编辑效率分析。其中，nCas9-PmCDA1及nCas9-rApobec1同图2说明。Figure 4 is based on the transient transformation of rice protoplasts with the STU nCas9-PmCDA1-OsROC5-gRNA04 recombinant expression vector in the present invention, and performing Illumina high-throughput sequencing, and replacing cytosine base sites at different positions at specific editing sites with thymine bases Edit efficiency analysis. Among them, nCas9-PmCDA1 and nCas9-rApobec1 are as illustrated in Figure 2.

图5基于本发明中STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体瞬时转化水稻原生质体，进行Illumina高通量测序，具体编辑位点处不同位置胞嘧啶碱基位点替换为胸腺嘧啶碱基的编辑效率分析。其中，nCas9-PmCDA1及nCas9-rApobec1同图2说明。Figure 5 is based on the transient transformation of rice protoplasts with the STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vector in the present invention, and performing Illumina high-throughput sequencing, and replacing cytosine base sites at different positions at specific editing sites with thymine bases Edit efficiency analysis. Among them, nCas9-PmCDA1 and nCas9-rApobec1 are as illustrated in Figure 2.

图6基于本发明中STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体进行农杆菌介导的水稻遗传转化，提取水稻转化再生幼苗基因组DNA，进行PCR扩增及Sanger测序分析，进行目标位点胞嘧啶定向编辑效率分析的结果。Figure 6 is based on the STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vectors in the present invention to perform Agrobacterium-mediated genetic transformation of rice, and extract rice to transform and regenerate seedlings Genomic DNA was subjected to PCR amplification and Sanger sequencing analysis, and the result of target site cytosine-directed editing efficiency analysis.

具体实施方式Detailed ways

本发明基于CRISPR-Cas9单一转录系统及PmCDA1胞嘧啶脱氨酶，通过编码区密码子优化、功能单元多元组装等策略，构建了构建了植物基因组定向碱基编辑骨架载体(本发明中也将其称为植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体)，Based on the CRISPR-Cas9 single transcription system and PmCDA1 cytosine deaminase, the present invention constructs a plant genome-directed base editing backbone vector through strategies such as codon optimization in the coding region and multiple assembly of functional units. called plant STU nCas9-PmCDA1 single transcription unit directed base editing backbone vector),

本发明植物基因组定向碱基编辑骨架载体包含一个由nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达单元和合成向导RNA(sgRNA)转录表达单元两个核心区域构成的核心单元，该核心单元由一个PolⅡ型启动子驱动转录；The plant genome-directed base editing backbone vector of the present invention comprises a core unit consisting of two core regions, an nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression unit and a synthetic guide RNA (sgRNA) transcription and expression unit, the core unit Transcription driven by a Pol II promoter;

所述nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达单元，包括nCas9 ORF为酿脓链球菌(Streptococcus pyogenes)核酸酶蛋白D10A突变体编码框；PmCDA1为胞嘧啶脱氨酶编码区功能单元；Poly A为多聚A区域，即nCas9 ORF-PmCDA1-Poly A；The nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression unit includes the nCas9 ORF as the coding frame of the Streptococcus pyogenes nuclease protein D10A mutant; PmCDA1 is the functional unit of the cytosine deaminase coding region ; Poly A is a poly A region, namely nCas9 ORF-PmCDA1-Poly A;

b、PmCDA1胞嘧啶脱氨酶编码区功能单元所编码的氨基酸序列为Seq ID No.2中第1383位至第1788位氨基酸所示。上述两个组件连接构成了nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达框，氨基酸序列为序列表中的Seq ID No.2所示。b. The amino acid sequence encoded by the functional unit of the cytosine deaminase coding region of PmCDA1 is shown in amino acids 1383 to 1788 in Seq ID No.2. The above two components are connected to form the nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression cassette, and the amino acid sequence is shown in Seq ID No.2 in the sequence list.

本发明的核心单元(pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloningscaffold-HSP T)可以针对具体转化宿主生物及实验需要，将其中的启动子和终止子替换为任何的Pol II型启动子元件(如：植物中常用的OsUb1、CaMV35S、AtUb10等启动子元件)及终止子元件(如：植物中常用的Nos T、35s T等终止子元件)，并可以放置于任何植物表达骨架载体中(如：植物中常用的pCambia、pBI、pMDC、pGreen等载体系列)，实现位点特异性定向碱基编辑。The core unit of the present invention (pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloningscaffold-HSP T) can be aimed at specific transformation host organisms and experimental needs, and replace the promoter and terminator with any Pol II type promoter element (such as: promoter elements such as OsUb1, CaMV35S, AtUb10 commonly used in plants) and terminator elements (such as: terminator elements such as Nos T and 35s T commonly used in plants), and can be placed in any plant expression backbone vector ( Such as: pCambia, pBI, pMDC, pGreen and other vector series commonly used in plants) to achieve site-specific directional base editing.

本发明中，基于植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，完成构建具体植物基因组位点特异性STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体进行转化后，在活体细胞条件下，PolⅡ启动子驱动“nCas9 ORF-PmCDA1-Poly A-sgRNAcloning scaffold”作为整体转录单元转录得到单链初级转录本。在细胞内源tRNA加工因子作用下，单一初级转录本分别在两个tRNA位点处发生自剪切，得到完整nCas9 ORF-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达框mRNA(含Poly A)及sgRNA转录单元。在细胞体系内，nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达框(含Poly A)进一步进行翻译得到nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白，并和已有的sgRNA单元结合形成功能性的nCas9-PmCDA1-sgRNA复合单元进行基因组目标位点特定胞嘧啶碱基定向编辑。In the present invention, based on the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone carrier, after completing the construction of specific plant genome site-specific STU nCas9-PmCDA1-sgRNA directional base editing recombinant expression vectors for transformation, in living cell conditions Under this condition, the PolⅡ promoter drives the "nCas9 ORF-PmCDA1-Poly A-sgRNAcloning scaffold" as an overall transcription unit to transcribe a single-stranded primary transcript. Under the action of endogenous tRNA processing factors, a single primary transcript was self-cleaved at two tRNA sites to obtain a complete nCas9 ORF-PmCDA1 nuclease-cytidine deaminase fusion protein expression frame mRNA (containing Poly A ) and sgRNA transcription unit. In the cell system, the nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression cassette (including Poly A) is further translated to obtain the nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein, which is combined with the existing sgRNA unit Combined to form a functional nCas9-PmCDA1-sgRNA complex unit for targeted editing of specific cytosine bases at the target site of the genome.

本发明中，完整的sgRNA由能够与所述靶标片段互补结合的18～21bp RNA片段替换骨架载体sgRNA克隆及转录单元中的BsaI-ccdB-BsaI单元而成，所述骨架RNA片段依次由可以结合protospacer位点的sgRNA、tracrRNA、crRNA嵌合形成类似发夹结构的功能性RNA，所述骨架RNA片段可与Cas9核酸酶结合。In the present invention, the complete sgRNA is formed by replacing the BsaI-ccdB-BsaI unit in the backbone carrier sgRNA clone and transcription unit with an 18-21bp RNA fragment capable of complementary binding to the target fragment, and the backbone RNA fragment is sequentially composed of The sgRNA, tracrRNA, and crRNA at the protospacer site are chimerized to form a functional RNA similar to a hairpin structure, and the backbone RNA fragment can be combined with the Cas9 nuclease.

针对具体的目标基因，确定sgRNA位点后(5’-N_X-NGG-3’；N表示A、G、C、T中的任一种，X为整数，且14≤X≤30(18、19、20、21为常用值))，依据发明中提供的STU nCas9-PmCDA1-sgRNA重组表达载体构建方法，将设计的sgRNA特异性靶序列(protospacer)“BsaI酶切-T4 DNA连接酶连接”循环反应的方式，替换BsaI-ccdB-BsaI单元克隆入gRNA克隆及转录单元，得到特定的有功能的STU nCas9-PmCDA1-sgRNA重组表达载体。For the specific target gene, after determining the sgRNA site (5'-N _X -NGG-3'; N represents any of A, G, C, T, X is an integer, and 14≤X≤30 (18 , 19, 20, and 21 are commonly used values)), according to the STU nCas9-PmCDA1-sgRNA recombinant expression vector construction method provided in the invention, the designed sgRNA-specific target sequence (protospacer) "BsaI digestion-T4 DNA ligase connection "Circular reaction method, replace the BsaI-ccdB-BsaI unit and clone into the gRNA clone and transcription unit to obtain a specific functional STU nCas9-PmCDA1-sgRNA recombinant expression vector.

本发明中，在sgRNA克隆转录框架单元端融合了BsaI-ccdB-BsaI单元，其作用是作为多克隆位点酶切CRISPR/Cas9单一转录单元骨架载体，以便克隆目标gRAN特异性靶序列(protospacer)。可将BsaI-ccdB-BsaI单元替换为可以在本发明骨架载体上引入切口的限制内切酶，并相应修改sgRAN特异性靶序列克隆位点，都可以有效实现本发明的关键内容。In the present invention, the BsaI-ccdB-BsaI unit is fused at the end of the sgRNA clone transcription framework unit, which acts as a multi-cloning site to digest the CRISPR/Cas9 single transcription unit backbone vector so as to clone the target gRAN-specific target sequence (protospacer) . The key content of the present invention can be effectively realized by replacing the BsaI-ccdB-BsaI unit with a restriction endonuclease that can introduce a nick on the backbone vector of the present invention, and modifying the sgRAN-specific target sequence cloning site accordingly.

在构建植物基因组位点特异性STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体过程中，可通过转化大肠杆菌、细菌筛选压筛选含正确Cas9-gRNA表达载体的重组克隆，并可采用菌落PCR、质粒酶切、序列测定等方式进行鉴定，以明确获得了用于目的植物基因组位点特异性STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体。In the process of constructing plant genome site-specific STU nCas9-PmCDA1-sgRNA-directed base editing recombinant expression vector, the recombinant clone containing the correct Cas9-gRNA expression vector can be screened by transforming Escherichia coli and bacterial screening pressure, and colony PCR can be used , Plasmid digestion, sequence determination and other methods were identified to clearly obtain the target plant genome site-specific STU nCas9-PmCDA1-sgRNA directional base editing recombinant expression vector.

应用融合PCR扩增策略，可以得到由tRNA序列间隔的多个sgRNA转录单元串联扩增产物，通过“BsaI酶切-T4 DNA连接酶连接”循环反应的方式，替换BsaI-ccdB-BsaI单元，可以将此多sgRNA转录单元克隆入sgRNA克隆及转录单元，得到可针对多个目标位点进行特异修饰的STU nCas9-PmCDA1-sgRNA1-sgRNA2-…-sgRNAx重组表达载体(参见图1)。优选的，上述骨架载体中所述的sgRNA克隆及转录单元为1～6个。Using the fusion PCR amplification strategy, multiple sgRNA transcription units separated by tRNA sequences can be amplified in series, and the BsaI-ccdB-BsaI unit can be replaced by the circular reaction method of "BsaI digestion-T4 DNA ligase ligation". This multiple sgRNA transcription unit is cloned into the sgRNA clone and transcription unit to obtain a STU nCas9-PmCDA1-sgRNA1-sgRNA2-…-sgRNAx recombinant expression vector that can be specifically modified for multiple target sites (see Figure 1). Preferably, the number of sgRNA clones and transcription units described in the above-mentioned backbone vector is 1-6.

本发明中，可通过原生质、基因枪及农杆菌介导的多种转化方法，将依据本发明构建的位点特异性STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体转入植物细胞，使转化细胞同时具有nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白及针对特定基因组目标序列的sgRNA单元；在nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白及sgRNA单元共同作用下，对特定基因组目标序列特定胞嘧啶碱基进行编辑(将其替换为T(大概率)、A(小概率)、G(小概率))。本发明所述的STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体在植物中应用时，可以使用包括卡那霉素、潮霉素、basta等抗性基因进行植物转化子筛选，由阳性转化子细胞或组织(如原生质体或愈伤组织)分化再生，得到而来包含目标位点定向修饰的再生植株。In the present invention, the site-specific STU nCas9-PmCDA1-sgRNA directional base-editing recombinant expression vector constructed according to the present invention can be transferred into plant cells through various transformation methods mediated by protoplasts, gene guns, and Agrobacterium, so that Transformed cells have both nCas9-PmCDA1 nuclease-CD fusion protein and sgRNA unit targeting specific genomic target sequences; under the joint action of nCas9-PmCDA1 nuclease-CD fusion protein and sgRNA unit, specific Genomic target sequence specific cytosine bases are edited (replace them with T (high probability), A (low probability), G (low probability)). When the STU nCas9-PmCDA1 single transcription unit directional base editing backbone vector of the present invention is applied in plants, resistance genes including kanamycin, hygromycin, basta, etc. can be used to screen plant transformants, and positive transformation Daughter cells or tissues (such as protoplasts or callus) are differentiated and regenerated to obtain regenerated plants containing targeted modification of the target site.

实施例1植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体的构建Example 1 Construction of Plant STU nCas9-PmCDA1 Single Transcription Unit Directed Base Editing Backbone Vector

本发明设计一种用于植物基因组工程的STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，其核心单元从5’到3’方向依次为pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T。其中：pZmUbi1即玉米pZmUbi1启动子(可通过AscI、SbfI双酶切基础STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体的方案，实现不同PolII型启动子的替换)；nCas9 ORF为化脓性链球菌(Streptococcus pyogenes)核酸酶蛋白D10A突变体编码框(包含C端NLS信号肽)；PmCDA1为胞嘧啶脱氨酶编码区功能单元(从N端到C端依次包含GGGS接头、SH3接头、PmCDA1编码区、NLS信号肽、UGI编码区、SGGS接头、NLS信号肽)；Poly A为多聚A区域；sgRNA cloning scaffold(简写为sgRNA CS)即sgRNA克隆及转录单元(从5’端到3’端依次包含tRNA-Gly编码序列、BsaI-ccdB-BsaI单元、sgRNA骨架编码序列、tRNA-Gly编码序列)；HSP T即水稻HSP终止子(可通过BamHI、SacI双酶切基础STUnCas9-PmCDA1单一转录单元定向碱基编辑骨架载体的方案，实现不同终止子的替换)。植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体结构及工作原理见图1。The present invention designs a STU nCas9-PmCDA1 single transcription unit directional base editing backbone carrier for plant genome engineering, and its core unit is pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold from 5' to 3' direction -HSP T. Among them: pZmUbi1 is the maize pZmUbi1 promoter (the basic STU nCas9-PmCDA1 single transcription unit-directed base-editing backbone carrier scheme can be used to realize the replacement of different PolII-type promoters through AscI and SbfI double enzyme digestion); nCas9 ORF is the suppurative chain Cocci (Streptococcus pyogenes) nuclease protein D10A mutant coding frame (including C-terminal NLS signal peptide); region, NLS signal peptide, UGI coding region, SGGS linker, NLS signal peptide); Poly A is the poly A region; sgRNA cloning scaffold (abbreviated as sgRNA CS) is the sgRNA clone and transcription unit (from 5' end to 3' end Contains tRNA-Gly coding sequence, BsaI-ccdB-BsaI unit, sgRNA backbone coding sequence, tRNA-Gly coding sequence); HSP T is rice HSP terminator (basic STUnCas9-PmCDA1 single transcription unit can be digested by BamHI and SacI double enzymes A protocol for directed base editing backbone vectors to achieve the replacement of different terminators). The structure and working principle of the plant STU nCas9-PmCDA1 single transcription unit directed base editing backbone vector are shown in Figure 1.

可选地，该骨架载体还包括：T-DNA的左、右边界序列，“pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T”核心单元位于所述T-DNA左、右边界之间；T-DNA的左、右边界序列间还可包括潮霉素抗性基因表达单元(依次组成元件为：2×CaMV35S启动子-hygromycin phosphotransferase ORF-CaMV poly A；可以通过AvrII、PacI双酶切基础CRISPR/Cas9单一转录单元骨架载体的方案，实现不同抗性基因ORF的替换)作为植物转化子筛选标记。Optionally, the backbone vector also includes: the left and right border sequences of T-DNA, and the "pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T" core unit is located at the left and right borders of the T-DNA between the left and right border sequences of T-DNA can also include the hygromycin resistance gene expression unit (consisting elements in turn are: 2×CaMV35S promoter-hygromycin phosphotransferase ORF-CaMV poly A; can pass AvrII, PacI double The scheme of enzyme-digesting basic CRISPR/Cas9 single transcription unit backbone vector to realize the replacement of ORF of different resistance genes) as a screening marker for plant transformants.

为了实现特定基因组目标STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体的快捷、高效构建，本发明所述的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体在sgRNA转录表达单元的5’端融入637bp的的BsaI-ccdB-BsaI单元，基于此设计策略，在后续目标STU nCas9-PmCDA1-sgRNA定向碱基编辑重组表达载体构建过程中，仅需在构建体系中混合本发明所述的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体、退火的特异性靶序列互补寡核苷酸双链片段、BsaI内切酶及T4 DNA连接酶，并设置“37℃酶切-16℃连接”循环反应，即可实现特定Cas9-gRNA表达载体的有效构建。该载体可以采用现有分子克隆技术中的常规方式来构建，同时需要说明的是上述元件序列是该骨干质粒载体的特有部分，其还可以包括一些常规载体所具有的一般结构，本发明中不再累述。In order to realize the rapid and efficient construction of the specific genome target STU nCas9-PmCDA1-sgRNA directional base editing recombinant expression vector, the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone vector of the present invention is in the 5 The 637bp BsaI-ccdB-BsaI unit is integrated into the ' end. Based on this design strategy, in the subsequent construction process of the target STU nCas9-PmCDA1-sgRNA directional base editing recombinant expression vector, it is only necessary to mix the BsaI described in the present invention in the construction system. Plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone vector, annealed specific target sequence complementary oligonucleotide double-stranded fragment, BsaI endonuclease and T4 DNA ligase, and set "37°C enzyme digestion -16°C The efficient construction of a specific Cas9-gRNA expression vector can be realized by connecting” cycle reaction. The vector can be constructed in a conventional way in the existing molecular cloning technology, and it should be noted that the above-mentioned element sequence is a unique part of the backbone plasmid vector, and it can also include some general structures of conventional vectors, which are not included in the present invention. Let me tell you more.

基于酿脓链球菌(Streptococcus pyogenes)Cas9核酸酶蛋白编码基因(Streptococcus pyogenes Cas9,SpCas9)进行植物密码子优化(3’端添加NLS信号)，并引入D10A突变，人工合成nCas9核酸酶蛋白D10A突变体编码框(包含C端NLS编码序列)完整ORF序列，核苷酸序列如Seq ID No.1中第2011bp至第6156bp所示(编码的氨基酸序列如Seq IDNo.2中第1AA至第1382AA所示)。同时，依据七鳃鳗(Petromyzon marinus)胞嘧啶脱氨酶(PmCDA1)检出序列(Nishida K,Arazoe T,Yachie N,Banno S,Kakimoto M,Tabata M,Mochizuki M,Miyabe A,Araki M,Hara KY,Shimatani Z,Kondo A.2016.Targetednucleotide editing using hybrid prokaryotic and vertebrate adaptive immunesystems.Science,353(6305).pii:aaf8729)，设计PmCDA1胞嘧啶脱氨酶表达单元编码框(从N端到C端依次包含GGGS接头、SH3接头、PmCDA1编码区、NLS信号肽、UGI编码区、SGGS接头、NLS信号肽)，进行植物密码子优化并进行人工合成，核苷酸序列如Seq ID No.1中第6157bp至第7374bp所示(编码的氨基酸序列如Seq ID No.2中第1383AA至第1788AA所示)。进一步，通过人工合成方式得到另外3个基本单元：Based on Streptococcus pyogenes (Streptococcus pyogenes) Cas9 nuclease protein coding gene (Streptococcus pyogenes Cas9, SpCas9), the plant codon was optimized (the NLS signal was added at the 3' end), and the D10A mutation was introduced to artificially synthesize the nCas9 nuclease protein D10A mutant The complete ORF sequence of the coding frame (including the C-terminal NLS coding sequence), the nucleotide sequence is shown in 2011bp to 6156bp in Seq ID No.1 (the encoded amino acid sequence is shown in 1AA to 1382AA in Seq ID No.2 ). At the same time, according to the detection sequence of lamprey (Petromyzon marinus) cytosine deaminase (PmCDA1) (Nishida K, Arazoe T, Yachie N, Banno S, Kakimoto M, Tabata M, Mochizuki M, Miyabe A, Araki M, Hara KY, Shimatani Z, Kondo A.2016.Targetednucleotide editing using hybrid prokaryotic and vertebrate adaptive immunesystems.Science,353(6305).pii:aaf8729), design PmCDA1 cytosine deaminase expression unit coding frame (from N-terminal to C-terminal Contains GGGS linker, SH3 linker, PmCDA1 coding region, NLS signal peptide, UGI coding region, SGGS linker, NLS signal peptide in turn), plant codon optimization and artificial synthesis, nucleotide sequence as in Seq ID No.1 6157bp to 7374bp (the coded amino acid sequence is shown as 1383AA to 1788AA in Seq ID No.2). Further, another 3 basic units are obtained through artificial synthesis:

a、frag-A：Poly A，核苷酸序列如Seq ID No.1中第7384bp至第7431bp所示；a. frag-A: Poly A, the nucleotide sequence is shown as 7384bp to 7431bp in Seq ID No.1;

b、frag-B：sgRNA克隆及转录单元编码序列，从5’端到3’端依次包含tRNA-Gly编码序列、BsaI-ccdB-BsaI单元、sgRNA骨架编码序列、tRNA-Gly编码序列：核苷酸序如Seq IDNo.1中第7432bp至第8300bp所示)；b. frag-B: sgRNA clone and transcription unit coding sequence, including tRNA-Gly coding sequence, BsaI-ccdB-BsaI unit, sgRNA backbone coding sequence, tRNA-Gly coding sequence from 5' end to 3' end: nucleoside The acid sequence is shown in the 7432bp to the 8300bp in Seq ID No.1);

c、frag-C：水稻HSP终止子编码序列，核苷酸序列如Seq ID No.1中第8307bp至第8556bp所示。c. frag-C: rice HSP terminator coding sequence, the nucleotide sequence is shown in the 8307th bp to the 8556th bp in Seq ID No.1.

通过融合PCR方式，依次将nCas9核酸酶蛋白D10A突变体编码框编码序列、PmCDA1胞嘧啶脱氨酶表达单元编码框编码序列、frag-A、frag-B、frag-C进行融合，并分别在融合PCR产物5’、3’端添加SbfI、SacI限制酶切位点，得到6560bp组装单元。By means of fusion PCR, the coding sequence of the coding frame of the nCas9 nuclease protein D10A mutant, the coding sequence of the coding frame of the PmCDA1 cytosine deaminase expression unit, frag-A, frag-B, and frag-C were sequentially fused, and respectively in the fusion SbfI and SacI restriction enzyme cutting sites were added to the 5' and 3' ends of the PCR product to obtain a 6560bp assembly unit.

分别对载体骨架pGEL026(Tang X,Zheng X,Qi YP,Zhang D,Cheng Y,Tang A,Voytas DF,Zhang Y.2016.A single transcript CRISPR-Cas9 system for efficientgenome editing in plants.Molecular Plant,9(7):1088-1091.)及6560bp组装单元进行SbfI、SacI双酶切，回收目标片段，进行连接、转化。针对筛选的阳性克隆进行菌落PCR、质粒限制酶切、DNA测序确认了将6560bp组装单元克隆入了pGEL026原有的pZmUbi1下游，完成植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体的构建。The vector backbone pGEL026 (Tang X, Zheng X, Qi YP, Zhang D, Cheng Y, Tang A, Voytas DF, Zhang Y. 2016. A single transcript CRISPR-Cas9 system for efficient genome editing in plants. Molecular Plant, 9( 7): 1088-1091.) and 6560bp assembly unit were subjected to SbfI and SacI double enzyme digestion, and the target fragment was recovered for connection and transformation. Colony PCR, plasmid restriction enzyme digestion, and DNA sequencing were performed on the screened positive clones to confirm that the 6560bp assembly unit was cloned into the downstream of the original pZmUbi1 of pGEL026, and the construction of the plant STU nCas9-PmCDA1 single transcription unit-directed base editing backbone vector was completed.

实施例2基于STU nCas9-PmCDA1系统的水稻内源基因胞嘧啶定向碱基编辑效率高通量鉴定Example 2 High-throughput identification of rice endogenous gene cytosine-directed base editing efficiency based on STU nCas9-PmCDA1 system

1.水稻内源基因sgRNA设计及STU nCas9-PmCDA1碱基编辑重组表达载体构建1. Rice endogenous gene sgRNA design and STU nCas9-PmCDA1 base editing recombinant expression vector construction

针对水稻OsCDC48(LOC_Os03g05730)、OsROC5(LOC_Os02g45250)编码基因，检索5’-NGG-3’PAM位点，选取PAM上游20bp序列设计sgRNA(表1)。For rice OsCDC48 (LOC_Os03g05730) and OsROC5 (LOC_Os02g45250) coding genes, the 5'-NGG-3'PAM site was searched, and the 20bp sequence upstream of the PAM was selected to design sgRNA (Table 1).

表1水稻内源基因sgRNAcrRNA设计、合成及检测信息Table 1 Design, synthesis and detection information of rice endogenous gene sgRNAcrRNA

依据设计的sgRNA位点核酸序列，人工合成对应的正、反向寡核苷酸链，具体序列如下(大写碱基序列代表所设计的位点特异性向导sgRNA位点；小写碱基序列代表与骨架载体互补的粘性末端)：According to the designed sgRNA site nucleic acid sequence, artificially synthesize the corresponding forward and reverse oligonucleotide chains, the specific sequence is as follows (uppercase base sequence represents the designed site-specific guide sgRNA site; lowercase base sequence represents the site with Backbone vector complementary cohesive ends):

BE-OsCDC48-sgRNA01-F(Seq ID No.10)：tgcaGACCAGCCAGCGTCTGGCGC；BE-OsCDC48-sgRNA01-F (Seq ID No.10): tgcaGACCAGCCAGCGTCTGGCGC;

BE-OsCDC48-sgRNA01-R(Seq ID No.11)：aaacGCGCCAGACGCTGGCTGGTC；BE-OsCDC48-sgRNA01-R (Seq ID No.11): aaacGCGCCAGACGCTGGCTGGTC;

BE-OsROC5-gRNA04-F(Seq ID No.12)：tgcaGCAGCTGGCTGAGGGTGCAT；BE-OsROC5-gRNA04-F (Seq ID No.12): tgcaGCAGCTGGCTGAGGGTGCAT;

BE-OsROC5-gRNA04-R(Seq ID No.13)：aaacATGCACCCTCAGCCAGCTGC；BE-OsROC5-gRNA04-R (Seq ID No.13): aaacATGCACCCTCAGCCAGCTGC;

BE-OsROC5-gRNA05-F(Seq ID No.14)：tgcaAGCCAGCTGCTTACAAAAC；BE-OsROC5-gRNA05-F (Seq ID No.14): tgcaAGCCAGCTGCTTACAAAAC;

BE-OsROC5-gRNA05-R(Seq ID No.15)：aaacGTTTTGTAAGCAGCTGGCT。BE-OsROC5-gRNA05-R (Seq ID No. 15): aaacGTTTTGTAAGCAGCTGGCT.

分别将BE-OsCDC48-sgRNA01-F/R、BE-OsROC5-gRNA04-F/R、BE-OsROC5-gRNA05-F/R等比例混合，沸水浴10min，而后自然降温退火，形成具有粘性末端的双链DNA，作为构建重组载体的插入片段。于200uL PCR管中加入植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体、粘末端插入片段、BsaI内切酶和T4 DNA连接酶，设置“37℃酶切-16℃连接”10个循环反应，80℃处理失活内切及连接酶后，取反应产物进行大肠杆菌转化。Mix BE-OsCDC48-sgRNA01-F/R, BE-OsROC5-gRNA04-F/R, and BE-OsROC5-gRNA05-F/R in equal proportions, put them in a boiling water bath for 10 minutes, and then cool down and anneal naturally to form a doublet with sticky ends. stranded DNA as an insert for constructing recombinant vectors. Add the plant STU nCas9-PmCDA1 single transcription unit directed base editing backbone vector, sticky-end insert, BsaI endonuclease and T4 DNA ligase into a 200uL PCR tube, and set up 10 cycles of "37°C digestion-16°C ligation" After the reaction, the endonuclease and ligase were inactivated after being treated at 80°C, and the reaction product was taken for Escherichia coli transformation.

通过卡那霉素抗性筛选、菌落PCR及酶切鉴定阳性转化子，最终通过经测序验证分别得到了STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STUnCas9-PmCDA1-OsROC5-gRNA05重组表达载体。Positive transformants were identified by kanamycin resistance screening, colony PCR and enzyme digestion, and finally STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, STUnCas9-PmCDA1-OsROC5 were obtained through sequencing verification -gRNA05 recombinant expression vector.

2.水稻内源基因STU nCas9-PmCDA1-sgRNA碱基编辑重组表达载体的水稻原生质体转化2. Rice protoplast transformation of rice endogenous gene STU nCas9-PmCDA1-sgRNA base editing recombinant expression vector

分离水稻日本晴原生质体，基于PEG介导的转化方法，分别进行STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体的水稻原生质体转化。水稻原生质体转化具体过程可参考文献(Tang X,Zheng X,Qi YP,Zhang D,Cheng Y,Tang A,Voytas DF,Zhang Y.2016.Asingle transcript CRISPR-Cas9 system for efficient genome editing inplants.Molecular Plant,9(7):1088-1091.)中公开的实验方法。Isolate rice Nipponbare protoplasts, and transform rice protoplasts with STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, and STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vectors based on the PEG-mediated transformation method . The specific process of rice protoplast transformation can refer to the literature (Tang X, Zheng X, Qi YP, Zhang D, Cheng Y, Tang A, Voytas DF, Zhang Y.2016. Asingle transcript CRISPR-Cas9 system for efficient genome editing inplants. Molecular Plant , 9(7):1088-1091.) The experimental method disclosed in.

3.水稻内源OsCDC48、OsROC5基因特定位点胞嘧啶碱基定向编辑检测3. Detection of targeted editing of cytosine bases at specific sites in rice endogenous OsCDC48 and OsROC5 genes

水稻原生质体转化后，25℃暗培养48小时，收集转化细胞，CTAB方法提取水稻原生质体基因组DNA，以该DNA为模板，进行PCR扩增及Illumina高通量测序，具体方法参考文献(Tang X,Lowder LG,Zhang T,Malzahn A,Zheng X,Voytas DF,Zhong Z,Chen Y,Ren Q,LiQ,Kirkland ER,Zhang Y,Qi Y.2017.A CRISPR-Cpf1 system for efficient genomeediting and transcriptional repression in plants.Nature Plants,3:17018.)中公开的实验方法。After the rice protoplasts were transformed, they were cultured in the dark at 25°C for 48 hours, and the transformed cells were collected. The genomic DNA of the rice protoplasts was extracted by the CTAB method, and the DNA was used as a template for PCR amplification and Illumina high-throughput sequencing. For specific methods, refer to the literature (Tang X ,Lowder LG,Zhang T,Malzahn A,Zheng X,Voytas DF,Zhong Z,Chen Y,Ren Q,LiQ,Kirkland ER,Zhang Y,Qi Y.2017.A CRISPR-Cpf1 system for efficient genome editing and transcriptional repression in plants. Nature Plants, 3: 17018.).

Illumina高通量测序结果分析表明，针对水稻OsCDC48、OsROC5内源基因共3个胞嘧啶碱基编辑目标序列分别实现了28.62％(OsCDC48-sgRNA01)、30.99％(OsROC5-gRNA04)、49.41％(OsROC5-gRNA05)的胞嘧啶碱基替换为胸腺嘧啶碱基的编辑效率(图2：nCas9-PmCDA1)。特别指出的是，作为对照组(依据参考文献报道(Komor AC,Kim YB,PackerMS,Zuris JA,Liu DR.2016.Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage.Nature,533(7603):420-424.)，将rApobec1胞嘧啶脱氨酶替换本发明构建的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体中的PmCDA1单元)，相同目标序列的胞嘧啶编辑效率分别为7.65％(OsCDC48-sgRNA01)、4.44％(OsROC5-gRNA04)、4.16％(OsROC5-gRNA05)(图2：nCas9-rApobec1)。Analysis of Illumina high-throughput sequencing results showed that 28.62% (OsCDC48-sgRNA01), 30.99% (OsROC5-gRNA04), 49.41% (OsROC5 -gRNA05) the editing efficiency of cytosine bases replaced by thymine bases (Figure 2: nCas9-PmCDA1). In particular, as a control group (according to reference reports (Komor AC, Kim YB, PackerMS, Zuris JA, Liu DR.2016. Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage. Nature, 533 (7603 ): 420-424.), the rApobec1 cytosine deaminase is replaced by the PmCDA1 unit in the plant STU nCas9-PmCDA1 single transcription unit directed base editing backbone vector constructed by the present invention), and the cytosine editing efficiencies of the same target sequence are respectively 7.65% (OsCDC48-sgRNA01), 4.44% (OsROC5-gRNA04), 4.16% (OsROC5-gRNA05) (Figure 2: nCas9-rApobec1).

针对测定的水稻3个胞嘧啶碱基编辑目标序列，依据Illumina高通量测序结果，进一步分析具体编辑位点处独立胞嘧啶碱基位点替换为胸腺嘧啶碱基的编辑效率表明：OsCDC48-sgRNA01处C3、C4、C7、C8、C11、C14共6个胞嘧啶碱基发生了有效胸腺嘧啶碱基替换编辑(图3：nCas9-PmCDA1)；OsROC5-gRNA04处C2、C5共2个胞嘧啶碱基发生了有效胸腺嘧啶碱基替换编辑(图4：nCas9-PmCDA1)；OsROC5-gRNA05处C-1、C3、C4共3个胞嘧啶碱基发生了有效胸腺嘧啶碱基替换编辑(图5：nCas9-PmCDA1)。特别指出的是，基于本发明构建的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，在OsROC5-gRNA05处-1bp的C-1位点，检测到了37.94％的胞嘧啶碱基替换为胸腺嘧啶碱基的编辑效率(图5：nCas9-PmCDA1)，这种位于sgRNA靶向序列区间外侧的胞嘧啶碱基编辑事件，在现有研究中还未能实现。同时，作为对照组，在测试的3个水稻胞嘧啶碱基编辑目标序列处独立胞嘧啶碱基位点替换为胸腺嘧啶碱基的编辑窗口、编辑效率均显著低于本发明实施例(图3：nCas9-rApobec1；图4：nCas9-rApobec1；图5：nCas9-rApobec1；)。Based on the determined three cytosine base editing target sequences in rice, based on the Illumina high-throughput sequencing results, further analysis of the editing efficiency of replacing independent cytosine base sites with thymine bases at specific editing sites showed that: OsCDC48-sgRNA01 A total of 6 cytosine bases at C3, C4, C7, C8, C11, and C14 had effective thymine base substitution editing (Figure 3: nCas9-PmCDA1); a total of 2 cytosine bases at C2 and C5 at OsROC5-gRNA04 Effective thymine base substitution editing occurred at the base (Figure 4: nCas9-PmCDA1); a total of 3 cytosine bases C-1, C3, and C4 at OsROC5-gRNA05 had effective thymine base substitution editing (Figure 5: nCas9-PmCDA1). In particular, based on the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone carrier constructed by the present invention, at the C-1 site of -1bp at OsROC5-gRNA05, 37.94% of cytosine bases were replaced by The editing efficiency of thymine bases (Figure 5: nCas9-PmCDA1), a cytosine base editing event located outside the sgRNA target sequence interval, has not been achieved in existing studies. At the same time, as a control group, the editing window and editing efficiency of replacing independent cytosine base sites with thymine bases at the three tested rice cytosine base editing target sequences were significantly lower than those in the examples of the present invention (Figure 3 : nCas9-rApobec1; Figure 4: nCas9-rApobec1; Figure 5: nCas9-rApobec1;).

以上测试结果说明，基于本发明构建的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，可以有效实现水稻内源基因特定区域胞嘧啶碱基高效定向编辑，并可以进一步拓展编辑窗口范围。The above test results show that the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone vector constructed based on the present invention can effectively realize efficient directional editing of cytosine bases in specific regions of rice endogenous genes, and can further expand the scope of editing window.

实施例3基于STU nCas9-PmCDA1系统的水稻内源基因胞嘧啶定向碱基编辑再生植株创制及效率分析Example 3 Based on the STU nCas9-PmCDA1 system, the creation and efficiency analysis of rice endogenous gene cytosine-directed base editing regenerated plants

1.水稻内源基因STU nCas9-PmCDA1-sgRNA碱基编辑重组表达载体的农杆菌转化1. Agrobacterium transformation of rice endogenous gene STU nCas9-PmCDA1-sgRNA base editing recombinant expression vector

将实施例2中成功构建，且于水稻原生质体中检测过定向修饰活性的STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体通过热激法分别转化农杆菌EHA105感受态细胞，涂布在含50毫克/升卡那霉素和50毫克/升利福平的LB固体培养基上，28℃黑暗培养2天后，得到阳性克隆。阳性克隆在含50毫克/升卡那霉素和50毫克/升利福平的LB液体培养基中活化，用于后续转化。The STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, and STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vectors successfully constructed in Example 2 and detected in rice protoplasts for directional modification activity were passed The competent cells of Agrobacterium EHA105 were transformed by the heat shock method, spread on LB solid medium containing 50 mg/L kanamycin and 50 mg/L rifampicin, and cultured in the dark at 28°C for 2 days to obtain positive clones. Positive clones were activated in LB liquid medium containing 50 mg/L kanamycin and 50 mg/L rifampicin for subsequent transformation.

2.农杆菌介导的水稻内源基因STU nCas9-PmCDA1-sgRNA碱基编辑重组表达载体的水稻愈伤转化2. Agrobacterium-mediated rice callus transformation of rice endogenous gene STU nCas9-PmCDA1-sgRNA base-edited recombinant expression vector

将STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STUnCas9-PmCDA1-OsROC5-gRNA05重组表达载体通过农杆菌介导的转化方法，分别进行水稻愈伤组织转化。转化的具体过程参考文献(Tang X,Zheng X,Qi YP,Zhang D,Cheng Y,TangA,Voytas DF,Zhang Y.2016.A single transcript CRISPR-Cas9 system for efficientgenome editing in plants.Molecular Plant,9(7):1088-1091.)中公开的实验方法。The recombinant expression vectors of STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, and STUnCas9-PmCDA1-OsROC5-gRNA05 were transformed into rice callus by Agrobacterium-mediated transformation. References for the specific process of transformation (Tang X, Zheng X, Qi YP, Zhang D, Cheng Y, TangA, Voytas DF, Zhang Y.2016.A single transcript CRISPR-Cas9 system for efficient genome editing in plants. Molecular Plant, 9( 7): 1088-1091.) The experimental method disclosed in.

3.水稻内源基因STU nCas9-PmCDA1-sgRNA碱基编辑重组表达载体稳定转化再生植株定向碱基编辑检测及效率分析3. Targeted base editing detection and efficiency analysis of rice endogenous gene STU nCas9-PmCDA1-sgRNA base editing recombinant expression vector stably transformed and regenerated plants

待转化后抗性愈伤诱导成水稻幼苗，提取水稻转化再生幼苗基因组DNA，以该DNA为模板进行PCR扩增及Sanger测序分析。STU nCas9-PmCDA1-OsCDC48-sgRNA01、STU nCas9-PmCDA1-OsROC5-gRNA04、STU nCas9-PmCDA1-OsROC5-gRNA05重组表达载体水稻转化再生植株分析表明，针对水稻OsCDC48、OsROC5内源基因共3个胞嘧啶碱基编辑目标序列分别实现了44.44％(OsCDC48-sgRNA01：8/18)、100.00％(OsROC5-gRNA04：26/26)、68.75％(OsROC5-gRNA05：11/16)的碱基编辑效率(图6：nCas9-PmCDA1)。该测试结果进一步说明，本发明构建的植物STU nCas9-PmCDA1单一转录单元定向碱基编辑骨架载体，可以有效实现水稻内源基因特定区域胞嘧啶碱基高效定向编辑，并获得碱基编辑再生植株，是一种有效实现植物基因组碱基定向编辑的分子工具，可以提升基因组工程化作物改良效率。After the transformation, the resistant callus was induced into rice seedlings, and the genomic DNA of the transformed and regenerated rice seedlings was extracted, and the DNA was used as a template for PCR amplification and Sanger sequencing analysis. STU nCas9-PmCDA1-OsCDC48-sgRNA01, STU nCas9-PmCDA1-OsROC5-gRNA04, STU nCas9-PmCDA1-OsROC5-gRNA05 recombinant expression vectors The analysis of rice transformed and regenerated plants showed that three cytosine bases targeting rice OsCDC48 and OsROC5 endogenous genes Base editing target sequences achieved base editing efficiencies of 44.44% (OsCDC48-sgRNA01: 8/18), 100.00% (OsROC5-gRNA04: 26/26), and 68.75% (OsROC5-gRNA05: 11/16) (Figure 6 : nCas9-PmCDA1). The test results further illustrate that the plant STU nCas9-PmCDA1 single transcription unit directional base editing backbone carrier constructed by the present invention can effectively realize efficient directional editing of cytosine bases in specific regions of rice endogenous genes, and obtain base editing regenerated plants, It is a molecular tool to effectively realize the targeted editing of plant genome bases, which can improve the efficiency of genome engineering crop improvement.

核苷酸和氨基酸序列Nucleotide and Amino Acid Sequences

Seq ID No.1：pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T的核苷酸序列Seq ID No.1: Nucleotide sequence of pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-HSP T

CGCGCCTGCAGTGCAGCGTGACCCGGTCGTGCCCCTCTCTTGAGATAATGAGCATTGCATGTCTAAGTTATAAAAAATTACCACATATTTTTTTTGTCACACTTGTTTGAAGTGCAGTTTATCTATCTTTATACATATATTTAAACTTTACTCTACGAATAATATAATCTATAGTACTACAATAATATCAGTGTTTTAGAGAATCATATAAATGAACAGTTAGACATGGTCTAAAGGACAATTGAGTATTTTGACAACAGGACTCTACAGTTTTATCTTTTTAGTGTGCATGTGTTCTCCTTTTTTTTTGCAAATAGCTTCACCTATATAATACTTCATCCATTTTATTAGTACATCCATTTAGGGTTTAGGGTTAATGGTTTTTATAGACTAATTTTTTTAGTACATCTATTTTATTCTATTTTAGCCTCTAAATTAAGAAAACTAAAACTCTATTTTAGTTTTTTTATTTAATAATTTAGATATAAAATAGAATAAAATAAAGTGACTAAAAATTAAACAAATACCCTTTAAGAAATTAAAAAAACTAAGGAAACATTTTTCTTGTTTCGAGTAGATAATGCCAGCCTGTTAAACGCCGTCGACGAGTCTAACGGACACCAACCAGCGAACCAGCAGCGTCGCGTCGGGCCAAGCGAAGCAGACGGCACGGCATCTCTGTCGCTGCCTCTGGACCCCTCTCGAGAGTTCCGCTCCACCGTTGGACTTGCTCCGCTGTCGGCATCCAGAAATTGCGTGGCGGAGCGGCAGACGTGAGCCGGCACGGCAGGCGGCCTCCTCCTCCTCTCACGGCACCGGCAGCTACGGGGGATTCCTTTCCCACCGCTCCTTCGCTTTCCCTTCCTCGCCCGCCGTAATAAATAGACACCCCCTCCACACCCTCTTTCCCCAACCTCGTGTTGTTCGGAGCGCACACACACACAACCAGAACTCCCCCAAATCCACCCGTCGGCACCTCCGCTTCAAGGTACGCCGCTCGTCCTCCCCCCCCCCCCCTCTCTACCTTCTCAAGATCGGCGTTCCGGTCCATGGTTAGGGCCCGGTAGTTCTACTTCTGTTCATGTTTGTGTTAGATCCGTGTTTGTGTTAGATCCGTGCTACTAGCGTTCGTACACGGATGCGACCTGTACGTCAGACACGTTCTGATTGCTAACTTGCCAGTGTTTCTCTTTGGGGAATCCTGGGATGGCTCTAGCCGTTCCGCAGACGGGATCGATTTCATGATTTTTTTTGTTTCGTTGCATAGGGTTTGGTTTGCCCTTTTCCTTTATTTCAATATATGCCGTGCACTTGTTTGTCGGGTCATCTTTTCATGCTTTTTTTTGTCTTGGTTGTGATGATGTGGTCTGGTTGGGCGGTCGTTCAAGATCGGAGTAGAATTAATTCTGTTTCAAACTACCTGGTGGATTTATTAATTTTGGATCTGTATGTGTGTGCCATACATATTCATAGTTACGAATTGAAGATGATGGATGGAAATATCGATCTAGGATAGGTATACATGTTGATGCGGGTTTTACTGATGCATATACAGAGATGCTTTTTGTTCGCTTGGTTGTGATGATGTGGTGTGGTTGGGCGGTCGTTCATTCGTTCAAGATCGGAGTAGAATACTGTTTCAAACTACCTGGTGTATTTATTAATTTTGGAACTGTATGTGTGTGTCATACATCTTCATAGTTACGAGTTTAAGATGGATGGAAATATCGATCTAGGATAGGTATACATGTTGATGTGGGTTTTACTGATGCATATACATGATGGCATATGCAGCATCTATTCATATGCTCTAACCTTGAGTACCTATCTATTATAATAAACAAGTATGTTTTATAATTATTTTGATCTTGATATACTTGGATGATGGCATATGCAGCAGCTATATGTGGATTTTTTTAGCCCTGCCTTCATACGCTATTTATTTGCTTGGTACTGTTTCTTTTGTCGATGCTCACCCTGTTGTTTGGTGTTACTTCTGCAGCCTGCAGGATGGATAAGAAGTACTCTATCGGACTCGCTATCGGAACTAACTCTGTGGGATGGGCTGTGATCACCGATGAGTACAAGGTGCCATCTAAGAAGTTCAAGGTTCTCGGAAACACCGATAGGCACTCTATCAAGAAAAACCTTATCGGTGCTCTCCTCTTCGATTCTGGTGAAACTGCTGAGGCTACCAGACTCAAGAGAACCGCTAGAAGAAGGTACACCAGAAGAAAGAACAGGATCTGCTACCTCCAAGAGATCTTCTCTAACGAGATGGCTAAAGTGGATGATTCATTCTTCCACAGGCTCGAAGAGTCATTCCTCGTGGAAGAAGATAAGAAGCACGAGAGGCACCCTATCTTCGGAAACATCGTTGATGAGGTGGCATACCACGAGAAGTACCCTACTATCTACCACCTCAGAAAGAAGCTCGTTGATTCTACTGATAAGGCTGATCTCAGGCTCATCTACCTCGCTCTCGCTCACATGATCAAGTTCAGAGGACACTTCCTCATCGAGGGTGATCTCAACCCTGATAACTCTGATGTGGATAAGTTGTTCATCCAGCTCGTGCAGACCTACAACCAGCTTTTCGAAGAGAACCCTATCAACGCTTCAGGTGTGGATGCTAAGGCTATCCTCTCTGCTAGGCTCTCTAAGTCAAGAAGGCTTGAGAACCTCATTGCTCAGCTCCCTGGTGAGAAGAAGAACGGACTTTTCGGAAACTTGATCGCTCTCTCTCTCGGACTCACCCCTAACTTCAAGTCTAACTTCGATCTCGCTGAGGATGCAAAGCTCCAGCTCTCAAAGGATACCTACGATGATGATCTCGATAACCTCCTCGCTCAGATCGGAGATCAGTACGCTGATTTGTTCCTCGCTGCTAAGAACCTCTCTGATGCTATCCTCCTCAGTGATATCCTCAGAGTGAACACCGAGATCACCAAGGCTCCACTCTCAGCTTCTATGATCAAGAGATACGATGAGCACCACCAGGATCTCACACTTCTCAAGGCTCTTGTTAGACAGCAGCTCCCAGAGAAGTACAAAGAGATTTTCTTCGATCAGTCTAAGAACGGATACGCTGGTTACATCGATGGTGGTGCATCTCAAGAAGAGTTCTACAAGTTCATCAAGCCTATCCTCGAGAAGATGGATGGAACCGAGGAACTCCTCGTGAAGCTCAATAGAGAGGATCTTCTCAGAAAGCAGAGGACCTTCGATAACGGATCTATCCCTCATCAGATCCACCTCGGAGAGTTGCACGCTATCCTTAGAAGGCAAGAGGATTTCTACCCATTCCTCAAGGATAACAGGGAAAAGATTGAGAAGATTCTCACCTTCAGAATCCCTTACTACGTGGGACCTCTCGCTAGAGGAAACTCAAGATTCGCTTGGATGACCAGAAAGTCTGAGGAAACCATCACCCCTTGGAACTTCGAAGAGGTGGTGGATAAGGGTGCTAGTGCTCAGTCTTTCATCGAGAGGATGACCAACTTCGATAAGAACCTTCCAAACGAGAAGGTGCTCCCTAAGCACTCTTTGCTCTACGAGTACTTCACCGTGTACAACGAGTTGACCAAGGTTAAGTACGTGACCGAGGGAATGAGGAAGCCTGCTTTTTTGTCAGGTGAGCAAAAGAAGGCTATCGTTGATCTCTTGTTCAAGACCAACAGAAAGGTGACCGTGAAGCAGCTCAAAGAGGATTACTTCAAGAAAATCGAGTGCTTCGATTCAGTTGAGATTTCTGGTGTTGAGGATAGGTTCAACGCATCTCTCGGAACCTACCACGATCTCCTCAAGATCATTAAGGATAAGGATTTCTTGGATAACGAGGAAAACGAGGATATCTTGGAGGATATCGTTCTTACCCTCACCCTCTTTGAAGATAGAGAGATGATTGAAGAAAGGCTCAAGACCTACGCTCATCTCTTCGATGATAAGGTGATGAAGCAGTTGAAGAGAAGAAGATACACTGGTTGGGGAAGGCTCTCAAGAAAGCTCATTAACGGAATCAGGGATAAGCAGTCTGGAAAGACAATCCTTGATTTCCTCAAGTCTGATGGATTCGCTAACAGAAACTTCATGCAGCTCATCCACGATGATTCTCTCACCTTTAAAGAGGATATCCAGAAGGCTCAGGTTTCAGGACAGGGTGATAGTCTCCATGAGCATATCGCTAACCTCGCTGGATCTCCTGCAATCAAGAAGGGAATCCTCCAGACTGTGAAGGTTGTGGATGAGTTGGTGAAGGTGATGGGAAGGCATAAGCCTGAGAACATCGTGATCGAAATGGCTAGAGAGAACCAGACCACTCAGAAGGGACAGAAGAACTCTAGGGAAAGGATGAAGAGGATCGAGGAAGGTATCAAAGAGCTTGGATCTCAGATCCTCAAAGAGCACCCTGTTGAGAACACTCAGCTCCAGAATGAGAAGCTCTACCTCTACTACCTCCAGAACGGAAGGGATATGTATGTGGATCAAGAGTTGGATATCAACAGGCTCTCTGATTACGATGTTGATCATATCGTGCCACAGTCATTCTTGAAGGATGATTCTATCGATAACAAGGTGCTCACCAGGTCTGATAAGAACAGGGGTAAGAGTGATAACGTGCCAAGTGAAGAGGTTGTGAAGAAAATGAAGAACTATTGGAGGCAGCTCCTCAACGCTAAGCTCATCACTCAGAGAAAGTTCGATAACTTGACTAAGGCTGAGAGGGGAGGACTCTCTGAATTGGATAAGGCAGGATTCATCAAGAGGCAGCTTGTGGAAACCAGGCAGATCACTAAGCACGTTGCACAGATCCTCGATTCTAGGATGAACACCAAGTACGATGAGAACGATAAGTTGATCAGGGAAGTGAAGGTTATCACCCTCAAGTCAAAGCTCGTGTCTGATTTCAGAAAGGATTTCCAATTCTACAAGGTGAGGGAAATCAACAACTACCACCACGCTCACGATGCTTACCTTAACGCTGTTGTTGGAACCGCTCTCATCAAGAAGTATCCTAAGCTCGAGTCAGAGTTCGTGTACGGTGATTACAAGGTGTACGATGTGAGGAAGATGATCGCTAAGTCTGAGCAAGAGATCGGAAAGGCTACCGCTAAGTATTTCTTCTACTCTAACATCATGAATTTCTTCAAGACCGAGATTACCCTCGCTAACGGTGAGATCAGAAAGAGGCCACTCATCGAGACAAACGGTGAAACAGGTGAGATCGTGTGGGATAAGGGAAGGGATTTCGCTACCGTTAGAAAGGTGCTCTCTATGCCACAGGTGAACATCGTTAAGAAAACCGAGGTGCAGACCGGTGGATTCTCTAAAGAGTCTATCCTCCCTAAGAGGAACTCTGATAAGCTCATTGCTAGGAAGAAGGATTGGGACCCTAAGAAATACGGTGGTTTCGATTCTCCTACCGTGGCTTACTCTGTTCTCGTTGTGGCTAAGGTTGAGAAGGGAAAGAGTAAGAAGCTCAAGTCTGTTAAGGAACTTCTCGGAATCACTATCATGGAAAGGTCATCTTTCGAGAAGAACCCAATCGATTTCCTCGAGGCTAAGGGATACAAAGAGGTTAAGAAGGATCTCATCATCAAGCTCCCAAAGTACTCACTCTTCGAACTCGAGAACGGTAGAAAGAGGATGCTCGCTTCTGCTGGTGAGCTTCAAAAGGGAAACGAGCTTGCTCTCCCATCTAAGTACGTTAACTTTCTTTACCTCGCTTCTCACTACGAGAAGTTGAAGGGATCTCCAGAAGATAACGAGCAGAAGCAACTTTTCGTTGAGCAGCACAAGCACTACTTGGATGAGATCATCGAGCAGATCTCTGAGTTCTCTAAAAGGGTGATCCTCGCTGATGCAAACCTCGATAAGGTGTTGTCTGCTTACAACAAGCACAGAGATAAGCCTATCAGGGAACAGGCAGAGAACATCATCCATCTCTTCACCCTTACCAACCTCGGTGCTCCTGCTGCTTTCAAGTACTTCGATACAACCATCGATAGGAAGAGATACACCTCTACCAAAGAAGTGCTCGATGCTACCCTCATCCATCAGTCTATCACTGGACTCTACGAGACTAGGATCGATCTCTCACAGCTCGGTGGTGATTCAAGGGCTGATCCTAAGAAGAAGAGGAAGGTTGGAGACGACGGAGGTGGCGGTACAGGAGGGGGTGGGTCCGCTGAGTATGTCAGGGCGTTGTTCGACTTCAATGGAAACGACGAGGAAGATCTGCCTTTTAAAAAGGGAGATATTCTCAGGATCAGAGATAAGCCGGAAGAACAATGGTGGAACGCTGAAGACTCTGAAGGTAAGAGAGGTATGATTCTTGTCCCCTACGTCGAGAAGTATTCGGGTGACTATAAAGACCACGATGGAGATTATAAGGACCACGATATAGATTATAAGGATGATGATGATAAGAGCGGAATGACCGATGCAGAGTACGTCAGGATTCATGAGAAACTTGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCTGTTAGTCACCGCTGTTACGTGCTGTTCGAATTGAAACGCAGAGGTGAGAGGAGAGCCTGCTTTTGGGGCTATGCCGTCAACAAGCCGCAAAGCGGCACAGAAAGGGGCATTCACGCGGAGATATTTAGCATTAGAAAGGTCGAGGAATACCTTCGGGATAATCCCGGGCAATTCACTATCAATTGGTACTCTTCATGGTCCCCGTGTGCAGATTGCGCTGAAAAGATACTGGAGTGGTATAATCAAGAACTCAGAGGAAACGGTCACACCCTCAAGATTTGGGCTTGCAAGCTTTACTACGAGAAAAATGCAAGGAACCAGATCGGCCTCTGGAACTTGCGCGACAACGGCGTGGGGTTGAATGTGATGGTGTCGGAGCATTACCAGTGCTGCCGGAAGATATTCATTCAGTCGTCACATAATCAATTGAACGAGAATAGGTGGCTCGAAAAAACCCTGAAGCGGGCCGAGAAGTGGAGGAGTGAACTCTCGATAATGATCCAGGTTAAAATACTGCATACTACCAAATCTCCGGCGGTGGGACCGAAGAAGAAGCGCAAGGTGGGGACCATGACTAATCTCTCAGATATAATCGAGAAGGAAACAGGAAAGCAACTGGTCATCCAAGAATCGATTTTGATGCTTCCCGAAGAAGTCGAAGAAGTTATAGGAAATAAGCCCGAGTCTGACATACTGGTTCACACAGCGTACGATGAAAGTACGGACGAGAATGTCATGTTGCTGACATCGGACGCACCTGAATACAAGCCTTGGGCTCTGGTCATACAAGATAGTAACGGAGAAAATAAGATTAAAATGCTTTCAGGTGGCTCCCCAAAGAAGAAACGCAAGGTTTGAGGATCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAGCACCAGTGGTCTAGTGGTAGAATAGTACCCTGCCACGGTACAGACCCGGGTTCGATTCCCGGCTGGTGCAGGAGACCTTATATTCCCCAGAACATCAGGTTAATGGCGTTTTTGATGTCATTTTCGCGGTGGCTGAGATCAGCCACTTCTTCCCCGATAACGGAAACCGGCACACTGGCCATATCGGTGGTCATCATGCGCCAGCTTTCATCCCCGATATGCACCACCGGGTAAAGTTCACGGGAGACTTTATCTGACAGCAGACGTGCACTGGCCAGGGGGATCACCATCCGTCGCCCGGGCGTGTCAATAATATCACTCTGTACATCCACAAACAGACGATAACGGCTCTCTCTTTTATAGGTGTAAACCTTAAACTGCATTTCACCAGCCCCTGTTCTCGTCAGCAAAAGAGCCGTTCATTTCAATAAACCGGGCGACCTCAGCCATCCCTTCCTGATTTTCCGCTTTCCAGCGTTCGGCACGCAGACGACGGGCTTCATTCTGCATGGTTGTGCTTACCAGACCGGAGATATTGACATCATATATGCCTTGAGCAACTGATAGCTGTCGCTGTCAACTGTCACTGTAATACGCTGCTTCATAGCATACCTCTTTTTGACATACTTCGGGTATACATATCAGTATATATTCTTATACCGCAAAAATCAGCGCGCAAATACGCATACTGTTATCTGGCTTGGTCTCAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCAACAAAGCACCAGTGGTCTAGTGGTAGAATAGTACCCTGCCACGGTACAGACCCGGGTTCGATTCCCGGCTGGTGCAGGATCCATATGAAGATGAAGATGAAATATTTGGTGTGTCAAATAAAAAGCTTGTGTGCTTAAGTTTGTGTTTTTTTCTTGGCTTGTTGTGTTATGAATTTGTGGCTTTTTCTAATATTAAATGAATGTAAGATCACATTATAATGAATAAACAAATGTTTCTATAATCCATTGTGAATGTTTTGTTGGATCTCTTCTGCAGCATATAACTACTGTATGTGCTATGGTATGGACTATGGAATATGATTAAAGATAAGCGCGCCTGCAGTGCAGCGTGACCCGGTCGTGCCCCTCTCTTGAGATAATGAGCATTGCATGTCTAAGTTATAAAAAATTACCACATATTTTTTTTGTCACACTTGTTTGAAGTGCAGTTTATCTATCTTTATACATATATTTAAACTTTACTCTACGAATAATATAATCTATAGTACTACAATAATATCAGTGTTTTAGAGAATCATATAAATGAACAGTTAGACATGGTCTAAAGGACAATTGAGTATTTTGACAACAGGACTCTACAGTTTTATCTTTTTAGTGTGCATGTGTTCTCCTTTTTTTTTGCAAATAGCTTCACCTATATAATACTTCATCCATTTTATTAGTACATCCATTTAGGGTTTAGGGTTAATGGTTTTTATAGACTAATTTTTTTAGTACATCTATTTTATTCTATTTTAGCCTCTAAATTAAGAAAACTAAAACTCTATTTTAGTTTTTTTATTTAATAATTTAGATATAAAATAGAATAAAATAAAGTGACTAAAAATTAAACAAATACCCTTTAAGAAATTAAAAAAACTAAGGAAACATTTTTCTTGTTTCGAGTAGATAATGCCAGCCTGTTAAACGCCGTCGACGAGTCTAACGGACACCAACCAGCGAACCAGCAGCGTCGCGTCGGGCCAAGCGAAGCAGACGGCACGGCATCTCTGTCGCTGCCTCTGGACCCCTCTCGAGAGTTCCGCTCCACCGTTGGACTTGCTCCGCTGTCGGCATCCAGAAATTGCGTGGCGGAGCGGCAGACGTGAGCCGGCACGGCAGGCGGCCTCCTCCTCCTCTCACGGCACCGGCAGCTACGGGGGATTCCTTTCCCACCGCTCCTTCGCTTTCCCTTCCTCGCCCGCCGTAATAAATAGACACCCCCTCCACACCCTCTTTCCCCAACCTCGTGTTGTTCGGAGCGCACACACACACAACCAGAACTCCCCCAAATCCACCCGTCGGCACCTCCGCTTCAAGGTACGCCGCTCG TCCTCCCCCCCCCCCCCTCTCTACCTTCTCAAGATCGGCGTTCCGGTCCATGGTTAGGGCCCGGTAGTTCTACTTCTGTTCATGTTTGTGTTAGATCCGTGTTTGTGTTAGATCCGTGCTACTAGCGTTCGTACACGGATGCGACCTGTACGTCAGACACGTTCTGATTGCTAACTTGCCAGTGTTTCTCTTTGGGGAATCCTGGGATGGCTCTAGCCGTTCCGCAGACGGGATCGATTTCATGATTTTTTTTGTTTCGTTGCATAGGGTTTGGTTTGCCCTTTTCCTTTATTTCAATATATGCCGTGCACTTGTTTGTCGGGTCATCTTTTCATGCTTTTTTTTGTCTTGGTTGTGATGATGTGGTCTGGTTGGGCGGTCGTTCAAGATCGGAGTAGAATTAATTCTGTTTCAAACTACCTGGTGGATTTATTAATTTTGGATCTGTATGTGTGTGCCATACATATTCATAGTTACGAATTGAAGATGATGGATGGAAATATCGATCTAGGATAGGTATACATGTTGATGCGGGTTTTACTGATGCATATACAGAGATGCTTTTTGTTCGCTTGGTTGTGATGATGTGGTGTGGTTGGGCGGTCGTTCATTCGTTCAAGATCGGAGTAGAATACTGTTTCAAACTACCTGGTGTATTTATTAATTTTGGAACTGTATGTGTGTGTCATACATCTTCATAGTTACGAGTTTAAGATGGATGGAAATATCGATCTAGGATAGGTATACATGTTGATGTGGGTTTTACTGATGCATATACATGATGGCATATGCAGCATCTATTCATATGCTCTAACCTTGAGTACCTATCTATTATAATAAACAAGTATGTTTTATAATTATTTTGATCTTGATATACTTGGATGATGGCATATGCAGCAGCTATATGTGGATTTTTTTAGCCCTGCCTTCATACGCTATTTATTTGCTTGGTACTGTTTCTTTTGTCGATGCTCACCCTGTTGTTTGGTGTTACTTCTGC AGCCTGCAGGATGGATAAGAAGTACTCTATCGGACTCGCTATCGGAACTAACTCTGTGGGATGGGCTGTGATCACCGATGAGTACAAGGTGCCATCTAAGAAGTTCAAGGTTCTCGGAAACACCGATAGGCACTCTATCAAGAAAAACCTTATCGGTGCTCTCCTCTTCGATTCTGGTGAAACTGCTGAGGCTACCAGACTCAAGAGAACCGCTAGAAGAAGGTACACCAGAAGAAAGAACAGGATCTGCTACCTCCAAGAGATCTTCTCTAACGAGATGGCTAAAGTGGATGATTCATTCTTCCACAGGCTCGAAGAGTCATTCCTCGTGGAAGAAGATAAGAAGCACGAGAGGCACCCTATCTTCGGAAACATCGTTGATGAGGTGGCATACCACGAGAAGTACCCTACTATCTACCACCTCAGAAAGAAGCTCGTTGATTCTACTGATAAGGCTGATCTCAGGCTCATCTACCTCGCTCTCGCTCACATGATCAAGTTCAGAGGACACTTCCTCATCGAGGGTGATCTCAACCCTGATAACTCTGATGTGGATAAGTTGTTCATCCAGCTCGTGCAGACCTACAACCAGCTTTTCGAAGAGAACCCTATCAACGCTTCAGGTGTGGATGCTAAGGCTATCCTCTCTGCTAGGCTCTCTAAGTCAAGAAGGCTTGAGAACCTCATTGCTCAGCTCCCTGGTGAGAAGAAGAACGGACTTTTCGGAAACTTGATCGCTCTCTCTCTCGGACTCACCCCTAACTTCAAGTCTAACTTCGATCTCGCTGAGGATGCAAAGCTCCAGCTCTCAAAGGATACCTACGATGATGATCTCGATAACCTCCTCGCTCAGATCGGAGATCAGTACGCTGATTTGTTCCTCGCTGCTAAGAACCTCTCTGATGCTATCCTCCTCAGTGATATCCTCAGAGTGAACACCGAGATCACCAAGGCTCCACTCTCAGCTTCTATGATCAAGAGATACGATGAGCACCACCAG GATCTCACACTTCTCAAGGCTCTTGTTAGACAGCAGCTCCCAGAGAAGTACAAAGAGATTTTCTTCGATCAGTCTAAGAACGGATACGCTGGTTACATCGATGGTGGTGCATCTCAAGAAGAGTTCTACAAGTTCATCAAGCCTATCCTCGAGAAGATGGATGGAACCGAGGAACTCCTCGTGAAGCTCAATAGAGAGGATCTTCTCAGAAAGCAGAGGACCTTCGATAACGGATCTATCCCTCATCAGATCCACCTCGGAGAGTTGCACGCTATCCTTAGAAGGCAAGAGGATTTCTACCCATTCCTCAAGGATAACAGGGAAAAGATTGAGAAGATTCTCACCTTCAGAATCCCTTACTACGTGGGACCTCTCGCTAGAGGAAACTCAAGATTCGCTTGGATGACCAGAAAGTCTGAGGAAACCATCACCCCTTGGAACTTCGAAGAGGTGGTGGATAAGGGTGCTAGTGCTCAGTCTTTCATCGAGAGGATGACCAACTTCGATAAGAACCTTCCAAACGAGAAGGTGCTCCCTAAGCACTCTTTGCTCTACGAGTACTTCACCGTGTACAACGAGTTGACCAAGGTTAAGTACGTGACCGAGGGAATGAGGAAGCCTGCTTTTTTGTCAGGTGAGCAAAAGAAGGCTATCGTTGATCTCTTGTTCAAGACCAACAGAAAGGTGACCGTGAAGCAGCTCAAAGAGGATTACTTCAAGAAAATCGAGTGCTTCGATTCAGTTGAGATTTCTGGTGTTGAGGATAGGTTCAACGCATCTCTCGGAACCTACCACGATCTCCTCAAGATCATTAAGGATAAGGATTTCTTGGATAACGAGGAAAACGAGGATATCTTGGAGGATATCGTTCTTACCCTCACCCTCTTTGAAGATAGAGAGATGATTGAAGAAAGGCTCAAGACCTACGCTCATCTCTTCGATGATAAGGTGATGAAGCAGTTGAAGAGAAGAAGATACACTGGTTGGGGAAGGCTCTCAA GAAAGCTCATTAACGGAATCAGGGATAAGCAGTCTGGAAAGACAATCCTTGATTTCCTCAAGTCTGATGGATTCGCTAACAGAAACTTCATGCAGCTCATCCACGATGATTCTCTCACCTTTAAAGAGGATATCCAGAAGGCTCAGGTTTCAGGACAGGGTGATAGTCTCCATGAGCATATCGCTAACCTCGCTGGATCTCCTGCAATCAAGAAGGGAATCCTCCAGACTGTGAAGGTTGTGGATGAGTTGGTGAAGGTGATGGGAAGGCATAAGCCTGAGAACATCGTGATCGAAATGGCTAGAGAGAACCAGACCACTCAGAAGGGACAGAAGAACTCTAGGGAAAGGATGAAGAGGATCGAGGAAGGTATCAAAGAGCTTGGATCTCAGATCCTCAAAGAGCACCCTGTTGAGAACACTCAGCTCCAGAATGAGAAGCTCTACCTCTACTACCTCCAGAACGGAAGGGATATGTATGTGGATCAAGAGTTGGATATCAACAGGCTCTCTGATTACGATGTTGATCATATCGTGCCACAGTCATTCTTGAAGGATGATTCTATCGATAACAAGGTGCTCACCAGGTCTGATAAGAACAGGGGTAAGAGTGATAACGTGCCAAGTGAAGAGGTTGTGAAGAAAATGAAGAACTATTGGAGGCAGCTCCTCAACGCTAAGCTCATCACTCAGAGAAAGTTCGATAACTTGACTAAGGCTGAGAGGGGAGGACTCTCTGAATTGGATAAGGCAGGATTCATCAAGAGGCAGCTTGTGGAAACCAGGCAGATCACTAAGCACGTTGCACAGATCCTCGATTCTAGGATGAACACCAAGTACGATGAGAACGATAAGTTGATCAGGGAAGTGAAGGTTATCACCCTCAAGTCAAAGCTCGTGTCTGATTTCAGAAAGGATTTCCAATTCTACAAGGTGAGGGAAATCAACAACTACCACCACGCTCACGATGCTTACCTTAACGCTGTTGTTGGAACCGCTCT CATCAAGAAGTATCCTAAGCTCGAGTCAGAGTTCGTGTACGGTGATTACAAGGTGTACGATGTGAGGAAGATGATCGCTAAGTCTGAGCAAGAGATCGGAAAGGCTACCGCTAAGTATTTCTTCTACTCTAACATCATGAATTTCTTCAAGACCGAGATTACCCTCGCTAACGGTGAGATCAGAAAGAGGCCACTCATCGAGACAAACGGTGAAACAGGTGAGATCGTGTGGGATAAGGGAAGGGATTTCGCTACCGTTAGAAAGGTGCTCTCTATGCCACAGGTGAACATCGTTAAGAAAACCGAGGTGCAGACCGGTGGATTCTCTAAAGAGTCTATCCTCCCTAAGAGGAACTCTGATAAGCTCATTGCTAGGAAGAAGGATTGGGACCCTAAGAAATACGGTGGTTTCGATTCTCCTACCGTGGCTTACTCTGTTCTCGTTGTGGCTAAGGTTGAGAAGGGAAAGAGTAAGAAGCTCAAGTCTGTTAAGGAACTTCTCGGAATCACTATCATGGAAAGGTCATCTTTCGAGAAGAACCCAATCGATTTCCTCGAGGCTAAGGGATACAAAGAGGTTAAGAAGGATCTCATCATCAAGCTCCCAAAGTACTCACTCTTCGAACTCGAGAACGGTAGAAAGAGGATGCTCGCTTCTGCTGGTGAGCTTCAAAAGGGAAACGAGCTTGCTCTCCCATCTAAGTACGTTAACTTTCTTTACCTCGCTTCTCACTACGAGAAGTTGAAGGGATCTCCAGAAGATAACGAGCAGAAGCAACTTTTCGTTGAGCAGCACAAGCACTACTTGGATGAGATCATCGAGCAGATCTCTGAGTTCTCTAAAAGGGTGATCCTCGCTGATGCAAACCTCGATAAGGTGTTGTCTGCTTACAACAAGCACAGAGATAAGCCTATCAGGGAACAGGCAGAGAACATCATCCATCTCTTCACCCTTACCAACCTCGGTGCTCCTGCTGCTTTCAAGTACTTCGATACAACC ATCGATAGGAAGAGATACACCTCTACCAAAGAAGTGCTCGATGCTACCCTCATCCATCAGTCTATCACTGGACTCTACGAGACTAGGATCGATCTCTCACAGCTCGGTGGTGATTCAAGGGCTGATCCTAAGAAGAAGAGGAAGGTTGGAGACGACGGAGGTGGCGGTACAGGAGGGGGTGGGTCCGCTGAGTATGTCAGGGCGTTGTTCGACTTCAATGGAAACGACGAGGAAGATCTGCCTTTTAAAAAGGGAGATATTCTCAGGATCAGAGATAAGCCGGAAGAACAATGGTGGAACGCTGAAGACTCTGAAGGTAAGAGAGGTATGATTCTTGTCCCCTACGTCGAGAAGTATTCGGGTGACTATAAAGACCACGATGGAGATTATAAGGACCACGATATAGATTATAAGGATGATGATGATAAGAGCGGAATGACCGATGCAGAGTACGTCAGGATTCATGAGAAACTTGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCTGTTAGTCACCGCTGTTACGTGCTGTTCGAATTGAAACGCAGAGGTGAGAGGAGAGCCTGCTTTTGGGGCTATGCCGTCAACAAGCCGCAAAGCGGCACAGAAAGGGGCATTCACGCGGAGATATTTAGCATTAGAAAGGTCGAGGAATACCTTCGGGATAATCCCGGGCAATTCACTATCAATTGGTACTCTTCATGGTCCCCGTGTGCAGATTGCGCTGAAAAGATACTGGAGTGGTATAATCAAGAACTCAGAGGAAACGGTCACACCCTCAAGATTTGGGCTTGCAAGCTTTACTACGAGAAAAATGCAAGGAACCAGATCGGCCTCTGGAACTTGCGCGACAACGGCGTGGGGTTGAATGTGATGGTGTCGGAGCATTACCAGTGCTGCCGGAAGATATTCATTCAGTCGTCACATAATCAATTGAACGAGAATAGGTGGCTCGAAAAAACCCTGAAGCGGGCCGAGAAGTGGAGGA GTGAACTCTCGATAATGATCCAGGTTAAAATACTGCATACTACCAAATCTCCGGCGGTGGGACCGAAGAAGAAGCGCAAGGTGGGGACCATGACTAATCTCTCAGATATAATCGAGAAGGAAACAGGAAAGCAACTGGTCATCCAAGAATCGATTTTGATGCTTCCCGAAGAAGTCGAAGAAGTTATAGGAAATAAGCCCGAGTCTGACATACTGGTTCACACAGCGTACGATGAAAGTACGGACGAGAATGTCATGTTGCTGACATCGGACGCACCTGAATACAAGCCTTGGGCTCTGGTCATACAAGATAGTAACGGAGAAAATAAGATTAAAATGCTTTCAGGTGGCTCCCCAAAGAAGAAACGCAAGGTTTGAGGATCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAAAGCACCAGTGGTCTAGTGGTAGAATAGTACCCTGCCACGGTACAGACCCGGGTTCGATTCCCGGCTGGTGCAGGAGACCTTATATTCCCCAGAACATCAGGTTAATGGCGTTTTTGATGTCATTTTCGCGGTGGCTGAGATCAGCCACTTCTTCCCCGATAACGGAAACCGGCACACTGGCCATATCGGTGGTCATCATGCGCCAGCTTTCATCCCCGATATGCACCACCGGGTAAAGTTCACGGGAGACTTTATCTGACAGCAGACGTGCACTGGCCAGGGGGATCACCATCCGTCGCCCGGGCGTGTCAATAATATCACTCTGTACATCCACAAACAGACGATAACGGCTCTCTCTTTTATAGGTGTAAACCTTAAACTGCATTTCACCAGCCCCTGTTCTCGTCAGCAAAAGAGCCGTTCATTTCAATAAACCGGGCGACCTCAGCCATCCCTTCCTGATTTTCCGCTTTCCAGCGTTCGGCACGCAGACGACGGGCTTCATTCTGCATGGTTGTGCTTACCAGACCGGAGATATTGACATCATATATGCCTTGAGCAACT GATAGCTGTCGCTGTCAACTGTCACTGTAATACGCTGCTTCATAGCATACCTCTTTTTGACATACTTCGGGTATACATATCAGTATATATTCTTATACCGCAAAAATCAGCGCGCAAATACGCATACTGTTATCTGGCTTGGTCTCAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCAACAAAGCACCAGTGGTCTAGTGGTAGAATAGTACCCTGCCACGGTACAGACCCGGGTTCGATTCCCGGCTGGTGCAGGATCCATATGAAGATGAAGATGAAATATTTGGTGTGTCAAATAAAAAGCTTGTGTGCTTAAGTTTGTGTTTTTTTCTTGGCTTGTTGTGTTATGAATTTGTGGCTTTTTCTAATATTAAATGAATGTAAGATCACATTATAATGAATAAACAAATGTTTCTATAATCCATTGTGAATGTTTTGTTGGATCTCTTCTGCAGCATATAACTACTGTATGTGCTATGGTATGGACTATGGAATATGATTAAAGATAAG

Seq ID No.2：nCas9-PmCDA1核酸酶-胞嘧啶脱氨酶融合蛋白表达框氨基酸序列Seq ID No.2: Amino acid sequence of nCas9-PmCDA1 nuclease-cytidine deaminase fusion protein expression cassette

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSRADPKKKRKVGDDGGGGTGGGGSAEYVRALFDFNGNDEEDLPFKKGDILRIRDKPEEQWWNAEDSEGKRGMILVPYVEKYSGDYKDHDGDYKDHDIDYKDDDDKSGMTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKWRSELSIMIQVKILHTTKSPAVGPKKKRKVGTMTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSPKKKRKV。MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSRADPKKKRKVGDDGGGGTGGGGSAEYVRALFDFNGNDEEDLPFKKGDILRIRDKPEEQWWNAEDSEGKRGMILVPYVEKYSGDYKDHDGDYKDHDIDYKDDDDKSGMTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKWRSELSIMIQVKILHTTKSPAVGPKKKRKVGTMTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSPKKKRKV。

序列表sequence listing

<110> 电子科技大学<110> University of Electronic Science and Technology

<120> 一种植物基因组定向碱基编辑骨架载体及其应用<120> A plant genome-directed base editing backbone vector and its application

<130> 20180001<130> 20180001

<141> 2018-11-23<141> 2018-11-23

<160> 15<160> 15

<170> SIPOSequenceListing 1.0<170> SIPOSequenceListing 1.0

<210> 1<210> 1

<211> 8556<211> 8556

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 1<400> 1

cgcgcctgca gtgcagcgtg acccggtcgt gcccctctct tgagataatg agcattgcat 60cgcgcctgca gtgcagcgtg acccggtcgt gcccctctct tgagataatg agcattgcat 60

gtctaagtta taaaaaatta ccacatattt tttttgtcac acttgtttga agtgcagttt 120gtctaagtta taaaaaatta ccacatattt tttttgtcac acttgtttga agtgcagttt 120

atctatcttt atacatatat ttaaacttta ctctacgaat aatataatct atagtactac 180atctatcttt atacatatat ttaaacttta ctctacgaat aatataatct atagtactac 180

aataatatca gtgttttaga gaatcatata aatgaacagt tagacatggt ctaaaggaca 240aataatatca gtgttttaga gaatcatata aatgaacagt tagacatggt ctaaaggaca 240

attgagtatt ttgacaacag gactctacag ttttatcttt ttagtgtgca tgtgttctcc 300attgagtatt ttgacaacag gactctacag ttttatcttt ttagtgtgca tgtgttctcc 300

tttttttttg caaatagctt cacctatata atacttcatc cattttatta gtacatccat 360tttttttttg caaatagctt cacctatata atacttcatc cattttatta gtacatccat 360

ttagggttta gggttaatgg tttttataga ctaatttttt tagtacatct attttattct 420ttagggttta gggttaatgg tttttataga ctaatttttt tagtacatct attttattct 420

attttagcct ctaaattaag aaaactaaaa ctctatttta gtttttttat ttaataattt 480attttagcct ctaaattaag aaaactaaaa ctctatttta gtttttttat ttaataattt 480

agatataaaa tagaataaaa taaagtgact aaaaattaaa caaataccct ttaagaaatt 540agatataaaa tagaataaaa taaagtgact aaaaattaaa caaataccct ttaagaaatt 540

aaaaaaacta aggaaacatt tttcttgttt cgagtagata atgccagcct gttaaacgcc 600aaaaaaacta aggaaacatt tttcttgttt cgagtagata atgccagcct gttaaacgcc 600

gtcgacgagt ctaacggaca ccaaccagcg aaccagcagc gtcgcgtcgg gccaagcgaa 660gtcgacgagt ctaacggaca ccaaccagcg aaccagcagc gtcgcgtcgg gccaagcgaa 660

gcagacggca cggcatctct gtcgctgcct ctggacccct ctcgagagtt ccgctccacc 720gcagacggca cggcatctct gtcgctgcct ctggacccct ctcgagagtt ccgctccacc 720

gttggacttg ctccgctgtc ggcatccaga aattgcgtgg cggagcggca gacgtgagcc 780gttggacttg ctccgctgtc ggcatccaga aattgcgtgg cggagcggca gacgtgagcc 780

ggcacggcag gcggcctcct cctcctctca cggcaccggc agctacgggg gattcctttc 840ggcacggcag gcggcctcct cctcctctca cggcaccggc agctacgggg gattcctttc 840

ccaccgctcc ttcgctttcc cttcctcgcc cgccgtaata aatagacacc ccctccacac 900ccaccgctcc ttcgctttcc cttcctcgcc cgccgtaata aatagacacc ccctccacac 900

cctctttccc caacctcgtg ttgttcggag cgcacacaca cacaaccaga actcccccaa 960cctctttccc caacctcgtg ttgttcggag cgcacacaca cacaaccaga actcccccaa 960

atccacccgt cggcacctcc gcttcaaggt acgccgctcg tcctcccccc ccccccctct 1020atccaccccgt cggcacctcc gcttcaaggt acgccgctcg tcctcccccc ccccccctct 1020

ctaccttctc aagatcggcg ttccggtcca tggttagggc ccggtagttc tacttctgtt 1080ctaccttctc aagatcggcg ttccggtcca tggttagggc ccggtagttc tacttctgtt 1080

catgtttgtg ttagatccgt gtttgtgtta gatccgtgct actagcgttc gtacacggat 1140catgtttgtg ttagatccgt gtttgtgtgtta gatccgtgct actagcgttc gtacacggat 1140

gcgacctgta cgtcagacac gttctgattg ctaacttgcc agtgtttctc tttggggaat 1200gcgacctgta cgtcagacac gttctgattg ctaacttgcc agtgtttctc tttggggaat 1200

cctgggatgg ctctagccgt tccgcagacg ggatcgattt catgattttt tttgtttcgt 1260cctgggatgg ctctagccgt tccgcagacg ggatcgattt catgattttt tttgtttcgt 1260

tgcatagggt ttggtttgcc cttttccttt atttcaatat atgccgtgca cttgtttgtc 1320tgcataggt ttggtttgcc cttttccttt atttcaatat atgccgtgca cttgtttgtc 1320

gggtcatctt ttcatgcttt tttttgtctt ggttgtgatg atgtggtctg gttgggcggt 1380gggtcatctt ttcatgcttt tttttgtctt ggttgtgatg atgtggtctg gttgggcggt 1380

cgttcaagat cggagtagaa ttaattctgt ttcaaactac ctggtggatt tattaatttt 1440cgttcaagat cggagtagaa ttaattctgt ttcaaactac ctggtggatt tattaatttt 1440

ggatctgtat gtgtgtgcca tacatattca tagttacgaa ttgaagatga tggatggaaa 1500ggatctgtat gtgtgtgcca tacatattca tagttacgaa ttgaagatga tggatggaaa 1500

tatcgatcta ggataggtat acatgttgat gcgggtttta ctgatgcata tacagagatg 1560tatcgatcta ggataggtat acatgttgat gcgggtttta ctgatgcata tacagagatg 1560

ctttttgttc gcttggttgt gatgatgtgg tgtggttggg cggtcgttca ttcgttcaag 1620ctttttgttc gcttggttgt gatgatgtgg tgtggttggg cggtcgttca ttcgttcaag 1620

atcggagtag aatactgttt caaactacct ggtgtattta ttaattttgg aactgtatgt 1680atcggagtag aatactgttt caaactacct ggtgtattta ttaattttgg aactgtatgt 1680

gtgtgtcata catcttcata gttacgagtt taagatggat ggaaatatcg atctaggata 1740gtgtgtcata catcttcata gttacgagtt taagatggat ggaaatatcg atctaggata 1740

ggtatacatg ttgatgtggg ttttactgat gcatatacat gatggcatat gcagcatcta 1800ggtatacatg ttgatgtggg ttttactgat gcatatacat gatggcatat gcagcatcta 1800

ttcatatgct ctaaccttga gtacctatct attataataa acaagtatgt tttataatta 1860ttcatatgct ctaaccttga gtacctatct attataataa acaagtatgt tttataatta 1860

ttttgatctt gatatacttg gatgatggca tatgcagcag ctatatgtgg atttttttag 1920ttttgatctt gatatacttg gatgatggca tatgcagcag ctatatgtgg atttttttag 1920

ccctgccttc atacgctatt tatttgcttg gtactgtttc ttttgtcgat gctcaccctg 1980ccctgccttc atacgctatt tatttgcttg gtactgtttc ttttgtcgat gctcaccctg 1980

ttgtttggtg ttacttctgc agcctgcagg atggataaga agtactctat cggactcgct 2040ttgtttggtg ttacttctgc agcctgcagg atggataaga agtactctat cggactcgct 2040

atcggaacta actctgtggg atgggctgtg atcaccgatg agtacaaggt gccatctaag 2100atcggaacta actctgtggg atgggctgtg atcaccgatg agtacaaggt gccatctaag 2100

aagttcaagg ttctcggaaa caccgatagg cactctatca agaaaaacct tatcggtgct 2160aagttcaagg ttctcggaaa caccgatagg cactctatca agaaaaacct tatcggtgct 2160

ctcctcttcg attctggtga aactgctgag gctaccagac tcaagagaac cgctagaaga 2220ctcctcttcg attctggtga aactgctgag gctaccagac tcaagagaac cgctagaaga 2220

aggtacacca gaagaaagaa caggatctgc tacctccaag agatcttctc taacgagatg 2280aggtacacca gaagaaagaa caggatctgc tacctccaag agatcttctc taacgagatg 2280

gctaaagtgg atgattcatt cttccacagg ctcgaagagt cattcctcgt ggaagaagat 2340gctaaagtgg atgattcatt cttccacagg ctcgaagagt cattcctcgt ggaagaagat 2340

aagaagcacg agaggcaccc tatcttcgga aacatcgttg atgaggtggc ataccacgag 2400aagaagcacg agaggcaccc tatcttcgga aacatcgttg atgaggtggc ataccacgag 2400

aagtacccta ctatctacca cctcagaaag aagctcgttg attctactga taaggctgat 2460aagtacccta ctatctacca cctcagaaag aagctcgttg attctactga taaggctgat 2460

ctcaggctca tctacctcgc tctcgctcac atgatcaagt tcagaggaca cttcctcatc 2520ctcaggctca tctacctcgc tctcgctcac atgatcaagt tcagaggaca cttcctcatc 2520

gagggtgatc tcaaccctga taactctgat gtggataagt tgttcatcca gctcgtgcag 2580gagggtgatc tcaaccctga taactctgat gtggataagt tgttcatcca gctcgtgcag 2580

acctacaacc agcttttcga agagaaccct atcaacgctt caggtgtgga tgctaaggct 2640acctacaacc agcttttcga agagaaccct atcaacgctt caggtgtgga tgctaaggct 2640

atcctctctg ctaggctctc taagtcaaga aggcttgaga acctcattgc tcagctccct 2700atcctctctg ctaggctctc taagtcaaga aggcttgaga acctcattgc tcagctccct 2700

ggtgagaaga agaacggact tttcggaaac ttgatcgctc tctctctcgg actcacccct 2760ggtgagaaga agaacggact tttcggaaac ttgatcgctc tctctctcgg actcacccct 2760

aacttcaagt ctaacttcga tctcgctgag gatgcaaagc tccagctctc aaaggatacc 2820aacttcaagt ctaacttcga tctcgctgag gatgcaaagc tccagctctc aaaggatacc 2820

tacgatgatg atctcgataa cctcctcgct cagatcggag atcagtacgc tgatttgttc 2880tacgatgatg atctcgataa cctcctcgct cagatcggag atcagtacgc tgatttgttc 2880

ctcgctgcta agaacctctc tgatgctatc ctcctcagtg atatcctcag agtgaacacc 2940ctcgctgcta agaacctctc tgatgctatc ctcctcagtg atatcctcag agtgaacacc 2940

gagatcacca aggctccact ctcagcttct atgatcaaga gatacgatga gcaccaccag 3000gagatcacca aggctccact ctcagcttct atgatcaaga gatacgatga gcaccaccag 3000

gatctcacac ttctcaaggc tcttgttaga cagcagctcc cagagaagta caaagagatt 3060gatctcacac ttctcaaggc tcttgttaga cagcagctcc cagagaagta caaagagatt 3060

ttcttcgatc agtctaagaa cggatacgct ggttacatcg atggtggtgc atctcaagaa 3120ttcttcgatc agtctaagaa cggatacgct ggttacatcg atggtggtgc atctcaagaa 3120

gagttctaca agttcatcaa gcctatcctc gagaagatgg atggaaccga ggaactcctc 3180gagttctaca agttcatcaa gcctatcctc gagaagatgg atggaaccga ggaactcctc 3180

gtgaagctca atagagagga tcttctcaga aagcagagga ccttcgataa cggatctatc 3240gtgaagctca atagagagga tcttctcaga aagcagagga ccttcgataa cggatctatc 3240

cctcatcaga tccacctcgg agagttgcac gctatcctta gaaggcaaga ggatttctac 3300cctcatcaga tccacctcgg agagttgcac gctatcctta gaaggcaaga ggatttctac 3300

ccattcctca aggataacag ggaaaagatt gagaagattc tcaccttcag aatcccttac 3360ccattcctca aggataacag ggaaaagatt gagaagattc tcaccttcag aatcccttac 3360

tacgtgggac ctctcgctag aggaaactca agattcgctt ggatgaccag aaagtctgag 3420tacgtgggac ctctcgctag aggaaactca agattcgctt ggatgaccag aaagtctgag 3420

gaaaccatca ccccttggaa cttcgaagag gtggtggata agggtgctag tgctcagtct 3480gaaaccatca ccccttggaa cttcgaagag gtggtggata agggtgctag tgctcagtct 3480

ttcatcgaga ggatgaccaa cttcgataag aaccttccaa acgagaaggt gctccctaag 3540ttcatcgaga ggatgaccaa cttcgataag aaccttccaa acgagaaggt gctccctaag 3540

cactctttgc tctacgagta cttcaccgtg tacaacgagt tgaccaaggt taagtacgtg 3600cactctttgc tctacgagta cttcaccgtg tacaacgagt tgaccaaggt taagtacgtg 3600

accgagggaa tgaggaagcc tgcttttttg tcaggtgagc aaaagaaggc tatcgttgat 3660accgagggaa tgaggaagcc tgcttttttg tcaggtgagc aaaagaaggc tatcgttgat 3660

ctcttgttca agaccaacag aaaggtgacc gtgaagcagc tcaaagagga ttacttcaag 3720ctcttgttca agaccaacag aaaggtgacc gtgaagcagc tcaaagagga ttacttcaag 3720

aaaatcgagt gcttcgattc agttgagatt tctggtgttg aggataggtt caacgcatct 3780aaaatcgagt gcttcgattc agttgagatt tctggtgttg aggataggtt caacgcatct 3780

ctcggaacct accacgatct cctcaagatc attaaggata aggatttctt ggataacgag 3840ctcggaacct accacgatct cctcaagatc attaaggata aggatttctt ggataacgag 3840

gaaaacgagg atatcttgga ggatatcgtt cttaccctca ccctctttga agatagagag 3900gaaaacgagg atatcttgga ggatatcgtt cttaccctca ccctctttga agatagagag 3900

atgattgaag aaaggctcaa gacctacgct catctcttcg atgataaggt gatgaagcag 3960atgattgaag aaaggctcaa gacctacgct catctcttcg atgataaggt gatgaagcag 3960

ttgaagagaa gaagatacac tggttgggga aggctctcaa gaaagctcat taacggaatc 4020ttgaagagaa gaagatacac tggttgggga aggctctcaa gaaagctcat taacggaatc 4020

agggataagc agtctggaaa gacaatcctt gatttcctca agtctgatgg attcgctaac 4080agggataagc agtctggaaa gacaatcctt gatttcctca agtctgatgg attcgctaac 4080

agaaacttca tgcagctcat ccacgatgat tctctcacct ttaaagagga tatccagaag 4140agaaacttca tgcagctcat ccacgatgat tctctcacct ttaaagagga tatccagaag 4140

gctcaggttt caggacaggg tgatagtctc catgagcata tcgctaacct cgctggatct 4200gctcaggttt caggacaggg tgatagtctc catgagcata tcgctaacct cgctggatct 4200

cctgcaatca agaagggaat cctccagact gtgaaggttg tggatgagtt ggtgaaggtg 4260cctgcaatca agaagggaat cctccagact gtgaaggttg tggatgagtt ggtgaaggtg 4260

atgggaaggc ataagcctga gaacatcgtg atcgaaatgg ctagagagaa ccagaccact 4320atgggaaggc ataagcctga gaacatcgtg atcgaaatgg ctagagagaa ccagaccact 4320

cagaagggac agaagaactc tagggaaagg atgaagagga tcgaggaagg tatcaaagag 4380cagaagggac agaagaactc tagggaaagg atgaagagga tcgaggaagg tatcaaagag 4380

cttggatctc agatcctcaa agagcaccct gttgagaaca ctcagctcca gaatgagaag 4440cttggatctc agatcctcaa agagcaccct gttgagaaca ctcagctcca gaatgagaag 4440

ctctacctct actacctcca gaacggaagg gatatgtatg tggatcaaga gttggatatc 4500ctctacctct actacctcca gaacggaagg gatatgtatg tggatcaaga gttggatatc 4500

aacaggctct ctgattacga tgttgatcat atcgtgccac agtcattctt gaaggatgat 4560aacaggctct ctgattacga tgttgatcat atcgtgccac agtcattctt gaaggatgat 4560

tctatcgata acaaggtgct caccaggtct gataagaaca ggggtaagag tgataacgtg 4620tctatcgata acaaggtgct caccaggtct gataagaaca ggggtaagag tgataacgtg 4620

ccaagtgaag aggttgtgaa gaaaatgaag aactattgga ggcagctcct caacgctaag 4680ccaagtgaag aggttgtgaa gaaaatgaag aactattgga ggcagctcct caacgctaag 4680

ctcatcactc agagaaagtt cgataacttg actaaggctg agaggggagg actctctgaa 4740ctcatcactc agagaaagtt cgataacttg actaaggctg agagggggagg actctctgaa 4740

ttggataagg caggattcat caagaggcag cttgtggaaa ccaggcagat cactaagcac 4800ttggataagg caggattcat caagaggcag cttgtggaaa ccaggcagat cactaagcac 4800

gttgcacaga tcctcgattc taggatgaac accaagtacg atgagaacga taagttgatc 4860gttgcacaga tcctcgattc taggatgaac accaagtacg atgagaacga taagttgatc 4860

agggaagtga aggttatcac cctcaagtca aagctcgtgt ctgatttcag aaaggatttc 4920agggaagtga aggttatcac cctcaagtca aagctcgtgt ctgatttcag aaaggatttc 4920

caattctaca aggtgaggga aatcaacaac taccaccacg ctcacgatgc ttaccttaac 4980caattctaca aggtgaggga aatcaacaac taccaccacg ctcacgatgc ttaccttaac 4980

gctgttgttg gaaccgctct catcaagaag tatcctaagc tcgagtcaga gttcgtgtac 5040gctgttgttg gaaccgctct catcaagaag tatcctaagc tcgagtcaga gttcgtgtac 5040

ggtgattaca aggtgtacga tgtgaggaag atgatcgcta agtctgagca agagatcgga 5100ggtgattaca aggtgtacga tgtgaggaag atgatcgcta agtctgagca agagatcgga 5100

aaggctaccg ctaagtattt cttctactct aacatcatga atttcttcaa gaccgagatt 5160aaggctaccg ctaagtattt cttctactct aacatcatga atttcttcaa gaccgagatt 5160

accctcgcta acggtgagat cagaaagagg ccactcatcg agacaaacgg tgaaacaggt 5220accctcgcta acggtgagat cagaaagagg ccactcatcg agacaaacgg tgaaacaggt 5220

gagatcgtgt gggataaggg aagggatttc gctaccgtta gaaaggtgct ctctatgcca 5280gagatcgtgt gggataaggg aagggatttc gctaccgtta gaaaggtgct ctctatgcca 5280

caggtgaaca tcgttaagaa aaccgaggtg cagaccggtg gattctctaa agagtctatc 5340caggtgaaca tcgttaagaa aaccgaggtg cagaccggtg gattctctaa agagtctatc 5340

ctccctaaga ggaactctga taagctcatt gctaggaaga aggattggga ccctaagaaa 5400ctccctaaga ggaactctga taagctcatt gctaggaaga aggattggga ccctaagaaa 5400

tacggtggtt tcgattctcc taccgtggct tactctgttc tcgttgtggc taaggttgag 5460tacggtggtt tcgattctcc taccgtggct tactctgttc tcgttgtggc taaggttgag 5460

aagggaaaga gtaagaagct caagtctgtt aaggaacttc tcggaatcac tatcatggaa 5520aagggaaaga gtaagaagct caagtctgtt aaggaacttc tcggaatcac tatcatggaa 5520

aggtcatctt tcgagaagaa cccaatcgat ttcctcgagg ctaagggata caaagaggtt 5580aggtcatctt tcgagaagaa cccaatcgat ttcctcgagg ctaagggata caaagaggtt 5580

aagaaggatc tcatcatcaa gctcccaaag tactcactct tcgaactcga gaacggtaga 5640aagaaggatc tcatcatcaa gctcccaaag tactcactct tcgaactcga gaacggtaga 5640

aagaggatgc tcgcttctgc tggtgagctt caaaagggaa acgagcttgc tctcccatct 5700aagaggatgc tcgcttctgc tggtgagctt caaaagggaa acgagcttgc tctcccatct 5700

aagtacgtta actttcttta cctcgcttct cactacgaga agttgaaggg atctccagaa 5760aagtacgtta actttcttta cctcgcttct cactacgaga agttgaaggg atctccagaa 5760

gataacgagc agaagcaact tttcgttgag cagcacaagc actacttgga tgagatcatc 5820gataacgagc agaagcaact tttcgttgag cagcacaagc actacttgga tgagatcatc 5820

gagcagatct ctgagttctc taaaagggtg atcctcgctg atgcaaacct cgataaggtg 5880gagcagatct ctgagttctc taaaagggtg atcctcgctg atgcaaacct cgataaggtg 5880

ttgtctgctt acaacaagca cagagataag cctatcaggg aacaggcaga gaacatcatc 5940ttgtctgctt acaacaagca cagagataag cctatcaggg aacaggcaga gaacatcatc 5940

catctcttca cccttaccaa cctcggtgct cctgctgctt tcaagtactt cgatacaacc 6000catctcttca cccttaccaa cctcggtgct cctgctgctt tcaagtactt cgatacaacc 6000

atcgatagga agagatacac ctctaccaaa gaagtgctcg atgctaccct catccatcag 6060atcgatagga agagatacac ctctaccaaa gaagtgctcg atgctaccct catccatcag 6060

tctatcactg gactctacga gactaggatc gatctctcac agctcggtgg tgattcaagg 6120tctatcactg gactctacga gactaggatc gatctctcac agctcggtgg tgattcaagg 6120

gctgatccta agaagaagag gaaggttgga gacgacggag gtggcggtac aggagggggt 6180gctgatccta agaagaagag gaaggttgga gacgacggag gtggcggtac aggagggggt 6180

gggtccgctg agtatgtcag ggcgttgttc gacttcaatg gaaacgacga ggaagatctg 6240gggtccgctg agtatgtcag ggcgttgttc gacttcaatg gaaacgacga ggaagatctg 6240

ccttttaaaa agggagatat tctcaggatc agagataagc cggaagaaca atggtggaac 6300ccttttaaaa agggagatat tctcaggatc agagataagc cggaagaaca atggtggaac 6300

gctgaagact ctgaaggtaa gagaggtatg attcttgtcc cctacgtcga gaagtattcg 6360gctgaagact ctgaaggtaa gagaggtatg attcttgtcc cctacgtcga gaagtattcg 6360

ggtgactata aagaccacga tggagattat aaggaccacg atatagatta taaggatgat 6420ggtgactata aagaccacga tggagattat aaggaccacg atatagatta taaggatgat 6420

gatgataaga gcggaatgac cgatgcagag tacgtcagga ttcatgagaa acttgacatc 6480gatgataaga gcggaatgac cgatgcagag tacgtcagga ttcatgagaa acttgacatc 6480

tacacgttta agaaacagtt tttcaacaac aaaaaatctg ttagtcaccg ctgttacgtg 6540tacacgttta agaaacagtt tttcaacaac aaaaaatctg ttagtcaccg ctgttacgtg 6540

ctgttcgaat tgaaacgcag aggtgagagg agagcctgct tttggggcta tgccgtcaac 6600ctgttcgaat tgaaacgcag aggtgagagg agagcctgct tttggggcta tgccgtcaac 6600

aagccgcaaa gcggcacaga aaggggcatt cacgcggaga tatttagcat tagaaaggtc 6660aagccgcaaa gcggcacaga aaggggcatt cacgcggaga tattagcat tagaaaggtc 6660

gaggaatacc ttcgggataa tcccgggcaa ttcactatca attggtactc ttcatggtcc 6720gaggaatacc ttcgggataa tcccgggcaa ttcactatca attggtactc ttcatggtcc 6720

ccgtgtgcag attgcgctga aaagatactg gagtggtata atcaagaact cagaggaaac 6780ccgtgtgcag attgcgctga aaagatactg gagtggtata atcaagaact cagaggaaac 6780

ggtcacaccc tcaagatttg ggcttgcaag ctttactacg agaaaaatgc aaggaaccag 6840ggtcacaccc tcaagatttg ggcttgcaag ctttactacg agaaaaatgc aaggaaccag 6840

atcggcctct ggaacttgcg cgacaacggc gtggggttga atgtgatggt gtcggagcat 6900atcggcctct ggaacttgcg cgacaacggc gtggggttga atgtgatggt gtcggagcat 6900

taccagtgct gccggaagat attcattcag tcgtcacata atcaattgaa cgagaatagg 6960taccagtgct gccggaagat attcattcag tcgtcacata atcaattgaa cgagaatagg 6960

tggctcgaaa aaaccctgaa gcgggccgag aagtggagga gtgaactctc gataatgatc 7020tggctcgaaa aaaccctgaa gcgggccgag aagtggagga gtgaactctc gataatgatc 7020

caggttaaaa tactgcatac taccaaatct ccggcggtgg gaccgaagaa gaagcgcaag 7080caggttaaaa tactgcatac taccaaatct ccggcggtgg gaccgaagaa gaagcgcaag 7080

gtggggacca tgactaatct ctcagatata atcgagaagg aaacaggaaa gcaactggtc 7140gtggggacca tgactaatct ctcagatata atcgagaagg aaacaggaaa gcaactggtc 7140

atccaagaat cgattttgat gcttcccgaa gaagtcgaag aagttatagg aaataagccc 7200atccaagaat cgattttgat gcttcccgaa gaagtcgaag aagttatagg aaataagccc 7200

gagtctgaca tactggttca cacagcgtac gatgaaagta cggacgagaa tgtcatgttg 7260gagtctgaca tactggttca cacagcgtac gatgaaagta cggacgagaa tgtcatgttg 7260

ctgacatcgg acgcacctga atacaagcct tgggctctgg tcatacaaga tagtaacgga 7320ctgacatcgg acgcacctga atacaagcct tgggctctgg tcatacaaga tagtaacgga 7320

gaaaataaga ttaaaatgct ttcaggtggc tccccaaaga agaaacgcaa ggtttgagga 7380gaaaataaga ttaaaatgct ttcaggtggc tccccaaaga agaaacgcaa ggtttgagga 7380

tctaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaacaaagca 7440tctaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaacaaagca 7440

ccagtggtct agtggtagaa tagtaccctg ccacggtaca gacccgggtt cgattcccgg 7500ccagtggtct agtggtagaa tagtaccctg ccacggtaca gacccgggtt cgattcccgg 7500

ctggtgcagg agaccttata ttccccagaa catcaggtta atggcgtttt tgatgtcatt 7560ctggtgcagg agaccttata ttccccagaa catcaggtta atggcgtttt tgatgtcatt 7560

ttcgcggtgg ctgagatcag ccacttcttc cccgataacg gaaaccggca cactggccat 7620ttcgcggtgg ctgagatcag ccacttcttc cccgataacg gaaaccggca cactggccat 7620

atcggtggtc atcatgcgcc agctttcatc cccgatatgc accaccgggt aaagttcacg 7680atcggtggtc atcatgcgcc agctttcatc cccgatatgc accaccgggt aaagttcacg 7680

ggagacttta tctgacagca gacgtgcact ggccaggggg atcaccatcc gtcgcccggg 7740ggagacttta tctgacagca gacgtgcact ggccagggggg atcaccatcc gtcgcccggg 7740

cgtgtcaata atatcactct gtacatccac aaacagacga taacggctct ctcttttata 7800cgtgtcaata atatcactct gtacatccac aaacagacga taacggctct ctcttttata 7800

ggtgtaaacc ttaaactgca tttcaccagc ccctgttctc gtcagcaaaa gagccgttca 7860ggtgtaaacc ttaaactgca tttcaccagc ccctgttctc gtcagcaaaa gagccgttca 7860

tttcaataaa ccgggcgacc tcagccatcc cttcctgatt ttccgctttc cagcgttcgg 7920tttcaataaa ccgggcgacc tcagccatcc cttcctgatt ttccgctttc cagcgttcgg 7920

cacgcagacg acgggcttca ttctgcatgg ttgtgcttac cagaccggag atattgacat 7980cacgcagacg acgggcttca ttctgcatgg ttgtgcttac cagaccggag atattgacat 7980

catatatgcc ttgagcaact gatagctgtc gctgtcaact gtcactgtaa tacgctgctt 8040catatatgcc ttgagcaact gatagctgtc gctgtcaact gtcactgtaa tacgctgctt 8040

catagcatac ctctttttga catacttcgg gtatacatat cagtatatat tcttataccg 8100catagcatac ctctttttga catacttcgg gtatacatat cagtatatat tcttataccg 8100

caaaaatcag cgcgcaaata cgcatactgt tatctggctt ggtctcagtt ttagagctag 8160caaaaatcag cgcgcaaata cgcatactgt tatctggctt ggtctcagtt ttagagctag 8160

aaatagcaag ttaaaataag gctagtccgt tatcaacttg aaaaagtggc accgagtcgg 8220aaatagcaag ttaaaataag gctagtccgt tatcaacttg aaaaagtggc accgagtcgg 8220

tgcaacaaag caccagtggt ctagtggtag aatagtaccc tgccacggta cagacccggg 8280tgcaacaaag caccagtggt ctagtggtag aatagtaccc tgccacggta cagacccggg 8280

ttcgattccc ggctggtgca ggatccatat gaagatgaag atgaaatatt tggtgtgtca 8340ttcgattccc ggctggtgca ggatccatat gaagatgaag atgaaatatt tggtgtgtca 8340

aataaaaagc ttgtgtgctt aagtttgtgt ttttttcttg gcttgttgtg ttatgaattt 8400aataaaaagc ttgtgtgctt aagtttgtgtgtttttttcttg gcttgttgtg ttatgaattt 8400

gtggcttttt ctaatattaa atgaatgtaa gatcacatta taatgaataa acaaatgttt 8460gtggcttttt ctaatattaa atgaatgtaa gatcacatta taatgaataa acaaatgttt 8460

ctataatcca ttgtgaatgt tttgttggat ctcttctgca gcatataact actgtatgtg 8520ctataatcca ttgtgaatgt tttgttggat ctcttctgca gcatataact actgtatgtg 8520

ctatggtatg gactatggaa tatgattaaa gataag 8556ctatggtatg gactatggaa tatgattaaa gataag 8556

<210> 2<210> 2

<211> 1788<211> 1788

<212> PRT<212> PRT

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 2<400> 2

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser ValMet Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 151 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys PheGly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30 20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu IleLys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45 35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg LeuGly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60 50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile CysLys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 8065 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp SerTyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95 85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys LysPhe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110 100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala TyrHis Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125 115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val AspHis Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140 130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala HisSer Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn ProMet Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175 165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr TyrAsp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190 180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp AlaAsn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205 195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu AsnLys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220 210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly AsnLeu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn PheLeu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255 245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr AspAsp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270 260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala AspAsp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285 275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser AspLeu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300 290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala SerIle Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu LysMet Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335 325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe PheAla Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350 340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala SerAsp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365 355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met AspGln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380 370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu ArgGly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His LeuLys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415 405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro PheGly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430 420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg IleLeu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445 435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala TrpPro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460 450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu GluMet Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met ThrVal Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495 485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His SerAsn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510 500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val LysLeu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525 515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu GlnTyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540 530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val ThrLys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe AspVal Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575 565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu GlySer Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590 580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu AspThr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605 595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu ThrAsn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620 610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr AlaLeu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg TyrHis Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655 645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg AspThr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670 660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly PheLys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685 675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr PheAla Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700 690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser LeuLys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys GlyHis Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735 725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met GlyIle Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750 740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn GlnArg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765 755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg IleThr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780 770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His ProGlu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr LeuVal Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815 805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn ArgGln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830 820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu LysLeu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845 835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn ArgAsp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860 850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met LysGly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg LysAsn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895 885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu AspPhe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910 900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile ThrLys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925 915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr AspLys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940 930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys SerGlu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val ArgLys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975 965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala ValGlu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990 980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu PheVal Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005 995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala LysVal Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020 1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr SerSer Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser

1025 1030 1035 10401025 1030 1035 1040

Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly GluAsn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu

1045 1050 1055 1045 1050 1055

Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu IleIle Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile

1060 1065 1070 1060 1065 1070

Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu SerVal Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser

1075 1080 1085 1075 1080 1085

Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly GlyMet Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly

1090 1095 1100 1090 1095 1100

Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu IlePhe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile

1105 1110 1115 11201105 1110 1115 1120

Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp SerAla Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser

1125 1130 1135 1125 1130 1135

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys GlyPro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly

1140 1145 1150 1140 1145 1150

Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr IleLys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile

1155 1160 1165 1155 1160 1165

Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu AlaMet Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala

1170 1175 1180 1170 1175 1180

Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro LysLys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys

1185 1190 1195 12001185 1190 1195 1200

Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala SerTyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser

1205 1210 1215 1205 1210 1215

Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys TyrAla Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1220 1225 1230 1220 1225 1230

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly SerVal Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245 1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys HisPro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260 1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg ValTyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val

1265 1270 1275 12801265 1270 1275 1280

Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn LysIle Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys

1285 1290 1295 1285 1290 1295

His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His LeuHis Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu

1300 1305 1310 1300 1305 1310

Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe AspPhe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp

1315 1320 1325 1315 1320 1325

Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu AspThr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp

1330 1335 1340 1330 1335 1340

Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg IleAla Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile

1345 1350 1355 13601345 1350 1355 1360

Asp Leu Ser Gln Leu Gly Gly Asp Ser Arg Ala Asp Pro Lys Lys LysAsp Leu Ser Gln Leu Gly Gly Asp Ser Arg Ala Asp Pro Lys Lys Lys

1365 1370 1375 1365 1370 1375

Arg Lys Val Gly Asp Asp Gly Gly Gly Gly Thr Gly Gly Gly Gly SerArg Lys Val Gly Asp Asp Gly Gly Gly Gly Thr Gly Gly Gly Gly Ser

1380 1385 1390 1380 1385 1390

Ala Glu Tyr Val Arg Ala Leu Phe Asp Phe Asn Gly Asn Asp Glu GluAla Glu Tyr Val Arg Ala Leu Phe Asp Phe Asn Gly Asn Asp Glu Glu

1395 1400 1405 1395 1400 1405

Asp Leu Pro Phe Lys Lys Gly Asp Ile Leu Arg Ile Arg Asp Lys ProAsp Leu Pro Phe Lys Lys Gly Asp Ile Leu Arg Ile Arg Asp Lys Pro

1410 1415 1420 1410 1415 1420

Glu Glu Gln Trp Trp Asn Ala Glu Asp Ser Glu Gly Lys Arg Gly MetGlu Glu Gln Trp Trp Asn Ala Glu Asp Ser Glu Gly Lys Arg Gly Met

1425 1430 1435 14401425 1430 1435 1440

Ile Leu Val Pro Tyr Val Glu Lys Tyr Ser Gly Asp Tyr Lys Asp HisIle Leu Val Pro Tyr Val Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His

1445 1450 1455 1445 1450 1455

Asp Gly Asp Tyr Lys Asp His Asp Ile Asp Tyr Lys Asp Asp Asp AspAsp Gly Asp Tyr Lys Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp

1460 1465 1470 1460 1465 1470

Lys Ser Gly Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys LeuLys Ser Gly Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu

1475 1480 1485 1475 1480 1485

Asp Ile Tyr Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser ValAsp Ile Tyr Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val

1490 1495 1500 1490 1495 1500

Ser His Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu ArgSer His Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg

1505 1510 1515 15201505 1510 1515 1520

Arg Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly ThrArg Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr

1525 1530 1535 1525 1530 1535

Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu GluGlu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu

1540 1545 1550 1540 1545 1550

Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser SerTyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser

1555 1560 1565 1555 1560 1565

Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr AsnTrp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn

1570 1575 1580 1570 1575 1580

Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys LysGln Glu Leu Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys

1585 1590 1595 16001585 1590 1595 1600

Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn LeuLeu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu

1605 1610 1615 1605 1610 1615

Arg Asp Asn Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr GlnArg Asp Asn Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln

1620 1625 1630 1620 1625 1630

Cys Cys Arg Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn GluCys Cys Arg Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu

1635 1640 1645 1635 1640 1645

Asn Arg Trp Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Trp Arg SerAsn Arg Trp Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Trp Arg Ser

1650 1655 1660 1650 1655 1660

Glu Leu Ser Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys SerGlu Leu Ser Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser

1665 1670 1675 16801665 1670 1675 1680

Pro Ala Val Gly Pro Lys Lys Lys Arg Lys Val Gly Thr Met Thr AsnPro Ala Val Gly Pro Lys Lys Lys Arg Lys Val Gly Thr Met Thr Asn

1685 1690 1695 1685 1690 1695

Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile GlnLeu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln

1700 1705 1710 1700 1705 1710

Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly AsnGlu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn

1715 1720 1725 1715 1720 1725

Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser ThrLys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr

1730 1735 1740 1730 1735 1740

Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys ProAsp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro

1745 1750 1755 17601745 1750 1755 1760

Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys MetTrp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met

1765 1770 1775 1765 1770 1775

Leu Ser Gly Gly Ser Pro Lys Lys Lys Arg Lys ValLeu Ser Gly Gly Ser Pro Lys Lys Lys Lys Arg Lys Val

1780 1785 1780 1785

<210> 3<210> 3

<211> 20<211> 20

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 3<400> 3

cgacatccgc aagtaccagg 20cgacatccgc aagtaccagg 20

<210> 4<210> 4

<211> 22<211> 22

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 4<400> 4

agtacactgt ttccccgtat gt 22agtacactgt ttccccgtat gt 22

<210> 5<210> 5

<211> 19<211> 19

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 5<400> 5

gctgctggtg agtgctgat 19gctgctggtg agtgctgat 19

<210> 6<210> 6

<211> 20<211> 20

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 6<400> 6

acccattggg agtgtcttgc 20acccattggg agtgtcttgc 20

<210> 7<210> 7

<211> 20<211> 20

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 7<400> 7

gaccagccag cgtctggcgc 20gaccagccag cgtctggcgc 20

<210> 8<210> 8

<211> 20<211> 20

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 8<400> 8

gcagctggct gagggtgcat 20gcagctggct gagggtgcat 20

<210> 9<210> 9

<211> 19<211> 19

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 9<400> 9

agccagctgc ttacaaaac 19agccagctgc ttacaaaac 19

<210> 10<210> 10

<211> 24<211> 24

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 10<400> 10

tgcagaccag ccagcgtctg gcgc 24tgcagaccag ccagcgtctg gcgc 24

<210> 12<210> 12

<211> 24<211> 24

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 12<400> 12

aaacgcgcca gacgctggct ggtc 24aaacgcgcca gacgctggct ggtc 24

<210> 13<210> 13

<211> 24<211> 24

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 13<400> 13

tgcagcagct ggctgagggt gcat 24tgcagcagct ggctgagggt gcat 24

<210> 13<210> 13

<211> 24<211> 24

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 13<400> 13

aaacatgcac cctcagccag ctgc 24aaacatgcac cctcagccag ctgc 24

<210> 14<210> 14

<211> 23<211> 23

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 14<400> 14

tgcaagccag ctgcttacaa aac 23tgcaagccag ctgcttacaa aac 23

<210> 15<210> 15

<211> 23<211> 23

<212> DNA<212>DNA

<213> 人工序列(Artificial Sequence)<213> Artificial Sequence

<400> 15<400> 15

aaacgttttg taagcagctg gct 23aaacgttttg taagcagctg gct 23

Claims

1. A plant genome directed base editing backbone vector characterized in that: comprises a core unit consisting of two core regions of an nCas9-PmCDA1 nuclease-cytosine deaminase fusion protein expression unit and a synthetic guide RNA (sgRNA) transcription expression unit, wherein the core unit is driven by a Pol II type promoter to transcribe;

the core unit is nCas9 ORF-PmCDA1-Poly A-sgRNA cloning scaffold-T in sequence from 5 'direction to 3' direction; the nCas9ORF is a coding frame of a Streptococcus pyogenes nuclease protein D10A mutant; PmCDA1 is a functional unit of cytosine deaminase coding region; poly A is Poly A area; the sgRNA cloning and transcription unit is sgRNA cloning and transcription unit, and the sgRNA cloning scaffold is at least one; t is a terminator.

2. The plant genome directed base editing scaffold vector of claim 1, wherein: the functional unit of the coding region of the PmCDA1 cytosine deaminase sequentially comprises a GGGS joint, an SH3 joint, a PmCDA1 coding region, an NLS signal peptide, an UGI coding region, an SGGS joint and an NLS signal peptide from the N end to the C end.

3. The plant genome directed base editing scaffold vector of claim 1 or 2, conforming to at least one of:

a. the amino acid sequence coded by nCas9 nuclease protein D10A mutant coding frame nCas9ORF is shown as amino acids from position 1 to position 1382 in Seq ID No. 2;

b. the amino acid sequence encoded by the functional unit of the cytosine deaminase coding region of PmCDA1 is shown as amino acids 1383 to 1788 in Seq ID No. 2.

4. The plant genome directed base editing scaffold vector according to any one of claims 1 to 3, wherein: the sgRNA cloning and transcription unit sgRNA cloning scaffold comprises a tRNA-Gly coding sequence, a BsaI-ccdB-BsaI unit, an sgRNA framework coding sequence and a tRNA-Gly coding sequence from 5 'end to 3' end in sequence.

5. The plant genome directed base editing scaffold vector of any one of claims 1 to 4, wherein: the number of sgRNA cloning and transcription units is 1-6.

6. The plant genome directed base editing scaffold vector of any one of claims 1 to 5, wherein: the nucleotide sequence of the sgRNA cloning and transcription unit sgRNA cloning scaffold is shown as 7432bp to 8300bp in Seq ID No. 1.

7. The plant genome directed base editing scaffold vector of any one of claims 1 to 7, wherein: at least one of the following is met:

a. the nucleotide sequence encoded by nCas9 nuclease protein D10A mutant encoding frame nCas9ORF is shown as 2011bp to 6156bp in Seq ID No. 1;

b. the nucleotide sequence coded by the functional unit of the coding region of the PmCDA1 cytosine deaminase is shown in 6157bp to 7374bp in Seq ID No. 1;

c. the nucleotide sequence of Poly A region Poly A is shown as 7384bp to 7431bp in Seq ID No. 1.

8. The plant genome directed base editing scaffold vector of any one of claims 1 to 6, wherein:

at least one of the following is met:

a. the terminator is a rice HSP terminator HSPT, and the nucleotide sequence of the terminator is shown by a nucleotide sequence from 8307bp to 8556bp in Seq ID No. 1;

b. the Pol II type promoter is a corn pZmUbi1 promoter pZmUbi1, and the nucleotide sequence is shown from the 1bp to the 2008bp in Seq ID No. 1.

9. The plant genome directed base editing scaffold vector of any one of claims 1 to 8, wherein: the core unit of the framework vector has the structure of pZmUbi1-nCas9 ORF-PmCDA1-Poly A-sgRNA cloningscaffold-HSPT, and the nucleotide sequence is shown in Seq ID No. 1.

10. The preparation method of the recombinant expression vector for carrying out directional base editing aiming at the specific cytosine base of the target site of the plant genome comprises the following steps:

a. defining a target DNA region of a specific biological genome, analyzing the region with PAM characteristics, and selecting a DNA sequence of 15-30 bpadjacent to the 5' end of a PAM structure as a specific target sequence;

b. respectively synthesizing 5' -CGGA-N according to selected specific target sequence_XA forward oligonucleotide strand of-3 'character and having 5' -AAAC-N_X-a reverse oligonucleotide strand of 3' character, N represents any of A, G, C, T, X is an integer, and 14 ≦ X ≦ 30, wherein N in the forward oligonucleotide strand_XAnd N in reverse oligonucleotide_XHas reverse complementary characteristics; obtaining a complementary oligonucleotide double-stranded fragment by annealing;

c. mixing the plant genome directed base editing skeleton vector of any one of claims 1 to 9 with the complementary oligonucleotide double-stranded fragment obtained in step b, simultaneously adding BsaI endonuclease and T4DNA ligase into a reaction system, and setting enzyme digestion-ligation cycling reaction to obtain the recombinant expression vector for site directed base editing.