CN115427560A

CN115427560A - 使用无催化活性rna指导的内切核酸酶的crispr-aid

Info

Publication number: CN115427560A
Application number: CN202180020798.4A
Authority: CN
Inventors: M.托马斯; 仲西隆志
Original assignee: Novozymes AS
Current assignee: Novozymes AS
Priority date: 2020-03-12
Filing date: 2021-03-10
Publication date: 2022-12-02
Also published as: WO2021183622A1; EP4118195A1

Abstract

本发明涉及核碱基编辑复合物，以及编码所述核碱基编辑复合物的多核苷酸、包含所述多核苷酸的核酸构建体和表达载体、包含所述核碱基编辑复合物和/或多核苷酸的宿主细胞、以及制备和使用所述核碱基编辑复合物的方法，其中所述核碱基编辑复合物包含a)与SEQ ID NO:126或SEQ ID NO:155具有至少60％序列同一性的无催化活性RNA指导的内切核酸酶以及b)核碱基编辑结构域。

Description

使用无催化活性RNA指导的内切核酸酶的CRISPR-AID

序列表的引用

本申请含有计算机可读形式的序列表，将其通过引用并入本文。

技术领域

背景技术

将单核苷酸多态性(SNP，也称为单核苷酸变异，SNV)引入基因组是特定生物体进化的关键。工业上重要的微生物通常在实验室中被诱变以获得新的或增强的功能，例如压力耐受性、目的分子的更高表达潜力等。然而，现有的SNP引入方法具有明显的局限性。通过紫外线照射或化学暴露获得的随机诱变提供了高度多样化的基因型，但对有益SNP进行鉴定是劳动密集型的。通过CRISPR技术获得的定点诱变允许引入靶标特异性SNP，因此看起来更有前景。简而言之，使用具有与目的基因座中的DNA序列互补的原型间隔区的指导RNA(gRNA)将RNA指导的内切核酸酶(例如Cas9或Cpf1)引导至该目的基因座。RNA指导的内切核酸酶在靶基因座处结合并切割DNA链，导致双链断裂(DSB)，细胞将尝试使用非同源末端连接(NHEJ)或类似机制对该断裂进行修复。然而，如果为细胞提供了编码所需点突变的修复DNA，并且侧翼为与DSB上游和下游区域同源的序列，则同源定向修复(HDR)将导致在目的基因座中掺入含有所需突变的修复DNA。尽管应用广泛，但这种基于CRISPR的方法不适合大规模诱变研究，因为每一个单个靶基因座都需要修复DNA。此外，DSB的引入与细胞毒性有关。因此，一种以可靶向的方式产生高度多样化的突变体并易于识别所产生的SNP的方法将是非常有利的。

可以通过使用所称的CRISPR-AID技术(Komor等人,Nature[自然],卷533,第420-424页,2016；Nishida等人,Science[自然],卷353,aaf8729,2016)来规避对修复DNA的需求。本文中，将无催化活性RNA指导的内切核酸酶连接到核碱基编辑结构域以形成核碱基编辑复合物。核碱基编辑结构域要么是胞嘧啶碱基编辑器(CBE)，可将C-G碱基对转换为T-A碱基对，要么是腺嘌呤碱基编辑器(ABE)，可将A-T碱基对转换为G-C碱基对(Rees和Liu,Nat.Rev.Genetics[遗传学自然评论],卷19,第770-788页,2018)。通过gRNA原型间隔子与其互补DNA序列之间的碱基配对将无催化活性RNA指导的内切核酸酶与靶基因座结合，导致所称的“R环”中的一小区段单链DNA发生置换，其中将核碱基暴露于核碱基编辑结构域的脱氨基作用，导致过渡突变和SNP生成。重要的是，由于将核碱基编辑复合物调整为仅在单链DNA上操作，因此不会出现DSB，并且避免了相关的细胞毒性副作用。因此，CRISPR-AID是以可扩展和可靶向的方式将SNP引入目的基因组的有用方法。

Cas9和Cpf1的无催化活性变体已广泛应用于CRISPR-AID技术(Nishida等人,见上文；Li等人,Nat.Biotech.[自然生物技术],卷36,第324-327页,2018)。然而，CRISPR-AID系统的进一步发展仍然需要改变或改进各种属性，例如编辑效率或编辑窗口。

WO 2015/133554描述了利用Cas9d作为无催化活性RNA指导的内切核酸酶以及活化诱导胞苷脱氨酶(AID)作为核碱基编辑结构域的CRISPR-AID。

发明内容

本发明的诸位发明人已经研究了分离自直肠真杆菌的RNA指导的内切核酸酶的无催化活性版本(称为Mad7)在CRISPR-AID碱基编辑中的用途。Mad7与分离自氨基酸球菌属物种的Cpf1的序列同一性只有31％，因此在结构上与其他已知的RNA指导的内切核酸酶非常不同。然而，如本文披露的实例所示，利用Mad7d-AID的CRISPR-AID碱基编辑在微生物宿主细胞中提供了与Cas9d-AID相当的编辑效率，该微生物宿主细胞用含有Mad7d-AID和gRNA表达盒的单个质粒转化，以稳定表达Mad7d-AID组分。此外，观察到Mad7d-AID的编辑窗口比Cas9d-AID更宽，说明基于Mad7d的CRISPR-AID更适合生成同一靶基因座的多个不同SNP，这对于生成SNP文库和筛选目的非常有利。

在第一方面，本发明涉及核碱基编辑复合物，该核碱基编辑复合物包含以下、基本上由以下组成或由以下组成：

a)无催化活性RNA指导的内切核酸酶，其与SEQ ID NO:126具有至少60％，例如，至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；以及

b)核碱基编辑结构域。

在第二方面中，本发明涉及编码第一方面所述的核碱基编辑复合物的多核苷酸。

在第三方面中，本发明涉及包含第二方面所述的多核苷酸的核酸构建体。

在第四方面，本发明涉及包含第二方面所述的多核苷酸和/或第三方面所述的核酸构建体的表达载体。

在第五方面，本发明涉及包含第一方面所述的核碱基编辑复合物、第二方面所述的多核苷酸、第三方面所述的核酸构建体和/或第四方面所述的表达载体的宿主细胞。

在第六方面，本发明涉及用于修饰DNA靶序列中的至少一个核碱基的方法，该方法包括：

a)提供第一方面所述的核碱基编辑复合物，其与与该DNA靶序列互补并能够与该DNA靶序列杂交的gRNA复合；以及

b)使该核碱基编辑复合物与该DNA靶序列接触；

其中该DNA靶序列中的至少一个核碱基被转化为不同的核碱基而不在目的DNA序列中引入双链断裂。

附图说明

图1示出了CRISPR-AID作用模式的示意图。

图2示出了质粒pHite277的示意图。

图3示出了质粒pTNA193的示意图。

图4示出了dCas9-AID产生的白色孢子突变体的基因组序列。

图5示出了质粒pTNA235的示意图。

图6示出了dCas9-AID-UGI产生的白色孢子突变体的基因组序列。

图7示出了质粒pTNA287的示意图。

图8示出了Mad7d-AID-UGI产生的白色孢子突变体的基因组序列。

图9示出了34℃孵育产生的白色孢子突变体的基因组序列。

图10示出了质粒pAT3530的示意图。

图11示出了质粒pMDT452的示意图。

图12示出了质粒pMDT454/pMDT455的示意图。

图13示出了菌株MDT545的DsRed表达盒的示意图。

定义

根据此详细描述，以下定义适用。注意，单数形式“一种/个(a/an)”以及“该/这些(the)”包括复数个指示物，除非上下文中另外明确指明。

本文提及“约”值或参数包括针对该值或参数本身的方面。例如，提及“约X”的描述包括方面“X”。

除非另外定义或由上下文明确指示，否则本文所用的全部技术与科学术语具有如本发明所属领域的普通技术人员通常理解的相同含义。

无催化活性的：术语“无催化活性”用于描述内切核酸酶活性被破坏的RNA指导的内切核酸酶。无催化活性的内切核酸酶可以结合靶标DNA序列中的断裂但不会在其中引入任何断裂。术语“无催化活性”、“核酸酶无效”和“死”(缩写为“d”，例如，Mad7d)在本文中可互换使用。

cDNA：术语“cDNA”意指可以通过从获得自真核或原核细胞的成熟的、剪接的mRNA分子进行反转录而制备的DNA分子。cDNA缺乏可以存在于对应基因组DNA中的内含子序列。初始的初级RNA转录物是mRNA的前体，其要通过一系列的步骤(包括剪接)进行加工，然后呈现为成熟的剪接的mRNA。

编码序列：术语“编码序列”意指直接指定多肽的氨基酸序列的多核苷酸。编码序列的边界通常由开放阅读框确定，该开放阅读框以起始密码子(例如ATG、GTG或TTG)开始并且以终止密码子(例如TAA、TAG或TGA)结束。编码序列可为基因组DNA、cDNA、合成DNA或其组合。

控制序列：术语“控制序列”意指对于表达编码本发明的多肽的多核苷酸所必需的核酸序列。每个控制序列对于编码多肽的多核苷酸而言可以是天然的(即，来自相同基因)或异源的(即，来自不同基因)，或者相对于彼此是天然的或异源的。此类控制序列包括但不限于前导序列、多腺苷酸化序列、前肽序列、启动子、信号肽序列、以及转录终止子。最少，控制序列包括启动子、以及转录和翻译终止信号。出于引入有利于将控制序列与编码多肽的多核苷酸的编码区连接的特异性限制位点的目的，这些控制序列可以提供有多个接头。

表达：术语“表达”意指涉及多肽产生的任何步骤，包括但不限于：转录、转录后修饰、翻译、翻译后修饰、以及分泌。

表达载体：术语“表达载体”意指直链或环状DNA分子，其包含编码多肽的多核苷酸并且可操作地连接至提供用于其表达的控制序列。

融合多肽：术语“融合多肽”是其中一种多肽在本发明多肽的N-末端或C-末端融合的多肽。通过将编码另一种多肽的多核苷酸与本发明的多核苷酸融合来产生融合多肽。用于产生融合多肽的技术是本领域已知的，并且包括连接编码多肽的编码序列使得它们符合读框，而且融合多肽的表达处于一个或多个相同的启动子和终止子的控制之下。还可以使用内含肽技术构建融合多肽，其中在翻译后产生融合多肽(Cooper等人,1993,EMBO J.[欧洲分子生物学学会杂志]12:2575-2583；Dawson等人,1994,Science[科学]266:776-779)。融合多肽可进一步包含两个多肽之间的切割位点。在融合蛋白分泌之时，位点被切割，从而释放出这两种多肽。切割位点的实例包括但不限于在以下文献中披露的位点：Martin等人,2003,J.Ind.Microbiol.Biotechnol.[工业微生物生物技术杂志]3:568-576；Svetina等人,2000,J.Biotechnol.[生物技术杂志]76:245-251；Rasmussen-Wilson等人,1997,Appl.Environ.Microbiol.[应用与环境微生物学]63:3488-3493；Ward等人,1995,Biotechnology[生物技术]13:498-503；和Contreras等人,1991,Biotechnology[生物技术]9:378-381；Eaton等人,1986,Biochemistry[生物化学]25:505-512；Collins-Racie等人,1995,Biotechnology[生物技术]13:982-987；Carter等人,1989,Proteins:Structure,Function,and Genetics[蛋白质：结构、功能以及遗传学]6:240-248；以及Stevens,2003,Drug Discovery World[药物发现世界]4:35-48。

异源：对于宿主细胞，术语“异源的”意指多肽或核酸不是天然存在于宿主细胞中。对于多肽或核酸，术语“异源的”意指控制序列(例如多肽或核酸的启动子或结构域)不与该多肽或核酸天然地相关联，即，控制序列是来自编码SEQ ID NO:126的成熟多肽的基因以外的基因。

宿主细胞：术语“宿主细胞”意指其中引入了包含本发明多核苷酸的核酸构建体或表达载体的任何微生物或植物细胞。引入方法包括但不限于原生质体融合、转染、转化、电穿孔、接合和转导。在一些实施例中，宿主细胞是分离的重组宿主细胞，其与至少一种其他组分(包括但不限于蛋白质、核酸、细胞等)部分或完全分离。

分离的：术语“分离的”是指多肽、核酸、细胞或其他特定材料或组分，其与在自然界中发现的与其天然相关联的至少一种其他材料或组分(包括但不限于，例如，其他蛋白质，核酸，细胞等)分离。分离的多肽包括但不限于含有分泌的多肽的培养液。

核酸构建体：术语“核酸构建体”意指单链或双链的核酸分子，该核酸分子是从天然存在的基因中分离的，或以原本不存在于自然界中的方式被修饰成含有核酸的区段，或者是合成的，该核酸分子包含一个或多个控制序列。

可操作地连接：术语“可操作地连接”意指如下构型，在该构型中，控制序列被放置在相对于多核苷酸的编码序列适当的位置处，使得该控制序列指导该编码序列的表达。

重组：当用于提及细胞、核酸、蛋白质或载体时，术语“重组”意指已经从其天然状态经修饰。因此，例如，重组细胞表达在天然(非重组)形式的细胞内未发现的基因，或与在自然界中发现的相比，以不同水平表达或在不同条件下表达天然基因。重组核酸与天然序列的差异在于一个或多个核苷酸和/或与异源序列(例如，表达载体中的异源启动子)可操作地连接。重组蛋白与天然序列的差异可以在于一个或多个氨基酸和/或与异源序列融合。包含编码多肽的核酸的载体是重组载体。术语“重组”与“遗传修饰的”和“转基因的”同义。

RNA指导的内切核酸酶：术语“RNA指导的内切核酸酶”意指具有内切核酸酶活性的多肽，其中该内切核酸酶活性受到一个或多个gRNA的控制，该gRNA与RNA指导的内切核酸酶形成复合物并且将内切核酸酶活性引导至与该一个或多个gRNA的一个或多个原型间隔区互补并且能够与该间隔区杂交的靶DNA序列。

序列同一性：两个氨基酸序列之间或两个核苷酸序列之间的相关性通过参数“序列同一性”来描述。

出于本发明的目的，使用尼德曼-翁施算法(Needleman-Wunsch algorithm)(Needleman和Wunsch,1970,J.Mol.Biol.[分子生物学杂志]48:443-453)来确定两个氨基酸序列之间的序列同一性作为“最长同一性”的输出，该算法如EMBOSS软件包(EMBOSS：TheEuropean Molecular Biology Open Software Suite[欧洲分子生物学开放软件套件],Rice等人,2000,Trends Genet.[遗传学趋势]16:276-277，优选6.6.0版本或其后的版本)的尼德尔程序所实施的。使用的参数是空位开放罚分10、空位延伸罚分0.5以及EBLOSUM62(BLOSUM62的EMBOSS版本)取代矩阵。为了使尼德尔程序报告最长同一性，必须在命令行中指定非简化(nobrief)选项。尼德尔标记的“最长同一性”的输出计算如下：

(相同的残基x100)/(比对长度-比对中的空位总数)

出于本发明的目的，使用尼德曼-翁施算法(Needleman和Wunsch,1970,同上)来确定两个多核苷酸序列之间的序列同一性作为“最长同一性”的输出，该算法如EMBOSS软件包(EMBOSS:The European Molecular Biology Open Software Suite[欧洲分子生物学开放软件套件],Rice等人,2000,同上)(优选6.6.0版本或更新版本)的尼德尔程序所实施的。使用的参数是空位开放罚分10、空位延伸罚分0.5以及EDNAFULL(NCBI NUC4.4的EMBOSS版本)取代矩阵。为了使尼德尔程序报告最长同一性，必须在命令行中指定非简化选项。尼德尔标记的“最长同一性”的输出计算如下：

(相同的脱氧核糖核苷酸x100)/(比对长度-比对中的空位总数)

变体命名惯例

出于本发明的目的，使用在SEQ ID NO:126中披露的多肽来确定另一种RNA指导的内切核酸酶中的相应的氨基酸位置。将另一种RNA指导的内切核酸酶的氨基酸序列与SEQID NO:126中披露的多肽进行比对，并且基于比对，可以使用如在EMBOSS包(EMBOSS:TheEuropean Molecular Biology Open Software Suite[EMBOSS：欧洲分子生物学开放软件套件],Rice等人,2000,Trends Genet.[遗传学趋势]16:276-277)(优选5.0.0版本或更新版本)的尼德尔程序中所实施的尼德曼-翁施算法(Needleman和Wunsch,1970,J.Mol.Biol.[分子生物学杂志]48:443-453)来确定与SEQ ID NO:126中披露的多肽中的任何氨基酸残基相对应的氨基酸位置编号。所使用的参数是空位开放罚分10、空位延伸罚分0.5、和EBLOSUM62(BLOSUM62的EMBOSS版本)取代矩阵。

在描述本发明的变体时，为了便于参考，以下描述的命名法经过了调整。采用了已接受的IUPAC单字母或三字母的氨基酸缩写。

取代：对于氨基酸取代，使用以下命名法：原始氨基酸、位置、取代的氨基酸。相应地，将在位置226处的苏氨酸被丙氨酸取代表示为“Thr226Ala”或“T226A”。多个突变通过加号(“+”)分开，例如“Gly205Arg+Ser411Phe”或“G205R+S411F”代表在位置205和位置411处的甘氨酸(G)和丝氨酸(S)分别被精氨酸(R)和苯丙氨酸(F)取代。

缺失：对于氨基酸缺失，使用以下命名法：原始氨基酸、位置、^*。相应地，将在位置195处的甘氨酸的缺失表示为“Gly195*”或“G195*”。多个缺失由加号(“+”)分隔，例如，“Gly195^*+Ser411^*”或“G195^*+S411^*”。

插入：对于氨基酸插入，使用以下命名法：原始氨基酸、位置、原始氨基酸、插入的氨基酸。相应地，将在位置195处的甘氨酸之后插入赖氨酸表示为“Gly195GlyLys”或“G195GK”。多个氨基酸的插入被表示为[原始氨基酸、位置、原始氨基酸、插入的氨基酸#1、插入的氨基酸#2；等]。例如，将在位置195处的甘氨酸之后插入赖氨酸和丙氨酸表示为“Gly195GlyLysAla”或“G195GKA”。

在此类情况下，通过将小写字母添加至在所插入的一个或多个氨基酸残基之前的氨基酸残基的位置编号而对所插入的一个或多个氨基酸残基进行编号。在以上实例中，该序列因此会是：

亲本：变体：

195 195 195a 195b

G G-K-A

多种改变：包含多个改变的变体由加号(“+”)分开，例如“Arg170Tyr+Gly195Glu”或者“R170Y+G195E”代表在位置170和位置195处的精氨酸和甘氨酸分别被酪氨酸和谷氨酸取代。

不同改变。可以在一个位置上引入不同的变化时，这些不同的变化由一个逗号分开，例如“Arg170Tyr,Glu”代表在位置170上的精氨酸被酪氨酸或谷氨酸取代。因此，“Tyr167Gly,Ala+Arg170Gly,Ala”表示以下变体：

“Tyr167Gly+Arg170Gly”、“Tyr167Gly+Arg170Ala”、“Tyr167Ala+Arg170Gly”、和“Tyr167Ala+Arg170Ala”。

具体实施方式

核碱基编辑复合物

a)无催化活性RNA指导的内切核酸酶，其与SEQ ID NO:126或SEQ ID NO:155具有至少60％，例如，如至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；以及

b)核碱基编辑结构域。

在一个实施例中，该核碱基编辑复合物包含以下、基本上由以下组成或由以下组成：

a)无催化活性RNA指导的内切核酸酶，其与SEQ ID NO:126具有至少60％，例如，如至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；以及

b)核碱基编辑结构域。

无催化活性RNA指导的内切核酸酶可以是任何与SEQ ID NO:126或SEQ ID NO:155具有至少60％序列同一性的无催化活性RNA指导的内切核酸酶。在优选的实施例中，该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变。在一个实施例中，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val，优选地被Ala取代。在另一实施例中，变体包含SEQ ID NO:126的取代D877A，或由SEQ ID NO:126的取代D877A组成。在优选的实施例中，该无催化活性RNA指导的内切核酸酶包含SEQ IDNO:126，基本上由SEQ ID NO:126组成，或由SEQ ID NO:126组成。在另一个优选的实施例中，该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:155，基本上由SEQ ID NO:155组成，或由SEQ ID NO:155组成。在一个实施例中，无催化活性RNA指导的内切核酸酶由多核苷酸编码，该多核苷酸与SEQ ID NO:156具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。优选地，编码该无催化活性RNA指导的内切核酸酶的多核苷酸包含SEQ ID NO:156的多核苷酸或由该多核苷酸组成。

核碱基编辑结构域可以是胞嘧啶碱基编辑器(CBE)，可将C-G碱基对转换为T-A碱基对，或者是腺嘌呤碱基编辑器(ABE)，可将A-T碱基对转换为G-C碱基对。总的来说，CBE和ABE可以介导DNA核碱基的所有四种可能的过渡突变(C至T、A至G、T至C以及G至A)(Rees和Liu，参见上文)。

在一个方面，核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。通过将环外胺脱氨基成为靶胞嘧啶(C)来生成尿嘧啶(U)(聚合酶将其读取为胸腺嘧啶(T))，CBE将C-G碱基对转化为T-A碱基对。合适的CBE包括APOBEC/AID家族的成员，特别是胞苷脱氨酶1(CDA1，如从海七鳃鳗获得的PmCDA1，由SEQ ID NO:127的多核苷酸编码；Nishida等人,见上文)和APOBEC1(Harris等人,Mol.Cell.[分子细胞],卷10,第1247-1253页,2002)，还包括APOBEC2、APOBEC3、APOBEC4和APOBEC5(Knisbacher等人,Trends Genet.[遗传学趋势],卷32,第553-563页,2000)。

在优选的实施例中，核碱基编辑结构域是APOBEC/AID家族的胞嘧啶碱基编辑器。

在优选的实施例中，核碱基编辑结构域是APOBEC1或其同源物或变体。

在优选的实施例中，核碱基编辑结构域是CDA1或其同源物或变体。最优选地，核碱基编辑结构域是获得自海七鳃鳗的PmCDA1。

在优选的实施例中，该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQID NO:128具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ IDNO:128组成。

在一个方面，核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)。与CBE类似，通过将靶标腺嘌呤(A)的环外胺脱氨基生成肌苷(I)，ABE将A-T碱基对转化为G-C碱基对。在聚合酶活性位点的情况下，I偏好与胞嘧啶(C)进行碱基配对，然后将其读取或复制为鸟嘌呤(G)。合适的ABE基于来自大肠杆菌的tRNA腺苷脱氨酶(TadA)(Gaudelli等人,Nature[自然],卷551,第464-471页,2017)并包括TadA、TadA*(TadA的A106V和/或D108N变体)、TadA同源二聚体和TadA-TadA*异源二聚体。

在优选的实施例中，核碱基编辑结构域是基于tRNA腺苷脱氨酶(TadA)的腺嘌呤碱基编辑器。

在优选的实施例中，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

在真核细胞，特别是哺乳动物细胞中使用核碱基编辑结构域的一个挑战是需要规避在A-U和I-T中间体形成时启动的DNA修复过程，特别是碱基切除修复过程，该过程由CBE将C脱氨为U产生的U-G错配激活。U-G错配的修复由尿嘧啶N-糖基化酶(UNG)启动，该酶可能被尿嘧啶DNA糖基化酶抑制剂(UGI)抑制，UGI是一种源自PBS噬菌体的DNA模拟物(Mol等人,Cell[细胞],卷82,第701-708页,1995)。

在一个实施例中，该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)，并且该核碱基编辑复合物进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)。优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域可以以多种方式连接以形成本发明的核碱基编辑复合物。在一个实施例中，RNA指导的内切核酸酶和核碱基编辑结构域以末端-末端方式融合，即无间插多肽序列。在另一个实施例中，无催化活性RNA指导的内切核酸酶和核碱基编辑结构域经由间插多肽(即，接头多肽)连接。通过以末端-末端方式排列无催化活性RNA指导的内切核酸酶和核碱基编辑结构域或经由接头多肽将其连接，可以将核碱基编辑复合物表达为单一融合多肽。接头多肽的长度和氨基酸组成将取决于无催化活性RNA指导的内切核酸酶和核碱基编辑结构域的大小和三维结构并且接头多肽通常应具有足够的长度和柔性以防止无催化活性RNA指导的内切核酸酶和核碱基编辑结构域的一个或多个结合和/或活性位点在它们连接在一起时的空间阻碍。

因此，在一个方面，核碱基编辑复合物是包含无催化活性RNA指导的内切核酸酶和核碱基编辑结构域的融合多肽。用于产生融合多肽的技术是本领域已知的，且包括连接编码多肽的编码序列使得它们符合读框，而且融合多肽的表达处于一个或多个相同的启动子和终止子的控制之下。还可以使用内含肽技术构建融合多肽，其中在翻译后产生融合多肽(Cooper等人,1993,EMBO J.[欧洲分子生物学学会杂志]12:2575-2583；Dawson等人,1994,Science[科学]266:776-779)。

在一个实施例中，该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域以末端-末端方式融合，即无间插接头多肽。

在另一个实施例中，无催化活性RNA指导的内切核酸酶和核碱基编辑结构域被接头多肽分开。优选地，该无催化活性RNA指导的内切核酸酶、该接头多肽和该核碱基编辑结构域被框内编码(encoded in frame)并表达为单个多肽。

优选地，接头多肽包含至少10氨基酸残基，例如，如至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、至少170、至少180、至少190、至少200、至少225、至少250、至少275、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000或更多个氨基酸残基。更优选地，接头多肽包含至少75氨基酸残基，例如，如至少80、至少85、至少90、至少95、至少100、至少105、至少110、至少115、至少120或至少125个氨基酸残基。甚至更优选地，接头多肽包含80-120氨基酸残基，例如，如85-115个氨基酸残基，90-110个氨基酸残基，或95-105个氨基酸残基。

在优选的实施例中，接头包含16个氨基酸残基或由16个氨基酸残基组成。

在优选的实施例中，接头包含32个氨基酸残基或由32个氨基酸残基组成。

在优选的实施例中，接头包含100个氨基酸残基或由100个氨基酸残基组成。

在优选的实施例中，接头包含105个氨基酸残基或由105个氨基酸残基组成。

在一个实施例中，该接头多肽与SEQ ID NO:130具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。优选地，该接头多肽包含SEQ ID NO:130的多肽或由该多肽组成。在一个实施例中，该接头多肽由多核苷酸编码，该多核苷酸与SEQ ID NO:129具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。优选地，该接头多肽包含SEQ ID NO:129的多核苷酸或由该多核苷酸组成。

构建本发明的核碱基编辑复合物的另一个选择是将无催化活性RNA指导的内切核酸酶和核碱基编辑结构域表达为两个单独的多肽，然后通过利用生物相容性，优选地双正交小分子反应的化学接合方法将它们连接起来。通常，通过安装所需的小分子官能团对多肽进行翻译后修饰，所述小分子官能团可任选地经由接头附接至多肽。合适的接合方法是Cu(I)催化的叠氮化物-炔烃环加成(CuAAC；Rostovtsev等人,Angew.Chem.Int.Ed[德国应用化学],卷41,第2596-2599页,2002；

等人,J.Org.Chem[有机化学杂志],卷67,第3057-3064页,2002)。

在一个实施例中，本发明的核碱基编辑复合物包含：

b)核碱基编辑结构域，其包含多肽，该多肽与SEQ ID NO:128具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。

在一个实施例中，本发明的核碱基编辑复合物包含：

a)无催化活性RNA指导的内切核酸酶，其与SEQ ID NO:126具有至少60％，例如，如至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；

b)核碱基编辑结构域，其包含多肽，该多肽与SEQ ID NO:128具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；以及

c)尿嘧啶DNA糖基化酶抑制剂，该抑制剂包含多肽，该多肽与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。

在一个实施例中，本发明的核碱基编辑复合物包含：

c)尿嘧啶DNA糖基化酶抑制剂，该抑制剂包含多肽，该多肽与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性，

其中该无催化活性的RNA指导的内切核酸酶和该核碱基编辑结构域被包含至少50个氨基酸(优选地至少100个氨基酸)的接头多肽分开。

指导RNA

gRNA构成了CRISPR系统的可重新编程部分，允许将RNA指导的内切核酸酶靶向特定的目的基因座。在大多数天然系统(包括酿脓链球菌)中，gRNA是两种RNA多核苷酸的复合物，第一RNA(crRNA或原型间隔子)含有约20个核苷酸，其确定了RNA指导的内切核酸酶的特异性，第二RNA(tracrRNA或支架)与第一RNA杂交以形成与RNA指导的内切核酸酶相互作用的RNA复合物(参见Jinek等人,2012,A programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity[在自适应细菌免疫中的可编程双重-RNA指导的DNA内切核酸酶],Science[科学]337:816-821)。在本文中术语crRNA和tracrRNA与术语tracr配对RNA和tracr RNA可互换地使用。

由于CRISPR-Cas9系统的发现，单一多核苷酸gRNA已经被开发并成功应用，与天然两部分gRNA复合物一样有效。

在优选的实施例中，该gRNA是单一gRNA或RNA复合物，该单一gRNA或RNA复合物包含第一RNA，该第一RNA包含与该一个或多个DNA靶序列至少85％互补并且能够与该一个或多个DNA靶序列杂交的20个或更多个核苷酸；优选地，该20个或更多个核苷酸与该一个或多个DNA靶序列至少90％、95％、97％、98％、99％或甚至100％互补并且能够与该一个或多个DNA靶序列杂交。

在特别优选的实施例中，该gRNA是单一gRNA或RNA复合物，该单一gRNA或RNA复合物包含第一RNA，该第一RNA包含与该一个或多个DNA靶序列至少85％互补并且能够与该一个或多个DNA靶序列杂交的21个核苷酸；优选地，该21个核苷酸与该一个或多个DNA靶序列至少90％、95％、97％、98％、99％或甚至100％互补并且能够与该一个或多个DNA靶序列杂交。

在另一个优选的实施例中，该gRNA包含单个多核苷酸形式的第一和第二RNA，其中当彼此杂交时，tracr配对序列和tracr序列形成茎环结构。

DNA靶序列

DNA靶序列可以在任何地方找到，包括体内(例如，在细胞或活生物体内，包括作为所述细胞或生物体基因组的一部分)、离体或体外。DNA靶序列应该与适合引导本发明的无催化活性的RNA指导的内切核酸酶与DNA靶序列结合的gRNA互补并能够与其杂交。

优选地，该DNA靶序列的长度是至少20个核苷酸，以允许其与该gRNA的对应的至少20个核苷酸的序列杂交。该DNA靶序列可以位于基因组中的任何位置，但通常位于编码序列或可读框内。

在优选的实施例中，该DNA靶序列包含多核苷酸，该多核苷酸包含与该一个或多个gRNA至少85％互补并且能够与该gRNA杂交的20个或更多个核苷酸；优选地，该20个或更多个核苷酸与gRNA至少90％、95％、97％、98％、99％或甚至100％互补并且能够与该gRNA杂交。

在特别优选的实施例中，该DNA靶序列包含多核苷酸，该多核苷酸包含与该gRNA至少85％互补并且能够与该gRNA杂交的21个核苷酸；优选地，该21个核苷酸与gRNA至少90％、95％、97％、98％、99％或甚至100％互补并且能够与该gRNA杂交。

DNA靶序列的侧翼应该是功能性原型间隔子相邻基序(PAM)，其被本发明的RNA指导的内切核酸酶识别。有关PAM序列的综述，参见，例如，Shah等人,2013,Protospacerrecognition motifs[原型间隔子识别基序],RNA Biol.[RNA生物学]10(5):891-899。优选地，PAM序列是5’-TTTN-3’或5’-CTTN-3’。更优选地，该PAM序列是5’-TTTN-3’。最优选地，该PAM序列是5’-TTTC-3’或5’-TTTG-3’。

在优选的实施例中，该DNA靶序列位于该PAM序列的3’端。最优选地，该DNA靶序列位于与该PAM序列的3'端直接相邻的位置。

优选地，该DNA靶序列包含在编码多肽的可读框中或包含在启动子区域中。还优选地，该DNA靶序列编码一个或多个选自由以下组成的组的酶：水解酶、异构酶、连接酶、裂解酶、氧化还原酶、或转移酶；优选地，该一个或多个酶是α-淀粉酶、α-半乳糖苷酶、α-葡糖苷酶、氨肽酶、淀粉酶、天冬酰胺酶、β-半乳糖苷酶、β-葡糖苷酶、β-木糖苷酶、糖酶、羧肽酶、过氧化氢酶、纤维二糖水解酶、纤维素酶、壳多糖酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、内切葡聚糖酶、酯酶、葡聚糖转移酶、葡糖淀粉酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶、氧化酶、果胶分解酶、过氧化物酶、磷酸二酯酶、植酸酶、多酚氧化酶、蛋白水解酶、核糖核酸酶、转谷氨酰胺酶、和木聚糖酶。

优选地，DNA靶序列编码荧光蛋白(例如，绿色荧光蛋白)、其片段或变体。

多核苷酸

本发明还涉及编码本发明的核碱基编辑复合物的分离的多核苷酸，如本文所述。

用于分离或克隆多核苷酸的技术是本领域已知的且包括从基因组DNA或cDNA或其组合进行分离。来自基因组DNA的多核苷酸的克隆可以例如通过使用聚合酶链式反应(PCR)或用以对具有共有的结构特征的克隆的DNA片段进行检测的表达库抗体筛选来实现。参见例如，Innis等人,1990,PCR:A Guide to Methods and Application[PCR：方法和应用指南],Academic Press[学术出版社],纽约。可以使用其他核酸扩增程序如连接酶链式反应(LCR)、连接激活的转录(LAT)和基于多核苷酸的扩增(NASBA)。

核酸构建体

本发明还涉及包含编码本发明的核碱基编辑复合物的多核苷酸的核酸构建体，其中该多核苷酸可操作地连接至一个或多个控制序列，在与控制序列相容的条件下，该一个或多个控制序列指导该编码序列在合适的宿主细胞中的表达。

多核苷酸可以按多种方式操纵，以提供核碱基编辑复合物的表达。取决于表达载体，在多核苷酸插入载体之前对其进行操纵可能是理想的或必需的。用于利用重组DNA方法修饰多核苷酸的技术是本领域熟知的。

控制序列可为启动子，即，被宿主细胞识别用于表达编码本发明的多肽的多核苷酸的多核苷酸。启动子包含介导多肽的表达的转录控制序列。启动子可以是在宿主细胞中显示转录活性的任何多核苷酸，包括突变启动子、截短启动子和杂合启动子，并且可以获得自编码与宿主细胞同源或异源的胞外或胞内多肽的基因。

用于在细菌宿主细胞中指导本发明多核苷酸的转录的合适启动子的实例是从以下基因中获得的启动子：解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、地衣芽孢杆菌青霉素酶基因(penP)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)产麦芽糖淀粉酶基因(amyM)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、枯草芽孢杆菌xylA和xylB基因、苏云金芽孢杆菌(Bacillus thuringiensis)cryIIIA基因(Agaisse和Lereclus,1994,Molecular Microbiology[分子微生物学]13:97-107)、大肠杆菌lac操纵子、大肠杆菌trc启动子(Egon等人,1988,Gene[基因]69:301-315)、天蓝链霉菌(Streptomyces coelicolor)琼脂水解酶基因(dagA)和原核β-内酰胺酶基因(Villa-Kamaroff等人,1978,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]75:3727-3731)以及tac启动子(DeBoer等人,1983,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]80:21-25)。其他启动子描述于Gilbert等人,1980,Scientific American[科学美国人]242:74-94的“Useful proteins from recombinant bacteria[来自重组细菌的有用蛋白质]”；和Sambrook等人,1989,同上。串联启动子的实例披露于WO 99/43835中。

用于在丝状真菌宿主细胞中指导本发明多核苷酸的转录的适合的启动子的实例是从以下基因中获得的启动子：构巢曲霉(Aspergillus nidulans)乙酰胺酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米曲霉(Aspergillus oryzae)TAKA淀粉酶、米曲霉碱性蛋白酶、米曲霉丙糖磷酸异构酶、尖孢镰孢(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)、镶片镰孢(Fusarium venenatum)淀粉葡糖苷酶(WO 00/56900)、镶片镰孢Daria(WO 00/56900)、镶片镰孢Quinn(WO 00/56900)、米黑根毛霉(Rhizomucormiehei)脂肪酶、米黑根毛霉天冬氨酸蛋白酶、里氏木霉(Trichoderma reesei)β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉木聚糖酶III、里氏木霉β-木糖苷酶以及里氏木霉翻译延伸因子，连同NA2-tpi启动子(来自曲霉属中性α-淀粉酶基因的经修饰的启动子，其中已经用来自曲霉属丙糖磷酸异构酶基因的未翻译的前导序列替代未翻译的前导序列；非限制性实例包括来自黑曲霉中性α-淀粉酶基因的经修饰的启动子，其中已经用来自构巢曲霉或米曲霉丙糖磷酸异构酶基因的未翻译的前导序列替代未翻译的前导序列)；及其突变启动子、截短启动子和杂合启动子。其他启动子在美国专利号6,011,147中描述。

在酵母宿主中，有用的启动子从以下的基因中获得：酿酒酵母烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH1、ADH2/GAP)、酿酒酵母丙糖磷酸异构酶(TPI)、酿酒酵母金属硫蛋白(CUP1)、以及酿酒酵母3-磷酸甘油酸激酶。酵母宿主细胞的其他有用的启动子由Romanos等人,1992,Yeast[酵母]8:423-488描述。

控制序列也可为由宿主细胞识别以终止转录的转录终止子。终止子可操作地连接至编码多肽的多核苷酸的3'末端。在宿主细胞中有功能的任何终止子可用于本发明中。

细菌宿主细胞的优选终止子从以下的基因中获得：克劳氏芽孢杆菌碱性蛋白酶(aprH)、地衣芽孢杆菌α-淀粉酶(amyL)、和大肠杆菌核糖体RNA(rrnB)。

丝状真菌宿主细胞的优选终止子从以下的基因中获得：构巢曲霉乙酰胺酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶、尖孢镰孢胰蛋白酶样蛋白酶、里氏木霉β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉木聚糖酶III、里氏木霉β-木糖苷酶和里氏木霉翻译延伸因子。

酵母宿主细胞的优选终止子从以下的基因中获得：酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)以及酿酒酵母甘油醛-3-磷酸脱氢酶。酵母宿主细胞的其他有用的终止子由Romanos等人(1992,同上)描述。

控制序列还可以是启动子下游和基因的编码序列上游的mRNA稳定子区域，其增加该基因的表达。

适合的mRNA稳定子区域的实例是从以下获得的：苏云金芽孢杆菌cryIIIA基因(WO94/25612)和枯草芽孢杆菌SP82基因(Hue等人,1995,J.Bacteriol.[细菌学杂志]177:3465-3471)。

控制序列也可以是前导序列，即对宿主细胞翻译很重要的mRNA的非翻译区域。前导序列可操作地连接至编码多肽的多核苷酸的5'末端。可以使用在宿主细胞中有功能的任何前导序列。

丝状真菌宿主细胞的优选前导序列从以下的基因中获得：米曲霉TAKA淀粉酶和构巢曲霉丙糖磷酸异构酶。

酵母宿主细胞的适合的前导序列从以下的基因中获得：酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

控制序列还可以是多腺苷酸化序列，一种可操作地连接至该多核苷酸的3’末端并且当转录时由宿主细胞识别为将多腺苷酸残基添加至所转录的mRNA的信号的序列。可以使用在宿主细胞中有功能的任何多腺苷酸化序列。

用于丝状真菌宿主细胞的优选多腺苷酸化序列从以下酶的基因获得：构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶以及尖孢镰孢胰蛋白酶样蛋白酶。

酵母宿主细胞的有用的多腺苷酸化序列由Guo和Sherman,1995,Mol.CellularBiol.[分子细胞生物学]15:5983-5990描述。

控制序列还可以是编码与多肽的N-末端连接的信号肽并指导多肽进入细胞的分泌途径的信号肽编码区。多核苷酸的编码序列的5’端本身可以含有在翻译阅读框中天然与编码多肽的编码序列区段相连接的信号肽编码序列。可替代地，编码序列的5’端可以含有对于该编码序列是异源的信号肽编码序列。在编码序列天然地不含有信号肽编码序列的情况下，可能需要异源信号肽编码序列。可替代地，异源信号肽编码序列可以单纯地替代天然信号肽编码序列以便增强多肽的分泌。然而，可以使用指导已表达多肽进入宿主细胞的分泌途径的任何信号肽编码序列。

细菌宿主细胞的有效信号肽编码序列是从以下的基因中获得的信号肽编码序列：芽孢杆菌NCIB 11837产麦芽糖淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌α-淀粉酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽由Simonen和Palva,1993,Microbiol.Rev.[微生物评论]57:109-137描述。

丝状真菌宿主细胞的有效信号肽编码序列是从以下的基因中获得的信号肽编码序列：黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米曲霉TAKA淀粉酶、特异腐质霉纤维素酶、特异腐质霉内切葡聚糖酶V、疏棉状腐质霉脂肪酶和米黑根毛霉天冬氨酸蛋白酶。

酵母宿主细胞的有用的信号肽从以下的基因中获得：酿酒酵母α-因子和酿酒酵母转化酶。其他的有用的信号肽编码序列由Romanos等人(1992，同上)描述。

控制序列还可以是编码位于多肽的N-末端的前肽的前肽编码序列。所得的多肽被称为前体酶(proenzyme)或多肽原(或在一些情况下被称为酶原(zymogen))。多肽原通常是无活性的并且可通过催化切割或自身催化切割来自多肽原的前肽而转化为活性多肽。前肽编码序列可以从以下的基因中获得：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、嗜热毁丝霉(Myceliophthora thermophila)漆酶(WO 95/33836)、米黑根毛霉天冬氨酸蛋白酶和酿酒酵母α-因子。

在信号肽序列和前肽序列二者都存在的情况下，该前肽序列位于紧邻多肽的N-末端且该信号肽序列位于紧邻前肽序列的N-末端。

还可希望的是添加调节序列，这些调节序列调节宿主细胞生长相关的多肽的表达。调节序列的实例是引起基因表达以响应于化学或物理刺激(包括调节化合物的存在)而开启或关闭的那些。原核系统中的调节序列包括lac、tac、和trp操纵子系统。在酵母中，可以使用ADH2系统或GAL1系统。在丝状真菌中，可以使用黑曲霉葡糖淀粉酶启动子、米曲霉TAKA α-淀粉酶启动子和米曲霉葡糖淀粉酶启动子、里氏木霉纤维二糖水解酶I启动子和里氏木霉纤维二糖水解酶II启动子。调节序列的其他实例是允许基因扩增的那些序列。在真核系统中，这些调节序列包括在甲氨蝶呤存在下扩增的二氢叶酸还原酶基因以及用重金属扩增的金属硫蛋白基因。在这些情况中，编码多肽的多核苷酸会与调节序列可操作地连接。

表达载体

本发明还涉及包含编码本发明的核碱基编辑复合物的多核苷酸、启动子、以及转录和翻译终止信号的重组表达载体。多个核苷酸和控制序列可连接在一起以产生重组表达载体，该重组表达载体可包括一个或多个便利的限制位点以允许编码该多肽的多核苷酸在此类位点处的插入或取代。可替代地，可以通过将多核苷酸或包含该多核苷酸的核酸构建体插入用于表达的适当载体中而表达该多核苷酸。在产生表达载体时，编码序列如此位于载体中，使得编码序列与用于表达的适当控制序列可操作地连接。

重组表达载体可以是可以方便地经受重组DNA程序并且可以引起多核苷酸表达的任何载体(例如，质粒或病毒)。载体的选择将典型地取决于载体与待引入载体的宿主细胞的相容性。载体可以是直链或闭合环状质粒。

载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，例如质粒、染色体外元件、微染色体或人工染色体。载体可以含有用于确保自我复制的任何手段。可替代地，载体可以是这样的载体，当它引入宿主细胞中时整合入基因组中并与其中已整合了它的一个或多个染色体一起复制。此外，可以使用单独的载体或质粒或两个或更多个载体或质粒，其共同含有待引入宿主细胞基因组的总DNA，或可以使用转座子。

载体优选地含有允许方便地选择转化细胞、转染细胞、转导细胞等细胞的一个或多个选择性标记。选择性标记是一种基因，其产物提供了杀生物剂抗性或病毒抗性、对重金属抗性、对营养缺陷型的原养型等。

细菌选择性标记的实例是地衣芽孢杆菌或枯草芽孢杆菌dal基因、或赋予抗生素抗性(如氨苄青霉素、氯霉素、卡那霉素、新霉素、大观霉素、或四环素抗性)的标记。酵母宿主细胞的适合的标记包括但不限于：ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。用于在丝状真菌宿主细胞中使用的选择性标记包括但不限于adeA(磷酸核糖酰氨基咪唑-琥珀羧胺合酶)、adeB(磷酸核糖酰-氨基咪唑合酶)、amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草丁膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷基转移酶)以及trpC(邻氨基苯甲酸合酶)连同其等同物。优选的用于在曲霉属细胞中使用的是构巢曲霉或米曲霉amdS和pyrG基因以及吸水链霉菌(Streptomyces hygroscopicus)bar基因。优选的用于在木霉属细胞中使用的是adeA、adeB、amdS、hph和pyrG基因。

选择性标记可以是如WO 2010/039889中所述的双选择性标记系统。在一方面，双选择性标记是hph-tk双选择性标记系统。

载体优选地含有允许载体整合到宿主细胞的基因组中或载体在细胞中独立于基因组自主复制的一个或多个元件。

对于整合到宿主细胞基因组中，载体可以依靠编码该多肽的多核苷酸序列或用于通过同源或非同源重组整合到该基因组中的该载体的任何其他元件。可替代地，载体可以含有用于指导通过同源重组而整合入宿主细胞基因组中的一个或多个染色体中的一个或多个精确位置处的另外的多核苷酸。为了提高在精确位置处整合的可能性，整合元件应当含有足够数目的核酸，例如100至10,000个碱基对、400至10,000个碱基对、和800至10,000个碱基对，这些核酸与相对应的靶序列具有高度序列同一性以增强同源重组的概率。整合元件可以是与宿主细胞基因组内的靶序列同源的任何序列。此外，整合元件可以是非编码或编码的多核苷酸。另一方面，载体可以通过非同源重组整合入宿主细胞的基因组中。

为了自主复制，载体可以进一步包含复制起点，该复制起点使得载体在讨论中的宿主细胞中自主复制成为可能。复制起点可以是在细胞中发挥作用的介导自主复制的任何质粒复制子。术语“复制起点”或“质粒复制子”意指使质粒或载体能够在体内复制的多核苷酸。

细菌复制起点的实例是允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYC177、和pACYC184的复制起点，以及允许在芽孢杆菌属中复制的质粒pUB110、pE194、pTA1060、和pAMβ1的复制起点。

用于在酵母宿主细胞中使用的复制起点的实例是2微米复制起点、ARS1、ARS4、ARS1与CEN3的组合以及ARS4与CEN6的组合。

在丝状真菌细胞中有用的复制起点的实例是AMA1和ANS1(Gems等人,1991,Gene[基因]98:61-67；Cullen等人,1987,Nucleic Acids Res.[核酸研究]15:9163-9175；WO00/24883)。可根据WO 00/24883中披露的方法完成AMA1基因的分离和包含该基因的质粒或载体的构建。

可将本发明多核苷酸的多于一个拷贝插入宿主细胞以提高多肽的产生。通过将序列的至少一个另外的拷贝整合到宿主细胞基因组中或者通过包括与该多核苷酸一起的可扩增的选择性标记基因可以获得多核苷酸的增加的拷贝数目，其中通过在适当的选择性试剂的存在下培养细胞可以选择包含选择性标记基因的经扩增的拷贝以及由此该多核苷酸的另外的拷贝的细胞。

用于连接以上所述的元件以构建本发明的重组表达载体的程序是本领域的普通技术人员熟知的(参见例如，Sambrook等人,1989,同上)。

宿主细胞

本发明还涉及重组宿主细胞，该重组宿主细胞包含编码可操作地连接至一个或多个控制序列的本发明的核碱基编辑复合物的多核苷酸，该一个或多个控制序列引导该核碱基编辑复合物的表达。将包含多核苷酸的构建体或载体引入宿主细胞中，这样使得该构建体或载体作为染色体整合体或作为自主复制的染色体外载体维持，如较早前所述。

在一些实施例中，一个或多个控制序列中的至少一个与编码核碱基编辑复合物的多核苷酸是异源的。在一些实施例中，一个或多个控制序列中的至少一个与宿主细胞是异源的。

在一些实施例中，重组宿主细胞包含本发明的多核苷酸的至少两个拷贝，例如三个、四个或五个。

宿主细胞可以是任何细胞，例如原核细胞或真核细胞。

宿主细胞可以是任何哺乳动物细胞、微生物细胞或植物细胞。

优选地，该哺乳动物宿主细胞是小鼠、大鼠、猴或人细胞。

优选地，微生物细胞是原核细胞(例如，细菌细胞)或真菌细胞(例如，丝状真菌细胞或酵母细胞)。

宿主细胞可以是任何微生物或植物细胞，例如原核细胞或真菌细胞。

原核宿主细胞可以是任何革兰氏阳性或革兰氏阴性细菌。革兰氏阳性细菌包括但不限于：芽孢杆菌属、梭菌属、肠球菌属、土芽孢杆菌属、乳杆菌属、乳球菌属、大洋芽孢杆菌属、葡萄球菌属、链球菌属以及链霉菌属。革兰氏阴性细菌包括但不限于：弯曲杆菌属、大肠杆菌、黄杆菌属、梭杆菌属、螺杆菌属、泥杆菌属、奈瑟氏菌属、假单胞菌属、沙门氏菌属以及脲原体属。

细菌宿主细胞可以是任何芽孢杆菌属细胞，包括但不限于嗜碱芽孢杆菌、解淀粉芽孢杆菌、短芽孢杆菌、环状芽孢杆菌、克劳氏芽孢杆菌、凝结芽孢杆菌、坚硬芽孢杆菌、灿烂芽孢杆菌、迟缓芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、短小芽孢杆菌、嗜热脂肪芽孢杆菌、枯草芽孢杆菌以及苏云金芽孢杆菌细胞。最优选地，该细菌宿主细胞是地衣芽孢杆菌细胞。

细菌宿主细胞还可以是任何链球菌属细胞，包括但不限于类马链球菌(Streptococcus equisimilis)、酿脓链球菌(Streptococcus pyogenes)、乳房链球菌(Streptococcus uberis)以及马链球菌兽疫亚种(Streptococcus equisubsp.Zooepidemicus)细胞。

细菌宿主细胞还可以是任何链霉菌属细胞，包括但不限于：不产色链霉菌(Streptomyces achromogenes)、除虫链霉菌(Streptomyces avermitilis)、天蓝链霉菌、灰色链霉菌以及浅青紫链霉菌(Streptomyces lividans)细胞。

将DNA引入芽孢杆菌属细胞中可以通过以下方式来实现：原生质体转化(参见例如，Chang和Cohen,1979,Mol.Gen.Genet.[分子与普通遗传学]168:111-115)、感受态细胞转化(参见例如，Young和Spizizen,1961,J.Bacteriol.[细菌学杂志]81:823-829；或Dubnau和Davidoff-Abelson,1971,J.Mol.Biol.[分子生物学杂志]56:209-221)、电穿孔(参见例如，Shigekawa和Dower,1988,Biotechniques[生物技术]6:742-751)、或接合(参见例如，Koehler和Thorne,1987,J.Bacteriol.[细菌学杂志]169:5271-5278)。将DNA引入大肠杆菌细胞中可以通过以下方式来实现：原生质体转化(参见例如，Hanahan,1983,J.Mol.Biol.[分子生物学杂志]166:557-580)或电穿孔(参见例如，Dower等人,1988,Nucleic Acids Res.[核酸研究]16:6127-6145)。将DNA引入链霉菌属细胞中可以通过以下方式来实现：原生质体转化、电穿孔(参见例如，Gong等人,2004,Folia Microbiol.(Praha)[叶线形微生物学(布拉格)]49:399-405)、接合(参见例如，Mazodier等人,1989,J.Bacteriol.[细菌学杂志]171:3583-3585)、或转导(参见例如，Burke等人,2001,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]98:6289-6294)。将DNA引入假单胞菌属细胞中可以通过以下方式来实现：电穿孔(参见例如，Choi等人,2006,J.Microbiol.Methods[微生物学方法杂志]64:391-397)或接合(参见例如，Pinedo和Smets,2005,Appl.Environ.Microbiol.[应用与环境微生物学]71:51-57)。将DNA引入链球菌属细胞中可以通过以下方式来实现：天然感受态(natural competence)(参见例如，Perry和Kuramitsu,1981,Infect.Immun.[感染与免疫]32:1295-1297)、原生质体转化(参见例如，Catt和Jollick,1991,Microbios[微生物学]68:189-207)、电穿孔(参见例如，Buckley等人,1999,Appl.Environ.Microbiol.[应用与环境微生物学]65:3800-3804)、或接合(参见例如，Clewell,1981,Microbiol.Rev.[微生物学评论]45:409-436)。然而，可以使用本领域已知的将DNA引入宿主细胞中的任何方法。

宿主细胞可以是真菌细胞。如本文所用的“真菌”包括子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、壶菌门(Chytridiomycota)和接合菌门(Zygomycota)以及卵菌门(Oomycota)和所有有丝分裂孢子真菌(如由Hawksworth等人在以下文献中所定义：Ainsworth and Bisby’s Dictionary of The Fungi[安斯沃思和拜斯比真菌字典],第8版,1995,CAB International[国际应用生物科学中心],University Press[大学出版社],Cambridge，UK[英国剑桥])。

真菌宿主细胞可以为酵母细胞。如本文所用的“酵母”包括产子囊酵母(ascosporogenous yeast)(内孢霉目(Endomycetales))、产担子酵母(basidiosporogenous yeast)和属于半知菌类(Fungi Imperfecti)(芽孢纲(Blastomycetes))的酵母。由于酵母的分类可在将来变化，出于本发明的目的，酵母应当如Biology and Activities of Yeast[酵母的生物学与活性](Skinner,Passmore和Davenport编辑，Soc.App.Bacteriol.Symposium Series No.9[应用细菌学学会专题论文集系列9],1980)中所描述的那样定义。

酵母宿主细胞可以是假丝酵母属(Candida)细胞、汉逊酵母属(Hansenula)细胞、克鲁维酵母属(Kluyveromyces)细胞、毕赤酵母属(Pichia)细胞、酵母菌属(Saccharomyces)细胞、裂殖酵母(Schizosaccharomyces)或耶罗维亚酵母属(Yarrowia)细胞，例如乳酸克鲁维酵母(Kluyveromyces lactis)细胞、巴斯德毕赤酵母(也称为Khomagataella phaffii)细胞、卡尔酵母(Saccharomyces carlsbergensis)细胞、酿酒酵母(Saccharomyces cerevisiae)细胞、糖化酵母(Saccharomyces diastaticus)细胞、道格拉氏酵母(Saccharomyces douglasii)细胞、克鲁弗酵母(Saccharomyces kluyveri)细胞、诺地酵母(Saccharomyces norbensis)细胞、卵形酵母(Saccharomyces oviformis)细胞或解脂耶罗维亚酵母(Yarrowia lipolytica)细胞。最优选地，该酵母宿主细胞是巴斯德毕赤酵母细胞。

真菌宿主细胞可以是丝状真菌细胞。“丝状真菌”包括真菌门(Eumycota)和卵菌门(Oomycota)的亚门的所有丝状形式(如由Hawksworth等人,1995(同上)所定义的)。丝状真菌通常的特征在于由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其他复杂多糖构成的菌丝体壁。营养生长是通过菌丝延伸来进行的，而碳分解代谢是专性需氧的。相反，酵母(如酿酒酵母)的营养生长是通过单细胞菌体的出芽(budding)来进行的，而碳分解代谢可以是发酵性的。

丝状真菌宿主细胞可以是枝顶孢霉属(Acremonium)、曲霉属、短梗霉属(Aureobasidium)、烟管霉属(Bjerkandera)、拟腊菌属(Ceriporiopsis)、金孢子菌属(Chrysosporium)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、隐球菌属(Cryptococcus)、线黑粉菌科(Filibasidium)、镰孢属(Fusarium)、腐质霉属(Humicola)、梨孢菌属(Magnaporthe)、毛霉属(Mucor)、毁丝霉属(Myceliophthora)、新美鞭菌属(Neocallimastix)、脉胞菌属(Neurospora)、拟青霉属(Paecilomyces)、青霉属(Penicillium)、平革菌属(Phanerochaete)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、侧耳属(Pleurotus)、裂褶菌属(Schizophyllum)、篮状菌属、嗜热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、弯颈霉属(Tolypocladium)、栓菌属(Trametes)、或木霉属细胞。

例如，丝状真菌宿主细胞可以是泡盛曲霉、臭曲霉、烟曲霉、日本曲霉、构巢曲霉、黑曲霉、米曲霉、黑刺烟管霉(Bjerkandera adusta)、干拟蜡菌(Ceriporiopsisaneirina)、卡内基拟蜡菌(Ceriporiopsis caregiea)、浅黄拟蜡菌(Ceriporiopsisgilvescens)、潘诺希塔拟蜡菌(Ceriporiopsis pannocinta)、环带拟蜡菌(Ceriporiopsisrivulosa)、微红拟蜡菌(Ceriporiopsis subrufa)、虫拟蜡菌(Ceriporiopsissubvermispora)、狭边金孢子菌(Chrysosporium inops)、嗜角质金孢子菌(Chrysosporiumkeratinophilum)、卢克诺文思金孢子菌(Chrysosporium lucknowense)、粪状金孢子菌(Chrysosporium merdarium)、租金孢子菌(Chrysosporium pannicola)、女王杜香金孢子菌(Chrysosporium queenslandicum)、热带金孢子菌(Chrysosporium tropicum)、褐薄金孢子菌(Chrysosporium zonatum)、灰盖鬼伞(Coprinus cinereus)、毛革盖菌(Coriolushirsutus)、杆孢状镰孢、谷类镰孢、库威镰孢、大刀镰孢、禾谷镰孢、禾赤镰孢、异孢镰孢、合欢木镰孢、尖孢镰孢、多枝镰孢、粉红镰孢、接骨木镰孢、肤色镰孢、拟分枝孢镰孢、硫色镰孢、圆镰孢、拟丝孢镰孢、镶片镰孢、特异腐质霉、疏棉状腐质霉、米黑根毛霉、嗜热毁丝霉、粗糙脉胞菌、产紫青霉、黄孢平革菌(Phanerochaete chrysosporium)、射脉菌(Phlebiaradiata)、刺芹侧耳(Pleurotus eryngii)、埃默森篮状菌、土生梭孢霉、长域毛栓菌(Trametes villosa)、变色栓菌(Trametes versicolor)、哈茨木霉、康宁木霉、长枝木霉、里氏木霉或绿色木霉细胞。更优选地，该丝状真菌宿主细胞是黑曲霉、米曲霉或里氏木霉细胞。最优选地，该丝状真菌宿主细胞是黑曲霉或米曲霉细胞。

可以将真菌细胞通过涉及原生质体形成、原生质体转化、以及细胞壁再生的工艺以本身已知的方式转化。用于转化曲霉属和木霉属宿主细胞的适合程序描述于以下文献中：EP 238023,Yelton等人,1984,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]81:1470-1474以及Christensen等人,1988,Bio/Technology[生物/技术]6:1419-1422。用于转化镰孢属物种的适合方法由Malardier等人,1989,Gene[基因]78:147-156和WO 96/00787描述。可以使用由以下文献描述的程序转化酵母：Becker和Guarente,在Abelson,J.N.和Simon,M.I.编辑,Guide to Yeast Genetics and Molecular Biology[酵母遗传学与分子生物学指南],Methods in Enzymology[酶学方法],第194卷,第182-187页,AcademicPress,Inc.[学术出版社有限公司],纽约；Ito等人,1983,J.Bacteriol.[细菌学杂志]153:163；以及Hinnen等人,1978,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]75:1920。

实例

材料与方法

除非另有说明，否则DNA操作和转化是使用Sambrook等人(1989)Molecularcloning:A laboratory manual[分子克隆：实验室手册],冷泉港实验室,冷泉港,纽约州；Ausubel,F.M.等人(编辑)“Current protocols in Molecular Biology[分子生物学现代方法]”,John Wiley and Sons[约翰威利父子出版公司],1995；Harwood,C.R.和Cutting,S.M.(编辑)所述的分子生物学标准方法进行的。“Molecular Biological Methods forBacillus[用于芽孢杆菌的分子生物学方法]”.John Wiley and Sons[约翰威立父子公司],1990。

购买的材料(大肠杆菌和试剂盒)

使用大肠杆菌DH5α(东洋公司(Toyobo))和Stellar(宝生物公司(TaKaRa))用于质粒构建和扩增。使用Qiagen Plasmid试剂盒(凯杰公司)来回收扩增的质粒。根据制造商的说明书，用NEBuilder HiFi DNA组装克隆试剂盒(新英格兰生物实验室公司)或In-Fusion试剂盒(克罗泰克实验室公司(Clontech Laboratories,Inc.))进行连接。聚合酶链式反应(PCR)是用PrimeSTAR GXL DNA聚合酶试剂盒(宝生物公司)进行的。QIAquick^TM凝胶提取试剂盒(凯杰公司)被用于纯化PCR片段或从琼脂糖凝胶中提取DNA片段。

酶

用于DNA操作的酶(例如限制性内切核酸酶，连接酶等)可获得自新英格兰生物实验室公司)，并且根据制造商的说明书使用。

质粒

pBluescript II SK-(斯特拉塔吉恩(Stratagene)#212206)。

实例中描述的CRISPR-Cas9质粒含有来自稻瘟病菌的U6-2启动子、烟曲霉tRNAGly启动子、烟曲霉tef1启动子和hph标记基因。实例部分中描述了细节。

来自草酸青霉的含有淀粉葡萄糖苷酶的Po AMG的序列描述于WO 2011/127802中。

pAT3530 CRISPR-ma7d-AID-UGI质粒描述于实例7中。

微生物菌株

如在WO 2012/160093中的实例14中描述，表达宿主菌株黑曲霉M1364由诺维信公司(Novozymes)分离并为从土壤分离的黑曲霉NN049184的衍生物。M1364是一种来自草酸青霉的产生葡糖淀粉酶的菌株(Po AMG)。

表达宿主菌株米曲霉JaL355描述于WO 2005/070962的实例10中。

枯草芽孢杆菌PP3724：该菌株是用于接合芽孢杆菌菌株的供体菌株，如WO 1996/029418中所述。

地衣芽孢杆菌SJ1904：这一菌株描述于WO 2008/066931中。

培养基

COVE痕量金属溶液由以下构成：0.04g NaB4O7·10H2O、0.4g CuSO4·5H2O、1.2gFeSO4·7H2O、0.7g MnSO4·H2O、0.8g Na2MoO2·2H20、10g ZnSO4·7H2O、以及补足至1升的去离子水。

50X COVE盐溶液由以下构成：26g KCl、26g MgSO4·7H2O、76g KH2PO4、50ml COVE痕量金属溶液、以及补足至1升的去离子水。

COVE培养基由以下构成：342.3g蔗糖、20ml 50X COVE盐溶液、10ml1M乙酰胺、10ml1.5M CsCl2、25g纯净琼脂、以及去离子水补足至1升。

COVE-N-Gly板由以下构成：218g山梨醇、10g甘油、2.02g KNO3、50ml COVE盐溶液、25g纯净琼脂、以及补足至1升的去离子水。

COVE-N(tf)由以下构成：342.3g蔗糖、3g NaNO3、20ml COVE盐溶液、30g纯净琼脂、以及补足至1升的去离子水。

COVE-N顶层琼脂糖由以下构成：342.3g蔗糖、3g NaNO3、20ml COVE盐溶液、10g低熔点琼脂糖、以及补足至1升的去离子水。

COVE-N由以下构成：30g蔗糖、3g NaNO3、20ml COVE盐溶液、30g纯净琼脂、以及补足至1升的去离子水。

STC缓冲液由以下构成：0.8M山梨醇、25mM Tris pH 8、以及25mM CaCl2。

STPC缓冲液由以下构成：在STC缓冲液中的40％ PEG 4000。

LB培养基由以下构成：10g的胰蛋白胨、5g的酵母提取物、5g的氯化钠、以及去离子水补足至1升。

LB加氨比西林板由以下构成：10g的胰蛋白胨、5g的酵母提取物、5g的氯化钠、15g的细菌培养用琼脂、以100μg/ml的氨比西林、以及去离子水补足至1升。

YPG培养基由以下构成：10g的酵母提取物、20g的细菌培养用蛋白胨、20g的葡萄糖、以及去离子水补足至1升。

SOC培养基由以下构成：20g的胰蛋白胨、5g的酵母提取物、0.5g的NaCl、10ml的250mM KCl、以及去离子水补足至1升。

TAE缓冲液由以下构成：4.84g的Tris碱、1.14ml的冰乙酸、2ml的0.5M EDTA pH8.0、以及去离子水补足至1升。

使芽孢杆菌属菌株生长在LB琼脂(10g/l胰蛋白胨、5g/l酵母提取物、5g/l NaCI、15g/l琼脂)平板上、Difco胰蛋白胨血琼脂基平板上或生长于LB液体培养基(10g/l胰蛋白胨、5g/l酵母提取物、5g/l NaCI)中。

为了针对红霉素抗性进行选择，将琼脂培养基补充1μg/ml红霉素和25μg/ml洁霉素并且将液体培养基补充5μg/ml红霉素。为了选择四环素抗性，将琼脂和液体培养基补充15μg/ml四环素。为了选择红霉素抗性和四环素抗性，将琼脂和液体培养基补充2μg/ml红霉素抗性和15μg/ml四环素。

使用Spizizen I和Spizizen II培养基来制备和转化感受态枯草芽孢杆菌细胞。

Spizizen I培养基由以下组成：1 x Spizizen盐(6g/l KH2P04、14g/l K2HP04、2g/l(NH4)2S04、1g/l柠檬酸钠二水合物、0.2g/l MgS04·7H20，pH 7.0)、0.5％葡萄糖、0.1％酵母提取物以及0.02％酪蛋白水解物。

Spizizen II培养基由补充有0.5mM CaCI2和2.5mM MgCI2的Spizizen I培养基组成。

接合供体菌株补充了100μg/ml D-丙氨酸。

黑曲霉的转化

曲霉属物种的转化可以使用用于酵母转化的一般方法实现。以下描述了用于本发明的优选程序。

将黑曲霉宿主菌株接种至100ml的补充有10mM尿苷的YPG培养基上，并且在32℃在80rpm下孵育16小时。将球粒进行收集并且用0.6M KCl洗涤，并且将其重悬浮于含有商业β-葡聚糖酶产品(GLUCANEX^TM，诺维信公司，鲍斯韦，丹麦)的20ml 0.6M KCl(终浓度为20mg/ml)中。将悬浮液在32℃在80rpm下孵育直到形成原生质体，并且然后用STC缓冲液洗涤两次。将这些原生质体用血红蛋白计计数，并且在8:2:0.1的STCSTPC:DMSO溶液中重新悬浮并调节至终浓度为2.5x10⁷个原生质体/ml。将大约4μg的质粒DNA添加至100μl原生质体悬浮液中，轻轻混合，并且在冰上孵育30分钟。添加1ml的SPTC，并且将该原生质体悬浮液在37℃孵育20分钟。在添加10ml的50℃Cove或Cove-N顶层琼脂糖之后，将反应倾倒于Cove或Cove-N(tf)琼脂板上，并且将该板于32℃孵育5天。

米曲霉的转化

如Christensen等人；Biotechnology[生物技术]1988 6 1419-1422所述，完成曲霉属转化。简言之，使米曲霉菌丝体在富营养培养液中生长。通过过滤从培养液中分离出菌丝体。将酶制剂

(诺维信公司(Novozymes))添加至渗透压稳定的缓冲液(如用磷酸钠缓冲至pH 5.0的1.2M MgSO4)中的菌丝体中。将悬浮液在37℃下伴随搅拌孵育60分钟。通过mira-cloth过滤原生质体，以去除菌丝体碎片。收获原生质体，并且用STC(1.2M山梨醇、10mM CaCl2、10mM Tris-HCl(pH 7.5))洗涤两次。最后在200-1000微升STC中重悬原生质体。

用于转化，将1μg CRISPR-AID-UGI质粒(pAT3532-3537)添加至100μl原生质体悬浮液中，并且然后添加200μl PEG溶液(60％ PEG 4000、10mM CaCl2、10mM Tris-HCl(pH7.5))，并且在室温下孵育该混合物20分钟。收获原生质体并且用1.2M山梨醇洗涤两次。最后，在200μl 1.2M山梨醇中重悬原生质体。根据其在最小平板上生长的能力，选择含有pyrG基因的转化体，这些板中未添加10mM尿苷(Cove D.J.1966.Biochem.Biophys.Acta.[生物化学与生物物理学报]113:51-56)、含有1.0M蔗糖作为碳源、10mM NaNO4作为氮源。在37℃下生长5-7天后，稳定的转化体看起来强力地生长并且使菌落形成孢子。通过分生孢子纯化转化体一次。

芽孢杆菌细胞的转化和接合

枯草芽孢杆菌菌株的感受态细胞是根据Yasbin等人(1973):Transformation andtransfection in lysogenic strains of Bacillus subtilis[枯草芽孢杆菌的溶原性菌株中的转化和转染]168.J.Bacteriol.[细菌学杂志]113,540-548中描述的方法制备和转化。

基本上如WO 1996/029418中所述进行地衣芽孢杆菌的接合。

实例中的PCR扩增

聚合酶链式反应(PCR)是用PrimeSTAR GXL DNA聚合酶(宝生物公司)如下进行的。

3步循环：

对于实例9至11，聚合酶链式反应(PCR)是用SapphireAmp Fast PCR Master Mix(宝生物公司(Takara Bio))如下进行的。

预变性：95℃，3min.

30个周期：

变性：95℃，15sec.

退火：58℃，15sec.

扩展：72℃，15sec.

最终扩展：72℃，3min.

A部分：黑曲霉

实例1.构建含有dCas9-AID复合物和靶向PKS基因的sgRNA的表达盒的质粒。

dCas9表达质粒的构建

本实验的目的是首先制备质粒以在黑曲霉菌株中表达无催化活性(＝“死”)Cas9(即dCas9，其中包括对Cas9的D10A和D840A取代)。

使用pSMai289质粒DNA作为模板，使用引物对(表1a)通过PCR扩增U6-2启动子(来自稻瘟病菌)的片段，这些片段与烟曲霉tRNA Gly和tef1启动子-dCas9融合，其后是hph选择标记。

CRISPR-Cas9质粒pSMai289包含稻瘟病菌U6-2启动子和终止子、烟曲霉tRNAgly(GCC)1-6和Cas9的序列。通过搜索来自联合基因组研究所(JGI)的稻瘟病菌菌株70-15(MG8)基因组序列数据库的基因注释，鉴定了稻瘟病菌U6-2启动子和终止子。通过从JGI搜索烟曲霉菌株293基因组序列数据库的基因注释，鉴定了烟曲霉tRNAgly(GCC)1-6基因序列(chr4:3650153-3650223(+))。

根据说明书，使用NEBuilder HiFi DNA组装克隆试剂盒将扩增的片段组装并连接到来自pHiTe132(在WO 2015/025055中描述的pHiTe50的衍生物)的5.5-kb NheI片段中，以产生pHiTe277。在大肠杆菌DH5α中进行质粒制备。

表1a.U6启动子-tRNA、dCas9和hph基因的引物

所得质粒pHiTe277按顺序包含以下元素(图2)：

稻瘟病菌U6-2启动子(SEQ ID NO:9)

烟曲霉tRNA Gly(SEQ ID NO:10)

Cas9 sgRNA主链(SEQ ID NO:11)

稻瘟病菌U6-2终止子(SEQ ID NO:12)

构巢曲霉tef1启动子(SEQ ID NO:13)

dCas9_编码(SEQ ID NO:14)

dCas9_蛋白质(SEQ ID NO:15)

hph选择标记(SEQ ID NO:16)

用靶向PKS基因的sgRNA表达盒构建dCas9-AID表达质粒。

本实验的目的是制备质粒DNA，用于测试与死Cas9(作为Mad7d-AID的对照)连接时AID突变活性的影响。将PKS(或也称为wA)基因用作dCas9-AID的模型靶标。PKS敲除突变体将显示白色孢子表型，这是选择预期突变体的良好指标。

为了将海七鳃鳗衍生的胞苷脱氨酶与dCas9基因的C末端融合，将密码子优化的脱氨酶基因作为合成DNA订购(基因艺术-赛默飞世尔科技公司(GeneArt-ThermoFisherScientific))。为了制备用于克隆的DNA片段，对dCas9基因和pHite277的载体区域进行了独立的PCR扩增。载体片段、dCas9片段和脱氨酶基因片段通过NEB HiFi克隆试剂盒接合，构建pTNA193(dCas9-AID，sgRNA空)。引物对在表1b中进行描述。图3示出了pTNA193的示意图。

表1b.用于构建具有空sgRNA载体的dCas9-AID的引物

引物名称	序列5'→3'	SEQ ID NO:
			IF_U6cas9_fwd	ttttctctgctgtctgcctcg	17
IF_dCasCDA_rev	gtcgccccccagttgactaag	18
			IF_CDA3UTR_fwd	gcggacattcgatttatgccgttatg	19
IF_U63UTR_rev	agacagcagagaaaagccagatgg	20
			CDA插入_fwd	caactggggggcgacagcag	21
CDA插入_rev	aaatcgaatgtccgcttatccggag	22

如表2所示，设计了四种不同的原型间隔子以靶向PKS基因。将包括每个原型间隔子的寡DNA对排序并通过NEBuilder HiFi克隆试剂盒克隆到pTNA193的BglII位点，从而构建pTNA197至200(dCas9-AID，分别靶向wA1至wA4)。用于构建这些质粒的寡DNA见表3。为了使PKS基因失活，按照以下标准选择原型间隔子：(1)终止密码子(TAG、TAA或TGA)应通过C到T核苷酸转换引入，(2)从PAM远端编号时，靶标C应位于第2至第5位(K.Nishida等人,(2016)Science[科学])。

表2.用于破坏PKS基因的原型间隔子序列。潜在靶标“C”带有下划线。

表3.用于构建pTNA197-200的寡DNA。匹配原型间隔子的序列以大写显示。

如下进行对pTNA193的原型间隔子克隆。将主链质粒pTNA193用BglII在37℃下消化1小时。然后使用QIAquick凝胶提取试剂盒(QIAGEN)对消化的片段进行凝胶纯化。将纯化的DNA片段与表3中所示的每对寡DNA混合，并通过NEBuilder HiFi DNA组装试剂盒将原型间隔子序列克隆到载体中。将两微升反应混合物转化到DH5α化学感受态大肠杆菌细胞中。将转化体涂布在LB加氨比西林板上，并且在37℃孵育过夜。使用QIAGEN小量制备试剂盒，将质粒DNA从若干个转化体中纯化。通过限制酶消化，随后通过使用TAE缓冲液的1.0％琼脂糖凝胶电泳，筛选适当连接的质粒DNA。商业序列服务用于确定实际的DNA序列。

代表性质粒pTNA193按顺序包含以下元素(图3)：

稻瘟病菌U6-2启动子(SEQ ID NO:9)

烟曲霉tRNA Gly(SEQ ID NO:10)

Cas9 sgRNA主链(SEQ ID NO:11)

稻瘟病菌U6-2终止子(SEQ ID NO:12)

构巢曲霉tef1启动子(SEQ ID NO:13)

dCas9-AID_编码(SEQ ID NO:35)

dCas9-AID_蛋白质(SEQ ID NO:36)

hph选择标记(SEQ ID NO:16)

也可以在序列表中找到靶标PKS(wA)基因序列(SEQ ID NO:37)。

实例2.CRISPR-AID质粒的转化用于PKS基因失活。

黑曲霉菌株M1364中的PKS失活

本实验的目的是证明dCas9-AID可以在黑曲霉基因组中引入靶特异性C至T转换，并评估突变效应的效率。为此，用靶向内源PKS基因的dCas9-AID质粒转化黑曲霉菌株M1364(如实例1所述)。将dCas9-AID和sgRNA表达盒与潮霉素抗性基因以位点特异性方式整合到黑曲霉基因组中。在分离和孢子成熟后，检查转化体的孢子颜色，因为PKS基因失活会导致白色孢子表型。通过靶基因座测序进一步分析显示预期表型的克隆。

表4.PKS靶向dCas9-AID转化总结

表4显示了PKS靶向实验。结果，我们通过使用分别具有wA2或wA3sgRNA和dCas9-AID表达盒的pTNA198或199以8％的效率获得了白色孢子克隆。看看这些白色克隆的PKS基因是否如预期发生突变，将基因组DNA分离，并将靶标基因座PCR扩增。引物如下所示：

对于wA2靶标：

SEQ ID NO:38：引物pks_seq_f2:5'tcatatcggttctgccaagg 3’

SEQ ID NO:39：引物pks_R：5'gttgttgacgaaagttcgcc 3’

对于wA3靶标：

SEQ ID NO:40：引物pks_F：5'actgcgactgggaatctgcg 3’

SEQ ID NO:41：引物pks_seq_r3:5'cttgtaattcttggaaatgcagg 3’

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化，并发送到商业序列服务以确定靶标区域的突变模式。从pTNA193(无sgRNA)处理中分离的黑色孢子克隆在该基因组区域未显示突变，而白色孢子克隆在预期位置显示C至T突变(图4)。pTNA199(wA3靶标)产生的突变体在sgRNA靶向位点有17bp的缺失(图4)。这可能是由于细胞的容易出错的DNA修复，例如碱基切除修复，而不是图1中呈现的机制。无论如何，这些数据表明CRISPR-Cas9-AID可以在黑曲霉菌株中起作用。

实例3.通过添加UGI结构域提高突变效率。

dCas9-AID-UGI表达质粒的构建

我们展示了dCas9-AID系统以大约8％的效率引入了靶向突变，如实例2中所述。然而，这还不够实用。最近的报告表明，在dCas9-AID的C末端添加UGI(尿嘧啶糖基化酶抑制剂)可提高体内突变效率(Rees H.A.和Liu D.R.Nature Reviews Genetics[自然综述遗传学]19,770-788(2018))。因此，本实验旨在制备含有dCas9-AID-UGI编码序列和sgRNA表达盒的质粒DNA。靶基因与实例2中描述的相同。

为了将源自噬菌体的UGI基因融合到dCas9-AID的C末端，将密码子优化的UGI基因作为合成DNA订购(基因艺术-赛默飞世尔科技公司)，参见SEQ ID NO:131。为了制备用于克隆的DNA片段，首先用XbaI和BmtI限制酶消化pTNA193，并对dCas9-AID编码片段进行凝胶纯化。接下来对载体部分进行PCR扩增，在dCas9-AID的3'UTR的5'端添加BsrGI限制位点。然后用BsrGI和BmtI消化这个PCR片段。最后，通过在其5'和3'端分别添加XbaI和BsrGI限制位点，对UGI基因进行PCR扩增。这个UGI片段也用XbaI和BsrGI消化。通过NEB HiFi克隆试剂盒接合上述消化的DNA片段，从而构建pTNA235(dCas9-AID-UGI，sgRNA空)。引物对在表5中进行描述。图5示出了pTNA235的示意图。

表5.用于构建具有空sgRNA载体的dCas9-AID-UGI的引物

sgRNA靶序列与实例1中描述的相同。选择了四种不同的靶标原型间隔子(参见表2)。为了通过dCas9-AID-UGI靶向这些区域，将pTNA235用BglII消化并在那里引入原型间隔子序列(参见表3)，从而构建pTNA240-243(分别靶向wA1至wA4)。

代表性质粒pTNA235按顺序包含以下元素(图5)：

稻瘟病菌U6-2启动子(SEQ ID NO:9)

烟曲霉tRNA Gly(SEQ ID NO:10)

Cas9 sgRNA主链(SEQ ID NO:11)

稻瘟病菌U6-2终止子(SEQ ID NO:12)

构巢曲霉tef1启动子(SEQ ID NO:13)

dCas9-AID-UGI_编码(SEQ ID NO:46)

dCas9-AID-UGI_蛋白质(SEQ ID NO:47)

hph选择标记(SEQ ID NO:16)

黑曲霉菌株M1364中的PKS失活

本实验的目的是证明向dCas9-AID添加UGI结构域可以提高突变效率。为此，如实例2所述，用pTNA235和240-243转化黑曲霉菌株M1364。在分离和孢子成熟后，检查转化体的孢子颜色，因为PKS基因失活会导致白色孢子表型。通过靶基因座测序进一步分析显示预期表型的克隆。

表6.PKS靶向dCas9-AID-UGI转化总结

表6显示了PKS靶向实验。结果，我们以25％-42％的效率获得了白色孢子克隆，这明显高于没有UGI的效率(参见实例2)。看看这些白色克隆的PKS基因是否如预期发生突变，将基因组DNA分离，并将靶标基因座PCR扩增。引物如下所示：

对于wA1靶标：

SEQ ID NO:40：引物pks_F：5'actgcgactgggaatctgcg 3’

SEQ ID NO:48：引物pks_seq_r1:5’atttgcaagagtggtttgtg 3’

对于wA2靶标：

SEQ ID NO:38：引物pks_seq_f2:5'tcatatcggttctgccaagg 3’

SEQ ID NO:39：引物pks_R：5'gttgttgacgaaagttcgcc 3’

对于wA3靶标：

SEQ ID NO:40：引物pks_F：5'actgcgactgggaatctgcg 3’

SEQ ID NO:41：引物pks_seq_r3:5'cttgtaattcttggaaatgcagg 3’

对于wA4靶标：

SEQ ID NO:40：引物pks_F：5'actgcgactgggaatctgcg 3’

SEQ ID NO:48：引物pks_seq_r1:5’atttgcaagagtggtttgtg 3’

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化，并发送到商业序列服务以确定靶标区域的突变模式。从pTNA235(无sgRNA)处理中分离的黑色孢子克隆在该基因组区域未显示突变，而白色孢子克隆在预期位置显示C至T突变(图6)。因此，这些数据表明向dCas9-AID添加UGI结构域实际上提高了突变效率。

实例4.Mad7d的构建

寻找Mad7内切核酸酶活性的推定催化残基

Mad7中负责内切核酸酶活性的催化位点是通过与其他远亲FnCpf1的活性位点周围的同源序列进行序列比对来确定的，可以通过在其RuvC样结构域中引入特定取代(D917A)来催化失活(Zetsche等人,2015,Cell[细胞]163,759-771)。使用MUSCLE算法，通过与相关的毛螺菌科细菌Cpf1(LbCpf1)和土拉热弗朗西斯氏菌Cpf1(FnCpf1)的多重比对在Mad7中识别出相应的保守区域。比对显示位置877与Mad7的内切核酸酶活性相关，并且用Ala(D877A)取代天然Asp产生Mad7的无催化活性版本(Mad7d)，参见由具有SEQ ID NO:124的多核苷酸编码的具有SEQ ID NO:125的多肽。

Mad7核酸酶的编码DNA和氨基酸序列可分别见于SEQ ID NO:49和SEQ ID NO:50。上述用于多重比对的氨基酸序列可见于SEQ ID NO:51至53。

Mad7d-AID-UGI表达质粒的构建

为了在质粒pTNA235中用Mad7d替换dCas9部分，Mad7d基因作为合成DNA订购(基因艺术-赛默飞世尔科技公司)。为了在pTNA235中用Mad7d替换dCas部分，对pTNA235上除dCas9之外的DNA序列进行PCR扩增和凝胶纯化。NEBuilder HiFi DNA组装克隆试剂盒(新英格兰生物实验室公司(New England Biolabs,Inc.))将Mad7d基因克隆到该片段中，从而构建了pTNA261(Mad7d-AID-UGI，Cas9 sgRNA表达)。为了用Mad7表达盒替换Cas9 sgRNA表达盒，用BglII和PmlI消化pTNA261。通过使用NEBuilder HiFi DNA组装克隆试剂盒克隆合成寡DNA，将Mad7 sgRNA编码序列引入该位点，从而构建pTNA287(Mad7d-AID-UGI，Mad7 sgRNA表达(空))。引物对在表7中进行描述。图7示出了pTNA287的示意图。

表7.用于构建具有空sgRNA载体的Mad7d-AID-UGI的引物

代表性质粒pTNA287按顺序包含以下元素：

稻瘟病菌U6-2启动子(SEQ ID NO:9)

烟曲霉tRNA Gly(SEQ ID NO:10)

Mad7 sgRNA主链(SEQ ID NO:60)

稻瘟病菌U6-2终止子(SEQ ID NO:12)

构巢曲霉tef1启动子(SEQ ID NO:13)

Mad7d-AID-UGI_编码(SEQ ID NO:61)

Mad7d-AID-UGI_蛋白质(SEQ ID NO:62)

hph选择标记(SEQ ID NO:16)

实例5.Mad7d-AID质粒的转化用于PKS基因失活。

在黑曲霉菌株M1364中Mad7d-AID使PKS失活

本实验的目的是证明Mad7d-AID可以在黑曲霉基因组中引入靶特异性C至T转换，并评估突变效应的效率，如针对dCas9-AID的实例2所示。因为没有人报道过Mad7d连接的脱氨酶的活性，因此我们首先旨在阐明胞苷作为AID底物的靶标位置。为此，设计了19个在PKS基因座上具有不同靶标位置的靶序列(表8)，当Mad7d-AID引入C至T突变时，每个靶序列都会形成提前终止密码子。C的靶标位置从PAM近端开始编号。将这些原型间隔子序列克隆到pTNA287的BglII消化位点，从而使用表9中所示的寡DNA构建pTNA296-307和pTNA324-330。

表8.用于破坏PKS基因的原型间隔子序列。潜在靶标“C”带有下划线。

表9.用于构建pTNA296-307和324-330的寡DNA。匹配原型间隔子的序列以大写显示。

接着，如实例2所述，用这些质粒DNA转化黑曲霉菌株M1364。将Mad7d-AID和sgRNA表达盒与潮霉素抗性基因以位点特异性方式整合到黑曲霉基因组中。在分离和孢子成熟后，检查转化体的孢子颜色。通过靶基因座测序进一步分析显示预期表型(白色孢子颜色)的克隆。

表10.PKS靶向Mad7d-AID转化总结

如表10所示，以8％至17％的效率获得含有有效sgRNA的白色孢子突变体。看看这些白色克隆的PKS基因是否如预期发生突变，将基因组DNA分离，并将靶标基因座PCR扩增。引物如下所示：

对于MdwA8靶标：

SEQ ID NO:120：引物pks_seq_f5:5'ttcttcaacatgtcgcctcgg 3’

SEQ ID NO:121：引物pks_seq_r6:5’gtgttacagttgccagtgg 3’

对于MdwA13靶标：

SEQ ID NO:122：引物pks_seq_f4:5'ggtacttgatgaattcgtcg 3’

SEQ ID NO:121：引物pks_seq_r6:5’gtgttacagttgccagtgg 3’

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化，并测序以确定靶向区域的突变模式。从pTNA287(无sgRNA)处理中分离的黑色孢子克隆在读取基因组区域未显示突变，而突变体在pTNA303的C16、G17(反义)，和pTNA324的C13处发生突变，如预期的那样(图8)。这表明Mad7d-AID的主要靶标窗口是C13至C17，并且Mad7d-AID系统可以在工业上重要的微生物如黑曲霉中引入C至T突变。

实例6.研究Mad7d-AID活性的最佳温度。

Mad7d-AID在不同孵育温度下使PKS失活

本实验的目的是研究Mad7d-AID活性的最佳温度。为此，将pTNA303转化到M1364宿主菌株中，并将转化体在25、30或34℃下孵育直至孢子成熟。在该实验中遵循实例5中描述的程序，不同之处在于孵育温度。结果总结于表11中。

表11.pTNA303在不同温度下的转化总结

如表11所示，白色孢子突变体的效率为0至67％，具有明显的趋势，即更高的温度提供更高的效率。看看这些白色克隆的PKS基因是否如预期发生突变，将基因组DNA分离，并将靶标基因座PCR扩增。引物如下所示：

SEQ ID NO:120：引物pks_seq_f5:5'ttcttcaacatgtcgcctcgg 3’

SEQ ID NO:121：引物pks_seq_r6:5’gtgttacagttgccagtgg 3’

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化，并发送到商业序列服务以确定靶标区域的突变模式。有趣的是，白色孢子突变体在sgRNA靶向序列中具有C至T或G至A突变，如图9所示。G至A突变可通过反义C至T突变引入。

接下来，为了查看这种效率改进是否适用于其他sgRNA，我们测试了13种sgRNA进行34℃孵育，如表12中所列。

表12.回顾PKS靶向sgRNA进行34℃孵育的总结

如表12所示，以0至58％的效率获得白色孢子突变体。与表10相比，使用一些sgRNA，如MdwA2、MdwA8、MdwA13和MdwA14，编辑效率明显提高。看看这些白色克隆的PKS基因是否如预期发生突变，将基因组DNA分离，并将靶标基因座PCR扩增。引物如下所示：

对于MdwA1-6：

SEQ ID NO:123：引物MS-测试-wA3:5’tgaattcaactctttacaatcg 3’

SEQ ID NO:41：引物pks_seq_r3:5'cttgtaattcttggaaatgcagg 3’

对于MdwA8-14：

SEQ ID NO:122：引物pks_seq_f4:5'ggtacttgatgaattcgtcg 3’

SEQ ID NO:121：引物pks_seq_r6:5’gtgttacagttgccagtgg 3’

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化，测序以确定靶向区域的突变模式。图9还显示了一些具有代表性的基因型。

这些数据表明，Mad7d-AID提供至少两种有益效果：

1)Mad7d-AID可能能够同时靶向正义链和反义链。一般来说，sgRNA由于其互补性，应该与基因组DNA的靶向链形成紧密的异源双链体，这使得非靶向链游离并且可以被AID靶向，反之亦然，靶向链由于双链体形成而不能被靶向。如实例3中所述，dCas9-AID将突变引入依赖于sgRNA靶向链的正义链或反义链。但是，如图9所示，尽管MdwA8 sgRNA仅靶向正义链，pTNA303转化体在原型间隔区具有C至T和/或G至A突变。虽然机制尚不完全清楚，但这种作用似乎是由两条链的Mad7d-AID脱氨作用介导的。

2)Mad7d-AID可能能够靶向原型间隔区任何位置的胞苷。如图9所示，pTNA303转化体在原型间隔区(21bp长)具有C至T和/或G至A突变，这与dCad9-AID完全不同，dCad9-AID的靶标范围限于原型间隔子(20bp长)内的4bp窗口，如实例3中所述。这在制作突变文库时显然是有益的，因为与dCas9-AID相比，Mad7d-AID从单个sgRNA创建更多种类的突变。

总而言之，Mad7d-AID系统具有有益且迄今未描述的特征，尤其是在为筛选目的创建突变文库时，这是开发工业上重要菌株的关键。

B部分：米曲霉。

实例7.米曲霉pAT3530 Mad7d-AID-UGI表达质粒的构建。

质粒pAT3530(图10，SEQ ID NO:133)是一种载体，可用于将原型间隔子序列克隆到单个AsiSI限制位点。

质粒pAT3530包含以下元素：

米曲霉靶标wA基因序列可以在序列表中作为SEQ ID NO:134找到。

实例8.转化Mad7d-AID-UGI质粒用于米曲霉菌株JaL355中的wA基因失活。

本实验的目的是证明Mad7d-AID-UGI可以在米曲霉基因组中引入靶特异性C至T转换，并评估突变效应的效率，如针对Mad7d-AID案例的实例5所示。据我们所知，没有人报道过Mad7d连接的脱氨酶的活性，因此我们首先旨在阐明胞苷作为AID底物的靶标位置。为此，设计了六个在PKS基因座上具有不同靶标位置的靶序列(表13)，当Mad7d-AID引入C至T突变时，每个靶序列都会形成提前终止密码子。C的靶标位置从PAM近端开始编号。这些原型间隔子序列(表14)被克隆到pAT3530的AsiSI消化位点，导致pAT3532-pAT3537的构建。

表13.用于破坏米曲霉中wA基因的原型间隔子序列。潜在靶标“C”带有下划线。

表14.用于构建pAT3532-3537的寡DNA。匹配原型间隔子的序列以大写显示。

接着，如米曲霉转化方法中所述，将质粒pAT3530和pAT3532-pAT3537转化到米曲霉菌株JaL355中。含有Mad7d-AID-UGI和sgRNA表达盒的质粒通过这些质粒上的pyrG基因保持为复制型质粒。此后，来自每次转化的所有具有白色孢子颜色的菌落和相应数量的绿色孢子颜色菌落在非选择性平板(含有尿苷)上进行孢子分离，从而丢失了复制型质粒。通过靶基因座测序进一步分析所有重新分离的转化体。

表15.wA靶向Mad7d-AID-UGI米曲霉转化总结

如表15所示，获得了具有有效sgRNA的白色孢子突变体。看看这些白色克隆的PKS基因是否如预期发生突变，如下针对6个靶标将基因组DNA分离，并将靶标基因座PCR扩增：

对于pAT3532和pAT3533靶标：用oAT3912：5'TCCAAGTTCTTTGCATGC 3’(SEQ ID NO:147)和oAT3613：5’TATCTCAGGTTAGGCTCG 3’(SEQ ID NO:148)进行PCR扩增，得到500bp的扩增子。

对于pAT3534靶标：用oJaL188：5'CCATGGTCCTTACCATGC 3’(SEQ ID NO:149)和oAT3616：5’TATTTATCTCCCGATAGTCATC 3’(SEQ ID NO:150)进行PCR扩增，得到812bp的扩增子。

对于pAT3535靶标：用oAT919：5'CTGGCTGTCAAGGCTTCC 3’(SEQ ID NO:151)和oAT1040：5’TTTGTGGTGCAGCTTGAAT 3’(SEQ ID NO:152)进行PCR扩增，得到733bp的扩增子。

对于pAT3536靶标：用oJaL188和oAT967：5’GCGAACACGAACCCTAC3’(SEQ ID NO:153)进行PCR扩增，得到2033bp的扩增子。

对于pAT3537靶标：用oJaL188和oAT3618：5’TCAAAGCAGCAAACTCC 3’(SEQ ID NO:154)进行PCR扩增，得到2312bp的扩增子。

然后通过QIAquick凝胶提取试剂盒(凯杰公司)对扩增子进行凝胶纯化并使用用于PCR扩增的引物进行测序，以确定靶向区域的突变模式。所有分离的绿色孢子菌落在靶标区域或任何测序的扩增子上均未显示突变。对于来自pAT3532、pAT3533、pAT3534和pAT3535的白色孢子菌落，它们都没有在靶位点或扩增子的其余部分发生突变。对于来自pAT3536的白色孢子菌落，一个菌落具有导致终止密码子的预期C17突变，而另一个菌落在C8处具有沉默突变，表明在wA基因的其他地方发生了另一个突变。对于来自pAT3537的白色孢子菌落，两个菌落具有相同的预期C15突变，导致终止密码子。

在米曲霉中产生的实例支持了黑曲霉中的发现，并表明，Mad7d-AID-UGI的主要靶标窗口是C8至C17，并且Mad7d-AID-UGI系统也可以在米曲霉中引入C至T突变。

C部分：地衣芽孢杆菌

实例9：地衣芽孢杆菌中MAD7d-AID-UGI表达质粒的构建

引入质粒pMDT452用于在芽孢杆菌中表达MAD7d-AID-UGI。在可移动的质粒载体pBC16中，质粒pMDT452包含MAD7d-AID-UGI编码序列，该序列上游侧翼为启动子PamyL4199(美国专利号6,100,063)且下游侧翼为克劳氏芽孢杆菌的aprH转录终止子(Bernhard等人(1978):Bacteriocin and Antibiotic Resistance Plasmids in Bacillus cereus andBacillus subtilis.[蜡状芽孢杆菌和枯草芽孢杆菌中的细菌素和抗生素抗性质粒]J.Bacteriol.[细菌学杂志]133,897-903)。通过转化将质粒pMDT452引入接合供体菌株枯草芽孢杆菌PP3724中，从而生产菌株PP3724/pMDT452。

pMDT452的图谱示于图11中，MAD7d-AID-UGI编码区的DNA序列如SEQ ID NO:158所示，并且相应的氨基酸序列如SEQ ID NO:159所示。

实例10.在地衣芽孢杆菌中构建用于表达靶向DsRED基因的sgRNA的质粒

构建质粒pMDT454和pMDT455用于表达地衣芽孢杆菌菌株MDT545中靶向DsRED基因的sgRNA。每个质粒包含sgRNA盒，其中sgRNA在基于温度敏感的pAMβ1衍生质粒pWT的质粒载体中(Bidnenko等人(1998):In vivo relations between pAMβ1-encoded type Itopoisomerase and plasmid replication.[pAMβ1编码的I型拓扑异构酶与质粒复制之间的体内关系]Mol.Microbiol.[分子微生物学]28,1005-1016)从PamyQsc启动子(Pr_{短“共有”amyQ}；美国专利号6,255,076)表达并包含质粒pUB110的转移起点oriT(Selinger,L.B.,McGregor,N.F.,Khachatourians,G.G.和Hynes,M.F.(1990))。通过芽孢杆菌质粒pXO503动员密切相关的质粒pUB110和pBC16需要反式作用开放阅读框β(J.Bacteriol.[细菌学杂志],172,3290-3297)用于通过接合动员。设计了两个在DsRED编码序列内具有不同靶标位置的原型间隔子(表16)，当MAD7d-AID引入C至T突变时，每个靶标序列都会形成提前终止密码子。通过转化将质粒pMDT454和pMDT455引入到接合供体菌株枯草芽孢杆菌PP3724中，分别产生菌株PP3724/pMDT454和PP3724/pMDT455。

图12显示了sgRNA质粒pMDT454和pMDT455的结构图。作为sgRNA质粒的一个实例，pMDT454 DNA序列如SEQ ID NO:160所示。

表16.用于破坏DsRED基因的原型间隔子序列。潜在靶标C带有下划线。

实例11.将用于DsRED基因失活的MAD7d-AID-UGI质粒和sgRNA质粒引入地衣芽孢杆菌

地衣芽孢杆菌MDT545是地衣芽孢杆菌SJ1904的衍生物，包含插入染色体的amyL基因座的DsRED表达盒和插入染色体的xylA基因座的GFP表达盒。插入的DsRED表达盒的图谱如图13所示，对应的DNA序列如SEQ ID NO:163所示；DsRED编码区的DNA序列如SEQ ID NO:164所示。

使用接合供体菌株PP3724/pMDT452，通过接合将质粒pMDT452引入地衣芽孢杆菌MDT545中，在34℃下选择对红霉素的抗性。将所得菌株命名为MDT545/pMDT452。

使用接合供体菌株PP3724/pMDT454和PP3724/pMDT455，通过接合将sgRNA质粒pMDT454和pMDT455分别引入地衣芽孢杆菌MDT545/pMDT452中，在34℃时选择对红霉素和四环素的抗性。

由于DsRED的表达，菌株MDT545的菌落呈红色。由于GFP的表达，破坏DsRED会导致菌株呈绿色。然而，MAD7d与DsRED基因的结合也会导致基因沉默，从而导致DsRED表达减少和菌落呈绿色。如果任一质粒丢失，由于DsRED基因沉默而呈现绿色的菌落将再次呈现红色，而由于DsRED基因突变而呈现绿色的菌落即使其中一个质粒丢失，仍将保持绿色。因此，为了区分DsRED基因突变的菌落和DsRED基因仅沉默的菌落，必须从抗生素选择中去除转导接合物，以使一种或两种质粒丢失。

在34℃下孵育2天后，将sgRNA质粒接合的选择性板用2ml LB肉汤淹没，并使用无菌涂布器将转导接合物菌落悬浮到肉汤中。然后向补充有2μg/ml红霉素和15μg/ml四环素的新鲜LB肉汤接种每次接合产生的细胞悬液，并在34℃下伴随250rpm摇动孵育。孵育过夜后，向不含抗生素的新鲜LB肉汤接种每个培养物，并在50℃下伴随250rpm摇动以促进温度敏感性sgRNA质粒的损失。

孵育过夜后，将LB培养物的稀释物铺在LB琼脂上并在34℃下孵育。挑选绿色菌落，并通过PCR从16个绿色菌落/接合中扩增DsRED编码区。将PCR用ExoSAP-IT PCR产物清洁试剂盒(应用生物系统公司(Applied Biosystems))处理并测序以确定靶向区域的突变模式。从表17中可以看出，测序结果表明预期的无义突变之一已经发生在每个绿色菌株的靶向原型间隔区，这证实了本发明的核碱基编辑复合物也在细菌细胞中有效地起作用。地衣芽孢杆菌中生成的实例支持米曲霉和黑曲霉中的发现，并且表明Mad7d-AID-UGI系统也可以将C至T突变引入到地衣芽孢杆菌中。

表17.靶向dsRED的MAD7d-AID-UGI地衣芽孢杆菌接合的结果总结

实施例列表

1.一种核碱基编辑复合物，其包含以下、基本上由以下组成或由以下组成：

a)无催化活性RNA指导的内切核酸酶，其与SEQ ID NO:126或SEQ ID NO:155具有至少60％，例如，至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；以及

b)核碱基编辑结构域。

2.根据实施例1所述的核碱基编辑复合物，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala取代。

3.根据前述实施例中任一项所述的核碱基编辑结构域，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ IDNO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

4.根据前述实施例中任一项所述的核碱基编辑复合物，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

5.根据实施例4所述的核碱基编辑复合物，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

6.根据实施例4所述的核碱基编辑复合物，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ IDNO:128组成，或由SEQ ID NO:128组成。

7.根据实施例4-6中任一项所述的核碱基编辑复合物，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

8.根据实施例1-2中任一项所述的核碱基编辑复合物，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

9.根据前述实施例中任一项所述的核碱基编辑复合物，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域以末端-末端方式融合或经由接头多肽连接；优选地，该无催化活性RNA指导的内切核酸酶、该接头多肽和该核碱基编辑结构域被框内编码并表达为单个多肽。

10.根据实施例9所述的核碱基编辑复合物，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

11.根据实施例10-11中任一项所述的核碱基编辑复合物，其中该接头多肽与SEQID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

12.一种编码核碱基编辑复合物的多核苷酸，该多核苷酸包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域。

13.根据实施例12所述的多核苷酸，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域被框内编码并表达为单个多肽。

14.根据实施例12-13中任一项所述的多核苷酸，其进一步包含编码接头多肽的第三多核苷酸，其中该第三多核苷酸位于第一多核苷酸的3’端和第二多核苷酸的5’端之间，并且其中该第一多核苷酸、第二多肽和第三多肽被框内编码并表达为单个多肽。

15.根据实施例12-14中任一项所述的多核苷酸，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ IDNO:126的位置877的位置处的氨基酸被Ala取代。

16.根据实施例12-15中任一项所述的多核苷酸，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ ID NO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

17.根据实施例12-16中任一项所述的多核苷酸，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

18.根据实施例17所述的多核苷酸，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

19.根据实施例17所述的多核苷酸，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

20.根据实施例12-19中任一项所述的多核苷酸，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

21.根据实施例12-16中任一项所述的多核苷酸，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

22.根据实施例14-21中任一项所述的多核苷酸，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

23.根据实施例14-22中任一项所述的多核苷酸，其中该接头多肽与SEQ ID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

24.一种包含编码核碱基编辑复合物的多核苷酸的核酸构建体，该核酸构建体包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域。

25.根据实施例24所述的核酸构建体，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域被框内编码并表达为单个多肽。

26.根据实施例24-25中任一项所述的核酸构建体，其进一步包含编码接头多肽的第三多核苷酸，其中该第三多核苷酸位于第一多核苷酸的3’端和第二多核苷酸的5’端之间，并且其中该第一多核苷酸、第二多肽和第三多肽被框内编码并表达为单个多肽。

27.根据实施例24-26中任一项所述的核酸构建体，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ IDNO:126的位置877的位置处的氨基酸被Ala取代。

28.根据实施例24-27中任一项所述的核酸构建体，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ ID NO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

29.根据实施例24-28中任一项所述的核酸构建体，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

30.根据实施例29所述的核酸构建体，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

31.根据实施例29-30所述的核酸构建体，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

32.根据实施例24-31中任一项所述的核酸构建体，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

33.根据实施例24-28中任一项所述的核酸构建体，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

34.根据实施例26-33中任一项所述的核酸构建体，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

35.根据实施例26-34中任一项所述的核酸构建体，其中该接头多肽与SEQ ID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

36.一种表达载体，其包含：

I)编码核碱基编辑复合物的多核苷酸，该多核苷酸包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；或

II)包含编码核碱基编辑复合物的多核苷酸的核酸构建体，该核酸构建体包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域。

37.根据实施例36所述的表达载体，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域被框内编码并表达为单个多肽。

38.根据实施例36-37中任一项所述的表达载体，其进一步包含编码接头多肽的第三多核苷酸，其中该第三多核苷酸位于第一多核苷酸的3’端和第二多核苷酸的5’端之间，并且其中该第一多核苷酸、第二多肽和第三多肽被框内编码并表达为单个多肽。

39.根据实施例36-38中任一项所述的表达载体，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ IDNO:126的位置877的位置处的氨基酸被Ala取代。

40.根据实施例36-39中任一项所述的表达载体，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ ID NO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

41.根据实施例36-40中任一项所述的表达载体，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

42.根据实施例41所述的表达载体，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

43.根据实施例41-42所述的表达载体，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

44.根据实施例36-43中任一项所述的表达载体，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

45.根据实施例36-40中任一项所述的表达载体，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

46.根据实施例38-45中任一项所述的表达载体，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

47.根据实施例38-46中任一项所述的表达载体，其中该接头多肽与SEQ ID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

48.一种宿主细胞，其包含：

I)核碱基编辑复合物，其包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；

II)编码核碱基编辑复合物的多核苷酸，该多核苷酸包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；

III)包含编码核碱基编辑复合物的多核苷酸的核酸构建体，该核酸构建体包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；和/或

IV)表达载体，其包含：

A)编码核碱基编辑复合物的多核苷酸，该多核苷酸包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；或

B)包含编码核碱基编辑复合物的多核苷酸的核酸构建体，该核酸构建体包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域。

49.根据实施例48所述的宿主细胞，其是原核或真核宿主细胞。

50.根据实施例48-49中任一项所述的宿主细胞，其为细菌宿主细胞；优选地该细菌宿主细胞是芽孢杆菌属、埃希氏菌属、乳杆菌属、乳球菌属、链球菌属或链霉菌属细胞；更优选地，该细菌宿主细胞选自由以下组成的组：嗜碱芽孢杆菌、高地芽孢杆菌、解淀粉芽孢杆菌、解淀粉芽孢杆菌植物亚种、短芽孢杆菌、环状芽孢杆菌、克劳氏芽孢杆菌、凝结芽孢杆菌、坚强芽孢杆菌、灿烂芽孢杆菌、迟缓芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、甲基营养型芽孢杆菌、短小芽孢杆菌、沙福芽孢杆菌、嗜热脂肪芽孢杆菌、枯草芽孢杆菌、苏云金芽孢杆菌、大肠杆菌、嗜酸乳杆菌、淀粉乳杆菌、短乳杆菌、副干酪乳杆菌、纤维二糖乳杆菌、卷曲乳杆菌、弯曲乳杆菌、德氏乳杆菌保加利亚亚种、德氏乳杆菌乳酸亚种、发酵乳杆菌、禾口鸡乳杆菌、格氏乳杆菌、瑞士乳杆菌、约氏乳杆菌、植物乳杆菌、罗伊氏乳杆菌、雷曼氏乳酸杆菌、唾液乳杆菌、韩中大乳球菌、福尔摩沙乳球菌、富士山乳球菌、格氏乳球菌、乳酸乳球菌、鱼乳球菌、植物乳球菌、棉子糖乳球菌、中国台湾乳球菌、似马链球菌、酿脓链球菌、乳房链球菌、马链球菌兽疫亚种、不产色链霉菌、除虫链霉菌、天蓝链霉菌、灰色链霉菌和浅青紫链霉菌细胞；最优选地，该细菌宿主细胞是地衣芽孢杆菌细胞。

51.根据实施例48-49中任一项所述的宿主细胞，其为丝状真菌宿主细胞；优选地，该真菌宿主细胞是枝顶孢霉属、曲霉属、短梗霉属、烟管霉属(Bjerkandera)、拟腊菌属、金孢子菌属、鬼伞属、革盖菌属(Coriolus)、隐球菌属、线黑粉菌科(Filibasidium)、镰孢属、腐质霉属、梨孢菌属、毛霉属、毁丝霉属、新美鞭菌属、链孢菌属、拟青霉属、青霉属、平革菌属、射脉菌属(Phlebia)、瘤胃壶菌属、侧耳属(Pleurotus)、裂褶菌属、篮状菌属、嗜热子囊菌属、梭孢壳属、弯颈霉属、栓菌属(Trametes)或木霉属细胞；更优选地，该丝状真菌宿主细胞选自由以下组成的组：泡盛曲霉、臭曲霉、烟曲霉、日本曲霉、构巢曲霉、黑曲霉、米曲霉、黑刺烟管菌、干拟蜡菌、卡内基拟蜡菌、浅黄拟蜡孔菌、潘诺希塔拟蜡菌、环带拟蜡菌、微红拟蜡菌、虫拟蜡菌、狭边金孢子菌、嗜角质金孢子菌、卢克诺文思金孢子菌、粪状金孢子菌、租金孢子菌、女王杜香金孢子菌、热带金孢子菌、褐薄金孢子菌、灰盖鬼伞、毛革盖菌、杆孢状镰孢、谷类镰孢、库威镰孢、大刀镰孢、禾谷镰孢、禾赤镰孢、异孢镰孢、合欢木镰孢、尖孢镰孢、多枝镰孢、粉红镰孢、接骨木镰孢、肤色镰孢、拟分枝孢镰孢、硫色镰孢、圆镰孢、拟丝孢镰孢、镶片镰孢、特异腐质霉、柔毛腐质霉、米黑毛霉、嗜热毁丝霉、粗糙链孢菌、产紫青霉、黄孢平革菌、射脉菌、刺芹侧耳、土生梭孢壳霉、长域毛栓菌、变色栓菌、哈茨木霉、康宁木霉、长枝木霉、里氏木霉、和绿色木霉细胞；最优选地，该丝状真菌宿主细胞是黑曲霉、米曲霉或里氏木霉细胞。

52.根据实施例48-49中任一项所述的宿主细胞，其为酵母宿主细胞；优选地，该酵母宿主细胞是假丝酵母属、汉逊酵母属、克鲁维酵母属、毕赤酵母属、酵母属、裂殖酵母属和耶罗维亚酵母属细胞；更优选地，该酵母宿主细胞选自由以下组成的组：乳酸克鲁维酵母、巴斯德毕赤酵母、卡尔酵母、酿酒酵母、糖化酵母、道格拉氏酵母、克鲁弗酵母、诺地酵母、卵形酵母、和解脂耶罗维亚酵母细胞；最优选地，该酵母宿主细胞是巴斯德毕赤酵母细胞。

53.根据实施例48-49中任一项所述的宿主细胞，其为哺乳动物宿主细胞；优选地，该哺乳动物宿主细胞是小鼠、大鼠或人细胞。

54.根据实施例48-53中任一项所述的宿主细胞，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域被框内编码并表达为单个多肽。

55.根据实施例48-54中任一项所述的宿主细胞，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域以末端-末端方式融合或经由接头多肽连接；优选地，该无催化活性RNA指导的内切核酸酶、该接头多肽和该核碱基编辑结构域被框内编码并表达为单个多肽。

56.根据实施例48-55中任一项所述的宿主细胞，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ IDNO:126的位置877的位置处的氨基酸被Ala取代。

57.根据实施例48-56中任一项所述的宿主细胞，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ ID NO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

58.根据实施例48-57中任一项所述的宿主细胞，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

59.根据实施例58所述的宿主细胞，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

60.根据实施例58-59所述的宿主细胞，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

61.根据实施例48-60中任一项所述的宿主细胞，其中该核碱基编辑复合物进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ IDNO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

62.根据实施例48-57中任一项所述的宿主细胞，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

63.根据实施例55-62中任一项所述的宿主细胞，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

64.根据实施例55-63中任一项所述的宿主细胞，其中该接头多肽与SEQ ID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

65.一种修饰DNA靶序列中至少一个核碱基的方法，该方法包括：

I)提供核碱基编辑复合物，其包含以下、基本上由以下组成或由以下组成：

b)核碱基编辑结构域；

其中该核碱基编辑复合物与与该DNA靶序列互补并能够与该DNA靶序列杂交的gRNA复合；以及

II)使该核碱基编辑复合物与该DNA靶序列接触；

66.根据实施例65所述的方法，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala取代。

67.根据实施例65-66中任一项所述的方法，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126或SEQ ID NO:155，基本上由SEQ ID NO:126或SEQ ID NO:155组成，或由SEQ ID NO:126或SEQ ID NO:155组成。

68.根据实施例65-67中任一项所述的方法，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

69.根据实施例68所述的方法，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

70.根据实施例68-69所述的方法，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

71.根据实施例68-70中任一项所述的方法，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性。最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

72.根据实施例65-67中任一项所述的方法，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

73.根据实施例65-72中任一项所述的方法，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域以末端-末端方式融合或经由接头多肽连接；优选地，该无催化活性RNA指导的内切核酸酶、该接头多肽和该核碱基编辑结构域被框内编码并表达为单个多肽。

74.根据实施例73所述的方法，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

75.根据实施例73-74中任一项所述的方法，其中该接头多肽与SEQ ID NO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

76.根据实施例65-75中任一项所述的方法，其中该DNA靶序列包含多核苷酸，该多核苷酸包含与该gRNA至少85％互补并且能够与该gRNA杂交的21个核苷酸；优选地，该21个核苷酸与gRNA至少90％、95％、97％、98％、99％或甚至100％互补并且能够与该gRNA杂交。

77.根据实施例65-76中任一项所述的方法，其中该DNA靶序列的侧翼为由该无催化活性RNA指导的内切核酸酶识别的功能性原型间隔子相邻基序(PAM)；优选地，该PAM序列是5’-TTTN-3’或5’-CTTN-3’；更优选地，该PAM序列是5’-TTTN-3’；最优选地，该PAM序列是5’-TTTC-3’或5’-TTTG-3’。

78.根据实施例77所述的方法，其中该DNA靶序列位于该PAM序列的3’端；优选地，该DNA靶序列位于与该PAM序列的3'端直接相邻的位置。

79.根据实施例65-78中任一项所述的方法，其中该DNA靶序列包含在编码多肽的可读框中或包含在启动子区域中；优选地，该DNA靶序列编码一个或多个选自由以下组成的组的酶：水解酶、异构酶、连接酶、裂解酶、氧化还原酶、或转移酶；优选地，该一个或多个酶是α-淀粉酶、α-半乳糖苷酶、α-葡糖苷酶、氨肽酶、淀粉酶、天冬酰胺酶、β-半乳糖苷酶、β-葡糖苷酶、β-木糖苷酶、糖酶、羧肽酶、过氧化氢酶、纤维二糖水解酶、纤维素酶、壳多糖酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、内切葡聚糖酶、酯酶、葡聚糖转移酶、葡糖淀粉酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶、氧化酶、果胶分解酶、过氧化物酶、磷酸二酯酶、植酸酶、多酚氧化酶、蛋白水解酶、核糖核酸酶、转谷氨酰胺酶、和木聚糖酶。

序列表

<110> 诺维信公司（Novozymes A/S）

<120> 使用无催化活性RNA指导的内切核酸酶的CRISPR-AID

<130> 15057-WO-PCT

<160> 166

<170> PatentIn 3.5版

<210> 1

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-889

<400> 1

ctagaaagta taggaacttc gctagctctg ctcgaggcca tctg 44

<210> 2

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-890

<400> 2

gttcgttcca atggccagcc cgatgctata cttc 34

<210> 3

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-891

<400> 3

agtatagcat cgggctggcc attggaacga actcgg 36

<210> 4

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-892

<400> 4

gattgcggga cgatagcgtc aacatcgtag tccgacaacc g 41

<210> 5

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-893

<400> 5

tcggactacg atgttgacgc tatcgtcccg caatccttcc t 41

<210> 6

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-894

<400> 6

ggtagagtaa taacgcctag gacacgcaaa acgaggtaca tt 42

<210> 7

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-895

<400> 7

gtcctaggcg ttattactct accgcaagg 29

<210> 8

<211> 49

<212> DNA

<213> 人工序列

<220>

<223> 引物 HTJP-896

<400> 8

taggaacttc aatcgatcta gtcctaggct acgccaggac cgagcaagc 49

<210> 9

<211> 500

<212> DNA

<213> 稻梨孢菌

<400> 9

tctgctcgag gccatctggc ttttctctgc tgtctgcctc gggaatggga tggaatacca 60

cgtacggtat ttggcctccg gtgccatccg aagcgagatg ctttgagctt gaaaccccct 120

cggcctgcac aggtgtctca tcgtgcattt aatccaacgg cggcgagtca aaacatcagc 180

taattgacca ggtttctgga ttgtgaatgc caactttttg ggtcttgagg agttgcgggg 240

tgggaaaaaa gtaaagaaat ttactgagga ttttatcatt gcgactataa aataaagcgg 300

cattgcaaat ccttgcgttg ctactatgta aaatggactg tagttgtgct gctgaaaata 360

gtttggcgat tgtggattgt ggattgtgga ttgtggatta tggcaagttg tcaaggggca 420

agttgacgaa aatgattgtg tggtgtctgc cagcaaattg agaacgtggg tatatatttc 480

atcttttcat gattcccttc 500

<210> 10

<211> 91

<212> DNA

<213> 烟曲霉

<400> 10

ggcttgcttg tcaagcaatg gcatcattgg tctagtggta gaattcgtcg ttgccatcga 60

cgaggcccgt gttcgattca cggatgatgc a 91

<210> 11

<211> 78

<212> DNA

<213> 人工序列

<220>

<223> Cas9 sgRNA主链

<400> 11

gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60

ggcaccgagt cggtgctt 78

<210> 12

<211> 215

<212> DNA

<213> 稻瘟病菌

<400> 12

tttttttggc tcttgggttc gaactgccca aggcccatgt tttggtcatc ttttttttta 60

tgccccacca tttgggtcac ccctgccaat cattccatct ttgttcctac ccttcacgtg 120

tgctttccga agccaaagtt cccattcaac aactctcctt gcgttttttt tttcttgaag 180

cttgtcaccc gtcgatagtt tctgccattt gcaat 215

<210> 13

<211> 886

<212> DNA

<213> 构巢曲霉

<400> 13

cgagacagca gaatcaccgc ccaagttaag cctttgtgct gatcatgctc tcgaacgggc 60

caagttcggg aaaagcaaag gagcgtttag tgaggggcaa tttgactcac ctcccaggca 120

acagatgagg ggggcaaaaa gaaagaaatt ttcgtgagtc aatatggatt ccgagcatca 180

ttttcttgcg gtctatcttg ctacgtatgt tgatcttgac gctgtggatc aagcaacgcc 240

actcgctcgc tccatcgcag gctggtcgca gacaaattaa aaggcggcaa actcgtacag 300

ccgcggggtt gtccgctgca aagtacagag tgataaaagc cgccatgcga ccatcaacgc 360

gttgatgccc agctttttcg atccgagaat ccaccgtaga ggcgatagca agtaaagaaa 420

agctaaacaa aaaaaaattt ctgcccctaa gccatgaaaa cgagatgggg tggagcagaa 480

ccaaggaaag agtcgcgctg ggctgccgtt ccggaaggtg ttgtaaaggc tcgacgccca 540

aggtgggagt ctaggagaag aatttgcatc gggagtgggg cgggttaccc ctccatatcc 600

aatgacagat atctaccagc caagggtttg agcccgcccg cttagtcgtc gtcctcgctt 660

gcccctccat aaaaggattt cccctccccc tcccacaaaa ttttctttcc cttcctctcc 720

ttgtccgctt cagtacgtat atcttccctt ccctcgcttc tctcctccat ccttctttca 780

tccatctcct gctaacttct ctgctcagca cctctacgca ttactagccg tagtatctga 840

gcacttctcc cttttatatt ccacaaaaca taacacaacc ttcacc 886

<210> 14

<211> 4131

<212> DNA

<213> 人工序列

<220>

<223> dCas9_编码

<400> 14

atggacaaga agtatagcat cgggctggcc attggaacga actcggttgg ttgggctgtg 60

attacggacg aatacaaggt gccatccaag aagtttaagg tcctgggaaa caccgaccgt 120

cactcaatca agaagaatct cattggagcc ctgctcttcg atagtgggga gaccgccgaa 180

gctactcgac tgaagcgaac ggctcgccgg cgttatacac gacgcaagaa tcgcatctgc 240

tacctccagg agattttcag caacgaaatg gctaaggttg atgactcatt ctttcatcga 300

ctcgaagaaa gtttcttggt cgaggaggat aagaagcacg agcgccatcc gatctttggt 360

aacattgtgg atgaggttgc ctatcacgaa aagtacccaa ctatctatca tcttcgtaag 420

aagctggtcg atagcacgga caaggctgat ttgcgactta tctacctggc actcgcgcac 480

atgattaagt tccgcggcca ttttcttatc gagggtgacc tgaaccccga taattctgac 540

gttgataagc tcttcatcca gttggtccaa acctacaatc agctgtttga ggaaaaccct 600

attaatgcat ctggcgtgga cgccaaggct atcctttcgg cgcgcctgtc taagtcgcgg 660

cgtttggaga accttatcgc acaactcccc ggcgaaaaga agaacggcct cttcggtaat 720

ttgattgcgt tgtcacttgg tctgactcct aacttcaaga gtaattttga cctggcagag 780

gatgcgaagc tccagttgtc taaggatacg tatgatgacg atctcgacaa cttgcttgcc 840

caaatcggtg accagtacgc tgatcttttc ctggccgcta agaatctctc agatgcaatc 900

ctgctcagtg acattttgcg ggtcaacacc gagattacta aggcccccct gtcagctagt 960

atgatcaagc ggtatgatga gcaccatcag gacctcacct tgcttaaggc cctcgtgcgt 1020

cagcaattgc ctgagaagta caaggaaatc ttctttgacc aatccaagaa cggatacgca 1080

gggtatattg atggcggtgc gagccaggag gaattctaca agtttatcaa gccgattttg 1140

gagaagatgg acggcactga ggaactgctc gtcaagctga atcgcgaaga tttgcttcgt 1200

aagcaacgaa cgttcgacaa cggctccatc ccgcaccaga ttcatctggg cgagctccac 1260

gccatccttc gacgccagga agatttctac ccatttctga aggacaaccg tgagaagatc 1320

gaaaagattc ttacattccg aatcccctac tatgtgggac ctttggcccg tgggaattcc 1380

cgatttgctt ggatgacccg aaagagcgag gaaaccatca ctccgtggaa cttcgaggaa 1440

gtcgtggaca agggtgcatc cgcgcagagc ttcattgagc ggatgaccaa ttttgataag 1500

aaccttccga atgaaaaggt cctgccaaag cattcgctgc tctacgagta tttcaccgtg 1560

tataacgaac tgactaaggt caagtacgtg acggagggaa tgcggaagcc agccttcctc 1620

tcaggggaac aaaagaaggc tatcgtcgat ttgcttttta agaccaatcg taaagtgact 1680

gttaagcagc tgaaggagga ttatttcaag aagattgaat gtttcgactc cgtcgagatc 1740

agcggcgtgg aagatcgctt taacgcttcc ctcggtacct accacgacct gctcaagatc 1800

attaaggaca aggatttcct cgataacgag gaaaatgagg acatcttgga agatattgtc 1860

ctcacgttga cactttttga ggaccgcgaa atgatcgagg aacggctcaa gacatatgcc 1920

catttgttcg acgataaggt gatgaagcag ctgaagcggc gtcgatacac cggatggggt 1980

cgccttagcc ggaagctgat caacggcatt cgagataagc aatctggtaa gactatcttg 2040

gatttcctta agtcggacgg cttcgccaac cgcaatttta tgcagcttat tcacgacgat 2100

tccctgacgt tcaaggagga catccagaag gcacaagtct caggacaagg ggattccctg 2160

cacgagcata tcgccaacct ggctggatcc ccggcgatca agaaggggat tcttcagacc 2220

gtcaaggttg tcgacgagct ggtcaaggtg atgggccgtc ataagccaga aaacatcgtg 2280

attgagatgg cccgagaaaa tcagaccact caaaagggtc agaagaacag ccgcgagcgg 2340

atgaagcgga tcgaggaagg cattaaggaa cttggttctc agatcctgaa ggagcaccct 2400

gttgaaaaca cacagctcca aaatgagaag ctgtatctct actatttgca aaatggacgc 2460

gacatgtacg tcgatcagga gctcgacatt aaccggttgt cggactacga tgttgacgct 2520

atcgtcccgc aatccttcct taaggacgat agcattgata acaaggtgct gactcgctca 2580

gataagaacc ggggcaagtc cgacaatgtt ccaagcgagg aagtggttaa gaagatgaag 2640

aactactggc gccaattgct taatgccaag ctcatcacac agcgcaagtt tgacaacttg 2700

accaaggccg agcggggagg gctgagtgaa ctcgataagg ctggcttcat caagcgtcaa 2760

ctcgtggaga cgcgacagat cacaaagcac gttgctcaga ttctggactc ccggatgaac 2820

acaaagtacg acgagaatga taagctcatc cgtgaagtta aggtcattac cctcaagtct 2880

aagttggtgt cggatttccg caaggacttc caattttata aggttcggga gatcaacaat 2940

tatcaccatg cacatgatgc gtacctcaac gcagtcgtgg gaactgcgct catcaagaag 3000

tatcccaagt tggagtccga attcgtctac ggggattata aggtttacga cgtccgcaag 3060

atgatcgcca agagtgagca ggaaattggc aaggccacgg ctaagtattt cttttactcc 3120

aacatcatga atttctttaa gacggagatc acactcgcca atggagaaat ccgtaagcga 3180

cctttgattg agaccaacgg cgagactggt gaaatcgttt gggataaggg gcgcgacttc 3240

gctaccgtgc ggaaggttct gagcatgccg caagtcaata tcgtcaagaa aaccgaggtg 3300

cagacaggcg gtttctctaa ggaatcgatt cttccaaagc gtaactctga caagctgatc 3360

gctcgaaaga aggattggga ccccaagaag tatggagggt tcgattctcc tacagtggca 3420

tactcggttc tcgttgtcgc gaaggttgag aagggaaagt ctaagaagct gaagtcggtc 3480

aaggaactgc tcgggatcac cattatggag cgctccagct tcgaaaagaa tcccatcgac 3540

tttctcgagg ccaagggcta taaggaagtc aagaaggatc ttatcattaa gctgcctaag 3600

tactctttgt tcgagcttga aaacggtcga aagcgaatgc tcgcatcggc aggagagttg 3660

cagaagggga atgaattggc acttccctca aagtacgtga acttcctgta tctcgcgtcc 3720

cactacgaga agctgaaggg tagccctgag gacaacgaac agaagcaact ttttgttgag 3780

caacacaagc attatctgga tgagatcatt gaacagattt cagagttcag taagcgcgtc 3840

atcctcgccg atgctaatct cgacaaggtg ttgtcggcct acaacaagca ccgtgacaag 3900

ccgatccgag agcaggctga aaatatcatt catctgttca ccctcactaa cttgggagca 3960

ccagcagcgt tcaagtattt tgatacgaca atcgaccgta agcgatacac gtccacaaag 4020

gaggtgcttg atgcgaccct gattcatcaa tccatcactg ggctctatga aacccgtatc 4080

gaccttagtc aactgggggg cgaccctccc aagaagaagc gcaaggtctg a 4131

<210> 15

<211> 1376

<212> PRT

<213> 人工序列

<220>

<223> dCas9_蛋白

<400> 15

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

Pro Pro Lys Lys Lys Arg Lys Val

1370 1375

<210> 16

<211> 1023

<212> DNA

<213> 人工序列

<220>

<223> hph选择标记

<400> 16

atgtcgcctg aactcaccgc gacgtctgtc gagaagtttc tgatcgaaaa gttcgacagc 60

gtctccgacc tgatgcagct ctcggagggc gaagaatctc gtgctttcag cttcgatgta 120

ggagggcgtg gatatgtcct gcgggtaaat agctgcgccg atggtttcta caaagatcgt 180

tatgtttatc ggcactttgc atcggccgcg ctcccgattc cggaagtgct tgacattggg 240

gaattcagcg agagcctgac ctattgcatc tcccgccgtg cacagggtgt cacgttgcaa 300

gacctgcctg aaaccgaact gcccgctgtt ctgcagccgg tcgcggaggc catggatgcg 360

atcgctgcgg ccgatcttag ccagacgagc gggttcggcc cattcggacc gcaaggaatc 420

ggtcaataca ctacatggcg tgatttcata tgcgcgattg ctgatcccca tgtgtatcac 480

tggcaaactg tgatggacga caccgtcagt gcgtccgtcg cgcaggctct cgatgagctg 540

atgctttggg ccgaggactg ccccgaagtc cggcacctcg tgcacgcgga tttcggctcc 600

aacaatgtcc tgacggacaa tggccgcata acagcggtca ttgactggag cgaggcgatg 660

ttcggggatt cccaatacga ggtcgccaac atcttcttct ggaggccgtg gttggcttgt 720

atggagcagc agacgcgcta cttcgagcgg aggcatccgg agcttgcagg atcgccgcgg 780

ctccgggcgt atatgctccg cattggtctt gaccaactct atcagagctt ggttgacggc 840

aatttcgatg atgcagcttg ggcgcagggt cgatgcgacg caatcgtccg atccggagcc 900

gggactgtcg ggcgtacaca aatcgcccgc agaagcgcgg ccgtctggac cgatggctgt 960

gtagaagtac tcgccgatag tggaaaccga cgccccagca ctcgtccgag ggcaaaggaa 1020

tag 1023

<210> 17

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF_U6cas9_fwd

<400> 17

ttttctctgc tgtctgcctc g 21

<210> 18

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF_dCasCDA_rev

<400> 18

gtcgcccccc agttgactaa g 21

<210> 19

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF_CDA3UTR_fwd

<400> 19

gcggacattc gatttatgcc gttatg 26

<210> 20

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF_U63UTR_rev

<400> 20

agacagcaga gaaaagccag atgg 24

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 CDA插入_fwd

<400> 21

caactggggg gcgacagcag 20

<210> 22

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物 CDA插入_rev

<400> 22

aaatcgaatg tccgcttatc cggag 25

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pTNA197的原型间隔子

<400> 23

cagcagtcct ctgctctaga 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pTNA198的原型间隔子

<400> 24

tccaacccac tccctggaat 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pTNA199的原型间隔子

<400> 25

ccagcatgtt gactcggaat 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pTNA200的原型间隔子

<400> 26

tgtcccagca tagtcgtcgt 20

<210> 27

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_正义_1

<400> 27

ttcgattcac ggatgatgca cagcagtcct ctgctctaga gttttagagc tagaaatagc 60

<210> 28

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_正义_1_rev

<400> 28

gctatttcta gctctaaaac tctagagcag aggactgctg tgcatcatcc gtgaatcgaa 60

<210> 29

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_正义_2

<400> 29

ttcgattcac ggatgatgca tccaacccac tccctggaat gttttagagc tagaaatagc 60

<210> 30

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_正义_2_rev

<400> 30

gctatttcta gctctaaaac attccaggga gtgggttgga tgcatcatcc gtgaatcgaa 60

<210> 31

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_反义_1

<400> 31

ttcgattcac ggatgatgca ccagcatgtt gactcggaat gttttagagc tagaaatagc 60

<210> 32

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_反义_1_rev

<400> 32

gctatttcta gctctaaaac attccgagtc aacatgctgg tgcatcatcc gtgaatcgaa 60

<210> 33

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_反义_2

<400> 33

ttcgattcac ggatgatgca tgtcccagca tagtcgtcgt gttttagagc tagaaatagc 60

<210> 34

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 引物 wA_反义_2_rev

<400> 34

gctatttcta gctctaaaac acgacgacta tgctgggaca tgcatcatcc gtgaatcgaa 60

<210> 35

<211> 5055

<212> DNA

<213> 人工序列

<220>

<223> dCas9-AID_编码

<400> 35

atggacaaga agtatagcat cgggctggcc attggaacga actcggttgg ttgggctgtg 60

attacggacg aatacaaggt gccatccaag aagtttaagg tcctgggaaa caccgaccgt 120

cactcaatca agaagaatct cattggagcc ctgctcttcg atagtgggga gaccgccgaa 180

gctactcgac tgaagcgaac ggctcgccgg cgttatacac gacgcaagaa tcgcatctgc 240

tacctccagg agattttcag caacgaaatg gctaaggttg atgactcatt ctttcatcga 300

ctcgaagaaa gtttcttggt cgaggaggat aagaagcacg agcgccatcc gatctttggt 360

aacattgtgg atgaggttgc ctatcacgaa aagtacccaa ctatctatca tcttcgtaag 420

aagctggtcg atagcacgga caaggctgat ttgcgactta tctacctggc actcgcgcac 480

atgattaagt tccgcggcca ttttcttatc gagggtgacc tgaaccccga taattctgac 540

gttgataagc tcttcatcca gttggtccaa acctacaatc agctgtttga ggaaaaccct 600

attaatgcat ctggcgtgga cgccaaggct atcctttcgg cgcgcctgtc taagtcgcgg 660

cgtttggaga accttatcgc acaactcccc ggcgaaaaga agaacggcct cttcggtaat 720

ttgattgcgt tgtcacttgg tctgactcct aacttcaaga gtaattttga cctggcagag 780

gatgcgaagc tccagttgtc taaggatacg tatgatgacg atctcgacaa cttgcttgcc 840

caaatcggtg accagtacgc tgatcttttc ctggccgcta agaatctctc agatgcaatc 900

ctgctcagtg acattttgcg ggtcaacacc gagattacta aggcccccct gtcagctagt 960

atgatcaagc ggtatgatga gcaccatcag gacctcacct tgcttaaggc cctcgtgcgt 1020

cagcaattgc ctgagaagta caaggaaatc ttctttgacc aatccaagaa cggatacgca 1080

gggtatattg atggcggtgc gagccaggag gaattctaca agtttatcaa gccgattttg 1140

gagaagatgg acggcactga ggaactgctc gtcaagctga atcgcgaaga tttgcttcgt 1200

aagcaacgaa cgttcgacaa cggctccatc ccgcaccaga ttcatctggg cgagctccac 1260

gccatccttc gacgccagga agatttctac ccatttctga aggacaaccg tgagaagatc 1320

gaaaagattc ttacattccg aatcccctac tatgtgggac ctttggcccg tgggaattcc 1380

cgatttgctt ggatgacccg aaagagcgag gaaaccatca ctccgtggaa cttcgaggaa 1440

gtcgtggaca agggtgcatc cgcgcagagc ttcattgagc ggatgaccaa ttttgataag 1500

aaccttccga atgaaaaggt cctgccaaag cattcgctgc tctacgagta tttcaccgtg 1560

tataacgaac tgactaaggt caagtacgtg acggagggaa tgcggaagcc agccttcctc 1620

tcaggggaac aaaagaaggc tatcgtcgat ttgcttttta agaccaatcg taaagtgact 1680

gttaagcagc tgaaggagga ttatttcaag aagattgaat gtttcgactc cgtcgagatc 1740

agcggcgtgg aagatcgctt taacgcttcc ctcggtacct accacgacct gctcaagatc 1800

attaaggaca aggatttcct cgataacgag gaaaatgagg acatcttgga agatattgtc 1860

ctcacgttga cactttttga ggaccgcgaa atgatcgagg aacggctcaa gacatatgcc 1920

catttgttcg acgataaggt gatgaagcag ctgaagcggc gtcgatacac cggatggggt 1980

cgccttagcc ggaagctgat caacggcatt cgagataagc aatctggtaa gactatcttg 2040

gatttcctta agtcggacgg cttcgccaac cgcaatttta tgcagcttat tcacgacgat 2100

tccctgacgt tcaaggagga catccagaag gcacaagtct caggacaagg ggattccctg 2160

cacgagcata tcgccaacct ggctggatcc ccggcgatca agaaggggat tcttcagacc 2220

gtcaaggttg tcgacgagct ggtcaaggtg atgggccgtc ataagccaga aaacatcgtg 2280

attgagatgg cccgagaaaa tcagaccact caaaagggtc agaagaacag ccgcgagcgg 2340

atgaagcgga tcgaggaagg cattaaggaa cttggttctc agatcctgaa ggagcaccct 2400

gttgaaaaca cacagctcca aaatgagaag ctgtatctct actatttgca aaatggacgc 2460

gacatgtacg tcgatcagga gctcgacatt aaccggttgt cggactacga tgttgacgct 2520

atcgtcccgc aatccttcct taaggacgat agcattgata acaaggtgct gactcgctca 2580

gataagaacc ggggcaagtc cgacaatgtt ccaagcgagg aagtggttaa gaagatgaag 2640

aactactggc gccaattgct taatgccaag ctcatcacac agcgcaagtt tgacaacttg 2700

accaaggccg agcggggagg gctgagtgaa ctcgataagg ctggcttcat caagcgtcaa 2760

ctcgtggaga cgcgacagat cacaaagcac gttgctcaga ttctggactc ccggatgaac 2820

acaaagtacg acgagaatga taagctcatc cgtgaagtta aggtcattac cctcaagtct 2880

aagttggtgt cggatttccg caaggacttc caattttata aggttcggga gatcaacaat 2940

tatcaccatg cacatgatgc gtacctcaac gcagtcgtgg gaactgcgct catcaagaag 3000

tatcccaagt tggagtccga attcgtctac ggggattata aggtttacga cgtccgcaag 3060

atgatcgcca agagtgagca ggaaattggc aaggccacgg ctaagtattt cttttactcc 3120

aacatcatga atttctttaa gacggagatc acactcgcca atggagaaat ccgtaagcga 3180

cctttgattg agaccaacgg cgagactggt gaaatcgttt gggataaggg gcgcgacttc 3240

gctaccgtgc ggaaggttct gagcatgccg caagtcaata tcgtcaagaa aaccgaggtg 3300

cagacaggcg gtttctctaa ggaatcgatt cttccaaagc gtaactctga caagctgatc 3360

gctcgaaaga aggattggga ccccaagaag tatggagggt tcgattctcc tacagtggca 3420

tactcggttc tcgttgtcgc gaaggttgag aagggaaagt ctaagaagct gaagtcggtc 3480

aaggaactgc tcgggatcac cattatggag cgctccagct tcgaaaagaa tcccatcgac 3540

tttctcgagg ccaagggcta taaggaagtc aagaaggatc ttatcattaa gctgcctaag 3600

tactctttgt tcgagcttga aaacggtcga aagcgaatgc tcgcatcggc aggagagttg 3660

cagaagggga atgaattggc acttccctca aagtacgtga acttcctgta tctcgcgtcc 3720

cactacgaga agctgaaggg tagccctgag gacaacgaac agaagcaact ttttgttgag 3780

caacacaagc attatctgga tgagatcatt gaacagattt cagagttcag taagcgcgtc 3840

atcctcgccg atgctaatct cgacaaggtg ttgtcggcct acaacaagca ccgtgacaag 3900

ccgatccgag agcaggctga aaatatcatt catctgttca ccctcactaa cttgggagca 3960

ccagcagcgt tcaagtattt tgatacgaca atcgaccgta agcgatacac gtccacaaag 4020

gaggtgcttg atgcgaccct gattcatcaa tccatcactg ggctctatga aacccgtatc 4080

gaccttagtc aactgggggg cgacagcagg gctgacccca agaagaagag gaaggtgggt 4140

ggaggaggtt ctggaggtgg aggttctgca gagtatgtgc gggccctctt tgactttaat 4200

gggaatgatg aagaagacct tccctttaag aaaggagaca tcctgagaat ccgggataag 4260

cctgaagagc agtggtggaa tgcagaggac agcgaaggaa agagggggat gattcctgtc 4320

ccttacgtgg agaagtattc cggagactat aaggaccacg acggagacta caaggatcat 4380

gatattgatt acaaagacga tgacgataag tctaggatga ccgacgctga gtacgtgaga 4440

atccatgaga agttggacat ctacacgttt aagaaacagt ttttcaacaa caaaaaatcc 4500

gtgtcgcata gatgctacgt tctctttgaa ttaaaacgac ggggtgaacg tagagcgtgt 4560

ttttggggct atgctgtgaa taaaccacag agcgggacag aacgtggcat tcacgccgaa 4620

atctttagca ttagaaaagt cgaagaatac ctgcgcgaca accccggaca attcacgata 4680

aattggtact catcctggag tccttgtgca gattgcgctg aaaaaatctt agaatggtat 4740

aaccaggagc tgcgggggaa cggccacact ttgaaaatct gggcttgcaa actctattac 4800

gagaaaaatg cgaggaatca aattgggctg tggaacctca gagataacgg ggttgggttg 4860

aatgtaatgg taagtgaaca ctaccaatgt tgcaggaaaa tattcatcca atcgtcgcac 4920

aatcaattga atgagaatag atggcttgag aagactttga agcgagctga aaaacgacgg 4980

agcgagttgt ccattatgat tcaggtaaaa atactccaca ccactaagag tcctgctgtt 5040

tctagaggct ccgga 5055

<210> 36

<211> 1685

<212> PRT

<213> 人工序列

<220>

<223> dCas9-AID_蛋白

<400> 36

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Gly Gly Gly

1370 1375 1380

Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala Leu Phe Asp

1385 1390 1395

Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys Gly Asp

1400 1405 1410

Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn Ala

1415 1420 1425

Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr Val

1430 1435 1440

Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys

1445 1450 1455

Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Ser Arg Met

1460 1465 1470

Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr

1475 1480 1485

Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His

1490 1495 1500

Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg

1505 1510 1515

Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr

1520 1525 1530

Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu

1535 1540 1545

Glu Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr

1550 1555 1560

Ser Ser Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu

1565 1570 1575

Trp Tyr Asn Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys Ile

1580 1585 1590

Trp Ala Cys Lys Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln Ile

1595 1600 1605

Gly Leu Trp Asn Leu Arg Asp Asn Gly Val Gly Leu Asn Val Met

1610 1615 1620

Val Ser Glu His Tyr Gln Cys Cys Arg Lys Ile Phe Ile Gln Ser

1625 1630 1635

Ser His Asn Gln Leu Asn Glu Asn Arg Trp Leu Glu Lys Thr Leu

1640 1645 1650

Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser Ile Met Ile Gln

1655 1660 1665

Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val Ser Arg Gly

1670 1675 1680

Ser Gly

1685

<210> 37

<211> 6680

<212> DNA

<213> 人工序列

<220>

<223> PKS (wA) 基因座

<400> 37

atggagggtc catctcgtgt gtaccttttt ggagaccaga ccagcgacat cgaagctggc 60

ctgcgccgtc tgctccaagc gaagaatagt accattgtcc agtccttttt ccagcaatgc 120

ttccatgcaa ttcgtcaaga gatcgcgaag ctcccgccgt ctcatcggaa gctcttccca 180

cgcttcacga gcatcgttga tctcctttcc aggagtcgtg aatcaggtcc tagccctgtc 240

ctggagagtg cattgacatg catctaccaa ttgggttgtt tcattcagta agtcaatgag 300

ttaccatcta tacttgacaa gtctgaccag ccttcagctt ttacggggat cttggacatg 360

actaccctac accctccaac agccatcttg ttggcctgtg cactggtgtt ctgagctgca 420

cggctgtaag ttgcgccaga aatgttggag agcttattcc agctgcagtg gaatcggttg 480

taattgcact gcgactggga atctgcgttt ttcgagttcg agaactggtg gactccgccg 540

attccgagtc aacatgctgg tcagcgttgg tttctggaat cagtgaagca gaggctagcc 600

acctgatcga cgagtacagt agtaagaagg tgtgctcttc caactttaaa cccccgcatt 660

gtgggatgct gacagatgca ggctactccg ccttcttcga aaccgtatat cagcgcggta 720

agctctaatg gcgttactgt cagcgcacca cctacggtac ttgatgaatt cgtcgagacc 780

tgcatttcca agaattacaa gccagtgaag gcccctattc atggcccgta ccatgcgcca 840

catctgtatg atgataagga tatcgaccgc atcctgcagc agtcctctgc tctagaagga 900

ctgaccggct gttcacccgt tattcccatc atctccagta acactggaaa gccgatcaag 960

gccaagtcca tcaaagatct cttcaaggtc gcactggagg agatactcct acgacgacta 1020

tgctgggaca aggtcacgga gtcctgcaca tcagtctgca agaccggcac aaaccactct 1080

tgcaaattgt ttccgatctc gagtagcgcc actcaaagtt tgttcacagt cctcaagaag 1140

gccggtgtga gcatcagctt ggagactggg gtaggagaga tcgcgacgaa cccagaaatg 1200

cggaacctta ctggcaaggc agaaaattca aagattgcta tcattggtat gtctggaaga 1260

tttcctgact cggatggtac ggagagcttc tggaacctcc tgtacaaagg actcgacgta 1320

catcgcaaag tccccgcaga ccgttgggac gttgatgccc acgtcgacat gaccgggtca 1380

aagagaaaca caagcaaagt ggcttacggt tgctggatca acgaacccgg cctgtttgac 1440

ccccgattct tcaacatgtc gcctcgggaa gcactccaag cagatcctgc acaacgtctt 1500

gcgttgctta cagcgtacga ggctctcgag atggctggct tcatcccgga tagctctcca 1560

tcgacgcaga gggaccgtgt gggtattttc tacggaatga ccagtgacga ctaccgtgag 1620

atcaacagcg gccaggacat tgatacctat ttcatccctg gcggtaaccg agcatttacg 1680

ccgggtcgga taaactacta cttcaaattt agcggcccca gtgtgagcgt tgacacagcg 1740

tgctcgtcta gtcttgctgc tatccacatg gcttgcaatt cgatctggag aaatgactgc 1800

gatgccgcca tcactggagg tgtgaacatt ctgaccagcc ctgacaacca cgccggtctg 1860

gatcggggcc atttcctgtc caccactggc aactgtaaca cctttgatga cggcgccgac 1920

ggctactgta gagcggacgg agttggaagc atcgttttga agcggcttga agatgccgag 1980

gccgacaacg acccgatcct ggccgtcatc aacggtgctt acaccaacca ctcggcggag 2040

gccgtgtcaa tcactcgtcc ccatgttggc gcgcaagcat tcatcttcaa caagctgctc 2100

aatgatgcga atatcgaccc taaggacgtg agctacgtgg aaatgcatgg cactggaact 2160

caagcaggtg atgcagtcga aatgcagtcc gttcttgacg tcttcgcacc agactaccgc 2220

cggggtcccg gtcaatcgct tcatatcggt tctgccaagg caaacattgg acacggtgaa 2280

tccgcatcag gagtgactgc tcttgtcaag gtcctcctaa tgatgagaga gaacatgatt 2340

cctcctcatt gtggtatcaa gaccaagatc aattccaatt tcccgacaga cttggcgaag 2400

cgcaatgttc atatcgcctt ccaacccact ccctggaatc ggccagcttc aggaaagcgg 2460

cgaactttcg tcaacaactt ttctgctgct ggtggtaaca ctgctcttct actggaagat 2520

gctcccatac cggaacgcca agggcaggac cccaggtcgt tccatttggt ctccgtgtca 2580

gcaagatccc agtctgcatt gaagaacaac gtcgaagctc tggtgaagta cattgactct 2640

cagggcaagt cctttggtgt gaaagagact gaattccttc caaacctggc gtacacgacc 2700

accgcacgcc gtatccacca tcccttccgt gtcattgcgg ttggagcgaa cctacaatca 2760

ctgcgtgact cgctgcatgg tgctttgcac cgtgagacat ataccccagt tccctcaacg 2820

gctcctggta ttggtttcgt cttcaccggc caaggagccc aatactccgg aatgggcaag 2880

gaactctacc gcagttgttt ccaattccga accaccattg agcattttga ctgcatcgca 2940

agaagccagg gccttccttc tatccttcct cttgtcgatg gaagcgtggc tgtcgaagaa 3000

cttagccctg tcgtggtaca agtgggaact acctgtgtac aaatggctct agtaaattac 3060

tggactgctc tgggtgtgaa gccggccttt atcatcggac acagtcttgg agactatgca 3120

gcccttaaca cggccggtgt tctatccacc agcgatacaa tctatctttg tggccggcgt 3180

gctcagttgc tgacgaagga atgcaagatt gggacacatt cgatgctggc catcaaggcg 3240

tccctggcag aggtcaaaca tttcctcaga gacgagctcc acgaagtctc ttgtgttaac 3300

gcacctgcgg agaccgtcgt cagcggcctt gtcgctgata tcgacgagtt ggctcagaaa 3360

tgctccacag agggtttgaa gtcaaccaag ctcaaggttc cttacgcgtt ccattcctct 3420

caggttgatc ctatcttgga ggccttcgaa gatattgccc aaggtgtcac cttccacaag 3480

ccgacaacac ctttcgtctc agccctgttc ggggaagtga tcaccgatgc taactgggag 3540

tgtctcggcc ccaagtacct gcgcgatcat tgcagaaaga cggtcaactt ccttggcggc 3600

gtggaggcta cgaggcatgc gaagctgacc aatgacaaga ctctgtgggt tgagatcggc 3660

tcacatacca tttgctctgg aatgatcaaa gcaactcttg gaccgcaagt tacaacggtt 3720

gcatctctac gccgcgaaga agatacctgg aaggtccttt cgaacagtct tgcgagcctt 3780

catctggcgg gtattgatat caactggaag caatatcacc aggactttag ctcctctctc 3840

caggtcctcc gcctcccagc ctacaagtgg gatctcaaga actactggat tccctatacc 3900

aacaacttct gcctgagcaa gggcgctcca gttgcgacag tagcggcagg gccacagcat 3960

gagtacctga caaccgcggc tcagaaggtc attgagactc gaagtgatgg agcaacagct 4020

acagtcgtga tagagaacga cattgctgat cccgagctca accgcgtcat tcaaggccat 4080

aaggtcaacg gtactgcttt gtgtccctca gtaagttacc gctcttgccc aacgactgcg 4140

ttaagattcg tactaatcag gatatagtca ctatatgccg acatctctca aacgcttgca 4200

gagtatctca tcaaaaagta caagcctgag tacgacggac ttggactgga tgtgtgtgag 4260

gtcacagtgc cacgaccact gattgcgaaa ggcggacagc agctctttag agtatctgcg 4320

acagcggatt gggcggagaa gaagacaacc cttcagatat attcagtcac tgcggagggg 4380

aagaagacgg ctgaccacgc aacttgcact gtccgattct ttgactgcgc tgctgcggag 4440

gcggaatgga aacgagtttc ctaccttgtc aagaggagca ttgaccgact gcatgatatc 4500

gccgaaaatg gtgacgctca ccgtcttggt agaggcatgg tttacaaact cttcgctgcc 4560

ttggttgatt atgacgacaa cttcaagtcc attcgcgagg ttattcttga cagtgaacag 4620

cacgaagcga ctgcacgcgt caagttccaa gcaccacaag gcaatttcca ccgaaacccg 4680

ttctggattg acagttttgg acacctgtct gggttcatca tgaacgcaag cgatgcaacc 4740

gactccaaga accaggtctt tgtcaatcac ggatgggact ccatgcgttg tttgaagaag 4800

ttctcgcctg atgtcaccta caggacttat gttagaatgc agccttggaa agactccatc 4860

tgggctggtg atgtctacgt tttcgatggg gatgatatcg ttgcggtgta tggtgcagtc 4920

aaggtgagtt cggcccgcgc tcagttgcat aagattcaag gtgctaatca ttggtgtcac 4980

agttccaagc cttatcacgc aagattctcg atacggtcct acctccagtt ggggcttcga 5040

agggccccgc cagaccagcc gctagcgctc agaaggcggc ccctgctgct gctgccagca 5100

agagtcgtgc tagcgccccg gccccggcga agcctgctgc taagcccagc gccccaagct 5160

tggtcaaacg ggcacttacc atcctcgcag aggaagtggg tctgtctgaa tccgagatta 5220

cggatgatct ggtcttcgca gactacggtg tggactccct tctttcgttg acggtcacgg 5280

gcaggtatcg tgaagagctg gatatcgatc tcgaatcctc catcttcatc gaccagccga 5340

ccgtgaaaga cttcaagcag ttcttggccc caatgagcca gggagaagcc agcgatgggt 5400

ccaccagtga cccagagtct agtagctcct tcaatggtgg ctcttcaaca gacgagtcca 5460

gtgctgggtc ccctgtcagc tcaccaccaa atgagaaggt tacgcaggtc gagcagcatg 5520

ctacgataaa ggagattcgc gccattttgg ccgatgagat tggtgttacg gaggaggagc 5580

tgaaggacga tgagaacttg ggagagatgg ggatggactc tctgctttcg cttacggtgc 5640

ttggtaggat ccgtgagaca ttggatctgg atctaccggg cgagttcttc atcgagaatc 5700

aaactctgaa tgacgtggag gatgcattgg gcctcaaacc caaggcagct cctgcgcctg 5760

cgcctgcgcc tgctcccgta cccgcacccg tgtccgcgcc catattgaag gagcctgtcc 5820

ccaacgcaaa ctctaccatc atggcccggg cgagcccgca ccctcgatca acctccattc 5880

tgttgcaagg aaacccgaaa accgcgacca agaccctgtt cctgttccct gatgggtctg 5940

gctccgcaac atcgtatgca accattcccg gagtgtcccc ggacgtgtgt gtctacggat 6000

tgaactgccc gtacatgaag actccagaga agctcaagta tccccttgct gagatgacat 6060

tcccctatct ggccgagatc cgccgcagac agcccaaggg cccgtacaac ttcggtggat 6120

ggtctgcagg tggtatttgc gcctatgatg ccgctcgcta cctaatcctt gaagagggcg 6180

aacaggttga ccgattgctt cttcttgact cgcccttccc cattggctta gagaagttgc 6240

ccactcggct gtacggcttc atcaactcaa tgggtctctt tggtgaaggc aacaaggctc 6300

ccccggcctg gttgctccct catttcctgg ccttcattga ttccctcgat acctacaagg 6360

ccgtccccct cccctttgac gatccgaagt gggccaagaa gatgccaaag acattcatgg 6420

tctgggccaa ggacggtatc tgcagcaagc cggatgaccc gtggcccgag ccggacccgg 6480

acggcaagcc ggacacgaga gagatggtct ggctcctcaa gaaccggacc gacatgggac 6540

ccaacaagtg ggacacactc gtcgggcccc aaaacgtcgg tggaatcact gtgatagagg 6600

gtgcgaatca tttcaccatg actttgggac ccaaggctaa agaattgggc tcgttcattg 6660

gcaacgccat ggccaattaa 6680

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_seq_f2

<400> 38

tcatatcggt tctgccaagg 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_R

<400> 39

gttgttgacg aaagttcgcc 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_F

<400> 40

actgcgactg ggaatctgcg 20

<210> 41

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_seq_r3

<400> 41

cttgtaattc ttggaaatgc agg 23

<210> 42

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 引物 BsrGI-3UTR-fwd

<400> 42

gtctaatgta cagcggacat tcgatttatg c 31

<210> 43

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 引物 NheI-FRT-rev

<400> 43

agcagagcta gcgaagttcc tatactttct ag 32

<210> 44

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 引物 Ex-UGI顶端-fwd

<400> 44

atgatctcta gaggctccgg aaccaacctg 30

<210> 45

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物 UGI末端-rev

<400> 45

aaatcgaatg tccgctgtac attag 25

<210> 46

<211> 5340

<212> DNA

<213> 人工序列

<220>

<223> dCas9-AID-UGI_编码

<400> 46

atggacaaga agtatagcat cgggctggcc attggaacga actcggttgg ttgggctgtg 60

attacggacg aatacaaggt gccatccaag aagtttaagg tcctgggaaa caccgaccgt 120

cactcaatca agaagaatct cattggagcc ctgctcttcg atagtgggga gaccgccgaa 180

gctactcgac tgaagcgaac ggctcgccgg cgttatacac gacgcaagaa tcgcatctgc 240

tacctccagg agattttcag caacgaaatg gctaaggttg atgactcatt ctttcatcga 300

ctcgaagaaa gtttcttggt cgaggaggat aagaagcacg agcgccatcc gatctttggt 360

aacattgtgg atgaggttgc ctatcacgaa aagtacccaa ctatctatca tcttcgtaag 420

aagctggtcg atagcacgga caaggctgat ttgcgactta tctacctggc actcgcgcac 480

atgattaagt tccgcggcca ttttcttatc gagggtgacc tgaaccccga taattctgac 540

gttgataagc tcttcatcca gttggtccaa acctacaatc agctgtttga ggaaaaccct 600

attaatgcat ctggcgtgga cgccaaggct atcctttcgg cgcgcctgtc taagtcgcgg 660

cgtttggaga accttatcgc acaactcccc ggcgaaaaga agaacggcct cttcggtaat 720

ttgattgcgt tgtcacttgg tctgactcct aacttcaaga gtaattttga cctggcagag 780

gatgcgaagc tccagttgtc taaggatacg tatgatgacg atctcgacaa cttgcttgcc 840

caaatcggtg accagtacgc tgatcttttc ctggccgcta agaatctctc agatgcaatc 900

ctgctcagtg acattttgcg ggtcaacacc gagattacta aggcccccct gtcagctagt 960

atgatcaagc ggtatgatga gcaccatcag gacctcacct tgcttaaggc cctcgtgcgt 1020

cagcaattgc ctgagaagta caaggaaatc ttctttgacc aatccaagaa cggatacgca 1080

gggtatattg atggcggtgc gagccaggag gaattctaca agtttatcaa gccgattttg 1140

gagaagatgg acggcactga ggaactgctc gtcaagctga atcgcgaaga tttgcttcgt 1200

aagcaacgaa cgttcgacaa cggctccatc ccgcaccaga ttcatctggg cgagctccac 1260

gccatccttc gacgccagga agatttctac ccatttctga aggacaaccg tgagaagatc 1320

gaaaagattc ttacattccg aatcccctac tatgtgggac ctttggcccg tgggaattcc 1380

cgatttgctt ggatgacccg aaagagcgag gaaaccatca ctccgtggaa cttcgaggaa 1440

gtcgtggaca agggtgcatc cgcgcagagc ttcattgagc ggatgaccaa ttttgataag 1500

aaccttccga atgaaaaggt cctgccaaag cattcgctgc tctacgagta tttcaccgtg 1560

tataacgaac tgactaaggt caagtacgtg acggagggaa tgcggaagcc agccttcctc 1620

tcaggggaac aaaagaaggc tatcgtcgat ttgcttttta agaccaatcg taaagtgact 1680

gttaagcagc tgaaggagga ttatttcaag aagattgaat gtttcgactc cgtcgagatc 1740

agcggcgtgg aagatcgctt taacgcttcc ctcggtacct accacgacct gctcaagatc 1800

attaaggaca aggatttcct cgataacgag gaaaatgagg acatcttgga agatattgtc 1860

ctcacgttga cactttttga ggaccgcgaa atgatcgagg aacggctcaa gacatatgcc 1920

catttgttcg acgataaggt gatgaagcag ctgaagcggc gtcgatacac cggatggggt 1980

cgccttagcc ggaagctgat caacggcatt cgagataagc aatctggtaa gactatcttg 2040

gatttcctta agtcggacgg cttcgccaac cgcaatttta tgcagcttat tcacgacgat 2100

tccctgacgt tcaaggagga catccagaag gcacaagtct caggacaagg ggattccctg 2160

cacgagcata tcgccaacct ggctggatcc ccggcgatca agaaggggat tcttcagacc 2220

gtcaaggttg tcgacgagct ggtcaaggtg atgggccgtc ataagccaga aaacatcgtg 2280

attgagatgg cccgagaaaa tcagaccact caaaagggtc agaagaacag ccgcgagcgg 2340

atgaagcgga tcgaggaagg cattaaggaa cttggttctc agatcctgaa ggagcaccct 2400

gttgaaaaca cacagctcca aaatgagaag ctgtatctct actatttgca aaatggacgc 2460

gacatgtacg tcgatcagga gctcgacatt aaccggttgt cggactacga tgttgacgct 2520

atcgtcccgc aatccttcct taaggacgat agcattgata acaaggtgct gactcgctca 2580

gataagaacc ggggcaagtc cgacaatgtt ccaagcgagg aagtggttaa gaagatgaag 2640

aactactggc gccaattgct taatgccaag ctcatcacac agcgcaagtt tgacaacttg 2700

accaaggccg agcggggagg gctgagtgaa ctcgataagg ctggcttcat caagcgtcaa 2760

ctcgtggaga cgcgacagat cacaaagcac gttgctcaga ttctggactc ccggatgaac 2820

acaaagtacg acgagaatga taagctcatc cgtgaagtta aggtcattac cctcaagtct 2880

aagttggtgt cggatttccg caaggacttc caattttata aggttcggga gatcaacaat 2940

tatcaccatg cacatgatgc gtacctcaac gcagtcgtgg gaactgcgct catcaagaag 3000

tatcccaagt tggagtccga attcgtctac ggggattata aggtttacga cgtccgcaag 3060

atgatcgcca agagtgagca ggaaattggc aaggccacgg ctaagtattt cttttactcc 3120

aacatcatga atttctttaa gacggagatc acactcgcca atggagaaat ccgtaagcga 3180

cctttgattg agaccaacgg cgagactggt gaaatcgttt gggataaggg gcgcgacttc 3240

gctaccgtgc ggaaggttct gagcatgccg caagtcaata tcgtcaagaa aaccgaggtg 3300

cagacaggcg gtttctctaa ggaatcgatt cttccaaagc gtaactctga caagctgatc 3360

gctcgaaaga aggattggga ccccaagaag tatggagggt tcgattctcc tacagtggca 3420

tactcggttc tcgttgtcgc gaaggttgag aagggaaagt ctaagaagct gaagtcggtc 3480

aaggaactgc tcgggatcac cattatggag cgctccagct tcgaaaagaa tcccatcgac 3540

tttctcgagg ccaagggcta taaggaagtc aagaaggatc ttatcattaa gctgcctaag 3600

tactctttgt tcgagcttga aaacggtcga aagcgaatgc tcgcatcggc aggagagttg 3660

cagaagggga atgaattggc acttccctca aagtacgtga acttcctgta tctcgcgtcc 3720

cactacgaga agctgaaggg tagccctgag gacaacgaac agaagcaact ttttgttgag 3780

caacacaagc attatctgga tgagatcatt gaacagattt cagagttcag taagcgcgtc 3840

atcctcgccg atgctaatct cgacaaggtg ttgtcggcct acaacaagca ccgtgacaag 3900

ccgatccgag agcaggctga aaatatcatt catctgttca ccctcactaa cttgggagca 3960

ccagcagcgt tcaagtattt tgatacgaca atcgaccgta agcgatacac gtccacaaag 4020

gaggtgcttg atgcgaccct gattcatcaa tccatcactg ggctctatga aacccgtatc 4080

gaccttagtc aactgggggg cgacagcagg gctgacccca agaagaagag gaaggtgggt 4140

ggaggaggtt ctggaggtgg aggttctgca gagtatgtgc gggccctctt tgactttaat 4200

gggaatgatg aagaagacct tccctttaag aaaggagaca tcctgagaat ccgggataag 4260

cctgaagagc agtggtggaa tgcagaggac agcgaaggaa agagggggat gattcctgtc 4320

ccttacgtgg agaagtattc cggagactat aaggaccacg acggagacta caaggatcat 4380

gatattgatt acaaagacga tgacgataag tctaggatga ccgacgctga gtacgtgaga 4440

atccatgaga agttggacat ctacacgttt aagaaacagt ttttcaacaa caaaaaatcc 4500

gtgtcgcata gatgctacgt tctctttgaa ttaaaacgac ggggtgaacg tagagcgtgt 4560

ttttggggct atgctgtgaa taaaccacag agcgggacag aacgtggcat tcacgccgaa 4620

atctttagca ttagaaaagt cgaagaatac ctgcgcgaca accccggaca attcacgata 4680

aattggtact catcctggag tccttgtgca gattgcgctg aaaaaatctt agaatggtat 4740

aaccaggagc tgcgggggaa cggccacact ttgaaaatct gggcttgcaa actctattac 4800

gagaaaaatg cgaggaatca aattgggctg tggaacctca gagataacgg ggttgggttg 4860

aatgtaatgg taagtgaaca ctaccaatgt tgcaggaaaa tattcatcca atcgtcgcac 4920

aatcaattga atgagaatag atggcttgag aagactttga agcgagctga aaaacgacgg 4980

agcgagttgt ccattatgat tcaggtaaaa atactccaca ccactaagag tcctgctgtt 5040

tctagaggct ccggaaccaa cctgtccgac atcatcgaga aggagaccgg caagcagctc 5100

gttatccagg agtccatcct gatgctgccc gaggaggtcg aggaggtcat cggcaacaag 5160

cccgagtccg acatcctggt ccacaccgcc tacgacgagt ccaccgacga gaacgtcatg 5220

ctgctgacct ccgacgcccc cgagtacaag ccctgggccc tggtcatcca ggactccaac 5280

ggcgagaaca agatcaagat gctgtccggc ggctccccca agaagaagcg caaggtctaa 5340

<210> 47

<211> 1779

<212> PRT

<213> 人工序列

<220>

<223> dCas9-AID-UGI_蛋白

<400> 47

Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Gly Gly Gly

1370 1375 1380

Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala Leu Phe Asp

1385 1390 1395

Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys Gly Asp

1400 1405 1410

Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn Ala

1415 1420 1425

Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr Val

1430 1435 1440

Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys

1445 1450 1455

Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Ser Arg Met

1460 1465 1470

Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr

1475 1480 1485

Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His

1490 1495 1500

Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg

1505 1510 1515

Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr

1520 1525 1530

Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu

1535 1540 1545

Glu Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr

1550 1555 1560

Ser Ser Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu

1565 1570 1575

Trp Tyr Asn Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys Ile

1580 1585 1590

Trp Ala Cys Lys Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln Ile

1595 1600 1605

Gly Leu Trp Asn Leu Arg Asp Asn Gly Val Gly Leu Asn Val Met

1610 1615 1620

Val Ser Glu His Tyr Gln Cys Cys Arg Lys Ile Phe Ile Gln Ser

1625 1630 1635

Ser His Asn Gln Leu Asn Glu Asn Arg Trp Leu Glu Lys Thr Leu

1640 1645 1650

Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser Ile Met Ile Gln

1655 1660 1665

Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val Ser Arg Gly

1670 1675 1680

Ser Gly Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys

1685 1690 1695

Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val

1700 1705 1710

Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His

1715 1720 1725

Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr

1730 1735 1740

Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp

1745 1750 1755

Ser Asn Gly Glu Asn Lys Ile Lys Met Leu Ser Gly Gly Ser Pro

1760 1765 1770

Lys Lys Lys Arg Lys Val

1775

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_seq_r1

<400> 48

atttgcaaga gtggtttgtg 20

<210> 49

<211> 3792

<212> DNA

<213> 人工序列

<220>

<223> Mad7_编码

<400> 49

atgaacaacg gcacaaacaa cttccagaac ttcattggaa tctcgtcgtt gcagaagact 60

ttgcgcaacg ccctcatccc cacagaaact acccagcagt tcattgtgaa gaacggaatc 120

atcaaggaag atgaactccg aggcgagaac cgccagattt tgaaggacat catggatgat 180

tactaccgtg gtttcatctc ggaaacgctc tcctccattg acgacatcga ttggacttcg 240

ttgttcgaaa agatggaaat ccagctcaaa aacggcgata acaaggatac cttgatcaag 300

gagcagaccg agtatcggaa ggcgatccat aagaagttcg ccaacgatga tcggttcaag 360

aacatgttct cggccaagtt gatttccgac attctccccg aattcgtgat ccataacaac 420

aactactcgg cgtcggagaa ggaggagaag acgcaggtca tcaagttgtt ctcgaggttc 480

gccacatcgt tcaaagacta ttttaagaat cgtgcgaact gtttctcggc agatgatatc 540

tcctcgtcct cctgtcaccg cattgtgaac gacaacgcgg aaatcttctt ctcgaacgcg 600

ttggtgtata ggcgcatcgt gaagtccctc tccaacgatg acatcaacaa aatctcggga 660

gatatgaagg attcgctcaa ggagatgtcg ttggaggaaa tctactccta tgagaagtat 720

ggcgagttca ttacgcagga gggcatttcc ttctacaacg acatttgtgg taaagtcaac 780

tcgttcatga acctctactg tcagaaaaac aaggagaaca aaaacctcta taagctccag 840

aagttgcata agcagatcct ctgtatcgca gacacctcgt acgaggtccc ttacaagttc 900

gaatccgatg aggaggtcta ccagtccgtc aacggattct tggacaacat ctcctcgaaa 960

cacattgtcg agcggctccg aaagatcggc gataactaca acggctacaa cttggacaaa 1020

atctatatcg tctccaagtt ctatgagtcc gtctcgcaga aaacctatcg tgattgggag 1080

actatcaaca ctgcgctcga gattcactat aacaacatct tgcctggtaa cggcaaatcg 1140

aaagccgaca aggtgaagaa ggccgtgaaa aacgatctcc agaagtcgat cacagaaatc 1200

aacgaactcg tctcgaacta caagctctgt tcggatgata acatcaaggc ggaaacgtac 1260

atccatgaaa tctcgcatat cttgaacaac ttcgaggccc aggaactcaa atacaacccc 1320

gagatccact tggtcgagtc ggagctcaaa gcctcggagt tgaagaacgt cttggatgtc 1380

atcatgaacg cattccactg gtgttccgtg ttcatgaccg aggaactcgt cgataaagac 1440

aacaacttct acgcggaact cgaggaaatc tacgatgaaa tctatcccgt gatctccctc 1500

tacaacctcg tgcgaaacta cgtcactcag aagccctatt ccaccaagaa gatcaagctc 1560

aacttcggca tccccactct cgcagacggt tggtcgaagt cgaaggagta ctccaacaac 1620

gccattatcc tcatgcgaga caacctctac tacttgggta tcttcaacgc aaagaacaag 1680

ccggataaga agatcattga aggcaacact tcggaaaaca agggagacta taagaagatg 1740

atctacaacc tcctccctgg acccaacaag atgattccta aagtgttcct ctcgtcgaag 1800

actggtgtgg aaacgtataa gccgtcggcc tacatcttgg agggctacaa acagaacaag 1860

catatcaagt cctcgaagga cttcgacatc actttctgtc acgacctcat cgactatttc 1920

aagaactgta ttgcaatcca tccggaatgg aagaacttcg gcttcgattt ctcggatact 1980

tcgacatacg aagatatctc gggattctac cgagaggtcg aattgcaggg ctataagatt 2040

gattggacct acatctcgga aaaggatatc gacttgctcc aggaaaaggg ccagctctac 2100

ctcttccaga tttacaacaa ggacttctcc aagaagtcga cgggtaacga caacttgcac 2160

acaatgtatc tcaaaaacct cttctcggag gagaacttga aggatatcgt gctcaaattg 2220

aacggagagg ccgaaatctt cttccgtaag tcctccatca agaacccgat catccataag 2280

aagggatcga tcttggtcaa ccggacttac gaagcagagg aaaaagatca gttcggaaac 2340

atccagattg tcaggaagaa catccctgaa aacatctatc aggagttgta taagtacttc 2400

aacgacaagt cggataagga gctctccgac gaagcagcca aactcaagaa cgtcgtcgga 2460

caccatgaag cagcaaccaa cattgtgaag gactaccggt acacttacga caagtacttc 2520

ttgcacatgc cgatcactat caacttcaaa gccaacaaga ccggattcat taacgacagg 2580

atcctccagt acattgccaa agaaaaggac ctccatgtca tcggtatcga caggggagaa 2640

cggaacctca tctacgtctc cgtgattgac acttgtggca acattgtcga acagaagtcg 2700

ttcaacatcg tcaacggtta cgattaccag attaagttga aacagcagga aggtgcgagg 2760

cagattgcgc gaaaggaatg gaaggagatt ggcaaaatca aggagattaa ggaaggctac 2820

ttgtcgttgg tcatccacga aatctcgaaa atggtgatca aatacaacgc catcatcgcc 2880

atggaagacc tctcgtacgg cttcaaaaag ggacggttca aagtggagcg tcaggtgtac 2940

cagaagttcg aaacaatgtt gatcaacaag ttgaactact tggtgttcaa ggacatttcc 3000

attaccgaga acggaggatt gctcaagggt tatcagctca cgtacatccc cgacaagttg 3060

aaaaacgtgg gacaccagtg tggctgtatc ttctacgtgc ctgcagccta cacgtcgaaa 3120

atcgacccta caacaggatt cgtgaacatc ttcaagttca aggatctcac cgtcgacgcg 3180

aagcgggagt tcatcaaaaa gttcgactcc atccgctatg attcggagaa gaacttgttc 3240

tgtttcacat tcgactacaa caacttcatt actcagaaca ccgtgatgtc caaatcgtcg 3300

tggtccgtgt acacgtatgg tgtgcgcatc aaaaggcgct tcgtcaacgg tcgcttctcc 3360

aacgaatcgg acacgatcga tatcacgaaa gacatggaga aaacattgga aatgaccgac 3420

atcaactggc gtgacggcca tgacctcagg caggacatca tcgattacga gatcgtccag 3480

cacatcttcg aaatcttccg tctcaccgtg cagatgagga actccctctc cgagctcgaa 3540

gatcgggatt acgaccggct catttcccct gtgttgaacg agaacaacat cttctacgac 3600

tcggcaaaag cgggagatgc attgccgaag gacgccgatg cgaacggtgc atattgtatt 3660

gcactcaagg gtctctacga aatcaagcag atcaccgaaa actggaagga ggacggcaaa 3720

ttctcgaggg acaagttgaa gatttcgaac aaggattggt tcgatttcat ccagaacaag 3780

aggtacttgt aa 3792

<210> 50

<211> 1263

<212> PRT

<213> Eubacterium rectale

<400> 50

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

Ala Thr Ser Phe Lys Asp Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Asp Arg Gly Glu

865 870 875 880

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

<210> 51

<211> 192

<212> PRT

<213> 人工序列

<220>

<223> LbCpf1_部分_蛋白

<400> 51

Ile Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr Pro Asn Leu

1 5 10 15

His Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn His Gly Gln

20 25 30

Ile Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg Ala Ser Leu

35 40 45

Lys Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro Ile Ala Asn

50 55 60

Lys Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser Tyr Asp Val

65 70 75 80

Tyr Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu His Ile Pro

85 90 95

Ile Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile Asn Thr Glu

100 105 110

Val Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val Ile Gly Ile

115 120 125

Asp Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val Asp Gly Lys

130 135 140

Gly Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile Asn Asn Phe

145 150 155 160

Asn Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu Asp Lys Lys

165 170 175

Glu Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser Ile Glu Asn

180 185 190

<210> 52

<211> 189

<212> PRT

<213> 人工序列

<220>

<223> FnCpf1_部分_蛋白

<400> 52

Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg Pro Asn Leu

1 5 10 15

His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn Leu Gln Asp

20 25 30

Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr Arg Lys Gln

35 40 45

Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala Ile Ala Asn

50 55 60

Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu Tyr Asp Leu

65 70 75 80

Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe His Cys Pro

85 90 95

Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe Asn Asp Glu

100 105 110

Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His Ile Leu Ser

115 120 125

Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu Val Asp Gly

130 135 140

Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile Gly Asn Asp

145 150 155 160

Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile Glu Lys Asp

165 170 175

Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

180 185

<210> 53

<211> 229

<212> PRT

<213> 人工序列

<220>

<223> Mad7_部分_蛋白

<400> 53

Ile Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu

1 5 10 15

His Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp

20 25 30

Ile Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser

35 40 45

Ser Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn

50 55 60

Arg Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile

65 70 75 80

Val Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr

85 90 95

Phe Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu

100 105 110

Lys Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp

115 120 125

Tyr Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile

130 135 140

Asn Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln

145 150 155 160

Tyr Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Asp Arg Gly

165 170 175

Glu Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile

180 185 190

Val Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile

195 200 205

Lys Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp

210 215 220

Lys Glu Ile Gly Lys

225

<210> 54

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF-Ptef-rev

<400> 54

ggtgaaggtt gtgttatgtt ttgtgg 26

<210> 55

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF-nls-fwd

<400> 55

agcagggctg accccaagaa g 21

<210> 56

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF-PtfMd7-fwd

<400> 56

aacacaacct tcaccatgaa caacggcaca aacaac 36

<210> 57

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 引物 IF-nlsMd7-rev

<400> 57

ggggtcagcc ctgctaggca agtacctctt gttctg 36

<210> 58

<211> 88

<212> DNA

<213> 人工序列

<220>

<223> 引物 sg-位点_fwd

<400> 58

ttcgattcac ggatgatgca gtcaaaagac ctttttaatt tctactcttg tagatagatc 60

ttttttttgg ctcttgggtt cgaactgc 88

<210> 59

<211> 130

<212> DNA

<213> 人工序列

<220>

<223> 引物 sg-位点_rev

<400> 59

tttggcttcg gaaagcacac gtgaagggta ggaacaaaga tggaatgatt ggcaggggtg 60

acccaaatgg tggggcataa aaaaaaagat gaccaaaaca tgggccttgg gcagttcgaa 120

cccaagagcc 130

<210> 60

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> Mad7 sgRNA主链

<400> 60

gtcaaaagac ctttttaatt tctactcttg tagat 35

<210> 61

<211> 5028

<212> DNA

<213> 人工序列

<220>

<223> Mad7d-AID-UGI_编码

<400> 61

atgaacaacg gcacaaacaa cttccagaac ttcattggaa tctcgtcgtt gcagaagact 60

ttgcgcaacg ccctcatccc cacagaaact acccagcagt tcattgtgaa gaacggaatc 120

atcaaggaag atgaactccg aggcgagaac cgccagattt tgaaggacat catggatgat 180

tactaccgtg gtttcatctc ggaaacgctc tcctccattg acgacatcga ttggacttcg 240

ttgttcgaaa agatggaaat ccagctcaaa aacggcgata acaaggatac cttgatcaag 300

gagcagaccg agtatcggaa ggcgatccat aagaagttcg ccaacgatga tcggttcaag 360

aacatgttct cggccaagtt gatttccgac attctccccg aattcgtgat ccataacaac 420

aactactcgg cgtcggagaa ggaggagaag acgcaggtca tcaagttgtt ctcgaggttc 480

gccacatcgt tcaaagacta ttttaagaat cgtgcgaact gtttctcggc agatgatatc 540

tcctcgtcct cctgtcaccg cattgtgaac gacaacgcgg aaatcttctt ctcgaacgcg 600

ttggtgtata ggcgcatcgt gaagtccctc tccaacgatg acatcaacaa aatctcggga 660

gatatgaagg attcgctcaa ggagatgtcg ttggaggaaa tctactccta tgagaagtat 720

ggcgagttca ttacgcagga gggcatttcc ttctacaacg acatttgtgg taaagtcaac 780

tcgttcatga acctctactg tcagaaaaac aaggagaaca aaaacctcta taagctccag 840

aagttgcata agcagatcct ctgtatcgca gacacctcgt acgaggtccc ttacaagttc 900

gaatccgatg aggaggtcta ccagtccgtc aacggattct tggacaacat ctcctcgaaa 960

cacattgtcg agcggctccg aaagatcggc gataactaca acggctacaa cttggacaaa 1020

atctatatcg tctccaagtt ctatgagtcc gtctcgcaga aaacctatcg tgattgggag 1080

actatcaaca ctgcgctcga gattcactat aacaacatct tgcctggtaa cggcaaatcg 1140

aaagccgaca aggtgaagaa ggccgtgaaa aacgatctcc agaagtcgat cacagaaatc 1200

aacgaactcg tctcgaacta caagctctgt tcggatgata acatcaaggc ggaaacgtac 1260

atccatgaaa tctcgcatat cttgaacaac ttcgaggccc aggaactcaa atacaacccc 1320

gagatccact tggtcgagtc ggagctcaaa gcctcggagt tgaagaacgt cttggatgtc 1380

atcatgaacg cattccactg gtgttccgtg ttcatgaccg aggaactcgt cgataaagac 1440

aacaacttct acgcggaact cgaggaaatc tacgatgaaa tctatcccgt gatctccctc 1500

tacaacctcg tgcgaaacta cgtcactcag aagccctatt ccaccaagaa gatcaagctc 1560

aacttcggca tccccactct cgcagacggt tggtcgaagt cgaaggagta ctccaacaac 1620

gccattatcc tcatgcgaga caacctctac tacttgggta tcttcaacgc aaagaacaag 1680

ccggataaga agatcattga aggcaacact tcggaaaaca agggagacta taagaagatg 1740

atctacaacc tcctccctgg acccaacaag atgattccta aagtgttcct ctcgtcgaag 1800

actggtgtgg aaacgtataa gccgtcggcc tacatcttgg agggctacaa acagaacaag 1860

catatcaagt cctcgaagga cttcgacatc actttctgtc acgacctcat cgactatttc 1920

aagaactgta ttgcaatcca tccggaatgg aagaacttcg gcttcgattt ctcggatact 1980

tcgacatacg aagatatctc gggattctac cgagaggtcg aattgcaggg ctataagatt 2040

gattggacct acatctcgga aaaggatatc gacttgctcc aggaaaaggg ccagctctac 2100

ctcttccaga tttacaacaa ggacttctcc aagaagtcga cgggtaacga caacttgcac 2160

acaatgtatc tcaaaaacct cttctcggag gagaacttga aggatatcgt gctcaaattg 2220

aacggagagg ccgaaatctt cttccgtaag tcctccatca agaacccgat catccataag 2280

aagggatcga tcttggtcaa ccggacttac gaagcagagg aaaaagatca gttcggaaac 2340

atccagattg tcaggaagaa catccctgaa aacatctatc aggagttgta taagtacttc 2400

aacgacaagt cggataagga gctctccgac gaagcagcca aactcaagaa cgtcgtcgga 2460

caccatgaag cagcaaccaa cattgtgaag gactaccggt acacttacga caagtacttc 2520

ttgcacatgc cgatcactat caacttcaaa gccaacaaga ccggattcat taacgacagg 2580

atcctccagt acattgccaa agaaaaggac ctccatgtca tcggtatcgc gaggggagaa 2640

cggaacctca tctacgtctc cgtgattgac acttgtggca acattgtcga acagaagtcg 2700

ttcaacatcg tcaacggtta cgattaccag attaagttga aacagcagga aggtgcgagg 2760

cagattgcgc gaaaggaatg gaaggagatt ggcaaaatca aggagattaa ggaaggctac 2820

ttgtcgttgg tcatccacga aatctcgaaa atggtgatca aatacaacgc catcatcgcc 2880

atggaagacc tctcgtacgg cttcaaaaag ggacggttca aagtggagcg tcaggtgtac 2940

cagaagttcg aaacaatgtt gatcaacaag ttgaactact tggtgttcaa ggacatttcc 3000

attaccgaga acggaggatt gctcaagggt tatcagctca cgtacatccc cgacaagttg 3060

aaaaacgtgg gacaccagtg tggctgtatc ttctacgtgc ctgcagccta cacgtcgaaa 3120

atcgacccta caacaggatt cgtgaacatc ttcaagttca aggatctcac cgtcgacgcg 3180

aagcgggagt tcatcaaaaa gttcgactcc atccgctatg attcggagaa gaacttgttc 3240

tgtttcacat tcgactacaa caacttcatt actcagaaca ccgtgatgtc caaatcgtcg 3300

tggtccgtgt acacgtatgg tgtgcgcatc aaaaggcgct tcgtcaacgg tcgcttctcc 3360

aacgaatcgg acacgatcga tatcacgaaa gacatggaga aaacattgga aatgaccgac 3420

atcaactggc gtgacggcca tgacctcagg caggacatca tcgattacga gatcgtccag 3480

cacatcttcg aaatcttccg tctcaccgtg cagatgagga actccctctc cgagctcgaa 3540

gatcgggatt acgaccggct catttcccct gtgttgaacg agaacaacat cttctacgac 3600

tcggcaaaag cgggagatgc attgccgaag gacgccgatg cgaacggtgc atattgtatt 3660

gcactcaagg gtctctacga aatcaagcag atcaccgaaa actggaagga ggacggcaaa 3720

ttctcgaggg acaagttgaa gatttcgaac aaggattggt tcgatttcat ccagaacaag 3780

aggtacttgc ctagcagggc tgaccccaag aagaagagga aggtgggtgg aggaggttct 3840

ggaggtggag gttctgcaga gtatgtgcgg gccctctttg actttaatgg gaatgatgaa 3900

gaagaccttc cctttaagaa aggagacatc ctgagaatcc gggataagcc tgaagagcag 3960

tggtggaatg cagaggacag cgaaggaaag agggggatga ttcctgtccc ttacgtggag 4020

aagtattccg gagactataa ggaccacgac ggagactaca aggatcatga tattgattac 4080

aaagacgatg acgataagtc taggatgacc gacgctgagt acgtgagaat ccatgagaag 4140

ttggacatct acacgtttaa gaaacagttt ttcaacaaca aaaaatccgt gtcgcataga 4200

tgctacgttc tctttgaatt aaaacgacgg ggtgaacgta gagcgtgttt ttggggctat 4260

gctgtgaata aaccacagag cgggacagaa cgtggcattc acgccgaaat ctttagcatt 4320

agaaaagtcg aagaatacct gcgcgacaac cccggacaat tcacgataaa ttggtactca 4380

tcctggagtc cttgtgcaga ttgcgctgaa aaaatcttag aatggtataa ccaggagctg 4440

cgggggaacg gccacacttt gaaaatctgg gcttgcaaac tctattacga gaaaaatgcg 4500

aggaatcaaa ttgggctgtg gaacctcaga gataacgggg ttgggttgaa tgtaatggta 4560

agtgaacact accaatgttg caggaaaata ttcatccaat cgtcgcacaa tcaattgaat 4620

gagaatagat ggcttgagaa gactttgaag cgagctgaaa aacgacggag cgagttgtcc 4680

attatgattc aggtaaaaat actccacacc actaagagtc ctgctgtttc tagaggctcc 4740

ggaaccaacc tgtccgacat catcgagaag gagaccggca agcagctcgt tatccaggag 4800

tccatcctga tgctgcccga ggaggtcgag gaggtcatcg gcaacaagcc cgagtccgac 4860

atcctggtcc acaccgccta cgacgagtcc accgacgaga acgtcatgct gctgacctcc 4920

gacgcccccg agtacaagcc ctgggccctg gtcatccagg actccaacgg cgagaacaag 4980

atcaagatgc tgtccggcgg ctcccccaag aagaagcgca aggtctaa 5028

<210> 62

<211> 1675

<212> PRT

<213> 人工序列

<220>

<223> Mad7d-AID-UGI_蛋白

<400> 62

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

Ala Thr Ser Phe Lys Asp Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Ala Arg Gly Glu

865 870 875 880

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

Pro Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Gly Gly

1265 1270 1275

Gly Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala Leu Phe

1280 1285 1290

Asp Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys Gly

1295 1300 1305

Asp Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn

1310 1315 1320

Ala Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr

1325 1330 1335

Val Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr

1340 1345 1350

Lys Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Ser Arg

1355 1360 1365

Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile

1370 1375 1380

Tyr Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser

1385 1390 1395

His Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg

1400 1405 1410

Arg Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly

1415 1420 1425

Thr Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val

1430 1435 1440

Glu Glu Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp

1445 1450 1455

Tyr Ser Ser Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu

1460 1465 1470

Glu Trp Tyr Asn Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys

1475 1480 1485

Ile Trp Ala Cys Lys Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln

1490 1495 1500

Ile Gly Leu Trp Asn Leu Arg Asp Asn Gly Val Gly Leu Asn Val

1505 1510 1515

Met Val Ser Glu His Tyr Gln Cys Cys Arg Lys Ile Phe Ile Gln

1520 1525 1530

Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp Leu Glu Lys Thr

1535 1540 1545

Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser Ile Met Ile

1550 1555 1560

Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val Ser Arg

1565 1570 1575

Gly Ser Gly Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly

1580 1585 1590

Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu

1595 1600 1605

Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val

1610 1615 1620

His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu Leu

1625 1630 1635

Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu Val Ile Gln

1640 1645 1650

Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu Ser Gly Gly Ser

1655 1660 1665

Pro Lys Lys Lys Arg Lys Val

1670 1675

<210> 63

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA296 MdwA1

<400> 63

ttggagacca gaccagcgac a 21

<210> 64

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA297 MdwA2

<400> 64

gagaccagac cagcgacatc g 21

<210> 65

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA298 MdwA3

<400> 65

ttccagcaat gcttccatgc a 21

<210> 66

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA299 MdwA4

<400> 66

cagcaatgct tccatgcaat t 21

<210> 67

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA300 MdwA5

<400> 67

catgcaattc gtcaagagat c 21

<210> 68

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA301 MdwA6

<400> 68

tcgagttcga gaactggtgg a 21

<210> 69

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA302 MdwA7

<400> 69

cgatctcgag tagcgccact c 21

<210> 70

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA303 MdwA8

<400> 70

atccctggcg gtaaccgagc a 21

<210> 71

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA304 MdwA9

<400> 71

aggaaagcgg cgaactttcg t 21

<210> 72

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA305 MdwA10

<400> 72

actgcatcgc aagaagccag g 21

<210> 73

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA306 MdwA11

<400> 73

gccctgtcgt ggtacaagtg g 21

<210> 74

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA307 MdwA12

<400> 74

tggccggcgt gctcagttgc t 21

<210> 75

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA324 MdwA13

<400> 75

tacaggaggt tccagaagct c 21

<210> 76

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA325 MdwA14

<400> 76

tccagatcga attgcaagcc a 21

<210> 77

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA326 MdwA15

<400> 77

ctgaagctgg ccgattccag g 21

<210> 78

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA327 MdwA16

<400> 78

acacccagag cagtccagta a 21

<210> 79

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA328 MdwA17

<400> 79

gggccgagac actcccagtt a 21

<210> 80

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA329 MdwA18

<400> 80

agatcccact tgtaggctgg g 21

<210> 81

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 原型间隔子 pTNA330 MdwA19

<400> 81

ttctccgccc aatccgctgt c 21

<210> 82

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 296-C9-正义

<400> 82

taatttctac tcttgtagat ttggagacca gaccagcgac atttttttgg ctcttgggtt 60

c 61

<210> 83

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 296-C9-反义

<400> 83

gaacccaaga gccaaaaaaa tgtcgctggt ctggtctcca aatctacaag agtagaaatt 60

a 61

<210> 84

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 297-C6-正义

<400> 84

taatttctac tcttgtagat gagaccagac cagcgacatc gtttttttgg ctcttgggtt 60

c 61

<210> 85

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 297-C6-反义

<400> 85

gaacccaaga gccaaaaaaa cgatgtcgct ggtctggtct catctacaag agtagaaatt 60

a 61

<210> 86

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 298-C4_7-正义

<400> 86

taatttctac tcttgtagat ttccagcaat gcttccatgc atttttttgg ctcttgggtt 60

c 61

<210> 87

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 298-C4_7-反义

<400> 87

gaacccaaga gccaaaaaaa tgcatggaag cattgctgga aatctacaag agtagaaatt 60

a 61

<210> 88

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 299-C1_4-正义

<400> 88

taatttctac tcttgtagat cagcaatgct tccatgcaat ttttttttgg ctcttgggtt 60

c 61

<210> 89

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 299-C1_4-反义

<400> 89

gaacccaaga gccaaaaaaa aattgcatgg aagcattgct gatctacaag agtagaaatt 60

a 61

<210> 90

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 300-C13-正义

<400> 90

taatttctac tcttgtagat catgcaattc gtcaagagat ctttttttgg ctcttgggtt 60

c 61

<210> 91

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 300-C13-反义

<400> 91

gaacccaaga gccaaaaaaa gatctcttga cgaattgcat gatctacaag agtagaaatt 60

a 61

<210> 92

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 301-C2_8-正义

<400> 92

taatttctac tcttgtagat tcgagttcga gaactggtgg atttttttgg ctcttgggtt 60

c 61

<210> 93

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 301-C2_8-反义

<400> 93

gaacccaaga gccaaaaaaa tccaccagtt ctcgaactcg aatctacaag agtagaaatt 60

a 61

<210> 94

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 302-C21-正义

<400> 94

taatttctac tcttgtagat cgatctcgag tagcgccact ctttttttgg ctcttgggtt 60

c 61

<210> 95

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 302-C21-反义

<400> 95

gaacccaaga gccaaaaaaa gagtggcgct actcgagatc gatctacaag agtagaaatt 60

a 61

<210> 96

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 303-C16-正义

<400> 96

taatttctac tcttgtagat atccctggcg gtaaccgagc atttttttgg ctcttgggtt 60

c 61

<210> 97

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 303-C16-反义

<400> 97

gaacccaaga gccaaaaaaa tgctcggtta ccgccaggga tatctacaag agtagaaatt 60

a 61

<210> 98

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 304-C11-正义

<400> 98

taatttctac tcttgtagat aggaaagcgg cgaactttcg ttttttttgg ctcttgggtt 60

c 61

<210> 99

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 304-C11-反义

<400> 99

gaacccaaga gccaaaaaaa acgaaagttc gccgctttcc tatctacaag agtagaaatt 60

a 61

<210> 100

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 305-C18-正义

<400> 100

taatttctac tcttgtagat actgcatcgc aagaagccag gtttttttgg ctcttgggtt 60

c 61

<210> 101

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 305-C18-反义

<400> 101

gaacccaaga gccaaaaaaa cctggcttct tgcgatgcag tatctacaag agtagaaatt 60

a 61

<210> 102

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 306-C15-正义

<400> 102

taatttctac tcttgtagat gccctgtcgt ggtacaagtg gtttttttgg ctcttgggtt 60

c 61

<210> 103

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 306-C15-反义

<400> 103

gaacccaaga gccaaaaaaa ccacttgtac cacgacaggg catctacaag agtagaaatt 60

a 61

<210> 104

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 307-C14-正义

<400> 104

taatttctac tcttgtagat tggccggcgt gctcagttgc ttttttttgg ctcttgggtt 60

c 61

<210> 105

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 307-C14-反义

<400> 105

gaacccaaga gccaaaaaaa agcaactgag cacgccggcc aatctacaag agtagaaatt 60

a 61

<210> 106

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 324-C12,13-正义

<400> 106

taatttctac tcttgtagat tacaggaggt tccagaagct ctttttttgg ctcttgggtt 60

c 61

<210> 107

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 324-C12,13-反义

<400> 107

gaacccaaga gccaaaaaaa gagcttctgg aacctcctgt aatctacaag agtagaaatt 60

a 61

<210> 108

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 325-C2,3-正义

<400> 108

taatttctac tcttgtagat tccagatcga attgcaagcc atttttttgg ctcttgggtt 60

c 61

<210> 109

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 325-C2,3-反义

<400> 109

gaacccaaga gccaaaaaaa tggcttgcaa ttcgatctgg aatctacaag agtagaaatt 60

a 61

<210> 110

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 326-C17,18-正义

<400> 110

taatttctac tcttgtagat ctgaagctgg ccgattccag gtttttttgg ctcttgggtt 60

c 61

<210> 111

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 326-C17,18-反义

<400> 111

gaacccaaga gccaaaaaaa cctggaatcg gccagcttca gatctacaag agtagaaatt 60

a 61

<210> 112

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 327-C15,16-正义

<400> 112

taatttctac tcttgtagat acacccagag cagtccagta atttttttgg ctcttgggtt 60

c 61

<210> 113

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 327-C15,16-反义

<400> 113

gaacccaaga gccaaaaaaa ttactggact gctctgggtg tatctacaag agtagaaatt 60

a 61

<210> 114

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 328-C15,16-2-正义

<400> 114

taatttctac tcttgtagat gggccgagac actcccagtt atttttttgg ctcttgggtt 60

c 61

<210> 115

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 328-C15,16-2-反义

<400> 115

gaacccaaga gccaaaaaaa taactgggag tgtctcggcc catctacaag agtagaaatt 60

a 61

<210> 116

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 329-C6,7-正义

<400> 116

taatttctac tcttgtagat agatcccact tgtaggctgg gtttttttgg ctcttgggtt 60

c 61

<210> 117

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 329-C6,7-反义

<400> 117

gaacccaaga gccaaaaaaa cccagcctac aagtgggatc tatctacaag agtagaaatt 60

a 61

<210> 118

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 330-C9,10-正义

<400> 118

taatttctac tcttgtagat ttctccgccc aatccgctgt ctttttttgg ctcttgggtt 60

c 61

<210> 119

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 引物 330-C9,10-反义

<400> 119

gaacccaaga gccaaaaaaa gacagcggat tgggcggaga aatctacaag agtagaaatt 60

a 61

<210> 120

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_seq_f5

<400> 120

ttcttcaaca tgtcgcctcg g 21

<210> 121

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物引物 pks_seq_r6

<400> 121

gtgttacagt tgccagtgg 19

<210> 122

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 pks_seq_f4

<400> 122

ggtacttgat gaattcgtcg 20

<210> 123

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物 MS-测试-wA3

<400> 123

tgaattcaac tctttacaat cg 22

<210> 124

<211> 3792

<212> DNA

<213> 人工序列

<220>

<223> Mad7d 编码序列

<220>

<221> CDS

<222> (1)..(3792)

<400> 124

atg aac aac ggc aca aac aac ttc cag aac ttc att gga atc tcg tcg 48

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

ttg cag aag act ttg cgc aac gcc ctc atc ccc aca gaa act acc cag 96

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

cag ttc att gtg aag aac gga atc atc aag gaa gat gaa ctc cga ggc 144

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

gag aac cgc cag att ttg aag gac atc atg gat gat tac tac cgt ggt 192

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

ttc atc tcg gaa acg ctc tcc tcc att gac gac atc gat tgg act tcg 240

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

ttg ttc gaa aag atg gaa atc cag ctc aaa aac ggc gat aac aag gat 288

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

acc ttg atc aag gag cag acc gag tat cgg aag gcg atc cat aag aag 336

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

ttc gcc aac gat gat cgg ttc aag aac atg ttc tcg gcc aag ttg att 384

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

tcc gac att ctc ccc gaa ttc gtg atc cat aac aac aac tac tcg gcg 432

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

tcg gag aag gag gag aag acg cag gtc atc aag ttg ttc tcg agg ttc 480

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

gcc aca tcg ttc aaa gag tat ttt aag aat cgt gcg aac tgt ttc tcg 528

Ala Thr Ser Phe Lys Glu Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

gca gat gat atc tcc tcg tcc tcc tgt cac cgc att gtg aac gac aac 576

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

gcg gaa atc ttc ttc tcg aac gcg ttg gtg tat agg cgc atc gtg aag 624

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

tcc ctc tcc aac gat gac atc aac aaa atc tcg gga gat atg aag gat 672

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

tcg ctc aag gag atg tcg ttg gag gaa atc tac tcc tat gag aag tat 720

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

ggc gag ttc att acg cag gag ggc att tcc ttc tac aac gac att tgt 768

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

ggt aaa gtc aac tcg ttc atg aac ctc tac tgt cag aaa aac aag gag 816

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

aac aaa aac ctc tat aag ctc cag aag ttg cat aag cag atc ctc tgt 864

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

atc gca gac acc tcg tac gag gtc cct tac aag ttc gaa tcc gat gag 912

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

gag gtc tac cag tcc gtc aac gga ttc ttg gac aac atc tcc tcg aaa 960

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

cac att gtc gag cgg ctc cga aag atc ggc gat aac tac aac ggc tac 1008

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

aac ttg gac aaa atc tat atc gtc tcc aag ttc tat gag tcc gtc tcg 1056

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

cag aaa acc tat cgt gat tgg gag act atc aac act gcg ctc gag att 1104

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

cac tat aac aac atc ttg cct ggt aac ggc aaa tcg aaa gcc gac aag 1152

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

gtg aag aag gcc gtg aaa aac gat ctc cag aag tcg atc aca gaa atc 1200

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

aac gaa ctc gtc tcg aac tac aag ctc tgt tcg gat gat aac atc aag 1248

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

gcg gaa acg tac atc cat gaa atc tcg cat atc ttg aac aac ttc gag 1296

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

gcc cag gaa ctc aaa tac aac ccc gag atc cac ttg gtc gag tcg gag 1344

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

ctc aaa gcc tcg gag ttg aag aac gtc ttg gat gtc atc atg aac gca 1392

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

ttc cac tgg tgt tcc gtg ttc atg acc gag gaa ctc gtc gat aaa gac 1440

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

aac aac ttc tac gcg gaa ctc gag gaa atc tac gat gaa atc tat ccc 1488

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

gtg atc tcc ctc tac aac ctc gtg cga aac tac gtc act cag aag ccc 1536

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

tat tcc acc aag aag atc aag ctc aac ttc ggc atc ccc act ctc gca 1584

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

gac ggt tgg tcg aag tcg aag gag tac tcc aac aac gcc att atc ctc 1632

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

atg cga gac aac ctc tac tac ttg ggt atc ttc aac gca aag aac aag 1680

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

ccg gat aag aag atc att gaa ggc aac act tcg gaa aac aag gga gac 1728

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

tat aag aag atg atc tac aac ctc ctc cct gga ccc aac aag atg att 1776

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

cct aaa gtg ttc ctc tcg tcg aag act ggt gtg gaa acg tat aag ccg 1824

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

tcg gcc tac atc ttg gag ggc tac aaa cag aac aag cat atc aag tcc 1872

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

tcg aag gac ttc gac atc act ttc tgt cac gac ctc atc gac tat ttc 1920

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

aag aac tgt att gca atc cat ccg gaa tgg aag aac ttc ggc ttc gat 1968

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

ttc tcg gat act tcg aca tac gaa gat atc tcg gga ttc tac cga gag 2016

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

gtc gaa ttg cag ggc tat aag att gat tgg acc tac atc tcg gaa aag 2064

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

gat atc gac ttg ctc cag gaa aag ggc cag ctc tac ctc ttc cag att 2112

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

tac aac aag gac ttc tcc aag aag tcg acg ggt aac gac aac ttg cac 2160

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

aca atg tat ctc aaa aac ctc ttc tcg gag gag aac ttg aag gat atc 2208

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

gtg ctc aaa ttg aac gga gag gcc gaa atc ttc ttc cgt aag tcc tcc 2256

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

atc aag aac ccg atc atc cat aag aag gga tcg atc ttg gtc aac cgg 2304

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

act tac gaa gca gag gaa aaa gat cag ttc gga aac atc cag att gtc 2352

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

agg aag aac atc cct gaa aac atc tat cag gag ttg tat aag tac ttc 2400

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

aac gac aag tcg gat aag gag ctc tcc gac gaa gca gcc aaa ctc aag 2448

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

aac gtc gtc gga cac cat gaa gca gca acc aac att gtg aag gac tac 2496

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

cgg tac act tac gac aag tac ttc ttg cac atg ccg atc act atc aac 2544

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

ttc aaa gcc aac aag acc gga ttc att aac gac agg atc ctc cag tac 2592

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

att gcc aaa gaa aag gac ctc cat gtc atc ggt atc gcg agg gga gaa 2640

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Ala Arg Gly Glu

865 870 875 880

cgg aac ctc atc tac gtc tcc gtg att gac act tgt ggc aac att gtc 2688

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

gaa cag aag tcg ttc aac atc gtc aac ggt tac gat tac cag att aag 2736

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

ttg aaa cag cag gaa ggt gcg agg cag att gcg cga aag gaa tgg aag 2784

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

gag att ggc aaa atc aag gag att aag gaa ggc tac ttg tcg ttg gtc 2832

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

atc cac gaa atc tcg aaa atg gtg atc aaa tac aac gcc atc atc gcc 2880

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

atg gaa gac ctc tcg tac ggc ttc aaa aag gga cgg ttc aaa gtg gag 2928

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

cgt cag gtg tac cag aag ttc gaa aca atg ttg atc aac aag ttg aac 2976

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

tac ttg gtg ttc aag gac att tcc att acc gag aac gga gga ttg ctc 3024

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

aag ggt tat cag ctc acg tac atc ccc gac aag ttg aaa aac gtg 3069

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

gga cac cag tgt ggc tgt atc ttc tac gtg cct gca gcc tac acg 3114

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

tcg aaa atc gac cct aca aca gga ttc gtg aac atc ttc aag ttc 3159

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

aag gat ctc acc gtc gac gcg aag cgg gag ttc atc aaa aag ttc 3204

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

gac tcc atc cgc tat gat tcg gag aag aac ttg ttc tgt ttc aca 3249

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

ttc gac tac aac aac ttc att act cag aac acc gtg atg tcc aaa 3294

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

tcg tcg tgg tcc gtg tac acg tat ggt gtg cgc atc aaa agg cgc 3339

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

ttc gtc aac ggt cgc ttc tcc aac gaa tcg gac acg atc gat atc 3384

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

acg aaa gac atg gag aaa aca ttg gaa atg acc gac atc aac tgg 3429

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

cgt gac ggc cat gac ctc agg cag gac atc atc gat tac gag atc 3474

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

gtc cag cac atc ttc gaa atc ttc cgt ctc acc gtg cag atg agg 3519

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

aac tcc ctc tcc gag ctc gaa gat cgg gat tac gac cgg ctc att 3564

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

tcc cct gtg ttg aac gag aac aac atc ttc tac gac tcg gca aaa 3609

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

gcg gga gat gca ttg ccg aag gac gcc gat gcg aac ggt gca tat 3654

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

tgt att gca ctc aag ggt ctc tac gaa atc aag cag atc acc gaa 3699

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

aac tgg aag gag gac ggc aaa ttc tcg agg gac aag ttg aag att 3744

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

tcg aac aag gat tgg ttc gat ttc atc cag aac aag agg tac ttg 3789

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

taa 3792

<210> 125

<211> 1263

<212> PRT

<213> 人工序列

<220>

<223> 合成构建体

<400> 125

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

Ala Thr Ser Phe Lys Glu Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Ala Arg Gly Glu

865 870 875 880

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

<210> 126

<211> 1263

<212> PRT

<213> 人工序列

<220>

<223> Mad7d成熟蛋白

<400> 126

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

Ala Thr Ser Phe Lys Asp Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Ala Arg Gly Glu

865 870 875 880

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

<210> 127

<211> 624

<212> DNA

<213> 人工序列

<220>

<223> PmCDA1 编码序列

<400> 127

atgaccgacg ctgagtacgt gagaatccat gagaagttgg acatctacac gtttaagaaa 60

cagtttttca acaacaaaaa atccgtgtcg catagatgct acgttctctt tgaattaaaa 120

cgacggggtg aacgtagagc gtgtttttgg ggctatgctg tgaataaacc acagagcggg 180

acagaacgtg gcattcacgc cgaaatcttt agcattagaa aagtcgaaga atacctgcgc 240

gacaaccccg gacaattcac gataaattgg tactcatcct ggagtccttg tgcagattgc 300

gctgaaaaaa tcttagaatg gtataaccag gagctgcggg ggaacggcca cactttgaaa 360

atctgggctt gcaaactcta ttacgagaaa aatgcgagga atcaaattgg gctgtggaac 420

ctcagagata acggggttgg gttgaatgta atggtaagtg aacactacca atgttgcagg 480

aaaatattca tccaatcgtc gcacaatcaa ttgaatgaga atagatggct tgagaagact 540

ttgaagcgag ctgaaaaacg acggagcgag ttgtccatta tgattcaggt aaaaatactc 600

cacaccacta agagtcctgc tgtt 624

<210> 128

<211> 208

<212> PRT

<213> 人工序列

<220>

<223> PmCDA1成熟多肽

<400> 128

Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr

1 5 10 15

Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg

20 25 30

Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys

35 40 45

Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly

50 55 60

Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg

65 70 75 80

Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro

85 90 95

Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu

100 105 110

Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr

115 120 125

Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn

130 135 140

Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg

145 150 155 160

Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp

165 170 175

Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser

180 185 190

Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val

195 200 205

<210> 129

<211> 315

<212> DNA

<213> 人工序列

<220>

<223> 接头编码序列

<400> 129

cctagcaggg ctgaccccaa gaagaagagg aaggtgggtg gaggaggttc tggaggtgga 60

ggttctgcag agtatgtgcg ggccctcttt gactttaatg ggaatgatga agaagacctt 120

ccctttaaga aaggagacat cctgagaatc cgggataagc ctgaagagca gtggtggaat 180

gcagaggaca gcgaaggaaa gagggggatg attcctgtcc cttacgtgga gaagtattcc 240

ggagactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 300

gacgataagt ctagg 315

<210> 130

<211> 105

<212> PRT

<213> 人工序列

<220>

<223> 接头成熟多肽

<400> 130

Pro Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Gly Gly Gly

1 5 10 15

Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala Leu Phe Asp Phe

20 25 30

Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys Gly Asp Ile Leu

35 40 45

Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn Ala Glu Asp Ser

50 55 60

Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr Val Glu Lys Tyr Ser

65 70 75 80

Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp

85 90 95

Tyr Lys Asp Asp Asp Asp Lys Ser Arg

100 105

<210> 131

<211> 297

<212> DNA

<213> 人工序列

<220>

<223> UGI 编码序列

<400> 131

tctagaggct ccggaaccaa cctgtccgac atcatcgaga aggagaccgg caagcagctc 60

gttatccagg agtccatcct gatgctgccc gaggaggtcg aggaggtcat cggcaacaag 120

cccgagtccg acatcctggt ccacaccgcc tacgacgagt ccaccgacga gaacgtcatg 180

ctgctgacct ccgacgcccc cgagtacaag ccctgggccc tggtcatcca ggactccaac 240

ggcgagaaca agatcaagat gctgtccggc ggctccccca agaagaagcg caaggtc 297

<210> 132

<211> 99

<212> PRT

<213> 人工序列

<220>

<223> UGI成熟多肽

<400> 132

Ser Arg Gly Ser Gly Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr

1 5 10 15

Gly Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu

20 25 30

Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His

35 40 45

Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser

50 55 60

Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn

65 70 75 80

Gly Glu Asn Lys Ile Lys Met Leu Ser Gly Gly Ser Pro Lys Lys Lys

85 90 95

Arg Lys Val

<210> 133

<211> 17429

<212> DNA

<213> 人工序列

<220>

<223> pAT3530

<400> 133

accaatgctt aatcagtgag gcacctatct cagcgatctg tctatttcgt tcatccatag 60

ttgcctgact ccccgtcgtg tagataacta cgatacggga gggcttacca tctggcccca 120

gcgctgcgat gataccgcga gaaccacgct caccggctcc ggatttatca gcaataaacc 180

agccagccgg aagggccgag cgcagaagtg gtcctgcaac tttatccgcc tccatccagt 240

ctattaattg ttgccgggaa gctagagtaa gtagttcgcc agttaatagt ttgcgcaacg 300

ttgttgccat cgctacaggc atcgtggtgt cacgctcgtc gtttggtatg gcttcattca 360

gctccggttc ccaacgatca aggcgagtta catgatcccc catgttgtgc aaaaaagcgg 420

ttagctcctt cggtcctccg atcgttgtca gaagtaagtt ggccgcagtg ttatcactca 480

tggttatggc agcgctacat aattctctta ctgtcatgcc atccgtaaga tgcttttctg 540

tgactggtga gtactcaacc aagtcattct gagaatagtg tatgcggcga ccgagttgct 600

cttgcccggc gtcaatacgg gataataccg cgccacatag cagaacttta aaagtgctca 660

tcattggaaa acgttcttcg gggcgaaaac tctcaaggat cttaccgctg ttgagatcca 720

gttcgatgta acccactcgt gcacccaact gatcttcagc atcttttact ttcaccagcg 780

tttctgggtg agcaaaaaca ggaaggcaaa atgccgcaaa aaagggaata agggcgacac 840

ggaaatgttg aatactcata ttcttccttt ttcaatatta ttgaagcatt tatcagggtt 900

attgtctcat gagcggatac atatttgaat gtatttagaa aaataaacaa ataggggtca 960

gtgttacaac caattaacca attctgaaca ttatcgcgag cccatttata cctgaatatg 1020

gctcataaca ccccttgttt gcctggcggc agtagcgcgg tggtcccacc tgaccccatg 1080

ccgaactcag aagtgaaacg ccgtagcgcc gatggtagtg tggggactcc ccatgcgaga 1140

gtagggaact gccaggcatc aaataaaacg aaaggctcag tcgaaagact gggcctttcg 1200

cccgggctaa ttatggggtg tcgcccttat tcgactctat agtgaagttc ctattctcta 1260

gaaagtatag gaacttctga agtggggatt taaatgcggc cgcgctgagg gtttaatcga 1320

cgaagcagct gacggccagt gccaagctta acgcgtaccc gggcccagta tatgttccgc 1380

agatgactgg agctctgcca tacgtgccct ctcaagcacc atttgttcca tctacagaga 1440

ctagtcacca actagtctat caagactcac agggtacatt gctgagacca actgaccaga 1500

ggcagggtag cggattgacg gctccatctc cttcacttac aaggtctatt gaaagccctt 1560

tagcatcacc aagcggagaa tagattgtta agcttatttt ttgtatactg ttttgtgata 1620

gcacgaagtt tttccacggt atcttgtaaa aatatatatt tgtggcgggc ttacctacat 1680

caaattaata agagactaat tataaactaa acacacaagc aagctacttt agggtaaaag 1740

tttataaatg cttttgacgt ataaacgttg cttgtattta ttattacaat taaaggtgga 1800

tagaaaacct agagactagt tagaaactaa tctcaggttt gcgttaaact aaatcagagc 1860

ccgagaggtt aacagaacct agaaggggac tagatatccg ggtagggaaa caaaaaaaaa 1920

aaacaagaca gccacatatt agggagacta gttagaagct agttccagga ctaggaaaat 1980

aaaagacaat gataccacag tctagttgac aactagatag attctagatt gaggccaaag 2040

tctctgagat ccaggttagt tgcaactaat actagttagt atctagtctc ctataactct 2100

gaagctagaa taacttacta ctattatcct caccactgtt cagctgcgca aacggagtga 2160

ttgcaaggtg ttcagagact agttattgac tagtcagtga ctagcaataa ctaacaaggt 2220

attaacctac catgtctgcc atcaccctgc acttcctcgg gctcagcagc cttttcctcc 2280

tcattttcat gctcattttc cttgtttaag actgtgacta gtcaaagact agtccagaac 2340

cacaaaggag aaatgtctta ccactttctt cattgcttgt ctcttttgca ttatccatgt 2400

ctgcaactag ttagagtcta gttagtgact agtccgacga ggacttgctt gtctccggat 2460

tgttggagga actctccagg gcctcaagat ccacaacaga gccttctaga agactggtca 2520

ataactagtt ggtctttgtc tgagtctgac ttacgaggtt gcatactcgc tccctttgcc 2580

tcgtcaatcg atgagaaaaa gcgccaaaac tcgcaatatg gctttgaacc acacggtgct 2640

gagactagtt agaatctagt cccaaactag cttggatagc ttacctttgc cctttgcgtt 2700

gcgacaggtc ttgcagggta tggttccttt ctcaccagct gatttagctg ccttgctacc 2760

ctcacggcgg atctgccata aagagtggct agaggttata aattagcact gatcctaggt 2820

acggggctga atgtaacttg cctttccttt ctcatcgcgc ggcaagacag gcttgctcaa 2880

attcctacca gtcacagggg tatgcacggc gtacggacca cttgaactag tcacagatta 2940

gttagcaact agtctgcatt gaatggctgt acttacgggc cctcgccatt gtcctgatca 3000

tttccagctt caccctcgtt gctgcaaagt agttagtgac tagtcaagga ctagttgaaa 3060

tgggagaaga aactcacgaa ttctcgactc ccttagtatt gtggtccttg gacttggtgc 3120

tgctatatat tagctaatac actagttaga ctcacagaaa cttacgcagc tcgcttgcgc 3180

ttcttggtag gagtcggggt tgggagaaca gtgccttcaa acaagccttc ataccatgct 3240

acttgactag tcagggacta gtcaccaagt aatctagata ggacttgcct ttggcctcca 3300

tcagttcctt catagtggga ggaccattgt gcaatgtaaa ctccatgccg tgggagttct 3360

tgtccttcaa gtgcttgacc aatatgtttc tgttggcaga gggaacctgt caactagtta 3420

ataactagtc agaaactatg atagcagtag actcactgta cgcttgaggc atcccttcac 3480

tcggcagtag acttcatatg gatggatatc aggcacgcca ttgtcgtcct gtggactagt 3540

cagtaactag gcttaaagct agtcgggtcg gcttactatc ttgaaatccg gcagcgtaag 3600

ctccccgtcc ttaactgcct cgagatagtg acagtactct ggggactttc ggagatcgtt 3660

atcgttatcg cgaatgctcg gcatactaac tgttgactag tcttggacta gtcccgagca 3720

aaaaggattg gaggaggagg aggaaggtga gagtgagaca aagagcgaaa taagagcttc 3780

aaaggctatc tctaagcagt atgaaggtta agtatctagt tcttgactag atttaaagag 3840

atttcgacta gttatgtacc tggagtttgg atataggaat gtgttgtggt aacgaaatgt 3900

aagggggagg aaagaaaaag tcgtcaagag gtaactctaa gtcggccatt cctttttggg 3960

aggcgctaac cataaacggc atggtcgact tagagttagc tcagggaatt tagggagtta 4020

tctgcgacca ccgaggaacg gcggaatgcc aaagaatccc gatggagctc tagctggcgg 4080

ttgacaaccc caccttttgg cgtttctgcg gcgttgcagg cgggactgga tacttcgtag 4140

aaccagaaag gcaaggcaga acgcgctcag caagagtgtt ggaagtgata gcatgatgtg 4200

ccttgttaac taggtaccaa tctgcagtat gcttgatgtt atccaaagtg tgagagagga 4260

aggtccaaac atacacgatt gggagagggc ctaggtataa gagtttttga gtagaacgca 4320

tgtgagccca gccatctcga ggagattaaa cacgggccgg catttgatgg ctatgttagt 4380

accccaatgg aaacggtgag agtccagtgg tcgcagataa ctccctaaat tccctgagct 4440

aactctaagt cgaccatgcc gtttatggtt agcgcctccc aaaaaggaat ggccgactta 4500

gagttacctc ttgacgactt tttctttcct cccccttaca tttcgttacc acaacacatt 4560

cctatatcca aactccaggt acataactag tcgaaatctc tttaaatcta gtcaagaact 4620

agatacttaa ccttcatact gcttagagat agcctttgaa gctcttattt cgctctttgt 4680

ctcactctca ccttcctcct cctcctccaa tcctttttgc tcgggactag tccaagacta 4740

gtcaacagtt agtatgccga gcattcgcga taacgataac gatctccgaa agtccccaga 4800

gtactgtcac tatctcgagg cagttaagga cggggagctt acgctgccgg atttcaagat 4860

agtaagccga cccgactagc tttaagccta gttactgact agtccacagg acgacaatgg 4920

cgtgcctgat atccatccat atgaagtcta ctgccgagtg aagggatgcc tcaagcgtac 4980

agtgagtcta ctgctatcat agtttctgac tagttattaa ctagttgaca ggttccctct 5040

gccaacagaa acatattggt caagcacttg aaggacaaga actcccacgg catggagttt 5100

acattgcaca atggtcctcc cactatgaag gaactgatgg aggccaaagg caagtcctat 5160

ctagattact tggtgactag tccctgacta gtcaagtagc atggtatgaa ggcttgtttg 5220

aaggcactgt tctcccaacc ccgactccta ccaagaagcg caagcgagct gcgtaagttt 5280

ctgtgagtct aactagtgta ttagctaata tatagcagca ccaagtccaa ggaccacaat 5340

actaagggag tcgagaattc gtgagtttct tctcccattt caactagtcc ttgactagtc 5400

actaactact ttgcagcaac gagggtgaag ctggaaatga tcaggacaat ggcgagggcc 5460

cgtaagtaca gccattcaat gcagactagt tgctaactaa tctgtgacta gttcaagtgg 5520

tccgtacgcc gtgcataccc ctgtgactgg taggaatttg agcaagcctg tcttgccgcg 5580

cgatgagaaa ggaaaggcaa gttacattca gccccgtacc taggatcagt gctaatttat 5640

aacctctagc cactctttat ggcagatccg ccgtgagggt agcaaggcag ctaaatcagc 5700

tggtgagaaa ggaaccatac cctgcaagac ctgtcgcaac gcaaagggca aaggtaagct 5760

atccaagcta gtttgggact agattctaac tagtctcagc accgtgtggt tcaaagccat 5820

attgcgagtt ttggcgcttt ttctcatcga ttgacgaggc aaagggagcg agtatgcaac 5880

ctcgtaagtc agactcagac aaagaccaac tagttattga ccagtcttct agaaggctct 5940

gttgtggatc ttgaggccct ggagagttcc tccaacaatc cggagacaag caagtcctcg 6000

tcggactagt cactaactag actctaacta gttgcagaca tggataatgc aaaagagaca 6060

agcaatgaag aaagtggtaa gacatttctc ctttgtggtt ctggactagt ctttgactag 6120

tcacagtctt aaacaaggaa aatgagcatg aaaatgagga ggaaaaggct gctgagcccg 6180

aggaagtgca gggtgatggc agacatggta ggttaatacc ttgttagtta ttgctagtca 6240

ctgactagtc aataactagt ctctgaacac cttgcaatca ctccgtttgc gcagctgaac 6300

agtggtgagg ataatagtag taagttattc tagcttcaga gttataggag actagatact 6360

aactagtatt agttgcaact aacctggatc tcagagactt tggcctcaat ctagaatcta 6420

tctagttgtc aactagactg tggtatcatt gtcttttatt ttcctagtcc tggaactagc 6480

ttctaactag tctccctaat atgtggctgt cttgtttttt ttttttgttt ccctacccgg 6540

atatctagtc cccttctagg ttctgttaac ctctcgggct ctgatttagt ttaacgcaaa 6600

cctgagatta gtttctaact agtctctagg ttttctatcc acctttaatt gtaataataa 6660

atacaagcaa cgtttatacg tcaaaagcat ttataaactt ttaccctaaa gtagcttgct 6720

tgtgtgttta gtttataatt agtctcttat taatttgatg taggtaagcc cgccacaaat 6780

atatattttt acaagatacc gtggaaaaac ttcgtgctat cacaaaacag tatacaaaaa 6840

ataagcttaa caatctattc tccgcttggt gatgctaaag ggctttcaat agaccttgta 6900

agtgaaggag atggagccgt caatccgcta ccctgcctct ggtcagttgg tctcagcaat 6960

gtaccctgtg agtcttgata gactagttgg tgactagtct ctgtagatgg aacaaatggt 7020

gcttgagagg gcacgtatgg cagagctcca gtcatctgcg gaacatatac tgggcccggg 7080

aagatctcat ggtcatagct gtttccgtta attaatggtt cacttctctt tagaaatcaa 7140

ctgtgggttt tgctttttgc ttcattctct ttgtcttctc catctttgat caaatcctgg 7200

actttctcaa tccccagcta attcaatcat agtcagtttt ctatttttat tatttctttt 7260

tcttttgaaa tgtgattaac aaccagtccg ttatatatct tgtacccaga ttacgcccaa 7320

ctcgtgctcc tcagccacaa agatactcaa ttgatagcca agatacatac ataccacaaa 7380

gtaaggactc catgcattga gtattactca tcgtattcta gactactcca aaactcagca 7440

catagacaaa caatacgaac ctcgtctagg ggtgattcag aggcggcaaa gcggggtttt 7500

cgcatttgat gttcctggca cttatgtaag cccacgcttc ccgctcaact aaaccatcag 7560

ccaatcagac tgctcagatt tatcttttga agggtaaata aatcattgta aagaagaaca 7620

agtggcttgc ttgtcaagca atggcatcat tggtctagtg gtagaattcg tcgttgccat 7680

cgacgaggcc cgtgttcgat tcacggatga tgcagtcaaa agaccttttt aatttctact 7740

cttgtagatg cgatcgcttt ttttttgagc atttatcagc ttgatataga ggtaggaatg 7800

tatggaggtg cagaatggct attttgttat tggagcgggt tcgaaacgga gggcaggaga 7860

ctttttctaa atacgtcacg tgatatagag ctgctttaat taacgagaca gcagaatcac 7920

cgcccaagtt aagcctttgt gctgatcatg ctctcgaacg ggccaagttc gggaaaagca 7980

aaggagcgtt tagtgagggg caatttgact cacctcccag gcaacagatg aggggggcaa 8040

aaagaaagaa attttcgtga gtcaatatgg attccgagca tcattttctt gcggtctatc 8100

ttgctacgta tgttgatctt gacgctgtgg atcaagcaac gccactcgct cgctccatcg 8160

caggctggtc gcagacaaat taaaaggcgg caaactcgta cagccgcggg gttgtccgct 8220

gcaaagtaca gagtgataaa agccgccatg cgaccatcaa cgcgttgatg cccagctttt 8280

tcgatccgag aatccaccgt agaggcgata gcaagtaaag aaaagctaaa caaaaaaaaa 8340

tttctgcccc taagccatga aaacgagatg gggtggagca gaaccaagga aagagtcgcg 8400

ctgggctgcc gttccggaag gtgttgtaaa ggctcgacgc ccaaggtggg agtctaggag 8460

aagaatttgc atcgggagtg gggcgggtta cccctccata tccaatgaca gatatctacc 8520

agccaagggt ttgagcccgc ccgcttagtc gtcgtcctcg cttgcccctc cataaaagga 8580

tttcccctcc ccctcccaca aaattttctt tcccttcctc tccttgtccg cttcagtacg 8640

tatatcttcc cttccctcgc ttctctcctc catccttctt tcatccatct cctgctaact 8700

tctctgctca gcacctctac gcattactag ccgtagtatc tgagcacttc tcccttttat 8760

attccacaaa acataacaca accttcacca tgaacaacgg cacaaacaac ttccagaact 8820

tcattggaat ctcgtcgttg cagaagactt tgcgcaacgc cctcatcccc acagaaacta 8880

cccagcagtt cattgtgaag aacggaatca tcaaggaaga tgaactccga ggcgagaacc 8940

gccagatttt gaaggacatc atggatgatt actaccgtgg tttcatctcg gaaacgctct 9000

cctccattga cgacatcgat tggacttcgt tgttcgaaaa gatggaaatc cagctcaaaa 9060

acggcgataa caaggatacc ttgatcaagg agcagaccga gtatcggaag gcgatccata 9120

agaagttcgc caacgatgat cggttcaaga acatgttctc ggccaagttg atttccgaca 9180

ttctccccga attcgtgatc cataacaaca actactcggc gtcggagaag gaggagaaga 9240

cgcaggtcat caagttgttc tcgaggttcg ccacatcgtt caaagagtat tttaagaatc 9300

gtgcgaactg tttctcggca gatgatatct cctcgtcctc ctgtcaccgc attgtgaacg 9360

acaacgcgga aatcttcttc tcgaacgcgt tggtgtatag gcgcatcgtg aagtccctct 9420

ccaacgatga catcaacaaa atctcgggag atatgaagga ttcgctcaag gagatgtcgt 9480

tggaggaaat ctactcctat gagaagtatg gcgagttcat tacgcaggag ggcatttcct 9540

tctacaacga catttgtggt aaagtcaact cgttcatgaa cctctactgt cagaaaaaca 9600

aggagaacaa aaacctctat aagctccaga agttgcataa gcagatcctc tgtatcgcag 9660

acacctcgta cgaggtccct tacaagttcg aatccgatga ggaggtctac cagtccgtca 9720

acggattctt ggacaacatc tcctcgaaac acattgtcga gcggctccga aagatcggcg 9780

ataactacaa cggctacaac ttggacaaaa tctatatcgt ctccaagttc tatgagtccg 9840

tctcgcagaa aacctatcgt gattgggaga ctatcaacac tgcgctcgag attcactata 9900

acaacatctt gcctggtaac ggcaaatcga aagccgacaa ggtgaagaag gccgtgaaaa 9960

acgatctcca gaagtcgatc acagaaatca acgaactcgt ctcgaactac aagctctgtt 10020

cggatgataa catcaaggcg gaaacgtaca tccatgaaat ctcgcatatc ttgaacaact 10080

tcgaggccca ggaactcaaa tacaaccccg agatccactt ggtcgagtcg gagctcaaag 10140

cctcggagtt gaagaacgtc ttggatgtca tcatgaacgc attccactgg tgttccgtgt 10200

tcatgaccga ggaactcgtc gataaagaca acaacttcta cgcggaactc gaggaaatct 10260

acgatgaaat ctatcccgtg atctccctct acaacctcgt gcgaaactac gtcactcaga 10320

agccctattc caccaagaag atcaagctca acttcggcat ccccactctc gcagacggtt 10380

ggtcgaagtc gaaggagtac tccaacaacg ccattatcct catgcgagac aacctctact 10440

acttgggtat cttcaacgca aagaacaagc cggataagaa gatcattgaa ggcaacactt 10500

cggaaaacaa gggagactat aagaagatga tctacaacct cctccctgga cccaacaaga 10560

tgattcctaa agtgttcctc tcgtcgaaga ctggtgtgga aacgtataag ccgtcggcct 10620

acatcttgga gggctacaaa cagaacaagc atatcaagtc ctcgaaggac ttcgacatca 10680

ctttctgtca cgacctcatc gactatttca agaactgtat tgcaatccat ccggaatgga 10740

agaacttcgg cttcgatttc tcggatactt cgacatacga agatatctcg ggattctacc 10800

gagaggtcga attgcagggc tataagattg attggaccta catctcggaa aaggatatcg 10860

acttgctcca ggaaaagggc cagctctacc tcttccagat ttacaacaag gacttctcca 10920

agaagtcgac gggtaacgac aacttgcaca caatgtatct caaaaacctc ttctcggagg 10980

agaacttgaa ggatatcgtg ctcaaattga acggagaggc cgaaatcttc ttccgtaagt 11040

cctccatcaa gaacccgatc atccataaga agggatcgat cttggtcaac cggacttacg 11100

aagcagagga aaaagatcag ttcggaaaca tccagattgt caggaagaac atccctgaaa 11160

acatctatca ggagttgtat aagtacttca acgacaagtc ggataaggag ctctccgacg 11220

aagcagccaa actcaagaac gtcgtcggac accatgaagc agcaaccaac attgtgaagg 11280

actaccggta cacttacgac aagtacttct tgcacatgcc gatcactatc aacttcaaag 11340

ccaacaagac cggattcatt aacgacagga tcctccagta cattgccaaa gaaaaggacc 11400

tccatgtcat cggtatcgcg aggggagaac ggaacctcat ctacgtctcc gtgattgaca 11460

cttgtggcaa cattgtcgaa cagaagtcgt tcaacatcgt caacggttac gattaccaga 11520

ttaagttgaa acagcaggaa ggtgcgaggc agattgcgcg aaaggaatgg aaggagattg 11580

gcaaaatcaa ggagattaag gaaggctact tgtcgttggt catccacgaa atctcgaaaa 11640

tggtgatcaa atacaacgcc atcatcgcca tggaagacct ctcgtacggc ttcaaaaagg 11700

gacggttcaa agtggagcgt caggtgtacc agaagttcga aacaatgttg atcaacaagt 11760

tgaactactt ggtgttcaag gacatttcca ttaccgagaa cggaggattg ctcaagggtt 11820

atcagctcac gtacatcccc gacaagttga aaaacgtggg acaccagtgt ggctgtatct 11880

tctacgtgcc tgcagcctac acgtcgaaaa tcgaccctac aacaggattc gtgaacatct 11940

tcaagttcaa ggatctcacc gtcgacgcga agcgggagtt catcaaaaag ttcgactcca 12000

tccgctatga ttcggagaag aacttgttct gtttcacatt cgactacaac aacttcatta 12060

ctcagaacac cgtgatgtcc aaatcgtcgt ggtccgtgta cacgtatggt gtgcgcatca 12120

aaaggcgctt cgtcaacggt cgcttctcca acgaatcgga cacgatcgat atcacgaaag 12180

acatggagaa aacattggaa atgaccgaca tcaactggcg tgacggccat gacctcaggc 12240

aggacatcat cgattacgag atcgtccagc acatcttcga aatcttccgt ctcaccgtgc 12300

agatgaggaa ctccctctcc gagctcgaag atcgggatta cgaccggctc atttcccctg 12360

tgttgaacga gaacaacatc ttctacgact cggcaaaagc gggagatgca ttgccgaagg 12420

acgccgatgc gaacggtgca tattgtattg cactcaaggg tctctacgaa atcaagcaga 12480

tcaccgaaaa ctggaaggag gacggcaaat tctcgaggga caagttgaag atttcgaaca 12540

aggattggtt cgatttcatc cagaacaaga ggtacttgcc tagcagggct gaccccaaga 12600

agaagaggaa ggtgggtgga ggaggttctg gaggtggagg ttctgcagag tatgtgcggg 12660

ccctctttga ctttaatggg aatgatgaag aagaccttcc ctttaagaaa ggagacatcc 12720

tgagaatccg ggataagcct gaagagcagt ggtggaatgc agaggacagc gaaggaaaga 12780

gggggatgat tcctgtccct tacgtggaga agtattccgg agactataag gaccacgacg 12840

gagactacaa ggatcatgat attgattaca aagacgatga cgataagtct aggatgaccg 12900

acgctgagta cgtgagaatc catgagaagt tggacatcta cacgtttaag aaacagtttt 12960

tcaacaacaa aaaatccgtg tcgcatagat gctacgttct ctttgaatta aaacgacggg 13020

gtgaacgtag agcgtgtttt tggggctatg ctgtgaataa accacagagc gggacagaac 13080

gtggcattca cgccgaaatc tttagcatta gaaaagtcga agaatacctg cgcgacaacc 13140

ccggacaatt cacgataaat tggtactcat cctggagtcc ttgtgcagat tgcgctgaaa 13200

aaatcttaga atggtataac caggagctgc gggggaacgg ccacactttg aaaatctggg 13260

cttgcaaact ctattacgag aaaaatgcga ggaatcaaat tgggctgtgg aacctcagag 13320

ataacggggt tgggttgaat gtaatggtaa gtgaacacta ccaatgttgc aggaaaatat 13380

tcatccaatc gtcgcacaat caattgaatg agaatagatg gcttgagaag actttgaagc 13440

gagctgaaaa acgacggagc gagttgtcca ttatgattca ggtaaaaata ctccacacca 13500

ctaagagtcc tgctgtttct agaggctccg gaaccaacct gtccgacatc atcgagaagg 13560

agaccggcaa gcagctcgtt atccaggagt ccatcctgat gctgcccgag gaggtcgagg 13620

aggtcatcgg caacaagccc gagtccgaca tcctggtcca caccgcctac gacgagtcca 13680

ccgacgagaa cgtcatgctg ctgacctccg acgcccccga gtacaagccc tgggccctgg 13740

tcatccagga ctccaacggc gagaacaaga tcaagatgct gtccggcggc tcccccaaga 13800

agaagcgcaa ggtctaatgt acagcggaca ttcgatttat gccgttatga cttccttaaa 13860

aaagccttta cgaatgaaag aaatggaatt agacttgtta tgtagttgat tctacaatgg 13920

attatgattc ctgaacttca aatccgctgt tcattattaa tctcagctct tcccgtaaag 13980

ccaatgttga aactattcgt aaatgtacct cgttttgcgt gtaccttgct tatcacgtga 14040

tattacatga cctggacaga gttctgcgcg aaagtcataa cgtaaatccc gggcggtagg 14100

tgcgtcccgg gcggaaggta gttttctcgt ccaccccaac gcgtttatca acctcaactt 14160

tcaacaacca tcatgccacc aaaagcgcgt aaaacaaagc gagatttgat tgagcaagag 14220

ggcaggatcc aatgcgcgat tcaagacatt aaaaatggaa aatttcaaaa aattgcgccc 14280

gcagcgcgtg catacaaaat tcatcccaat actcctcgtg tactgtgtaa gcgcccacta 14340

ggtaatatga catgattacg aattcgagct cggtacccgg ccggaactcc acgtctagag 14400

gatccaccag tgattgacca atgttttatc ttctacagtt ctgcctgtct accccattct 14460

agctgtacct gactacagag tagtttaatt gtggttgacc ccacagtcgg aggcggagga 14520

atacagcacc gatgtggcct gtctccatcc agattggcac gcaattttta cacgcggaaa 14580

agatcgagat agagtacgac tttaaattta gtccccggcg gcttctattt tagaatattt 14640

gagatttgat tctcaagcaa ttgatttggt tgggtcaccc tcaattggat aatatacctc 14700

attgctcggc tacttcaact catcaatcac cgtcataccc cgcatataac cctccattcc 14760

cacgatgtcg tccaagtcgc aattgactta cggtgctcga gccagcaagc accccaatcc 14820

tctggcaaag agactttttg agattgccga agcaaagaag acaaacgtta ccgtctctgc 14880

tgatgtgacg acaacccgag aactcctgga cctcgctgac cgtacggaag ctgttggatc 14940

caatacatat gccgtctagc aatggactaa tcaacttttg atgatacagg tctcggtccc 15000

tacatcgccg tcatcaagac acacatcgac atcctcaccg atttcagcgt cgacactatc 15060

aatggcctga atgtgctggc tcaaaagtac aactttttga tcttcgagga ccgcaaattc 15120

atcgacatcg gcaataccgt ccagaagcaa taccacggcg gtgctctgag gatctccgaa 15180

tgggcccaca ttatcaactg cagcgttctc cctggcgagg gcatcgtcga ggctctggcc 15240

cagaccgcat ctgcgcaaga cttcccctat ggtcctgaga gaggactgtt ggtcctggca 15300

gagatgaccc ccaaaggatc gctggctacg ggcgagtata ccaaggcatc ggttgactac 15360

gctcgcaaat acaagaactt cgttatgggt ttcgtgtcga cgcgggccct gacggaagtg 15420

cagtcggatg tgtcttcagc ctcggaggat gaagatttcg tggtcttcac gacgggtgtg 15480

aacctctctt ccaaaggaga taagcttgga cagcaatacc agactcctgc atcggctatt 15540

ggacgcggtg ccgactttat catcgccggt cgaggcatct acgctgctcc cgacccggtt 15600

gaagctgcac agcggtacca gaaagaaggc tgggaagctt atatggccag agtatgcggc 15660

aagtcatgat ttcctcttgg agcaaaagtg tagtgccagt acgagtgttg tggaggaagg 15720

ctgcatacat tgtgcctgtc attaaacgat gagctcgtcc gtattggccc ctgtaatgcc 15780

atgttttccg cccccaatcg tcaaggtttt ccctttgtta gattcctacc agtcatctag 15840

caaggcggcc gcagctagca caattgaggc atccccacta ccgcattaag acctcagcgc 15900

ggccgcaaat ttaaataaaa tgaagtgaag ttcctatact ttctagagaa taggaacttc 15960

tatagtgagt cgaataaggg cgacacaaaa tttattctaa atgcataata aatactgata 16020

acatcttata gtttgtatta tattttgtat tatcgttgac atgtataatt ttgatatcaa 16080

aaactgattt tccctttatt attttcgaga tttattttct taattctctt taacaaacta 16140

gaaatattgt atatacaaaa aatcataaat aatagatgaa tagtttaatt ataggtgttc 16200

atcaatcgaa aaagcaacgt atcttattta aagtgcgttg cttttttctc atttataagg 16260

ttaaataatt ctcatatatc aagcaaagtg acaggcgccc ttaaatattc tgacaaatgc 16320

tctttcccta aactcccccc ataaaaaaac ccgccgaagc gggtttttac gttatttgcg 16380

gattaacgat tactcgttat cagaaccgcc cagggggccc gagcttaaga ctggccgtcg 16440

ttttacaaca cagaaagagt ttgtagaaac gcaaaaaggc catccgtcag gggccttctg 16500

cttagtttga tgcctggcag ttccctactc tcgccttccg cttcctcgct cactgactcg 16560

ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc actcaaaggc ggtaatacgg 16620

ttatccacag aatcagggga taacgcagga aagaacatgt gagcaaaagg ccagcaaaag 16680

gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg cccccctgac 16740

gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg actataaaga 16800

taccaggcgt ttccccctgg aagctccctc gtgcgctctc ctgttccgac cctgccgctt 16860

accggatacc tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca tagctcacgc 16920

tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt gcacgaaccc 16980

cccgttcagc ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggta 17040

agacacgact tatcgccact ggcagcagcc actggtaaca ggattagcag agcgaggtat 17100

gtaggcggtg ctacagagtt cttgaagtgg tgggctaact acggctacac tagaagaaca 17160

gtatttggta tctgcgctct gctgaagcca gttaccttcg gaaaaagagt tggtagctct 17220

tgatccggca aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa gcagcagatt 17280

acgcgcagaa aaaaaggatc tcaagaagat cctttgatct tttctacggg gtctgacgct 17340

cagtggaacg acgcgcgcgt aactcacgtt aagggatttt ggtcatgagc ttgcgccgtc 17400

ccgtcaagtc agcgtaatgc tctgctttt 17429

<210> 134

<211> 6651

<212> DNA

<213> 米曲霉

<400> 134

atggaggggc cacgcggcgt ctatctcttc ggagaccaga caagtgattt cgacgccggc 60

ttacgtcgcc tcctacaagt aaagaataac acaattgttg catcgttctt ccagagatgc 120

tttcacgctt tgcgccaaga gatcgcgagg ctttcaccat ctgaacggaa gatcttcccc 180

cggtttacga gcatagtgga tctactggcg cgtcaccggg agtcagaccc taatccggct 240

ctggagagtg cgttgacctg tatctatcaa ttgggatgct ttataaagta cgtgtaactg 300

cagatcctga cccgtttgaa cgagcctaac ctgagatagc tactacggag accttggaaa 360

cgtgtaccca tctgcttcag actgccatat agttggcctg tgcgcgggtc ttcttagttc 420

tgcagctgta agctgttcga acaatgttgg agaattgctc cccgctgcgg ttgaagcggt 480

ggtggtagct ctccgacttg gtctatgcgt ccttaaagtt cgagagctgg tgagctctga 540

ccaagcgtcg tcaacaagct ggtcagtctt gatttcaggg attagcgaga aagatgcctc 600

gcagcttata ggagaattca ctgctgaacg ggtaagtcaa ttgatctgaa atagtttgca 660

ggacagaatg ttctaaccac tggataaagg caattcctcc ttcatccaaa ccgtatatca 720

gtgcggtggg atataacagt ataaccatca gcgcaccgcc taaggtcctt gatgatttaa 780

ttgattctag gctgtctaag agccataagc cggtgagggc gcaaatccat ggtccttacc 840

atgcagcaca tctgtactat ggccgagatg tcgacaggat catcgaaagc tgccataatg 900

aggtcgtttc aaactacaca ccccgtatcc ccgtactatc aagtactacg ggacagccga 960

tagaggccaa acacatgaaa gatctactta aggccgccct tgaagagatt ctactacgtc 1020

aactatgctg ggagaaagtg accgatgcct gctattccat attaaaaact gctcgtcatc 1080

aaccatgcaa gttgttccca atttcaagca ctgcgacaca aagcttgttt acagctctta 1140

cgaaagccgg gataaccgac atcgaagtgg aaaatgggct cggagatgtt cccacgaacc 1200

cgaaggacaa ccttaacatc agcggcaggg cggactgctc caagatagct atcattggca 1260

tgtctggacg attcccagaa gctgatggca cagagagttt ctgggacctt ctgtataatg 1320

gcctcgatgt acaccggaag gtgcctgcag agcgttggga tgttgatgcc cacgttgatc 1380

ctaccggaac aaaacggaac accagcaagg ttccatacgg atgctggata aacgaaccgg 1440

ggttatttga cccccgcttc ttcaatatgt cgccacgcga agccctccag gcagatcccg 1500

ctcaaagact tgcattgctc acggcctatg aagctcttga aatggccggc tttatccccg 1560

acagcacccc ttctacacag agggatcgag tcggcctctt ctatggaatg actagcgatg 1620

actatcggga gataaatagt ggtcaagata ttgatactta ctttatccct ggtgggaatc 1680

gtgctttcac acctggccgg ataaactact atttcaagtt cagtgggccc agcgtcagcg 1740

ttgatacagc ttgttcttca agtcttgcgg ctattcatat ggcttgcaat tcgatctgga 1800

gaaatgattg cgatgctgct attgctggag gtgtcaatat attgacaaac cctgataacc 1860

atgccggtct tgaccgtggc catttcctgt ccagaaccgg gaattgcaac acatttgacg 1920

atggtgctga tggctactgt agagcagatg gagtgggtac aatcattctc aagcggctgg 1980

aagacgctca ggcggacaac gatccaatcc tcggtgtgat caatggagcc tataccaatc 2040

attcggcaga agcagtctcg attacccgcc ctcatgttgg cgcacaagcg tttatcttta 2100

ataagctatt gaacgatgcc aatatcgacc ctaaggacgt cagctacgtt gaaatgcatg 2160

gaactggtac tcaagctggg gatgcggtgg aaatgcaatc ggtcttggat acgtttgctc 2220

ccgactaccg ccgtggacca ggacagtctc tccatcttgg ttccgccaaa gcaaatgttg 2280

ggcatggaga gtcagcatct ggtgtaactg cacttgtgaa agtgctgcta atgatgaaga 2340

agaataccat accccctcat tgtggtataa agactaagat caaccacaac ttccccacgg 2400

atctcgcgca acgaaatgtc cacattgcct ttcaacctac cccttggaac agaccggctt 2460

ccggaaagcg gcagtgcttc attaacaact tttcggcggc tggtggaaat accgctcttt 2520

tgatggaaga cgctccaatc gctgaggtta aggggcagga cactcgacct gttcacgttg 2580

tgtctgtatc ggcacgatcc cagagtgcgc tcaaaaacaa catcaactct ctcgtaaaat 2640

acatcgacga acaaggaagg tcattcaatg tgaacgaggc agactttatc ccaagcttgg 2700

catacaccac cacagcacgg cgtatccatc acccattccg tgtcacagct atcgggtcta 2760

gtttgcagga gctgcgtgac tcacttaaca acagctctcg tctggaaagc tttacccctg 2820

tccctgcgac ggcccctggc gtagggttcg tgttcgctgg ccaaggagct cagcacaccg 2880

gaatgggaag gcaactatac gaaaaatgct ctcaattccg ggcaacaatg cagcacttcg 2940

attgcattag tcaaaaccaa gggtttcctt cgatccttcc cttggttgac ggaagcgtgc 3000

ccgtggagga gctgggccct atcgtgacac agctcggcac cacatgtctt cagatggctt 3060

tggtcaacta ttggggttca ctaggtataa aacctgcgtt cgttcttggg catagtctcg 3120

gggagtttgc tgctttgaat accgcaggag tattatcgac ttccgatacc atctaccttt 3180

gtggccgtcg ggctaccctc cttacagaat actgccaggt tgggacacac gccatgctgg 3240

ctgtcaaggc ttcctacccc caggtcaagc agttactgaa agaaggtgtg gatgaagttg 3300

cctgtgtcaa ctcacccagt gagacagtcg tcagtggcct caccgctgat attgatgact 3360

tggctcaaag gtgttccact gaaggttgga agtccactaa actaagggta ccgttcgctt 3420

tccattctgc ccaagttact ccaattcttg aacggtttca agaagaggcc cagggtgtca 3480

cgttccgtaa gccgtcgtta ccgtttgttt cctcactcct tggggaagtc atcaccgaat 3540

ctaattacga tgtcctggga gctcaatata tggtgaagca gtgccggaag tcggtgaact 3600

tccttggtgc tcttgaggcc accagatatg cgaaattgat gactgataag actgtctggc 3660

tggaagttgg tgcccatacc atttgctctg gtatgatcaa agcaacattc ggtccccagg 3720

ttaccactgt ggcatctctt cgccgagagg agaatgcatg gaaggtcctc tccaatagtc 3780

tatcggccct tcatttggct ggcattgata ttaattggaa agaatatcat caagacttca 3840

gctccagcca ccaggtgctc ccacttcctt cttacaagtg ggatctcaag aactactgga 3900

taccctacac taacaatttc tgccttacga agggtgctcc ccaaactgca attcaagctg 3960

caccacaaac tacattcctg accactgctg cgcaaaaggt tgttgagagt cgcgacgacg 4020

gtacaacagc gactgtcgtg gtgcaaaatg acatcgctga tcctgagttg aaccgtgtta 4080

tccaaggtca caaggtcaat ggagccgcac tttgcccatc ggtaagtatt gcatgcattg 4140

ccagactatc ttgtgttata attcggctac ttacgtattg cctagtcact ctacgcagat 4200

attgcccaga cacttggaga gtatcttatt gagaaataca aacccgagtt caaagatctt 4260

ggtctcgatg tgtgtgacat ggtcgtaccg aagccactca tcgcgaaggg aggagagcag 4320

ctctttagag tctctgctat tgctaattgg gctgagaaga aggcttcagt tcaagtatac 4380

gccgttaatg ctgacggcaa aaagaccgtg gatcatgcgt attgtacggt gaagttcttt 4440

gataccaatg cctccgagct cgagtggaag agaatctcgt acctggtcaa gagaagcatc 4500

gacagtcttc accagaatgc ggagacaggg gaggctcacc gtatccagcg aggaatggtc 4560

tataaacttt tcagcgcgtt ggtcgattat gatgaaaatt tcaagtcgat tcgcgaggtt 4620

atcctggaca gcgacaataa tgaggccacc gctcgtgtca aattccaagc accgccagga 4680

aatttccacc gaaacccatt ctggattgac agtttcggtc acttgtccgg attcattatg 4740

aatgcgagcg acgcgaccga ctctaagaac caagtatttg ttaaccatgg atgggattcg 4800

atgcgttgcc tgaagaagtt ctcgcctgat gtcacttatc gcacttatgt gaggatgcag 4860

ccatggcaaa acaacatttg ggctggagat gtttatatct ttgagggcga cgatattatt 4920

gctgtcttcg gaggtgtgaa ggtgggtacc tcactactga ttttggttcc tgcttactga 4980

catgataatt agttccaagc actggcacgc aagatacttg acactgttct tccccctgtt 5040

ggcggttcaa aggcaccaat tacagcgaaa tcaccacctc cagctcgcac tcagaaggcc 5100

aacaccggcg ccaagacccg tcctaaagca cctgttcctt ccaagtcgtt caccaaatct 5160

tctgggccga gtgttgtcgt acgcgcactc agcattctgg cctcagaagt tggcctggca 5220

gagtctgaaa tctcagacga catggtgttt gcggactacg gtgtagactc actcctctcc 5280

cttacagtta ctggcaggta tcgtgaagag ttgaacctcg atttggactc ctctgtgttt 5340

accgatcatc caactgtcaa cgacttcaag cggctcatcg cccaagtgag tccttcagag 5400

agccatgatg gttcctccag tgaacaagag tcgaatttct ctttcaacgg tggcgagtcc 5460

tcaagcgcaa gcacacctga cataacgtca ccgccgaatg agaaggtagc tcaagtcgag 5520

caaaacggca ccatgaagga aatccgtaac atcatggcgg aggagatcgg tgtacccgca 5580

gaagagatcg accctgacga gaacttggga gagatgggta tggactcgct tctctccctt 5640

actgttcttg gaagaatacg ggagactttg gacatggacc tgccaggaga gttcttcatc 5700

gaaaaccaga ccctcaatga tatagaggtg gctttggacc taaaacccaa gactacctct 5760

gctccaattc ctatgccaga gccagtgaaa ttccctgaag ctatccacga cctccagcca 5820

aagcttgctc aacatcccaa ggccacatcc atcctgttac aaggaaaccc caggacagca 5880

acaaagacgt tattcttgtt tcctgacggc tctggctcag ctacatctta cgctaccatc 5940

cccggactct ctcctgacgt ctgcgtttac gggttgaatt gcccatatat gaagacacct 6000

gagaagctca aatgcagcct agatgaactc actgcgccct atgtagcaga gattcgtcgt 6060

cggcaaccca agggtcctta cagcttcggt ggctggtcag caggagggat ctgtgcatat 6120

gatgcggcac gccatctaat gtttgaggaa ggtgaacaag tcgaccgctt gcttctcctt 6180

gataccccct tccccatcgg cctcgagaag ctgccgcaga gattgtacgg cttcttcaac 6240

tctatcggtc tcttcggtga aggtaaaacg gcaccaccct cctggctcct accccacttc 6300

ctagccttta tcgacgctct cgacgcatac aaggccgcgc cccttccatt caaagacgag 6360

aaatgggcca agaaactgcc caagacttat atcatctggg ccaaggacgg tgtttgcggt 6420

aagccgggag atccccggcc tgatcccccg acagacggtt ccaaggatcc caaggagatg 6480

gtctggcttc ttaatgaccg gaccgatctg ggacctaaca agtgggatac attggttgga 6540

cctgagaata ttggtggaat cacagtaatg gaagatgcta atcattttac gatgacgaag 6600

ggcgaaaaag cgaaagagtt gtctacattt atggctaacg ccatggctta a 6651

<210> 135

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3532 原型间隔子

<400> 135

acgctttgcg ccaagagatc 20

<210> 136

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3533 原型间隔子

<400> 136

cgccaagaga tcgcgaggct 20

<210> 137

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3534 原型间隔子

<400> 137

aagcactgcg acacaaagct 20

<210> 138

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3535 原型间隔子

<400> 138

cattctgccc aagttactcc 20

<210> 139

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3536 原型间隔子

<400> 139

cggaagccgg tctgttccaa 20

<210> 140

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> pAT3537 原型间隔子

<400> 140

tacctagtga accccaatag 20

<210> 141

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3941

<400> 141

aatttctact cttgtagata cgctttgcgc caagagatct ttttttttga gcatttatca 60

gc 62

<210> 142

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3942

<400> 142

aatttctact cttgtagatc gccaagagat cgcgaggctt ttttttttga gcatttatca 60

gc 62

<210> 143

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3943

<400> 143

aatttctact cttgtagata agcactgcga cacaaagctt ttttttttga gcatttatca 60

gc 62

<210> 144

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3944

<400> 144

aatttctact cttgtagatc attctgccca agttactcct ttttttttga gcatttatca 60

gc 62

<210> 145

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3945

<400> 145

aatttctact cttgtagatc ggaagccggt ctgttccaat ttttttttga gcatttatca 60

gc 62

<210> 146

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3946

<400> 146

aatttctact cttgtagatt acctagtgaa ccccaatagt ttttttttga gcatttatca 60

gc 62

<210> 147

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3912

<400> 147

tccaagttct ttgcatgc 18

<210> 148

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3613

<400> 148

tatctcaggt taggctcg 18

<210> 149

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 引物 oJaL188

<400> 149

ccatggtcct taccatgc 18

<210> 150

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3616

<400> 150

tatttatctc ccgatagtca tc 22

<210> 151

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT919

<400> 151

ctggctgtca aggcttcc 18

<210> 152

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT1040

<400> 152

tttgtggtgc agcttgaat 19

<210> 153

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT967

<400> 153

gcgaacacga accctac 17

<210> 154

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 引物 oAT3618

<400> 154

tcaaagcagc aaactcc 17

<210> 155

<211> 1232

<212> PRT

<213> 硫氧化菌属物种 PC08-66

<400> 155

Met Leu His Ala Phe Thr Asn Gln Tyr Gln Leu Ser Lys Thr Leu Arg

1 5 10 15

Phe Gly Ala Thr Leu Lys Glu Asp Glu Lys Lys Cys Lys Ser His Glu

20 25 30

Glu Leu Lys Gly Phe Val Asp Ile Ser Tyr Glu Asn Met Lys Ser Ser

35 40 45

Ala Thr Ile Ala Glu Ser Leu Asn Glu Asn Glu Leu Val Lys Lys Cys

50 55 60

Glu Arg Cys Tyr Ser Glu Ile Val Lys Phe His Asn Ala Trp Glu Lys

65 70 75 80

Ile Tyr Tyr Arg Thr Asp Gln Ile Ala Val Tyr Lys Asp Phe Tyr Arg

85 90 95

Gln Leu Ser Arg Lys Ala Arg Phe Asp Ala Gly Lys Gln Asn Ser Gln

100 105 110

Leu Ile Thr Leu Ala Ser Leu Cys Gly Met Tyr Gln Gly Ala Lys Leu

115 120 125

Ser Arg Tyr Ile Thr Asn Tyr Trp Lys Asp Asn Ile Thr Arg Gln Lys

130 135 140

Ser Phe Leu Lys Asp Phe Ser Gln Gln Leu His Gln Tyr Thr Arg Ala

145 150 155 160

Leu Glu Lys Ser Asp Lys Ala His Thr Lys Pro Asn Leu Ile Asn Phe

165 170 175

Asn Lys Thr Phe Met Val Leu Ala Asn Leu Val Asn Glu Ile Val Ile

180 185 190

Pro Leu Ser Asn Gly Ala Ile Ser Phe Pro Asn Ile Ser Lys Leu Glu

195 200 205

Asp Gly Glu Glu Ser His Leu Ile Glu Phe Ala Leu Asn Asp Tyr Ser

210 215 220

Gln Leu Ser Glu Leu Ile Gly Glu Leu Lys Asp Ala Ile Ala Thr Asn

225 230 235 240

Gly Gly Tyr Thr Pro Phe Ala Lys Val Thr Leu Asn His Tyr Thr Ala

245 250 255

Glu Gln Lys Pro His Val Phe Lys Asn Asp Ile Asp Ala Lys Ile Arg

260 265 270

Glu Leu Lys Leu Ile Gly Leu Val Glu Thr Leu Lys Gly Lys Ser Ser

275 280 285

Glu Gln Ile Glu Glu Tyr Phe Ser Asn Leu Asp Lys Phe Ser Thr Tyr

290 295 300

Asn Asp Arg Asn Gln Ser Val Ile Val Arg Thr Gln Cys Phe Lys Tyr

305 310 315 320

Lys Pro Ile Pro Phe Leu Val Lys His Gln Leu Ala Lys Tyr Ile Ser

325 330 335

Glu Pro Asn Gly Trp Asp Glu Asp Ala Val Ala Lys Val Leu Asp Ala

340 345 350

Val Gly Ala Ile Arg Ser Pro Ala His Asp Tyr Ala Asn Asn Gln Glu

355 360 365

Gly Phe Asp Leu Asn His Tyr Pro Ile Lys Val Ala Phe Asp Tyr Ala

370 375 380

Trp Glu Gln Leu Ala Asn Ser Leu Tyr Thr Thr Val Thr Phe Pro Gln

385 390 395 400

Glu Met Cys Glu Lys Tyr Leu Asn Ser Ile Tyr Gly Cys Glu Val Ser

405 410 415

Lys Glu Pro Val Phe Lys Phe Tyr Ala Asp Leu Leu Tyr Ile Arg Lys

420 425 430

Asn Leu Ala Val Leu Glu His Lys Asn Asn Leu Pro Ser Asn Gln Glu

435 440 445

Glu Phe Ile Cys Lys Ile Asn Asn Thr Phe Glu Asn Ile Val Leu Pro

450 455 460

Tyr Lys Ile Ser Gln Phe Glu Thr Tyr Lys Lys Asp Ile Leu Ala Trp

465 470 475 480

Ile Asn Asp Gly His Asp His Lys Lys Tyr Thr Asp Ala Lys Gln Gln

485 490 495

Leu Gly Phe Ile Arg Gly Gly Leu Lys Gly Arg Ile Lys Ala Glu Glu

500 505 510

Val Ser Gln Lys Asp Lys Tyr Gly Lys Ile Lys Ser Tyr Tyr Glu Asn

515 520 525

Pro Tyr Thr Lys Leu Thr Asn Glu Phe Lys Gln Ile Ser Ser Thr Tyr

530 535 540

Gly Lys Thr Phe Ala Glu Leu Arg Asp Lys Phe Lys Glu Lys Asn Glu

545 550 555 560

Ile Thr Lys Ile Thr His Phe Gly Ile Ile Ile Glu Asp Lys Asn Arg

565 570 575

Asp Arg Tyr Leu Leu Ala Ser Glu Leu Lys His Glu Gln Ile Asn His

580 585 590

Val Ser Thr Ile Leu Asn Lys Leu Asp Lys Ser Ser Glu Phe Ile Thr

595 600 605

Tyr Gln Val Lys Ser Leu Thr Ser Lys Thr Leu Ile Lys Leu Ile Lys

610 615 620

Asn His Thr Thr Lys Lys Gly Ala Ile Ser Pro Tyr Ala Asp Phe His

625 630 635 640

Thr Ser Lys Thr Gly Phe Asn Lys Asn Glu Ile Glu Lys Asn Trp Asp

645 650 655

Asn Tyr Lys Arg Glu Gln Val Leu Val Glu Tyr Val Lys Asp Cys Leu

660 665 670

Thr Asp Ser Thr Met Ala Lys Asn Gln Asn Trp Ala Glu Phe Gly Trp

675 680 685

Asn Phe Glu Lys Cys Asn Ser Tyr Glu Asp Ile Glu His Glu Ile Asp

690 695 700

Gln Lys Ser Tyr Leu Leu Gln Ser Asp Thr Ile Ser Lys Gln Ser Ile

705 710 715 720

Ala Ser Leu Val Glu Gly Gly Cys Leu Leu Leu Pro Ile Ile Asn Gln

725 730 735

Asp Ile Thr Ser Lys Glu Arg Lys Asp Lys Asn Gln Phe Ser Lys Asp

740 745 750

Trp Asn His Ile Phe Glu Gly Ser Lys Glu Phe Arg Leu His Pro Glu

755 760 765

Phe Ala Val Ser Tyr Arg Thr Pro Ile Glu Gly Tyr Pro Val Gln Lys

770 775 780

Arg Tyr Gly Arg Leu Gln Phe Val Cys Ala Phe Asn Ala His Ile Val

785 790 795 800

Pro Gln Asn Gly Glu Phe Ile Asn Leu Lys Lys Gln Ile Glu Asn Phe

805 810 815

Asn Asp Glu Asp Val Gln Lys Arg Asn Val Thr Glu Phe Asn Lys Lys

820 825 830

Val Asn His Ala Leu Ser Asp Lys Glu Tyr Val Val Ile Gly Ile Asp

835 840 845

Arg Gly Leu Lys Gln Leu Ala Thr Leu Cys Val Leu Asp Lys Arg Gly

850 855 860

Lys Ile Leu Gly Asp Phe Glu Ile Tyr Lys Lys Glu Phe Val Arg Ala

865 870 875 880

Glu Lys Arg Ser Glu Ser His Trp Glu His Thr Gln Ala Glu Thr Arg

885 890 895

His Ile Leu Asp Leu Ser Asn Leu Arg Val Glu Thr Thr Ile Glu Gly

900 905 910

Lys Lys Val Leu Val Asp Gln Ser Leu Thr Leu Val Lys Lys Asn Arg

915 920 925

Asp Thr Pro Asp Glu Glu Ala Thr Glu Glu Asn Lys Gln Lys Ile Lys

930 935 940

Leu Lys Gln Leu Ser Tyr Ile Arg Lys Leu Gln His Lys Met Gln Thr

945 950 955 960

Asn Glu Gln Asp Val Leu Asp Leu Ile Asn Asn Glu Pro Ser Asp Glu

965 970 975

Glu Phe Lys Lys Arg Ile Glu Gly Leu Ile Ser Ser Phe Gly Glu Gly

980 985 990

Gln Lys Tyr Ala Asp Leu Pro Ile Asn Thr Met Arg Glu Met Ile Ser

995 1000 1005

Asp Leu Gln Gly Val Ile Ala Arg Gly Asn Asn Gln Thr Glu Lys

1010 1015 1020

Asn Lys Ile Ile Glu Leu Asp Ala Ala Asp Asn Leu Lys Gln Gly

1025 1030 1035

Ile Val Ala Asn Met Ile Gly Ile Val Asn Tyr Ile Phe Ala Lys

1040 1045 1050

Tyr Ser Tyr Lys Ala Tyr Ile Ser Leu Glu Asp Leu Ser Arg Ala

1055 1060 1065

Tyr Gly Gly Ala Lys Ser Gly Tyr Asp Gly Arg Tyr Leu Pro Ser

1070 1075 1080

Thr Ser Gln Asp Glu Asp Val Asp Phe Lys Glu Gln Gln Asn Gln

1085 1090 1095

Met Leu Ala Gly Leu Gly Thr Tyr Gln Phe Phe Glu Met Gln Leu

1100 1105 1110

Leu Lys Lys Leu Gln Lys Ile Gln Ser Asp Asn Thr Val Leu Arg

1115 1120 1125

Phe Val Pro Ala Phe Arg Ser Ala Asp Asn Tyr Arg Asn Ile Leu

1130 1135 1140

Arg Leu Glu Glu Thr Lys Tyr Lys Ser Lys Pro Phe Gly Val Val

1145 1150 1155

His Phe Ile Asp Pro Lys Phe Thr Ser Lys Lys Cys Pro Val Cys

1160 1165 1170

Ser Lys Thr Asn Val Tyr Arg Asp Lys Asp Asp Ile Leu Val Cys

1175 1180 1185

Lys Glu Cys Gly Phe Arg Ser Asp Ser Gln Leu Lys Glu Arg Glu

1190 1195 1200

Asn Asn Ile His Tyr Ile His Asn Gly Asp Asp Asn Gly Ala Tyr

1205 1210 1215

His Ile Ala Leu Lys Ser Val Glu Asn Leu Ile Gln Met Lys

1220 1225 1230

<210> 156

<211> 3699

<212> DNA

<213> Sulfuricurvum sp. PC08-66

<220>

<221> CDS

<222> (1)..(3699)

<400> 156

atg ctt cac gct ttc act aat cag tat caa ctt tct aaa aca ttg aga 48

Met Leu His Ala Phe Thr Asn Gln Tyr Gln Leu Ser Lys Thr Leu Arg

1 5 10 15

ttc gga gca act ctg aaa gaa gac gag aaa aaa tgc aag agt cat gag 96

Phe Gly Ala Thr Leu Lys Glu Asp Glu Lys Lys Cys Lys Ser His Glu

20 25 30

gaa ctt aaa gga ttt gta gat att tca tat gaa aac atg aaa tct tcc 144

Glu Leu Lys Gly Phe Val Asp Ile Ser Tyr Glu Asn Met Lys Ser Ser

35 40 45

gct aca atc gct gaa agt ttg aac gaa aat gaa ctt gtg aaa aaa tgc 192

Ala Thr Ile Ala Glu Ser Leu Asn Glu Asn Glu Leu Val Lys Lys Cys

50 55 60

gaa agg tgt tat tct gag atc gtg aaa ttt cat aac gct tgg gag aaa 240

Glu Arg Cys Tyr Ser Glu Ile Val Lys Phe His Asn Ala Trp Glu Lys

65 70 75 80

atc tac tac agg aca gat caa att gct gtc tat aaa gat ttc tat agg 288

Ile Tyr Tyr Arg Thr Asp Gln Ile Ala Val Tyr Lys Asp Phe Tyr Arg

85 90 95

caa ctg tca aga aaa gct aga ttt gat gcc ggt aag caa aat tca caa 336

Gln Leu Ser Arg Lys Ala Arg Phe Asp Ala Gly Lys Gln Asn Ser Gln

100 105 110

ctg ata acc tta gct tcc ctt tgc ggt atg tac caa gga gct aag tta 384

Leu Ile Thr Leu Ala Ser Leu Cys Gly Met Tyr Gln Gly Ala Lys Leu

115 120 125

agt aga tac ata acc aat tat tgg aaa gat aac att act agg cag aaa 432

Ser Arg Tyr Ile Thr Asn Tyr Trp Lys Asp Asn Ile Thr Arg Gln Lys

130 135 140

tca ttt ctt aaa gat ttt tcc caa cag tta cat caa tac act cgt gca 480

Ser Phe Leu Lys Asp Phe Ser Gln Gln Leu His Gln Tyr Thr Arg Ala

145 150 155 160

ctg gaa aag tct gat aag gct cat aca aaa cct aat ctg atc aac ttc 528

Leu Glu Lys Ser Asp Lys Ala His Thr Lys Pro Asn Leu Ile Asn Phe

165 170 175

aat aag acc ttt atg gtg ttg gcc aat ctc gtg aac gaa ata gtt att 576

Asn Lys Thr Phe Met Val Leu Ala Asn Leu Val Asn Glu Ile Val Ile

180 185 190

cct ctt tct aat gga gcc atc tct ttt cca aac atc tct aag ctg gag 624

Pro Leu Ser Asn Gly Ala Ile Ser Phe Pro Asn Ile Ser Lys Leu Glu

195 200 205

gac ggg gaa gag tcc cat ctt ata gaa ttt gca ctc aat gac tat tct 672

Asp Gly Glu Glu Ser His Leu Ile Glu Phe Ala Leu Asn Asp Tyr Ser

210 215 220

cag ttg tct gaa tta att ggt gaa ttg aag gat gca ata gcc act aac 720

Gln Leu Ser Glu Leu Ile Gly Glu Leu Lys Asp Ala Ile Ala Thr Asn

225 230 235 240

ggt ggt tac aca cca ttt gca aag gtg acc ctt aat cat tat aca gca 768

Gly Gly Tyr Thr Pro Phe Ala Lys Val Thr Leu Asn His Tyr Thr Ala

245 250 255

gaa cag aaa cca cac gta ttt aaa aat gat att gat gct aaa ata cgt 816

Glu Gln Lys Pro His Val Phe Lys Asn Asp Ile Asp Ala Lys Ile Arg

260 265 270

gag ctt aag ttg att ggg ttg gtt gag acc ttg aaa gga aaa tcc agt 864

Glu Leu Lys Leu Ile Gly Leu Val Glu Thr Leu Lys Gly Lys Ser Ser

275 280 285

gaa cag att gag gaa tac ttc tca aat tta gac aag ttt agc aca tac 912

Glu Gln Ile Glu Glu Tyr Phe Ser Asn Leu Asp Lys Phe Ser Thr Tyr

290 295 300

aac gat agg aac caa tca gta atc gta aga act caa tgc ttt aag tat 960

Asn Asp Arg Asn Gln Ser Val Ile Val Arg Thr Gln Cys Phe Lys Tyr

305 310 315 320

aaa ccc att cct ttt ttg gtt aag cat caa ctt gca aag tac att tca 1008

Lys Pro Ile Pro Phe Leu Val Lys His Gln Leu Ala Lys Tyr Ile Ser

325 330 335

gaa cca aac ggt tgg gat gaa gac gcc gta gct aag gtt ctg gat gct 1056

Glu Pro Asn Gly Trp Asp Glu Asp Ala Val Ala Lys Val Leu Asp Ala

340 345 350

gtt gga gct att cgt tct cca gca cat gat tac gct aat aac caa gag 1104

Val Gly Ala Ile Arg Ser Pro Ala His Asp Tyr Ala Asn Asn Gln Glu

355 360 365

ggg ttt gat tta aac cat tat cct att aaa gtc gct ttc gat tat gct 1152

Gly Phe Asp Leu Asn His Tyr Pro Ile Lys Val Ala Phe Asp Tyr Ala

370 375 380

tgg gag cag ttg gct aat tct ttg tat acc acc gtg act ttt ccc caa 1200

Trp Glu Gln Leu Ala Asn Ser Leu Tyr Thr Thr Val Thr Phe Pro Gln

385 390 395 400

gaa atg tgc gaa aaa tat tta aat agt atc tac ggt tgt gaa gtc tcc 1248

Glu Met Cys Glu Lys Tyr Leu Asn Ser Ile Tyr Gly Cys Glu Val Ser

405 410 415

aag gag cct gta ttt aaa ttc tat gct gat ctg ctt tat atc agg aag 1296

Lys Glu Pro Val Phe Lys Phe Tyr Ala Asp Leu Leu Tyr Ile Arg Lys

420 425 430

aat ctg gct gta ctc gaa cat aag aac aat ctg ccc agt aat cag gaa 1344

Asn Leu Ala Val Leu Glu His Lys Asn Asn Leu Pro Ser Asn Gln Glu

435 440 445

gag ttc ata tgt aag atc aac aac aca ttt gag aac atc gtg tta cca 1392

Glu Phe Ile Cys Lys Ile Asn Asn Thr Phe Glu Asn Ile Val Leu Pro

450 455 460

tat aag att tct caa ttt gaa act tat aag aag gat ata ctt gcc tgg 1440

Tyr Lys Ile Ser Gln Phe Glu Thr Tyr Lys Lys Asp Ile Leu Ala Trp

465 470 475 480

ata aac gat ggg cat gac cat aaa aaa tat act gat gca aaa cag caa 1488

Ile Asn Asp Gly His Asp His Lys Lys Tyr Thr Asp Ala Lys Gln Gln

485 490 495

tta ggt ttt att agg ggt gga ctc aag ggt agg att aag gca gaa gaa 1536

Leu Gly Phe Ile Arg Gly Gly Leu Lys Gly Arg Ile Lys Ala Glu Glu

500 505 510

gtg tcc cag aaa gac aaa tat gga aaa atc aag tct tat tat gag aac 1584

Val Ser Gln Lys Asp Lys Tyr Gly Lys Ile Lys Ser Tyr Tyr Glu Asn

515 520 525

cct tac act aaa ctc acc aac gaa ttt aag caa ata tcc tct act tat 1632

Pro Tyr Thr Lys Leu Thr Asn Glu Phe Lys Gln Ile Ser Ser Thr Tyr

530 535 540

ggg aag acc ttc gct gag tta aga gac aaa ttt aaa gag aag aat gag 1680

Gly Lys Thr Phe Ala Glu Leu Arg Asp Lys Phe Lys Glu Lys Asn Glu

545 550 555 560

atc acc aaa att acc cac ttc ggt att ata ata gaa gat aaa aac aga 1728

Ile Thr Lys Ile Thr His Phe Gly Ile Ile Ile Glu Asp Lys Asn Arg

565 570 575

gac aga tat tta ctt gca agc gag ttg aag cac gaa caa atc aac cac 1776

Asp Arg Tyr Leu Leu Ala Ser Glu Leu Lys His Glu Gln Ile Asn His

580 585 590

gtc agt act atc ctt aac aag tta gat aaa tca tct gaa ttt att acc 1824

Val Ser Thr Ile Leu Asn Lys Leu Asp Lys Ser Ser Glu Phe Ile Thr

595 600 605

tat caa gtt aag agc ctt aca agc aaa aca ttg att aaa ttg att aaa 1872

Tyr Gln Val Lys Ser Leu Thr Ser Lys Thr Leu Ile Lys Leu Ile Lys

610 615 620

aat cac acc aca aag aag gga gcc att tca cca tat gct gat ttt cac 1920

Asn His Thr Thr Lys Lys Gly Ala Ile Ser Pro Tyr Ala Asp Phe His

625 630 635 640

acc agt aaa acc gga ttc aac aag aat gaa atc gaa aag aat tgg gat 1968

Thr Ser Lys Thr Gly Phe Asn Lys Asn Glu Ile Glu Lys Asn Trp Asp

645 650 655

aat tat aag aga gaa cag gta ttg gtt gag tat gtc aaa gat tgt ctg 2016

Asn Tyr Lys Arg Glu Gln Val Leu Val Glu Tyr Val Lys Asp Cys Leu

660 665 670

acc gat agt act atg gca aaa aac cag aac tgg gca gag ttc ggt tgg 2064

Thr Asp Ser Thr Met Ala Lys Asn Gln Asn Trp Ala Glu Phe Gly Trp

675 680 685

aat ttt gag aaa tgc aac tcc tat gag gat atc gaa cac gaa atc gac 2112

Asn Phe Glu Lys Cys Asn Ser Tyr Glu Asp Ile Glu His Glu Ile Asp

690 695 700

caa aaa tca tat ttg ctg cag agc gat aca att agc aag cag agt att 2160

Gln Lys Ser Tyr Leu Leu Gln Ser Asp Thr Ile Ser Lys Gln Ser Ile

705 710 715 720

gct tcc ctc gtg gag ggg ggc tgt ctt ctc ctt cct ata att aac caa 2208

Ala Ser Leu Val Glu Gly Gly Cys Leu Leu Leu Pro Ile Ile Asn Gln

725 730 735

gat ata aca agc aag gag agg aag gat aaa aat caa ttt tca aaa gat 2256

Asp Ile Thr Ser Lys Glu Arg Lys Asp Lys Asn Gln Phe Ser Lys Asp

740 745 750

tgg aac cat att ttc gaa ggt tcc aaa gaa ttc cgt ctc cac cca gag 2304

Trp Asn His Ile Phe Glu Gly Ser Lys Glu Phe Arg Leu His Pro Glu

755 760 765

ttc gca gtt agc tac agg aca cct att gaa ggg tat ccg gta cag aag 2352

Phe Ala Val Ser Tyr Arg Thr Pro Ile Glu Gly Tyr Pro Val Gln Lys

770 775 780

agg tac ggg cgt ctg cag ttc gtt tgc gct ttt aat gca cac atc gtt 2400

Arg Tyr Gly Arg Leu Gln Phe Val Cys Ala Phe Asn Ala His Ile Val

785 790 795 800

cca caa aat ggt gag ttc atc aat ttg aaa aag cag atc gag aac ttt 2448

Pro Gln Asn Gly Glu Phe Ile Asn Leu Lys Lys Gln Ile Glu Asn Phe

805 810 815

aac gat gaa gac gtt cag aaa cgt aat gtg act gaa ttc aat aaa aag 2496

Asn Asp Glu Asp Val Gln Lys Arg Asn Val Thr Glu Phe Asn Lys Lys

820 825 830

gtg aat cat gca ctt tcc gac aaa gaa tac gtc gtt att ggt att gat 2544

Val Asn His Ala Leu Ser Asp Lys Glu Tyr Val Val Ile Gly Ile Asp

835 840 845

aga ggc ctc aaa cag ctt gcc aca ctc tgt gtt tta gac aaa aga ggt 2592

Arg Gly Leu Lys Gln Leu Ala Thr Leu Cys Val Leu Asp Lys Arg Gly

850 855 860

aaa att ctt gga gat ttt gag atc tac aaa aag gaa ttt gtg cgt gct 2640

Lys Ile Leu Gly Asp Phe Glu Ile Tyr Lys Lys Glu Phe Val Arg Ala

865 870 875 880

gaa aaa aga agc gag agt cat tgg gaa cac aca caa gca gaa acc aga 2688

Glu Lys Arg Ser Glu Ser His Trp Glu His Thr Gln Ala Glu Thr Arg

885 890 895

cat atc ttg gat ctt tcc aat ttg cgt gtg gag aca aca ata gag ggt 2736

His Ile Leu Asp Leu Ser Asn Leu Arg Val Glu Thr Thr Ile Glu Gly

900 905 910

aaa aag gtt ctc gtg gac cag agc ctc aca ctt gtg aaa aag aat cgt 2784

Lys Lys Val Leu Val Asp Gln Ser Leu Thr Leu Val Lys Lys Asn Arg

915 920 925

gat aca cca gat gag gaa gct act gaa gaa aat aaa cag aaa atc aag 2832

Asp Thr Pro Asp Glu Glu Ala Thr Glu Glu Asn Lys Gln Lys Ile Lys

930 935 940

ttg aag cag ctc agc tat att aga aaa ttg cag cat aag atg cag act 2880

Leu Lys Gln Leu Ser Tyr Ile Arg Lys Leu Gln His Lys Met Gln Thr

945 950 955 960

aac gaa cag gac gtt tta gat tta att aat aat gaa cca tca gat gaa 2928

Asn Glu Gln Asp Val Leu Asp Leu Ile Asn Asn Glu Pro Ser Asp Glu

965 970 975

gaa ttt aag aaa aga atc gag ggg ctt att tcc agt ttt gga gaa gga 2976

Glu Phe Lys Lys Arg Ile Glu Gly Leu Ile Ser Ser Phe Gly Glu Gly

980 985 990

cag aag tac gct gac ctt cca att aat act atg aga gaa atg atc tct 3024

Gln Lys Tyr Ala Asp Leu Pro Ile Asn Thr Met Arg Glu Met Ile Ser

995 1000 1005

gat ctc cag gga gtt atc gct aga gga aac aac caa aca gag aaa 3069

Asp Leu Gln Gly Val Ile Ala Arg Gly Asn Asn Gln Thr Glu Lys

1010 1015 1020

aat aaa att att gaa tta gat gct gca gac aac ctt aaa caa ggt 3114

Asn Lys Ile Ile Glu Leu Asp Ala Ala Asp Asn Leu Lys Gln Gly

1025 1030 1035

att gta gct aac atg atc gga att gtt aat tac atc ttc gct aag 3159

Ile Val Ala Asn Met Ile Gly Ile Val Asn Tyr Ile Phe Ala Lys

1040 1045 1050

tat tca tac aag gct tac atc tct ctt gag gat ttg tca aga gcc 3204

Tyr Ser Tyr Lys Ala Tyr Ile Ser Leu Glu Asp Leu Ser Arg Ala

1055 1060 1065

tat gga ggt gca aag tcc ggt tat gac gga agg tat ctg cca tca 3249

Tyr Gly Gly Ala Lys Ser Gly Tyr Asp Gly Arg Tyr Leu Pro Ser

1070 1075 1080

act tca caa gac gag gat gta gat ttc aag gaa cag cag aat cag 3294

Thr Ser Gln Asp Glu Asp Val Asp Phe Lys Glu Gln Gln Asn Gln

1085 1090 1095

atg ctt gca ggt ttg ggt acc tac caa ttc ttc gag atg cag ctt 3339

Met Leu Ala Gly Leu Gly Thr Tyr Gln Phe Phe Glu Met Gln Leu

1100 1105 1110

ctg aaa aaa ctt caa aag att cag agt gat aac acc gtt ctg aga 3384

Leu Lys Lys Leu Gln Lys Ile Gln Ser Asp Asn Thr Val Leu Arg

1115 1120 1125

ttc gtg ccc gct ttc aga tct gca gat aac tat aga aat att ttg 3429

Phe Val Pro Ala Phe Arg Ser Ala Asp Asn Tyr Arg Asn Ile Leu

1130 1135 1140

aga ctt gag gaa act aaa tat aag tct aag ccg ttc ggc gtt gtt 3474

Arg Leu Glu Glu Thr Lys Tyr Lys Ser Lys Pro Phe Gly Val Val

1145 1150 1155

cat ttc ata gat cca aag ttt aca tca aag aaa tgc ccc gtc tgt 3519

His Phe Ile Asp Pro Lys Phe Thr Ser Lys Lys Cys Pro Val Cys

1160 1165 1170

agc aaa aca aat gta tac agg gac aag gat gac atc ttg gtt tgc 3564

Ser Lys Thr Asn Val Tyr Arg Asp Lys Asp Asp Ile Leu Val Cys

1175 1180 1185

aaa gag tgc ggt ttt agg agc gac tcc caa tta aaa gaa aga gag 3609

Lys Glu Cys Gly Phe Arg Ser Asp Ser Gln Leu Lys Glu Arg Glu

1190 1195 1200

aat aac att cat tat att cac aac ggg gac gat aac ggt gca tac 3654

Asn Asn Ile His Tyr Ile His Asn Gly Asp Asp Asn Gly Ala Tyr

1205 1210 1215

cac atc gcc ctt aag agc gtt gag aat ctt att cag atg aag taa 3699

His Ile Ala Leu Lys Ser Val Glu Asn Leu Ile Gln Met Lys

1220 1225 1230

<210> 157

<211> 1232

<212> PRT

<213> Sulfuricurvum sp. PC08-66

<400> 157

Met Leu His Ala Phe Thr Asn Gln Tyr Gln Leu Ser Lys Thr Leu Arg

1 5 10 15

Phe Gly Ala Thr Leu Lys Glu Asp Glu Lys Lys Cys Lys Ser His Glu

20 25 30

Glu Leu Lys Gly Phe Val Asp Ile Ser Tyr Glu Asn Met Lys Ser Ser

35 40 45

Ala Thr Ile Ala Glu Ser Leu Asn Glu Asn Glu Leu Val Lys Lys Cys

50 55 60

Glu Arg Cys Tyr Ser Glu Ile Val Lys Phe His Asn Ala Trp Glu Lys

65 70 75 80

Ile Tyr Tyr Arg Thr Asp Gln Ile Ala Val Tyr Lys Asp Phe Tyr Arg

85 90 95

Gln Leu Ser Arg Lys Ala Arg Phe Asp Ala Gly Lys Gln Asn Ser Gln

100 105 110

Leu Ile Thr Leu Ala Ser Leu Cys Gly Met Tyr Gln Gly Ala Lys Leu

115 120 125

Ser Arg Tyr Ile Thr Asn Tyr Trp Lys Asp Asn Ile Thr Arg Gln Lys

130 135 140

Ser Phe Leu Lys Asp Phe Ser Gln Gln Leu His Gln Tyr Thr Arg Ala

145 150 155 160

Leu Glu Lys Ser Asp Lys Ala His Thr Lys Pro Asn Leu Ile Asn Phe

165 170 175

Asn Lys Thr Phe Met Val Leu Ala Asn Leu Val Asn Glu Ile Val Ile

180 185 190

Pro Leu Ser Asn Gly Ala Ile Ser Phe Pro Asn Ile Ser Lys Leu Glu

195 200 205

Asp Gly Glu Glu Ser His Leu Ile Glu Phe Ala Leu Asn Asp Tyr Ser

210 215 220

Gln Leu Ser Glu Leu Ile Gly Glu Leu Lys Asp Ala Ile Ala Thr Asn

225 230 235 240

Gly Gly Tyr Thr Pro Phe Ala Lys Val Thr Leu Asn His Tyr Thr Ala

245 250 255

Glu Gln Lys Pro His Val Phe Lys Asn Asp Ile Asp Ala Lys Ile Arg

260 265 270

Glu Leu Lys Leu Ile Gly Leu Val Glu Thr Leu Lys Gly Lys Ser Ser

275 280 285

Glu Gln Ile Glu Glu Tyr Phe Ser Asn Leu Asp Lys Phe Ser Thr Tyr

290 295 300

Asn Asp Arg Asn Gln Ser Val Ile Val Arg Thr Gln Cys Phe Lys Tyr

305 310 315 320

Lys Pro Ile Pro Phe Leu Val Lys His Gln Leu Ala Lys Tyr Ile Ser

325 330 335

Glu Pro Asn Gly Trp Asp Glu Asp Ala Val Ala Lys Val Leu Asp Ala

340 345 350

Val Gly Ala Ile Arg Ser Pro Ala His Asp Tyr Ala Asn Asn Gln Glu

355 360 365

Gly Phe Asp Leu Asn His Tyr Pro Ile Lys Val Ala Phe Asp Tyr Ala

370 375 380

Trp Glu Gln Leu Ala Asn Ser Leu Tyr Thr Thr Val Thr Phe Pro Gln

385 390 395 400

Glu Met Cys Glu Lys Tyr Leu Asn Ser Ile Tyr Gly Cys Glu Val Ser

405 410 415

Lys Glu Pro Val Phe Lys Phe Tyr Ala Asp Leu Leu Tyr Ile Arg Lys

420 425 430

Asn Leu Ala Val Leu Glu His Lys Asn Asn Leu Pro Ser Asn Gln Glu

435 440 445

Glu Phe Ile Cys Lys Ile Asn Asn Thr Phe Glu Asn Ile Val Leu Pro

450 455 460

Tyr Lys Ile Ser Gln Phe Glu Thr Tyr Lys Lys Asp Ile Leu Ala Trp

465 470 475 480

Ile Asn Asp Gly His Asp His Lys Lys Tyr Thr Asp Ala Lys Gln Gln

485 490 495

Leu Gly Phe Ile Arg Gly Gly Leu Lys Gly Arg Ile Lys Ala Glu Glu

500 505 510

Val Ser Gln Lys Asp Lys Tyr Gly Lys Ile Lys Ser Tyr Tyr Glu Asn

515 520 525

Pro Tyr Thr Lys Leu Thr Asn Glu Phe Lys Gln Ile Ser Ser Thr Tyr

530 535 540

Gly Lys Thr Phe Ala Glu Leu Arg Asp Lys Phe Lys Glu Lys Asn Glu

545 550 555 560

Ile Thr Lys Ile Thr His Phe Gly Ile Ile Ile Glu Asp Lys Asn Arg

565 570 575

Asp Arg Tyr Leu Leu Ala Ser Glu Leu Lys His Glu Gln Ile Asn His

580 585 590

Val Ser Thr Ile Leu Asn Lys Leu Asp Lys Ser Ser Glu Phe Ile Thr

595 600 605

Tyr Gln Val Lys Ser Leu Thr Ser Lys Thr Leu Ile Lys Leu Ile Lys

610 615 620

Asn His Thr Thr Lys Lys Gly Ala Ile Ser Pro Tyr Ala Asp Phe His

625 630 635 640

Thr Ser Lys Thr Gly Phe Asn Lys Asn Glu Ile Glu Lys Asn Trp Asp

645 650 655

Asn Tyr Lys Arg Glu Gln Val Leu Val Glu Tyr Val Lys Asp Cys Leu

660 665 670

Thr Asp Ser Thr Met Ala Lys Asn Gln Asn Trp Ala Glu Phe Gly Trp

675 680 685

Asn Phe Glu Lys Cys Asn Ser Tyr Glu Asp Ile Glu His Glu Ile Asp

690 695 700

Gln Lys Ser Tyr Leu Leu Gln Ser Asp Thr Ile Ser Lys Gln Ser Ile

705 710 715 720

Ala Ser Leu Val Glu Gly Gly Cys Leu Leu Leu Pro Ile Ile Asn Gln

725 730 735

Asp Ile Thr Ser Lys Glu Arg Lys Asp Lys Asn Gln Phe Ser Lys Asp

740 745 750

Trp Asn His Ile Phe Glu Gly Ser Lys Glu Phe Arg Leu His Pro Glu

755 760 765

Phe Ala Val Ser Tyr Arg Thr Pro Ile Glu Gly Tyr Pro Val Gln Lys

770 775 780

Arg Tyr Gly Arg Leu Gln Phe Val Cys Ala Phe Asn Ala His Ile Val

785 790 795 800

Pro Gln Asn Gly Glu Phe Ile Asn Leu Lys Lys Gln Ile Glu Asn Phe

805 810 815

Asn Asp Glu Asp Val Gln Lys Arg Asn Val Thr Glu Phe Asn Lys Lys

820 825 830

Val Asn His Ala Leu Ser Asp Lys Glu Tyr Val Val Ile Gly Ile Asp

835 840 845

Arg Gly Leu Lys Gln Leu Ala Thr Leu Cys Val Leu Asp Lys Arg Gly

850 855 860

Lys Ile Leu Gly Asp Phe Glu Ile Tyr Lys Lys Glu Phe Val Arg Ala

865 870 875 880

Glu Lys Arg Ser Glu Ser His Trp Glu His Thr Gln Ala Glu Thr Arg

885 890 895

His Ile Leu Asp Leu Ser Asn Leu Arg Val Glu Thr Thr Ile Glu Gly

900 905 910

Lys Lys Val Leu Val Asp Gln Ser Leu Thr Leu Val Lys Lys Asn Arg

915 920 925

Asp Thr Pro Asp Glu Glu Ala Thr Glu Glu Asn Lys Gln Lys Ile Lys

930 935 940

Leu Lys Gln Leu Ser Tyr Ile Arg Lys Leu Gln His Lys Met Gln Thr

945 950 955 960

Asn Glu Gln Asp Val Leu Asp Leu Ile Asn Asn Glu Pro Ser Asp Glu

965 970 975

Glu Phe Lys Lys Arg Ile Glu Gly Leu Ile Ser Ser Phe Gly Glu Gly

980 985 990

Gln Lys Tyr Ala Asp Leu Pro Ile Asn Thr Met Arg Glu Met Ile Ser

995 1000 1005

Asp Leu Gln Gly Val Ile Ala Arg Gly Asn Asn Gln Thr Glu Lys

1010 1015 1020

Asn Lys Ile Ile Glu Leu Asp Ala Ala Asp Asn Leu Lys Gln Gly

1025 1030 1035

Ile Val Ala Asn Met Ile Gly Ile Val Asn Tyr Ile Phe Ala Lys

1040 1045 1050

Tyr Ser Tyr Lys Ala Tyr Ile Ser Leu Glu Asp Leu Ser Arg Ala

1055 1060 1065

Tyr Gly Gly Ala Lys Ser Gly Tyr Asp Gly Arg Tyr Leu Pro Ser

1070 1075 1080

Thr Ser Gln Asp Glu Asp Val Asp Phe Lys Glu Gln Gln Asn Gln

1085 1090 1095

Met Leu Ala Gly Leu Gly Thr Tyr Gln Phe Phe Glu Met Gln Leu

1100 1105 1110

Leu Lys Lys Leu Gln Lys Ile Gln Ser Asp Asn Thr Val Leu Arg

1115 1120 1125

Phe Val Pro Ala Phe Arg Ser Ala Asp Asn Tyr Arg Asn Ile Leu

1130 1135 1140

Arg Leu Glu Glu Thr Lys Tyr Lys Ser Lys Pro Phe Gly Val Val

1145 1150 1155

His Phe Ile Asp Pro Lys Phe Thr Ser Lys Lys Cys Pro Val Cys

1160 1165 1170

Ser Lys Thr Asn Val Tyr Arg Asp Lys Asp Asp Ile Leu Val Cys

1175 1180 1185

Lys Glu Cys Gly Phe Arg Ser Asp Ser Gln Leu Lys Glu Arg Glu

1190 1195 1200

Asn Asn Ile His Tyr Ile His Asn Gly Asp Asp Asn Gly Ala Tyr

1205 1210 1215

His Ile Ala Leu Lys Ser Val Glu Asn Leu Ile Gln Met Lys

1220 1225 1230

<210> 158

<211> 4995

<212> DNA

<213> 人工序列

<220>

<223> pMDT452: MAD7d-AID-UGI 核苷酸序列

<400> 158

atgaataatg gcacaaataa cttccagaac ttcattggca ttagcagcct gcaaaaaaca 60

ctgagaaatg cactgattcc gacagaaaca acacagcagt ttattgtcaa aaacggcatc 120

atcaaagagg atgaactgag aggcgaaaat cgccaaattc tgaaagatat catggacgac 180

tattaccgtg gctttatttc agaaacactg tccagcattg atgatatcga ttggacaagc 240

ctgttcgaga aaatggaaat ccaactgaaa aacggcgata acaaagacac gctgattaaa 300

gaacaaacgg aatatcgcaa agcgatccac aaaaagtttg caaatgatga ccgctttaaa 360

aacatgttca gcgcgaaact gattagcgat attctgccgg aatttgtcat ccacaataat 420

aactatagcg cgagcgagaa agaagaaaaa acacaggtca ttaaactgtt tagccgcttt 480

gccacaagct tcaaagacta tttcaaaaat cgcgcaaact gctttagcgc agatgatatt 540

tcatcatcaa gctgccatcg gattgtcaat gataatgcgg aaatcttttt tagcaacgca 600

ctggtctatc gcagaattgt taaatcattg agcaacgacg acatcaacaa aatctcaggc 660

gatatgaaag acagcctgaa agaaatgtca ctggaagaaa tctacagcta cgaaaaatac 720

ggcgaattta tcacacaaga aggcatcagc ttttacaacg atatttgcgg caaagtcaac 780

agctttatga atctgtattg ccagaaaaac aaagaaaaca aaaacctgta taaactgcag 840

aaactgcaca agcagattct gtgcattgca gatacatcat atgaagtccc gtacaaattt 900

gagagcgacg aagaagttta tcaaagcgtt aatggctttc tggataacat cagcagcaaa 960

catattgttg aacgcctgag aaaaattggc gataactata atggctacaa cctggacaaa 1020

atctacatcg tcagcaaatt ttacgaaagc gtcagccaaa aaacatatcg cgattgggaa 1080

acaattaata cagcgctgga aattcattat aacaacattc tgcctggcaa cggcaaaagc 1140

aaagcagata aagttaaaaa ggcggtcaaa aatgacctgc agaaaagcat tacagaaatc 1200

aatgaactgg tcagcaacta caaactgtgc tcagatgata atatcaaggc ggaaacgtac 1260

atccatgaaa ttagccatat cctgaacaac tttgaagcgc aagaactgaa atataacccg 1320

gaaatccatc tggttgaaag cgaactgaaa gcaagcgagc tgaaaaatgt tctggatgtc 1380

attatgaatg cgtttcattg gtgcagcgtc tttatgacag aagaactggt cgataaagat 1440

aacaactttt atgcggaact ggaagagatt tacgacgaaa tttatccggt catcagcctg 1500

tataatctgg ttcgcaatta tgtcacacag aaaccgtata gcacgaagaa aatcaaactg 1560

aactttggca ttccgacact ggcagatggc tggtcaaaat caaaagaata tagcaacaac 1620

gcgatcatcc tgatgcgcga taatctttat tatctgggca ttttcaacgc gaaaaacaag 1680

ccggacaaaa aaatcatcga aggcaatacg tcagagaaca aaggcgacta taaaaagatg 1740

atctataatc tgcttccggg accgaataaa atgatcccga aagtttttct gtcaagcaaa 1800

acaggcgtcg aaacatataa accgtcagcg tatattctgg aaggctacaa acagaacaaa 1860

cacatcaaaa gcagcaagga ctttgacatc acattttgcc atgatctgat cgactacttt 1920

aagaactgca ttgcaattca tccggaatgg aaaaacttcg gctttgattt ttcagacacg 1980

agcacgtatg aagatatcag cggcttttat agagaagttg aactgcaggg ctataaaatc 2040

gactggacat atatcagcga aaaggatatt gatctgctgc aagaaaaagg ccaactgtac 2100

ctgtttcaga tctacaacaa agacttcagc aaaaaaagca cgggcaatga taacctgcat 2160

acgatgtacc tgaaaaacct ttttagcgaa gagaacctga aagacattgt cctgaaactg 2220

aatggcgaag ccgaaatttt ctttcgcaaa tccagcatta aaaacccgat catccataaa 2280

aaaggcagca ttctggttaa ccgcacatat gaagcggaag aaaaagatca gtttggcaac 2340

attcagatcg tccgcaaaaa cattccggaa aacatttatc aagaactgta caaatacttt 2400

aacgataaaa gcgataaaga actgtccgac gaagcagcga aacttaaaaa tgttgttggc 2460

catcatgaag cggcaacaaa cattgttaaa gactatcgct atacgtacga taaatacttt 2520

ctgcatatgc cgatcacgat caacttcaaa gcaaataaaa cgggctttat caacgatcgc 2580

attctgcagt atattgccaa agaaaaggat ctgcatgtca tcggcattgc tagaggcgaa 2640

cgcaatctga tttatgtcag cgttattgat acatgcggca acattgtcga acagaaaagc 2700

tttaacattg tcaacggcta tgactaccag atcaagctga aacagcaaga aggcgcaaga 2760

caaattgctc gcaaagaatg gaaagaaatc ggcaagatca aagaaattaa agagggctat 2820

ctgagcctgg tcattcatga aatttctaaa atggtcatca aatataacgc gattatcgcc 2880

atggaagatc tgtcatatgg ctttaagaaa ggccgtttta aagtcgaaag acaggtctac 2940

cagaaattcg aaacaatgct gattaacaaa ctgaattatc tggtgtttaa agacatcagc 3000

atcacggaaa atggcggact gctgaaaggc tatcaactga catatattcc ggataagctt 3060

aaaaacgtcg gccatcaatg cggctgcatc ttttatgttc cggcagcgta tacatcaaaa 3120

attgatccga caacaggctt tgtcaacatc ttcaaattca aagatctgac ggtcgatgcg 3180

aaacgcgaat tcattaagaa atttgacagc atccgctacg acagcgagaa aaatcttttc 3240

tgctttacgt tcgactacaa caactttatc acgcagaata cggttatgtc aaaaagcagc 3300

tggtcagtct atacatatgg cgttagaatt aaacgcagat ttgtgaacgg cagatttagc 3360

aatgaaagcg atacaatcga catcacgaaa gacatggaaa aaacgcttga aatgacggat 3420

attaactggc gtgatggaca tgatcttcgc caggatatta tcgattatga aatcgtccag 3480

cacatctttg aaatctttag actgacagtc caaatgcgca attcactgtc agaacttgaa 3540

gatagagatt atgatcgcct gatttctccg gtcctgaatg aaaataacat cttttacgat 3600

agcgcaaaag caggcgacgc actgccgaaa gatgcggatg caaatggcgc atattgcatt 3660

gcactgaaag gcctgtatga aatcaaacaa atcaccgaga attggaaaga ggacggcaaa 3720

ttttcacggg ataaactgaa aatcagcaac aaggactggt ttgacttcat ccaaaataag 3780

cgctacctgc cgtcaagagc agatccgaag aaaaagagaa aagttggcgg aggcggatca 3840

ggcggaggtg gctcagcaga atatgttaga gcactgtttg attttaacgg caacgatgaa 3900

gaagatctgc cgttcaaaaa aggcgatatt ctgagaattc gcgacaaacc ggaagaacaa 3960

tggtggaatg cagaagatag cgaaggcaaa agaggcatga ttccggttcc gtatgttgaa 4020

aaatactcag gcgattacaa agatcatgac ggcgactata aagaccatga catcgattat 4080

aaggacgacg atgataaaag cagaatgacg gatgcggaat atgttcgcat tcatgaaaaa 4140

ctggacatct acacgttcaa gaagcagttc ttcaacaaca aaaaaagcgt cagccataga 4200

tgctacgttc tgtttgaact gaaaagaaga ggcgaaagac gcgcatgctt ttggggctat 4260

gcagttaata aaccgcaatc aggcacagaa cgcggaattc atgcagaaat ctttagcatt 4320

cgcaaagtcg aagaatatct gagagataat ccgggacagt ttacgattaa ttggtattca 4380

tcatggtcac cgtgcgcaga ttgcgcagaa aaaattctgg aatggtataa ccaagaactg 4440

agaggcaatg gccatacact gaaaatttgg gcatgcaaac tgtactacga aaaaaatgca 4500

cgcaatcaaa ttggcctgtg gaatctgcgc gataatggcg ttggcctgaa tgttatggtt 4560

agcgaacatt atcaatgctg ccgcaaaatc tttattcaga gcagccataa tcagctgaat 4620

gaaaatagat ggctggaaaa aacactgaaa cgtgcggaaa aaagacgctc agaactgagc 4680

attatgatcc aggttaaaat cctgcataca acgaaatcac cggcagtttc aagaggctca 4740

ggcacaaatc tgagcgatat tatcgaaaaa gaaacgggca aacagctggt cattcaagaa 4800

tcaattctga tgctgccgga agaagttgaa gaagtcattg gcaataaacc ggaaagcgat 4860

atcctggttc atacagcata tgatgaaagc acagatgaaa atgtcatgct gctgacatca 4920

gatgcaccgg aatacaaacc gtgggcactt gttattcaag atagcaatgg cgagaacaag 4980

atcaaaatgc tgtaa 4995

<210> 159

<211> 1664

<212> PRT

<213> 人工序列

<220>

<223> pMDT452: MAD7d-AID-UGI多肽序列

<400> 159

Met Asn Asn Gly Thr Asn Asn Phe Gln Asn Phe Ile Gly Ile Ser Ser

1 5 10 15

Leu Gln Lys Thr Leu Arg Asn Ala Leu Ile Pro Thr Glu Thr Thr Gln

20 25 30

Gln Phe Ile Val Lys Asn Gly Ile Ile Lys Glu Asp Glu Leu Arg Gly

35 40 45

Glu Asn Arg Gln Ile Leu Lys Asp Ile Met Asp Asp Tyr Tyr Arg Gly

50 55 60

Phe Ile Ser Glu Thr Leu Ser Ser Ile Asp Asp Ile Asp Trp Thr Ser

65 70 75 80

Leu Phe Glu Lys Met Glu Ile Gln Leu Lys Asn Gly Asp Asn Lys Asp

85 90 95

Thr Leu Ile Lys Glu Gln Thr Glu Tyr Arg Lys Ala Ile His Lys Lys

100 105 110

Phe Ala Asn Asp Asp Arg Phe Lys Asn Met Phe Ser Ala Lys Leu Ile

115 120 125

Ser Asp Ile Leu Pro Glu Phe Val Ile His Asn Asn Asn Tyr Ser Ala

130 135 140

Ser Glu Lys Glu Glu Lys Thr Gln Val Ile Lys Leu Phe Ser Arg Phe

145 150 155 160

Ala Thr Ser Phe Lys Asp Tyr Phe Lys Asn Arg Ala Asn Cys Phe Ser

165 170 175

Ala Asp Asp Ile Ser Ser Ser Ser Cys His Arg Ile Val Asn Asp Asn

180 185 190

Ala Glu Ile Phe Phe Ser Asn Ala Leu Val Tyr Arg Arg Ile Val Lys

195 200 205

Ser Leu Ser Asn Asp Asp Ile Asn Lys Ile Ser Gly Asp Met Lys Asp

210 215 220

Ser Leu Lys Glu Met Ser Leu Glu Glu Ile Tyr Ser Tyr Glu Lys Tyr

225 230 235 240

Gly Glu Phe Ile Thr Gln Glu Gly Ile Ser Phe Tyr Asn Asp Ile Cys

245 250 255

Gly Lys Val Asn Ser Phe Met Asn Leu Tyr Cys Gln Lys Asn Lys Glu

260 265 270

Asn Lys Asn Leu Tyr Lys Leu Gln Lys Leu His Lys Gln Ile Leu Cys

275 280 285

Ile Ala Asp Thr Ser Tyr Glu Val Pro Tyr Lys Phe Glu Ser Asp Glu

290 295 300

Glu Val Tyr Gln Ser Val Asn Gly Phe Leu Asp Asn Ile Ser Ser Lys

305 310 315 320

His Ile Val Glu Arg Leu Arg Lys Ile Gly Asp Asn Tyr Asn Gly Tyr

325 330 335

Asn Leu Asp Lys Ile Tyr Ile Val Ser Lys Phe Tyr Glu Ser Val Ser

340 345 350

Gln Lys Thr Tyr Arg Asp Trp Glu Thr Ile Asn Thr Ala Leu Glu Ile

355 360 365

His Tyr Asn Asn Ile Leu Pro Gly Asn Gly Lys Ser Lys Ala Asp Lys

370 375 380

Val Lys Lys Ala Val Lys Asn Asp Leu Gln Lys Ser Ile Thr Glu Ile

385 390 395 400

Asn Glu Leu Val Ser Asn Tyr Lys Leu Cys Ser Asp Asp Asn Ile Lys

405 410 415

Ala Glu Thr Tyr Ile His Glu Ile Ser His Ile Leu Asn Asn Phe Glu

420 425 430

Ala Gln Glu Leu Lys Tyr Asn Pro Glu Ile His Leu Val Glu Ser Glu

435 440 445

Leu Lys Ala Ser Glu Leu Lys Asn Val Leu Asp Val Ile Met Asn Ala

450 455 460

Phe His Trp Cys Ser Val Phe Met Thr Glu Glu Leu Val Asp Lys Asp

465 470 475 480

Asn Asn Phe Tyr Ala Glu Leu Glu Glu Ile Tyr Asp Glu Ile Tyr Pro

485 490 495

Val Ile Ser Leu Tyr Asn Leu Val Arg Asn Tyr Val Thr Gln Lys Pro

500 505 510

Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Gly Ile Pro Thr Leu Ala

515 520 525

Asp Gly Trp Ser Lys Ser Lys Glu Tyr Ser Asn Asn Ala Ile Ile Leu

530 535 540

Met Arg Asp Asn Leu Tyr Tyr Leu Gly Ile Phe Asn Ala Lys Asn Lys

545 550 555 560

Pro Asp Lys Lys Ile Ile Glu Gly Asn Thr Ser Glu Asn Lys Gly Asp

565 570 575

Tyr Lys Lys Met Ile Tyr Asn Leu Leu Pro Gly Pro Asn Lys Met Ile

580 585 590

Pro Lys Val Phe Leu Ser Ser Lys Thr Gly Val Glu Thr Tyr Lys Pro

595 600 605

Ser Ala Tyr Ile Leu Glu Gly Tyr Lys Gln Asn Lys His Ile Lys Ser

610 615 620

Ser Lys Asp Phe Asp Ile Thr Phe Cys His Asp Leu Ile Asp Tyr Phe

625 630 635 640

Lys Asn Cys Ile Ala Ile His Pro Glu Trp Lys Asn Phe Gly Phe Asp

645 650 655

Phe Ser Asp Thr Ser Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu

660 665 670

Val Glu Leu Gln Gly Tyr Lys Ile Asp Trp Thr Tyr Ile Ser Glu Lys

675 680 685

Asp Ile Asp Leu Leu Gln Glu Lys Gly Gln Leu Tyr Leu Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Lys Lys Ser Thr Gly Asn Asp Asn Leu His

705 710 715 720

Thr Met Tyr Leu Lys Asn Leu Phe Ser Glu Glu Asn Leu Lys Asp Ile

725 730 735

Val Leu Lys Leu Asn Gly Glu Ala Glu Ile Phe Phe Arg Lys Ser Ser

740 745 750

Ile Lys Asn Pro Ile Ile His Lys Lys Gly Ser Ile Leu Val Asn Arg

755 760 765

Thr Tyr Glu Ala Glu Glu Lys Asp Gln Phe Gly Asn Ile Gln Ile Val

770 775 780

Arg Lys Asn Ile Pro Glu Asn Ile Tyr Gln Glu Leu Tyr Lys Tyr Phe

785 790 795 800

Asn Asp Lys Ser Asp Lys Glu Leu Ser Asp Glu Ala Ala Lys Leu Lys

805 810 815

Asn Val Val Gly His His Glu Ala Ala Thr Asn Ile Val Lys Asp Tyr

820 825 830

Arg Tyr Thr Tyr Asp Lys Tyr Phe Leu His Met Pro Ile Thr Ile Asn

835 840 845

Phe Lys Ala Asn Lys Thr Gly Phe Ile Asn Asp Arg Ile Leu Gln Tyr

850 855 860

Ile Ala Lys Glu Lys Asp Leu His Val Ile Gly Ile Ala Arg Gly Glu

865 870 875 880

Arg Asn Leu Ile Tyr Val Ser Val Ile Asp Thr Cys Gly Asn Ile Val

885 890 895

Glu Gln Lys Ser Phe Asn Ile Val Asn Gly Tyr Asp Tyr Gln Ile Lys

900 905 910

Leu Lys Gln Gln Glu Gly Ala Arg Gln Ile Ala Arg Lys Glu Trp Lys

915 920 925

Glu Ile Gly Lys Ile Lys Glu Ile Lys Glu Gly Tyr Leu Ser Leu Val

930 935 940

Ile His Glu Ile Ser Lys Met Val Ile Lys Tyr Asn Ala Ile Ile Ala

945 950 955 960

Met Glu Asp Leu Ser Tyr Gly Phe Lys Lys Gly Arg Phe Lys Val Glu

965 970 975

Arg Gln Val Tyr Gln Lys Phe Glu Thr Met Leu Ile Asn Lys Leu Asn

980 985 990

Tyr Leu Val Phe Lys Asp Ile Ser Ile Thr Glu Asn Gly Gly Leu Leu

995 1000 1005

Lys Gly Tyr Gln Leu Thr Tyr Ile Pro Asp Lys Leu Lys Asn Val

1010 1015 1020

Gly His Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr

1025 1030 1035

Ser Lys Ile Asp Pro Thr Thr Gly Phe Val Asn Ile Phe Lys Phe

1040 1045 1050

Lys Asp Leu Thr Val Asp Ala Lys Arg Glu Phe Ile Lys Lys Phe

1055 1060 1065

Asp Ser Ile Arg Tyr Asp Ser Glu Lys Asn Leu Phe Cys Phe Thr

1070 1075 1080

Phe Asp Tyr Asn Asn Phe Ile Thr Gln Asn Thr Val Met Ser Lys

1085 1090 1095

Ser Ser Trp Ser Val Tyr Thr Tyr Gly Val Arg Ile Lys Arg Arg

1100 1105 1110

Phe Val Asn Gly Arg Phe Ser Asn Glu Ser Asp Thr Ile Asp Ile

1115 1120 1125

Thr Lys Asp Met Glu Lys Thr Leu Glu Met Thr Asp Ile Asn Trp

1130 1135 1140

Arg Asp Gly His Asp Leu Arg Gln Asp Ile Ile Asp Tyr Glu Ile

1145 1150 1155

Val Gln His Ile Phe Glu Ile Phe Arg Leu Thr Val Gln Met Arg

1160 1165 1170

Asn Ser Leu Ser Glu Leu Glu Asp Arg Asp Tyr Asp Arg Leu Ile

1175 1180 1185

Ser Pro Val Leu Asn Glu Asn Asn Ile Phe Tyr Asp Ser Ala Lys

1190 1195 1200

Ala Gly Asp Ala Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Cys Ile Ala Leu Lys Gly Leu Tyr Glu Ile Lys Gln Ile Thr Glu

1220 1225 1230

Asn Trp Lys Glu Asp Gly Lys Phe Ser Arg Asp Lys Leu Lys Ile

1235 1240 1245

Ser Asn Lys Asp Trp Phe Asp Phe Ile Gln Asn Lys Arg Tyr Leu

1250 1255 1260

Pro Ser Arg Ala Asp Pro Lys Lys Lys Arg Lys Val Gly Gly Gly

1265 1270 1275

Gly Ser Gly Gly Gly Gly Ser Ala Glu Tyr Val Arg Ala Leu Phe

1280 1285 1290

Asp Phe Asn Gly Asn Asp Glu Glu Asp Leu Pro Phe Lys Lys Gly

1295 1300 1305

Asp Ile Leu Arg Ile Arg Asp Lys Pro Glu Glu Gln Trp Trp Asn

1310 1315 1320

Ala Glu Asp Ser Glu Gly Lys Arg Gly Met Ile Pro Val Pro Tyr

1325 1330 1335

Val Glu Lys Tyr Ser Gly Asp Tyr Lys Asp His Asp Gly Asp Tyr

1340 1345 1350

Lys Asp His Asp Ile Asp Tyr Lys Asp Asp Asp Asp Lys Ser Arg

1355 1360 1365

Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile

1370 1375 1380

Tyr Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser

1385 1390 1395

His Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg

1400 1405 1410

Arg Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly

1415 1420 1425

Thr Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val

1430 1435 1440

Glu Glu Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp

1445 1450 1455

Tyr Ser Ser Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu

1460 1465 1470

Glu Trp Tyr Asn Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys

1475 1480 1485

Ile Trp Ala Cys Lys Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln

1490 1495 1500

Ile Gly Leu Trp Asn Leu Arg Asp Asn Gly Val Gly Leu Asn Val

1505 1510 1515

Met Val Ser Glu His Tyr Gln Cys Cys Arg Lys Ile Phe Ile Gln

1520 1525 1530

Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp Leu Glu Lys Thr

1535 1540 1545

Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser Ile Met Ile

1550 1555 1560

Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val Ser Arg

1565 1570 1575

Gly Ser Gly Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly

1580 1585 1590

Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu

1595 1600 1605

Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val

1610 1615 1620

His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu Leu

1625 1630 1635

Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala Leu Val Ile Gln

1640 1645 1650

Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu

1655 1660

<210> 160

<211> 7682

<212> DNA

<213> 人工序列

<220>

<223> pMDT454 核苷酸序列

<400> 160

aactaactca acgctagtag tggatttaat cccaaatgag ccaacagaac cagaaccaga 60

aacagaatca gaacaagtaa cattggattt agaaatggaa gaagaaaaaa gcaatgactt 120

cgtgtgaata atgcacgaaa tcgttgctta ttttttttaa aagcggtata ctagatataa 180

cgaaacaacg aactgaatag aaacgaaaaa agagccatga cacatttata aaatgtttga 240

cgacatttta taaatgcata gcccgataag attgccaaac caacgcttat cagttagtca 300

gatgaactct tccctcgtaa gaagttattt aattaacttt gtttgaagac ggtatataac 360

cgtactatca ttatataggg aaatcagaga gttttcaagt atctaagcta ctgaatttaa 420

gaattgttaa gcaatcaatc ggaaatcgtt tgattgcttt ttttgtattc atttatagaa 480

ggtggagttt gtatgaatca tgatgaatgt aaaacttata taaaaaatag tttattggag 540

ataagaaaat tagcaaatat ctatacacta gaaacgttta agaaagagtt agaaaagaga 600

aatatctact tagaaacaaa atcagataag tatttttctt cggaggggga agattatata 660

tataagttaa tagaaaataa caaaataatt tattcgatta gtggaaaaaa attgacttat 720

aaaggaaaaa aatctttttc aaaacatgca atattgaaac agttgaatga aaaagcaaac 780

caagttaatt aaacaaccta ttttatagga tttataggaa aggagaacag ctgaatgaat 840

atcccttttg ttgtagaaac tgtgcttcat gacggcttgt taaagtacaa atttaaaaat 900

agtaaaattc gctcaatcac taccaagcca ggtaaaagca aaggggctat ttttgcgtat 960

cgctcaaaat caagcatgat tggcggtcgt ggtgttgttc tgacttccga ggaagcgatt 1020

caagaaaatc aagatacatt tacacattgg acacccaacg tttatcgtta tggaacgtat 1080

gcagacgaaa accgttcata cacgaaagga cattctgaaa acaatttaag acaaatcaat 1140

accttcttta ttgattttga tattcacacg gcaaaagaaa ctatttcagc aagcgatatt 1200

ttaacaaccg ctattgattt aggttttatg cctactatga ttatcaaatc tgataaaggt 1260

tatcaagcat attttgtttt agaaacgcca gtctatgtga cttcaaaatc agaatttaaa 1320

tctgtcaaag cagccaaaat aatttcgcaa aatatccgag aatattttgg aaagtctttg 1380

ccagttgatc taacgtgtaa tcattttggt attgctcgca taccaagaac ggacaatgta 1440

gaattttttg atcctaatta ccgttattct ttcaaagaat ggcaagattg gtctttcaaa 1500

caaacagata ataagggctt tactcgttca agtctaacgg ttttaagcgg tacagaaggc 1560

aaaaaacaag tagatgaacc ctggtttaat ctcttattgc acgaaacgaa attttcagga 1620

gaaaagggtt taatagggcg taataacgtc atgtttaccc tctctttagc ctactttagt 1680

tcaggctatt caatcgaaac gtgcgaatat aatatgtttg agtttaataa tcgattagat 1740

caacccttag aagaaaaaga agtaatcaaa attgttagaa gtgcctattc agaaaactat 1800

caaggggcta atagggaata cattaccatt ctttgcaaag cttgggtatc aagtgattta 1860

accagtaaag atttatttgt ccgtcaaggg tggtttaaat tcaagaaaaa aagaagcgaa 1920

cgtcaacgtg ttcatttgtc agaatggaaa gaagatttaa tggcttatat tagcgaaaaa 1980

agcgatgtat acaagcctta tttagtgacg accaaaaaag agattagaga agtgctaggc 2040

attcctgaac ggacattaga taaattgctg aaggtactga aggcgaatca ggaaattttc 2100

tttaagatta aaccaggaag aaatggtggc attcaacttg ctagtgttaa atcattgttg 2160

ctatcgatca ttaaagtaaa aaaagaagaa aaagaaagct atataaaggc gctgacaaat 2220

tcttttgact tagagcatac attcattcaa gagactttaa acaagctagc agaacgccct 2280

aaaacggaca cacaactcga tttgtttagc tatgatacag gctgaaaata aaacccgcac 2340

tatgccatta catttatatc tatgatacgt gtttgttttt tctttgctgt ttagcgaatg 2400

attagcagaa atatacagag taagatttta attaattatt agggggagaa ggagagagta 2460

gcccgaaaac ttttagttgg cttggactga acgaagtgag ggaaaggcta ctaaaacgtc 2520

gaggggcagt gagagcgaag cgaacacttg attttttaat tttctatctt ttataggtca 2580

ttagagtata cttatttgtc ctataaacta tttagcagca taatagattt attgaatagg 2640

tcatttaagt tgagcatatt agaggaggaa aatcttggag aaatatttga agaacccgat 2700

tacatggatt ggattagttc ttgtggttac gtggttttta actaaaagta gtgaattttt 2760

gatttttggt gtgtgtgtct tgttgttagt atttgctagt caaagtgatt aaatagaatt 2820

catatccaat ttattttttt cttaacaagg gaggtgtttt ttaacatgac taaagtaggg 2880

tatgcacgtg tcagtagcaa agaacagaac ttagatagac aactgaaagc gttagagggc 2940

gtttctaagg tcttttcaga caaagcaagc ggtcaatcgg tcgaacgccc acaattacaa 3000

gctatgctta actatattcg tgaaggggat atagttgttg ttactgaatt agatcgatta 3060

ggacgaaata ataaagaatt aacagaattg atgaatcaaa ttcaaattaa gggggcaacc 3120

ctggaagtct taaatttacc ctcaatgaat ggtattgaag atgaaaattt aagacggctg 3180

attaataatt tagtgattga attgtataag taccaagcgg aatctgaacg caaacgaatt 3240

aaagaacgcc aagcccaagg aattgaaatt gctaagaaaa aaggaaaatt caaagggcga 3300

caactgaaat tcaaagaaaa tgatccacgt ttacaacacg ctttcgattt gtttttgaac 3360

ggtttatccg ataaagaagt tgaagaacaa actggaatta atcgccgaac gtttagaagg 3420

tatcgatcaa gatacaacgt gacagtcgat caaagaaaaa acaatgaaaa gagggatagt 3480

taatgagtac ggttatttta gctgaaaaac caagccaggc attagcctat gcaagtgctt 3540

taaaacaaag caccaaaaaa gacggttatt ttgagatcaa agacccaatc tttgcagatg 3600

aaacgtttat cacgtttggt tttgggcatt tagtcgagtt agcagaacca ggtcattatg 3660

acgaaaagtg gcaaaattgg aaacttgaat cattgccgat ttttcctgat cgatacgatt 3720

ttgaagtggc aacagataaa aaaaagcagt ttaaaattgt tgctgaactt ttaaaacaag 3780

caaatacaat cattgtcgca acagatagcg acagagaagg cgaaaacatt gcctggtcga 3840

tcattcataa agcaaatgcc ttttctaaag ataaaacgta taaaagacta tggatcaata 3900

gtttagaaaa agatgtgatc cgtagcggtt ttcaaaattt gcaaccagga atgaattact 3960

atccctttta tcaagaagcg caaacacgcc aaattgccga ttggttgatc ggcatgaatg 4020

caagcccttt gtatacgtta aatttacagc agaagggcgt acaaggtaca ttttcactag 4080

gacgtgttca aacgcccacc ttatatctta tttttcagcg ccaggaagcc atagaaaact 4140

ttagaaaaga accttttttc gaggtggaag ctagtataaa agtaaaccaa gggtcattta 4200

agggcgttat aagccccaca cagcgcttta aaacccaaga ggagctttta gcttttgttt 4260

cttctgaaca agctaaaata ggcaatcaag aggggataat tgctgatgtt caaaccaaag 4320

agaagaaaac gaatagtccg agtttgtttt ctttaagtag tttgcaatca aaagttaatc 4380

agctttataa agcgacagcg agccaaactt taaaagctat gcaaggactg tatgaagcaa 4440

aattattgag ttatccaaga acagatacac catttattac agagaacgaa tttgcttatt 4500

taaaagcgaa ttttggcaaa tatagcggtt ttttaggact tgatcttgaa atggttcaaa 4560

cagagcctag aaagcgttat gtggacggta gtaaggtaca ggaacaccac gccattatcc 4620

caacaaaaca agtacctacc gaatctgcat tagcgaaaat ggacgattta caacgaaaaa 4680

tatatgcttt agtcgttaaa acgaccgttg ccatgtttct acctgattat ttgtatgaag 4740

aaactaagat acaaaccaaa gtagccgact tactttttca atcaataggc aagacaccaa 4800

agcaagaagg ttggaaaatt cttttcaaac aacaaaccaa agaagaagaa gaggacgttc 4860

aaacgttacc cttggttatc attggagaac atgccgaggt tgacgttaag agtgccgaaa 4920

aagaaacaca accaccgaaa gcttttacag agggtacatt attaactgct atgaaaacgg 4980

cgaataaaac ggttgatgat gaagaagcaa tcaagatttt acaagaagtt gaggggattg 5040

gaacagaagc gacaagagca agcattattg aagccttgaa acaaaaagaa tatatccaag 5100

tgattaagaa taagcttgtt gtaactgaaa aaggaaaatt attgtgccag gcagttgaaa 5160

gtcagcacct tttaacgagt gctgaaatga cggctaaatg ggaaacgtat ttaaaaaaaa 5220

tcggtaaaag agaaggcaat caagagaact ttattacgaa tatcaaaaaa ttcattgttc 5280

atttactgga agctgtacct aacgatatag aaaaactaaa tttttctgat taccaggaac 5340

agaaagaaaa agaagcagaa aaaagtattg taggaaaatg tcctaagtgt ggcaacaata 5400

ttgtattaaa aaaatcgttt tatggttgtt caaattatcc tgaatgtaag tttactttag 5460

ctgaacattt tagaaagaaa aaactcacca aaacaaatgt aaaagaatta ctagagggaa 5520

aagaaaccct ggtaaaagga atcaaaacga aagatagaaa gtcctacaat gccgttgtaa 5580

aaatcggaga aaagggatat attgatttta tatctttctc aaaataaaca taaaagccct 5640

ttaaagaggg cttttatata ttaatcacaa atcacttatc acaaatcaca agtgatttgt 5700

gattgttgat gataaaataa gaataagaag aaatagaaag aagtgagtga ttgtgggaaa 5760

tttaggcgca caaaaagaaa aacgaaatga tacaccaatc agtgcaaaaa aagatataat 5820

gggagataag acggttcgtg ttcgtgctga cttgcaccat atcataaaaa tcgaaacagc 5880

aaagaatggc ggaaacgtaa aagaagttat ggaaataaga cttagaagca aacttaagag 5940

tgtgttgata gtgcagtatc ttaaaatttt gtataatagg aattgaagtt aaattagatg 6000

ctaaaaattt gtaattaaga aggagtgatt acatgaacaa aaatataaaa tattctcaaa 6060

actttttaac gagtgaaaaa gtactcaacc aaataataaa acaattgaat ttaaaagaaa 6120

ccgataccgt ttacgaaatt ggaacaggta aagggcattt aacgacgaaa ctggctaaaa 6180

taagtaaaca ggtaacgtct attgaattag acagtcatct attcaactta tcgtcagaaa 6240

aattaaaact gaatactcgt gtcactttaa ttcaccaaga tattctacag tttcaattcc 6300

ctaacaaaca gaggtataaa attgttggga gtattcctta ccatttaagc acacaaatta 6360

ttaaaaaagt ggtttttgaa agccatgcgt ctgacatcta tctgattgtt gaagaaggat 6420

tctacaagcg taccttggat attcaccgaa cactagggtt gctcttgcac actcaagtct 6480

cgattcagca attgcttaag ctgccagcgg aatgctttca tcctaaacca aaagtaaaca 6540

gtgtcttaat aaaacttacc cgccatacca cagatgttcc agataaatat tggaagctat 6600

atacgtactt tgtttcaaaa tgggtcaatc gagaatatcg tcaactgttt actaaaaatc 6660

agtttcatca agcaatgaaa cacgccaaag taaacaattt aagtaccgtt acttatgagc 6720

aagtattgtc tatttttaat agttatctat tatttaacgg gaggaaataa ttctatgagt 6780

cgcttttgta aatttggaaa gttacacgtt actaaaggga atgtagataa attattaggt 6840

atactactga cagcttccaa ggagctaaag agctggcgaa agggggatgt gctgcaaggc 6900

gattaagttg ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg acggccagtg 6960

aattgatcaa gctttaaatg catgctagca acgcggccgc gttgctagca tgcatttaaa 7020

gcttgatcaa ttcgagctca ttattaatct gttcagcaat cgggcgcgat tgctgaataa 7080

aagatacgag agacctctct tgtatctttt ttattttgag tggttttgtc cgttacacta 7140

gaaaaccgaa agacaataaa aattttattc ttgctgagtc tggctttcgg taagctagac 7200

aaaacggaca aaataaaaat tggcaagggt ttaaaggtgg agattttttg agtgatcttc 7260

tcaaaaaata ctacctgtcc cttgctgatt tttaaacgag cacgagagca aaacccccct 7320

ttgctgaggt ggcagagggc aggttttttt gtttcttttt tctcgtaaaa aaaagaaagg 7380

tcttaaaggt tttatggttt tggtcggcac tgccgacagc ctcgcagagc acacacttta 7440

tgaatataaa gtatagtgtg ttatacttta cttggaagtg gttgccggaa agagcgaaaa 7500

tgcctcacat tgtcgacggt atcgataagc ttcccatact gaaactgcgg actatctaca 7560

agagtagaaa ttaaaaaggt cttttgacca ttttcttata caaattatat tatacatatc 7620

agtaaaataa tgtcaacccc cctttattcc ttttttttac acagcggaca gtctggacag 7680

ca 7682

<210> 161

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> PS1-AID 原型间隔子 pMDT454

<400> 161

agtccgcagt ttcagtatgg g 21

<210> 162

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> PS2-AID 原型间隔子 pMDT455

<400> 162

agatgtccca agcaaacggc a 21

<210> 163

<211> 1743

<212> DNA

<213> 人工序列

<220>

<223> DsRed 表达盒

<400> 163

ataaatgagt agaaagcgcc atatcggcgc ttttcttttg gaagaaaata tagggaaaat 60

ggtacttgtt aaaaattcgg aatatttata caatatcata tgtatcacat tgaaaggagg 120

ggcctgctgt ccagactgtc cgctgtgtaa aaaaaaggaa taaagggggg ttgacattat 180

tttactgata tgtataatat aatttgtata agaaaatgga ggggccctcg aaacgtaaga 240

tgaaacctta gataaaagtg ctttttttgt tgcaattgaa gaattattaa tgttaagctt 300

aattaaagat aatatctttg aattgtaacg cccctcaaaa gtaagaacta caaaaaaaga 360

atacgttata tagaaatatg tttgaacctt cttcagatta caaatatatt cggacggact 420

ctacctcaaa tgcttatcta actatagaat gacatacaag cacaaccttg aaaatttgaa 480

aatataacta ccaatgaact tgttcatgtg aattatcgct gtatttaatt ttctcaattc 540

aatatataat atgccaatac attgttacaa gtagaaatta agacaccctt gatagcctta 600

ctatacctaa catgatgtag tattaaatga atatgtaaat atatttatga taagaagcga 660

cttatttata atcattacat atttttctat tggaatgatt aagattccaa tagaatagtg 720

tataaattat ttatcttgaa aggagggatg cctaaaaacg aagaacatta aaaacatata 780

tttgcaccgt ctaatggatt tatgaaaaat cattttatca gtttgaaaat tatgtattat 840

ggagctctta taaaaatgag gagggaaccg aatggcttca actgaagacg taatcaaaga 900

gttcatgcgc ttcaaagtgc gaatggaagg aagtgtaaac gggcatgagt ttgaaattga 960

aggtgaaggt gaaggaaggc cttatgaagg aacgcaaact gcaaaactta aagtgacaaa 1020

aggaggaccg ctgccgtttg cttgggacat cttaagtccg cagtttcagt atgggtcaaa 1080

agtttatgta aagcatcctg ctgacattcc tgattacaaa aagttaagtt ttcctgaagg 1140

attcaagtgg gagcgcgtaa tgaactttga agatggaggt gtcgtaactg taacgcaaga 1200

ttcaagtctg caagacggtt gcttcattta caaagtaaag ttcattggcg tgaactttcc 1260

aagtgatggt cctgtaatgc agaaaaagac aatgggttgg gagccgtcaa ctgagaggct 1320

ttatccgcgt gatggtgtct tgaaaggtga aattcacaaa gccttaaagt tgaaagatgg 1380

agggcattat cttgttgagt tcaagagcat ttacatggcg aaaaagcctg tgcagcttcc 1440

tggctactac tatgttgatt caaaacttga cataactagt cacaacgaag actacacaat 1500

tgttgagcag tatgagcgaa ctgaaggaag gcatcatctt tttctttaag agaccagact 1560

tccaattgac actaaaggga tccagaagcg gcaacacgct aatcaataaa aaaacgctgt 1620

gcggttaaag ggcacagcgt tttttgtgta tgaatcgaaa aagaggagag atcgcactga 1680

taattgccaa cacaattaac atctcaatca aggtaaatgc tagcgcggcc gcgtcgacag 1740

gcc 1743

<210> 164

<211> 678

<212> DNA

<213> 人工序列

<220>

<223> DsRed编码区

<400> 164

atggcttcaa ctgaagacgt aatcaaagag ttcatgcgct tcaaagtgcg aatggaagga 60

agtgtaaacg ggcatgagtt tgaaattgaa ggtgaaggtg aaggaaggcc ttatgaagga 120

acgcaaactg caaaacttaa agtgacaaaa ggaggaccgc tgccgtttgc ttgggacatc 180

ttaagtccgc agtttcagta tgggtcaaaa gtttatgtaa agcatcctgc tgacattcct 240

gattacaaaa agttaagttt tcctgaagga ttcaagtggg agcgcgtaat gaactttgaa 300

gatggaggtg tcgtaactgt aacgcaagat tcaagtctgc aagacggttg cttcatttac 360

aaagtaaagt tcattggcgt gaactttcca agtgatggtc ctgtaatgca gaaaaagaca 420

atgggttggg agccgtcaac tgagaggctt tatccgcgtg atggtgtctt gaaaggtgaa 480

attcacaaag ccttaaagtt gaaagatgga gggcattatc ttgttgagtt caagagcatt 540

tacatggcga aaaagcctgt gcagcttcct ggctactact atgttgattc aaaacttgac 600

ataactagtc acaacgaaga ctacacaatt gttgagcagt atgagcgaac tgaaggaagg 660

catcatcttt ttctttaa 678

<210> 165

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 引物 ID 1202334

<400> 165

ttgcaccgtc taatgg 16

<210> 166

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 引物 ID 1228373

<400> 166

gatgatgcct tccttcagtt 20

Claims

b)核碱基编辑结构域。

2.根据权利要求1所述的核碱基编辑复合物，其中该无催化活性RNA指导的内切核酸酶包含在对应于SEQ ID NO:126的位置877的位置处的氨基酸改变；优选地，在对应于SEQ IDNO:126的位置877的位置处的氨基酸被Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、或Val取代；最优选地，在对应于SEQ ID NO:126的位置877的位置处的氨基酸被Ala取代。

3.根据前述权利要求中任一项所述的核碱基编辑结构域，其中该无催化活性RNA指导的内切核酸酶包含SEQ ID NO:126，基本上由SEQ ID NO:126组成，或由SEQ ID NO:126组成。

4.根据前述权利要求中任一项所述的核碱基编辑复合物，其中该核碱基编辑结构域是胞嘧啶碱基编辑器(CBE)。

5.根据权利要求4所述的核碱基编辑复合物，其中该核碱基编辑结构域是APOBEC1/AID家族的胞嘧啶碱基编辑器；优选地，该核碱基编辑结构域是APOBEC1或CDA1，特别是PmCDA1。

6.根据权利要求4所述的核碱基编辑复合物，其中该核碱基编辑结构域包含多肽或由多肽组成，该多肽与SEQ ID NO:128具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该核酸酶编辑结构域包含SEQ ID NO:128，基本上由SEQ ID NO:128组成，或由SEQ ID NO:128组成。

7.根据权利要求4-6中任一项所述的核碱基编辑复合物，其进一步包含尿嘧啶DNA糖基化酶抑制剂(UGI)，其中优选地，该尿嘧啶DNA糖基化酶抑制剂与SEQ ID NO:132具有至少80％，例如，如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；最优选地，该尿嘧啶DNA糖基化酶抑制剂包含SEQ ID NO:132，基本上由SEQ ID NO:132组成，或由SEQ ID NO:132组成。

8.根据权利要求1-2中任一项所述的核碱基编辑复合物，其中该核碱基编辑结构域是腺嘌呤碱基编辑器(ABE)；优选地，该核碱基编辑结构域选自由以下组成的组：TadA、TadA*、TadA同源二聚体和TadA-TadA*异源二聚体；最优选地，该核碱基编辑结构域是TadA-TadA*异源二聚体。

9.根据前述权利要求中任一项所述的核碱基编辑复合物，其中该无催化活性RNA指导的内切核酸酶和该核碱基编辑结构域以末端-末端方式融合或经由接头多肽连接；优选地，该无催化活性RNA指导的内切核酸酶、该接头多肽和该核碱基编辑结构域被框内编码并表达为单个多肽。

10.根据权利要求9所述的核碱基编辑复合物，其中该接头多肽包含至少10个氨基酸残基；优选地，该接头多肽包含至少50个氨基酸残基；最优选地，该接头多肽包含至少100个氨基酸残基。

11.根据权利要求10-11中任一项所述的核碱基编辑复合物，其中该接头多肽与SEQ IDNO:130具有至少80％，例如至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性；优选地，该接头多肽包含SEQ ID NO:130，基本上由SEQ ID NO:130组成，或由SEQ ID NO:130组成。

12.一种多核苷酸，其编码根据前述权利要求中任一项所述的核碱基编辑复合物。

13.一种核酸构建体，其包含根据权利要求12所述的多核苷酸。

14.一种表达载体，其包含根据权利要求12所述的多核苷酸和/或根据权利要求13所述的核酸构建体。

15.一种宿主细胞，其包含：

a)根据权利要求1-11中任一项所述的核碱基编辑复合物；

b)根据权利要求12所述的多核苷酸；

c)根据权利要求13所述的核酸构建体；和/或

d)根据权利要求14所述的表达载体。

16.根据权利要求15所述的宿主细胞，其是原核或真核宿主细胞。

17.根据权利要求15-16中任一项所述的宿主细胞，其为细菌宿主细胞；优选地该细菌宿主细胞是芽孢杆菌属、埃希氏菌属、乳杆菌属、乳球菌属、链球菌属或链霉菌属细胞；更优选地，该细菌宿主细胞选自由以下组成的组：嗜碱芽孢杆菌、高地芽孢杆菌、解淀粉芽孢杆菌、解淀粉芽孢杆菌植物亚种、短芽孢杆菌、环状芽孢杆菌、克劳氏芽孢杆菌、凝结芽孢杆菌、坚强芽孢杆菌、灿烂芽孢杆菌、迟缓芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、甲基营养型芽孢杆菌、短小芽孢杆菌、沙福芽孢杆菌、嗜热脂肪芽孢杆菌、枯草芽孢杆菌、苏云金芽孢杆菌、大肠杆菌、嗜酸乳杆菌、淀粉乳杆菌、短乳杆菌、副干酪乳杆菌、纤维二糖乳杆菌、卷曲乳杆菌、弯曲乳杆菌、德氏乳杆菌保加利亚亚种、德氏乳杆菌乳酸亚种、发酵乳杆菌、禾口鸡乳杆菌、格氏乳杆菌、瑞士乳杆菌、约氏乳杆菌、植物乳杆菌、罗伊氏乳杆菌、雷曼氏乳酸杆菌、唾液乳杆菌、韩中大乳球菌、福尔摩沙乳球菌、富士山乳球菌、格氏乳球菌、乳酸乳球菌、鱼乳球菌、植物乳球菌、棉子糖乳球菌、中国台湾乳球菌、似马链球菌、酿脓链球菌、乳房链球菌、马链球菌兽疫亚种、不产色链霉菌、除虫链霉菌、天蓝链霉菌、灰色链霉菌和浅青紫链霉菌细胞；最优选地，该细菌宿主细胞是地衣芽孢杆菌细胞。

18.根据权利要求15-16中任一项所述的宿主细胞，其为丝状真菌宿主细胞；优选地，该真菌宿主细胞是枝顶孢霉属、曲霉属、短梗霉属、烟管霉属、拟腊菌属、金孢子菌属、鬼伞属、革盖菌属、隐球菌属、线黑粉菌科、镰孢属、腐质霉属、梨孢菌属、毛霉属、毁丝霉属、新美鞭菌属、链孢菌属、拟青霉属、青霉属、平革菌属、射脉菌属、瘤胃壶菌属、侧耳属、裂褶菌属、篮状菌属、嗜热子囊菌属、梭孢壳属、弯颈霉属、栓菌属或木霉属细胞；更优选地，该丝状真菌宿主细胞选自由以下组成的组：泡盛曲霉、臭曲霉、烟曲霉、日本曲霉、构巢曲霉、黑曲霉、米曲霉、黑刺烟管菌、干拟蜡菌、卡内基拟蜡菌、浅黄拟蜡孔菌、潘诺希塔拟蜡菌、环带拟蜡菌、微红拟蜡菌、虫拟蜡菌、狭边金孢子菌、嗜角质金孢子菌、卢克诺文思金孢子菌、粪状金孢子菌、租金孢子菌、女王杜香金孢子菌、热带金孢子菌、褐薄金孢子菌、灰盖鬼伞、毛革盖菌、杆孢状镰孢、谷类镰孢、库威镰孢、大刀镰孢、禾谷镰孢、禾赤镰孢、异孢镰孢、合欢木镰孢、尖孢镰孢、多枝镰孢、粉红镰孢、接骨木镰孢、肤色镰孢、拟分枝孢镰孢、硫色镰孢、圆镰孢、拟丝孢镰孢、镶片镰孢、特异腐质霉、柔毛腐质霉、米黑毛霉、嗜热毁丝霉、粗糙链孢菌、产紫青霉、黄孢平革菌、射脉菌、刺芹侧耳、土生梭孢壳霉、长域毛栓菌、变色栓菌、哈茨木霉、康宁木霉、长枝木霉、里氏木霉、和绿色木霉细胞；最优选地，该丝状真菌宿主细胞是黑曲霉、米曲霉或里氏木霉细胞。

19.根据权利要求15-16中任一项所述的宿主细胞，其为酵母宿主细胞；优选地，该酵母宿主细胞是假丝酵母属、汉逊酵母属、克鲁维酵母属、毕赤酵母属、酵母属、裂殖酵母属和耶罗维亚酵母属细胞；更优选地，该酵母宿主细胞选自由以下组成的组：乳酸克鲁维酵母、巴斯德毕赤酵母、卡尔酵母、酿酒酵母、糖化酵母、道格拉氏酵母、克鲁弗酵母、诺地酵母、卵形酵母、和解脂耶罗维亚酵母细胞；最优选地，该酵母宿主细胞是巴斯德毕赤酵母细胞。

20.根据权利要求15-16中任一项所述的宿主细胞，其为哺乳动物宿主细胞；优选地，该哺乳动物宿主细胞是小鼠、大鼠或人细胞。

21.一种修饰DNA靶序列中至少一个核碱基的方法，该方法包括：

a)提供根据权利要求1-11中任一项所述的核碱基编辑复合物，其与与该DNA靶序列互补并能够与该DNA靶序列杂交的gRNA复合；以及

b)使该核碱基编辑复合物与该DNA靶序列接触；