CN108315272A

CN108315272A - 用于使用纤维素进行同时糖化和发酵的表达纤维素酶的酵母

Info

Publication number: CN108315272A
Application number: CN201710766848.9A
Authority: CN
Inventors: J·麦克布赖德; E·布列夫诺瓦; C·甘地; M·梅隆; A·弗罗利赫; K·德洛尔特; V·拉吉加里亚; J·弗莱特; E·范齐尔; R·登哈恩; D·拉格兰格; S·罗斯; M·彭蒂莱; M·伊尔曼; M·西尔卡-阿霍; J·乌西塔洛; H·H·豪; C·赖斯; J·维拉里; E·A·斯通豪斯
Original assignee: Lallemand Hungary Liquidity Management LLC; Stellenbosch University
Current assignee: Lallemand Hungary Liquidity Management LLC; Stellenbosch University
Priority date: 2008-11-21
Filing date: 2009-11-23
Publication date: 2018-07-24
Also published as: BRPI0921966A8; CA2744495A1; DK2361311T3; US20120129229A1; CA2744495C; CA2964245A1; CN102272303A; WO2010060056A3; US20180258449A1; AU2009316309A1; US9988652B2; AU2009316309B2; EP2361311A4; EP2361311A2; ES2621181T3; US20210388398A1; US9102955B2; CA3092340A1; US20160010117A1; CA2964245C

Abstract

包括表达异源纤维素酶的克鲁维酵母的宿主细胞从纤维素产生乙醇。另外，可以一起共同培养表达不同的异源纤维素酶的多种宿主细胞并用于从纤维素产生乙醇。重组酵母菌株和酵母菌株的共培养物可用于独自地产生乙醇，或者也可以与外部添加的纤维素酶一起使用以增加糖化和发酵过程的效率。

Description

用于使用纤维素进行同时糖化和发酵的表达纤维素酶的酵母

本申请是申请号200980153709.2的分案。

背景技术

木质纤维素生物质被广泛认为是用于生产可再生燃料和化学品的有前景的原材料来源。阻碍从生物质原料更广泛地产能的主要障碍是普遍缺乏用于克服这些材料抗拒被转化为有用的燃料的低成本技术。木质纤维素生物质含有可以被转化为乙醇的碳水化合物级份(例如，纤维素和半纤维素)。为了转化这些级份，纤维素和半纤维素必须最终被转化或水解为单糖；长期以来恰恰是该水解被证明存在问题。

生物介导的过程对于能量转化、尤其是将木质纤维素生物质转化为燃料是有前景的。涉及酶促或微生物水解的生物质加工方案通常包括四个生物介导的转化：(1)分解糖的酶类(纤维素酶和半纤维素酶)的产生；(2)存在于预处理的生物质中的碳水化合物成分水解为糖；(3)己糖(例如葡萄糖、甘露糖和半乳糖)的发酵；和(4)戊糖(例如木糖和阿拉伯糖)的发酵。这四个转化发生于被称作联合生物加工(CBP)的工艺配置中的单一步骤中，联合生物加工与其它的整合度较低的配制的区别在于：其不涉及用于生产纤维素和/或半纤维素的专门的工艺步骤。

CBP提供了比特征在于专门的纤维素酶生产的方法成本更低且效率更高的潜在可能。有益之处部分来源于避免了与生产纤维素酶相关的资金成本、底物和其它原材料和工具。此外，使用CBP，数个因素支持实现较高速率的水解，因此减小了反应器的体积和资金投入，包括酶-微生物协同作用，以及使用噬热生物体和/或复合的纤维素酶系统。此外，纤维素粘附性的分解纤维素的微生物可能相对于非粘附性的微生物(例如污染物)成功地竞争纤维素水解的产物，这会增加基于微生物纤维素利用的工业方法的稳定性。通过以下两个策略在开发能够进行CBP的微生物方面取得了进展：对天然存在的分解纤维素的微生物进行工程化以改善与产物相关的特征，例如产率和效价；以及对表现出高产物产率和效价的不分解纤维素的生物进行工程化以表达异源纤维素酶和半纤维素酶系统以实现纤维素和半纤维素的利用。

天然纤维素降解需要三种主要类型的酶活性：第1种类型是内切葡聚糖酶(1,4-β-D-葡聚糖4-葡聚糖水解酶；EC 3.2.1.4)。内切葡聚糖酶在无定形纤维素的纤维素多糖链中随机切割，产生不同长度的寡糖，从而产生新的链末端。第2种类型是外切葡聚糖酶，包括纤维糊精酶(1,4-β-D-葡聚糖葡聚糖水解酶；EC 3.2.1.74)和纤维二糖水解酶(1,4-β-D-葡聚糖纤维二糖水解酶；EC 3.2.1.91)。外切葡聚糖酶以渐进的方式作用于纤维素多糖链的还原末端或非还原末端，释放葡萄糖(葡聚糖水解酶)或纤维二糖(纤维二糖水解酶)作为主要产物。外切葡聚糖酶还可以作用于微晶纤维素，推测为使纤维素链从微晶结构上脱落下来。第3种类型是β-葡萄糖苷酶(β-葡萄糖苷葡萄糖水解酶；EC 3.2.1.21)。β-葡萄糖苷酶将可溶性纤维糊精和纤维二糖水解为葡萄糖单元。

面包酵母(酿酒酵母，Saccharomyces cerevisiae)仍然是生产乙醇的优选微生物(Hahn-B等人,Adv.Biochem.Eng.Biotechnol.73,53–84(2001))。该微生物的有益特性包括：(i)接近于理论产率的高生产力(所使用的每克葡萄糖产生0.51克乙醇)，(ii)高耐渗性和耐酒精性质，(iii)工业过程中的天然鲁棒性(robustness)，和(iv)由于其长期与制酒和制面包以及酿啤酒接触，所以一般被认为是安全的(GRAS)。此外，酿酒酵母显示出对于由于生物质预处理而产生的通常存在于水解物中的抑制剂的耐受性。

酿酒酵母的一个主要缺点在于其不能利用复合的多糖，例如纤维素，或其分解产物，例如纤维二糖和纤维糊精。在尝试解决这个问题时，已经将来自细菌和真菌来源的数种异源纤维素酶转移进入酿酒酵母，使其能够降解纤维质的衍生物(Van Rensburg,P.,等人,Yeast 14,67-76(1998))，或使其能够在纤维二糖上生长(Van Rooyen,R.,等人,J.Biotech.120,284–295(2005))；McBride,J.E.,等人,Enzyme Microb.Techol.37,93-101(2005))。然而，目前在酵母中异源表达的纤维素酶的表达水平和比活性的水平仍然不足以使酵母能够在不外部添加酶的情况下有效地在纤维质底物上生长并产生乙醇。仍然显著需要改善纤维素酶活性的量以实现能够有效且成本划算地将纤维质底物转化为乙醇的联合生物加工(CBP)系统的目标。

使用酿酒酵母的另一个主要缺点在于：外部添加的纤维素酶的最适作用温度高于酿酒酵母的最适作用温度。因此，情况是：要么在两个不同的温度通过两个步骤的过程进行该过程，要么选定一个温度，在该温度时，两个过程都在一定程度上发挥作用，但是至少其中一个过程不是在最佳效率进行。

为了解决这些局限性，本发明提供了野生型和密码子优化的异源纤维素酶的组合在酵母中的异源表达，其允许有效地从纤维素来源产生乙醇。本发明还提供了此类异源纤维素酶在耐热的酵母中的表达以及使用此类转化的酵母来生产乙醇的方法。

发明概述

本发明涉及分解纤维素的宿主细胞。本发明的宿主细胞表达异源纤维素酶并且能够从纤维素生产乙醇。

具体地，在一些实施方式中，本发明提供了包含含有编码纤维素酶的核酸的至少一个异源多核苷酸的耐热的酵母宿主细胞，其中，当使用纤维素作为碳源生长时，所述酵母宿主细胞能够产生乙醇。

在另一个实施方式中，本发明提供了转化的耐热的酵母宿主细胞，其包含：(a)至少一个包含编码内切葡聚糖酶的核酸的异源多核苷酸；(b)至少一个包含编码β-葡萄糖苷酶的核酸的异源多核苷酸；(c)至少一个包含编码第一纤维二糖水解酶的核酸的异源多核苷酸；和(d)至少一个包含编码第二纤维二糖水解酶的核酸的异源多核苷酸。

在另一个实施方式中，本发明提供了转化的酵母宿主细胞，其包含：(a)至少一个包含编码纤维素酶的核酸的异源多核苷酸，其中所述纤维素酶是内切葡聚糖酶；(b)至少一个包含编码纤维素酶的核酸的异源多核苷酸，其中所述纤维素酶是β-葡萄糖苷酶；(c)至少一个包含编码纤维素酶的核酸的异源多核苷酸，其中所述纤维素酶是第一纤维二糖水解酶；和(d)至少一个包含编码纤维素酶的核酸的异源多核苷酸，其中所述纤维素酶是第二纤维二糖水解酶，其中所述纤维素酶中的至少两种被细胞分泌。

在另一个实施方式中，本发明提供了包含至少六种异源多核苷酸的转化的酵母宿主细胞，其中每种异源多核苷酸包含编码纤维素酶的核酸。

在另一个实施方式中，本发明提供了包含至少四种异源多核苷酸的转化的酵母宿主细胞，其中每种异源多核苷酸包含编码内切葡聚糖酶的核酸。

在另一个实施方式中，本发明提供了包含至少两种酵母宿主细胞的共培养物，其中：(a)所述宿主细胞中的至少一种包含含有编码纤维素酶的核酸的第一异源多核苷酸，其中所述纤维素酶是内切葡聚糖酶；(b)所述宿主细胞中的至少一种包含含有编码纤维素酶的核酸的第二异源多核苷酸，其中所述纤维素酶是β-葡萄糖苷酶；(c)所述宿主细胞中的至少一种包含含有编码纤维素酶的核酸的第三异源多核苷酸，其中所述纤维素酶是第一纤维二糖水解酶；(d)所述宿主细胞中的至少一种包含含有编码纤维素酶的核酸的第四异源多核苷酸，其中所述纤维素酶是第二纤维二糖水解酶；其中所述第一多核苷酸、第二多核苷酸、第三多核苷酸和第四多核苷酸不在同一宿主细胞中；并且其中所述共培养物能够从纤维素产生乙醇。

在本发明的一些具体实施方式中，所述纤维素碳源是不可溶的纤维素，晶体纤维素，衍生自木质纤维素、硬木、磷酸膨胀纤维素或微晶纤维素的纤维素。

在一些实施方式中，本发明的宿主细胞包含含有编码第一纤维二糖水解酶的核酸的异源多核苷酸，包含编码内切葡聚糖酶的核酸的多核苷酸，包含编码β-葡萄糖苷酶的核酸的多核苷酸，和/或包含编码第二纤维二糖水解酶的核酸的多核苷酸。

在一些实施方式中，纤维素酶、内切葡聚糖酶、β-葡萄糖苷酶或纤维二糖水解酶是灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfida fusca)、热纤梭菌(Clostridumthermocellum)、解纤维梭菌(Clostridium cellulolyticum)、约氏梭菌(Clostridumjosui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremoniumthermophilum)、费希新萨托菌(Neosartorya fischeri)、球毛壳菌(Chaetomiumglobosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)或拟南芥(Arabidopsisthaliana)的纤维素酶、内切葡聚糖酶、β-葡萄糖苷酶或纤维二糖水解酶。

在一些具体的实施方式中，纤维二糖水解酶是灰腐质霉(H.grisea)CBH1、嗜热子囊菌(T.aurantiacus)CBH1、埃默森篮状菌(T.emersonii)CBH1、里氏木霉(T.reesei)CBH1、埃默森篮状菌(T.emersonii)CBH2、C.lucknowense CBH2或里氏木霉(T.reesei)CBH2。在一些实施方式中，包含编码纤维二糖水解酶的核酸的异源多核苷酸编码包含纤维二糖水解酶和纤维素结合模块(CBM)的融合蛋白。在一些具体实施方式中，所述CBM是里氏木霉(T.reesei)CBH2的CBM、里氏木霉(T.reesei)CBH1的CBM或C.lucknowense CBH2b的CBM。在一些具体实施方式中，所述CBM通过连接子序列与所述纤维二糖水解酶融合。在一些具体实施方式中，宿主细胞表达第一和第二纤维二糖水解酶，其中所述第一纤维二糖水解酶是埃默森篮状菌CBH1和CBD融合物，并且所述第二纤维二糖水解酶是C.lucknowense CBH2b。

在其它具体的实施方式中，所述β-葡萄糖苷酶是扣囊复膜酵母菌β-葡萄糖苷酶。在另一具体的实施方式中，所述内切葡聚糖酶是台湾家白蚁(C.formosanus)内切葡聚糖酶。在另一具体的实施方式中，所述内切葡聚糖酶是里氏木霉(T.reesei)内切葡聚糖酶，例如里氏木霉EG2。

在本发明的一些实施方式中，纤维素酶中的至少一种或至少两种是附着的。在本发明的其他实施方式中，纤维素酶中的至少一种是分泌的。在另一个实施方式中，纤维素酶中的至少一种是附着的，并且纤维素酶中的至少一种是分泌的。在另一个实施方式中，所有的纤维素酶都是分泌的。

在本发明的一些实施方式中，编码纤维素酶的核酸是密码子优化的。

在一些实施方式中，宿主细胞可以是耐热的宿主细胞。在一些实施方式中，宿主细胞是东方伊萨酵母(Issatchenkia orientalis)、密西西比毕赤酵母(Pichiamississippiensis)、墨西哥毕赤酵母(Pichia mexicana)、粉状毕赤酵母(Pichiafarinosa)、仙人掌棒孢酵母(Clavispora opuntiae)、葡萄牙棒孢酵母(Clavisporalusitaniae)、墨西哥假丝酵母(Candida mexicana)、多形汉逊酵母(Hansenulapolymorpha)或克鲁维酵母属(Kluveryomyces)宿主细胞。例如，在一些实施方式中，宿主细胞是乳酸克鲁维酵母(K.lactis)或马克斯克鲁维酵母(K.marxianus)的宿主细胞。在一些实施方式中，耐热的宿主细胞是酿酒酵母宿主细胞，并且其中酿酒酵母被选择为耐热的。

在一些实施方式中，宿主细胞可以是油质的酵母细胞。在一些具体的实施方式中，油质的酵母细胞是布拉氏霉菌属(Blakeslea)、假丝酵母属(Candida)、隐球酵母属(Cryptococcus)、小克银汉霉属(Cunninghamella)、油脂酵母属(Lipomyces)、被孢霉属(Mortierella)、白霉属(Mucor)、须霉属(Phycomces)、腐霉属(Pythium)、红冬孢酵母属(Rhodosporidium)、红酵母属(Rhodotorula)、丝孢酵母属(Trichosporon)或耶罗威亚酵母属(Yarrowia)的细胞。

在一些实施方式中，宿主细胞是酿酒酵母细胞。

在一些具体的实施方式中，宿主细胞能够在大约30℃、35℃、37℃、42℃、45℃或50℃以上的温度从纤维素产生乙醇。

在另一个具体的实施方式中，宿主细胞能够以至少大约10mg/小时/升、至少大约30mg/小时/升、至少大约40mg/小时/升、至少大约50mg/小时/升、至少大约60mg/小时/升、至少大约70mg/小时/升、至少大约80mg/小时/升、至少大约90mg/小时/升、至少大约100mg/小时/升、至少大约200mg/小时/升、至少大约300mg/小时/升、至少大约400mg/小时/升、至少大约500mg/小时/升、至少大约600mg/小时/升、至少大约700mg/小时/升、至少大约800mg/小时/升、至少大约900mg/小时/升或至少大约1g/小时/升的速度产生乙醇。

本发明还提供了使用本发明的宿主细胞和共培养物的方法。例如，本发明还涉及水解纤维质底物的方法，包括将所述纤维质底物与本发明的宿主细胞或共培养物接触。本发明还涉及发酵纤维素的方法，包括在含有不可溶的纤维素的培养基中，在合适的条件下将本发明的宿主细胞或共培养物培养足以允许纤维素糖化和发酵的时间。在一些具体的实施方式中，该方法还包括将纤维质底物与外部产生的纤维素酶接触。

在本发明的一些具体方法中，纤维质底物是选自下列的木质纤维素生物质：草、柳枝稷、大米草(cord grass)、黑麦草、草芦(reed canary grass)、芒草(miscanthus)、糖加工残渣、甘蔗渣、农业废弃物、稻草、稻壳、大麦秸秆、玉米棒、谷物秸秆、小麦秸秆、芸苔秸秆、燕麦秸秆、燕麦壳、玉米纤维、秣草、大豆秸秆、玉米秸秆、林业废弃物、再生木浆纤维、造纸淤泥、锯屑、硬木、软木、Agave、及其组合。

在本发明的一些具体方法中，宿主细胞或共培养物产生乙醇。乙醇可以以下列速度产生：至少大约10mg/小时/升、至少大约30mg/小时/升、至少大约40mg/小时/升、至少大约50mg/小时/升、至少大约60mg/小时/升、至少大约70mg/小时/升、至少大约80mg/小时/升、至少大约90mg/小时/升、至少大约100mg/小时/升、至少大约200mg/小时/升、至少大约300mg/小时/升、至少大约400mg/小时/升、至少大约500mg/小时/升、至少大约600mg/小时/升、至少大约700mg/小时/升、至少大约800mg/小时/升、至少大约900mg/小时/升或至少大约1g/小时/升。

在本发明的其它具体的方法中，宿主细胞或共培养物在至少大约37℃、至少大约42℃、大约42℃至大约45℃，或大约42℃至大约50℃的温度与纤维质底物接触。

附图说明

图1显示了用于检测经异源纤维素酶转化的乳酸克鲁维酵母(菌落编号1-8)和马克斯克鲁维酵母(菌落编号9-16)中的内切葡聚糖酶I活性的CMC平板检验的图。菌株8和16是未经转化的阴性对照。左侧的平板显示菌落生长，右侧的平板显示由清除区(clearancezone)的存在指示的CMC酶活性。清除区在图中显示为白色斑点。

图2显示了用于检测经异源纤维素酶转化的马克斯克鲁维酵母株中的CBH1活性的MU-lac检验的结果。

图3显示了由数种表达异源纤维素酶的马克斯克鲁维酵母株转化的Avicel的百分率。

图4显示了由数种表达异源纤维素酶的马克斯克鲁维酵母株从Avicel产生/消耗的乙醇。

图5显示了表达异源纤维素酶的酿酒酵母在细菌微晶纤维素(BMCC)上的生长。

图6显示了由表达异源纤维素酶的酿酒酵母菌株从Avicel产生的乙醇。

图7显示了由表达异源纤维素酶的酿酒酵母菌株从经过预处理的硬木(5％基于干重百分率)产生的乙醇。

图8显示了在存在多个浓度的外部添加的纤维素酶的情况下，由表达异源纤维素酶的酿酒酵母从经过预处理的硬木(5％基于干重百分率)产生的乙醇。

图9显示了在YP培养基和YNB培养基中，由MO288(圆圈)和对照菌株(三角形)从Avicel产生的乙醇。

图10显示了使用补充了外部纤维素酶的酿酒酵母，通过小规模的同时糖化和发酵(SSF)过程从Avicel(15％基于干重百分率)产生的乙醇产率。将来自表达异源纤维素酶的酵母菌株(MO288)的产率与来自对照菌株(MO249)的产率在多个外部纤维素浓度下在150小时的时间内进行比较(100％纤维素酶载量表示25mg/g总固体；最初的固体浓度是15％)。

图11显示了使用补充了外部纤维素酶的酿酒酵母，通过同时糖化和发酵(SSF)过程产生了理论乙醇产率。将来自表达异源纤维素酶的酵母菌株(MO288)的产率与来自对照菌株(MO249)的产率进行比较。

图12显示了基于168小时的同时糖化和发酵(SSF)过程的乙醇产率的预测的纤维素酶节省。

图13显示了如实施例9描述的Avicel转化测定中人工纤维素酶的活性。以CBH1共有序列"CBH1cons"转化MO429菌株；以空载体pMU451转化MO419菌株，作为阴性对照。其它菌株的描述见实施例9的表8。

图14显示了实施例10中描述的表达CBH1和CBH2酶的多种组合的酵母对于Avicel的活性。

图15显示了实施例10中描述的表达多种纤维素酶的酵母对于Avicel的活性。

图16显示了由表达异源纤维素酶的五种酿酒酵母菌株的共培养物从Avicel产生的乙醇。

图17显示了由表达异源纤维素酶的四种酿酒酵母菌株的共培养物从Avicel产生的乙醇，以及由菌株MO288(其表达四种纤维素酶)产生的乙醇。

图18显示了由表达异源纤维素酶的四种酿酒酵母菌株的共培养物联合外部添加的纤维素酶从Avicel产生的乙醇。

图19显示了使用表达异源纤维素酶的四种酿酒酵母菌株的共培养物或MO288的计算的酶的节省(相对于未经转化的酿酒酵母)。

图20显示了M0509冷冻贮液、YPX分离体和YPD分离体的木糖利用和乙醇产生。

图21显示了在存在相同的培养基和8g/L乙酸盐的情况下在40℃时M1105(标记为"菌落C2")和MO1046的生长。

图22显示了由M1105(三角形)和M1088(方块)在18％TS MS419上产生的乙醇。以M1105进行的实验具有低10％的酶的剂量，接种的细胞密度为1/2，然而产生了较高的乙醇效价。以MO1105进行的实验在40℃进行，以M1088进行的实验在35℃进行。

图23显示了由M1105产生的乙醇，其中仅接种0.15g/L DCW进行发酵，产生了一些糖的积累和29g/L的乙醇。

图24显示了由M1254在标准的IFM(圆圈)和低铵的IFM(方块)的条件下产生的乙醇。

图25显示了：在40℃在补充了合成的抑制剂混合物(其包括8g/L乙酸盐)的复合木糖培养基中，单一菌落与M1254和M1339的比生长速率的比较。按照与发生进化的相同的条件筛选单一菌落。菌落C1被重命名为M1360。

图26显示了：在40℃在补充了葡萄糖的工业相关的发酵培养基上，M1360的发酵性能。接种60mg/L干细胞重的M1360来进行发酵。

图27显示了在35℃和40℃，在PHW(18％固体，未洗涤的MS149)上进行的SSF中由数种菌株产生的乙醇。所有的反应都载入4mg/g“zoomerase”(Novozyme 22c)。

图28显示了在含有0.2％的CMC或地衣淀粉或大麦-β-葡聚糖的SC^-URA平板上点染的培养物。每个平板的最上面的两行是基于Y294的培养物，最下面两行含有基于MO749的菌株。数字标示出了每个菌株包含的质粒。pMU471包含C.f.EG，作为阳性对照。将平板在30℃温育24小时(左侧的照片)，然后洗掉菌落，并以0.1％刚果红将平板染色，以1％NaCl脱色(右侧的照片)。

图29显示了产生Cel5纤维素酶的菌株的上清液的SDS-PAGE分析。包含不具有外来基因的质粒的菌株用作参考菌株(REF)。也包括了含有表达C.f.EG(其是之前发现的最成功的EG)的质粒pMU471的菌株。

图30显示了表达EG的菌株在(A)PASC(2小时)和(B)avicel(24小时)上的活性。包含不具有外来基因的质粒的菌株用作参考菌株(REF)，也包括了表达C.f.EG(pMU471)的菌株作为阳性对照。

图31显示了以TrEG2和另外的TeCBH1w/TrCBD转化的酵母的上清液转化avicel的能力的分布。M1088转化显示为黑色的垂直线。侧接该线的虚线代表测量值的标准偏差。

图32显示了：在HTP avicel测验(48小时的时间点)中，由表达纤维素酶的酵母菌株的上清液转化的Avicel。M0509是不表达纤维素酶的阴性对照。菌株1088是仅表达CBH1、CBH2和BGL的亲代菌株，而1179、1180和1181是1088的转化子，它们还表达TrEG2。

图33显示了，分解纤维素的菌株M1403和不分解纤维素的背景菌株M1254与多种数量的商售酶补充物在造纸淤泥CBP/SSF中产生的乙醇。实验条件为：30％固体进料批，10g/l细胞接种，pH 5.5，温度为40℃,Zoom＝Novozymes 22C纤维素酶制剂，BGL＝AB酶EL2008044L BGL制剂，Xyl＝AB酶EL2007020L木聚糖酶制剂。

图34显示了由CBP酵母(M1179)和不表达纤维素酶的对照菌株M0509进行的两种类型的造纸淤泥的发酵。实验条件为：18％固体，细胞载量为10g/l或1g/L，pH 5.5，温度为35℃,载入1mg/g BGL和1mg/g Xyl。BGL＝AB酶EL2008044L BGL制剂，Xyl＝AB酶EL2007020L木聚糖酶制剂。

图35显示了：在多种外部纤维素酶浓度下，分解纤维素的酵母菌株M0963和不分解纤维素的对照菌株M0509在经预处理的硬木(PHW)(MS149)的22％的未洗涤的固体上的性能。实验条件：22％固体进料批，pH 5.4，温度35℃，所有的酶蛋白(EP)都是“zoomerase”(Novozymes 22C)。

图36显示了：在多种最初细胞载量下，分解纤维素的酵母菌株M1284在经洗涤的预处理的硬木的30％固体上的性能。实验条件：30％固体进料批，pH 5.0，温度35℃，4mg EP＝0.25mg BGL+0.25mg木聚糖酶+0.25mg果胶酶+3.25mg Zoomerase，20mg EP＝1mg BGL+1mg木聚糖酶+1mg果胶酶+16.7mg Zoomerase。Zoomerase＝Novozymes 22C纤维素酶制剂，BGL＝AB酶EL2008044L BGL制剂，Xyl＝AB酶EL2007020L木聚糖酶制剂，果胶酶＝GenencorMultifect果胶酶FE。

图37显示了，分解纤维素的菌株M1284和不分解纤维素的背景菌株M0509与多种数量的商售酶补充物在洗涤的玉米秸秆CBP/SSF中产生的乙醇。实验条件为：18％固体进料批，10g/l细胞接种，pH 5.0，温度为35℃,每种情况下载入1mg/g BGL和1mg/g木聚糖酶。BGL＝AB酶EL2008044L BGL制剂，Xyl＝AB酶EL2007020L木聚糖酶制剂。

图38显示了表达不同的CBH1基因的酵母培养物上清液在Avicel(A,B)或MULac(C,D)上的活性，以及基于MULac估计的CBH1的浓度(mg/L,E,F)。宿主菌株是Y294或M0749。CBH1基因是：Te,埃默森篮状菌；Ct,嗜热毛壳菌；At,嗜热枝顶孢；Tr,里氏木霉；Hg,灰腐质霉；Ta,嗜热子囊菌。标明了质粒的名称。酵母在YPD中一式三份培养3天。数据为平均值±标准偏差。

图39显示了酵母菌株M0509中修饰的基因。

图40显示了用于构建M0509的酵母菌株和相关的遗传修饰。

图41显示了酵母菌株M1105的系谱。

图42显示了酵母菌株M1254的系谱。

发明详述

公开的方法和材料一般用于工程化的酵母的领域。

定义

“载体”例如“质粒”或“YAC”(酵母人工染色体)是指通常携带一个或多个基因的染色体外元件，其不是细胞的中心代谢的一部分，并且通常是环状双链DNA分子的形式。此类元件可以是自我复制序列、基因组整合序列、噬菌体或核苷酸序列，来自任何来源的单链或双链DNA或RNA，可以是线性、环状或超螺旋的，其中一些核苷酸序列连接或重组进入独特的构建体，所述构建体能够将启动子片段和所选基因产物的DNA序列以及合适的3’非翻译序列导入细胞中。优选地，本发明的质粒或载体是稳定的并且是自我复制的。

“表达载体”是能够指导与其可操作地连接的基因的表达的载体。

本文使用的术语“异源的”是指源自内生来源之外的来源的载体、质粒或宿主细胞。因此，例如，异源序列可以是源自相同宿主的不同基因或质粒的序列，来自宿主细胞的不同菌株的序列，或来自不同分类组(例如不同的界、门、纲、目、科、属或种，或这些分类门类之一内的任意亚组)的生物的序列。术语“异源”在本文中与术语“外源”作为同义词使用。

本文使用的术语“结构域”是指具有共同的物理或化学特征例如疏水性、极性、球状、螺旋状结构域或特征的分子或结构的一部分，例如DNA结合结构域或ATP结合结构域。结构域可以通过其与保守性结构或功能基序的同源性来鉴别。纤维二糖水解酶(CBH)结构域的实例包括催化结构域(CD)和纤维素结合结构域(CBD)。

“核酸”、“多核苷酸”或“核酸分子”是由共价连接的被称作核苷酸的亚基组成的聚合化合物。核酸包括多聚核糖核酸(RNA)和多聚脱氧核糖核酸(DNA)，二者都可以是单链或双链的。DNA包括cDNA、基因组DNA、合成的DNA和半合成的DNA。

“分离的核酸分子”或“分离的核酸片段”是指核糖核苷(腺苷、鸟苷、尿苷或胞苷；“RNA分子”)或脱氧核糖核苷(脱氧腺苷、脱氧鸟苷、脱氧胸苷或脱氧胞苷；“DNA分子”)的磷酸酯聚合物形式，或其任何磷酸酯类似物，例如硫代磷酸酯和硫酯，可以是单链形式或双链螺旋。可以是双链DNA-DNA、DNA-RNA和RNA-RNA螺旋。术语核酸分子，尤其是DNA或RNA分子仅仅是指分子的一级和二级结构，不将其限定为任何特定三级结构形式。因此，该术语尤其包括存在于线性或环状DNA分子(例如限制性片段)、质粒和染色体中的双链DNA。在讨论具体的双链DNA分子的结构时，在本文中可以根据通常的规则来描述序列：仅给出5’至3’方向的DNA的非转录链的序列(即与mRNA具有序列同源性的链)。

“基因”是指编码多肽的核苷酸的装配，并且包括cDNA和基因组DNA核酸。“基因”还指表达特定蛋白的核酸片段，包括单个编码区段(外显子)之间的插入序列(内含子)，以及编码序列之前的调节序列(5’-非编码序列)和之后的调节序列(3’-非编码序列)。“天然基因”是指存在于自然界中的具有其本身的调节序列的基因。

当单链形式的核酸分子可以在合适的温度和溶液离子强度条件下与其它核酸分子退火时，该核酸分子是与其它核酸分子例如cDNA、基因组DNA或RNA“可杂交的”。杂交和洗涤条件是熟知的并且在例如Sambrook,J.,Fritsch,E.F.and Maniatis,T.MOLECULARCLONING:A LABORATORY MANUAL,第二版,Cold Spring Harbor Laboratory Press,ColdSpring Harbor(1989)尤其是其中的第11章和表11.1(下称"Maniatis"，通过引用全文并入本文)中有举例说明。温度和离子强度的条件决定杂交的“严格性”。可以调节严格条件以筛选中等相似的片段，例如来自关系远的生物的同源序列；以及高度相似的片段，例如来自紧密相关的生物的复制功能酶的基因。杂交后的洗涤决定严格条件。一组条件使用如下洗涤步骤：在室温以6X SSC,0.5％SDS洗涤15分钟；然后在45℃以2X SSC,0.5％SDS洗涤30分钟；然后在50℃以0.2X SSC,0.5％SDS洗涤30分钟，重复两次。更严格的条件是：在较高的温度进行洗涤，其中洗涤与上述条件相同，只不过最后两次以0.2X SSC,0.5％SDS洗涤30分钟的温度升高至60℃。另一组高度严格性的条件是：最后在65℃以0.1X SSC,0.1％SDS洗涤两次。另一组高度严格性的条件是：在65℃在0.1X SSC,0.1％SDS杂交，以2X SSC,0.1％SDS洗涤，然后以0.1X SSC,0.1％SDS洗涤。

杂交需要两个核酸包含互补序列，虽然可能会发生碱基之间的错配(取决于杂交的严格性)。核酸杂交的合适的严格性取决于核酸的长度和互补程度，这是本领域熟知的变量。两个核苷酸序列之间的相似性或同源性程度越高，具有这些序列的核酸的杂交体的Tm值越大。核酸杂交的相对稳定性(对应于较高的Tm)按以下顺序递减：RNA:RNA、DNA:RNA、DNA:DNA。对于长度在100个核苷酸以上的杂交体，已经得出了用于计算Tm的公式(参见，例如Maniatis，9.50-9.51)。对于较短的核酸即寡核苷酸的杂交，错配的位置变得更加重要，并且寡核苷酸的长度决定其特异性(参见，例如Maniatis，11.7-11.8)。在一个实施方式中，可杂交的核酸的长度是至少大约10个核苷酸。优选地，可杂交的核酸的最小长度是至少大约15个核苷酸；更优选为至少大约20个核苷酸；最优选的长度是至少30个核苷酸。此外，技术人员将认识到，可以根据诸如探针长度等因素根据需要来调整温度和洗涤溶液的盐浓度。

如本领域所知的术语“百分率同一性”是两个或更多个多肽序列或者两个或更多个多核苷酸序列之间的关系，其是通过比较这些序列来确定的。在本领域，“同一性”还表示多肽或多核苷酸序列之间的序列相关性的程度，视情况而定，根据此类序列串之间的匹配来确定。

如本领域所知，两个多肽之间的“相似性”通过将多肽的氨基酸序列及其保守性氨基酸替换与第二多肽的序列进行比较来确定。

可以通过已知的方法容易地计算“同一性”和“相似性”，所述方法包括但不限于下列文献中描述的方法：Computational Molecular Biology(Lesk,A.M.,ed.)OxfordUniversity Press,NY(1988)；Biocomputing:Informatics and Genome Projects(Smith,D.W.编)Academic Press,NY(1993)；Computer Analysis of Sequence Data,Part I(Griffin,A.M.和Griffin,H.G.编)Humana Press,NJ(1994)；Sequence Analysis inMolecular Biology(von Heinje,G.编)Academic Press(1987)；and Sequence AnalysisPrimer(Gribskov,M.和Devereux,J.编)Stockton Press,NY(1991)。用于测定同一性的优选方法被设计为产生所测序列之间的最佳匹配。用于测定同一性和相似性的方法编撰于公众可获得的计算机程序中。可以使用LASERGENE生物信息学计算包(DNASTAR Inc.,Madison,Wis.)的Megalign程序来进行序列比对和同一性百分率的计算。本文公开的多个序列比对是使用Clustal的比对方法(Higgins and Sharp(1989)CABIOS.5:151-153)，使用缺省参数(空隙罚分＝10，空隙长度罚分＝10)进行的。使用Clustal方法的配对比对的缺省参数是KTUPLE 1,空隙罚分＝3，窗口＝5，DIAGONALS SAVED＝5。

合适的核酸序列或其片段(本发明的分离的多核苷酸)编码与本文报道的氨基酸序列至少大约70％至75％同一的多肽，与本文报道的氨基酸序列至少大约80％、85％或90％同一的多肽，或与本文报道的氨基酸序列至少大约95％、96％、97％、98％、99％或100％同一的多肽。合适的核酸片段是与本文报道的核酸序列至少大约70％、75％或80％同一的，与本文报道的核酸序列至少大约80％、85％或90％同一的，或与本文报道的核酸序列至少大约95％、96％、97％、98％、99％或100％同一的。合适的核酸片段不仅具有以上同一性/相似性，还通常编码具有至少50个氨基酸，至少100个氨基酸，至少150个氨基酸，至少200个氨基酸，或至少250个氨基酸的多肽。

DNA或RNA“编码区”是指：当被置于合适的调节序列控制之下时，在体外或在体内在细胞中被转录和/或翻译成多肽的DNA或RNA分子。“合适的调节区”是指位于编码区的上游(5’-非编码序列)、之内、或下游(3’-非编码序列)，并且影响相关的编码区的转录、RNA加工或稳定性或翻译的核酸区域。调节区可以包括启动子、翻译引导序列、RNA加工位点、效应子结合位点和茎-环结构。编码区的边界是通过5’(氨基)末端的起始密码子和3’(羧基)末端的翻译终止密码子来确定的。编码区可以包括但不限于，原核区域、来自mRNA的cDNA、基因组DNA分子、合成的DNA分子，或RNA分子。如果编码区要在真核细胞中表达，则编码区的3’端通常会具有多聚腺苷化信号和转录终止序列。

“同种型”是指与另一蛋白具有相同功能但是由不同的基因编码并且在序列上可以具有小的差异的蛋白。

“旁系同源物”是由于基因组内复制而相关的基因所编码的蛋白。

“直系同源物”是来自于从共同的祖先基因通过物种形成(speciation)而进化出的不同物种的基因。正常而言，直系同源物在进化过程中保留与祖先基因相同的功能。

“开放阅读框”缩写为ORF，其意思是包含翻译起始信号或起始密码子(例如ATG或AUG)和终止密码子并且可以潜在地被翻译成多肽序列的一定长度的核酸，其可以是DNA、cDNA或RNA。

“启动子”是指能够控制编码序列或功能RNA表达的DNA片段。一般而言，编码区位于启动子的3’位置。启动子可以完整地来源于天然基因，或者可以由源自天然存在的不同启动子的不同元件组成，甚至可以包含合成的DNA区段。本领域技术人员理解：不同的启动子可以指导基因在不同组织或细胞类型中的表达，或者在不同发育阶段的表达，或者响应于不同的环境或生理状况的表达。使基因在多数细胞类型中在多数情况下表达的启动子通常被称为“组成型启动子”。还认识到，由于在多数情况下尚未完全确定调节序列的准确边界，所以不同长度的DNA片段可以具有相同的启动子活性。启动子通常在其3’末端与转录起始位点分界，并且向上游(5’方向)延伸至包括启动高于背景的可检测水平的转录所需的最小数目的碱基或元件。在启动子之内可以存在转录起始位点(例如通过与核酸酶S1绘图而方便地确定)，以及负责RNA聚合酶结合的蛋白结合结构域(共有序列)。

当RNA聚合酶将编码区转录成mRNA时，编码区处于细胞中的转录和翻译控制元件“控制之下”，然后mRNA进行反式RNA剪接(如果编码区含有内含子)并被翻译成编码区所编码的蛋白。

“转录和翻译控制区”是DNA调节区，例如启动子、增强子、终止子等，其提供编码区在宿主细胞中的表达。在真核细胞中，多聚腺苷化信号是控制区。

术语“可操作地结合”是指核酸序列在单一核酸片段上的结合，从而一个的功能受到另一个的影响。例如，当启动子能够影响编码区的表达时(即编码区处于启动子的转录控制之下)，该启动子与该编码区为可操作地结合。编码区可以按照正义或反义反向与调节区可操作地结合。

本文使用的术语“表达”是指源自本发明的核酸片段的正义(mRNA)或反义RNA的转录和稳定积累。表达还可以指mRNA翻译成多肽。

表达异源纤维素酶的宿主细胞

为了解决以前的系统的局限性问题，本发明提供了表达异源纤维素酶的宿主细胞，它们可有效且有效率地从纤维素产生乙醇。在一些实施方式中，宿主细胞可以是酵母。根据本发明，酵母宿主细胞可以是，例如，来自下列属：酵母属(Saccharomyces)、克鲁维酵母属(Kluyveromyces)、假丝酵母属(Candida)、毕赤酵母属(Pichia)、裂殖酵母属(Schizosaccharomyces)、汉逊酵母属(Hansenula)、克勒克酵母属(Kloeckera)、许旺酵母属(Schwanniomyces)和耶罗威亚酵母属(Yarrowia)。作为宿主细胞的酵母的种可以包括，例如，酿酒酵母(S.cerevisiae)、S.bulderi、S.barnetti、少孢酵母(S.exiguus)、葡萄汁酵母(S.uvarum)、糖化酵母(S.diastaticus)、乳酸克鲁维酵母(K.lactis)、马克斯克鲁维酵母(K.marxianus)或脆壁克鲁维酵母(K.fragilis)。在一些实施方式中，酵母选自酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Schizzosaccharomyces pombe)、白假丝酵母菌(Candida albicans)、巴斯德毕赤酵母(Pichia pastoris)、树干毕赤酵母(Pichiastipitis)、解脂耶氏酵母(Yarrowia lipolytica)、多形汉逊酵母(Hansenulapolymorpha)、红发夫酵母(Phaffia rhodozyma)、产朊假丝酵母(Candida utilis)、Arxulaadeninivorans、汉逊德巴利酵母(Debaryomyces hansenii)、多形德巴利酵母(Debaryomyces polymorphus)、粟酒裂殖酵母(Schizosaccharomyces pombe)和西方许旺酵母(Schwanniomyces occidentalis)。在一个具体的实施方式中，酵母是酿酒酵母。在另一个实施方式中，酵母是耐热的酿酒酵母。合适的宿主的选择被认为是本领域技术人员根据本文的教导的能力范围内。

在本发明的一些实施方式中，宿主细胞是油质的细胞。根据本发明，油质的宿主细胞可以是油质的酵母细胞。例如，油质的酵母宿主细胞可以来自下列属：布拉氏霉菌属(Blakeslea)、假丝酵母属(Candida)、隐球酵母属(Cryptococcus)、小克银汉霉属(Cunninghamella)、油脂酵母属(Lipomyces)、被孢霉属(Mortierella)、白霉属(Mucor)、须霉属(Phycomyces)、腐霉属(Pythium)、红冬孢酵母属(Rhodosporidum)、红酵母属(Rhodotorula)、丝孢酵母属(Trichosporon)或耶罗威亚酵母属(Yarrowia)。根据本发明，油质宿主细胞可以是油质微藻类宿主细胞。例如，油质微藻类宿主细胞可以来自破囊壶菌属(Thraustochytrium)或裂殖壶菌属(Schizochytrium)。然后，可以使用常规的脂质酯基转移方法通过油质生物从甘油三酸酯产生生物柴油。在一些具体实施方式中，可以诱导油质宿主细胞以分泌合成的脂质。使用油质宿主细胞的实施方式是有利的，因为它们可以从木质纤维素原料产生生物柴油(木质纤维素原料相对于含油种子底物而言较为便宜)，可以更密集地生长，显示出较低的生命循环二氧化碳排放，并且可以在贫瘠的土地上培养。

在本发明的一些实施方式中，宿主细胞是耐热的宿主细胞。耐热的宿主细胞在同时糖化和发酵过程中是特别有用的：其允许外部产生的纤维素酶和产生乙醇的宿主细胞在相似的温度范围内实现最佳的性能。

本发明的耐热的宿主细胞可以包括，例如，东方伊萨酵母(Issatchenkiaorientalis)、密西西比毕赤酵母(Pichia mississippiensis)、墨西哥毕赤酵母(Pichiamexicana)、粉状毕赤酵母(Pichia farinosa)、仙人掌棒孢酵母(Clavispora opuntiae)、葡萄牙棒孢酵母(Clavispora lusitaniae)、墨西哥假丝酵母(Candida mexicana)、多形汉逊酵母(Hansenula polymorpha)和克鲁维酵母属(Kluyveromyces)的宿主细胞。在一些实施方式中，耐热的细胞是酿酒酵母菌株，或其它酵母菌株，它们已经经过改造以在高温下生长，例如，通过在细胞恒稳器中在高温下选择它们的生长。

在本发明的一些具体的实施方式中，宿主细胞是克鲁维酵母属的宿主细胞。例如，克鲁维酵母属的宿主细胞可以是乳酸克鲁维酵母、马克斯克鲁维酵母、K.blattae、K.phaffii、亚罗克鲁维酵母(K.yarrowii)、K.aestuarii、K.dobzhanskii、K.wickerhamii、耐热克鲁维酵母(K.thermotolerans)或K.waltii的宿主细胞。在一个实施方式中，宿主细胞是乳酸克鲁维酵母或马克斯克鲁维酵母宿主细胞。在另一个实施方式中，宿主细胞是马克斯克鲁维酵母宿主细胞。

在本发明的一些实施方式中，耐热的宿主细胞可以在高于大约30℃、大约31℃、大约32℃、大约33℃、大约34℃、大约35℃、大约36℃、大约37℃、大约38℃、大约39℃、大约40℃、大约41℃或大约42℃的温度生长。在本发明的一些实施方式中，耐热的宿主细胞可以在高于大约30℃、大约31℃、大约32℃、大约33℃、大约34℃、大约35℃、大约36℃、大约37℃、大约38℃、大约39℃、大约40℃、大约41℃、大约42℃或大约43℃或大约44℃或大约45℃或大约50℃的温度从纤维素产生乙醇。

在本发明的一些实施方式中，耐热的宿主细胞可以在大约30℃至60℃，大约30℃至55℃，大约30℃至50℃，大约40℃至60℃，大约40℃至55℃，或大约40℃至50℃的温度生长。在本发明的一些实施方式中，耐热的宿主细胞可以在大约30℃至60℃，大约30℃至55℃，大约30℃至50℃，大约40℃至60℃，大约40℃至55℃，或大约40℃至50℃的温度从纤维素产生乙醇。

在本发明的一些实施方式中，宿主细胞具有代谢木糖的能力。关于开发利用木糖的技术的详细信息，可以见下列公开物：Kuyper M等人FEMS Yeast Res.4:655-64(2004),Kuyper M等人FEMS Yeast Res.5:399-409(2005),和Kuyper M等人FEMS Yeast Res.5:925-34(2005)，通过引用方式全文并入本文。例如，可以通过异源表达木糖异构酶基因XylA(例如，来自厌氧真菌Piromyces属E2)、过表达五种参与木酮糖转化为分解糖的中间体的酿酒酵母酶类(木酮糖激酶、核糖5-磷酸异构酶、核糖5-磷酸差向异构酶、转酮醇酶和转醛醇酶)和删除编码醛糖还原酶的GRE3基因以使木糖醇的产生最小化，从而在酿酒酵母中实现木糖的利用。

根据本文描述的方法，宿主细胞可以包含抗生素标志物或可以不包含抗生素标志物。

使用本发明的编码纤维素酶的多核苷酸对宿主细胞进行遗传工程化(转导或转化或转染)，更详细的描述见下文。可以在本发明的载体中将编码纤维素酶的多核苷酸导入宿主细胞，所述载体可以是例如包含编码异源纤维素酶的序列的克隆载体或表达载体。宿主细胞可以包含作为整合拷贝或质粒拷贝的本发明的多核苷酸。

在一些方面，本发明涉及包含如下文描述的多核苷酸构建体的宿主细胞。本发明的宿主细胞可以表达一种或多种异源纤维素酶多肽。在一些实施方式中，宿主细胞包含编码异源纤维素酶或其片段、变体或衍生物的多核苷酸的组合。宿主细胞可以包含例如多个拷贝的相同的核酸序列，例如，为了增强表达水平，或者，宿主细胞可以包含独特的多核苷酸的组合。在其它实施方式中，宿主细胞包含编码异源纤维素酶或其片段、变体或衍生物的单一的多核苷酸。特别地，此类表达单一的异源纤维素酶的宿主细胞可用于与本发明的包含编码至少一种其它异源纤维素酶或其片段、变体或衍生物的多核苷酸的其它宿主细胞共培养。

可以通过本领域已知的方法将编码异源纤维素酶的多核苷酸导入宿主细胞中。可以通过醋酸锂转化、原生质球转化或通过电穿孔转化将编码异源纤维素酶的多核苷酸导入例如酵母宿主细胞中，转化方法如Current Protocols in Molecular Biology,13.7.1-13.7.10所描述。可以通过磷酸钙转染、DEAE-Dextran介导的转染或电穿孔将构建体导入其它宿主细胞中(Davis,L.等人,Basic Methods in Molecular Biology,(1986))。

可以检查如上所述的经转化的宿主细胞或细胞培养物的内切葡聚糖酶、纤维二糖水解酶和/或β-葡萄糖苷酶蛋白含量。对于使用分泌的异源纤维素酶，可以通过分析宿主(例如酵母)细胞上清液来测定蛋白含量。在一些实施方式中，可以通过丙酮沉淀法或通过使用即抛型去离子药筒缓冲样品而从酵母细胞上清液中回收高分子量的物质。也可以通过方法从重组酵母细胞培养物中回收并纯化蛋白，包括附着的异源纤维素酶，所述方法包括例如原生质球制备和裂解、使用玻璃珠破碎细胞，和使用液氮破碎细胞。另外的蛋白纯化方法包括硫酸铵或乙醇沉淀、酸萃取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水相互作用色谱、亲和色谱、羟基磷灰石色谱、凝胶过滤和血凝素色谱。在完成成熟蛋白的构型时，如果需要，可以使用蛋白重折叠步骤。最后，可以使用高效液相色谱(HPLC)进行最后的纯化步骤。

蛋白分析方法包括例如传统的Lowry法或根据BioRad生产商的说明书进行的蛋白测定法。使用这些方法，可以估计糖分解性酶的蛋白含量。另外，为了精确测定蛋白浓度，可以使异源纤维素酶与标签一起表达，例如His-标签或HA-标签，并通过标准方法纯化，使用例如针对标签的抗体、标准镍树脂纯化技术或类似方法。

可以就纤维素的水解(例如通过糖测定法)、就特定类型的纤维素酶活性(例如通过测定单独的内切葡聚糖酶、纤维二糖水解酶或β-葡萄糖苷酶活性)，或者就总的纤维素酶活性，进一步分析如上文所述的转化的宿主细胞或细胞培养物。可以通过例如测定内切葡聚糖酶特异性CMC底物的还原末端的增加来测定内切葡聚糖酶活性。可以通过例如使用不溶性纤维素底物(例如，无定形底物磷酸膨胀纤维素(PASC)或微晶纤维素(Avicel))并测定底物水解的程度来测定纤维二糖水解酶的活性。可以通过多种测定法例如使用纤维二糖来测定β-葡萄糖苷酶活性。

总纤维素酶活性，包括内切葡聚糖酶、纤维二糖水解酶和β-葡萄糖苷酶的活性，可以协同水解晶体纤维素。因此，可以使用不溶性底物测定总纤维素酶活性，所述底物包括纯的纤维质底物，例如Whatman 1号滤纸、棉绒、微晶纤维素、细菌纤维素、藻类的纤维素和含有纤维素的底物例如染色的纤维素、α纤维素或预处理的木质纤维素。还可以通过本领域普通技术人员已知的方法检测纤维素酶的比活性，例如，通过Avicel测定法(如上文描述)，其中将就针对样品所测的蛋白(纤维素酶)浓度进行校正。

因此，本发明的一个方面涉及有效率地生产纤维素酶，以辅助纤维素的消化和乙醇的产生。纤维素酶可以是任何参与纤维素消化、代谢和/或水解的酶，包括内切葡聚糖酶、外切葡聚糖酶或β-葡萄糖苷酶

在另外的实施方式中，测定转化的宿主细胞或细胞培养物的乙醇产生情况。可以通过本领域普通技术人员已知的技术测定乙醇的产生，例如通过标准的HPLC折射率法。

异源纤维素酶

根据本发明，异源纤维素酶在宿主细胞中的表达可有利地用于从纤维质来源产生乙醇。可以异源地表达来自多种来源的纤维素酶以成功地增加乙醇生产效率。例如，纤维素酶可以来自真菌、细菌、植物、原生动物或白蚁来源。在一些实施方式中，纤维素酶是灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfida fusca)、热纤梭菌(Clostridumthermocellum)、解纤维梭菌(Clostridium cellulolyticum)、约氏梭菌(Clostridumjosui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremoniumthermophilum)、费希新萨托菌(Neosartorya fischeri)、球毛壳菌(Chaetomiumglobosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)或拟南芥(Arabidopsisthaliana)的纤维素酶。

在本发明的一些实施方式中，在同一种宿主细胞中共表达来自单一生物的多种纤维素酶。在本发明的一些实施方式中，在同一宿主细胞中共表达来自不同生物的多种纤维素酶。特别地，可以在同一宿主细胞中共表达来自2、3、4、5、6、7、8、9或更多种生物的纤维素酶。类似地，本发明可以包括酵母菌株的共培养物，其中所述酵母菌株表达不同的纤维素酶。共培养物可以包括表达来自同一生物或来自不同生物的异源纤维素酶的酵母菌株。共培养物可以包括表达来自2、3、4、5、6、7、8、9或更多种生物的纤维素酶的酵母菌株。

本发明的纤维素酶包括内切葡聚糖酶或外切葡聚糖酶。纤维素酶可以是例如内切葡聚糖酶、β-葡萄糖苷酶或纤维二糖水解酶。

在本发明的一些实施方式中，内切葡聚糖酶可以是内切葡聚糖酶I或内切葡聚糖酶II同种型、旁系同源物或直系同源物。在一些实施方式中，由本发明的宿主细胞表达的内切葡聚糖酶可以是重组的内-1,4-β-葡聚糖酶。在具体的实施方式中，内切葡聚糖酶是里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、黄胸散白蚁(R.speratus)、白曲霉(Aspergilluskawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、C.lucknowense、球毛壳菌(C.globosum)、土曲霉(Aspergillus terreus)、烟曲霉(Aspergillus fumigatus)、粗糙脉孢菌(Neurosporacrassa)或嗜热枝顶孢(Acremonium thermophilum)内切葡聚糖酶。在一个具体的实施方式中，内切葡聚糖酶包含选自SEQ ID NO:30-39或52-56的氨基酸序列，如下面的表1所示。在一些其它的实施方式中，内切葡聚糖酶包含与选自SEQ ID NO:30-39或52-56的氨基酸序列至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的氨基酸序列。

在实际中，可以使用已知的计算机程序常规地确定任意多肽是否与本发明的多肽至少70％、80％、85％、90％、95％、96％、97％、98％、99％或100％同一。用于测定同一性百分率的方法(如下文就多核苷酸同一性更详细地讨论)也与评价多肽序列同一性相关。

在一个具体的实施方式中，内切葡聚糖酶是来自里氏木霉的内切葡聚糖酶I("eg1")。在一些实施方式中，内切葡聚糖酶包含与SEQ IDNO:39至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的氨基酸序列。

在另一个具体实施方式中，内切葡聚糖酶是来自台湾家白蚁的内切葡聚糖酶。在一些实施方式中，内切葡聚糖酶包含与SEQ ID NO:31至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的氨基酸序列。

在另一个具体实施方式中，内切葡聚糖酶是来自红褐肉座菌的内切葡聚糖酶。在一些实施方式中，内切葡聚糖酶包含与SEQ ID NO:54至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的氨基酸序列。

在一些实施方式中，β-葡萄糖苷酶是β-葡萄糖苷酶I或β-葡萄糖苷酶II同种型、旁系同源物或直系同源物。在本发明的一些实施方式中，β-葡萄糖苷酶源自扣囊复膜酵母菌。在具体的实施方式中，β-葡萄糖苷酶包含与SEQ ID NO:40至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的氨基酸序列。

在本发明的一些实施方式中，纤维二糖水解酶可以是纤维二糖水解酶I和/或纤维二糖水解酶II同种型、旁系同源物或直系同源物。在一个具体实施方式中，纤维二糖水解酶包含选自SEQ ID NO:21-29或46的氨基酸序列，如下面的表1所示。在本发明的具体实施方式中，纤维二糖水解酶是来自里氏木霉的纤维二糖水解酶I或II。在另一个实施方式中，纤维二糖水解酶包含与SEQ ID NO:27或SEQ ID NO:28至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列。

在本发明的其它具体实施方式中，纤维二糖水解酶是来自埃默森篮状菌的纤维二糖水解酶I或II。在另一个实施方式中，纤维二糖水解酶包含与SEQ ID NO:23或SEQ ID NO:24至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列。

在另一个实施方式中，本发明的纤维二糖水解酶是C.lucknowense纤维二糖水解酶。在具体的实施方式中，纤维二糖水解酶是C.lucknowense纤维二糖水解酶Cbh2b。在一个实施方式中，纤维二糖水解酶包含与SEQ ID NO:25至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列。

在本发明的一些实施方式中，纤维素酶包含选自下面的表1中的序列的序列。本发明的纤维素酶还包括包含与表1的序列至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的纤维素酶。

本发明的一些实施方式包括包含SEQ ID NO:21-40、46或52-56任意项的至少10、20、30、40、50、60、70、80、90、100、200、300、400或500或更多个连续氨基酸的多肽或其结构域、片段、变体或衍生物。

在本发明的一些方面，以分离的形式提供本发明的多肽和多核苷酸，例如纯化至匀质。

本发明还包括包含或由氨基酸序列组成的多肽，所述氨基酸序列与SEQ ID NO:21-40、46或52-56任意项的多肽、并且与此类多肽的部分(所述多肽的此类部分一般含有至少30个氨基酸，更优选至少50个氨基酸)具有至少大约80％、85％、90％、95％、96％、97％、98％、99％的相似性。

如本领域所知晓，两个多肽之间的“相似性”是通过将多肽的氨基酸序列及其保守性氨基酸替换与第二多肽的序列进行比较来确定的。

本发明还涉及SEQ ID NO:21-40、46或52-56的任意项的多肽的结构域、片段、变体、衍生物或类似物。

本发明的多肽的片段或部分可以用于通过肽合成产生相应的全长多肽，因此，所述片段可以用作产生所述全长多肽的中间体。

纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽的片段包括保留纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶的任意特异性生物活性的结构域、蛋白水解片段、删除片段，尤其是灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)的纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽的片段。多肽片段还包括保留纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶蛋白的催化活性的多肽的任意部分。

SEQ ID NO:21-40、46或52-56的任意项的多肽的变体、衍生物或类似物可以是(i)其中一个或多个氨基酸残基被替换为保守性或非保守性氨基酸残基(优选保守性氨基酸残基)并且此类替换的氨基酸残基可以是或者可以不是由遗传密码编码的，或(ii)其中一个或多个氨基酸残基包括取代基，或(iii)其中成熟多肽与另一个化合物例如增加多肽的半衰期的的化合物(例如，聚乙二醇)融合，或(iv)其中另外的氨基酸与成熟多肽融合，以纯化多肽，或(v)其中多肽的片段是可溶性的，即不与膜结合，但仍和针对与膜结合的受体的配体结合。此类变体、衍生物和类似物被认为落在本领域技术人员从本文教导后的范围内。

本发明的多肽还包括多肽的变体。多肽的“变体”可以是保守性变体，或等位基因变体。本文使用的保守性变体是指不会对蛋白的生物学功能造成不利影响的氨基酸序列的改变。当改变的序列阻止或破坏与蛋白相关的生物学功能时，替换、插入或删除被称为对该蛋白造成不利影响。例如，可以改变蛋白的总体电荷性、结构或疏水-亲水性质但不对生物学活性造成不利影响。因此，可以改变氨基酸序列，以便例如赋予肽更大的疏水或亲水性，但不对蛋白的生物学活性造成不利影响。

“等位基因变体”是指占据生物的染色体的给定基因座的基因的可替代形式。Genes II,Lewin,B.,ed.,John Wiley&Sons,New York(1985)。可以使用本领域已知的诱变技术产生非天然存在的变体。虽然等位基因变体具有与上述提及的那些稍微不同的氨基酸序列，但是仍然具有与灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶蛋白相关的相同或相似的生物学功能。

内切葡聚糖酶、纤维二糖水解酶或β-葡萄糖苷酶蛋白家族的等位基因变体、保守性替换变体以及成员可以具有这样的氨基酸序列：所述氨基酸序列与SEQ ID NO:21-40、46或52-56任一项所示的灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、白曲霉(Aspergilluskawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces 属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremonium thermophilum)、北美散白蚁(R.flavipes)或费希新萨托菌(Neosartorya fischeri)的纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶的氨基酸序列具有至少75％、至少80％、至少90％、至少95％的氨基酸序列同一性。此类序列的同一性或同源性在本文中定义为：经过比对序列和引入空隙(如果必要)以达到最大同源性百分率之后，并且不把任何保守性替换考虑为序列同一性的一部分，候选序列中与已知肽相同的氨基酸残基的百分率。肽序列的N末端、C末端或内部延伸、删除或插入不应被理解为影响同源性。

因此，本发明的蛋白和肽包括这样的分子，所述分子包含SEQ IDNO:21-40、46和52-56的氨基酸序列或其片段，所述片段具有灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、白曲霉(Aspergilluskawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremonium thermophilum)、北美散白蚁(R.flavipes)或费希新萨托菌(Neosartorya fischeri)的纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽序列的至少大约3、4、5、6、10、15、20、25、30、35或更多个氨基酸残基的连续序列；此类序列的氨基酸序列变体，其中至少一个氨基酸残基被插入至所公开序列的N-或C-末端或之内；经过另一种残基替换的所公开序列的氨基酸序列变体，或其如上文定义的片段。考虑到的变体还包括含有预先确定的突变(通过例如同源重组、定点或PCR诱变产生的)的那些，以及其它动物物种(包括但不限于，细菌、真菌、昆虫、兔子、大鼠、猪、牛、绵羊、马和非人灵长类物种)的对应蛋白，蛋白家族的等位基因或其它天然存在的变体，以及衍生物，在所述衍生物中蛋白经过共价修饰：通过取代、化学、酶学、或其它合适的方法以除了天然存在的氨基酸以外的部分(例如，可检测部分，例如酶或放射性同位素)进行修饰。

使用已知的蛋白工程方法和重组DNA技术，可以产生变体以改善或改变纤维素酶多肽的性质。例如，可以从分泌的蛋白的N-末端或C-末端删除一个或多个氨基酸但基本上不丧失生物学功能。

因此，本发明进一步包括灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽变体，其显示出实质上的生物学活性。此类变体包括删除、插入、倒位、重复和替换，其根据本领域已知的一般规则进行选择，对活性几乎没有影响。

技术人员完全知晓不会显著影响蛋白功能或者影响可能性较低的氨基酸替换(例如将一个脂肪族氨基酸替换为另一个脂肪族氨基酸)，如下文进一步描述。

例如，在Bowie等人,"Deciphering the Message in Protein Sequences:Tolerance to Amino Acid Substitutions,"Science 247:1306-1310(1990)中提供了关于如何制备表型沉默的氨基酸替换的指导，其中作者指出：主要有两种研究氨基酸序列对变化的耐受的策略。

第一种策略通过进化过程中的自然选择来开发氨基酸替换的耐受性。通过比较不同物种中的氨基酸序列，可以鉴定保守性氨基酸。这些保守性氨基酸可能对于蛋白功能具有重要意义。相反，其中替换已经被自然选择容忍的氨基酸位置表明这些位置对于蛋白功能不是至关紧要的。因此，可以修饰容忍氨基酸替换的位置但仍然保持蛋白的生物学活性。

第二个策略使用遗传工程以将氨基酸变化导入克隆的基因的特定位置以鉴定对于蛋白功能具有关键意义的区域。例如，可以使用定点诱变或丙氨酸扫描诱变(在分子的每个残基导入单一的丙氨酸突变)(Cunningham and Wells,Science 244:1081-1085(1989))。然后可以测定得到的突变体分子的生物学活性。

如作者所指出的，这两种策略揭示出：蛋白质经常令人惊奇地耐受氨基酸替换。作者还指出了蛋白中的某些氨基酸位置可能允许哪些氨基酸改变。例如，埋藏最深的(在蛋白的三级结构内)氨基酸残基需要非极性侧链，而表面侧链的少数特征通常是保守的。此外，耐受的保守性氨基酸替换涉及脂肪族或疏水性氨基酸Ala、Val、Leu和Ile的替换；羟基残基Ser和Thr的替换；酸性残基Asp和Glu的替换；酰胺残基Asn和Gln的替换；碱性残基Lys、Arg、和His的替换；芳香族残基Phe、Tyr、和Trp的替换；以及小的氨基酸Ala、Ser、Thr、Met、和Gly的替换。

术语“衍生物”和“类似物”是指与灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽不同、但是保持其必要性质的多肽。一般地，衍生物和类似物是总体上密切相似的，并且，在很多区域与灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽多肽相同。当用于指灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfida fusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽时，术语“衍生物”和“类似物”包括保持相应的天然多肽的至少一些活性(例如外切葡聚糖酶活性或者催化结构域的活性)的任何多肽。

灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽的衍生物是这样的多肽，其经过改变以显示天然多肽中不存在的另外特征。衍生物可以经过共价修饰：通过取代、化学、酶学、或其它合适的方法以除了天然存在的氨基酸以外的部分(例如，可检测部分，例如酶或放射性同位素)进行修饰。衍生物的实例包括融合蛋白。

类似物是本发明的灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶多肽的另一种形式。“类似物”也保持与目标多肽基本上相同的生物学功能或活性，例如，作为纤维二糖水解酶的功能。类似物包括前蛋白，其通过前蛋白部分的切割被激活以产生有活性的成熟多肽。

本发明的多肽可以是重组多肽、天然多肽或合成的多肽。在一些具体实施方式中，多肽是重组多肽。

本发明还提供了等位基因变体、直系同源物和/或物种同源物。可以使用本领域已知的程序，使用本文公开的序列或保藏于ATCC的克隆的信息，获得对应于SEQ ID NO:1-40的任意项的基因的全长基因、等位基因变体、剪接变体、全长编码部分、直系同源物、和/或物种同源物。例如，可以通过从本文提供的序列制备合适的探针或引物并就等位基因变体和/或想要的同源物筛选合适的核酸来源来分离和鉴定等位基因变体和/或物种同源物。

共有序列纤维素酶

在本发明的一些实施方式中，宿主细胞表达至少一种不是源自任何一种特定生物，而是具有是共有纤维素酶序列的人工氨基酸序列的异源纤维素酶。所述共有纤维素酶序列可以是内切葡聚糖酶共有序列、β-葡萄糖苷酶共有序列或纤维二糖水解酶共有序列。

在一个具体实施方式中，异源纤维素酶是CBH1共有序列。因此，在一个实施方式中，本发明涉及包含与SEQ ID NO:43的共有CBH1序列至少80％、85％、90％、95％、98％或99％同一的序列的多肽序列。在一些实施方式中，本发明涉及包含SEQ ID NO:43的序列的多肽。

本发明还涉及包含含有与SEQ ID NO:43的共有CBH1序列至少80％、85％、90％、95％、98％、99％或100％同一的序列的多肽序列的宿主细胞。本发明还涉及包含编码含有与SEQ ID NO:43的共有CBH1序列至少80％、85％、90％、95％、98％、99％或100％同一的序列的多肽序列的多核苷酸的宿主细胞。在一些实施方式中，宿主细胞包含编码含有与SEQID NO:43的共有CBH1序列至少80％、85％、90％、95％、98％、99％或100％同一的序列的多肽序列的至少一个多核苷酸和至少一个编码异源纤维素酶的第二多核苷酸。所述第二多核苷酸可以编码内切葡聚糖酶、β-葡萄糖苷酶、纤维二糖水解酶、内切葡聚糖酶共有序列、β-葡萄糖苷酶共有序列或纤维二糖水解酶共有序列。在一些实施方式中，当使用纤维素作为碳源生长时，所述的包含编码含有与SEQ ID NO:43的共有CBH1序列至少80％、85％、90％、95％、98％、99％或100％同一的序列的多肽序列的多核苷酸的宿主细胞能够产生乙醇。

纤维素酶的组合

在本发明的一些实施方式中，宿主细胞表达异源纤维素酶的组合。例如，宿主细胞可以包含至少2种异源纤维素酶、至少3种异源纤维素酶、至少4种异源纤维素酶、至少5种异源纤维素酶、至少6种异源纤维素酶、至少7种异源纤维素酶、至少8种异源纤维素酶、至少9种异源纤维素酶、至少10种异源纤维素酶、至少11种异源纤维素酶、至少12种异源纤维素酶、至少13种异源纤维素酶、至少14种异源纤维素酶或至少15种异源纤维素酶。宿主细胞中的异源纤维素酶可以来自相同的或不同的物种。

在本发明的一些实施方式中，宿主细胞表达异源纤维素酶的组合，其包括至少一种内切葡聚糖酶、至少一种β-葡萄糖苷酶和至少一种纤维二糖水解酶。在本发明的另一个实施方式中，宿主细胞表达异源纤维素酶的组合，其包括至少一种内切葡聚糖酶、至少一种β-葡萄糖苷酶和至少两种纤维二糖水解酶。所述至少两种纤维二糖水解酶可以都是纤维二糖水解酶I，可以都是纤维二糖水解酶II，或者一种是纤维二糖水解酶I、一种是纤维二糖水解酶II。

在本发明的一个具体实施方式中，宿主细胞表达纤维素酶的组合，其包括台湾家白蚁内切葡聚糖酶I和扣囊复膜酵母菌β-葡萄糖苷酶I。在本发明的另一个实施方式中，宿主细胞表达纤维素酶的组合，其包括埃默森篮状菌纤维二糖水解酶I和里氏木霉纤维二糖水解酶II。

在另一个实施方式中，宿主细胞表达纤维素酶的组合，其包括台湾家白蚁内切葡聚糖酶I、扣囊复膜酵母菌β-葡萄糖苷酶I、埃默森篮状菌纤维二糖水解酶I和C.lucknowense纤维二糖水解酶IIb。在另一个实施方式中，宿主细胞表达纤维素酶的组合，其包括台湾家白蚁内切葡聚糖酶I、扣囊复膜酵母菌β-葡萄糖苷酶I、埃默森篮状菌纤维二糖水解酶I和里氏木霉纤维二糖水解酶II。在另一个实施方式中，宿主细胞表达纤维素酶的组合，其包括红褐肉座菌内切葡聚糖酶2、扣囊复膜酵母菌β-葡萄糖苷酶I、埃默森篮状菌纤维二糖水解酶I和里氏木霉纤维二糖水解酶II。在另一个实施方式中，宿主细胞表达纤维素酶的组合，其包括红褐肉座菌内切葡聚糖酶2、扣囊复膜酵母菌β-葡萄糖苷酶I、埃默森篮状菌纤维二糖水解酶I和C.lucknowense纤维二糖水解酶II。

附着的和分泌的纤维素酶

根据本发明，纤维素酶可以是附着的或分泌的。如本文所使用，如果蛋白的至少一个末端结合(例如，共价和/或静电地结合)至细胞膜或细胞壁，则该蛋白是“附着”至生物的细胞表面。将认识到，附着蛋白可以包括一个或多个酶的区域，所述区域可以在核酸和/或蛋白水平上连接至一个或多个其它类型的区域(例如启动子、终止子、锚定结构域、连接子、信号区域等)。虽然一个或多个酶的区域可以不直接与细胞膜或细胞壁结合(例如当通过锚定结构域结合时)，但是该蛋白仍然被认为是根据本说明书所述的“附着的酶”。

可以通过例如将锚定结构域引入由细胞异源表达的重组蛋白中来实现附着，或者通过异戊二烯化(prenylation)、脂肪酰基键、糖基磷脂酰肌醇锚定物或其它合适的分子锚定物(其可以将附着蛋白锚定至宿主细胞的细胞膜或细胞壁)来实现。附着蛋白可以在其氨基末端或任选在其羧基末端进行附着。

本文使用的“分泌的”意思是释放至细胞外环境中，例如释放至培养基中。虽然附着蛋白可以含有分泌信号(作为其非成熟氨基酸序列的一部分)，但是它们保持与细胞表面附着，并且不落在本文使用的分泌蛋白的范围内。

如本文使用的“灵活的连接子序列”是指连接两个氨基酸序列的氨基酸序列，例如，锚定于细胞壁的氨基酸序列，其具有包含想要的酶活性的氨基酸序列。灵活的连接子序列允许必要的自由度，以使包含想要的酶活性的氨基酸序列具有减小的空间位阻(就细胞附近而言)，并且也可以促进包含想要的酶活性的氨基酸序列的正确折叠。

在本发明的一些实施方式中，附着的纤维素酶通过连接于锚定结构域的灵活的连接子序列而附着。在一些实施方式中，锚定结构域是来自酿酒酵母的CWP2(用于羧基末端锚定)或FLO1(用于氨基末端锚定)。

在一些实施方式中，可以向本发明的表达载体添加异源分泌信号以促进纤维素酶蛋白的细胞外表达。在一些实施方式中，异源分泌信号是来自里氏木霉的分泌信号Xyn2。

包含纤维素酶的融合蛋白

本发明还包括融合蛋白。例如，所述融合蛋白可以是异源纤维素酶与第二种肽的融合物。异源纤维素酶与第二种肽可以直接融合或通过例如连接子序列间接融合。融合蛋白可以包含例如在异源纤维素酶的N-末端的第二种肽和/或在异源纤维素酶的C-末端的第二种肽。因此，在一些实施方式中，本发明的多肽包含第一多肽和第二多肽，其中所述第一多肽包含异源纤维素酶。

根据本发明，融合蛋白可以包含第一和第二多肽，其中所述第一多肽包含异源纤维素酶，并且所述第二多肽包含信号序列。根据另一个实施方式，融合蛋白可以包含第一和第二多肽，其中所述第一多肽包含异源纤维素酶，并且所述第二多肽包含用于促进纯化或鉴别的多肽或报告子多肽。用于促进纯化或鉴别的多肽或报告子肽可以是，例如，HIS-标签、GST-标签、HA-标签、FLAG-标签、MYC-标签或荧光蛋白。

根据另一个实施方式，融合蛋白可以包含第一和第二多肽，其中所述第一多肽包含异源纤维素酶，并且所述第二多肽包含锚定肽。在一些实施方式中，锚定结构域是来自酿酒酵母的CWP2(用于羧基末端锚定)或FLO1(用于氨基末端锚定)。

根据另一个实施方式，融合蛋白可以包含第一和第二多肽，其中所述第一多肽包含异源纤维素酶，并且所述第二多肽包含纤维素结合模块(CBM)。在一些实施方式中，CBM来自例如，里氏木霉(T.reesei)Cbh1或Cbh2，来自灰腐质霉(H.grisea)Cbh1，或来自C.lucknowense Cbh2b。在一些具体实施方式中，CBM与纤维二糖水解酶融合。在一个具体实施方式中，融合蛋白包含第一和第二多肽，其中所述第一多肽包含异源纤维二糖水解酶，并且所述第二多肽包含CBM。在另一个具体实施方式中，纤维二糖水解酶是埃默森篮状菌纤维二糖水解酶I，并且CBM是里氏木霉纤维二糖水解酶CBM。在另一个具体实施方式中，纤维二糖水解酶是埃默森篮状菌纤维二糖水解酶I，并且CBM是灰腐质霉纤维二糖水解酶CBM。在一些实施方式中，灰腐质霉的CBM包含SEQ ID NO:21的氨基酸492-525。

在一些实施方式中，本发明的多肽包括包含第一多肽和第二多肽的融合蛋白，其中所述第一多肽是纤维二糖水解酶，并且所述第二多肽是纤维二糖水解酶的结构域或片段。在一些实施方式中，本发明的多肽包括包含第一多肽和第二多肽的融合蛋白，其中所述第一多肽是埃默森篮状菌Cbh1、灰腐质霉Cbh1、嗜热子囊菌Cbh1、埃默森篮状菌Cbh2、里氏木霉Cbh1、里氏木霉Cbh2、C.lucknowense Cbh2b，或其结构域、片段、变体或衍生物，其中所述第二多肽是埃默森篮状菌Cbh1、灰腐质霉Cbh1、嗜热子囊菌Cbh1、埃默森篮状菌Cbh2、里氏木霉Cbh1、里氏木霉Cbh2、C.lucknowense Cbh2b，或其结构域、片段、变体或衍生物。在具体的实施方式中，所述第一多肽是埃默森篮状菌Cbh1，并且所述第二多肽是来自里氏木霉Cbh1或Cbh2或来自C.lucknowense Cbh2b的CBM。在另外的实施方式中，第一多肽在第二多肽的N-末端或C-末端。在一些其它实施方式中，第一多肽和/或第二多肽由密码子优化的多核苷酸编码，例如，针对酿酒酵母或克鲁维酵母进行密码子优化的多核苷酸。在具体的实施方式中，第一多核苷酸是密码子优化的埃默森篮状菌cbh1，并且第二多核苷酸编码来自里氏木霉Cbh1或Cbh2的密码子优化的CBM。在另一个具体实施方式中，第一多核苷酸是密码子优化的埃默森篮状菌cbh1，并且第二多核苷酸编码来自C.lucknowense Cbh2b的密码子优化的CBM。

在一些其它实施方式中，第一多肽和第二多肽通过连接子序列融合。在一些实施方式中，所述连接子序列可以由密码子优化的多核苷酸编码。(密码子优化的多核苷酸在下文中有更详细的描述。)对应于根据本发明的密码子优化的连接子1的氨基酸序列是：灵活的连接子-strep标签-TEV位点-FLAG-灵活的连接子融合物，并且对应于GGGGSGGGGSAWHPQFGG ENLYFQG DYKDDDK GGGGSGGGGS(SEQ ID NO:57)。

DNA序列如下：

GGAGGAGGTGGTTCAGGAGGTGGTGGGTCTGCTTGGCATCCACAATTTGGAGGAGGCGGTGGTGAAAATCTGTATTTCCAGGGAGGCGGAGGTGATTACAAGGATGACGACAAAGGAGGTGGTGGATCAGGAGGTGGTGGCTCC(SEQ IDNO:41)

对应于优化的连接子2的氨基酸序列是：灵活的连接子-strep标签-连接子-TEV位点-灵活的连接子，并且对应于GGGGSGGGGSWSHPQFEK GG ENLYFQG GGGGSGGGGS(SEQ ID NO:58)。DNA序列如下：

ggtggcggtggatctggaggaggcggttcttggtctcacccacaatttgaaaagggtggagaaaacttgtactttcaaggcggtggtggaggttctggcggaggtggctccggctca(SEQ ID NO:42)。

共培养物

本发明还涉及包含至少两种酵母宿主细胞的共培养物，其中所述至少两种酵母宿主细胞中的每一种包含编码异源纤维素酶的分离的多核苷酸。如本文使用的“共培养物”是指在同一个容器中在一起生长的宿主细胞的两种不同的菌株或种类。在本发明的一些实施方式中，共培养物的至少一种宿主细胞包含含有编码内切葡聚糖酶的核酸的异源多核苷酸，共培养物的至少一种宿主细胞包含含有编码β-葡萄糖苷酶的核酸的异源多核苷酸，并且至少一种宿主细胞包含含有编码纤维二糖水解酶的核酸的异源多核苷酸。在进一步的实施方式中，共培养物还包含这样的宿主细胞：其含有包含编码第二纤维二糖水解酶的核酸的异源多核苷酸。

共培养物可以包含酵母宿主细胞的两种或更多种菌株，并且可以在宿主细胞的两种或更多种菌株的任意组合中表达异源纤维素酶。例如，根据本发明，共培养物可以包含两种菌株：表达内切葡聚糖酶的宿主细胞的一种菌株，和表达β-葡萄糖苷酶、纤维二糖水解酶和第二纤维二糖水解酶的宿主细胞的第二种菌株。根据本发明，共培养物还也可以包含四种菌株：表达内切葡聚糖酶的宿主细胞的一种菌株，表达β-葡萄糖苷酶的宿主细胞的一种菌株，表达第一纤维二糖水解酶的宿主细胞的一种菌株，和表达第二纤维二糖水解酶的宿主细胞的一种菌株。类似地，共培养物可以包含表达两种纤维素酶(例如内切葡聚糖酶和β-葡萄糖苷酶)的宿主细胞的一种菌株，和表达一种或多种纤维素酶(例如一种或多种纤维二糖水解酶)的宿主细胞的第二种菌株。除了包含异源纤维素酶的至少两种宿主细胞之外，共培养物还可以包括不包含异源纤维素酶的其它宿主细胞。

共培养物中的多种宿主细胞菌株可以以相等的数目存在，或者，宿主细胞的一种菌株或种类的数目可以显著超过宿主细胞的另一种菌株或种类。例如，在包含宿主细胞的两种菌株或种类的共培养物中，一种宿主细胞与另一种的比例可以是大约1:1,1:2,1:3,1:4,1:5,1:10,1:100,1:500或1:1000。类似地，在包含宿主细胞的三种或更多种菌株或种类的共培养物中，宿主细胞的菌株或种类可以以相等或不等的数目存在。

本发明的共培养物可以包含附着的纤维素酶、分泌的纤维素酶或附着的与分泌的纤维素酶二者。例如，在本发明的一些实施方式中，共培养物包含含有编码分泌的异源纤维素酶的多核苷酸的至少一种酵母宿主细胞。在另一个实施方式中，共培养物包含含有编码附着的异源纤维素酶的多核苷酸的至少一种酵母宿主细胞。在一个实施方式中，共培养物中所有的异源纤维素酶都是分泌的。在另一个实施方式中，共培养物中所有的异源纤维素酶都是附着的。此外，其它纤维素酶，例如外部添加的纤维素酶，也可以存在于共培养物中。

编码异源纤维素酶的多核苷酸

本发明还包括编码本发明的纤维素酶的分离的多核苷酸。因此，本发明的多核苷酸可以编码内切葡聚糖酶或外切葡聚糖酶。多核苷酸可以包含内切葡聚糖酶、β-葡萄糖苷酶或纤维二糖水解酶。

在本发明的一些具体实施方式中，多核苷酸编码内切葡聚糖酶，其是内-1,4-β-葡聚糖酶。在具体的实施方式中，多核苷酸编码来自里氏木霉的内切葡聚糖酶I。在一些其它实施方式中，内切葡聚糖酶由包含与SEQ ID NO:19至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。在具体的实施方式中，多核苷酸编码来自台湾家白蚁的内切葡聚糖酶1。在一些其它实施方式中，内切葡聚糖酶由包含与SEQ ID NO:11至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。在具体的实施方式中，多核苷酸编码来自里氏木霉的内切葡聚糖酶I。在一些其它实施方式中，内切葡聚糖酶由包含与SEQ ID NO:19至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。在具体的实施方式中，多核苷酸编码来自红褐肉座菌的内切葡聚糖酶2。在一些其它实施方式中，内切葡聚糖酶由包含与SEQ ID NO:54至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。

在一些实施方式中，多核苷酸编码β-葡萄糖苷酶I或β-葡萄糖苷酶II同种型、旁系同源物或直系同源物。在本发明的一些实施方式中，多核苷酸编码源自扣囊复膜酵母菌的β-葡萄糖苷酶。在具体的实施方式中，β-葡萄糖苷酶由包含与SEQ ID NO:20至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。

在本发明的一些实施方式中，多核苷酸编码纤维二糖水解酶I和/或纤维二糖水解酶II同种型、旁系同源物或直系同源物。在本发明的具体实施方式中，多核苷酸编码来自里氏木霉的纤维二糖水解酶I或II。在本发明的具体实施方式中，多核苷酸编码来自埃默森篮状菌的纤维二糖水解酶I或II。在另一个实施方式中，纤维二糖水解酶由包含与SEQ ID NO:7或SEQ ID NO:8至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。在本发明的具体实施方式中，多核苷酸编码来自C.lucknowense的纤维二糖水解酶。在另一个实施方式中，纤维二糖水解酶由包含与SEQ ID NO:5至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸编码。

在其它实施方式中，多核苷酸是包含与表1所列的核苷酸序列至少大约70％、大约80％、大约90％、大约95％、大约96％、大约97％、大约98％、大约99％或100％同一的序列的多核苷酸。在一些方面，多核苷酸可以编码源自例如真菌、细菌、原生动物或白蚁来源的内切葡聚糖酶、纤维二糖水解酶或β-葡萄糖苷酶。

在一些方面，本发明涉及包含编码埃默森篮状菌、灰腐质霉、嗜热子囊菌、C.lucknowense或里氏木霉Cbh1或Cbh2的功能性或结构性结构域的核酸的多核苷酸。例如，里氏木霉Cbh1的结构域包括但不限于：(1)信号序列，其是SEQ ID NO:27的氨基酸1至33；(2)催化结构域(CD)，其是SEQ ID NO:27的大约氨基酸41至大约氨基酸465；和(3)纤维素酶结合模块(CBM)，其是SEQ ID NO:27的大约氨基酸503至大约氨基酸535。里氏木霉Cbh2的结构域包括但不限于：(1)信号序列，其是SEQ ID NO:27的氨基酸1至33；(2)催化结构域(CD)，其是SEQ ID NO:27的大约氨基酸145至大约氨基酸458；和(3)纤维素酶结合模块(CBM)，其是SEQ ID NO:27的大约氨基酸52至大约氨基酸83。

本发明还包括包含与如上所述的编码埃默森篮状菌、灰腐质霉、嗜热子囊菌、C.lucknowense或里氏木霉Cbh1或Cbh2结构域的核酸至少大约70％、75％或80％同一、至少大约90％至大约95％同一，或至少大约96％、97％、98％、99％或100％同一的核酸的分离的多核苷酸。

本发明还包括如上所述的纤维素酶基因的变体。变体可以在编码区、非编码区或二者中包含变异。实例有：包含改变的多核苷酸变体，其产生沉默替换、添加或删除，但是不改变所编码的多肽的性质或活性。在一些实施方式中，通过由于遗传密码的简并性造成的沉默替换来产生核苷酸变体。在进一步的实施方式中，可以为了多种原因产生灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfida fusca)、热纤梭菌(Clostridumthermocellum)、解纤维梭菌(Clostridium cellulolyticum)、约氏梭菌(Clostridumjosui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremoniumthermophilum)、费希新萨托菌(Neosartorya fischeri)、球毛壳菌(Chaetomiumglobosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)和拟南芥(Arabidopsis thaliana)的纤维素酶多核苷酸变体，例如，为了针对特定宿主优化密码子表达。本发明的密码子优化的多核苷酸在下文中有进一步的讨论。

本发明还包括编码融合蛋白的分离的多核苷酸。在一些实施方式中，编码融合蛋白的核酸包含第一多核苷酸和第二多核苷酸，其中所述第一多核苷酸编码埃默森篮状菌cbh1、灰腐质霉cbh1、嗜热子囊菌cbh1或埃默森篮状菌cbh1，其中所述第二多核苷酸编码里氏木霉cbh1或里氏木霉cbh2或C.lucknowense cbh2b的CBM。在编码融合蛋白的核酸的具体实施方式中，第一多核苷酸编码埃默森篮状菌cbh1，第二多核苷酸编码来自里氏木霉Cbh1或Cbh2的CBM。

在进一步的实施方式中，第一和第二多核苷酸是相同的方向，或者第二多核苷酸与第一多核苷酸的方向相反。在另外的实施方式中，第一多核苷酸编码的多肽在第二多核苷酸编码的多肽的N-末端或C-末端。在一些其它实施方式中，第一多核苷酸和/或第二多核苷酸由密码子优化的多核苷酸编码，例如，针对酿酒酵母、克鲁维酵母或针对酿酒酵母与克鲁维酵母二者进行密码子优化的多核苷酸。在编码融合蛋白的核酸的具体实施方式中，第一多核苷酸是密码子优化的埃默森篮状菌cbh1，第二多核苷酸编码来自里氏木霉Cbh1或Cbh2的密码子优化的CBM。

本发明还提供了等位基因变体、直系同源物和/或物种同源物。可以使用本领域已知的程序，使用来自本文公开的序列或保藏于ATCC的克隆的信息，获得对应于SEQ ID NO:1-20的任意项的基因的全长基因、等位基因变体、剪接变体、全长编码部分、直系同源物、和/或物种同源物。例如，可以通过从本文提供的序列制备合适的探针或引物并就等位基因变体和/或想要的同源物筛选合适的核酸来源来分离和鉴定等位基因变体和/或物种同源物。

“含有与本发明的参考核苷酸序列至少例如95％“同一”的核苷酸序列的核酸”是指，该核酸的核苷酸序列与该参考序列是相同的，只不过对于编码特定多肽的参考核苷酸序列的每100个核苷酸而言，该核苷酸序列可以包括多达5个点突变。换言之，为了获得含有与参考核苷酸序列至少95％同一的核苷酸序列的核酸，可以将参考序列中多达5％的核苷酸删除或替换为其它核苷酸，或者，可以将多达参考序列的总核苷酸的5％的多个核苷酸插入到该参考序列中。查询序列可以是SEQ ID NO:1-20任意项所示的完整序列，或本文描述的任何指定片段或结构域。

在实际中，可以使用已知的计算机程序常规地确定任意特定核酸分子或多肽是否与本发明的核苷酸序列或多肽是至少80％、85％、90％、95％、96％、97％、98％或99％同一的。可以使用基于Brutlag等人(Comp.App.Biosci.(1990)6:237-245)的算法的FASTDB计算机程序来测定查询序列(本发明的序列)与主题序列之间的最佳总体匹配，也称为全局序列比对。在序列比对中，查询和主题序列都是DNA序列。可以通过将U转化为T来比较RNA序列。所述全局序列比对的结果以同一性百分率表示。DNA序列的FASTDB比对中使用的用于计算百分率同一性的优选参数是：矩阵＝一元的,k-tuple＝4,错配罚分＝1,连接罚分＝30,随机化组长度＝0,截止得分＝1,空隙罚分＝5,空隙大小罚分＝0.05,窗口大小＝500或主题核苷酸序列的长度，以较短者为准。

如果由于5’或3’删除而不是由于内部删除而导致主题序列比查询序列短，则必须对结果进行人工校正。这是由于：当计算百分率同一性时，FASTDB程序不考虑主题序列的5’和3’截短。对于在5’或3’末端相对于查询序列被截短的主题序列，通过计算未匹配的/比对的查询序列的碱基数目(其是主题序列的5’和3’)占查询序列的总碱基数的百分率来校正百分率同一性。核苷酸是否匹配/比对是通过FASTDB序列比对的结果来确定的。然后从使用指定参数通过以上FASTDB程序计算而来的百分率同一性中减掉该百分率，以获得最终的百分率同一性得分。该校正后的得分用于本发明的目的。为了人工调整百分率同一性得分，只计算那些在主题序列的5’和3’碱基之外的碱基，如FASTDB比对所显示，它们不与查询序列匹配/比对。

例如，90个碱基的主题序列与100个碱基的查询序列进行比对以确定百分率同一性。删除发生在主题序列的5’末端，因此，FASTDB比对不显示5’末端的前10个碱基的匹配/比对。10个未配对的碱基代表10％的序列(不匹配的5’和3’末端的碱基数目/查询序列的碱基总数目)，所以，从通过FASTDB程序计算而来的百分率同一性得分中减掉10％。如果剩余的90个碱基完全匹配，则最终的百分率同一性将是90％。在另一个实例中，90个碱基的主题序列与100个碱基的查询序列进行比较。这次的删除是内部删除，所以不存在不与查询序列匹配/比对的位于主题序列的5’或3’的碱基。在这种情况下，通过FASTDB程序计算的百分率同一性不进行人工校正。再次说明：只有那些不与查询序列匹配/比对的位于主题序列的5’和3’的碱基进行人工校正。为了本发明的目的不进行其它人工校正。

本发明的一些实施方式包括：包含SEQ ID NO:1-20任意项的至少10、20、30、35、40、50、60、70、80、90、100、200、300、400、500、600、700或800个连续核苷酸或更多个核苷酸的核酸分子，或其结构域、片段、变体、或衍生物。

本发明的多核苷酸可以是RNA的形式或DNA的形式，所述DNA包括cDNA、基因组DNA和合成的DNA。所述DNA可以是双链或单链的，并且如果是单链，可以是编码链或非编码(反义)链。编码成熟多肽的编码序列可以与编码SEQ ID NO:21-40、46或52-56的编码序列相同，或者可以是不同的编码序列，所述编码序列由于遗传密码的冗余或简并性的缘故而编码与SEQ ID NO:21-40、46或52-56任一项的DNA相同的成熟多肽。

在一些实施方式中，本发明提供了分离的多核苷酸，其包含编码SEQ ID NO:21-40、46或52-56的至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少95个或至少100个或更多个连续氨基酸的核酸片段。

编码SEQ ID NO:21-40、46或52-56的成熟多肽的多核苷酸可以包括，仅成熟多肽的编码序列；成熟多肽的任意结构域的编码序列；成熟多肽的编码序列(或结构域编码序列)以及非编码序列，例如内含子或成熟多肽的编码序列的5’和/或3’的非编码序列。

因此，术语“编码多肽的多核苷酸”包括：仅包括编码多肽的序列的多核苷酸；以及，包括另外的编码和/或非编码序列的多核苷酸。

在本发明的其它方面，含有与本文公开的核酸序列至少大约90％、95％、96％、97％、98％或99％同一的序列的核酸分子编码具有纤维二糖水解酶("Cbh")、内切葡聚糖酶("Eg")或β-葡萄糖苷酶("Bgl")功能活性的多肽。“具有Cbh、Eg或Bgl功能活性的多肽”是指显示出类似于但不一定等同于本发明的Cbh、Eg或Bgl多肽的功能活性的活性的多肽，所述活性通过例如特定的生物学测定法所测。例如，可以通过测定Cbh、Eg或Bgl多肽水解纤维素的能力或通过测定Cbh、Eg或Bgl活性水平来常规测定Cbh、Eg或Bgl的功能活性。

当然，由于遗传密码的简并性，本领域普通技术人员将会完全认识到：大部分的“含有与SEQ ID NO:1-20任意项的核酸序列至少90％、95％、96％、97％、98％或99％同一的序列的核酸分子或其片段”将编码具有Cbh、Eg或Bgl功能活性的多肽。事实上，由于这些多核苷酸序列的任意项的简并变体都编码相同的多肽，所以，在很多情况下，本领域技术人员即使不进行上述的比较测定也将会完全了解这一点。在本领域中还将认识到，对于那些不是简并变体的核酸分子，也会有合理的数量编码具有Cbh、Eg或Bgl功能活性的多肽。

本发明的多核苷酸还包括编码灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)的纤维素酶或其结构域、片段、变体或衍生物的核酸，所述核酸与编码允许检测本发明的多核苷酸的标志物序列的多核苷酸融合。在本发明的一个实施方式中，标志物的表达不依赖于纤维素酶的表达。所述标志物序列可以是选自URA3,HIS3,LEU2,TRP1,LYS2或ADE2的酵母可选择标志物。Casey,G.P.等人,"A convenient dominant selection marker for genetransfer in industrial strains of Saccharomyces yeast:SMR1encoded resistanceto the herbicide sulfometuron methyl,"J.Inst.Brew.94:93-97(1988)。

密码子优化的多核苷酸

根据本发明的一个实施方式，编码异源纤维素酶的多核苷酸可以是密码子优化的。本文使用的术语“密码子优化的编码区”意思是：通过将至少一个或一个以上或很多个密码子替换为生物体的基因中更经常使用的一个或多个密码子，而使核酸编码区适应在该给定生物的细胞中的表达。

一般而言，生物中高度表达的基因偏向于被该生物中最丰富的tRNA种类所识别的密码子。这种偏向的一种度量是“密码子适应指数”或称“CAI”，其测定在何种程度上，用于编码特定基因中的每个氨基酸的密码子是在来自该生物的高度表达的基因的参照组中最经常存在的启动子。

本发明的密码子优化的序列的CAI对应于大约0.8至1.0，大约0.8至0.9，或大约1.0。密码子优化的序列可以进一步被修饰以在特定生物中表达，这取决于该生物的生物学限制性。例如，可以从序列中除掉大量的"A"或"T"的串(例如超过4、4、5、6、7、8、9或10个连续碱基的串)，如果已知这些序列对转录产生不利影响。此外，可以为了分子克隆的目的除去特定的限制性酶位点。此类限制性酶位点的实例包括PacI、AscI、BamHI、BglII、EcoRI和XhoI。另外，可以检查DNA序列中的长度为10个碱基或更长的正向重复序列、反向重复序列和镜像重复序列，可以通过将密码子替换为“第二最佳”密码子，即在特定生物(针对该生物进行序列的优化)中发生的频率第二高的密码子，从而对它们进行人工修饰。

包含编码任意多肽链的氨基酸的密码子的核苷酸序列中的变异允许编码基因的序列的差异。由于每个密码子由3个核苷酸组成，并且构成DNA的核苷酸限定在4种特定的碱基，所以有64种可能的核苷酸组合，其中61种编码氨基酸(其余3种密码子编码终止翻译的信号)。本文表2中提供了“遗传密码”，其显示了哪种密码子编码哪种氨基酸。结果是，很多氨基酸被不止一种密码子代表。例如，氨基酸丙氨酸和脯氨酸被4种三元组所编码，丝氨酸和精氨酸被6种三元组编码，而色氨酸和甲硫氨酸仅由1种三元组编码。这种简并性允许DNA碱基组成在很大范围内变化，但不改变DNA所编码的蛋白质的氨基酸序列。

表2：标准遗传密码

很多生物显示出对编码插入到生长中的肽链中的特定氨基酸的特定密码子的使用偏向。不同生物之间的密码子优选性或密码子偏向、密码子使用的差异受到遗传密码的简并性的影响，并且在很多生物中有完善的研究。密码子偏向通常与信使RNA(mRNA)的翻译效率相关，信使RNA的翻译效率又被认为尤其依赖于被翻译的密码子的特性以及特定的转运RNA(tRNA)分子的可利用性。细胞中所选的tRNA的主导性一般是肽合成中最常使用的密码子的反映。因此，可以基于密码子优化调整基因以便在给定生物中进行优化的基因表达。

鉴于对于多种动物、植物和微生物物种而言大量的基因序列是可以获得的，所以可以计算出密码子使用的相对频率。密码子使用表是可以容易地获得的，例如http://phenotype.biosci.umbc.edu/codon/sgd/index.php(2008年5月7日访问)或http://www.kazusa.or.jp/codon/(2008年3月20日访问),并且这些表格可以按多种方式进行改编。参见Nakamura,Y等人"Codon usage tabulated from the international DNAsequence databases:status for the year 2000"Nucl.Acids Res.28:292(2000)。下文表3提供了酵母的密码子使用表格，其是从GenBank Release 128.0[2002年2月15日]计算而来的。该表格使用的是mRNA命名法，所以表格使用的是存在于RNA中的尿嘧啶(U)而非存在于DNA中的胸腺嘧啶(T)。该表格进行了改编所以频率的计算是针对每种氨基酸，而非针对所有64种密码子。

表3：酿酒酵母基因的密码子使用表

通过使用该表格或类似表格，本领域普通技术人员可以将频率应用于任何给定的多肽序列，并产生密码子优化的编码区的核酸片段，其编码多肽，但是其使用针对给定物种的优化的密码子。可以通过多种不同的方法设计密码子优化的编码区。

在一种方法中，密码子使用表用于发现用于任何给定氨基酸的单一的使用频率最高的密码子，并且在该特定氨基酸出现在多肽序列中时，每次都使用该密码子。例如，参见上文表3，对于亮氨酸而言，频率最高的密码子是UUG，其使用频率是27.2％。因此，给定氨基酸序列中所有的亮氨酸残基都被分配UUG密码子。

在另一种方法中，密码子的实际频率在编码序列中随机分布。因此，使用该方法进行优化时，如果假定的多肽序列具有100个亮氨酸残基，则，参照表3中酿酒酵母中的使用频率，大约5个或5％的亮氨酸密码子将是CUC，大约11个或11％的亮氨酸密码子将是CUG，大约12个或12％的亮氨酸密码子将是CUU，大约13个或13％的亮氨酸密码子将是CUA，大约26个或26％的亮氨酸密码子将是UUA，大约27个或27％的亮氨酸密码子将是UUG。

这些频率将随机遍布于编码假定的多肽的编码区中的亮氨酸密码子中。如本领域普通技术人员将理解：使用该方法时序列中密码子的分布可以有很大变化。但是，序列总是编码相同的多肽。

当使用上述方法时，术语“大约”用于精确说明给定氨基酸的密码子频率的百分数。本文使用的“大约”定义为比给定数值多1个氨基酸或少1个氨基酸。如果使用频率分数大于或等于0.50，则将氨基酸的整数数值“五入”；如果使用频率分数小于或等于0.49，则将其“四舍”。再次以人基因中亮氨酸的使用频率为例，假设一个多肽具有62个亮氨酸残基，则密码子使用的频率分数这样计算：62乘以每种密码子的频率。因此，62的7.28％等于4.51个UUA密码子，或"大约5”即4、5或6个UUA密码子；62的12.66％等于7.85个UUG密码子或"大约8"即7、8或9个UUG密码子；62的12.87％等于7.98个CUU密码子或"大约8”即7、8或9个CUU密码子；62的19.56％等于12.13个CUC密码子或"大约12”即11、12或13个CUC密码子；62的7.00％等于4.34个CUA密码子或"大约4”即3、4或5个CUA密码子；62的40.62％等于25.19个CUG密码子或"大约25”即24、25或26个CUG密码子。

可以通过计算每种氨基酸的密码子频率，然后为多肽序列随机分配密码子，人工地以优化的频率随机分配密码子以编码给定的多肽序列。另外，本领域普通技术人员可以容易地获得多种算法和计算机软件程序。例如，Lasergene Package中的"EditSeq"函数，其可以从DNAstar,Inc.,Madison,WI获得；VectorNTI Suite中的backtranslation函数，其可以从InforMax,Inc.,Bethesda,MD获得；以及GCG--Wisconsin Package中的"backtranslate"函数，其可以从Accelrys,Inc.,San Diego,CA获得。另外，公众可以获得多种资源以进行编码区序列的密码子优化，例如http://www.entelechon.com/bioinformatics/backtranslation.php？lang＝eng(2008年4月15日访问)的"backtranslation"函数和可以从http://bioinfo.pbi.nrc.ca:8090/EMBOSS/index.html(2002年7月9日访问)获得的"backtranseq"函数。本领域普通技术人员还可以通过基本的数学函数轻易地实现构建初步算法以基于给定的频率分配密码子。

使用本领域普通技术人员熟知的标准的和常规的分子生物学操作，可以获得多种选择以合成通过上文描述的任意方法设计的密码子优化的编码区。在一种方法中，通过标准方法合成一系列互补的寡核苷酸对(oligonucleotide pair)，每个长度是80-90个核苷酸并且跨越想要的序列的长度。合成这些寡核苷酸对，从而实现在退火之后，它们形成80-90个碱基对的双链片段，其包含粘末端，例如，将所述对中的每个寡核苷酸合成为延伸超出与对中的另一寡核苷酸互补的区域3、4、5、6、7、8、9、10或更多个碱基。每对寡核苷酸的单链末端设计为与另一对寡核苷酸的单链末端退火。使寡核苷酸对退火，然后使大约5至6个这些双链片段通过粘性单链末端退火在一起，然后将它们连接在一起并克隆进入标准的细菌克隆载体，例如可以从Invitrogen Corporation,Carlsbad,CA获得的载体。然后通过标准方法将构建体测序。几个这样的构建体(由5至6个80-90个碱基对片段的片段组成)连接在一起，即制备大约500个碱基对的片段，从而在一系列质粒构建体中代表完整的想要的序列。然后使用合适的限制性酶切割这些质粒的插入子，并连接在一起以形成最终的构建体。然后将最终的构建体克隆进入标准的细菌克隆载体并测序。另外的方法对于技术人员是完全显而易见的。此外，基因合成可以容易地从商业途径获得。

在一些实施方式中，通过本文描述的任意方法进行完整多肽序列或其片段、变体或衍生物的密码子优化。设计多种想要的片段、变体或衍生物，然后每个单独进行密码子优化。此外，可以设计并构建本发明的部分密码子优化的编码区。例如，本发明包括编码多肽的密码子优化的编码区的核酸片段，其中至少大约1％、2％、3％、4％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、或100％的密码子位置已经针对给定物种进行了密码子优化。也就是说，它们包含在想要的物种(例如酵母物种，例如酿酒酵母或克鲁维酵母)的基因中优选使用的密码子，替换了在天然核酸序列中通常使用的密码子。

在另外的实施方式中，将全长的多肽序列针对给定物种进行密码子优化，产生编码整个多肽的密码子优化的编码区，然后，从原始的密码子优化的编码区制备密码子优化的编码区的核酸片段，其编码多肽的片段、变体和衍生物。本领域普通技术人员熟知的是，如果基于密码子在给定物种中的使用频率为全长编码区随机分配密码子，则编码片段、变体和衍生物的核酸片段将不一定是针对给定物种完全密码子优化的。但是，与天然密码子使用相比，此类序列与想要的物种的密码子使用之接近程度仍然要高得多。该方法的优点在于，合成编码给定多肽的每个片段、变体和衍生物的密码子优化的核酸片段虽然是常规操作，但是是耗时的，并且花费巨大。

密码子优化的编码区可以是例如编码来自灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)的纤维二糖水解酶、内切葡聚糖酶或β-葡萄糖苷酶或其结构域、片段、变体或衍生物的形式。

通过本文描述的方法针对特定物种进行密码子优化，例如，在一些实施方式中，编码灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfida fusca)、热纤梭菌(Clostridumthermocellum)、解纤维梭菌(Clostridium cellulolyticum)、约氏梭菌(Clostridumjosui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpex lacteus)、嗜热枝顶孢(Acremoniumthermophilum)、费希新萨托菌(Neosartorya fischeri)、球毛壳菌(Chaetomiumglobosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)的纤维素酶的多肽或其结构域、片段、变体或衍生物的密码子优化的编码区是根据酵母(例如酿酒酵母、乳酸克鲁维酵母和/或马克斯克鲁维酵母)的密码子使用进行优化的。还提供了包含编码灰腐质霉(H.grisea)、嗜热子囊菌(T.aurantiacus)、埃默森篮状菌(T.emersonii)、里氏木霉(T.reesei)、澳洲乳白蚁(C.lacteus)、台湾家白蚁(C.formosanus)、高山象白蚁(N.takasagoensis)、澳大利亚矛颚家白蚁(C.acinaciformis)、达尔文澳白蚁(M.darwinensis)、N.walkeri、扣囊复膜酵母菌(S.fibuligera)、C.lucknowense、黄胸散白蚁(R.speratus)、嗜热放线菌(Thermobfidafusca)、热纤梭菌(Clostridum thermocellum)、解纤维梭菌(Clostridiumcellulolyticum)、约氏梭菌(Clostridum josui)、短小芽孢杆菌(Bacillus pumilis)、粪碱纤维单胞菌(Cellulomonas fimi)、Saccharophagus degradans、Piromyces equii、Neocallimastix patricarum、白曲霉(Aspergillus kawachii)、甜菜胞囊线虫(Heterodera schachtii)、红褐肉座菌(H.jecorina)、Orpinomyces属、白囊耙齿菌(Irpexlacteus)、嗜热枝顶孢(Acremonium thermophilum)、费希新萨托菌(Neosartoryafischeri)、球毛壳菌(Chaetomium globosum)、嗜热毛壳菌(Chaetomium thermophilum)、烟曲霉(Aspergillus fumigatus)、土曲霉(Aspergillus terreus)、粗糙脉孢菌(Neurospora Crassa)、北美散白蚁(R.flavipes)或拟南芥(Arabidopsis thaliana)纤维素酶的多肽或其结构域、片段、变体或衍生物的密码子优化的编码区的多核苷酸、载体和其它表达构建体，以及使用此类多核苷酸、载体和其它表达构建体的多种方法。

在本文描述的一些实施方式中，根据酵母(酿酒酵母、乳酸克鲁维酵母或马克斯克鲁维酵母)中的密码子使用优化编码SEQ ID NO:21-40、46或52-56的任意项或其结构域、片段、变体或衍生物的密码子优化的编码区。在一些实施方式中，序列是特别针对在酿酒酵母中的表达进行密码子优化的。在一些实施方式中，序列是针对在克鲁维酵母中的表达进行密码子优化的。在一些实施方式中，序列是针对在酿酒酵母和克鲁维酵母二者中的最佳表达同时进行密码子优化的。或者，可以根据任意植物、动物或微生物物种中的密码子使用来优化编码SEQ ID NO:21-40、46或52-56的任意项的密码子优化的编码区。

载体和在宿主细胞中使用载体的方法

本发明还涉及包含本发明的多核苷酸的载体，经过本发明的载体遗传工程化的宿主细胞，和通过重组技术产生本发明的多肽。

宿主细胞经过本发明的载体遗传工程化(转导、转化或转染)，所述载体可以是例如克隆载体或表达载体。所述载体可以是例如下列形式：质粒、病毒颗粒、噬菌体等。可以在视需要进行改良的常规营养培养基中培养工程化的宿主细胞，以激活启动子、选择转化子或扩增本发明的基因。培养条件例如温度、pH等是以前用于宿主细胞的选择用来表达的条件，并且对本领域普通技术人员是显而易见的。

本发明的多核苷酸可用于通过重组技术产生多肽。因此，例如，可以在多种表达载体中的任一种中包括多核苷酸以表达多肽。此类载体包括染色体、非染色体和合成的DNA序列，例如SV40的衍生物；细菌质粒；和酵母质粒。然而，可以使用任何其它载体，只要其在宿主中是可复制的和存活的。

可以通过多种方法将合适的DNA序列插入到载体中。一般地，通过本领域已知的方法将DNA序列插入到合适的限制性核酸内切酶位点。此类方法和其它方法被认为是在本领域技术人员能力范围内。

表达载体中的DNA序列与用于指导mRNA合成的合适的表达控制序列(启动子)可操作地结合。此类启动子的代表性实例如下：

基因	生物	系统名	使用原因/益处
				PGK1	酿酒酵母	YCR012W	强组成型启动子
ENO1	酿酒酵母	YGR254W	强组成型启动子
				TDH3	酿酒酵母	YGR192C	强组成型启动子
TDH2	酿酒酵母	YJR009C	强组成型启动子
				TDH1	酿酒酵母	YJL052W	强组成型启动子
ENO2	酿酒酵母	YHR174W	强组成型启动子
				GPM1	酿酒酵母	YKL152C	强组成型启动子
TPI1	酿酒酵母	YDR050C	强组成型启动子

另外，来自压力和饥饿响应基因的启动子序列可用于本发明。在一些实施方式中，可以使用来自酿酒酵母基因GAC1、GET3、GLC7、GSH1、GSH2、HSF1、HSP12、LCB5、LRE1、LSP1、NBP2、PIL1、PIM1、SGT2、SLG1、WHI2、WSC2、WSC3、WSC4、YAP1、YDC1、HSP104、HSP26、ENA1、MSN2、MSN4、SIP2、SIP4、SIP5、DPL1、IRS4、KOG1、PEP4、HAP4、PRB1、TAX4、ZPR1、ATG1、ATG2、ATG10、ATG11、ATG12、ATG13、ATG14、ATG15、ATG16、ATG17、ATG18、和ATG19的启动子区域。可以使用驱动在本发明的宿主细胞中的基因表达的任意合适的启动子。另外，可以使用大肠杆菌lac或trp以及其它已知的控制原核或低等真核细胞中的基因表达的启动子。

此外，表达载体可以包含一个或多个选择性标志物基因，以提供用于选择转化的宿主细胞的表型特性，例如用于真核细胞培养物的URA3、HIS3、LEU2、TRP1、LYS2、ADE2、二氢叶酸还原酶、新霉素(G418)抗性或zeocin抗性，或大肠杆菌中的四环素或氨比西林抗性。

表达载体还可以包含用于翻译起始的核糖体结合位点和/或转录终止子。载体还可以包括用于扩增表达的合适序列，或可以包括另外的调节区域。

包含合适的如本文所述的DNA序列以及合适的启动子或控制序列的载体可用于转化合适的宿主以允许该宿主表达蛋白质。

因此，在一些方面，本发明涉及含有上述构建体的宿主细胞。所述宿主细胞可以是本申请其它地方描述的宿主细胞。所述宿主细胞可以是，例如，低等真核细胞，例如酵母细胞，例如酿酒酵母或克鲁维酵母，或者所述宿主细胞可以是原核细胞，例如细菌细胞。

作为合适的宿主的代表性实例，可以提及：细菌细胞，例如大肠杆菌、链霉菌、鼠伤寒沙门菌(Salmonella typhimurium)；嗜热或嗜温细菌；真菌细胞，例如酵母；和植物细胞等。合适的宿主的选择被认为是在本领域技术人员根据本文教导的能力范围内。

合适的真菌宿主包括酵母。在本发明的一些方面，酵母选自酿酒酵母(Saccharomyces cerevisiae)、乳酸克鲁维酵母、粟酒裂殖酵母(Schizzosaccharomycespombe)、白假丝酵母菌(Candida albicans)、巴斯德毕赤酵母(Pichia pastoris)、树干毕赤酵母(Pichia stipitis)、解脂耶氏酵母(Yarrowia lipolytica)、多形汉逊酵母(Hansenula polymorpha)、红发夫酵母(Phaffia rhodozyma)、产朊假丝酵母(Candidautilis)、Arxula adeninivorans、汉逊德巴利酵母(Debaryomyces hansenii)、多形德巴利酵母(Debaryomyces polymorphus)、西方许旺酵母(Schwanniomyces occidentalis)、东方伊萨酵母(Issatchenkia orientalis)、马克斯克鲁维酵母、布拉氏霉菌属(Blakeslea)、假丝酵母属(Candida)、隐球酵母属(Cryptococcus)、小克银汉霉属(Cunninghamella)、油脂酵母属(Lipomyces)、被孢霉属(Mortierella)、白霉属(Mucor)、须霉属(Phycomces)、腐霉属(Pythium)、红冬孢酵母属(Rhodosporidium)、红酵母属(Rhodotorula)、丝孢酵母属(Trichosporon)和耶罗威亚酵母属(Yarrowia)。

使用宿主细胞产生生产乙醇的方法

本发明还涉及使用宿主细胞和共培养物从纤维质底物生产乙醇。可以通过例如将纤维质底物与本发明的宿主细胞或共培养物接触来完成此类方法。

有多种纤维质底物可用于本发明。用于纤维素活性测定的底物可以基于它们在水中的溶解性分为两类：可溶的和不可溶的。可溶的底物包括纤维糊精或衍生物、羧甲基纤维素(CMC)或羟乙基纤维素(HEC)。不可溶的底物包括晶体纤维素、微晶纤维素(Avicel)、无定形纤维素，例如磷酸膨胀的纤维素(PASC)、染色的或荧光纤维素，和经过预处理的木质纤维素生物质。这些底物一般是高度有序的纤维质物质，因此仅少量可溶。

将认识到，合适的木质纤维素物质可以是任何含有可溶性和/或不溶性纤维素的原料，其中所述不溶性纤维素可以是晶体或非晶体形式。在多个实施方式中，木质纤维素生物质包括，例如，木材、玉米、玉米秸秆、木屑、树皮、树叶、农业和林业的残留物、草例如柳枝稷、反刍动物消化产物、城市垃圾、造纸厂污水、报纸、纸板或其组合。

在一些实施方式中，本发明涉及，通过将纤维质底物(例如如上文描述的纤维质底物)与本发明的宿主细胞接触来水解所述纤维质底物的方法。在一些实施方式中，本发明涉及，通过将纤维质底物(例如如上文描述的纤维质底物)与包含表达异源纤维素酶的酵母细胞的共培养物接触来水解所述纤维质底物的方法。

在一些实施方式中，本发明涉及发酵纤维素的方法。此类方法可以这样完成：例如，在含有不可溶的纤维素的培养基中培养宿主细胞或共培养物，以允许进行纤维素的糖化和发酵。

根据本发明，乙醇的产生可以在下列温度进行：至少大约30℃、大约31℃、大约32℃、大约33℃、大约34℃、大约35℃、大约36℃、大约37℃、大约38℃、大约39℃、大约40℃、大约41℃、大约42℃、大约43℃、大约44℃、大约45℃、大约46℃、大约47℃、大约48℃、大约49℃或大约50℃。在本发明的一些实施方式中，耐热的宿主细胞可以在高于大约30℃、大约31℃、大约32℃、大约33℃、大约34℃、大约35℃、大约36℃、大约37℃、大约38℃、大约39℃、大约40℃、大约41℃、大约42℃或大约43℃或大约44℃或大约45℃或大约50℃的温度从纤维素产生乙醇。在本发明的一些实施方式中，耐热的宿主细胞可以在大约30℃至60℃，大约30℃至55℃，大约30℃至50℃，大约40℃至60℃，大约40℃至55℃，或大约40℃至50℃的温度从纤维素产生乙醇。

在一些实施方式中，产生乙醇的方法可以包括：将纤维质底物与本发明的宿主细胞或共培养物接触，另外，将纤维质底物与外部产生的纤维素酶接触。示例性的外部产生的纤维素酶是商业上可获得的，并且是本领域技术人员已知的。

因此，本发明还涉及减少从纤维素产生给定数量的乙醇所需的外部产生的纤维素酶的量的方法，包括：将纤维素与外部产生的纤维素酶并与本发明的宿主细胞或共培养物接触。在一些实施方式中，使用低至少大约5％,10％,15％,20％,25％,30％或50％的外部产生的纤维素酶，可以实现相同数量的乙醇产量。在一些实施方式中，不添加外部纤维素酶，或者少于大约5％的纤维素酶是外部添加的纤维素酶，或者少于大约10％的纤维素酶是外部添加的纤维素酶，或者少于大约15％的纤维素酶是外部添加的纤维素酶。

在一些实施方式中，方法包括在特定速率产生乙醇。例如，在一些实施方式中，以下列速率产生乙醇：至少大约0.1mg/小时/升，至少大约0.25mg/小时/升，至少大约0.5mg/小时/升，至少大约0.75mg/小时/升，至少大约1.0mg/小时/升，至少大约2.0mg/小时/升，至少大约5.0mg/小时/升，至少大约10mg/小时/升，至少大约15mg/小时/升，至少大约20.0mg/小时/升，至少大约25mg/小时/升，至少大约30mg/小时/升，至少大约50mg/小时/升，至少大约100mg/小时/升，至少大约200mg/小时/升，至少大约300mg/小时/升，至少大约400mg/小时/升，或至少大约500mg/小时/升。

在一些实施方式中，本发明的宿主细胞可以以比在相同条件下生长的对照菌株(不含异源纤维素酶)高至少大约0.1mg/小时/升，至少大约0.25mg/小时/升，至少大约0.5mg/小时/升，至少大约0.75mg/小时/升，至少大约1.0mg/小时/升，至少大约2.0mg/小时/升，至少大约5.0mg/小时/升，至少大约10mg/小时/升，至少大约15mg/小时/升，至少大约20.0mg/小时/升，至少大约25mg/小时/升，至少大约30mg/小时/升，至少大约50mg/小时/升，至少大约100mg/小时/升，至少大约200mg/小时/升，至少大约300mg/小时/升，至少大约400mg/小时/升，或至少大约500mg/小时/升的速率产生乙醇。在一些实施方式中，可以在不存在任何外部添加的纤维素酶的情况下产生乙醇。

可以使用本领域已知的任意方法测定乙醇产量。例如，可以使用HPLC分析法测定发酵样品中的乙醇的量。有很多乙醇测定试剂盒是商业上可获得的，其使用例如基于醇氧化酶测定。测定乙醇产量的方法是根据本文教导后本领域技术人员能力范围内的事。

下面将通过这些非限制性实施例更详细地描述本发明的下列实施方式。

实施例

本发明呈现了用于产生能够进行联合生物加工的酵母的多个重要步骤。本发明描述了通过表达异源纤维素酶的组合而产生的改善的分解纤维素的酵母。本发明首次证明了经转化的克鲁维酵母从纤维素产生乙醇的能力，仅表达分泌的异源纤维素酶的酵母菌株从纤维素产生乙醇的能力，以及表达不同的纤维素酶的多个酵母菌株的共培养物从纤维素产生乙醇的能力。此外，此类酵母菌株和酵母菌株的共培养物能够增强同时糖化和发酵(SSF)过程的效率。

一般性程序

一般性的菌株培养和培养基

大肠杆菌菌株DH5α(Invitrogen)或NEB 5α(New England Biolabs)用于质粒转化和繁殖。细胞生长于LB培养基(5g/L酵母提取物，5g/L NaCl,10g/L胰蛋白胨)，其中补充了氨比西林(100mg/L),卡那霉素(50mg/L)或zeocin(20mg/L)。当需要使用zeocin进行选择时，将LB调整为pH 7.0。另外，如果需要固体培养基，则添加15g/L的琼脂。

酵母菌株常规生长于YPD(10g/L酵母提取物,20g/L蛋白胨,20g/L葡萄糖)，YPC(10g/L酵母提取物,20g/L蛋白胨,20g/L纤维二糖)，或YNB+葡萄糖(6.7g/L无氨基酸的酵母氮源，并补充对于菌株适当的氨基酸，20g/L葡萄糖)培养基，其中含有G418(250mg/L，除非另有指明)或zeocin(20mg/L，除非另有指明)以用于选择。对于固体培养基，则添加15g/L琼脂。

分子学方法

按照标准程序进行DNA操作(Sambrook等人1989)。使用Phusion聚合酶(NewEngland Biolabs)进行PCR，以进行克隆；使用Taq聚合酶(New England Biolabs)进行PCR，以筛选转化子；在一些情况下使用Advantage Polymerase(Clontech)进行基因的PCR以矫正营养缺陷型。遵循生产商提供的说明书。限制性酶购自New England Biolabs，根据提供的说明书进行消化。使用生产商指定的Quick ligation试剂盒(New England Biolabs)进行连接。使用Qiagen或Zymo科研试剂盒进行凝胶纯化，使用Zymo科研试剂盒进行PCR产物和消化物的纯化，使用Qiagen中量和微量制备试剂盒进行质粒DNA的纯化。在DartmouthCollege的Molecular Biology Core Facility进行测序。酵母介导的连接(YML)用于产生一些构建体(Ma等人Gene 58:201-216(1987))。其是这样进行的：产生待克隆的DNA片段，其与待组合的其它片段和/或骨架载体具有20-40bp的同源性。然后，通过标准方法将能够在酵母中复制的骨架载体(pRS426)(具有用于选择的Ura3基因)与用于克隆的靶序列转化进入酵母中。经转化的酵母将这些片段重新组合以形成完整构建体，得到的质粒允许在不含尿嘧啶的培养基上进行选择。

载体

用于下文详述的实验中的质粒构建体载体总结于表4，用于载体构建的引物总结于表5。

表4.所用的质粒

缩写:ENO1_P/T＝烯醇酶1基因启动子/终止子；PGK1_P/T＝磷酸甘油酸激酶1基因启动子/终止子；T.r.＝里氏木霉(Trichoderma reesei)；H.g.＝灰腐质霉(Humicola grisea)；T.a.＝嗜热子囊菌(Thermoascus aurantiacus)；T.e.＝埃默森篮状菌(Talaromycesemersonii,S.f.＝扣囊复膜酵母菌(Saccharomycopsis fibuligera)；C.l.(a)＝澳洲乳白蚁(Coptotermes lacteus)；C.f.＝台湾家白蚁(Coptotermes formosanus)；N.t.＝高山象白蚁(Nasutitermes takasagoensis)；C.a.＝澳大利亚矛颚家白蚁(Coptotermesacinaciformis)；M.d.＝达尔文澳白蚁(Mastotermes darwinensis)；N.w.＝Nasutitermeswalkeri；R.s.＝黄胸散白蚁(Reticulitermes speratus)；C.l.(b)＝Chrysosporiumlucknowense；N.f.＝费希新萨托菌(Neosartorya fischeri)；R.f.＝北美散白蚁(Reticulitermes flavipes)；C.t.＝嗜热毛壳菌(Chaetomium thermophilum)

表5：使用的引物

产生了酵母表达载体YEpENO-BBH以促进在酿酒酵母烯醇酶1(ENO1)基因启动子和终止子控制下的异源表达。该载体的有用之处还在于：可以通过使用BamHI、BglII消化简便地切割来自该载体的表达盒。YEpENO1(Den Haan等人,Metabolic Engineering.9:87-942007)含有YEp352骨架，其中ENO1基因的启动子和终止子序列被克隆进入BamHI和HindIII位点。BamHI消化该质粒，以Klenow聚合酶和dNTP填充悬突以除掉BamHI位点。将该质粒重连接以产生YEpENO-B。然后使用相同的方法，将BglII破坏掉，随后将HindIII位点破坏掉，以产生YEpENO-BBHtemplate。YEpENO-BBHtemplate用作PCR反应的模板，其中使用下列引物：

ENOBB-left

(5’-GATCGGATCCCAATTAATGTGAGTTACCTCA-3’)和

ENOBB-right

(5’-GTACAAGCTTAGATCTCCTATGCGGTGTGAAATA-3’)，其中ENO1盒与150bp的上游侧接区域和220bp的下游侧接区域一起被扩增。BamHI和HindIII消化该产物，通过Klenow聚合酶和dNTP处理填充悬突，并克隆于yENO1上的两个PvuII位点之间，从而有效替换原始的ENO1盒，并产生YEpENO-BBH。

设计密码子优化形式的灰腐质霉cbh1(Hgcbh1)、嗜热子囊菌cbh1(Tacbh1)和埃默森篮状菌cbh1和cbh2(Tecbh1和Tecbh2)，并从GenScript Corporation(Piscataway,NJ,USA)订购合成的基因。将购自GenScript Corporation的这4种合成的cbh编码基因克隆进入质粒pUC57。以EcoRI和XhoI消化得到的载体，以切除cbh基因，然后将其克隆进入经EcoRI和XhoI消化的YEpENO-BBH。从而产生质粒pRDH103(含有Hgcbh1)、pRDH104(含有Tacbh1)、pRDH105(含有Tecbh1)和pRDH106(含有Tecbh2)，其中cbh编码基因处于ENO1启动子和终止子的转录控制下。另外，产生了pRDH101，以表达来自pBZD_10631_20641的里氏木霉CBH1。按照说明书使用TakaraExTaq酶，使用引物sCBH1/2L和sCBH1R从pBZD_10631_20641扩增sTrcbh1。然后分离片段并以EcoRI和XhoI消化。还以EcoRI和XhoI消化YEpENO-BBH，并分离和连接相关的带。使用引物sCBH1/2-L和sCBH2R(5’-CAGTCTCGAGTTACAAGAAAGATGGGTTAGC-3’)，从质粒pBZD_10631_20641扩增编码里氏木霉cbh2基因的1494bp的片段，以EcoRI和XhoI消化，并克隆进入pJC1(Crouse等人,Curr.Gen.28:467-473(1995))的EcoRI和XhoI位点之间，将其置于酿酒酵母磷酸甘油酸激酶1(PGK1)基因启动子和终止子的转录控制下。该质粒被称作pRDH107。然后，通过以BamHI和BglII进行消化而切下来自pRDH103、pRDH104和pRDH105的表达盒并分别克隆进入pRDH107的BamHI位点以产生pRDH118、pRDH120、pRDH108和pRDH109。pRDH109含有与pRDH108相同的表达盒，但是，在pRDH108中，基因表达盒彼此的方向是相反的。这些质粒及其基本基因型总结于表4。

还产生了另外2个2-μ载体，以表达Chrysosporium lucknowense CBH2b和埃默森篮状菌CBH1，其具有里氏木霉CBH1的CBM的c-末端融合物。埃默森篮状菌cbh1与里氏木霉cbh1的CBM之间的融合是通过连接三个片段产生的。表5列出了用于这些构建体的寡核苷酸。使用pRDH105作为模板，以寡核苷酸395Te cbh1 Synt1 PacI-ATG和398 Te cbh1 syntcore SmaI扩增了PCR产物，以PmlI和SmaI消化，分离800bp的片段。使用pRDH101作为模板，以寡核苷酸399Trcbh1 synt CBM5 MlyIHincII和400 Trcbh1 synt CBM AscIXhoI扩增了第二个PCR产物，以MlyI和XhoI消化，分离180bp的片段。将这两个PCR片段与pRDH105的6.9kb PmlI-XhoI片段连接，产生pMU624。

使用NetAspGene 1.0Server(http://www.cbs.dtu.dk/services/NetAspGene/)，就推定的内含子分析Chrysosporium lucknowense cbh2b基因(描述于已经公开的美国专利申请2007/0238155)的基因组的3900bp DNA序列。从基因组序列中除掉预测的内含子，从而产生482个氨基酸的开放阅读框，在Codon Devices合成它，就在酿酒酵母中的表达进行密码子优化，并克隆进入pUC57载体。修饰质粒pAJ401(Saloheimo等人Mol.Microbiol.13:219-228,1994)(其包含PGK1启动子和终止子)以在PacI和AscI限制性位点之间表达里氏木霉cbh2。以pAJ410作为模板，以引物379ScPGK1prom-786SacI+ApaI和380ScPGK1promEcoRI-PacI扩增PGK1启动子，并以PacI和EcoRI消化。以寡核苷酸381 CBH2 WT EcoRI-PacI-ATG和386CBH2 WT TAA-AscI-EcoRI从pTTc01(Teeri等人,Gene 51:43-52,1987)扩增里氏木霉cbh2 ORF，以PacI和EcoRI消化，并与经SacI-EcoRI消化的pAJ401连接，从而产生pMI508。将pMI508中的PacI-AscI片段替换为合成的1.4kb的里氏木霉egl1基因，从而产生pMI522。以PmlI和XhoI消化pMI522的1.9kb的片段，并与pRDH107 6.4kb PmlI-XhoI片段连接，从而产生pMI568。以PacI和AscI消化pMI568，将7kb的片段与pMI558的1.5kb的片段连接，从而产生pMU784，以用于表达C.lucknowense cbh2b。

还构建了用于在酿酒酵母中表达内切葡聚糖酶的一组2-μ载体，以及作为对照的相关质粒。产生了pMU451作为对照载体，并用于克隆处于ENO1启动子和终止子控制下的纤维素酶。这是通过将PacI/AscI连接子添加至pMU451的EcoRI/XhoI位点实现的。从CodonDevices订购合成的基因，将收到的在pUC57中的基因克隆进入该载体作为PacI/AscI片段。按照这种方式产生并列举于表4中的载体是：pMU458、pMU463、pMU465、pMU469、pMU471、pMU472、pMU473、pMU475、pMU499、pMU500和pMU503。

从pBKD_1和pBKD_2构建体产生载体，以用于将分泌形式的纤维素酶整合于酿酒酵母中的δ整合位点，或用于整合进入马克斯克鲁维酵母的基因组。通过PCR从ySFI(vanRooyen等人,J.Biotechnol.120:284-95(2005))克隆扣囊复膜酵母菌BGL1(SfBGLI)。所用的内切葡聚糖酶(TrEGI)是表1中给出的序列。通过PCR(使用PacI和AscI位点)将纤维素酶编码基因克隆进入pBKD_1和pBKD_2-以产生pBKD1-BGL1和pBKD2-sEG1。然后将来自pBKD2-sEG1的ENO1P-sEG1-ENO1T盒作为SpeI,NotI片段亚克隆进入pBKD1-BGL1，以产生pBKD1-BGL1-sEG1。

通过以Not1切割pMU185(pUG66)并分离1190bp的含有lox P ZeoR的插入子来产生pMU562，其用于将纤维素酶整合进入马克斯克鲁维酵母。将该插入子连接进入Not1消化的4.5Kbδ-整合载体以产生pMU562。通过以Asc1/Pac1切割含有里氏木霉CBH2的质粒pMU291、分离1491bp CBH2基因并将其连接进入经Asc1/Pac1切割的δ-整合载体pMU562，产生pMU576。通过以Asc1/Pac1切割来自pMU398的埃默森篮状菌CBH1、分离1380bp的CBH1基因并连接进入经Asc1/Pac1切割的δ-整合载体pMU562，产生pMU577。类似地，将一组重组纤维素酶构建体(pMU661至pMU668和pMU750、pMU755、pMU809—见表4)，包括多种内切葡聚糖酶和纤维二糖水解酶，引入pMU562以进行共转化。这些纤维素酶基因的合成的序列最初获自Codon Devices，然后克隆进入2μ表达载体以用于酿酒酵母。然后将它们从这些载体转移至如表X详述(包括使用的消化物)的整合载体。这些构建体一起形成了可以单独或联合被转化、然后通过活性测定法进行筛选的文库。使用在δ序列内部或外部非常靠近的地方切割的酶消化这些构建体，以进行整合。还构建了用于使用潮霉素标志物整合纤维素酶的类似的构建体(pMU721、pMU760和pMU761)。

酵母的转化

对于酿酒酵母中全部质粒的常规转化，使用标准的化学转化方法(Sambrook等人Molecular cloning:A laboratory manual.New York:Cold Spring Harbor LaboratoryPress(1989))。对于一些转化，使用修改自Hill等人(Nucleic Acids Res.19:5791(1991))描述的程序的方法。

基于Cho等人(1999)和Ausubel等人(1994)，开发了用于酵母的电转化的程序。通过以AccI消化pBD1-BGL1-sEG1来产生线性DNA片段。AccI在δ序列中具有独特位点。通过以3M NaAc和冰冷的乙醇沉淀来纯化片段，然后以70％的乙醇洗涤，在70℃真空烤箱中干燥之后，重悬于USB dH₂O(不含DNA酶和RNA酶，无菌水)。

通过在5mL YPD培养基中生长至饱和来制备用于转化的酿酒酵母。取出4mL培养物的样品，以冷的蒸馏水洗涤2次，并重悬于640μL冷的蒸馏水中。加入80μL 100mM Tris-HCl,10mM EDTA,pH 7.5(10X TE缓冲液—经过滤除菌的)和80μL 1M醋酸锂,pH 7.5(10X LiAc—经过滤除菌的)，将细胞悬浮液在30℃温育45分钟，并轻微摇动。加入20μL 1M DTT，继续温育15分钟。然后将细胞离心，以冷的蒸馏水洗涤一次，以电穿孔缓冲液(1M山梨醇,20mMHEPES)洗涤一次，最后重悬于267μL电穿孔缓冲液中。使用相同的程序转化乳酸克鲁维酵母和马克斯克鲁维酵母，区别在于以0.5mL的过夜培养物接种50mL YPD，并在37℃生长4个小时，然后按照如上所述进行离心和制备。另外，在37℃进行温育和回收步骤。

对于电穿孔，将10μg线性化的DNA(通过在凝胶上的估计进行测定)与50μL细胞悬浮液在1.5mL的无菌微量离心管中混合。然后将混合物转移至0.2cm电穿孔杯，使用BioradGene Pulser装置向样品施以1.4kV(200μ,25μF)的脉冲。将含有1M山梨醇的1mL YPD(调节至pH 7.0)(YPDS)置于所述电穿孔杯中，使细胞恢复～3小时。将100-200μL细胞悬浮液涂敷在含有合适的抗生素的YPDS琼脂平板上，将所述平板在30℃温育3-4天，直至出现菌落。

酵母菌株

使用所描述的载体和转化程序产生表6所列的酵母菌株。

表6：酵母菌株

以AccI消化质粒pBKD1-BGL1-sEG1(pMU276)并通过电转化方法转化进入酿酒酵母Y294，以产生具有δ整合的拷贝的SfBGLI和TrEGI的菌株，其被称作M0243。然后将游离质粒转化进入酿酒酵母Y294和/或M0243。

为了产生自动选择性的酿酒酵母菌株，即，可以在无需选择性压力的培养基中生长以保持游离质粒的菌株，以NsiI和NcoI消化的pDF1转化菌株，并在SC-ura-leu平板上选择。这导致酿酒酵母中的FUR1基因被破坏。使用引物FUR1-left(5'-ATTTCTTCTTGAACCATGAAC-3')和FUR1-right(5'-CTTAATCAAGACTTCTGTAGCC-3')，通过PCR来确认FUR1的破坏，其中2568bp表示被破坏。

按照如上所述的方法，通过以AccI消化的pBKD1-BGLI-sEGI转化M0282来产生M0282，区别之处在于将转化混合物涂覆在含有10g/L BMCC、10g/L酵母提取物和20g/L蛋白胨的平板上。

通过菌落PCR验证克鲁维酵母株中整合基因的存在。通过以用于补偿它们的营养缺陷型的基因的PCR产物进行转化使选择的酵母菌株成为原养型的。

用于酶测定的纤维质底物

细菌微晶纤维素(BMCC)由CP Kelco公司惠赠。收到的BMCC是在4℃水中的搅拌的O/N。将底物重新水化之后，将其在水中洗涤6次，并重悬于水中。通过在105℃干燥样品直至获得恒定重量来测定底物的干重。

按照生产商的提供使用Avicel PH105(FMC Biopolymers)。

通过在160PSI使底物自动水解10分钟来产生经预处理的混合的硬木。将预处理的材料洗涤5次，以除掉抑制剂和可溶性糖，并重悬于蒸馏水中。将样品在105℃干燥过夜，以测定干重。通过定量糖化分析糖含量显示含有50％的葡聚糖。

按照Zhang and Lynd(2006)中的描述，稍作修改，制备磷酸膨胀纤维素(PASC)。以100mL蒸馏水将Avicel PH105(10g)在4L的烧瓶中润湿。向烧瓶中缓慢加入800mL 86.2％的磷酸，先加300mL，然后混合，随后加入50mL的等份。将透明溶液在4℃放置1小时以允许纤维素完全溶解，直至在反应混合物中不再有结块。接下来，以500mL的等份，加入总共2L的冰冷的蒸馏水，在每次添加之间混匀。将300mL的混合物等份在5,000rpm、2℃离心20分钟，弃上清。加入300mL冷的蒸馏水，随后，重复离心4次。向纤维素中加入4.2mL 2M碳酸钠和300mL水，然后以蒸馏水洗涤2或3次，直至最终的pH是～6。在105℃烤箱中将样品干燥至恒重，以测定干重。

酶测定

按照与McBride,J.E.等人(Enzyme Microb.Techol.37:93-101(2005))相似的方式测定β-葡萄糖苷酶活性，区别在于减少测定的体积并在微量滴定板中进行反应。简而言之，使酵母菌株在YPD或YPC培养基(含有或不含合适的抗生素)中生长至饱和，测定600nm处的光密度(OD(600))，取出0.5mL的培养物样品。将该样品离心，分离上清液并保存，以pH5.0的50mM柠檬酸盐缓冲液将细胞沉淀物洗涤2次。用于上清液的反应物由下列组成：50μL样品,50μL柠檬酸盐缓冲液和50μL 20mM对-硝基苯基-β-D-吡喃葡糖苷(PNPG)底物。以经洗涤的细胞进行的反应由下列组成：25μL细胞,75μL柠檬酸盐缓冲液和50μL PNPG底物。如果活性对于标准曲线的范围而言过高，则使用较低的细胞浓度并重新进行测定。标准曲线由2倍连续稀释的硝基苯酚(PNP)标准物组成，起始于500nM，终止于7.8nM，并且包括缓冲液空白。制备上清液或细胞的合适的稀释物之后，将微量滴定板与反应底物在37℃温育10分钟。通过加入底物进行反应，温育30分钟，通过加入150μL 2M Na₂CO₃停止反应。然后将平板在2500rpm离心5分钟，将150μL上清液转移至另一平板。在405nm读取每个孔的吸光率。

通过观察合成的完全培养基(如上所述，但包含20g/L葡萄糖)平板(含有0.1％羧甲基纤维素(CMC))(以刚果红(Beguin,Anal.Biochem.131:333-6(1983))染色)上的清除区来定性检测内切葡聚糖酶活性。细胞在平板上生长2-3天，以pH7.5的1M Tris-HCL缓冲液从平板上洗掉。然后将平板以0.1％刚果红溶液染色10分钟，然后以1M NaCl洗掉多余的染料。

使用底物4-甲基伞形基-β-D-乳糖苷(MULac)检测CBH1活性。通过混合50μL酵母上清液与50μL 4mM MUlac底物溶液(在pH 5.5的50mM柠檬酸盐缓冲液中制备)来进行测定。使反应进行30分钟，然后以1M Na₂CO₃停止反应。在微量滴定板读数器中读取每个孔中的荧光(激发：355nm；发射：460nm)。

酶活性的定量

使用Den Haan等人,Enzyme and Microbial Technology 40:1291-1299(2007)中描述的程序测定在PASC和Avicel上的酶活性。简而言之，将酵母上清液与纤维素在4℃温育以结合纤维素酶。然后，将纤维素从酵母上清液中过滤出来，重悬于柠檬酸盐缓冲液和叠氮钠中，并在37℃温育。通过取样和进行苯酚-硫酸测定法来测定反应中糖的积累(见实施例10和表9)。

还使用96孔板方法测定了Avicel活性水平(见实施例2)。待测菌株在35℃在96孔的深孔板中的YPD中生长，并以900RPM摇动。生长之后，将平板在4000rpm离心10分钟。向新的96孔深孔板中加入300μL底物(2％avicel,50mM醋酸钠缓冲液,0.02％叠氮钠,β-葡萄糖苷酶—1μL/mL)，不要使avicel沉降。向该底物中加入300μL酵母上清液，取出100μL作为最初的样品。将测定板在35℃温育，以800rpm摇动，在第24和48小时取样。将样品置于96孔PCR平板中，并在2000rpm旋转2分钟。然后将50μL上清液加入到之前置于单独的96孔PCR平板中的100μL DNS试剂中，混合，并在PCR仪中加热至99℃，持续5分钟，然后冷却至4℃。将50μL转移至微量滴定板中，在565nm测定吸光率。按照下式计算avicel的转化：

Y-在24或48小时的时候，Avicel的转化百分率

S–DNS/葡萄糖校正斜率，对于565nm时的DNS，其等于0.1

A–T＝0时的Avicel浓度，对于1％Avicel而言，其等于10g/L

实施例1：表达异源β-葡萄糖苷酶和内切葡聚糖酶的克鲁维酵母的产生

为了测试克鲁维酵母表达功能性异源纤维素酶的能力，以编码异源纤维素酶的载体转化了两种克鲁维酵母株：马克斯克鲁维酵母(ATCC菌株号#10606；MO157)和乳酸克鲁维酵母(ATCC菌株号#34440)。

根据上文描述的酵母转化程序，将含有酵母δ整合序列、KanMX标志物和编码S.f.BGLI及T.r.EGI的序列的载体(pBKD-BFLI-sEG1)转化进入克鲁维酵母，并在G418上进行选择。通过PCR验证转化子，然后通过CMC测定法进行测试。结果显示于图1。异源纤维素酶活性的存在由CMC平板上的清除区指示。如图1所示，未经转化的乳酸克鲁维酵母株(菌落8)或未经转化的马克斯克鲁维酵母株(菌落16)都未显示出内切葡聚糖酶活性。然而，7个经转化的乳酸克鲁维酵母落中有6个显示出CMC酶活性，并且所有的7个经转化的马克斯克鲁维酵母落都显示出CMC酶活性。MO413和MO414被鉴定为两个显示出CMC酶活性的马克斯克鲁维酵母落。

实施例2：表达CBH1和CBH2的克鲁维酵母的产生

还检测了克鲁维酵母表达功能性异源纤维二糖水解酶的能力。在这些实验中，以含有里氏木霉CBH2、埃默森篮状菌CBH1或二者的构建体转化马克斯克鲁维酵母(MO157)。类似地，以含有里氏木霉CBH2、埃默森篮状菌CBH1或二者的构建体转化MO414(以S.f.BGLI和T.r.EGI转化的马克斯克鲁维酵母)。

按照上文描述进行转化。然后按照上文描述使用底物4-甲基伞形基-β-D-乳糖苷(MU-Lac)检测CBH1活性。在每种转化子的8个菌落上进行测定，对三个显示出最高活性的菌落取平均值。结果显示于图2，其显示了以埃默森篮状菌CBH1转化的菌株具有高MU-lac活性。

还测定了表达异源纤维二糖水解酶的克鲁维酵母株对于Avicel的活性。在一个实验中，以包含里氏木霉CBH2和埃默森篮状菌CBH1编码序列及zeocin标志物的载体转化MO413。通过这种转化产生了新的菌株MO491，并且显示出MU-乳糖苷活性。在第二个实验中，以包含里氏木霉CBH2和埃默森篮状菌CBH1编码序列及潮霉素标志物的载体转化MO413，从该转化分离出菌株MO599和MO600。按照上文描述在48小时的时候测定对于Avicel的活性，结果显示于图3，其显示：表达异源纤维素酶的克鲁维酵母在35℃具有Avicelase活性，在45℃也显示出Avicelase活性(数据未显示)。

实施例3：表达纤维素酶文库的克鲁维酵母的产生

还通过以纤维素酶的文库(按照上文描述产生文库)转化酵母而产生了克鲁维酵母株。例如，以含有zeocin标志物的纤维素酶的文库转化MO413，以产生新的菌株MO601-MO604和MO611-MO617。此外，以相同的文库转化MO157(马克斯克鲁维酵母)，鉴定出了新的菌株MO618-MO625。按照上文描述在48小时的时候测定对于Avicel的活性，结果如图3所示，其显示：以异源纤维素酶的文库转化的克鲁维酵母在35℃也具有Avicelase活性。以文库转化MO157显示出最高的活性。还证明了在45℃时的Avicelase活性(数据未显示)。

实施例4：通过转化的克鲁维酵母产生乙醇

为了测定表达异源纤维素酶的克鲁维酵母是否能从Avicel产生乙醇，在35℃在YPD(如上所述的YPD，含有20g/L葡萄糖；25mL，在250mL的摇瓶中)中以300rpm摇动培养预培养物24小时。24和48小时后，加入40g/L另外的葡萄糖。在72小时的时候，使用柠檬酸盐缓冲液将培养物的pH调节至～5.0(缓冲液的最初pH是5.5，最终浓度是50mM)，将培养物加入到含有5.5g Avicel(最终浓度10％w/v)的封闭的塑料摇瓶中。按照生产商的提供使用AvicelPH105(FMC Biopolymers)。将培养物在35℃以150rpm摇动温育。

通过HPLC分析进行发酵样品中乙醇的定量，从所有的后续数据点中减掉瓶中最初的乙醇浓度(来自预培养物)(最初的乙醇浓度介于0至大约6g/L)。除了MO603之外，所有菌株的最初的葡萄糖浓度都是0.000g/L。对于该菌株，最初的葡萄糖浓度是0.069g/L，这将导致从最初的糖产生最大0.035g/L的乙醇。

如图4所示的结果证明：工程化的马克斯克鲁维酵母株也能够从Avicel直接产生乙醇。未经转化的对照菌株MO157随着实验的进行显示出稳定下降的乙醇浓度。这是由于乙醇被该菌株消耗，因为在瓶中存在少量的氧。

在以里氏木霉CBH2和埃默森篮状菌CBH1及潮霉素标志物转化的两种菌株(MO599和M600)中，有一种(MO599)显示出乙醇的产生。此外，在以里氏木霉CBH2和埃默森篮状菌CBH1及zeocin标志物转化的五种菌株中，有四种(MO601、MO602、MO604和MO491)显示出乙醇的产生。这证明工程化的耐热的马克斯克鲁维酵母能够从顽固的晶体纤维素Avicel中直接产生乙醇。

实施例5：表达异源纤维素酶的酿酒酵母的产生

还产生了表达异源纤维素酶的酿酒酵母并测试了它们在含有细菌微晶纤维素(BMCC)的培养基上的生长能力。在这些实验中，通过使菌株在含有空气的密封的亨氏管中的BMCC中生长来维持微有氧条件。

以允许表达里氏木霉EGI和扣囊复膜酵母菌BGLI的构建体(pKD-BGLI-sEGI)转化表达埃默森篮状菌CBH1和里氏木霉CBH2的菌株(MO248)。将转化子铺板于BMCC固体琼脂平板，7天之后，在平板上出现了5个菌落(数据未显示)。来自这5个菌落中最大的那一个菌落的酵母被分离为菌株MO282(上文更详细地描述了MO282)。测试的3种对照菌株在相同的平板上的生长情况。一种菌株表达埃默森篮状菌CBHI和里氏木霉CBH2，两种菌株表达里氏木霉EG1和扣囊复膜酵母菌BGLI。对照酵母菌株的平板上未出现菌落(数据未显示)。

还使用液体培养基测试了MO282在BMCC中的生长能力。图5显示：表达所有4种分泌的纤维素酶的MO282在BMCC中的生长程度远大于仅含质粒的对照(MO249)、仅表达埃默森篮状菌CBH1和里氏木霉CBH2的菌株(MO249)和表达4种附着的纤维素酶的菌株(MO144)。

这些结果证明：异源表达分泌的埃默森篮状菌CBHI、里氏木霉CBH2、里氏木霉EGI和扣囊复膜酵母菌BGLI的酵母能够在细菌微晶纤维素中生长。

实施例6：表达异源纤维素酶的酿酒酵母能够从Avicel和经过预处理的硬木产生乙醇。

为了测定经转化的酿酒酵母是否能够在不外部添加纤维素酶的情况下从纤维素直接产生乙醇，使经转化的菌株以Avicel作为唯一碳源生长。按照生产商的提供使用Avicel PH105(FMC Biopolymers)。

以用于酵母的合成的完全培养基的非葡萄糖成分制备Avicel培养基，其包括：不含氨基酸的酵母氮源—6.7g/L并补充完全的氨基酸混合物(完全补充物混合物)。在一些情况下，在生长实验中使用酵母提取物(10g/L)和蛋白胨(20g/L)(YP)作为补充物。培养条件为无氧条件，通过加入碳源后、高压灭菌之前以氮气吹扫封闭的玻璃瓶来保持无氧。通过在高压灭菌之后进行无菌过滤而加入非碳培养基成分(作为10X的溶液)。以20％的体积接种至Avicel培养物。通过HPLC分析进行发酵样品中乙醇的定量，从所有的后续数据点减掉瓶中的最初的乙醇浓度(来自预培养物)。

如图6所示：当使用YNB培养基成分时，相对于对照菌株(M0249)，菌株M0288(表达扣囊复膜酵母菌BGLI、里氏木霉EGI、里氏木霉CBH2和埃默森篮状菌CBH1)能够从avicelPH105直接产生乙醇。

还使用经过预处理的硬木证明了MO288从纤维素产生乙醇的能力。通过使底物在160PSI中自动水解10分钟来产生经预处理的混合硬木。将经预处理的材料洗涤5次以除掉抑制剂和可溶性糖，并重悬于蒸馏水中。将样品在105℃过夜干燥以测定干重。通过定量糖化分析糖含量显示含有50％的葡聚糖。培养基和培养条件与上文就Avicel实验所描述的相同，区别在于以10％的体积接种培养物。

图7中显示的数据证明MO288也能够在不添加酶的情况下从经预处理的硬木产生乙醇。当使用YP作为培养基时，菌株产生的乙醇比对照多～0.5g/L，当使用YNB时，比对照多～0.2g/L。

这些数据证明：异源表达分泌的埃默森篮状菌CBH1、里氏木霉CBH2、里氏木霉EGI和扣囊复膜酵母菌BGLI的酵母能够在不添加任何外源纤维素酶的情况下从纤维素产生乙醇。

实施例7：经转化的酵母菌株和外部添加的纤维素酶协同作用以从经预处理的混合的硬木产生乙醇

目前从生物质生产乙醇是通过使用SSF类型的方法来实现的，其中，向含有经预处理的纤维质生物质、酵母生长培养基和酵母的反应物中外部添加纤维素酶。为了测定表达重组纤维素酶的酵母是否能够改善这一方法，在存在多种浓度的外部添加的纤维素酶的情况下培养表达分泌的纤维素酶的重组酵母。生长和培养条件如上文的实施例中所描述。

在这些实验中，在相同的条件下将表达四种分泌的纤维素酶的重组酵母菌株(MO288)直接与对照菌株(MO249)进行比较。以下列浓度添加外部纤维素酶：25mg纤维素酶/克纤维素(100％)、22.5mg纤维素酶/克纤维素(90％)、18.75mg纤维素酶/克纤维素(75％)或6.25mg纤维素酶/克纤维素(25％)。还在不添加任何外部纤维素酶的情况下(0％)进行了实验。使用最初固体浓度为5％的经预处理的混合硬木(按照上文实施例中的描述制备)作为纤维素源。数据显示于图8。从该数据可以清楚地看出：对于所测的每个纤维素酶载入浓度，产生纤维素酶的菌株相对于对照菌株都产生了额外的乙醇。

为了更详细地检测该效应，使用经预处理的混合硬木在两种不同类型的培养基中评价了不同浓度的外部纤维素酶的情况下的乙醇产量。结果如图9所示。在YP培养基中，在较高的纤维素酶载量时，MO288多产生了6-9％的乙醇，在25％载量时仅多产生了1％的乙醇，在无外部纤维素酶时，产生了多100％的乙醇。在YNB培养基中，在低的纤维素酶载量时，MO288产生了多20-40％的乙醇，在较高的纤维素酶载量时产生了多～10％的乙醇。这些结果可用于确定在达到相同的总的乙醇产率的情况下，可以从该过程中减掉的纤维素酶的量。对于YP培养基而言，相对于对照，可以减少～15％的纤维素酶载量；对于YNB培养基而言，可以减少～5％的纤维素酶载量。在非零的纤维素酶载量的情况下，在YP培养基中，相对于对照而言，表达纤维素酶的菌株的乙醇生产力增加5％-20％。对于在YNB培养基中培养的菌株而言，其相对于对照增加10％-20％。

这些数据证明：如果联合使用表达分泌的纤维素酶的菌株和外部添加的纤维素酶，可以在下列方面改善之前的SSF方法：从生物质中生产乙醇的产率和乙醇的生产力。类似地，当加入表达重组纤维素酶的菌株时，可以减少达到特定百分率的理论乙醇产率所需的纤维素酶载量。

实施例8：经转化的酵母菌株也增加外部添加的纤维素酶从Avicel产生乙醇的效率

为了测试在高浓度底物时是否会保持这种相同的趋势，使用15％的Avicel PH105作为底物替代5％的经预处理的混合硬木重复了这些实验。结果显示于图10和11。在相同的条件下，相对于对照酵母菌株(MO249)，产生纤维素酶的菌株(MO288)常规地从Avicel产生更多的乙醇，即使是在升高的乙醇浓度时(图10)。例如，当在SSF反应中载入25mg纤维素酶/克纤维素时，测试菌株(M0288)产生54g/L乙醇，而对照菌株(M0249)产生50g/L。

为了检测纤维素酶置换，测定了不同的纤维素酶载量时达到的理论乙醇产率的百分数。显示于图12中的结果是以M0288和M0249一式三份进行的，从而允许计算增加的乙醇产率的标准偏差。可用于计算纤维素酶置换的数据显示于图12。图12显示了在SSF实验中，在168小时的时候，基于理论乙醇产率的纤维素酶的节省量。在压力瓶中在30ml的氮气净化的YP+15％Avicel中进行SSF。使用以5Spyzme:1Novozyme-188比例混合的外部纤维素酶。实验持续168小时，每天取样，通过HPLC评估乙醇产量。图中的箭头指示达到与对照相同的从纤维素产生的乙醇产量所需的纤维素酶载量。对于对照而言，该载量持续较低(即，乙醇产率持续较高)。对于168小时的时候的数据，平均纤维素酶置换(需要载入的量的减少)是13.3％±4.9％。

实施例9：使用人工Cbh1产生乙醇

为了设计具有有效的纤维素酶活性的CBH1蛋白，比对了来自NCBI数据库的17种CBH1蛋白序列(表7)。

表7：用于比对的真菌CBH1基因

将人工蛋白序列设计为这些蛋白的共有(最常见)序列。将预测的信号序列替换为酿酒酵母α交配因子前信号序列，以下显示了CBH1蛋白的共有序列。大写字母表示酿酒酵母α交配因子前信号序列。

MRFPSIFTAVLFAASSALAqqagtltaethpsltwqkctsggscttvngsvvidanwrwvhatsgstncytgntwdttlcpddvtcaqncaldgadysstygvttsgnslrlnfvtqgsqknvgsrlylmeddttyqmfkllgqeftfdvdvsnlpcglngalyfvamdadggmskypgnkagakygtgycdsqcprdlkfingqanvegwepssndanagignhgsccaemdiweansistaftphpcdtigqtmcegdscggtyssdryggtcdpdgcdfnpyrmgnktfygpgktvdttkkvtvvtqfitgssgtlseikrfyvqngkvipnsestisgvsgnsittdfctaqktafgdtddfakkgglegmgkalaqgmvlvmslwddhaanmlwldstyptdatsstpgaargscdtssgvpadveanspnsyvtfsnikfgpigstftg(SEQ IDNO:43)。

产生了用于表达CBH1共有序列的酿酒酵母和乳酸克鲁维酵母的密码子优化序列(SEQ ID NO:44)，如下所示。

atgagatttccttcaatcttcactgctgttttgttcgcagcctcaagtgctttagcacaacaggccggaacattgacagcagaaactcatccttccttaacctggcaaaagtgcacttctggaggttcatgcactacagtgaatggatctgtcgtgatcgatgcaaactggagatgggttcacgcaacttcaggttctaccaactgttataccggaaacacttgggacaccacattgtgcccagatgacgtcacgtgcgctcagaactgtgctttggatggagctgattacagttcaacctatggtgtaactacatccggaaactctttgagattaaacttcgttactcaaggaagtcaaaagaacgttggttctagattgtacttaatggaggacgatacaacctatcaaatgttcaaattgttaggtcaggagttcacctttgacgtagatgtcagtaacttgccatgtgggttaaacggagctttatactttgtggcaatggatgctgacggtggaatgtccaagtatccaggaaacaaagccggtgcaaagtacggtacaggatattgtgattcacagtgccctagagatttgaagttcattaacggtcaagcaaatgtggagggttgggaaccatctagtaacgatgccaatgcgggtattggtaatcatgggtcctgttgcgctgagatggatatctgggaggccaactcaatatctactgcctttacccctcacccatgcgatacaattggtcaaactatgtgcgagggtgattcatgtggtggaacctactcctctgatagatacggaggtacatgcgatccagatggttgcgactttaatccatacagaatgggaaacaaaaccttttacggtcctggaaagacagttgatactaccaagaaagtaacagtcgtgacccagtttatcaccggtagttctggaaccttatccgaaatcaaaagattctacgttcagaacggtaaagtaattccaaacagtgaatctacaatttcaggagtgagtggtaattctattactaccgacttttgtacagctcagaaaacagcatttggtgacaccgatgactttgctaagaagggtggattagaaggtatgggtaaagctttggcccagggaatggtgttagttatgtctttatgggatgatcacgccgcaaatatgttatggttggattcaacatatccaactgatgccacaagtagtacacctggagctgccagaggttcttgtgatacatcttccggtgttccagccgatgtagaagcaaattctcctaactcctatgttaccttctccaatataaagtttggtccaatcggttcaacattcactggttaa(SEQ ID NO:44)

将密码子优化的序列插入至游离的酵母表达载体(pMU451)，处于ENO1启动子和终止子控制下，插入至PacI/AscI位点。将得到的表达构建体(pMU505)转化进入MO375宿主菌株，该宿主菌株衍生自Y294(MO013)，其中通过以酿酒酵母His3和Trp1 PCR产物进行转化而挽救His3和Trp1营养缺陷型。得到的表达CBH1共有序列的菌株被称作MO429。

为了测定MO429是否具有纤维素酶活性，按照上文描述进行了Avicel转化测验，在24小时的时候进行测定。如图14所示：相对于以空载体转化的阴性对照(MO419)，表达共有的Cbh1序列的酿酒酵母(MO429)显示出纤维素酶活性。另外，将MO429的纤维素酶活性与表达其它异源纤维素酶的酵母菌株进行比较。所测的菌株总结于下表8中。

表8：Avicel转化测验中使用的分解纤维素的菌株

表8中的所有菌株都衍生自相同的亲代MO375菌株，并以游离的酵母载体转化。使用含有表中所列的异源纤维素酶基因(针对在酿酒酵母和乳酸克鲁维酵母中的表达进行了密码子优化)的游离的酵母载体产生了MO420、MO429、MO445、MO456、MO457和MO458。MO429、MO445、MO456、MO457和MO458中的纤维素酶的表达处于酿酒酵母ENO1启动子和终止子控制下。埃默森篮状菌CBH1与其自身的天然信号序列一起表达。如图14所示，共有的CBH1对于Avicel的分泌的活性与在相同载体和相同宿主菌株中表达的其它的真菌CBH1的活性是相当的。

实施例10：酿酒酵母中的纤维素酶的活性比较

以编码多种不同的异源纤维二糖水解酶的多核苷酸转化酿酒酵母，并按照上文描述测定它们在PASC和Avicel上的活性。结果显示于下表：

表9：酿酒酵母中的纤维二糖水解酶活性

另外，使用96孔板测验法测定了在Avicel上的活性，结果显示于图14。在图中，对于每种菌株，第一个条柱代表在24小时的时候释放的糖，第二个条柱代表在48小时的时候释放的糖。单独或与里氏木霉CBH2一起表达的CBH1显示出一些avicel活性-在48小时的时候达到了10％的avicel转化。CBH1与来自C.lucknowense的CBH2的组合并联合埃默森篮状菌CBH1(其中附着CBD)在48小时的时候达到了高得多的avicel转化：大约22％的转化。

在酿酒酵母中测定的内切葡聚糖酶的avicel活性数据显示于图15。数据证明：当在酿酒酵母中表达时，在所测的EG中，台湾家白蚁EG显示出最高的avicel活性。

实施例11：表达不同的异源纤维素酶的酵母菌株的共培养物从Avicel产生乙醇

在YNB培养基中，多种产生纤维素酶的酵母菌株的共培养物也显示出从AvicelPH105产生乙醇的能力(图16)。在该实验中，将下列五种菌株以等体积的比例混合：单独产生埃默森篮状菌CBH1(M0247)、嗜热子囊菌CBH1(M0266)、灰腐质霉CBH1(M0265)、埃默森篮状菌CBH1和里氏木霉CBH2的组合(M0248)、里氏木霉EGI和扣囊复膜酵母菌BGLI的组合(M0244)；然后以20％的体积接种。这些菌株中的每一种菌株中的每种异源表达的纤维素酶都被分泌。培养基和培养条件如上文对于Avicel实验所描述。图16中的证据证明：异源纤维素酶无需在单一的酵母菌株中被表达以从纤维素产生乙醇。相反，可以一起培养表达不同的分泌的异源纤维素酶的酵母菌株以从纤维素产生乙醇，而无需添加任何外源纤维素酶。

还评估了使用不同组合的纤维素酶的共培养物。在该共培养物实验中，一起培养了下列四种酵母菌株：M0566(删除了FUR的M0424)：分泌的SfBGLI；M0592(删除了FUR的M0449)：分泌的CfEGI；M0563(与Y294/pMI574fur1Δ相同)：分泌的Cl CBH2b；和M0567(与Y294/pMI529fur1Δ相同)：分泌的TeCBH1+CBD。这些菌株在液体YPD中生长3天，直至培养物对于预培养物而言达到饱和。此时，将它们用于接种实验，其中avicel(10％)用作底物，在接种前将4种菌株以等体积混合。

图17证明：共培养的菌株能够在不存在任何添加的纤维素酶的情况下直接从avicel产生乙醇。在168小时后，相对于对照菌株，共培养物产生大约多4倍的乙醇，相对于M0288大约多3倍。

还将该共培养物用于SSF实验中，其中以5种不同的载量(10mg蛋白/g avicel、7.5mg/g、5mg/g、2.5mg/g和0mg/g)使用Zoomerase纤维素酶混合物，以10％的体积接种菌株。

图18显示了在不同的纤维素酶载量时，由共培养物、M0288和M0249产生的乙醇产量的原始数据。图18A显示：在所测的所有的纤维素酶载量时，共培养的菌株产生的乙醇显著多于不产生纤维素酶的对照。图18B显示：在所测的所有的纤维素酶载量，共培养物产生的乙醇多于之前测试的菌株M0288。图19显示了，使用多种纤维素酶载量，在168小时的SSF后，使用这些培养物中的每一种能够达到的理论乙醇产率的百分数。数据证明：相对于对照菌株，共培养的菌株的纤维素酶能够达到减少至大约1/2，相对于M0288，能够减少大约35％。

这些数据证明：这种共培养物中的纤维素酶的组合高效地产生乙醇。

实施例12：健壮的利用木糖的菌株的构建

M0509(ATCC保藏号PTA-10493,保藏日2009年11月23日)是酿酒酵母菌株，其组合了代谢木糖的能力和在存在经预处理的硬木的抑制剂的情况下发酵糖类所需的鲁棒性(robustness)。M0509是通过三步过程构建的。第一，对酿酒酵母的工业菌株进行基准检查以鉴定具有足以进行经预处理的混合的硬木底物的同时糖化和发酵(SSF)的鲁棒性/顽强性水平的的菌株。菌株M0086满足了第一个要求，其是酿酒酵母菌株的二倍体菌株。第二，就利用木糖的能力对M0086进行遗传工程化，从而产生菌株M0407。第三，使M0407在含有木糖培养基(含有预处理抑制剂)的恒化器中适应数周，从而产生菌株M0509。

从菌株M0086经过遗传工程化而产生利用木糖的菌株M0407。这种工程化需要7个遗传修饰。主要的修饰是异源木糖异构酶基因XylA的功能性表达，该基因分离自厌氧真菌Piromyces属E2。还过表达了编码参与木酮糖向糖分解性中间体的转化的所有五种酶的酿酒酵母结构基因：木酮糖激酶、核糖5-磷酸异构酶、核糖5-磷酸差向异构酶、转酮醇酶和转醛醇酶。此外，删除了编码醛糖还原酶的GRE3基因，以使木糖醇的产生最小化。所修饰的7个基因列举于图39中。将GRE3,RKI1,RPE1,TAL1和TKL1基因座的遗传修饰设计为留下最简载体DNA并且无抗生素标志物。对每个基因座的DNA进行测序以确认所预期的结果。将7个遗传修饰中的每一个依次导入菌株M0086。图40显示了从头到底的修饰的进程，以及该过程中每个步骤的菌株的名称，起始于M0086，终止于M0407。

GRE3的删除和RKI1,RPE1,TAL1及TKL1的增加的表达涉及内源性酿酒酵母基因座的修饰。在GRE3的情况下，两个等位基因都被删除。对于其它4个基因座，仅修饰单独一个等位基因。内源性基因座的所有修饰都需要使用可选择的抗生素标志物，包括来自大肠杆菌转位子Tn903的kan^r(赋予对G418的抗性)、来自诺尔斯氏链霉菌(Streptomyces noursei)的nat1(赋予对clonNAT/诺尔斯菌素的抗性)和来自大肠杆菌的dsdA(赋予对D-丝氨酸的抗性)。就需要的基因组修饰进行选择之后，使用loxP/cre重组酶系统从基因组中切除抗生素标志物。质粒pMU210携带cre重组酶，该质粒中包含zeocin抗性标志物。在合适的选择性培养基上测定pMU210的丧失以及所有的抗生素标志物。随后的PCR基因分型和DNA测序确认了从经修饰的基因组基因座除掉了抗生素标志物。

RKI1,RPE1,TAL1和TKL1的过表达是这样实现的：将酿酒酵母丙糖磷酸异构酶启动子TPI置于紧接这4个ORF中的每一个的5’。对于TAL1和RKI1，删除它们的内源性启动子的一小部分。为了避免破坏邻近的ORF和可能的转录调节元件，将TPI启动子导入RPE1和TKL1基因座，使得RPE1和TKL1基因座均为两个拷贝，二个基因座的两个拷贝都被TPI启动子调节。

为了增强M0407的木糖利用并增加其对预处理抑制剂的耐受，将该菌株在表10所述的有序条件下在恒化器中保持4周。

表10：用于改良M0407的条件

将经适应的恒化器培养物的等份铺板于YPXi50％，在YPDXi培养基(100g/L葡萄糖，50g/L木糖，25％MS149pressate)上筛选出9个M0407的“适应的”菌落。M0407和M0228(在Mascoma上产生的利用木糖的菌株，在质粒上含有XlyA和XKS1)作为对照。24小时的时候，葡萄糖已经被所有的菌株完全消耗掉。M0407和M0228分别利用了30和25g/L的木糖。所有的9个M0407“适应的”菌落都利用了44g/L以上的木糖。木糖消耗的最大量是48g/L。该菌株被称作M0509。

使用18S rDNA测序来确认菌株M0509是酿酒酵母(Kurtzman CP和Robnett,CJ；FEMS Yeast Research 3(2003)417-432)。从M0509基因组DNA扩增跨越18S rDNA的1774bp的片段，并送去测序。1753bp的M0509 18S rDNA序列显示与NCBI中的酿酒酵母18S序列(核苷酸登记号Z75578)100％的匹配。

由于M0509是通过在恒化器中培养M0407菌株4周而获得的，所以，区分这两种菌株的培养时长提供了测定工程化的遗传修饰的稳定性的方法。比较了M0407和M0509在GRE3,RKI1,RPE1,TAL1和TKL1基因座的DNA序列进行比较，没有显示出变化。这说明在这些基因座上的遗传修饰在遗传上是稳定的，至少在所用的生长条件下是稳定的。

使用实时PCR分析来估计XylA/XKS1载体的整合的拷贝数。M0407具有大约10个拷贝的载体，而M0509具有大约20个拷贝。这说明可以通过延长在木糖培养基上的培养时间来增加XylA/XKS1载体的拷贝数。

为了进一步测定XylA/XKS1整合的稳定性，将M0509在以葡萄糖或木糖作为唯一碳源的液体培养基中培养～50代。50代之后，从每个培养物分离单个的菌落，定量测定XylA/XKS1整合的数目并与原始的M0509冷冻贮液比较。分离自木糖-培养物的菌落具有～20个拷贝的XylA/XKS1，与冷冻贮液相同。葡萄糖-培养的菌落显示出稍微减少的拷贝数，其是～16个。

葡萄糖-菌落的XylA/XKS1拷贝数的稍微减少提出了关于菌株的性能的问题。为了部分地解决这个问题，比较了木糖-分离体、葡萄糖-分离体和冷冻贮液的木糖消耗。冷冻贮液和木糖-繁殖的分离体在24小时内利用了所有的木糖，并产生了相同数量的乙醇，但是葡萄糖-繁殖的菌株仅消耗了一半的木糖。见图20。

实施例13：耐热的、健壮的利用木糖的菌株的选择

M1105能够在存在8g/L乙酸盐的情况下在40℃以上的温度进行发酵。以M0509为背景构建了M1105，因此，其是能够将葡萄糖和木糖转化为乙醇的工业上的健壮菌株。

按照图41和下文描述在细胞恒稳器中经过4轮选择/适应而分离了M1105。在实验过程中，温度从38℃升高至41℃。M1017(ATCC保藏号PTA-10492,保藏日2009年11月23日)分离自第一个细胞恒稳器运行，随后通过GRE3基因座的PCR而确认是M0509的后代。M1017用于在41℃接种第二个细胞恒稳器运行，使用的是YMX培养基(酵母氮源，2g/L木糖)。M1046分离自所述第二个细胞恒稳器运行。在42℃，在YPX50上，M1046生长缓慢，但其加倍时间仍比M1017短36％。M1080分离自在40℃以M1046和YMX培养基接种的细胞恒稳器。M1080在40℃在YMX上的比生长速率是0.22h^-1。M1105分离自M1080：基于在细胞恒稳器中的选择，使用的是YPD2X10+乙酸盐培养基(2g/L葡萄糖，10g/L木糖，8g/L乙酸盐，pH 5.4)，温度为39℃。

在35℃，在富集培养基中，M1105的生长比M0509快10％-20％。此外，M1105具有增加的乙酸盐耐受，因为该菌株在存在乙酸盐的情况下的生长比其祖先菌株快得多。见图21。虽然在高温时，亲代菌株需要葡萄糖以耐受乙酸盐，但是M1105不需要葡萄糖或复合培养基成分以在存在7g/L乙酸盐的情况下在pH 5.4时生长。

为了测试发酵性能，在40℃，使用3.8mg Zoomerase/克原料，以大约0.7g/L DCW将M1105接种于18％MS419。在168小时的时候，M1105产生3.55％(w/v)的乙醇。图22显示了时间进程以及以M1088(见下文描述)进行的类似的运行，以作为比较。以仅使用0.15g/L DCW的接种进行的类似运行产生了2.9％(w/v)的乙醇，并且在实验过程中产生了一些糖的积累。见图23。

实施例14：耐热的、健壮的利用木糖的菌株的适应

M1254能够在存在12g/L乙酸盐的情况下在40℃以上的温度进行发酵，显示出比耐热菌株M1105增加的鲁棒性。

按照表11和图42以及如下所述在细胞恒稳器中经过三轮的选择/适应而分离了M1254。第一个细胞恒稳器运行是以M1105进行接种。使用YMX培养基(不含氨基酸的酵母氮源，20g/L木糖)加8g/L乙酸盐，pH为5.5，温度为40℃。从所述第一个细胞恒稳器运行中分离M1155，并用于接种第二个细胞恒稳器，其含有YPD培养基(酵母提取物，蛋白胨，20g/L葡萄糖)加12g/L乙酸盐，pH为5.4，温度为41℃。从所述第二个细胞恒稳器运行中分离M1202。M1254分离自第三个细胞恒稳器运行,第三个细胞恒稳器运行是：以M1155和M1202在不含氨基酸的酵母氮源+5％固体当量的MS419水解物培养基中接种，pH为4.8，温度为39℃。

表11：用于从M1105产生M1254的进化条件

在5％固体当量的MS419水解物(其是选择菌株M1254所用的条件)中，M1254的生长比M1202快7.3±0.9％，比M1155快17±2.0％。然而，标准的发酵培养基限制了发酵性能。因此，该菌株应该与较低的铵浓度一起使用，例如1.1g/L磷酸二铵(DAP)或低于3g/L的DAP。图24显示了使用较低的DAP浓度时的较高的发酵速率。使用18％MS149,4mg外部纤维素酶/克TS,40℃,0.5g/L接种DCW M1254和pH 5.4进行发酵。使用5M的氢氧化钾控制pH，在每次固体进料时添加1g/L碳酸镁。所有的酶都是先加入，在5个时间点(0、3、6、24和48小时)加入固体，并等量进料3.6％TS。

使用下表12描述的进化条件从M1254产生MO1360。

表12：从M1254产生M1360的条件

虽然M1360仍然实质上被合成的抑制剂混合物抑制，但是在40℃以大约5小时的加倍时间生长。见图25。在工业相关的培养基中，在40℃，从仅60mg/L干细胞重起始，在48小时内，M1360能够从葡萄糖产生超过60g/L的乙醇，以及5g/L干细胞重。见图26。

已知的是：随着温度的升高，酶的活性增加，因此，需要耐热的酿酒酵母菌株。图27显示了3个等同的SSF，其中载入了18％PHW固体。当在相同的外部酶载量(4mg/g)进行两个反应时，相对于在35℃进行的对照反应，在40℃进行的反应产生的乙醇大约多17％。这种增强的性能表示该过程中成本的实质性节省。

实施例15：纤维素酶在健壮的利用木糖的菌株中的表达

M1088能够分泌三种不同的分解纤维素的酶：来自扣囊复膜酵母菌的β-葡萄糖苷酶(SfBGL)，来自C.lucknowense的纤维二糖水解酶2b(ClCBH2b)，和与里氏木霉纤维二糖水解酶I纤维素结合结构域融合的来自埃默森篮状菌的纤维二糖水解酶I(TeCBH1+CBDTrCBH1)。M1088基因组还含有编码能够提供对下列抗生素抗性的多肽的基因：卡那霉素、诺尔斯菌素和潮霉素B。质粒pMU624也存在于M1088中，该质粒含有编码能够提供对氨比西林抗性的多肽的基因。用于从M0509产生M1088和M0963的步骤总结于下表13中。

表13：用于产生菌株M1088和M0963的菌株

实施例16：选择在健壮的利用木糖的菌株中表达的内切葡聚糖酶

内切葡聚糖酶加强纤维二糖水解酶的活性，因此，研究了家族5的内切葡聚糖酶补充之前鉴定的CBH1和CBH2的能力。选择了5种家族5的内切葡聚糖酶，并使用表14所示的pRDH122表达质粒进行克隆，使其处于ENO1启动子/终止子控制下。

表14：酿酒酵母中表达的家族5的内切葡聚糖酶

将所有的表达5种新的EG2型纤维素酶的质粒转化进入Y294(实验室菌株)和M0749(如上所述的健壮的利用木糖的菌株)，通过PCR确认转化子。图28显示：将数个M0749菌株点染于含有0.2％的CMC或地衣淀粉或大麦-β-葡聚糖的SC^-URA平板上。从图28可以看出，M0749参考菌株在含有CMC的平板上产生了小的区域。基于pMU471(台湾家白蚁EG)和pRDH147的菌株在所测的所有底物上都产生了非常好的清除区。

与参考菌株和表达台湾家白蚁EG(pMU471)的菌株一起，测试了5种表达eg2的菌株水解avicel和PASC的能力，测试了表达cbh2的菌株对于avicel的活性。菌株生长于双倍强度的SC^-URA培养基中(3.4g/L YNB；3g/L氨基酸dropout库，不含尿嘧啶；10g/L硫酸铵；20g/L葡萄糖)，缓冲至pH 6(20g/L琥珀酸；12g/L NaOH,以NaOH将pH设定为6)。10mL培养物在125mL的Erlenmeyer瓶中在30℃生长三天。每种菌株接种三个瓶。接种之后，取出样品进行凝胶分析和活性测定。样品离心之后，每种取出12μl，加入到5μl的蛋白装载缓冲液中，并煮沸5分钟。然后将样品载入10％的SDS-PAGE中并分离，然后进行银染。结果显示于图29。不是所有的菌株都产生了预期大小的可见的带。C.f.EG呈现为大约55kDa的带(如以前所见到的)，但是由M0749产生的带似乎比Y294产生的带稍大。对于甜菜胞囊线虫eng1、Orpinomyces属celB或白囊耙齿菌en1产物，没有可见的带。由Y294和M0749产生的红褐肉座菌EG2呈现为～57kDa的可见的带。与预测的44kDa的大小相比，分子量的增加可能表示高度糖基化。由Y294产生的白曲霉EGA呈现为～42kDa的可见的带。然而，由M0749产生的白曲霉EGA清楚地显示为～120kDa的可见的带。额外的分子量可能表示高度糖基化。

使用所描述的高通量avicel转化方法测试了所有的菌株的活性。还测试了表达内切葡聚糖酶的菌株对于PASC的活性。用于测定程序的DNS含有苯酚，根据文献，这会赋予更高的灵敏性。活性数据可以见图30。

表达H.j.eg2(pRDH147)的M0749菌株产生了最高水平的分泌的活性，如通过测定EG2在PASC或avicel上的活性所测得。该酶在PASC和avicel上的活性比C.f.EG(pMU471)高。合成的A.k.EGA(pRDH145)也产生了对这两种底物的可见活性。该产物在M0749中的产量似乎比在Y294中要高，并且，当在该菌株中产生时，其在avicel和PASC上的活性比C.f.EG要高。

实施例17：内切葡聚糖酶在健壮的利用木糖的菌株中的表达

产生了数种菌株以测试在健壮的利用木糖的菌株背景中共表达TrEG2和CBH的影响。以构建体转化M1088以将TrEG2整合于rDNA基因座，其中使用Sh-ble基因作为标志物(pMU1409)。进行了类似的转化，区别在于整合TeCBH1w/TrCBD，以增加该基因的拷贝数。来自这两个转化的43个转化子以及一式两份M1088培养物生长于含有20ug/mL zeocin的YPD中，进行avicel测定。图31显示了这些测定的结果。数据显示：有相当大比例的以TrEG2构建体转化的菌株具有显著增加的avicel转化能力，而具有额外的TeCBH1w/TrCBD拷贝的转化子仅具有少量的avicel水解的改善。

在所测定的菌株中，选择了最好的9个候选物，并重新划线培养以产生单一菌落。然后使这些单一的菌落生长于YPD中，转移2次，总共产生18代。将最后的转移(传代数据见图32)与第一个YPD培养物(最初的数据见图32)进行比较。数据证实：当过表达TrEG2时，酵母上清液转化avicel的能力升高了～50％。

此外，在M1254背景下产生了菌株M1403，其含有编码扣囊复膜酵母菌(SfBGL)、来自C.lucknowense的纤维二糖水解酶2b(ClCBH2b)、与里氏木霉纤维二糖水解酶I纤维素结合结构域融合的来自埃默森篮状菌纤维二糖水解酶I(TeCBH1+CBDTrCBH1)和甜菜胞囊线虫eng1的异源基因。在M0509的背景下产生了菌株M1284，其含有编码这四种纤维素酶的异源基因。在表15中更详细地描述了菌株M1284和M1403。

表15：表达内切葡聚糖酶的酵母菌株

实施例18：通过CBP酵母菌株转化木质纤维素底物

纤维素酶在酵母中的表达，尤其是CBH1(附着里氏木霉CBD的埃默森篮状菌CBH1),CBH2(C.lucknowense CBH2b),EG2(里氏木霉EG2)和BGL(扣囊复膜酵母菌BGL)显著减少在将木质纤维素酶促地转化为乙醇过程中所需要的外部添加的酶。为了测试过表达这些酶的效应，构建了数种菌株并在多种底物上进行了测试。

图33显示了通过工程化的耐热的酿酒酵母宿主菌株(亲代菌株M1254，分解纤维素的衍生物M1403)进行的造纸淤泥的CBP发酵的数据。单独M1254的数据证明：从造纸淤泥产生乙醇需要添加纤维素酶(即zoomerase)。M1430的数据(其中未添加外部的纤维素酶)(实心的橙色方框)证明：该菌株能够通过其表达的纤维素酶转化“可转化的”的底物中的实质部分(～80％)。通过向M1403菌株中添加另外的外部纤维素酶进行的发酵证明了从造纸淤泥底物进行酶促转化的最终潜在可能。目测证实非-CBP菌株不能使底物液化，而CBP菌株可以。

此外，表达CBH1、CBH2、EG2和BGL的CBP菌株M1179能够在很大程度上转化造纸淤泥，而无需添加纤维素酶。见图34。该反应中的对照菌株M0509在该反应中仅产生了少量的乙醇。数据还显示：与其它反应中使用的较高的细胞密度(10g/L)相反，当以较低的细胞密度(1g/L)载入时，M1179能够转化该物质。这暗示了该菌株能够通过发酵实验生长并产生纤维素酶。

经预处理的硬木(PHW)也可以被CBP菌株转化。图35显示了在PHW的发酵过程中，相对于不表达纤维素酶的对照菌株(M0509)，使用表达纤维素酶的菌株(M0963)的效应。该比较证明：当仅载入2mg/g的外部酶时，CBP菌株可以从PHW产生与在该过程中载入4mg/gM0509时相等的乙醇的量。所需的外部酶减少了50％，这表示在该过程中巨大的潜在的成本降低。

CBP菌株还能够从PHW产生高乙醇效价。图36显示：以最小的外部酶载量4mg/g和相对低的细胞接种(2g/L)，30％经洗涤的固体发酵能够产生多达大约70g/L的乙醇效价。低细胞密度培养最终赶上并超过高细胞密度培养物的能力表明在整个发酵过程中该菌株生长并持续产生酶。

除了PHW之外，玉米秸秆也被认为是通过酶促糖化被转化为乙醇的良好底物。图37证明：经预处理的玉米秸秆也能够被CBP酵母菌株良好地转化。在该实验中，CBP菌株能够转化大约82％的高载量酶(15FPU或大约20mg/g)能够实现的转化量。非-CBP菌株产生的乙醇是CBP菌株能够产生的乙醇的大约60％。

实施例19：CBH1纤维素酶的比较

为了提供关于不同的CBH1酶的表达水平的另外的数据，使选择的菌株生长于YPD培养基中，并测定在MULac和Avicel上的活性。研究了Y294和M0749转化子，结果显示于图38。

＊＊＊

这些实施例诠释了本发明的可能的实施方式。虽然已经特别显示了本发明并通过参考它的一些实施方式而描述了本发明，但是本领域技术人员将理解，这仅是通过举例的方式来呈现，而非限制，可以不脱离本发明的精神和范围对其进行多种形式和细节上的改变。因此，本发明的宽度和范围不应被任何上述的示例性实施方式所限制，而应该仅由随附的权利要求及其等同物来确定。

本文引用的所有文献，包括杂志的论文或摘要，公开的或相应的美国或外国专利申请，授权的或外国专利，或任何其它文献，每篇皆通过引用方式全文并入本文，包括所引用的文献中记载的所有数据、表格、图和文字。

序列表

<110> Mascoma Corporation

McBride, John

Brevnova, Elena

Ghandi, Chhayal

Mellon, Mark

Froehlich, Alan

Deleault, Kristen

Rajgharia, Vineet

Flatt, Jim

Van Zyl, Emile

Den Haan, Riaan

LaGrange, Danie

Rose, Shaunita

Penttila, Merja

Siika-Aho, Matti

Uusitalo, Jaana

Ilmen, Marja

Hau, Heidi

Rice, Charles

Villari, Jeff

Stonehouse, Emily

Gilbert, Alan

Keating, Jeffrey

Xu, Haowen

Willes, Deidre

Shikhare, Indraneel

Thorngren, Naomi

Warner, Anne

Murphy, Dan

<120> 用于使用纤维素进行同时糖化和发酵的表达纤维素酶的酵母

<130> 2608.025PC01PAJCLD

<140> 待分配

<141> 2009-11-23

<150> 61116,981

<151> 2008-11-21

<160> 58

<170> PatentIn version 3.3

<210> 1

<211> 1590

<212> DNA

<213> 灰腐质霉

<400> 1

gaattcatga gaaccgctaa gttcgctacc ttggctgcct tggttgcctc tgctgctgct 60

caacaagcct gttccttgac tactgaacgt cacccatctt tgtcttggaa caagtgtact 120

gctggtggtc aatgtcaaac tgtccaagcc tccatcactt tggactctaa ttggagatgg 180

acccaccaag tctctggtag tactaactgt tacaccggta ataagtggga cacttctatt 240

tgtactgacg ctaagtcttg tgctcaaaat tgttgtgttg atggtgctga ttacacctcc 300

acttatggta ttaccaccaa cggtgactct ttgtccttga agttcgttac taaaggtcaa 360

cattccacca acgtcggttc tagaacctac ttaatggacg gtgaagacaa gtaccaaacc 420

ttcgaattgt tgggtaatga atttaccttc gatgtcgatg tgtctaacat cggttgtggt 480

ttgaacggtg ctttatactt cgtttctatg gacgccgacg gtggtttgtc tcgttaccca 540

ggtaataagg ctggtgccaa gtatggtacc ggttactgtg atgctcaatg cccaagagac 600

attaagttca tcaacggtga agctaacatt gaaggttgga ctggttctac caacgaccca 660

aacgctggcg ccggtagata cggtacctgt tgttccgaaa tggacatttg ggaagccaac 720

aacatggcta ctgcttttac tccacaccca tgtaccatca ttggtcaatc cagatgtgaa 780

ggtgactcct gtggcggtac ctactccaac gaaagatacg ctggtgtttg tgatccagac 840

ggttgtgact tcaactccta cagacaaggt aacaagactt tctatggtaa gggtatgact 900

gtcgatacca ccaagaagat caccgtcgtc acccaattct tgaaggacgc taacggtgat 960

ttaggtgaaa ttaaaagatt ctacgtccaa gatggtaaga tcatcccaaa ctctgaatct 1020

accattccag gtgttgaagg taattccatc actcaagact ggtgtgacag acaaaaggtt 1080

gccttcggtg atattgacga cttcaacaga aagggtggta tgaagcaaat gggtaaggct 1140

ttggccggtc caatggtctt ggttatgtct atttgggacg atcacgcttc caacatgttg 1200

tggttggact ccaccttccc agttgatgct gctggtaagc caggtgccga aagaggtgct 1260

tgtccaacta cttccggtgt cccagctgaa gttgaagccg aagctccaaa ttctaacgtt 1320

gtcttctcta acatcagatt cggtccaatc ggttccacag tcgctggttt gccaggtgct 1380

ggtaatggtg gtaataacgg tggtaaccca ccaccaccaa ccactaccac ttcttctgcc 1440

ccagctacta ccaccaccgc ttctgctggt ccaaaggctg gtagatggca acaatgtggt 1500

ggtattggtt tcaccggtcc aacccaatgt gaagaaccat acatctgtac caagttgaac 1560

gactggtact ctcaatgttt ataactcgag 1590

<210> 2

<211> 1383

<212> DNA

<213> 嗜热子囊菌

<400> 2

gaattcatgt accaaagagc tctattgttc tccttcttct tggccgccgc tagagctcat 60

gaagccggta ctgtcaccgc cgaaaaccac ccatccttga cttggcaaca atgttcctct 120

ggtggttctt gtactactca aaacgggaag gttgttattg acgctaactg gagatgggtt 180

cacactacct ccggttacac caactgttac actggtaaca cttgggatac ttccatctgt 240

ccagacgacg ttacctgtgc tcaaaactgt gctttggacg gtgctgacta ctccggtact 300

tacggtgtca ctacctctgg caacgcgttg agattgaact tcgtcaccca atcttctggt 360

aagaacatcg gttctagatt gtacttgttg caagacgata ctacttacca aatcttcaag 420

ttgttgggtc aagagttcac tttcgacgtt gatgtttcca acttgccttg tggtttgaac 480

ggtgctttgt acttcgttgc tatggacgcc gacggtaact tatccaagta cccaggtaac 540

aaggccggtg ccaagtacgg taccggttac tgtgattctc aatgtccaag agacctaaaa 600

ttcattaacg gtcaagctaa cgtcgaaggt tggcaaccat ctgctaacga tccaaacgcc 660

ggtgtcggta atcacggttc ctcctgtgct gaaatggacg tttgggaagc taactctatc 720

tccaccgccg tcactccaca tccatgtgat accccaggtc aaaccatgtg tcaaggtgat 780

gattgtggtg gtacctactc ttccactaga tacgctggta cctgtgacac cgacggttgt 840

gatttcaacc cataccaacc aggtaaccac tctttctacg gtccaggtaa gattgtcgat 900

acttcttcta agttcactgt tgtcactcaa ttcattaccg acgatggtac cccatctggt 960

accctaactg aaattaagag attctacgtc caaaacggta aagtcattcc acaatccgaa 1020

agcaccattt ccggtgttac cggtaactcc atcaccactg aatactgtac cgctcaaaag 1080

gccgcctttg acaacaccgg tttcttcacc catggtggtt tgcaaaagat ttctcaagcc 1140

ttggctcaag gtatggtttt ggtcatgtcc ttgtgggatg accacgctgc taacatgttg 1200

tggttggatt ctacttaccc aactgacgct gatccagaca ccccaggtgt tgctagaggt 1260

acttgtccaa ccacttctgg tgttccagct gacgtcgaat ctcaaaaccc taactcttac 1320

gttatctact ctaacatcaa ggtgggtcca attaactcca ccttcactgc taactaactc 1380

gag 1383

<210> 3

<211> 1380

<212> DNA

<213> 埃默森篮状菌

<400> 3

gaattcatgc taagaagagc tttactattg agctcttctg ctatcttggc cgttaaggct 60

caacaagccg gtaccgctac tgctgaaaac caccctccat tgacctggca agaatgtacc 120

gctccaggtt cttgtaccac ccaaaacggt gctgtcgtct tggacgctaa ctggagatgg 180

gtccacgacg tcaacggtta cactaactgt tacaccggta acacctggga cccaacttac 240

tgtccagacg acgaaacttg cgctcaaaac tgtgccttgg acggtgctga ctacgaaggt 300

acttacggtg ttacctcctc tggttcttcc ttgaagttga acttcgtcac tggttctaac 360

gtcggttcca gattgtattt gttgcaagat gactccactt accaaatctt caagttgttg 420

aacagagaat tttctttcga cgtcgatgtg tccaacttgc cttgtggttt gaacggtgct 480

ctatacttcg ttgctatgga cgctgatggt ggtgtttcca agtacccaaa caacaaggct 540

ggtgccaaat acggtactgg ttactgtgac tctcaatgtc cacgtgactt gaagtttatt 600

gatggtgaag ctaatgtcga aggttggcaa ccatcttcta acaacgctaa cactggcatc 660

ggtgaccacg gttcttgctg tgccgaaatg gacgtttggg aagccaactc catttccaac 720

gccgtcactc cacacccatg tgacactcca ggtcaaacta tgtgttccgg cgatgactgt 780

ggtggtactt actctaacga tagatacgct ggtacctgtg atccagacgg ttgcgacttc 840

aatccataca gaatgggtaa cacttccttt tacggtccag gcaagatcat cgacactact 900

aagccattca ctgttgtcac ccaattcttg accgacgatg gtactgatac cggtactttg 960

tccgaaatca agagattcta catccaaaac tctaacgtca tcccacaacc aaattccgac 1020

atctctggtg tcactggtaa ctccattacc accgaatttt gtaccgccca aaagcaagct 1080

ttcggtgaca ccgacgactt ctctcaacac ggtggtttgg ctaagatggg tgctgctatg 1140

caacaaggta tggttttggt catgtctttg tgggacgact acgctgctca aatgttgtgg 1200

ttggactccg attacccaac cgatgccgac ccaaccaccc ctggtatcgc tagaggtacc 1260

tgtccaactg actctggtgt tccatctgac gtcgaatccc aatctccaaa ctcctacgtc 1320

acttactcca acattaaatt cggtccaatc aactccactt tcactgcttc ttaactcgag 1380

<210> 4

<211> 1392

<212> DNA

<213> 埃默森篮状菌

<400> 4

gaattcatgc gtaacttgtt ggccttggct ccagccgctt tgttggttgg tgctgccgaa 60

gctcaacaat ccttgtgggg tcaatgcggt ggttcctcct ggactggtgc aacttcctgt 120

gccgctggtg ccacctgttc caccattaac ccatactacg ctcaatgtgt tccagccact 180

gccactccaa ctaccttgac taccaccact aagccaacct ccaccggtgg tgctgctcca 240

accactccac caccaactac taccggtact accacctctc cagtcgtcac cagacctgcc 300

tccgcctccg gtaatccatt cgaaggttat caattgtacg ctaaccctta ctacgcttct 360

gaagtcattt ccttggctat cccatctttg agctccgagt tggtcccaaa ggcctccgaa 420

gttgctaagg tcccttcatt tgtctggtta gatcaagctg ccaaggttcc atctatgggt 480

gattacttga aggatattca atctcaaaac gctgctggtg ctgatccacc aatcgccggt 540

attttcgttg tttacgattt gccagataga gactgtgccg ccgctgcttc taacggtgaa 600

ttttctatcg ccaacaacgg tgtcgcttta tacaaacaat atatcgattc cattagagaa 660

caattaacca cttactccga cgtccatacc atcttggtta tcgaaccaga ctctttggct 720

aacgttgtca ctaacttgaa cgttccaaaa tgtgctaacg ctcaagatgc ttacttggaa 780

tgtatcaact acgctattac ccaattggac ttgccaaacg ttgctatgta cttggacgct 840

ggtcacgccg gttggttggg ttggcaagcc aacttggccc cagctgctca attattcgct 900

tctgtttaca agaacgcctc ttccccagcc tctgttagag gtttggctac caacgtggct 960

aactacaacg cctggtccat ttctagatgt ccatcctaca ctcaaggtga cgctaactgt 1020

gatgaagaag attacgttaa cgctttgggt ccattgttcc aagaacaagg tttcccagct 1080

tacttcatca tcgacacttc ccgtaacggt gtcagaccaa ctaagcaatc tcaatggggt 1140

gactggtgta acgttattgg taccggtttc ggtgttagac caaccaccga cactggtaac 1200

ccattggaag acgctttcgt ttgggtcaag ccaggtggtg aatccgacgg tacctccaac 1260

actactagcc cacgttacga ttaccactgt ggtttgtctg acgctttgca accagctcca 1320

gaagctggta cctggttcca agcctacttc gaacaattgt tgactaacgc caacccattg 1380

ttctaactcg ag 1392

<210> 5

<211> 1449

<212> DNA

<213> Chrysosporium lucknowense

<400> 5

atggccaaga agttgttcat taccgctgcc ttagctgccg cagtgcttgc tgcaccagtg 60

atcgaagaga gacaaaattg cggagccgtc tggacacagt gcggaggcaa cggctggcaa 120

ggcccaacat gttgtgcttc tggctcaacg tgcgtggcac agaacgagtg gtattcccag 180

tgccttccaa actcccaggt gacttcttca acaaccccca gctcaacgtc tacttcacag 240

agatccacaa gtacctcttc tagcacaacc agaagtggct catcctcatc tagcagtacg 300

acccctccac ccgtatcaag tcctgtcacg agtatccctg gcggagcaac ctcaacagcc 360

agttattccg gcaatccttt ctctggagtg agattatttg caaacgacta ttatagatca 420

gaggttcaca accttgcaat tccttctatg acgggaaccc tagccgcaaa ggcttccgcc 480

gtagcagaag tccctagttt ccaatggctt gacagaaacg ttacaataga tacacttatg 540

gtacagactt tatctcaggt tagagctttg aataaggccg gtgccaaccc accttatgct 600

gcccaattag tagtctatga cttgccagat agagactgtg ctgccgcagc ttctaatggt 660

gaattttcca tcgcaaatgg cggagctgca aactatagat catacattga tgcaataaga 720

aaacacatca ttgagtattc tgatattaga ataatccttg tgattgaacc agactccatg 780

gctaatatgg ttaccaacat gaatgtagcc aagtgttcta acgcagcttc cacataccat 840

gagctaaccg tatatgcatt aaaacaactg aatctaccta acgttgctat gtacttagat 900

gccggtcatg ccggatggtt gggctggcct gcaaatatcc aacccgcagc tgaattgttc 960

gctggaatct acaacgacgc cggaaagccc gctgccgtta gaggcttagc cacaaatgtt 1020

gcaaattaca acgcttggtc aattgctagt gccccttctt atacctcacc aaatcctaac 1080

tacgatgaga aacattacat agaagcattt tccccattgt taaactccgc tggattccct 1140

gccagattca tcgtggatac cggtagaaac ggcaaacaac caactggaca acaacaatgg 1200

ggagattggt gtaacgtcaa gggaaccggc ttcggcgtca ggcctacggc aaacaccgga 1260

cacgagctag tcgacgcttt tgtatgggtt aagccaggtg gcgaaagtga cggaacaagt 1320

gacacgagtg ctgcaagata cgattaccac tgtggtctgt ccgacgcttt acagcccgcc 1380

cccgaggctg gacaatggtt ccaggcttat tttgaacaat tgttaacgaa cgcaaatcca 1440

ccattctaa 1449

<210> 6

<211> 1551

<212> DNA

<213> 人工序列

<220>

<223> 具有CBD的埃默森篮状菌cbh1 with CBD

<400> 6

atgctaagaa gagctttact attgagctct tctgctatct tggccgttaa ggctcaacaa 60

gccggtaccg ctactgctga aaaccaccct ccattgacct ggcaagaatg taccgctcca 120

ggttcttgta ccacccaaaa cggtgctgtc gtcttggacg ctaactggag atgggtccac 180

gacgtcaacg gttacactaa ctgttacacc ggtaacacct gggacccaac ttactgtcca 240

gacgacgaaa cttgcgctca aaactgtgcc ttggacggtg ctgactacga aggtacttac 300

ggtgttacct cctctggttc ttccttgaag ttgaacttcg tcactggttc taacgtcggt 360

tccagattgt atttgttgca agatgactcc acttaccaaa tcttcaagtt gttgaacaga 420

gaattttctt tcgacgtcga tgtgtccaac ttgccttgtg gtttgaacgg tgctctatac 480

ttcgttgcta tggacgctga tggtggtgtt tccaagtacc caaacaacaa ggctggtgcc 540

aaatacggta ctggttactg tgactctcaa tgtccacgtg acttgaagtt tattgatggt 600

gaagctaatg tcgaaggttg gcaaccatct tctaacaacg ctaacactgg catcggtgac 660

cacggttctt gctgtgccga aatggacgtt tgggaagcca actccatttc caacgccgtc 720

actccacacc catgtgacac tccaggtcaa actatgtgtt ccggcgatga ctgtggtggt 780

acttactcta acgatagata cgctggtacc tgtgatccag acggttgcga cttcaatcca 840

tacagaatgg gtaacacttc cttttacggt ccaggcaaga tcatcgacac tactaagcca 900

ttcactgttg tcacccaatt cttgaccgac gatggtactg ataccggtac tttgtccgaa 960

atcaagagat tctacatcca aaactctaac gtcatcccac aaccaaattc cgacatctct 1020

ggtgtcactg gtaactccat taccaccgaa ttttgtaccg cccaaaagca agctttcggt 1080

gacaccgacg acttctctca acacggtggt ttggctaaga tgggtgctgc tatgcaacaa 1140

ggtatggttt tggtcatgtc tttgtgggac gactacgctg ctcaaatgtt gtggttggac 1200

tccgattacc caaccgatgc cgacccaacc acccctggta tcgctagagg tacctgtcca 1260

actgactctg gtgttccatc tgacgtcgaa tcccaatctc caaactccta cgtcacttac 1320

tccaacatta aattcggtcc aatcaactcc actttcactg cttctaaccc tccaggtggt 1380

aacagaggta ctaccactac tcgtaggcca gctactacaa ctggttcttc cccaggccca 1440

acccaatccc actacggtca atgtggtggt atcggttact ctggtccaac cgtctgtgct 1500

tctggtacta cctgtcaagt tttaaaccca tactactctc aatgtttgta g 1551

<210> 7

<211> 1608

<212> DNA

<213> 里氏木霉

<400> 7

atggtctcct tcacctccct gctggccggc gttgccgcta tctctggtgt cctagcagcc 60

cctgccgcag aagttgaacc tgtcgcagtt gagaaacgtg aggccgaagc agaagctcaa 120

tccgcttgta ccctacaatc cgaaactcac ccaccattga cctggcaaaa gtgttctagc 180

ggtggaactt gtactcaaca aactggttct gttgttatcg acgctaactg gagatggaca 240

cacgccacta actcttctac caactgttac gacggtaaca cttggtcttc cactttatgt 300

ccagataacg aaacttgtgc taagaattgc tgtttggacg gtgccgccta cgcttctacc 360

tacggtgtta ccacctccgg taactccttg tctattggtt tcgtcactca atccgctcaa 420

aagaacgttg gtgctagatt gtacttgatg gcttctgaca ctacttatca agaatttact 480

ttgttgggta acgaattttc tttcgatgtt gacgtttccc aattgccatg tggcttgaac 540

ggtgctttgt actttgtctc tatggatgct gacggtggtg tttctaagta cccaactaac 600

actgccggtg ctaagtacgg tactggttac tgtgattctc aatgtccacg tgacttgaag 660

ttcattaacg gtcaagccaa cgtcgaaggt tgggaaccat cctccaacaa cgctaacacc 720

ggtatcggtg gtcacggttc ctgttgttcc gaaatggaca tctgggaagc taacagtatt 780

tctgaagctt tgacaccaca cccatgcacc actgtcggtc aagaaatttg tgaaggtgat 840

ggatgtggtg gaacctactc tgataacaga tacggtggta cttgtgaccc agacggttgt 900

gactggaacc catacagatt gggtaacact tctttctatg gtccaggttc ttctttcacc 960

ttggatacca ccaagaagtt gactgttgtt acccaattcg aaacttctgg tgctatcaac 1020

agatactacg ttcaaaacgg tgtcaccttc caacaaccaa acgctgaatt gggttcttac 1080

tctggtaatg aattgaacga cgactactgt accgctgaag aagctgaatt tggtggttcc 1140

tctttctccg acaagggtgg tttgacccaa ttcaagaagg ctacctccgg tggtatggtt 1200

ttggttatgt ccttgtggga tgattactac gcaaacatgt tatggttaga cagtacttac 1260

ccaactaacg aaacctcctc tactccaggt gctgtcagag gttcctgttc tacctcttct 1320

ggtgttccag ctcaagttga atctcaatct ccaaacgcta aggtcacttt ctccaacatc 1380

aagttcggtc caatcggttc cactggtaat ccatctggtg gaaaccctcc aggtggtaac 1440

agaggtacta ccactactcg taggccagct actacaactg gttcttcccc aggcccaacc 1500

caatcccact acggtcaatg tggtggtatc ggttactctg gtccaaccgt ctgtgcttct 1560

ggtactacct gtcaagtttt aaacccatac tactctcaat gtttgtaa 1608

<210> 8

<211> 1479

<212> DNA

<213> 里氏木霉

<400> 8

atggtctcct tcacctccct gctggccggc gttgccgcta tctctggtgt cctagcagcc 60

cctgccgcag aagttgaacc tgtcgcagtt gagaaacgtg aggccgaagc agaagctgtc 120

ccattagaag aaagacaagc ctgctcctct gtttggggtc aatgtggtgg tcaaaactgg 180

tctggtccaa cttgttgtgc ttccggttct acctgtgttt actccaacga ctactattcc 240

caatgtttgc caggtgctgc ttcctcttcc tcttcaacta gagctgcttc tacaacttct 300

agggtctccc caaccacttc cagatcctct tctgctactc caccaccagg ttctactacc 360

actagagttc caccagtcgg ttccggtact gctacttact ctggtaaccc tttcgtcggt 420

gttactccat gggctaacgc ttactacgct tctgaagttt cttctttggc tatcccatct 480

ttgactggtg ctatggctac cgctgctgct gctgtcgcca aagttccatc cttcatgtgg 540

ttggacacct tggacaaaac tccattaatg gaacaaacct tggcagacat aaggactgct 600

aacaagaacg gcggtaacta cgctggtcaa tttgttgtgt acgacttgcc agacagagac 660

tgtgctgctt tggcttccaa cggtgaatac tccatcgctg acggtggtgt cgccaagtac 720

aagaactaca ttgataccat tagacaaatc gttgtcgaat actctgacat cagaaccttg 780

ttagtcatcg aaccagattc tttagccaat ttagtcacca acttgggtac tccaaagtgt 840

gctaacgctc aatctgccta cttagaatgt atcaattatg cagttaccca attgaacttg 900

ccaaacgttg ctatgtactt ggacgctggt cacgccggtt ggttgggttg gccagctaac 960

caagacccag ccgctcaatt attcgccaac gtttacaaga atgcctcttc tcctagagcc 1020

ttgcgtggtt tggctactaa cgtcgctaac tacaacggtt ggaacatcac ttctccacca 1080

tcttacaccc aaggtaacgc tgtttacaac gaaaagttgt acattcacgc tatcggtcca 1140

ttattggcta accatggttg gtctaacgcc ttcttcatca ccgaccaagg tagatccggt 1200

aaacaaccaa ctggtcaaca acaatggggt gattggtgta acgtcatcgg tactggtttc 1260

ggtatcagac catccgctaa cactggtgat tccttgttgg attccttcgt ctgggttaag 1320

ccaggtggtg aatgtgatgg cacctctgat tcctctgctc caagattcga ttcccactgc 1380

gccttgccag acgctttgca accagcccca caagctggtg catggttcca agcttacttt 1440

gtccaattgt tgaccaacgc taacccatct ttcttgtaa 1479

<210> 9

<211> 1618

<212> DNA

<213> 嗜热毛壳菌

<400> 9

ttaattaaac aatgatgtac aagaaatttg cagccctagc tgctttagtt gcaggagctt 60

ccgctcaaca ggcatgttca ttgactgccg aaaatcatcc atccttaacg tggaagagat 120

gcacgtcagg aggttcatgc tccactgtaa acggagctgt cacaatagat gcaaattgga 180

gatggaccca cactgtgtcc ggtagtacaa actgctacac cggtaatcaa tgggatacgt 240

ctttgtgtac agatggaaag tcatgcgctc agacctgttg cgtggatgga gcagactact 300

cttctactta cggaatcacg acatcaggtg acagtcttaa tttgaaattc gtaaccaagc 360

accagtacgg aacaaatgta ggctccagag tgtacttaat ggagaacgat accaaatatc 420

aaatgttcga gttattaggc aatgagttta cctttgacgt agacgttagc aatttgggtt 480

gcggattaaa cggcgccctt tacttcgtgt ctatggatgc tgacggaggt atgtcaaagt 540

attctggtaa caaagccgga gcaaagtacg gtacaggtta ttgtgacgct cagtgcccta 600

gagatttgaa gtttatcaac ggagaagcca acgttggtaa ctggacgcca agtactaacg 660

acgcaaacgc tggattcggc agatacggta gttgttgctc agaaatggac gtgtgggagg 720

ccaataacat ggcaaccgct tttactcctc acccatgtac aactgttgga caatctagat 780

gtgaagccga cacgtgcggt ggcacctaca gtagcgatag gtatgcagga gtatgtgatc 840

ctgacggttg cgatttcaat gcttatagac aaggagacaa aacgttttat ggtaaaggta 900

tgaccgtcga tactaacaag aagatgactg tggttaccca gttccacaag aactcagctg 960

gagtattgtc tgaaattaaa agattctacg tccaggatgg aaagattatt gctaatgccg 1020

agagtaagat accaggtaac cctggaaata gtatcacaca ggaatactgt gacgctcaga 1080

aggtagcttt tagcaacacc gatgacttca atagaaaggg tggaatggct caaatgagta 1140

aggctttagc cggtccaatg gtgttggtga tgtctgtttg ggatgatcac tatgcaaaca 1200

tgctttggct tgacagcacc tatcctatcg accaagccgg agccccaggt gctgaaaggg 1260

gtgcatgtcc aaccacgagt ggtgtgcccg ccgagattga agctcaagtg cctaatagta 1320

acgttatctt ttccaatata agattcggac caatcggatc cactgttcca ggtttggatg 1380

gatctaatcc tggcaaccca acaaccacgg tagtccctcc agcttcaact tccacaagta 1440

gaccaacaag ttcaacgtcc agtccagtgt ctactcctac cggacaacca ggaggctgta 1500

ccactcagaa atggggtcaa tgcggtggaa ttggctatac aggttgtacg aattgcgttg 1560

caggaaccac ttgtacacag ttaaaccctt ggtactcaca atgcctataa ggcgcgcc 1618

<210> 10

<211> 969

<212> DNA

<213> 澳洲乳白蚁

<400> 10

atgagatttc cttccatatt caccgctgtt ttgttcgcag cctcaagtgc tttagcagaa 60

tgtactaagg gtggatgtac taacaagaat ggatacatag ttcatgataa gcacgtcggt 120

gacatccaga atagagacac tttggaccct ccagacttag attatgaaaa ggacgtggga 180

gtaaccgtgt ccggtggaac ccttagtcaa agattagtct caacttggaa cggtaagaaa 240

gtcgtgggaa gtagattgta tattgtggac gaagccgacg agaaatatca attattcaca 300

tttgtcggta aggagttcac ctataccgtt gatatgtccc agatccaatg tggaatcaat 360

gccgcattat acacagtgga aatgcctgcc gctggaaaga cccctggagg tgttaagtat 420

ggatatggat attgtgatgc caactgcgtg gatggagatt gttgtatgga gttcgatatc 480

caagaagctt ctaacaaggc aatcgtttac accacccatt cctgtcaaag tcaaacttca 540

ggttgcgata cctcaggatg cggttacaac ccttacagag acagtggtga caaggcattc 600

tggggaacaa ctataaacgt aaaccagcct gtgacaattg taacacagtt tatcggttct 660

ggtagttcct taactgaagt caaaagattg tgcgtgcaag gtggaaagac cttccctcca 720

gccaaatcat taaccgacag ttattgtaat gccaacgact atagaagttt gagaactatg 780

ggtgcatcca tggctagagg acacgttgtt gtgttttctt tgtgggattc taatggtatg 840

agttggatgg atggaggtaa cgccggtcct tgtacctcat ataatattga atctttggaa 900

tccagtcagc caaacttaaa ggtcacatgg tcaaacgtga aatacggaga gatcgattct 960

ccttattaa 969

<210> 11

<211> 1356

<212> DNA

<213> 台湾家白蚁

<400> 11

atgagattcc cttccatttt cactgctgtt ttgttcgcag cctcaagtgc tttagcagcc 60

tatgactaca agacagtatt gaagaactcc ttgttgttct acgaagctca aagaagtgga 120

aaattgcctg cagaccagaa ggtgacctgg agaaaagatt ccgcattaaa cgacaaggga 180

cagaagggag aggacttaac tggaggttat tacgacgccg gagactttgt gaagttcggt 240

tttccaatgg catacacagt taccgtgttg gcctggggtt tagtcgatta tgaatctgct 300

tacagtactg cgggtgcctt ggatgatggt agaaaggcct tgaaatgggg tacagattat 360

ttcttgaaag cacataccgc tgccaatgag ttttacggac aggtgggtca gggagatgtg 420

gatcatgctt actggggacg tcctgaggac atgactatgt ctagaccagc ttacaagatc 480

gatacatcaa aacctggtag tgacttagct gcagaaacag cagccgcttt agcagcaacc 540

gcaatagctt acaagtcagc cgattctacc tacagtaaca acttaattac tcatgcaaag 600

cagttgttcg attttgcaaa caattataga ggaaagtact ctgatagtat taccgatgcc 660

aagaatttct atgcatccgg tgattataag gacgaattag tatgggctgc agcctggttg 720

tatagagcta caaatgataa cacttactta accaaagccg aatcattgta taatgaattt 780

ggtttaggat cttggaacgg tgcattcaat tgggataaca agatatccgg agttcaggtc 840

ttattagcca aattgacatc caaacaagca tacaaagata aagttcaggg ttatgttgat 900

tacttagtct cctctcaaaa gaaaactcca aagggattgg tctatattga ccaatgggga 960

accttaagac acgcagctaa tagtgccttg atcgctttac aggccgctga tttgggtata 1020

aacgctgcta gttatagaca atacgcaaag aagcaaattg attatgcctt aggtgacgga 1080

ggtcgttctt acgtggtcgg attcggaact aaccctccag taagacctca tcatagatcc 1140

agttcctgtc ctgacgcacc agccgcttgc gactggaata cttacaactc tgccggacca 1200

aatgcccacg tcttgaccgg agccttagta ggtggaccag attccaacga tagttacaca 1260

gattcacgtt ctgattatat cagtaacgaa gtcgctactg attacaatgc cggtttccaa 1320

tctgcagttg ctggtttgtt gaaagccgga gtataa 1356

<210> 12

<211> 1356

<212> DNA

<213> 高山象白蚁

<400> 12

atgagatttc catctatttt cactgccgtc ttatttgcag cctccagtgc attagcagcc 60

tatgattata aacaagtttt gagagattcc ttattgttct acgaagctca gagaagcggt 120

agattaccag cagaccagaa ggtcacttgg agaaaagatt cagccttgaa tgatcaggga 180

gatcaaggtc aagacttaac cggaggttat tttgacgccg gtgattttgt gaaatttggt 240

ttcccaatgg catatactgc taccgtcttg gcctggggtt taatcgattt tgaggcagga 300

tacagttccg ctggtgcctt ggatgacggt agaaaagcag taaagtgggc aactgattac 360

tttataaagg cccacacttc acagaatgag ttttacggac aagtcggtca gggtgacgct 420

gatcacgctt tctggggacg tcctgaagat atgaccatgg ctagaccagc ctacaagatt 480

gacaccagca gaccaggtag tgacttagcg ggtgaaaccg cagcggcatt ggcagctgcc 540

agtatcgtgt ttagaaatgt tgatggtaca tactctaaca acttacttac tcatgccaga 600

caattatttg actttgcaaa taactacaga ggaaaatact cagattccat aaccgacgct 660

agaaactttt acgccagtgc agattaccgt gacgaattgg tttgggctgc cgcatggttg 720

tacagagcta caaatgacaa cacttacttg aataccgcag aatccttgta tgatgaattt 780

ggattgcaga actggggtgg agggttaaac tgggattcaa aggtgtctgg tgtccaggtc 840

ttgttagcaa aattgaccaa caaacaggct tacaaagata ctgtgcagtc ttacgtgaat 900

tacctgatta ataaccagca aaagacccca aaaggattgt tatacattga tatgtggggt 960

acattgagac acgccgcaaa tgctgcattc atcatgttgg aagctgccga gttgggttta 1020

tccgcatcat cttacagaca gtttgctcaa actcagatcg actacgcttt gggtgacggt 1080

ggaagaagtt tcgtctgtgg ttttggttca aaccctccta caagaccaca tcatcgttct 1140

tccagttgcc cgcctgcccc agcaacttgt gactggaata cattcaactc acctgaccca 1200

aattaccacg tgttatctgg agctttggta ggaggaccag atcaaaacga taattatgtg 1260

gatgatagat ccgactacgt ccataacgaa gtggcaaccg actacaacgc cggatttcag 1320

agtgctttgg cagccttagt tgctttgggt tattaa 1356

<210> 13

<211> 1356

<212> DNA

<213> 澳大利亚矛颚家白蚁

<400> 13

atgagattcc ctagtatttt cactgccgtc ttatttgcag ccagttctgc tttagccgca 60

tatgattata ccacagtttt gaaaagttcc ttattgttct acgaagctca aagatccggt 120

aagttgccag ccgaccagaa ggtcacttgg agaaaagatt cagcattaga cgataaagga 180

aataatggag aggacttaac aggaggttat tatgacgctg gtgattttgt gaagtttggt 240

tttcctttag catacaccgc tactgtttta gcctggggtt tggtggacta tgaagcgggt 300

tactcatccg ctggagccac agatgacggt agaaaggcag tgaaatgggc aaccgactat 360

ttgttgaagg cacatactgc cgctaccgag ttatacggac aggtcgggga cggtgacgcc 420

gatcacgcat attggggacg tcctgaagat atgactatgg ctagaccagc atacaagatc 480

gacgctagca gaccaggatc tgacttagcg ggtgaaaccg ctgccgcttt agccgctgca 540

tccatagttt tcaaaggtgt agattcttca tattctgaca acttgttagc tcacgctaaa 600

cagttatttg atttcgctga caattataga ggaaaataca gtgattccat aacacaagct 660

tcaaactttt acgcctccgg agattacaaa gacgagttag tctgggctgc cacttggttg 720

tacagagcaa ccaacgataa tacatatttg accaaagcag aatccttgta caacgagttc 780

ggattaggaa actggaacgg agcctttaat tgggacaaca aggtgtccgg tgttcaggtg 840

ttgttagcca aattgacctc caagcaggct tataaagaca ccgttcaagg atacgtcgat 900

tatttgatta acaatcagca aaagacccca aagggtttgt tatacataga ccaatggggg 960

accttgagac acgcagctaa tgctgcctta ataatcttac aggctgctga tttgggtatt 1020

tctgccgaca gttatagaca attcgcaaag aagcaaatag attacgcttt aggtgacgga 1080

ggtagatcat atgtagttgg ttttggagac aatcctccaa cacatcctca tcaccgttct 1140

tcctcatgcc ctgacgcccc agcagtatgc gattggaata ctttcaattc acctgatcca 1200

aactttcatg tcttaaccgg agctttagtg ggaggtcctg atcagaacga taactacgtt 1260

gatgatcgtt ctgactacgt gtccaacgag gttgcaaccg actataatgc aggattccaa 1320

agtgctgtgg ccgctttagt tactttagga gtttaa 1356

<210> 14

<211> 1356

<212> DNA

<213> 达尔文澳白蚁

<400> 14

atgagattcc caagtatatt tactgctgtt ttgttcgcag ccagttctgc tttagcagcc 60

tatgattaca atgacgtatt aaccaaaagt ttgttgttct acgaagctca aagatccggt 120

aagttacctt ctgatcagaa agtcacctgg agaaaagatt cagcattaaa cgataaggga 180

caaaatggtg aggacttaac tggtggatat tatgacgccg gtgattacgt gaagtttggt 240

tttccaatgg catatactgc taccgttttg gcttggggtt tagtggacca tcctgccgga 300

tacagttctg cgggtgtctt ggatgatggt agaaaagctg tgaagtgggt taccgattac 360

ttaatcaaag cccacgtatc aaagaacgaa ttatacggac aggtcggtga cggtgacgca 420

gatcacgctt attggggacg tccagaggat atgacaatgg caagaccagc atacaaaata 480

gacacttcaa gaccaggttc cgacttagcg ggtgaaaccg cagcggcatt ggctgctgca 540

tctattgtgt ttaagtcaac agattctaat tacgccaaca ccttattgac ccacgcaaaa 600

caattattcg actttgccaa taactataga ggtaagtata gtgattccat aacacaggca 660

tctaatttct acagtagttc cgactataaa gatgaattgg tttgggcagc tgtatggttg 720

tacagagcca ctaacgatca gacctatttg acaactgcag agaagttata ctcagacttg 780

ggattacagt cctggaacgg aggtttcaca tgggacacca aaattagtgg agtagaagtg 840

ttattggcta agattactgg taaacaggca tataaggaca aagtaaaggg atattgtgat 900

tatatctcag gatctcagca gaaaacacct aaaggattag tttacataga taagtggggt 960

tccttaagaa tggccgcaaa cgccgcatat atttgcgctg tagccgcaga cgtcggaatc 1020

agttcaacag cttacagaca gttcgccaaa acacagatta attacatatt gggtgatgcc 1080

ggacgttctt ttgtggttgg ttacggaaac aacccaccta cacacccaca tcacagatcc 1140

agttcatgtc ctgacgcccc agcaacatgc gattggaata actacaacag tgctaaccct 1200

aatccacatg ttttatacgg tgcattagtt ggtggaccag attccaacga taattatcaa 1260

gacttaagat cagattatgt cgccaacgaa gtggcaacag actacaatgc agccttccag 1320

tcattgttag cattaatcgt ggacttaggt ttgtaa 1356

<210> 15

<211> 1356

<212> DNA

<213> Nasutitermes walkeri

<400> 15

atgagatttc catctatttt cactgccgtc ttatttgcag cctcaagtgc tttagcagcc 60

tatgattaca aacaagtatt gagagattcc ttattgttct acgaagctca gagaagcggt 120

agattaccag cagaccagaa ggtcacctgg agaaaagatt ccgccttgaa tgatcaggga 180

gagcaaggtc aagacttaac cggaggttat tttgacgccg gtgattttgt gaagtttgga 240

ttcccaatgg cttatacagc aaccgttttg gcctggggtt taatcgactt tgaagccggt 300

tactcttctg ctggtgcctt ggacgatggt agaaaagcag taaagtgggc tactgattac 360

tttataaaag cccatacttc tcaaaacgag ttttacggac aagtcggtca gggtgacgta 420

gatcacgcat attggggacg tcctgaagat atgacaatgg ctagaccagc ctacaagatt 480

gataccagca gaccaggtag tgacttagca ggagaaactg ctgcagcttt ggctgccgca 540

tccatcgttt tcaagaatgt agatggtaca tattccaaca acttacttac tcatgctaga 600

cagttgtttg atttcgccaa caattacaga ggaaaatact ctgatagtat taccgatgca 660

agaaactttt acgctagtgc cgactataga gatgagttag tctgggcagc tgcctggttg 720

tacagagcaa ccaacgacaa ttcttacttg aacactgctg aatcattata caacgagttt 780

ggattgcaaa attggggtgg agggttaaac tgggattcta aagtgagtgg tgttcaagtt 840

ttgttagcca agttgaccaa caaacaagag tataaggaca ctattcaatc atacgtgaat 900

tacttaatca ataaccaaca gaaaactcca aagggattgt tatacattga catgtggggg 960

accttgagac acgcagctaa cgcagccttt ataatgttag aagctgccga cttaggttta 1020

tccgcttcat cttatagaca gttcgcccaa acacaaatag actacgcatt gggggacggt 1080

ggacgttctt ttgtctgtgg tttcggttct aatcctccaa ctagacctca tcatagatcc 1140

agttcatgcc cgcctgctcc agctacctgt gattggaata cattcaattc tcctgaccca 1200

aactacaatg ttttatccgg tgccttggtt ggtggtcctg accagaatga taactacgtg 1260

gacgatagaa gtgattatgt ccataatgag gtagcaactg actacaatgc cggtttccaa 1320

tcagccttag ccgctttagt cgccttaggt tactaa 1356

<210> 16

<211> 1356

<212> DNA

<213> 黄胸散白蚁

<400> 16

atgagattcc caagtatatt tactgccgtc ttatttgcag cctccagtgc attagccgct 60

tatgactaca aaacagtatt gtccaattcc ttgttgttct acgaagctca aagatccggt 120

aagttacctt ctgaccagaa agtgacctgg agaaaggatt cagcattaaa cgacaaagga 180

caaaagggtg aggacttaac cggtggatat tacgacgccg gagactttgt gaaatttggt 240

tttccaatgg cttacacagt taccgtattg gcatggggtg ttattgatta cgaatccgcc 300

tactctgccg caggagcttt agattcaggt agaaaggcct tgaaatatgg gaccgactat 360

ttcttaaagg cacatacagc agctaacgag ttttacggac aggtgggtca aggtgacgtt 420

gaccacgcat actggggacg tcctgaagat atgaccatga gcagaccagc atacaaaata 480

gacacttcta agcctggttc cgacttagct gcagagactg cagctgcatt agcagccaca 540

gctattgcat acaaatctgc cgatgcaaca tattccaaca atttgataac acatgcaaaa 600

caattattcg actttgccaa caattacaga ggaaaatatt ccgatagtat taccgatgcc 660

aagaactttt atgcttctgg tgattacaaa gacgaattgg tatgggccgc tgcatggttg 720

tacagagcaa ccaatgacaa cacatatttg actaaggcag aatccttata caatgaattt 780

ggtttgggaa acttcaatgg tgccttcaat tgggataaca aagtctccgg agtccaggtg 840

ttattggcca agttaacctc aaaacaagtg tataaggata aggtacagtc ttacgtggac 900

tatttgatct cctcacaaaa aaagacacca aaaggtttag tgtacatcga tcaatggggt 960

actttaagac acgcagctaa ttctgctttg atcgctttgc aggcagctga cttaggaatt 1020

aacgctgcta cttacagagc ctacgcaaag aagcaaatcg actatgcttt gggtgatggt 1080

ggaagatcct atgttattgg atttgggacc aaccctccag taagaccaca tcacagaagt 1140

tcatcttgcc cagatgcacc agctgtctgc gattggaaca cctataactc cgctggtcca 1200

aacgcccacg tgttaaccgg tgcattggtt ggaggacctg atagtaatga tagttatacc 1260

gatgctcgtt ctgactacat atccaacgaa gtggcaactg attacaatgc gggtttccaa 1320

tccgctgtcg ctggattatt gaaggcgggt gtctaa 1356

<210> 17

<211> 1227

<212> DNA

<213> 费希新萨托菌

<400> 17

atgagatttc catctatttt cactgcagtt ttgttcgcag ccagttccgc tttggcccaa 60

cagatcgggt ccatcgccga aaatcatcct gagttgacaa cctatagatg ctcctctcaa 120

gctggatgcg tagcacagag tacttccgtc gtgttagata ttaacgctca ttggattcat 180

caaaacggtg cccaaacaag ttgcactacc tcaagtggat tggacccttc attgtgccct 240

gataaagtca cctgttctca gaactgcgta gtcgaaggaa taaccgacta ctcatctttt 300

ggtgtgcaaa actccggaga tgcaatgaca ttaagacagt atcaagttca aaatggacag 360

atcaaaacat tgcgtcctag agtgtacttg ttagctgagg atggaatcaa ttactccaaa 420

ttgcagttgt tgaaccaaga gtttactttc gatgtggacg cttccaaatt gccttgtggt 480

atgaatggag ctttatattt gtcagaaatg gatgcttctg gtggacgttc tgccttgaac 540

ccagcgggtg ccacatatgg aacaggttac tgtgatgccc agtgcttcaa cccaggtcca 600

tggataaatg gagaagcaaa tactgctgga gccggtgcat gttgccaaga gatggactta 660

tgggaagcca actcccgttc taccattttc agtcctcacc catgtacaac tgcgggtttg 720

tatgcctgta ctggagctga gtgctactca atctgtgacg gttatggttg cacttacaac 780

ccttatgaat taggagccaa agattactat ggttacggtt tgactattga caccgcaaag 840

ccaataacag tggttactca gtttatgacc gctgataata cagcaaccgg tacattagca 900

gagatcagaa gattatatgt tcaagatggt aaagtaatcg gaaatacagc cgtggccatg 960

accgaggcat tttgtagttc tagtagaaca tttgaagagt taggtggttt gcaaagaatg 1020

ggagaagctt taggtagagg aatggtgcca gttttctcaa tatgggacga tcctggtttg 1080

tggatgcatt ggttagattc tgacggtgca ggaccttgtg gtaatactga aggtgatcct 1140

gccttcattc aggctaacta cccaaatacc gccgtaacat tctccaaggt gagatgggga 1200

gatatcggtt ctacctatag ttcttaa 1227

<210> 18

<211> 915

<212> DNA

<213> 北美散白蚁

<400> 18

atgagatttc catctatttt cactgctgtt ttgttcgcag cctcaagtgc tttagcacaa 60

tggatgcaga tcggtggtaa gcagaaatat cctgccttta agccaggtgc taagtacgga 120

agaggttatt gtgacggaca gtgccctcac gacatgaagg tgtctagtgg aagagcaaac 180

gttgacggat ggaagccaca agacaacgac gaaaatagtg gaaatggaaa attgggtaca 240

tgttgctggg agatggatat atgggaagga aacttagtgt cccaagccta caccgttcac 300

gctggttcca agtccggaca atatgagtgt actggaacac aatgcggtga caccgacagt 360

ggtgaaagat tcaagggaac atgcgataaa gatggttgtg atttcgcaag ttacagatgg 420

ggagctacag actattacgg tcctggaaag accgtggaca ccaaacagcc aatgacagtc 480

gtgacccagt tcattggtga ccctttgact gagataaaga gagtttatgt acaaggagga 540

aaagtcataa acaattccaa aacatctaac ttaggttcag tgtacgattc tttgactgag 600

gccttctgcg atgacaccaa acaggttaca ggtgatacaa atgactttaa ggctaaagga 660

ggtatgtctg gattctccaa gaacttagac accccacaag ttttggtgat gtctttatgg 720

gatgaccata cagctaatat gttatggtta gattctactt atcctaccga tagtacaaag 780

ccaggtgccg caagaggtac ttgtgccgtc acctccgggg accctaaaga tgtggaatcc 840

aagcaagcca actctcaggt agtttacagt gacattaagt ttggtcctat taattcaaca 900

tacaaagcaa attaa 915

<210> 19

<211> 1428

<212> DNA

<213> 里氏木霉

<400> 19

atggtctcct tcacctccct gctggccggc gttgccgcta tctctggtgt cctagcagcc 60

cctgccgcag aagttgaacc tgtcgcagtt gagaaacgtg aggccgaagc agaagctcaa 120

caaccaggaa catcaacacc agaagtccat ccaaagttaa caacctataa atgtactaag 180

agtggagggt gtgtagcgca ggacacaagt gtggtcttag actggaatta tcgttggatg 240

catgatgcca attataattc ctgtactgtt aacggcggtg ttaacactac gttatgcccc 300

gatgaagcga cttgtggtaa gaattgtttt attgaagggg ttgactacgc cgctagtggt 360

gttacgacga gtgggtcatc cttgacgatg aatcaataca tgccttcttc tagtggtggg 420

tattcctctg tgtctccaag gctgtattta ttggattccg atggggaata tgttatgtta 480

aaattaaatg ggcaagaact gagttttgat gtggatctat ctgcattacc ttgtggagaa 540

aatggtagtc tttatttatc acaaatggac gaaaacggcg gagccaatca gtacaataca 600

gctggtgcta attatggttc aggctattgt gatgctcaat gtccagtgca gacttggagg 660

aatggcacct taaacacatc acatcaagga ttttgctgta acgaaatgga catattagaa 720

ggtaattcaa gagctaatgc actaactccg cactcttgta ctgcgaccgc atgtgattct 780

gccggttgtg gtttcaaccc ttatggttct ggttataaga gttactacgg tccgggagac 840

accgtggata cgtcaaagac cttcactata atcactcagt ttaacacaga taacggatct 900

ccgagtggta atttggtgag tattactagg aaatatcagc agaacggtgt tgatattccg 960

tccgcgcagc caggcggtga cactatatct agctgtcctt ccgccagtgc ctatggcgga 1020

cttgctacaa tgggtaaggc attgtcctca ggtatggtcc tagtattttc tatttggaat 1080

gataattcac aatacatgaa ttggctggat tctggtaatg caggcccttg ctcctctaca 1140

gaaggtaacc caagcaatat actagctaat aacccaaata ctcatgttgt ctttagtaat 1200

attagatggg gcgatatagg tagcactacg aacagtaccg cacctcctcc tccacctgct 1260

agctccacga cattttccac tactagaagg tccagcacta ccagctcatc accatcttgt 1320

actcaaaccc attggggaca gtgtggtggt ataggttaca gcggttgcaa aacttgcaca 1380

tctggtacta catgccaata cagtaatgac tattactcac aatgttaa 1428

<210> 20

<211> 2688

<212> DNA

<213> 扣囊复膜酵母菌

<400> 20

atggtctcct tcacctccct cctcgccggc gtcgccgcca tctcgggcgt cttggccgct 60

cccgccgccg aggtcgaatc cgtggctgtg gagaagcgct cggactcgcg agtcccaatt 120

caaaactata cccagtctcc atcccagaga gatgagagct cccaatgggt gagcccgcat 180

tattatccaa ctccacaagg tggtaggctc caagacgtct ggcaagaagc atatgctaga 240

gcaaaagcca tcgttggcca gatgactatt gttgaaaagg tcaatttgac cactggtacc 300

ggttggcaat tagatccatg tgttggtaat accggttctg ttccaagatt cggcatccca 360

aacctttgcc tacaagatgg gccattgggt gttcgattcg ctgactttgt tactggctat 420

ccatccggtc ttgctactgg tgcaacgttc aataaggatt tgtttcttca aagaggtcaa 480

gctctcggtc atgagttcaa cagcaaaggt gtacatattg cgttgggccc tgctgttggc 540

ccacttggtg tcaaagccag aggtggcaga aatttcgaag cctttggttc cgacccatat 600

ctccaaggta ctgctgctgc tgcaaccatc aaaggtctcc aagagaataa tgttatggct 660

tgtgtcaagc actttattgg taacgaacaa gaaaagtaca gacagccaga tgacataaac 720

cctgccacca accaaactac taaagaagct attagtgcca acattccaga cagagccatg 780

catgagttgt acttgtggcc atttgccgat tcggttcgag caggtgttgg ttctgttatg 840

tgctcttata acagagtcaa caacacttac gcttgcgaaa actcttacat gatgaaccac 900

ttgcttaaag aagagttggg ttttcaaggc tttgttgttt cggactgggg tgcacaatta 960

agtggggttt atagcgctat ctcgggctta gatatgtcta tgcctggtga agtgtatggg 1020

ggatggaaca ccggcacgtc tttctggggt caaaacttga cgaaagctat ttacaatgag 1080

actgttccga ttgaaagatt agatgatatg gcaaccagga tcttggctgc tttgtatgct 1140

accaatagtt tcccaacaga agatcacctt ccaaattttt cttcatggac aacgaaagaa 1200

tatggcaata aatattatgc tgacaacact accgagattg tcaaagtcaa ctaccatgtg 1260

gacccatcaa atgactttac ggaggacaca gctttgaagg ttgctgagga atctattgtg 1320

cttttaaaaa atgaaaacaa cactttgcca atttctcccg aaaaggctaa aagattacta 1380

ttgtcgggta ttgctgcagg ccctgatccg ataggttatc agtgtgaaga tcaatcttgc 1440

acaaatggcg ctttgtttca aggttggggt tctggcagtg ttggttctcc aaaatatcaa 1500

gtcactccat ttgaggaaat ttcttatctt gcaagaaaaa acaagatgca atttgattat 1560

attcgggagt cttacgactt agctcaagtt actaaagtag cttccgatgc tcatttgtct 1620

atagttgttg tctctgctgc aagcggtgag ggttatataa ccgttgacgg taaccaaggt 1680

gacagaagaa atctcacttt gtggaacaac ggtgataaat tgattgaaac agttgctgaa 1740

aactgtgcca atactgttgt tgttgttact tctactggtc aaattaattt tgaaggcttt 1800

gctgatcacc caaatgttac cgcaattgtc tgggccggcc cattaggtga cagatccggg 1860

actgctatcg ccaatattct ttttggtaaa gcgaacccat caggtcatct tccattcact 1920

attgctaaga ctgacgatga ttacattcca attgaaacct acagtccatc gagtggtgaa 1980

cctgaagaca accacttggt tgaaaatgac ttgcttgttg actatagata ttttgaagag 2040

aagaatattg agccaagata cgcatttggt tatggcttgt cttacaatga gtatgaagtt 2100

agcaatgcaa aggtctcggc agccaaaaaa gttgatgagg agttgcctga accagctacc 2160

tacttatcgg agtttagcta tcaaaatgca aaagacagca aaaatccaag tgatgctttt 2220

gctccaacag atttaaacag agttaatgag tacctttatc catatttaga tagcaatgtt 2280

accttaaaag acggaaacta tgagtatccc gatggctaca gcactgagca aagaacaaca 2340

cctatccaac ctgggggcgg cttgggaggc aacgatgctt tgtgggaggt cgcttataaa 2400

gttgaagtgg acgttcaaaa cttgggtaac tccactgata agtttgttcc acagttgtat 2460

ttgaaacacc ctgaggatgg caagtttgaa acccctattc aattgagagg gtttgaaaag 2520

gttgagttgt ccccgggtga gaagaagaca gttgagtttg agcttttgag aagagatctt 2580

agtgtgtggg ataccaccag acagtcttgg atcgttgaat ctggtactta tgaggcctta 2640

attggtgttg ctgttaatga tatcaagaca tctgtcctgt ttactatt 2688

<210> 21

<211> 525

<212> PRT

<213> 灰腐质霉

<400> 21

Met Arg Thr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Ser Ala

1 5 10 15

Ala Ala Gln Gln Ala Cys Ser Leu Thr Thr Glu Arg His Pro Ser Leu

20 25 30

Ser Trp Asn Lys Cys Thr Ala Gly Gly Gln Cys Gln Thr Val Gln Ala

35 40 45

Ser Ile Thr Leu Asp Ser Asn Trp Arg Trp Thr His Gln Val Ser Gly

50 55 60

Ser Thr Asn Cys Tyr Thr Gly Asn Lys Trp Asp Thr Ser Ile Cys Thr

65 70 75 80

Asp Ala Lys Ser Cys Ala Gln Asn Cys Cys Val Asp Gly Ala Asp Tyr

85 90 95

Thr Ser Thr Tyr Gly Ile Thr Thr Asn Gly Asp Ser Leu Ser Leu Lys

100 105 110

Phe Val Thr Lys Gly Gln His Ser Thr Asn Val Gly Ser Arg Thr Tyr

115 120 125

Leu Met Asp Gly Glu Asp Lys Tyr Gln Thr Phe Glu Leu Leu Gly Asn

130 135 140

Glu Phe Thr Phe Asp Val Asp Val Ser Asn Ile Gly Cys Gly Leu Asn

145 150 155 160

Gly Ala Leu Tyr Phe Val Ser Met Asp Ala Asp Gly Gly Leu Ser Arg

165 170 175

Tyr Pro Gly Asn Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp

180 185 190

Ala Gln Cys Pro Arg Asp Ile Lys Phe Ile Asn Gly Glu Ala Asn Ile

195 200 205

Glu Gly Trp Thr Gly Ser Thr Asn Asp Pro Asn Ala Gly Ala Gly Arg

210 215 220

Tyr Gly Thr Cys Cys Ser Glu Met Asp Ile Trp Glu Ala Asn Asn Met

225 230 235 240

Ala Thr Ala Phe Thr Pro His Pro Cys Thr Ile Ile Gly Gln Ser Arg

245 250 255

Cys Glu Gly Asp Ser Cys Gly Gly Thr Tyr Ser Asn Glu Arg Tyr Ala

260 265 270

Gly Val Cys Asp Pro Asp Gly Cys Asp Phe Asn Ser Tyr Arg Gln Gly

275 280 285

Asn Lys Thr Phe Tyr Gly Lys Gly Met Thr Val Asp Thr Thr Lys Lys

290 295 300

Ile Thr Val Val Thr Gln Phe Leu Lys Asp Ala Asn Gly Asp Leu Gly

305 310 315 320

Glu Ile Lys Arg Phe Tyr Val Gln Asp Gly Lys Ile Ile Pro Asn Ser

325 330 335

Glu Ser Thr Ile Pro Gly Val Glu Gly Asn Ser Ile Thr Gln Asp Trp

340 345 350

Cys Asp Arg Gln Lys Val Ala Phe Gly Asp Ile Asp Asp Phe Asn Arg

355 360 365

Lys Gly Gly Met Lys Gln Met Gly Lys Ala Leu Ala Gly Pro Met Val

370 375 380

Leu Val Met Ser Ile Trp Asp Asp His Ala Ser Asn Met Leu Trp Leu

385 390 395 400

Asp Ser Thr Phe Pro Val Asp Ala Ala Gly Lys Pro Gly Ala Glu Arg

405 410 415

Gly Ala Cys Pro Thr Thr Ser Gly Val Pro Ala Glu Val Glu Ala Glu

420 425 430

Ala Pro Asn Ser Asn Val Val Phe Ser Asn Ile Arg Phe Gly Pro Ile

435 440 445

Gly Ser Thr Val Ala Gly Leu Pro Gly Ala Gly Asn Gly Gly Asn Asn

450 455 460

Gly Gly Asn Pro Pro Pro Pro Thr Thr Thr Thr Ser Ser Ala Pro Ala

465 470 475 480

Thr Thr Thr Thr Ala Ser Ala Gly Pro Lys Ala Gly Arg Trp Gln Gln

485 490 495

Cys Gly Gly Ile Gly Phe Thr Gly Pro Thr Gln Cys Glu Glu Pro Tyr

500 505 510

Ile Cys Thr Lys Leu Asn Asp Trp Tyr Ser Gln Cys Leu

515 520 525

<210> 22

<211> 456

<212> PRT

<213> 嗜热子囊菌

<400> 22

Met Tyr Gln Arg Ala Leu Leu Phe Ser Phe Phe Leu Ala Ala Ala Arg

1 5 10 15

Ala His Glu Ala Gly Thr Val Thr Ala Glu Asn His Pro Ser Leu Thr

20 25 30

Trp Gln Gln Cys Ser Ser Gly Gly Ser Cys Thr Thr Gln Asn Gly Lys

35 40 45

Val Val Ile Asp Ala Asn Trp Arg Trp Val His Thr Thr Ser Gly Tyr

50 55 60

Thr Asn Cys Tyr Thr Gly Asn Thr Trp Asp Thr Ser Ile Cys Pro Asp

65 70 75 80

Asp Val Thr Cys Ala Gln Asn Cys Ala Leu Asp Gly Ala Asp Tyr Ser

85 90 95

Gly Thr Tyr Gly Val Thr Thr Ser Gly Asn Ala Leu Arg Leu Asn Phe

100 105 110

Val Thr Gln Ser Ser Gly Lys Asn Ile Gly Ser Arg Leu Tyr Leu Leu

115 120 125

Gln Asp Asp Thr Thr Tyr Gln Ile Phe Lys Leu Leu Gly Gln Glu Phe

130 135 140

Thr Phe Asp Val Asp Val Ser Asn Leu Pro Cys Gly Leu Asn Gly Ala

145 150 155 160

Leu Tyr Phe Val Ala Met Asp Ala Asp Gly Asn Leu Ser Lys Tyr Pro

165 170 175

Gly Asn Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp Ser Gln

180 185 190

Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Gln Ala Asn Val Glu Gly

195 200 205

Trp Gln Pro Ser Ala Asn Asp Pro Asn Ala Gly Val Gly Asn His Gly

210 215 220

Ser Ser Cys Ala Glu Met Asp Val Trp Glu Ala Asn Ser Ile Ser Thr

225 230 235 240

Ala Val Thr Pro His Pro Cys Asp Thr Pro Gly Gln Thr Met Cys Gln

245 250 255

Gly Asp Asp Cys Gly Gly Thr Tyr Ser Ser Thr Arg Tyr Ala Gly Thr

260 265 270

Cys Asp Thr Asp Gly Cys Asp Phe Asn Pro Tyr Gln Pro Gly Asn His

275 280 285

Ser Phe Tyr Gly Pro Gly Lys Ile Val Asp Thr Ser Ser Lys Phe Thr

290 295 300

Val Val Thr Gln Phe Ile Thr Asp Asp Gly Thr Pro Ser Gly Thr Leu

305 310 315 320

Thr Glu Ile Lys Arg Phe Tyr Val Gln Asn Gly Lys Val Ile Pro Gln

325 330 335

Ser Glu Ser Thr Ile Ser Gly Val Thr Gly Asn Ser Ile Thr Thr Glu

340 345 350

Tyr Cys Thr Ala Gln Lys Ala Ala Phe Asp Asn Thr Gly Phe Phe Thr

355 360 365

His Gly Gly Leu Gln Lys Ile Ser Gln Ala Leu Ala Gln Gly Met Val

370 375 380

Leu Val Met Ser Leu Trp Asp Asp His Ala Ala Asn Met Leu Trp Leu

385 390 395 400

Asp Ser Thr Tyr Pro Thr Asp Ala Asp Pro Asp Thr Pro Gly Val Ala

405 410 415

Arg Gly Thr Cys Pro Thr Thr Ser Gly Val Pro Ala Asp Val Glu Ser

420 425 430

Gln Asn Pro Asn Ser Tyr Val Ile Tyr Ser Asn Ile Lys Val Gly Pro

435 440 445

Ile Asn Ser Thr Phe Thr Ala Asn

450 455

<210> 23

<211> 455

<212> PRT

<213> 埃默森篮状菌

<400> 23

Met Leu Arg Arg Ala Leu Leu Leu Ser Ser Ser Ala Ile Leu Ala Val

1 5 10 15

Lys Ala Gln Gln Ala Gly Thr Ala Thr Ala Glu Asn His Pro Pro Leu

20 25 30

Thr Trp Gln Glu Cys Thr Ala Pro Gly Ser Cys Thr Thr Gln Asn Gly

35 40 45

Ala Val Val Leu Asp Ala Asn Trp Arg Trp Val His Asp Val Asn Gly

50 55 60

Tyr Thr Asn Cys Tyr Thr Gly Asn Thr Trp Asp Pro Thr Tyr Cys Pro

65 70 75 80

Asp Asp Glu Thr Cys Ala Gln Asn Cys Ala Leu Asp Gly Ala Asp Tyr

85 90 95

Glu Gly Thr Tyr Gly Val Thr Ser Ser Gly Ser Ser Leu Lys Leu Asn

100 105 110

Phe Val Thr Gly Ser Asn Val Gly Ser Arg Leu Tyr Leu Leu Gln Asp

115 120 125

Asp Ser Thr Tyr Gln Ile Phe Lys Leu Leu Asn Arg Glu Phe Ser Phe

130 135 140

Asp Val Asp Val Ser Asn Leu Pro Cys Gly Leu Asn Gly Ala Leu Tyr

145 150 155 160

Phe Val Ala Met Asp Ala Asp Gly Gly Val Ser Lys Tyr Pro Asn Asn

165 170 175

Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp Ser Gln Cys Pro

180 185 190

Arg Asp Leu Lys Phe Ile Asp Gly Glu Ala Asn Val Glu Gly Trp Gln

195 200 205

Pro Ser Ser Asn Asn Ala Asn Thr Gly Ile Gly Asp His Gly Ser Cys

210 215 220

Cys Ala Glu Met Asp Val Trp Glu Ala Asn Ser Ile Ser Asn Ala Val

225 230 235 240

Thr Pro His Pro Cys Asp Thr Pro Gly Gln Thr Met Cys Ser Gly Asp

245 250 255

Asp Cys Gly Gly Thr Tyr Ser Asn Asp Arg Tyr Ala Gly Thr Cys Asp

260 265 270

Pro Asp Gly Cys Asp Phe Asn Pro Tyr Arg Met Gly Asn Thr Ser Phe

275 280 285

Tyr Gly Pro Gly Lys Ile Ile Asp Thr Thr Lys Pro Phe Thr Val Val

290 295 300

Thr Gln Phe Leu Thr Asp Asp Gly Thr Asp Thr Gly Thr Leu Ser Glu

305 310 315 320

Ile Lys Arg Phe Tyr Ile Gln Asn Ser Asn Val Ile Pro Gln Pro Asn

325 330 335

Ser Asp Ile Ser Gly Val Thr Gly Asn Ser Ile Thr Thr Glu Phe Cys

340 345 350

Thr Ala Gln Lys Gln Ala Phe Gly Asp Thr Asp Asp Phe Ser Gln His

355 360 365

Gly Gly Leu Ala Lys Met Gly Ala Ala Met Gln Gln Gly Met Val Leu

370 375 380

Val Met Ser Leu Trp Asp Asp Tyr Ala Ala Gln Met Leu Trp Leu Asp

385 390 395 400

Ser Asp Tyr Pro Thr Asp Ala Asp Pro Thr Thr Pro Gly Ile Ala Arg

405 410 415

Gly Thr Cys Pro Thr Asp Ser Gly Val Pro Ser Asp Val Glu Ser Gln

420 425 430

Ser Pro Asn Ser Tyr Val Thr Tyr Ser Asn Ile Lys Phe Gly Pro Ile

435 440 445

Asn Ser Thr Phe Thr Ala Ser

450 455

<210> 24

<211> 459

<212> PRT

<213> 埃默森篮状菌

<400> 24

Met Arg Asn Leu Leu Ala Leu Ala Pro Ala Ala Leu Leu Val Gly Ala

1 5 10 15

Ala Glu Ala Gln Gln Ser Leu Trp Gly Gln Cys Gly Gly Ser Ser Trp

20 25 30

Thr Gly Ala Thr Ser Cys Ala Ala Gly Ala Thr Cys Ser Thr Ile Asn

35 40 45

Pro Tyr Tyr Ala Gln Cys Val Pro Ala Thr Ala Thr Pro Thr Thr Leu

50 55 60

Thr Thr Thr Thr Lys Pro Thr Ser Thr Gly Gly Ala Ala Pro Thr Thr

65 70 75 80

Pro Pro Pro Thr Thr Thr Gly Thr Thr Thr Ser Pro Val Val Thr Arg

85 90 95

Pro Ala Ser Ala Ser Gly Asn Pro Phe Glu Gly Tyr Gln Leu Tyr Ala

100 105 110

Asn Pro Tyr Tyr Ala Ser Glu Val Ile Ser Leu Ala Ile Pro Ser Leu

115 120 125

Ser Ser Glu Leu Val Pro Lys Ala Ser Glu Val Ala Lys Val Pro Ser

130 135 140

Phe Val Trp Leu Asp Gln Ala Ala Lys Val Pro Ser Met Gly Asp Tyr

145 150 155 160

Leu Lys Asp Ile Gln Ser Gln Asn Ala Ala Gly Ala Asp Pro Pro Ile

165 170 175

Ala Gly Ile Phe Val Val Tyr Asp Leu Pro Asp Arg Asp Cys Ala Ala

180 185 190

Ala Ala Ser Asn Gly Glu Phe Ser Ile Ala Asn Asn Gly Val Ala Leu

195 200 205

Tyr Lys Gln Tyr Ile Asp Ser Ile Arg Glu Gln Leu Thr Thr Tyr Ser

210 215 220

Asp Val His Thr Ile Leu Val Ile Glu Pro Asp Ser Leu Ala Asn Val

225 230 235 240

Val Thr Asn Leu Asn Val Pro Lys Cys Ala Asn Ala Gln Asp Ala Tyr

245 250 255

Leu Glu Cys Ile Asn Tyr Ala Ile Thr Gln Leu Asp Leu Pro Asn Val

260 265 270

Ala Met Tyr Leu Asp Ala Gly His Ala Gly Trp Leu Gly Trp Gln Ala

275 280 285

Asn Leu Ala Pro Ala Ala Gln Leu Phe Ala Ser Val Tyr Lys Asn Ala

290 295 300

Ser Ser Pro Ala Ser Val Arg Gly Leu Ala Thr Asn Val Ala Asn Tyr

305 310 315 320

Asn Ala Trp Ser Ile Ser Arg Cys Pro Ser Tyr Thr Gln Gly Asp Ala

325 330 335

Asn Cys Asp Glu Glu Asp Tyr Val Asn Ala Leu Gly Pro Leu Phe Gln

340 345 350

Glu Gln Gly Phe Pro Ala Tyr Phe Ile Ile Asp Thr Ser Arg Asn Gly

355 360 365

Val Arg Pro Thr Lys Gln Ser Gln Trp Gly Asp Trp Cys Asn Val Ile

370 375 380

Gly Thr Gly Phe Gly Val Arg Pro Thr Thr Asp Thr Gly Asn Pro Leu

385 390 395 400

Glu Asp Ala Phe Val Trp Val Lys Pro Gly Gly Glu Ser Asp Gly Thr

405 410 415

Ser Asn Thr Thr Ser Pro Arg Tyr Asp Tyr His Cys Gly Leu Ser Asp

420 425 430

Ala Leu Gln Pro Ala Pro Glu Ala Gly Thr Trp Phe Gln Ala Tyr Phe

435 440 445

Glu Gln Leu Leu Thr Asn Ala Asn Pro Leu Phe

450 455

<210> 25

<211> 482

<212> PRT

<213> Chrysosporium lucknowense

<400> 25

Met Ala Lys Lys Leu Phe Ile Thr Ala Ala Leu Ala Ala Ala Val Leu

1 5 10 15

Ala Ala Pro Val Ile Glu Glu Arg Gln Asn Cys Gly Ala Val Trp Thr

20 25 30

Gln Cys Gly Gly Asn Gly Trp Gln Gly Pro Thr Cys Cys Ala Ser Gly

35 40 45

Ser Thr Cys Val Ala Gln Asn Glu Trp Tyr Ser Gln Cys Leu Pro Asn

50 55 60

Ser Gln Val Thr Ser Ser Thr Thr Pro Ser Ser Thr Ser Thr Ser Gln

65 70 75 80

Arg Ser Thr Ser Thr Ser Ser Ser Thr Thr Arg Ser Gly Ser Ser Ser

85 90 95

Ser Ser Ser Thr Thr Pro Pro Pro Val Ser Ser Pro Val Thr Ser Ile

100 105 110

Pro Gly Gly Ala Thr Ser Thr Ala Ser Tyr Ser Gly Asn Pro Phe Ser

115 120 125

Gly Val Arg Leu Phe Ala Asn Asp Tyr Tyr Arg Ser Glu Val His Asn

130 135 140

Leu Ala Ile Pro Ser Met Thr Gly Thr Leu Ala Ala Lys Ala Ser Ala

145 150 155 160

Val Ala Glu Val Pro Ser Phe Gln Trp Leu Asp Arg Asn Val Thr Ile

165 170 175

Asp Thr Leu Met Val Gln Thr Leu Ser Gln Val Arg Ala Leu Asn Lys

180 185 190

Ala Gly Ala Asn Pro Pro Tyr Ala Ala Gln Leu Val Val Tyr Asp Leu

195 200 205

Pro Asp Arg Asp Cys Ala Ala Ala Ala Ser Asn Gly Glu Phe Ser Ile

210 215 220

Ala Asn Gly Gly Ala Ala Asn Tyr Arg Ser Tyr Ile Asp Ala Ile Arg

225 230 235 240

Lys His Ile Ile Glu Tyr Ser Asp Ile Arg Ile Ile Leu Val Ile Glu

245 250 255

Pro Asp Ser Met Ala Asn Met Val Thr Asn Met Asn Val Ala Lys Cys

260 265 270

Ser Asn Ala Ala Ser Thr Tyr His Glu Leu Thr Val Tyr Ala Leu Lys

275 280 285

Gln Leu Asn Leu Pro Asn Val Ala Met Tyr Leu Asp Ala Gly His Ala

290 295 300

Gly Trp Leu Gly Trp Pro Ala Asn Ile Gln Pro Ala Ala Glu Leu Phe

305 310 315 320

Ala Gly Ile Tyr Asn Asp Ala Gly Lys Pro Ala Ala Val Arg Gly Leu

325 330 335

Ala Thr Asn Val Ala Asn Tyr Asn Ala Trp Ser Ile Ala Ser Ala Pro

340 345 350

Ser Tyr Thr Ser Pro Asn Pro Asn Tyr Asp Glu Lys His Tyr Ile Glu

355 360 365

Ala Phe Ser Pro Leu Leu Asn Ser Ala Gly Phe Pro Ala Arg Phe Ile

370 375 380

Val Asp Thr Gly Arg Asn Gly Lys Gln Pro Thr Gly Gln Gln Gln Trp

385 390 395 400

Gly Asp Trp Cys Asn Val Lys Gly Thr Gly Phe Gly Val Arg Pro Thr

405 410 415

Ala Asn Thr Gly His Glu Leu Val Asp Ala Phe Val Trp Val Lys Pro

420 425 430

Gly Gly Glu Ser Asp Gly Thr Ser Asp Thr Ser Ala Ala Arg Tyr Asp

435 440 445

Tyr His Cys Gly Leu Ser Asp Ala Leu Gln Pro Ala Pro Glu Ala Gly

450 455 460

Gln Trp Phe Gln Ala Tyr Phe Glu Gln Leu Leu Thr Asn Ala Asn Pro

465 470 475 480

Pro Phe

<210> 26

<211> 516

<212> PRT

<213> 人工序列

<220>

<223> 具有CBD的埃默森篮状菌cbh1

<400> 26

Met Leu Arg Arg Ala Leu Leu Leu Ser Ser Ser Ala Ile Leu Ala Val

1 5 10 15

Lys Ala Gln Gln Ala Gly Thr Ala Thr Ala Glu Asn His Pro Pro Leu

20 25 30

Thr Trp Gln Glu Cys Thr Ala Pro Gly Ser Cys Thr Thr Gln Asn Gly

35 40 45

Ala Val Val Leu Asp Ala Asn Trp Arg Trp Val His Asp Val Asn Gly

50 55 60

Tyr Thr Asn Cys Tyr Thr Gly Asn Thr Trp Asp Pro Thr Tyr Cys Pro

65 70 75 80

Asp Asp Glu Thr Cys Ala Gln Asn Cys Ala Leu Asp Gly Ala Asp Tyr

85 90 95

Glu Gly Thr Tyr Gly Val Thr Ser Ser Gly Ser Ser Leu Lys Leu Asn

100 105 110

Phe Val Thr Gly Ser Asn Val Gly Ser Arg Leu Tyr Leu Leu Gln Asp

115 120 125

Asp Ser Thr Tyr Gln Ile Phe Lys Leu Leu Asn Arg Glu Phe Ser Phe

130 135 140

Asp Val Asp Val Ser Asn Leu Pro Cys Gly Leu Asn Gly Ala Leu Tyr

145 150 155 160

Phe Val Ala Met Asp Ala Asp Gly Gly Val Ser Lys Tyr Pro Asn Asn

165 170 175

Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp Ser Gln Cys Pro

180 185 190

Arg Asp Leu Lys Phe Ile Asp Gly Glu Ala Asn Val Glu Gly Trp Gln

195 200 205

Pro Ser Ser Asn Asn Ala Asn Thr Gly Ile Gly Asp His Gly Ser Cys

210 215 220

Cys Ala Glu Met Asp Val Trp Glu Ala Asn Ser Ile Ser Asn Ala Val

225 230 235 240

Thr Pro His Pro Cys Asp Thr Pro Gly Gln Thr Met Cys Ser Gly Asp

245 250 255

Asp Cys Gly Gly Thr Tyr Ser Asn Asp Arg Tyr Ala Gly Thr Cys Asp

260 265 270

Pro Asp Gly Cys Asp Phe Asn Pro Tyr Arg Met Gly Asn Thr Ser Phe

275 280 285

Tyr Gly Pro Gly Lys Ile Ile Asp Thr Thr Lys Pro Phe Thr Val Val

290 295 300

Thr Gln Phe Leu Thr Asp Asp Gly Thr Asp Thr Gly Thr Leu Ser Glu

305 310 315 320

Ile Lys Arg Phe Tyr Ile Gln Asn Ser Asn Val Ile Pro Gln Pro Asn

325 330 335

Ser Asp Ile Ser Gly Val Thr Gly Asn Ser Ile Thr Thr Glu Phe Cys

340 345 350

Thr Ala Gln Lys Gln Ala Phe Gly Asp Thr Asp Asp Phe Ser Gln His

355 360 365

Gly Gly Leu Ala Lys Met Gly Ala Ala Met Gln Gln Gly Met Val Leu

370 375 380

Val Met Ser Leu Trp Asp Asp Tyr Ala Ala Gln Met Leu Trp Leu Asp

385 390 395 400

Ser Asp Tyr Pro Thr Asp Ala Asp Pro Thr Thr Pro Gly Ile Ala Arg

405 410 415

Gly Thr Cys Pro Thr Asp Ser Gly Val Pro Ser Asp Val Glu Ser Gln

420 425 430

Ser Pro Asn Ser Tyr Val Thr Tyr Ser Asn Ile Lys Phe Gly Pro Ile

435 440 445

Asn Ser Thr Phe Thr Ala Ser Asn Pro Pro Gly Gly Asn Arg Gly Thr

450 455 460

Thr Thr Thr Arg Arg Pro Ala Thr Thr Thr Gly Ser Ser Pro Gly Pro

465 470 475 480

Thr Gln Ser His Tyr Gly Gln Cys Gly Gly Ile Gly Tyr Ser Gly Pro

485 490 495

Thr Val Cys Ala Ser Gly Thr Thr Cys Gln Val Leu Asn Pro Tyr Tyr

500 505 510

Ser Gln Cys Leu

515

<210> 27

<211> 535

<212> PRT

<213> 里氏木霉

<400> 27

Met Val Ser Phe Thr Ser Leu Leu Ala Gly Val Ala Ala Ile Ser Gly

1 5 10 15

Val Leu Ala Ala Pro Ala Ala Glu Val Glu Pro Val Ala Val Glu Lys

20 25 30

Arg Glu Ala Glu Ala Glu Ala Gln Ser Ala Cys Thr Leu Gln Ser Glu

35 40 45

Thr His Pro Pro Leu Thr Trp Gln Lys Cys Ser Ser Gly Gly Thr Cys

50 55 60

Thr Gln Gln Thr Gly Ser Val Val Ile Asp Ala Asn Trp Arg Trp Thr

65 70 75 80

His Ala Thr Asn Ser Ser Thr Asn Cys Tyr Asp Gly Asn Thr Trp Ser

85 90 95

Ser Thr Leu Cys Pro Asp Asn Glu Thr Cys Ala Lys Asn Cys Cys Leu

100 105 110

Asp Gly Ala Ala Tyr Ala Ser Thr Tyr Gly Val Thr Thr Ser Gly Asn

115 120 125

Ser Leu Ser Ile Gly Phe Val Thr Gln Ser Ala Gln Lys Asn Val Gly

130 135 140

Ala Arg Leu Tyr Leu Met Ala Ser Asp Thr Thr Tyr Gln Glu Phe Thr

145 150 155 160

Leu Leu Gly Asn Glu Phe Ser Phe Asp Val Asp Val Ser Gln Leu Pro

165 170 175

Cys Gly Leu Asn Gly Ala Leu Tyr Phe Val Ser Met Asp Ala Asp Gly

180 185 190

Gly Val Ser Lys Tyr Pro Thr Asn Thr Ala Gly Ala Lys Tyr Gly Thr

195 200 205

Gly Tyr Cys Asp Ser Gln Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly

210 215 220

Gln Ala Asn Val Glu Gly Trp Glu Pro Ser Ser Asn Asn Ala Asn Thr

225 230 235 240

Gly Ile Gly Gly His Gly Ser Cys Cys Ser Glu Met Asp Ile Trp Glu

245 250 255

Ala Asn Ser Ile Ser Glu Ala Leu Thr Pro His Pro Cys Thr Thr Val

260 265 270

Gly Gln Glu Ile Cys Glu Gly Asp Gly Cys Gly Gly Thr Tyr Ser Asp

275 280 285

Asn Arg Tyr Gly Gly Thr Cys Asp Pro Asp Gly Cys Asp Trp Asn Pro

290 295 300

Tyr Arg Leu Gly Asn Thr Ser Phe Tyr Gly Pro Gly Ser Ser Phe Thr

305 310 315 320

Leu Asp Thr Thr Lys Lys Leu Thr Val Val Thr Gln Phe Glu Thr Ser

325 330 335

Gly Ala Ile Asn Arg Tyr Tyr Val Gln Asn Gly Val Thr Phe Gln Gln

340 345 350

Pro Asn Ala Glu Leu Gly Ser Tyr Ser Gly Asn Glu Leu Asn Asp Asp

355 360 365

Tyr Cys Thr Ala Glu Glu Ala Glu Phe Gly Gly Ser Ser Phe Ser Asp

370 375 380

Lys Gly Gly Leu Thr Gln Phe Lys Lys Ala Thr Ser Gly Gly Met Val

385 390 395 400

Leu Val Met Ser Leu Trp Asp Asp Tyr Tyr Ala Asn Met Leu Trp Leu

405 410 415

Asp Ser Thr Tyr Pro Thr Asn Glu Thr Ser Ser Thr Pro Gly Ala Val

420 425 430

Arg Gly Ser Cys Ser Thr Ser Ser Gly Val Pro Ala Gln Val Glu Ser

435 440 445

Gln Ser Pro Asn Ala Lys Val Thr Phe Ser Asn Ile Lys Phe Gly Pro

450 455 460

Ile Gly Ser Thr Gly Asn Pro Ser Gly Gly Asn Pro Pro Gly Gly Asn

465 470 475 480

Arg Gly Thr Thr Thr Thr Arg Arg Pro Ala Thr Thr Thr Gly Ser Ser

485 490 495

Pro Gly Pro Thr Gln Ser His Tyr Gly Gln Cys Gly Gly Ile Gly Tyr

500 505 510

Ser Gly Pro Thr Val Cys Ala Ser Gly Thr Thr Cys Gln Val Leu Asn

515 520 525

Pro Tyr Tyr Ser Gln Cys Leu

530 535

<210> 28

<211> 471

<212> PRT

<213> 里氏木霉

<400> 28

Met Ile Val Gly Ile Leu Thr Thr Leu Ala Thr Leu Ala Thr Leu Ala

1 5 10 15

Ala Ser Val Pro Leu Glu Glu Arg Gln Ala Cys Ser Ser Val Trp Gly

20 25 30

Gln Cys Gly Gly Gln Asn Trp Ser Gly Pro Thr Cys Cys Ala Ser Gly

35 40 45

Ser Thr Cys Val Tyr Ser Asn Asp Tyr Tyr Ser Gln Cys Leu Pro Gly

50 55 60

Ala Ala Ser Ser Ser Ser Ser Thr Arg Ala Ala Ser Thr Thr Ser Arg

65 70 75 80

Val Ser Pro Thr Thr Ser Arg Ser Ser Ser Ala Thr Pro Pro Pro Gly

85 90 95

Ser Thr Thr Thr Arg Val Pro Pro Val Gly Ser Gly Thr Ala Thr Tyr

100 105 110

Ser Gly Asn Pro Phe Val Gly Val Thr Pro Trp Ala Asn Ala Tyr Tyr

115 120 125

Ala Ser Glu Val Ser Ser Leu Ala Ile Pro Ser Leu Thr Gly Ala Met

130 135 140

Ala Thr Ala Ala Ala Ala Val Ala Lys Val Pro Ser Phe Met Trp Leu

145 150 155 160

Asp Thr Leu Asp Lys Thr Pro Leu Met Glu Gln Thr Leu Ala Asp Ile

165 170 175

Arg Thr Ala Asn Lys Asn Gly Gly Asn Tyr Ala Gly Gln Phe Val Val

180 185 190

Tyr Asp Leu Pro Asp Arg Asp Cys Ala Ala Leu Ala Ser Asn Gly Glu

195 200 205

Tyr Ser Ile Ala Asp Gly Gly Val Ala Lys Tyr Lys Asn Tyr Ile Asp

210 215 220

Thr Ile Arg Gln Ile Val Val Glu Tyr Ser Asp Ile Arg Thr Leu Leu

225 230 235 240

Val Ile Glu Pro Asp Ser Leu Ala Asn Leu Val Thr Asn Leu Gly Thr

245 250 255

Pro Lys Cys Ala Asn Ala Gln Ser Ala Tyr Leu Glu Cys Ile Asn Tyr

260 265 270

Ala Val Thr Gln Leu Asn Leu Pro Asn Val Ala Met Tyr Leu Asp Ala

275 280 285

Gly His Ala Gly Trp Leu Gly Trp Pro Ala Asn Gln Asp Pro Ala Ala

290 295 300

Gln Leu Phe Ala Asn Val Tyr Lys Asn Ala Ser Ser Pro Arg Ala Leu

305 310 315 320

Arg Gly Leu Ala Thr Asn Val Ala Asn Tyr Asn Gly Trp Asn Ile Thr

325 330 335

Ser Pro Pro Ser Tyr Thr Gln Gly Asn Ala Val Tyr Asn Glu Lys Leu

340 345 350

Tyr Ile His Ala Ile Gly Arg Leu Leu Ala Asn His Gly Trp Ser Asn

355 360 365

Ala Phe Phe Ile Thr Asp Gln Gly Arg Ser Gly Lys Gln Pro Thr Gly

370 375 380

Gln Gln Gln Trp Gly Asp Trp Cys Asn Val Ile Gly Thr Gly Phe Gly

385 390 395 400

Ile Arg Pro Ser Ala Asn Thr Gly Asp Ser Leu Leu Asp Ser Phe Val

405 410 415

Trp Val Lys Pro Gly Gly Glu Cys Asp Gly Thr Ser Asp Ser Ser Ala

420 425 430

Pro Arg Phe Asp Ser His Cys Ala Leu Pro Asp Ala Leu Gln Pro Ala

435 440 445

Ala Gln Ala Gly Ala Trp Phe Gln Ala Tyr Phe Val Gln Leu Leu Thr

450 455 460

Asn Ala Asn Pro Ser Phe Leu

465 470

<210> 29

<211> 532

<212> PRT

<213> 嗜热毛壳菌

<400> 29

Met Met Tyr Lys Lys Phe Ala Ala Leu Ala Ala Leu Val Ala Gly Ala

1 5 10 15

Ser Ala Gln Gln Ala Cys Ser Leu Thr Ala Glu Asn His Pro Ser Leu

20 25 30

Thr Trp Lys Arg Cys Thr Ser Gly Gly Ser Cys Ser Thr Val Asn Gly

35 40 45

Ala Val Thr Ile Asp Ala Asn Trp Arg Trp Thr His Thr Val Ser Gly

50 55 60

Ser Thr Asn Cys Tyr Thr Gly Asn Gln Trp Asp Thr Ser Leu Cys Thr

65 70 75 80

Asp Gly Lys Ser Cys Ala Gln Thr Cys Cys Val Asp Gly Ala Asp Tyr

85 90 95

Ser Ser Thr Tyr Gly Ile Thr Thr Ser Gly Asp Ser Leu Asn Leu Lys

100 105 110

Phe Val Thr Lys His Gln Tyr Gly Thr Asn Val Gly Ser Arg Val Tyr

115 120 125

Leu Met Glu Asn Asp Thr Lys Tyr Gln Met Phe Glu Leu Leu Gly Asn

130 135 140

Glu Phe Thr Phe Asp Val Asp Val Ser Asn Leu Gly Cys Gly Leu Asn

145 150 155 160

Gly Ala Leu Tyr Phe Val Ser Met Asp Ala Asp Gly Gly Met Ser Lys

165 170 175

Tyr Ser Gly Asn Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp

180 185 190

Ala Gln Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Glu Ala Asn Val

195 200 205

Gly Asn Trp Thr Pro Ser Thr Asn Asp Ala Asn Ala Gly Phe Gly Arg

210 215 220

Tyr Gly Ser Cys Cys Ser Glu Met Asp Val Trp Glu Ala Asn Asn Met

225 230 235 240

Ala Thr Ala Phe Thr Pro His Pro Cys Thr Thr Val Gly Gln Ser Arg

245 250 255

Cys Glu Ala Asp Thr Cys Gly Gly Thr Tyr Ser Ser Asp Arg Tyr Ala

260 265 270

Gly Val Cys Asp Pro Asp Gly Cys Asp Phe Asn Ala Tyr Arg Gln Gly

275 280 285

Asp Lys Thr Phe Tyr Gly Lys Gly Met Thr Val Asp Thr Asn Lys Lys

290 295 300

Met Thr Val Val Thr Gln Phe His Lys Asn Ser Ala Gly Val Leu Ser

305 310 315 320

Glu Ile Lys Arg Phe Tyr Val Gln Asp Gly Lys Ile Ile Ala Asn Ala

325 330 335

Glu Ser Lys Ile Pro Gly Asn Pro Gly Asn Ser Ile Thr Gln Glu Tyr

340 345 350

Cys Asp Ala Gln Lys Val Ala Phe Ser Asn Thr Asp Asp Phe Asn Arg

355 360 365

Lys Gly Gly Met Ala Gln Met Ser Lys Ala Leu Ala Gly Pro Met Val

370 375 380

Leu Val Met Ser Val Trp Asp Asp His Tyr Ala Asn Met Leu Trp Leu

385 390 395 400

Asp Ser Thr Tyr Pro Ile Asp Gln Ala Gly Ala Pro Gly Ala Glu Arg

405 410 415

Gly Ala Cys Pro Thr Thr Ser Gly Val Pro Ala Glu Ile Glu Ala Gln

420 425 430

Val Pro Asn Ser Asn Val Ile Phe Ser Asn Ile Arg Phe Gly Pro Ile

435 440 445

Gly Ser Thr Val Pro Gly Leu Asp Gly Ser Asn Pro Gly Asn Pro Thr

450 455 460

Thr Thr Val Val Pro Pro Ala Ser Thr Ser Thr Ser Arg Pro Thr Ser

465 470 475 480

Ser Thr Ser Ser Pro Val Ser Thr Pro Thr Gly Gln Pro Gly Gly Cys

485 490 495

Thr Thr Gln Lys Trp Gly Gln Cys Gly Gly Ile Gly Tyr Thr Gly Cys

500 505 510

Thr Asn Cys Val Ala Gly Thr Thr Cys Thr Gln Leu Asn Pro Trp Tyr

515 520 525

Ser Gln Cys Leu

530

<210> 30

<211> 322

<212> PRT

<213> 澳洲乳白蚁

<400> 30

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Glu Cys Thr Lys Gly Gly Cys Thr Asn Lys Asn Gly Tyr

20 25 30

Ile Val His Asp Lys His Val Gly Asp Ile Gln Asn Arg Asp Thr Leu

35 40 45

Asp Pro Pro Asp Leu Asp Tyr Glu Lys Asp Val Gly Val Thr Val Ser

50 55 60

Gly Gly Thr Leu Ser Gln Arg Leu Val Ser Thr Trp Asn Gly Lys Lys

65 70 75 80

Val Val Gly Ser Arg Leu Tyr Ile Val Asp Glu Ala Asp Glu Lys Tyr

85 90 95

Gln Leu Phe Thr Phe Val Gly Lys Glu Phe Thr Tyr Thr Val Asp Met

100 105 110

Ser Gln Ile Gln Cys Gly Ile Asn Ala Ala Leu Tyr Thr Val Glu Met

115 120 125

Pro Ala Ala Gly Lys Thr Pro Gly Gly Val Lys Tyr Gly Tyr Gly Tyr

130 135 140

Cys Asp Ala Asn Cys Val Asp Gly Asp Cys Cys Met Glu Phe Asp Ile

145 150 155 160

Gln Glu Ala Ser Asn Lys Ala Ile Val Tyr Thr Thr His Ser Cys Gln

165 170 175

Ser Gln Thr Ser Gly Cys Asp Thr Ser Gly Cys Gly Tyr Asn Pro Tyr

180 185 190

Arg Asp Ser Gly Asp Lys Ala Phe Trp Gly Thr Thr Ile Asn Val Asn

195 200 205

Gln Pro Val Thr Ile Val Thr Gln Phe Ile Gly Ser Gly Ser Ser Leu

210 215 220

Thr Glu Val Lys Arg Leu Cys Val Gln Gly Gly Lys Thr Phe Pro Pro

225 230 235 240

Ala Lys Ser Leu Thr Asp Ser Tyr Cys Asn Ala Asn Asp Tyr Arg Ser

245 250 255

Leu Arg Thr Met Gly Ala Ser Met Ala Arg Gly His Val Val Val Phe

260 265 270

Ser Leu Trp Asp Ser Asn Gly Met Ser Trp Met Asp Gly Gly Asn Ala

275 280 285

Gly Pro Cys Thr Ser Tyr Asn Ile Glu Ser Leu Glu Ser Ser Gln Pro

290 295 300

Asn Leu Lys Val Thr Trp Ser Asn Val Lys Tyr Gly Glu Ile Asp Ser

305 310 315 320

Pro Tyr

<210> 31

<211> 451

<212> PRT

<213> 台湾家白蚁

<400> 31

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Lys Thr Val Leu Lys Asn Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Lys Leu Pro Ala Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asn Asp Lys Gly Gln Lys Gly Glu

50 55 60

Asp Leu Thr Gly Gly Tyr Tyr Asp Ala Gly Asp Phe Val Lys Phe Gly

65 70 75 80

Phe Pro Met Ala Tyr Thr Val Thr Val Leu Ala Trp Gly Leu Val Asp

85 90 95

Tyr Glu Ser Ala Tyr Ser Thr Ala Gly Ala Leu Asp Asp Gly Arg Lys

100 105 110

Ala Leu Lys Trp Gly Thr Asp Tyr Phe Leu Lys Ala His Thr Ala Ala

115 120 125

Asn Glu Phe Tyr Gly Gln Val Gly Gln Gly Asp Val Asp His Ala Tyr

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ser Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Thr Ser Lys Pro Gly Ser Asp Leu Ala Ala Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Thr Ala Ile Ala Tyr Lys Ser Ala Asp Ser Thr Tyr Ser

180 185 190

Asn Asn Leu Ile Thr His Ala Lys Gln Leu Phe Asp Phe Ala Asn Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Asp Ala Lys Asn Phe Tyr

210 215 220

Ala Ser Gly Asp Tyr Lys Asp Glu Leu Val Trp Ala Ala Ala Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Asn Thr Tyr Leu Thr Lys Ala Glu Ser Leu

245 250 255

Tyr Asn Glu Phe Gly Leu Gly Ser Trp Asn Gly Ala Phe Asn Trp Asp

260 265 270

Asn Lys Ile Ser Gly Val Gln Val Leu Leu Ala Lys Leu Thr Ser Lys

275 280 285

Gln Ala Tyr Lys Asp Lys Val Gln Gly Tyr Val Asp Tyr Leu Val Ser

290 295 300

Ser Gln Lys Lys Thr Pro Lys Gly Leu Val Tyr Ile Asp Gln Trp Gly

305 310 315 320

Thr Leu Arg His Ala Ala Asn Ser Ala Leu Ile Ala Leu Gln Ala Ala

325 330 335

Asp Leu Gly Ile Asn Ala Ala Ser Tyr Arg Gln Tyr Ala Lys Lys Gln

340 345 350

Ile Asp Tyr Ala Leu Gly Asp Gly Gly Arg Ser Tyr Val Val Gly Phe

355 360 365

Gly Thr Asn Pro Pro Val Arg Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Asp Ala Pro Ala Ala Cys Asp Trp Asn Thr Tyr Asn Ser Ala Gly Pro

385 390 395 400

Asn Ala His Val Leu Thr Gly Ala Leu Val Gly Gly Pro Asp Ser Asn

405 410 415

Asp Ser Tyr Thr Asp Ser Arg Ser Asp Tyr Ile Ser Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Gly Phe Gln Ser Ala Val Ala Gly Leu Leu Lys

435 440 445

Ala Gly Val

450

<210> 32

<211> 451

<212> PRT

<213> 高山象白蚁

<400> 32

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Lys Gln Val Leu Arg Asp Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Arg Leu Pro Ala Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asn Asp Gln Gly Asp Gln Gly Gln

50 55 60

Asp Leu Thr Gly Gly Tyr Phe Asp Ala Gly Asp Phe Val Lys Phe Gly

65 70 75 80

Phe Pro Met Ala Tyr Thr Ala Thr Val Leu Ala Trp Gly Leu Ile Asp

85 90 95

Phe Glu Ala Gly Tyr Ser Ser Ala Gly Ala Leu Asp Asp Gly Arg Lys

100 105 110

Ala Val Lys Trp Ala Thr Asp Tyr Phe Ile Lys Ala His Thr Ser Gln

115 120 125

Asn Glu Phe Tyr Gly Gln Val Gly Gln Gly Asp Ala Asp His Ala Phe

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ala Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Thr Ser Arg Pro Gly Ser Asp Leu Ala Gly Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Ala Ser Ile Val Phe Arg Asn Val Asp Gly Thr Tyr Ser

180 185 190

Asn Asn Leu Leu Thr His Ala Arg Gln Leu Phe Asp Phe Ala Asn Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Asp Ala Arg Asn Phe Tyr

210 215 220

Ala Ser Ala Asp Tyr Arg Asp Glu Leu Val Trp Ala Ala Ala Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Asn Thr Tyr Leu Asn Thr Ala Glu Ser Leu

245 250 255

Tyr Asp Glu Phe Gly Leu Gln Asn Trp Gly Gly Gly Leu Asn Trp Asp

260 265 270

Ser Lys Val Ser Gly Val Gln Val Leu Leu Ala Lys Leu Thr Asn Lys

275 280 285

Gln Ala Tyr Lys Asp Thr Val Gln Ser Tyr Val Asn Tyr Leu Ile Asn

290 295 300

Asn Gln Gln Lys Thr Pro Lys Gly Leu Leu Tyr Ile Asp Met Trp Gly

305 310 315 320

Thr Leu Arg His Ala Ala Asn Ala Ala Phe Ile Met Leu Glu Ala Ala

325 330 335

Glu Leu Gly Leu Ser Ala Ser Ser Tyr Arg Gln Phe Ala Gln Thr Gln

340 345 350

Ile Asp Tyr Ala Leu Gly Asp Gly Gly Arg Ser Phe Val Cys Gly Phe

355 360 365

Gly Ser Asn Pro Pro Thr Arg Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Pro Ala Pro Ala Thr Cys Asp Trp Asn Thr Phe Asn Ser Pro Asp Pro

385 390 395 400

Asn Tyr His Val Leu Ser Gly Ala Leu Val Gly Gly Pro Asp Gln Asn

405 410 415

Asp Asn Tyr Val Asp Asp Arg Ser Asp Tyr Val His Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Gly Phe Gln Ser Ala Leu Ala Ala Leu Val Ala

435 440 445

Leu Gly Tyr

450

<210> 33

<211> 451

<212> PRT

<213> 澳大利亚矛颚家白蚁

<400> 33

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Thr Thr Val Leu Lys Ser Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Lys Leu Pro Ala Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asp Asp Lys Gly Asn Asn Gly Glu

50 55 60

Asp Leu Thr Gly Gly Tyr Tyr Asp Ala Gly Asp Phe Val Lys Phe Gly

65 70 75 80

Phe Pro Leu Ala Tyr Thr Ala Thr Val Leu Ala Trp Gly Leu Val Asp

85 90 95

Tyr Glu Ala Gly Tyr Ser Ser Ala Gly Ala Thr Asp Asp Gly Arg Lys

100 105 110

Ala Val Lys Trp Ala Thr Asp Tyr Leu Leu Lys Ala His Thr Ala Ala

115 120 125

Thr Glu Leu Tyr Gly Gln Val Gly Asp Gly Asp Ala Asp His Ala Tyr

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ala Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Ala Ser Arg Pro Gly Ser Asp Leu Ala Gly Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Ala Ser Ile Val Phe Lys Gly Val Asp Ser Ser Tyr Ser

180 185 190

Asp Asn Leu Leu Ala His Ala Lys Gln Leu Phe Asp Phe Ala Asp Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Gln Ala Ser Asn Phe Tyr

210 215 220

Ala Ser Gly Asp Tyr Lys Asp Glu Leu Val Trp Ala Ala Thr Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Asn Thr Tyr Leu Thr Lys Ala Glu Ser Leu

245 250 255

Tyr Asn Glu Phe Gly Leu Gly Asn Trp Asn Gly Ala Phe Asn Trp Asp

260 265 270

Asn Lys Val Ser Gly Val Gln Val Leu Leu Ala Lys Leu Thr Ser Lys

275 280 285

Gln Ala Tyr Lys Asp Thr Val Gln Gly Tyr Val Asp Tyr Leu Ile Asn

290 295 300

Asn Gln Gln Lys Thr Pro Lys Gly Leu Leu Tyr Ile Asp Gln Trp Gly

305 310 315 320

Thr Leu Arg His Ala Ala Asn Ala Ala Leu Ile Ile Leu Gln Ala Ala

325 330 335

Asp Leu Gly Ile Ser Ala Asp Ser Tyr Arg Gln Phe Ala Lys Lys Gln

340 345 350

Ile Asp Tyr Ala Leu Gly Asp Gly Gly Arg Ser Tyr Val Val Gly Phe

355 360 365

Gly Asp Asn Pro Pro Thr His Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Asp Ala Pro Ala Val Cys Asp Trp Asn Thr Phe Asn Ser Pro Asp Pro

385 390 395 400

Asn Phe His Val Leu Thr Gly Ala Leu Val Gly Gly Pro Asp Gln Asn

405 410 415

Asp Asn Tyr Val Asp Asp Arg Ser Asp Tyr Val Ser Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Gly Phe Gln Ser Ala Val Ala Ala Leu Val Thr

435 440 445

Leu Gly Val

450

<210> 34

<211> 451

<212> PRT

<213> 达尔文澳白蚁

<400> 34

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Asn Asp Val Leu Thr Lys Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Lys Leu Pro Ser Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asn Asp Lys Gly Gln Asn Gly Glu

50 55 60

Asp Leu Thr Gly Gly Tyr Tyr Asp Ala Gly Asp Tyr Val Lys Phe Gly

65 70 75 80

Phe Pro Met Ala Tyr Thr Ala Thr Val Leu Ala Trp Gly Leu Val Asp

85 90 95

His Pro Ala Gly Tyr Ser Ser Ala Gly Val Leu Asp Asp Gly Arg Lys

100 105 110

Ala Val Lys Trp Val Thr Asp Tyr Leu Ile Lys Ala His Val Ser Lys

115 120 125

Asn Glu Leu Tyr Gly Gln Val Gly Asp Gly Asp Ala Asp His Ala Tyr

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ala Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Thr Ser Arg Pro Gly Ser Asp Leu Ala Gly Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Ala Ser Ile Val Phe Lys Ser Thr Asp Ser Asn Tyr Ala

180 185 190

Asn Thr Leu Leu Thr His Ala Lys Gln Leu Phe Asp Phe Ala Asn Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Gln Ala Ser Asn Phe Tyr

210 215 220

Ser Ser Ser Asp Tyr Lys Asp Glu Leu Val Trp Ala Ala Val Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Gln Thr Tyr Leu Thr Thr Ala Glu Lys Leu

245 250 255

Tyr Ser Asp Leu Gly Leu Gln Ser Trp Asn Gly Gly Phe Thr Trp Asp

260 265 270

Thr Lys Ile Ser Gly Val Glu Val Leu Leu Ala Lys Ile Thr Gly Lys

275 280 285

Gln Ala Tyr Lys Asp Lys Val Lys Gly Tyr Cys Asp Tyr Ile Ser Gly

290 295 300

Ser Gln Gln Lys Thr Pro Lys Gly Leu Val Tyr Ile Asp Lys Trp Gly

305 310 315 320

Ser Leu Arg Met Ala Ala Asn Ala Ala Tyr Ile Cys Ala Val Ala Ala

325 330 335

Asp Val Gly Ile Ser Ser Thr Ala Tyr Arg Gln Phe Ala Lys Thr Gln

340 345 350

Ile Asn Tyr Ile Leu Gly Asp Ala Gly Arg Ser Phe Val Val Gly Tyr

355 360 365

Gly Asn Asn Pro Pro Thr His Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Asp Ala Pro Ala Thr Cys Asp Trp Asn Asn Tyr Asn Ser Ala Asn Pro

385 390 395 400

Asn Pro His Val Leu Tyr Gly Ala Leu Val Gly Gly Pro Asp Ser Asn

405 410 415

Asp Asn Tyr Gln Asp Leu Arg Ser Asp Tyr Val Ala Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Ala Phe Gln Ser Leu Leu Ala Leu Ile Val Asp

435 440 445

Leu Gly Leu

450

<210> 35

<211> 451

<212> PRT

<213> Nasutitermes walkeri

<400> 35

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Lys Gln Val Leu Arg Asp Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Arg Leu Pro Ala Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asn Asp Gln Gly Glu Gln Gly Gln

50 55 60

Asp Leu Thr Gly Gly Tyr Phe Asp Ala Gly Asp Phe Val Lys Phe Gly

65 70 75 80

Phe Pro Met Ala Tyr Thr Ala Thr Val Leu Ala Trp Gly Leu Ile Asp

85 90 95

Phe Glu Ala Gly Tyr Ser Ser Ala Gly Ala Leu Asp Asp Gly Arg Lys

100 105 110

Ala Val Lys Trp Ala Thr Asp Tyr Phe Ile Lys Ala His Thr Ser Gln

115 120 125

Asn Glu Phe Tyr Gly Gln Val Gly Gln Gly Asp Val Asp His Ala Tyr

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ala Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Thr Ser Arg Pro Gly Ser Asp Leu Ala Gly Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Ala Ser Ile Val Phe Lys Asn Val Asp Gly Thr Tyr Ser

180 185 190

Asn Asn Leu Leu Thr His Ala Arg Gln Leu Phe Asp Phe Ala Asn Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Asp Ala Arg Asn Phe Tyr

210 215 220

Ala Ser Ala Asp Tyr Arg Asp Glu Leu Val Trp Ala Ala Ala Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Asn Ser Tyr Leu Asn Thr Ala Glu Ser Leu

245 250 255

Tyr Asn Glu Phe Gly Leu Gln Asn Trp Gly Gly Gly Leu Asn Trp Asp

260 265 270

Ser Lys Val Ser Gly Val Gln Val Leu Leu Ala Lys Leu Thr Asn Lys

275 280 285

Gln Glu Tyr Lys Asp Thr Ile Gln Ser Tyr Val Asn Tyr Leu Ile Asn

290 295 300

Asn Gln Gln Lys Thr Pro Lys Gly Leu Leu Tyr Ile Asp Met Trp Gly

305 310 315 320

Thr Leu Arg His Ala Ala Asn Ala Ala Phe Ile Met Leu Glu Ala Ala

325 330 335

Asp Leu Gly Leu Ser Ala Ser Ser Tyr Arg Gln Phe Ala Gln Thr Gln

340 345 350

Ile Asp Tyr Ala Leu Gly Asp Gly Gly Arg Ser Phe Val Cys Gly Phe

355 360 365

Gly Ser Asn Pro Pro Thr Arg Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Pro Ala Pro Ala Thr Cys Asp Trp Asn Thr Phe Asn Ser Pro Asp Pro

385 390 395 400

Asn Tyr Asn Val Leu Ser Gly Ala Leu Val Gly Gly Pro Asp Gln Asn

405 410 415

Asp Asn Tyr Val Asp Asp Arg Ser Asp Tyr Val His Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Gly Phe Gln Ser Ala Leu Ala Ala Leu Val Ala

435 440 445

Leu Gly Tyr

450

<210> 36

<211> 451

<212> PRT

<213> 黄胸散白蚁

<400> 36

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Ala Tyr Asp Tyr Lys Thr Val Leu Ser Asn Ser Leu Leu

20 25 30

Phe Tyr Glu Ala Gln Arg Ser Gly Lys Leu Pro Ser Asp Gln Lys Val

35 40 45

Thr Trp Arg Lys Asp Ser Ala Leu Asn Asp Lys Gly Gln Lys Gly Glu

50 55 60

Asp Leu Thr Gly Gly Tyr Tyr Asp Ala Gly Asp Phe Val Lys Phe Gly

65 70 75 80

Phe Pro Met Ala Tyr Thr Val Thr Val Leu Ala Trp Gly Val Ile Asp

85 90 95

Tyr Glu Ser Ala Tyr Ser Ala Ala Gly Ala Leu Asp Ser Gly Arg Lys

100 105 110

Ala Leu Lys Tyr Gly Thr Asp Tyr Phe Leu Lys Ala His Thr Ala Ala

115 120 125

Asn Glu Phe Tyr Gly Gln Val Gly Gln Gly Asp Val Asp His Ala Tyr

130 135 140

Trp Gly Arg Pro Glu Asp Met Thr Met Ser Arg Pro Ala Tyr Lys Ile

145 150 155 160

Asp Thr Ser Lys Pro Gly Ser Asp Leu Ala Ala Glu Thr Ala Ala Ala

165 170 175

Leu Ala Ala Thr Ala Ile Ala Tyr Lys Ser Ala Asp Ala Thr Tyr Ser

180 185 190

Asn Asn Leu Ile Thr His Ala Lys Gln Leu Phe Asp Phe Ala Asn Asn

195 200 205

Tyr Arg Gly Lys Tyr Ser Asp Ser Ile Thr Asp Ala Lys Asn Phe Tyr

210 215 220

Ala Ser Gly Asp Tyr Lys Asp Glu Leu Val Trp Ala Ala Ala Trp Leu

225 230 235 240

Tyr Arg Ala Thr Asn Asp Asn Thr Tyr Leu Thr Lys Ala Glu Ser Leu

245 250 255

Tyr Asn Glu Phe Gly Leu Gly Asn Phe Asn Gly Ala Phe Asn Trp Asp

260 265 270

Asn Lys Val Ser Gly Val Gln Val Leu Leu Ala Lys Leu Thr Ser Lys

275 280 285

Gln Val Tyr Lys Asp Lys Val Gln Ser Tyr Val Asp Tyr Leu Ile Ser

290 295 300

Ser Gln Lys Lys Thr Pro Lys Gly Leu Val Tyr Ile Asp Gln Trp Gly

305 310 315 320

Thr Leu Arg His Ala Ala Asn Ser Ala Leu Ile Ala Leu Gln Ala Ala

325 330 335

Asp Leu Gly Ile Asn Ala Ala Thr Tyr Arg Ala Tyr Ala Lys Lys Gln

340 345 350

Ile Asp Tyr Ala Leu Gly Asp Gly Gly Arg Ser Tyr Val Ile Gly Phe

355 360 365

Gly Thr Asn Pro Pro Val Arg Pro His His Arg Ser Ser Ser Cys Pro

370 375 380

Asp Ala Pro Ala Val Cys Asp Trp Asn Thr Tyr Asn Ser Ala Gly Pro

385 390 395 400

Asn Ala His Val Leu Thr Gly Ala Leu Val Gly Gly Pro Asp Ser Asn

405 410 415

Asp Ser Tyr Thr Asp Ala Arg Ser Asp Tyr Ile Ser Asn Glu Val Ala

420 425 430

Thr Asp Tyr Asn Ala Gly Phe Gln Ser Ala Val Ala Gly Leu Leu Lys

435 440 445

Ala Gly Val

450

<210> 37

<211> 408

<212> PRT

<213> 费希新萨托菌

<400> 37

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Gln Gln Ile Gly Ser Ile Ala Glu Asn His Pro Glu Leu

20 25 30

Thr Thr Tyr Arg Cys Ser Ser Gln Ala Gly Cys Val Ala Gln Ser Thr

35 40 45

Ser Val Val Leu Asp Ile Asn Ala His Trp Ile His Gln Asn Gly Ala

50 55 60

Gln Thr Ser Cys Thr Thr Ser Ser Gly Leu Asp Pro Ser Leu Cys Pro

65 70 75 80

Asp Lys Val Thr Cys Ser Gln Asn Cys Val Val Glu Gly Ile Thr Asp

85 90 95

Tyr Ser Ser Phe Gly Val Gln Asn Ser Gly Asp Ala Met Thr Leu Arg

100 105 110

Gln Tyr Gln Val Gln Asn Gly Gln Ile Lys Thr Leu Arg Pro Arg Val

115 120 125

Tyr Leu Leu Ala Glu Asp Gly Ile Asn Tyr Ser Lys Leu Gln Leu Leu

130 135 140

Asn Gln Glu Phe Thr Phe Asp Val Asp Ala Ser Lys Leu Pro Cys Gly

145 150 155 160

Met Asn Gly Ala Leu Tyr Leu Ser Glu Met Asp Ala Ser Gly Gly Arg

165 170 175

Ser Ala Leu Asn Pro Ala Gly Ala Thr Tyr Gly Thr Gly Tyr Cys Asp

180 185 190

Ala Gln Cys Phe Asn Pro Gly Pro Trp Ile Asn Gly Glu Ala Asn Thr

195 200 205

Ala Gly Ala Gly Ala Cys Cys Gln Glu Met Asp Leu Trp Glu Ala Asn

210 215 220

Ser Arg Ser Thr Ile Phe Ser Pro His Pro Cys Thr Thr Ala Gly Leu

225 230 235 240

Tyr Ala Cys Thr Gly Ala Glu Cys Tyr Ser Ile Cys Asp Gly Tyr Gly

245 250 255

Cys Thr Tyr Asn Pro Tyr Glu Leu Gly Ala Lys Asp Tyr Tyr Gly Tyr

260 265 270

Gly Leu Thr Ile Asp Thr Ala Lys Pro Ile Thr Val Val Thr Gln Phe

275 280 285

Met Thr Ala Asp Asn Thr Ala Thr Gly Thr Leu Ala Glu Ile Arg Arg

290 295 300

Leu Tyr Val Gln Asp Gly Lys Val Ile Gly Asn Thr Ala Val Ala Met

305 310 315 320

Thr Glu Ala Phe Cys Ser Ser Ser Arg Thr Phe Glu Glu Leu Gly Gly

325 330 335

Leu Gln Arg Met Gly Glu Ala Leu Gly Arg Gly Met Val Pro Val Phe

340 345 350

Ser Ile Trp Asp Asp Pro Gly Leu Trp Met His Trp Leu Asp Ser Asp

355 360 365

Gly Ala Gly Pro Cys Gly Asn Thr Glu Gly Asp Pro Ala Phe Ile Gln

370 375 380

Ala Asn Tyr Pro Asn Thr Ala Val Thr Phe Ser Lys Val Arg Trp Gly

385 390 395 400

Asp Ile Gly Ser Thr Tyr Ser Ser

405

<210> 38

<211> 304

<212> PRT

<213> 北美散白蚁

<400> 38

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Gln Trp Met Gln Ile Gly Gly Lys Gln Lys Tyr Pro Ala

20 25 30

Phe Lys Pro Gly Ala Lys Tyr Gly Arg Gly Tyr Cys Asp Gly Gln Cys

35 40 45

Pro His Asp Met Lys Val Ser Ser Gly Arg Ala Asn Val Asp Gly Trp

50 55 60

Lys Pro Gln Asp Asn Asp Glu Asn Ser Gly Asn Gly Lys Leu Gly Thr

65 70 75 80

Cys Cys Trp Glu Met Asp Ile Trp Glu Gly Asn Leu Val Ser Gln Ala

85 90 95

Tyr Thr Val His Ala Gly Ser Lys Ser Gly Gln Tyr Glu Cys Thr Gly

100 105 110

Thr Gln Cys Gly Asp Thr Asp Ser Gly Glu Arg Phe Lys Gly Thr Cys

115 120 125

Asp Lys Asp Gly Cys Asp Phe Ala Ser Tyr Arg Trp Gly Ala Thr Asp

130 135 140

Tyr Tyr Gly Pro Gly Lys Thr Val Asp Thr Lys Gln Pro Met Thr Val

145 150 155 160

Val Thr Gln Phe Ile Gly Asp Pro Leu Thr Glu Ile Lys Arg Val Tyr

165 170 175

Val Gln Gly Gly Lys Val Ile Asn Asn Ser Lys Thr Ser Asn Leu Gly

180 185 190

Ser Val Tyr Asp Ser Leu Thr Glu Ala Phe Cys Asp Asp Thr Lys Gln

195 200 205

Val Thr Gly Asp Thr Asn Asp Phe Lys Ala Lys Gly Gly Met Ser Gly

210 215 220

Phe Ser Lys Asn Leu Asp Thr Pro Gln Val Leu Val Met Ser Leu Trp

225 230 235 240

Asp Asp His Thr Ala Asn Met Leu Trp Leu Asp Ser Thr Tyr Pro Thr

245 250 255

Asp Ser Thr Lys Pro Gly Ala Ala Arg Gly Thr Cys Ala Val Thr Ser

260 265 270

Gly Asp Pro Lys Asp Val Glu Ser Lys Gln Ala Asn Ser Gln Val Val

275 280 285

Tyr Ser Asp Ile Lys Phe Gly Pro Ile Asn Ser Thr Tyr Lys Ala Asn

290 295 300

<210> 39

<211> 475

<212> PRT

<213> 里氏木霉

<400> 39

Met Val Ser Phe Thr Ser Leu Leu Ala Gly Val Ala Ala Ile Ser Gly

1 5 10 15

Val Leu Ala Ala Pro Ala Ala Glu Val Glu Pro Val Ala Val Glu Lys

20 25 30

Arg Glu Ala Glu Ala Glu Ala Gln Gln Pro Gly Thr Ser Thr Pro Glu

35 40 45

Val His Pro Lys Leu Thr Thr Tyr Lys Cys Thr Lys Ser Gly Gly Cys

50 55 60

Val Ala Gln Asp Thr Ser Val Val Leu Asp Trp Asn Tyr Arg Trp Met

65 70 75 80

His Asp Ala Asn Tyr Asn Ser Cys Thr Val Asn Gly Gly Val Asn Thr

85 90 95

Thr Leu Cys Pro Asp Glu Ala Thr Cys Gly Lys Asn Cys Phe Ile Glu

100 105 110

Gly Val Asp Tyr Ala Ala Ser Gly Val Thr Thr Ser Gly Ser Ser Leu

115 120 125

Thr Met Asn Gln Tyr Met Pro Ser Ser Ser Gly Gly Tyr Ser Ser Val

130 135 140

Ser Pro Arg Leu Tyr Leu Leu Asp Ser Asp Gly Glu Tyr Val Met Leu

145 150 155 160

Lys Leu Asn Gly Gln Glu Leu Ser Phe Asp Val Asp Leu Ser Ala Leu

165 170 175

Pro Cys Gly Glu Asn Gly Ser Leu Tyr Leu Ser Gln Met Asp Glu Asn

180 185 190

Gly Gly Ala Asn Gln Tyr Asn Thr Ala Gly Ala Asn Tyr Gly Ser Gly

195 200 205

Tyr Cys Asp Ala Gln Cys Pro Val Gln Thr Trp Arg Asn Gly Thr Leu

210 215 220

Asn Thr Ser His Gln Gly Phe Cys Cys Asn Glu Met Asp Ile Leu Glu

225 230 235 240

Gly Asn Ser Arg Ala Asn Ala Leu Thr Pro His Ser Cys Thr Ala Thr

245 250 255

Ala Cys Asp Ser Ala Gly Cys Gly Phe Asn Pro Tyr Gly Ser Gly Tyr

260 265 270

Lys Ser Tyr Tyr Gly Pro Gly Asp Thr Val Asp Thr Ser Lys Thr Phe

275 280 285

Thr Ile Ile Thr Gln Phe Asn Thr Asp Asn Gly Ser Pro Ser Gly Asn

290 295 300

Leu Val Ser Ile Thr Arg Lys Tyr Gln Gln Asn Gly Val Asp Ile Pro

305 310 315 320

Ser Ala Gln Pro Gly Gly Asp Thr Ile Ser Ser Cys Pro Ser Ala Ser

325 330 335

Ala Tyr Gly Gly Leu Ala Thr Met Gly Lys Ala Leu Ser Ser Gly Met

340 345 350

Val Leu Val Phe Ser Ile Trp Asn Asp Asn Ser Gln Tyr Met Asn Trp

355 360 365

Leu Asp Ser Gly Asn Ala Gly Pro Cys Ser Ser Thr Glu Gly Asn Pro

370 375 380

Ser Asn Ile Leu Ala Asn Asn Pro Asn Thr His Val Val Phe Ser Asn

385 390 395 400

Ile Arg Trp Gly Asp Ile Gly Ser Thr Thr Asn Ser Thr Ala Pro Pro

405 410 415

Pro Pro Pro Ala Ser Ser Thr Thr Phe Ser Thr Thr Arg Arg Ser Ser

420 425 430

Thr Thr Ser Ser Ser Pro Ser Cys Thr Gln Thr His Trp Gly Gln Cys

435 440 445

Gly Gly Ile Gly Tyr Ser Gly Cys Lys Thr Cys Thr Ser Gly Thr Thr

450 455 460

Cys Gln Tyr Ser Asn Asp Tyr Tyr Ser Gln Cys

465 470 475

<210> 40

<211> 896

<212> PRT

<213> 扣囊复膜酵母菌

<400> 40

Met Val Ser Phe Thr Ser Leu Leu Ala Gly Val Ala Ala Ile Ser Gly

1 5 10 15

Val Leu Ala Ala Pro Ala Ala Glu Val Glu Ser Val Ala Val Glu Lys

20 25 30

Arg Ser Asp Ser Arg Val Pro Ile Gln Asn Tyr Thr Gln Ser Pro Ser

35 40 45

Gln Arg Asp Glu Ser Ser Gln Trp Val Ser Pro His Tyr Tyr Pro Thr

50 55 60

Pro Gln Gly Gly Arg Leu Gln Asp Val Trp Gln Glu Ala Tyr Ala Arg

65 70 75 80

Ala Lys Ala Ile Val Gly Gln Met Thr Ile Val Glu Lys Val Asn Leu

85 90 95

Thr Thr Gly Thr Gly Trp Gln Leu Asp Pro Cys Val Gly Asn Thr Gly

100 105 110

Ser Val Pro Arg Phe Gly Ile Pro Asn Leu Cys Leu Gln Asp Gly Pro

115 120 125

Leu Gly Val Arg Phe Ala Asp Phe Val Thr Gly Tyr Pro Ser Gly Leu

130 135 140

Ala Thr Gly Ala Thr Phe Asn Lys Asp Leu Phe Leu Gln Arg Gly Gln

145 150 155 160

Ala Leu Gly His Glu Phe Asn Ser Lys Gly Val His Ile Ala Leu Gly

165 170 175

Pro Ala Val Gly Pro Leu Gly Val Lys Ala Arg Gly Gly Arg Asn Phe

180 185 190

Glu Ala Phe Gly Ser Asp Pro Tyr Leu Gln Gly Thr Ala Ala Ala Ala

195 200 205

Thr Ile Lys Gly Leu Gln Glu Asn Asn Val Met Ala Cys Val Lys His

210 215 220

Phe Ile Gly Asn Glu Gln Glu Lys Tyr Arg Gln Pro Asp Asp Ile Asn

225 230 235 240

Pro Ala Thr Asn Gln Thr Thr Lys Glu Ala Ile Ser Ala Asn Ile Pro

245 250 255

Asp Arg Ala Met His Glu Leu Tyr Leu Trp Pro Phe Ala Asp Ser Val

260 265 270

Arg Ala Gly Val Gly Ser Val Met Cys Ser Tyr Asn Arg Val Asn Asn

275 280 285

Thr Tyr Ala Cys Glu Asn Ser Tyr Met Met Asn His Leu Leu Lys Glu

290 295 300

Glu Leu Gly Phe Gln Gly Phe Val Val Ser Asp Trp Gly Ala Gln Leu

305 310 315 320

Ser Gly Val Tyr Ser Ala Ile Ser Gly Leu Asp Met Ser Met Pro Gly

325 330 335

Glu Val Tyr Gly Gly Trp Asn Thr Gly Thr Ser Phe Trp Gly Gln Asn

340 345 350

Leu Thr Lys Ala Ile Tyr Asn Glu Thr Val Pro Ile Glu Arg Leu Asp

355 360 365

Asp Met Ala Thr Arg Ile Leu Ala Ala Leu Tyr Ala Thr Asn Ser Phe

370 375 380

Pro Thr Glu Asp His Leu Pro Asn Phe Ser Ser Trp Thr Thr Lys Glu

385 390 395 400

Tyr Gly Asn Lys Tyr Tyr Ala Asp Asn Thr Thr Glu Ile Val Lys Val

405 410 415

Asn Tyr His Val Asp Pro Ser Asn Asp Phe Thr Glu Asp Thr Ala Leu

420 425 430

Lys Val Ala Glu Glu Ser Ile Val Leu Leu Lys Asn Glu Asn Asn Thr

435 440 445

Leu Pro Ile Ser Pro Glu Lys Ala Lys Arg Leu Leu Leu Ser Gly Ile

450 455 460

Ala Ala Gly Pro Asp Pro Ile Gly Tyr Gln Cys Glu Asp Gln Ser Cys

465 470 475 480

Thr Asn Gly Ala Leu Phe Gln Gly Trp Gly Ser Gly Ser Val Gly Ser

485 490 495

Pro Lys Tyr Gln Val Thr Pro Phe Glu Glu Ile Ser Tyr Leu Ala Arg

500 505 510

Lys Asn Lys Met Gln Phe Asp Tyr Ile Arg Glu Ser Tyr Asp Leu Ala

515 520 525

Gln Val Thr Lys Val Ala Ser Asp Ala His Leu Ser Ile Val Val Val

530 535 540

Ser Ala Ala Ser Gly Glu Gly Tyr Ile Thr Val Asp Gly Asn Gln Gly

545 550 555 560

Asp Arg Arg Asn Leu Thr Leu Trp Asn Asn Gly Asp Lys Leu Ile Glu

565 570 575

Thr Val Ala Glu Asn Cys Ala Asn Thr Val Val Val Val Thr Ser Thr

580 585 590

Gly Gln Ile Asn Phe Glu Gly Phe Ala Asp His Pro Asn Val Thr Ala

595 600 605

Ile Val Trp Ala Gly Pro Leu Gly Asp Arg Ser Gly Thr Ala Ile Ala

610 615 620

Asn Ile Leu Phe Gly Lys Ala Asn Pro Ser Gly His Leu Pro Phe Thr

625 630 635 640

Ile Ala Lys Thr Asp Asp Asp Tyr Ile Pro Ile Glu Thr Tyr Ser Pro

645 650 655

Ser Ser Gly Glu Pro Glu Asp Asn His Leu Val Glu Asn Asp Leu Leu

660 665 670

Val Asp Tyr Arg Tyr Phe Glu Glu Lys Asn Ile Glu Pro Arg Tyr Ala

675 680 685

Phe Gly Tyr Gly Leu Ser Tyr Asn Glu Tyr Glu Val Ser Asn Ala Lys

690 695 700

Val Ser Ala Ala Lys Lys Val Asp Glu Glu Leu Pro Glu Pro Ala Thr

705 710 715 720

Tyr Leu Ser Glu Phe Ser Tyr Gln Asn Ala Lys Asp Ser Lys Asn Pro

725 730 735

Ser Asp Ala Phe Ala Pro Thr Asp Leu Asn Arg Val Asn Glu Tyr Leu

740 745 750

Tyr Pro Tyr Leu Asp Ser Asn Val Thr Leu Lys Asp Gly Asn Tyr Glu

755 760 765

Tyr Pro Asp Gly Tyr Ser Thr Glu Gln Arg Thr Thr Pro Ile Gln Pro

770 775 780

Gly Gly Gly Leu Gly Gly Asn Asp Ala Leu Trp Glu Val Ala Tyr Lys

785 790 795 800

Val Glu Val Asp Val Gln Asn Leu Gly Asn Ser Thr Asp Lys Phe Val

805 810 815

Pro Gln Leu Tyr Leu Lys His Pro Glu Asp Gly Lys Phe Glu Thr Pro

820 825 830

Ile Gln Leu Arg Gly Phe Glu Lys Val Glu Leu Ser Pro Gly Glu Lys

835 840 845

Lys Thr Val Glu Phe Glu Leu Leu Arg Arg Asp Leu Ser Val Trp Asp

850 855 860

Thr Thr Arg Gln Ser Trp Ile Val Glu Ser Gly Thr Tyr Glu Ala Leu

865 870 875 880

Ile Gly Val Ala Val Asn Asp Ile Lys Thr Ser Val Leu Phe Thr Ile

885 890 895

<210> 41

<211> 144

<212> DNA

<213> 人工序列

<220>

<223> 灵活的连接子融合物

<400> 41

ggaggaggtg gttcaggagg tggtgggtct gcttggcatc cacaatttgg aggaggcggt 60

ggtgaaaatc tgtatttcca gggaggcgga ggtgattaca aggatgacga caaaggaggt 120

ggtggatcag gaggtggtgg ctcc 144

<210> 42

<211> 117

<212> DNA

<213> 人工序列

<220>

<223> 灵活的连接子融合物

<400> 42

ggtggcggtg gatctggagg aggcggttct tggtctcacc cacaatttga aaagggtgga 60

gaaaacttgt actttcaagg cggtggtgga ggttctggcg gaggtggctc cggctca 117

<210> 43

<211> 455

<212> PRT

<213> 人工序列

<220>

<223> CBH1共有序列

<400> 43

Met Arg Phe Pro Ser Ile Phe Thr Ala Val Leu Phe Ala Ala Ser Ser

1 5 10 15

Ala Leu Ala Gln Gln Ala Gly Thr Leu Thr Ala Glu Thr His Pro Ser

20 25 30

Leu Thr Trp Gln Lys Cys Thr Ser Gly Gly Ser Cys Thr Thr Val Asn

35 40 45

Gly Ser Val Val Ile Asp Ala Asn Trp Arg Trp Val His Ala Thr Ser

50 55 60

Gly Ser Thr Asn Cys Tyr Thr Gly Asn Thr Trp Asp Thr Thr Leu Cys

65 70 75 80

Pro Asp Asp Val Thr Cys Ala Gln Asn Cys Ala Leu Asp Gly Ala Asp

85 90 95

Tyr Ser Ser Thr Tyr Gly Val Thr Thr Ser Gly Asn Ser Leu Arg Leu

100 105 110

Asn Phe Val Thr Gln Gly Ser Gln Lys Asn Val Gly Ser Arg Leu Tyr

115 120 125

Leu Met Glu Asp Asp Thr Thr Tyr Gln Met Phe Lys Leu Leu Gly Gln

130 135 140

Glu Phe Thr Phe Asp Val Asp Val Ser Asn Leu Pro Cys Gly Leu Asn

145 150 155 160

Gly Ala Leu Tyr Phe Val Ala Met Asp Ala Asp Gly Gly Met Ser Lys

165 170 175

Tyr Pro Gly Asn Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp

180 185 190

Ser Gln Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Gln Ala Asn Val

195 200 205

Glu Gly Trp Glu Pro Ser Ser Asn Asp Ala Asn Ala Gly Ile Gly Asn

210 215 220

His Gly Ser Cys Cys Ala Glu Met Asp Ile Trp Glu Ala Asn Ser Ile

225 230 235 240

Ser Thr Ala Phe Thr Pro His Pro Cys Asp Thr Ile Gly Gln Thr Met

245 250 255

Cys Glu Gly Asp Ser Cys Gly Gly Thr Tyr Ser Ser Asp Arg Tyr Gly

260 265 270

Gly Thr Cys Asp Pro Asp Gly Cys Asp Phe Asn Pro Tyr Arg Met Gly

275 280 285

Asn Lys Thr Phe Tyr Gly Pro Gly Lys Thr Val Asp Thr Thr Lys Lys

290 295 300

Val Thr Val Val Thr Gln Phe Ile Thr Gly Ser Ser Gly Thr Leu Ser

305 310 315 320

Glu Ile Lys Arg Phe Tyr Val Gln Asn Gly Lys Val Ile Pro Asn Ser

325 330 335

Glu Ser Thr Ile Ser Gly Val Ser Gly Asn Ser Ile Thr Thr Asp Phe

340 345 350

Cys Thr Ala Gln Lys Thr Ala Phe Gly Asp Thr Asp Asp Phe Ala Lys

355 360 365

Lys Gly Gly Leu Glu Gly Met Gly Lys Ala Leu Ala Gln Gly Met Val

370 375 380

Leu Val Met Ser Leu Trp Asp Asp His Ala Ala Asn Met Leu Trp Leu

385 390 395 400

Asp Ser Thr Tyr Pro Thr Asp Ala Thr Ser Ser Thr Pro Gly Ala Ala

405 410 415

Arg Gly Ser Cys Asp Thr Ser Ser Gly Val Pro Ala Asp Val Glu Ala

420 425 430

Asn Ser Pro Asn Ser Tyr Val Thr Phe Ser Asn Ile Lys Phe Gly Pro

435 440 445

Ile Gly Ser Thr Phe Thr Gly

450 455

<210> 44

<211> 1368

<212> DNA

<213> 人工序列

<220>

<223> 密码子优化的CBH1共有序列

<400> 44

atgagatttc cttcaatctt cactgctgtt ttgttcgcag cctcaagtgc tttagcacaa 60

caggccggaa cattgacagc agaaactcat ccttccttaa cctggcaaaa gtgcacttct 120

ggaggttcat gcactacagt gaatggatct gtcgtgatcg atgcaaactg gagatgggtt 180

cacgcaactt caggttctac caactgttat accggaaaca cttgggacac cacattgtgc 240

ccagatgacg tcacgtgcgc tcagaactgt gctttggatg gagctgatta cagttcaacc 300

tatggtgtaa ctacatccgg aaactctttg agattaaact tcgttactca aggaagtcaa 360

aagaacgttg gttctagatt gtacttaatg gaggacgata caacctatca aatgttcaaa 420

ttgttaggtc aggagttcac ctttgacgta gatgtcagta acttgccatg tgggttaaac 480

ggagctttat actttgtggc aatggatgct gacggtggaa tgtccaagta tccaggaaac 540

aaagccggtg caaagtacgg tacaggatat tgtgattcac agtgccctag agatttgaag 600

ttcattaacg gtcaagcaaa tgtggagggt tgggaaccat ctagtaacga tgccaatgcg 660

ggtattggta atcatgggtc ctgttgcgct gagatggata tctgggaggc caactcaata 720

tctactgcct ttacccctca cccatgcgat acaattggtc aaactatgtg cgagggtgat 780

tcatgtggtg gaacctactc ctctgataga tacggaggta catgcgatcc agatggttgc 840

gactttaatc catacagaat gggaaacaaa accttttacg gtcctggaaa gacagttgat 900

actaccaaga aagtaacagt cgtgacccag tttatcaccg gtagttctgg aaccttatcc 960

gaaatcaaaa gattctacgt tcagaacggt aaagtaattc caaacagtga atctacaatt 1020

tcaggagtga gtggtaattc tattactacc gacttttgta cagctcagaa aacagcattt 1080

ggtgacaccg atgactttgc taagaagggt ggattagaag gtatgggtaa agctttggcc 1140

cagggaatgg tgttagttat gtctttatgg gatgatcacg ccgcaaatat gttatggttg 1200

gattcaacat atccaactga tgccacaagt agtacacctg gagctgccag aggttcttgt 1260

gatacatctt ccggtgttcc agccgatgta gaagcaaatt ctcctaactc ctatgttacc 1320

ttctccaata taaagtttgg tccaatcggt tcaacattca ctggttaa 1368

<210> 45

<211> 1572

<212> DNA

<213> 嗜热枝顶孢

<400> 45

atgtatacca aatttgctgc attggccgct ttagttgcaa cagtaagagg tcaagccgct 60

tgttctctaa ccgcagaaac tcacccatct ctacaatggc agaaatgcac agcccctgga 120

tcttgtacaa ctgtctccgg ccaagtcacc attgacgcta attggagatg gcttcaccaa 180

actaactctt caacgaattg ttataccggt aacgaatggg atacttccat atgttcatcc 240

gatacagact gcgcaacgaa atgttgttta gatggagcag actatacggg aacttatggt 300

gttacagcct caggtaattc cctaaacctt aagttcgtaa ctcaaggacc atatagtaag 360

aatatcggct ctagaatgta cttgatggaa agtgagagca aatatcaggg ttttacgtta 420

ttgggacaag agtttacatt tgatgttgat gtgagtaact taggttgcgg cctaaacggc 480

gccttgtact tcgtttctat ggatcttgat ggaggtgtat caaaatacac gaccaacaag 540

gctggagcca aatatggtac gggatattgt gacagccaat gccctagaga cttaaagttc 600

attaacggtc aggcaaatat tgacggctgg caaccaagca gtaacgacgc taatgccgga 660

ctaggtaacc atggctcatg ttgttccgaa atggatatct gggaagccaa taaggtgtcc 720

gctgcctaca ccccccatcc atgcacgaca atcggtcaga caatgtgtac cggtgatgac 780

tgtggaggca catactcaag tgataggtac gccggtatat gtgatcctga cggttgcgat 840

ttcaactctt atagaatggg agatacatcc ttttacggcc ccggtaaaac agttgatacg 900

ggtagtaagt tcactgttgt tactcagttc ttaacaggtt cagacggcaa tcttagtgaa 960

atcaaaagat tctacgttca gaatggaaaa gtcattccta attccgagag taagattgct 1020

ggtgtgtctg gtaacagtat cacgaccgac ttctgtaccg cccaaaagac tgcctttgga 1080

gatacgaatg ttttcgagga aaggggcggt cttgctcaaa tgggcaaggc tttggccgaa 1140

ccaatggtat tagtcctatc cgtttgggat gatcatgcag tgaatatgct ttggcttgat 1200

agcacctacc ctactgacag caccaagcca ggagctgcca gaggtgactg tcctatcaca 1260

agtggcgttc cagcagatgt agagagccaa gctccaaact ccaatgtgat ctattctaac 1320

atcagatttg gccccattaa tagtacctat acaggaacgc cctctggtgg taaccctcca 1380

ggcggaggca ccacaactac cacgaccaca acgacttcaa agccttctgg ccctacgaca 1440

actaccaatc cttccggacc acagcaaact cactggggtc agtgtggagg ccaaggatgg 1500

acgggtccta ccgtgtgtca atcaccttac acatgcaaat acagtaatga ctggtactct 1560

cagtgtttat aa 1572

<210> 46

<211> 523

<212> PRT

<213> 嗜热枝顶孢

<400> 46

Met Tyr Thr Lys Phe Ala Ala Leu Ala Ala Leu Val Ala Thr Val Arg

1 5 10 15

Gly Gln Ala Ala Cys Ser Leu Thr Ala Glu Thr His Pro Ser Leu Gln

20 25 30

Trp Gln Lys Cys Thr Ala Pro Gly Ser Cys Thr Thr Val Ser Gly Gln

35 40 45

Val Thr Ile Asp Ala Asn Trp Arg Trp Leu His Gln Thr Asn Ser Ser

50 55 60

Thr Asn Cys Tyr Thr Gly Asn Glu Trp Asp Thr Ser Ile Cys Ser Ser

65 70 75 80

Asp Thr Asp Cys Ala Thr Lys Cys Cys Leu Asp Gly Ala Asp Tyr Thr

85 90 95

Gly Thr Tyr Gly Val Thr Ala Ser Gly Asn Ser Leu Asn Leu Lys Phe

100 105 110

Val Thr Gln Gly Pro Tyr Ser Lys Asn Ile Gly Ser Arg Met Tyr Leu

115 120 125

Met Glu Ser Glu Ser Lys Tyr Gln Gly Phe Thr Leu Leu Gly Gln Glu

130 135 140

Phe Thr Phe Asp Val Asp Val Ser Asn Leu Gly Cys Gly Leu Asn Gly

145 150 155 160

Ala Leu Tyr Phe Val Ser Met Asp Leu Asp Gly Gly Val Ser Lys Tyr

165 170 175

Thr Thr Asn Lys Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp Ser

180 185 190

Gln Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Gln Ala Asn Ile Asp

195 200 205

Gly Trp Gln Pro Ser Ser Asn Asp Ala Asn Ala Gly Leu Gly Asn His

210 215 220

Gly Ser Cys Cys Ser Glu Met Asp Ile Trp Glu Ala Asn Lys Val Ser

225 230 235 240

Ala Ala Tyr Thr Pro His Pro Cys Thr Thr Ile Gly Gln Thr Met Cys

245 250 255

Thr Gly Asp Asp Cys Gly Gly Thr Tyr Ser Ser Asp Arg Tyr Ala Gly

260 265 270

Ile Cys Asp Pro Asp Gly Cys Asp Phe Asn Ser Tyr Arg Met Gly Asp

275 280 285

Thr Ser Phe Tyr Gly Pro Gly Lys Thr Val Asp Thr Gly Ser Lys Phe

290 295 300

Thr Val Val Thr Gln Phe Leu Thr Gly Ser Asp Gly Asn Leu Ser Glu

305 310 315 320

Ile Lys Arg Phe Tyr Val Gln Asn Gly Lys Val Ile Pro Asn Ser Glu

325 330 335

Ser Lys Ile Ala Gly Val Ser Gly Asn Ser Ile Thr Thr Asp Phe Cys

340 345 350

Thr Ala Gln Lys Thr Ala Phe Gly Asp Thr Asn Val Phe Glu Glu Arg

355 360 365

Gly Gly Leu Ala Gln Met Gly Lys Ala Leu Ala Glu Pro Met Val Leu

370 375 380

Val Leu Ser Val Trp Asp Asp His Ala Val Asn Met Leu Trp Leu Asp

385 390 395 400

Ser Thr Tyr Pro Thr Asp Ser Thr Lys Pro Gly Ala Ala Arg Gly Asp

405 410 415

Cys Pro Ile Thr Ser Gly Val Pro Ala Asp Val Glu Ser Gln Ala Pro

420 425 430

Asn Ser Asn Val Ile Tyr Ser Asn Ile Arg Phe Gly Pro Ile Asn Ser

435 440 445

Thr Tyr Thr Gly Thr Pro Ser Gly Gly Asn Pro Pro Gly Gly Gly Thr

450 455 460

Thr Thr Thr Thr Thr Thr Thr Thr Ser Lys Pro Ser Gly Pro Thr Thr

465 470 475 480

Thr Thr Asn Pro Ser Gly Pro Gln Gln Thr His Trp Gly Gln Cys Gly

485 490 495

Gly Gln Gly Trp Thr Gly Pro Thr Val Cys Gln Ser Pro Tyr Thr Cys

500 505 510

Lys Tyr Ser Asn Asp Trp Tyr Ser Gln Cys Leu

515 520

<210> 47

<211> 1586

<212> DNA

<213> 白曲霉

<400> 47

ttaattaaaa tgagaatttc taacttgatt gttgctgctt ctgctgctac tatggtttct 60

gctttgccat ctagacaaat gaaaaagagg gattctggtt ttaaatgggt tggtacttct 120

gaatctggtg ctgaatttgg ttctgcttta ccaggtactt tgggtactga ttatacttgg 180

ccagaaactt ctaaaattca agttttgaga aacaagggta tgaacatttt tagaatacca 240

ttcttgatgg aaagattaac tccagatggt ttgactggtt cttttgcttc tacttacttg 300

tctgatttga agtcaactgt tgaatttgtt actaattctg gtgcttatgc tgttttagat 360

ccacataatt acggtagatt cgatggttct attattgaat ctacttctga ttttaagact 420

tggtggaaaa atgttgctac tgaatttgct gataacgata aggttatttt cgatacaaac 480

aacgaatatc atgatatgga acaatctttg gttttgaatt tgaaccaagc tgctattaat 540

ggtattagag ctgctggtgc tactactcaa tacattttcg ttgaaggtaa tgcttatact 600

ggtgcttggg attggactac ttacaatgat gatttgtctg gtttaactga ttctgaagat 660

aagataatat acgaaatgca tcaatacttg gattctgatt cttctggtac atctgaaact 720

tgtgtttctt ctactattgg taaagaaaga attgaaaagg ctactgaatg gttgaaaact 780

aacaacaagc aaggtattat tggtgaattt gcaggtggtg ttaattctgt ttgtgaagag 840

gctgttgaag gaatgttggc ttatatgtct gaaaattctg atgtttgggt tggtgcttct 900

tggtggtctg ctggtccatg gtggggtact tacatgtatt ctttggaacc aactgatggt 960

actgcttatt ctacttattt gccaattttg gaaaaatact tcccatctgg tgatgcttca 1020

tcatcttcat ctgcttcagc ttcagttgca gccgctactt ctgctgtttc tactactact 1080

acagctgcat ttgaacaaac tactactcca gctactcaag ttgaaattgc ttcttcttca 1140

tcttcatcat cagctgttgc tgcttcacaa actactttgt ctaaggttaa gtctaaatct 1200

aaatctccat gtaaattgtc atctgctact tcatctgctg tttcatcagc tgctgcagtt 1260

actacacctg cagttgcagc tacaactcca gctgctgctc caacttcttc ttctgttgct 1320

tttgctacta cttctgttta cgttccaact actactgctg ctgcaccatc tcaagtttca 1380

tcttcagctg cagcttcatc ttcaggtgtt gttggtgttt ctgatccaca aggtccatct 1440

gctactaatt ctgctggtga agttaatcaa tattaccaat gtggtggtat taattggact 1500

ggtccaactg tttgtgcttc tccatatact tgtaaggttc aaaacgatta ctactatcaa 1560

tgtgttgctg aattataagg cgcgcc 1586

<210> 48

<211> 1280

<212> DNA

<213> 甜菜胞囊线虫

<400> 48

ttaattaaaa tgcattgggc tgatgttgct tgttctagac caccatggcc aagagattct 60

gttaaagctt tgaagtgtaa ttggaacgct aatgttatta gaggtgctat gggtgttgat 120

gaaggtggtt atttgtctga tgctaatact gcttacaatt tgatggttgc tgttattgaa 180

gctgctattt ctaatggtat ctacgttatt gttgattggc atgctcataa tgctcatcca 240

gatgaagctg ttaaattctt tactagaatt gctcaagctt atggttctta cttgcatatt 300

ttgtacgaag atttcaatga accattggat gtttcttgga ctgatgtttt ggttccatac 360

cataaaaaag ttattgctgc cattagagct attgataaga agaacgttat tatcttgggt 420

actccaaaat ggtcacaaga tgttgatgtt gcttctcaaa atccaattaa ggattaccaa 480

aacttgatgt acactttgca tttttacgct tcatctcatt ttacatctga tttgggtgct 540

aaattgaaaa ctgctgttaa caatggtttg ccagtttttg ttactgaata tggtacttgt 600

gaagcttctg gtaatggtaa tttgaatact gattctatgt catcttggtg gactttgttg 660

gattctttga aaatttctta cgctaattgg gctatttctg ataaatctga agcttgttct 720

gctttgtctc caggtactac tgctgttaat gttggtgttt cttctagatg gacttcttct 780

ggtaatatgg ttgcttctta ctacaaaaaa aagtccactg gtatttcttg ttctggtagt 840

tcttcaggtt cttcaagtgg ttcatctagt ggttcttccg gtacatcttc tggttctagt 900

ggttcatcta gtggtagttc ttccggtagt tctagtggta gttctggttc aagttctggt 960

tcctcctctg gttctggttc tgcatctatt tctgttgttc catctaatac ttggaatggt 1020

ggtggtagag ttaattttga aattaagaac actggttctg ttccattgtg tggtgttgtt 1080

ttttctgttt ctttgccatc tggtactact ttgggtggtt cttggaatat ggaatctgct 1140

ggttctggtc aatattcttt accatcttgg gttagaattg aagctggtaa atcttctaaa 1200

gatgctggtt tgacttttaa tggtaaagat aagccaactg ctaaaattgt taccaccaag 1260

aagtgcttat aaggcgcgcc 1280

<210> 49

<211> 1277

<212> DNA

<213> 红褐肉座菌

<400> 49

ttaattaaaa tgaacaagtc tgttgctcca ttgttgttgg ctgcttctat tttgtatggt 60

ggtgctgttg ctcaacaaac tgtttggggt caatgtggtg gtattggttg gtctggtcca 120

actaattgtg ctccaggttc tgcttgttct actttgaatc catattatgc tcaatgtatt 180

ccaggtgcta ctactattac tacttctact agaccaccat ctggtccaac aactactact 240

agagctactt ctacatcttc ttctactcca ccaacttcat ctggtgttag atttgctggt 300

gttaacattg ctggttttga ttttggttgt actactgatg gtacttgtgt tacttctaaa 360

gtttacccac cattgaaaaa tttcactggt tctaacaatt atccagatgg tattggtcaa 420

atgcaacatt ttgttaacga agatggtatg actattttta gattgccagt tggttggcaa 480

tatttggtta acaacaattt gggtggtaat ttggattcta cttctatttc taagtacgat 540

caattggttc aaggttgttt gtctttgggt gcttactgta ttgttgatat tcataattat 600

gctagatgga atggtggtat tattggtcaa ggtggtccaa caaatgctca atttacttct 660

ttgtggtcac aattggcttc aaaatatgct tctcaatcta gagtttggtt tggtattatg 720

aatgaaccac atgatgttaa cattaatact tgggctgcta ctgttcaaga agttgttact 780

gctattagaa atgctggtgc tacttctcaa ttcatttctt tgccaggtaa tgattggcaa 840

tctgctggtg cttttatttc tgatggttct gctgctgctt tgtctcaagt tactaatcca 900

gatggttcta ctactaattt gatcttcgat gttcataagt acttggattc tgataattct 960

ggtactcatg ctgaatgtac tacaaacaat attgatggtg ctttttctcc attggctact 1020

tggttgagac aaaacaatag acaagctatt ttgactgaaa ctggtggtgg taatgttcaa 1080

tcttgtatcc aagatatgtg ccaacaaatt caatacttga accaaaattc tgatgtttat 1140

ttgggttacg ttggttgggg tgctggttct tttgattcta cttacgtttt aactgaaact 1200

ccaacttctt ctggtaattc ttggactgat acttctttgg tttcttcatg tttggctaga 1260

aagttataag gcgcgcc 1277

<210> 50

<211> 1436

<212> DNA

<213> Orpinomyces属

<400> 50

ttaattaaaa tgaagttctt gaactctttg tctttgttgg gtttggttat tgctggttgt 60

gaagctatga gaaacatttc ttctaaagaa ttggttaaag aattgactat tggttggtct 120

ttgggtaata ctttggatgc ttcttgtgtt gaaactttga actactctaa agatcaaact 180

gcttctgaaa cttgttgggg taatgttaaa actactcaag aattgtacta caaattgtct 240

gatttgggtt tcaatacttt cagaatacca actacttggt ctggtcattt tggtgatgct 300

ccagattaca aaatttctga tgtttggatg aaaagagttc acgaagttgt tgattatgct 360

ttgaatactg gtggttacgc tattttgaac attcatcatg aaacttggaa ttacgctttt 420

caaaagaatt tggaatctgc taaaaagatt ttggttgcta tttggaaaca aattgctgct 480

gaatttggtg attacgatga acatttgatt tttgaaggta tgaatgaacc aagaaaagtt 540

ggtgatccag ctgaatggac tggtggtgat caagaaggtt ggaattttgt taatgaaatg 600

aacgctttgt tcgttaaaac tattagagct actggtggta acaatgctaa tagacatttg 660

atgattccaa cttatgctgc ttctgttaat gatggttcta ttaacaattt taagtaccca 720

aatggtgatg ataaagttat tgtttctttg cattcttact ctccatacaa ttttgctttg 780

aacaatggtc caggtgctat ttctaatttc tacgatggta acgaaattga ttgggttatg 840

aacactatta actcttcatt catttctaag ggtattccag ttattattgg tgaatttgtt 900

gctatgaaca gagataatga agatgataga gaaagatggc aagaatacta cattaaaaag 960

gctactgctt tgggtattcc atgtgttatt tgggataatg gttattttga aggtgaaggt 1020

gaaagatttg gtattattga tagaaagtct ttgaacgtta ttttcccaaa gttgattaat 1080

ggtttgatga aaggtttggg tgatgaaaaa ccaaaaacta ctattagaag aactactact 1140

actacagttc aagttcaacc aactattaac aacgaatgtt tctctactag attgggttat 1200

tcttgttgta atggtttcga tgttttgtac actgataatg atggtcaatg gggtgttgaa 1260

aatggtaatt ggtgtggtat taaatcttct tgtggtaaca atcaaagaca atgttggtct 1320

gaaagattag gttatccatg ttgtcaatac actactaatg ctgaatatac agacaacgac 1380

ggtagatggg gtgtagaaaa cggtaactgg tgcggaatat acttgtaagg cgcgcc 1436

<210> 51

<211> 1220

<212> DNA

<213> 白囊耙齿菌

<400> 51

ttaattaaaa tgaagtcttt gttgttgtct gctgctgcta ctttggcttt atctactcca 60

gctttttctg tttctgtttg gggtcaatgt ggtggtattg gttttactgg ttctactact 120

tgtgatgctg gtacttcttg tgttcatttg aacgattact actttcaatg tcaaccaggt 180

gctgctactt ctactgttca accaactact actgcttctt ctacttcttc tgctgcagct 240

ccatcttctt caggtaatgc tgtttgttct ggtactagaa acaagtttaa gttcttcggt 300

gttaatgaat ctggtgctga atttggtaac aatgttattc caggtacttt gggtactgat 360

tatacttggc catctccatc ttctattgat tttttcgttg gtaagggttt taatactttc 420

agagttccat ttttgatgga aagattgtct ccacctgcta ctggtttgac tggtccattt 480

gattctactt atttgcaagg tttgaaaact attgtttctt acattactgg taaaggtggt 540

tatgctttgg ttgatccaca taactttatg atttacaacg gtgctactat ttctgatact 600

aatgcttttc aaacttggtg gcaaaatttg gctgctcaat ttaagactga ttctcatgtt 660

gttttcgatg ttatgaatga accacatgat attccagctc aaactgtttt taacttgaac 720

caagctgcta ttaatagaat tagagcttct ggtgctactt ctcaatctat tttggttgaa 780

ggtacttctt atactggtgc ttggacttgg actactactt ctggtaattc tcaagttttt 840

ggtgctattc atgatccaaa caacaatgtt gctattgaaa tgcatcaata cttggattct 900

gatggttctg gtacttctcc aacttgtgtt tctccaacta ttggtgctga aagattgcaa 960

gctgctactc aatggttgca acaaaacaat ttgaaaggtt tcttgggtga aattggtgct 1020

ggttctaatg ctgattgtat ttctgctgtt caaggtgctt tgtgtgaaat gcaacaatct 1080

gatgtttggt tgggtgcttt gtggtgggct gctggtccat ggtggggtga ttattttcaa 1140

tctattgaac caccatctgg tgttgctgtt tcttctattt tgccacaagc tttggaacca 1200

tttttgttat aaggcgcgcc 1220

<210> 52

<211> 521

<212> PRT

<213> 白曲霉

<400> 52

Met Arg Ile Ser Asn Leu Ile Val Ala Ala Ser Ala Ala Thr Met Val

1 5 10 15

Ser Ala Leu Pro Ser Arg Gln Met Lys Lys Arg Asp Ser Gly Phe Lys

20 25 30

Trp Val Gly Thr Ser Glu Ser Gly Ala Glu Phe Gly Ser Ala Leu Pro

35 40 45

Gly Thr Leu Gly Thr Asp Tyr Thr Trp Pro Glu Thr Ser Lys Ile Gln

50 55 60

Val Leu Arg Asn Lys Gly Met Asn Ile Phe Arg Ile Pro Phe Leu Met

65 70 75 80

Glu Arg Leu Thr Pro Asp Gly Leu Thr Gly Ser Phe Ala Ser Thr Tyr

85 90 95

Leu Ser Asp Leu Lys Ser Thr Val Glu Phe Val Thr Asn Ser Gly Ala

100 105 110

Tyr Ala Val Leu Asp Pro His Asn Tyr Gly Arg Phe Asp Gly Ser Ile

115 120 125

Ile Glu Ser Thr Ser Asp Phe Lys Thr Trp Trp Lys Asn Val Ala Thr

130 135 140

Glu Phe Ala Asp Asn Asp Lys Val Ile Phe Asp Thr Asn Asn Glu Tyr

145 150 155 160

His Asp Met Glu Gln Ser Leu Val Leu Asn Leu Asn Gln Ala Ala Ile

165 170 175

Asn Gly Ile Arg Ala Ala Gly Ala Thr Thr Gln Tyr Ile Phe Val Glu

180 185 190

Gly Asn Ala Tyr Thr Gly Ala Trp Asp Trp Thr Thr Tyr Asn Asp Asp

195 200 205

Leu Ser Gly Leu Thr Asp Ser Glu Asp Lys Ile Ile Tyr Glu Met His

210 215 220

Gln Tyr Leu Asp Ser Asp Ser Ser Gly Thr Ser Glu Thr Cys Val Ser

225 230 235 240

Ser Thr Ile Gly Lys Glu Arg Ile Glu Lys Ala Thr Glu Trp Leu Lys

245 250 255

Thr Asn Asn Lys Gln Gly Ile Ile Gly Glu Phe Ala Gly Gly Val Asn

260 265 270

Ser Val Cys Glu Glu Ala Val Glu Gly Met Leu Ala Tyr Met Ser Glu

275 280 285

Asn Ser Asp Val Trp Val Gly Ala Ser Trp Trp Ser Ala Gly Pro Trp

290 295 300

Trp Gly Thr Tyr Met Tyr Ser Leu Glu Pro Thr Asp Gly Thr Ala Tyr

305 310 315 320

Ser Thr Tyr Leu Pro Ile Leu Glu Lys Tyr Phe Pro Ser Gly Asp Ala

325 330 335

Ser Ser Ser Ser Ser Ala Ser Ala Ser Val Ala Ala Ala Thr Ser Ala

340 345 350

Val Ser Thr Thr Thr Thr Ala Ala Phe Glu Gln Thr Thr Thr Pro Ala

355 360 365

Thr Gln Val Glu Ile Ala Ser Ser Ser Ser Ser Ser Ser Ala Val Ala

370 375 380

Ala Ser Gln Thr Thr Leu Ser Lys Val Lys Ser Lys Ser Lys Ser Pro

385 390 395 400

Cys Lys Leu Ser Ser Ala Thr Ser Ser Ala Val Ser Ser Ala Ala Ala

405 410 415

Val Thr Thr Pro Ala Val Ala Ala Thr Thr Pro Ala Ala Ala Pro Thr

420 425 430

Ser Ser Ser Val Ala Phe Ala Thr Thr Ser Val Tyr Val Pro Thr Thr

435 440 445

Thr Ala Ala Ala Pro Ser Gln Val Ser Ser Ser Ala Ala Ala Ser Ser

450 455 460

Ser Gly Val Val Gly Val Ser Asp Pro Gln Gly Pro Ser Ala Thr Asn

465 470 475 480

Ser Ala Gly Glu Val Asn Gln Tyr Tyr Gln Cys Gly Gly Ile Asn Trp

485 490 495

Thr Gly Pro Thr Val Cys Ala Ser Pro Tyr Thr Cys Lys Val Gln Asn

500 505 510

Asp Tyr Tyr Tyr Gln Cys Val Ala Glu

515 520

<210> 53

<211> 419

<212> PRT

<213> 甜菜胞囊线虫

<400> 53

Met His Trp Ala Asp Val Ala Cys Ser Arg Pro Pro Trp Pro Arg Asp

1 5 10 15

Ser Val Lys Ala Leu Lys Cys Asn Trp Asn Ala Asn Val Ile Arg Gly

20 25 30

Ala Met Gly Val Asp Glu Gly Gly Tyr Leu Ser Asp Ala Asn Thr Ala

35 40 45

Tyr Asn Leu Met Val Ala Val Ile Glu Ala Ala Ile Ser Asn Gly Ile

50 55 60

Tyr Val Ile Val Asp Trp His Ala His Asn Ala His Pro Asp Glu Ala

65 70 75 80

Val Lys Phe Phe Thr Arg Ile Ala Gln Ala Tyr Gly Ser Tyr Leu His

85 90 95

Ile Leu Tyr Glu Asp Phe Asn Glu Pro Leu Asp Val Ser Trp Thr Asp

100 105 110

Val Leu Val Pro Tyr His Lys Lys Val Ile Ala Ala Ile Arg Ala Ile

115 120 125

Asp Lys Lys Asn Val Ile Ile Leu Gly Thr Pro Lys Trp Ser Gln Asp

130 135 140

Val Asp Val Ala Ser Gln Asn Pro Ile Lys Asp Tyr Gln Asn Leu Met

145 150 155 160

Tyr Thr Leu His Phe Tyr Ala Ser Ser His Phe Thr Ser Asp Leu Gly

165 170 175

Ala Lys Leu Lys Thr Ala Val Asn Asn Gly Leu Pro Val Phe Val Thr

180 185 190

Glu Tyr Gly Thr Cys Glu Ala Ser Gly Asn Gly Asn Leu Asn Thr Asp

195 200 205

Ser Met Ser Ser Trp Trp Thr Leu Leu Asp Ser Leu Lys Ile Ser Tyr

210 215 220

Ala Asn Trp Ala Ile Ser Asp Lys Ser Glu Ala Cys Ser Ala Leu Ser

225 230 235 240

Pro Gly Thr Thr Ala Val Asn Val Gly Val Ser Ser Arg Trp Thr Ser

245 250 255

Ser Gly Asn Met Val Ala Ser Tyr Tyr Lys Lys Lys Ser Thr Gly Ile

260 265 270

Ser Cys Ser Gly Ser Ser Ser Gly Ser Ser Ser Gly Ser Ser Ser Gly

275 280 285

Ser Ser Gly Thr Ser Ser Gly Ser Ser Gly Ser Ser Ser Gly Ser Ser

290 295 300

Ser Gly Ser Ser Ser Gly Ser Ser Gly Ser Ser Ser Gly Ser Ser Ser

305 310 315 320

Gly Ser Gly Ser Ala Ser Ile Ser Val Val Pro Ser Asn Thr Trp Asn

325 330 335

Gly Gly Gly Arg Val Asn Phe Glu Ile Lys Asn Thr Gly Ser Val Pro

340 345 350

Leu Cys Gly Val Val Phe Ser Val Ser Leu Pro Ser Gly Thr Thr Leu

355 360 365

Gly Gly Ser Trp Asn Met Glu Ser Ala Gly Ser Gly Gln Tyr Ser Leu

370 375 380

Pro Ser Trp Val Arg Ile Glu Ala Gly Lys Ser Ser Lys Asp Ala Gly

385 390 395 400

Leu Thr Phe Asn Gly Lys Asp Lys Pro Thr Ala Lys Ile Val Thr Thr

405 410 415

Lys Lys Cys

<210> 54

<211> 418

<212> PRT

<213> 红褐肉座菌

<400> 54

Met Asn Lys Ser Val Ala Pro Leu Leu Leu Ala Ala Ser Ile Leu Tyr

1 5 10 15

Gly Gly Ala Val Ala Gln Gln Thr Val Trp Gly Gln Cys Gly Gly Ile

20 25 30

Gly Trp Ser Gly Pro Thr Asn Cys Ala Pro Gly Ser Ala Cys Ser Thr

35 40 45

Leu Asn Pro Tyr Tyr Ala Gln Cys Ile Pro Gly Ala Thr Thr Ile Thr

50 55 60

Thr Ser Thr Arg Pro Pro Ser Gly Pro Thr Thr Thr Thr Arg Ala Thr

65 70 75 80

Ser Thr Ser Ser Ser Thr Pro Pro Thr Ser Ser Gly Val Arg Phe Ala

85 90 95

Gly Val Asn Ile Ala Gly Phe Asp Phe Gly Cys Thr Thr Asp Gly Thr

100 105 110

Cys Val Thr Ser Lys Val Tyr Pro Pro Leu Lys Asn Phe Thr Gly Ser

115 120 125

Asn Asn Tyr Pro Asp Gly Ile Gly Gln Met Gln His Phe Val Asn Glu

130 135 140

Asp Gly Met Thr Ile Phe Arg Leu Pro Val Gly Trp Gln Tyr Leu Val

145 150 155 160

Asn Asn Asn Leu Gly Gly Asn Leu Asp Ser Thr Ser Ile Ser Lys Tyr

165 170 175

Asp Gln Leu Val Gln Gly Cys Leu Ser Leu Gly Ala Tyr Cys Ile Val

180 185 190

Asp Ile His Asn Tyr Ala Arg Trp Asn Gly Gly Ile Ile Gly Gln Gly

195 200 205

Gly Pro Thr Asn Ala Gln Phe Thr Ser Leu Trp Ser Gln Leu Ala Ser

210 215 220

Lys Tyr Ala Ser Gln Ser Arg Val Trp Phe Gly Ile Met Asn Glu Pro

225 230 235 240

His Asp Val Asn Ile Asn Thr Trp Ala Ala Thr Val Gln Glu Val Val

245 250 255

Thr Ala Ile Arg Asn Ala Gly Ala Thr Ser Gln Phe Ile Ser Leu Pro

260 265 270

Gly Asn Asp Trp Gln Ser Ala Gly Ala Phe Ile Ser Asp Gly Ser Ala

275 280 285

Ala Ala Leu Ser Gln Val Thr Asn Pro Asp Gly Ser Thr Thr Asn Leu

290 295 300

Ile Phe Asp Val His Lys Tyr Leu Asp Ser Asp Asn Ser Gly Thr His

305 310 315 320

Ala Glu Cys Thr Thr Asn Asn Ile Asp Gly Ala Phe Ser Pro Leu Ala

325 330 335

Thr Trp Leu Arg Gln Asn Asn Arg Gln Ala Ile Leu Thr Glu Thr Gly

340 345 350

Gly Gly Asn Val Gln Ser Cys Ile Gln Asp Met Cys Gln Gln Ile Gln

355 360 365

Tyr Leu Asn Gln Asn Ser Asp Val Tyr Leu Gly Tyr Val Gly Trp Gly

370 375 380

Ala Gly Ser Phe Asp Ser Thr Tyr Val Leu Thr Glu Thr Pro Thr Ser

385 390 395 400

Ser Gly Asn Ser Trp Thr Asp Thr Ser Leu Val Ser Ser Cys Leu Ala

405 410 415

Arg Lys

<210> 55

<211> 471

<212> PRT

<213> Orpinomyces属

<400> 55

Met Lys Phe Leu Asn Ser Leu Ser Leu Leu Gly Leu Val Ile Ala Gly

1 5 10 15

Cys Glu Ala Met Arg Asn Ile Ser Ser Lys Glu Leu Val Lys Glu Leu

20 25 30

Thr Ile Gly Trp Ser Leu Gly Asn Thr Leu Asp Ala Ser Cys Val Glu

35 40 45

Thr Leu Asn Tyr Ser Lys Asp Gln Thr Ala Ser Glu Thr Cys Trp Gly

50 55 60

Asn Val Lys Thr Thr Gln Glu Leu Tyr Tyr Lys Leu Ser Asp Leu Gly

65 70 75 80

Phe Asn Thr Phe Arg Ile Pro Thr Thr Trp Ser Gly His Phe Gly Asp

85 90 95

Ala Pro Asp Tyr Lys Ile Ser Asp Val Trp Met Lys Arg Val His Glu

100 105 110

Val Val Asp Tyr Ala Leu Asn Thr Gly Gly Tyr Ala Ile Leu Asn Ile

115 120 125

His His Glu Thr Trp Asn Tyr Ala Phe Gln Lys Asn Leu Glu Ser Ala

130 135 140

Lys Lys Ile Leu Val Ala Ile Trp Lys Gln Ile Ala Ala Glu Phe Gly

145 150 155 160

Asp Tyr Asp Glu His Leu Ile Phe Glu Gly Met Asn Glu Pro Arg Lys

165 170 175

Val Gly Asp Pro Ala Glu Trp Thr Gly Gly Asp Gln Glu Gly Trp Asn

180 185 190

Phe Val Asn Glu Met Asn Ala Leu Phe Val Lys Thr Ile Arg Ala Thr

195 200 205

Gly Gly Asn Asn Ala Asn Arg His Leu Met Ile Pro Thr Tyr Ala Ala

210 215 220

Ser Val Asn Asp Gly Ser Ile Asn Asn Phe Lys Tyr Pro Asn Gly Asp

225 230 235 240

Asp Lys Val Ile Val Ser Leu His Ser Tyr Ser Pro Tyr Asn Phe Ala

245 250 255

Leu Asn Asn Gly Pro Gly Ala Ile Ser Asn Phe Tyr Asp Gly Asn Glu

260 265 270

Ile Asp Trp Val Met Asn Thr Ile Asn Ser Ser Phe Ile Ser Lys Gly

275 280 285

Ile Pro Val Ile Ile Gly Glu Phe Val Ala Met Asn Arg Asp Asn Glu

290 295 300

Asp Asp Arg Glu Arg Trp Gln Glu Tyr Tyr Ile Lys Lys Ala Thr Ala

305 310 315 320

Leu Gly Ile Pro Cys Val Ile Trp Asp Asn Gly Tyr Phe Glu Gly Glu

325 330 335

Gly Glu Arg Phe Gly Ile Ile Asp Arg Lys Ser Leu Asn Val Ile Phe

340 345 350

Pro Lys Leu Ile Asn Gly Leu Met Lys Gly Leu Gly Asp Glu Lys Pro

355 360 365

Lys Thr Thr Ile Arg Arg Thr Thr Thr Thr Thr Val Gln Val Gln Pro

370 375 380

Thr Ile Asn Asn Glu Cys Phe Ser Thr Arg Leu Gly Tyr Ser Cys Cys

385 390 395 400

Asn Gly Phe Asp Val Leu Tyr Thr Asp Asn Asp Gly Gln Trp Gly Val

405 410 415

Glu Asn Gly Asn Trp Cys Gly Ile Lys Ser Ser Cys Gly Asn Asn Gln

420 425 430

Arg Gln Cys Trp Ser Glu Arg Leu Gly Tyr Pro Cys Cys Gln Tyr Thr

435 440 445

Thr Asn Ala Glu Tyr Thr Asp Asn Asp Gly Arg Trp Gly Val Glu Asn

450 455 460

Gly Asn Trp Cys Gly Ile Tyr

465 470

<210> 56

<211> 399

<212> PRT

<213> 白囊耙齿菌

<400> 56

Met Lys Ser Leu Leu Leu Ser Ala Ala Ala Thr Leu Ala Leu Ser Thr

1 5 10 15

Pro Ala Phe Ser Val Ser Val Trp Gly Gln Cys Gly Gly Ile Gly Phe

20 25 30

Thr Gly Ser Thr Thr Cys Asp Ala Gly Thr Ser Cys Val His Leu Asn

35 40 45

Asp Tyr Tyr Phe Gln Cys Gln Pro Gly Ala Ala Thr Ser Thr Val Gln

50 55 60

Pro Thr Thr Thr Ala Ser Ser Thr Ser Ser Ala Ala Ala Pro Ser Ser

65 70 75 80

Ser Gly Asn Ala Val Cys Ser Gly Thr Arg Asn Lys Phe Lys Phe Phe

85 90 95

Gly Val Asn Glu Ser Gly Ala Glu Phe Gly Asn Asn Val Ile Pro Gly

100 105 110

Thr Leu Gly Thr Asp Tyr Thr Trp Pro Ser Pro Ser Ser Ile Asp Phe

115 120 125

Phe Val Gly Lys Gly Phe Asn Thr Phe Arg Val Pro Phe Leu Met Glu

130 135 140

Arg Leu Ser Pro Pro Ala Thr Gly Leu Thr Gly Pro Phe Asp Ser Thr

145 150 155 160

Tyr Leu Gln Gly Leu Lys Thr Ile Val Ser Tyr Ile Thr Gly Lys Gly

165 170 175

Gly Tyr Ala Leu Val Asp Pro His Asn Phe Met Ile Tyr Asn Gly Ala

180 185 190

Thr Ile Ser Asp Thr Asn Ala Phe Gln Thr Trp Trp Gln Asn Leu Ala

195 200 205

Ala Gln Phe Lys Thr Asp Ser His Val Val Phe Asp Val Met Asn Glu

210 215 220

Pro His Asp Ile Pro Ala Gln Thr Val Phe Asn Leu Asn Gln Ala Ala

225 230 235 240

Ile Asn Arg Ile Arg Ala Ser Gly Ala Thr Ser Gln Ser Ile Leu Val

245 250 255

Glu Gly Thr Ser Tyr Thr Gly Ala Trp Thr Trp Thr Thr Thr Ser Gly

260 265 270

Asn Ser Gln Val Phe Gly Ala Ile His Asp Pro Asn Asn Asn Val Ala

275 280 285

Ile Glu Met His Gln Tyr Leu Asp Ser Asp Gly Ser Gly Thr Ser Pro

290 295 300

Thr Cys Val Ser Pro Thr Ile Gly Ala Glu Arg Leu Gln Ala Ala Thr

305 310 315 320

Gln Trp Leu Gln Gln Asn Asn Leu Lys Gly Phe Leu Gly Glu Ile Gly

325 330 335

Ala Gly Ser Asn Ala Asp Cys Ile Ser Ala Val Gln Gly Ala Leu Cys

340 345 350

Glu Met Gln Gln Ser Asp Val Trp Leu Gly Ala Leu Trp Trp Ala Ala

355 360 365

Gly Pro Trp Trp Gly Asp Tyr Phe Gln Ser Ile Glu Pro Pro Ser Gly

370 375 380

Val Ala Val Ser Ser Ile Leu Pro Gln Ala Leu Glu Pro Phe Leu

385 390 395

<210> 57

<211> 42

<212> PRT

<213> 人工序列

<220>

<223> 灵活的连接子序列

<400> 57

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Ala Trp His Pro Gln Phe

1 5 10 15

Gly Gly Glu Asn Leu Tyr Phe Gln Gly Asp Tyr Lys Asp Asp Asp Lys

20 25 30

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

35 40

<210> 58

<211> 37

<212> PRT

<213> 人工序列

<220>

<223> 灵活的连接子序列

<400> 58

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Trp Ser His Pro Gln Phe

1 5 10 15

Glu Lys Gly Gly Glu Asn Leu Tyr Phe Gln Gly Gly Gly Gly Gly Ser

20 25 30

Gly Gly Gly Gly Ser

35

Claims

1.转化的耐热的酵母宿主细胞，其包含至少一个含有编码纤维素酶的核酸的异源多核苷酸，其中，当使用纤维素作为碳源生长时，所述酵母宿主细胞能够产生乙醇。

2.权利要求1的宿主细胞，其中所述纤维素是不可溶的纤维素。

3.权利要求2的宿主细胞，其中所述纤维素是晶体纤维素。

4.权利要求1的宿主细胞，其中所述纤维素源自木质纤维素。

5.权利要求4的宿主细胞，其中所述木质纤维素是经过预处理的硬木。

6.权利要求1的宿主细胞，其中所述纤维素是磷酸膨胀纤维素。

7.权利要求1的宿主细胞，其中所述纤维素是微晶纤维素。

8.权利要求1的宿主细胞，其中所述纤维素是造纸淤泥。

9.权利要求1的宿主细胞，其中所述纤维素是玉米秸秆。

10.权利要求1-9任一项的宿主细胞，其中所述宿主细胞包含含有编码第一纤维二糖水解酶的核酸的异源多核苷酸。