CN110072995B

CN110072995B - 贝壳杉烯酸羟化酶

Info

Publication number: CN110072995B
Application number: CN201780075985.6A
Authority: CN
Inventors: 约翰尼斯·古斯塔夫·恩斯特·范莱文; 普利斯希勒·扎尔特简斯; 维克托·马里厄斯·波尔
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2016-12-08
Filing date: 2017-12-04
Publication date: 2024-05-10
Anticipated expiration: 2037-12-04
Also published as: BR112019011525A2; CA3045722A1; EP3551751A1; US11104886B2; WO2018104238A1; US20200032225A1; CN110072995A; US11913034B2; JP2020500520A; US20210348136A1; AU2017373570A1

Abstract

本发明涉及具有贝壳杉烯酸13‑羟化酶活性的多肽，该多肽包含氨基酸序列，当与包含SEQ ID NO：1或SEQ ID NO：3所示序列的贝壳杉烯酸13‑羟化酶比对时，该氨基酸序列包含对应于位置136、248、336或403的任何氨基酸的至少一个氨基酸的替换，所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的，其中该多肽与具有贝壳杉烯酸13‑羟化酶活性的参考多肽相比具有一种或多种改变的特性。本发明的多肽可以在重组宿主中用于产生甜菊醇或甜菊醇糖苷。

Description

贝壳杉烯酸羟化酶

技术领域

本公开涉及具有贝壳杉烯酸13-羟化酶活性的多肽以及包含编码这种多肽的序列的核酸。本公开还涉及包含所述核酸的核酸构建体和包含所述核酸或核酸构建体的表达载体。此外，本公开涉及包含所述核酸、核酸构建体或表达载体的重组宿主。本公开还涉及包括使重组宿主发酵的制备甜菊醇或甜菊醇糖苷的方法、能够通过这种方法获得的发酵液以及通过方法获得或从发酵液中获得的甜菊醇糖苷。此外，本公开涉及包含两种或更多种甜菊醇糖苷的组合物，并涉及包含甜菊醇糖苷或组合物的食品、饲料或饮料。此外，本公开涉及将第一甜菊醇糖苷转化为第二甜菊醇糖苷的方法，并且涉及生产具有贝壳杉烯酸13-羟化酶活性的多肽的方法。

背景技术

多年生草本植物Stevia rebaudiana Bert.的叶子积聚大量被称为甜菊醇糖苷的具有强烈甜味的化合物。虽然这些化合物的生物功能尚不清楚，但它们作为替代性高效甜味剂具有商业意义。

这些甜的甜菊醇糖苷的功能和感官特性表现为优于许多高效甜味剂的功能和感官特性。此外，研究表明甜菊苷能够降低II型糖尿病患者的血糖水平，并且能够降低轻度高血压患者的血压。

甜菊醇糖苷积聚在甜叶菊叶中，其中它们可以占叶干重的10％至20％。甜菊苷和莱鲍迪甙A均是热和pH稳定的，并且适用于碳酸饮料并且可以应用于许多其他食物。甜菊苷比蔗糖甜110与270倍之间，莱鲍迪甙A比蔗糖甜150与320倍之间。此外，莱鲍迪甙D也是在甜叶菊叶中积聚的高效二萜糖苷甜味剂。它可比蔗糖甜约200倍。莱鲍迪甙M是另一种高效二萜糖苷甜味剂。它在某些甜叶菊品种叶中以痕量存在，但已表明其具有优异的味道特征。

传统上已从甜叶菊植物中提取了甜菊醇糖苷。在甜叶菊中，(-)-贝壳杉烯酸(赤霉酸(GA)生物合成中的中间体)被转化成四环二萜甜菊醇，其然后经过多步糖基化途径以形成多种甜菊醇糖苷。然而，产率可以是可变的，并且受到农业和环境条件的影响。此外，甜叶菊种植需要大量的土地面积、在收获前的很长时间、密集劳动以及用于提取和纯化糖苷的额外成本。

最近，使用发酵工艺生产甜菊醇糖苷的兴趣日益增长。WO2013/110673和WO2015/007748中描述了可用于产生至少甜菊醇糖苷莱鲍迪甙A和莱鲍迪甙D的微生物。

此类微生物的进一步改进是令人希望的，以便可以产生更高量的甜菊醇糖苷和/或另外或新的甜菊醇糖苷和/或更高量的特定甜菊醇糖苷和/或具有期望比例的不同甜菊醇糖苷的甜菊醇糖苷的混合物。

发明概述

本公开基于新的贝壳杉烯酸13-羟化酶(KAH)多肽的鉴定，即具有KAH活性的新多肽。这些多肽可用于生产适合生产甜菊醇和/或一种或多种甜菊醇糖苷的重组宿主。

与表达参考贝壳杉烯酸13-羟化酶的重组宿主相比，这种重组宿主可产生更高量的甜菊醇糖苷和更少量的不期望产物。产生更高量的甜菊醇糖苷和/或更少量的不期望产物可以使甜菊醇糖苷的回收更容易。也可以获得更高的产率。

因此，本公开涉及具有贝壳杉烯酸13-羟化酶活性的多肽，所述多肽包含氨基酸序列，当与包含SEQ ID NO：1(来自A.thaliana的野生型KAH序列)或SEQ ID NO：3(KAH4_m4)所示序列的贝壳杉烯酸13-羟化酶比对时，所述氨基酸序列包含对应于位置：

136、248、336或403的任何氨基酸的至少一个氨基酸的替换，

所述位置是参考SEQ ID NO:1或SEQ ID NO:3定义的，并且其中所述多肽与具有贝壳杉烯酸13-羟化酶活性的参考多肽相比具有一种或多种改变的特性。

本公开还涉及：

-具有贝壳杉烯酸13-羟化酶活性的多肽，所述多肽包含与SEQ ID NO 5、7、9、11或13具有至少约95％序列同一性，至少约96％、至少约97％、至少约98％或至少约99％序列同一性的氨基酸序列；

-核酸，所述核酸包含编码本公开的具有贝壳杉烯酸13-羟化酶活性的多肽的序列；

-包含本公开的核酸的核酸构建体，所述核酸可操作地连接至一个或多个能够指导贝壳杉烯酸13-羟化酶在合适的表达宿主中表达的控制序列；

-表达载体，所述表达载体包含根据本公开的核酸或核酸构建体。

-包含本公开的核酸、核酸构建体或表达载体的重组宿主；

-一种制备甜菊醇或甜菊醇糖苷的方法，所述方法包括在合适的发酵培养基中发酵本文中公开的重组宿主，并任选地回收所述甜菊醇或甜菊醇糖苷。

-能够通过本文公开的制备甜菊醇或甜菊醇糖苷的方法获得的包含甜菊醇糖苷的发酵液；

-通过本文公开的制备甜菊醇或甜菊醇糖苷的方法获得的或者从本文公开的包含甜菊醇糖苷的发酵液获得的甜菊醇糖苷；

-通过本文公开的制备甜菊醇或甜菊醇糖苷的方法获得的或者从本文公开的包含甜菊醇糖苷的发酵液获得的包含两种或更多种甜菊醇糖苷的组合物；

-食品、饲料或饮料，其包含通过本文公开的制备甜菊醇或甜菊醇糖苷的方法获得的甜菊醇糖苷或通过本文公开的制备甜菊醇或甜菊醇糖苷的方法获得的组合物，或者从本文公开的包含甜菊醇糖苷的发酵液获得的组合物；

-一种将第一甜菊醇糖苷转化为第二甜菊醇糖苷的方法，所述方法包括：

使所述第一甜菊醇糖苷与本文公开的重组宿主、源自这种重组宿主的无细胞提取物或源自其中的任一种的酶制剂接触；

从而将第一甜菊醇糖苷转化为第二甜菊醇糖苷；以及

-一种产生贝壳杉烯酸13-羟化酶的方法，所述方法包括在适于产生贝壳杉烯酸13-羟化酶的条件下培养本文公开的宿主细胞，并且任选地，回收贝壳杉烯酸13-羟化酶。

附图说明

图1示出了导致甜菊醇糖苷生物合成的一些但不是全部的潜在途径的示意图。1

图2示出了克隆到含有INT3整合侧翼(允许Y.lipolytica中的同源重组)以及KAH4的启动子-orf-终止子和HygB(编码对潮霉素的抗性)的载体中的编码具有KAH活性的多肽的基因的质粒图谱。

序列表的描述

SEQ ID NO:1列出了来自Arabidopsis thaliana的贝壳杉烯酸13-羟化酶多肽的氨基酸序列。

SEQ ID NO：2列出了编码来自Arabidopsis thaliana的贝壳杉烯酸13-羟化酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：3列出了KAH4_m4多肽的氨基酸序列。

SEQ ID NO：4列出了编码KAH4_m4多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：5至14描述于表1中。

SEQ ID NO：15列出了编码来自Yarrowia lipolytica的羟甲基戊二酰基-辅酶A还原酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：16列出了编码来自Yarrowia lipolytica的香叶基香叶基二磷酸合酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：17列出了编码来自Mucor circenelloides的香叶基香叶基二磷酸合酶多肽的核苷酸序列，其密码子被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：18列出了编码来自Stevia rebaudiana的柯巴基焦磷酸合酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：19列出了编码来自Stevia rebaudiana的贝壳杉烯合酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：20列出了编码来自Giberella fujikuroi的贝壳杉烯氧化酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：21列出了编码来自Arabidopsis thaliana的细胞色素P450还原酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：22列出了编码来自Stevia rebaudiana的UDP-葡糖基转移酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：23列出了编码来自Stevia rebaudiana的UDP-葡糖基转移酶多肽的变体的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：24列出了编码来自Stevia rebaudiana的UDP-葡糖基转移酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

SEQ ID NO：25列出了编码来自Stevia rebaudiana的UDP-葡糖基转移酶多肽的核苷酸序列，其密码子对被优化用于Yarrowia lipolytica中的表达。

发明详述

在本说明书和所附权利要求书中，词语“包含”、“包括”和“具有”以及变化形式应被解释为包含性的。也就是说，这些词语意图表达在上下文允许的情况下可包含未具体叙述的其他要素或整体。

不使用数量词修饰时在本文中用于指代一个/种或多于一个/种(即一个/种或至少一个/种)的语法对象。举例来说，“要素”可意指一个/种要素或多于一个/种要素。

根据本公开，因此提供了具有贝壳杉烯酸13-羟化酶活性的多肽。本公开的多肽具有贝壳杉烯酸13-羟化酶活性。贝壳杉烯酸13-羟化酶活性是(-)-贝壳杉烯酸在C-13位羟基化形成甜菊醇的活性。

本文中的“莱鲍迪甙”可以缩写为“Reb”或“reb”等。

因此，出于本公开的目的，具有贝壳杉烯酸13-羟化酶活性的多肽可以是能够催化或部分催化由对映-贝壳杉烯酸形成甜菊醇(对映-贝壳杉-16-烯-13-醇-19-酸)的多肽。因此，出于本公开的目的，具有贝壳杉烯酸13-羟化酶活性的多肽可以是能够催化或部分催化使用NADPH和O₂形成甜菊醇(对映-贝壳杉-16-烯-13-醇-19-酸)的多肽。

这种活性也可称为对映-ka 13-羟化酶活性或对映-贝壳杉烯酸13-羟化酶活性。

本公开的多肽与具有贝壳杉烯酸13-羟化酶活性的参考多肽相比具有一种或多种改变的特性。

根据本公开的多肽与具有贝壳杉烯酸13-羟化酶活性的参考多肽相比可具有改变的贝壳杉烯酸13-羟化酶活性。

与参考多肽相比，这种多肽可具有降低的贝壳杉烯酸13-羟化酶比活性。

与参考多肽相比，这种多肽可具有增加的贝壳杉烯酸13-羟化酶比活性。

根据本公开的多肽可以是非天然存在的多肽。

本文中，本公开内容的多肽可称为“贝壳杉烯酸13-羟化酶”酶或多肽、“贝壳杉烯酸羟化酶”酶或多肽、“KAH”酶或多肽等。

本公开的KAH多肽(例如具有本文所述的一种或多种替换的多肽)可以包含与参考KAH多肽(诸如SEQ ID NO：1或SEQ ID NO：3的KAH)具有至少约60％、70％、80％同一性，诸如与参考多肽具有至少约85％同一性，诸如与参考多肽具有至少约90％同一性，与参考多肽具有至少约95％同一性，与参考多肽具有至少约98％同一性或与参考多肽具有至少约99％同一性的氨基酸序列。这种KAH多肽通常具有选自对应于

136、248、336或403的位置的一个或多个替换或替换组，

所述位置参考SEQ ID NO：1或SEQ ID NO：3定义。

对应于本文中参考KAH中定义的位置之一的氨基酸位置可以是与任何所述氨基酸位置在多(蛋白质)序列比对中对齐的位置。

对应于位置136、248、336或403之一的氨基酸位置(所述位置参考SEQ ID NO:1或SEQ ID NO:3定义)是当KAH多肽序列通过合适的序列比对方法与SEQ ID NO:1或3中列出的氨基酸序列比对时在KAH多肽序列中识别的位置。合适的序列比对方法是允许将序列彼此进行比较以及识别KAH多肽的氨基酸序列中的位置的方法，其中如果与SEQ ID NO：1或3所示氨基酸序列比较，则或者存在相同的氨基酸(相同的位置)，或者存在另一种氨基酸(替换)，或存在一个或多个额外的氨基酸(插入或延伸)或不存在氨基酸(缺失或截短)。

允许比较两个氨基酸序列的合适方法可以是本领域技术人员已知的任何合适的成对序列比对方法，优选全局成对序列比对方法。优选的全局成对序列比对方法是基于如本文所述的Needleman-Wunsch比对算法(旨在找到两个序列沿其整个长度的最佳比对(包括缺口))(Needleman,S.B.和Wunsch,C.D.(1970)J.Mol.Biol.48,443-453)的EMBOSSNeedle方法。在一个实施方式中，使用EMBOSS Needle比对方法用EBLOSUM62作为替换矩阵(优选地用缺口开放罚分为10，缺口延伸罚分为0.5)使氨基酸序列与SEQ ID NO：1或3所示氨基酸序列比对。

在根据本公开的一个实施方式中，在具有KAH活性的多肽中的对应于136、248、336或403位置的任何氨基酸的位置(所述位置参考SEQ ID NO：1或SEQ ID NO：3定义)通过使用EMBOSS Needle比对方法(诸如来自EMBOSS包的NEEDLE程序，使用EBLOSUM62作为替换矩阵，缺口开放罚分为10和缺口延伸罚分为0.5)将本公开的具有KAH活性的多肽的氨基酸序列与SEQ ID NO：1或3所示氨基酸序列比对来识别。

本公开的KAH通常将保留KAH活性。也就是说，本公开的KAH通常能够催化上述反应，尽管与参考多肽相比具有改变的活性。

优选地，本公开的KAH多肽与其所衍生自的参考多肽相比通常表现出改善的性质，通常在比活性和/或底物特异性方面。如果KAH将如下所述使用，例如用于生产甜菊醇和/或甜菊醇糖苷的方法中(通过在重组宿主中表达KAH)，这种改善的性质通常是相关的性质。

因此，本公开的KAH是通常能够在能产生甜菊醇和/或甜菊醇糖苷的重组宿主中增加所述甜菊醇和/或甜菊醇糖苷的产生的KAH(与表达参考多肽的能产生甜菊醇和/或甜菊醇糖苷的重组宿主相比)。也就是说，与过表达宿主多肽(诸如SEQ ID NO：1或SEQ ID NO：3的KAH)的宿主细胞相比，在宿主细胞中过表达本公开的KAH多肽通常导致甜菊醇和/或甜菊醇糖苷的产生增加。

本公开的KAH可以是通常能够在能产生甜菊醇和/或甜菊醇糖苷的重组宿主中减少非甜菊醇(诸如一种或多种贝壳杉烯酸糖苷)的产生的KAH(与表达参考多肽的能产生甜菊醇和/或甜菊醇糖苷的重组宿主相比)。也就是说，与过表达宿主多肽(诸如SEQ ID NO：1或SEQ ID NO：3的KAH)的宿主细胞相比，在宿主细胞中过表达本公开的KAH多肽通常导致甜菊醇和/或甜菊醇糖苷的产生增加。

产生更少量的非甜菊醇糖苷产品可以使甜菊醇糖苷的回收更容易。另外，可以获得更高的产率。

表现出相对于参考KAH的改善的性质的KAH是这样的KAH，其表现出相关性质(例如比活性)的可测量的减少或增加，通常使得KAH更适合于本文所述的用途，例如用于生产甜菊醇或甜菊醇糖苷的方法中。

KAH多肽包含与参考多肽相比具有一个或多个氨基酸的替换、缺失和/或插入和/或与参考多肽相比具有一个或多个截短的氨基酸序列。KAH多肽可以包含一个或多个本文所述的替换。

具有KAH活性的多肽，例如如本文所述，该多肽包含氨基酸序列，当与包含SEQ IDNO：1或SEQ ID NO：3所示序列的KAH比对时，该氨基酸序列包含对应于氨基酸

136、248、336或403的任何一个的氨基酸的至少一个替换，

所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的，并且其中KAH与具有KAH活性的参考多肽相比具有一种或多种改变的特性。

氨基酸的替换旨在表示指定位置的氨基酸残基被不同的氨基酸替换。

因此，具有KAH活性的多肽，例如如本文所述，该多肽包含氨基酸序列，当与包含SEQ ID NO：1或SEQ ID NO：3所示序列的KAH比对时，该氨基酸序列包含对应于氨基酸

136、248、336或403的任何一个的氨基酸残基的至少一个替换，

因此，存在于一个或多个所述位置的氨基酸将被替换为与参考序列中该位置处出现的不同的氨基酸(所述位置是参考SEQ ID NO:1或SEQ ID NO:3定义的)。

本公开的KAH可以包括上述替换之一或者可以包括它们中的两个、三个或四个的任何组合。

本公开的KAH多肽可以是这样的KAH多肽，其中：

(i)甲硫氨酸(M)、缬氨酸(V)、丙氨酸(A)、苯丙氨酸(F)、色氨酸(W)、谷氨酰胺(Q)、组氨酸(H)或苏氨酸(T)存在于与136对应的位置处；

(ii)天冬酰胺(N)、谷氨酰胺(Q)、苏氨酸(T)、甘氨酸(G)、丙氨酸(A)、异亮氨酸(I)、缬氨酸(V)、苯丙氨酸(F)或脯氨酸(P)存在于与248对应的位置处；

(iii)丝氨酸(S)、丙氨酸(A)或异亮氨酸(I)存在于与336对应的位置处；和/或

(iv)甘氨酸(G)、亮氨酸(L)、缬氨酸(V)、丙氨酸(A)、甲硫氨酸(M)或丝氨酸(S)存在于与403对应的位置处，

所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的。

上述定义的替换的两个、三个或四个的任何组合可用于定义本公开的KAH。

本公开的KAH多肽可以优选为这样的KAH多肽，其中：

(i)甲硫氨酸(M)或缬氨酸(V)存在于与136对应的位置处；

(ii)天冬酰胺(N)存在于与248对应的位置处；

(iii)丝氨酸(S)存在于与336对应的位置处；和/或

(iv)甘氨酸(G)存在于与403对应的位置处，

所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的。

上述定义的替换的任何组合可用于定义本公开的KAH。

因此，本公开的KAH多肽可以包含氨基酸序列，当与包含SEQ ID NO：1或SEQ IDNO：3所示序列的KAH比对时，该氨基酸序列包含至少以下对应于：

136和248

136和336

136和403

248和336

248和403

336和403

136、248和403

136、336和403

136、248和336

248、336和403或

136、248、336和403的任何氨基酸的氨基酸的替换，

所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的。

因此,本公开的KAH多肽可以包含氨基酸序列，当与包含SEQ ID NO：1或SEQ IDNO：3所示序列的KAH比对时，该氨基酸序列包含至少以下对应于：

a)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)或苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与位置136对应的位置处，并且天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处；

b)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，并且丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处；

c)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处；

d)天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，并且丝氨酸(S)丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处；

e)天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处；

f)丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处；

g)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处；

h)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)、或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处；

i)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，并且丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处；

j)天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处，或

k)甲硫氨酸(M)或缬氨酸(V)或丙氨酸(A)、苯丙氨酸(F)或色氨酸(W)或谷氨酰胺(Q)或组氨酸(H)或苏氨酸(T)存在于与136对应的位置处，天冬酰胺(N)或谷氨酰胺(Q)或苏氨酸(T)或甘氨酸(G)或丙氨酸(A)或异亮氨酸(I)或缬氨酸(V)或苯丙氨酸(F)或脯氨酸(P)存在于与位置248对应的位置处，丝氨酸(S)或丙氨酸(A)或异亮氨酸(I)存在于与位置336对应的位置处，并且甘氨酸(G)或亮氨酸(L)或缬氨酸(V)或丙氨酸(A)或甲硫氨酸(M)或丝氨酸(S)存在于与位置403对应的位置处，

的任何氨基酸的氨基酸的替换，所述位置是参考SEQ ID NO:1或SEQ ID NO:3定义的。

本公开的KAH多肽可以包含除上文定义的五个替换位置中的一个或多个之外的另外的替换，例如，一个或多个另外的替换、添加或缺失。

本公开的KAH可以包括不同类型的这种修饰的组合。KAH可以包含一个、两个、三个、四个、至少5个、至少10个、至少15个、至少20个、至少25个、至少30个或更多个这样的修饰(它们可以全部为相同类型的修饰或可以为不同类型的修饰)。通常，另外的修饰可以是替换。本公开的KAH多肽可以包含SEQ ID NO：3中所示的氨基酸序列。然而，KAH多肽可以包含位置136、248、336或403的任何替换组合，所述位置是参考合适的参考序列定义的，诸如SEQ ID NO：1或SEQ ID NO：3中所示的参考序列。

宿主细胞可以包含编码本公开的一个、两个、三个、四个、五个或更多个KAH的核酸。这些KAH多肽可以相同或不同。宿主细胞可以包含编码SEQ ID NO：1或SEQ ID NO：3的KAH的核酸和编码本公开的一种或多种KAH的核酸。也就是说，宿主可以包含编码SEQ IDNO：1或SEQ ID NO：3的KAH的核酸和编码本公开的一种或多种KAH的核酸，每个核酸可以以一个、两个、三个、四个、五个或更多个的拷贝存在。

与参考多肽相比，KAH多肽通常具有改变的KAH活性。通常，改变的活性可以根据重组宿主中的甜菊醇和/或甜菊醇糖苷的产生来定义。

改变的活性可以根据以下来定义：与过表达参考多肽(例如SEQ ID NO：1或SEQ IDNO：3的参考多肽)的等同宿主细胞的产生水平相比，在宿主细胞中过表达KAH时甜菊醇和/或甜菊醇糖苷的产生增加。

改变的活性可以根据以下来定义：与过表达参考多肽(例如SEQ ID NO：1或SEQ IDNO：3的参考多肽)的等同宿主细胞的产生水平相比，在宿主细胞中过表达KAH时非甜菊醇糖苷(例如，不期望产物，例如，贝壳杉烯酸糖苷)的产生减少。

改变的活性可以根据以下来定义：与过表达参考多肽(例如SEQ ID NO：1或SEQ IDNO：3的参考多肽)的等同宿主细胞的产生水平相比，在宿主细胞中过表达KAH时两种甜菊醇糖苷的生产比率的变化，例如可以增加莱鲍迪甙A：莱鲍迪甙M的比例，或者可以增加莱鲍迪甙M：莱鲍迪甙A的比例。

改变的活性可以根据以下来定义：与过表达参考多肽(例如SEQ ID NO：1或SEQ IDNO：3的参考多肽)的等同宿主细胞的产生水平相比，在宿主细胞中过表达KAH时产生的甜菊醇糖苷总和与贝壳杉烯酸糖苷总和的比例变化，例如甜菊醇糖苷的总和与贝壳杉烯酸糖苷的总和的比例可以增加。

改变的活性也可以根据增加的KAH稳定性来定义，例如具有比参考多肽(例如SEQID NO：1或SEQ ID NO：3的参考多肽)更长的半衰期。

改变的活性也可以根据与参考多肽(例如SEQ ID NO：1或SEQ ID NO：3的参考多肽)相比更高效的电子传递(例如，就更少耦合而言)来定义。

改变的活性也可以根据与参考多肽(例如SEQ ID NO：1或SEQ ID NO：3的参考多肽)相比宿主细胞中更高效的电子局域化(electron localization)来定义。

KAH可以能够提高生产水平，例如提高至少5％、至少10％、至少25％、至少50％、至少100％或更多。生产水平可以用g/L或mol/L(M)表示，因此，以g/L或mol/L表示的更高的生产水平将证明甜菊醇和/或甜菊醇糖苷的生产水平的提高。

在不期望产物的情况下，诸如一种或多种贝壳杉烯酸糖苷，KAH可以能够降低生产水平，例如降低至少5％、至少10％、至少25％、至少50％或更多。KAH可以能够提高该比例，例如至少1％、至少2％、至少5％、至少10％、至少25％、至少50％、至少100％或更多。

如上所述，这也可以通过甜菊醇糖苷的总和：贝壳杉烯酸糖苷的总和的增加来定义。

本文使用的“多肽”一词是指含有超过约7个氨基酸残基的链。本文的所有多肽序列均从左到右书写，并且从氨基末端到羧基末端的方向。本文使用的单字母氨基酸代码是本领域熟知的，可以在Sambrook等人中找到(Molecular Cloning：A Laboratory Manual，第二版，Cold Spring Harbor Laboratory，Cold Spring Harbor Laboratory Press，ColdSpring Harbor，NY，1989)。

本公开的KAH多肽可以是分离的形式，诸如基本上分离的形式。“分离的”多肽或蛋白质意指从其天然环境中移出的多肽或蛋白质。例如，为了本公开的目的，重组产生的多肽和在宿主细胞中表达的蛋白质被认为是分离的，已经通过任何合适的技术基本上纯化的重组多肽也是如此。可以通过本领域已知的方法从重组细胞培养物中回收和纯化根据本公开的KAH多肽。

本公开的KAH多肽包括化学合成程序的产物以及通过重组技术从原核或真核宿主(包括例如细菌、酵母、高等植物、昆虫和哺乳动物细胞)产生的产物。取决于重组生产程序中使用的宿主，本公开的多肽可以是糖基化的或可以是非糖基化的。此外，本公开的多肽还可以包括初始修饰的甲硫氨酸残基，在一些情况下是宿主介导的过程的结果。

本公开还涉及根据本公开的KAH多肽的生物活性片段。认为此类片段包含在术语“本公开的KAH”内。

本公开的KAH多肽的生物活性片段包括这样的多肽，其包含与本公开的KAH蛋白的氨基酸序列足够同一或由其衍生的氨基酸序列，其包含比全长蛋白质更少的氨基酸，但是它表现出相应的全长蛋白质的至少一种生物活性。通常，生物活性片段包含具有本公开的KAH蛋白的至少一种活性的结构域或基序(motif)。本公开的KAH的生物活性片段可以是例如长度为10、25、50、100或更多个氨基酸的多肽。此外，其中缺失了蛋白质的其他区域的其他生物活性部分可以通过重组技术制备，并评估其的本公开的天然形式的多肽的一种或多种生物活性。

通常，本公开的KAH的蛋白质片段将包含一种或多种本文定义的替换。

本公开的特征还在于编码上述生物活性片段的核酸片段(该生物活性片段本身是本公开的KAH)。

本公开提供了多核苷酸，其包含编码本公开的KAH多肽(及其生物活性片段)的序列。本公开还涉及编码本公开的KAH多肽KAH的至少一个功能结构域的分离的多核苷酸。通常，这种结构域将包含一种或多种本文所述的替换。

可以使用本领域技术人员所熟知的标准分子生物学技术结合本文提供的序列信息来产生本公开的核酸分子。例如，使用标准合成技术，可以通过PCR产生或从头合成所需的核酸分子。这种合成过程通常是自动化过程。

与编码参考KAH的核酸相比，本公开的核酸可以包含一个或多个缺失，即空位。还可以使用适当的寡核苷酸使用定点诱变产生这种缺失/空位。产生这种缺失的技术是本领域技术人员熟知的。

此外，对应于根据本公开的核苷酸序列或可与根据本公开的核苷酸序列杂交的寡核苷酸可通过标准合成技术制备，例如使用自动DNA合成仪。

此外，互补核酸和反义核酸被包括在本公开中。与另一核苷酸序列互补的核酸分子是与另一核苷酸序列足够互补，使得它可以与另一核苷酸序列杂交从而形成稳定的双链体的核酸分子。

本公开的一个方面涉及编码本公开的KAH多肽或其生物活性片段或结构域的分离的核酸分子，以及足以用作杂交探针以识别编码本公开的多肽的核酸分子的核酸分子，以及适合用作核酸分子扩增或突变(诸如，用于制备本公开的核酸分子)的PCR引物的这种核酸分子的片段。

“分离的核酸”或“分离的多核苷酸”是不直接与以下两个编码序列邻接的DNA或RNA，这两个编码序列在衍生所述DNA或RNA的生物体的天然存在的基因组中与DNA或RNA直接邻接(一个在5′端，一个在3′端)。因此，在一个实施方式中，分离的核酸包括与编码序列直接邻接的5′非编码(例如，启动子)序列中的一些或全部。因此，该术语包括，例如，整合入载体中的重组DNA，整合入自主复制的质粒或病毒中的重组DNA，或者整合入原核生物或真核生物的基因组DNA中的重组DNA，或者作为单独的分子(例如，通过PCR或限制性内切核酸酶处理产生的cDNA或基因组DNA片段)独立于其他序列存在的重组DNA。它还包括作为编码另外的多肽的杂合基因的一部分的重组DNA，其基本上不含细胞材料、病毒材料或培养基(当通过重组DNA技术产生时)或化学前体或其他化学品(当化学合成时)。此外，“分离的核酸片段”是并不天然以片段形式存在的并且不会在天然状态下发现的核酸片段。

如本文所用，术语“核酸”、“多核苷酸”或“核酸分子”旨在包括DNA分子(例如cDNA或基因组DNA)和RNA分子(例如mRNA)和使用核苷酸类似物产生的DNA或RNA的类似物。核酸分子可以是单链或双链的，但优选是双链DNA。可以使用寡核苷酸类似物或衍生物(例如肌苷或硫代磷酸酯核苷酸)合成核酸。这种寡核苷酸可用于例如制备具有改变的碱基配对能力或对核酸酶有增加的抗性的核酸。

本公开还涉及核酸构建体，该核酸构建体包含编码本公开的KAH多肽的核酸序列以及与其可操作地连接的允许核酸序列在宿主细胞中表达的控制序列。可以将核酸构建体整合入载体，诸如表达载体和/或宿主细胞中，以实现KAH多肽的表达。

术语“核酸构建体”在本文中是指单链或双链的核酸分子，其从天然存在的基因中分离或更典型地已经被修饰以含有核酸的区段，所述区段以否则将不会在自然中存在的方式组合和并置。当核酸构建体含有表达编码序列所需要的所有控制序列时，术语核酸构建体与术语“表达盒”的含义相同，其中所述控制序列可操作地连接至所述编码序列。

如本文所用，术语“可操作地连接”是指多核苷酸元件(或编码序列或核酸序列)以功能关系连接。当核酸序列与另一核酸序列处于功能关系时，该核酸序列是“可操作地连接”。例如，如果启动子或增强子影响编码序列的转录，则它与编码序列可操作地连接。

如本文所用，术语“启动子”是指用于控制一个或多个基因(位于相对于基因的转录起始位点的转录方向的上游)转录并且在结构上通过以下鉴定的核酸片段：存在DNA依赖性RNA聚合酶的结合位点、转录起始位点和本领域技术人员已知的任何其他DNA序列。“组成型”启动子是在大多数环境和发育条件下具有活性的启动子。“诱导型”启动子是在环境或发育调节下有活性的启动子。

可用于实现编码酶(诸如KAH多肽或在本公开的重组宿主中引入的任何其他酶)的核苷酸序列表达的启动子对于编码待表达的酶的核苷酸序列可以是非天然的，即与其可操作地连接的核苷酸序列(编码序列)异源的启动子。优选地，启动子是同源的，即对宿主细胞是内源的。

该上下文中合适的启动子包括本领域技术人员熟知的组成型和诱导型天然启动子以及工程化启动子。宿主细胞中合适的启动子可以是GAL7、GAL10或GAL1、CYC1、HIS3、ADH1、PGL、PH05、GAPDH、ADC1、TRP1、URA3、LEU2、ENO、TPI和AOX1。另一些合适的启动子包括PDC、GPD1、PGK1、TEF1和TDH。

通常，编码酶的核苷酸序列包含终止子。在宿主细胞中起作用的任何终止子可用于本公开。优选的终止子得自宿主细胞的天然基因。合适的终止子序列是本领域熟知的。优选地，此类终止子与防止本公开的宿主细胞中无义介导的mRNA衰变的突变组合(参见例如：Shirley等，2002，Genetics 161：1465-1482)。

本公开进一步涉及载体，优选表达载体，其包含本公开的核酸或本公开的核酸构建体(即，包含编码本公开的KAH多肽的序列)。

为了促进KAH的表达和/或翻译，编码KAH的核酸序列可以包含在表达载体中，使得编码KAH的基因与用于体外或在本公开的宿主细胞中表达和/或翻译的适当控制序列可操作地连接。也就是说，本公开提供包含本公开核酸或核酸构建体的表达载体。

表达载体可以是能够方便地进行重组DNA程序并能使编码KAH多肽的多核苷酸表达的任何载体(例如，质粒或病毒)。载体的选择通常取决于载体与要引入载体的细胞的相容性。载体可以是线性或闭环质粒。载体可以是自主复制载体，即作为染色体外实体(entity)存在，其复制独立于染色体复制的载体，例如，质粒、染色体外元件、微型染色体(mini-chromosome)或人工染色体。如果打算用于真菌来源的宿主细胞，合适的附加型核酸构建体可以例如基于酵母2μ或pKD1质粒(Gleer等，1991，Biotechnology9：968-975)或AMA质粒(Fierro等，1995，Curr Genet.29：482-489)。

或者，表达载体可以是当被引入宿主细胞时整合至基因组中并与其已整合至其中的染色体一起复制的载体。整合型克隆载体可随机或在预定靶基因座处整合在宿主细胞的染色体中。在本公开的一个优选实施方式中，整合型克隆载体包含DNA片段，其与宿主细胞基因组中的预定靶基因座中的DNA序列同源以用于克隆载体与该预定基因座的靶向整合。为了促进靶向整合，优选在转化细胞之前将克隆载体线性化。优选进行线性化，使得克隆载体的至少一个但优选任一末端侧接与靶基因座同源的序列。靶基因座侧翼的同源序列的长度优选为至少20bp、至少30bp、至少50bp、至少0.1kb、至少0.2kb、至少0.5kb、至少1kb、至少2kb或更长时间。靶向整合到宿主细胞基因组中(即在预定靶基因座中的整合)的效率通过宿主细胞的增强的同源重组能力来增加。

克隆载体中与靶基因座同源的同源侧翼DNA序列可以源自高度表达的基因座，这意味着它们源自能够在宿主细胞中具有高表达水平的基因。能够高水平表达的基因，即高度表达的基因，在本文中定义为其mRNA(例如，在诱导条件下)可构成总细胞mRNA的至少0.5％(w/w)的基因，或者基因产物可构成总细胞蛋白质的至少1％(w/w)或者在分泌的基因产物的情况下可以分泌至少0.1g/l的水平的基因。更典型地，靶基因座可以是基因间位置，从而基因不被中断。这样的基因座也可以提供高表达水平。因此，克隆载体中的同源侧翼DNA序列可以与基因间靶基因座同源。

核酸构建体或表达载体可以在本公开的宿主细胞中体内组装，并且任选地，在单个步骤中整合到细胞的基因组中(参见，例如，WO2013/076280)。

可以将多于一个拷贝的本公开的核酸构建体或表达载体插入宿主细胞中以增加由核酸构建体内包含的核酸序列编码的KAH多肽的产生(过表达)。这可以优选通过将两个或更多个核酸拷贝整合到其基因组中来进行，更优选通过将核酸靶向整合到如上定义的基因座来进行。

本领域技术人员应理解，表达载体的设计可取决于的因素如：要转化的宿主细胞的选择、期望蛋白质的表达水平等。可以将本公开的表达载体引入宿主细胞中，从而产生由本文所述的核酸编码的蛋白质或肽(例如SEQ ID NO：1或SEQ ID NO：3的KAH，例如功能等同物或片段，或包含一种或多种此类KAH的融合蛋白)。

可以设计本公开的核酸构建体和载体用于在原核宿主细胞或真核宿主细胞中表达本公开的KAH多肽。

可以通过常规转化或转染技术将本公开的核酸构建体和/或表达载体引入原核或真核细胞中。如本文所用，术语“转化”和“转染”意指用于将外来核酸(例如DNA)引入本领域技术人员熟知的宿主细胞的各种本领域公认的技术。用于转化或转染宿主细胞的合适方法可以在Sambrook等人(Molecular Cloning：A Laboratory Manual，第二版，Cold SpringHarbor Laboratory，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，NY，1989)，Davis等，Basic Methods in Molecular Biology(1986)和其他实验室手册中找到。

根据本公开的“功能等同物”是编码这样的多肽的分离的核酸片段，所述多肽表现出本文所定义的本公开KAH的特定功能。因此，功能等同物还包括生物活性片段，并且它们自身包含在本公开的术语“KAH”(等)内。

优选地，本公开的功能等同物包括本文描述的一个或多个替换。然而，除了上述替换之外，功能等同物可以包括一种或多种修饰。

功能性核酸等同物通常可含有沉默突变或不改变编码的KAH多肽的生物学功能的突变。因此，本公开提供了编码KAH蛋白的核酸分子，该KAH蛋白含有对特定生物活性(即KAH活性)不是必需的氨基酸残基的变化。

KAH蛋白的这些功能等同物的氨基酸序列与衍生它们的亲本KAH序列不同，但仍保留其至少一种生物活性，优选它们至少保留KAH活性。技术人员将认识到，可以通过突变将变化引入根据本公开的核苷酸序列中，从而导致所得蛋白质的氨基酸序列的变化而基本上不改变这种蛋白质的功能。

在一个实施方式中，分离的核酸分子包含编码蛋白质的核苷酸序列，其中蛋白质包含与亲本KAH或参考氨基酸序列(例如，SEQ ID NO：1或SEQ ID NO：3中所示)具有至少约60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％同一性的氨基酸序列。

因此，本公开的KAH的功能等同物优选为这样的蛋白质，其包含与亲本KAH氨基酸序列或参考多肽序列(例如，如SEQ ID NO：1或SEQ ID NO：17所示)具有至少约60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，并且通常还保留亲本KAH多肽的至少一种功能活性。

具有贝壳杉烯酸13-羟化酶活性的本公开的多肽可以包含与SEQ ID NO：5、SEQ IDNO：7、SEQ ID NO：9、SEQ ID NO：11或SEQ ID NO：13的任何一个具有至少约80％序列同一性，至少约90％的序列同一性，至少约95％的序列同一性，至少约96％、至少约97％、至少约98％或至少约99％的序列同一性的氨基酸序列。

本公开的KAH多肽可以具有表1中定义的序列或表1中定义的替换模式(就位置而言，如果不是完全相同的氨基酸替换)。

本公开的KAH多肽可以通过例如筛选合适的参考多肽的突变体(例如替换突变体)文库来鉴定。可以基于它们当在宿主细胞中表达时(与表达参考多肽的相应宿主细胞相比)增加甜菊醇或甜菊醇糖苷产生的能力来筛选候选突变体。

根据本公开的核酸的片段可以包含不编码功能多肽的序列或由其组成。此类核酸可以用作PCR反应的探针或引物。

无论它们是编码功能性还非功能性多肽，根据本公开的核酸都可以用作杂交探针或聚合酶链式反应(PCR)引物。不编码具有KAH活性的多肽的本公开的核酸分子的用途尤其包括：(1)原位杂交(例如FISH)至中期染色体压片(spreads)，以提供KAH编码基因的精确染色体定位，如Verma等，Human Chromosomes：a Manual of Basic Techniques，PergamonPress，New York(1988)所述；(2)用于检测特定组织和/或细胞中KAH mRNA表达的Northern印迹分析；和(3)可用作诊断工具的探针和引物，用于分析在给定的生物(例如组织)样品中可与这种探针或引物杂交的核酸的存在。

基于给定参考KAH酶的本公开的KAH可通过以下标准程序获得：

-诱变(易错、掺杂寡聚物(doped oligo)、加标寡聚物(spikedoligo))或变体的合成

-在例如Y.lipolytica或S.cerevisiae中转化

-培养转化体，选择转化体

-在例如Y.lipolytica或S.cerevisiae中表达

-根据例如甜菊醇或甜菊醇糖苷的产生进行初步筛选

-鉴定改进的KAH

在一个实施方式中，本公开涉及产生根据本公开的KAH多肽的方法，该方法包括：

a)选择参考KAH多肽(即模板或起始多肽)；

b)替换至少一个对应于

136、248、336或403中的任何一个的氨基酸残基，

所述位置参考SEQ ID NO:1或SEQ ID NO:3定义。

c)任选地替换b)中定义的一种或多种其他氨基酸；

d)制备由步骤a)-c)得到的KAH；

e)确定KAH的性质，例如如实施例中所述的；并且

f)选择与参考KAH多肽相比具有改变的性质的KAH。

在根据本公开的产生KAH多肽的方法的一个优选实施方式中，参考KAH多肽具有SEQ ID NO：1或SEQ ID NO：3所示序列。

更优选地，在根据本公开的方法的步骤b)中，与

136、248、336或403的任何一个对应的至少一个氨基酸残基被替换，所述位置由参考SEQ ID NO:1或SEQ ID NO:3定义。参考多肽可以与SEQ ID NO:1或SEQ ID NO:3具有至少约80％的同源性。

在另一个实施方式中，本公开提供宿主细胞，例如含有本公开的核酸、核酸构建体或载体的转化的宿主细胞或重组宿主细胞。根据本公开的“宿主细胞”或“重组细胞”通常是通过重组DNA技术将根据本公开的核酸(即编码本公开的KAH的核酸)引入其中(或其祖先(ancestor)中)的细胞。在本公开的上下文中，根据本公开的“宿主细胞”或所述宿主细胞的亲本可以是任何类型的宿主细胞。

因此，本公开的宿主细胞可以包含编码本公开的一种或多种KAH多肽的重组核酸。

根据前述权利要求中任一项所述的宿主细胞，其中，所述宿主细胞是是真核细胞或原核细胞。因此，包括原核细胞和真核细胞二者，例如细菌、真菌、酵母等，特别优选来自酵母的细胞，例如S.cerevisiae、Y.lipolytica和K.lactis。宿主细胞还包括但不限于哺乳动物细胞系，诸如CHO、VERO、BHK、HeLa、COS、MDCK、293、3T3、WI38和脉络丛细胞系。

因此，本公开提供了用于产生KAH的方法，该方法包括在适于产生KAH的条件下培养如本文所述的宿主细胞，并任选地回收KAH。通常，宿主细胞能够产生甜菊醇或甜菊醇糖苷。

本公开的重组宿主可包含本文所述的任何多肽。通常，本公开的重组宿主能够产生甜菊醇糖苷。通常，本公开的重组宿主能够产生糖基化的二萜，诸如甜菊醇糖苷。例如，本公开的重组宿主可以能够产生例如甜菊醇-13-单糖苷、甜菊醇-19-单糖苷、13-[(β-D-吡喃葡萄糖基)氧基]贝壳杉-16-烯-18-酸2-O-β-D-吡喃葡萄糖基-β-D-吡喃葡萄糖酯、甜茶苷、甜菊苷、甜菊醇-19-双糖苷、甜菊双糖苷、莱鲍迪甙A、莱鲍迪甙E、莱鲍迪甙D或莱鲍迪甙M的一种或多种。

本公开的重组宿主可包含编码具有UDP-糖基转移酶(UGT)活性的一种或多种多肽的一种或多种重组核酸序列。

出于本公开的目的，具有UGT活性的多肽是具有糖基转移酶活性(EC2.4)的多肽，即可以充当催化剂以将单糖单元从活化的核苷酸糖(又称“糖基供体”)转移到糖基受体分子(通常是醇)的多肽。UGT的糖基供体通常是核苷酸糖尿苷二磷酸酯葡萄糖(尿嘧啶-二磷酸酯葡萄糖，UDP-葡萄糖)。

可以选择这种额外的UGT以产生期望的甜菊醇糖苷。Humphrey等，PlantMolecular Biology(2006)61：47-62和Mohamed等，J.Plant Physiology168(2011)1136-1141中示出了甜菊醇糖苷形成的示意图。此外，图1示出了甜菊醇糖苷形成的示意图。

因此，本公开的重组宿主可以包含一种或更多种重组核酸序列，所述重组核酸序列编码以下中的一种或更多种：

(i)具有UGT74G1活性的多肽；

(ii)具有UGT2活性的多肽；

(ii)具有UGT85C2活性的多肽；和

(iii)具有UGT76G1活性的多肽。

适用于本公开的重组酵母可包含编码能够催化向甜菊醇添加C-13-葡萄糖的多肽的核苷酸序列。也就是说，适用于本公开的方法的重组酵母可以包含能够催化将甜菊醇转化为甜菊单糖苷的反应的UGT。

适用于本公开的方法的这种重组酵母可包含编码具有由UDP-糖基转移酶(UGT)UGT85C2所示的活性的多肽的核苷酸序列，其中酵母转化后，所述核苷酸序列赋予所述酵母将甜菊醇转化为甜菊单糖苷的能力。

UGT85C2活性是将葡萄糖单元转移至甜菊醇的13-OH。因此，合适的UGT85C2可充当尿苷5′-二磷酸葡糖基：甜菊醇13-OH转移酶和尿苷5′-二磷酸葡糖基：甜菊醇-19-O-葡糖苷13-OH转移酶。功能性UGT85C2多肽还可催化这样的葡糖基转移酶反应，所述反应利用除甜菊醇和甜菊醇-19-O-葡糖苷以外的甜菊醇糖苷底物。此类序列可在本文中称为UGT1序列。

适用于本公开的重组酵母可以包含编码具有UGT2活性的多肽的核苷酸序列。

具有UGT2活性的多肽是充当尿苷5′-二磷酸葡萄糖基：甜菊醇-13-O-葡糖苷转移酶(又称甜菊醇-13-单葡糖苷1,2-葡糖基转移酶)的多肽，其将葡萄糖部分转移到受体分子甜菊醇-13-O-葡糖苷的13-O-葡萄糖的C-2′。典型地，适合的UGT2多肽还充当将葡萄糖部分转移到受体分子甜茶苷的13-O-葡萄糖的C-2’的尿苷5′-二磷酸葡萄糖基：甜茶苷转移酶。

具有UGT2活性的多肽也可以催化利用除甜菊醇-13-O-葡糖苷和甜茶苷以外的甜菊醇糖苷底物的反应，例如，功能性UGT2多肽可利用甜菊苷作为底物，将葡萄糖部分转移至19-O-葡萄糖残基的C-2′以产生莱鲍迪甙E。功能性UGT2多肽也可以利用莱鲍迪甙A作为底物，将葡萄糖部分转移至19-O-葡萄糖残基的C-2′以产生莱鲍迪甙D。然而，功能性UGT2多肽通常不将葡萄糖部分转移至在C-13位具有1,3-结合的葡萄糖的甜菊醇化合物，即将葡萄糖部分转移至甜菊醇1,3-双糖苷和1,3-甜菊苷通常不会发生。

具有UGT2活性的多肽也可以从除尿苷二磷酸葡萄糖以外的供体转移糖部分。例如，具有UGT2活性的多肽充当尿苷5′-二磷酸D-木糖基：甜菊醇-13-O-葡糖苷转移酶，其将木糖部分转移至受体分子甜菊醇-13-O-葡糖苷的13-O-葡萄糖的C-2′。作为另一个实例，具有UGT2活性的多肽可充当尿苷5′-二磷酸L-鼠李糖基：甜菊醇-13-O-葡糖苷转移酶，其将鼠李糖部分转移至受体分子甜菊醇的13-O-葡萄糖的C-2′。

适用于本公开方法的重组酵母可以包含编码具有UGT活性的多肽的核苷酸序列，其可以包含编码能够催化C-19-葡萄糖添加到甜菊双糖苷的多肽的核苷酸序列。也就是说，本公开的重组酵母可以包含能够催化将甜菊双糖苷转化成甜菊苷的反应的UGT。因此，这种重组酵母可以能够将甜菊双糖苷转化为甜菊苷。这种核苷酸序列的表达可以赋予重组酵母生产至少甜菊苷的能力。

因此，适用于本公开的方法的重组酵母还可以包含编码具有由UDP-糖基转移酶(UGT)UGT74G1所示的活性的多肽的核苷酸序列，其中当转化酵母后，所述核苷酸序列赋予细胞将甜菊双糖苷转化为甜菊苷的能力。

合适的UGT74G1多肽可以能够将葡萄糖单元转移至甜菊醇的13-OH或19-COOH。合适的UGT74G1多肽可充当尿苷5′-二磷酸葡糖基：甜菊醇19-COOH转移酶和尿苷5′-二磷酸葡糖基：甜菊醇-13-O-葡糖苷19-COOH转移酶。功能性UGT74G1多肽还可以催化使用除甜菊醇和甜菊醇-13-O-葡糖苷以外的甜菊醇糖苷底物或者从除尿苷二磷酸葡萄糖以外的供体转移糖部分的糖基转移酶反应。此类序列可在本文中称为UGT3序列。

适用于本公开的方法的重组酵母可包含编码能够催化甜菊苷的C-13位置的葡萄糖的C-3′的葡糖基化的多肽的核苷酸序列。也就是说，适用于本公开的方法的重组酵母可包含这样的UGT，该UGT能够催化甜菊苷转化成莱鲍迪甙A的反应。因此，这种重组酵母可以能够将甜菊苷转化为莱鲍迪甙A。这种核苷酸序列的表达可赋予酵母产生至少莱鲍迪甙A的能力。

适用于本公开的方法的重组酵母可以因此还包含编码具有由UDP-糖基转移酶(UGT)UGT76G1所示的活性的多肽的核苷酸序列，其中当转化酵母后所述核苷酸序列赋予该酵母将甜菊苷转化为莱鲍迪甙A的能力。

合适的UGT76G1向受体分子甜菊醇1,2糖苷的C-13-O-葡萄糖的C-3′添加葡萄糖部分。因此，UGT76G1充当例如尿苷5′-二磷酸葡糖基：甜菊醇13-O-1,2葡糖苷C-3′葡糖基转移酶和尿苷5′-二磷酸葡糖基：甜菊醇-19-O-葡萄糖、13-O-1,2双糖苷C-3′葡糖基转移酶。功能性UGT76G1多肽还可催化葡糖基转移酶反应，所述反应使用含有除葡萄糖以外的糖的甜菊醇糖苷底物，例如甜菊醇鼠李糖苷和甜菊醇木糖苷。此类序列可在本文中被称为UGT4序列。UGT4可以替代地或者另外地能够将RebD转化为RebM。

适用于本公开方法的重组酵母通常包含编码至少一种具有UGT1活性的多肽、至少一种具有UGT2活性的多肽、至少一种具有UGT3活性的多肽和至少一种具有UGT4活性的多肽的核苷酸序列。这些核酸序列中的一种或更多种可以是重组的。给定的核酸可编码具有一种或更多种上述活性的多肽。例如，核酸可编码具有两种、三种或四种上述活性的多肽。优选地，用于本公开的方法的重组酵母包含UGT1、UGT2和UGT3以及UGT4活性。在WO2015/007748的表1中描述了合适的UGT1、UGT2、UGT3和UGT4序列。

本公开的重组宿主可以包含两个或更多个编码具有任何一种UGT活性(例如，UGT1、UGT2、UGT3或UGT4活性)的多肽的核酸序列。当本公开的重组宿主包含两种或更多种编码具有任何一种UGT活性的多肽的核酸序列时，这些核酸序列可以相同或不同，和/或可编码相同或不同的多肽。特别地，本公开的重组宿主可以包含编码两种不同UGT2多肽的核酸序列。

根据本公开的重组宿主可以包含编码以下的一种或更多种的一种或更多种重组核苷酸序列：

具有对映-柯巴基焦磷酸合酶活性的多肽；

具有对映-贝壳杉烯合酶活性的多肽；以及

具有对映-贝壳杉烯氧化酶活性的多肽。

根据本公开的重组宿主可以包含编码除本公开的KAH多肽之外的具有贝壳杉烯酸13-羟化酶活性的多肽的重组核苷酸序列。也就是说，本公开的重组宿主可以包含一个或更多个核苷酸序列，其包含两种或更多种具有贝壳杉烯酸13-羟化酶活性的不同多肽，其中一种是本公开的KAH多肽。

出于本公开的目的，具有对映-柯巴基焦磷酸合酶(EC 5.5.1.13)的多肽能够催化化学反应：

所述酶具有一种底物，香叶基香叶基焦磷酸；以及一种产物，对映-柯巴基焦磷酸。所述酶参与赤霉素的生物合成。所述酶属于异构酶家族，特别是分子内裂解酶的类别。所述酶类别的系统名称是对映-柯巴基-二磷酸裂解酶(去环化)。通常使用的其他名称包括具有对映-柯巴基焦磷酸合酶、对映-贝壳杉烯合酶A和对映-贝壳杉烯合成酶A。

编码对映-柯巴基焦磷酸合酶的合适核酸序列可例如包含在WO2015/007748的SEQID.NO：1、3、5、7、17、19、59、61、141、142、151、152、153、154、159、160、182或184所示序列。

出于本公开的目的，具有对映-贝壳杉烯合酶活性(EC 4.2.3.19)的多肽是能够催化以下化学反应的多肽：

因此，所述酶具有一种底物，对映-柯巴基二磷酸；以及两种产物，对映-贝壳杉烯和二磷酸。

所述酶属于裂解酶家族，特别是作用于磷酸的碳-氧裂解酶。所述酶类别的系统名称是对映-柯巴基-二磷酸二磷酸-裂解酶(环化，对映-贝壳杉烯形成)。常用的其它名称包括对映-贝壳杉烯合酶B、对映-贝壳杉烯合成酶B、对映-柯巴基-二磷酸二磷酸-裂解酶和(环化)。所述酶参与双萜类生物合成。

编码对映-贝壳杉烯合酶的合适核酸序列可例如包含在WO2015/007748的SEQID.NO：9、11、13、15、17、19、63、65、143、144、155、156、157、158、159、160、183或184所示序列。

对映-柯巴基二磷酸合酶还可具有与相同蛋白质分子相关联的不同对映-贝壳杉烯合酶活性。由对映-贝壳杉烯合酶催化的反应是赤霉素的生物合成途径中的下一步骤。两种类型的酶活性是不同的，并且定点诱变以抑制蛋白质的对映-贝壳杉烯合酶活性导致对映-柯巴基焦磷酸的积累。

因此，在本公开的重组宿主中使用的单一核苷酸序列可以编码具有对映-柯巴基焦磷酸合酶活性和对映-贝壳杉烯合酶活性的多肽。或者，这两种活性可以编码在两种不同的独立核苷酸序列。

出于本公开的目的，具有对映-贝壳杉烯氧化酶活性(EC 1.14.13.78)的多肽是能够催化对映-贝壳杉烯的4-甲基的三次连续氧化以产生贝壳杉烯酸的多肽。这种活性通常需要细胞色素P450的存在。

编码对映-贝壳杉烯氧化酶的合适核酸序列可例如包含在WO2015/007748的SEQID.NO：21、23、25、67、85、145、161、162、163、180或186所示的序列。

除本公开的KAH多肽之外，编码贝壳杉烯酸13-羟化酶的合适核酸序列可例如包含在WO2015/007748的SEQ ID.NO：27、29、31、33、69、89、91、93、95、97、146、164、165、166、167或185所示的序列。

本公开的重组宿主可以包含编码具有NADPH-细胞色素p450还原酶活性的多肽的重组核酸序列。也就是说，本公开的重组宿主可以能够表达编码具有NADPH-细胞色素p450还原酶活性的多肽的核苷酸序列。出于本公开的目的，具有NADPH-细胞色素P450还原酶活性(EC 1.6.2.4；也称为NADPH：高铁血红蛋白氧化还原酶、NADPH：血红素蛋白氧化还原酶、NADPH：P450氧化还原酶、P450还原酶、POR、CPR、CYPOR)的多肽通常是这样的多肽，其为膜结合酶，从而允许电子从含有FAD和FMN的酶NADPH：细胞色素P450还原酶(POR；EC 1.6.2.4)转移至宿主细胞的微粒体中的细胞色素P450。

在本公开的重组宿主中，宿主产生香叶基香叶基二磷酸(GGPP)的能力可以被上调。在本公开的上下文中上调意味着重组宿主比等同的非重组宿主产生更多的GGPP。

因此，本公开的重组宿主可以包含编码羟甲基戊二酰基-辅酶A还原酶、法尼基-焦磷酸合成酶和香叶基香叶基二磷酸合酶的一个或多个核苷酸序列，由此微生物转化后，所述核苷酸序列赋予微生物产生提高水平的GGPP的能力。因此，根据本公开的重组宿主可包含编码羟甲基戊二酰基-辅酶A还原酶、法尼基-焦磷酸合成酶和香叶基香叶基二磷酸合酶中的一种或多种的一个或多个重组核酸序列。

因此，本公开的重组宿主可以包含编码以下中的一种或多种的核酸序列：

具有羟甲基戊二酰基-辅酶A还原酶活性的多肽；

具有法尼基-焦磷酸合成酶活性的多肽；

具有香叶基香叶基二磷酸合酶活性的多肽。

本文所定义的宿主或宿主细胞是适于遗传操作以及可以在可用于工业生产目标产物的细胞密度下培养的生物体。合适的宿主可以是微生物，例如可以在发酵装置中维持的微生物。宿主细胞可以是在自然界中发现的宿主细胞或在遗传操作或经典诱变后衍生自亲本宿主细胞的宿主细胞。

如本文所用，重组宿主是用本文定义的一个或多个核苷酸序列进行遗传修饰或转化/转染的宿主。一种或多种此类核苷酸序列的存在改变了微生物产生甜菊醇或甜菊醇糖苷，特别是一种或多种甜菊醇糖苷的能力。非重组宿主，即未转化/转染或遗传修饰的宿主，通常不包含一个或多个使细胞能够产生甜菊醇糖苷的核苷酸序列。因此，非重组宿主通常是不天然产生甜菊醇糖苷的宿主，尽管天然产生甜菊醇或甜菊醇糖苷且已根据本公开进行修饰的宿主(因此具有改变的产生甜菊醇糖苷的能力)被认为是根据本公开的重组宿主。

特别地，可行的是，选自对映-柯巴基焦磷酸合酶、对映-贝壳杉烯合酶、对映-贝壳杉烯氧化酶和贝壳杉烯酸13-羟化酶、UGTs、羟甲基戊二酰基-CoA还原酶、法尼基-焦磷酸合成酶、香叶基香叶基二磷酸合酶和NADPH-细胞色素p450还原酶的酶对于宿主而言是天然的，并且可不需要用一种或多种编码这些酶的核苷酸序列进行转化以赋予宿主细胞产生甜菊醇或甜菊醇糖苷的能力。根据本公开的一种优选宿主可以是天然能够产生GGPP(即以其非重组形式)的重组宿主。

通过经典的菌株改良可以获得宿主微生物对甜菊醇或甜菊醇糖苷生产的进一步改善。

宿主细胞可以是原核宿主细胞、古细菌宿主细胞或真核宿主细胞。

原核宿主细胞可以是但不限于细菌宿主细胞。真核宿主细胞可以是但不限于酵母、真菌、变形虫、藻类、动物、昆虫宿主细胞。

真核宿主细胞可以是真菌宿主细胞。“真菌”包括Eumycotina亚门的所有物种(Alexopoulos,C.J.,1962,在Introductory Mycology,John Wiley&Sons,Inc.，纽约)。因此，术语真菌包括丝状真菌和酵母等等。

“丝状真菌”在本文中被定义为真核微生物，其包括Eumycotina和Oomycota亚门的所有丝状形式(如由Hawksworth等人，1995，同上所定义)。丝状真菌是以由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖以及其它复合多糖构成的菌丝壁为特征。营养体生长是通过菌丝延长，并且碳代谢是专性需氧的。丝状真菌菌株包括但不限于以下菌株：Acremonium、Aspergillus、Agaricus、Aureobasidium、Cryptococcus、Corynascus、Chrysosporium、Filibasidium、Fusarium、Humicola、Magnaporthe、Monascus、Mucor、Myceliophthora、Mortierella、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Phanerochaete、Podospora、Pycnoporus、Rhizopus、Schizophyllum、Sordaria、Talaromyces、Rasmsonia、Thermoascus、Thielavia、Tolypocladium、Trametes以及Trichoderma。可充当宿主细胞的优选丝状真菌菌株属于以下物种：Aspergillus niger、Aspergillus oryzae、Aspergillus fumigatus、Penicillium chrysogenum、Penicilliumcitrinum、Acremonium chrysogenum、Trichoderma reesei、Rasamsonia emersonii(先前称为Talaromyces emersonii)、Aspergillus sojae、Chrysosporium lucknowense、Myceliophtora thermophyla。用于比较转化和未转化细胞的发酵特征的参考宿主细胞包括例如Aspergillus niger CBS120.49、CBS 513.88；Aspergillus oryzae ATCC16868、ATCC 20423、IF0 4177、ATCC 1011、ATCC 9576、ATCC14488-14491、ATCC 11601、ATCC12892；Aspergillus fumigatus AF293(CBS101355)；P.chrysogenum CBS 455.95；Penicilliumcitrinum ATCC 38065；Penicillium chrysogenum P2；Acremonium chrysogenum ATCC36225、ATCC 48272；Trichoderma reesei ATCC 26921、ATCC56765、ATCC 26921；Aspergillus sojae ATCC11906；Chrysosporium lucknowense ATCC44006以及所有这些菌株的衍生株。作为丝状真菌宿主细胞特别优选的是Aspergillus niger CBS 513.88及其衍生株。

真核宿主细胞可以是酵母细胞。优选的酵母宿主细胞可选自以下属：Saccharomyces(例如，S.cerevisiae、S.bayanus、S.pastorianus、S.carlsbergensis)、Brettanomyces、Kluyveromyces、Candida(例如，C.krusei、C.revkaufi、C.pulcherrima、C.tropicalis、C.utilis)、Issatchenkia(例如，I.orientalis)、Pichia(例如，P.pastoris)、Schizosaccharomyces、Hansenula、Kloeckera、Pachysolen、Schwanniomyces、Trichosporon、Yarrowia(例如，Y.lipolytica)(先前被分类为Candidalipolytica))、Yamadazyma。

原核宿主细胞可以是细菌宿主细胞。细菌宿主细胞可以是革兰氏阴性或革兰氏阳性细菌。细菌的实例包括但不限于属于以下属的细菌：Bacillus(例如，B.subtilis、B.amyloliquefaciens、B.licheniformis、B.puntis、B.megaterium、B.halodurans、B.pumilus)、Acinetobacter、Nocardia、Xanthobacter、Escherichia(例如，大肠杆菌(例如，菌株DH 1OB、Stbl2、DH5-α、DB3、DB3.1)、DB4、DB5、JDP682和ccdA-over(例如，美国申请号09/518,188)))、Streptomyces、Erwinia、Klebsiella、Serratia(S.marcessans)、Pseudomonas(例如，P.aeruginosa)、Salmonella(例如，S.typhimurium、S.typhi)。细菌还包括但不限于光合细菌(例如，绿色非硫细菌(例如，Choroflexus细菌(例如C.aurantiacus)、Chloronema(例如，C.gigateum))、绿色硫细菌(例如，Chlorobium细菌(例如，C.limicola)、Pelodictyon(例如，P.luteolum)、紫色硫细菌(例如，Chromatium(例如，C.okenii))以及紫色非硫细菌(例如，Rhodospirillum(例如，R.rubrum)、Rhodobacter(例如R.sphaeroides、R.capsulatus)和Rhodomicrobium细菌(例如R.vanellii))。

宿主细胞可以是来自非微生物生物体的宿主细胞。此类细胞的实例包括但不限于昆虫细胞(例如，Drosophila(例如，D.melanogaster)、Spodoptera(例如，S.frugiperdaSf9或Sf21细胞)和Trichoplusa(例如，High-Five细胞))；线虫细胞(例如，C.elegans细胞)；禽类细胞；两栖动物细胞(例如，Xenopus laevis细胞)；爬行动物细胞；以及哺乳动物细胞(例如NIH3T3、293、CHO、COS、VERO、C127、BHK、Per-C6、Bowes黑色素瘤和HeLa细胞)。

本公开还提供了一种生产本公开多肽的方法，其包括：

(a)在有助于宿主细胞产生多肽的条件下培养本公开的重组宿主细胞，并且任选地，

(b)回收多肽。

根据本公开的重组宿主可以能够在本领域中已知的任何合适的碳源上生长，并且将其转化为甜菊醇糖苷，例如甜菊醇糖苷。重组宿主可以能够直接转化植物生物质、纤维素、半纤维素、果胶、鼠李糖、半乳糖、岩藻糖、麦芽糖、麦芽糖糊精、核糖、核酮糖或淀粉、淀粉衍生物、蔗糖、葡萄糖、乳糖或甘油。因此，优选的宿主表达酶，如用于将纤维素转化成葡萄糖单体和将半纤维素转化成木糖和阿拉伯糖单体所需的纤维素酶(内切纤维素酶和外切纤维素酶)和半纤维素酶(例如内切和外切木聚糖酶、阿拉伯糖酶)，能够将果胶转化成葡萄糖醛酸和半乳糖醛酸的果胶酶或将淀粉转化成葡萄糖单体的淀粉酶。优选地，宿主能够转化选自以下的碳源：葡萄糖、木糖、阿拉伯糖、蔗糖、乳糖和甘油。宿主细胞可例如是WO03/062430、WO06/009434、EP1499708B1、WO2006096130或WO04/099381中所描述的真核宿主细胞。

因此，另一方面，本公开还提供了一种用于制备甜菊醇糖苷的方法，所述方法包括发酵本公开的重组宿主，所述重组宿主能够在合适的发酵培养基中产生至少一种甜菊醇糖苷；以及任选地回收所述甜菊醇糖苷。

甜菊醇糖苷可以是，例如，甜菊醇-13-单糖苷、甜菊醇-19-单糖苷、13-[(β-D-吡喃葡萄糖基)氧基]贝壳杉-16-烯-18-酸2-O-β-D-吡喃葡萄糖基-β-D-吡喃葡萄糖酯、甜茶苷、甜菊苷、甜菊醇-19-双糖苷、甜菊双糖苷、rebA、莱鲍迪甙B、莱鲍迪甙C、莱鲍迪甙E、莱鲍迪甙D或莱鲍迪甙M。

在用于产生甜菊醇糖苷的方法中使用的发酵培养基可以是允许特定宿主细胞生长的任何合适的发酵培养基。发酵培养基的基本要素是本领域的技术人员已知的，并且可根据所选择的宿主细胞改变。

优选地，发酵培养基包含选自以下的碳源：植物生物质、纤维素、半纤维素、果胶、鼠李糖、半乳糖、岩藻糖、果糖、麦芽糖、麦芽糖糊精、核糖、核酮糖或淀粉、淀粉衍生物、葡萄糖、蔗糖、乳糖、脂肪酸、甘油三酯和甘油。优选地，发酵培养基还包含氮源，诸如尿素；或铵盐，诸如硫酸铵、氯化铵、硝酸铵或磷酸铵。

根据本公开的发酵方法可以分批、补料分批或连续模式进行。也可应用单独的水解和发酵(SHF)方法或同时糖化和发酵(SSF)方法。这些发酵方法模式的组合对于最佳生产率来说也可以是可行的。如果在发酵方法中使用淀粉、纤维素、半纤维素或果胶作为碳源，则SSF方法可以是特别有吸引力的，其中可需要添加水解酶如纤维素酶、半纤维素酶或果胶酶以水解底物。

在用于制备甜菊醇糖苷的方法中使用的重组宿主可以是如上文所定义的任何合适的重组宿主。在所述方法中使用根据本公开的重组真核宿主可以是有利的，因为大多数真核细胞不需要用于繁殖的无菌条件并且对噬菌体感染不敏感。此外，真核宿主细胞可在低pH下生长以防止细菌污染。

根据本公开的重组宿主可以是兼性厌氧微生物。兼性厌氧重组宿主可以需氧方式繁殖至高细胞浓度。然后可在高细胞密度下进行这种厌氧阶段，这显著地降低了所需的发酵体积并且可使需氧微生物污染的风险最小化。

用于产生根据本公开的甜菊醇糖苷的发酵方法可以是需氧或厌氧发酵方法。

厌氧发酵方法可在本文中定义为在不存在氧的情况下运行或者其中基本上不消耗氧(优选小于5、2.5或1mmol/L/h)，并且其中有机分子充当电子供体和电子受体两者的发酵方法。根据本公开的发酵方法也可首先在需氧条件下运行，且随后在厌氧条件下运行。

发酵方法也可在限氧或微需氧条件下进行。或者，发酵方法可首先在需氧条件下运行，且随后在限氧条件下运行。限氧发酵方法是其中氧消耗受到从气体到液体的氧传递的限制的过程。氧限制的程度由进入气流的量和组成以及所用发酵设备的实际混合/传质特性决定。

在根据本公开的方法中产生甜菊醇糖苷可在宿主细胞的生长阶段期间、固定(稳定状态)阶段期间或在两个阶段期间发生。在不同的温度下运行发酵方法可以是可行的。

制备甜菊醇糖苷的方法可以在对重组宿主最佳的温度下进行。对于每种转化的重组宿主，最佳生长温度可以不同，并且是本领域技术人员已知的。最佳温度可高于野生型生物体的最适温度以在非无菌条件下在最低感染敏感性和最低冷却成本的条件下使生物体有效生长。或者，所述方法可在对于重组宿主的生长来说不是最佳的温度下进行。

用于产生根据本公开的甜菊醇糖苷的方法可在任何合适的pH值下进行。如果重组宿主是酵母，则发酵培养基中的pH优选具有低于pH6、优选低于pH5.5、优选低于pH5、优选低于pH4.5、优选低于pH4、优选低于pH 3.5或低于pH 3.0或低于pH 2.5、优选高于pH 2的值。在这些低pH值下进行发酵的优点是可防止发酵培养基中污染细菌的生长。

这种方法可在工业规模上进行。这种方法的产物是一种或多种甜菊醇糖苷，例如，以下的一种或多种，例如，甜菊醇-13-单糖苷、甜菊醇-19-单糖苷、13-[(β-D-吡喃葡萄糖基)氧基]贝壳杉-16-烯-18-酸2-O-β-D-吡喃葡萄糖基-β-D-吡喃葡萄糖酯、甜茶苷、甜菊苷、甜菊醇-19-双糖苷、甜菊双糖苷、莱鲍迪甙A、莱鲍迪甙E、莱鲍迪甙D或莱鲍迪甙M。

从发酵培养基中回收甜菊醇糖苷可通过本领域已知的方法进行，例如通过蒸馏、真空萃取、溶剂萃取或蒸发。

在用于产生根据本公开的甜菊醇糖苷的方法中，可以能够实现高于5mg/l发酵液的浓度、优选高于10mg/l、优选高于20mg/l、优选高于30mg/l发酵液、优选高于40mg/l、更优选高于50mg/l、优选高于60mg/l、优选高于70、优选高于80mg/l、优选高于100mg/l、优选高于1g/l、优选高于5g/l、优选高于10g/l、但通常低于70g/l。

本公开还提供了一种包含能够通过本公开的用于制备甜菊醇糖苷的方法获得的甜菊醇糖苷的发酵液。

根据本公开的发酵液可包含本公开的重组宿主细胞。或者，本公开的发酵液可以是本公开的所有宿主细胞不存在或基本上不存在的发酵液，例如上清液。

在微生物中表达一种或多种甜菊醇糖苷的情况下，可需要处理此类细胞以释放它们。优选地，在细胞外产生至少一种甜菊醇糖苷，例如rebA、reb D或rebM。

与由表达参考多肽而不是本公开的多肽的重组宿主产生的发酵液相比，根据本公开的发酵液可以包含更多的至少一种甜菊醇糖苷，诸如rebA、rebD或rebM。

与由表达参考多肽而不是本公开的多肽的重组宿主产生的发酵液相比，根据本公开的发酵液可以包含更少的至少一种非甜菊醇糖苷，例如，一种或多种贝壳杉烯酸糖苷。

本公开还提供了一种通过根据本公开的用于制备甜菊醇糖苷的方法获得的或能够从本公开的发酵液获得的甜菊醇糖苷。这种甜菊醇糖苷可以是非天然存在的甜菊醇糖苷，也就是说不在植物中产生的甜菊醇糖苷。

本公开还提供了包含能够通过用于制备甜菊醇糖苷的本公开的方法获得的或能够从本公开的发酵液获得的一种或多种(例如两种或更多种)甜菊醇糖苷的组合物。在这种组合物中，一种或多种甜菊醇糖苷可以是非天然存在的甜菊醇糖苷，也就是说不在植物中产生的甜菊醇糖苷。

此外，本公开提供了一种将甜菊醇或第一甜菊醇糖苷转化为第二甜菊醇糖苷的方法，该方法包括：

-使所述甜菊醇或第一甜菊醇糖苷与本公开的重组宿主、衍生自这种重组宿主的无细胞提取物或衍生自其任一种的酶制剂接触；

-从而将第一甜菊醇糖苷转化为第二甜菊醇糖苷。

第一甜菊醇糖苷可以是任何甜菊醇糖苷，诸如图1中所示的甜菊醇糖苷。第二甜菊醇糖苷可以是通过UGT酶对第一甜菊醇糖苷(例如图1中所示的任何甜菊醇糖苷)的作用产生的任何甜菊醇糖苷。

在这种方法中，第二甜菊醇糖苷可以是例如rebA、rebE、rebD或RebM。

在这种方法中，第一甜菊醇糖苷可以是甜菊苷、rebB、rebA、rebE或rebD，第二甜菊醇糖苷可以是rebA、rebD或rebM。

优选地，第一甜菊醇糖苷是rebA，第二甜菊醇糖苷是rebD或第一甜菊醇糖苷是rebD，并且第二甜菊醇糖苷是rebM。

也就是说，本公开涉及生物转换或生物转化的方法。

通过根据本公开的发酵方法产生的甜菊醇糖苷或组合物可用于对于此类化合物来说已知的任何应用中。特别地，它们可例如用作甜味剂，例如用于食品或饮料中。因此，根据本公开，提供了一种包含本公开的甜菊醇糖苷或组合物的食品、饲料或饮料。

例如，本公开的甜菊醇糖苷或组合物可被配制成软饮料、配制为桌面甜味剂、口香糖、乳制品如酸奶(例如原味酸奶)、蛋糕、谷物或基于谷类的食物、营养食品、药物、食用凝胶、糖果产品、化妆品、牙膏或其它口腔组合物等。此外，本公开的甜菊醇糖苷或组合物可用作甜味剂，不仅用于饮料、食品和其它专门用于人消费的产品，而且用于具有改进的特性的动物饲料和草料中。

因此，本公开尤其提供了一种包含根据本公开的方法制备的甜菊醇糖苷的食品、饲料或饮料。

在食品、饮料、药物、化妆品、桌面产品、口香糖的制造过程中，可使用诸如混合、捏合、溶解、酸洗、渗透、渗滤、喷洒、雾化、灌注和其它方法的常规方法。

本公开的甜菊醇糖苷或组合物可以干或液体的形式使用。它可在食品热处理之前或之后加入。甜味剂的量取决于使用目的。它可单独添加或与其它化合物组合添加。

根据本公开的方法产生的化合物可与一种或多种其它非热量或热量甜味剂掺混。这种掺混可用于改进风味或时间特征或稳定性。广泛范围的非热量和热量甜味剂二者可适用于与本公开的甜菊醇糖苷或组合物掺混。例如，非热量甜味剂如罗汉果苷、莫纳甜、阿斯巴甜、安赛蜜盐、环磺酸盐、三氯蔗糖、糖精盐或赤藓糖醇。适用于与本公开的甜菊醇糖苷掺混的热量甜味剂包括糖醇和碳水化合物如蔗糖、葡萄糖、果糖和HFCS。还可使用甜味氨基酸，如甘氨酸、丙氨酸或丝氨酸。

本公开的甜菊醇糖苷或组合物可与甜味剂抑制剂如天然甜味剂抑制剂组合使用。它可与鲜味增强剂如氨基酸或其盐组合。

本公开的甜菊醇糖苷或组合物可与多元醇或糖醇、碳水化合物、生理活性物质或功能成分(例如类胡萝卜素、膳食纤维、脂肪酸、皂苷、抗氧化剂、营养食品、类黄酮、异硫氰酸酯、苯酚、植物甾醇或甾烷醇(植物甾醇和植物甾烷醇)、多元醇、益生元、益生菌、植物雌激素、大豆蛋白、硫化物/硫醇、氨基酸、蛋白质、维生素、矿物质和/或基于健康益处如心血管、降胆固醇或抗炎分类的物质组合。

具有本公开的甜菊醇糖苷或组合物的组合物可包括调味剂、芳香组分、核苷酸、有机酸、有机酸盐、无机酸、苦味化合物、蛋白质或蛋白质水解产物、表面活性剂、类黄酮、收敛剂化合物、维生素、膳食纤维、抗氧化剂、脂肪酸和/或盐。

本公开的甜菊醇糖苷或组合物可作为高强度甜味剂应用，以产生具有改进的味道特征的零卡路里、低卡路里或糖尿病人用饮料和食品。它也可用于不能使用糖的饮料、食品、药物和其他产品中。

此外，本公开的甜菊醇糖苷或组合物可用作甜味剂，不仅用于饮料、食品和其它专门用于人消费的产品，而且用于具有改进的特性的动物饲料和草料中。

本公开的甜菊醇糖苷或组合物可用作甜味化合物的产品的实例可以是酒精饮料，如伏特加酒、葡萄酒、啤酒、烈酒、清酒等；天然果汁、提神饮料、碳酸软饮料、减肥饮料、零卡路里饮料、低卡路里饮料和食物、酸奶饮料、速溶果汁、速溶咖啡、粉末型速溶饮料、罐装产品、糖浆、发酵大豆酱、酱油、醋、调味品、蛋黄酱、番茄酱、咖喱、汤、速食肉汤、酱油粉、醋粉、多种类型的饼干、香米饼、咸饼干、面包、巧克力、焦糖、糖果、口香糖、果冻、布丁、蜜饯和腌菜、鲜奶油、果酱、橘子酱、糖花膏、奶粉、冰淇淋、冰糕、包装在瓶中的蔬菜和水果、罐装和煮熟的豆类、在甜味酱中煮熟的肉和食物、农业蔬菜食品、海鲜、火腿、香肠、鱼火腿、鱼香肠、鱼酱、油炸鱼制品、干制海产品、冷冻食品、腌渍海带、腊肉、烟草、医药产品等。原则上它可具有无限应用。

甜味组合物包含饮料，其非限制性实例包括非碳酸化和碳酸饮料，如可乐、姜汁汽水、根汁汽水、苹果汁、水果味软饮料(例如柑橘味软饮料，如柠檬莱姆或橙汁)、软饮料粉等；来自水果或蔬菜的果汁、包括榨汁等的果汁、含有果粒的果汁、水果饮料、果汁饮料、含果汁的饮料、具有水果调味料的饮料、蔬菜汁、含蔬菜的汁以及含水果和蔬菜的混合果汁；运动饮料、能量饮料、接近水的饮料等(例如具有天然或合成调味剂的水)；茶类或喜欢型饮料如咖啡、可可、红茶、绿茶、乌龙茶等；含乳成分饮料如乳饮料、含乳成分咖啡、牛奶咖啡、奶茶、果奶饮料、饮用酸奶、乳酸菌饮料等；以及乳制品。

通常，甜味组合物中存在的甜味剂的量取决于甜味组合物的具体类型及其所需的甜度而广泛变化。本领域的普通技术人员可容易确定加入到甜味组合物中的甜味剂的适当量。

本公开的甜菊醇糖苷或组合物可以干或液体形式使用。它可在食品热处理之前或之后加入。甜味剂的量取决于使用目的。它可单独添加或与其它化合物组合添加。

因此，本公开的组合物可通过本领域的技术人员已知的提供成分的均匀或均质混合物的任何方法来制备。这些方法包括干混、喷雾干燥、团聚、湿法制粒、压实、共结晶等。

呈固体形式时，本公开的甜菊醇糖苷或组合物可以适于递送到待甜化的食物中的任何形式提供给消费者，所述形式包括小袋、小包、散装袋或盒、方块、片剂、喷雾或可溶解的条。所述组合物可以单位剂量或散装形式递送。

对于液体甜味剂体系和组合物而言，应开发方便范围的流体、半流体、糊状和膏状形式、使用任何形状或形式的适当包装材料的适当包装，其便于携带或分配或储存或运输含有任何上述甜味剂产品或上述产品的组合的任何组合。

所述组合物可包含多种填充剂、功能成分、着色剂、调味剂。

术语“序列同源性”或“序列同一性”在本文中可互换使用。出于本公开的目的，在此定义为了确定两个氨基酸序列或两个核酸序列的序列同源性或序列同一性的百分比，出于最佳比较目的比对所述序列。为了优化两个序列之间的比对，可在比较的两个序列中的任一个中引入空位。这种比对可在所比较的序列的全长上进行。或者，比对可在更短的长度上进行，例如在约20、约50、约100或更多个核酸/碱基或氨基酸上进行。序列同一性是在所报告的比对区域上两个序列之间的相同匹配的百分比。

两个序列之间的序列比较和序列同一性百分比的确定可使用数学算法来完成。本领域的技术人员将意识到以下事实：若干不同的计算机程序可用于比对两个序列并确定两个序列之间的同一性(Kruskal,J.B.(1983)An overview of sequence comparison InD.Sankoff and J.B.Kruskal,(编辑),Time warps,string edits and macromolecules:the theory and practice of sequence comparison,第1-44页Addison Wesley)。两个氨基酸序列之间或两个核苷酸序列之间的序列同一性百分比可使用用于两个序列的比对的Needleman和Wunsch算法来确定(Needleman,S.B.和Wunsch,C.D.(1970)J.Mol.Biol.48,443-453)。氨基酸序列和核苷酸序列两者均可通过所述算法进行比对。Needleman-Wunsch算法已在计算机程序NEEDLE中实现。出于本公开的目的，使用了来自EMBOSS包的NEEDLE程序(2.8.0版或更高版本,EMBOSS:The European Molecular Biology Open SoftwareSuite(2000)Rice,P.Longden,I.和Bleasby,A.Trends in Genetics16,(6)第276-277页,http://emboss.bioinformatics.nl/)。对于蛋白质序列而言，EBLOSUM62用于取代矩阵。对于核苷酸序列而言，使用EDNAFULL。所使用的任选参数是空位开放罚分为10，以及空位延伸罚分为0.5。技术人员将理解的是，所有这些不同的参数将产生稍微不同的结果，但是当使用不同的算法时，两个序列的总体同一性百分比没有显著改变。

在通过如上所述的程序NEEDLE进行比对后，查询序列与本公开的序列之间的序列同一性的百分比计算如下：在两个序列中显示相同氨基酸或相同核苷酸的比对中的相应位置的数目除以在减去比对中的总空位数后比对的总长度。如本文定义的同一性可通过使用NOBRIEF选项从NEEDLE获得，并且在程序的输出中标记为“最长同一性”。

本公开的核酸和蛋白质序列可进一步用作“查询序列”以进行针对公共数据库的检索，以例如鉴定其它家族成员或相关序列。此类搜索可使用Altschul等人(1990)J.Mol.Biol.215:403—10的NBLAST和XBLAST程序(2.0版)进行。BLAST核苷酸搜索可用NBLAST程序(得分＝100、字长＝12)来进行，以获得与本公开的核酸分子同源的核苷酸序列。BLAST蛋白质搜索可用XBLAST程序(得分＝50、字长＝3)来进行，以获得与本公开的蛋白分子同源的氨基酸序列。为了获得用于比较目的的空位比对，可利用如在Altschul等人,(1997)Nucleic Acids Res.25(17):3389-3402中描述的空位BLAST。当利用BLAST和空位BLAST程序时，可使用相应程序(例如XBLAST和NBLAST)的默认参数。参见美国国家生物技术信息中心http://www.ncbi.nlm.nih.gov/的主页。

本公开的一些实施方式

1.具有贝壳杉烯酸13-羟化酶活性的多肽，该多肽包含氨基酸序列，当与包含SEQID NO：1或SEQ ID NO：3所示序列的贝壳杉烯酸13-羟化酶比对时，该氨基酸序列包含对应于位置

136、248、336或403的任何氨基酸的至少一个氨基酸替换，

所述位置是参考SEQ ID NO：1或SEQ ID NO：3定义的，并且其中所述多肽与具有贝壳杉烯酸13-羟化酶活性的参考多肽相比具有一种或多种改变的特性。

2.根据实施方式1的多肽，其中通过使用EMBOSS Needle比对方法，使用EBLOSUM62作为替换矩阵，使用缺口开放罚分为10和缺口延伸罚分为0.5将具有贝壳杉烯酸13-羟化酶活性的多肽的氨基酸序列与SEQ ID NO：1或SEQ ID NO：3示出的氨基酸序列比对来识别具有贝壳杉烯酸13-羟化酶活性的多肽中对应于位置136、248、336或403的任何氨基酸的位置，所述位置参考SEQ ID NO：1或SEQ ID NO：3定义。

3.根据实施方式1的多肽，其中所述改变的特性是改变的贝壳杉烯酸13-羟化酶活性。

4.根据实施方式1或2的多肽，其中所述参考多肽包含SEQ ID NO：1或SEQ ID NO：3的贝壳杉烯酸13-羟化酶。

5.根据前述实施方式中任一项的多肽，其中

i.甲硫氨酸(M)、缬氨酸(V)、丙氨酸(A)、苯丙氨酸(F)、色氨酸(W)、谷氨酰胺(Q)、组氨酸(H)或苏氨酸(T)存在于与136对应的位置处；和/或

ii.天冬酰胺(N)、谷氨酰胺(Q)、苏氨酸(T)、甘氨酸(G)、丙氨酸(A)、异亮氨酸(I)、缬氨酸(V)、苯丙氨酸(F)或脯氨酸(P)存在于与248对应的位置处；和/或

iii.丝氨酸(S)、丙氨酸(A)或异亮氨酸(I)存在于与336对应的位置处；和/或

iv.甘氨酸(G)、亮氨酸(L)、缬氨酸(V)、丙氨酸(A)、甲硫氨酸(M)或丝氨酸(S)存在于与403对应的位置处，

所述位置是参考SEQ ID NO:1或SEQ ID NO:3定义的。

6.根据前述实施方式中任一项的多肽，其中：

(i)甲硫氨酸或缬氨酸存在于位置136；

(ii)天冬酰胺存在于位置248；

(iii)丝氨酸存在于位置336；和/或

(iv)甘氨酸存在于位置403，

所述位置参考SEQ ID NO:1或SEQ ID NO:3定义。

7.根据前述实施方式中任一项的多肽，其中该多肽包含氨基酸序列，当与包含SEQID NO：1或SEQ ID NO：3所示序列的KAH比对时，该氨基酸序列包含至少以下对应于：

136和248

136和336

136和403

248和336

248和403

336和403

136、248和403

136、336和403

136、248和336

248、336和403或

136、248、336和403的任何氨基酸的氨基酸的替换，

所述位置是参考SEQ ID NO:1或SEQ ID NO:3定义的。

8.根据前述实施方式中任一项的多肽，该多肽包含氨基酸序列，当与包含SEQ IDNO：1或SEQ ID NO：3所示序列的KAH比对时，该氨基酸序列包含至少以下对应于：

的任何氨基酸的氨基酸的替换，所述位置参考SEQ ID NO:1或SEQ ID NO:3定义。

9.根据前述实施方式中任一项所述的多肽，其中，所述多肽是非天然存在的多肽。

10.根据前述实施方式中任一项所述的多肽，所述多肽包含除前述实施方式中任一个定义的那些之外的另外的替换。

11.根据前述实施方式中任一项所述的多肽，所述多肽包含与SEQ ID NO：1或SEQID NO：3具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少97％、至少98％或至少99％序列同一性的氨基酸序列。

12.具有贝壳杉烯酸13-羟化酶活性的多肽，所述多肽包含与SEQ ID NO 5、7、9、11或13中的任一个具有至少约95％序列同一性、至少96％、至少97％、至少98％或至少99％序列同一性的氨基酸序列。

13.包含编码根据前述实施方式中任一项所述的多肽的序列的核酸。

14.核酸构建体，其包含可操作地连接至一个或多个能够指导贝壳杉烯酸13-羟化酶在合适的表达宿主中表达的控制序列的实施方式13所述的核酸序列。

15.表达载体，所述表达载体包含根据实施方式14所述的核酸或根据实施方式13所述的核酸构建体。

16.重组宿主，所述重组宿主包含根据实施方式13所述的核酸、根据实施方式14所述的核酸构建体或根据实施方式15所述的表达载体。

17.根据实施方式16所述的重组宿主，所述重组宿主能够产生甜菊醇或甜菊醇糖苷。

18.根据实施方式16或17所述的重组宿主，所述重组宿主包含一种或多种编码以下的重组核苷酸序列：

具有对映-柯巴基焦磷酸合酶活性的多肽；

具有对映-贝壳杉烯合酶活性的多肽；以及

具有对映-贝壳杉烯氧化酶活性的多肽；以及任选地

具有贝壳杉烯酸13-羟化酶活性的多肽，其不同于根据实施方式1至12中任一项所述的多肽。

19.根据实施方式16-18中任一项所述的重组宿主，其包含重组核酸序列，所述重组核酸序列编码具有NADPH-细胞色素p450还原酶活性的多肽。

20.根据实施方式16-19中任一项所述的重组宿主，其包含编码以下中的一种或更多种的重组核酸序列：

(i)具有UGT74G1活性的多肽；

(ii)具有UGT2活性的多肽；

(iii)具有UGT85C2活性的多肽；以及

(iv)具有UGT76G1活性的多肽。

21.根据实施方式16至20中任一项所述的重组宿主，其中所述宿主属于以下属中的一种：Saccharomyces、Aspergillus、Pichia、Kluyveromyces、Candida、Hansenula、Humicola、Issatchenkia、Trichosporon、Brettanomyces、Pachysolen、Yarrowia、Yamadazyma或Escherichia。

22.根据实施方式21所述的重组宿主，其中所述重组宿主是Saccharomycescerevisiae细胞、Yarrowia lipolitica细胞、Candida krusei细胞、Issatchenkiaorientalis细胞或Escherichia coli细胞。

23.根据实施方式16至22中任一项所述的重组宿主，其中所述宿主产生香叶基香叶基二磷酸(GGPP)的能力被上调。

24.根据实施方式16至23中任一项所述的重组宿主，其包含编码以下中的一种或更多种的核酸序列：

具有羟甲基戊二酰基-辅酶A还原酶活性的多肽；

具有法尼基-焦磷酸合成酶活性的多肽；

具有香叶基香叶基二磷酸合酶活性的多肽。

25.一种产生根据实施方式1至12中任一项所述的KAH多肽的方法，所述方法包括：

a)选择参考KAH多肽(诸如与具有根据SEQ ID NO：1或SEQ ID NO：3的氨基酸序列的多肽具有至少80％序列同一性的参考多肽)；

b)替换至少一个对应于

136、248、336或403中的任何一个的氨基酸残基，

所述位置参考SEQ ID NO:1或SEQ ID NO:3定义；

c)任选地替换b)中定义的一种或多种其他氨基酸；

d)制备由步骤a)-c)得到的KAH；

e)确定KAH的性质，例如如实施例中所述的；并且

f)选择与参考KAH多肽相比具有改变的性质的KAH。

26.一种用于制备甜菊醇或甜菊醇糖苷的方法，所述方法包括在合适的发酵培养基中发酵根据实施方式16-24中任一项所述的重组宿主，以及任选地回收所述甜菊醇或甜菊醇糖苷。

27.根据实施方式26所述的方法，其用于制备甜菊醇糖苷，其中所述方法以工业规模进行。

28.发酵液，其包含能够通过根据实施方式26或27所述的方法获得的甜菊醇糖苷。

29.甜菊醇糖苷，其通过根据实施方式26或27所述的方法获得或从根据实施方式28所述的发酵液获得。

30.包含根据实施方式29所述的一种或多种甜菊醇糖苷的组合物。

31.食品、饲料或饮料，其包含根据实施方式29所述的甜菊醇糖苷或根据实施方式30所述的组合物。

32.一种将甜菊醇或第一甜菊醇糖苷转化为第二甜菊醇糖苷的方法，所述方法包括：

-使所述甜菊醇或第一甜菊醇糖苷与根据实施方式16至24中任一项所述的重组宿主、源自这种重组宿主的无细胞提取物或源自其中的任一种的酶制剂接触；

-从而将所述甜菊醇或第一甜菊醇糖苷转化为第二甜菊醇糖苷。

33.根据实施方式32所述的方法，其中所述第二甜菊醇糖苷是：rebA、rebE、rebD或RebM。

34.根据实施方式33所述的方法，其中所述第一甜菊醇糖苷是甜菊苷、rebB、rebA、rebE或rebD，并且第二甜菊醇糖苷是rebA、rebD或rebM。

35.一种用于制备根据实施方式1至12中任一项所述的贝壳杉烯酸13-羟化酶的方法，其包括在适于通过宿主细胞产生贝壳杉烯酸13-羟化酶的条件下培养根据实施方式16至24中任一项所述的重组宿主细胞，并且任选地，回收贝壳杉烯酸13-羟化酶。

在本文对专利文件或作为现有技术给出的其他材料的引用不应被认为承认该文件或材料是已知的或它包含的信息是任何权利要求的优先权日时公知常识的一部分。

在本文所述的每个参考文献的公开内容均通过引用整体并入本文。

通过以下实施例进一步说明本公开：

实施例

综述

标准遗传技术(如在宿主细胞中过表达酶以及宿主细胞的另外遗传修饰)是本领域已知的方法，例如在Sambrook和Russel(2001)"Molecular Cloning:A LaboratoryManual(第3版),Cold Spring Harbor Laboratory,Cold Spring Harbor LaboratoryPress，或F.Ausubel等人编辑,"Current protocols in molecular biology",GreenPublishing and Wiley Interscience,New York(1987)中所描述的。用于真菌宿主细胞的转化和遗传修饰的方法从例如EP-A-0635574、WO 98/46772、WO 99/60102和WO 00/37671中获知。

实施例1.Yarrowialipolytica中的KAH表达

不同的贝壳杉烯酸羟化酶(KAH)编码基因(参见下表1)在DNA2.0作为载体中的克隆基因订购，并且包含INT3整合侧翼(其允许Y.lipolytica中的同源重组)和KAH的启动子-orf-终止子和HygB(编码对潮霉素的抗性)。质粒图谱见图2。

表1.KAH基因

从质粒中PCR扩增含有整合侧翼、KAH和HygB表达盒的表达途径。将纯化的PCR产物转化至Y.lipolytica菌株STV2226，并选择潮霉素抗性菌落。除了KAH，STV2226菌株已经表达生产甜菊醇糖苷的甜菊醇糖苷生产所需的所有基因。该菌株的基因内容如下表2所示。在专利申请号WO2013/110673和WO2015/007748中更详细地描述了类似菌株的构建。STV2226菌株在ku70基因中含有1658bp的内部缺失，以提高靶向整合的效率。

表2.菌株STV2226的基因型。括号内表示菌株中存在的基因拷贝数

实施例2.在表达KAH基因的菌株中产生糖基化的贝壳杉烯酸和甜菊醇糖苷

将用不同KAH基因转化的STV2226涂布在含有潮霉素的YPhD平板上，获得单菌落分离物，并进行生产测试：作为预培养物，用来自含有潮霉素的YEPh-D琼脂平板的菌落材料接种200μl含葡萄糖的YEP。将预培养物在Infors培养箱中在30℃，750rpm和80％湿度下孵育72小时。使用40μl预培养物接种2.5ml矿物质培养基，其中葡萄糖作为碳源。将这些生产培养物在Infors培养箱中在30℃，550转每分钟，80％湿度下孵育120小时。通过在3000g离心10分钟来沉淀生产培养物。离心后，转移上清液并在33％乙腈中稀释，并使用LC/MS分析甜菊醇、甜菊醇糖苷、贝壳杉烯酸(KA)和糖基化的贝壳杉烯酸(KA-糖苷)。为了表示数据，将甜菊醇糖苷滴度(mM)和KA-糖苷滴度(mM)归一化为用KAH4_m4(SEQ ID NO：2)转化的STV2226获得的滴度。有关结果的概述，请参阅表3。

表3.KA-糖苷和甜菊醇糖苷的产生。数值代表大多数基因的大约9个重复的平均值，并且对于所有基因至少重复两次。将甜菊醇糖苷(mM)和KA-糖苷(mM)归一化为用KAH4_ m4转化的菌株STV2226中的产生。

甜菊醇糖苷的总和包括甜菊醇-13-单糖苷、甜菊醇-19-单糖苷、甜菊双糖苷、甜茶苷、莱鲍迪甙B、甜菊苷、莱鲍迪甙A、莱鲍迪甙E、莱鲍迪甙D和莱鲍迪甙M。KA-糖苷的总和包括KA、KA-19-单葡糖苷、KA-19-二葡糖苷和KA-19-三葡糖苷。

表达KAH基因KAH4_p19、KAH4_p20、KAH4_p21和KAH4_p22的菌株产生更高滴度的甜菊醇糖苷。与KAH4_m4相比，这些基因中的一些的表达导致总甜菊醇糖苷产生有30％或更多的改善。对于基因KAH4_p18、KAH4_p20、KAH4_p21和KAH4_p22，不期望的KA-糖苷的形成大大减少。与表达KAH4_m4的菌株相比，表达基因KAH4_p18至KAH4_p22的所有菌株的期望产物(甜菊醇糖苷)与不期望副产物(KA-糖苷)的比例增加，对于一些KAH基因，甚至超过2倍。这些结果说明KAH4_p18至KAH4_p22酶有益于甜菊醇糖苷的产生。

实施例3：生物反应器中糖基化贝壳杉烯酸和甜菊醇糖苷的产生

将如上所述构建的表达KAH4_m4(参考)、KAH4_p20和KAH4_p21的三个菌株在50mL矿物培养基的500mL摇瓶中在30℃和280rpm下培养3天。随后，将6ml摇瓶的内容物转移到起始体积为0.3L的发酵罐中。通过添加氨(12.5wt％)将pH控制在5.0。温度控制在30℃。通过控制葡萄糖进料到发酵罐来限制葡萄糖浓度。摇瓶和发酵的矿物质培养基基于Verduyn等人(Verduyn C，Postma E，Scheffers WA，Van Dijken JP.Yeast，1992年7月；8(7)：501-517)。将发酵液样品在水和33％乙腈中稀释，并用LC/MS分析。

表4.生物反应器中甜菊醇糖苷和KA-糖苷的产生。将甜菊醇糖苷(mM)和KA-糖苷 (mM)归一化为用KAH4_m4转化的菌株STV2226中的产生。

甜菊醇糖苷的总和包括甜菊醇、甜菊醇-13-单糖苷、甜菊醇-19-单糖苷、甜菊双糖苷、甜茶苷、莱鲍迪甙B、甜菊苷、莱鲍迪甙A、莱鲍迪甙E、莱鲍迪甙D和莱鲍迪甙M。KA-糖苷的总和包括KA、KA-19-单葡糖苷、KA-19-二葡糖苷和KA-19-三葡糖苷。

我们观察到，当表达KAH4_p20时，甜菊醇糖苷的量增加，导致总甜菊醇糖苷的产量增加20％。此外，KA-糖苷的量减少，超过35％。当表达KAH4_p21时，KA-糖苷的减少甚至更高，减少超过60％。结果，使用KAH4_p20或KAH4_p21表达，与表达KAH4_m4的菌株相比，甜菊醇糖苷相对于KA-糖苷的比例显著增加。使用KAH4_p20或KAH4_p21将对甜菊醇糖苷的产生和纯化产生积极影响。

序列表

<110> 帝斯曼知识产权资产管理有限公司

<120> 贝壳杉烯酸羟化酶

<130> 32301-WO-PCT

<150> EP 16202945.8

<151> 2016-12-08

<160> 25

<170> PatentIn version 3.5

<210> 1

<211> 525

<212> PRT

<213> Arabidopsis thaliana

<400> 1

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Cys Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Ser Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Lys Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Thr Leu

115 120 125

Asn Leu Gly Arg Ile Thr His Ile Thr Lys Arg Leu Asn Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Ile Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Lys Arg Gly Gly Glu Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Ser Phe Ser Lys Gly Lys Ala Ile Phe Ser Met Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Ile Glu Cys Lys Asp Thr His Lys Lys Asp Leu Met Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Val Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ser

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 2

<211> 1578

<212> DNA

<213> Artificial sequence

<220>

<223> kaurenoic acid 13-hydroxylase from Arabidopsis thaliana,

codon-pair optimized for expression in Yarrowia lipolitica.

<400> 2

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gctgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cactgctccg gtgacaacat catctcccac 240

gactactctt cttctctgtt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccactggcct caagcagcac ctctacatca accaccccga gatggtcaag 360

gagctctccc agaccaacac cctcaacctc ggccgaatca cccacatcac caagcgactc 420

aaccccattc tcggtaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cctacgagtt cacccacgac aagatcaagg gtatggtcgg tctgatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcaagcgagg tggtgagatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggatgtct ccgctgacgt cattgccaag 660

gcctgtttcg gctcttcctt ctccaagggc aaggccatct tctccatgat ccgagatctg 720

ctcaccgcca tcaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgacgctc tcgagatgga gctcgagtcc 840

tccatctggg agactgtcaa ggagcgagag attgagtgca aggacaccca caagaaggac 900

ctcatgcagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tctgcttacc gacgattcgt tgtcgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttccgtttc ttggtgcctc atgctgctcg ctctcaaccc ctcttggcag 1080

gtcaagatcc gagatgagat tctgtcctcc tgcaagaacg gtatccccga cgccgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacattcgac tcggtgatct ggttgtcccc 1260

aagggtgtct gtatctggac cctcatcccc gctctgcacc gagatcccga gatctggggt 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcctgcaag 1380

tacccccagt cctacatccc ctttggcctc ggcccccgaa cctgtgtcgg caagaacttt 1440

ggtatgatgg aggtcaaggt cctcgtttct ctgattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctgctcg tcgagcccca gcacggtgtt 1560

gtcatccgag ttgtataa 1578

<210> 3

<211> 525

<212> PRT

<213> Artificial sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 3

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Ile Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 4

<211> 1578

<212> DNA

<213> Artificial sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 4

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacatcac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 5

<211> 525

<212> PRT

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 5

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Met Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 6

<211> 1578

<212> DNA

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 6

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacatgac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 7

<211> 525

<212> PRT

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 7

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Ile Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Ser

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 8

<211> 1578

<212> DNA

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 8

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacatcac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactccgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 9

<211> 525

<212> PRT

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 9

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Val Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 10

<211> 1578

<212> DNA

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 10

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacgtcac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 11

<211> 525

<212> PRT

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 11

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Ile Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Asn Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Ile Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 12

<211> 1578

<212> DNA

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 12

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacatcac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg aaacgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccattg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 13

<211> 525

<212> PRT

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase polypeptide

<400> 13

Met Glu Ser Leu Val Val His Thr Val Asn Ala Ile Trp Cys Ile Val

1 5 10 15

Ile Val Gly Ile Phe Ser Val Gly Tyr His Val Tyr Gly Arg Ala Val

20 25 30

Val Glu Gln Trp Arg Met Arg Arg Ser Leu Lys Leu Gln Gly Val Lys

35 40 45

Gly Pro Pro Pro Ser Ile Phe Asn Gly Asn Val Ser Glu Met Gln Arg

50 55 60

Ile Gln Ser Glu Ala Lys His Asn Ser Gly Asp Asn Ile Ile Ser His

65 70 75 80

Asp Tyr Ser Ser Thr Leu Phe Pro His Phe Asp His Trp Arg Lys Gln

85 90 95

Tyr Gly Arg Ile Tyr Thr Tyr Ser Thr Gly Leu Arg Gln His Leu Tyr

100 105 110

Ile Asn His Pro Glu Met Val Lys Glu Leu Ser Gln Thr Asn Ser Leu

115 120 125

Asp Leu Gly Arg Ile Thr His Ile Thr Lys Arg Leu Ala Pro Ile Leu

130 135 140

Gly Asn Gly Ile Ile Thr Ser Asn Gly Pro His Trp Ala His Gln Arg

145 150 155 160

Arg Ile Ile Ala Tyr Glu Phe Thr His Asp Lys Val Lys Gly Met Val

165 170 175

Gly Leu Met Val Glu Ser Ala Met Pro Met Leu Asn Lys Trp Glu Glu

180 185 190

Met Val Glu Ala Glu Gly Gly Met Gly Cys Asp Ile Arg Val Asp Glu

195 200 205

Asp Leu Lys Asp Val Ser Ala Asp Val Ile Ala Lys Ala Cys Phe Gly

210 215 220

Ser Asn Phe Ser Lys Gly Lys Ala Ile Phe Ser Lys Ile Arg Asp Leu

225 230 235 240

Leu Thr Ala Ile Thr Lys Arg Ser Val Leu Phe Arg Phe Asn Gly Phe

245 250 255

Thr Asp Met Val Phe Gly Ser Lys Lys His Gly Asp Val Asp Ile Asp

260 265 270

Ala Leu Glu Met Glu Leu Glu Ser Ser Ile Trp Glu Thr Val Lys Glu

275 280 285

Arg Glu Arg Glu Cys Lys Asp Thr His Lys Lys Asp Leu Leu Gln Leu

290 295 300

Ile Leu Glu Gly Ala Met Arg Ser Cys Asp Gly Asn Leu Trp Asp Lys

305 310 315 320

Ser Ala Tyr Arg Arg Phe Val Val Asp Asn Cys Lys Ser Ile Tyr Phe

325 330 335

Ala Gly His Asp Ser Thr Ala Val Ser Val Ser Trp Cys Leu Met Leu

340 345 350

Leu Ala Leu Asn Pro Ser Trp Gln Glu Lys Ile Arg Asp Glu Ile Leu

355 360 365

Ser Ser Cys Lys Asn Gly Ile Pro Asp Ala Glu Ser Ile Pro Asn Leu

370 375 380

Lys Thr Val Thr Met Val Ile Gln Glu Thr Met Arg Leu Tyr Pro Pro

385 390 395 400

Ala Pro Gly Val Gly Arg Glu Ala Ser Lys Asp Ile Arg Leu Gly Asp

405 410 415

Leu Val Val Pro Lys Gly Val Cys Ile Trp Thr Leu Ile Pro Ala Leu

420 425 430

His Arg Asp Pro Glu Ile Trp Gly Pro Asp Ala Asn Asp Phe Lys Pro

435 440 445

Glu Arg Phe Ser Glu Gly Ile Ser Lys Ala Cys Lys Tyr Pro Gln Ala

450 455 460

Tyr Ile Pro Phe Gly Leu Gly Pro Arg Thr Cys Val Gly Lys Asn Phe

465 470 475 480

Gly Met Met Glu Val Lys Val Leu Val Ser Leu Ile Val Ser Lys Phe

485 490 495

Ser Phe Thr Leu Ser Pro Thr Tyr Gln His Ser Pro Ser His Lys Leu

500 505 510

Leu Val Glu Pro Gln His Gly Val Val Ile Arg Val Val

515 520 525

<210> 14

<211> 1578

<212> DNA

<213> Artificial Sequence

<220>

<223> kaurenoic acid 13-hydroxylase encoding sequence optimized for

expression in Yarrowia lipolitica

<400> 14

atggagtctc tggttgtcca caccgtcaac gccatctggt gcattgtcat tgtcggtatc 60

ttctccgtcg gctaccacgt ctacggccga gccgttgtcg agcagtggcg aatgcgacga 120

tctctcaagc tccagggtgt caagggtcct cctccctcca tcttcaacgg taacgtttcc 180

gagatgcagc gaatccagtc cgaggccaag cacaactccg gtgacaacat catctcccac 240

gactactcct ccactctctt cccccacttt gaccactggc gaaagcagta cggccgaatc 300

tacacctact ccaccggtct gcgacagcac ctctacatca accaccccga gatggtcaag 360

gaactgtccc agaccaactc tctcgatctc ggtcgaatca cccacatcac caagcgactc 420

gcccccattc tcggcaacgg tatcatcacc tccaacggcc cccactgggc ccaccagcga 480

cgaatcattg cttacgagtt cacccacgac aaggtcaagg gtatggtcgg cctcatggtc 540

gagtccgcca tgcccatgct caacaagtgg gaggagatgg tcgaggctga gggtggtatg 600

ggctgtgaca tccgagtcga cgaggacctc aaggacgttt ctgccgatgt cattgccaag 660

gcctgctttg gctccaactt ctccaagggc aaggccattt tctccaagat ccgagatctg 720

ctcaccgcca ttaccaagcg atccgtcctc ttccgattca acggtttcac cgacatggtt 780

ttcggctcca agaagcacgg tgacgttgac attgatgctc tcgagatgga gctggagtcc 840

tccatctggg agactgtcaa ggagcgagag cgagagtgca aggacaccca caagaaggac 900

ctcctccagc tcattctcga gggtgccatg cgatcttgtg acggtaacct gtgggacaag 960

tccgcctacc gacgatttgt tgttgacaac tgcaagtcca tctactttgc cggccacgac 1020

tccaccgccg tttctgtctc ttggtgcctc atgctgctgg ctctcaaccc ctcttggcag 1080

gagaagatcc gtgacgagat tctctcttct tgtaagaacg gtatccccga tgctgagtcc 1140

atccccaacc tcaagaccgt caccatggtc atccaggaga ctatgcgact ctaccctccc 1200

gctcccggtg tcggccgaga ggcctccaag gacatccgac tcggtgatct cgttgtcccc 1260

aagggtgtct gcatctggac cctcatcccc gctctgcacc gggaccccga aatctggggc 1320

cccgacgcca acgacttcaa gcccgagcga ttctccgagg gtatctccaa ggcttgcaag 1380

tacccccagg cctacatccc cttcggtctg ggcccccgaa cctgtgtcgg caagaacttc 1440

ggtatgatgg aggtcaaggt ccttgtctct ctcattgtct ccaagttctc cttcactctg 1500

tctcccacct accagcactc tccctcccac aagctcctcg ttgagcccca gcacggtgtt 1560

gtcatccgag tggtgtaa 1578

<210> 15

<211> 1503

<212> DNA

<213> Artificial sequence

<220>

<223> hydroxymethylglutaryl-CoA reductase from Yarrowia lipolitica, CpO

for expression in Yarrowia lipolitica

<400> 15

atgacccagt ctgtgaaggt ggttgagaag cacgttccta tcgtcattga gaagcccagc 60

gagaaggagg aggacacctc ttctgaagac tccattgagc tgactgtcgg aaagcagccc 120

aagcccgtga ccgagacccg ttctctggac gacttggagg ctatcatgaa ggcaggtaag 180

accaagctcc tggaggacca cgaggttgtc aagctctctc tcgaaggcaa gctccctttg 240

tatgctcttg agaagcagct tggtgacaac acccgagctg ttggcatccg acgatctatc 300

atctcccagc agtctaatac caagactctt gagacctcaa agctccctta cctgcactac 360

gactacgacc gtgtttttgg agcctgttgc gagaacgtta ttggttacat gcctctcccc 420

gttggtgttg ctggccccat gaacattgat ggcaagaact accacattcc tatggccacc 480

actgagggtt gtcttgttgc ctcaaccatg cgaggttgca aggccatcaa cgccggtggc 540

ggtgttacca ctgtgcttac tcaggacggt atgacacgag gtccttgtgt ttccttcccc 600

tctctcaagc gggctggagc cgctaagatc tggcttgatt ccgaggaggg tctcaagtcc 660

atgcgaaagg ccttcaactc cacctctcga tttgctcgtc tccagtctct tcactctacc 720

cttgctggta acctgctgtt tattcgattc cgaaccacca ctggtgatgc catgggcatg 780

aacatgatct ccaagggcgt cgaacactct ctggccgtca tggtcaagga gtacggcttc 840

cctgatatgg acattgtgtc tgtctcgggt aactactgca ctgacaagaa gcccgcagcg 900

atcaactgga tcgaaggccg aggcaagagt gttgttgccg aagccaccat ccctgctcac 960

attgtcaagt ctgttctcaa aagtgaggtt gacgctcttg ttgagctcaa catcagcaag 1020

aatctgatcg gtagtgccat ggctggctct gtgggaggtt tcaatgcaca cgccgcaaac 1080

ctggtgaccg ccatctacct tgccactggc caggatcctg ctcagaatgt cgagtcttcc 1140

aactgcatca cgctgatgag caacgtcgac ggtaacctgc tcatctccgt ttccatgcct 1200

tctatcgagg tcggtaccat tggtggaggt actattttgg agccccaggg tgctatgctg 1260

gagatgcttg gcgtgcgagg tcctcacatc gagacccccg gtgccaacgc ccaacagctt 1320

gctcgcatca ttgcttctgg agttcttgca gcggagcttt cgctgtgttc tgctcttgct 1380

gccggccatc ttgtgcaaag tcatatgacc cacaaccgtt cccaggctcc tactccggcc 1440

aagcagtctc aggccgatct gcagcgtctc caaaacggtt cgaatatctg cattcggtca 1500

tag 1503

<210> 16

<211> 984

<212> DNA

<213> Artificial sequence

<220>

<223> Geranylgeranyl diphosphate synthase from Yarrowia lipolitica CpO

for expression in Yarrowia lipolitica

<400> 16

atggattata acagcgcgga tttcaaggag atctggggca aggccgccga caccgcgctg 60

ctgggaccgt acaactacct cgccaacaac cggggccaca acatcagaga acacttgatc 120

gcagcgttcg gagcggttat caaggtggac aagagcgatc tcgaaaccat ttcgcacatc 180

accaagattt tgcataactc gtcgctgctt gttgatgacg tggaagacaa ctcgatgctc 240

cgacgaggcc tgccggcagc ccattgtctg tttggagtcc cccaaaccat caactccgcc 300

aactacatgt actttgtggc tctgcaggag gtgctcaagc tcaagtctta tgatgccgtc 360

tccattttca ccgaggaaat gatcaacttg catagaggtc agggtatgga tctctactgg 420

agagaaacac tcacttgccc ctcggaagac gagtatctgg agatggtggt gcacaagacc 480

ggaggactgt ttcggctggc tctgagactt atgctgtcgg tggcatcgaa acaggaggac 540

catgaaaaga tcaactttga tctcacacac cttaccgaca cactgggagt catttaccag 600

attctggatg attacctcaa cctgcagtcc acggaattga ccgagaacaa gggattctgc 660

gaagatatca gcgaaggaaa gttttcgttt ccgctgattc acagcatccg gaccaacccg 720

gataaccacg agattctcaa cattctcaaa cagcgaacaa gcgacgcttc actcaaaaag 780

tacgccgtgg actacatgag aacagaaacc aagagtttcg actactgcct caagagaatc 840

caggccatgt cactcaaggc aagttcgtac attgatgatc tcgcagcagc cggccacgat 900

gtctccaagt tgcgagccat tttgcattat tttgtgtcca cctctgactg tgaggagaga 960

aagtactttg aggatgcgca gtga 984

<210> 17

<211> 927

<212> DNA

<213> Artificial sequence

<220>

<223> geranylgeranyl diphosphate synthase from Mucor circenelloides,

codon optimized for expression in Yarrowia lipolitica.

<400> 17

atgctagcca caaaaatgct caactctcac aaccgaaccg aggagcgatc caccgaggat 60

attattctcg agccttacac ctacctcatt tctcagcccg gaaaggacat tcgagctaag 120

ctcatttctg cctttgacct ctggctgcac gttcctaagg atgttctttg cgtcatcaac 180

aagattatcg gtatgctgca caacgcctct cttatgattg acgatgttca ggacgactct 240

gatctccgac gaggagtccc cgttgctcac cacatttacg gtgtccctca gactattaac 300

accgctaact acgtgatttt cctcgccctt caggaggtta tgaagctgaa catcccttct 360

atgatgcagg tgtgtaccga ggagcttatt aacctccacc gaggtcaggg aattgagctg 420

tactggcgag attccctcac ttgtcccact gaggaggagt acattgatat ggttaacaac 480

aagacctctg gcctccttcg acttgccgtc cgactgatgc aggctgcttc tgagtccgac 540

atcgactaca cccctctcgt caacattatc ggaattcact tccaggttcg agatgactac 600

atgaacctcc agtccacctc ttacactaac aacaagggct tttgcgagga cctgaccgag 660

ggaaagttct ccttccctat tattcacgct attcgaaagg acccctctaa ccgacagctc 720

ctgaacatta tctctcagaa gcccacctcc attgaggtta agaagtacgc tcttgaggtg 780

atccgaaagg ctggatcttt tgagtacgtt cgagagttcc ttcgacagaa ggaggctgag 840

tccctgaagg agatcaagcg acttggcggc aaccctctcc tcgagaagta cattgagact 900

attcgagtcg aggctactaa cgactaa 927

<210> 18

<211> 2232

<212> DNA

<213> Artificial sequence

<220>

<223> Copalyl pyrophosphate synthase from Stevia rebaudiana CpO for

expression in Yarrowia lipolitica

<400> 18

atgtgcaagg ctgtttccaa ggagtactcc gatctgctcc agaaggacga ggcctctttc 60

accaagtggg acgacgacaa ggtcaaggac cacctcgaca ccaacaagaa cctctacccc 120

aacgacgaga tcaaggagtt tgtcgagtcc gtcaaggcca tgttcggctc catgaacgac 180

ggcgagatta atgtctctgc ttacgacacc gcctgggttg ctctggtcca ggatgtcgac 240

ggttccggct ctcctcagtt cccttcctct ctcgagtgga tcgccaacaa ccagctgtcc 300

gacggttctt ggggtgacca cctgctcttc tctgctcacg accgaatcat caacaccctg 360

gcctgtgtca ttgctctgac ctcttggaac gtccacccct ccaagtgcga gaagggtctg 420

aacttcctcc gagagaacat ctgcaagctc gaggacgaga acgccgagca catgcccatt 480

ggcttcgagg tcaccttccc ctctctgatt gacattgcca agaagctcaa cattgaggtc 540

cccgaggaca cccccgctct caaggagatc tacgctcgac gagacatcaa gctcaccaag 600

atccccatgg aggttctcca caaggtcccc accactctcc tccactctct cgagggtatg 660

cccgatctcg agtgggagaa gctgctcaag ctgcagtgca aggacggctc tttcctcttc 720

tccccctctt ccactgcctt cgccctcatg cagaccaagg acgagaagtg tctccagtac 780

ctcaccaaca ttgtcaccaa gttcaacggt ggtgtcccca acgtctaccc cgttgacctc 840

tttgagcaca tctgggttgt tgaccgactc cagcgactcg gtatcgcccg atacttcaag 900

tccgagatca aggactgtgt cgagtacatc aacaagtact ggaccaagaa cggtatctgc 960

tgggcccgaa acacccacgt ccaggacatt gacgacaccg ccatgggctt ccgagttctg 1020

cgagcccacg gctacgatgt cacccccgat gtctttcgac agtttgagaa ggacggcaag 1080

tttgtctgtt tcgccggtca gtccacccag gccgtcaccg gtatgttcaa cgtctaccga 1140

gcttctcaga tgctcttccc cggtgagcga atcctcgagg acgccaagaa gttctcctac 1200

aactacctca aggagaagca gtccaccaac gagctgctcg acaagtggat cattgccaag 1260

gatctgcccg gtgaggttgg ctacgccctc gacatcccct ggtacgcctc tctgccccga 1320

ctggagactc gatactacct cgagcagtac ggtggtgagg acgatgtctg gatcggtaag 1380

accctgtacc gaatgggcta cgtttccaac aacacctacc tcgagatggc caagctcgac 1440

tacaacaact acgttgccgt cctccagctc gagtggtaca ccatccagca gtggtacgtc 1500

gacattggta tcgagaagtt cgagtccgac aacatcaagt ccgtccttgt ctcctactac 1560

ctcgctgctg cctccatctt cgagcccgag cgatccaagg agcgaattgc ctgggccaag 1620

accaccatcc tcgtcgacaa gatcacctcc atcttcgact cctcccagtc ctccaaggaa 1680

gatatcaccg ccttcattga caagttccga aacaagtcct cctccaagaa gcactccatc 1740

aacggcgagc cctggcacga ggtcatggtt gctctcaaga aaactctcca cggctttgcc 1800

ctcgacgctc tgatgaccca ctctcaggac atccaccccc agctccacca ggcctgggag 1860

atgtggctca ccaagctcca ggacggtgtt gatgtcactg ctgagctcat ggtccagatg 1920

atcaacatga ccgccggccg atgggtttcc aaggagctcc tcacccaccc ccagtaccag 1980

cgactctcca ctgtcaccaa ctctgtctgc cacgacatca ccaagctcca caacttcaag 2040

gagaactcca ccaccgtcga ctccaaggtc caggagctgg tccagctcgt tttctccgac 2100

acccccgatg atctcgacca ggacatgaag cagaccttcc tgactgtcat gaaaactttc 2160

tactacaagg cctggtgcga ccccaacacc atcaacgacc acatctccaa ggtctttgag 2220

attgtgattt aa 2232

<210> 19

<211> 2274

<212> DNA

<213> Artificial sequence

<220>

<223> Kaurene synthase from Stevia rebaudiana CpO for expression in

Yarrowia lipolitica

<400> 19

atgacctccc acggcggcca gaccaacccc accaacctca tcattgacac caccaaggag 60

cgaatccaga agcagttcaa gaacgtcgag atctccgttt cctcctacga caccgcctgg 120

gtcgccatgg tcccctctcc caactccccc aagtctccct gcttccccga gtgtctcaac 180

tggctcatca acaaccagct caacgacggc tcttggggtc tggtcaacca cacccacaac 240

cacaaccacc ccctcctcaa ggactctctc tcttccactc tcgcctgcat tgttgctctc 300

aagcgatgga acgttggcga ggaccagatc aacaagggtc tgtctttcat tgagtccaac 360

ctcgcctccg ccaccgagaa gtcccagccc tcccccattg gctttgatat catcttcccc 420

ggtctgctcg agtacgccaa gaacctcgat atcaacctgc tctccaagca gaccgacttc 480

tctctcatgc tgcacaagcg agagctcgag cagaagcgat gccactccaa cgagatggac 540

ggctacctgg cctacatttc cgagggtctg ggtaacctct acgactggaa catggtcaag 600

aagtaccaga tgaagaacgg ttccgttttc aactccccct ctgccaccgc tgctgccttc 660

atcaaccacc agaaccccgg ctgtctcaac tacctcaact ctctgctcga caagtttggt 720

aacgccgtcc ccactgtcta cccccacgat ctcttcatcc gactctccat ggtcgacacc 780

attgagcgac tcggtatttc ccaccacttc cgagtcgaga tcaagaacgt tctcgatgag 840

acttaccgat gctgggttga gcgagatgag cagatcttca tggacgttgt cacctgtgct 900

ctggccttcc gactcctccg aatcaacggt tacgaggttt cccccgaccc cctcgccgag 960

atcaccaacg agctggctct caaggacgag tacgccgccc tcgagactta ccacgcttct 1020

cacattctgt accaagagga tctgtcctcc ggcaagcaga ttctcaagtc cgccgacttc 1080

ctcaaggaga tcatctccac tgactccaac cgactctcca agctcatcca caaggaagtc 1140

gagaacgctc tcaagttccc catcaacacc ggtctggagc gaatcaacac ccgacgaaac 1200

atccagctct acaacgtcga caacacccga attctcaaga ccacctacca ctcttccaac 1260

atctccaaca ccgactacct gcgactcgcc gtcgaggact tctacacctg ccagtccatc 1320

taccgagagg agctcaaggg tctggagcga tgggttgtcg agaacaagct cgaccagctc 1380

aagtttgccc gacaaaagac tgcctactgc tacttctccg ttgctgccac cctctcttct 1440

cccgagctct ccgacgcccg aatctcttgg gccaagaacg gtatcctgac cactgttgtc 1500

gacgacttct ttgacattgg tggcaccatt gacgagctga ccaacctcat ccagtgcgtc 1560

gagaagtgga acgtcgacgt tgacaaggac tgttgttccg agcacgtccg aatcctcttc 1620

ctggctctca aggacgccat ctgctggatc ggtgacgagg ccttcaagtg gcaggctcga 1680

gatgtcactt cccacgtcat ccagacctgg ctcgagctca tgaactccat gctgcgagag 1740

gccatctgga cccgagatgc ctacgtcccc accctcaacg agtacatgga gaacgcctac 1800

gtcagctttg ctctcggtcc cattgtcaag cccgccatct actttgtcgg tcccaagctg 1860

tccgaggaga ttgtcgagtc ctccgagtac cacaacctct tcaagctcat gtccacccag 1920

ggccgactcc tcaacgatat ccactccttc aagcgagagt tcaaggaagg taagctcaac 1980

gccgttgctc tgcacctgtc caacggtgag tccggcaagg tcgaggaaga ggtcgtcgag 2040

gagatgatga tgatgatcaa gaacaagcga aaggagctca tgaagctcat cttcgaggag 2100

aacggctcca ttgtcccccg agcctgcaag gacgccttct ggaacatgtg ccacgtcctc 2160

aacttcttct acgccaacga cgacggtttc accggcaaca ccattctcga caccgtcaag 2220

gacatcatct acaaccctct ggttctggtc aacgagaacg aggagcagag gtaa 2274

<210> 20

<211> 1578

<212> DNA

<213> Artificial sequence

<220>

<223> Kaurene oxidase from Giberella fujikuroi CpO for expression in

Yarrowia lipolitica

<400> 20

atgtccaagt ccaactccat gaactccacc tcccacgaga ctctcttcca gcagctcgtt 60

ctcggcctcg accgaatgcc cctcatggac gtccactggc tcatctacgt tgcctttggt 120

gcctggctct gctcctacgt catccacgtt ctgtcctctt cctccactgt caaggtcccc 180

gtcgtcggtt accgatccgt tttcgagccc acctggctcc tccgactgcg attcgtctgg 240

gagggtggtt ccatcattgg ccagggctac aacaagttca aggactccat cttccaggtc 300

cgaaagctcg gtaccgacat tgtcatcatc cctcccaact acattgacga ggtccgaaag 360

ctctcccagg acaagacccg atccgtcgag cccttcatca acgactttgc cggccagtac 420

acccgaggta tggtctttct gcagtccgat ctccagaacc gagtcatcca gcagcgactc 480

acccccaagc ttgtctctct caccaaggtc atgaaggaag agctcgacta cgctctgacc 540

aaggagatgc ccgacatgaa gaacgacgag tgggttgagg tcgacatctc ttccatcatg 600

gtccgactca tctctcgaat ctccgcccga gttttcctcg gccccgagca ctgccgaaac 660

caggagtggc tcaccaccac cgccgagtac tccgagtctc tcttcatcac cggcttcatc 720

ctccgagttg tcccccacat tctccgaccc ttcattgctc ctctgctgcc ctcttaccga 780

accctgctgc gaaacgtttc ttccggccga cgagtcattg gtgatatcat ccgatcccag 840

cagggtgacg gtaacgagga catcctctct tggatgcgag atgctgccac tggtgaggag 900

aagcagatcg acaacattgc ccagcgaatg ctcattctgt ctctcgcctc catccacacc 960

accgccatga ccatgaccca cgccatgtac gatctgtgtg cctgccccga gtacattgag 1020

cccctccgag atgaggtcaa gtccgtcgtt ggtgcttctg gctgggacaa gaccgctctc 1080

aaccgattcc acaagctcga ctctttcctc aaggagtccc agcgattcaa ccccgttttc 1140

ctgctcacct tcaaccgaat ctaccaccag tccatgaccc tctccgatgg taccaacatc 1200

ccctccggta cccgaattgc tgtcccctct cacgccatgc tccaggactc cgcccacgtc 1260

cccggtccca ctcctcccac tgagttcgac ggtttccgat actccaagat ccgatccgac 1320

tccaactacg cccagaagta cctcttctcc atgaccgact cttccaacat ggcctttggc 1380

tacggtaagt acgcctgccc cggccgattc tacgcctcca acgagatgaa gctgactctg 1440

gccattctgc tcctccagtt tgagttcaag ctccccgacg gtaagggccg accccgaaac 1500

atcaccatcg actccgacat gatccccgac ccccgagctc gactctgtgt ccgaaagcga 1560

tctctgcgtg acgagtaa 1578

<210> 21

<211> 2136

<212> DNA

<213> Artificial sequence

<220>

<223> Cytochrome P450 reductase from Arabidopsis thaliana CpO for

expression in Yarrowia lipolitica

<400> 21

atgtcctcct cttcttcttc ttccacctcc atgattgatc tcatggctgc catcatcaag 60

ggtgagcccg tcattgtctc cgaccccgcc aacgcctccg cctacgagtc cgttgctgcc 120

gagctgtcct ccatgctcat cgagaaccga cagtttgcca tgatcgtcac cacctccatt 180

gctgttctca ttggctgcat tgtcatgctc gtctggcgac gatctggctc cggtaactcc 240

aagcgagtcg agcccctcaa gcccctggtc atcaagcccc gagaagagga gatcgacgac 300

ggccgaaaga aggtcaccat cttctttggc acccagaccg gtactgctga gggcttcgcc 360

aaggctctcg gtgaggaagc caaggctcga tacgaaaaga cccgattcaa gattgtcgac 420

ctcgatgatt acgctgccga tgacgacgag tacgaggaga agctcaagaa agaggacgtt 480

gccttcttct tcctcgccac ctacggtgac ggtgagccca ccgacaacgc tgcccgattc 540

tacaagtggt tcaccgaggg taacgaccga ggcgagtggc tcaagaacct caagtacggt 600

gttttcggtc tgggcaaccg acagtacgag cacttcaaca aggttgccaa ggttgtcgac 660

gacatcctcg tcgagcaggg tgcccagcga ctcgtccagg tcggcctcgg tgatgatgac 720

cagtgcatcg aggacgactt cactgcctgg cgagaggctc tgtggcccga gctcgacacc 780

attctgcgag aggaaggtga caccgccgtt gccaccccct acaccgccgc cgtcctcgag 840

taccgagtct ccatccacga ctccgaggat gccaagttca acgacatcaa catggccaac 900

ggtaacggct acaccgtctt tgacgcccag cacccctaca aggccaacgt cgccgtcaag 960

cgagagctcc acacccccga gtccgaccga tcttgtatcc acctcgagtt tgacattgct 1020

ggttccggtc tgacctacga gactggtgac cacgttggtg tcctctgtga caacctgtcc 1080

gagactgtcg acgaggctct gcgactcctc gacatgtccc ccgacactta cttctctctg 1140

cacgccgaga aagaggacgg tactcccatc tcttcttctc tgccccctcc cttccctccc 1200

tgcaacctgc gaaccgctct gacccgatac gcctgcctcc tctcttctcc caagaagtct 1260

gctctcgttg ctctggccgc ccacgcctcc gaccccaccg aggctgagcg actcaagcac 1320

ctcgcctctc ccgctggcaa ggacgagtac tccaagtggg ttgtcgagtc ccagcgatct 1380

ctgctcgagg tcatggccga gttcccctcc gccaagcccc ctctcggtgt tttcttcgcc 1440

ggtgttgctc cccgactcca gccccgattc tactccatct cctcttcccc caagatcgcc 1500

gagactcgaa tccacgttac ctgtgctctg gtctacgaga agatgcccac cggccgaatc 1560

cacaagggtg tctgctccac ctggatgaag aacgccgttc cctacgagaa gtccgagaac 1620

tgttcctctg ctcccatctt tgtccgacag tccaacttca agctcccctc cgactccaag 1680

gtccccatca tcatgattgg ccccggtacc ggcctcgccc ccttccgagg cttcctgcag 1740

gagcgactcg ccctcgtcga gtccggtgtc gagctcggcc cctccgtcct cttctttggc 1800

tgccgaaacc gacgaatgga cttcatctac gaagaggagc tccagcgatt cgtcgagtcc 1860

ggtgctctcg ccgagctctc cgttgccttc tcccgagagg gtcccaccaa ggagtacgtc 1920

cagcacaaga tgatggacaa ggcctccgac atctggaaca tgatctccca gggcgcctac 1980

ctctacgtct gcggtgacgc caagggtatg gcccgagatg tccaccgatc tctgcacacc 2040

attgcccagg agcagggctc catggactcc accaaggccg agggtttcgt caagaacctc 2100

cagacctccg gccgatacct ccgagatgtc tggtaa 2136

<210> 22

<211> 1446

<212> DNA

<213> Artificial sequence

<220>

<223> UDP-glucosyltransferase from Stevia rebaudiana Cpo for expression

in Yarrowia lipolitica

<400> 22

atggacgcca tggccaccac cgagaagaag ccccacgtca tcttcatccc cttccccgcc 60

cagtcccaca tcaaggccat gctcaagctc gcccagctcc tccaccacaa gggcctccag 120

atcacctttg tcaacaccga cttcatccac aaccagttcc tcgagtcctc cggcccccac 180

tgtctggacg gtgctcccgg tttccgattt gagactatcc ccgatggtgt ctcccactcc 240

cccgaggcct ccatccccat ccgagagtct ctgctccgat ccattgagac taacttcctc 300

gaccgattca ttgatctcgt caccaagctc cccgatcctc ccacctgtat catctccgac 360

ggtttcctgt ccgttttcac cattgatgct gccaagaagc tcggtatccc cgtcatgatg 420

tactggactc tggctgcctg tggtttcatg ggtttctacc acatccactc tctgatcgag 480

aagggctttg ctcctctcaa ggacgcctcc tacctcacca acggttacct cgacaccgtc 540

attgactggg tccccggtat ggagggtatc cgactcaagg acttccccct cgactggtcc 600

accgacctca acgacaaggt tctcatgttc accaccgagg ctccccagcg atcccacaag 660

gtttcccacc acatcttcca caccttcgac gagctcgagc cctccatcat caagactctg 720

tctctgcgat acaaccacat ctacaccatt ggccccctcc agctcctcct cgaccagatc 780

cccgaggaga agaagcagac cggtatcacc tctctgcacg gctactctct cgtcaaggaa 840

gagcccgagt gcttccagtg gctccagtcc aaggagccca actccgttgt ctacgtcaac 900

tttggctcca ccaccgtcat gtctctcgag gacatgaccg agtttggctg gggtctggcc 960

aactccaacc actacttcct gtggatcatc cgatccaacc tcgtcattgg cgagaacgcc 1020

gttctgcctc ccgagctcga ggagcacatc aagaagcgag gcttcattgc ctcttggtgc 1080

tcccaggaga aggttctcaa gcacccctcc gtcggtggtt tcctgaccca ctgcggctgg 1140

ggctccacca ttgagtctct gtccgctggt gtccccatga tctgctggcc ctactcctgg 1200

gaccagctca ccaactgccg atacatctgc aaggagtggg aggttggtct ggagatgggt 1260

accaaggtca agcgagatga ggtcaagcga ctcgtccagg agctcatggg cgagggtggt 1320

cacaagatgc gaaacaaggc caaggactgg aaggagaagg cccgaattgc cattgccccc 1380

aacggctctt cttctctcaa cattgacaag atggtcaagg agatcactgt tctcgctcga 1440

aactaa 1446

<210> 23

<211> 1422

<212> DNA

<213> Artificial sequence

<220>

<223> variant of UDP-glucosyltransferase from Stevia rebaudiana Cpo for

expression in Yarrowia lipolitica

<400> 23

atggccacct ccgactccat tgttgacgac cgaaagaagc tccacattgt catgttcccc 60

tggctcgcct ttggccacat catcccctat ctcgagcttt ccaagctcat tgcccagaag 120

ggccacaagg tttccttcct ctccaccacc aagaacattg accgactctc ctcccacatc 180

tctcccctca tcaactttgt caagctcacc ctcccccgag tccaggagct gcccgaggac 240

gccgaggcca ccactgatgt ccaccccgag gatatcccct acctcaagaa ggcctccgac 300

ggcctccagc ccgaggtcac tgagttcctc gagcagcact ctcccgactg gatcatctac 360

gactacaccc actactggct ccccgagatt gccaagtctc tcggtgtctc tcgagcccac 420

ttctccgtca ccaccccctg ggccattgct tacatgggtc ccactgccga tgccatgatc 480

aacggttccg actaccgaac cgagcttgag gacttcaccg tccctcccaa gtggttcccc 540

ttccccacca ccgtctgctg gcgaaagcac gatctggccc gactcgtccc ctacaaggct 600

cccggtatct ccgacggtta ccgaatgggc ctcgtcatca agggctgcga ctgtctgctc 660

tccaagacct accacgagtt cggtactcag tggctccgac ttctcgagga gctgcaccga 720

gtccccgtca tccccgttgg tctgctccct ccctccatcc ccggctctga caaggacgac 780

tcttgggttt ccatcaagga gtggctcgac ggccaggaga agggctccgt tgtctacgtt 840

gctctcggtt ccgaggttct cgtcacccag gaagaggttg tcgagcttgc tcacggtctg 900

gagctgtccg gtctgccctt cttctgggcc taccgaaagc ccaagggtcc cgccaagtcc 960

gactccgtcg agcttcccga tggtttcgtc gagcgagtcc gagatcgagg tctggtctgg 1020

acctcttggg ctccccagct ccgaatcctc tcccacgagt ccgttgctgg tttcctcacc 1080

cactgcggtt ccggctccat tgtcgagggc ctcatgttcg gccaccctct catcatgctc 1140

cccatcttcg gtgaccagcc cctcaacgcc cgactccttg aggacaagca ggtcggtatc 1200

gagatccccc gaaacgagga agatggttct ttcacccgag actctgttgc cgagtctctg 1260

cgactcgtca tggtcgagga agagggtaag atctaccgag agaaggccaa ggagatgtcc 1320

aagctctttg gcgacaagga cctccaggac cagtacgtcg acgactttgt cgagtacctc 1380

cagaagcacc gacgagctgt tgccattgac cacgaaagct aa 1422

<210> 24

<211> 1383

<212> DNA

<213> Artificial sequence

<220>

<223> UDP-glucosyltransferase from Stevia rebaudiana Cpo for expression

in Yarrowia lipolitica

<400> 24

atggccgagc agcagaagat caagaagtct ccccacgttc tgctcatccc cttccctctg 60

cagggccaca tcaacccctt catccagttc ggcaagcgac tcatctccaa gggtgtcaag 120

accactctgg tcaccaccat ccacaccctc aactccactc tcaaccactc caacaccacc 180

accacctcca tcgagatcca ggccatctcc gacggctgtg acgagggtgg tttcatgtct 240

gctggtgagt cttacctcga gactttcaag caggtcggtt ccaagtctct ggctgacctc 300

atcaagaagc tccagtccga gggtaccacc attgacgcca tcatctacga ctccatgacc 360

gagtgggttc tcgatgtcgc catcgagttt ggtattgacg gtggctcctt cttcacccag 420

gcctgtgtcg tcaactctct ctactaccac gtccacaagg gtctgatctc tctgcccctc 480

ggcgagactg tctccgtccc cggtttcccc gttctgcagc gatgggagac tcctctcatt 540

ctccagaacc acgagcagat ccagtccccc tggtcccaga tgctcttcgg ccagttcgcc 600

aacattgacc aggcccgatg ggttttcacc aactccttct acaagctcga ggaagaggtc 660

attgagtgga cccgaaagat ctggaacctc aaggtcattg gccccaccct cccctccatg 720

tacctcgaca agcgactcga tgacgacaag gacaacggtt tcaacctcta caaggccaac 780

caccacgagt gcatgaactg gctcgacgac aagcccaagg agtccgttgt ctacgttgcc 840

tttggctctc tggtcaagca cggccccgag caggttgagg agatcacccg agctctgatt 900

gactccgatg tcaacttcct gtgggtcatc aagcacaagg aagagggtaa gctccccgag 960

aacctgtccg aggtcatcaa gaccggcaag ggcctcattg ttgcctggtg caagcagctc 1020

gacgttctcg cccacgagtc cgtcggctgc tttgtcaccc actgcggttt caactccacc 1080

ctcgaggcta tctctctcgg tgtccccgtt gttgccatgc cccagttctc cgaccagacc 1140

accaacgcca agctcctcga tgagattctc ggtgtcggtg tccgagtcaa ggctgacgag 1200

aacggtattg tccgacgagg taacctggct tcttgtatca agatgatcat ggaggaagag 1260

cgaggtgtca tcatccgaaa gaacgccgtc aagtggaagg atctggccaa ggttgctgtc 1320

cacgagggtg gctcttccga caacgacatt gtcgagtttg tctccgagct catcaaggcc 1380

taa 1383

<210> 25

<211> 1377

<212> DNA

<213> Artificial sequence

<220>

<223> UDP-glucosyltransferase from Stevia rebaudiana Cpo for expression

in Yarrowia lipolitica

<400> 25

atggagaaca agaccgagac taccgtccga cgacgacgac gaatcattct cttccccgtc 60

cccttccagg gccacatcaa ccccattctg cagctcgcca acgttctgta ctccaagggc 120

ttctccatca ccatcttcca caccaacttc aacaagccca agacctccaa ctacccccac 180

ttcactttcc gattcatcct cgacaacgac ccccaggacg agcgaatctc caacctgccc 240

acccacggtc ctctggctgg tatgcgaatc cccatcatca acgagcacgg tgctgacgag 300

ctccgacgag agctcgagct gctcatgctc gcctccgaag aggacgagga agtctcctgt 360

ctgatcaccg atgctctgtg gtactttgcc cagtccgtcg ccgactctct caacctgcga 420

cgactcgttc tcatgacctc ctctctgttc aacttccacg cccacgtttc tctgccccag 480

tttgacgagc tcggttacct cgaccccgat gacaagaccc gactcgagga gcaggcttcc 540

ggtttcccca tgctcaaggt caaggacatc aagtccgcct actccaactg gcagattctc 600

aaggagattc tcggcaagat gatcaagcag accaaggcct cctccggtgt catctggaac 660

tccttcaagg agctcgagga gtccgagctc gagactgtca tccgagagat ccccgctccc 720

tctttcctca tccccctgcc caagcacctc accgcttcct cctcttctct gctcgaccac 780

gaccgaaccg tctttcagtg gctcgaccag cagccccctt cctccgtcct ctacgtttcc 840

ttcggctcca cctccgaggt cgacgagaag gacttcctcg agattgctcg aggcctcgtt 900

gactccaagc agtccttcct gtgggttgtc cgacccggct ttgtcaaggg ctccacctgg 960

gttgagcccc tgcccgatgg tttcctcggt gagcgaggcc gaattgtcaa gtgggtcccc 1020

cagcaggaag ttctggccca cggtgccatt ggtgccttct ggacccactc cggctggaac 1080

tccactctcg agtccgtctg cgagggtgtc cccatgatct tctccgactt tggcctcgac 1140

cagcccctca acgcccgata catgtccgat gttctcaagg tcggtgtcta cctcgagaac 1200

ggctgggagc gaggtgagat tgccaacgcc atccgacgag tcatggtcga cgaggaaggt 1260

gagtacatcc gacagaacgc ccgagtcctc aagcagaagg ccgatgtctc tctcatgaag 1320

ggtggttctt cttacgagtc tctcgagtct ctcgtttcct acatctcttc tttgtaa 1377

Claims

1. 具有贝壳杉烯酸13-羟化酶活性的多肽，所述多肽是根据SEQ ID NO 5、7、9、11或13中的任一个的氨基酸序列。

2.编码根据权利要求1所述的多肽的核酸。

3.重组宿主，所述重组宿主包含根据权利要求2所述的核酸，所述重组宿主能够产生甜菊醇或甜菊醇糖苷。

4.根据权利要求3所述的重组宿主，所述重组宿主包含一种或多种编码以下的重组核苷酸序列：

具有对映-柯巴基焦磷酸合酶活性的多肽；

具有对映-贝壳杉烯合酶活性的多肽；以及

具有对映-贝壳杉烯氧化酶活性的多肽；以及任选地

具有贝壳杉烯酸13-羟化酶活性的多肽，其不同于根据权利要求1所述的多肽。

5.根据权利要求3或4所述的重组宿主，所述重组宿主包含编码具有NADPH-细胞色素p450还原酶活性的多肽的重组核酸序列。

6.根据权利要求3或4所述的重组宿主，所述重组宿主包含编码以下一种或多种的重组核酸序列：

(i) 具有UGT74G1活性的多肽；

(ii) 具有UGT2活性的多肽；

(iii) 具有UGT85C2活性的多肽；以及

(iv) 具有UGT76G1活性的多肽。

7.根据权利要求3或4所述的重组宿主，其中所述宿主属于以下属中的一种：Saccharomyces、Aspergillus、Pichia、Kluyveromyces、Candida、Hansenula、Humicola、 Issatchenkia、Trichosporon、Brettanomyces、Pachysolen、Yarrowia、Yamadazyma或Escherichia。

8. 根据权利要求7所述的重组宿主，其中所述宿主属于以下细胞中的一种：Saccharomyces cerevisiae细胞，Yarrowia lipolytica细胞、Candida krusei细胞、Issatchenkia orientalis细胞或Escherichia coli细胞。

9.一种制备甜菊醇或甜菊醇糖苷的方法，所述方法包括在合适的发酵培养基中发酵根据权利要求3至8中任一项所述的重组宿主，以及任选地回收所述甜菊醇或甜菊醇糖苷。

10.发酵液，所述发酵液包含根据权利要求3至8中任一项所述的重组细胞。

11.一种将甜菊醇或第一甜菊醇糖苷转化为第二甜菊醇糖苷的方法，所述方法包括：

- 使甜菊醇或第一甜菊醇糖苷与根据权利要求3至8中任一项所述的重组宿主或源自这种重组宿主的无细胞提取物接触；

- 从而将所述甜菊醇或第一甜菊醇糖苷转化为所述第二甜菊醇糖苷。