BRPI0911966B1

BRPI0911966B1 - polinucleotídeo codificando uma celobioidrolase

Info

Publication number: BRPI0911966B1
Application number: BRPI0911966A
Authority: BR
Inventors: Lagrange Danie; Van Zyl Emile; Den Haan Riaan
Original assignee: Univ Stellenbosch
Priority date: 2008-05-11
Filing date: 2009-05-11
Publication date: 2018-11-13
Also published as: WO2009138877A2; BRPI0911966A2; US11530428B2; CA2724076A1; CA3021166C; US9365842B2; US20110124074A1; US20160326560A1; CA3021166A1; WO2009138877A3; CA2724076C

Description

(54) Título: POLINUCLEOTÍDEO CODIFICANDO UMA CELOBIOIDROLASE (73) Titular: UNIVERSITEIT STELLENBOSCH, Sociedade Sul Africana. Endereço: Private Bag XI, Matieland, 7602 Stellenbosch, Za, ÁFRICA DO SUL(ZA) (72) Inventor: RIAAN DEN HAAN; EMILE VAN ZYL; DANIE LAGRANGE.

Código de Controle: 41D3D822BB30C36B EDC2C708CFFFEC90

Prazo de Validade: 20 (vinte) anos contados a partir de 11/05/2009, observadas as condições legais

Expedida em: 13/11/2018

Assinado digitalmente por:

Liane Elizabeth Caldeira Lage

Diretora de Patentes, Programas de Computador e Topografias de Circuitos Integrados

1/106 “POLINUCLEOTÍDEO CODIFICANDO UMA CELOBIOIDROLASE”

ANTECEDENTES DA INVENÇÃO [001 ]A biomassa lignocelulósica é amplamente reconhecida como uma fonte promissora de matéria-prima para produção de combustíveis renováveis e produtos químicos. O obstáculo primário que impede a produção mais ampla de energia de matérias - primas de biomassa é a ausência geral da tecnologia de baixo custo para superar a recalcitrância destes materiais para conversão em combustíveis úteis. A biomassa lignocelulósica contém frações de carboidrato (por exemplo, celulose e hemicelulose) que podem ser convertidas em etanol. Para converter estas frações, a celulose e a hemicelulose devem ser ao final convertidas ou hidrolisadas em monosacáridos; é exatamente a hidrólise que provou historicamente ser problemática.

[002]Os processos biologicamente mediados são promissores para a conversão de energia, especialmente para a conversão da biomassa lignocelulósica em combustíveis. Os esquemas de processamento de biomassa envolvendo hidrólise enzimática ou microbiana comumente envolvem quatro transformações biologicamente mediadas: (1) a produção de enzimas sacarolíticas (celulases e hemicelulases); (2) a hidrólise de componentes carboidratos presentes na biomassa pré-tratada em açúcares; (3) a fermentação de açúcares hexoses (por exemplo, glicose, manose, e galactose); e (4) a fermentação de açúcares pentoses (por exemplo, xilose e arabinose). Estas quatro transformações ocorrem em uma única etapa em uma configuração de processo chamada bioprocessamento consolidado (CBP), que é distinguido de outras configurações menos altamente integradas em que não se envolve uma etapa de processo dedicada de produção de celulase e/ou hemicelulase.

[003]O CBP oferece o potencial de preço mais baixo e eficiência mais

Petição 870180015372, de 26/02/2018, pág. 15/150

2/106 alta do que processos que apresentam produção de celulase dedicada. Os benefícios resultam em parte dos custos evitados de capital, de substrato, de outras matérias-primas, e utilidades associados com a produção de celulase. Além disso, vários fatores apoiam a realização de taxas mais altas da hidrólise, e consequentemente um volume reduzido de reator e de investimento de capital pela utilização do CBP, incluindo a sinergia micróbio-enzima e o uso de organismos termofílicos e/ou sistemas de celulase complexados. Além disso, os microrganismos celulolíticos aderentes na celulose provavelmente competirão com sucesso por produtos da hidrólise de celulose com micróbios não aderidos, por exemplo, contaminantes, que podem aumentar a estabilidade de processos industriais baseados na utilização de celulose microbiana. O progresso no desenvolvimento microorganismos que possibilitam o CBP está sendo feito através de duas estratégias: a engenharia que naturalmente ocorre com microrganismos celulolíticos para melhorar as propriedades relacionadas ao produto, tais como rendimento e título; e a engenharia de organismos não celulolíticos que exibem altos rendimentos de produto e de títulos para expressar um sistema de celulase heteróloga e hemicelulase possibilitando a utilização de celulose e hemicelulose.

[004]Três tipos principais de atividades enzimáticas são necessárias para a degradação da celulose nativa: o primeiro tipo são as endoglicanases (1,4-3-D-glicano 4-glicanoidrolases; CE 3.2.1.4). As endoglicanases seccionam aleatoriamente a cadeia de polissacarídeo de celulose da celulose amorfa, gerando os oligossacarídeos de comprimentos variados e consequentemente novas terminações de cadeias. O segundo tipo são as exoglicanases, incluindo as celodextrinases (1,4-3-D-glicano glicanoidrolases; CE 3.2.1.74) e celobioidrolases (1,4-3-D-glicano celobioidrolases; CE 3.2.1.91). As

Petição 870180015372, de 26/02/2018, pág. 16/150

3/106 exoglicanases atuam de modo progressivo sobre a redução ou não redução das extremidades das cadeias de polissacarídeo de celulose, liberando glicose (glicanoidrolases) ou celobiose (celobioidrolase) como produtos principais. As exoglicanases também podem atuar sobre a celulose microcristalina, presumivelmente descascando cadeias de celulose da estrutura microcristalina. O terceiro tipo são β-glicosidases (glicoidrolases de β-glicosídio; CE 3.2.1.21). As β-glicosidases hidrolisam celodextrinas e celobiose solúveis em unidades de glicose.

[005]Diversas fontes de biomassa vegetal estão disponíveis como materiais lignocelulósicos para produção de biocombustívéis, notavelmente o bioetanol. As principais fontes são (i) resíduos de madeira de moagens de papel, serrarias e de fabricação de mobiliário, (ii) resíduos sólidos municipais, (iii) resíduos agrícolas e (iv) produtos de colheitas. A pré-conversão de particularmente a fração celulósica nestes recursos de biomassa (usando ou processos físicos, químicos ou enzimáticos) em açúcar fermentável (glicose, celobiose e celodextrinas) permitiria a sua fermentação ao bioetanol, contanto que fosse fornecido o microrganismo fermentativo necessário capaz de utilizar esses açúcares.

[006]Em uma base mundial, 1,3 x 10¹° toneladas métricas (peso seco) de vegetação terrestre são produzidas anualmente (Demain, A. L., et al., Microbiol. Mol. Biol. Rev. 69, 124-154 (2005)). A biomassa vegetal se compõe de aproximadamente 40 a 55% de celulose, 25 a 50% de hemicelulose e 10 a 40% de lignina, dependendo se a fonte é madeira dura, madeira mole, ou gramíneas (Sun, Y. e Cheng, J., Bioresource Technol. 83,1-11 (2002)). O maior parte de polissacarídeos presentes é insolúvel em água, a celulose contém a fração principal de açúcares fermentáveis (glicose, celobiose ou celodextrinas).

Petição 870180015372, de 26/02/2018, pág. 17/150

4/106 [007]A levedura de pão (Saccharomyces cerevisiae) permanece como o microrganismo preferido para a produção de etanol (Hahn-Hãgerdal, B., et al., Adv. Biochem. Eng. Biotechnol. 73, 53-84 (2001)). Os atributos a favor deste micróbio são (i) alta produtividade próxima dos rendimentos teóricos (0,51 g de etanol produzido / g glicose usada), (ii) elevadas osmose e tolerância ao etanol, (iii) robustez natural em processos industriais, (iv) geralmente encontrado como segura (GRAS) devido à sua longa associação com a feitura de vinho, de pão, e na preparação de cerveja. Além disso, o S. cerevisiae exibe a tolerância a inibidores comumente encontrados em hidrolisados resultantes do prétratamento da biomassa. A principal falha do S. cerevisiae é a sua incapacidade de utilizar um polissacarídeo complexo, tal como a celulose, ou os produtos de sua degradação, tais como a celobiose e as celodextrinas.

[008]Os genes codificando as celobioidrolases nos T. reesei (Cbh1 e Cbh2), A. niger (cbhA e CbhB) e P. chrysosporium (Cbh1-4) foram clonados e descritos. A proteína codificada por estes genes são todas enzimas modulares contendo um domínio catalítico ligado, via uma sequência linear flexível, a um módulo de ligação com a celulose. As Cbh1, Cbh2, CbhB e Cbh1 a 4 são a família de 7 glicosilidrolases. As glicosilidrolases são um grupo comum de enzimas que hidrolisam a ligação glicosídica entre dois ou mais carboidratos, ou entre um carboidrato e uma parte não carboidrato. Um sistema de classificação de glicosilidrolases, baseados na similaridade de sequência, levou à definição de 85 famílias diferentes (Henrissat, B. etal., Proc. Natl. Acad. Sei. 92:7090-7094 (1995); Davies, G. e Henrissat, B., Structure 3: 853-859 (1995)). A família de 7 hidrolases de glicosídeo (GHF7) compreende enzimas com várias atividades conhecidas incluindo a endoglicanase (EC:3.2.1.4) e a celobioidrolase (EC:3.2.1.91). Estas enzimas eram outrora conhecidas como família de celulase

Petição 870180015372, de 26/02/2018, pág. 18/150

5/106

C. A família de 7 enzimas de glicosilidrolases têm uma homologia de 67% ao nível de aminoácido, mas a homologia entre alguma destas enzimas e a família de 6 glicosilidrolases Cbh2 é menor do que 15%.

[009]As exoglicanases e as celobioidrolases desempenham um papel na conversão da celulose à glicose cortando o dissacarídeo de celobiose a partir da extremidade de não redução da cadeia de polímero de celulose. Estruturalmente, as celulases e xilanases geralmente consistem de um domínio catalítico unido a um módulo de ligação com a celulose (CBM) via uma região de ligante que é rica em prolina e/ou hidroxi-aminoácidos. Em alguns casos, contudo, as celulases não contêm uma CBM, e só contêm um domínio catalítico. Os exemplos de tal celulases carentes de CBM incluem as Cbhs das Humcola grísea, Phanerochaete chrysosporíum e Aspergillus niger. Grassick etal., Eur. J. Biochem. 271:4495-4506 (2004). Nas exoglicanases tipo I, o domínio de CBM é encontrado na extremidade da terminação C dessas enzimas (este domínio curto forma uma estrutura de laço de grampo de cabelo estabilizada por 2 pontes de dissulfeto).

[010]Classicamente, as exoglicanases, tais como as celobioidrolases (Cbh) possuem sítios ativos parecidos com um túnel, que só podem aceitar uma cadeia de substrato via as suas regiões terminais. Essas enzimas Cbh de exoação atuam enfiando a cadeia de celulose pelo túnel, onde as unidades sucessivas de celobiose são retiradas de um modo de um modo. A hidrólise sequêncial de uma cadeia de celulose é denominada de “processabilidade”.

[011 ]Dois dos membros Cbh do GH7 melhor caracterizados são Cel7A de T. reesei e Cel7D (Cbh58) de P. chrysosporíum. Ambos Cbhs consistem de duas folhas β que empacotam face a face para formar um sanduíche β. O Cel7A do T. reesei é consistindo de longos laços, uma face do sanduíche que forma

Petição 870180015372, de 26/02/2018, pág. 19/150

6/106 um túnel de ligação com a celulose. Os resíduos catalíticos são glutamato 212 e

217, que estão localizados em lados opostos do sítio ativo.

[012]Vários genes da família de enzimas GH7 foram clonados e caracterizados de uma variedade fontes de fungos, incluindo especies H. grísea, T. reesei, T. aurantiacus, Penicillium janthinellum, P. chrysospirum e Aspergillus. Além disso, as enzimas Cbh de T. emersonii, incluindo Cbh1, foram isoladas e caracterizadas. O T. emersonii Cbh1 contém um peptídio de sinal secretor e um domínio catalítico. A CBM e a região de ligante que são características de alguns outros membros da família GH não estão presentes na molécula.

[013]Com a ajuda da tecnologia de DNA recombinante, vários dessas celulases heterólogas de fontes bacterianas e fúngicas foram transferidas para o S. cerevisiae, permitindo a degradação de derivados de celulósico (Van Rensburg, P., et al., Yeast 14, 67-76 (1998)), ou o crescimento em celobiose (Van Rooyen, R., et al.. J. Biotech. 120, 284-295 (2005)); McBride, J.E., et al., Enzyme Microb. Techol. 37, 93-101 (2005)).

[014]O trabalho relacionado foi descrito por Fujita, Y., et al., (Appl. Environ. Microbiol. 70, 1207-1212 (2004)) onde as celulases imobilizadas na superfície da célula de levedura tinham limitações significantes. Primeiramente, Fujita et al. foram incapazes de realizar a fermentação da celulose amorfa usando levedura expressando somente Bgl1 e Egll recombinantes. Uma segunda limitação da aproximação de Fujita et al. foi que as células tiveram de ser pré-cultivadas até alta densidade de célula em fontes de carbono padrão antes que as células fossem úteis para a produção de etanol usando celulose amorfa (por exemplo, Fujita et al ensina altos carregamentos de biomassa de aproximadamente 15 g/L para conseguir a produção de etanol).

[015]Como notado adima, a levedura de produção de etanol, tal como S.

Petição 870180015372, de 26/02/2018, pág. 20/150

7/106 cerevisiae necessita a adição de celulases externas quando cultivadas em substratos celulósico, tais como madeira pré-tratada, porque esta levedura não produz celulases endógenas. Mostrou-se que a expressão de celulases de fungo, tais como T. reesei Cbh1 e Cbh2 na levedura S. cerevisiae é funcional. Den Haan, R., et al., “Functional expression of cellobiohydrolases in Saccharomyces cerevisiae towards one-step conversion ofcellulose to ethanol,” Enzyme and Microbial Technology 40: 1291-1299 (2007). Por mais os níveis atuais que da expressão e a atividade específica heterologamente expressado de celulases na levedura não sejam ainda suficientes para permitir o crescimento e a produção de etanol pela levedura em substratos celulósico sem enzimas externamente acrescentadas. Enquanto os estudos mostraram que possivelmente certas celulases, tais como T. reesei Cbh1 têm a atividade específica quando heterologamente expressado, permanece uma necessidade significativa para melhorar a quantidade de atividade Cbh expressada para alcançar a meta de realizar um sistema de bioprocessamento consolidado (CBP) capaz de eficientemente e rentavelmente converter substratos de celulósicos em etanol.

[016]Para abordar as limitações da expressão Cbh heteróloga em sistemas de bioprocessamento consolidado, a presente invenção fornece expressão heteróloga do tipo selvagem e variantes otimizadas pelo códon de Cbh1 e/ou Cbh2dos organismos fúngicos Talaromyces emersonii(T. emersonii), Humicola grisea (H. grisea), Thermoascus aurantiacus (T. aurantiacus), e Trichoderma reesei (T. reesei) em células hospedeiras, tais como a levedura Saccharomyces cerevisiae. A expressão em tais células hospedeiras dos genes correspondentes, e variantes e combinações dos mesmos, resulta na atividade específica melhorada das celobioidrolases expressadas. Assim, tais genes e os

Petição 870180015372, de 26/02/2018, pág. 21/150

8/106 sistemas de expressão são úteis para sistemas de bioprocessamento consolidados eficientes e rentáveis.

BREVE SUMÁRIO DA INVENÇÃO [017]A presente invenção fornece a expressão heteróloga de um T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 em células hospedeiras, tais como a levedura Saccharomyces cerevisiae.

[018]Os Cbh1 e Cbh2 expressados em células hospedeiras da presente invenção são codificados pelo T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 do tipo selvagem ou otimizados pelo códon. Assim, a presente invenção também fornece um polinucleotídio isolado compreendendo um ácido nucleico pelo menos aproximadamente 70%, 75%, ou 80% idênticos, pelo menos de aproximadamente 90% a aproximadamente 95% idênticos, ou pelo menos aproximadamente 96%, 97%, 98%, 99% ou 100% idênticos aos T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 do tipo selvagem ou otimizados pelo códon. Em determinados aspectos, os T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 são selecionados do grupo composto das SEQ ID N^os: 1 a 10 e 15 a 16, ou fragmentos, variantes, ou derivados das mesmas.

[019]Em aspectos adicionais, a presente invenção abrange um polinucleotídio isolado compreendendo um ácido nucleico que é 70%, 75%, ou 80% idêntico, pelo menos de aproximadamente 90% a aproximadamente 95% idêntico, ou pelo menos aproximadamente 96%, 97%, 98%, 99% ou 100% idêntico a um ácido nucleico codificando um domínio funcional ou estrutural de T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 tal como apresentado acima. Os domínios da presente invenção incluem um domínio catalítico ou um módulo de ligação com celulose (CBM).

Petição 870180015372, de 26/02/2018, pág. 22/150

9/106 [020]Em aspectos adicionais, a presente invenção abrange polipeptídios compreendendo, ou alternativamente consistem de uma sequência de aminoácido que é pelo menos 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99% idêntica a um T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo. Em determinadas modalidades, o T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 é selecionado do grupo composto das SEQ ID N^os: 11 a 14 ou 17 a 18.

[021 ]Em aspectos adicionais, a presente invenção abrange vetores compreendendo um polinucleotídio da presente invenção. Tais vetores incluem plasmídios para expressão em levedura, tal como a levedura Saccharomyces cerevisiae. Os vetores de levedura podem ser Ylp (plasmídios de integração de levedura), YRp (plasmídios de replicação de levedura), YCp (plasmídios de replicação de levedura com os elementos de centrômero (CEN) incorporados), YEP (plasmídios epissômicos de levedura), ou YLp (plasmídios lineares de leveduras). Em certos aspectos, estes plasmídios contêm dois tipos de genes selecionáveis: os genes de resistência à droga codificados pelo plasmídio e os genes de levedura clonados, onde os genes resistentes à droga são tipicamente usados para a seleção em células bacterianas e os genes de levedura clonados são usados para a seleção em levedura. Os genes de resistência à droga incluem a ampicilina, a canamicina, a tetraciclina, a neomicina. Os genes de levedura clonados incluem HIS3, LEU2, LYS2, TRP1, URA3 e TRP1.

[022]Em certas modalidades, o vetor compreende (1) um primeiro polinucleotídio, onde o primeiro polinucleotídio codifica para um T. emersonii, H. grísea, T. aurantiacus, ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo; e (2) um segundo polinucleotídio, onde o segundo polinucleotídio codifica para um T. emersonii, H. grísea, T. aurantiacus,

Petição 870180015372, de 26/02/2018, pág. 23/150

10/106 ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo.

[023]Em certas modalidades adicionais, o vetor compreende um primeiro polinucleotídio codificando para um T. emersonii Cbh1, H. grisea Cbh1, ou T. aurantiacusi Cbh1, T. emersonii Cbh1 e um segundo polinucleotídio codificando o domínio de CBM de T. reesei Cbh1 ou T. reesei Cbh2. Em determinadas modalidades, o vetor compreende um primeiro polinucleotídio e um segundo polinucleotídio, onde o primeiro polinucleotídio é T. emersonii Cbh1 e o segundo polinucleotídio codifica para uma CBM de T. reesei Cbh1 ou Cbh2. Em modalidades adicionais, os primeiros e segundos polinucleotídios estão na mesma orientação, ou o segundo polinucleotídio está na orientação inversa do primeiro polinucleotídio. Em modalidades adicionais, o primeiro polinucleotídio está na terminação N ou na terminação C para o segundo polinucleotídio. Em certas outras modalidades, o primeiro polinucleotídio e/ou o segundo polinucleotídio são codificados por polinucleotídios otimizados pelo códon, por exemplo, polinucleotídios otimizados pelo códon para S. cerevisiae. Em modalidades adicionais, o primeiro polinucleotídio é um T. emersonii Cbh1 otimizado pelo códon e o segundo polinucleotídio codifica para uma CBM otimizado pelo códon de T. reesei Cbh1 ou Cbh2.

[024]Em determinadas modalidades, o vetor da presente invenção é selecionado do grupo consistindo de pRDH101, pRDH103-112, pRDH118-121, pRDH123-129 e pDLG116-118.

[025]A presente invenção também fornece uma célula hospedeira compreendendo um polinucleotídio, um polipeptídio, ou um vetor da presente invenção da qual um T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 são heterologamente expressados. Em certos aspectos, a célula

Petição 870180015372, de 26/02/2018, pág. 24/150

11/106 hospedeira é uma levedura, tal como Saccharomyces cerevisiae. Em modalidades adicionais, a célula hospedeira também compreende pelo menos um ou mais polipeptídios de endoglicanase heterologamente expressado e/ou pelo menos um ou mais polipeptídio de β-glicosidase heterologamente expressado e/ou pelo menos um ou mais polipeptídios de exoglicanase heterologamente expressados. Em determinados aspectos, o polipeptídio de endoglicanase é um T. reesei Eg1. Em aspectos adicionais o polipeptídio de βglicosidase é um S. fibuligera Bgl1.

[026]A presente invenção também fornece um método hidrolisar um substrato de celulósico, compreendendo contatar com substrato de celulósico dito com uma célula hospedeira segundo a presente invenção. Em certos aspectos, o substrato de celulósico é de uma biomassa de lignocelulósico. A expressão heteróloga de T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 em células hospedeiras aumentará a hidrólise de celulose e facilitará a produção de etanol por aquelas células hospedeiras em substratos de celulósico.

BREVE DESCRIÇÃO DOS DESENHOS/FIGURAS [027]Figura 1. Mapa de plasmídio de pRDH101. O plasmídio pRDH101 é a cadeia principal do vetor YEpENOBBH contendo T. reesei Cbh1 sintético (otimizado pelo códon).

[028]Figura 2. Mapa de plasmídio de pRDH103. O plasmídio pRDH103 é a cadeia principal do vetor YEpENOBBH contendo H. grísea Cbh1 sintético (otimizado pelo códon).

[029]Figura 3. Mapa de plasmídio de pRDH104. O plasmídio pRDH104 é a cadeia principal do vetor YEpENOBBH contendo T. aurantiacus Cbh1 sintético (otimizado pelo códon).

Petição 870180015372, de 26/02/2018, pág. 25/150

12/106 [030]Figura 4. Mapa de plasmídio de pRDH105. O plasmídio pRDH105 é a cadeia principal do vetor YEpENOBBH contendo T. emersonii Cbh1 sintético (otimizado pelo códon).

[031]Figura 5. Mapa de plasmídio de pRDH106. O plasmídio pRDH106 é a cadeia principal do vetor YEpENOBBH contendo T. reesei Cbh2 sintético (otimizado pelo códon).

[032]Figura 6. Mapa de plasmídio de pRDH107. O plasmídio pRDH107 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon).

[033]Figura 7. Mapa de plasmídio de pRDH108. O plasmídio pRDH108 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e T. emersonii Cbh1 sintético (otimizado pelo códon) na orientação inversa um para o outro.

[034]Figura 8. Mapa de plasmídio de pRDH109. O plasmídio pRDH109 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e T. emersonii Cbh1 sintético (otimizado pelo códon) na mesma orientação um para o outro.

[035]Figura 9. Mapa de plasmídio de pRDH110. O plasmídio pRDH110 é a cadeia principal do vetor pJC1 contendo T. emersonii Cbh2 sintético (otimizado pelo códon).

[036]Figura 10. Mapa de plasmídio de pRDH111.0 plasmídio pRDH111 é a cadeia principal do vetor pJC1 contendo T. emersonii Cbh2 sintético (otimizado pelo códon) e T. emersonii Cbh1 sintético (otimizado pelo códon) na mesma orientação um para o outro.

[037]Figura 11. Mapa de plasmídio de pRDH112. O plasmídio pRDH112 é a cadeia principal do vetor pJC1 contendo T. emersonii Cbh2 sintético

Petição 870180015372, de 26/02/2018, pág. 26/150

13/106 (otimizado pelo códon) e T. emersonii Cbh1 sintético (otimizado pelo códon) na orientação inversa um para o outro.

[038]Figura 12. Mapa de plasmídio de pRDH118. O plasmídio pRDH118 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e H. grisea Cbh1 sintético (otimizado pelo códon) na mesma orientação um para o outro.

[039]Figura 13. Mapa de plasmídio de pRDH119. O plasmídio pRDH119 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e H. grisea Cbh1 sintético (otimizado pelo códon) na orientação inversa um para o outro.

[040]Figura 14. Mapa de plasmídio de pRDH120. O plasmídio pRDH120 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e T. aurantiacus Cbh1 sintético (otimizado pelo códon) na mesma orientação um para o outro.

[041 ]Figura 15. Mapa de plasmídio de pRDH121. O plasmídio pRDH121 é a cadeia principal do vetor pJC1 contendo T. reesei Cbh2 sintético (otimizado pelo códon) e T. aurantiacus Cbh1 sintético (otimizado pelo códon) na orientação inversa um para o outro.

[042]Figura 16. Mapa de plasmídio de pRDH123. O plasmídio pRDH123 é a cadeia principal do vetor pRDH107 contendo T. reesei Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 e um T. emersonii Cbh2 sintético (otimizado pelo códon) com um T. reesei Cbh2 CBM fundido na terminação N, ambos o qual estão na mesma orientação um para o outro.

[043]Figura 17. Mapa de plasmídio de pRDH124. O plasmídio pRDH124 é a cadeia principal do vetor pRDH107 contendo T. reesei Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 e um T. emersonii Cbh2

Petição 870180015372, de 26/02/2018, pág. 27/150

14/106 sintético (otimizado pelo códon) com um T. reesei Cbh2 CBM fundido na terminação N, ambos o qual estão na orientação inversa um para o outro.

[044]Figura 18. Mapa de plasmídio de pRDH125. O plasmídio pRDH125 é a cadeia principal do vetor pRDH107 contendo T. reesei Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 e um T. emersonii Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 com um T. reesei Cbh2 CBM fundido na terminação C, ambos o qual estão na mesma orientação um para o outro.

[045]Figura 19. Mapa de plasmídio de pRDH126. O plasmídio pRDH126 é a cadeia principal do vetor pRDH107 contendo T. reesei Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 e um T. emersonii Cbh2 sintético (otimizado pelo códon) com um sinal de secreção xyn2 com um T. reesei Cbh2 CBM fundido na terminação C, ambos o qual estão na orientação inversa um para o outro.

[046]Figura 20. Mapa de plasmídio de pRDH127. O plasmídio pRDH127 é a cadeia principal do vetor pJC1 contendo T. emersonii Cbh1 sintético (otimizado pelo códon) possuindo um sinal de secreção xyn2 com um T. reesei Cbh2 CBM fundido na terminação C.

[047]Figura 21. Mapa de plasmídio de pRDH128. O plasmídio pRDH128 é a cadeia principal do vetor pRDH127 contendo T. emersonii Cbh1 sintético (otimizado pelo códon) possuindo um sinal de secreção xyn2 com um T. reesei Cbh2 CBM fundido na terminação N.

[048]Figura 22. Mapa de plasmídio de pRDH129. O plasmídio pRDH129 é a cadeia principal do vetor pRDH127 contendo T. emersonii Cbh1 sintético (otimizado pelo códon) possuindo um sinal de secreção xyn2 com um T. reesei

Cbh2 CBM fundido na terminação N e um 7. emersonii Cbh1 sintético (otimizado

Petição 870180015372, de 26/02/2018, pág. 28/150

15/106 pelo códon) possuindo um sinal de secreção xyn2 com um T. reesei Cbh2 CBM fundido na terminação C, ambos o qual estão na orientação inversa um para o outro.

[049]Figura 23. Mapa de plasmídio de pDLG116. O plasmídio pDLG116 contém T. emersonii Cbh1 com o sinal de secreção xyn2 sob o controle do promotor ENO1 e terminador.

[050]Figura 24. Mapa de plasmídio de pDLG117. O plasmídio pDLG117 contém T. emersonii Cbh1 com o T. reesei xyn2 sinal de secreção e o T. reesei Cbh2 CBM no lado da terminação N. Clonado como um EcoRI-Xhol em YEPENO1BBH.

[051]Figura 25. Mapa de plasmídio de pDLG118. O plasmídio pDLG118 equivale a YEpENOBBH contendo o Talaromyces emersonii Cbh1 (XYNSEC e terminação C CBM).

[052]Figura 26. Um gráfico de barra que representa atividade de Cbh usando umas células de comparação de ensaio de detecção de açúcar pela reação pela adsorção transformadas com pDLG117, pDLG116 e controle.

[053]Figura 27. Um gráfico de barra que representa peso de célula seco das células transformadas com pDLG117, pDLG116 e controle.

DESCRIÇÃO DETALHADA DA INVENÇÃO [054]A presente invenção se refere a, entre outras coisas, a expressão heteróloga do gene Cbh1 de T. emersonii em células hospedeiras, incluindo a levedura, por exemplo, Saccharomyces cerevisiae. A presente invenção fornece instrumentos importantes para permitir o crescimento da levedura em substratos celulósico para a produção de etanol.

Definições.

[055]Um “vetor”, por exemplo, um “plasmídio” ou o “YAC” (cromossoma

Petição 870180015372, de 26/02/2018, pág. 29/150

16/106 artificial de levedura) se referem a um elemento de extracromossômico que muitas vezes transporta um ou mais genes que não são parte do metabolismo central da célula, e está normalmente na forma de uma molécula circular de DNA de fita dupla. Tais elementos podem estar duplicando autônomamente sequências, sequências de integração de genoma, sequências de fago ou nucelotídio, lineares, circulares, ou superespiralado, de um DNA de fita simples ou dupla ou RNA, derivado de qualquer fonte, na qual um número de sequências de nucelotídio foram juntadas ou recombinadas em uma construção única que é capaz de introduzir um fragmento de promotor e sequência de DNA de um produto genético selecionado junto com a sequência 3’ não traduzida apropriada em uma célula. Preferivelmente, os plasmídios ou os vetores da presente invenção são estáveis e auto - replicáveis.

[056]Um “vetor de expressão” é um vetor que é capaz de abordar a expressão de genes aos quais está operacionalmente associado.

[057]O termo “heterólogo” como usado aqui se refere a um elemento de um vetor, plasmídio ou célula hospedeira que é derivado de uma fonte diferente da fonte endógena. Assim, por exemplo, uma sequência heteróloga pode ser uma sequência que é derivada de um gene ou plasmídio diferente do mesmo hospedeiro, de uma cepa diferente da célula hospedeira, ou de um organismo de um grupo taxonômico diferente (por exemplo, diferentes reinos, filo, classe, ordem, gênero de família, ou espécies, ou qualquer subgrupo dentro de uma dessas classificações). O termo “heterólogo” também é usado aqui sinonimiamente com o termo “exógeno”.

[058]O termo “domínio” como usado aqui se refere a uma parte de uma molécula ou estrutura que compartilha características físicas ou químicas comuns, domínios ou propriedades, por exemplo, hidrofóbicos, polares,

Petição 870180015372, de 26/02/2018, pág. 30/150

17/106 globulares, helicoidais, por exemplo, um domínio de ligação de DNA ou um domínio de ligação de ATP. Os domínios podem ser identificados pela sua homologia a motivos estruturais ou funcionais conservados. Os exemplos de domínios de celobioidrolase (CBH) incluem o domínio catalítico (CD) e o domínio de ligação de celulose (CBD).

[059]Um “ácido nucleico,” “polinucleotídio,” ou “molécula de ácido nucleico” é um composto polimérico compreendido por subunidades covalentemente ligadas chamadas de nucelotídios. O ácido nucleico inclui o ácido polirribonucleico (RNA) e o ácido polidesoxirribonucleico (DNA), ambos podendo ser de fita simples ou de fita dupla. O DNA inclui cDNA, DNA genômico, DNA sintético, e DNA semi-sintético.

[060]Uma “molécula isolada de ácido nucleico” ou “fragmento isolado de ácido nucleico” se refere ao éster de fosfato da forma polimérica de ribonucleosídeos (adenosina, guanosina, uridina ou citidina, “moléculas de RNA”) ou desoxirribonucleosídeos (desoxiadenosina, desoxiguanosina, desoxitimidina, ou desoxicitidina, “moléculas de DNA”), ou qualquer análogo de fosfoéster dos mesmos, tal como fosforotioatos e tioésteres, em forma de fita simples, ou em hélice de fita dupla. São possíveis hélices de DNA-DNA de dupla fita, DNA-RNA e RNA-RNA. O termo molécula de ácido nucleico, e em particular molécula de DNA ou RNA, se refere somente à estrutura primária e secundária da molécula, e não se limita a quaisquer formas terciárias em particular. Assim, este termo inclui DNA de fita dupla encontrado, entre outras coisas, em moléculas de DNA lineares ou circulares (por exemplo, fragmentos de restrição), plasmídios, e cromossomos. Na discussão da estrutura de determinadas moléculas de DNA de fita dupla, as sequências podem ser descritas aqui segundo a convenção normal de fornecer somente a sequência na direção 5'

Petição 870180015372, de 26/02/2018, pág. 31/150

18/106 para 3' ao longo da fita não transcrita de DNA (isto é, a fita possuindo uma sequência homóloga ao mRNA).

[061 ]Um “gene” se refere a uma reunião de nucelotídios codificando um polipeptídio, e inclui cDNA e ácidos nucléicos de DNA genômico. O “gene” também se refere a um fragmento de ácido nucléico expressando uma proteína específica, incluindo sequências intervenientes (íntrons) entre segmentos de codificação individual (éxons), bem como as sequências reguladoras precedentes (sequências de não codificação 5') e posteriores (sequências de não codificação 3’) à sequência de codificação. O “gene nativo” se refere a um gene tal como encontrado na natureza com as suas próprias sequências reguladoras.

[062]Uma molécula de ácido nucléico é “hibridizável” a outra molécula de ácido nucléico, tal como um cDNA, DNA genômico, ou RNA, quando uma forma de fita simples da molécula de ácido nucléico pode anelar a outra molécula de ácido nucléico sob as condições apropriadas de temperatura e força iônica da solução. A hibridização e as condições de lavagem são bem conhecidas e exemplificadas, por exemplo, em Sambrook, J., Fritsch, E. F. e Maniatis, T. MOLECULAR CLONING: A LABORATORY MANUAL, Segunda Edição, Cold Spring Harbor Laboratory Press, Cold Spring Harbor (1989), particularmente o Capítulo 11 e a Tabela 11.1 no mesmo (daqui por diante denominado “Maniatis”, sendo inteiramente incorporado aqui pela referência). As condições da temperatura e da força iônica determinam a “restrição” da hibridização. As condições de restrição podem ser ajustadas para avaliar fragmentos moderadamente semelhantes, tais como sequências homólogas de organismos distantemente relacionados, a fragmentos altamente semelhantes, tais como genes que duplicam enzimas funcionais de organismos estreitamente

Petição 870180015372, de 26/02/2018, pág. 32/150

19/106 relacionados. As lavagens da pós-hibridização determinam as condições de restrição. Um conjunto de condições usa uma série de lavagens iniciando com 6X SSC, SDS a 0,5% na temperatura ambiente por 15 minutos, depois repetido com 2X SSC, SDS a 0,5% a 45 ^SC por 30 minutos, e depois repetido duas vezes com SSC 0,2X, SDS a 0,5% a 50 ^SC por 30 minutos. Para condições mais restritas, as lavagens são executadas em temperaturas mais altas nas quais as lavagens são idênticas àquelas acima exceto para a temperatura final das duas lavagens de 30 minutos em SSC 0,2X, SDS a 0,5% que é aumentada para 60 ^SC. Outro conjunto de condições altamente restritivas utiliza as duas lavagens finais de SSC 0,1X, SDS a 0,1% a 65 ^SC. Um conjunto adicional de condições altamente restritas é definido pela hibridização em SSC 0,1X, SDS a 0,1%, 65 ^SC e lavada com SSC 2X, SDS a 0,1% seguido por SSC 0,1X, SDS a 0,1%.

[063]A hibridização necessita que os dois ácidos nucleicos contenham sequências complementares, embora dependendo da restrição da hibridização, as não combinação entre bases sejam possíveis. A restrição apropriada para hibridizar ácidos nucleicos depende do comprimento dos ácidos nucleicos e o grau da complementação, variáveis bem conhecidas na técnica. Quanto maior o grau de similaridade ou homologia entre duas sequências de nucelotídio, maior o valor de Tm de híbridos de ácidos nucleicos possuindo aquelas sequências. A estabilidade relativa (correspondente a Tm mais alto) de hibridizações de ácido nucleico diminui na seguinte ordem: RNA:RNA, DNA:RNA, DNA:DNA. Para híbridos maiores do que 100 nucelotídios de comprimento, as equações para calcular Tm foram derivadas (ver, por exemplo, Maniatis em 9.50-9.51). Para hibridizações com ácidos nucleicos mais curtos, isto é, oligonucleotídios, a posição de não combinação se torna mais importante, e o comprimento do oligonucleotídio determina a sua especificidade (ver, por exemplo, Maniatis, em

Petição 870180015372, de 26/02/2018, pág. 33/150

20/106

11.7-11.8). Em uma modalidade o comprimento de um ácido nucleico hibridizável é pelo menos de aproximadamente 10 nucelotídios. Preferivelmente um comprimento mínimo de um ácido nucleico hibridizável é pelo menos de aproximadamente 15 nucelotídios; mais preferivelmente pelo menos de aproximadamente 20 nucelotídios; e bem mais preferivelmente o comprimento é de pelo menos 30 nucelotídios. Além disso, o técnico versado reconhecerá que a temperatura e a concentração salina da solução de lavagem podem ser ajustadas segundo a necessidade de acordo com fatores, tais como o comprimento da sonda.

[064]O termo “identidade percentual”, como conhecido na técnica, é uma relação entre duas ou mais sequências de polipeptídio ou duas ou mais sequências de polinucleotídio, como determinado pela comparação das sequências. Na técnica, a “identidade” também significa o grau de sequência relacionada entre o polipeptídio ou as sequências de polinucleotídio, conforme for, tal como determinado pela combinação entre as séries de tais sequências.

[065]Como conhecido na técnica, a “similaridade” entre dois polipeptídios é determinada comparando a sequência de aminoácidos do polipeptídio e aminoácidos substitutos conservados na mesma, com a sequência de um segundo polipeptídio.

[066]As sequências de ácido nucleico convenientes ou os fragmentos das mesmas (os polinucleotídios isolados da presente invenção) codificam polipeptídios que são pelo menos aproximadamente de 70% a 75% idênticos às sequências de aminoácidos aqui informadas, pelo menos aproximadamente 80%, 85%, ou 90% idênticos às sequências de aminoácidos aqui informadas, ou pelo menos aproximadamente 95%, 96%, 97%, 98%, 99%, ou 100% idênticos às sequências de aminoácidos aqui informadas. Os fragmentos de ácido

Petição 870180015372, de 26/02/2018, pág. 34/150

21/106 nucleico convenientes são pelo menos aproximadamente 70%, 75%, ou 80% idênticos às sequências de ácido nucleico aqui informadas, pelo menos aproximadamente 80%, 85%, ou 90% idênticos às sequências de ácido nucleico aqui informadas, ou pelo menos aproximadamente 95%, 96%, 97%, 98%, 99%, ou 100% idênticos às sequências de ácido nucleico aqui informadas. Os fragmentos de ácido nucleico convenientes não somente têm as acima mencionadas identidades/similaridades, mas tipicamente codificam um polipeptídio possuindo pelo menos 50 aminoácidos, pelo menos 100 aminoácidos, pelo menos 150 aminoácidos, pelo menos 200 aminoácidos, ou pelo menos 250 aminoácidos.

[067]O termo “sonda” se refere a uma molécula de ácido nucleico de fita simples que pode fazer um par de bases com um ácido nucleico de objetivo de fita simples complementar para formar uma molécula de fita dupla.

[068]O termo “complementar” é usado para descrever a relação entre bases de nucelotídio que são capazes a hibridizar uma para a outra. Por exemplo, com relação ao DNA, a adenosina é complementar à timina e a citosina é complementar à guanina. Consequentemente, a invenção imediata também inclui fragmentos de ácido nucleico isolados que são complementares às sequências completas como informado na Listagem de Sequência anexada bem como aquelas sequências de ácidos nucleicos substancialmente semelhantes.

[069]Como usado aqui, o termo “oligonucleotídio” se refere a um ácido nucleico, geralmente de aproximadamente 18 nucelotídios, que é hibridizável a uma molécula de DNA genômico, uma molécula de cDNA, ou uma molécula de mRNA. Os oligonucleotídios podem ser marcados, por exemplo, com nucelotídios-32P ou nucelotídios aos quais uma marcação, tal como biotina, foi covalentemente conjugada. Um oligonucleotídio pode ser usado como uma

Petição 870180015372, de 26/02/2018, pág. 35/150

22/106 sonda para detectar a presença de um ácido nucleico de acordo com a invenção. Similarmente os oligonucleotídios (um ou ambos dos quais podem ser marcados) podem ser usados como iniciadores de PCR, para clonar o comprimento total ou um fragmento de um ácido nucleico da invenção, ou detectar a presença de ácidos nucleicos de acordo com a invenção. Geralmente, os oligonucleotídios estão preparados sinteticamente, preferivelmente em um sintetizador de ácido nucleico. Consequentemente, os oligonucleotídios podem estar preparados com ligações de análogo de fosfoéster de ocorrência não natural, tais como ligações de tioéster, etc.

[070]Uma “região de codificação” de DNA ou RNA é um DNA ou uma molécula de RNA que é transcrita e/ou traduzida para um polipeptídio em uma célula in vitro ou in vivo quando colocado sob o controle de sequências reguladoras apropriadas. As “regiões reguladoras convenientes” se referem a regiões de ácido nucleico localizadas a montante (sequências 5’ de não codificação), dentro da, ou a jusante (sequências 3’ de não codificação) de uma região de codificação, e que influenciam na transcrição, processamento ou estabilidade de RNA, ou tradução da região de codificação associada. As regiões reguladoras podem incluir promotores, sequências líder de tradução, sítio de processamento de RNA, sítio efetor ligação e estrutura de laço do tronco. Os limites da região de codificação são determinados por um códon de partida na terminação 5' (amina) e um códon de parada de tradução na terminação 3' (carboxila). Uma região de codificação pode incluir, mas não está limitada a, regiões procarióticas, cDNA de mRNA, moléculas de DNA genômicas, moléculas de DNA sintéticas, ou moléculas de RNA. Se a região de codificação for destinada para a expressão em uma célula eucariótica, um sinal de poliadenilação e a sequência de terminação da transcrição serão normalmente

Petição 870180015372, de 26/02/2018, pág. 36/150

23/106 localizados na posição 3' em relação à região de codificação.

[071 ]A “estrutura de leitura aberta” é abreviada como ORF e significa um comprimento do ácido nucleico, DNA, cDNA ou RNA, compreendendo um sinal de partida de tradução ou códon de iniciação, tal como um ATG ou AUG, e um códon da terminação e pode ser potencialmente traduzido para uma sequência de polipeptídio.

[072]O “promotor” se refere a um fragmento de DNA capaz de controlar a expressão de uma sequência de codificação ou RNA funcional. Em geral, uma região de codificação é localizada na posição 3' em relação a um promotor. Os promotores podem ser derivados no seu conjunto de um gene nativo, ou compostos de elementos diferentes derivados de promotores diferentes encontrados na natureza, ou até compreender segmentos sintéticos de DNA. É entendido pelos versados na técnica que os promotores diferentes podem abordar a expressão de um gene em diferentes tecidos ou tipos de célula, ou em etapas diferentes do desenvolvimento, ou em resposta a condições ambientais ou fisiológicas diferentes. Os promotores que fazem com que um gene seja expressado na maior parte dos tipos de célula na maior parte de vezes são comumente tratados como “promotores constitutivos”. É também reconhecido que desde que na maioria dos casos os limites exatos de sequências reguladoras não foram completamente definidos, os fragmentos de DNA de comprimentos diferentes podem ter atividade idêntica de promotor. Um promotor é geralmente limitado na sua terminação 3' pelo sítio de iniciação de transcrição e se estende a montante (direção 5') para incluir o número mínimo de bases ou elementos necessários para iniciar a transcrição a níveis detectáveis acima do antecedente. Dentro do promotor será encontrado um sítio de iniciação de transcrição (convenientemente definido, por exemplo, fazendo o mapa com

Petição 870180015372, de 26/02/2018, pág. 37/150

24/106 nuclease S1), bem como os domínios de ligação de proteína (sequências de consenso) responsáveis pela ligação da RNA polimerase.

[073]Uma região de codificação está “sob o controle” de elementos de controle transcricionais e translacionais em uma célula quando a RNA polimerase transcreve a região de codificação em mRNA, que é então entrançado em trans-RNA (se a região de codificação contiver íntrons) e traduzido para a proteína codificada pela região de codificação.

[074]As “regiões de controle transcricionais e translacionais” são regiões reguladoras de DNA, tais como promotores, melhoradores, terminadores, e assim por diante que fornecem a expressão de uma região de codificação em uma célula hospedeira. Em células eucarióticas, os sinais de poliadenilação são regiões de controle.

[075]O termo “operacionalmente associado” se refere à associação de sequências de ácido nucleico em um único fragmento de ácido nucleico para que a função de cada um seja afetada pelo outro. Por exemplo, um promotor é operacionalmente associado com uma região de codificação quando é capaz de afetar a expressão daquela região de codificação (isto é, a região de codificação está sob controle transcricional do promotor). A codificação de regiões pode ser operacionalmente associada a regiões reguladoras na orientação sentido ou antisentido.

[076]O termo “expressão”, como usado aqui, se refere à transcrição e a acumulação estável do RNA sentido (mRNA) ou antisentido derivado do fragmento de ácido nucleico da invenção. A expressão também pode se referir à tradução de mRNA em um polipeptídio.

Polinucleotídios da Invenção.

[077]A presente invenção fornece o uso de Cbh1 e/ou sequências de

Petição 870180015372, de 26/02/2018, pág. 38/150

25/106 polinucleotídio Cbh2óe Talaromyces emersonii (T. emersonii), Humicola grisea (H. grisea), Thermoascus aurantiacus (T. aurantiacus), e Tríchoderma reesei(T.

reesei).

[078]A sequência de ácido nucleico de T. emersonii Cbh1 está disponível no GenBank (Número de acesso AY081766), e tem a seguinte sequência:

CTCAGACTCAAACACTCCATCAGCAGCTTCGAAAGCGGTCTTTTTG CTATCATCATGCTTCGACGGGCTCTTCTTCTATCCTCTTCCGCCATCCTTG CTGTCAAGGCACAGCAGGCCGGCACGGCGACGGCAGAGAACCACCCGCC CCTGACATGGCAGGAATGCACCGCCCCTGGGAGCTGCACCACCCAGAAC GGGGCGGTCGTTCTTGATGCGAACTGGCGTTGGGTGCACGATGTGAACG GATACACCAACTGCTACACGGGCAATACCTGGGACCCCACGTACTGCCCT GACGACGAAACCTGCGCCCAGAACTGTGCGCTGGACGGCGCGGATTACG AGGGCACCTACGGCGTGACTTCGTCGGGCAGCTCCTTGAAACTCAATTTC GTCACCGGGTCGAACGTCGGATCCCGTCTCTACCTGCTGCAGGACGACTC GACCTATCAGATCTTCAAGCTTCTGAACCGCGAGTTCAGCTTTGACGTCGA TGTCTCCAATCTTCCGTGCGGATTGAACGGCGCTCTGTACTTTGTCGCCAT GGACGCCGACGGCGGCGTGTCCAAGTACCCGAACAACAAGGCTGGTGCC AAGTACGGAACCGGGTATTGCGACTCCCAATGCCCACGGGACCTCAAGTT CATCGACGGCGAGGCCAACGTCGAGGGCTGGCAGCCGTCTTCGAACAAC GCCAACACCGGAATTGGCGACCACGGCTCCTGCTGTGCGGAGATGGATG TCTGGGAAGCAAACAGCATCTCCAATGCGGTCACTCCGCACCCGTGCGAC ACGCCAGGCCAGACGATGTGCTCTGGAGATGACTGCGGTGGCACATACTC TAACGATCGCTACGCGGGAACCTGCGATCCTGACGGCTGTGACTTCAACC CTTACCGCATGGGCAACACTTCTTTCTACGGGCCTGGCAAGATCATCGATA CCACCAAGCCCTTCACTGTCGTGACGCAGTTCCTCACTGATGATGGTACG GATACTGGAACTCTCAGCGAGATCAAGCGCTTCTACATCCAGAACAGCAA

Petição 870180015372, de 26/02/2018, pág. 39/150

26/106

CGTCATTCCGCAGCCCAACTCGGACATCAGTGGCGTGACCGGCAACTCGA TCACGACGGAGTTCTGCACTGCTCAGAAGCAGGCCTTTGGCGACACGGAC GACTTCTCTCAGCACGGTGGCCTGGCCAAGATGGGAGCGGCCATGCAGC AGGGTATGGTCCTGGTGATGAGTTTGTGGGACGACTACGCCGCGCAGATG CTGTGGTTGGATTCCGACTACCCGACGGATGCGGACCCCACGACCCCTG GTATTGCCCGTGGAACGTGTCCGACGGACTCGGGCGTCCCATCGGATGT CGAGTCGCAGAGCCCCAACTCCTACGTGACCTACTCGAACATTAAGTTTG GTCCGATCAACTCGACCTTCACCGCTTCGTGAGTCTTGGTTACATTTGAAG TAGACGGAAGTAGCTCTGCGATGGAACTGGCATATGGAGAAGACCACACA AAACTGCATCGAAGAAAAGAGGGGGGAAAAGAGAAAAGCAAAGTTATTTA GTTTGAAAATGAAACTACGCTCGTTTTTATTCTTGAAAATCGCCACTCTTGC CTTTTTTTTCTTTTTTCTTTTTATTTTTTTTCCTTTTGAAATCTTCAATTTAAAT GTACATATTGTTAAATCAAATCAAGTAAATATACTTGAAAAAAAAAAAAAAAA AAA (SEQ ID N°: 1).

[079]A sequência de ácido nucleico de H. grísea Cbh1 está disponível no GenBank (Número de acesso X17258), e tem a seguinte sequência:

GCCGTGACCTTGCGCGCTTTGGGTGGCGGTGGCGAGTCGTGGAC GGTGCTTGCTGGTCGCCGGCCTTCCCGGCGATCCGCGTGATGAGAGGGC CACCAACGGCGGGATGATGCTCCATGGGGAACTTCCCCATGGAGAAGAG AGAGAAACTTGCGGAGCCGTGATCTGGGGAAAGATGCTCCGTGTCTCGTC TATATAACTCGAGTCTCCCCGAGCCCTCAACACCACCAGCTCTGATCTCAC CATCCCCATCGACAATCACGCAAACACAGCAGTTGTCGGGCCATTCCTTCA GACACATCAGTCACCCTCCTTCAAAATGCGTACCGCCAAGTTCGCCACCCT CGCCGCCCTTGTGGCCTCGGCCGCCGCCCAGCAGGCGTGCAGTCTCACC ACCGAGAGGCACCCTTCCCTCTCTTGGAACAAGTGCACCGCCGGCGGCC AGTGCCAGACCGTCCAGGCTTCCATCACTCTCGACTCCAACTGGCGCTGG

Petição 870180015372, de 26/02/2018, pág. 40/150

27/106

ACTCACCAGGTGTCTGGCTCCACCAACTGCTACACGGGCAACAAGTGGGA

TACTAGCATCTGCACTGATGCCAAGTCGTGCGCTCAGAACTGCTGCGTCG ATGGTGCCGACTACACCAGCACCTATGGCATCACCACCAACGGTGATTCC CTGAGCCTCAAGTTCGTCACCAAGGGCCAGCACTCGACCAACGTCGGCTC GCGTACCTACCTGATGGACGGCGAGGACAAGTATCAGAGTACGTTCTATC TTCAGCCTTCTCGCGCCTTGAATCCTGGCTAACGTTTACACTTCACAGCCT TCGAGCTCCTCGGCAACGAGTTCACCTTCGATGTCGATGTCTCCAACATC GGCTGCGGTCTCAACGGCGCCCTGTACTTCGTCTCCATGGACGCCGATG GTGGTCTCAGCCGCTATCCTGGCAACAAGGCTGGTGCCAAGTACGGTACC GGCTACTGCGATGCTCAGTGCCCCCGTGACATCAAGTTCATCAACGGCGA GGCCAACATTGAGGGCTGGACCGGCTCCACCAACGACCCCAACGCCGGC GCGGGCCGCTATGGTACCTGCTGCTCTGAGATGGATATCTGGGAAGCCAA CAACATGGCTACTGCCTTCACTCCTCACCCTTGCACCATCATTGGCCAGAG CCGCTGCGAGGGCGACTCGTGCGGTGGCACCTACAGCAACGAGCGCTAC GCCGGCGTCTGCGACCCCGATGGCTGCGACTTCAACTCGTACCGCCAGG GCAACAAGACCTTCTACGGCAAGGGCATGACCGTCGACACCACCAAGAAG ATCACTGTCGTCACCCAGTTCCTCAAGGATGCCAACGGCGATCTCGGCGA GATCAAGCGCTTCTACGTCCAGGATGGCAAGATCATCCCCAACTCCGAGT CCACCATCCCCGGCGTCGAGGGCAATTCCATCACCCAGGACTGGTGCGA CCGCCAGAAGGTTGCCTTTGGCGACATTGACGACTTCAACCGCAAGGGCG GCATGAAGCAGATGGGCAAGGCCCTCGCCGGCCCCATGGTCCTGGTCAT GTCCATCTGGGATGACCACGCCTCCAACATGCTCTGGCTCGACTCGACCT TCCCTGTCGATGCCGCTGGCAAGCCCGGCGCCGAGCGCGGTGCCTGCCC GACCACCTCGGGTGTCCCTGCTGAGGTTGAGGCCGAGGCCCCCAACAGC AACGTCGTCTTCTCCAACATCCGCTTCGGCCCCATCGGCTCGACCGTTGC TGGTCTCCCCGGCGCGGGCAACGGCGGCAACAACGGCGGCAACCCCCC

Petição 870180015372, de 26/02/2018, pág. 41/150

28/106

GCCCCCCACCACCACCACCTCCTCGGCTCCGGCCACCACCACCACCGCC AGCGCTGGCCCCAAGGCTGGCCGCTGGCAGCAGTGCGGCGGCATCGGC TTCACTGGCCCGACCCAGTGCGAGGAGCCCTACATTTGCACCAAGCTCAA CGACTGGTACTCTCAGTGCCTGTAAATTCTGAGTCGCTGACTCGACGATCA CGGCCGGTTTTTGCATGAAAGGAAACAAACGACCGCGATAAAAATGGAGG GTAATGAGATGTC (SEQ ID N°: 2).

[080]A sequência de ácido nucleico de T. aurantiacus Cbh1 está disponível no GenBank (Número de acesso AF478686), e tem a seguinte sequência:

GAATTCTAGACCTTTATCCTTTCATCCGACCAGACTTCCCTTTTTGA CCTTGGCGCCCTGTTGACTACCTACCTACCTAGGTAGTAACGTCGTCGAC CCTCTTGAATGATCCTTGTCACACTGCAAACATCCGAAAACATACGGCAAA AGATGATTGGGCATGGATGCAGGAGACATCGAATGAGGGCTTAGAAGGAA ATGAAAACCTGGGACCAGGACGCTAGGTACGATGAAATCCGCCAATGGTG AAACTTTAAGTCGTGCCTACAGCACAGGCTCTGTGAAGATTGCGCTGTTCA GACTTAATCTTCTCATCACAGTCCAAGTCTTTATGAAAAGGAAAAAGAGAG GGAAGAGCGCTATTTCGAGCTGTTGGCCTCATAGGGAGACAGTCGAGCAT ACCAGCGGTATCGACGTTAGACTCAACCAAGAATAATGACGAGAATAAACA CAGAAGTCAACCTTGAACTGGATAGCAGGGTTCCAGCAGCAGATAGTTAC TTGCATAAAGACAACTCCCCGAGGGCTCTCTGCATACACCAGGATGTTCC GGAATTATTCACTGCTCGTTTCCGACGTGGCGTCAGTGATCCGTCTCCACA GAACTCTACCTGGGAATAACCCAGGGGAGGAATCTGCAAGTAAGAACTTA ATACCAATCCCCGGGGCTGCCGAGGTGAATCGAATCTCCCGCGGGAAATT AAACCCATACGATGTTTTTGCACCACATGCATGCTTAGCACGATTTCTCCG CAAGGGAGTCACAGAGAAAGACATATTTCGCATACTACTGTGACTCTGCAG AGTTACATATCACTCAGGATACATTGCAGATCATTGTCCGGGCATCAAAAA

Petição 870180015372, de 26/02/2018, pág. 42/150

29/106

TGGACCTGCAGGATCAACGGCCCGACAAAACACAAGTGGCTAAAGCTGGG GGATGCCCGAAACCCTCTGGTGCAATATCATTTGATGGATGTTCCCCCCG CATTTCTAAGACATCGACGGATCGGCCCGCATACTAATCCTTTTATCAACC AAAAGTTCCACTCGACTAGAGAAAAAAAAGGCCAAGGCCACTAGTTGCAGT CGGATACTGGTCTTTTCGCCGTCCAACACCTTCATCCATGATCCCCTTAGC CACCAATGCCCCACATAATACATGTTGACATAGGTACGTAGCTCTGTTATC CAATCGGATCCGAACCTCTTTAACGGACCCCTCCTACACACCTTATCCTAA CTTCAGAAGACTGTTGCCCATTGGGGATTGAGGAGGTCCGGGTCGCAGGA TGCGTTCTAGGCTAAATTCTCGGCCGGTAGCCATCTCGAATCTCTCGTGAA GCCTTCATCTGAACGGTTGGCGGCCCGTCAAGCCGATGACCATGGGTTCC TGATAGAGCTTGTGCCTGACCGGCCTTGGCGGCATAGACGAGCTGAACAC ATCAGGTATGAACAGATCAGATATAAAGTCGGATTGAGTCCTAGTACGAAG CAATCCGCCACCACCAAATCAAGCAACGAGCGACACGAATAACAATATCAA TCGAATCGCAATGTATCAGCGCGCTCTTCTCTTCTCTTTCTTCCTCGCCGC CGCCCGCGCGCACGAGGCCGGTACCGTAACCGCAGAGAATCACCCTTCC CTGACCTGGCAGCAATGCTCCAGCGGCGGTAGTTGTACCACGCAGAATGG AAAAGTCGTTATCGATGCGAACTGGCGTTGGGTCCATACCACCTCTGGATA CACCAACTGCTACACGGGCAATACGTGGGACACCAGTATCTGTCCCGACG ACGTGACCTGCGCTCAGAATTGTGCCTTGGATGGAGCGGATTACAGTGGC ACCTATGGTGTTACGACCAGTGGCAACGCCCTGAGACTGAACTTTGTCAC CCAAAGCTCAGGGAAGAACATTGGCTCGCGCCTGTACCTGCTGCAGGACG ACACCACTTATCAGATCTTCAAGCTGCTGGGTCAGGAGTTTACCTTCGATG TCGACGTCTCCAATCTCCCTTGCGGGCTGAACGGCGCCCTCTACTTTGTG GCCATGGACGCCGACGGCAATTTGTCCAAATACCCTGGCAACAAGGCAGG CGCTAAGTATGGCACTGGTTACTGCGACTCTCAGTGCCCTCGGGATCTCA AGTTCATCAACGGTCAGGTACGTCAGAAGTGATAACTAGCCAGCAGAGCC

Petição 870180015372, de 26/02/2018, pág. 43/150

30/106

CATGAATCATTAACTAACGCTGTCAAATACAGGCCAACGTTGAAGGCTGGC AGCCGTCTGCCAACGACCCAAATGCCGGCGTTGGTAACCACGGTTCCTCG TGCGCTGAGATGGATGTCTGGGAAGCCAACAGCATCTCTACTGCGGTGAC GCCTCACCCATGCGACACCCCCGGCCAGACCATGTGCCAGGGAGACGAC TGTGGTGGAACCTACTCCTCCACTCGATATGCTGGTACCTGCGACCCTGA TGGCTGCGACTTCAATCCTTACCAGCCAGGCAACCACTCGTTCTACGGCC CCGGGAAGATCGTCGACACTAGCTCCAAATTCACCGTCGTCACCCAGTTC ATCACCGACGACGGGACACCCTCCGGCACCCTGACGGAGATCAAACGCTT CTACGTCCAGAACGGCAAGGTGATCCCCCAGTCGGAGTCGACGATCAGC GGCGTCACCGGCAACTCAATCACCACCGAGTATTGCACGGCCCAGAAGG CAGCCTTCGGCGACAACACCGGCTTCTTCACGCACGGCGGGCTTCAGAA GATCAGTCAGGCTCTGGCTCAGGGCATGGTCCTCGTCATGAGCCTGTGGG ACGATCACGCCGCCAACATGCTCTGGCTGGACAGCACCTACCCGACTGAT GCGGACCCGGACACCCCTGGCGTCGCGCGCGGTACCTGCCCCACGACCT CCGGCGTCCCGGCCGACGTTGAGTCGCAGAACCCCAATTCATATGTTATC TACTCCAACATCAAGGTCGGACCCATCAACTCGACCTTCACCGCCAACTAA GTAAGTAACGGGCACTCTACCACCGAGAGCTTCGTGAAGATACAGGGGTA GTTGGGAGATTGTCGTGTACAGGGGACATGCGATGCTCAAAAATCTACAT CAGTTTGCCAATTGAACCATGAAGAAAAGGGGGAGATCAAAGAAGTCTGT CAGAAGAGAGGGGCTGTGGCAGCTTAAGCCTTGTTGTAGATCGTTCAGAG AAAAAAAAAGTTTGCGTACTTATTATATTAGGTCGATCATTATCCGATTGAC TCCGTGACAAGAATTAAAAAGAGTACTGCTTGCTTGCCTATTTAAATTGTTA TATACGCCGTAGCGCTTGCGGACCACCCCTCACAGTATATCGGTTCGCCT CTTCTTGTCTCTTCATCTCACATCACAGGTCCAGGTCCAGCCCGGCCCGG TCCGGGTGCCATGCATGCACAGGGGGACTAATATATTAATCGTGACCCTG TVCCTAAGCTAGGGTCCCTGCATTTTGAACCTGTGGACGTCTG (SEQ ID N°:

Petição 870180015372, de 26/02/2018, pág. 44/150

31/106

3).

[081 ]A sequência de ácido nucléico de T. reeseiCbhl está disponível no GenBank (Número de acesso E00389), e tem a seguinte sequência:

AAGGTTAGCCAAGAACAATAGCCGATAAAGATAGCCTCATTAAACG GAATGAGCTAGTAGGCAAAGTCAGCGAATGTGTATATATAAAGGTTCGAGG TCCGTGCCTCCCTCATGCTCTCCCCATCTACTCATCAACTCAGATCCTCCA GGAGACTTGTACACCATCTTTTGAGGCACAGAAACCCAATAGTCAACCGC GGACTGGCATCATGTATCGGAAGTTGGCCGTCATCACGGCCTTCTTGGCC ACAGCTCGTGCTCAGTCGGCCTGCACTCTCCAATCGGAGACTCACCCGCC TCTGACATGGCAGAAATGCTCGTCTGGTGGCACTTGCACTCAACAGACAG GCTCCGTGGTCATCGACGCCAACTGGCGCTGGACTCACGCTACGAACAG CAGCACGAACTGCTACGATGGCAACACTTGGAGCTCGACCCTATGTCCTG ACAACGAGACCTGCGCGAAGAACTGCTGTCTGGACGGTGCCGCCTACGC GTCCACGTACGGAGTTACCACGAGCGGTAACAGCCTCTCCATTGGCTTTG TCACCCAGTCTGCGCAGAAGAACGTTGGCGCTCGCCTTTACCTTATGGCG AGCGACACGACCTACCAGGAATTCACCCTGCTTGGCAACGAGTTCTCTTTC GATGTTGATGTTTCGCAGCTGCCGTAAGTGACTTACCATGAACCCCTGACG TATCTTCTTGTGGGCTCCCAGCTGACTGGCCAATTTAAGGTGCGGCTTGAA CGGAGCTCTCTACTTCGTGTCCATGGACGCGGATGGTGGCGTGAGCAAGT ATCCCACCAACAACGCTGGCGCCAAGTACGGCACGGGGTACTGTGACAG CCAGTGTCCCCGCGATCTGAAGTTCATCAATGGCCAGGCCAACGTTGAGG GCTGGGAGCCGTCATCCAACAACGCAAACACGGGCATTGGAGGACACGG AAGCTGCTGCTCTGAGATGGATATCTGGGAGGCCAACTCCATCTCCGAGG CTCTTACCCCCCACCCTTGCACGACTGTCGGCCAGGAGATCTGCGAGGGT GATGGGTGCGGCGGAACTTACTCCGATAACAGATATGGCGGCACTTGCGA TCCCGATGGCTGCGACTGGAACCCATACCGCCTGGGCAACACCAGCTTCT

Petição 870180015372, de 26/02/2018, pág. 45/150

32/106

ACGGCCCTGGCTCAAGCTTTACCCTCGATACCACCAAGAAATTGACCGTT GTCACCCAGTTCGAGACGTCGGGTGCCATCAACCGATACTATGTCCAGAA TGGCGTCACTTTCCAGCAGCCCAACGCCGAGCTTGGTAGTTACTCTGGCA ACGAGCTCAACGATGATTACTGCACAGCTGAGGAGACAGAATTCGGCGGA TCTCTTTCTCAGACAAGGGCGGCCTGACTCAGTTCAAGAAGGCTACCTCT GGCGGCATGGTTCTGGTCATGAGTCTGTGGGATGATGTGAGTTTGATGGA CAAACATGCGCGTTGACAAAGAGTCAAGCAGCTGACTGAGATGTTACAGT ACTACGCCAACATGCTGTGGCTGGACTCCACCTACCCGACAAACGAGACC TCCTCCACACCCGGTGCCGTGCGCGGAAGCTGCTCCACCAGCTCCGGTG TCCCTGCTCAGGTCGAATCTCAGTCTCCCAACGCCAAGGTCACCTTCTCCA ACATCAAGTTCGGACCCATTGGCAGCACCGGCAACCCTAGCGGCGGCAA CCCTCCCGGCGGAAACCGTGGCACCACCACCACCCGCCGCCCAGCCACT ACCACTGGAAGCTCTCCCGGACCTACCCAGTCTCACTACGGCCAGTGCGG CGGTATTGGCTACAGCGGCCCCACGGTCTGCGCCAGCGGCACAACTTGC CAGGTCCTGAACCCTTACTACTCTCAGTGCCTGTAAAGCTCCGTGCGAAA GCCTGACGCACCGGTAGATTCTTGGTGAGCCCGTATCATGACGGCGGCG GGAGCTACATGGCCCCGGGTGATTTATTTTTTTTGTATCTACTTCTGACCCT TTTCAAATATACGGTCAACTCATCTTTCACTGGAGATGCGGCCTGCTTGGT ATTGCGATGTTGTCAGCTTGGCAAATTGTGGCTTTCGAAAACACAAAACGA TTCCTTAGTAGCCATGCATTTTAAGATAACGGAATAGAAGAAAGAGGAAAT TAAAAAAAAAAAAAAAACAAACATCCCGTTCATAACCCGTAGAATCGCCGC TCTTCGTGTATCCCAGTACCA (SEQ ID N°: 4).

[082]A sequência de ácido nucleico de T. emersonii Cbh2esXá disponível no GenBank (Número de acesso AF439936), e tem a seguinte sequência:

GACGGACCTGCACTTAGTCGGTAGGTTATGTATGTAGCTGGAGAT TGGGATAGGGAAGTTAGCTAATAGTCTACTTCGTGTGAGGGTTGATTTTGA

Petição 870180015372, de 26/02/2018, pág. 46/150

33/106

TGGTCGACAGTATTCGTTTCTTATACGCAGCGTCATGGATCTGTGTTTCTG TCACATGTCGGGTGGATGGTTCCTGGACAGCAGCACACAAATGGTGTTCT GTAGATAGGCGATACTCGGCAGGGGATTGTGCAGGGGATTGTATCGTAGA TGGTTCTAGTAAAATAGATCCCGAGTATGGTTAGCTCTCATACCTCGAGTN GATGAAGCACAATATGCTACGATATGCCAAGTAAAACTCTATTGTATTCTGC AGCTAGCAATTGAAGAATCCGACATTCCCATTGTCATCTAATCGGGCAGAC ATGTGCAAAGAGGGACGATTCGTGATCGAAGTGCTCCAATCCATGGCGTA GGACCAGACAGCTCCATCCGATCTAGAGCTATATGGAGCTCCTCGCAACT CCGACACTCCGCGAGACAGCTCTCACAAGCACTATAAATATGGCCAAGAA CCCTGCAGAACAGCTTCACTCTACAGCCCGTTGAGCAGAACAAACAAAATA TCACTCCAGAGAGAAAGCAACATGCGGAATCTTCTTGCTCTTGCACCGGC CGCGCTGCTTGTCGGCGCAGCGGAAGCGCAACAATCCCTCTGGGGACAA TGTGAGCAGCTCCTAAACGTCTGTCTGAGGGATTATGTCTGACTGCTCAG GCGGCGGGAGTTCGTGGACTGGCGCGACGAGCTGTGCTGCTGGAGCGA CGTGCAGCACAATCAATCCTTGTACGTCTGCTGAACGATAATCCTACATTG TTGACGTGCTAACTGCGTAGACTACGCACAATGCGTTCCTGCAACGGCCA CTCCGACCACGCTGACGACAACGACAAAACCAACGTCCACCGGCGGCGC TGCTCCAACGACTCCTCCTCCGACAACGACTGGAACAACGACATCGCCCG TCGTCACCAGGCCCGCGTCTGCCTCCGGCAACCCGTTCGAAGGCTACCA GCTCTACGCCAATCCGTACTATGCGTCGGAGGTGATTAGTTTGGCAATTCC CTCGCTGAGCAGCGAGCTGGTTCCCAAGGCGAGCGAGGTGGCCAAGGTG CCGTCTTTCGTCTGGCTGTAAGTAAATTCCCCCAGGCTGTCATTTCCCCTT ACTGATCTTGTCCAGCGACCAAGCCGCCAAGGTGCCCAGCATGGGCGACT ATCTGAAAGACATCCAGTCGCAGAACGCAGCCGGCGCAGACCCCCCGATT GCAGGCATCTTTGTCGTCTACGACCTGCCTGACCGCGACTGCGCGGCTGC AGCCAGCAATGGCGAGTTCTCCATCGCCAACAACGGCGTCGCCCTGTACA

Petição 870180015372, de 26/02/2018, pág. 47/150

34/106

AGCAGTACATCGACTCGATCCGCGAGCAGCTGACGACCTATTCAGATGTG CACACCATCCTGGTCATCGGTAGTTCCAGTCCTCTTCTGTGATGTTGATGA AAAAAATACTGACTGACTCCTGCAGAACCCGACAGCCTTGCGAACGTGGT CACCAACCTGAACGTGCCGAAATGCGCAAATGCCCAGGACGCCTATCTCG AATGCATCAACTACGCCATCACCCAGCTCGATCTGCCAAACGTGGCCATG TATCTTGATGCTGGTGAGTCCTCACATACAAGTGAATAAAAATAAAACTGAT GCAGTGCAGGACACGCCGGATGGCTAGGCTGGCAAGCCAACCTCGCCCC CGCCGCCCAGCTGTTTGCCTCGGTGTACAAAAACGCCTCCTCTCCGGCAT CCGTCCGCGGTCTCGCCACCAACGTCGCCAACTACAACGCCTGGTCGATC AGCCGGTGCCCGTCGTACACGCAGGGCGACGCCAATTGCGACGAGGAGG ATTACGTGAATGCCTTGGGGCCGTTGTTCCAGGAACAGGGATTCCCGGCA TATTTTATCATTGATACATGTAAGCTTTACCCCAGAACCCCTCCATAGAAGG TCAATCTAACGGTAATGTACAGCCCGCAATGGCGTCCGACCCACCAAGCA AAGCCAATGGGGCGACTGGTGCAACGTCATCGGCACGGGCTTCGGCGTC CGGCCCACGACCGACACCGGCAATCCTCTCGAGGACGCTTTCGTCTGGG TCAAGCCCGGTGGCGAGAGCGATGGCACGTCCAACACGACCTCTCCGCG GTACGACTACCACTGCGGGCTGAGCGATGCGCTGCAGCCGGCGCCGGAG GCGGGGACTTGGTTCCAGGTATGACGCGCCTTCGTATTAGCAATTACGAT ACATGTGCATGCTGACCATGCGACAGGCGTACTTTGAGCAGTTGCTCACG AATGCTAACCCGCTGTTCTGA (SEQ ID N°: 5).

[083]A sequência de ácido nucleico de T. reesei Cbh2 está disponível no GenBank (Número de acesso M16190), e tem a seguinte sequência:

TCGAACTGACAAGTTGTTATATTGCCTGTGTACCAAGCGCGAATGT

GGACAGGATTAATGCCAGAGTTCATTAGCCTCAAGTAGAGCCTATTTCCTC

GCCGGAAAGTCATCTCTCTTATTGCATTTCTGCCCTTCCCACTAACTCAGG

GTGCAGCGCAACACTACACGCAACATATACACTTTATTAGCCGTGCAACAA

Petição 870180015372, de 26/02/2018, pág. 48/150

35/106

GGCTATTCTACGAAAAATGCTACACTCCACATGTTAAAGGCGCATTCAACC AGCTTCTTTATTGGGTAATATACAGCCAGGCGGGGATGAAGCTCATTAGCC GCCACTCAAGGCTATACAATGTTGCCAACTCTCCGGGCTTTATCCTGTGCT CCCGAATACCACATCGTGATGATGCTTCAGCGCACGGAAGTCACAGACAC CGCCTGTATAAAAGGGGGACTGTGACCCTGTATGAGGCGCAACATGGTCT CACAGCAGCTCACCTGAAGAGGCTTGTAAGATCACCCTCTGTGTATTGCAC CATGATTGTCGGCATTCTCACCACGCTGGCTACGCTGGCCACACTCGCAG CTAGTGTGCCTCTAGAGGAGCGGCAAGCTTGCTCAAGCGTCTGGTAATTA TGTGAACCCTCTCAAGAGACCCAAATACTGAGATATGTCAAGGGGCCAAT GTGGTGGCCAGAATTGGTCGGGTCCGACTTGCTGTGCTTCCGGAAGCACA TGCGTCTACTCCAACGACTATTACTCCCAGTGTCTTCCCGGCGCTGCAAG CTCAAGCTCGTCCACGCGCGCCGCGTCGACGACTTCTCGAGTATCCCCCA CAACATCCCGGTCGAGCTCCGCGACGCCTCCACCTGGTTCTACTACTACC AGAGTACCTCCAGTCGGATCGGGAACCGCTACGTATTCAGGCAACCCTTT TGTTGGGGTCACTCCTTGGGCCAATGCATATTACGCCTCTGAAGTTAGCAG CCTCGCTATTCCTAGCTTGACTGGAGCCATGGCCACTGCTGCAGCAGCTG TCGCAAAGGTTCCCTCTTTTATGTGGCTGTAGGTCCTCCCGGAACCAAGG CAATCTGTTACTGAAGGCTCATCATTCACTGCAGAGATACTCTTGACAAGA CCCCTCTCATGGAGCAAACCTTGGCCGACATCCGCACCGCCAACAAGAAT GGCGGTAACTATGCCGGACAGTTTGTGGTGTATGACTTGCCGGATCGCGA TTGCGCTGCCCTTGCCTCGAATGGCGAATACTCTATTGCCGATGGTGGCG TCGCCAAATATAAGAACTATATCGACACCATTCGTCAAATTGTCGTGGAATA TTCCGATATCCGGACCCTCCTGGTTATTGGTGAGTTTAAACACCTGCCTCC CCCCCCCCTTCCCTTCCTTTCCCGCCGGCATCTTGTCGTTGTGCTAACTAT TGTTCCCTCTTCCAGAGCCTGACTCTCTTGCCAACCTGGTGACCAACCTCG GTACTCCAAAGTGTGCCAATGCTCAGTCAGCCTACCTTGAGTGCATCAACT

Petição 870180015372, de 26/02/2018, pág. 49/150

36/106

ACGCCGTCACACAGCTGAACCTTCCAAATGTTGCGATGTATTTGGACGCTG GCCATGCAGGATGGCTTGGCTGGCCGGCAAACCAAGACCCGGCCGCTCA GCTATTTGCAAATGTTTACAAGAATGCATCGTCTCCGAGAGCTCTTCGCGG ATTGGCAACCAATGTCGCCAACTACAACGGGTGGAACATTACCAGCCCCC CATCGTACACGCAAGGCAACGCTGTCTACAACGAGAAGCTGTACATCCAC GCTATTGGACCTCTTCTTGCCAATCACGGCTGGTCCAACGCCTTCTTCATC ACTGATCAAGGTCGATCGGGAAAGCAGCCTACCGGACAGCAACAGTGGG GAGACTGGTGCAATGTGATCGGCACCGGATTTGGTATTCGCCCATCCGCA AACACTGGGGACTCGTTGCTGGATTCGTTTGTCTGGGTCAAGCCAGGCGG CGAGTGTGACGGCACCAGCGACAGCAGTGCGCCACGATTTGACTCCCACT GTGCGCTCCCAGATGCCTTGCAACCGGCGCCTCAAGCTGGTGCTTGGTTC CAAGCCTACTTTGTGCAGCTTCTCACAAACGCAAACCCATCGTTCCTGTAA GGCTTTCGTGACCGGGCTTCAAACAATGATGTGCGATGGTGTGGTTCCCG GTTGGCGGAGTCTTTGTCTACTTTGGTTGT (SEQ ID N°: 6).

[084]A presente invenção também fornece o uso de um polinucleotídio isolado compreendendo um ácido nucleico pelo menos aproximadamente 70%, 75%, ou 80% idêntico, pelo menos de aproximadamente 90% a aproximadamente 95% idêntico, ou pelo menos aproximadamente 96%, 97%, 98%, 99% ou 100% idêntico a qualquer uma das SEQ ID N^os: 1a 6, ou fragmentos, variantes, ou derivados da mesma.

[085]Em certos aspectos, a presente invenção se refere a um polinucleotídio compreendendo um ácido nucleico codificando um domínio funcional ou estrutural dos T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2. Por exemplo, os domínios de T. reesei Cbh1 incluem, sem restrição: (1) uma sequência de sinal, do aminoácido 1 ao 33 da SEQ ID N°: 17; (2) um domínio catalítico (CD) de aproximadamente o aminoácido 41 a

Petição 870180015372, de 26/02/2018, pág. 50/150

37/106 aproximadamente o aminoácido 465 da SEQ ID N°: 17; e (3) um módulo de ligação com celulose (CBM) de aproximadamente o aminoácido 503 a aproximadamente o aminoácido 535 da SEQ ID N°: 17. Os domínios de T. reesei Cbh2 incluem, sem restrição: (1) uma sequência de sinal, do aminoácido 1 ao 33 da SEQ ID N°: 18; (2) um domínio catalítico (CD) de aproximadamente o aminoácido 145 a aproximadamente o aminoácido 458 da SEQ ID N°: 18; e (3) um módulo de ligação com celulose (CBM) de aproximadamente o aminoácido 52 a aproximadamente o aminoácido 83 da SEQ ID N°: 18.

[086]A presente invenção também abrange um polinucleotídio isolado compreendendo um ácido nucleico que é 70%, 75%, ou 80% idêntico, pelo menos de aproximadamente 90% a aproximadamente 95% idêntico, ou pelo menos aproximadamente 96%, 97%, 98%, 99% ou 100% idêntico a um ácido nucleico codificando um domínio T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, tal como descrito acima.

[087]A presente invenção também abrange variantes dos genes Cbh1 ou Cbh2, tal como descrito acima. As variantes podem conter alterações nas regiões de codificação, regiões de não codificação, ou ambas. Os exemplos são variantes de polinucleotídio contendo alterações que produzem substituições, adições, ou eliminações silenciosas, mas não alteram as propriedades ou as atividades do polipeptídio codificado. Em certas modalidades, as variantes de nucelotídio são produzidas por substituições silenciosas devido à degeneração do código genético. Em modalidades adicionais, T. emersonii, H. grísea, T. aurantiacus, e T. reesei Cbh1 ou as variantes de polinucleotídio Cbh2 podem ser produzidos por várias razões, por exemplo, para otimizar a expressão do códon de um determinado hospedeiro (por exemplo, códons modificação no mRNA do T. emersonii Cbh1 em relação aos preferidos por um hospedeiro, tal como a

Petição 870180015372, de 26/02/2018, pág. 51/150

38/106 levedura Saccharomyces cerevisiaé). Os polinucleotídios otimizados pelo códon da presente invenção são discutidos também abaixo.

[088]A presente invenção também abrange um polinucleotídio isolado compreendendo um ácido nucleico que é 70%, 75%, ou 80% idêntico, pelo menos de aproximadamente 90% a aproximadamente 95% idêntico, ou pelo menos aproximadamente 96%, 97%, 98%, 99% ou 100% idêntico a um ácido nucleico codificando uma proteína de fusão, onde o ácido nucleico compreende (1) um primeiro polinucleotídio, onde o primeiro polinucleotídio codifica para um T. emersonii, H. grisea, T. aurantiacus, ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo; e (2) um segundo polinucleotídio, onde o segundo polinucleotídio codifica para um T. emersonii, H. grisea, T. aurantiacus, ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo.

[089]Em certas modalidades, o ácido nucleico codificando uma proteína de fusão compreende um primeiro polinucleotídio codificando para um T. emersonii Cbh1, H. grisea Cbh1, ou T. aurantiacusi Cbh1, T. emersonii Cbh1 e um segundo polinucleotídio codificando o domínio CBM de T. reesei Cbh1 ou T. reesei Cbh2. Em determinadas modalidades do ácido nucleico codificando uma proteína de fusão, o primeiro polinucleotídio é T. emersonii Cbh1 e o segundo polinucleotídio codifica para uma CBM de T. reesei Cbh1 ou Cbh2. Em modalidades adicionais da proteína de fusão, os primeiros e segundos polinucleotídios estão na mesma orientação, ou o segundo polinucleotídio está na orientação inversa do primeiro polinucleotídio. Em modalidades adicionais, o primeiro polinucleotídio é a terminação N ou a terminação C em relação ao segundo polinucleotídio. Em certas outras modalidades, o primeiro polinucleotídio e/ou o segundo polinucleotídio são codificados por

Petição 870180015372, de 26/02/2018, pág. 52/150

39/106 polinucleotídios otimizados pelo códon, por exemplo, polinucleotídios otimizados pelo códon para S. cerevisiae. Em determinadas modalidades do ácido nucleico codificando uma proteína de fusão, o primeiro polinucleotídio é um T. emersonii

Cbh1 otimizado pelo códon e o segundo polinucleotídio codifica para uma CBM otimizada pelo códon de T. reesei Cbh1 ou Cbh2.

[090]Também são fornecidas na presente invenção as variantes alélicas, ortologos, e/ou espécies homólogas. Os procedimentos conhecidos na técnica podem ser usados para obter genes de comprimento total, variantes alélicas, variantes de junção, porções de codificação de comprimento total, ortologos, e/ou espécies homólogas de genes correspondendo a qualquer uma das SEQ ID N^os: 1 a 6, usando a informação das sequências aqui divulgadas ou os clones depositado com o ATCC. Por exemplo, as variantes alélicas e/ou as espécies homólogas podem ser isoladas e identificadas fazendo sondas ou iniciadores convenientes das sequências fornecidas aqui e avaliando uma fonte de ácido nucleico conveniente de variantes alélicas e/ou o homólogo desejado.

[091]Por um ácido nucleico possuindo uma sequência de nucelotídio pelo menos, por exemplo, 95% “idêntica” a uma sequência de nucelotídio de referência da presente invenção, é pretendido que a sequência de nucelotídio do ácido nucleico seja idêntica à sequência de referência exceto que a sequência de nucelotídio pode incluir até cinco mutações pontuais por cada um 100 nucelotídios da sequência de nucelotídio de referência codificando o determinado polipeptídio. Em outras palavras, para obter um ácido nucleico possuindo uma sequência de nucelotídio pelo menos 95% idêntica a uma sequência de nucelotídio de referência, até 5% dos nucelotídios na sequência de referência podem ser eliminados ou substituídos com outro nucelotídio, ou um número de nucelotídios de até 5% dos nucelotídios totais na sequência de

Petição 870180015372, de 26/02/2018, pág. 53/150

40/106 referência podem ser inseridos na sequência de referência. A sequência de pergunta pode ser uma sequência inteira mostrada de algumas das SEQ ID N^os:

a 6, ou qualquer fragmento ou domínio especificado como descrito aqui.

[092]Como uma matéria prática, se alguma determinada molécula de ácido nucleico ou polipeptídio são pelo menos 80%, 85%, 90%, 95%, 96%, 97%, 98% ou 99% idênticos a uma sequência de nucelotídio ou um polipeptídio da presente invenção pode-se ser determinado convencionalmente usando programas de computador conhecidos. Um método para determinar a melhor combinação total entre uma sequência de pergunta (uma sequência da presente invenção) e uma sequência de objetivo, também referida como um alinhamento de sequência global, pode ser determinada usando o programa de computador FASTDB baseado no algoritmo de Brutlag et al. (Comp. App. Biosci. (1990) 6:237-245.) Em um alinhamento de sequência as sequências de pergunta e de objetivo são ambas sequências de DNA. Uma sequência de RNA pode ser comparada convertendo U em T. O resultado do dito alinhamento de sequência global está na identidade percentual. Os parâmetros preferenciais usados em um alinhamento de FASTDB de sequências de DNA para calcular a identidade percentual são: Matrix=Unitary, k-tuple=4, Penalidade de má combinação=1, Penalidade de união=30, comprimento do grupo aieatório=0, Valor do atalho=1, Penalidade de fenda=5, Penalidade do Tamanho da Fenda=0,05, Tamanho da janela=500 ou o comprimento da sequência de nucelotídio de objetivo, tudo o que for mais curto.

[093]Se a sequência de objetivo for mais curta do que a sequência de pergunta por causa de eliminações 5’ ou 3’, não devido a eliminações internas, uma correção manual deve ser feita nos resultados. Isto é porque o programa

FASTDB não conta truncamentos 5’ e 3’ da sequência de objetivo quando está

Petição 870180015372, de 26/02/2018, pág. 54/150

41/106 calculando identidade percentual. Para sequências de objetivos truncadas nas extremidades 5’ e 3’, em relação à sequência de pergunta, a identidade percentual é corrigida calculando o número de bases da sequência de pergunta que são 5’ e 3’ da sequência de objetivo, que não são combinadas/alinhadas, como um percentual do total de bases da sequência de pergunta. Se um nucelotídio for combinado/alinhado é determinado por resultados do alinhamento de sequência de FASTDB. Esta percentagem então é subtraída da identidade percentual, calculada pelo programa acima mencionado FASTDB usando os parâmetros especificados, para chegar a uma avaliação de identidade percentual final. Esta avaliação corrigida é o que é usado para os objetivos da presente invenção. Somente as bases fora das bases 5’ e 3’ da sequência de objetivo, como exposto pelo alinhamento do FASTDB, que não são combinados/alinhados com a sequência de pergunta, é que são calculadas com os objetivos de manualmente ajustar a avaliação de identidade percentual.

[094]Por exemplo, uma sequência de objetivo de 90 bases é alinhada a uma sequência de pergunta de 100 bases para determinar a identidade percentual. As eliminações ocorrem na extremidade 5’ da sequência de objetivo e por isso, o alinhamento de FASTDB não mostra uma combinação/alinhamento de 10 primeiras bases na extremidade 5’. As 10 bases não pareadas representam 10% da sequência (número de bases nas extremidades 5’ e 3’ não combinados/número total de bases na sequência de pergunta) portanto 10% são subtraídos da avaliação de identidade percentual calculada pelo programa de FASTDB. Se o resto das 90 bases fosse perfeitamente combinado a identidade percentual final seria de 90%. Em outro exemplo, uma sequência de objetivo de 90 bases é comparada com uma sequência de pergunta de 100 bases. Dessa vez as eliminações são eliminações internas para que não há nenhuma base em

Petição 870180015372, de 26/02/2018, pág. 55/150

42/106

5’ ou 3’ da sequência de objetivo que não são seja combinada/alinhada com a sequência de pergunta. Neste caso a identidade percentual calculada por FASTDB não é manualmente corrigida. Mais uma vez, somente as bases 5’ e 3’ da sequência de objetivo que não são combinadas/alinhadas com a sequência de pergunta são manualmente corrigidas. Nenhuma outra correção manual deve ser feita para os objetivos da presente invenção.

[095]Algumas modalidades da invenção abrangem uma molécula de ácido nucleico compreendendo pelo menos 10, 20, 30, 35, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, ou 800 nucelotídios consecutivos ou mais de qualquer um das SEQ ID N^os: 1 a 6, ou domínios, fragmentos, variantes, ou derivados das mesmas.

[096]O polinucleotídio da presente invenção pode estar na forma de RNA ou na forma de DNA, cujo DNA inclui cDNA, DNA genômico, e DNA sintético. O DNA pode ser de fita dupla ou de fita simples, e se for de fita simples pode ser a fita de codificação ou a fita de não codificação (anti-sentido). A sequência de codificação codificando o polipeptídio maduro pode ser idêntica à sequência de codificação codificando as SEQ ID N^os: 11 a 14 ou 17 a 18 ou pode ser uma sequência de codificação diferente que codifica a sequência, em consequência da redundância ou degeneração do código genético, codifica o mesmo polipeptídio maduro como o DNA de qualquer uma das SEQ ID N^os: 1 a 6.

[097]Em certas modalidades, a presente invenção fornece um polinucleotídio isolado compreendendo um fragmento de ácido nucleico codificando pelo menos 10, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 95, ou pelo menos 100 ou mais aminoácidos contíguos das SEQ ID N^os: 11 a14ou17a18.

Petição 870180015372, de 26/02/2018, pág. 56/150

43/106 [098]O polinucleotídio codificando do polipeptídio maduro da SEQ ID N°: 11 a 14 ou 17 a 18 pode incluir: somente a sequência de codificação do polipeptídio maduro; a sequência de codificação de qualquer domínio do polipeptídio maduro; e a sequência de codificação do polipeptídio maduro (ou sequência codificando o domínio) em conjunto com não codificação sequência de, tal como íntrons ou não codificação de sequência 5' e/ou 3' da sequência de codificação do polipeptídio maduro.

[099]Assim, o termo “polinucleotídio codificando um polipeptídio” abrange um polinucleotídio que inclui somente as sequências de codificação do polipeptídio bem como um polinucleotídio que inclui a codificação adicional e/ou a não codificação das sequências.

[0100]Em aspectos adicionais da invenção, moléculas de ácido nucleico possuindo sequências pelo menos aproximadamente 90%, 95%, 96%, 97%, 98% ou 99% idênticas às sequências de ácido nucleico aqui divugadas, codificam um polipeptídio possuindo atividade funcional Cbh. Por um “polipeptídio possuindo atividade funcional Cbh” se deseja significar polipeptídios que exibem atividades semelhantes, mas não necessariamente idênticas, a uma atividade funcional dos polipeptídios Cbh da presente invenção, tal como medido, por exemplo, em um determinado ensaio biológico. Por exemplo, uma atividade funcional Cbh pode ser costumeiramente medida determinando a capacidade de um polipeptídio Cbh de hidrolisar a celulose, ou medindo o nível de atividade Cbh.

[0101]Naturalmente, devido à degeneração do código genético, um técnico normalmente versado na técnica reconhecerá imediatamente que uma grande porção das moléculas de ácido nucleico possuindo uma sequência pelo menos aproximadamente 90%, 95%, 96%, 97%, 98%, ou 99% idênticas à

Petição 870180015372, de 26/02/2018, pág. 57/150

44/106 sequência de ácido nucleico de qualquer uma das SEQ ID N^os: 1 a 6, ou fragmentos das mesmas, codificará polipeptídios “possuindo atividade funcional Cbh.” De fato, como as variantes degeneradas de alguma destas sequências de nucelotídio codificam todas o mesmo polipeptídio, em muitos exemplos, isto será claro para o técnico versado até sem executar o ensaio de comparação descrito acima mencionado. Será também reconhecido na técnica que, para tais moléculas de ácido nucleico que não são variantes degeneradas, um número razoável também codificará um polipeptídio possuindo atividade funcional Cbh.

[0102]Os fragmentos do gene de comprimento total da presente invenção podem ser usados como uma sonda de hibridização de uma biblioteca de cDNA para isolar o comprimento total cDNA e isolar outros cDNAs possuindo uma alta similaridade de sequência com os genes Cbh1 da presente invenção, ou codificando genes de uma proteína com a atividade biológica semelhante. O comprimento de sonda pode variar de 5 bases a dezenas de milhares de bases, e dependerá do teste específico a ser feito. Tipicamente um comprimento de sonda de aproximadamente 15 bases a aproximadamente 30 bases é conveniente. Somente uma parte da molécula da sonda precisa de ser complementar à sequência de ácido nucleico a ser detectada. Além disso, a complementaridade entre a sonda e a sequência de objetivo não tem de ser perfeita. A hibridização realmente ocorre entre moléculas imperfeitamente complementares com a consequência de que certa fração das bases na região hibridizada não é unida com a base complementar própria.

[0103]Em certas modalidades, uma sonda de hibridização pode ter pelo menos 30 bases e pode conter, por exemplo, 50 ou mais bases. A sonda também pode ser usada para identificar um clone de cDNA correspondente a uma cópia de comprimento total e um clone genômico ou clones contendo o gene completo

Petição 870180015372, de 26/02/2018, pág. 58/150

45/106 incluindo regiões de regulador e de promotor, éxons, e íntrons. Um exemplo de uma avaliação compreende o isolamento da região de codificação do gene usando a sequência de DNA conhecida por sintetizar uma sonda de oligonucleotídio. Os oligonucleotídios marcados possuindo uma sequência complementar àquela do gene da presente invenção são usados para avaliar uma biblioteca de cDNA bacteriano ou fúngico, DNA genômico ou mRNA para determinar a que membros da biblioteca a sonda se hibridiza.

[0104]A presente invenção também se refere a polinucleotídios que hibridizam às sequências descritas mais acima se houver pelo menos aproximadamente 70%, pelo menos aproximadamente 90%, ou identidade pelo menos de aproximadamente 95% entre as sequências. A presente invenção particularmente se refere a polinucleotídios que hibridizam sob condições restritas aos polinucleotídios descritos mais acima. Como aqui usado, o termo “condições restritas” significa que a hibridização ocorrerá somente se houver pelo menos aproximadamente 95%, ou identidade pelo menos de aproximadamente 97%, entre as sequências. Em certos aspectos da invenção, os polinucleotídios que hibridizam aos polinucleotídios mais acima descritos codificam polipeptídios que conservam substancialmente a mesma função biológica ou atividade que o polipeptídio maduro codificado pelos DNAs de qualquer uma das SEQ ID N^os: 1 a 6.

[0105]Alternativamente, os polinucleotídios que hibridizam às sequências descritas mais acima podem ter pelo menos 20 bases, pelo menos 30 bases, ou pelo menos 50 bases que hibridizam a um polinucleotídio da presente invenção e possuindo uma identidade ao mesmo, como mais acima descrito, e que podem ou não podem conservar a atividade. Por exemplo, tais polinucleotídios podem ser empregados como sondas do polinucleotídio de

Petição 870180015372, de 26/02/2018, pág. 59/150

46/106 qualquer uma das SEQ ID N^os: 1 a 6, por exemplo, para recuperação do polinucleotídio ou como uma sonda de diagnóstico ou como um iniciador de

PCR.

[0106]Os métodos de hibridização são bem definidos e foram descritos acima. A hibridização de ácido nucleico é adaptável a vários formatos de teste. Um dos mais convenientes é o formato de teste de sanduíche. O teste de sanduíche é especialmente adaptável à hibridização sob condições de não desnaturação. Um componente primário de um teste do tipo sanduíche é um suporte sólido. O suporte sólido tem adsorvido ou covalentemente ligado a ele uma sonda de ácido nucleico imobilizada que é não marcada e é complementar a uma parte da sequência.

[0107]Por exemplo, os genes codificando proteínas ou polipeptídios semelhantes àquelas da invenção imediata podem ser isolados diretamente usando todas ou uma parte dos fragmentos de ácido nucleico imediatos como sondas de hibridização de DNA para avaliar bibliotecas de qualquer bactéria desejada usando uma metodologia bem conhecida aos versados na técnica. As sondas de oligonucleotídio específicas baseadas nas sequências de ácido nucleico instantâneas podem ser projetadas e sintetizadas por métodos conhecidos na técnica (ver, por exemplo, Maniatis, 1989). Além disso, as sequências inteiras podem ser usadas diretamente para sintetizar sondas de DNA por métodos conhecidos do técnico versado, tais como iniciadores aleatórios de marcação de DNA, tradução de fenda, ou técnicas de marcação final, ou sondas de RNA usando sistemas disponíveis de transcrição in vitro.

[0108]Em certos aspectos da invenção, os polinucleotídios que hibridizam às sequências descritas mais acima possuindo pelo menos 20 bases, pelo menos 30 bases, ou pelo menos 50 bases que hibridizam a um

Petição 870180015372, de 26/02/2018, pág. 60/150

47/106 polinucleotídio da presente invenção podem ser empregados como iniciadores de PCR. Tipicamente, em PCR - técnicas do tipo de amplificação, os iniciadores têm sequências diferentes e não são complementares um ao outro. Dependendo das condições de teste desejadas, as sequências dos iniciadores devem ser projetadas para fornecer tanto uma réplica eficiente como fiel do ácido nucleico de objetivo. Os métodos de projeto de iniciador de PCR são comuns e bem conhecidos na técnica. Geralmente dois segmentos curtos de sequências instantâneas podem ser usados em protocolos da reação de cadeia de polimerase (PCR) para amplificar fragmentos de ácido nucleico mais longos codificando genes homólogos de DNA ou RNA. A reação de cadeia de polimerase também pode ser executada em uma biblioteca de fragmentos de ácido nucleico clonados em que a sequência de um iniciador é derivada dos fragmentos de ácido nucleico imediatos, e a sequência de outro iniciador tira proveito da presença de ácido de poliadenílico tratados na extremidade 3' do precursor do mRNA codificando genes microbianos. Alternativamente, a segunda sequência de iniciador pode ser baseada em sequências derivadas do vetor de clonagem. Por exemplo, o técnico versado pode seguir o protocolo RACE (Frohman et al., PNAS USA 85:8998 (1988)) para gerar cDNAs usando PCR para amplificar cópias da região entre um ponto único na cópia e as extremidades 3' ou 5'. Os iniciadores orientados nas direções 3' e 5' podem ser projetados das sequências instantâneas. Usando os sistemas 3' RACE ou 5' RACE comercialmente disponível (BRL), os fragmentos de cDNA específicos 3 ' ou 5' podem ser isolados (Ohara et al., PNAS USA 86:5673 (1989); Loh et al. Science 243:217(1989)).

[0109]Além disso, os iniciadores específicos podem ser projetados e usados para amplificar uma parte ou o comprimento total das sequências

Petição 870180015372, de 26/02/2018, pág. 61/150

48/106 instantâneas. Os produtos de amplificação resultantes podem ser marcados diretamente durante as reações de amplificação ou marcados depois das reações de amplificação, e usados como sondas para isolar os fragmentos de

DNA de comprimento total sob condições de restrição apropriadas.

[0110]Por isso, as sequências de ácido nucleico e os fragmentos das mesmas da presente invenção podem ser usados para isolar genes codificando proteína homóloga do mesmo ou outras espécies fúngicas ou espécies bacterianas. O isolamento de genes homólogos usando protocolos dependentes da sequência é bem conhecido na técnica. Os exemplos de protocolos dependentes da sequência incluem, mas não são limitados a, métodos da hibridização de ácido nucleico, e métodos de amplificação de DNA e de RNA como exemplificado por vários usos de tecnologias de amplificação de ácido nucleico (por exemplo, reação de cadeia de polimerase, Mullis etal., Patente dos Estados Unidos N° 4.683.202; reação de cadeia de ligase (LCR) (Tabor, S. et al., Proc. Acad. Sei. USA 82,1074, (1985)); ou amplificação de deslocamento de fita (SDA, Walker, etal., Proc. Natl. Acad. Sei. U.S.A., 89, 392, (1992)).

[0111]Os polinucleotídios da presente invenção também compreendem ácidos nucleicos codificando um T. emersonii, H. grisea, T. aurantiacus, e T. reeseiCbhl e/ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo, fundido na estrutura a uma sequência de marcador que permite a detecção do polipeptídio da presente invenção. A sequência de marcador pode ser um marcador selecionável de levedura selecionado do grupo consistindo de URA3, HIS3, LEU2, TRP1, LYS2, ADE2 ou SMR1.

Otimização de Códon.

[0112]Como usado aqui o termo “codificação de região por otimização de códon” significa uma região de codificação de ácido nucleico que foi adaptada

Petição 870180015372, de 26/02/2018, pág. 62/150

49/106 à expressão nas células de um dado vertebrado substituindo pelo menos um, ou mais de um, ou um número significativo, de códons com um ou mais códons que são mais frequentemente usados nos genes daquele vertebrado.

[0113]Em geral, os genes altamente expressados em um organismo são influenciados em direção a códons que são reconhecidos pelas espécies tRNA mais abundantes naquele organismo. Uma medida desta tendência é o “índice de adaptação de códon” ou “CAI” que mede o ponto até o qual os códons usados para codificar cada aminoácido em um determinado gene são aqueles que ocorrem mais frequentemente em um conjunto fundamental de genes altamente expressados de um organismo.

[0114]O CAI de sequências otimizadas de códon da presente invenção equivale a entre aproximadamente 0,8 e 1,0, entre aproximadamente 0,8 e 0,9, ou aproximadamente 1,0. A sequência otimizada de um códon pode ser também modificada para a expressão em um determinado organismo, dependendo das restrições biológicas daquele organismo. Por exemplo, grandes corridas de “As” ou “Ts” (por exemplo, coridas maiores do que 4, 4, 5, 6, 7, 8, 9, ou 10 bases consecutivas) podem ser retiradas das sequências se forem conhecidas por influenciar negativamente a transcrição. Além disso, os sítios de enzima de restrição específicos podem ser retirados com objetivos de clonagem moleculares. Os exemplos de tais sítios de enzima de restrição incluem Pacl, Asei, BamHI, Bglll, EcoRI e Xhol. Adicionalmente, a sequência de DNA pode ser verificada para repetições diretas, repetições inversas e repetições de espelho com comprimentos de dez bases ou mais longos, que podem ser modificados manualmente substituindo códons com o “segundo melhor” códon, isto é, os códons que ocorrem na segunda frequência mais alta dentro de um determinado organismo para o qual a sequência está sendo otimizada.

Petição 870180015372, de 26/02/2018, pág. 63/150

50/106 [0115]Os desvios na sequência de nucelotídio compreendendo os códons codificando os aminoácidos de qualquer cadeia de polipeptídio levam em conta variações na codificação de sequência do gene. Como cada códon consiste de três nucelotídios, e os nucelotídios compreendendo DNA são restringidos a quatro bases específicas, há 64 combinações possíveis de nucelotídios, 61 das quais codificam aminoácidos (os restantes três códons codificam sinais de terminação de tradução). O “código genético” que mostra que códons codificam que aminoácidos são reproduzidos aqui como a Tabela 1. Como resultado, muitos aminoácidos são indicados por mais de um códon. Por exemplo, os aminoácidos alanina e prolina são codificados por quatro tripletes, serina e arginina por seis, enquanto que o triptofano e a metionina são codificados por somente um triplete. Esta degeneração permite que a composição da base do DNA possa variar sobre uma ampla variedade sem alterar a sequência de aminoácido da proteína codificada pelo DNA.

TABELA 1: Código Genético Padrão.

	T	C	A	G
T	TTT Phe (F) TTC TTA Leu (L) TTG	TCT Ser (S) TCC TCA TCG	TAT Tyr (Y) TAC TAATer TAG Ter	TGT Cys (C) TGC TGA Ter TGG Trp (W)
c	CTT Leu (L) CTC CTA CTG	CCT Pro (P) CCC CCA CCG	CAT His (H) CAC CAA Gin (Q) CAG	CGT Arg (R) CGC CGA CGG
A	ATT lie (1) ATC ATA ATG Met (M)	ACT Thr (T) ACC ACA ACG	AAT Asn (N) AAC AAA Lys (K) AAG	AGT Ser (S) AGC AGAArg(R) AGG
G	GTT Vai (V) GTC GTA GTG	GCTAIa(A) GCC GCA GCG	GATAsp(D) GAC GAAGIu(E) GAG	GGT Gly (G) GGC GGA GGG

[0116]Muitos organismos exibem uma tendência de uso de determinados códons para codificar para a inserção de um determinado aminoácido em uma cadeia crescente de peptídio. A preferência de códon ou a

Petição 870180015372, de 26/02/2018, pág. 64/150

51/106 tendência de códon, diferenças no uso de códon entre organismos, são permitidas pela degeneração do código genético, e são bem documentadas entre muitos organismos. A tendência de códon muitas vezes se correlaciona com a eficiência da tradução do RNA mensageiro (mRNA), que por sua vez é acreditado ser dependente, entre outras coisas, das propriedades dos códons que são traduzidas e da disponibilidade de moléculas particulares de RNA de transferência (tRNA). A predominância de tRNAs selecionadas em uma célula é geralmente um reflexo dos códons usados mais frequentemente na síntese de peptídio. Consequentemente, os genes podem ser talhados para a ótima expressão genética em um dado organismo baseado na otimização do códon.

[0117]Considerando o grande número de sequências genéticas disponíveis para uma ampla variedade de animais, plantas e espécies microbianas, é possível calcular as frequências relativas do uso de códon. As tabelas de uso de códon estão prontamente disponíveis, por exemplo, em http://phenotype.biosci.umbc.edu/codon/sgd/index.php (visitado 7 de maio de 2008) ou em http://www.kazusa.or.jp/codon/ (visitado 20 de março de 2008), e estas tabelas podem ser adaptadas de diversos modos. Ver Nakamura, Y., etal. Codon usage tabulated from the international DNA sequence databases: status for the year200Cf' Nucl. Acids Res., 28:292 (2000). As tabelas de uso de códon da levedura, calculada a partir da Publicação do GenBank 128.0 [15 de fevereiro de 2002], são reproduzidas em baixo como a Tabela 2. Esta tabela usa a nomenclatura de mRNA, e portanto em vez da timina (T) que é encontrado no DNA, as tabelas usam a uracila (U) que é encontrado no RNA. A Tabela foi adaptada para que as frequências sejam calculadas para cada aminoácido, em vez de para os 64 códons.

TABELA 2: Tabela de Uso de Códon para Genes de Saccharomyces

Petição 870180015372, de 26/02/2018, pág. 65/150

52/106 cerevisiae

Aminoácido	Códon	Número	Frequência por centenas
Phe	UUU	170666	26,1
Phe	UUC	120510	18,4
Total

Leu	UUA	170884	26,2
Leu	UUG	177573	27,2
Leu	CUU	80076	12,3
Leu	CUC	35545	5,4
Leu	CUA	87619	13,4
Leu	CUG	68494	10,5
Total

lie	AUU	196893	30,1
lie	AUC	112176	17,2
lie	AUA	116254	17,8
Total

Met	AUG	136805	20,9
Total

Vai	GUU	144243	22,1
Vai	GUC	76947	11,8
Vai	GUA	76927	11,8
Vai	GUG	70337	10,8
Total

Ser	UCU	153557	23,5
Ser	UCC	92923	14,2
Ser	UCA	122028	18,7
Ser	UCG	55951	8,6
Ser	AGU	92466	14,2
Ser	AGC	63726	9,8
Total

Pro	CCU	88263	13,5
Pro	CCC	44309	6,8
Pro	CCA	119641	18,3
Pro	CCG	34597	5,3
Total

Thr	ACU	132522	20,3
Thr	ACC	83207	12,7
Thr	ACA	116084	17,8
Thr	ACG	52045	8,0
Total

Ala	GCU	138358	21,2
Ala	GCC	82357	12,6
Ala	GCA	105910	16,2
Ala	GCG	40358	6,2
Total

Tyr	UAU	122728	18,8
Tyr	UAC	96596	14,8

Petição 870180015372, de 26/02/2018, pág. 66/150

53/106

Aminoácido	Códon	Número	Freguência por centenas
Total

His	CAU	89007	13,6
His	CAC	50785	7,8
Total

Gin	CAA	178251	27,3
Gin	CAG	79121	12,1
Total

Asn	AAU	233124	35,7
Asn	AAC	162199	24,8
Total

Lys	AAA	273618	41,9
Lys	AAG	201361	30,8
Total

Asp	GAU	245641	37,6
Asp	GAC	132048	20,2
Total

Glu	GAA	297944	45,6
Glu	GAG	125717	19,2
Total

Cys	UGU	52903	8,1
Cys	UGC	31095	4,8
Total

Trp	UGG	67789	10,4
Total

Arg	CGU	41791	6,4
Arg	CGC	16993	2,6
Arg	CGA	19562	3,0
Arg	CGG	11351	1,7
Arg	AGA	139081	21,3
Arg	AGG	60289	9,2
Total

Gly	GGU	156109	23,9
Gly	GGC	63903	9,8
Gly	GGA	71216	10,9
Gly	GGG	39359	6,0
Total

Parada	UAA	6913	1,1
Parada	UAG	3312	0,5
Parada	UGA	4447	0,7

[0118]Utilizando essa ou tabelas semelhantes, um técnico normalmente versado na técnica pode aplicar as frequências a qualquer sequência dada de

Petição 870180015372, de 26/02/2018, pág. 67/150

54/106 polipeptídio, e produzir um fragmento de ácido nucleico de uma região de codificação otimizada pelo códon codificando o polipeptídio, mas que usa códons ótimos para uma dada espécie. As regiões de codificação otimizadas pelo códon podem ser projetadas por vários métodos diferentes.

[0119]Em um método, uma tabela de uso de códon é usada para achar o códon único mais frequentemente usado para qualquer aminoácido dado, e aquele códon é usado cada vez que o determinado aminoácido aparece na sequência de polipeptídio. Por exemplo, referindo-se à Tabela 2 acima, para a leucina, o códon mais frequente é UUG, que é usado em 27,2% do tempo. Assim todos os resíduos de leucina em uma sequência de aminoácido dada seriam atribuídos o códon UUG.

[0120]Em outro método, as frequências reais dos códons são distribuídas aleatoriamente em todas as partes da sequência de codificação. Assim, usando este método para a otimização, se uma sequência de polipeptídio hipotética tinha 100 resíduos de leucina, referindo-se à Tabela 2 da frequência do uso no S. cerevisiae, aproximadamente 5, ou 5% dos códons leucina seriam

CUC, aproximadamente 11, ou 11% dos códons leucina	seriam	CUG,
aproximadamente	12,	ou	12% dos	códons	leucina	seriam	CUU,
aproximadamente	13,	ou	13% dos	códons	leucina	seriam	CUA,
aproximadamente	26,	ou	26% dos	códons	leucina seriam UUA, e

aproximadamente 27, ou 27% dos códons leucina seriam UUG.

[0121]Estas frequências seriam distribuídas aleatoriamente em todas as partes dos códons leucina na região de codificação codificando o polipeptídio hipotético. Como será entendido por aqueles de normalmente versado na técnica, a distribuição de códons na vontade de sequência pode variar significativamente a utilização deste método, contudo, a sequência sempre

Petição 870180015372, de 26/02/2018, pág. 68/150

55/106 codifica o mesmo polipeptídio.

[0122]As sequências otimizadas pelo códon da presente invenção incluem aquelas apresentadas na Tabela 3 abaixo:

TABELA 3: Celobioidrolase Sintél	ica (CBH) Construída Dor Genes.

Organismo doador/ Gene	Sequência de DNA usada	N⁰ de Acesso e sequência de aminoácidos
Humicola grisea cbh1	GAATTCATGAGAACC GCTAAGTTCGCTACC TTGGCTGCCTTGGTT GCCTCTGCTGCTGC TCAACAAGCCTGTTC CTTGACTACTGAACG TCACCCATCTTTGTC TTGGAACAAGTGTAC TGCTGGTGGTCAAT GTCAAACTGTCCAAG CCTCCATCACTTTGG ACTCTAATTGGAGAT GGACCCACCAAGTC TCTGGTAGTACTAAC TGTTACACCGGTAAT AAGTGGGACACTTCT ATTTGTACTGACGCT AAGTCTTGTGCTCAA AATTGTTGTGTTGAT GGTGCTGATTACACC TCCACTTATGGTATT ACCACCAACGGTGA CTCTTTGTCCTTGAA GTTCGTTACTAAAGG TCAACATTCCACCAA CGTCGGTTCTAGAAC CTACTTAATGGACGG TGAAGACAAGTACCA AACCTTCGAATTGTT GGGTAATGAATTTAC CTTCGATGTCGATGT GTCTAACATCGGTTG TGGTTTGAACGGTG CTTTATACTTCGTTT CTATGGACGCCGAC GGTGGTTTGTCTCGT TACCCAGGTAATAAG GCTGGTGCCAAGTA TGGTACCGGTTACTG TGATGCTCAATGCCC AAGAGACATTAAGTT CATCAACGGTGAAG CTAACATTGAAGGTT GGACTGGTTCTACCA ACGACCCAAACGCT	Acesso No.: CAA35159 MRTAKFATLAALVASAAAQQACSLTTER HPSLSWNKCTAGGQCQTVQASITLDSN WRWTHQVSGSTNCYTGNKWDTSICTDA KSCAQNCCVDGADYTSTYGITTNGDSLS LKFVTKGQHSTNVGSRTYLMDGEDKYQT FELLGNEFTFDVDVSNIGCGLNGALYFVS M DADGG LS RYPG N KAGAKYGTGYCDAQ CPRDIKFINGEANIEGWTGSTNDPNAGA GRYGTCCSEMDIWEANNMATAFTPHPC TIIGQSRCEGDSCGGTYSNERYAGVCDP DGCDFNSYRQGNKTFYGKGMTVDTTKKI TVVTQFLKDANGDLGEIKRFYVQDGKIIP NSESTIPGVEGNSITQDWCDRQKVAFGDI DDFNRKGGMKQMGKALAGPMVLVMSIW DDHASNMLWLDSTFPVDAAGKPGAERG ACPTTSGVPAEVEAEAPNSNVVFSNIRFG PIGSTVAGLPGAGNGGNNGGNPPPPTTT TSSAPATTTTASAG PKAG RWQQCGGIGF TGPTQCEEPYICTKLNDWYSQCL (SEQ ID NO: 11)

Petição 870180015372, de 26/02/2018, pág. 69/150

56/106

GGCGCCGGTAGATA CGGTACCTGTTGTTC CGAAATGGACATTTG GGAAGCCAACAACA TGGCTACTGCTTTTA CTCCACACCCATGTA CCATCATTGGTCAAT CCAGATGTGAAGGT GACTCCTGTGGCGG TACCTACTCCAACGA AAGATACGCTGGTGT TTGTGATCCAGACG GTTGTGACTTCAACT CCTACAGACAAGGTA ACAAGACTTTCTATG GTAAGGGTATGACT GTCGATACCACCAA GAAGATCACCGTCG TCACCCAATTCTTGA AGGACGCTAACGGT GATTTAGGTGAAATT AAAAGATTCTACGTC CAAGATGGTAAGATC ATCCCAAACTCTGAA TCTACCATTCCAGGT GTTGAAGGTAATTCC ATCACTCAAGACTGG TGTGACAGACAAAAG GTTGCCTTCGGTGAT ATTGACGACTTCAAC AGAAAGGGTGGTAT GAAGCAAATGGGTA AGGCTTTGGCCGGT CCAATGGTCTTGGTT ATGTCTATTTGGGAC GATCACGCTTCCAAC ATGTTGTGGTTGGAC TCCACCTTCCCAGTT GATGCTGCTGGTAA GCCAGGTGCCGAAA GAGGTGCTTGTCCA ACTACTTCCGGTGTC CCAGCTGAAGTTGAA GCCGAAGCTCCAAA TTCTAACGTTGTCTT CTCTAACATCAGATT CGGTCCAATCGGTT CCACAGTCGCTGGT TTGCCAGGTGCTGG TAATGGTGGTAATAA CGGTGGTAACCCAC CACCACCAACCACTA CCACTTCTTCTGCCC CAGCTACTACCACCA CCGCTTCTGCTGGT

Petição 870180015372, de 26/02/2018, pág. 70/150

57/106

	CCAAAGGCTGGTAG ATGGCAACAATGTG GTGGTATTGGTTTCA CCGGTCCAACCCAA TGTGAAGAACCATAC ATCTGTACCAAGTTG AACGACTGGTACTCT CAATGTTTATAACTC GAG (SEQ ID NO: 7)
Thermoascus aurantiacus cbh1	GAATTCATGTACCAA AGAGCTCTATTGTTC TCCTTCTTCTTGGCC GCCGCTAGAGCTCA TGAAGCCGGTACTG TCACCGCCGAAAAC CACCCATCCTTGACT TGGCAACAATGTTCC TCTGGTGGTTCTTGT ACTACTCAAAACGGG AAGGTTGTTATTGAC GCTAACTGGAGATG GGTTCACACTACCTC CGGTTACACCAACTG TTACACTGGTAACAC TTGGGATACTTCCAT CTGTCCAGACGACG TTACCTGTGCTCAAA ACTGTGCTTTGGACG GTGCTGACTACTCC GGTACTTACGGTGTC ACTACCTCTGGCAAC GCGTTGAGATTGAAC TTCGTCACCCAATCT TCTGGTAAGAACATC GGTTCTAGATTGTAC TTGTTGCAAGACGAT ACTACTTACCAAATC TTCAAGTTGTTGGGT CAAGAGTTCACTTTC GACGTTGATGTTTCC AACTTGCCTTGTGGT TTGAACGGTGCTTTG TACTTCGTTGCTATG GACGCCGACGGTAA CTTATCCAAGTACCC AGGTAACAAGGCCG GTGCCAAGTACGGT ACCGGTTACTGTGAT TCTCAATGTCCAAGA GACCTAAAATTCATT AACGGTCAAGCTAAC GTCGAAGGTTGGCA ACCATCTGCTAACGA TCCAAACGCCGGTG	Acesso No.: AAL16941 MYQRALLFSFFLAAARAHEAGTVTAENH PSLTWQQCSSGGSCTTQNGKVVIDANW RWVHTTSGYTNCYTGNTWDTSICPDDVT CAQNCALDGADYSGTYGVTTSGNALRLN FVTQSSGKNIGSRLYLLQDDTTYQIFKLL GQEFTFD VD VSN LPCG LNG ALYFVAM DA DGNLSKYPGNKAGAKYGTGYCDSQCPR DLKFINGQANVEGWQPSANDPNAGVGN HGSSCAEMDVWEANSISTAVTPHPCDTP GQTMCQGDDCGGTYSSTRYAGTCDTDG CDFNPYQPGNHSFYGPGKIVDTSSKFTV VTQFITDDGTPSGTLTEIKRFYVQNGKVIP QSESTISGVTGNSITTEYCTAQKAAFDNT GFFTHGGLQKISQALAQGMVLVMSLWDD HAANMLWLDSTYPTDADPDTPGVARGT CPTTSGVPADVESQNPNSYVIYSNIKVGP INSTFTAN (SEQ ID NO: 12)

Petição 870180015372, de 26/02/2018, pág. 71/150

58/106

	TCGGTAATCACGGTT CCTCCTGTGCTGAAA TGGACGTTTGGGAA GCTAACTCTATCTCC ACCGCCGTCACTCC ACATCCATGTGATAC CCCAGGTCAAACCAT GTGTCAAGGTGATG ATTGTGGTGGTACCT ACTCTTCCACTAGAT ACGCTGGTACCTGT GACACCGACGGTTG TGATTTCAACCCATA CCAACCAGGTAACC ACTCTTTCTACGGTC CAGGTAAGATTGTCG ATACTTCTTCTAAGT TCACTGTTGTCACTC AATTCATTACCGACG ATGGTACCCCATCTG GTACCCTAACTGAAA TTAAGAGATTCTACG TCCAAAACGGTAAAG TCATTCCACAATCCG AAAGCACCATTTCCG GTGTTACCGGTAACT CCATCACCACTGAAT ACTGTACCGCTCAAA AGGCCGCCTTTGAC AACACCGGTTTCTTC ACCCATGGTGGTTTG CAAAAGATTTCTCAA GCCTTGGCTCAAGG TATGGTTTTGGTCAT GTCCTTGTGGGATG ACCACGCTGCTAACA TGTTGTGGTTGGATT CTACTTACCCAACTG ACGCTGATCCAGAC ACCCCAGGTGTTGC TAGAGGTACTTGTCC AACCACTTCTGGTGT TCCAGCTGACGTCG AATCTCAAAACCCTA ACTCTTACGTTATCT ACTCTAACATCAAGG TGGGTCCAATTAACT CCACCTTCACTGCTA ACTAACTCGAG (SEQ ID NO: 8)
Talaromyces emersonii cbh1	GAATTCATGCTAAGA AGAGCTTTACTATTG AGCTCTTCTGCTATC TTGGCCGTTAAGGCT CAACAAGCCGGTAC	Acesso No.: AAL89553 MLRRALLLSSSAILAVKAQQAGTATAENH PPLTWQECTAPGSCTTQNGAVVLDANW RWVHDVNGYTNCYTGNTWDPTYCPDDE

Petição 870180015372, de 26/02/2018, pág. 72/150

59/106

CGCTACTGCTGAAAA CCACCCTCCATTGAC CTGGCAAGAATGTAC CGCTCCAGGTTCTTG TACCACCCAAAACG GTGCTGTCGTCTTG GACGCTAACTGGAG ATGGGTCCACGACG TCAACGGTTACACTA ACTGTTACACCGGTA ACACCTGGGACCCA ACTTACTGTCCAGAC GACGAAACTTGCGC TCAAAACTGTGCCTT GGACGGTGCTGACT ACGAAGGTACTTACG GTGTTACCTCCTCTG GTTCTTCCTTGAAGT TGAACTTCGTCACTG GTTCTAACGTCGGTT CCAGATTGTATTTGT TGCAAGATGACTCCA CTTACCAAATCTTCA AGTTGTTGAACAGAG AATTTTCTTTCGACG TCGATGTGTCCAACT TGCCTTGTGGTTTGA ACGGTGCTCTATACT TCGTTGCTATGGACG CTGATGGTGGTGTTT CCAAGTACCCAAACA ACAAGGCTGGTGCC AAATACGGTACTGGT TACTGTGACTCTCAA TGTCCACGTGACTTG AAGTTTATTGATGGT GAAGCTAATGTCGAA GGTTGGCAACCATCT TCTAACAACGCTAAC ACTGGCATCGGTGA CCACGGTTCTTGCTG TGCCGAAATGGACG TTTGGGAAGCCAACT CCATTTCCAACGCCG TCACTCCACACCCAT GTGACACTCCAGGT CAAACTATGTGTTCC GGCGATGACTGTGG TGGTACTTACTCTAA CGATAGATACGCTG GTACCTGTGATCCAG ACGGTTGCGACTTCA ATCCATACAGAATGG GTAACACTTCCTTTT ACGGTCCAGGCAAG

TCAQNCALDGADYEGTYGVTSSGSSLKL NFVTGSNVGSRLYLLQDDSTYQIFKLLNR EFSFDVDVSNLPCGLNGALYFVAMDADG GVSKYPNNKAGAKYGTGYCDSQCPRDL KFIDGEANVEGWQPSSNNANTGIGDHGS CCAEMDVWEANSISNAVTPHPCDTPGQT MCSGDDCGGTYSNDRYAGTCDPDGCDF NPYRMGNTSFYGPGKIIDTTKPFTVVTQF LTDDGTDTGTLSEIKRFYIQNSNVIPQPNS DISGVTGNSITTEFCTAQKQAFGDTDDFS QHGGLAKMGAAMQQGMVLVMSLWDDY AAQM LW LDSDYPTDADPTTPGIARGTCP TDSGVPSDVESQSPNSYVTYSNIKFGPIN STFTAS (SEQ ID NO: 13)

Petição 870180015372, de 26/02/2018, pág. 73/150

60/106

	ATCATCGACACTACT AAGCCATTCACTGTT GTCACCCAATTCTTG ACCGACGATGGTAC TGATACCGGTACTTT GTCCGAAATCAAGA GATTCTACATCCAAA ACTCTAACGTCATCC CACAACCAAATTCCG ACATCTCTGGTGTCA CTGGTAACTCCATTA CCACCGAATTTTGTA CCGCCCAAAAGCAA GCTTTCGGTGACAC CGACGACTTCTCTCA ACACGGTGGTTTGG CTAAGATGGGTGCT GCTATGCAACAAGGT ATGGTTTTGGTCATG TCTTTGTGGGACGAC TACGCTGCTCAAATG TTGTGGTTGGACTCC GATTACCCAACCGAT GCCGACCCAACCAC CCCTGGTATCGCTA GAGGTACCTGTCCA ACTGACTCTGGTGTT CCATCTGACGTCGAA TCCCAATCTCCAAAC TCCTACGTCACTTAC TCCAACATTAAATT GGTCCAATCAACTCC ACTTTCACTGCTTCT TAACTCGAG (SEQ ID NO: 9)
Talaromyces emersonii cbh2	GAATTCATGCGTAAC TTGTTGGCCTTGGCT CCAGCCGCTTTGTTG GTTGGTGCTGCCGA AGCTCAACAATCCTT GTGGGGTCAATGCG GTGGTTCCTCCTGG ACTGGTGCAACTTCC TGTGCCGCTGGTGC CACCTGTTCCACCAT TAACCCATACTACGC TCAATGTGTTCCAGC CACTGCCACTCCAAC TACCTTGACTACCAC CACTAAGCCAACCTC CACCGGTGGTGCTG CTCCAACCACTCCAC CACCAACTACTACCG GTACTACCACCTCTC CAGTCGTCACCAGA	Acesso No.: AAL78165 MRNLLALAPAALLVGAAEAQQSLWGQC GGSSWTG ATSCAAG ATCSTIN P YYAQC V PATATPTTLTTTTKPTSTGGAAPTTPPPT TTGTTTSPVVTRPASASG N PFEG YQLYA NPYYASEVISLAIPSLSSELVPKASEVAKV PSFVWLDQAAKVPSMGDYLKDIQSQNAA GADPPIAGIFVVYDLPDRDCAAAASNGEF SIANNGVALYKQYIDSIREQLTTYSDVHTI LVIEPDSLANVVTNLNVPKCANAQDAYLE CINYAITQLDLPNVAMYLDAGHAGWLGW QANLAPAAQLFASVYKNASSPASVRGLA TNVANYNAWSISRCPSYTQGDANCDEED YVNALGPLFQEQGFPAYFIIDTSRNGVRP TKQSQWGDWCNVIGTGFGVRPTTDTGN PLEDAFVWVKPGGESDGTSNTTSPRYDY HCGLSDALQPAPEAGTWFQAYFEQLLTN ANPLF (SEQ ID NO: 14)

Petição 870180015372, de 26/02/2018, pág. 74/150

61/106

CCTGCCTCCGCCTC CGGTAATCCATTCGA AGGTTATCAATTGTA CGCTAACCCTTACTA CGCTTCTGAAGTCAT TTCCTTGGCTATCCC ATCTTTGAGCTCCGA GTTGGTCCCAAAGG CCTCCGAAGTTGCTA AGGTCCCTTCATTTG TCTGGTTAGATCAAG CTGCCAAGGTTCCAT CTATGGGTGATTACT TGAAGGATATTCAAT CTCAAAACGCTGCTG GTGCTGATCCACCAA TCGCCGGTATTTTCG TTGTTTACGATTTGC CAGATAGAGACTGT GCCGCCGCTGCTTC TAACGGTGAATTTTC TATCGCCAACAACG GTGTCGCTTTATACA AACAATATATCGATT CCATTAGAGAACAAT TAACCACTTACTCCG ACGTCCATACCATCT TGGTTATCGAACCAG ACTCTTTGGCTAACG TTGTCACTAACTTGA ACGTTCCAAAATGTG CTAACGCTCAAGATG CTTACTTGGAATGTA TCAACTACGCTATTA CCCAATTGGACTTGC CAAACGTTGCTATGT ACTTGGACGCTGGT CACGCCGGTTGGTT GGGTTGGCAAGCCA ACTTGGCCCCAGCT GCTCAATTATTCGCT TCTGTTTACAAGAAC GCCTCTTCCCCAGC CTCTGTTAGAGGTTT GGCTACCAACGTGG CTAACTACAACGCCT GGTCCATTTCTAGAT GTCCATCCTACACTC AAGGTGACGCTAACT GTGATGAAGAAGATT ACGTTAACGCTTTGG GTCCATTGTTCCAAG AACAAGGTTTCCCAG CTTACTTCATCATCG ACACTTCCCGTAACG

Petição 870180015372, de 26/02/2018, pág. 75/150

62/106

	GTGTCAGACCAACTA AGCAATCTCAATGGG GTGACTGGTGTAAC GTTATTGGTACCGGT TTCGGTGTTAGACCA ACCACCGACACTGG TAACCCATTGGAAGA CGCTTTCGTTTGGGT CAAGCCAGGTGGTG AATCCGACGGTACCT CCAACACTACTAGCC CACGTTACGATTACC ACTGTGGTTTGTCTG ACGCTTTGCAACCAG CTCCAGAAGCTGGT ACCTGGTTCCAAGC CTACTTCGAACAATT GTTGACTAACGCCAA CCCATTGTTCTAACT CGAG (SEQ ID NO: 10)
Trichoderma reesei cbh1	ATGGTCTCCTTCACC TCCCTGCTGGCCGG CGTTGCCGCTATCTC TGGTGTCCTAGCAG CCCCTGCCGCAGAA GTTGAACCTGTCGCA GTTGAGAAACGTGA GGCCGAAGCAGAAG CTCAATCCGCTTGTA CCCTACAATCCGAAA CTCACCCACCATTGA CCTGGCAAAAGTGTT CTAGCGGTGGAACT TGTACTCAACAAACT GGTTCTGTTGTTATC GACGCTAACTGGAG ATGGACACACGCCA CTAACTCTTCTACCA ACTGTTACGACGGTA ACACTTGGTCTTCCA CTTTATGTCCAGATA ACGAAACTTGTGCTA AGAATTGCTGTTTGG ACGGTGCCGCCTAC GCTTCTACCTACGGT GTTACCACCTCCGGT AACTCCTTGTCTATT GGTTTCGTCACTCAA TCCGCTCAAAAGAAC GTTGGTGCTAGATTG TACTTGATGGCTTCT GACACTACTTATCAA GAATTTACTTTGTTG GGTAACGAATTTTCT TTCGATGTTGACGTT	Acesso No.: CAA49596 MVSFTSLLAGVAAISGVLAAPAAEVEPVA VEKREAEAEAQSACTLQSETHPPLTWQK CSSGGTCTQQTGSVVIDANWRWTHATN SSTNCYDGNTWSSTLCPDNETCAKNCCL DGAAYASTYGVTTSGNSLSIGFVTQSAQ KNVGARLYLMASDTTYQEFTLLGNEFSF D VD VSQLPCG LNG ALYFVSM DADGG VS KYPTNTAGAKYGTGYCDSQCPRDLKFIN GQANVEGWEPSSNNANTGIGGHGSCCS EMDIWEANSISEALTPHPCTTVGQEICEG DGCGGTYSDNRYGGTCDPDGCDWNPY RLGNTSFYGPGSSFTLDTTKKLTWTQFE TSGAINRYYVQNGVTFQQPNAELGSYSG NELNDDYCTAEEAEFGGSSFSDKGGLTQ FKKATSGGMVLVMSLWDDYYANMLWLD STYPTNETSSTPGAVRGSCSTSSGVPAQ VESQSPNAKVTFSNIKFGPIGSTGNPSGG NPPGGNRGTTTTRRPATTTGSSPGPTQS H YGQCGGIG YSG PTVCASGTTCQVLN PY YSQCL(SEQ ID NO; 17) Sinal de secreção: 1 - 33 domínio catalítico: 41 - 465 domínio de ligação com celulose: 503 535]

Petição 870180015372, de 26/02/2018, pág. 76/150

63/106

TCCCAATTGCCATGT GGCTTGAACGGTGC TTTGTACTTTGTCTC TATGGATGCTGACG GTGGTGTTTCTAAGT ACCCAACTAACACTG CCGGTGCTAAGTAC GGTACTGGTTACTGT GATTCTCAATGTCCA CGTGACTTGAAGTTC ATTAACGGTCAAGCC AACGTCGAAGGTTG GGAACCATCCTCCAA CAACGCTAACACCG GTATCGGTGGTCAC GGTTCCTGTTGTTCC GAAATGGACATCTG GGAAGCTAACAGTAT TTCTGAAGCTTTGAC ACCACACCCATGCA CCACTGTCGGTCAA GAAATTTGTGAAGGT GATGGATGTGGTGG AACCTACTCTGATAA CAGATACGGTGGTA CTTGTGACCCAGAC GGTTGTGACTGGAA CCCATACAGATTGG GTAACACTTCTTTCT ATGGTCCAGGTTCTT CTTTCACCTTGGATA CCACCAAGAAGTTGA CTGTTGTTACCCAAT TCGAAACTTCTGGTG CTATCAACAGATACT ACGTTCAAAACGGTG TCACCTTCCAACAAC CAAACGCTGAATTGG GTTCTTACTCTGGTA ATGAATTGAACGACG ACTACTGTACCGCTG AAGAAGCTGAATTTG GTGGTTCCTCTTTCT CCGACAAGGGTGGT TTGACCCAATTCAAG AAGGCTACCTCCGG TGGTATGGTTTTGGT TATGTCCTTGTGGGA TGATTACTACGCAAA CATGTTATGGTTAGA CAGTACTTACCCAAC TAACGAAACCTCCTC TACTCCAGGTGCTGT CAGAGGTTCCTGTTC TACCTCTTCTGGTGT

Petição 870180015372, de 26/02/2018, pág. 77/150

64/106

	TCCAGCTCAAGTTGA ATCTCAATCTCCAAA CGCTAAGGTCACTTT CTCCAACATCAAGTT CGGTCCAATCGGTT CCACTGGTAATCCAT CTGGTGGAAACCCT CCAGGTGGTAACAG AGGTACTACCACTAC TCGTAGGCCAGCTA CTACAACTGGTTCTT CCCCAGGCCCAACC CAATCCCACTACGGT CAATGTGGTGGTATC GGTTACTCTGGTCCA ACCGTCTGTGCTTCT GGTACTACCTGTCAA GTTTTAAACCCATAC TACTCTCAATGTTTG TAA (SEQ ID NO: 15)
Trichoderma reesei cbh2	ATGGTCTCCTTCACC TCCCTGCTGGCCGG CGTTGCCGCTATCTC TGGTGTCCTAGCAG CCCCTGCCGCAGAA GTTGAACCTGTCGCA GTTGAGAAACGTGA GGCCGAAGCAGAAG CTGTCCCATTAGAAG AAAGACAAGCCTGCT CCTCTGTTTGGGGTC AATGTGGTGGTCAAA ACTGGTCTGGTCCAA CTTGTTGTGCTTCCG GTTCTACCTGTGTTT ACTCCAACGACTACT ATTCCCAATGTTTGC CAGGTGCTGCTTCCT CTTCCTCTTCAACTA GAGCTGCTTCTACAA CTTCTAGGGTCTCCC CAACCACTTCCAGAT CCTCTTCTGCTACTC CACCACCAGGTTCTA CTACCACTAGAGTTC CACCAGTCGGTTCC GGTACTGCTACTTAC TCTGGTAACCCTTTC GTCGGTGTTACTCCA TGGGCTAACGCTTAC TACGCTTCTGAAGTT TCTTCTTTGGCTATC CCATCTTTGACTGGT GCTATGGCTACCGC TGCTGCTGCTGTCG	Acesso No.: AAA34210 MIVGILTTLATLATLAASVPLEERQACSSV WGQCGGQNWSGPTCCASGSTCVYSND YYSQCLPGAASSSSSTRAASTTSRVSPT TSRSSSATPPPGSTTTRVPPVGSGTATY SGNPFVGVTPWANAYYASEVSSLAIPSLT GAMATAAAAVAKVPSFMWLDTLDKTPLM EQTLADIRTANKNGGNYAGQFVVYDLPD RDCAALASNGEYSIADGGVAKYKNYIDTI RQIVVEYSDIRTLLVIEPDSLANLVTNLGT PKCANAQSAYLECINYAVTQLNLPNVAM YLDAGHAGWLGWPANQDPAAQLFANVY KNASSPRALRGLATNVANYNGWNITSPP SYTQG N AVYN EKLYIH AIG RLLAN HGWS NAFFITDQGRSGKQPTGQQQWGDWCN VIGTGFGIRPSANTGDSLLDSFVWVKPG GECDGTSDSSAPRFDSHCALPDALQPAA QAGAWFQAYFVQLLTNANPSFL (SEQ ID NO: 18)

Petição 870180015372, de 26/02/2018, pág. 78/150

65/106

CCAAAGTTCCATCCT TCATGTGGTTGGACA CCTTGGACAAAACTC CATTAATGGAACAAA CCTTGGCAGACATAA GGACTGCTAACAAG AACGGCGGTAACTA CGCTGGTCAATTTGT TGTGTACGACTTGCC AGACAGAGACTGTG CTGCTTTGGCTTCCA ACGGTGAATACTCCA TCGCTGACGGTGGT GTCGCCAAGTACAA GAACTACATTGATAC CATTAGACAAATCGT TGTCGAATACTCTGA CATCAGAACCTTGTT AGTCATCGAACCAGA TTCTTTAGCCAATTT AGTCACCAACTTGG GTACTCCAAAGTGTG CTAACGCTCAATCTG CCTACTTAGAATGTA TCAATTATGCAGTTA CCCAATTGAACTTGC CAAACGTTGCTATGT ACTTGGACGCTGGT CACGCCGGTTGGTT GGGTTGGCCAGCTA ACCAAGACCCAGCC GCTCAATTATTCGCC AACGTTTACAAGAAT GCCTCTTCTCCTAGA GCCTTGCGTGGTTT GGCTACTAACGTCG CTAACTACAACGGTT GGAACATCACTTCTC CACCATCTTACACCC AAGGTAACGCTGTTT ACAACGAAAAGTTGT ACATTCACGCTATCG GTCCATTATTGGCTA ACCATGGTTGGTCTA ACGCCTTCTTCATCA CCGACCAAGGTAGA TCCGGTAAACAACCA ACTGGTCAACAACAA TGGGGTGATTGGTG TAACGTCATCGGTAC TGGTTTCGGTATCAG ACCATCCGCTAACAC TGGTGATTCCTTGTT GGATTCCTTCGTCTG GGTTAAGCCAGGTG

Petição 870180015372, de 26/02/2018, pág. 79/150

66/106

	GTGAATGTGATGGC ACCTCTGATTCCTCT GCTCCAAGATTCGAT TCCCACTGCGCCTT GCCAGACGCTTTGC AACCAGCCCCACAA GCTGGTGCATGGTT CCAAGCTTACTTTGT CCAATTGTTGACCAA CGCTAACCCATCTTT CTTGTAA (SEQ ID NO: 16)
Xyn2 sinal de secreção+ espaçador	gaattcttaattaaAAACAA AATGGTCTCCTTCAC CTCCCTGCTGGCCG GCGTTGCCGCTATCT CTGGTGTCCTAGCA GCCCCTGCCGCAGA AGTTGAACCTGTCGC AGTTGAGAAACGTGA GGCCGAAGCAGAAG CTcccgggactc (SEQ ID NO: 19)	Mvsftsllagvaaisgvlaapaaevepvavekreaeae a (SEQ ID NO: 20)

[0123]Quando usando os métodos acima, o termo “aproximadamente” é usado precisamente para contar as percentagens fracionárias das frequências de códon de um dado aminoácido. Tal como aqui utilizado, “aproximadamente” é definido como um aminoácido mais ou um aminoácido menos do que o valor dado. O valor de número inteiro de aminoácidos é reunido se a frequência fracionária do uso for 0,50 ou maior, e for arredondada para baixo se a frequência fracionária do uso for 0,49 ou menos. Usando novamente o exemplo da frequência do uso da leucina em genes humanos de um polipeptídio hipotético possuindo 62 resíduos de leucina, a frequência fracionária do uso de códon seria calculada multiplicando-se 62 pela frequência de vários códons. Assim, 7,28 por cento de 62 igualam 4,51 códons UUA, ou “aproximadamente 5,” isto é, 4, 5, ou 6 códons UUA, 12,66 por cento de 62 igualam 7,85 códons UUG ou “aproximadamente 8,” isto é, 7, 8, ou 9 códons UUG, 12,87 por cento de 62 igualam 7,98 códons CUU, ou “aproximadamente 8,” isto é, 7, 8, ou 9 códons CUU, 19,56 por cento de 62 igualam 12,13 códons CUC ou “aproximadamente

Petição 870180015372, de 26/02/2018, pág. 80/150

67/106

12,” isto é, 11,12, ou 13 códons CUC, 7,00 por cento de 62 igualam 4,34 códons

CUA ou “aproximadamente 4,” isto é, 3, 4, ou 5 códons CUA, e 40,62 por cento de 62 igualam 25,19 códons CUG, ou “aproximadamente 25,” isto é, 24, 25, ou códons CUG.

[0124]Códons aleatoriamente atribuídos em uma frequência otimizada para codificar uma dada sequência de polipeptídio, pode ser feito manualmente calculando frequências de códon de cada aminoácido, e depois atribuindo os códons à sequência de polipeptídio aleatoriamente. Adicionalmente, vários algoritmos e os programas de software de computador estão prontamente disponíveis para aqueles normalmente versados na técnica. Por exemplo, os “EditSeq” funcionando no Pacote Lasergene, disponível pela DNAstar, Inc, Madison, Wisconsin, a função de tradução reversa na Suite VectorNTI, disponível pela InforMax, Inc., Bethesda, Maryland, e a função “backtranslate” no Pacote GCG - Wisconsin, disponível pela Accelrys, Inc, São Diego, Califórnia. Além disso, vários recursos estão publicamente disponíveis para as sequências da região de codificação de otimização de códon, por exemplo, a função de “tradução reversa” em http://www.entelechon.com/bioinformatics/backtranslation.php?lang=eng (visitado 15 de abril de 2008) e a função de “backtranseq” disponível em http://bioinfo.pbi.nrc.ca:8090/EMBOSS/index.html (visitado 9 de julho de 2002). Construir um algoritmo rudimentar para atribuir códons baseados em uma dada frequência também pode ser facilmente realizado com funções matemáticas básicas por um técnico normalmente versado na técnica.

[0125]Diversas opções estão disponíveis para sintetizar o otimizado pelo códon codificando regiões projetadas por alguns dos métodos descritos acima, usando manipulações padrão e rotineiras de biologia molecular bem conhecidas

Petição 870180015372, de 26/02/2018, pág. 81/150

68/106 daqueles normalmente versados na técnica. Em uma aproximação, uma série de pares de oligonucleotídio complementares de 80 a 90 nucelotídios cada um no comprimento e medindo o comprimento da sequência desejada é sintetizada por métodos padrão. Estes pares de oligonucleotídio são sintetizados tal como por anelação, eles formam fragmentos de dupla fita de 80 a 90 pares de bases, contendo extremidades coesivas, por exemplo, cada oligonucleotídio no par é sintetizado para se estender por 3, 4, 5, 6, 7, 8, 9, 10, ou mais bases além da região que é complementar a outro oligonucleotídio no par. As extremidades da fita simples de cada par de oligonucleotídios são projetadas para anelar com a extremidade de fita simples de outro par de oligonucleotídios. Os pares de oligonucleotídios são deixados anelar, e aproximadamente de cinco a seis desses fragmentos de fita dupla então são deixados para anelar em conjunto via as extremidades coesivas de fita simples, e depois são ligados em conjunto e clonados em um vetor de clonagem bacteriano padrão, por exemplo, um vetor TOPO® disponível pela Invitrogen Corporation, Carlsbad, Califórnia. O constructor então é sequênciado por métodos padrão. Vários destes constructos compostos de 5 a 6 fragmentos de 80 a 90 fragmentos de pares de bases ligados em conjunto, isto é, fragmentos de aproximadamente 500 pares de bases, são preparados, de tal modo que a sequência desejada total é representada em uma série de constructos de plasmídio. As inserções destes plasmídios então são cortadas com enzimas de restrição apropriadas e ligadas em conjunto para formar o constructo final. O constructo final então é clonado em um vetor de clonagem bacteriano padrão, e sequênciado. Os métodos adicionais seriam imediatamente evidentes para o técnico versado. Além disso, a síntese de genes está prontamente disponível comercialmente.

[0126]Em certas modalidades, uma sequência total de polipeptídio, ou

Petição 870180015372, de 26/02/2018, pág. 82/150

69/106 fragmento, variante, ou derivado do mesmo é otimizado pelo códon por algum dos métodos descritos aqui. Vários fragmentos desejados, as variantes ou os derivados são projetados, e cada um então é otimizado pelo códon individualmente. Além disso, as regiões de codificação parcialmente otimizadas pelo códon da presente invenção podem ser projetadas e construídas. Por exemplo, a presente invenção inclui um fragmento de ácido nucleico de uma região de codificação otimizada pelo códon codificando um polipeptídio no qual pelo menos aproximadamente 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, ou 100% das posições do códon foram otimizados pelo códon para uma dada espécie. Isto é, eles contêm um códon que é preferencialmente usado nos genes de uma espécie desejada, por exemplo, uma espécie de levedura, tais como Saccharomyces cerevisiae, no lugar de um códon que é normalmente usado na sequência nativa de ácido nucleico.

[0127]Em modalidades adicionais, uma sequência de polipeptídio de comprimento total é otimizada pelo códon para uma dada espécie que resulta em uma região de codificação otimizada pelo códon codificando o polipeptídio inteiro, e depois os fragmentos de ácido nucleico da região de codificação otimizada pelo códon, codificando fragmentos, variantes, e os derivados do polipeptídio são feitos da região de codificação otimizada pelo códon original. Como seria bem entendido por aqueles de normalmente versado na técnica, se os códons foram aleatoriamente atribuídos à região de codificação de comprimento total baseada na sua frequência do uso em uma dada espécie, fragmentos de ácido nucleico codificando fragmentos, variantes, e os derivados não necessariamente seriam totalmente otimizados pelo códon para as espécies dadas. Contudo, tais sequências são ainda muito mais fechadas para o uso de

Petição 870180015372, de 26/02/2018, pág. 83/150

70/106 códon das espécies desejadas do que o uso do códon nativo. A vantagem desta abordagem consiste em que a síntese de fragmentos de ácido nucleico otimizados pelo códon codificando cada fragmento, variante, e derivado de um dado polipeptídio, embora rotineira, seria demorada e resultaria em um custo significativo.

[0128]As regiões de codificação otimizadas pelo códon podem ser versões codificando a Cbh1 ou Cbh2de T. emersonii, H. grisea, T. aurantiacus, T. reesei, ou domínios, fragmentos, variantes, ou derivados dos mesmos.

[0129]A otimização de códon é executada para uma determinada espécie vertebrada pelos métodos aqui descritos, por exemplo, em certas modalidades otimizadas pelo códon codificando regiões codificando os polipeptídios do T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, ou domínios, fragmentos, variantes, ou os derivados do mesmo são otimizados segundo o uso de códon de levedura, por exemplo, Saccharomyces cerevisiae. Especialmente, a presente invenção se refere a regiões de codificação otimizadas pelo códon codificando os polipeptídios do T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, ou domínios, variantes, ou derivados do mesmo que foram otimizados de acordo com o uso do códon de levedura, por exemplo, o uso do códon de Saccharomyces cerevisiae. Também fornecidos são polinucleotídios, vetores, e outros constructos de expressão compreendendo regiões de codificação otimizadas pelo códon codificando os polipeptídios do T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, ou domínios, fragmentos, variantes, ou derivados do mesmo, e vários métodos de uso de tais polinucleotídios, vetores e outros constructos de expressão.

[0130]Em certas modalidades descritas aqui, uma região de codificação

Petição 870180015372, de 26/02/2018, pág. 84/150

71/106 otimizada pelo códon codificando qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18, ou domínio, fragmento, a variante, ou derivado do mesmo, é otimizada segundo o uso de códon de levedura (Saccharomyces cerevisiae). Alternativamente, uma região de codificação otimizada pelo códon codificando qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18 pode ser otimizada segundo o uso do códon em qualquer planta, animal, ou espécies microbianas.

PoliDeptídios da Invenção [0131]A presente invenção também se refere à expressão de polipeptídios de T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 em uma célula hospedeira, tal como Saccharomyces cerevisiae. As sequências de polipeptídios T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 são apresentadas acima e resumidas na tabela abaixo:

Organismo e Proteína	SEQ ID N°:
H. grisea Cbh1	11
T. aurantiacus Cbh1	12
T. emersonii Cbh1	13
T. emersonii Cbh2	14
T. reesei Cbh1	17
T. reesei Cbh2	18

[0132]A presente invenção também abrange polipeptídios compreendendo, ou alternativamente consistindo de, uma sequência de aminoácido que é pelo menos aproximadamente 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99% idêntica a, por exemplo, a sequência de polipeptídio mostrada na SEQ ID N^os: 11 a 14 ou 17 a 18, e/ou domínios, fragmentos, variantes, ou derivados do mesmo, de alguns desses polipeptídios (por exemplo, aqueles fragmentos descritos aqui, ou domínios de qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18).

[0133]Por um polipeptídio possuindo uma sequência de aminoácido pelo menos, por exemplo, 95% “idênticos” a uma sequência de aminoácido de pergunta da presente invenção, é pretendido que a sequência de aminoácido do

Petição 870180015372, de 26/02/2018, pág. 85/150

72/106 polipeptídio sujeito seja idêntica à sequência de pergunta exceto que a sequência de polipeptídio de objetivo pode incluir até cinco alterações de aminoácido por cada um 100 aminoácidos da sequência de aminoácido de pergunta. Em outras palavras, para obter um polipeptídio possuindo uma sequência de aminoácido pelo menos 95% idênticos a uma sequência de aminoácido de pergunta, até 5% dos resíduos de aminoácido na sequência de objetivo podem ser inseridos, eliminados, (indels) ou substituídos com outro aminoácido. Estas alterações da sequência de referência podem ocorrer nas posições de terminação amina ou carboxi da sequência de aminoácido de referência ou em qualquer lugar entre aquelas posições terminais, entremeadas individualmente entre resíduos na sequência de referência ou em um ou mais grupos contíguos dentro da sequência de referência.

[0134]Como uma matéria prática, se algum determinado polipeptídio é pelo menos 80%, 85%, 90%, 95%, 96%, 97%, 98% ou 99% idêntico a, por exemplo, a sequência de aminoácido da SEQ ID N^os: 11 a 14 ou 17 a 18 podese ser determinado convencionalmente usando programas de computador conhecidos. Como discutido acima, um método para determinar a melhor combinação total entre uma sequência de pergunta (uma sequência da presente invenção) e uma sequência de objetivo, também referido como um alinhamento de sequência global como, pode ser determinado usando o programa de computador de FASTDB baseado no algoritmo de Brutlag et al. (Comp. App. Biosci. 6:237-245 (1990)). Em um alinhamento de sequência de pergunta e as sequências de objetivos são ambas as sequências de nucelotídio ou ambas as sequências de aminoácido. O resultado do dito alinhamento de sequência global está na identidade percentual. Os parâmetros preferenciais usados em um alinhamento de aminoácido de FASTDB são: Matrix=PAM 0, k-tuple=2,

Petição 870180015372, de 26/02/2018, pág. 86/150

73/106

Penalidade de não combinação=1, Penalidade de união=20, Comprimento de grupo aieatório=0, Valor do atalho=1, Comprimento do tamanho de janela=sequence, Penalidade de fenda=5, Penalidade de tamanho de fenda=0,05, Tamanho de janela=500 ou o comprimento da sequência de aminoácido de objetivo, tudo o que for mais curto. Também como discutido acima, as correções manuais podem ser feitas nos resultados em certos exemplos.

[0135]Em certas modalidades, o polipeptídio da presente invenção abrange uma proteína de fusão compreendendo um primeiro polipeptídio, onde o primeiro polipeptídio é um T. emersonii Cbh1 _Λ H. grisea Cbh1, ou T. aurantiacusi Cbh1, T. emersonii Cbh2, T. reesei Cbh1, T. reesei Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo, e um segundo polipeptídio, onde o segundo polipeptídio é um T. emersonii Cbh1 _Λ H. grisea Cbh1, ou T. aurantiacusi Cbh1, T. emersonii Cbh2, T. reesei Cbh1 ou T. reesei Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo. Em determinadas modalidades o primeiro polipeptídio é T. emersonii Cbh1 e o segundo polinucleotídio é uma CBM de T. reesei Cbh1 ou Cbh2. Em modalidades adicionais da proteína de fusão, o primeiro e segundo polipeptídios estão na mesma orientação, ou o segundo polipeptídio está na orientação inversa do primeiro polipeptídio. Em modalidades adicionais, o primeiro polipeptídio é a terminação N ou a terminação C para o segundo polipeptídio. Em certas outras modalidades, o primeiro polipeptídio e/ou o segundo polipeptídio são codificados por polinucleotídios otimizados pelo códon, por exemplo, polinucleotídios otimizados pelo códon para S. cerevisiae. Em determinadas modalidades, o primeiro polinucleotídio é um T. emersonii Cbh1 otimizado pelo códon e o segundo polinucleotídio codifica para uma CBM otimizada pelo códon de T.

Petição 870180015372, de 26/02/2018, pág. 87/150

74/106 reesei Cbh1 ou Cbh2. Em certas outras modalidades, o primeiro polipeptídio e o segundo polipeptídio são fundidos via uma sequência ligante.

[0136]Em certos aspectos da invenção, os polipeptídios e os polinucleotídios da presente invenção são fornecidos em uma forma isolada, por exemplo, purificados até a homogeneidade.

[0137]A presente invenção também abrange polipeptídios compreendendo, ou alternativamente consistindo de, uma sequência de aminoácido que é pelo menos 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99% semelhante ao polipeptídio de qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18, e a porções de tal polipeptídio com tal porção do polipeptídio geralmente contendo pelo menos 30 aminoácidos e mais preferivelmente pelo menos 50 aminoácidos.

[0138]Como conhecido a “similaridade” da técnica entre dois polipeptídios é determinado comparando a sequência de aminoácido e substitutos de aminoácido do polipeptídio conservados a isso com a sequência de um segundo polipeptídio.

[0139]A presente invenção também se refere a um domínio, fragmento, variante, derivado, ou análogo do polipeptídio de qualquer uma das SEQ ID N^os: 11 a14ou17a18.

[0140]Os fragmentos ou as porções dos polipeptídios da presente invenção podem ser empregados para produzir o polipeptídio de comprimento total correspondente pela síntese de peptídio, por isso, os fragmentos podem ser empregados como intermediários para produzir os polipeptídios de comprimento total.

[0141]Os fragmentos de polipeptídios Cbh da presente invenção abrangem domínios, fragmentos de proteolítico, fragmentos de eliminação e

Petição 870180015372, de 26/02/2018, pág. 88/150

75/106 especialmente, fragmentos de polipeptídios T. emersonii, H. grísea, T.

aurantiacus ou T. reesei Cbh1 ou Cbh2 que conservam qualquer atividade biológica específica da proteína Cbh1 ou Cbh2. Os fragmentos de polipeptídio também incluem qualquer porção do polipeptídio compreendendo uma atividade catalítica da proteína Cbh1 ou Cbh2.

[0142]A variante, derivado ou análogo do polipeptídio de qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18, pode ser (i) aquele no qual um ou mais dos resíduos de aminoácido são substituídos com um resíduo de aminoácido conservado ou não conservado (preferivelmente um resíduo de aminoácido conservado) e tal resíduo de aminoácido substituído pode ou não ser aquele codificado pelo código genético, ou (ii) aquele no qual um ou mais dos resíduos de aminoácido inclui um grupo substituinte, ou (iii) aquele no qual o polipeptídio maduro é fundido com outro composto, tal como um composto para aumentar a meia-vida do polipeptídio (por exemplo, polietileno glicol), ou (iv) aquele no qual os aminoácidos adicionais são fundidos ao polipeptídio maduro para purificação do polipeptídio ou (v) aquele no qual um fragmento do polipeptídio é solúvel, isto é, não ligado à membrana, embora ainda se ligue aos ligantes no receptor de ligação da membrana. Considera-se que tais variantes, os derivados e os análogos estão dentro dos limites dos versados na técnica do que é ensinado aqui.

[0143]Os polipeptídios da presente invenção também incluem variantes dos polipeptídios. Uma “variante” do polipeptídio pode ser uma variante conservadora, ou variante alélica. Como usado aqui, uma variante conservadora se refere a alterações na sequência de aminoácido que não afeta adversamente as funções biológicas da proteína. Diz-se que uma substituição, a inserção ou a eliminação afeta adversamente a proteína quando a sequência alterada evita ou

Petição 870180015372, de 26/02/2018, pág. 89/150

76/106 interrompe uma função biológica associada com a proteína. Por exemplo, a carga total, a estrutura ou as propriedades hidrofílicas, e hidrofóbicas da proteína podem ser alteradas sem afetar adversamente uma atividade biológica. Consequentemente, a sequência de aminoácido pode ser alterada, por exemplo, para tornar o peptídio mais hidrofóbico ou hidrofílico, sem afetar adversamente as atividades biológicas da proteína.

[0144]Por uma “variante alélica” são entendidas as formas alternativas do gene que ocupa um dado lugar em um cromossomo de um organismo. Genes II, Lewin, B., editor, John Wiley & Sons, Nova Iorque (1985). As variantes de ocorência não natural podem ser produzidas usando técnicas de mutagênese conhecidas da técnica. As variantes alélicas, possuindo uma sequência de aminoácido ligeiramente diferente das recitadas acima, ainda terão as mesmas funções biológicas ou semelhantes associadas com as proteínas do T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2.

[0145]As variantes alélicas, variantes de substituição conservadoras, e membros família de proteína do Cbh1 ou Cbh2, terão uma sequência de aminoácido possuindo identidade de sequência de aminoácido de pelo menos 75%, pelo menos 80%, pelo menos 90%, de pelo menos 95% com uma sequência de aminoácido de T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 apresentada em qualquer uma das SEQ ID N^os: 11 a 14 ou 17 a 18. A identidade ou a homologia em relação a tais sequências são definidas aqui como a percentagem de resíduos de aminoácido na sequência candidato que são idênticas aos peptídios conhecidos, depois de alinhar as sequências e introduzir fendas, se necessário, para realizar a homologia percentual máxima, e não considerar qualquer substituição conservadora como parte da identidade de sequência. A terminação N, termnação C ou extensões internas, eliminações,

Petição 870180015372, de 26/02/2018, pág. 90/150

77/106 ou inserções na sequência de peptídio não devem ser interpretadas como afetando a homologia.

[0146]Assim, a proteína e os peptídios da presente invenção incluem moléculas compreendendo a sequência de aminoácido da SEQ ID N^os: 11 a 14 ou 17 a 18 ou fragmentos do mesmo possuindo uma sequência consecutiva pelo menos de aproximadamente 3, 4, 5, 6, 10, 15, 20, 25, 30, 35 ou mais resíduos de aminoácido ou sequência de polipeptídio do T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2, as variantes de sequência de aminoácido de tais sequências em que pelo menos um resíduo de aminoácido foi inserido na terminação N ou C, ou dentro da sequência divugada; as variantes de sequência de aminoácido das sequências divugadas, ou os seus fragmentos como definido acima, que foram substituídos por outro resíduo. As variantes contempladas também incluem as mutações pré-determinadas contendo, por exemplo, a recombinação homóloga, direcionada para o sítio ou mutagênese de PCR, e a proteína correspondente de outras espécies dos animais, incluindo, mas não limitado a coelho, rato, porcinos, bovinas, ovinos, equinos e espécies de primatas não humanos, os alelos ou outras variantes que de ocorrência natural na família da proteína; e os derivados em que a proteína foi covalentemente modificado pela substituição, química, enzimática, ou outros meios apropriados com uma parte diferente de um aminoácido que ocorre naturalmente (por exemplo, uma parte detectável, tal como uma enzima ou isótopo radiativo).

[0147]Usando os métodos conhecidos da engenharia de proteínas e tecnologia recombinante de DNA, as variantes podem ser geradas para melhorar ou alterar as características dos polipeptídios Cbh. Por exemplo, um ou mais aminoácidos podem ser eliminados da terminação N ou da terminação C da

Petição 870180015372, de 26/02/2018, pág. 91/150

78/106 proteína secretada sem perda substancial da função biológica.

[0148]Assim, a invenção também inclui variantes de polipeptídios T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 que mostram atividade biológica substancial. Tais variantes incluem eliminações, inserções, inversões, repetições e substituições selecionadas de acordo as regras gerais conhecidas na técnica como tendo pouco efeito sobre a atividade.

[0149]O técnico versado é totalmente consciente das substituições de aminoácido que, ou provavelmente não afetarão, ou afetarão menos provavelmente significativamente a função da proteína (por exemplo, substituindo um aminoácido alifático com um segundo aminoácido alifático), como também descrito abaixo.

[0150]Por exemplo, a orientação acerca de como fazer fenotipicamente substituições de aminoácido silenciosas é fornecida em Bowie et al., “Deciphering the Message in Protein Sequences: Tolerance to Amino Acid Substitutions,” Science 247: 1306-1310 (1990), em que os autores indicam que há duas estratégias principais para estudar a tolerância de uma sequência de aminoácido a se modificar.

[0151]A primeira estratégia explora a tolerância de substituições do aminoácido pela seleção natural durante o processo de evolução. Comparando sequências de aminoácidos em espécies diferentes, os aminoácidos conservados podem ser identificados. Estes aminoácidos conservados são provavelmente importantes para a função da proteína. Ao contrário as posições de aminoácido onde as substituições foram toleradas pela seleção natural indicam que estas posições não são críticas para a função da proteína. Assim, as posições tolerando substituição de aminoácido podem ser modificadas mantendo ainda a atividade biológica da proteína.

Petição 870180015372, de 26/02/2018, pág. 92/150

79/106 [0152]A segunda estratégia usa a engenharia genética para introduzir modificações de aminoácido em posições específicas de um gene clonado para identificar regiões críticas para a função de proteína. Por exemplo, pode ser usada a mutagênese direcionada para um sítio ou a mutagênese de avaliação da alanina (introdução de mutações de alanina únicas em cada resíduo na molécula). (Cunningham e Wells, Science 244: 1081 a 1085 (1989).) as moléculas mutantes resultantes então podem ser testadas para a atividade biológica.

[0153]Como declarado pelos autores, estas duas estratégias revelaram que a proteína é muitas vezes surpreendentemente tolerante à substituições de aminoácido. Os autores também indicam que modificações de aminoácido serão provavelmente permissivas em certas posições de aminoácido na proteína. Por exemplo, os resíduos de aminoácido mais enterrados (dentro da estrutura terciária da proteína) necessitam de cadeias laterais não polares, enquanto que poucas características de cadeias laterais superficiais são geralmente conservadas. Além disso, as substituições conservativas de aminoácidos toleradas implicam na substituição de aminoácidos alifáticos ou hidrofóbicos Ala, Vai, Leu e lie; substituição dos resíduos de hidroxila Ser e Thr; substituição dos resíduos ácidos Asp e Glu; substituição dos resíduos de amida Asn e Gin, substituição dos resíduos básicos Lys, Arg, e His; substituição dos resíduos aromáticos Phe, Tyr, e Trp, e substituição dos aminoácidos de pequeno tamanho Ala, Ser, Thr, Met, e Gly.

[0154]Os termos “derivado” e “análogo” se referem a um polipeptídio que se diferencia do polipeptídio T. emersonii, H. grísea, T. aurantiacus ou T. reesei

Cbh1 ou Cbh2, mas conserva propriedades essenciais do mesmo. Geralmente, os derivados e os análogos são totais estreitamente semelhantes, e, em muitas

Petição 870180015372, de 26/02/2018, pág. 93/150

80/106 regiões, idênticas aos polipeptídios T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2. O termo “derivado” e “análogo” referindo-se a os polipeptídios T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 da presente invenção inclui qualquer polipeptídio que conserva pelo menos um pouco da atividade do polipeptídio nativo correspondente, por exemplo, a atividade de exoglicanase, ou a atividade do seu domínio catalítico.

[0155]Os derivados de polipeptídios T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou Cbh2 da presente invenção, são polipeptídios que foram alterados para expor características adicionais não consideradas no polipeptídio nativo. Os derivados podem ser covalentemente modificados pela substituição, por meio químico, meio enzimático, ou outros meios apropriados com uma parte diferente de um aminoácido que ocorre naturalmente (por exemplo, uma parte detectável, tal como uma enzima ou isótopo radiativo). Os exemplos de derivados incluem a proteína de fusão.

[0156]Um análogo é outra forma de um T. emersonii, H. grisea, T. aurantiacus ou T. reesei Cbh1 ou o polipeptídio Cbh2 da presente invenção, um “análogo” também conserva substancialmente a mesma função biológica ou atividade que o polipeptídio do interesse, isto é, funciona como um celobioidrolase. Um análogo inclui uma proproteína que pode ser ativada pela rachadura da porção de proproteína para produzir um polipeptídio maduro ativo.

[0157]O polipeptídio da presente invenção pode ser um polipeptídio de recombinante, um polipeptídio natural ou um polipeptídio sintético, preferivelmente um polipeptídio de recombinante.

[01581Expressão heteróloqa de Dolipeptídios Cbh em células hospedeiras.

[0159]Para abordar as limitações dos sistemas anteriores, a presente

Petição 870180015372, de 26/02/2018, pág. 94/150

81/106 invenção fornece o T. emersonii, H. grísea, T. aurantiacus ou T. reesei Cbh1 ou

Cbh2, polipeptídio ou domínio, variante, ou derivado do mesmo que pode ser efetivamente e eficientemente utilizado em um sistema de bioprocessamento consolidado.

[0160]Um aspecto da invenção está assim relacionado à produção eficiente de enzimas sacarolíticas (celulases e hemicelulases) para ajudar na digestão da celulose e geração de etanol.

[0161]Uma “enzima sacarolítica” também é referida como uma celulase, e pode equivaler a qualquer enzima implicada em digestão, metabolismo e/ou hidrólise de celulase, incluindo uma endoglicanase, exoglicanase, ou βglicosidase. Uma exoglicanase pode ser, por exemplo, uma celobioidrolase.

[0162]Especialmente, a invenção se refere à produção de Cbh1 em um organismo hospedeiro. Em certas modalidades, este organismo hospedeiro é uma levedura, tal como o Saccharomyces cerevisiae.

[0163]Em certas modalidades da presente invenção, uma célula hospedeira compreendendo um vetor que codifica e expressa o T. emersonii Cbh1 que é utilizado para o bioprocessamento consolidado é co-cultivada com células hospedeiras adicionais expressando uma ou mais endoglicanases, celobioidrolases e/ou β-glicosidases adicionais. Em outras modalidades da invenção, uma célula hospedeira transformada com o T. emersonii é transformada e expressa uma ou mais endoglicanases, celobioidrolases ou βglicosidases heterólogas. A endoglicanase, a celobioidrolase e/ou a βglicosidase podem ser qualquer endoglicanase, celobioidrolase e β-glicosidase conveniente derivada de, por exemplo, uma fonte fúngica ou bacteriana.

[0164]Em certas modalidades da invenção, a endoglicanase pode ser uma endoglicanase I ou uma endoglicanase II isoforma, paralogo ou ortologo.

Petição 870180015372, de 26/02/2018, pág. 95/150

82/106

Em outra modalidade, a endoglicanase expressada pelas células hospedeiras da presente invenção pode ser recombinante endo-1,4-3-glicanase. Em certas modalidades da presente invenção, a endoglicanase é um endoglicanase I do

Tríchoderma reesei.

[0165]Em certas modalidades da presente invenção a β-glicosidase é derivada de Saccharomycopsis fibuligera. Em certas modalidades, a βglicosidase é uma β-glicosidase I ou β-glicosidase II isoforma, paralogo ou ortologo. Em certas outras modalidades, a β-glicosidase expressada pelas células da presente invenção pode ser β-glicanase I recombinante de uma fonte Saccharomycopsis fibuligera.

[0166]Em certas modalidades da invenção, a celobioidrolase pode ser uma celobioidrolase I e/ou um celobioidrolase II isoforma, paralogo ou ortologo. Em certas modalidades da presente invenção as celobioidrolases são celobioidrolases I e II de Tríchoderma reesei. Em outras modalidades, as celobioidrolases podem ser codificados pelas sequências de polinucleotídio da SEQ ID N^os: 15 e/ou 16.

[0167]As células hospedeiras transformadas ou as culturas de célula, tal como descrito acima, são medidas para o teor de proteína de endoglicanase, celobioidrolase e/ou β-glicosidase. O teor de proteína pode ser determinado analisando os sobrenadantes da célula hospedeira (por exemplo, levedura). Em certas modalidades, o material de alto peso molecular é recuperado do sobrenadante da célula de levedura pela precipitação de acetona ou armazenando em buffer das amostras com cartuchos dessalinizadores descartáveis. Os métodos de análise incluem o método de Lowry tradicional ou método de teste de proteína segundo o protocolo do fabricante BioRad. Usando estes métodos, o teor de proteína de enzimas sacarolíticas pode ser estimado.

Petição 870180015372, de 26/02/2018, pág. 96/150

83/106 [0168]As células hospedeiras transformadas ou as culturas de célula, tal como descrito acima, podem ser também analisadas para a hidrólise da celulase (por exemplo, por um teste de detecção de açúcar), para atividade de celulase ou utilização de celulose ((por exemplo, medindo a atividade de celulase individual (endoglicanase, celobioidrolase ou β-glicosidase)) ou medindo atividade de celulase total). A atividade de endoglicanase pode ser medida baseada em uma redução da viscosidade do substrato celulósico e/ou um aumento na redução de determinadas extremidades por um teste de açúcar redutor. A atividade da celobioidrolase pode ser medida, por exemplo, usando substratos celulósico insolúveis, tais como o substrato amorfo de ácido fosfórico e celulose inchada (PASC) ou celulose microcristalina (Avicel) e determinando o ponto da hidrólise do substrato. A atividade da β-glicosidase pode ser medida por vários testes, por exemplo, usando a celobiose.

[0169]Uma atividade de celulase total, que inclui a atividade de endoglicanase, celobioidrolase e β-glicosidase, hidrolisará o sinergisticamente a celulose cristalina. A atividade total de celulase pode ser assim medida usando substratos insolúveis incluindo substratos celulósico puros, tais como de papel de filtro Whatman N^s 1, algodão linter, celulose microcristalina, celulose bacteriana, celulose algínica, e substratos contendo celulose tal como celulose tingida, alfa-celulose ou lignocelulose pré-tratada.

[0170]Será apreciado que o material de lignocelulósico conveniente pode ser qualquer matéria-prima contendo a celulose solúvel e/ou insolúvel, onde a celulose insolúvel pode estar em uma forma cristalina ou não cristalina. Em várias modalidades, a biomassa lignocelulósica compreende, por exemplo, madeira, milho, sabugo de milho, serragem, cavaco, folhas, resíduos agrícolas e florestais, gramas, tais como grama de forragem, produtos de digestão

Petição 870180015372, de 26/02/2018, pág. 97/150

84/106 ruminantes, resíduos municipais, efluentes da moagem de papel, jornal, cartão ou combinações dos mesmos.

Vetores e Células Hospedeiras.

[0171 ]A presente invenção também se relaciona a vetores que incluem polinucleotídios da presente invenção, células hospedeiras que são geneticamente projetadas com vetores da invenção e a produção de polipeptídios da invenção por técnicas recombinantes.

[0172]As células hospedeiras são geneticamente projetadas (transduzidas ou transformadas ou transfectadas) com os vetores da presente invenção que podem ser, por exemplo, um vetor de clonagem ou um vetor de expressão. O vetor pode estar, por exemplo, na forma de um plasmídio, uma partícula viral, um fago, etc. As células hospedeiras projetadas podem ser cultivadas em meios nutritivos convencionais modificados como apropriado para ativar promotores, selecionando transformantes ou amplificando os genes da presente invenção. As condições de cultura, tais como temperatura, pH e assim por diante, são aquelas anteriormente usadas com a célula hospedeira selecionada para a expressão, e serão evidentes para o técnico normalmente versado.

[0173]Os polinucleotídios da presente invenção podem ser empregados para produzir polipeptídios por técnicas recombinantes. Assim, por exemplo, o polinucleotídio pode ser incluído em quaisquer dos vários vetores de expressão para expressar um polipeptídio. Tais vetores incluem sequências de DNA cromossômico, não cromossômicas e sintéticas, por exemplo, derivados da SV40; plasmídios bacterianos; e plasmídios de levedura. Contudo, qualquer outro vetor pode ser usado enquanto for replicável e viável no hospedeiro.

[0174]A sequência de DNA apropriada pode ser inserida no vetor por

Petição 870180015372, de 26/02/2018, pág. 98/150

85/106 vários procedimentos. Em geral, a sequência de DNA é inserida em um sítio de endonuclease de restrição apropriada por procedimentos conhecidos na técnica.

Considera-se que tais procedimentos e os outros estão dentro dos limites dos versados na técnica.

[0175]A sequência de DNA no vetor de expressão é operacionalmente associada com uma sequência de controle de expressão apropriada (promotor) para direcionar a síntese de mRNA. Os exemplos representativos de tais jromotores são como se segue:

Gene	Organismo	Nome sistemático	Razões para uso/benefícios
PGK1	S. cerevisiae	YCR012W	Promotor construtivo	fortemente
ENO1	S. cerevisiae	YGR254W	Promotor construtivo	fortemente
TDH3	S. cerevisiae	YGR192C	Promotor construtivo	fortemente
TDH2	S. cerevisiae	YJR009C	Promotor construtivo	fortemente
TDH1	S. cerevisiae	YJL052W	Promotor construtivo	fortemente
ENO2	S. cerevisiae	YHR174W	Promotor construtivo	fortemente
GPM1	S. cerevisiae	YKL152C	Promotor construtivo	fortemente
TPI1	S. cerevisiae	YDR050C	Promotor construtivo	fortemente

[0176]Adicionalmente a E. coli, lac ou trp, e outros promotores conhecidos por controlar a expressão de genes em procariótico ou abaixar células eucarióticas. O vetor de expressão também contém uma ribossoma sítio ligação da iniciação de tradução e um terminador de transcrição. O vetor também pode incluir sequências apropriadas para amplificar a expressão, ou pode incluir regiões reguladoras adicionais.

[0177]Mém disso, os vetores de expressão podem conter um ou mais genes de marcador selecionáveis para fornecer um traço fenotípico da seleção de células hospedeiras transformadas, tais como URA3, HIS3, LEU2, TRP1,

LYS2 ou ADE2, redutase de diidrofolato ou neomicina (G418) resistência da

Petição 870180015372, de 26/02/2018, pág. 99/150

86/106 cultura de célula eucariótica, ou tetraciclina ou resistência de ampicilina em E.

coli.

[0178]O vetor contendo a sequência de DNA apropriada como aqui, bem como promotor apropriado ou sequência de controle, pode ser empregado para transformar um hospedeiro apropriado para permitir ao hospedeiro expressar a proteína.

[0179]Assim, em certos aspectos, a presente invenção se refere a células hospedeiras contendo o acima constructor mencionado. A célula hospedeira pode ser uma célula eucariótica superior, tal como uma célula de mamífero, ou célula eucariótica inferior, tal como uma célula de levedura, por exemplo, Saccharomyces cerevisiae, ou a célula hospedeira pode ser uma célula procariótica, tal como uma célula bacteriana.

[0180]Como os exemplos representativos dos hospedeiros apropriados, podem ser mencionados: células bacterianas, tais como E. coli, Streptomyces, Salmonella typhimuríunr, bactérias termofílicas ou mesofílicas; células fúngicas, tais como levedura; e células de planta, etc. Considera-se que a seleção de um hospedeiro apropriado está dentro dos limites dos versados na técnica dos ensinamentos aqui.

[0181]Os hospedeiros fúngicos apropriados incluem a levedura. Em certos aspectos da invenção a levedura é Saccharomyces cervisiae, Kluveromyces lactus, Kluveromyces marxianus, Schizzosaccharomyces pombe, Candida albicans, Pichia pastoris, Pichia stipitis, Yarrowia lipolytica, Hansenula polymorpha, Phaffia rhodozyma, Candida utilis, Arxula adeninivorans, Debaryomyces hansenii, Debaryomyces polymorphus e Schwanniomyces occidentalis.

[0182]Mais em particular, a presente invenção também inclui constructos

Petição 870180015372, de 26/02/2018, pág. 100/150

87/106 recombinantes compreendendo uma ou mais das sequências tal como descrito acima. Os constructos compreendem um vetor, tal como um plasmídio ou vetor viral, no qual uma sequência da invenção foi inserida, em uma orientação direta ou inversa. Em um aspecto desta modalidade, o constructo também compreende sequências reguladoras, inclusive, por exemplo, um promotor, operacionalmente associado à sequência. Grandes números de vetores e promotores convenientes são conhecidos àqueles versados na técnica, e estão comercialmente disponíveis. Os seguintes vetores são fornecidos com forma de exemplo.

[01831 Levedura: os vetores de levedura incluem aqueles de cinco classes gerais, baseadas no seu modo de replicação na levedura, Ylp (plasmídios de integração de levedura), YRp (plasmídios de replicação de levedura), YCp (plasmídios de replicação de levedura com o centrômero (CEN) elementos incorporados), YEp (plasmídios epissômicos de levedura), e YLp (plasmídios lineares de leveduras). Com a exceção dos plasmídios YLp, todos destes plasmídios podem ser mantidos em E. co//bem como em Saccharomyces cerevisiae e assim são também tratados como vetores de transporte de levedura. Em certos aspectos, estes plasmídios contêm dois tipos de genes selecionáveis: os genes de resistência à droga codificados pelo plasmídio e os genes de levedura clonados, onde o gene resistente à droga é tipicamente usado para a seleção em células bacterianas e o gene de levedura clonado estão usados para a seleção na levedura. Os genes de resistência à droga incluem a ampicilina, a canamicina, a tetraciclina, a neomicina e a sulfometurona de metila. Os genes de levedura clonados incluem HIS3, LEU2, LYS2, TRP1, URA3, TRP1 e SMR1. Os vetores de pYAC também podem ser utilizados para clonar grandes fragmentos do DNA exógeno em cromossomos lineares artificiais.

[0184]Em certos aspectos da invenção, são utilizados os plasmídios de

Petição 870180015372, de 26/02/2018, pág. 101/150

88/106

YCp, possuindo altas frequências de transformação e estabilidade aumentada devido aos elementos de centrômero incorporados. Em certos outros aspectos da invenção, são utilizados os plasmídios YEp, que fornecem altos níveis da expressão genética na levedura. Em aspectos adicionais da invenção, os plasmídios de YRp são utilizados.

[0185]Em certas modalidades, o vetor compreende (1) um primeiro polinucleotídio, onde o primeiro polinucleotídio codifica para um T. emersonii, H. grisea, T. aurantiacus, ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo; e (2) um segundo polinucleotídio, onde o segundo polinucleotídio codifica para um T. emersonii, H. grisea, T. aurantiacus, ou T. reesei Cbh1 ou Cbh2, ou domínio, fragmento, variante, ou derivado do mesmo.

[0186]Em certas modalidades adicionais, o vetor compreende um primeiro polinucleotídio codificando para um T. emersonii Cbh1, H. grisea Cbh1, ou T. aurantiacusi Cbh1, T. emersonii Cbh1 e um segundo polinucleotídio codificando do domínio de CBM de T. reesei Cbh1 ou T. reesei Cbh2. Em determinadas modalidades, o vetor compreende um primeiro polinucleotídio e um segundo polinucleotídio, onde o primeiro polinucleotídio é T. emersonii Cbh1 e o segundo polinucleotídio codifica para uma CBM de T. reesei Cbh1 ou Cbh2. Em modalidades adicionais, os primeiros e segundos polinucleotídios estão na mesma orientação, ou o segundo polinucleotídio está na orientação inversa do primeiro polinucleotídio. Em modalidades adicionais, o primeiro polinucleotídio é a terminação N ou a terminação C ao segundo polinucleotídio. Em certas outras modalidades, o primeiro polinucleotídio e/ou o segundo polinucleotídio são codificados por polinucleotídios otimizados pelo códon, por exemplo, polinucleotídios otimizados pelo códon para S. cerevisiae. Em modalidades

Petição 870180015372, de 26/02/2018, pág. 102/150

89/106 adicionais, o primeiro polinucleotídio é um T. emersonii Cbh1 otimizado pelo códon e o segundo polinucleotídio codifica para uma CBM otimizado pelo códon de T. reesei Cbh1 ou Cbh2.

[0187]Em determinadas modalidades, o vetor da presente invenção é um plasmídio selecionado do grupo consistindo de pRDH101, pRDH103-112, pRDH118-121, pRDH123-129 e pDLG116-118. Os diagramas destes plasmídios são encontrados nas Figuras 1 -25.

[Q1881Bacteriano: pQE70, pQE60, pQE-9 (Qiagen), pbs, pD10, fagoscript, psiX174, pbluescript SK, pbsks, pNH8A, pNH16a, pNH18A, pNH46A (Stratagene); ptrc99a, pKK223 3, pKK233-3, pDR540, pRIT5 (Pharmacia).

[0189]Contudo, quaisquer outros plasmídio ou vetor podem ser usados enquanto eles forem replicáveis e viáveis no hospedeiro.

[0190]As regiões promotoras podem ser selecionadas de qualquer gene desejado. Os determinados promotores de levedura denominados incluem o promotor constitutivo ENO1, o promotor PGK1, o promotor TEF1 e o promotor HXT7. Os promotores bacterianos particularmente denominados incluem lacl, lacZ, T3, T7, gpt, lambda PR, PL e trp. Os promotores eucarióticos incluem CMV imediato primeiro, quinase de timidina de HSV, cedo e tarde SV40, LTRs de retrovírus, e metalotioneína-l de rato. A seleção do vetor apropriado e promotor é bem dentro do nível de normalmente versado na técnica.

[0191 ]A introdução do constructo em uma célula de levedura hospedeira, por exemplo, Saccharomyces cerevisiae, pode ser efetuada por transformação acética de lítio, transformação de esferoblasto, ou transformação pela eletroporação, como descrito em Protocolos Atuais na Biologia Molecular, 13.7.1-13.7.10.

[0192]A introdução do constructo em outras células hospedeiras pode

Petição 870180015372, de 26/02/2018, pág. 103/150

90/106 ser efetuada pela transfecção de fosfato de cálcio, DEAE-Dextran mediou a transfecção, ou eletroporação. (Davis, L., et al., Métodos Básicos em Biologia

Molecular, (1986)).

[0193]Os constructos em células hospedeiras podem ser usados de um modo convencional para produzir o produto genético codificado pela sequência recombinante. Alternativamente, os polipeptídios da invenção podem ser sinteticamente produzidos por sintetizadores de peptídio convencionais.

[0194]A seguinte criação de uma célula hospedeira conveniente e crescimento da célula hospedeira a uma densidade de célula apropriada, o promotor selecionado é induzido por meios apropriados (por exemplo, turno de temperatura ou indução química) e as células são cultivadas durante um período adicional.

[0195]As células são tipicamente colhidas pela centrifugação, suspensa por meios físicos ou químicos, e o extrato bruto resultante é conservado para uma nova purificação.

[0196]As células microbianas empregadas na expressão da proteína podem ser suspensas por qualquer método conveniente, incluindo ciclos de degelo, uso de ultra-som, ruptura mecânica, ou uso de agentes de lise celular, tais métodos são bem conhecidos dos versados na técnica.

[0197]A célula de levedura, por exemplo, Saccharomyces cerevisiae, empregado na expressão da proteína podem ser manipulados como se segue. Os polipeptídios Cbh podem ser recuperados e purificados de culturas celulares recombinantes por métodos incluindo a preparação de esferoblasto e lise, ruptura de célula usando contas de vidro, e ruptura de célula usando nitrogênio líquido.

[0198]Vários sistemas de cultura de células de mamíferos também

Petição 870180015372, de 26/02/2018, pág. 104/150

91/106 podem ser empregados para expressar a proteína recombinante. Os vetores de expressão compreenderão uma origem da replicação, um promotor e melhorador conveniente, e também quaisquer sítios de ligação de ribossoma necessários, sítio de poliadenilação, entrançar sítios receptor e doador, sequências de terminação transcricional, e sequências laterais 5’ não transcritas.

[0199]Os métodos adicionais incluem a precipitação com sulfato de amônio ou com etanol, a extração ácida, a cromatografia de troca aniônica ou catiônica, a cromatografia de fosfocelulose, a cromatografia de interação hidrofóbica, a cromatografia de afinidade, a cromatografia em hidroxiapatita e a cromatografia em lecitina. As etapas de dobra de proteína podem ser usadas, segundo a necessidade, no completamento da configuração da proteína madura. Finalmente, a cromatografia líquida de alto desempenho (HPLC) pode ser empregada para etapas finais de purificação.

[0200]0s polipeptídios Cbh podem ser preparados em qualquer maneira conveniente. Tais polipeptídios incluem polipeptídios isolados de ocorrência natural, polipeptídios recombinantemente produzidos, polipeptídios sinteticamente produzidos, ou polipeptídios produzidos por uma combinação destes métodos. Os meios para preparar tais polipeptídios são bem entendidos na técnica.

[0201 ]Os polipeptídios de Cbh são fornecidos em uma forma isolada, e, em certos aspectos, são substancialmente purificados. Uma versão de um polipeptídio Cbh recombinantemente produzido, incluindo o polipeptídio secretado, pode ser substancialmente purificado usando técnicas descritas aqui ou por outra maneira conhecida na técnica, tal como, por exemplo, pelo método de uma etapa descrito em Smith e Johnson, Gene 67:31-40 (1988). Os polipeptídios de Cbh também podem ser purificados de fontes naturais, sintéticas

Petição 870180015372, de 26/02/2018, pág. 105/150

92/106 ou recombinantes que usam técnicas descritas aqui ou de outra maneira conhecidos na técnica.

[0202]0s polipeptídios Cbh da presente invenção podem estar na forma da proteína segregada, incluindo a forma madura, ou podem ser uma parte de uma proteína maior, tal como uma proteína de fusão. É muitas vezes vantajoso incluir uma sequência de aminoácido adicional contendo sequências de secretor ou de líder, pró-sequências, sequências que ajudam na purificação, tal como múltiplos resíduos de histidina, ou sequências adicionais para estabilidade durante a produção de recombinantes.

[0203]A secreção da proteína desejada nos meios de crescimento tem as vantagens de procedimentos de purificação simplificados e menos caros. Conhece-se bem na técnica que as sequências de sinal de secreção são muitas vezes úteis na facilitação do transporte ativo da proteína exprimível através de membranas de célula. A criação de um hospedeiro transformado capaz da secreção pode ser realizada pela incorporação de uma sequência de DNA codificando para um sinal de secreção que é funcional no hospedeiro de produção hospedeiro. Os métodos para escolher sequências de sinal apropriadas são bem conhecidos na técnica (ver, por exemplo, EP 546049; WO 9324631). O sinal de secreção de DNA ou facilitador pode ser localizado entre o DNA que controla a expressão e o fragmento genético ou genético imediato, e na mesma estrutura de leitura com esse último.

EXEMPLOS.

MATERIAIS E MÉTODOS.

Meios e Cultivo de Cepa [0204]Cepa de Escherichia coli DH5a (Invitrogen), ou NEB 5 alfa (New England Biolabs) foi usada para transformação e propagação de plasmídio. As

Petição 870180015372, de 26/02/2018, pág. 106/150

93/106 células foram cultivadas no meio LB (extrato de levedura 5 g/L, NaCI 5 g/L, triptona 10 g/L) complementadas com a ampicilina (100 mg/L), canamicina (50 mg/L), ou zeocina (20 mg/L). Quando a seleção de zeocina foi desejada a LB foi ajustada para pH 7,0. Também, foi acrescentado ágar-ágar 15 g/L quando meios sólidos foram desejados.

[0205]A cepa de levedura foi costumeiramente cultivada em YPD (extrato de levedura 10 g/L, peptona 20 g/L, glicose 20 g/L), YPC (extrato de levedura 10 g/L, peptona 20 g/L, celobiose 20 g/L), ou YNB + glicose (Levedura de Bases Nitrogenadas 6,7 g/L sem aminoácidos, e complementada com aminoácidos apropriados da cepa, glicose 20 g/L) os meios com qualquer G418 (250 mg/L a menos que não especificado) ou zeocina (20 mg/L a menos que não especificado) para a seleção. 15 g/L de ágar-ágar foi acrescentado para meios sólidos.

Métodos Moleculares.

[0206]0s protocolos padrão foram seguidos para manipulações de DNA (Sambrook et al. 1989). PCR foi executado usando Phusion polimerase (New England Biolabs) para a clonagem, e Taq polimerase (New England Biolabs) para avaliar os transformantes, e em alguns casos Advantage polimerase (Clontech) para o PCR de genes para corrigir auxotrofias. As instruções de fabricantes foram seguidas como fornecido. As enzimas de restrição foram compradas de New Englad Biolabs e os digestores foram ajustados segundo as instruções fornecidas. As ligações foram executadas usando o kit de ligação Quick (New England Biolabs) como especificado pelo fabricante. A purificação em gel foi executada usando kits de pesquisa Qiagen ou Zymo, o produto do PCR e as purificações de digestão foram executadas usando kits de pesquisa Zymo, e os kits midi e miniprep da Qiagen foram usados para a purificação do

Petição 870180015372, de 26/02/2018, pág. 107/150

94/106

DNA do plasmídio.

Transformação de Levedura.

[0207]Um protocolo da eletrotransformação da levedura foi desenvolvido baseado em Cho, K.M.; Yoo, Y.J.; Kang, H.S. “delta-lntegration of endo/exoglucanase and beta-glucosidase genes into the yeast chromosomes for direct conversion ofcellulose to ethanof’ Enzyme And Microbial Technology, 25\ 23-30, (1999) e Ausubel, F.M.; Brent, R.; Kingston, R.; Moore, D.; Seidman, J.; Smith, J.; Struhl, K. Current Protocols in Molecular Biology. USA·. John Wiley and Sons, Inc. 1994. Os fragmentos lineares de DNA são criados por digestão de enzima de restrição que utiliza sítios de restrição únicos dentro do plasmídio. Os fragmentos são purificados pela precipitação com acetato de sódio a 3M e etanol resfriado com gelo, a lavagem subsequente com o etanol a 70%, e a resuspensão em USB dH2O (água estéril livre de DNAse e RNAse) depois de secagem em um forno à vácuo a 70 ^SC.

[0208]As células de levedura, por exemplo, Saccharomyces cerevisiae, para a transformação são preparadas crescendo à saturação em 5mL culturas de YPD. 4 mL da cultura são amostrados, lavados 2X com a água destilada fria, e resuspensos em 640 pL de água destilada fria. 80 pL de Tris-HCI 100 mM, EDTA a 10 mM, pH 7,5 (10X tampão de TE - filtro esterilizado) e 80 pL de acetato de lítio 1M, pH 7,5 (10X HAc - filtro esterilizado) é acrescentado e a suspensão de célula é incubada a 30 ^SC durante 45 minutos com agitação leve. 20 pL de DTT 1M são acrescentados e a incubação continua durante 15 minutos. As células então são centrifugadas, lavadas uma vez com a água destilada fria, e uma vez com o tampão de eletroporação (sorbitol 1M, HEPES 20 mM), e finalmente resuspensas em 267 pL de tampão de eletroporação.

[0209]Para eletroporação, 10 pg do DNA linearizado (medido pela

Petição 870180015372, de 26/02/2018, pág. 108/150

95/106 estimativa no gel) são combinado com 50 μΙ_ da suspensão de célula em um tubo de microcentrifugadora de 1,5 mL estéril. A mistura então é transferida para uma cubeta de eletroporação de 0,2 cm, e um pulso de 1,4 kV (200 Ω, 25 pF) é aplicado à amostra utilização, por exemplo, o dispositivo Gene Pulser da Biorad. 1 mL de YPD com sorbitol 1M ajustado ao pH 7,0 (YPDS) é colocado na cubeta e as células são deixadas para recuperação por aprox. 3 horas. 100-200 pL da suspensão de células são espalhados em placas de ágar-ágar YPDS com a seleção apropriada, que são incubadas em 30 ^SC durante 3 a 4 dias até que as colônias apareçam.

Medição de Atividade de Celulase.

[0210]A atividade de Cbh foi detectada usando o substrato 4Metilumbeliferil-3-D-lactosídio (MULac). Os testes foram executados misturando 50 pL do sobrenadante de levedura com 50 pL de uma solução de substrato de MUIac a 4 mM feita em tampão citrato a 50 mM pH de 5,5. A reação foi deixada prosseguir durante 30 minutos e depois parada com Na2CO31 Μ. A fluorescência em cada poço foi lida em um leitor de microplaca (por exemplo, a 355 nm e a 460 nm).

[0211]A atividade em PASC e Avicel foi medida usando o protocolo descrito em Den Haan et al. (2006). Resumidamente, os sobrenadantes de levedura foram incubados com a celulose a 4 ^SC para se ligar na celulase. A celulose então foi filtrada do sobrenadante de levedura, resuspensa em tampão citrato e azida de sódio, e incubada a 37 ^SC. O acúmulo de açúcar foi medido na reação por amostragem e executando um teste de fenol- ácido sulfúrico.

[0212]Um teste de conversão Avicel também foi usado para medir a atividade celulolítica da cepa de levedura expressando Cbhs. A celulose Avicel a 2% em acetato Na de 50 mM, pH 5,0 é suspensa e bem misturada para fazer

Petição 870180015372, de 26/02/2018, pág. 109/150

96/106 uma suspensão homogênea. A suspensão homogênea é pipetada em tubos (0,5 ml cada um). 0,5 ml da amostra são acrescentados a cada tubo no substrato. As amostras podem ser: enzima em tampão, filtrado de cultura de levedura, filtrado de cultura de levedura inativada (para detectar o açúcar de fundo nos meios de cultivo) ou tampão em branco. Os tubos são incubados em 35 ^SC com agitação (1000 rpm). As amostras (100 μΙ) então são retiradas depois de um tempo de hidrólise pré-determinado, por exemplo, 0 h, 4 h, 24 h e 48 h, em tubos separados e centrifugados. 50 μΙ do sobrenadante são acrescentados a 100 μΙ do reagente DNS em uma microplaca. Esta mistura então é aquecida a 99 ^SC durante 5 minutos. A absorvância é medida a 595 nm. A glicose equivalente formada (redução de açúcar) é analisada usando calibração de DNS pelo padrão de glicose.

[0213]A Solução de reagente de ácido dinitrossalicílico (DNS) a 1% inclui o seguinte: ácido 3,5 dinitrossalicílico: 10 g; sulfeto de sódio: 0,5 g; hidróxido de sódio: 10 g; água a 1 litro. O DNS é calibrado pela glicose (usando amostras de glicose com conc. 0,1,2, 3, 4, 5 e 6 g/l, a inclinação [S] é calculada, para o DNS de 8 de maio de 2007 S=0,0669). A solução DNS pode ser guardada a 4 ^SC durante vários meses.

[0214]A atividade de celulase também é medida pelo teste de celobiosídio de resofurina (Kit de Teste MarkerGene Fluorecente de Celulase, MGT Inc).

EXEMPLO 1: Clonagem de genes Cbh otimizados pelo códon e a sua expressão em Saccharomyces cerevisiae.

[0215]O genes de celobioidrolase (cbh) de vários organismos fúngicos (como indicado na Tabela 4 abaixo) foi otimizado pelo códon para a expressão na levedura Saccharomyces cerevisiae. O software disponível em

Petição 870180015372, de 26/02/2018, pág. 110/150

97/106 http://phenotype.biosci.umbc.edu/codon/sgd/index.php aplicando a tabela de uso de códon de CAI sugerido por Carbone et al. 2003 foi utilizado para gerar uma sequência inicial que tinha um índice de adaptação de códon (CAI) de 1,0, onde as sequências de codificação de três letras de códons de aminoácidos individuais foi substituído com aquelas sequências de três letras conhecidas sendo mais frequentemente usadas em S. cerevisiae dos códons aminoácido correspondentes.

[0216]A sequência otimizada pelo códon inicialmente gerada por este software depois foi também modificada. Particularmente, o software foi utilizado para identificar certos estiramentos de sequência (por exemplo, sequências com 4, 5, 6, 7, 8, 9, ou 10 A’s ou T’s contíguos), e substituição dessas sequências com sequências de três letras correspondendo às segundas sequências de três letras mais frequentemente utilizadas em S. cerevisiae.

[0217]Além disso, com objetivos de clonagem moleculares, o software do web site foi usado para substituir de mesmo modo certa enzima de restrição, incluindo Pacl, Asei, BamHI, Bglll, EcoRI e Xhol.

[0218]Finalmente outro software de DNA (DNAman) foi usado para verificar as repetições diretas, repetições invertidas e repetições de espelho da sequência de DNA com comprimentos de 10 bases ou mais longas. Estas sequências foram modificadas substituindo manualmente códons “com o segundo melhor” códon. Essas etapas resultaram em um CAI de aproximadamente 0,8 a 0,85. Um resumo destes genes Cbh1, o Número de Acesso da sequência de aminoácido codificada correspondente, e o índice de tendência de códon são resumidos abaixo:

TABELA 4: Genes de celobioidro	ase otimizada Delo códon (CBH).
Organismo doador	Nome do gene	Númere de Aesso	índice de tendência de códon
Humicola grisea	cbh1	CAA35159	0,80

Petição 870180015372, de 26/02/2018, pág. 111/150

98/106

Thermoascus aurantiacus	cbh1	AAL83303	0,83
Talaromyces emersonii	cbh1	AAL89553	0,80
Talaromyces emersonii	cbh2	AAL78165	0,78

[0219]O Cbh's otimizado pelo códon enumerado na Tabela 4 acima foi clonado no YEpENO-BBH de vetor de expressão de levedura (promotor/terminador ENO1). Inicialmente, os genes Cbh sintéticos foram clonados para o plasmídio pUC57. Estes quatro vetores foram digeridos com EcoRI e Xhol para extirpar os genes Cbh que foram posteriormente clonados em um EcoRI e Xhol e digeridos em YEpENO-BBH. O YEpENO-BBH de vetor de expressão de levedura foi criado para facilitar a expressão heteróloga sob controle do S. cerevisiae enolase 1 (ENO1) promotor genético e terminador e para facilitar a combinação de cassetes genéticas já que uma forma de cassete de expressão este vetor pode ser extirpada com um BamHI, digestor de Bglll. YEpENOl (Den Haan, R. etal., “Functional expression of cellobiohydrolases in Saccharomyces cerevisiae towards one-step conversion ofcellulose to ethanol,” Enzyme e Microbial Technology, 40: 1291-1299 (2007)) contendo a cadeia principal YEp352 com o promotor genético ENO1 e sequências de terminador clonadas no BamHI e dos sítios Hindlll. Este plasmídio foi digerido com BamHI e o ressalto preenchido com o polimerase Klenow e dNTPs para retirar o sítio BamHI. O plasmídio foi re-ligado para gerar o YEpENO-B.

[0220]Usando o mesmo método, o Bglll e depois os sítios Hindlll foram posteriormente destruídos para criar YEpENO-BBHtemplate. YEpENOBBHtemplate foi usado como padrão de uma reação de PCR com iniciadores ENOBB-esquerdo (5'-GATCGGATCCCAATTAATGTGAGTTACCTCA-3') e ENOBB-direito (5'-GTACAAGCTTAGATCTCCTATGCGGTGTGAAATA-3') nos quais a cassete ENO1 foi amplificado em conjunto com uma região 150 bp que flanqueia a montante e 220bp a jusante. Este produto foi digerido com BamHI e Hindlll e suspenso preenchido pelo tratamento com o polimerase Klenow e

Petição 870180015372, de 26/02/2018, pág. 112/150

99/106 dNTPs e clonado entre dois sítios Pvull em yENO1 que efetivamente substituiu a cassete ENO1 original e gerou YEpENO-BBH..

[0221]lsto criou os plasmídios pRDH103 (com HgCbhT), pRDH104 (com TaCbhT), pRDH105 (com TeCbhT) e pRDH106 (com TeCbh2) com o Cbh codificando de genes colocados sob controle transcricional do promotor e terminador ENO1.

[0222]As sequências de T. reesei Cbh1 e Cbh2 foram do mesmo modo otimizadas pelo códon e clonadas no vetor YEpENO-BBH tal como descrito acima.

[0223]Um fragmento 1494bp codificando o gene de T. reesei Cbh2to\ amplificado do plasmídio pBZD_10631_20641, com iniciadores sCBH1/2-L (5’GACTGAATTCATAATGGTCTCCTTCACCTCC-3’) e sCBH2-R (5’CAGTCTCGAGTTACAAGAAAGATGGGTTAGC-3’), digerido com EcoRI e Xhol e clonado nos sítios EcoRI e Xhol de pJC1 (La Grange, D.C., et al Expression ofa Trichoderma reeseiβ-xylanase gene (XYN2) in Saccharomyces cerevisiae, Applied and Environmental Microbiology 62:1036- 1044 (1996); Crous et al. 1995; Current Genetics 28:467-473) colocando o mesmo sob controle transcricional de quinase de fosfoglicerato de S. cerevisiae 1 (PGK1) promotor genético e terminador. Este plasmídio foi denominado pRDH107. Posteriormente as cassetes de expressão de pRDH103, pRDH104 e pRDH105 foram extirpadas com BamHI e digestão Bglll e clonados no sítio BamHI de pRDH107 para produzir pRDH118, pRDH120, pRDH108 e pRDH109, respectivamente. O pRDH109 contém as mesmas cassetes de expressão que pRDH108 mas em pRDH108 as cassetes de expressão genéticas estão na orientação inversa um ao outro. Estes plasmídios e os seus genótipos básicos são resumidos na Tabela 5 abaixo:

Petição 870180015372, de 26/02/2018, pág. 113/150

100/106

TABELA 5. Os plasmídios usados neste exemplo.

[0224](ENO1 P/T = Enolase 1 promotor/terminador genético; PGK1P/T = quinase de fosfoglicerato 1 promotor genético & terminador; T.r. = Tríchoderma reesei; H.g. = Humicola grisea·, T.a. = Thermoascus aurantiacus·, T.e. = Talaromyces emersonii, BGL1 = glicosidase 1 de Saccharomycopsis fibuligera).

Cepa/Plasmídio	Genótipo	Fonte/Referência
Cepa de levedura: Saccharomyces	cerevisiae α leu2-3,112 ura3-52 his3 trp 1 -289	ATCC 201160
Y294 Plasmídios: pBKD1-BGLI	bla KanMX PGK1p-S.f. bgl1-PGK1y
pBKD2-sEGI	bla KanMX ENO1p-sT.r. eg1- ΕΝΟ1τ
pBKD1-BGLI-sEGI	bla KanMX ENO1p-sT.r. eg1- ΕΝΟ1τ
YEpENO-BBH	& PGK1p-S.f. bgl1- PGKh bla URA3 ENO1_PT
pJC1	bla URA3 PGK_PT	La grange et al.
pRDH103	bla URA3 ENO1p-sH.g.cbh1- ΕΝΟ1τ	(1996)
pRDH104	bla URA3 ENO1p-sT.a.cbh1- ΕΝΟ1τ
pRDH105	bla URA3 ENO1p-sT.e.cbh1- ΕΝΟ1τ
pRDH106	bla URA3 ENO1p-sT.e.cbh2- ΕΝΟ1τ
pRDH107	bla URA3 PGK1_P-sT.r.cbh2- PGK1t
pRDH108	bla URA3 PGK1_P-sT.r.cbh2- PGKh &
pRDH118	ENO1p-sT.e.cbh1 - ΕΝΟ1τ bla URA3 PGK1_P-sT.r.cbh2- PGKh &
pRDH120	ENO1p-sH.g.cbh1- ΕΝΟ1τ bla URA3 PGK1_P-sT.r.cbh2- PGKh &
ENO1p-sT.a.cbh1- ΕΝΟ1τ [0225]Posteriormente, estes constructos foram	utilizados para

transformar a Y294 da cepa de S. cerevisiae como listado acima. A cepa de Y294 transformada foi troanda autoseletiva pela ruptura do gene FUR1 (eventos de transformação & ruptura foram confirmados pela análise de PCR). Posteriormente esta cepa bem como uma cepa de referência e a cepa expressando o T. reesei Cbh1 (sequência de codificação original) foram analisadas para a atividade de Cbh com o protocolo de detecção de açúcar com reação de adsorção. O protocolo detalhado pode ser encontrado em Den Haan etal., “Functional expression of cellobiohydrolases in Saccharomyces cerevisiae

Petição 870180015372, de 26/02/2018, pág. 114/150

101/106 towards one-step conversion of cellulose to ethanol,” Enzyme Microb. Technol.

40: 1291-1299 (2007).

[0226]Os constructos de plasmídio contendo vários genes Cbh construídos são resumidos na Tabela 5, juntamente com dados sobre a posição da levedura transformante e auto-seletividade do mesmo (os eventos de transformação & ruptura foram confirmados pela análise de PCR). Um pouco desta cepa, em conjunto com uma cepa de referência, foi analisada para atividade Cbh com determinação do peso seco.

[0227]Como mostrado na Tabela 6, abaixo, o Humicola grisea Cbh1 sintético, Thermoascus aurantiacus Cbh1, Talaromyces emersonii Cbh 1 e Cbh2 produz atividades específicas mais altas do que Trichoderma reesei Cbh1, com T. emersonii Cbh1 que produz uma atividade específica aproximadamente dez vezes mais alta do que T. reesei Cbh1 quando Avicel é usado como um substrato celulósico. Isto é uma melhora significativa sobre a celulose anteriormente criada que degrada cepa de S. cerevisiae.

EXEMPLO 2: Clonagem de constructos de combinação Cbh e a sua expressão em Saccharomyces cerevisiae.

[0228]Os constructos de combinação adicionais e a realização de cepa são resumidos como se segue na Tabela 6.

[0229]Quatro constructos que combinam o H. grisea Cbh1 e T. aurantiacus Cbh1 com o T sintético reesei Cbh2 foram analisados. Isto foi feito para capitalizar uma maior atividade destes CbhTs em Avicel como foi encontrado antes. Os plasmídios com combinações de celulases foram construídos clonando a cassete genética relevante (ENOp-cbh-ENOt) do plasmídio baseado do YEp-ENO-BBH como um fragmento BamHI-Bglil no sítio BamHI único do plasmídio a base de pJC1.

Petição 870180015372, de 26/02/2018, pág. 115/150

102/106 [0230]0s testes foram conduzidos na cepa contendo os plasmídios pRDH118, pRDH119, pRDH120, pRDH121 em PASC e substratos celulósico Avicel. Os resultados de teste obtidos são dados na Tabela 6 abaixo:

TABELA 6. Os genes Cbh sintéticos clonaram-se em vetores de expressão de levedura, transformados para S. cerevisiae Y294 e analisados.

[0231](ENO1p/t = Enolase 1 promotor genético & terminador; PGK1p/t = quinase de fosfoglicerato 1 promotor & terminador genético; ADH2p/t = desidrogenase de Álcool 2 promotor genético & terminador; T.r. = Tríchoderma reeser, H.g. = Humicola grisea; T.a. = Thermoascus aurantiacus', T.e. =

Talaromyces emersonii)

Plasmídio	Cassetes de expressão	Transformado para Y294	FUR1 rompido	Atividade (PASC) (mU/gDCW)	Atividade (Avicel) (mU/gDCW)
yENO1	ENO1p/t	V	V	2,68±1,1	2,99±0,7
pDLG77	ADH2p/t-T.r.cbh1 ^aro = cassetes de expressão na orientação inversa (nativo)	V	V		8,8±2,4
pRDH101	ENO1p/t-sT.r.cbh 1	V	V	nc	6,5±1,4
pRDH103	ENO1 p/t -sH.g. cbh 1	V	V	32,82±6,5	34,85±2,0
pRDH104	ENO1p/t-sT.a.cbh 1	V	V	38,56±5,9	38,15±4,1
pRDH105	ENO1 p/t -s T. e. cbh 1	V	V	75,60±13,1	21,42±6,1
pRDH106	ENO1 p/t -s T. e. cbh2	V	V	27,48±10,0	14,09±4,3
pRDH107	PGK1p/t-sT.r.cbh2	V	V	82,73±3,3	33,8±3,3
pRDH108	PGK1p/t-sT.r.cbh2 & ENO1p/tsT.e.cbh1(ro)^a	V	V	174,35±6,5	40,5±4,9
pRDH109	PGK1p/t-sT.r.cbh2 & ENO1p/t-s T. e. cbh 1	V	V	180,09±4,9	67,3±4,2
pRDH110	PGK1p/t-sT.e.cbh2	V	V	11,43±2,0	13,6±4,6
pRDH111	PGK1p/t-sT.e.cbh2 & ENO1p/t-s T. e. cbh 1	V	nc	nc	nc
pRDH112	PGK1p/t-sT.e.cbh2 & ENO1p/tsT.e.cbhl (ro)	V	V	nc	35,99±5,4
pRDH117	ENO1p/t-sT.e.cbh1 & ENO1p/t-s T. e. cbh2	V	V	151,17±7,73	36,09±4,42
pRDH118	PGK1p/t-sT.r.cbh2 & ENO1 p/t -sH.g. cbh 1	V	V	nc	106,2±6,8
pRDH119	PGK1p/t-sT.r.cbh2 & ENO1p/tsH.g.cbhl(ro)	V	V	nc	92,0±2,9

Petição 870180015372, de 26/02/2018, pág. 116/150

103/106

pRDH120	PGK1p/t-sT.r.cbh2 & ENO1p/t-sT.a.cbh 1			nc	32,7±5,7
pRDH121	PGK1p/t-sT.r.cbh2 & ENO1p/tsT.a.cbhl(ro)	V	V	nc	46,5±4,5
pDLG116	ENO1p/t-XSsT.e.cbhl	V	V	nc	21,1±3,1
pDLG117 c	ENO1p/t-XS-CBMsT.e.cbhl			nc	50,4±22,4

^aro = cassetes de expressão na orientação inversa ^bnc = não completo ^c = N terminal anexou CBM de T. reesei Cbh2 (cel6A) [0232]A cepa expressando a combinação de T.r.Cbh2 sintético e T.e.Cbhl produziu níveis de atividade mais altos em PASC do que o medido para os genes individuais. A atividade pareceu ser adicional e não sinergística neste substrato e será interessante ver se uma maior sinergia é observada sobre um substrato cristalino. O Cbh1 de T. emersonii produziu um nível de 21,42±6,1 mü/gDCW em avicel.

[0233]A combinação do H. grisea Cbh1 e T. reesei Cbh2 com o Y294+pRDH118:: furi cepa, com Avicel como o substrato de celulósico, produziu 106,2±6,8 mü/gDCW.

[0234]A cepa de YBE equivalente que integrouos genes bgl1 e eg1 é analisada para o crescimento em substratos celulósicos.

Exemplo 3: Clonagem e expressão de constructos de fusão de T. emersonii Cbh1 e a sua expressão em Saccharomyces cerevisiae.

[0235]O Cbh1 de T. emersonii nativo não tem um módulo de ligação com celulose (CBM), contudo quando expressado em S. cerevisiae que ele mostrou uma melhor atividade específica.

[0236]Como descrito também abaixo, foi criado um constructo de fusão de CBM de T. reesei Cbh2e ligante ao T. emersonii Cbh1. No primeiro constructo a sequência de codificação para T. reesei Cbh2 do domínio de CBM foi fundido

Petição 870180015372, de 26/02/2018, pág. 117/150

104/106 no lado da terminação N do T. emersonii Cbh1 e o segundo constructo codificando o T. reesei Cbh1 DO CBM foi fundido ao lado da terminação C do T. emersonii Cbh1. Ambos destes constructos também contêm o T. reesei xyn2 sequência de sinal de secreção para direcionar o T. emersonii Cbh1 ao meio extracelular. Um terceiro constructo somente substitui o sinal de secreção nativo com o sinal de secreção T. reesei xyn2.

[0237]Uma cepa de S. cerevisiae Y294 FUR1 -suspensa foi transformada com os seguintes constructos: (1) pDLG117 (T. emersonii Cbh 1 com terminação N CBM [de T.r.Cbh2\, sinal de secreção de T.r.xyn2); (2) pDLG116 (T. emersonii Cbh1 com sinal de secreção T.r.xyn2); e (3) yENO1 (cepa de Controle Negativo).

[0238]O teste de detecção de açúcar pela reação de adsorção foi executado tal como descrito acima. Os resultados alcançados são apresentados na Figura 26. A atividade de Cbh do constructo de pDLG117 foi 51,2±6,6 mU/gDCW, já que o constructo de pDLG116 foi 17,3±1,4 mU/gDCW, e para o controle negativo yENO1 foi 3,6±0,1 mU/gDCW.

[0239]O anexo da terminação N CBM do T. emersonii Cbh1 não teve um efeito prejudicial sobre a secreção da proteína. O CBM também deixou melhor a adsorção do Cbh recombinante ao substrato avicel que levou a uma atividade melhor analisada. Além disso, como mostrado na Figura 27, o pDLG117 e os plasmídios pDLG116 não tiveram um efeito prejudicial sobre o crescimento da célula, como medido pelo peso de célula seco.

TABELA 7. Novas combinações de celulases de expressão em S. cerevisiae.

[0240](EN01 p/t = Enolase 1 promotor genético & terminador; PGK1 p/t = quinase de fosfoglicerato 1 promotor & terminador genético; s = sintético; Tr =

Trichoderma reeser, Te = Talaromyces emersonii·, NCBM = terminação N anexou

Petição 870180015372, de 26/02/2018, pág. 118/150

105/106 o carboidrato parte ligada na região ligante de sTrCbh2-, CCBM = terminação C anexou o carboidrato parte ligada na região ligante de sTrCbhl).

Nome do plasmídio	Cassete de expressão	Trasnformad o para S. cerevisiae Y294	FUR1 rompido	Transforma dopara S. cerevisia eYBE	FUR1 rompido
pRDH123	PGK1p/t-sTrcbh2 & ENO1p/t-NCBMsTecbhl	V	V	V	V
pRDH124	PGK1p/t-sTrcbh2 & ENO1p/t-NCBMsTecbhl [RO]*	V	V	V	V
pRDH125	PGK1p/t-sTrcbh2 & ENO1p/t-CCBMsTecbhl	V	V	V	V
pRDH126	PGK1p/t-sTrcbh2 & ENO1p/t-CCBMsTecbhl [RO]	V		V	V
pRDH127	PGK1p/t-CCBMsTecbhl	V	V
pRDH128	ENO1p/t-NCBMsTecbhl & PGK1p/t-CCBMsTecbhl	V	V	V	V
pRDH129	ENO1p/t-NCBMsTecbhl & PGK1p/t-CCBMsTecbhl [RO]	V	V	V	V

Petição 870180015372, de 26/02/2018, pág. 119/150 * As cassetes de expressão genéticas neste plasmídio estão na orientação inversa um ao outro.

[0241 ]Os constructos acima são usados para transformar S. cerevisiae Y294 e a cepa de YBE tal como descrito acima. A atividade de Cbh1 é medida segundo os testes descritos acima.

[0242]Estes exemplos ilustram modalidades possíveis da presente invenção. Embora a invenção tenha sidoi particularmente mostrada e descrita com referência a algumas modalidades da mesma, será entendido pelos versados na técnica que elas foram apresentadas somente como forma de exemplo, e não como limitação, e várias modificações na forma e nos detalhes podem ser feitas na mesma sem fugir do espírito e do alcance da invenção.

106/106

Assim, a amplitude e o alcance da presente invenção não devem ser limitados por nenhuma das modalidades acima mencionadas e descritas como forma de exemplo, mas devem ser definidos somente de acordo com as seguintes reivindicações e as suas equivalências.

[0243]Todos os documentos citados aqui, incluindo artigos de jornal ou resumos, as Publicações e os Pedidos correspondentes de Patentes, dos Estados Unidos ou estrangeiras, ou quaisquer outros documentos, são cada um inteiramente incorporados aqui pela referência, incluindo todos os dados, tabelas, figuras, e textos apresentados nos documentos citados.

Petição 870180015372, de 26/02/2018, pág. 120/150

1/2

Claims

REIVINDICAÇÕES

1. Polinucleotídeo CARACTERIZADO pelo fato de que o polinucleotídeo compreende nucleotídeos 1 a 1379 da SEQ ID N^s: 9.
2. Polinucleotídeo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o polinucleotídeo compreende nucleotídeos 19 a 1379 da SEQ ID N^s: 9.
3. Polinucleotídeo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o dito polinucleotídeo está operacionalmente associado com um ácido nucléico que codifica um peptídeo sinal de secreção.
4. Polinucleotídeo, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que o dito peptídeo sinal de secreção compreende aminoácidos 1 a 18 da SEQ ID N⁹: 13.
5. Polinucleotídeo, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que o dito peptídeo sinal de secreção compreende um sinal de secreção de xinalase de T. reesei (xyn2).
6. Polinucleotídeo, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que o sinal de secreção de xilanase do T. reesei corresponde ao sinal de secreção de xilanase da SEQ ID N⁹:19.
7. Polinucleotídeo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o dito polinucleotídeo está operacionalmente associado com um ácido nucléico heterólogo.
8. Polinucleotídeo, de acordo com a reivindicação 7, CARACTERIZADO pelo fato de que a dita sequência de ácido nucléico heteróloga é selecionada do grupo consistindo nas SEQ ID N⁹s: 1 a 6.
9. Polinucleotídeo, de acordo com a reivindicação 7, CARACTERIZADO pelo fato de que a dita sequência de ácido nucléico heteróloga é selecionada do grupo consistindo nas SEQ ID N⁹s: 7 a 10.
10. Polinucleotídeo, de acordo com a reivindicação 7, CARACTERIZADO

Petição 870180072141, de 17/08/2018, pág. 9/10 pelo fato de que a dita sequência de ácido nucléico heteróloga é módulo de ligação de celulose (CBM).

2/2

Petição 870180072141, de 17/08/2018, pág. 10/10 pRDHIOl (YEpENOBBH-sT.r.cbhl)

Bsi 1(6200)

SspI(6064)

Bsil (5893)

1/26 , Saci (151) 7ACC65I (153) II, Kpnl(IS7) Xmal(t57) . Smal(l59)

BamHI(3)

ScENOlt

SnaBI(51721

SspI(569)

EcoR((690) ----Nael (725)

Pv-vl (6500).

Sol <6WS) ·_λ '

Sc£NOlp

Hindflt (1483)

T. reesei cbhl sintético

Scal (1952)

7934bp

Nsil (4820)

Xho!(2307) —- M(ul(2500)

BsiEll (2524) pRDHIOl

YEpENO-BBH-sT.r.cbhl

Cadeia principal YEP352 ne :: 2u, b!a. ori <S URa3

SspI(5408) i I /

Ndel (4163)' / /

EcoRV (5895) ' /

Ncol (3874) ^! lí í

i, \ ’

V? StuI (3647) » \\' Apaí (3709) & ξ' Attt (3754) U 'Scal(377l) | l

' Swal (27171 EcoRV (2761) Eagl (2820) Notl (2820) \ UHW ' Nhel (2844) ü \i \ W Pvutl(Z94l)

I \ \ \ \' Pvul(2972) ' Narl(30ll) \ \' BgKI (3068) í ' Pvul (3109) ' Nai l (3148)

Accl (3249)

Nsil (3260)