ES2362273T3

ES2362273T3 - Método para la producción simultánea de múltiples proteínas; vectores y células para su uso en el mismo.

Info

Publication number: ES2362273T3
Application number: ES03733632T
Authority: ES
Inventors: Arie Pieter Otte; Arthur Leo Kruckeberg; Richard George Antonius Bernardus Sewalt
Original assignee: Chromagenics BV
Current assignee: Chromagenics BV
Priority date: 2002-06-14
Filing date: 2003-06-13
Publication date: 2011-06-30
Anticipated expiration: 2023-06-13
Also published as: US7960143B2; WO2003106684A2; CA2723500A1; US20080227151A1; US7901908B2; CA2723500C; US20080227199A1; CA2489475A1; US7364878B2; JP2010004886A; DE60336228D1; AU2003238719A1; CA2722998C; JP5095693B2; JP2010011859A; JP2005529610A; JP4647309B2; DK1513937T3; CA2722998A1; EP1513937A2

Abstract

Célula que comprende dos unidades de expresión de proteínas que codifican cada una para al menos una proteína de interés, caracterizada por que: una de dichas unidades de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en (a) SEQ ID: 7 en la figura 6; (b) una secuencia derivada de SEQ ID: 7 en la figura 6 mediante deleción, modificación y/o inserción de una base; y (c) un fragmento funcional de SEQ ID: 7 en la figura 6; y en la que la otra unidad de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en: (a) SEQ ID: 1-65 en la figura 6; (b) una secuencia derivada de SEQ ID: 1-65 en la figura 6 mediante deleción, modificación y/o inserción de una base; y (c) un fragmento funcional de SEQ ID: 1-65 en la figura 6.

Description

La invención se refiere a los campos de bioquímica, biología molecular, farmacología y diagnóstico. Más específicamente, la presente invención se refiere a la producción de proteínas en una célula hospedadora. Incluso más específicamente, la invención se refiere a un método para mejorar la expresión de dos o más proteínas en una célula (hospedadora). El método es adecuado para la producción de por ejemplo anticuerpos recombinantes que pueden usarse en una preparación farmacéutica o como herramienta de diagnóstico.

Se producen proteínas en sistemas para una amplia gama de aplicaciones en biología y biotecnología. Éstas incluyen investigación de la función celular y molecular, producción de proteínas como productos biofarmacéuticos o reactivos de diagnóstico, y modificación de los rasgos o fenotipos de ganado y cosechas. Los productos biofarmacéuticos son habitualmente proteínas que tienen una función extracelular, tales como anticuerpos para inmunoterapia u hormonas o citocinas para producir una respuesta celular. Las proteínas con funciones extracelulares salen de la célula a través de la ruta secretora, y experimentan modificaciones postraduccionales durante la secreción. Las modificaciones (principalmente glicosilación y formación de enlaces disulfuro) no se producen en bacterias. Además, los oligosacáridos específicos unidos a las proteínas mediante enzimas de glicosilación son específicos de especie y tipo celular. Estas consideraciones limitan a menudo la elección de células hospedadoras para la producción de proteínas heterólogas a células eucariotas (Kaufman, 2000). Para la expresión de proteínas terapéuticas humanas, células hospedadoras tales como bacterias, levaduras o plantas pueden ser inapropiadas. Incluso las diferencias sutiles en glicosilación de proteínas entre roedores y humanos, por ejemplo, puede ser suficiente para hacer que las proteínas producidas en células de roedor sean inaceptables para uso terapéutico (Sheeley et al., 1997). Las consecuencias de la glicosilación inapropiada (es decir, no humana) incluyen inmunogenicidad, reducción de la semivida funcional y pérdida de actividad. Esto limita la elección de las células hospedadoras adicionalmente a líneas celulares humanas o a líneas celulares tales como células de ovario de hámster chino (CHO), que pueden producir glicoproteínas con estructuras de hidratos de carbono de tipo humano (Liu, 1992).

Algunas proteínas de interés biotecnológico son funcionales como multímeros, es decir, consisten en dos o más cadenas polipeptídicas, posiblemente diferentes, en su forma biológica y/o biotecnológicamente activa. Los ejemplos incluyen anticuerpos (Wright y Morrison, 1997), proteínas morfogenéticas óseas (Groeneveld y Burger, 2000), receptores de hormonas nucleares (Aranda y Pascual, 2001), receptores de superficie celular heterodiméricos (por ejemplo, receptores de células T, (Chan y Mak, 1989)), integrinas (Hynes, 1999) y la familia de hormonas de glicoproteína (gonadotropina coriónica, hormona luteinizante hipofisaria, hormona foliculoestimulante y hormona estimulante del tiroides (Thotakura y Blithe, 1995)). La producción de tales proteínas multiméricas en sistemas heterólogos es técnicamente difícil debido a varias limitaciones de los sistemas de expresión actuales. Estas limitaciones incluyen (1) dificultades en el aislamiento de líneas celulares/células recombinantes que producen los polipéptidos de monómeros a altos niveles (previsibilidad y rendimiento) (2) dificultades para lograr la producción de los polipéptidos monoméricos en proporciones estequiométricamente equilibradas (Kaufman, 2000), y (3) disminuciones en los niveles de expresión durante el ciclo de producción industrial de las proteínas (estabilidad). Estos problemas se describen en más detalle a continuación.

(1) Es necesario producir en grandes cantidades proteínas recombinantes tales como anticuerpos que se usan como compuestos terapéuticos. Las células hospedadoras usadas para la producción de proteínas recombinantes deben ser compatibles con la escala de los procesos industriales que se emplean. Específicamente, es necesario que el sistema de expresión transgénica (o el gen que codifica para una proteína de interés, las dos expresiones se usan de manera intercambiable en el presente documento) usado para la proteína heteróloga sea retenido por las células hospedadoras en una forma estable y activa durante las fases de crecimiento del aumento a escala y producción. Esto se logra mediante la integración del transgén en el genoma de la célula huésped. Sin embargo, la creación de líneas celulares recombinantes por medios convencionales es un proceso costoso e ineficaz debido a la impredicibilidad de la expresión transgénica entre las células hospedadoras recombinantes. La impredicibilidad surge de la alta probabilidad de que el transgén se inactive debido a silenciamiento génico (McBurney et al., 2002). Usando tecnologías convencionales, la proporción de células hospedadoras recombinantes que producen un polipéptido a altos niveles oscila desde el 1-2%. Con el fin de construir una línea celular que produce dos polipéptidos a altos niveles, los dos transgenes están generalmente integrados de manera independiente. Si los dos transgenes se transfectan simultáneamente en dos plásmidos separados, la proporción de células que producirán ambos polipéptidos a altos niveles será el producto aritmético de las proporciones para transgenes individuales. Por tanto, la proporción de tales líneas celulares recombinantes oscila desde uno en 2.500 hasta uno en 10.000. Para proteínas multiméricas con tres o más subunidades, las proporciones disminuyen adicionalmente. Estas líneas celulares de alta producción deben identificarse y aislarse posteriormente del resto de la población. Los métodos requeridos para seleccionar estas líneas celulares de alta expresión raras son caros y consumen mucho tiempo.

Una alternativa a la transfección simultánea de dos plásmidos que portan un transgén es la transfección secuencial. En este caso, la proporción de clones de alto rendimiento será la suma de las proporciones para transgenes individuales, es decir, el 2-4%. Sin embargo, la transfección secuencial tiene desventajas (importantes), incluyendo

5

10

15

20

25

30

35

40

45

50

55

alto coste y escasa estabilidad. El alto coste resulta de diversos factores: en particular, el tiempo y los recursos requeridos para seleccionar líneas celulares de alta expresión se duplican, puesto que la alta expresión de cada subunidad debe seleccionarse por separado. La escasa estabilidad global de las células hospedadoras que expresan dos polipéptidos es una consecuencia de la inestabilidad inherente de cada uno de los dos transgenes.

(2): La producción de proteínas multiméricas requiere niveles equilibrados de expresión transcripcional y traduccional de cada uno de los monómeros de polipéptido. La expresión desequilibrada de los monómeros desperdicia los costosos recursos usados en el cultivo celular. Además, la expresión desequilibrada de un monómero puede tener efectos perjudiciales sobre la célula. Estos efectos incluyen (a) el secuestro de factores celulares requeridos para la secreción de las proteínas recombinantes (por ejemplo chaperonas en el retículo endoplasmático, (Chevet et al., 2001)), y (b) inducción de respuestas al estrés que dan como resultado tasas reducidas de crecimiento y traducción de proteínas, o incluso apoptosis (muerte celular programada) (Pahl y Baeuerle, 1997, Patil y Walter, 2001). Estos efectos perjudiciales conducen a pérdidas de productividad y rendimiento y a mayores costes indirectos.

(3): El silenciamiento de la expresión transgénica durante el cultivo prolongado de células hospedadoras es un fenómeno comúnmente observado. En células de vertebrados, puede producirse mediante la formación de heterocromatina en el locus del transgén, lo que impide la transcripción del transgén. El silenciamiento del transgén es estocástico; puede producirse poco después de la integración del transgén en el genoma, o sólo tras varias divisiones celulares. Esto da como resultado poblaciones celulares heterogéneas tras el cultivo prolongado, en el que algunas células continúan expresando altos niveles de proteína recombinante mientras que otras expresan niveles bajos o indetectables de la proteína (Martin y Whitelaw, 1996, McBurney et al., 2002). Una línea celular que se usa para la producción de proteínas heterólogas se deriva de una célula individual, aunque a menudo se aumenta a escala hasta, y se mantiene durante largos periodos a, densidades celulares superiores a diez millones de células por mililitro en cultivadores de 1.000 litros o más. Estas grandes poblaciones celulares (1014 -1016 células) son propensas a fuertes disminuciones en la productividad debido a silenciamiento del transgén (Migliaccio et al., 2000, Strutzenberger et al., 1999).

La inestabilidad de la expresión de células hospedadoras recombinantes es particularmente grave cuando se amplifican los números de copias del transgén en un intento por aumentar los rendimientos. La amplificación del transgén se logra incluyendo un gen marcador seleccionable tal como dihidrofolato reductasa (DHFR) con el transgén durante la integración. Concentraciones aumentadas del agente de selección (en el caso de DHFR, el fármaco metotrexato) seleccionan células que han amplificado el número de genes de DHFR en el cromosoma. Puesto que el transgén y DHFR se ubican conjuntamente en el cromosoma, el número de copias del transgén también aumenta. Esto se correlaciona con un aumento en el rendimiento de la proteína heteróloga (Kaufman, 1990). Sin embargo, las repeticiones en tándem de transgenes que resultan de amplificación son sumamente susceptibles a silenciamiento (Garrick et al., 1998, Kaufman, 1990, McBurney et al., 2002). El silenciamiento se debe a menudo a una disminución en el número de copias del transgén tras eliminarse el agente de selección (Kaufman, 1990). Sin embargo, la eliminación del agente de selección es rutinaria durante la producción biofarmacéutica industrial, por dos motivos. En primer lugar, el cultivo de células a escalas industriales en presencia de agentes de selección no es económicamente viable, ya que los agentes son compuestos caros. En segundo lugar, y de manera más importante, problemas de seguridad y pureza del producto descartan mantener la selección durante un ciclo de producción. La purificación de una proteína recombinante y la eliminación de todas las trazas del agente de selección son necesarias si la proteína está prevista para uso farmacéutico. Sin embargo, es técnicamente difícil y prohibitivamente caro hacer eso, y la demostración de que esto se ha logrado es también difícil y cara. Por tanto, los sistemas transgénicos basados en amplificación que requieren la presencia continua de agentes de selección son desventajosos.

Alternativamente, el silenciamiento puede deberse a efectos epigenéticos sobre las repeticiones en tándem del transgén, un fenómeno conocido como silenciamiento génico inducido por repeticiones (RIGS) (Whitelaw et al., 2001). En estos casos, el número de copias del transgén es estable, y el silenciamiento se produce debido a cambios en la estructura de la cromatina de los transgenes (McBurney et al., 2002). La presencia de un agente de selección durante el cultivo celular puede ser incapaz de prevenir el silenciamiento de la unidad de transcripción del transgén porque la expresión transgénica es independiente de la expresión del marcador seleccionable. La falta de un medio para prevenir el RIGS en sistemas transgénicos convencionales resulta por tanto en costosas pérdidas de productividad.

El documento US 6.194.212 se refiere al uso de regiones de unión al andamiaje (SAR) para aumentar la expresión génica en células. Se da a conocer un método para la expresión simultánea de dos genes, el gen RevM10 y el marcador de superficie Lyt-2, unidos mediante un IRES y flanqueados por regiones de unión al andamiaje (SAR).

El documento WO 97/27207 también describe métodos para aumentar la expresión de dos genes foráneos (NptII y GUS) en una célula flanqueando sus secuencias codificantes mediante una región de unión al andamiaje (en particular RB7 SAR).

El documento WO 00/09749 da a conocer construcciones para la expresión simultánea de neomicina fosfotransferasa (NPTII) y glucuronidasa (GUS) usando scs (estructura de cromatina especial) de Drosophilia

melanogaster.

Han et al. (Transgenic Research, Londres, vol. 6: 415-420, 1997) describen una construcción similar que expresa GUS y NPTII flanqueados por regiones de unión a la matriz (MAR).

Auten et al. (Human Gene Therapy, vol. 10(8): 1389-1399, 1999) describen la expresión simultánea de un receptor de factor de crecimiento nervioso humano truncado y dihidrofolato reductasa (DHFR) transformando células con una construcción en el que los genes que codifican para dichas proteínas están unidos mediante un sitio de entrada interna del ribosoma (IRES) y flanqueados por SAR.

Los problemas asociados con tecnologías de expresión transgénica convencionales para la producción de proteínas y más específicamente para la producción de proteínas multiméricas demuestran claramente una necesidad en la técnica de un sistema que supere estos problemas. La presente invención se refiere a un sistema novedoso para crear líneas celulares/células (hospedadoras) que expresen eficazmente dos o más proteínas, por ejemplo dos o más monómeros de polipéptido y produzcan opcionalmente proteínas multiméricas funcionales a partir de las mismas. Ejemplos importantes de proteínas de multímero heterólogas son anticuerpos recombinantes. En una realización, la invención aprovecha elementos de ADN patentados que protegen transgenes frente al silenciamiento, denominados elementos de antirrepresor de estabilización (STAR o STAR; los términos se usarán de manera intercambiable en el presente documento), para la producción de dos o más proteínas.

La invención también da a conocer una configuración novedosa de elementos transcripcionales y traduccionales y genes marcadores seleccionables. En una realización, la invención usa genes de resistencia a antibióticos y sitios de iniciación de la traducción de proteínas con eficacia de traducción reducida (por ejemplo, un sitio interno de unión al ribosoma, IRES) en formas novedosas que mejoran la expresión de proteínas heterólogas. La combinación de los elementos STAR y estos otros elementos da como resultado un sistema para obtener una célula que expresa dos o más proteínas que (1) produce de manera predecible una alta proporción de líneas celulares recombinantes con altos rendimientos de proteínas heterólogas, (2) presenta una expresión equilibrada y proporcional de dos o más monómeros de polipéptido que son constituyentes de una proteína multimérica, y (8) crea líneas celulares recombinantes con características de productividad estable.

Por tanto, la invención proporciona en una realización una célula que comprende dos unidades de expresión de proteínas que codifican cada una para al menos una proteína de interés, en la que una de dichas unidades de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en: (a) SEQ ID: 7 en la figura 6; (b) una secuencia derivada de SEQ ID: 7 en la figura 6 mediante deleción, modificación y/o inserción de una o más bases y (c) un fragmento funcional de SEQ ID: 7 en la figura 6; y en la que la otra unidad de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en (a) SEQ ID: 1-65 en la figura 6; (b) una secuencia derivada de SEQ ID: 1-65 en la figura 6 mediante deleción, modificación y/o inserción de una o más bases; y (c) un fragmento funcional de SEQ ID: 1-65 en la figura 6.

Las expresiones “célula”/“célula hospedadora” y “línea celular”/”línea celular hospedadora” se definen respectivamente de manera habitual como una célula eucariota y poblaciones homogéneas de las mismas que se mantienen en cultivo celular mediante métodos conocidos en la técnica, y que tienen la capacidad de expresar proteínas heterólogas.

El término “expresión” se usa normalmente para hacer referencia a la producción de un producto o productos de ARN específicos, o una proteína o proteínas específicas, en una célula. En el caso de los productos de ARN, se refiere al proceso de transcripción. En el caos de productos proteicos, se refiere a los procesos de transcripción, traducción y opcionalmente las modificaciones postraduccionales. En el caso de proteínas secretadas, se refiere a los procesos de la transcripción, traducción, y opcionalmente la modificación postransduccional (por ejemplo glicosilación, formación de enlace disulfuro, etc.); seguido por secreción. En el caso de proteínas multiméricas, incluye el ensamblaje de la estructura multimérica a partir de los monómeros del polipéptido. Los verbos correspondientes del sustantivo “expresión” tienen un significado análogo como dicho sustantivo.

Una proteína se define en el presente documento como que es o bien (i) un producto obtenido mediante los procesos de transcripción y traducción y posiblemente, pero no necesariamente, dicho producto es parte de una proteína multimérica (por ejemplo una subunidad) y/o bien (ii) un producto obtenido mediante los procesos de transcripción, traducción y modificación postraduccional. La expresión “multímero” o “proteína multimérica” se define normalmente como una proteína que comprende dos o más cadenas de polipéptido, posiblemente no idénticas, (“monómeros”). Los diferentes monómeros en una proteína multimérica pueden estar presentes en números estequiométricamente iguales o diferentes. En cada caso, la proporción de los monómeros está fijada habitualmente por la estructura funcional de la proteína multimérica.

La expresión “unidad de expresión de proteínas” se define en el presente documento como una unidad que puede proporcionar la expresión de proteínas y que comprende normalmente un promotor funcional, un marco de lectura abierto que codifica para proteína de interés y un terminador funcional, todo en una configuración operativa. Un promotor funcional es un promotor que puede iniciar la transcripción en una célula particular. Promotores adecuados para obtener la expresión en células eucariotas son el promotor de CMV, un promotor EF1-alfa de mamífero, un promotor de ubiquitina de mamífero, o un promotor de SV40. Un terminador funcional es un terminador que puede proporcionar la terminación de la transcripción. Un ejemplo de un terminador adecuado es un terminador de SV40. La expresión “un marco de lectura abierto que codifica para una proteína de interés (o un transgén)” se define normalmente como un fragmento de ADN que codifica para un producto o productos de ARN específicos o una proteína o proteínas específicas, y que opcionalmente pueden integrarse en el genoma de una célula hospedadora. Incluye elementos de ADN requeridos para la transcripción y traducción apropiadas de la(s) región/regiones codificante(s) del transgén. Dicho ADN que codifica para dicha proteína de interés/transgén puede o bien ser un ADN que codifica para un producto obtenido mediante los procesos de transcripción y traducción (y posiblemente, pero no necesariamente, dicho producto es parte de una proteína multimérica, por ejemplo una subunidad) o un producto obtenido mediante los procesos de transcripción, traducción y modificación postraduccional.

Las expresiones “célula/célula hospedadora recombinante” y “línea celular/línea celular hospedadora recombinante” normalmente se definen respectivamente como una célula hospedadora y poblaciones homogéneas de las mismas en las que se ha introducido un transgén para el fin de producir una proteína o proteínas heterólogas.

Una secuencia STAR (antirrepresor de estabilización) (o elemento STAR; las expresiones se usarán de manera intercambiable en el presente documento) es un elemento de ADN que se produce de manera natural que se ha aislado de genomas eucariotas basándose en su capacidad para bloquear la represión del transgén. Preferiblemente, los elementos STAR se recuperan del genoma humano. Una secuencia STAR comprende la capacidad para influir la transcripción de genes en cis y/o proporcionar un efecto estabilizador y/o potenciador. Se ha demostrado que cuando los elementos STAR flanquean los transgenes, puede aumentarse el nivel de expresión transgénica de líneas celulares recombinantes seleccionadas al azar hasta niveles que se aproximan a la máxima expresión posible del promotor del transgén. Además, el nivel de expresión transgénica es estable durante muchas generaciones celulares, y no manifiesta silenciamiento estocástico. Por tanto, las secuencias STAR confieren un grado de expresión independiente de la posición en los transgenes que no es posible con sistemas transgénicos convencionales. La independencia de la posición significa que los transgenes que se integran en ubicaciones genómicas que darían como resultado el silenciamiento del transgén se mantienen, con la protección de los elementos STAR, en un estado transcripcionalmente activo.

Las secuencias STAR pueden identificarse (tal como se da a conocer, por ejemplo, en ejemplo 1 del documento EP 01202581.3) usando un método de detección, y opcionalmente selección, de una secuencia de ADN con una cualidad para modular la transcripción génica, que comprende proporcionar un sistema de transcripción con una variedad de vectores que comprenden fragmentos, comprendiendo dichos vectores i) un elemento con una cualidad para reprimir la transcripción génica, y ii) un promotor que dirige la transcripción de un gen indicador, comprendiendo además el método realizar una etapa de selección en dicho sistema de transcripción con el fin de identificar dicha secuencia de ADN con dicha cualidad para modular la transcripción génica. Preferiblemente, dichos fragmentos se ubican entre i) dicho elemento con una cualidad para reprimir la transcripción génica, y ii) dicho promotor que dirige la transcripción de dicho gen indicador. La ARN polimerasa inicia el proceso de transcripción tras la unión a una secuencia específica, denominada el promotor, que señala dónde debe comenzar la síntesis del ARN. Una cualidad para modular puede potenciar la transcripción de dicho promotor en cis, en un tipo de célula dado y/o un promotor dado. La misma secuencia de ADN puede comprender una cualidad para potenciar en un tipo de célula o con un tipo de promotor, mientras que puede comprender otra o ninguna cualidad para modular la transcripción génica en otra célula o con otro tipo de promotor. La transcripción puede verse influida a través de un efecto directo del elemento regulador (o la(s) proteína(s) que se une(n) al mismo) sobre la transcripción de un promotor particular. Sin embargo, la transcripción también puede verse influida por un efecto indirecto, por ejemplo porque el elemento regulador afecta a la función de uno o más de otros elementos reguladores. Una cualidad para modular la transcripción génica también puede comprender una cualidad de transcripción génica estable. Con estable quiere decirse que el nivel de transcripción observado no cambia significativamente durante al menos 30 divisiones celulares. Una cualidad estable es útil en situaciones en las que las características de expresión deben poderse predecir durante muchas divisiones celulares. Ejemplos típicos son líneas celulares transfectadas con genes foráneos. Otros ejemplos son animales y plantas transgénicos y terapias génicas. Muy a menudo, los casetes de expresión introducidos funcionan de manera diferente tras números crecientes de divisiones celulares o generaciones de plantas o animales. Preferiblemente, una cualidad estable comprende una capacidad para mantener la transcripción génica en generaciones posteriores de una planta o animal transgénico. Por supuesto, en el caso de que la expresión sea inducible dicha cualidad comprende la cualidad para mantener la capacidad de inducción de la expresión en generaciones posteriores de una planta o animal transgénico. Frecuentemente, los niveles de expresión caen drásticamente con números crecientes de divisiones celulares. Con el método descrito en el presente documento para la identificación de una secuencia de ADN con una cualidad para modular la transcripción génica, es posible detectar y seleccionar opcionalmente una secuencia de ADN que puede al menos en parte impedir la caída drástica en los niveles de transcripción con números crecientes de divisiones celulares. Preferiblemente, dicha cualidad para modular la transcripción génica comprende una cualidad de transcripción génica estable. Sorprendentemente, pueden detectarse fragmentos que comprenden una secuencia de ADN con dicha cualidad de transcripción génica estable y seleccionarse opcionalmente con el método para la identificación de una secuencia de ADN con una cualidad para modular la transcripción génica, a pesar del hecho de que dicho método no mide necesariamente la estabilidad a largo plazo de la transcripción. Preferiblemente, dicha cualidad para modular la transcripción génica comprende una cualidad para potenciar la transcripción génica estable. Se ha observado que la incorporación de una secuencia de ADN con una cualidad para modular la transcripción génica en un vector de expresión con un gen de interés, da como resultado un nivel de transcripción superior de dicho gen de interés, tras la integración del vector de expresión en el genoma de una célula y además que dicho nivel de expresión génica superior también es más estable que en ausencia de dicha secuencia de ADN con una cualidad para modular la transcripción génica.

En los experimentos diseñados para introducir un gen de interés en el genoma de una célula y para obtener la expresión de dicho gen de interés, se ha observado lo siguiente. Si junto con dicho gen de interés también se introdujo una secuencia de ADN con una cualidad para modular la transcripción génica, podrían detectarse más clones que expresaban más de una determinada cantidad del producto génico de dicho gen de interés, que cuando no se introdujo dicha secuencia de ADN junto con dicho gen de interés. Por tanto, una secuencia de ADN identificada con una cualidad para modular la transcripción génica también proporciona un método para aumentar el número de células que expresan más de un determinado nivel de un producto génico de un gen de interés tras proporcionar dicho gen de interés al genoma de dichas células, que comprende proporcionar a dicha célula una secuencia de ADN que comprende una cualidad para modular la transcripción génica junto con dicho gen de interés.

Las posibilidades de detección de un fragmento con una cualidad para modular la transcripción génica varían con la fuente de la que se derivan los fragmentos. Normalmente, no existe ningún conocimiento anterior de la presencia o ausencia de fragmentos con dicha cualidad. En esas situaciones, muchos fragmentos no comprenderán una secuencia de ADN con una cualidad para modular la transcripción génica. En estas situaciones, se introduce una etapa de selección formal para detectar secuencias de ADN con dicha cualidad. Esto se realiza mediante vectores de selección que comprenden dicha secuencia basada en una característica de un producto de dicho gen indicador, que puede seleccionarse a favor o en contra. Por ejemplo, dicho producto génico puede inducir fluorescencia o un depósito de color (por ejemplo proteína verde fluorescente y derivados, luciferasa, o fosfatasa alcalina) o puede conferir resistencia a antibióticos o inducir apoptosis y muerte celular.

Un método para la identificación de una secuencia de ADN con una cualidad para modular la transcripción génica es particularmente adecuado para detectar y opcionalmente seleccionar una secuencia de ADN que comprende una cualidad para potenciar la transcripción génica. Se ha observado que al menos algunas de las secuencias de ADN seleccionadas, cuando se incorporan en un vector de expresión que comprende un gen de interés, pueden aumentar drásticamente la transcripción génica de dicho gen de interés en una célula hospedadora incluso cuando el vector no comprenda un elemento con una cualidad para reprimir la transcripción génica. Esta cualidad para potenciar la transcripción génica es muy útil en las líneas celulares transfectadas con genes foráneos o en animales y plantas transgénicos.

Dicho sistema de transcripción puede ser un sistema de transcripción in vitro sin células. Con la experiencia actual en automatización, tales sistemas sin células pueden ser precisos y rápidos. Sin embargo, dicho sistema de transcripción comprende preferiblemente células hospedadoras. El uso de células hospedadoras garantiza que los fragmentos se detecten y opcionalmente se seleccionen con actividad en células.

Un elemento con una cualidad para reprimir la transcripción génica reprimirá la transcripción de un promotor en el sistema de transcripción usado. Dicha represión no tiene que conducir a niveles de expresión no detectables. Es importante que la diferencia en los niveles de expresión en ausencia o presencia de represión sea detectable y opcionalmente seleccionable. Preferiblemente, dicha represión de la transcripción génica en dichos vectores da como resultado la cromatina represora de la expresión génica. Preferiblemente, pueden detectarse, y opcionalmente seleccionarse, secuencias de ADN que pueden al menos en parte contrarrestar la formación de cromatina represora de la transcripción génica. En un aspecto, una secuencia de ADN que puede al menos en parte contrarrestar la formación de cromatina represora de la transcripción génica comprende una cualidad de transcripción génica estable. Preferiblemente, la secuencia de ADN implicada en la represión de la transcripción génica es una secuencia de ADN que se reconoce por un complejo proteico y en la que dicho sistema de transcripción comprende dicho complejo. Preferiblemente dicho complejo comprende una proteína de unión a heterocromatina que comprende HP1, una proteína de grupo polycomb (Pc-G), una actividad histona desacetilasa o MeCP2 (proteína de unión a metil-CpG). Muchos organismos comprenden una o más de estas proteínas. Estas proteínas también presentan frecuentemente actividad en otras especies. Por tanto, dicho complejo también puede comprender proteínas de dos

o más especies. El conjunto mencionado de complejos proteicos asociados a cromatina conocidos puede conducir a represión de largo alcance a lo largo de muchos pares de bases. Los complejos también están implicados en la transferencia de manera estable del estado reprimido de los genes a las células hijas tras la división celular. Las secuencias seleccionadas de esta manera pueden conducir a la antirrepresión de largo alcance a lo largo de muchos pares de bases (van der Vlag et al., 2000).

El vector usado puede ser cualquier vector que es adecuado para clonar ADN y que puede usarse en un sistema de transcripción. Cuando se usan células hospedadoras se prefiere que el vector sea un vector de replicación episómica. De esta manera, se evitan los efectos debidos a los diferentes sitios de integración del vector. Los elementos de ADN que flanquean el vector en el sitio de integración pueden tener efectos a nivel de la transcripción del promotor e imitan de ese modo los efectos de fragmentos que comprenden secuencias de ADN con una cualidad para modular la transcripción génica. En una realización preferida, dicho vector comprende un origen de replicación del virus de Epstein-Barr (VEB), OriP, y un antígeno nuclear (EBNA-1). Tales vectores pueden replicarse en muchos tipos de células eucariotas y ensamblarse para dar cromatina en condiciones apropiadas.

Pueden obtenerse secuencias de ADN con cualidad para modular la transcripción génica de diferentes fuentes, por ejemplo de una planta o vertebrado, o derivados de los mismos, o una secuencia de ADN sintética o una construida mediante ingeniería genética. Preferiblemente, dicha secuencia de ADN comprende una secuencia tal como se representa en la tabla 3 y/o la figura 6 y/o un equivalente funcional y/o un fragmento funcional de la misma.

Están disponibles varios métodos en la técnica para extraer identificadores de secuencia de una familia de secuencias de ADN que comparten una determinada característica común. Tales identificadores de secuencia pueden usarse posteriormente para identificar secuencias que comparten uno o más identificadores. Las secuencias que comparten uno o más identificadores de este tipo son probablemente miembros de la misma familia de secuencias, es decir, probablemente comparten la característica común de la familia. En el presente documento, se usó gran número de secuencias que comprenden actividad de STAR (denominadas secuencias STAR o elementos STAR) para obtener identificadores de secuencia (patrones) que son característicos para secuencias que comprenden actividad de STAR. Estos patrones pueden usarse para determinar si es probable que una secuencia de prueba contenga actividad de STAR. Por tanto, en el presente documento se proporciona un método para detectar la presencia de una secuencia STAR dentro de una secuencia de ácido nucleico de aproximadamente 505000 pares de bases, que comprende determinar la frecuencia de aparición en dicha secuencia de al menos un patrón de secuencia y determinar que dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos una secuencia que comprende una secuencia STAR. En principio, cualquier método es adecuado para determinar si un patrón de secuencia es representativo de una secuencia STAR. En la técnica están disponibles muchos métodos diferentes. Preferiblemente, la etapa de determinar que dicha aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos una secuencia que comprende una secuencia STAR comprende, determinar que la frecuencia de aparición de dicho al menos un patrón de secuencia difiere significativamente entre dicha al menos una secuencia STAR y al menos una secuencia de control. En principio, cualquier diferencia significativa es discriminante de la presencia de una secuencia STAR. Sin embargo, en una realización particularmente preferida, la frecuencia de aparición de dicho al menos un patrón de secuencia es significativamente superior en dicha al menos una secuencia que comprende una secuencia STAR en comparación con dicha al menos una secuencia de control.

Tal como se describió anteriormente, en el presente documento se ha identificado un número considerable de secuencias que comprenden una secuencia STAR. Es posible usar estas secuencias para someter a prueba cómo de eficaz es un patrón en la discriminación entre una secuencia de control y una secuencia que comprende una secuencia STAR. Usando el denominado análisis discriminante es posible determinar basándose en cualquier conjunto de secuencias STAR en una especie, los patrones de secuencia discriminantes más óptimos o una combinación de los mismos. Por tanto, preferiblemente, al menos uno de dichos patrones se selecciona basándose en la discriminación óptima entre dicha al menos una secuencia que comprende una secuencia STAR y una secuencia de control.

Preferiblemente, se compara la frecuencia de aparición de un patrón de secuencia en un ácido nucleico de prueba con la frecuencia de aparición de una secuencia que se sabe que contiene una secuencia STAR. En este caso, un patrón se considera representativo de una secuencia que comprende una secuencia STAR si las frecuencias de aparición son similares. Incluso más preferiblemente, se usa otro criterio. Se compara la frecuencia de aparición de un patrón en una secuencia que comprende una secuencia STAR con la frecuencia de aparición de dicho patrón en una secuencia de control. Comparando las dos frecuencias es posible determinar para cada patrón así analizado, si la frecuencia en la secuencia que comprende la secuencia STAR es significativamente diferente de la secuencia de control. Entonces, se considera que un patrón de secuencia es representativo de una secuencia que comprende una secuencia STAR, si la frecuencia de aparición del patrón en al menos una secuencia que comprende una secuencia STAR es significativamente diferente de la frecuencia de aparición del mismo patrón en una secuencia de control. El uso de mayores números de secuencias que comprenden una secuencia STAR, aumenta el número de patrones para los que puede establecerse una diferencia estadística, ampliando así el número de patrones para los que la frecuencia de aparición es representativa de una secuencia que comprende una secuencia STAR. Preferiblemente, dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 2 secuencias que comprenden una secuencia STAR, más preferiblemente en al menos 5 secuencias que comprenden una secuencia STAR. Más preferiblemente en al menos 10 secuencias que comprenden una secuencia STAR. Más preferiblemente, dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 20 secuencias que comprenden una secuencia STAR. De manera particularmente preferida, dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 50 secuencias que comprenden un STAR

Los patrones que son indicativos de una secuencia que comprende una secuencia STAR también dependen del tipo de ácido nucleico de control usado. El tipo de secuencia de control usada se selecciona preferiblemente basándose en la secuencia en la que va a detectarse la presencia de una secuencia STAR. Preferiblemente, dicha secuencia de control comprende una secuencia al azar que comprende un contenido en AT/CG similar al de dicha al menos una secuencia que comprende una secuencia STAR. Incluso más preferiblemente, la secuencia de control se deriva de la misma especie que dicha secuencia que comprende dicha secuencia STAR. Por ejemplo, si se examina una secuencia de prueba para determinar la presencia de una secuencia STAR, activa en una célula de planta, entonces preferiblemente la secuencia de control también se deriva de una célula de planta. De manera similar, para someter a prueba para detectar la actividad de STAR en una célula humana, el ácido nucleico de control también se deriva preferiblemente de un genoma humano. Preferiblemente, la secuencia de control comprende entre el 50% y el 150% de las bases de dicha al menos una secuencia que comprende una secuencia STAR. De manera particularmente preferida, dicha secuencia de control comprende entre el 90% y el 110% de las bases de dicha al menos una secuencia que comprende una secuencia STAR. Más preferiblemente, entre el 95% y el 105%.

Un patrón puede comprender cualquier número de bases superior a dos. Preferiblemente, al menos un patrón de secuencia comprende al menos 5, más preferiblemente al menos 6 bases. Incluso más preferiblemente, al menos un patrón de secuencia comprende al menos 8 bases. Preferiblemente, dicho al menos un patrón de secuencia comprende un patrón indicado en la tabla 4 y/o tabla 5. Un patrón puede consistir en una lista consecutiva de bases. Sin embargo, el patrón también puede comprender bases que se interrumpen una o más veces por un número de bases que no son discriminantes o son sólo parcialmente discriminantes. Una base parcialmente discriminante se indica por ejemplo como purina.

Preferiblemente, la presencia de actividad de STAR se verifica usando un ensayo funcional. En el presente documento se presentan varios métodos para determinar si una secuencia comprende actividad de STAR. La actividad de STAR se confirma si la secuencia puede realizar al menos una de las siguientes funciones: (i) inhibir al menos en parte el efecto de la secuencia que comprende un elemento represor de la transcripción génica de la invención, (ii) bloquear al menos en parte la represión asociada a cromatina, (iii) bloquear al menos en parte la actividad de un potenciador, (iv) conferir a un ácido nucleico unido operativamente que codifica para una unidad de transcripción en comparación con el mismo ácido nucleico solo (iv-a) una previsibilidad de transcripción superior, (ivb) una transcripción superior, y/o (iv-c) una estabilidad de transcripción superior en el tiempo.

El gran número de secuencias que comprenden actividad de STAR identificadas en el presente documento abre una amplia variedad de posibilidades para generar e identificar secuencias que comprenden la misma clase de actividad pero no necesariamente la misma cantidad. Por ejemplo, queda dentro del alcance del experto alterar las secuencias identificadas en el presente documento y someter a prueba la secuencia alterada para detectar actividad de STAR. Por tanto, tales secuencias alteradas también se incluyen en el presente documento y pueden usarse en el método para obtener una célula que expresa dos o más proteínas o en un método para identificar una célula en la que la expresión de dos o más proteínas está en una proporción predeterminada. La alteración puede incluir deleción, inserción y mutación de una o más bases en las secuencias.

Se identificaron secuencias que comprendían actividad de STAR en tramos de 400 bases. Sin embargo, se espera que no se requieran todas las 400 bases para retener la actividad de STAR. Se conocen bien métodos para delimitar las secuencias que confieren una determinada propiedad a un fragmento de entre 400 y 5000 bases. Se estima que la longitud de secuencia mínima de un fragmento que comprende actividad de STAR es de aproximadamente 50 bases.

La tabla 4 y tabla 5 indican patrones de 6 bases que se ha encontrado que están sobrerrepresentados en moléculas de ácido nucleico que comprenden actividad de STAR. Se considera que esta sobrerrepresentación es representativa de una secuencia STAR. Las tablas se generaron para una familia de 65 secuencias STAR. Pueden generarse tablas similares partiendo de un conjunto diferente de secuencias STAR, o de un conjunto más pequeño o más grande de secuencias STAR. Un patrón es representativo de una secuencia STAR si está sobrerrepresentado en dicha secuencia STAR en comparación con una secuencia que no comprende un elemento STAR. Esto puede ser una secuencia al azar. Sin embargo, para excluir un sesgo no relevante, la secuencia que comprende una secuencia STAR se compara preferiblemente con un genoma o una parte significativa del mismo. Preferiblemente, un genoma de un vertebrado o una planta, más preferiblemente un genoma humano. Una parte significativa de un genoma es, por ejemplo, un cromosoma. Preferiblemente se derivan la secuencia que comprende una secuencia STAR y dicha secuencia de control de un ácido nucleico de la misma especie.

Cuantas más secuencias STAR se usen para la determinación de la frecuencia de aparición de patrones de secuencia, más representativos serán los patrones para STAR que están sobre o subrepresentados. Considerando que muchas de las características funcionales que pueden mostrarse mediante ácidos nucleicos, se median mediante moléculas proteicas que se unen al mismo, se prefiere que el patrón representativo esté sobrerrepresentado en las secuencias STAR. Tal patrón sobrerrepresentado puede ser, parte de, un sitio de unión para una molécula proteica de este tipo. Preferiblemente dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 2 secuencias que comprenden una secuencia STAR, más preferiblemente en al menos 5 secuencias que comprenden una secuencia STAR. Más preferiblemente en al menos 10 secuencias que comprenden una secuencia STAR. Más preferiblemente, dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 20 secuencias que comprenden una secuencia STAR. De manera particularmente preferida, dicha frecuencia de aparición es representativa de la frecuencia de aparición de dicho al menos un patrón de secuencia en al menos 50 secuencias que comprenden un STAR. Preferiblemente, dichas secuencias que comprenden una secuencia STAR comprenden al menos una de las secuencias representadas en la figura 6. La actividad de STAR es una característica compartida por las secuencias indicadas en la figura 6. Sin embargo, esto no significa que todas deban compartir la misma secuencia identificadora. Es muy posible que existan diferentes identificadores. Los identificadores pueden conferir esta característica común a un fragmento que lo contiene, aunque esto no es necesariamente así.

Usando más secuencias que comprenden actividad de STAR para determinar la frecuencia de aparición de un patrón o patrones de secuencia, es posible seleccionar patrones que están presentes o ausentes más a menudo que otros en una secuencia STAR de este tipo. De esta manera, es posible encontrar patrones que estén sobre o subrepresentados muy frecuentemente en las secuencias STAR. Es más probable que los patrones frecuentemente sobre o subrepresentados identifiquen secuencias STAR candidatas en conjuntos de prueba. Otra forma de usar un conjunto de patrones sobre o subrepresentados es determinar qué patrón o combinación de patrones se adecua mejor para identificar un STAR en una secuencia. Usando la denominada estadística discriminante, se ha identificado un conjunto de patrones que realizan mejor la identificación de una secuencia que comprende un elemento STAR. Preferiblemente, al menos uno de dichos patrones de secuencia para detectar una secuencia STAR comprende un patrón de secuencia GGACCC, CCCTGC, AAGCCC, CCCCCA y/o AGCACC. Preferiblemente, al menos uno de dichos patrones de secuencia para detectar una secuencia STAR comprende un patrón de secuencia CCCN{16}AGC, GGCN{9}GAC, CACN{13}AGG, y/o CTGN{4}GCC.

También puede usarse una lista de secuencias STAR para determinar una o más secuencias consenso en las mismas. Por tanto, en el presente documento también se proporciona una secuencia consenso para un elemento STAR. Esta secuencia consenso, por supuesto, puede usarse para identificar elementos STAR candidatos en una secuencia de prueba.

Además, una vez identificada una secuencia que comprende un elemento STAR en un vertebrado, puede usarse mediante homología de secuencia para identificar secuencias que comprenden un elemento STAR en otras especies que pertenecen a los vertebrados. Preferiblemente, se usa una secuencia STAR de mamífero para detectar secuencias STAR en otras especies de mamíferos. De manera similar, una vez identificada una secuencia STAR en una especie de planta, puede usarse para detectar secuencias homólogas con función similar en otras especies de plantas. Por tanto, se proporcionan secuencias STAR que pueden obtenerse mediante un método tal como se describe en el presente documento. Además se proporciona una colección de secuencias STAR. Preferiblemente dicha secuencia STAR es una secuencia STAR de vertebrado o planta. Más preferiblemente, dicha secuencia STAR es una secuencia STAR de mamífero o una angiosperma (monocotiledónea, tal como el arroz o dicotiledónea, tal como Arabidopsis). Más preferiblemente, dicha secuencia STAR es una secuencia STAR de primate y/o de ser humano.

Puede usarse una lista de secuencias que comprenden actividad de STAR para determinar si una secuencia de prueba comprende un elemento STAR. Tal como se mencionó anteriormente, existen diferentes métodos para usar una lista de este tipo para este fin. Preferiblemente, se proporciona un método para determinar si una secuencia de ácido nucleico de aproximadamente 50-5000 pares de bases comprende una secuencia STAR, comprendiendo dicho método, generar una primera tabla de patrones de secuencia que comprende la frecuencia de aparición de dichos patrones en una colección de secuencias STAR de la invención, generar una segunda tabla de dichos patrones que comprende la frecuencia de aparición de dichos patrones en al menos una secuencia de referencia, seleccionar al menos un patrón del cual dicha frecuencia de aparición difiere entre dos tabla, determinar, dentro de dicha secuencia de ácido nucleico de aproximadamente 50-5000 pares de bases, la frecuencia de aparición de al menos uno de dichos patrones seleccionados, y determinar si la aparición de dicho ácido nucleico de prueba es representativa de la aparición de dicho patrón seleccionado en dicha colección de secuencias STAR. Alternativamente, dicha determinación comprende determinar si la frecuencia de aparición en dicho ácido nucleico de prueba es representativa de la frecuencia de aparición de dicho patrón seleccionado en dicha colección de secuencias STAR. Preferiblemente dicho método comprende además determinar si dicho STAR candidato comprende una cualidad para modular la transcripción génica usando un método descrito en el presente documento. Preferiblemente, dichas colecciones de STAR comprenden secuencias tal como se representan en la figura 6.

Ahora se dan a conocer múltiples métodos para obtener una secuencia STAR, queda claro que también se proporciona una secuencia de ácido nucleico aislado y/o recombinante que comprende una secuencia STAR mediante un método tal como se describe en el presente documento.

Una secuencia STAR puede ejercer su actividad de forma direccional, es decir más hacia un lado del fragmento que la contiene que el otro. Además, la actividad de STAR puede amplificarse en cantidad multiplicado el número de elementos STAR. Esto último sugiere que un elemento STAR puede comprender uno o más elementos que comprenden actividad de STAR. Otra forma de identificar una secuencia que puede conferir actividad de STAR en un fragmento que la contiene comprende seleccionar de una secuencia de vertebrado o planta, una secuencia que comprende actividad de STAR, e identificar si las secuencias que flanquean la secuencia seleccionada se conservan en otras especies. Es probable que tales secuencias de flanqueo conservadas sean secuencias funcionales. Un método de este tipo para identificar una secuencia que comprende un elemento STAR, que comprende seleccionar una secuencia de aproximadamente 50 a 5000 pares de bases de una especie de vertebrado o planta que comprende un elemento STAR e identificar si las secuencias que flanquean dicha secuencia seleccionada en dichas especies se conservan en al menos otra especie. Además se proporciona un método para detectar la presencia de una secuencia STAR dentro de una secuencia de ácido nucleico de aproximadamente 50-5000 pares de bases, que comprende identificar una secuencia que comprende una secuencia STAR en una parte de un cromosoma de una célula de una especie y detectar homología significativa entre dicha secuencia y una secuencia de un cromosoma de una especie diferente. Por tanto, se identifica el STAR en dicha especie diferente. Preferiblemente, dicha especie comprende una especie de planta o vertebrado, preferiblemente una especie de mamífero. También se proporciona un método para detectar la presencia de un elemento STAR dentro de una secuencia de ácido nucleico de aproximadamente 50-5000 pares de bases de una especie de vertebrado o planta, que comprende identificar si una secuencia de flanqueo de dicha secuencia de ácido nucleico se conserva en al menos otra especie.

Es importante de observar que los métodos dados a conocer en el presente documento para detectar la presencia de una secuencia que comprende una secuencia STAR usando información bioinformática son de naturaleza iterativa. Cuantas más secuencias que comprenden una secuencia STAR se identifiquen con un método tal como se describe en el presente documento, se encontrarán más patrones que son discriminantes entre una secuencia que comprende una secuencia STAR y una secuencia de control. Usando estos patrones discriminantes recién encontrados pueden identificarse más secuencias que comprenden una secuencia STAR lo que a su vez amplía el conjunto de patrones que pueden discriminar, etcétera. Este aspecto iterativo es un aspecto importante de los métodos proporcionados en el presente documento.

El término cualidad en relación con una secuencia se refiere a una actividad de dicha secuencia. La expresión STAR, secuencia STAR o elemento STAR, tal como se usa en el presente documento, se refiere a una secuencia de ADN que comprende una o más de las cualidades para modular la transcripción génica mencionadas. La expresión “secuencia de ADN” tal como se usa en el presente documento, a menos que se especifique de otro modo, no se refiere a una lista de ordenación de bases específica sino más bien a una parte física de ADN. Una cualidad de transcripción con referencia a una secuencia de ADN se refiere a un efecto que tiene dicha secuencia de ADN sobre la transcripción de un gen de interés. “Cualidad” tal como se usa en el presente documento se refiere a propiedades

o atributos detectables de un ácido nucleico o una proteína en un sistema de transcripción.

La presente invención proporciona, entre otros, una célula que expresa dos o más proteínas, un método para expresar dos o más proteínas de interés y una unidad de expresión de proteínas. Queda claro que en todas estas realizaciones pueden usarse las secuencias STAR que pueden obtenerse descritas anteriormente. Por ejemplo, una secuencia STAR de la figura 6, tabla 3, tabla 4, tabla 5 o combinaciones de las mismas. Más preferiblemente, dicha secuencia STAR es una secuencia STAR de vertebrado o una secuencia STAR de planta. Incluso más preferiblemente, dicha secuencia STAR de vertebrado es una secuencia STAR humana. Se prefiere adicionalmente usar una secuencia STAR de una especie de la que expresa un gen de interés. Por ejemplo, cuando se desea expresar dos o más proteínas y una de las proteínas es una proteína humana, preferiblemente se incluye una secuencia STAR humana para la expresión de dicha proteína humana.

Tal como se explicó anteriormente, los elementos STAR que flanquean una unidad de expresión son la base de la expresión estable de los transgenes monoméricos a lo largo de muchas generaciones celulares. Se ha demostrado que los elementos STAR pueden proteger transgenes individuales frente al silenciamiento. En la presente invención, esta capacidad se extiende a más de una unidad de expresión introducida (preferentemente) de manera independiente en una célula hospedadora recombinante. Las unidades de expresión que no están flanqueadas por elementos STAR pueden experimentar un silenciamiento significativo tras sólo 5-10 pases de cultivo, tiempo durante el cual el silenciamiento de las unidades protegidas con STAR es insignificante.

Son múltiples las ventajas de una célula que expresa dos o más proteínas, que comprenden dos o más unidades de expresión de proteínas que codifican para dichas dos o más proteínas, caracterizadas porque al menos dos de dichas unidades de expresión de proteínas comprenden al menos una secuencia STAR.

La presente invención usa secuencias STAR para la producción de dos o más proteínas y de ese modo la invención proporciona (1) un aumento de la previsibilidad en la creación de líneas celulares recombinantes que producen de manera eficaz las proteínas multiméricas heterólogas de interés, (2) un aumento del rendimiento de las proteínas multiméricas heterólogas, (3) expresión estable de las proteínas multiméricas heterólogas, incluso durante el cultivo prolongado en ausencia del agente de selección y (4) la invención también proporciona características de expresión transgénica favorables sin amplificación del transgén. El aumento del rendimiento de las proteínas heterólogas proporcionado por la invención puede obtenerse a bajos números de copia del transgén, sin coamplificación selectiva usando, por ejemplo, el sistema DHFR/metotrexato. Esto da como resultado mayor estabilidad, dado que el número de copias del transgén es bajo y no es sensible a la disminución debido a la recombinación (McBurney et al., 2002) o silenciamiento génico inducido por repeticiones (Garrick et al., 1998). En quinto lugar, la amplia aplicabilidad del método de la invención incluye su utilidad en un amplio intervalo de líneas celulares hospedadoras. Esto es útil/deseable, por ejemplo, cuando una proteína multimérica particular se expresa preferiblemente mediante una línea celular hospedadora particular (por ejemplo, expresión de anticuerpos de líneas celulares hospedadoras derivadas de linfocitos).

La selección de células que expresan dichas dos o más proteínas puede obtenerse, por ejemplo, realizando un análisis de SDS-PAGE, un análisis de inmunotransferencia de tipo Western o un ELISA, todas las cuales son técnicas conocidas por un experto en la técnica y por tanto no necesitan descripción adicional. La identificación de células que expresan dichas dos o más proteínas en dicha proporción predeterminada también puede realizarse mediante estas técnicas.

La presencia de una secuencia STAR en al menos dos de dichas unidades de expresión de proteínas, de nuevo, proporciona previsibilidad, rendimiento, estabilidad y disponibilidad estequiométricamente equilibrada deseados de las dos o más proteínas.

Especialmente, cuando se producen polipéptidos de una proteína multimérica según un método de la invención es deseable proporcionar los monómeros/subunidades requeridos en una proporción que es relevante para la formación de dicha proteína multimérica. Por tanto, se producen preferiblemente dichos monómeros/subunidades en una proporción equilibrada biológica relevante. Si, por ejemplo, una proteína multimérica consiste en dos unidades A y 1 subunidad B, se desea producir dos subunidades A por cada subunidad de B que se produce. Por tanto, una proporción predeterminada se define en el presente documento como la proporción que se produce de manera natural (estequiometría) de las diferentes subunidades/monómeros/polipéptidos que comprenden una proteína multimérica.

En una realización más preferida una célula según la invención expresa dos proteínas. Por ejemplo, dos proteínas que juntas proporcionan un efecto terapéuticamente ventajoso. En una realización incluso más preferida, la proporción predeterminada de las dos proteínas expresadas es de 1:1. Esto es útil, por ejemplo, en la producción de proteínas multiméricas en las que los monómeros están en una proporción de 1:1. Ejemplos típicos son anticuerpos que comprenden dos cadenas pesadas y dos cadenas ligeras.

Preferiblemente, la invención proporciona una célula, en la que dichas dos o más unidades de expresión de proteínas codifican adicionalmente para al menos dos marcadores de selección diferentes, y seleccionándose la célula mediante un método que comprende un examen con marcador de selección de dos etapas de dicha célula, seleccionándose dicha célula en una primera etapa basándose en la presencia de un primer marcador de selección y en una segunda etapa basándose en la presencia de un segundo marcador de selección.

En esta realización de la invención, se usa una selección de antibióticos de dos fases cuyo régimen da como resultado una alta proporción de aislados que expresan, por ejemplo, transgenes 1 y 2 en niveles altos; la primera fase de selección elimina células que no contienen la unidad o las unidades de expresión, y la segunda fase de selección elimina colonias que no transcriben ambos ARNm bicistrónicos en niveles altos. Este régimen es uno de los aspectos para el aumento de la frecuencia de líneas celulares recombinantes que expresan multímero logradas mediante la invención en comparación a los métodos convencionales. Tal como se describe en el presente documento, se da como resultado un aumento de la frecuencia de líneas expresoras en más de diez veces.

En otra realización la invención proporciona una célula en la que al menos una de dichas unidades de expresión de proteínas comprende un gen monocistrónico que comprende un marco de lectura abierto que codifica para una proteína de interés y en la que dicho gen monocistrónico está bajo el control de un promotor funcional.

Aún en otra realización, la invención proporciona una célula según la invención, en la que al menos una de dichas unidades de expresión de proteínas comprende un gen bicistrónico que comprende un marco de lectura abierto que codifica para una proteína de interés, un sitio de iniciación de traducción de proteínas con una eficacia de traducción reducida, un marcador de selección y en la que dicho gen bicistrónico está bajo el control de un promotor funcional.

En una realización más preferida, la invención proporciona una célula según la invención, en la que al menos una de dichas unidades de expresión de proteínas comprende un gen bicistrónico que comprende un marco de lectura abierto que codifica para una proteína de interés, un sitio de iniciación de traducción de proteínas con un eficacia de traducción reducida, un marcador de selección y en la que dicho gen bicistrónico está bajo el control de un promotor funcional, unidad de expresión de proteínas que además comprende un gen monocistrónico que comprende un marco de lectura abierto que codifica para un segundo marcador de selección y en la que dicho gen monocistrónico está bajo el control de un promotor funcional.

La expresión “gen bicistrónico” se define normalmente como un gen que puede proporcionar una molécula de ARN que codifica para dos proteínas/polipéptidos.

La expresión “gen monocistrónico” se define normalmente como un gen que puede proporcionar una molécula de ARN que codifica para una proteína/polipéptido.

La expresión “marcador de selección o marcador seleccionable” se usa normalmente para hacer referencia a un gen y/o una proteína cuya presencia puede detectarse directa o indirectamente en una célula, por ejemplo un gen y/o una proteína que inactiva un agente de selección y protege la célula hospedadora frente a los efectos inhibidores del crecimiento o letales del agente (por ejemplo, un gen y/o una proteína de resistencia a antibiótico). Otra posibilidad es que dicho marcador de selección induce fluorescencia o un depósito de color (por ejemplo, proteína verde fluorescente y derivados, luciferasa, o fosfatasa alcalina).

La expresión “agente de selección” se define normalmente como un compuesto químico que puede destruir o retardar el crecimiento de las células hospedadoras (por ejemplo, un antibiótico).

El término “selección” se define normalmente como el procedimiento de usar un marcador de selección/marcador seleccionable y un agente de selección para identificar células hospedadoras con propiedades genéticas específicas (por ejemplo que la célula hospedadora contenga un transgén integrado en su genoma).

Los términos “clon” y “aislado” se refieren normalmente a una línea celular hospedadora recombinante que se ha identificado y aislado por medio de la selección.

Las mejoras proporcionadas por un método según la invención tienen tres aspectos integrados. (1) Con sistemas existentes, sólo pueden crearse líneas celulares recombinantes, que expresan simultáneamente cantidades aceptables de los monómeros de proteínas multiméricas, a muy bajas frecuencias; la presente invención aumenta la previsibilidad de la creación de líneas celulares hospedadoras recombinantes de alto rendimiento en un factor de diez o más. (2) Los sistemas existentes no proporcionan cantidades proporcionadas y estequiométricamente equilibradas de las subunidades de proteínas multiméricas; la presente invención garantiza que los niveles de expresión de las subunidades estarán equilibrados y serán proporcionales. (3) Los sistemas existentes no proporcionan un medio de protección de los transgenes que codifican para las subunidades de proteína frente al silenciamiento del transgén.

La figura 1 proporciona una representación esquemática, no limitativa, de una de las realizaciones de esta parte de la invención. La figura 1A y la figura 1B muestran dos unidades de expresión de proteínas separadas. Esta es la configuración de los elementos de ADN de las unidades de expresión en el plásmido así como tras la integración en el genoma. La primera unidad de expresión se muestra en la figura 1A. Contiene un marco de lectura abierto para un transgén (un gen indicador o una subunidad 1 de una (subunidad de transgén 1, TG S1) multimérica). Esto está en el sentido de 5’ del IRES de EMCV atenuado, y del marco de lectura abierto que codifica para la proteína de marcador seleccionable de resistencia a zeocina (zeo). Este transgén bicistrónico se transcribe a niveles altos a partir del promotor de CMV. A continuación de esto, está el marcador seleccionable de resistencia a neomicina (neo; también confiere resistencia al antibiótico G418), transcrito como un ARNm monocistrónico a partir del promotor de SV40. Estos dos genes están flanqueados por elementos STAR. En la figura 1B se representa una unidad de expresión similar. Consiste en un segundo transgén (un segundo gen indicador o el marco de lectura abierto para la subunidad 2 de una proteína heterodimérica (TG S2)) en el sentido de 5’ del IRES del EMCV atenuado y el marco de lectura abierto de marcador seleccionable de blasticidina (bsd). Este transgén bicistrónico se transcribe a altos niveles a partir el promotor de CMV. A continuación de esto, está el marcador seleccionable neo, transcrito como un ARNm monocistrónico a partir del promotor de SV40. Los dos genes en la segunda unidad de expresión también están flanqueados por elementos STAR.

Queda claro para un experto en la técnica que las posibles combinaciones de marcadores de selección son numerosas. Anteriormente se proporcionaron ejemplos de posibles combinaciones de antibióticos. El antibiótico que es particularmente ventajoso es zeocina, porque la proteína de resistencia a zeocina (zeocina-R) actúa uniéndose al fármaco y convirtiéndolo en inocuo. Por tanto, es fácil valorar la cantidad de fármaco que destruye las células con bajos niveles de expresión de zeocina-R, mientras que se permite que sobrevivan las expresoras altas. Todas las demás proteínas de resistencia a antibióticos de uso común son enzimas, y por tanto, actúan de manera catalítica (no 1:1 con respecto al fármaco). Por tanto, cuando se realiza una selección de dos etapas es ventajoso usar una proteína de resistencia a antibiótico con este modo de acción de unión 1:1. Por tanto, el antibiótico zeocina es un marcador de selección preferido. Por motivos de conveniencia, el antibiótico zeocina se combina en un método de selección de dos etapas con puromicina-R o blasticidina-R en el segundo gen bicistrónico, y neomicina-R o higromicina-R en el gen monocistrónico.

Además queda claro que también es posible combinar un marcador de selección antibiótico con un marcador de selección que proporciona inducción de la fluorescencia o que proporciona un depósito de color.

También queda claro para el experto en la técnica que pueden usarse diferentes promotores siempre que sean funcionales en la célula usada. El promotor de CMV se considera el más fuerte disponible, de modo que se elige preferiblemente para el gen bicistrónico con el fin de obtener el rendimiento de producto más alto posible. Otros ejemplos de promotores adecuados son, por ejemplo, promotores de mamífero para EF1-alfa o ubiquitina. La buena expresión y la estabilidad del promotor de SV40 lo hace adecuado para la expresión del gen monocistrónico; se produce suficiente proteína de marcador de selección (por ejemplo la proteína de resistencia a antibióticos neomicina-R en el ejemplo citado en el presente documento) para conferir alta expresión de dicho marcador de selección. Por tanto, dicho promotor de SV40 se usa preferentemente como un promotor que impulsa la expresión del marcador de selección.

En una realización preferida, la invención proporciona una célula en la que al menos una de dichas unidades de expresión de proteínas comprende al menos dos secuencias STAR. En una realización incluso más preferida, la invención proporciona una célula en la que dicha unidad de expresión de proteínas que comprende al menos dos secuencias STAR está dispuesta de manera que dicha unidad de expresión de proteínas está flanqueada en cada lado por al menos una secuencia STAR. Aún en una realización más preferida, dichas al menos dos secuencias STAR son esencialmente idénticas. Secuencias STAR esencialmente idénticas se definen en el presente documento como secuencias STAR que son idénticas en sus dominios importantes, pero que pueden variar dentro de sus dominios menos importantes (los dominios que confieren la cualidad para estabilizar o potenciar la transcripción), por ejemplo una mutación puntual, deleción o inserción en una posición menos importante dentro de la secuencia STAR. Preferiblemente, dichas secuencias STAR esencialmente idénticas proporcionan cantidades iguales de actividad de estabilización o potenciación de la transcripción.

El uso de secuencias STAR para flanquear al menos una unidad de expresión de proteínas es uno de los aspectos de los niveles de expresión equilibrados y proporcionales de dos o más proteínas y más específicamente para la expresión de los monómeros de proteínas multiméricas. Las secuencias STAR crean dominios de cromatina de potencial transcripcional definido y estable. Como resultado, los promotores que impulsan la transcripción de cada ARNm bicistrónico funcionarán en niveles estables, definidos. Una línea celular hospedadora recombinante creada mediante el método de la invención se identifica fácilmente porque estos niveles dan como resultado proporciones apropiadas de cada monómero de la proteína multimérica de interés que se expresa en altos rendimientos.

En otra realización, la unidad de expresión de proteínas sólo contiene el gen bicistrónico flanqueado por elementos STAR. Las ventajas de omitir el gen de resistencia a antibióticos monocistrónico son dos. En primer lugar, la selección de células hospedadoras recombinantes de alta expresión requiere el uso de tan sólo dos antibióticos. En segundo lugar, impide la represión de genes bicistrónicos y/o monocistrónicos mediante los fenómenos de supresión de promotor e interferencia transcripcional. Estos fenómenos son problemas comunes en sistemas transgénicos convencionales en los que dos o más unidades de transcripción se ubican cerca entre sí. La represión por una unidad en el sentido de 5’ de una unidad en el sentido de 3’ se denomina interferencia transcripcional, y la represión por una unidad en el sentido de 3’ de una unidad en el sentido de 5’ se denomina supresión de promotor (Villemure et al., 2001). La interferencia transcripcional puede dar como resultado supresión de transgenes adyacentes en todas las disposiciones posibles (en tándem, divergente y convergente) (Eszterhas et al., 2002). Estos fenómenos pueden reducir la eficacia de la selección de los genes de resistencia a antibióticos monocistrónicos y/o dependientes de IRES, y reducir el rendimiento del transgén. Por tanto, la realización de la invención que sólo comprende un gen bicistrónico flanqueado por elementos STAR proporciona una configuración alternativa de los componentes.

En una realización preferida, el método según la invención usa una secuencia STAR en el que dicha secuencia STAR se representa en la tabla 3 y/o figura 6 y/o un equivalente funcional y/o un fragmento funcional de la misma.

Se ha aislado y caracterizado una extensa colección de secuencias STAR usando tecnología patentada. La fuerza de estas secuencias oscila ampliamente. Esto se manifiesta mediante los grados variables de mejora de la expresión transgénica en las células hospedadoras recombinantes conferidos por los elementos STAR; algunos elementos STAR proporcionan protección completa frente al silenciamiento, mientras que otros sólo proporcionan protección parcial. El intervalo de fuerza de los elementos STAR también se manifiesta en sus capacidades variables para mejorar la previsibilidad del aislamiento de líneas celulares recombinantes que producen de manera eficaz las proteínas heterólogas de interés. Para la presente invención, se han empleado preferiblemente elementos STAR que tienen características de previsibilidad fuertes, con el fin de tener altos números de líneas celulares recombinantes de expresión eficaz. Los elementos STAR empleados tienen actividad antirrepresora de moderada a fuerte, con el fin de poder modular los niveles de producción de proteína recombinante para igualar los requisitos del producto (por ejemplo, expresión equilibrada y proporcional de monómeros de polipéptido). Los elementos STAR seleccionados también confieren aumentos significativos en la estabilidad de expresión de los transgenes.

Algunos elementos STAR también presentan especificidad de tipo célula huésped y promotor. Estas características se aprovechan para crear sistemas transgénicos novedosos para optimizar la producción de proteínas heterólogas que requieren una célula hospedadora específica (por ejemplo, para lograr un alto rendimiento o un patrón de glicosilación farmacéuticamente ventajoso) o un modo de expresión específico (por ejemplo, el uso de un promotor inducible o un promotor constitutivo; el uso de un promotor de fuerza moderada o alta fuerza, etc.). Por tanto, el uso de diferentes elementos STAR da como resultado diferentes realizaciones de la invención que conciernen a estos tipos de aplicaciones.

Un equivalente funcional y/o un fragmento funcional de una secuencia representada en la tabla 3 y/o figura 6 se define en el presente documento tal como sigue. Un equivalente funcional de una secuencia tal como se representa en la tabla 3 y/o figura 6 es una secuencia derivada con la información proporcionada en la tabla 3 y/o figura 6. Por ejemplo, una secuencia que puede derivarse de una secuencia en la tabla 3 y/o figura 6 delecionando, modificando y/o insertando bases en o de una secuencia indicada en la tabla 3 y/o figura 6, comprendiendo dicha secuencia derivada la misma clase de actividad, no necesariamente la misma cantidad, de una secuencia tal como se representa en la tabla 3 y/o figura 6. Un equivalente funcional es además una secuencia que comprende una parte de dos o más secuencias representadas en la tabla 3 y/o figura 6. Un equivalente funcional también puede ser una secuencia de ADN sintética que es una secuencia que no se deriva directa o indirectamente de una secuencia presente en un organismo. Por ejemplo, una secuencia que comprende una secuencia scs o scs’ de drosophila no es una secuencia sintética, incluso cuando la secuencia scs o scs’ se generó de modo artificial.

Las secuencias funcionales de elementos STAR pueden delinearse mediante diversos métodos conocidos en la técnica. En una realización, se realizan deleciones y/o sustituciones en las secuencias STAR. Se somete a prueba ADN que se modifica de tal manera, por ejemplo, para detectar su actividad usando un ácido nucleico modificado individual o generando una colección de ácidos nucleicos de prueba que comprenden dicho ácido nucleico modificado. La elucidación de secuencias funcionales dentro de las secuencias STAR permite la elucidación de las secuencias consenso para elementos con una cualidad para modular la transcripción génica y/o para reprimir la transcripción génica.

Puede obtenerse un fragmento funcional de una secuencia STAR tal como se representa en la tabla 3 y/o figura 6, por ejemplo, mediante deleciones desde el extremo 5’ o el extremo 3’ o desde el interior de dichas secuencias o cualquier combinación de los mismos, en el que dicha secuencia derivada comprende la misma clase de actividad, pero no necesariamente la misma cantidad.

Aún otra característica preferida de un método según la invención es la introducción de un sitio interno de unión al ribosoma (IRES) (débil) como un ejemplo de un sitio de iniciación de traducción de proteínas con una eficacia de traducción reducida, entre el marco de lectura abierto de la proteína de interés y el marco de lectura abierto del marcador de selección. En combinación con, por ejemplo, la secuencia STAR, este componente de la presente invención comprende una mejora marcada en los sistemas transgénicos para la expresión de dos o más proteínas.

Se conocen elementos del sitio interno de unión al ribosoma (IRES) de genes virales y de mamíferos (Martinez-Salas, 1999), y también se han identificado en selecciones de oligonucleótidos sintéticos pequeños (Venkatesan y Dasgupta, 2001). Se ha analizado en detalle el IRES del virus de la encefalomiocarditis (Mizuguchi et al., 2000). Un IRES es un elemento codificado en el ADN que da como resultado una estructura en el ARN transcrito a la que pueden unirse ribosomas eucariotas e iniciar la traducción. Un IRES permite que se produzcan dos o más proteínas a partir de una molécula de ARN individual (la primera proteína se traduce por los ribosomas que se unen al ARN en la estructura de caperuza de su extremo 5' terminal (Martinez-Salas, 1999)). La traducción de las proteínas a partir de los elementos IRES es menos eficaz que la traducción dependiente de caperuza: la cantidad de proteína a partir de marcos de lectura abiertos (ORF) dependientes de IRES oscila desde menos del 20% hasta el 50% de la cantidad a partir del primer ORF (Mizuguchi et al., 2000). Esto hace que los elementos IRES no sean deseables para la producción de todas las subunidades de una proteína multimérica a partir de un ARN mensajero (ARNm), dado que no es posible lograr la expresión equilibrada y proporcional de dos o más monómeros de proteína a partir de un ARNm bicistrónico o multicistrónico. Sin embargo, la eficacia reducida de la traducción dependiente de IRES proporciona una ventaja que se aprovecha por la presente invención. Además, la mutación de elementos IRES puede atenuar su actividad, y disminuir la expresión de ORF dependientes de IRES hasta por debajo del 10% del primer ORF (Lopez de Quinto y Martinez-Salas, 1998, Rees et al., 1996). La ventaja aprovechada por la invención es tal como sigue: cuando el ORF dependiente de IRES codifica para una proteína marcadora seleccionable, su bajo nivel de traducción relativo significa que deben producirse altos niveles absolutos de la transcripción con el fin de seleccionar la célula hospedadora recombinante. Por tanto, los aislados de célula hospedadora recombinante seleccionada expresarán necesariamente grandes cantidades del ARNm de transgén. Dado que la proteína recombinante se traduce a partir del ORF dependiente de caperuza, puede producirse en abundancia dando como resultado altos rendimientos del producto.

Queda claro para un experto en la técnica que pueden realizarse cambios al IRES sin alterar la esencia de la función del IRES (por tanto, proporcionar un sitio de iniciación de traducción de proteínas con una eficacia de traducción reducida), dando como resultado un IRES modificado. Por tanto, también se incluye en esta invención el uso de un IRES modificado que todavía puede proporcionar un pequeño porcentaje de traducción (en comparación con una traducción de caperuza en 5’).

Aún en otra realización, la invención proporciona una célula que expresa dos o más proteínas, en la que cada una de dichas unidades de expresión de proteínas reside en un portador de ADN separado. La presente invención hace uso preferentemente de una unidad de transcripción separada para cada proteína y/o monómero de una proteína multimérica. En cada unidad de transcripción, el ORF de monómero se produce mediante traducción dependiente de caperuza eficaz. Esta característica de la invención contribuye a que se aíslen las células hospedadoras recombinantes que tienen altos rendimientos de cada monómero, en niveles que están equilibrados y proporcionales con respecto a la estequiometría de la proteína multimérica. El aumento de la previsibilidad al que se aíslan tales células hospedadoras recombinantes da como resultado una mejora de la eficacia de selección para tales aislados en un factor de diez o más. En una realización preferida, dicho portador de ADN es un vector (o plásmido; las expresiones se usan de modo intercambiable en el presente documento). En otra realización, dicho vector es un vector viral y en una realización más preferida, dicho vector viral es un vector adenoviral o un vector retroviral. Queda claro para el experto en la técnica que también pueden usarse otros vectores virales en un método según la invención.

Sistemas de expresión convencionales son moléculas de ADN en forma de un plásmido recombinante o un genoma viral recombinante. El plásmido o el genoma viral se introducen en células (hospedadoras de mamífero) y se integran en sus genomas mediante métodos conocidos en la técnica. La presente invención también usa estos tipos de moléculas de ADN para suministrar su sistema de expresión transgénica mejorado. Una realización preferida de la invención es el uso del ADN de plásmido para el suministro del sistema de expresión. Un plásmido contiene varios componentes: componentes convencionales, conocidos en la técnica, son un origen de replicación y un marcador seleccionable para la propagación del plásmido en células bacterianas; un marcador seleccionable que funciona en células eucariotas para identificar y aislar células hospedadoras que portan un sistema de expresión transgénica integrado; la proteína de interés, cuya transcripción a alto nivel se produce mediante un promotor que es funcional en células eucariotas (por ejemplo, el potenciador/promotor temprano inmediato principal de citomegalovirus humano, pCMV (Boshart et al., 1985)); y terminadores transcripcionales virales para el transgén de interés y el marcador seleccionable (por ejemplo, el sitio de poliadenilación de SV40 (Kaufman y Sharp, 1982)).

El vector usado puede ser cualquier vector que es adecuado para la clonación del ADN y que puede usarse en un sistema de transcripción. Cuando se usan células hospedadoras se prefiere que el vector sea un vector de replicación episómica. De esta manera, se evitan efectos debido a diferentes sitios de de integración del vector. Elementos de ADN que flanquean el vector en el sitio de integración pueden tener efectos sobre el nivel de transcripción del promotor e imitan de ese modo efectos de fragmentos que comprenden secuencias de ADN con una cualidad para modular la transcripción génica. En una realización preferida, dicho vector comprende un origen de replicación del virus de Epstein-Barr (EBV), OriP, y un antígeno nuclear (EBNA-1). Tales vectores pueden replicarse en muchos tipos de células eucariotas y ensamblarse para dar cromatina en condiciones apropiadas.

En una realización preferida, la invención proporciona una célula que expresa dos o más proteínas o un método para expresar dos o más proteínas en una célula que comprende proporcionar dos o más unidades de expresión de proteínas en la que una de dichas unidades de expresión de proteínas o dicha(s) proteína(s) de interés codifica para una cadena pesada de inmunoglobulina y/o en la que otra de las dichas unidades de expresión de proteínas o dicha(s) proteína(s) de interés codifica para una cadena ligera de inmunoglobulina. Según esta realización, se obtiene una proteína multimérica, un anticuerpo. Queda claro para un experto en la técnica que es posible proporcionar una célula que expresa una cadena pesada de inmunoglobulina a partir de una unidad de expresión de proteínas y una cadena ligera de inmunoglobulina a partir de otra unidad de expresión de proteínas codificando una tercera unidad de expresión de proteínas para un componente secretor o una cadena de unión. De este modo, se proporciona la producción de, por ejemplo, sIgA e IgM pentamérica.

Preferiblemente, la célula huésped usada secreta el multímero producido. De esta manera, el producto se aísla fácilmente del medio que rodea dicha célula hospedadora.

Más preferiblemente, la invención da como resultado la producción de un multímero funcional. La funcionalidad del multímero producido se determina con procedimientos convencionales. Por ejemplo, una enzima de múltiples subunidades producida se somete a prueba en un ensayo enzimático correspondiente o se usa la unión a un antígeno, por ejemplo, en un ELISA, para someter a prueba la funcionalidad de un anticuerpo producido.

Por tanto, la selección de una célula hospedadora adecuada final que expresa un multímero, implica múltiples etapas entre las que están la selección de una célula que expresa todas las subunidades deseadas de un multímero, seguido por un análisis funcional de dicho multímero.

Con respecto a una proteína multimérica, se desean altos niveles de expresión de las subunidades así como la formación de una proteína multimérica funcional de dichas subunidades. De manera sorprendente, el uso de una secuencia STAR para la producción de las subunidades de una proteína multimérica da como resultado alta cantidad de células que expresan las subunidades, en comparación con los vectores de control sin una secuencia STAR. Además, la cantidad de la proteína multimérica funcional es relativamente superior cuando en comparación con el control.

La producción de subunidades y la formación de proteína multimérica funcional de estas subunidades, en particular, son de importancia para la producción de anticuerpos. Cuando el casete de expresión de cadena pesada y cadena ligera está flanqueado por una secuencia STAR esto da como resultado una producción superior de un anticuerpo funcional, en comparación con vectores de control sin una secuencia STAR. Por tanto, la presencia de una secuencia STAR da como resultado un grado superior de previsibilidad de expresión del anticuerpo funcional. Preferiblemente, cada unidad de expresión comprende al menos dos secuencias STAR, secuencias que están dispuestas de tal manera que dicha unidad de expresión está flanqueada en cada lado por al menos una secuencia STAR.

Preferiblemente, un promotor funcional es un promotor de citomegalovirus (CMV) humano, un promotor de virus de simio (SV40), un promotor de ubiquitina C humana o un promotor de factor alfa de elongación (EF1-) humano.

Tal como se da a conocer en el presente documento dentro de la parte experimental, una secuencia STAR puede conferir dependencia del número de copias a una unidad de expresión transgénica, haciendo que la expresión transgénica sea independiente de otras copias de transgenes en series en tándem, e independiente de las influencias del silenciamiento génico en el sitio de integración. Por tanto, la invención también proporciona un método para obtener una célula que expresa dos o más proteínas o un método para identificar una célula en la que la expresión de dos o más proteínas está en una proporción predeterminada en el que múltiples copias de una unidad de expresión de proteínas que codifica para un proteína de interés están integradas en el genoma de dicha célula (es decir, célula en la que está presente una amplificación del gen de interés).

Según esta parte de la invención, se introducen simultáneamente las unidades de expresión de proteínas en dicha célula (hospedadora) o colección de células mediante métodos conocidos en la técnica. Se seleccionan células hospedadoras recombinantes mediante tratamiento con un antibiótico apropiado, por ejemplo G418, usando métodos conocidos en la técnica. Tras la formación de colonias individuales resistentes a antibióticos, se aplica otro antibiótico o combinaciones de antibióticos, por ejemplo una combinación de zeocina y blasticidina, y se identifican y se aíslan colonias resistentes a antibióticos. Estos se someten a prueba para determinar el nivel de expresión transgénica.

En otra realización, la invención proporciona una unidad de expresión de proteínas que comprende

- un gen bicistrónico que comprende un marco de lectura abierto que codifica para una proteína de interés, un sitio de iniciación de traducción de proteínas con una eficacia de traducción reducida, un marcador de selección y en la que dicho gen bicistrónico está bajo el control de un promotor funcional

- al menos una secuencia STAR, elegida del grupo que consiste en: (a) SEQ ID: 7 en la figura 6; (b) una secuencia derivada de SEQ ID: 7 en la figura 6 mediante deleción, modificación y/o inserción de una o más bases y (c) un fragmento funcional de SEQ ID: 7 en la figura 6.

En una realización más preferida dicha unidad de expresión de proteínas comprende adicionalmente un gen monocistrónico que comprende un marco de lectura abierto que codifica para un segundo marcador de selección y en la que dicho gen monocistrónico está bajo el control de un promotor funcional.

En una realización incluso más preferida, dicha unidad de expresión de proteínas comprende al menos dos secuencias STAR que se disponen preferentemente de manera que dicha unidad de expresión de proteínas está flanqueada en cada lado por al menos una secuencia STAR. Ejemplos de una unidad de expresión de proteínas de este tipo se proporcionan dentro de la parte experimental de esta solicitud de patente (por ejemplo las figuras 1 y 5).

En otra realización, la unidad de expresión de proteínas según la invención comprende secuencias STAR, en la que dichas secuencias STAR son esencialmente idénticas.

En otra realización, se proporciona una unidad de expresión de proteínas según la invención en la que dicho sitio de iniciación de traducción de proteínas con una eficacia de traducción reducida comprende un sitio de entrada interna del ribosoma (IRES). Más preferiblemente, se usa un IRES modificado, por ejemplo más débil.

En aún otra realización, se proporciona una unidad de expresión de proteínas según la invención siendo dicha unidad de expresión de proteínas un vector. En una realización preferida, dicho portador de ADN es un vector (o plásmido; los términos se usan de manera intercambiable en el presente documento). En otra realización, dicho vector es un vector viral y en una realización más preferida dicho vector viral es un vector adenoviral o un vector retroviral. Queda claro para el experto en la técnica que también pueden usarse otros vectores virales en un método según la invención.

En una realización preferida, se proporciona una unidad de expresión de proteínas según la invención, en la que dicha proteína de interés es una cadena pesada de inmunoglobulina. En aún otra realización preferida, se proporciona una unidad de expresión de proteínas según la invención, en la que dicha proteína de interés es una cadena ligera de inmunoglobulina. Cuando estas dos unidades de expresión de proteínas están presentes dentro de la misma célula (huésped) se ensambla una proteína multimérica y más específicamente un anticuerpo.

La invención incluye una célula dotada de una unidad de expresión de proteínas que comprende un STAR.

La invención también incluye una célula (hospedadora) que comprende dos unidades de expresión de proteínas según la invención. Entonces se usa una célula (hospedadora) de este tipo, por ejemplo, para procedimientos de producción a gran escala.

La invención también incluye una célula que puede obtenerse según uno cualquiera de los métodos tal como se describen en el presente documento. La invención incluye además, una proteína que puede obtenerse a partir de dicha célula (por ejemplo, mediante el procedimiento de purificación de proteínas). Preferiblemente, dicha proteína es una proteína multimérica e incluso más preferiblemente dicha proteína multimérica es un anticuerpo. Un anticuerpo de este tipo puede usarse en aplicaciones farmacéuticas y/o de diagnóstico.

La discusión anterior y los siguientes ejemplos se proporcionan para fines ilustrativos, y no se pretende que limiten el alcance de la invención tal como se reivindica en el presente documento. Proporcionan simplemente algunas de las realizaciones preferidas de la invención. Modificaciones y variaciones, que pueden ocurrirse a un experto habitual en la técnica, están dentro del alcance pretendido de esta invención. Otras diversas realizaciones se aplican a la presente invención, incluyendo: otros genes de marcador seleccionable; otros elementos IRES o medios de atenuación de la actividad de IRES; otros elementos que afectan la transcripción incluyendo promotores, intrones, terminadores, y sitios de poliadenilación; otros órdenes y/u orientaciones de los genes monocistrónicos y bicistrónicos; otros elementos antirrepresores o partes, derivaciones, y/o análogos de los mismos; otros sistemas de vectores para el suministro de las moléculas de ADN de la invención al interior de células hospedadoras eucariotas; y aplicaciones del método de la invención a otros sistemas transgénicos.

EJEMPLOS

Ejemplo 1: Los elementos STAR y la selección de dos etapas mejoran la previsibilidad de la expresión transgénica

Un objeto de esta invención es mejorar la expresión transgénica para la producción de proteínas heterólogas usando un procedimiento de selección con antibióticos de dos etapas. El procedimiento de dos etapas aumenta la previsibilidad de encontrar líneas celulares hospedadoras recombinantes que expresan el transgén a altos niveles, aumentando así el rendimiento de la proteína heteróloga.

Materiales y métodos

Construcción de plásmidos

Se construyeron las familias de plásmidos pSDH-SIB/Z y pSDH-GIB/Z tal como sigue: se recuperó el marcador seleccionable de zeocina mediante amplificación por reacción en cadena de la polimerasa (PCR) del plásmido pEM7/zeo (Invitrogen V500-20) usando cebadores E99 y E100 (todos los cebadores de PCR y las secuencias de oligonucleótidos mutagénicas se enumeran en la tabla 1), y se clonaron en los sitios XbaI y NotI del sitio de clonación múltiple (MCS) B de pIRES (Clontech 6028-1) para crear pIRES-zeo. Se recuperó el marcador seleccionable de blasticidina mediante PCR del plásmido pCMV/bsd (Invitrogen V510-20) usando cebadores E84 y E85, y se clonaron de forma direccional en los sitios XbaI y NotI MCS-B de pIRES para crear pIRES-bsd. Se recuperó el gen indicador de SEAP (fosfatasa alcalina secretada) mediante PCR del plásmido pSEAP2-básico (Clontech 6049-1) usando cebadores F11 y E87, y se clonaron de forma direccional en MCS-A de pIRES-zeo y pIRES-bsd para crear plásmidos pIRES-SEAP-zeo y pIRES-SEAP-bsd. Se recuperó el gen indicador de GFP del plásmido phr-GFP-1 (Stratagene 240059) mediante digestión de restricción con NheI y EcoRI, y se ligó de forma direccional en MCS-A de pIRES-zeo y pIRESbsd para crear plásmidos pIRES-GFP-zeo y pIRES-GFP-bsd. Se insertó un ligador en el sitio ClaI no metilado de cada uno de estos plásmidos (en el sentido de 3’ del marcador de resistencia a neomicina) para introducir un sitio AgeI usando oligonucleótidos F34 y F35.

Se construyó el vector pSDH-Tet mediante PCR del marco de lectura abierto de luciferasa del plásmido pREP4HSF-Luc (van der Vlag et al., 2000) usando cebadores C67 y C68, y la inserción del fragmento SacII/BamHI en pUHD10-3 digerido con SacII/ BamHI (Gossen y Bujard, 1992). Se volvió a amplificar la unidad de expresión de luciferasa con los cebadores C65 y C66, y se volvió a insertar en pUHD10-3 con el fin de flanquearlo con sitios de clonación múltiple (MCSI y MCSII). Entonces, se introdujo un sitio AscI en MCSI mediante digestión con EcoRI e inserción de un ligador (compuesto por oligonucleótidos D93 y D94 hibridados). Se amplificó el promotor de CMV del plásmido pCMV-Bsd con los cebadores D90 y D91, y se usó para sustituir el promotor Tet-Off en pSDH-Tet mediante digestión con SalIlSacII y ligamiento para crear el vector pSDH-CMV. Se sustituyó el marco de lectura abierto de luciferasa en este vector con SEAP tal como sigue: se digirió el vector pSDH-CMV con SacII y BamHI yse hizo romo; se aisló el marco de lectura abierto de SEAP del pSEAP-básico mediante digestión con EcoRI/SalI, se hizo romo y se ligó en pSDH-CMV para crear el vector pSDH-CS. Se aisló el gen de resistencia a puromicina bajo el control del promotor de SV40 del plásmido pBabe-Puro (Morgenstern y Land, 1990) mediante PCR, usando cebadores C81 y C82. Esto se ligó en el vector pGL3-control (sitio BamHI eliminado) (Promega E1741) digerido con NcoIlXbaI, para crear pGL3-puro. Se digirió pGL3-puro con BglII/SalI para aislar el gen de resistencia a puromicina de SV40, que se hizo romo y se ligó en pSDH-CS de extremos romos, digerido por NheI. El vector resultante, pSDH-CSP, se muestra en la figura 2. Se insertó STAR18 en MCSI y MCSII en dos etapas, mediante digestión del elemento STAR y el vector pSDH-CSP con una enzima de restricción apropiada, seguido por ligamiento. Se determinó la orientación del elemento STAR mediante mapeo de restricción. Se verificaron la identidad y orientación de los insertos mediante análisis de la secuencia de ADN. Se realizó la secuenciación mediante el método de didesoxi (Sanger et al., 1977) usando un secuenciador de ADN automatizado Beckman CEQ2000, según las instrucciones del fabricante. Brevemente, se purificó el ADN de E. coli usando kits QIAprep Spin Miniprep y Plasmid Midi (QIAGEN 27106 y 12145, respectivamente). Se llevó a cabo la secuenciación en ciclos usando los oligonucleótidos a medida C85, E25, y E42 (tabla 1), en presencia de terminadores con colorante (CEQ Dye Terminador Cycle Sequencing Kit, Beckman 608000).

Se modificaron los plásmidos pSDH-CSP que contenían elementos STAR tal como sigue: para recibir casetes SEAP-IRES-zeo/bsd, se introdujo un sitio AgeI en el sitio BglII mediante la inserción de un ligador, usando oligonucleótidos F32 y F33; para recibir casetes GFP-IRES-zeo/bsd, se introdujo un sitio AgeI en el sitio Bsu36I mediante la inserción de un ligador, usando oligonucleótidos F44 y F45. Se insertaron los casetes SEAP-IRESzeo/bsd en el plásmido pSDH-CSP-STAR18 mediante la sustitución del fragmento Bsu3611AgeI con los fragmentos correspondientes de los plásmidos pIRES-SEAP-zeo/bsd. Se insertaron los casetes GFP-IRES-zeo/bsd en los plásmidos pSDH-CSP-STAR mediante la sustitución del fragmento BglII/AgeI con los fragmentos correspondientes de los plásmidos pIRES-GFP-zeo/bsd. Las familias de plásmidos resultantes, pSDH-SIB/Z y pSDH-GIB/Z, se muestran en la figura 3.

Se llevaron a cabo todas las etapas de clonación siguiendo las instrucciones proporcionadas por los fabricantes de los reactivos usados, según métodos conocidos en la técnica (Sambrook et al., 1989).

Transfección y cultivo de células CHO

Se cultivó la línea celular de ovario de hámster chino CHO-K1 (ATCC CCL-61) en medio HAMS-F12 + 10% de suero bovino fetal que contenía glutamina 2 mM, penicilina 100 U/ml, y estreptomicina 100 microgramos/ml a 37ºC/5% de CO2. Se transfectaron las células con los plásmidos pSDH-SIZ usando SuperFect (QIAGEN) tal como describe el fabricante. Brevemente, se sembraron las células en recipientes de cultivo y se hicieron crecer durante la noche hasta una confluencia del 70-90%. Se combinó el reactivo SuperFect con ADN de plásmido a una proporción de 6 microlitros por microgramo (por ejemplo, para una placa Petri de 10 cm, 20 microgramos de ADN y 120 microlitros de SuperFect) y se añadió a las células. Tras incubación durante la noche, se sustituyó la mezcla de transfección con medio recién preparado, y se incubaron adicionalmente las células transfectadas. Tras el cultivo durante la noche, se sembraron las células en recipientes de cultivo recién preparado y se añadió neomicina 500 microgramos/ml. La selección con neomicina estuvo completa en el plazo de 3-4 días. Entonces, se añadió medio recién preparado que contenía zeocina (100 g/ml) y se cultivó adicionalmente. Se aislaron clones individuales tras 4-5 días y se cultivaron adicionalmente. Se evaluó la expresión del gen indicador midiendo la actividad de SEAP aproximadamente 3 semanas tras la transfección.

Ensayo para fosfatasa alcalina secretada (SEAP)

Se determinó la actividad de SEAP (Berger et al., 1988, Henthorn et al., 1988, Kain, 1997, Yang et al., 1997) en el medio de cultivo de los clones tal como describe el fabricante (Clontech Great EscAPe kit n.º K2041). Brevemente, se inactivó por calor una alícuota de medio a 65ºC, entonces se combinó con tampón de ensayo y sustrato quimioluminiscente CSPD y se incubó a temperatura ambiente durante 10 minutos. Entonces, se determinó la tasa de conversión de sustrato en un luminómetro (Turner 20/20TD). Se determinó la densidad celular mediante el recuento de células tratadas con tripsina en un contador de células Coulter ACT10.

Resultados

La transfección del vector de expresión pSDH-SIZ-STAR18 da como resultado de manera uniforme 10 veces más de colonias que la transfección del vector pSDH-SIZ vacío, presumiblemente debido a la proporción aumentada de transfectantes primarios que pueden producir la expresión del gen de resistencia a neomicina. En la tabla 2 se muestra el resultado de un experimento típico, en el que la transfección del vector vacío produjo 100 colonias resistentes a G418, y la transfección del vector con STAR18 produjo 1000 colonias.

Se comparó la expresión del transgén indicador de SEAP entre el vector pSDH-SIZ vacío (por tanto, sin una secuencia STAR) y el vector con STAR18 (figura 4). Se dividieron las poblaciones de aislados resistentes a G418 en dos conjuntos. Se cultivó el primer conjunto sólo con G418 (selección de una etapa). Para este conjunto, la inclusión de STAR18 para proteger el transgén del silenciamiento dio como resultado un rendimiento superior de la proteína indicadora: el máximo nivel de expresión entre los 20 clones analizados fue 2-3 veces superior al máximo nivel de expresión de los clones sin el elemento STAR. La inclusión de STAR18 también condujo a aumento de la previsibilidad: más del 25% de los clones con STAR18 tuvieron niveles de expresión mayores o iguales al máximo nivel de expresión observado con los clones sin STAR. En esta población de clones con STAR18, el 70% tuvo una expresión por encima del nivel de fondo, mientras que sólo el 50% de los clones sin STAR tuvo una expresión por encima del nivel de fondo.

La acción de STAR18 fue incluso mejor cuando se usó en una selección de dos etapas. Se trató el segundo conjunto de aislados resistentes a G418 con zeocina. Se sometieron a ensayo los clones que sobrevivieron al régimen de selección de dos etapas para detectar la expresión del transgén indicador de SEAP. También en este caso, el elemento STAR18 aumentó el rendimiento en comparación con los clones sin STAR en aproximadamente tres veces. También se aumentó la previsibilidad mediante la inclusión de STAR18: el 80% de la población tuvo niveles de expresión mayores que el clon sin STAR de más alta expresión.

Cuando se compara la selección de una etapa con la selección de dos etapas, puede observarse que esta última es superior en lo que se refiere tanto a rendimiento como a previsibilidad. De hecho, con la selección de dos etapas, ningún clon apareció con niveles de fondo de expresión. Esto se debe al requisito impuesto en los clones que sobreviven a la selección con zeocina de que tengan altos niveles de transcripción del gen de SEAP-zeocina bicistrónico. Tal como se indica en la tabla 2, la eliminación de clones de baja producción mediante la segunda etapa de selección con antibióticos aumenta la previsibilidad de encontrar clones de alta producción; cuando se incluye STAR18 en la unidad de expresión, se mejora esta previsibilidad aumentada desde tres veces hasta treinta veces.

En resumen, cuando se usan elementos STAR en combinación con selección de antibiótico de dos etapas, se mejora espectacularmente la previsibilidad de encontrar clones con altos rendimientos de un transgén. La aplicación de este aumento de la previsibilidad a dos o más transgenes simultáneamente aumentará significativamente la probabilidad de encontrar clones que tengan altos rendimientos de proteínas multiméricas.

Ejemplo 2: La expresión simultánea de dos proteínas se mejora mediante la selección de dos etapas y los elementos STAR

Un segundo objeto de esta invención es mejorar la expresión de proteínas multiméricas heterólogas tales como anticuerpos. Este ejemplo demuestra que la combinación de elementos STAR y la selección con antibióticos de dos etapas mejorara la previsibilidad del establecimiento de líneas celulares hospedadoras recombinantes que expresan cantidades equilibradas y proporcionales de dos polipéptidos heterólogos en altos rendimientos. Este método de la invención es aplicable en la práctica a proteínas multiméricas tales como anticuerpos. Se demuestra en este ejemplo usando dos proteínas indicadoras, fosfatasa alcalina secretada (SEAP) y proteína fluorescente verde (GFP).

Materiales y métodos

Plásmidos

Se usaron las familias de plásmidos pSDH-SIB/Z y pSDH-GIB/Z descritos en el ejemplo 1. En el ejemplo 1 se describe la clonación de los elementos STAR x e y, la transfección y el cultivo de células hospedadoras, y el ensayo para SEAP. El ensayo para GFP se realiza según las instrucciones del fabricante.

Resultados

Los resultados muestran un número aumentado de clones en los que se expresan las dos proteínas indicadoras. Además, la expresión estuvo equilibrada en muchos de tales clones.

Ejemplo 3: Vectores de fines generales para la expresión simultánea de múltiples polipéptidos

Se ha modificado el sistema de expresión sometido a prueba y validado en el ejemplo 1 para facilitar su aplicación a cualquier polipéptido coexpresado preferiblemente con otro(s) polipéptido(s) en una célula huésped, por ejemplo, las cadenas pesada y ligera de anticuerpos recombinantes. Se diseña para la construcción fácil y rápida de las unidades de expresión. El sistema mejorado se describe en este ejemplo.

Materiales y métodos

Plásmidos

A continuación se describe la construcción de los plásmidos PP1 a PP5, y su mapa se muestra en la figura 5. Se modificó el plásmido pd2EGFP (Clontech 6010-1) mediante la inserción de un ligador en el sitio BsiWI dando pd2EGFP-ligador. El ligador (hecho mediante la hibridación de oligonucleótidos F25 y F26) introduce sitios para las endonucleasas de restricción PacI, BgIII y EcoRV. Esto crea el sitio de clonación múltiple MCSII para la inserción de elementos STAR. Entonces, se usaron los cebadores F23 y F24 para amplificar una región de 0,37 kb de pd2EGFP, que se insertó en el sitio BgiII de pIRES (Clontech 6028-1) dando pIRES-relleno. Éste introduce sitios para las endonucleasas de restricción AscI y SwaI en MCSI, y actúa como un “fragmento de relleno” para evitar la posible interferencia entre elementos STAR y promotores adyacentes. Se digirió pIRES-relleno con BglII y FspI para liberar un fragmento de ADN compuesto por el fragmento de relleno, el promotor de CMV, el elemento IRES (flanqueado por sitios de clonación múltiple MCS A y MCS B), y la señal de poliadenilación de SV40. Se ligó este fragmento con la estructura principal del vector de pd2EGFP-ligador producida mediante digestión con BamHI y StuI, dando pd2IRES-ligador.

Se insertaron los marcos de lectura abierto de los genes de resistencia a zeocina, neomicina o puromicina en los sitios BamHI/NotI de MCS B en pd2IRES-ligador tal como sigue: se amplificó el ORF de resistencia a zeocina mediante PCR con los cebadores F18 y E100 del plásmido pEM7/zeo, se digirió con BamHI y NotI, y se ligó con pd2IRES-ligador digerido con BamHI/NotI dando pd2IRES-ligador-zeo. Se amplificó el ORF de resistencia a neomicina mediante PCR con los cebadores F19 y F20 de pIRES, se digirió con BamHI y NotI, y se ligó con pd2IRES-ligador digerido con BamHI/NotI dando pd2IRES-ligador-neo. Se amplificó el ORF de resistencia a puromicina mediante PCR con los cebadores F21 y F22 del plásmido pBabe-Puro (Morgenstern y Land, 1990), se digirió con BamHI y NotI, y se ligó con pd2IRES-ligador digerido con BamHI/NotI dando pd2IRES-ligador-puro.

Se introdujo el ORF indicador de GFP en pd2IRES-ligador-puro mediante amplificación de phr-GFP-1 con los cebadores F16 y F17, y la inserción del casete de GFP digerido con EcoRI en el sitio EcoRI en MCS A del plásmido pd2IRES-ligador-puro, dando plásmido PP1 (figura 5A). Se verificó la orientación correcta mediante mapeo de restricción. Se introdujo el ORF indicador de SEAP en pd2IRES-ligador-zeo y pd2IRES-ligador-neo mediante amplificación por PCR de pSEAP2-básico con los cebadores F14 y F15, y la inserción del casete de SEAP digerido con EcoRI en los sitios EcoRI en MCS A de los plásmidos pd2IRES-ligador-zeo (dando plásmido PP2, figura 5B) y pd2IRES-ligador-neo (dando plásmido PP3, figura 5C). Se verificó la orientación correcta mediante mapeo de restricción.

Los plásmidos PP1, PP2 y PP3 contienen un gen bicistrónico para la expresión de una proteína indicadora y un marcador de resistencia antibióticos. Con el fin de llevar a cabo la selección con antibióticos de dos etapas con antibióticos separados, se introdujo un marcador de resistencia monocistrónico tal como sigue: se digirió pIRESrelleno con ClaI, se hizo romo con enzima Klenow, y se digirió adicionalmente con BglII. Esto liberó un fragmento de ADN compuesto por el fragmento de relleno, el promotor de CMV, el elemento IRES (flanqueado por sitios de clonación múltiple MCS A y MCS B), la señal de poliadenilación de SV40, y el marcador de resistencia a neomicina bajo el control del promotor de SV40. Se ligó este fragmento con la estructura principal del vector de pd2EGFPligador producido mediante digestión con BamHI y StuI, dando pd2IRES-ligador-neo. Entonces tal como se describió anteriormente, se introdujeron los casetes de GFP y puro dando PP4 (FIG 5D), y se introdujeron los casetes SEAP y zeo dando PP5 (figura 5E).

Ejemplo 4: La previsibilidad y el rendimiento se mejoran mediante la aplicación de elementos STAR en sistemas de expresión

Los elementos STAR funcionan para bloquear el efecto de las influencias de la represión transcripcional en las unidades de expresión transgénica. Estas influencias de la represión pueden deberse a la heterocromatina (“efectos de posición”, (Boivin y Dura, 1998)) o a copias adyacentes del transgén (“silenciamiento génico inducido por repeticiones”, (Garrick et al., 1998)). Dos de los beneficios de los elementos STAR para la producción de proteínas son el aumento de la predictibilidad de encontrar células hospedadoras recombinantes primarias de alta expresión, y el aumento del rendimiento durante los ciclos de producción. Estos beneficios se ilustran en este ejemplo.

Materiales y métodos

Construcción de los vectores pSDH y derivados que contienen STAR: se construyó el vector pSDH-Tet mediante amplificación por reacción en cadena de la polimerasa (PCR) del marco de lectura abierto de luciferasa del plásmido pREP4-HSF-Luc (van der Vlag et al., 2000) usando cebadores C67 y C68 (en la tabla 1 se enumeran todos los cebadores de PCR y oligonucleótidos mutagénicos), y la inserción del fragmento SacII/BamHI en pUHD10-3 digerido con SacII/BamHI (Gossen y Bujard, 1992). Se reamplificó la unidad de expresión de luciferasa con los cebadores C65 y C66, y se volvió a insertar en pUHD10-3 con el fin de flanquearla con dos sitios de clonación múltiple (MCSI y MCSII). Entonces, se introdujo un sitio AscI en MCSI mediante digestión con EcoRI e inserción de un ligador (compuesto por oligonucleótidos hibridados D93 y D94). Se amplificó el promotor de CMV del plásmido pCMV-Bsd (Invitrogen K510-01) con los cebadores D90 y D91, y se usó para sustituir el promotor Tet-Off en pSDH-Tet mediante digestión con SalI/SacII y ligamiento para crear el vector pSDH-CMV. Se sustituyó el marco de lectura abierto de luciferasa en este vector con SEAP (fosfatasa alcalina secretada) tal como sigue: se digirió el vector pSDH-CMV con SacII y BamHI y se hizo romo; se aisló el marco de lectura abierto de SEAP de pSEAP-básico (Clontech 6037-1) mediante digestión con EcoRIlSalI, se hizo romo y se ligó en pSDH-CMV para crear el vector pSDH-CS. Se aisló el gen de resistencia a puromicina bajo el control del promotor de SV40 del plásmido pBabe-Puro (Morgenstern y Land, 1990) mediante PCR, usando cebadores C81 y C82. Esto se ligó en el vector pGL3control (sitio BamHI eliminado) (Promega E1741) digerido con NcoIlXbaI, para crear pGL3-puro. Se digirió pGL3puro con BglIIlSalI para aislar el gen de resistencia a puromicina de SV40, que se hizo romo y se ligó en pSDH-CS hecho romo, digerido con NheI. El vector resultante, pSDH-CSP, se muestra en la figura 7. Se llevaron a cabo todas las etapas de clonación siguiendo las instrucciones proporcionadas por los fabricantes de los reactivos, según métodos conocidos en la técnica (Sambrook et al., 1989).

Se insertaron elementos STAR en MCSI y MCSII en dos etapas, mediante digestión del elemento STAR y el vector pSDH-CSP con una enzima de restricción apropiada, seguido por ligamiento. Se determinó la orientación de los elementos STAR en vectores pSDH recombinantes mediante mapeo de restricción. Se verificaron la identidad y la orientación de los insertos mediante análisis de secuencia de ADN. Se realizó la secuenciación mediante el método de didesoxi (Sanger et al., 1977) usando un secuenciador de ADN automatizado Beckman CEQ2000, según las instrucciones del fabricante. Brevemente, se purificó el ADN de E. coli usando kits QIAprep Spin Miniprep y Plasmid Midi (QIAGEN 27106 y 12145, respectivamente). Se llevó a cabo la secuenciación en ciclos usando oligonucleótidos a medida C85, E25, y E42 (tabla 1), en presencia de terminadores con colorante (CEQ Dye Terminador Cycle Sequencing Kit, Beckman 608000).

Transfección y cultivo de células CHO con plásmidos pSDH

Se cultivó la línea celular de ovario de hámster chino CHO-K1 (ATCC CCL-61) en medio HAMS-F12 + 10% de suero bovino fetal que contenía glutamina 2 mM, penicilina 100 U/ml, y estreptomicina 100 microgramos/ml a 37ºC/5% de CO2. Se transfectaron las células con el vector pSDH-CSP, y sus derivados que contenían STAR6 o STAR49 en MCSI y MCSII, usando SuperFect (QIAGEN) tal como describe el fabricante. Brevemente, se sembraron las células en los recipientes de cultivo y se hicieron crecer durante la noche hasta una confluencia del 70-90%. Se combinó el reactivo SuperFect con ADN de plásmido (linearizado en este ejemplo mediante digestión con PvuI) a una proporción de 6 microlitros por microgramo (por ejemplo, para una placa Petri de 10 cm, 20 microgramos de ADN y 120 microlitros de SuperFect) y se añadió a las células. Tras la incubación durante la noche, se sustituyó la mezcla de transfección con medio recién preparado, y se incubaron adicionalmente las células transfectadas. Tras el cultivo durante la noche, se añadió puromicina 5 microgramos/ml. La selección con puromicina estuvo completa en 2 semanas, tiempo tras el que se aislaron los clones CHO/pSDHCSP resistentes a puromicina individuales al azar y se cultivaron adicionalmente.

Ensayo para fosfatasa alcalina secretada (SEAP)

Se determinó la actividad de SEAP (Berger et al., 1988, Henthorn et al., 1988, Kain, 1997, Yang et al., 1997) en el medio de cultivo de clones CHO/pSDH-CSP tal como describe el fabricante (kit Clontech Great EscAPe n.º K2041). Brevemente, se inactivó por calor una alícuota de medio a 65ºC, entonces se combinó con tampón de ensayo y sustrato quimioluminiscente CSPD y se incubó a temperatura ambiente durante 10 minutos. Entonces, se determinó la tasa de conversión de sustrato en un luminómetro (Turner 20/20TD). Se determinó la densidad celular realizando el recuento de células tratadas con tripsina en un contador de células Coulter ACT10.

Transfección y cultivo de células U-2 OS con plásmidos pSDH

Se cultivó la línea celular U-2OS de osteosarcoma humano (ATCC n.º HTB-96) en medio de Eagle modificado de Dulbecco + 10% de suero bovino fetal que contenía glutamina, penicilina, y estreptomicina (citado anteriormente) a 37ºC/5% de CO2. Se cotransfectaron las células con el vector pSDH-CMV, y sus derivados que contenían STAR6 o STAR8 en MCSI y MCSII, (junto con plásmido pBabe-Puro) usando SuperFect (citado anteriormente). La selección con puromicina estuvo completa en 2 semanas, tiempo tras el que se aislaron los clones -2 OS/pSDH-CMV resistentes a puromicina individuales al azar y se cultivaron adicionalmente.

Ensayo de luciferasa

Se sometió a ensayo la actividad de luciferasa (Himes y Shannon, 2000) en células resuspendidas según las instrucciones del fabricante del kit de ensayo (Roche 1669893), usando un luminómetro (Turner 20/20TD). Se determinó la concentración total de proteínas celulares mediante el método del ácido bicinconínico según las instrucciones del fabricante (Sigma B-9643), y se usaron para normalizar los datos de luciferasa.

Resultados

Se cultivaron durante 3 semanas clones de células CHO recombinantes que contenían el vector pSDH-CSP, o plásmidos pSDH-CSP que contenían STAR6 o STAR49 (tabla 6). Entonces, se determinó la actividad de SEAP en los sobrenadantes de cultivo, y se expresó basándose en el número de células (figura 8). Tal como puede observarse, se aislaron los clones con elementos STAR en las unidades de expresión que expresaron actividad de SEAP 2-3 veces superior que los clones cuyas unidades de expresión no incluyen elementos STAR. Además, el número de clones que contenían STAR que expresan actividad de SEAP a o por encima de la máxima actividad de los clones sin STAR es bastante alto: del 25% al 40% de las poblaciones de clones con STAR excedieron la expresión de SEAP más alta de los clones con pSDH-CSP.

Se cultivaron durante 3 semanas clones de células U-2 OS recombinantes que contenían el vector pSDH-CMV, o plásmidos pSDH-CMV que contenían STAR6 o STAR8 (tabla 6). Entonces se determinó la actividad de luciferasa en las células hospedadoras, y se expresó como unidades relativas de luciferasa (figura 9), normalizada con respecto a la proteína celular total. Los clones U-2 OS recombinantes con elementos STAR flanqueando las unidades de expresión tuvieron rendimientos superiores que los clones sin STAR: la expresión más alta observada de clones con STAR8 fue 2-3 veces superior a la expresión de clones sin STAR. Los clones con STAR6 tuvieron máximos niveles de expresión 5 veces superiores a los clones sin STAR. Los elementos STAR también confirieron mayor predictibilidad: para ambos elementos STAR, del 15 al 20% de los clones presentaron expresión de luciferasa en niveles comparables a o mayores que los clones sin STAR con el nivel de expresión más alto.

Estos resultados demuestran que, cuando se usa el promotor fuerte de CMV, los elementos STAR aumentan el rendimiento de las proteínas heterólogas (luciferasa y SEAP). Los tres elementos STAR introducidos en este ejemplo proporcionaron rendimientos elevados. El aumento de la predictibilidad conferido por los elementos STAR se manifiesta por la gran proporción de los clones con rendimientos iguales o mayores que los rendimientos más altos mostrados por los clones sin STAR.

Ejemplo 5: Los elementos STAR mejoran la estabilidad de la expresión transgénica

Durante el cultivo de células hospedadoras recombinantes, es práctica común mantener la selección con antibióticos. Se pretende que esto impida el silenciamiento transcripcional del transgén, o la pérdida del transgén del genoma mediante procesos tales como recombinación. Sin embargo, no es deseable para la producción de proteínas, por varias razones. En primer lugar, los antibióticos que se usan son bastante costosos, y contribuyen significativamente al coste unitario del producto. En segundo lugar, para su uso biofarmacéutico, la proteína debe ser pura de forma demostrable, sin trazas del antibiótico en el producto. Una ventaja de los elementos STAR para la producción de proteínas heterólogas es que confieren expresión estable en los transgenes durante el cultivo prolongado, incluso en ausencia de selección con antibióticos; esta propiedad se demuestra en este ejemplo.

Materiales y métodos

Se transfectó la línea celular U-2OS con el plásmido pSDH-Tet-STAR6 y se cultivó tal como se describió en el ejemplo 4. Se aislaron clones resistentes a puromicina individuales y se cultivaron adicionalmente en ausencia de doxiciclina. A intervalos semanales, se transfirieron las células a recipientes de cultivo recién preparado a una dilución de 1:20. Se midió la actividad de luciferasa a intervalos periódicos tal como se describió en el ejemplo 4. Tras 15 semanas, se dividieron los cultivos en dos duplicados; un duplicado continuó hasta recibir puromicina, mientras que el otro duplicado no recibió ningún antibiótico durante el resto del experimento (total de 25 semanas).

Resultados

La tabla 7 presenta los datos en la expresión de luciferasa por una unidad de expresión flanqueada con STAR6 durante crecimiento prolongado con o sin antibiótico. Tal como puede observarse, la expresión del transgén indicador, luciferasa, sigue siendo estable en las células hospedadoras U-2 OS durante la duración del experimento. Tras dividirse los cultivos en dos tratamientos (más antibiótico y sin antibiótico) la expresión de luciferasa fue esencialmente estable en ausencia de selección con antibióticos. Esto demuestra la capacidad de los elementos STAR para proteger los transgenes del silenciamiento o pérdida durante el cultivo prolongado. También demuestra que esta propiedad es independiente de la selección con antibióticos. Por tanto, la producción de proteínas es posible sin incurrir en los costes del antibiótico o la dificultad en el procesamiento posterior.

Ejemplo 6: Secuencias esenciales mínimas de los elementos STAR

Se aislaron los elementos STAR de la selección genética tal como se describe en el presente documento. La selección usa bibliotecas construidas con ADN genómico humano que se sometió a fraccionamiento por tamaño hasta aproximadamente 0,5 - 2 kilobases (citado anteriormente). Los elementos STAR oscilan desde 500 hasta 2361 pares de bases (tabla 6). Es probable que, para muchos de los elementos STAR que se han aislado, se confiere la actividad de STAR mediante un fragmento de ADN más pequeño que el clon aislado inicialmente. Es útil determinar estos tamaños de fragmento mínimos que son esenciales para la actividad de STAR, por dos razones. En primer lugar, unos elementos STAR funcionales más pequeños serían ventajosos en el diseño de vectores de expresión compactos, dado que unos vectores más pequeños transfectan células hospedadoras con eficacia superior. En segundo lugar, la determinación de las secuencias STAR esenciales mínimas permite la modificación de las secuencias para su funcionalidad potenciada. Se han mapeado finamente dos elementos STAR para determinar sus secuencias esenciales mínimas.

Materiales y métodos:

Se han mapeado finamente STAR10 (1167 pares de bases) y STAR27 (1520 pares de bases). Se han amplificado mediante PCR dando subfragmentos de aproximadamente igual longitud (leyenda de la figura 10). Para pruebas iniciales, éstos se han clonado en el vector pSelect en el sitio BamHI, y se transfectaron en células U-2 OS/Tetoff/LexA-HP1. Se ha descrito la construcción de las cepas hospedadoras (van der Vlag et al., 2000). Brevemente, se basan en la línea celular de osteosarcoma humano U-2 OS (Colección Americana de Cultivos Tipo HTB-96). U-2 OS se transfectó de manera estable con el plásmido pTet-off (Clontech K1620-A), que codifica para una quimera de proteína que consiste en el dominio de unión a ADN de represor de Tet y el dominio de transactivación VP16. Posteriormente, se transfecta la línea celular con genes de proteínas de fusión que contienen el dominio de unión a ADN LexA, y las regiones codificantes de o bien HP1 o bien HPC2 (dos proteínas de grupo Polycomb de Drosophila que reprimen la expresión génica cuando se unen a ADN). Los genes del represor LexA están bajo el control del sistema regulador transcripcional de Tet-Off (Gossen y Bujard, 1992). Tras la selección para detectar la resistencia a higromicina, se indujo LexA-HP1 disminuyendo la concentración de doxiciclina. Entonces se incubaron las células transfectadas con zeocina para someter a prueba la capacidad de los fragmentos STAR para proteger la unidad de expresión SV40-Zeo de la represión debido a la unión a LexA-HP1.

Resultados

En este experimento, STAR10 y STAR 27 confirieron buena protección frente al silenciamiento génico, tal como se esperaba (figura 10). Esto se manifiesta por el buen crecimiento en presencia de zeocina.

De los 3 subfragmentos de STAR10, 10A (400 pares de bases) confiere a las células transfectadas crecimiento vigoroso en presencia de zeocina, superando al del elemento STAR de longitud completa. Las células transfectadas con construcciones pSelect que contenían los otros 2 subfragmentos no crecieron en presencia de zeocina. Estos resultados identifican que el fragmento 10A de 400 pares de bases abarca la secuencia de ADN responsable de la actividad de antirrepresión de STAR10.

STAR27 confiere crecimiento moderado en zeocina para las células transfectadas en este experimento (figura 10). Uno de los subfragmentos de este STAR, 27B (500 pares de bases), permite el crecimiento débil de las células hospedadoras en medio que contiene zeocina. Esto sugiere que la actividad de antirrepresión de este STAR se ubica parcialmente en el subfragmento 27B, pero la actividad completa también requiere secuencias de 27A y/o 27C (cada una de 500 pares de bases).

Ejemplo 7: Los elementos STAR funcionan en diversas cepas en células de mamífero cultivadas

La elección de la línea celular huésped para la expresión de la proteína (heteróloga) es un parámetro crítico para la calidad, rendimiento y coste unitario de la proteína. Consideraciones tales como modificaciones tras la traducción, previsibilidad, ruta de secreción, inmortalidad de la línea celular establecen la línea celular apropiada para un sistema de producción biofarmacéutica particular. Por esta razón, las ventajas proporcionadas por los elementos STAR en cuanto a rendimiento, previsibilidad y estabilidad deben obtenerse de diversas líneas celulares. Esto se sometió a prueba comparando la función de STAR6 en la línea celular U-2 OS humana en la que se clonó originariamente, y en la línea celular CHO que se aplica ampliamente en biotecnología.

Materiales y métodos:

Se hace referencia a los experimentos del ejemplo 4.

Resultados

En la figura 8 se presenta la expresión del gen indicador de SEAP en células CHO; en la figura se presenta la expresión del gen indicador de luciferasa en las células U-2 OS. Al comparar los resultados de estos dos experimentos, es evidente que el elemento STAR6 es funcional en ambas líneas celulares: la expresión del gen indicador era más predecible en ambos, y los clones de cada línea celular presentaron rendimientos superiores, cuando se protegió el gen indicador de los efectos de posición con STAR6. Estas dos líneas celulares se derivan de diferentes especies (ser humano y hámster) y diferentes tipos de tejido (hueso y ovario), lo que refleja la amplia variedad de células hospedadoras en que puede utilizarse este elemento STAR en la mejora de la expresión de proteínas heterólogas.

Ejemplo 8: Los elementos STAR funcionan en el contexto de diversos promotores transcripcionales

La transcripción transgénica se logra colocando el marco de lectura abierto del transgén bajo el control de un promotor exógeno. La elección del promotor está influida por la naturaleza de la proteína (heteróloga) y el sistema de producción. En la mayoría de los casos, se prefieren promotores constitutivos fuertes debido a los altos rendimientos que pueden proporcionar. Algunos promotores virales tienen estas propiedades; el promotor/potenciador del gen temprano inmediato de citomegalovirus (“promotor de CMV”) se considera generalmente como el promotor más fuerte en el uso biotecnológico común (Boshart et al., 1985, Doll et al., 1996, Foecking y Hofstetter, 1986). El promotor de virus de simio SV40 también es moderadamente fuerte (Boshart et al., 1985, Foecking y Hofstetter, 1986) y se usa frecuentemente para la expresión ectópica en vectores de células de mamífero. El promotor Tet-Off es inducible: el promotor se reprime en presencia de tetraciclina o antibióticos relacionados (se usa comúnmente doxiciclina) en líneas celulares que expresan el plásmido tTA (Clontech K1620A), y la eliminación del antibiótico da como resultado la inducción transcripcional (Deuschle et al., 1995, Gossen y Bujard, 1992, Izumi y Gilbert, 1999, Umana et al., 1999).

Materiales y métodos:

La construcción de los vectores pSDH-Tet y pSDH-CMV se describe en el ejemplo 4. pSDH-SV40 se deriva, entre otros, de pSelect-SV40-zeo. El vector de selección para los elementos STAR, pSelect-SV40-zeo se construye tal como sigue: se usa el vector pREP4 (Invitrogen V004-50) como la estructura principal del plásmido. Proporciona el origen de replicación oriP de Epstein Barr y el antígeno nuclear EBNA-1 para la replicación episómica de alta copia en líneas celulares de primate; el gen de resistencia a higromicina con el promotor de timidina cinasa y el sitio de poliadenilación, para la selección en células de mamíferos; y el gen de resistencia a ampicilina y el origen de replicación colE1 para su mantenimiento en Escherichia coli. El vector contiene cuatro sitios operadores LexA consecutivos entre los sitios de restricción XbaI y NheI (Bunker y Kingston, 1994). Insertado entre los operadores LexA y el sitio NheI está un poliligador que consiste en los siguientes sitios de restricción: HindIII-AscIBamHI-AscI-HindIII. Entre el sitio NheI y un sitio SAlI está el gen de resistencia a zeocina con el promotor de SV40 y el sitio de poliadenilación, derivado de pSV40/Zeo (Invitrogen V502-20); éste es el marcador seleccionable para la selección de STAR.

Se construyó pSDH-SV40 mediante amplificación por PCR del promotor de SV40 (cebadores D41 y D42) del plásmido pSelect-SV40-Zeo, seguido por la digestión del producto de PCR con SacII y SalI. Se digirió el vector pSDH-CMV con SacII y SalI para eliminar el promotor de CMV, y se ligaron juntos el vector y el fragmento de SV40 para crear pSDH-SV40. Se clonó STAR6 en MCSI y MCSII tal como se describió en el ejemplo 4. Se cotransfectaron los plásmidos pSDH-Tet, pSDH-Tet- STAR6, pSDH-Tet-STAR7, pSDH-SV40 y pSDH-SV40-STAR6 con pBabe-Puro en U-2 OS usando SuperFect tal como describe el fabricante. El cultivo celular, la selección con puromicina y los ensayos de luciferasa se llevaron a cabo tal como se describió en el ejemplo 4.

Resultados

Las figuras 9, 11 y 12 comparan la expresión del gen indicador de luciferasa de 3 promotores diferentes: dos promotores virales fuertes y constitutivos (CMV y SV40), y el promotor Tet-Off inducible. Se sometieron a prueba los tres promotores en el contexto del elemento STAR6 en células U-2 OS. Los resultados demuestran que el rendimiento y la previsibilidad de los 3 promotores están aumentados por STAR6. Tal como se describió en los ejemplos 4 y 7, STAR6 es beneficioso en el contexto del promotor de CMV (figura 9). Se observan mejoras similares en el contexto del promotor de SV40 (figura 11): el rendimiento del clon con STAR6 de más alta expresión es 2-3 veces mayor que los mejores clones con pSDH-SV40, y 6 clones con STAR (20% de la población) tienen rendimientos superiores a los clones sin STAR. En el contexto del promotor Tet-Off en concentraciones de inducción (baja doxiciclina), STAR6 también mejora el rendimiento y la previsibilidad de la expresión transgénica (figura 12): el clon con STAR6 de más alta expresión tiene un rendimiento de 20 veces superior al mejor clon con pSDH-Tet, y 9 clones con STAR6 (35% de la población) presentan rendimientos superiores al mejor clon con STAR. Se concluye que este elemento STAR es versátil en sus propiedades protectoras de transgén, dado que funciona en el contexto de diversos promotores de transcripción biotecnológicamente útiles.

Ejemplo 9: La función del elemento STAR puede ser direccional

Aunque las secuencias de ácido nucleico cortas pueden ser simétricas (por ejemplo, palindrómicas), las secuencias que se producen de manera natural más largas normalmente son asimétricas. Como resultado, el contenido de la información de las secuencias de ácido nucleico es direccional, y las propias secuencias pueden describirse con respecto a sus extremos 5’ y 3’. La direccionalidad de la información de la secuencia de ácido nucleico afecta a la disposición en la que se ensamblan las moléculas de ADN recombinante usando técnicas de clonación convencionales conocidas en la técnica (Sambrook et al., 1989). Los elementos STAR son secuencias de ADN asimétricas largas y tienen una direccionalidad basada en la orientación en la que se clonaron originariamente en el vector pSelect. En los ejemplos facilitados anteriormente, usando dos elementos STAR en vectores pSDH, se conservó esta direccionalidad. Esta orientación se describe como la orientación nativa o de 5’- 3’, en relación con el gen de resistencia a zeocina (véase la figura 13). En este ejemplo, la importancia de la direccionalidad para la función STAR se somete a prueba para la función STAR en el vector pSDH-Tet. Dado que los genes indicadores en los vectores pSDH están flanqueados en ambos lados por copias del elemento STAR de interés, debe considerarse la orientación de cada copia de STAR. Este ejemplo compara la orientación nativa con la orientación opuesta (figura 13).

Materiales y métodos:

Se clonó el elemento STAR66 en pSDH-Tet tal como se describió en el ejemplo 4. Se cotransfectaron las células U2 OS con plásmidos pSDH-Tet-STAR66-nativo y pSDH-Tet-STAR66-opuesto, y se cultivaron tal como se describe en el ejemplo 4. Se aislaron clones individuales y se cultivaron; se determinó el nivel de expresión de luciferasa tal como se ha descrito (citado anteriormente).

Resultados

Los resultados de la comparación de la actividad de STAR66 en la orientación nativa y la orientación opuesta se muestran en la figura 14. Cuando STAR66 está en la orientación opuesta, el rendimiento de sólo un clon es razonablemente alto (60 unidades de luciferasa). Por el contrario, el rendimiento del clon de más alta expresión cuando STAR66 está en la orientación nativa es considerablemente superior (100 unidades de luciferasa), y la previsibilidad también es mucho más alta: 7 clones de la población de orientación nativa (30%) expresan luciferasa por encima del nivel del clon de más alta expresión de la población de orientación opuestas, y 15 de los clones en la población de orientación nativa (60%) expresan luciferasa por encima de 10 unidades relativas de luciferasa.

Por tanto, se demuestra que la función de STAR66 es direccional.

Ejemplo 10: La expresión transgénica en el contexto de los elementos STAR depende del número de copias

Las unidades de expresión transgénica para la expresión de proteínas (heterólogas) se integran generalmente en el genoma de la célula huésped para garantizar la conservación estable durante la división celular. La integración puede dar como resultado que se inserte en el genoma una o múltiples copias de la unidad de expresión; pueden estar o no presentes múltiples copias como series en tándem. El aumento del rendimiento demostrado para los transgenes protegidos con elementos STAR (citado anteriormente) sugiere que los elementos STAR pueden permitir que las unidades de expresión transgénicas funcionen independientemente de las influencias de la transcripción asociadas con el sitio de integración en el genoma (independencia de los efectos de posición (Boivin y Dura, 1998). Sugiere además que los elementos STAR permitan que cada unidad de expresión funcione independientemente de las copias vecinas de la unidad de expresión cuando se integran como una serie en tándem (independencia del silenciamiento génico inducido por repeticiones (Garrick et al., 1998)). La dependencia del número de copias se determina a partir de la relación entre los niveles de expresión transgénica y el número de copias, tal como se describe a continuación.

Materiales y métodos:

Se cotransfectaron células U-2 OS con pSDH-Tet-STAR10 y se cultivaron con selección de puromicina tal como se ha descrito (citado anteriormente). Se aislaron ocho clones individuales y se cultivaron adicionalmente. Entonces, se recogieron las células, y se sometió a ensayo una parte para determinar la actividad de luciferasa tal como se ha descrito (citado anteriormente). Se lisaron las células restantes y se purificó el ADN genómico usando el kit de tejidos DNeasy (QIAGEN 69504) tal como describe el fabricante. Se cuantificaron las muestras de ADN mediante espectrometría UV. Se digirieron tres microgramos de cada muestra de ADN genómico con PvuII y XhoI durante la noche tal como describe el fabricante (New England Biolabs), y se resolvió mediante electroforesis en gel de agarosa. Se transfirieron los fragmentos de ADN a una membrana de nailon tal como se ha descrito (Sambrook et al., 1989), y se hibridaron con una sonda marcada de manera radioactiva para la determinación del gen de luciferasa (aislado de pSDH-Tet digerido con BamHI/SacII). Se lavó la inmunotransferencia tal como se ha descrito (Sambrook et al., 1989) y se expuso a una pantalla del sistema de detección y cuantificación de la radioactividad ("Phosphorimager") (Personal F/X, BioRad). Se analizó el autorradiograma resultante (figura 15) mediante densitometría para determinar la fuerza de las bandas de ADN de luciferasa, lo que representa el número de copias del transgén.

Resultados

Las actividades enzimáticas y los números de copia (fuerzas de banda de ADN) de la luciferasa en los clones de la población de clones con pSDHTet- STAR10 se muestran en la figura 16. El número de copias del transgén está altamente correlacionado con el nivel de expresión de luciferasa en estos clones con pSDH-Tet-STAR10 (r = 0,86). Esto sugiere que STAR10 confiere dependencia del número de copias en las unidades de expresión transgénicas, haciendo la expresión transgénica independiente de otras copias de transgenes en series en tándem, e independiente de las influencias del silenciamiento génico en el sitio de integración.

Ejemplo 11: Los elementos STAR funcionan como bloqueadores de potenciadores pero no como potenciadores

Los promotores génicos se someten tanto a influencias positivas como negativas en su capacidad para iniciar la transcripción. Una clase importante de elementos que ejercen influencias positivas son los potenciadores. Los potenciadores pueden afectar de manera característica a los promotores incluso cuando se ubican lejos (muchos pares de kilobases) del promotor. Las influencias negativas que actúan por la formación de heterocromatina (por ejemplo, proteínas del grupo Polycomb) se han descrito anteriormente, y constituyen el objetivo de la actividad de STAR. La base bioquímica para la función del potenciador y para la formación de heterocromatina es fundamentalmente similar, dado que ambos implican la unión de proteínas al ADN. Por tanto, es importante determinar si los elementos STAR pueden bloquear las influencias positivas así como las influencias negativas, en otras palabras, para proteger los transgenes de potenciadores genómicos en las proximidades del sitio de integración. La capacidad para proteger a los transgenes de la actividad del potenciador garantiza el rendimiento estable y predecible de los transgenes en aplicaciones biotecnológicas. Este ejemplo examina el rendimiento de los elementos STAR en un ensayo de bloqueo de potenciador.

Otra característica de la actividad de STAR que es importante para su función es el rendimiento aumentado que confieren a los transgenes (ejemplo 4). Los STAR se aíslan basándose en su capacidad para mantener altos niveles de expresión de zeocina cuando las proteínas que forman la heterocromatina se unen adyacentes a los elementos STAR candidatos. Se pronostica que se produzca la alta expresión porque se prevé que los STAR bloqueen la expansión de la heterocromatina en la unidad de expresión de zeocina. Sin embargo, un segundo caso es que los fragmentos de ADN en los clones resistentes a zeocina contengan potenciadores. Se ha demostrado que los potenciadores tienen capacidad para superar los efectos represores de las proteínas del grupo Polycomb tales como las usadas en el método de la selección de STAR (Zink y Paro, 1995). Los potenciadores aislados mediante este fenómeno se considerarían falsos positivos, dado que los potenciadores no tienen las propiedades reivindicadas en este caso para STAR. Con el fin de demostrar que los elementos STAR no son potenciadores, se han sometido a prueba en un ensayo de potenciador.

El ensayo de bloqueo de potenciador y el ensayo de potenciador son metodológica y conceptualmente similares. Estos ensayos se muestran de manera esquemática en la figura 17. La capacidad de los elementos STAR para bloquear potenciadores se realiza usando el sistema de potenciador E47/caja E. La proteína E47 puede activar la transcripción mediante promotores cuando se une a una secuencia de ADN de caja E ubicada en las proximidades de los promotores (Quong et al., 2002). E47 normalmente está implicada en la regulación de la diferenciación de linfocitos B y T (Quong et al., 2002), pero puede funcionar en diversos tipos de células cuando se expresa de manera ectópica (Petersson et al., 2002). La caja E es una secuencia palindrómica de ADN, CANNTG (Knofler et al., 2002). En el ensayo de bloqueo de potenciador, se coloca una caja E en el sentido de 5’ del gen indicador de luciferasa (incluyendo un promotor mínimo) en un vector de expresión. Se coloca un sitio de clonación para los elementos STAR entre la caja E y el promotor. La proteína E47 está codificada en un segundo plásmido. El ensayo se realiza transfectando tanto el plásmido de E47 como el vector de expresión de luciferasa en células; la proteína E47 se expresa y se une a la caja E, y el complejo E47/caja E puede actuar como un potenciador. Cuando el vector de expresión de luciferasa no contienen un elemento STAR, el complejo E47/caja E potencia la expresión de luciferasa (figura 17A, situación 1). Cuando los elementos STAR se insertan entre la caja E y el promotor, su capacidad `para bloquear el potenciador se demuestra mediante la expresión reducida de la actividad luciferasa (figura 17A, situación 2); si los STAR no pueden bloquear a los potenciadores, se activa la expresión de luciferasa (figura 17A, situación 3).

La capacidad de los elementos STAR para actuar como potenciadores utiliza el mismo vector de expresión de luciferasa. En ausencia de E47, la propia caja E no afecta a la transcripción. En cambio, el comportamiento del potenciador por los elementos STAR dará como resultado la activación de la transcripción de luciferasa. El ensayo se realiza transfectando el vector de expresión de luciferasa sin el plásmido de E47. Cuando el vector de expresión no contiene elementos STAR, la expresión de luciferasa es baja (figura 17B, situación 1). Si los elementos STAR no tienen propiedades potenciadoras, la expresión de luciferasa es baja cuando está presente un elemento STAR en el vector (figura 17B, situación 2). Si los elementos STAR no tienen propiedades potenciadoras, la expresión de luciferasa se activará en los vectores que contienen STAR (figura 17B, situación 3).

Materiales y métodos:

Se construyó el vector de expresión de luciferasa insertando la caja E y un promotor mínimo de fosfatasa alcalina humana del plásmido mu-E5+E2x6-cat(x) (Ruezinsky et al., 1991) en el sentido de 5’ del gen de luciferasa en el plásmido pGL3-básico (Promega E1751), para crear pGL3-caja E-luciferasa (donación de W. Romanow). El plásmido de expresión de E47 contiene el marco de lectura abierto de E47 bajo el control de un promotor de betaactina en el plásmido pHBAPr-1-neo; E47 se expresa constitutivamente a partir de este plásmido (donación de W. Romanow).

Se han clonado los elementos STAR 1, 2, 3, 6, 10, 11, 18, y 27 en el vector de expresión de luciferasa. Se han incluido como controles positivos los clones que contienen el elemento scs de Drosophila y se ha incluido el elemento de núcleo HS4-6x de beta-globina de pollo (“HS4”) (se sabe que bloquean potenciadores, y que no tienen propiedades potenciadoras intrínsecas (Chung et al., 1993, Kellum y Schedl, 1992)), y se ha incluido el vector de expresión de luciferasa vacío como control negativo. Todos los ensayos se realizaron usando la línea celular U-2OS. En el ensayo de bloqueo de potenciador, se cotransfectó el plásmido de E47 con los vectores de expresión de luciferasa (vector vacío, o que contenía STAR o elementos de control positivo). En el ensayo de potenciador, se cotransfectó el plásmido de E47 con vector de expresión de luciferasa sin STAR como control positivo para determinar la actividad del potenciador; el resto de las muestras recibió un plásmido de simulación durante la cotransfección. Se sometieron a ensayo las células transfectadas de manera transitoria para determinar la actividad de luciferasa 48 horas tras la transfección de plásmidos (citado anteriormente). Se restó la actividad de luciferasa expresada de un plásmido que no contiene ni caja E ni elementos STAR/de control, y se normalizaron las actividades de luciferasa con respecto al contenido de proteínas tal como se ha descrito (citado anteriormente).

Resultados

La figura 18 muestra los resultados del ensayo de bloqueo de potenciador. En ausencia de elementos STAR (o los elementos de bloqueo de potenciador conocidos scs y HS4), el complejo potenciador de E47/caja E activa la expresión de luciferasa (“vector”); este nivel potenciado de la expresión se ha normalizado a 100. La actividad potenciadora la bloquean todos los elementos STAR sometidos a prueba. La actividad potenciadora también se bloquea por los elementos HS4 y scs, tal como se esperaba (Bell et al., 2001, Gerasimova y Corces, 2001). Estos resultados demuestran que además de su capacidad para bloquear la expansión del silenciamiento transcripcional (influencias negativas), los elementos STAR pueden bloquear la acción de los potenciadores (influencias positivas).

La figura 19 muestra los resultados del ensayo de potenciador. El nivel de expresión de luciferasa debido a la potenciación mediante el complejo E47/caja E se fija a 100 (“E47”). En comparación, ninguno de los elementos STAR produce activación significativa de la expresión de luciferasa. Tal como se esperaba, los elementos scs y HS4 tampoco producen activación del gen indicador. Por tanto, se concluye que al menos los elementos STAR sometidos a prueba no tienen propiedades potenciadoras.

Ejemplo 12: Los elementos STAR están conservados entre el ratón y el ser humano

El análisis BLAT de la secuencia de ADN de STAR en la base de datos del genoma humano (http://genome.ucsc.edulcgibin/hgGateway) revela que algunas de estas secuencias tienen alta conservación de secuencia con otras regiones del genoma humano. Estas regiones duplicadas son elementos STAR candidatos; si no muestran actividad de STAR, se considerarían parálogos de los STAR clonados (se dice que dos genes o elementos genético son parálogos si se derivan de un acontecimiento de duplicación (Li, 1997)).

El análisis de BLAST de los STAR humanos en el genoma del ratón (http://www.ensembl.org/Mus_musculus/blastview) también revela regiones de alta conservación de secuencia entre el ratón y el ser humano. Esta conservación de secuencia se ha demostrado para fragmentos de 15 de los 65 elementos STAR humanos. La conservación oscila desde el 64% hasta el 89%, en longitudes de 141 pares de bases a 909 pares de bases (tabla 8). Estos grados de conservación de secuencia son notables y sugieren que estas secuencias de ADN pueden conferir actividad de STAR también dentro del genoma de ratón. Algunas de las secuencias de los genomas de ratón y ser humano en la tabla 8 podrían definirse estrictamente como ortólogas (se dice que dos genes o elementos genéticos son ortólogos si se derivan de un acontecimiento de especiación (Li, 1997)). Por ejemplo, STAR6 está entre los genes SLC8A1 y HAAO tanto en genomas de humano como de ratón. En otros casos, un STAR humano clonado tiene un parálogo dentro del genoma humano, y su ortólogo se ha identificado en el genoma de ratón. Por ejemplo, STAR3a es un fragmento de la región 15q11.2 del cromosoma 15 humano. Esta región es idéntica en un 96,9% (paráloga) con un fragmento de ADN a 5q33.3 en el cromosoma 5 humano, que está cerca del gen de interleucina IL12B. Estos ADN humanos comparten aproximadamente el 505 de identidad con un fragmento de la región 11B2 en el cromosoma 11 de ratón, El fragmento 11B2 también está cerca del gen de interleucina IL12B (ratón). Por tanto, STAR3a y el fragmento 11B2 de ratón pueden definirse estrictamente como parálogos. Con el fin de someter a prueba la hipótesis de que la actividad de STAR está compartida entre las regiones de alta conservación de secuencia en el genoma de ratón y ser humano, se ha analizado en gran detalle uno de los STAR humanos con una secuencia conservada de ratón, STAR18. La conservación de secuencia en el genoma de ratón detectado con el clon STAR18 original se extiende hacia la izquierda en el cromosoma 2 humano durante aproximadamente 500 pares de bases (figura 20; izquierda y derecha en relación con la descripción convencional de los brazos del cromosoma 2). En este ejemplo, se examina si la región de conservación de secuencia define un elemento STAR “que se produce de manera natural” en ser humano que es más extenso en longitud que el clon original. También se examina si la función de STAR de este elemento STAR está conservada entre el ratón y el ser humano.

Materiales y métodos

Se recuperó la región de conservación de secuencia de ratón/ser humano alrededor de STAR 18 del clon BAC humano RP11-387A1 mediante amplificación por PCR, en tres fragmentos: la región entera (cebadores E93 y E94), la mitad hacia la izquierda (cebadores E93 y E92), y la mitad hacia la derecha (cebadores E57 y E94). Se recuperaron los fragmentos correspondientes de la región de ratón homóloga del clon BAC RP23-400H17 de la misma manera (cebadores E95 y E98, E95 y E96, y E97 y E98, respectivamente). Se clonaron todos los fragmentos en el vector pSelect y se transfectaron en una línea celular U-2 OS/Tet-Off/LexA-HP1 (citado anteriormente). Tras la transfección, se llevó a cabo la selección con higromicina para seleccionar las células transfectadas. Se indujo la proteína LexA-HP1 disminuyendo la concentración de doxiciclina, y se evaluó la capacidad de las células transfectadas para soportar el antibiótico zeocina (una medida de la actividad de STAR) monitorizando el crecimiento celular.

Resultados

Se aisló el clon STAR18 original del ADN humano digerido con Sau3AI ligado en el vector pSelect basándose en su capacidad para impedir el silenciamiento de un gen de resistencia a zeocina. La alineación del clon STAR18 humano (497 pares de bases) con el genoma del ratón reveló alta similitud de secuencia (72%) entre las regiones STAR18 de ser humano y de ratón ortólogas. También se revela una alta similitud (73%) en la región que se extiende 488 pares de bases inmediatamente hacia la izquierda del sitio Sau3AI que define el extremo izquierdo de la región clonada (figura 22). Fuera de estas regiones, la similitud de secuencia entre el ADN de ser humano y ratón disminuye por debajo del 60%.

Tal como se indica en la figura 20, tanto los elementos STAR18 de ser humano como de ratón confieren supervivencia en zeocina a las células hospedadoras que expresan la proteína represora lexA-HP1. El clon STAR18 de 497 pares de bases original y su ortólogo confieren ambos la capacidad para crecer (figura 20, a y d). Las regiones de 488 pares de bases adyacentes de alta similitud de ambos genomas también confieren la capacidad para crecer, y de hecho, su fenotipo de crecimiento es más vigoroso que el del clon STAR18 original (figura 20, b y e). Cuando se sometió a prueba toda la región de similitud de secuencia, estos ADN tanto de ratón como de ser humano confieren crecimiento, y el fenotipo de crecimiento es más vigoroso que los dos subfragmentos (figura 20, c y f). Estos resultados demuestran que la actividad de STAR de STAR18 humano se conserva en su ortólogo de ratón. La conservación de secuencia más alta, entre estas regiones ortólogas es particularmente de interés porque no son secuencias que codifican para proteínas, lo que conduce a la conclusión que tienen alguna función reguladora que impide su evolución y divergencia a través de la mutación.

Este análisis demuestra que los elementos STAR clonados identificados por el programa de selección original pueden representar en algunos casos elementos STAR parciales, y que el análisis del ADN genómico en el que están insertados puedan identificar secuencias con una actividad de STAR mayor.

Ejemplo 13: Los elementos STAR contienen motivos de secuencia de ADN característicos

Se aislaron elementos STAR basándose en su fenotipo de antirrepresión con respecto a la expresión transgénica. Este fenotipo de antirrepresión refleja procesos bioquímicos subyacentes que regulan la formación de cromatina que se asocia con los elementos STAR. Estos procesos normalmente son específicos de secuencia y resultan de la unión a proteínas o de la estructura del ADN. Esto sugiere que los elementos STAR compartirán similitud de secuencias de ADN. La identificación de similitud de secuencia entre los elementos STAR proporcionará motivos de secuencia que son característicos de los elementos que ya se han identificado mediante selecciones y pruebas funcionales. También será útil reconocer los motivos de secuencia y reivindicar nuevos elementos STAR cuyas funciones se ajusten a las reivindicaciones de esta patente. Las funciones incluyen rendimiento y estabilidad mejorada de los transgenes expresados en células hospedadoras eucariotas.

Otros beneficios de identificar los motivos de secuencia que caracterizan a los elementos STAR incluyen: (1) proporcionar motivos de búsqueda para predicción e identificación de nuevos elementos STAR en bases de datos de genoma, (2) proporcionar un fundamento para la modificación de los elementos, y (3) proporcionar información para el análisis funcional de actividad de STAR. Usando bioinformática, se han identificado las similitudes de secuencia entre elementos STAR; se presentan los resultados en este ejemplo.

Contexto bioinformático y estadístico. Los elementos de ADN reguladores funcionan normalmente mediante la interacción con proteínas de unión a ADN específicas de secuencias. El análisis bioinformático de los elementos de ADN tales como los elementos STAR cuyas propiedades reguladoras se han identificado, pero cuyas proteínas de interacción son desconocidas, requiere un enfoque estadístico para la identificación de motivos de secuencia. Esto puede lograrse mediante un método que detecta patrones de secuencia de ADN cortos que están sobrerrepresentados en un conjunto de elementos de ADN reguladores (por ejemplo los elementos STAR) en comparación con una secuencia de referencia (por ejemplo el genoma humano completo). El método determina el número de apariciones observadas y esperadas de los patrones en cada elemento regulador. Se calcula el número de apariciones esperadas a partir del número de apariciones observadas de cada patrón en la secuencia de referencia.

Los patrones de secuencias de ADN pueden ser oligonucleótidos de una longitud dada, por ejemplo seis pares de bases. En el análisis más sencillo, para un oligonucleótido de 6 pares de bases (hexámero) compuesto por los cuatro nucleótidos (A, C, G, y T) existen 46 = 4096 oligonucleótidos distinto (todas las combinaciones desde AAAAAA hasta TTTTTT). Si las secuencias de referencia y reguladoras fueran completamente al azar y tuvieran proporciones iguales de los nucleótidos A, C, G, y T, entonces la frecuencia esperada de cada hexámero sería 1/4096 (0,00024). Sin embargo, la frecuencia real de cada hexámero en la secuencia de referencia normalmente es diferente de esto debido a sesgos en el contenido de pares de bases G:C, etc. Por tanto, se determina empíricamente la frecuencia de cada oligonucleótido en la secuencia de referencia mediante recuento, para crear una “tabla de frecuencias” para los patrones.

Entonces, se usa la tabla de frecuencias de patrones de la secuencia de referencia para calcular la frecuencia de aparición esperada de cada patrón en el conjunto de elementos reguladores. Se comparan las frecuencias esperadas con las frecuencias de aparición observadas de los patrones. Se identifican los patrones que están “sobrerrepresentados” en el grupo; por ejemplo, si se espera que el hexámero ACGTGA se produzca 5 veces en pares de secuencias de 20 kilobases, pero se observa que se produce 15 veces, entonces está sobrerrepresentado el triple. No se esperarían diez de las 15 apariciones de ese patrón de secuencia hexamérica en los elementos reguladores si los elementos tuvieran la misma composición de hexámero que la del genoma completo. Una vez identificados los patrones sobrerrepresentados, se aplica una prueba estadística para determinar si su sobrerrepresentación es significativa, o puede deberse a la casualidad. Para esta prueba, se calcula un índice de significación, “sig”, para cada patrón. El índice de significación se deriva de la probabilidad de aparición de cada patrón, que se estima mediante una distribución binomial. La probabilidad tiene en cuenta el número de patrones posibles (4096 para hexámeros). Los valores sig más altos corresponden a los oligonucleótidos más sobrerrepresentados (van Helden et al., 1998). En términos prácticos, los oligonucleótidos con sig >= 0 se consideran sobrerrepresentados. Es probable que un patrón con sig >= 0 esté sobrerrepresentado debido a la casualidad una vez (=100) en el conjunto de secuencias de elementos reguladores. Sin embargo, en sig >= 1 se espera que un patrón esté sobrerrepresentado una vez en diez (=101) conjuntos de secuencias, sig >= 2 una vez en 100 (=102) grupos de secuencias, etc.

Los patrones que están significativamente sobrerrepresentados en el conjunto de elementos reguladores se usan para desarrollar un modelo para la clasificación y predicción de secuencias de elementos reguladores. Esto emplea el análisis discriminante, denominado método “supervisado” de clasificación estadística conocido por el experto habitual en la técnica (Huberty, 1994). En el análisis discriminante, se usan conjuntos de elementos clasificados o conocidos (por ejemplo elementos STAR) para “entrenar” a un modelo para que reconozca esos elementos basándose en variables específicas (por ejemplo patrones de secuencia tales como hexámeros). Entonces, se usa el modelo entrenado para predecir si otros elementos deben clasificarse como pertenecientes al conjunto de elementos conocidos (por ejemplo es una secuencia de ADN un elemento STAR). En este ejemplo, los elementos conocidos en el conjunto de entrenamiento son elementos STAR (conjunto de entrenamiento positivo). Se comparan con secuencias que se seleccionan al azar del genoma (conjunto de entrenamiento negativo) que tienen la misma longitud que los elementos STAR. El análisis discriminante establece criterios para discriminar positivos de negativos basándose en un conjunto de variables que distinguen los positivos; en este ejemplo, las variables son los patrones sobrerrepresentados significativamente (por ejemplo hexámeros).

Cuando el número de patrones sobrerrepresentados es alto en comparación con el tamaño del conjunto de entrenamiento, el modelo podría sesgarse debido a un sobreentrenamiento. Se elude el sobreentrenamiento mediante la aplicación de una selección de variables gradual hacia delante (Huberty, 1994). El objetivo del análisis discriminante gradual es seleccionar el número mínimo de variables que proporcione máxima discriminación entre los positivos y negativos. Se entrena el modelo evaluando variables una por una para determinar su capacidad para clasificar apropiadamente los elementos en los conjuntos de entrenamiento positivo y negativo. Esto se realiza hasta que la adición de nuevas variables al modelo no aumenta significativamente el poder predictivo del modelo (es decir hasta que se minimiza la tasa del error de clasificación). Entonces, se usa este modelo optimizado para someter a prueba, con el fin de predecir si los elementos “nuevos” son positivos o negativos (Huberty, 1994).

Es inherente en estadística de clasificación que para elementos complejos tales como secuencias de ADN, algunos elementos del conjunto de entrenamiento positivo se clasificarán como negativos (falsos negativos), y algunos miembros del conjunto de entrenamiento negativo se clasificarán como positivos (falsos positivos). Cuando se aplica un modelo entrenado para someter a prueba nuevos elementos, se espera que se produzcan los mismos tipos de clasificaciones erróneas. En el método bioinformático descrito en este caso, la primera etapa, el análisis de frecuencia de patrones, reduce un gran conjunto de patrones de secuencia (por ejemplo los 4096 hexámeros) a un conjunto más pequeño de patrones sobrerrepresentados significativamente (por ejemplo 100 hexámeros); en la segunda etapa, el análisis discriminante gradual reduce el conjunto de patrones sobrerrepresentados a un subconjunto de patrones que tienen máximo poder discriminante (por ejemplo 5-10 hexámeros). Por tanto, este enfoque proporciona criterios sencillos y robustos para identificar elementos de ADN reguladores tales como elementos STAR.

Las proteínas que se unen al ADN pueden distinguirse basándose en el tipo de sitio de unión que ocupan. Algunas reconocen secuencias contiguas; para este tipo de proteína, son provechosos los patrones que son oligonucleótidos de 6 pares de bases de longitud (hexámeros) para el análisis bioinformático (van Helden et al., 1998). Otras proteínas se unen a díadas de secuencia: se establece contacto entre pares de trinucleótidos altamente conservados separados por una región no conservada de ancho fijo (van Helden et al., 2000). Con el fin de identificar secuencias en los elementos STAR que pueden unirse mediante proteínas que se unen a díadas, también se realizó análisis de frecuencia para este tipo de patrón, donde el espaciado entre los dos trinucleótidos se varió desde 0 hasta 20 (es decir XXXN{0-20}XXX en el que X son nucleótidos específicos que componen los trinucleótidos, y N son nucleótidos al azar desde 0 hasta 20 pares de bases de longitud). También se usan los resultados del análisis de frecuencia de díadas para el análisis discriminante lineal tal como se describió anteriormente.

Materiales y métodos

Usando la selección genética descrita en el presente documento y en el documento EP 01202581,3, se aislaron inicialmente sesenta y seis (66) elementos STAR de ADN genómico humano y se caracterizaron en detalle (tabla 6). Se llevó a cabo la selección en bibliotecas génicas construidas por digestión con Sau3AI de ADN genómico humano,

o bien purificado de placenta (Clontech 6550-1) o bien portado en cromosomas artificiales (BAC/PAC) de bacteria/P1. Los clones BAC/PAC contienen ADN genómico de las regiones del cromosoma 1 (clones RP1154H19 y RP3328E19), de la agrupación de genes homeóticos HOX (clones RP1167F23, RP1170019, y RP11387A1), o del cromosoma humano 22 (Research Genetics 96010-22). Se sometieron a fraccionamiento por tamaño los ADN, y se ligó la fracción de tamaño 0,5-2 kb a un vector pSelect digerido con BamHI mediante técnicas convencionales (Sambrook et al., 1989). Se aislaron plásmidos pSelect que contenían ADN genómico humano que les confirió resistencia a zeocina a bajas concentraciones de doxiciclina y se propagaron en Escherichia coli. Las selecciones que produjeron los elementos STAR de la tabla 6 se sometieron a ensayo aproximadamente en el 1-2% del genoma humano.

Se secuenciaron insertos de ADN genómico humano en estos 66 plásmidos mediante el método de didesoxi (Sanger et al., 1977) usando un secuenciador de ADN automatizado Beckman CEQ2000, usando las instrucciones del fabricante. Brevemente, se purificó el ADN de E. coli usando kits QIAprep Spin Miniprep y Plasmid Midi (QIAGEN 27106 y 12145, respectivamente). Se llevó a cabo la secuenciación en ciclos usando oligonucleótidos a medida que corresponden al vector pSelect (cebadores D89 y D95, tabla 1), en presencia de terminador con colorante (CEQ Dye Terminador Cycle Sequencing Kit, Beckman 608000). Se localizaron las secuencias de ADN STAR ensambladas en el genoma humano (compilación de bases de datos de agosto y diciembre de 2001) usando BLAT (Herramienta de alineación local básica, “Basic Local Alignment Tool” (Kent, 2002); http://genome.ucsc.edu/cgi-bin/hgGateway; tabla 6). En total, las secuencias combinadas STAR comprenden 85,6 pares de kilobases, con una longitud promedio de 1,3 pares de kilobases.

Se identificaron motivos de secuencia que distinguen los elementos STAR dentro del ADN genómico humano mediante el análisis bioinformático usando un procedimiento de 2 etapas, tal como sigue (véase en la figura 21 un diagrama esquemático). El análisis tiene dos conjuntos de datos de entrada: (1) las secuencias de ADN de los elementos STAR (se usaron STAR1 - STAR65; tabla 6); y (2) la secuencia de ADN del genoma humano (a excepción del cromosoma 1, que no fue factible incluirlo debido a su gran tamaño; se usó para el análisis de díada un subconjunto de secuencia de ADN genómico humano al azar (27 Mb)).

Análisis de frecuencia de patrones. La primera etapa en el análisis usa un software de herramientas de RSA (Regulatory Sequence Analysis Tools; http://www.ucmb.ulb.ac.be/bioinformatics/rsa-tools/ ; referencias (van Helden et al., 1998, van Helden et al., 2000, van Helden et al., 2000)) para determinar la siguiente información: (1) las frecuencias de todas las díadas y oligonucleótidos hexaméricos en el genoma humano; (2) las frecuencias de los oligonucleótidos y díadas en los 65 elemento STAR; y (3) los índices de significación de los oligonucleótidos y díadas que están sobrerrepresentados en los elementos STAR en comparación con el genoma. Se realizó un análisis de control con 65 secuencias que se seleccionaron al azar del genoma humano (es decir de 2689 x 103 pares de kilobases) que coinciden con la longitud de los elementos STAR de la tabla 6.

Análisis discriminante. Se usaron díadas y oligonucleótidos sobrerrepresentados para entrenar modelos para la predicción de elementos STAR mediante análisis discriminante lineal (Huberty, 1994). Se realizó una preselección de variables seleccionando los 50 patrones con poder discriminante individual más alto de las díadas u oligonucleótidos sobrerrepresentados del análisis de frecuencia. Entonces, se usaron estas variables preseleccionadas para entrenar un modelo en un análisis discriminante lineal gradual para seleccionar la combinación de variables más discriminante (Huberty, 1994). La selección de variables se basó en la reducción al mínimo de la tasa del error de clasificación (porcentaje de clasificaciones falsas negativas). Además, se estimó la tasa del error esperada aplicando el mismo enfoque discriminante al conjunto de secuencias al azar de control (minimizando el porcentaje de clasificaciones falsas positivas).

Se sometieron a pruebas los modelos predictivos de la fase de entrenamiento del análisis discriminante de dos maneras. En primer lugar, se clasificaron los elementos STAR y las secuencias al azar que se usaron para generar el modelo (los conjuntos de entrenamiento). En segundo lugar, se clasificaron las secuencias en una colección de 19 elementos STAR candidatos (recientemente clonados mediante selección con zeocina tal como se describió anteriormente). Estos elementos STAR candidatos se enumeran en la tabla 9 (SEQ ID:67-84).

Resultados

Se realizó el análisis de frecuencia de patrones con herramientas RSA en 65 elementos STAR, usando el genoma humano como secuencia de referencia. Se encontró que ciento sesenta y seis (166) oligonucleótidos hexaméricos están sobrerrepresentados en el conjunto de elementos STAR (sig >= 0) en comparación con el genoma completo (tabla 4). El oligonucleótido más significativamente sobrerrepresentado, CCCCAC, se produce 107 veces entre los 65 elementos STAR, pero se esperaba que sólo se produjera 49 veces. Tiene un coeficiente de significación de 8,76; en otras palabras, la probabilidad de que su sobrerrepresentación se deba a una casualidad al azar es de 1/108,76, es decir menos de una en 500 millones.

Noventa y cinco de los oligonucleótidos tienen un coeficiente de significación superior a 1, y por tanto están altamente sobrerrepresentados en los elementos STAR. Entre los oligonucleótidos sobrerrepresentados, sus apariciones observadas y esperadas, respectivamente, oscilan desde 6 y 1 (para el oligonucleótido 163, CGCGAA, sig = 0,02) hasta 133 y 95 (para el oligonucleótido 120, CCCAGG, sig = 0,49). Las diferencias en apariciones esperadas reflejan factores tales como el contenido en G:C del genoma humano. Por tanto las diferencias entre los oligonucleótidos en su número de apariciones es menos importante que su sobrerrepresentación; por ejemplo, el oligonucleótido 2 (CAGCGG) está sobrerrepresentado 36/9 = 4 veces, teniendo una probabilidad de deberse a una casualidad al azar de una entre cincuenta millones (sig = 7,75).

La tabla 4 también presenta el número de elementos STAR en el que se encuentra cada oligonucleótido sobrerrepresentado. Por ejemplo, el oligonucleótido más significativo, el oligonucleótido 1 (CCCCAC), se produce 107 veces, pero se encuentra en sólo 51 de los STAR, es decir como promedio se produce como dos copias por STAR. El oligonucleótido menos abundante, el número 166 (AATCGG), se produce como promedio como una única copia por STAR (trece apariciones en once STAR); los oligonucleótidos de única copia se producen frecuentemente, sobre todo para los oligonucleótidos de menor abundancia. En el otro extremo, el oligonucleótido 4 (CAGCCC) se produce como promedio 3 veces en los STAR en los que se encuentra (37 STAR). El oligonucleótido más generalizado es el número 120 (CCCAGG), que se produce en 58 STAR (como promedio dos veces por STAR), y el oligonucleótido menos generalizado es el número 114 (CGTCGC), que se produce en sólo 6 STAR (y como promedio sólo una vez por STAR).

En la tabla 5 se proporcionan los resultados del análisis de frecuencia de díadas. Se encontró que setecientos treinta

(730) díadas están sobrerrepresentadas en el conjunto de elementos STAR (sig >= 0) en comparación con la secuencia de referencia. La díada más significativamente sobrerrepresentada, CCCN{2}CGG, se produce 36 veces entre los 65 elementos STAR, pero se espera que se produzca sólo 7 veces. Tiene un coeficiente de significación de 9,31; en otras palabras, la probabilidad que su sobrerrepresentación se deba a la casualidad es de 1/109,31, es decir menos de una en 2 billones.

Trescientas noventa y siete de las díadas tienen un coeficiente de significación mayor que 1, y están por tanto altamente sobrerrepresentadas en los elementos STAR. Entre las díadas sobrerrepresentadas, sus apariciones observadas y esperadas, respectivamente, oscilan desde 9 y 1 (para cinco díadas (números 380, 435, 493, 640 y 665)) hasta 118 y 63 (para el número 30 (AGGN{2}GGG), sig = 4,44).

Se sometieron a pruebas los oligonucleótidos y las díadas que se encontró que están sobrerrepresentados en elementos STAR mediante análisis de frecuencia de patrones para determinar su poder discriminante mediante análisis discriminante lineal. Se entrenaron los modelos discriminantes mediante una selección gradual de la mejor combinación entre los 50 patrones de oligonucleótido (tabla 4) o díada (tabla 5) más discriminantes. Los modelos lograron tasas de error óptimas tras la incorporación de 4 (díada) o 5 variables. Las variables discriminantes del análisis de oligonucleótidos son los números 11, 30, 94, 122, y 160 (tabla 4); las de análisis de díadas son los números 73, 194, 419 y 497 (tabla 5).

Se usaron entonces los modelos discriminantes para clasificar los 65 elementos STAR en el conjunto de entrenamiento y sus secuencias al azar asociadas. El modelo que usa variables de oligonucleótidos clasifica 46 de los 65 elementos STAR como elementos STAR (verdaderos positivos); el modelo de díadas clasifica 49 de los elementos STAR como verdaderos positivos. En combinación, los modelos clasifican 59 de los 65 elementos STAR como elementos STAR (91%; figura 22). Las tasas de falsos positivos (secuencias al azar clasificadas como STAR) fueron 7 para el modelo de díadas, 8 para el modelo de oligonucleótidos, y 13 para las predicciones combinadas de los dos modelos (20%). Los elementos STAR de la tabla 6 que no se clasificaron como STAR mediante LDA son STAR 7, 22, 35, 44, 46 y 65. Estos elementos muestran actividad antirrepresora estabilizante en ensayos funcionales, de modo que el hecho de que no estén clasificados como STAR mediante LDA sugiere que representan otra clase (o clases) de elementos STAR.

Entonces, se usaron los modelos para clasificar los 19 elementos STAR candidatos en el conjunto de prueba enumerado en la tabla 9. El modelo de díadas clasifica 12 de estos STAR candidatos como elementos STAR, y el modelo de oligonucleótidos clasifica 14 como STAR. El número combinado de los candidatos que se clasifican comoelementos STAR es de 15 (79%). Ésta es una tasa de clasificación más baja que la obtenida con el conjunto de entrenamiento de 65 STAR; esto se espera por dos razones. En primer lugar, se entrenaron los modelos discriminantes con los 65 STAR de la tabla 6, y las variables discriminantes basadas en este conjunto de entrenamiento pueden estar peor representadas en el conjunto de prueba. En segundo lugar, aún no se han caracterizado completamente las secuencias STAR candidatas en el conjunto de prueba en cuanto a la función in vivo, y pueden incluir elementos sólo con propiedades antirrepresoras débiles.

Este análisis demuestra la potencia de un enfoque estadístico para la clasificación bioinformática de elementos STAR. Las secuencias STAR contienen varios patrones de oligonucleótidos hexaméricos y de díadas que están significativamente sobrerrepresentados en comparación con el genoma humano en su conjunto. Estos patrones pueden representar sitios de unión a proteínas que confieren actividad de STAR; en cualquier caso forman un conjunto de motivos de secuencia que pueden usarse para reconocer secuencias de elementos STAR.

Usando estos patrones para reconocer elementos STAR mediante análisis discriminante, una proporción alta de los elementos obtenidos mediante la selección genética de la invención se clasifican, de hecho, como STAR. Esto refleja similitudes funcionales y de secuencia subyacentes entre estos elementos. Un aspecto importante del método descrito en este caso (análisis de frecuencia de patrones seguido por el análisis discriminante) es que puede reiterarse; por ejemplo, incluyendo los 19 elementos STAR candidatos de la tabla 9 con los 66 elementos STAR de la tabla 6 en un conjunto de entrenamiento, puede entrenarse un modelo discriminante mejorado. Entonces, este modelo mejorado puede usarse para clasificar otros elementos reguladores candidatos como STAR. La selección in vivo a gran escala de secuencias genómicas usando el método de la invención, combinada con la reiteración del análisis bioinformático, proporcionará un medio de discriminación de elementos STAR que asintóticamente se aproxima a un reconocimiento y predicción del 100% de elementos cuando se selecciona el genoma en su totalidad. Estas predicciones completas y rigurosas de la función de STAR garantizarán que se reconozca todos los elementos STAR humanos, y que estén disponibles para su uso en la mejora de la expresión transgénica.

Ejemplo 14: Clonación y caracterización de elementos STAR de Arabidopsis thaliana

El silenciamiento transgénico se produce en plantas transgénicas tanto a nivel transcripcional como postranscripcional (Meyer, 2000, Vance y Vaucheret, 2001). En cualquier caso, el resultado deseado de la expresión transgénica puede verse comprometida por el silenciamiento; la baja expresión e inestabilidad de los transgenes da como resultado una escasa expresión de caracteres deseables (por ejemplo, resistencia a plagas) o rendimientos bajos de proteínas recombinantes. También da como resultado una mala previsibilidad: la proporción de plantas transgénicas que expresan el transgén a niveles biotecnológicamente útiles es baja, por lo que se necesita una selección costosa y laboriosa de individuos transformados para aquéllos con características de expresión beneficiosas. Este ejemplo describe el aislamiento de elementos STAR del genoma de la planta dicotiledónea Arabidopsis thaliana para su uso en la prevención del silenciamiento transgénico transcripcional en plantas transgénicas. Se escogió Arabidopsis para este ejemplo porque es un organismo modelo bien estudiado: tiene un genoma compacto, es susceptible de manipulaciones genéticas y de ADN recombinante y se ha secuenciado su genoma (Bevan et al., 2001, Initiative, 2000, Meinke et al., 1998).

Materiales y métodos:

Se aisló ADN genómico de Arabidopsis thaliana ecotipo Columbia tal como se ha descrito (Stam et al., 1998) y se digirió parcialmente con MboI. Se sometió a fraccionamiento por tamaño el ADN digerido hasta 0,5-2 pares de kilobases mediante electroforesis en gel de agarosa y purificación del gel (kit de extracción en gel QIAquick, QIAGEN 28706), seguido por ligamiento en un vector pSelect (citado anteriormente). Se llevó a cabo la transfección en la línea celular U-2 OS/Tet-Off/LexA-HP1 y selección para resistencia a zeocina a baja concentración de doxiciclina tal como se ha descrito (citado anteriormente). Se aislaron los plásmidos de colonias resistentes a zeocina y se transfectaron nuevamente en la línea celular U-2 OS/Tet-Off/LexA-HP1.

Se llevó a cabo la secuenciación de fragmentos de ADN genómico de Arabidopsis que conferían resistencia a zeocina tras la nueva transfección tal como se ha descrito (citado anteriormente). Se compararon las secuencias de ADN con la secuencia del genoma de Arabidopsis mediante análisis de BLAST ((Altschul et al., 1990); URL http://www.ncbi.nlm.nih.gov/blastBlast).

Se sometió a prueba adicionalmente la actividad de STAR midiendo los niveles de ARNm para detectar los genes de resistencia a higromicina y zeocina en células hospedadoras recombinantes mediante PCR de transcripción inversa (RT-PCR). Se transfectaron las células de la línea celular U-2 OS/Tet-Off/lexA-HP1 con plásmidos pSelect que contenían elementos STAR de Arabidopsis, el elemento scs de Drosophila, o no contenían ningún inserto (citado anteriormente). Se cultivaron en higromicina durante 2 semanas en alta concentración de doxiciclina, luego se disminuyó la concentración de doxiciclina hasta 0,1 ng/ml para inducir la proteína represora lexA-HP1. Tras 10 días, se aisló el ARN total mediante el kit RNeasy mini (QIAGEN 74104) tal como describe el fabricante. Se llevó a cabo la síntesis de la primera cadena de ADNc usando el kit de síntesis de ADNc RevertAid First Strand (MBI Fermentas 1622) usando el cebador oligo(dT)18 tal como describe el fabricante. Se usó una alícuota del ADNc como molde en una reacción de PCR usando cebadores D58 y D80 (para el marcador de zeocina), y D70 y D71 (para el marcador de higromicina), y ADN Taq polimerasa (Promega M2661). Las condiciones de reacción fueron de 15-20 ciclos de 94ºC durante 1 minuto, 54ºC durante 1 minuto, y 72ºC durante 90 segundos. Estas condiciones dieron como resultado una relación lineal entre el ARN de entrada y el ADN producto de PCR. Se resolvieron los productos de PCR mediante electroforesis en gel de agarosa, y se detectaron las bandas de zeocina e higromicina mediante transferencia de tipo Southern tal como se ha descrito (Sambrook et al., 1989), usando productos de PCR producidos tal como se mencionó anteriormente con plásmido pSelect purificado como molde. La proporción de las señales de zeocina e higromicina corresponden al nivel de expresión normalizado del gen de zeocina.

Resultados

La biblioteca de ADN genómico de Arabidopsis en el vector pSelect comprendió 69.000 clones primarios en E. coli, el 80% de los cuales llevaban insertos. El tamaño promedio del inserto era aproximadamente de 1000 pares de bases; la biblioteca por tanto representa aproximadamente el 40% del genoma de Arabidopsis.

Se transfectó una parte de esta biblioteca (que representaba aproximadamente el 16% del genoma de Arabidopsis) en la línea celular U-2 OS/Tet-Off/LexA-HP1. Se impuso la selección con higromicina para aislar transfectantes, lo que dio como resultado 27.000 colonias supervivientes. Entonces, éstas se sometieron a selección con zeocina a baja concentración de doxiciclina. Se rescataron en E. coli plásmidos que contenían supuestos STAR de 56 colonias resistentes a zeocina y se transfectaron nuevamente en células U-2 OS/Tet-Off/LexA-HP1. Cuarenta y cuatro de estos plásmidos (79% de los plásmidos sometidos a prueba) confirieron resistencia a zeocina en las células hospedadoras a bajas concentraciones de doxiciclina, lo que demostraba que los plásmidos portaban elementos STAR. Esto indica que la selección de pSelect en células humanas U-2 OS es altamente eficaz en la detección de elementos STAR de ADN genómico de plantas.

Se determinaron las secuencias de ADN de estos 44 elementos STAR candidatos. Se identificaron treinta y cinco de ellos como loci individuales en la base de datos de secuencias genómicas nucleares de Arabidopsis (tabla 10; SEQ ID: 85 - SEQ ID: 119). Se identificaron otros cuatro como procedentes del genoma de cloroplasto, cuatro eran quimeras de fragmentos de ADN de dos loci y uno no se encontró en la base de datos del genoma de Arabidopsis.

Se sometió a prueba la fuerza de los elementos STAR clonados de Arabidopsis evaluando su capacidad para impedir la represión transcripcional del gen de resistencia a zeocina, usando un ensayo de RT-PCR. Como control para la entrada de ARN entre las muestras, también se evaluaron los niveles de transcripción del gen de resistencia a higromicina para cada transfección de STAR. Este análisis se ha realizado para 12 de los elemento STAR de Arabidopsis. Los resultados (figura 23) demuestran que los elementos STAR de Arabidopsis son superiores al elemento scs de Drosophila (control positivo) y el vector vacío (“SV40”; control negativo) en su capacidad para proteger al gen de resistencia a zeocina de la represión transcripcional. En particular, STAR-A28 y STAR-A30 permiten niveles de expresión de resistencia a zeocina 2 veces superiores al elemento scs (normalizado con respecto al control interno de ARNm del gen de resistencia a higromicina) cuando se expresa el represor lexA-HP1.

Estos resultados demuestran que el método de la invención puede aplicarse con éxito a la recuperación de elementos STAR de genomas de otras especies distintas a la humana. Su aplicación con éxito a elementos STAR de un genoma de planta es particularmente significativa porque demuestra el amplio intervalo taxonómico en el que es aplicable el método de la invención, y porque las plantas son un objetivo importante de desarrollo biotecnológico.

Ejemplo 15: Los genes protegidos con STAR que residen en vectores múltiples se expresan simultáneamente en células CHO

Los elementos STAR funcionan para bloquear el efecto de las influencias de represión transcripcional en unidades de expresión transgénica. Uno de los beneficios de los elementos STAR para la producción de proteínas heterólogas es el aumento de la previsibilidad de encontrar células hospedadoras recombinantes primarias de alta expresión. Esta característica permite la expresión simultánea de diferentes genes que residen en múltiples vectores distintos. En este ejemplo, se usaron dos genes protegidos con STAR7, GFP y RED, que se ubican en dos vectores diferentes. Cuando se transfectan estos dos vectores simultáneamente en células de ovario de hámster chino (CHO), ambos se expresan, mientras que los genes GFP y RED correspondientes, pero no protegidos, apenas muestran tal expresión simultánea.

Material y métodos

Se sometió a prueba el elemento STAR7 en los vectores ppGIZ-STAR7 y ppRIP-STAR7 (figura 24). A continuación se describe la construcción de los vectores pPlug&Play (ppGIZ y ppRIP) . Se modifica el plásmido pGFP (Clontech 6010-1) mediante inserción de un ligador en el sitio BsiWI dando pGFP-ligador. El ligador (preparado mediante el apareamiento de oligonucleótidos 5’GTACGGATATCAGATCTTTAATTAAG3’ y 5’GTACCTTAATTAAAGATCTGATATCC3’) introduce sitios para las endonucleasas de restricción PacI, BglII, y EcoRV. Esto crea el sitio de clonación múltiple MCSII para la inserción de elementos STAR. Entonces, se usan los cebadores (5’GATCAGATCTGGCGCGCCATTTAAATCGTCTCGCGCGTTTCGGTGATGACGG3’) y (5’AGGCGGATCCGAATGTATTTAGAAAAATAAACAAATAGGGG3’) para amplificar una región de 0,37 kb de pGFP, que se inserta en el sitio BglII de pIRES (Clontech 6028-1) dando pIRES-relleno. Esto introduce sitios para las endonucleasas de restricción AscI y SwaI en MCSI, y actúa como un “fragmento de relleno” para evitar la posible interferencia entre elementos STAR y promotores adyacentes. Se digiere pIRES-relleno con BglII y FspI para liberar un fragmento de ADN compuesto por el fragmento de relleno, el promotor de CMV, el elemento IRES (flanqueado por sitios de clonación múltiple MCS A y MCS B), y la señal de poliadenilación de SV40. Se liga este fragmento con la estructura principal del vector de pGFP-ligador producida mediante digestión con BamHI y StuI, dando pIRESligador.

Se insertan los marcos de lectura abiertos del gen de resistencia a la zeocina en los sitios BamHI/NotI de MCS B en pIRES-ligador tal como sigue: se amplifica el ORF de resistencia a zeocina mediante PCR con los cebadores 5’GATCGGATCCTTCGAAATGGCCAAGTTGACCAGTGC3’ y 5’AGGCGCGGCCGCAATTCTCAGTCCTGCTCCTC3’ del plásmido pEM7/zeo, se digiere con BamHI y NotI, y se liga con pIRES-ligador digerido con BamHI/ NotI dando pIRES-ligador-zeo. Se introduce el ORF con indicador de GFP en pIRES-ligador-zeo mediante amplificación de phrGFP-1 con los cebadores 5’GATCGAATTCTCGCGAATGGTGAGCAAGCAGATCCTGAAG3’ y 5’AGGCGAATTCACCGGTGTTTAAACTTACACCCACTCGTGCAGGCTGCCCAGG3’, e inserción del casete de GFP digerido con EcoRI en el sitio EcoRI en MCS A del plásmido pIRES-ligador-zeo. Esto crea el ppGIZ (para ppGFP- IRES-zeo). Se clona 5’STAR7 en el sitio SalI y se clona 3’ STAR7 en el sitio PacI.

Se amplifica el ORF de resistencia a puromicina mediante PCR con los cebadores 5’GATCGGATCCTTCGAAATGACCGAGTACAAGCCCACG3’ y 5’AGGCGCGGCCGCTCAGGCACCGGGCTTGCGGGTC3’ del plásmido pBabe-Puro (Morgenstern y Land, 1990), se digiere con BamHI y NotI, y se liga con pIRES-ligador digerido con BamHI/NotI dando pIRES-ligador-puro. Se amplifica el gen RED mediante PCR con los cebadores 5’GATCTCTAGATCGCGAATGGCCTCCTCCGAGAACGTCATC3’ y 5’AGGCACGCGTTCGCGACTACAGGAACAGGTGGTGGCG3’ del plásmido pDsRed2 (Clontech 6943-1), se digiere con XbaI y MluI y se liga con pIRES-ligador-puro digerido con NheI-MluI dando ppRIP (para ppRED-IRES-puro). Se clona 5’ STAR7 en el sitio SalI y se clona 3’STAR7 en el sitio PacI.

Transfección y cultivo de células CHO

Se cultiva la línea celular de ovario del hámster chino CHO-K1 (ATCC CCL-61) en medio HAMS-F12 + 10% de suero bovino fetal que contiene glutamina 2 mM, penicilina100 U/ml, y estreptomicina 100 microgramos/ml a 37ºC/5% de CO2. Se transfectan las células con los plásmidos usando Lipofectamine 2000 (Invitrogen) tal como describe el fabricante. Brevemente, se siembran las células en recipientes de cultivo y se hacen crecer durante la noche hasta una confluencia del 70-90%. Se combina el reactivo Lipofectamine con ADN de plásmido a una proporción de 7,5 microlitros por 3 microgramos (por ejemplo, para una placa Petri de 10 cm, 20 microgramos de ADN y 120 microlitros de Lipofectamine) y se añade a las células tras una incubación de 30 minutos a 25ºC. Tras una incubación de 6 horas, se sustituye la mezcla de transfección con medio recién preparado, y se incuban adicionalmente las células transfectadas. Tras el cultivo durante la noche, se tratan las células con tripsina y se siembran en placas Petri nuevas con medio recién preparado con zeocina añadida hasta una concentración de 100 g/ml y se cultivan adicionalmente las células. Cuando las colonias individuales se hacen visibles (aproximadamente diez días tras la transfección) se elimina el medio y se sustituye con medio recién preparado (puromicina).

Se aíslan las colonias individuales y se transfieren a placas de 24 pocillos en medio con zeocina. Se evaluó la expresión de los genes indicadores de GFP y RED aproximadamente 3 semanas tras la transfección.

Una construcción sometida a prueba consiste en un gen monocistrónico con el gen de GFP, un IRES y el gen de resistencia a zeocina bajo el control del promotor de CMV, pero o bien con o bien sin elemento STAR7 para flanquear la construcción entera (figura 24). La otra construcción consiste en un gen monocistrónico con el gen RED, un IRES y el gen de resistencia a puromicina bajo el control del promotor de CMV, pero o bien con o bien sin elemento STAR7 para flanquear la construcción entera (figura 24).

Se transfectan las construcciones en células CHO-K1. Se expanden las colonias estables que son resistentes tanto a zeocina como a puromicina antes que se determinen las señales de GFP y RED en un citómetro de flujo XL-MCL de Beckman Coulter. El porcentaje de células en una colonia que son doble positivas tanto para las señales de GFP como de RED se toma como medida de la expresión simultánea de ambas proteínas y esto se representa gráficamente en la figura 24.

Resultados

La figura 24 muestra que la expresión simultánea en colonias de CHO independientes resistentes a puromicina y zeocina de genes indicadores de GFP y RED que están flanqueados por un elemento STAR da como resultado un número superior de células que expresan proteínas tanto GFP como RED, en comparación con los vectores de control sin elemento STAR7. Por tanto, el elemento STAR7 trasmite un grado superior de previsibilidad de la expresión transgénica en células CHO. En las colonias sin STAR como máximo 9 de 20 colonias contienen las células GFP/RED doble positivas. El porcentaje de células doble positivas oscila entre el 10 y el 40%. Las restantes 11 de 20 colonias tienen menos del 10% de células GFP/RED positivas. En cambio, en 19 de 20 colonias que contiene los genes de GFP y RED protegidos con STAR, el porcentaje de células GFP/RED doble positivas oscila entre el 25 y el 75%. En 15 de estas 19 colonias doble positivas, el porcentaje de células GFP/RED doble positivas es superior al 40%. Este resultado muestra que es más probable que se logre la expresión simultánea de dos genes cuando estos genes están flanqueados con elementos STAR.

Ejemplo 16: La expresión de un anticuerpo funcional a partir de dos plásmidos separados se obtiene más fácilmente cuando los elementos STAR flanquean los genes que codifican para las cadenas pesada y ligera.

Debido a la capacidad de los elementos STAR para transmitir una previsibilidad superior a la expresión de proteínas, pueden expresarse simultáneamente dos genes de vectores distintos. Esto se muestra en el ejemplo 15 para dos genes indicadores, GFP y RED. En este caso, se somete a prueba la expresión simultánea de una cadena de anticuerpo ligera y una pesada. En el ejemplo 16, se transfectan simultáneamente ADNc de anticuerpos de cadena ligera y pesada protegidos con STAR7 que residen en vectores distintos en células de ovario de hámster chino. Esto da como resultado la producción de anticuerpo funcional, lo que indica que ambas cadenas pesada y ligera se expresan simultáneamente. En cambio, la transfección simultánea de ADNc de anticuerpos de cadena ligera y pesada no protegidos apenas muestra expresión del anticuerpo funcional.

Materiales y métodos

Las construcciones sometidas a prueba son las mismas a las descritas en el ejemplo 15, excepto que se sustituye el gen de GPF por el gen que codifica para la cadena ligera del anticuerpo RING1 (Hamer et al., 2002) y se sustituye el gen de RED por el gen que codifica para la cadena pesada del anticuerpo RING1. Se amplifica la cadena ligera a partir del hibridoma de RING1 (Hamer et al., 2002) mediante RT-PCR usando los cebadores 5’CAAGAATTCAATGGATTTTCAAGTGCAG3’ y 5’CAAGCGGCCGCTTTGTCTCTAACACTCATTCC3’. Se clona el producto de PCR en pcDNA3 tras digestión de restricción con EcoRI y NotI y se secuencia para detectar posibles desplazamientos de marco en la secuencia. Se escinde el ADNc con EcoRI y NotI, se hace romo y se clona en el plásmido ppGIZ. Se amplifica la cadena pesada del hibridoma de RING1 (Hamer et al., 2002) mediante RT-PCR usando los cebadores 5’ACAGAATTCTTACCATGGATTTTGGGCTG3’ y 5’ACAGCGGCCGCTCATTTACCAGGAGAGTGGG3’. Se clona el producto de PCR en pcDNA3 tras la digestión de restricción con EcoRI y NotI y se secuencia para detectar posibles desplazamientos de marco en la secuencia. Se escinde el ADNc con EcoRI y NotI, se hace romo y se clona en el plásmido ppRIP.

Resultados

Se transfectan simultáneamente colonias de CHO con los ADN de cadena ligera de RING1 (LC) y ADN de cadena pesada de RING1 (HC) que residen en dos vectores distintos. Se acopla la cadena ligera al gen de resistencia a zeocina mediante un IRES, se acopla la cadena pesada al gen de resistencia a puromicina mediante un IRES. La figura 25 muestra que la transfección simultánea en células CHO de los ADN que codifican para las cadenas pesada y ligera da como resultado el establecimiento de colonias independientes resistentes a zeocina y puromicina. Cuando se flanquean las construcciones por el elemento STAR7, esto da como resultado una producción superior del anticuerpo RING1 funcional, en comparación con los vectores de control sin elemento STAR7. Por tanto, el elemento STAR7 transmite un grado de previsibilidad superior de expresión de anticuerpos en células CHO.

En las colonias sin STAR, sólo 1 de las 12 colonias expresa anticuerpos detectables. En cambio, en 7 de las 12 colonias que contienen los genes de cadena ligera y pesada protegidos con STAR, producen anticuerpo RING1 funcional que detectan el antígeno de RING1 en un ensayo de ELISA. De manera significativa, estas 7 colonias producen niveles superiores de anticuerpo RING1 a los de la colonia control más superior (arbitrariamente establecida al 100%). Este resultado muestra que es más probable que se logre la expresión simultánea de dos genes que codifican para dos cadenas de anticuerpos cuando estos genes están flanqueados con elementos STAR.

Tabla 1. Oligonucleótidos usados para reacciones en cadena de la polimerasa (cebadores de PCR) o mutagénesis de ADN

Número: Secuencia

C65: AACAAGCTTGATATCAGATCTGCTAGCTTGGTCGAGCTGATACTTCCC

C66: AAACTCGAGCGGCCGCGAATTCGTCGACTTTACCACTCCCTATCAGTGATAGAG

C67: AAACCGCGGCATGGAAGACGCCAAAAACATAAAGAAAGG

C68: TATGGATCCTAGAATTACACGGCGATCTTTCC

C81: AAACCATGGCCGAGTACAAGCCCACGGTGCGCC

C82: AAATCTAGATCAGGCACCGGGCTTGCGGGTCATGC

C85: CATTTCCCCGAAAAGTGCCACC

D30: TCACTGCTAGCGAGTGGTAAACTC

D41: GAAGTCGACGAGGCAGGCAGAAGTATGC

D42: GAGCCGCGGTTTAGTTCCTCACCTTGTCG

D51: TCTGGAAGCTTTGCTGAAGAAAC

D58: CCAAGTTGACCAGTGCC

D70: TACAAGCCAACCACGGCCT

D71: CGGAAGTGCTTGACATTGGG

D80: GTTCGTGGACACGACCTCCG

D89: GGGCAAGATGTCGTAGTCAGG

D90: AGGCCCATGGTCACCTCCATCGCTACTGTG

D91: CTAATCACTCACTGTGTAAT

D93: AATTACAGGCGCGCC

D94: AATTGGCGCGCCTGT

D95: TGCTTTGCATACTTCTGCCTGCCTC

E12: TAGGGGGGATCCAAATGTTC

E13: CCTAAAAGAAGATCTTTAGC

E14: AAGTGTTGGATCCACTTTGG

E15: TTTGAAGATCTACCAAATGG

E16: GTTCGGGATCCACCTGGCCG

E17: TAGGCAAGATCTTGGCCCTC

E18: CCTCTCTAGGGATCCGACCC

E19: CTAGAGAGATCTTCCAGTAT

E20: AGAGTTCCGGATCCGCCTGG

E21: CCAGGCAGACTCGGAACTCT

E22: TGGTGAAACCGGATCCCTAC

E23: AGGTCAGGAGATCTAGACCA

E25: CCATTTTCGCTTCCTTAGCTCC

E42: CGATGTAACCCACTCGTGCACC

E57: AGAGATCTAGGATAATTTCG

E84: GATCTCTAGAATGGCCAAGCCTTTGTCTCAAG

E85: AGGCGCGGCCGCTTAGCCCTCCCACACATAACCAGAG

E87: AGGCACGCGTTCATGTCTGCTCGAAGCGGCC

E92: AGGCGCTAGCACGCGTTCTACTCTTTTCCTACTCTG

E93: GATCAAGCTTACGCGTCTAAAGGCATTTTATATAG

E94: AGGCGCTAGCACGCGTTCAGAGTTAGTGATCCAGG

E95: GATCAAGCTTACGCGTCAGTAAAGGTTTCGTATGG

E96: AGGCGCTAGCACGCGTTCTACTCTTTCATTACTCTG

E97: CGAGGAAGCTGGAGAAGGAGAAGCTG

E98: CAAGGGCCGCAGCTTACACATGTTC

E99: GATCACTAGTATGGCCAAGTTGACCAGTGC

E100: AGGCGCGGCCGCAATTCTCAGTCCTGCTCCTC

F11: GATCGCTAGCAATCGCGACTTCGCCCACCATGC

F14: GATCGAATTCTCGCGACTTCGCCCACCATGC

F15: AGGCGAATTCACCGGTGTTTAAACTCATGTCTGCTCGAAGCGGCCGG

F16: GATCGAATTCTCGCGAATGGTGAGCAAGCAGATCCTGAAG

F17: AGGCGAATTCACCGGTGTTTAAACTTACACCCACTCGTGCAGGCTGCCCAGG

F18: GATCGGATCCTTCGAAATGGCCAAGTTGACCAGTGC

F19: GATCGGATCCTTCGAAATGATTGAACAAGATGGATTGC

F20: AGGCGCGGCCGCTCAGAAGAACTCGTCAAGAAGGCG

F21: GATCGGATCCTTCGAAATGACCGAGTACAAGCCCACG

F22: AGGCGCGGCCGCTCAGGCACCGGGCTTGCGGGTC

F23: GATCAGATCTGGCGCGCCATTTAAATCGTCTCGCGCGTTTCGGTGATGACGG

F24: AGGCGGATCCGAATGTATTTAGAAAAATAAACAAATAGGGG

F25: GTACGGATATCAGATCTTTAATTAAG

F26: GTACCTTAATTAAAGATCTGATATCC

F32: GATCGAGGTACCGGTGTGT

F33: GATCACACACCGGTACCTC

F34: CGGAGGTACCGGTGTGT

F35: CGACACACCGGTACCTC

F44: TGAGAGGTACCGGTGTGT

imagen1

Tabla 2. Los elementos STAR y la selección de dos etapas aumentan la previsibilidad de la expresión transgénica

Sin STAR: Mejora en veces Con STAR

(se llevó a cabo la primera selección con antibióticos)

Número de colonias1: ~100 10 veces 3 veces 3 veces2 ~1000

Productores altos

porcentaje: 5% 15%

número: 5 150

(caracteriza 20 colonias): (el 20% de la población) (2% de la población)

Productores altos: 1 3

Productores bajos: 19 17

(se llevó a cabo la segunda selección de antibiótico, destruyendo los productores bajos)

Supervivientes para caracterizar: 5 30 veces3 150

5 1Colonias por microgramo de ADN de plásmido.

2Manifestación de la mejora en tres veces debido a la presencia de los STAR en el porcentaje de productores altos en la población original de colonias resistentes al primer antibiótico.

3Manifestación del producto aritmético de la mejora en veces en el número de colonias y el porcentaje aumentado de los productores altos debido a la presencia de los STAR.

10

Tabla 3. Secuencias de varios elementos STAR

STAR3 directo

imagen2

STAR3 inverso STAR4 directo

imagen3

imagen2

STAR4 inverso STAR6 directo

imagen3

imagen2

STAR6 inverso STAR8 directo

imagen3

imagen2

STAR8 inverso

imagen3

STAR18 directo

imagen2

STAR18 inverso

imagen2

Tabla 4. Patrones de oligonucleótidos (6 pares de bases) sobrerrepresentados en los elementos STAR.

Se clasifican los patrones según el coeficiente de significación. Estos se determinaron usando herramientas RSA con la secuencia del genoma humano como referencia. Los patrones que comprenden las variables más discriminantes en el análisis discriminante lineal se indican con un asterisco.

Número: Secuencia de oligonucleótidos Apariciones observadas Apariciones esperadas Coeficiente de significación Número de que coinciden STAR

1: CCCCAC 107 49 8,76 51

2: CAGCGG 36. 9 7,75 23

3: GGCCCC 74 31 7,21 34

4: CAGCCC 103 50 7,18 37

5: GCCCCC 70 29 6,97 34

6: CGGGGC 40 12 6,95 18

7: CCCCGC 43 13 6,79 22

8: CGGCAG 35 9 6,64 18

9: AGCCCC 83 38 6,54 40

10: CCAGGG 107 54 6,52 43

11: GGACCC* 58 23 6,04 35

12: GCGGAC 20 3 5,94 14

13: CCAGCG 34 10 5,9 24

14: GCAGCC 92 45 5,84 43

15: CCGGCA 28 7 5,61 16

16: AGCGGC 27 7 5,45 17

17: CAGGGG 86 43 5,09 43

18: CCGCCC 43 15 5,02
18

19: CCCCCG 35 11 4,91 20

20: GCCGCC 34 10 4,88 18

21: GCCGGC 22 5 4,7 16

22: CGGACC 19 4 4,68 14

23: CGCCCC 35 11 4,64 19

24: CGCCAG 28 8 4,31 19

25: CGCAGC 29 8 4,29 20

26: CAGCCG 32 10 4 24

27: CCCACG 33 11 3,97 26

28: GCTGCC 78 40 3,9 43

29: CCCTCC 106 60 3,87 48

30: CCCTGC* 92 50 3,83 42

31: CACCCC 77 40 3,75 40

32: GCGCCA 30 10 3,58 23

33: AGGGGC 70 35 3,55 34

34: GAGGGC 66 32 3,5 40

35: GCGAAC 14 2 3,37 13

36: CCGGCG 17 4 3,33 12

37: AGCCGG 34 12 3,29 25

38: GGAGCC 67 34 3,27 40

39: CCCCAG 103 60 3,23 51

40: CCGCTC 24 7 3,19 19

41: CCCCTC 81 44 3,19 43

42: CACCGC 33 12 3,14 22

43: CTGCCC 96 55 3,01 42

44: GGGCCA 68 35 2,99 39

45: CGCTGC 28 9 2,88 22

46: CAGCGC 25 8 2,77 19

47: CGGCCC 28 10 2,73 19

48: CCGCCG 19 5 2,56 9

49: CCCCGG 30 11 2,41 17

50: AGCCGC 23 7 2,34 17

51: GCACCC 55 27 2,31 38

52: AGGACC 54 27 2,22 33

53: AGGGCG 24 8 2,2 18

54: CAGGGC 81 47 2,18 42

55: CCCGCC 45 21 2,15 20

56: GCCAGC 66 36 2,09 39

57: AGCGCC 21 6 2,09 18

58: AGGCCC 64 34 2,08 32

59: CCCACC 101 62 2,05 54

60: CGCTCA 21 6 2,03 17

61: AACGCG 9 1 1,96 9

62: GCGGCA 21 7 1,92 14

63: AGGTCC 49 24 1,87 36

64: CCGTCA 19 6 1,78 14

65: CAGAGG 107 68 1,77 47

66: CCCGAG 33 14 1,77 22

67: CCGAGG 36 16 1,76 25

68: CGCGGA 11 2 1,75 8

69: CCACCC 87 53 1,71 45

70: CCTCGC 23 8 1,71 20

71: CAAGCC 59 32 1,69 40

72: TCCGCA 18 5 1,68 17

73: CGCCGC 18 5 1,67 9

74: GGGAAC 55 29 1,63 39

75: CCAGAG 93 58 1,57 49

76: CGTTCC 19 6 1,53 16

77: CGAGGA 23 8 1,5 19

78: GGGACC 48 24 1,48 31

79: CCGCGA 10 2 1,48 8

80: CCTGCG 24 9 1,45 17

81: CTGCGC 23 8 1,32 14

82: GACCCC 47 24 1,31 33

83: GCTCCA 66 38 1,25 39

84: CGCCAC 33 15 1,19 21

85: GCGGGA 23 9 1,17 18

86: CTGCGA 18 6 1,15 15

87: CTGCTC 80 49 1,14 50

88: CAGACG 23 9 1,13 19

89: CGAGAG 21 8 1,09 17

90: CGGTGC 18 6 1,06 16

91: CTCCCC 84 53 1,05 47

92: GCGGCC 22 8 1,04 14

93: CGGCGC 14 4 1,04 13

94: AAGCCC* 60 34 1,03 42

95: CCGCAG 24 9 1,03 17

96: GCCCAC 59 34 0,95 35

97: CACCCA 92 60 0,93 49

98: GCGCCC 27 11 0,93 18

99: ACCGGC 15 4 0,92 13

100: CTCGCA 16 5 0,89 14

101: ACGCTC 16 5 0,88 12

102: CTGGAC 58 33 0,88 32

103: GCCCCA 67 40 0,87 38

104: ACCGTC 15 4 0,86 11

105: CCCTCG 21 8 0,8 18

106: AGCCCG 22 8 0,79 14

107: ACCCGA 16 5 0,78 13

108: AGCAGC 79 50 0,75 41

109: ACCGCG 14 4 0,69 7

110: CGAGGC 29 13 0,69 24

111: AGCTGC 70 43 0,64 36

112: GGGGAC 49 27 0,64 34

113: CCGCAA 16 5 0,64 12

114: CGTCGC 8 1 0,62 6

115: CGTGAC 17 6 0,57 15

116: CGCCCA 33 16 0,56 22

117: CTCTGC 97 65 0,54 47

118: AGCGGG 21 8 0,52 17

119: ACCGCT 15 5 0,5 11

120: CCCAGG 133 95 0,49 58

121: CCCTCA 71 45 0,49 39

122: CCCCCA* 77 49 0,49 42

123: GGCGAA 16 5 0,48 14

124: CGGCTC 29 13 0,47 19

125: CTCGCC 20 8 0,46 17

126: CGGAGA 20 8 0,45 14

127: TCCCCA 95 64 0,43 52

128: GACACC 44 24 0,42 33

129: CTCCGA 17 6 0,42 13

130: CTCGTC 17 6 0,42 14

131: CGACCA 13 4 0,39 11

132: ATGACG 17 6 0,37 12

133: CCATCG 17 6 0,37 13

134: AGGGGA 78 51 0,36 44

135: GCTGCA 77 50 0,35 43

136: ACCCCA 76 49 0,33 40

137: CGGAGC 21 9 0,33 16

138: CCTCCG 28 13 0,32 19

139: CGGGAC 16 6 0,3 10

140: CCTGGA 88 59 0,3 45

141: AGGCGA 18 7 0,29 17

142: ACCCCT 54 32 0,28 36

143: GCTCCC 56 34 0,27 36

144: CGTCAC 16 6 0,27 15

145: AGCGCA 16 6 0,26 11

146: GAAGCC 62 38 0,25 39

147: GAGGCC 79 52 0,22 42

148: ACCCTC 54 32 0,22 33

149: CCCGGC 37 20 0,21 21

150: CGAGAA 20 8 0,2 17

151: CCACCG 29 14 0,18 20

152: ACTTCG 16 6 0,17 14

153: GATGAC 48 28 0,17 35

154: ACGAGG 23 10 0,16 18

155: CCGGAG 20 8 0,15 18

156: ACCCAC 60 37 0,12 41

157: CTGGGC 105 74 0,11 50

158: CCACGG 23 10 0,09 19

159: CGGTCC 13 4 0,09 12

160: AGCACC* 54 33 0,09 40

161: ACACCC 53 32 0,08 38

162: AGGGCC 54 33 0,08, 30

163: CGCGAA 6 1 0,02 6

164: GAGCCC 58 36 0,02 36

165: CTGAGC 71 46 0,02 45

166: AATCGG 13 4 0,02 11

Tabla 5. Patrones de díadas sobrerrepresentadas en elementos STAR.

Se clasifican los patrones según el coeficiente de significación. Estos se determinaron usando herramientas RSA con la secuencia al azar del genoma humano como referencia. Los patrones que comprenden las variables más discriminantes en el análisis discriminante lineal se indican con un asterisco.

Número: Secuencia de díada Apariciones observadas Apariciones esperadas Coeficiente de significación

1: CCCN{2}CGG 36 7 9,31

2: CCGN{6}CCC 40 10 7,3

3: CAGN{0}CGG 36 8 7,13

4: CGCN{15}CCC 34 8 6,88

5: CGGN{9}GCC 33 7 6,82

6: CCCN{9}CGC 35 8 6,72

7: CCCN{1}GCG 34 8 6,64

8: CCCN{0}CAC 103 48 6,61

9: AGCN{16}CCG 29 6 5,96

10: CCCN{4}CGC 34 8 5,8

11: CGCN{13}GGA 26 5 5,77

12: GCGN{16}CCC 30 7 5,74

13: CGCN{5}GCA 25 5 5,49

14: CCCN{14}CCC 101 49 5,43

15: CTGN{4}CGC 34 9 5,41

16: CCAN{12}GCG 28 6 5,37

17: CGGN{11}CAG 36 10 5,25

18: CCCN{5}GCC 75 33 4,87

19: GCCN{0}CCC 64 26 4,81

20: CGCN{4}GAC 19 3 4,78

21: CGGN{0}CAG 33 9 4,76

22: CCCN{3}CGC 32 8 4,67

23: CGCN{1}GAC 20 3 4,58

24: GCGN{2}GCC 29 7 4,54

25: CCCN{4}GCC 76 34 4,53

26: CCCN{1}CCC 103 52 4,53

27: CCGN{13}CAG 33 9 4,5

28: GCCN{4}GGA 64 27 4,48

29: CCGN{3}GGA 26 6 4,46

30: AGGN{2}GGG 118 63 4,44

31: CACN{5}GCG 22 4 4,42

32: CGCN{17}CCA 27 6 4,39

33: CCCN{9}GGC 69 30 4,38

34: CCTN{5}GCG 28 7 4,37

35: GCGN{0}GAC 19 3 4,32

36: GCCN{0}GGC 40 7 4,28

37: GCGN{2}CCC 26 6 4,27

38: CCGN{11}CCC 32 9 4,17

39: CCCN{8}TCG 23 5 4,12

40: CCGN{17}GCC 30 8 4,12

41: GGGN{5}GGA 101 52 4,11

42: GGCN{6}GGA 71 32 4,1

43: CCAN{4}CCC 96 48 4,1

44: CCTN{14}CCG 32 9 4,09

45: GACN{12}GGC 45 16 4,07

46: CGCN{13}CCC 30 8 4,04

47: CAGN{16}CCC 92 46 4,02

48: AGCN(10}GGG 75 35 3,94

49: CGGN{13}GGC 30 8 3,93

50: CGGN{1} GCC 30 8 3,92

51: AGCN{0}GGC 26 6 3,9

52: CCCN{16}GGC 64 28 3,89

53: GCTN{19}CCC 67 29 3,87

54: CCCN{16}GGG 88 31 3,81

55: CCCN{9}CGG 30 8 3,77

56: CCCN{10}CGG 30 8 3,76

57: CCAN{0}GCG 32 9 3,75

58: GCCN{17)CGC 26 6 3,74

59: CCTN{6}CGC 27 7 3,73

60: GGAN{1}CCC 63 27 3,71

61: CGCN{18}CAC 24 5 3,7

62: CGCN{20}CCG 21 4 3,69

63: CCGN{0}GCA 26 6 3,69

64: CGCN{20}CCC 28 7 3,69

65: AGCN{15}CCC 67 30 3,65

66: CCTN{7}GGC 69 31 3,63

67: GCCN{5}CGC 32 9 3,61

68: GCCN{14}CGC 28 7 3,59

69: CAGN{11}CCC 89 45 3,58

70: GGGN{16}GAC 53 21 3,57

71: CCCN{15}GCG 25 6 3,57

72: CCCN{0}CGC 37 12 3,54

73: CCCN{16}AGC* 67 30 3,54

74: AGGN{9}GGG 96 50 3,52

75: CGCN{12}CTC 28 7 3,46

76: CACN{8}CGC 23 5 3,43

77: CCAN{7}CCG 31 9 3,42

78: CGGN{1}GCA 25 6 3,41

79: CGCN{14}CCC 29 8 3,4

80: AGCN{0}CCC 76 36 3,4

81: CGCN{13}GTC 18 3 3,37

82: GCGN{3}GCA 26 7 3,35

83: CGGN{0}GGC 34 11 3,35

84: GCCN{14}CCC 68 31 3,33

85: ACCN{7}CGC 21 4 3,32

86: AGGN{7}CGG 33 10 3,31

87: CCCN{16}CGA 22 5 3,3

88: CGCN{6} CAG 31 9 3,29

89: CAGN{11}GCG 29 8 3,29

90: CCGN{12}CCG 19 4 3,26

91: CGCN{18}CAG 27 7 3,24

92: CAGN{1)GGG 80 39 3,21

93: CGCN{0}CCC 32 10 3,2

94: GCGN{18}GCC 26 7 3,18

95: CGGN{15}GGC 27 7 3,15

96: CCCN{15}AGG 72 34 3,14

97: AGGN{20}GCG 26 7 3,14

98: CGGN{5}CTC 26 7 3,13

99: TCCN{17}CGA 23 5 3,12

100: GCGN{4)CCC 30 9 3,08

101: CCCN{2}CGC 30 9 3,07

102: CGTN{3}CAG 28 8 3,06

103: CCGN{13}GAG 27 7 3,05

104: CTCN{6}CGC 28 8 3,04

105: CGCN{4)GAG 21 5 3,03

106: GCGN{5}GGA 24 6 3,03

107: CCGN{1}CAG 27 7 3,01

108: CGCN{11}CCG 18 3 2,99

109: GCGN{19}CCC 26 7 2,98

110: CGCN{18}GAA 21 5 2,98

111: GGGN{19}GGA 78 39 2,95

112: CCAN{1}CGG 24 6 2,94

113: CCCN{7}GCG 25 6 2,94

114: AGGN{10}CCC 84 43 2,92

115: CCAN{0}GGG 97 52 2,88

116: CAGN{10}CCC 82 41 2,87

117: CCGN{18}CCG 19 4 2,86

118: CCGN{18}GGC 26 7 2,85

119: CCCN{2}GCG 24 6 2,84

120: CGCN{1}GGC 25 7 2,83

121: CCGN{5}GAC 19 4 2,81

122: GGAN{0}CCC 52 22 2,8

123: CCCN{1}CCG 29 9 2,78

124: CCCN{15}ACG 23 6 2,75

125: AGCN{8}CCC 66 31 2,73

126: CCCN{3}GGC 60 27 2,71

127: AGGN{9}CGG 31 10 2,7

128: CCCN{14}CGC 27 8 2,7

129: CCGN{0}CCG 19 4 2,7

130: CGCN{8}AGC 23 6 2,69

131: CGCN{19}ACC 21 5 2,68

132: GCGN{17}GAC 17 3 2,66

133: AGCN{1}GCG 24 6 2,63

134: CCGN{11}GGC 31 10 2,63

135: CGGN{4}AGA 26 7 2,63

136: CGCN{14}CCG 17 3 2,62

137: CCTN{20}GCG 24 6 2,62

138: CCAN{10}CGC 26 7 2,61

139: CCCN{20}CAC 69 33 2,6

140: CCGN{11}GCC 27 8 2,6

141: CGCN{18}CCC 26 7 2,59

142: CGGN{15}CGC 16 3 2,57

143: CGCN{16}GCC 24 6 2,55

144: CGCN{20}GGC 23 6 2,54

145: CGCN{19}CCG 18 4 2,52

146: CGGN{10}CCA 28 8 2,51

147: CGCN{17}CCC 26 7 2,51

148: CGCN{11}ACA 23 6 2,51

149: CGGN{0}ACC 17 3 2,5

150: GCGN{10}GCC 24 6 2,49

151: GCGN{8}GAC 17 3 2,49

152: CCCN{15}GGG 84 32 2,44

153: CGGN{16}GGC 27 8 2,44

154: CGCN{16}CCA 23 6 2,42

155: GCCN{3}CCC 73 36 2,4

156: CAGN{4}GGG 94 51 2,4

157: CCCN{6}GCG 23 6 2,38

158: CCGN{16}CGC 17 3 2,38

159: CCCN{17}GCA 61 28 2,37

160: CGCN{13}TCC 24 6 2,37

161: GCCN{1}CGC 29 9 2,36

162: CCGN{19}GAG 26 7 2,35

163: GGGN{10}GGA 89 48 2,35

164: CAGN{5}CCG 32 11 2,35

165: CGCN{3}AGA 19 4 2,32

166: GCCN{0}GCC 29 9 2,32

167: CCCN{8}GGC 61 28 2,31

168: CCTN{6}GCG 22 6 2,29

169: GACN{6}CCC 48 20 2,29

170: CGGN{1}CCC 26 8 2,27

171: CCCN{15}CCG 30 10 2,27

172: CAGN{9}CCC 84 44 2,26

173: CGGN{10}GGC 27 8 2,26

174: CGAN{10}ACG 10 1 2,26

175: GCGN{3}TCC 21 5 2,26

176: CCCN{3}GCC 75 38 2,24

177: GCGN{1}ACC 17 3 2,24

178: CCGN{9}AGG 27 8 2,23

179: CGCN{16}CAG 26 8 2,23

180: GGCN{0}CCC 62 29 2,22

181: AGGN{12}CCG 26 8 2,19

182: CCGN{0}GCG 16 3 2,19

183: CCGN{2}GCC 30 10 2,18

184: CCGN{11}GTC 19 4 2,17

185: CAGN{0}CCC 88 47 2,17

186: CCCN{5}CCG 32 11 2,17

187: GCCN{20}CCC 66 32 2,15

188: GACN{2}CGC 18 4 2,14

189: CGCN{6}CAC 23 6 2,13

190: AGGN{14}GCG 25 7 2,1

191: GACN{5}CGC 17 3 2,1

192: CCTN{19}CCG 29 9 2,1

193: CCGN{12}GGA 24 7 2,08

194: GGCN{9}GAC* 44 18 2,08

195: AGGN{10}GGG 94 52 2,07

196: CCGN{10}GAG 25 7 2,07

197: CGCN{6}GGA 20 5 2,06

198: CGCN{7}AGC 23 6 2,04

199: CCAN{13}CGG 26 8 2,03

200: CGGN{6}GGA 25 7 2,03

201: CGCN{19}GCC 24 7 2,03

202: CCAN{12}CGC 24 7 2,02

203: CGGN{11}GGC 41 16 2,02

204: GCGN{3}CCA 25 7 2,01

205: AGGN{1}CGC 21 5 2

206: CTCN{5}CGC 24 7 1,98

207: CCCN{0}ACG 30 10 1,97

208: CAGN{17}CCG 29 9 1,96

209: GGCN{4}CCC 62 30 1,96

210: AGGN{8}GCG 26 8 1,96

211: CTGN{1}CCC 88 48 1,94

212: CCCN{16}CAG 85 46 1,94

213: CGCN{9}GAC 16 3 1,93

214: CAGN{6}CCG 29 9 1,92

215: CGTN{12}CGC 11 1 1,92

216: CTCN{7}GCC 69 35 1,92

217: CGCN{19}TCC 22 6 1,92

218: CCCN{7}GCC 67 33 1,91

219: CAGN{13}CGG 30 10 1,9

220: CGCN{1}GCC 27 8 1,9

221: CGCN{17}CCG 17 4 1,89

222: AGGN{4}CCC 63 31 1,89

223: AGCN{10}CGC 21 5 1,89

224: CCCN{11}CGG 30 10 1,88

225: CCCN{8}GCC 75 39 1,86

226: CCGN{1}CGG 22 3 1,86

227: CCCN{1}ACC 71 36 1,85

228: CGCN{0}CAG 25 7 1,85

229: CCGN{19}TGC 23 6 1,82

230: GCGN{4}CGA 12 2 1,82

231: CCGN{19}GCC 30 10 1,82

232: CCAN{10}CCC 85 46 1,81

233: CAGN{13}GGG 91 51 1,81

234: AGCN{18}CGG 23 6 1,81

235: CGAN{8}CGC 11 1 1,81

236: AGCN{4}CCC 63 31 1,8

237: GGAN{6}CCC 61 30 1,8

238: CGGN{13}AAG 23 6 1,8

239: ACCN{11}CGC 19 5 1,79

240: CCGN{12}CAG 28 9 1,78

241: CCCN{12}GGG 76 29 1,77

242: CACN{17}ACG 22 6 1,76

243: CAGN{18}CCC 82 44 1,76

244: CGTN{10}GTC 19 5 1,75

245: CCCN{13}GCG 23 6 1,75

246: GCAN{1} CGC 20 5 1,73

247: AGAN{4}CCG 24 7 1,73

248: GCGN{10}AGC 22 6 1,72

249: CGCN{0}GGA 12 2 1,72

250: CGGN{4}GAC 17 4 1,69

251: CCCN{12}CGC 26 8 1,68

252: GCCN{15}CCC 65 33 1,68

253: GCGN{6}TCC 20 5 1,66

254: CGGN{3}CAG 33 12 1,65

255: CCCN{3}CCA 88 49 1,65

256: AGCN{3}CCC 59 28 1,65

257: GGGN{16}GCA 65 33 1,65

258: AGGN{8}CCG 28 9 1,64

259: CCCN{0}CCG 29 10 1,64

260: GCGN{5}GAC 16 3 1,64

261: CCCN{9}ACC 60 29 1,64

262: CTGN{5}CGC 25 8 1,64

263: CGCN{14}CTC 23 7 1,64

264: CGGN{14}GCA 23 7 1,63

265: CCGN{8}GCC 26 8 1,62

266: CCGN{7}CAC 23 7 1,62

267: AGCN{8}GCG 21 6 1,61

268: CGGN{16}GGA 29 10 1,61

269: CCAN{12}CCG 26 8 1,61

270: CGGN{2}CCC 26 8 1,6

271: CCAN{13}GGG 71 37 1,6

272: CGGN{15}GCA 21 6 1,6

273: CGCN{9}GCA 20 5 1,58

274: CGGN{19}CCA 26 8 1,58

275: GGGN{15}CGA 20 5 1,57

276: CCCN{10}CGC 26 8 1,57

277: CTCN{14}CGC 26 8 1,55

278: CACN{11}GCG 20 5 1,55

279: CCGN{2}GGC 24 7 1,55

280: CTGN{18}CCC 85 47 1,54

281: GGGN{13}CAC 58 28 1,54

282: CCTN{15}GGC 62 31 1,54

283: CCCN{20}CGA 20 5 1,54

284: CCCN{8}CGA 20 5 1,53

285: GAGN{7}CCC 61 30 1,53

286: CGCN{2}CCG 22 6 1,53

287: CCCN{0}TCC 98 57 1,52

288: AGCN{0}GCC 21 6 1,52

289: CCCN{2}TCC 82 45 1,52

290: CCGN{5}CCC 30 10 1,52

291: CGCN{13}CGC 16 3 1,51

292: CCCN{1}CGC 28 9 1,51

293: GCCN{16}GCA 53 25 1,51

294: CCCN{16}CCA 84 46 1,5

295: CCGN{13}CGC 19 5 1,5

296: CCGN{17}CAG 28 9 1,49

297: CGGN{18}GGC 26 8 1,49

298: CCGN{14}AGG 23 7 1,49

299: CCCN{5}CGG 26 8 1,49

300: CCCN{6}GGA 58 28 1,49

301: ACGN{2}CCC 20 5 1,49

302: CCAN{9}CCG 27 9 1,48

303: CCCN{19}CCA 78 42 1,48

304: CAGN{0}GGG 77 41 1,48

305: AGCN{1}CCC 58 28 1,47

306: GCGN{7}TCC 27 9 1,46

307: ACGN{18}CCA 25 8 1,46

308: GCTN{14}CCC 61 30 1,46

309: GCGN{14}CCC 23 7 1,46

310: GCGN{19}AGC 20 5 1,45

311: CCGN{8}CAG 29 10 1,45

312: GCGN{6}GCC 22 6 1,45

313: GCGN{10}GCA 20 5 1,44

314: CCTN{7}GCC 69 36 1,44

315: GCCN{13}GCC 54 26 1,42

316: CCCN{14}GCC 63 32 1,42

317: CCCN{15}CGG 26 8 1,42

318: CCAN{13}CGC 23 7 1,42

319: AGCN{11}GGG 67 35 1,41

320: GGAN{0}GCC 64 32 1,4

321: GCCN{3}TCC 61 30 1,4

322: CCTN{5}GCC 69 36 1,39

323: CGGN{18}CCC 25 8 1,39

324: CCTN{3}GGC 59 29 1,38

325: CCGN{0}CTC 22 6 1,38

326: AGCN{17}GCG 19 5 1,37

327: ACGN{14}GGG 20 5 1,37

328: CGAN{12}GGC 19 5 1,37

329: CCCN{20}CGC 24 7 1,37

330: ACGN{12} CTG 24 7 1,36

331: CCGN{0}CCC 36 14 1,36

332: CCGN{10}GGA 23 7 1,36

333: CCCN{3}GCG 21 6 1,36

334: GCGN{14}CGC 22 3 1,35

335: CCGN{8}CGC 16 4 1,35

336: CGCN{10}ACA 22 6 1,34

337: CCCN{19}CCG 28 10 1,33

338: CACN{14}CGC 20 5 1,32

339: GACN{3}GGC 46 21 1,32

340: GAAN{7}CGC 19 5 1,32

341: CGCN{16}GGC 21 6 1,31

342: GGCN{9}CCC 64 33 1,31

343: CCCN{9}GCC 64 33 1,31

344: CGCN{0}TGC 26 9 1,3

345: CCTN{8}GGC 67 35 1,3

346: CCAN{8}CCC 82 46 1,29

347: GACN{2}CCC 42 18 1,28

348: GGCN{1}CCC 54 26 1,27

349: CGCN{0}AGC 24 7 1,26

350: AGGN{4}GCG 28 10 1,26

351: CGGN{6}TCC 22 6 1,25

352: ACGN{19}GGC 20 5 1,25

353: CCCN{8}ACG 21 6 1,24

354: CCCN{18}GCC 62 31 1,24

355: GCCN{2}CGA 19 5 1,24

356: CCCN{8}GCG 28 10 1,23

357: CCCN{0}CTC 76 41 1,23

358: GCCN{11}CGC 27 9 1,22

359: AGCN{9}CCC 59 29 1,22

360: GCTN{0}GCC 71 38 1,21

361: CGCN{3}CCC 26 9 1,21

362: CCCN{2}CCC 117 72 1,19

363: GCCN{9}CGC 23 7 1,19

364: GCAN{19}CGC 19 5 1,19

365: CAGN{4}CGG 32 12 1,18

366: CAGN{2}GGG 80 44 1,17

367: GCCN{16}CCC 67 35 1,16

368: GAGN{5}CCC 60 30 1,16

369: CCTN{16}TCG 20 6 1,16

370: CCCN{2}GGC 62 32 1,15

371: GCGN{13}GGA 24 8 1,15

372: GCCN{17}GGC 66 25 1,15

373: CCCN{14}GGC 58 29 1,14

374: AGGN{3}CCG 31 12 1,14

375: CACN{0} CGC 32 12 1,14

376: CGGN{18}CAG 28 10 1,14

377: AGCN{1}GCC 57 28 1,13

378: CGCN{18}GGC 23 7 1,13

379: CCCN{5}AGG 64 33 1,11

380: AACN{0}GCG 9 1 1,11

381: CCCN{10}CCA 88 50 1,09

382: CGCN{13}GAG 20 6 1,09

383: CGCN{7}GCC 25 8 1,08

384: CCCN{9}CCG 28 10 1,07

385: CGCN{16}CCC 24 8 1,05

386: GAAN{13}CGC 18 5 1,05

387: GGCN{3}CCC 49 23 1,03

388: TCCN{11}CCA 87 50 1,03

389: CACN{0}CCC 70 38 1,02

390: CGCN{16}CCG 15 3 1,02

391: CGGN{15}AGC 21 6 1,02

392: CCCN{12}GCG 21 6 1,02

393: CCCN{9}GAG 59 30 1,01

394: CCGN{20}TCC 24 8 1,01

395: CGCN{0}CGC 17 4 1,01

396: ATGN{7}CGG 20 6 1

397: GGGN{20}GCA 59 30 1

398: CGGN{4}GGC 26 9 0,99

399: CGGN{16}AGC 22 7 0,99

400: CGGN{5}GGC 25 8 0,99

401: GCGN{0}GGA 25 8 0,98

402: GGCN{20}CAC 52 25 0,98

403: CCCN{9}CCC 97 58 0,97

404: ACCN{17}GGC 44 20 0,97

405: CCCN{6}CGA 18 5 0,96

406: AAGN{10}CGG 26 9 0,96

407: CGCN{17}CAC 21 6 0,95

408: CCCN{16}CGG 25 8 0,94

409: GACN{18}GGC 39 17 0,94

410: GGGN{15}GAC 47 22 0,92

411: GCCN{4}TCC 66 35 0,92

412: GGCN{15}CCC 56 28 0,92

413: CAGN{12}CGC 24 8 0,92

414: CCAN{3}GCG 22 7 0,91

415: CCGN{16}GAG 22 7 0,9

416: AGCN{2}CGC 24 8 0,89

417: GAGN{4}CCC 54 27 0,89

418: AGGN{3}CGC 23 7 0,88

419: CACN{13}AGG* 67 36 0,88

420: CCCN{4}CAG 88 51 0,88

421: CCCN{2}GAA 63 33 0,87

422: CGCN{19}GAG 21 6 0,87

423: ACGN{18}GGG 21 6 0,87

424: CCCN{4}GGC 62 32 0,87

425: CGGN{9}GAG 28 10 0,86

426: CCCN{3}GGG 66 26 0,86

427: GAGN{4}GGC 66 35 0,85

428: CGCN{5}GAG 18 5 0,84

429: CCGN{20}AGG 24 8 0,84

430: CCCN{15}CCC 88 51 0,83

431: AGGN{17}CCG 25 8 0,82

432: AGGN{6}GGG 89 52 0,82

433: GGCN{20}CCC 57 29 0,82

434: GCAN{17}CGC 19 5 0,82

435: CGAN{11}ACG 9 1 0,81

436: CGCN{2}GGA 19 5 0,81

437: CTGN{5}CCC 79 45 0,8

438: TCCN{20}CCA 77 43 0,8

439: CCAN{2}GGG 59 30 0,8

440: CCGN{15}GCG 14 3 0,8

441: CCAN{5}GGG 69 38 0,79

442: CGGN{1}TGC 24 8 0,79

443: CCCN{14}GCG 21 6 0,79

444: CAGN{0}CCG 27 10 0,79

445: GCCN{9}TCC 60 31 0,78

446: AGGN{20}CGC 22 7 0,78

447: CCCN{6}GAC 42 19 0,77

448: CGGN{11}CCA 23 7 0,76

449: GGGN{14}CAC 57 29 0,75

450: GCAN{15}CGC 19 5 0,74

451: CGCN{2}ACA 20 6 0,74

452: ACCN{9}CCC 57 29 0,73

453: GCGN{9}CGC 20 3 0,73

454: CAGN{15}GCG 23 7 0,73

455: CCCN{18}GTC 45 21 0,72

456: GCGN{3}CCC 24 8 0,72

457: CGGN{11}GCC 23 8 0,72

458: CCCN{1}CGG 24 8 0,71

459: GCCN{4}CCA 70 38 0,71

460: CCCN{4}CCG 30 12 0,7

461: CGTN{2}GCA 21 6 0,7

462: AGCN{7}TCG 18 5 0,69

463: CCGN{15}GAA 20 6 0,69

464: ACCN{5}CCC 62 33 0,69

465: CGCN{14}GAG 19 5 0,68

466: CCCN{7}CGC 30 12 0,68

467: GAGN{12}CGC 21 6 0,68

468: GGCN{17}CCC 58 30 0,67

469: ACGN{11}CTC 21 7 0,65

470: ACAN{9}CGG 24 8 0,65

471: CTGN{7}CCC 82 47 0,65

472: CCCN{2}GCC 72 40 0,65

473: CGGN{2}GCA 24 8 0,64

474: CCCN{0}TGC 83 48 0,64

475: CGCN{7}ACC 18 5 0,63

476: GCAN{2}GCC 54 27 0,63

477: GCGN{8}CCA 20 6 0,63

478: AGCN{0}CGC 22 7 0,63

479: GCGN{2}GCA 18 5 0,63

480: CCGN{2}GTC 18 5 0,62

481: CCGN{3}ACA 21 7 0,62

482: ACGN{13}TGG 21 7 0,62

483: CCAN{8}CGC 23 8 0,62

484: CCGN{9}GGC 23 8 0,61

485: CCAN{5}CCG 25 9 0,61

486: AGGN{3}GGG 97 59 0,61

487: CAGN{2}GGC 78 45 0,61

488: CCCN{8}CAG 81 47 0,61

489: AGCN{5}CAG 80 46 0,6

490: CGGN{16}GCC 22 7 0,6

491: GCGN{15}CCC 23 8 0,6

492: CCCN{11}GCC 59 31 0,59

493: CGAN{2}ACG 9 1 0,59

494: CGGN{4}GCC 22 7 0,59

495: CACN{6}CGC 19 6 0,59

496: CGGN{5}ACG 11 2 0,59

497: CTGN{4}GCC * 66 36 0,59

498: GGGN{18}CGA 18 5 0,59

499: CCTN{8}CGC 22 7 0,59

500: GCCN{4}CCC 67 37 0,58

501: CGGN{10}GCC 22 7 0,58

502: GCCN{5}GGA 54 27 0,57

503: ACCN{7}GCG 15 4 0,57

504: CCCN{8}CGC 24 8 0,57

505: CAGN{5}CCC 77 44 0,56

506: CACN{14}GGA 63 34 0,56

507: CCCN{1}GCC 94 57 0,55

508: CCCN{5}AGC 67 37 0,55

509: GGCN{5}GGA 59 31 0,55

510: CGAN{17}GAG 19 6 0,55

511: CGCN{7}ACA 18 5 0,54

512: CCAN{13}CCC 87 52 0,54

513: CGGN{20}GGC 24 8 0,54

514: CCCN{17}GCC 58 30 0,53

515: CCTN{10}CCG 30 12 0,53

516: CCCN{8}CCG 27 10 0,53

517: CGCN{3}GAG 18 5 0,52

518: CGCN{7}AAG 17 5 0,51

519: CGGN{11}GGA 23 8 0,51

520: CCGN{15}CCG 15 4 0,51

521: CCCN{3}GCA 57 30 0,51

522: CGGN{2}CAG 24 8 0,5

523: AGGN{2}CCG 24 8 0,5

524: CCCN{4}CAC 69 38 0,5

525: GGAN{19}CCC 56 29 0,49

526: CCCN{8}CAC 68 38 0,49

527: ACCN{6}CCG 18 5 0,49

528: CCCN{6}GGC 54 28 0,49

529: CCCN{6}CCG 29 11 0,48

530: CGCN{14}GCC 26 9 0,47

531: CCGN{5}TCC 25 9 0,46

532: GCCN{6}GCC 55 28 0,46

533: CGGN{7}GGA 24 8 0,45

534: GGGN{6}GGA 87 52 0,44

535: GCCN{12}TCC 60 32 0,44

536: AGTN{16}CCG 17 5 0,44

537: GGCN{19}GCC 68 29 0,44

538: CCGN{3}CCG 22 7 0,44

539: CCCN{8}ACC 58 31 0,44

540: CAGN{15}GCC 77 44 0,44

541: CCCN{17}CGG 24 8 0,44

542: GCGN{1}CCA 22 7 0,44

543: CCCN{14}CAG 79 46 0,44

544: CCCN{8}CCC 89 53 0,44

545: ACAN{12}GCG 23 8 0,43

546: AGGN{4}CCG 23 8 0,43

547: CGCN{13}GCC 23 8 0,43

548: GAGN{2}CGC 23 8 0,42

549: CCCN{9}GCG 21 7 0,42

550: CGCN{17}ACA 17 5 0,42

551: GCGN{17}CCA 23 8 0,42

552: AAGN{18}CCG 20 6 0,42

553: CGCN{1}GGA 18 5 0,41

554: CCAN{1}CCC 90 54 0,41

555: CGTN{18}TGC 20 6 0,41

556: TCCN{14}CGA 17 5 0,41

557: CACN{5}GGG 56 29 0,4

558: CCGN{12}GCA 21 7 0,4

559: CTGN{6}CCC 77 44 0,4

560: CGGN{8}GGC 32 13 0,4

561: CCAN{11}GGG 68 38 0,4

562: ACGN{19}CAA 21 7 0,39

563: GGGN{20}CCC 72 31 0,39

564: CGCN{3}CAG 23 8 0,39

565: AGCN{17}GGG 58 31 0,37

566: CACN{20}CCG 21 7 0,37

567: ACGN{17}CAG 24 8 0,37

568: AGGN{1}CCC 60 32 0,37

569: CGTN{12}CAC 20 6 0,37

570: CGGN{9}GGC 23 8 0,37

571: CGCN{10}GCG 18 3 0,37

572: CCCN{6}CTC 80 47 0,36

573: CCGN{10}AGG 23 8 0,36

574: CCCN{18}CAG 79 46 0,36

575: AGCN{17}CCG 21 7 0,36

576: AGCN{9}GCG 18 5 0,36

577: CCAN{3}GGC 62 34 0,36

578: CCCN{11}GGC 57 30 0,35

579: ACGN{5}GCA 23 8 0,35

580: CCCN{14}CGG 23 8 0,35

581: CCCN{5}CCA 91 55 0,35

582: CCGN{1}AGG 22 7 0,34

583: GGGN{10}GAC 45 22 0,34

584: CGCN{15}CCA 20 6 0,34

585: CCTN{19}CGC 22 7 0,34

586: CGTN{3}CGC 10 2 0,33

587: AGCN{14}CCG 21 7 0,33

588: GGCN{2}CGA 17 5 0,33

589: CAGN{8}CCC 79 46 0,33

590: CCGN{2}GAC 16 4 0,33

591: AGCN{19}AGG 70 40 0,32

592: CCTN{4}GGC 64 35 0,32

593: CCGN{11}AGC 22 7 0,32

594: CACN{4}CGC 18 5 0,32

595: CCGN{1}CCC 30 12 0,31

596: CTGN{13}GGC 73 42 0,31

597: CGCN{16}ACC 15 4 0,31

598: CACN{18}CAG 79 46 0,31

599: GGCN{8}GCC 68 29 0,29

600: GGGN{15}GGA 78 46 0,29

601: CCGN{16}GCC 22 7 0,29

602: CCGN{20}ACC 18 5 0,29

603: CGAN{7}CCC 17 5 0,28

604: CCGN{6}CTC 23 8 0,28

605: CGGN{10}CTC 22 7 0,28

606: CAGN{16}CGC 23 8 0,28

607: CCAN{3}AGG 77 45 0,27

608: GCCN{18}GCC 52 27 0,27

609: CGCN{18}GGA 19 6 0,26

610: CCGN{20}GGC 22 7 0,26

611: ACAN{10}GCG 17 5 0,26

612: CGGN{5}CCC 25 9 0,25

613: CCCN{7}TCC 75 43 0,25

614: ACGN{10}CGC 10 2 0,25

615: CCCN{3}TCC 81 48 0,25

616: CCGN{8}CGG 20 3 0,24

617: CCAN{15}CGG 22 7 0,24

618: CCGN{6}CCG 17 5 0,24

619: CAGN{3}GCG 25 9 0,24

620: GAGN{1}CCC 62 34 0,24

621: CCGN{18}TGC 22 7 0,23

622: CCCN{7}CCA 85 51 0,23

623: CGGN{3}CCA 24 9 0,23

624: ACGN{1}CCC 18 5 0,23

625: CGGN{13}TGA 21 7 0,22

626: CTCN{6}GGC 53 28 0,22

627: GCGN{2}GAC 15 4 0,22

628: GGGN{11}ACC 49 25 0,22

629: CGCN{4}GGA 17 5 0,22

630: CCCN{11}CCG 27 10 0,22

631: CCGN{19}GCA 20 6 0,22

632: GCGN{0}GCA 20 6 0,21

633: AGAN{7}CCC 61 33 0,21

634: CGGN{2}CCA 21 7 0,21

635: CCCN{7}CCC 89 54 0,21

636: ACCN{4}GCG 15 4 0,2

637: CCTN{15}CGC 20 6 0,2

638: AGCN{9}GTC 44 21 0,2

639: CCCN{18}CTC 74 43 0,2

640: CGCN{18}CGA 9 1 0,19

641: CCCN{15}GCC 62 34 0,18

642: ACCN{11}GGC 45 22 0,18

643: AGGN{15}CGC 29 12 0,18

644: GCGN{0}CCA 27 10 0,18

645: GCGN{9}AGC 18 5 0,17

646: GGGN{18}GCA 59 32 0,17

647: CCCN{17}CAG 77 45 0,17

648: CCAN{8}CGG 22 8 0,16

649: CCGN{10}GGC 21 7 0,16

650: GCAN{0}GCC 76 44 0,16

651: CAGN{2} CGC 20 6 0,16

652: CGCN{8}GGC 19 6 0,16

653: CTGN{17}GGC 65 36 0,16

654: GGGN{14}ACC 46 23 0,16

655: CCGN{1}TGC 20 6 0,16

656: CAGN{8}CGC 22 8 0,15

657: AAGN{11}CGC 17 5 0,15

658: CCGN{6}TCC 22 8 0,14

659: CCAN{18}CCC 72 42 0,14

660: CCAN{0}CCC 84 51 0,14

661: GAGN{6}CCC 53 28 0,14

662: AGCN{20}GGC 52 27 0,14

663: CAGN{0}CGC 21 7 0,14

664: CCGN{12}CTC 22 8 0,14

665: CGCN{15}ACG 9 1 0,13

666: GGCN{17}CGA 15 4 0,13

667: CCGN{16}AAG 19 6 0,13

668: CGCN{14}TCC 19 6 0,12

669: AGGN{7}CGC 20 7 0,12

670: CGGN{7}CCC 22 8 0,12

671: CGCN{4}GCC 34 15 0,12

672: CGAN{6}CCC 17 5 0,12

673: CCCN{19}GGA 60 33 0,11

674: CCCN{16}GCG 28 11 0,11

675: CCAN{7}CGC 20 7 0,11

676: CCCN{6}GCC 80 48 0,11

677: GCCN{14}TCC 55 29 0,11

678: AGGN{14}GCC 64 36 0,1

679: CGCN{11}GCC 20 7 0,1

680: TCCN{0}GCA 17 5 0,09

681: GCGN{8}CCC 27 11 0,09

682: CCAN{11}GCG 19 6 0,09

683: CACN{4}GGG 51 26 0,09

684: CGGN{7}TCC 20 7 0,09

685: GCGN{5}GCC 20 7 0,09

686: ACGN{12}CAG 26 10 0,09

687: CCGN{19}CGC 14 4 0,08

688: CGGN{8}TGC 18 5 0,08

689: CCCN{1}GAG 65 37 0,07

690: GCGN{19}TGA 18 6 0,07

691: GGCN{15}GCC 70 31 0,07

692: CCGN{7}CCC 27 11 0,07

693: ACAN{19}CCC 63 35 0,07

694: ACCN{16}GGG 47 24 0,07

695: AGAN{1}GGC 64 36 0,07

696: GGGN{17}TGA 64 36 0,06

697: CAGN{5}GGG 83 50 0,06

698: GCCN{13}CGC 22 8 0,06

699: GCGN{7}GGA 19 6 0,06

700: CAGN{14}CCA 94 58 0,06

701: CCGN{4}GTC 16 4 0,06

702: CCCN{13}CGC 22 8 0,06

703: GCGN{14}ACC 15 4 0,05

704: CAGN{20}GGG 81 49 0,05

705: CCGN{4}CCC 27 11 0,05

706: CGCN{5}GGC 18 6 0,05

707: CCTN{6}GGC 57 31 0,05

708: AGGN{3}GGC 67 38 0,05

709: CGGN{11}CGC 14 4 0,05

710: CTGN{18}GGA 77 46 0,04

711: CACN{17}CCA 74 43 0,04

712: CGGN{3}GAG 22 8 0,04

713: CCCN{9}CCA 82 49 0,03

714: CCCN{1}ACG 18 6 0,03

715: CAGN{1}GCC 72 42 0,03

716: AGGN{6}CCG 23 8 0,03

717: AGCN{9}GGG 57 31 0,03

718: CCCN{7}GGC 54 29 0,02

719: CCTN{13}CCC 88 54 0,02

720: CCGN{19}TTC 20 7 0,02

721: CCCN{7}CCG 27 11 0,02

722: CGAN{6}GGC 17 5 0,01

723: CGGN{4}CTC 21 7 0,01

724: CGGN{0}CGC 13 3 0,01

725: CCTN{13}ACG 19 6 0,01

726: GGGN{6}CAC 53 28 0,01

727: CCCN{16}CGC 21 7 0,01

728: CCCN{10}CTC 76 45 0

729: CCCN{0}CAG 92 57 0

730: GCCN{5}CCC 65 37 0

Tabla 6. Elementos STAR, que incluyen la ubicación genómica y longitud

STAR: Ubicación1 Longitud2

1: 2q31.1 750

2: 7p15.2 916

33: 15q11.2 y 10q22.2 2132

4: 1p31.1 y 14q24.1 1625

54: 20q13.32 1571

6: 2p21 1173

7: 1q34 2101

8: 9q32 1839

94: 10p15.3 1936

10: Xp11.3 1167

11: 2p25.1 1377

12: 5q35.3 1051

134: 9q34.3 1291

144: 22a11.22 732

15: 1p36.31 1881

16: 1p21.2 1282

17: 2q31.1 793

18: 2q31.3 497

19: 6p22.1 1840

20: 8p13.3 780

21: 6q24.2 620

22: 2q12.2 1380

23: 6p22.1 1246

24: 1q21.2 948

255: 1q21.3 1067

26: 1q21.1 540

27: 1q23.1 1520

28: 22q11.23 961

29: 2q13.31 2253

30: 22q12.3 1851

31: 9q34.11 y 22q11.21 1165

32: 21q22.2 771

33: 21q22.2 1368

34: 9q34.14 755

35: 7q22.3 1211

36: 21q22.2 1712

37: 22q11.23 1331

38: 22q11.1 y 22q11.1 ~1000

39: 22q12.3 2331

40: 22q11.21 1071

41: 22q11.21 1144

42: 22q11.1 735

43: 14q24.3 1231

44: 22q11.1 1591

45: 22q11.21 1991

46: 22q11.23 1871

47: 22q11.21 1082

48: 22q11.22 1242

49: Cromos. 12 clon al azar, y 3q26.32 1015

50: 6p21.31 2361

51: 5q21.3 2289

52: 7p 15.2 1200

53: Xp11.3 1431

54: 4q21.1 981

55: 15q13.1 501

56: Incluye 3p25.3 741

57: 4q35.2 1371

58: 21q11.2 1401

59: 17 clon al azar 872

60: 4p16.1 y 6q27 2068

61: 7p14.3 y 11q25 1482

62: 14q24.3 1011

63: 22q13.3 1421

64: 17q11.2 1414

65: 7q21.11=28.4 1310

66: 20q13.33 y 6q14.1 ~ 2800

1 Se determina la ubicación cromosómica mediante la búsqueda de BLAST de la información de secuencia de ADN de los elementos STAR frente a la base de datos del genoma humano. La ubicación se da según la nomenclatura convencional haciendo referencia al ideograma citogenético de cada cromosoma; por ejemplo, 1p2.3 es la tercera

5 sub-banda citogenética de la segunda banda citogenética del brazo corto del cromosoma 1 (http: //www.nebi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.h tml). En casos en que la reacción de secuenciación directa e inversa identifique ADN de diferentes loci genómicos, se muestran ambos loci.

2Se determinan longitudes precisas mediante análisis de secuencias de ADN; se determinan longitudes aproximadas mediante mapeo de restricción.

10 3Se ha refinado la secuencia y ubicación de STAR3 desde la realización de las tablas 2 y 4 del documento EP 01202581.3.

4Se retiraron los STAR con estos números en las tablas 2 y 4 del documento EP 01202581.3 (de aquí en adelante denominados “oldSTAR5” etc.) y se asignaron sus números a los elementos STAR que se muestran en el apéndice de secuencias de ADN. En el caso de oldSTAR5, oldSTAR14, y oldSTAR16, los ADN clonados eran quimeras de

15 más de dos ubicaciones cromosómicas; en el caso de oldSTAR9 y oldSTAR13, los ADN clonados eran idénticos a STAR4.

5Idénticos a la Tabla 4 “STAR18”del documento EP 01202581.3.

Tabla 7. Los elementos STAR transmiten estabilidad en el tiempo en la expresión transgénica1.

Divisiones celulares2: Expresión de luciferasa3

STAR6 más puromicina: 42 18.000

60: 23.000

84: 20.000

108: 16.000

STAR6 sin puromicina4: 84 12.000

108: 15.000

144: 12.000

1 Se transfectó el plásmido pSDH-Tet-STAR6 en células U-2 OS, y se aislaron y se cultivaron clones en un medio sin doxiciclina. Se transfirieron las células a recipientes de cultivo limpios semanalmente a una dilución de 1:20.

2El número de divisiones celulares se basa en la estimación de que en una semana el cultivo alcanza la confluencia 5 celular, que representa  6 divisiones celulares.

3Se sometió a prueba la luciferasa tal como se describe en el ejemplo 4.

4Tras 60 divisiones celulares se transfirieron las células a dos recipientes de cultivo; se le administró a uno medio de cultivo que contenía puromicina, para las primeras 60 divisiones celulares, y al segundo se le administró con medio de cultivo sin antibiótico.

10

Tabla 8. Elementos STAR humanos y sus ortólogos y parálogos putativos de ratones

SEQ:ID: STAR Ser humano1 Ratón2 Similitud3

1
1: 2q31.1 2D 600 pb 69%

2
2: 7p15.2 6B3 909 pb 89%

3: 3a 5q33.3 11B2 248 pb 83%

4: 3b 10q22.2 14B 1.363 pb 89% 2.163 pb 86%

5: 6 2p21 17E4 437 pb 78%

6: 12 5q35.3 11b1.3 796 pb 66%

7: 13 9q34.3 2A3 753 pb 77%

8: 18 2q31.3 2E1 497 pb 72%

9: 36 21q22.2 16C4 166 pb 79%

10: 40 22q11.1 6F1 1. 270 pb 75% 2. 309 pb 70%

11: 50 6p21.31 17B1 1. 451 pb 72% 2. 188 pb 80% 3. 142 pb 64%

12: 52 7p15.2 6B3 1. 846 pb 74% 2. 195 pb 71%

13: 53 Xp11.3 XA2 364 pb 64%

14: 54 4q21.1 5E3 1. 174 pb 80% 2. 240 pb 73% 3. 141 pb 67% 4. 144 pb 68%

15: 61a 7p14.3 6B3 188 pb 68%

1Ubicación citogenética del elemento STAR en el genoma humano.

2Ubicación citogenética de elemento STAR ortólogo en el genoma del ratón.

3Longitud de región/regiones que muestran alta similitud de secuencia, y porcentaje de similitud. En algunos casos se produce más de un bloque de alta similitud; en estos casos, cada bloque se describe por separado. Similitud <60% no se considera significativa.

Tabla 9. Elementos STAR candidatos sometidos a prueba mediante análisis discriminante lineal

STAR candidato: Ubicación1 Longitud

T2 F: 20q13.33 ~2800

T2 R: 6q14.1 ~2800

T3 F: 15q12 ~2900

T3 R: 7q31.2 ~2900

T5 F: 9q34.13 ND2

T5 R: 9q34.13 ND

T7: 22q12.3 ~1200

T9 F: 21q22.2 ~1600

T9 R: 22q11.22 ~1600

T10 F: 7q22.2 ~1300

T10 R: 6q14.1 ~1300

T11 F: 17q23.3 ~2000

T11 R: 16q23.1 ~2000

T12: 4p15.1 ~2100

T13 F: 20p13 ~1700

T13 R: 1p13.3 ~1700

T14 R: 11q25 ~1500

T17: 2q31.3 ND

T18: 2q31.1 ND

1Se determinó la ubicación cromosómica mediante búsqueda en BLAST de datos de secuencias de ADN de los elementos STAR frente a la base de datos del genoma humano. La ubicación se otorga según la nomenclatura convencional que hace referencia al ideograma citogénetico de cada cromosoma; por ejemplo 1p2,3 es la tercera 5 sub-banda citogenética de la segunda banda citogénica del brazo corto del cromosoma 1 (http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html). F, resultado de reacción de secuenciación directa; R resultado de reacción de secuenciación inversa. Cuando los resultados de secuenciación directa e inversa se mapearon a diferentes ubicaciones genómicas, se extendió cada secuencia a la longitud completa del clon original (tal como se determinó mediante mapeo de restricción) basándose en información de 10 secuencia de la base de datos del genoma humano.

2ND: No Determinado.

Tabla 10. Elementos STAR de Arabidopsis de la invención, que incluye ubicación del cromosoma y longitud

STAR: Cromosoma Longitud, kb

A1: I 1,2

A2: I 0,9

A3: I 0,9

A4: I 0,8

A5: I 1,3

A6: I 1,4

A7: II 1,2

A8: II 0,8

A9: II 0,9

A10: II 1,7

A11: II 1,9

A12: II 1,4

A13: II 1,2

A14: II 2,1

A15: II 1,4

A16: II 0,7

A17: II 1,5

A18: III 1,5

A19: III 0,7

A20: III 2,0

A21: IV 1,8

A22: IV 0,8

A23: IV 0,6

A24: IV 0,5

A25: V 0,9

A26: V 1,9

A27: V 1,1

A28: V 1,6

A29: V 0,9

A30: V 2,0

A31: V 2,0

A32: V 1,3

A33: V 0,9

A34: I 0,9

A35: II 1,1

5

10

15

20

25

30

35

40

45

DESCRIPCIÓN DE LAS FIGURAS

Los dibujos muestran versiones representativas de las moléculas de ADN de la invención. Estas partes de ADN, denominadas (una) unidad(es) de expresión de proteína, se crea(n) y se manipula(n) en vectores tales como moléculas de plásmidos recombinantes y/o genomas virales recombinantes. Las unidades de expresión de proteínas se integran a los genomas de la célula huésped como parte del método de la invención, y los dibujos esquemáticos representan la configuración de los elementos de ADN en las unidades de expresión tanto en las moléculas del vector como en el genoma de la célula hospedadora.

Figura 1. Diagrama esquemático de la invención.

La figura 1A muestra la primera unidad de expresión. Está flanqueada por elementos STAR, y comprende un gen bicistrónico que contiene (desde 5’ hacia 3’) un transgén (que codifica para, por ejemplo, un gen indicador o una subunidad de una proteína multimérica; TG S1, “subunidad 1 del transgén”), un IRES, y un marcador seleccionable (zeo, que confiere resistencia a zeocina) bajo el control del promotor de CMV. Un marcador seleccionable monocistrónico (neo, que confiere resistencia a G418) bajo el control del promotor de SV40. Ambos genes tienen el terminador transcripcional de SV40 en sus extremos 3’ (t).

La figura 1B muestra la segunda unidad de expresión. Está flanqueada por elementos STAR, y contiene un gen bicistrónico que contiene (desde 5’ hacia 3’) un transgén (que codifica para, por ejemplo, un gen indicador diferente u otra subunidad de una proteína multimérica; TG S2), un IRES, y un marcador seleccionable (bsd, que confiere resistencia a blasticidina) bajo el control del promotor de CMV. Se incluye un marcador seleccionable monocistrónico (neo, que confiere resistencia a G418) bajo el control del promotor de SV40. Ambos genes tienen el terminador transcripcional de SV40 en sus extremos 3’.

Figura 2. El plásmido pSDH-CSP.

El gen indicador de fosfatasa alcalina secretada (SEAP) está bajo el control del promotor de CMV, y el marcador seleccionable de resistencia a puromicina (puro) está bajo el control del promotor de SV40. Flanqueando estos dos genes están los sitios de clonación múltiple en los que pueden clonarse los elementos STAR. El plásmido también tiene un origen de replicación (ori) y gen de resistencia a ampicilina (ampR) para su propagación en Escherichia coli.

Figura 3. Las familias de plásmidos pSDH-SIB/Z y pSDH-GIB/Z.

Estos plásmidos se derivan del plásmido pSDH-CSP (figura 2), mediante la sustitución de los genes SEAP y puro monocistrónicos con un gen bicistrónico bajo el control del promotor de CMV y un gen de marcador seleccionable de resistencia a neomicina monocistrónico (neo) bajo el control del promotor de SV40.

Panel A, pSDH-SIB/Z en el que el gen bicistrónico codifica para fosfatasa alcalina secretada (SEAP) en la posición 5’ y marcadores seleccionables de resistencia a blasticidina (bsd) o zeocina (zeo) en la posición 3’, en relación al sitio interno de unión al ribosoma (IRES).

Panel B, pSDH-GIB/Z en el que el gen bicistrónico codifica para la proteína verde fluorescente (GFP) en la posición 5’ y marcadores seleccionables de resistencia a blasticidina (bsd) o zeocina (zeo) en la posición 3’, en relación al sitio interno de unión al ribosoma (IRES).

Figura 4. Comparación de las consecuencias de la selección con antibióticos de una etapa y dos etapas sobre la previsibilidad de la expresión transgénica.

Se seleccionaron aislados de células CHO recombinantes que contienen el plásmido pSDH-SIZ o plásmido pSDHSIZ-STAR18 en G418 (panel A) o secuencialmente en G418 y zeocina (panel B) y se sometieron a ensayo para detectar la actividad de SEAP.

Figura 5. La familia de plásmidos PP (ensamblar y listo).

Estos plásmidos contienen una unidad de expresión bicistrónica (que contiene un sitio interno de unión al ribosoma, IRES) entre los sitios de clonación múltiple (MCS) para la inserción de elementos STAR. MCSI, Sbfl-SalI-XbaI-AscI-SwaI; MCSII, BsiWI-EcoRV-BglII-PacI.

Panel A, el gen bicistrónico codifica para la proteína verde fluorescente (GFP) y el marcador de resistencia a

puromicina (puro).

Panel B, el gen bicistrónico codifica para la fosfatasa alcalina secretada (SEAP) y el marcador de resistencia a zeocina (zeo). Panel C, el gen bicistrónico codifica para SEAP y el marcador de resistencia a neocina (neo). Panel D, el gen bicistrónico codifica para GFP y puro, y un gen monocistrónico adyacente codifica para neo. Panel E, el gen bicistrónico codifica para SEAP y zeo, y un gen monocistrónico adyacente codifica para neo. Los genes bicistrónicos están bajo el control del promotor de CMV (pCMV) y el gen monocistrónico está bajo el

control del promotor de SV40 (pSV40). Un fragmento de relleno de 0,37 kb (St) separa MCSI de pCMV. Tanto los genes bicistrónicos como los monocistrónicos tienen el sitio de poliadenilación de SV40 en sus extremos 3’.

Figura 6. Secuencias STAR

Secuencias que comprenden STAR1 - STAR65 (SEQ ID: 1- 65) Secuencias que comprenden STAR66 y conjunto de prueba (SEQ ID: 66 - 84), Secuencias que comprenden STAR A1-A35 de Arabidopsis (SEQ ID: 85-119).

Figura 7. El plásmido pSDH-CSP usado para someter a prueba la actividad de STAR.

El gen indicador de fosfatasa alcalina secretada (SEAP) está bajo el control del promotor de CMV, y el marcador seleccionable de resistencia a puromicina (puro) está bajo el control del promotor de SV40. Flanqueando estos dos genes hay sitios de clonación múltiple en los que pueden clonarse los elementos STAR. El plásmido también tiene un origen de replicación (ori) y gen de resistencia a ampicilina (ampR) para su propagación en Escherichia coli.

Figura 8. STAR6 y STAR49 mejoran la previsibilidad y el rendimiento de la expresión transgénica.

Se determinó la expresión de SEAP a partir del promotor de CMV mediante células CHO transfectadas con pSDH-CSP, pSDH-CSP-STAR6, o pSDH-CSP-STAR49. Las construcciones que contienen STAR confieren mayor previsibilidad y rendimiento elevado en relación a la construcción pSDH-CSP sola.

Figura 9. STAR6 y STAR8 mejoran la previsibilidad y el rendimiento de la expresión transgénica.

Se determinó la expresión de luciferasa a partir del promotor de CMV mediante células U-2 OS transfectadas con pSDH-CMV, pSDH-CMV-STAR6, o pSDH-CMV-STAR8. Las construcciones que contienen STAR confieren mayor previsibilidad y rendimiento elevado en relación a la construcción pSDH-CMV sola.

Figura 10. Secuencias esenciales mínimas de STAR10 y STAR27.

Se amplificaron partes de elementos STAR mediante PCR: se amplificó STAR10 con los cebadores E23 y E12 dando el fragmento 10A, E13 y E14 dando el fragmento 10B, y E15 y E16 dando el fragmento 10C. Se amplificó STAR27 con los cebadores E17 y E18 dando el fragmento 27A, E19 y E20 dando el fragmento 27B, y E21 y E22 dando el fragmento 27C. Se clonaron estos subfragmentos en el vector pSelect. Tras la transfección en células U-2 OS/Tet-Off/LexA-HP1, se monitorizó el crecimiento de los cultivos en presencia de zeocina. Las tasas de crecimiento variaron desde vigorosas (+++) hasta pobres (+/-), mientras que algunos cultivos no sobrevivieron al tratamiento con zeocina (-) debido a ausencia de actividad de STAR en el fragmento de ADN sometido a prueba.

Figura 11. Función del elemento STAR en el contexto del promotor de SV40.

Se transfectaron pSDH-SV40 y pSDH-SV40-STAR6 en la línea celular U-2 OS de osteosarcoma humano, y se sometió a ensayo la expresión de luciferasa con o sin protección frente al silenciamiento génico mediante STAR6 en clones resistentes a puromicina.

Figura 12. Función del elemento STAR en el contexto del promotor Tet-Off.

Se transfectaron pSDH-Tet y pSDH-Tet-STAR6 en la línea celular U-2 OS de osteosarcoma humano, y se sometió a ensayo la expresión de luciferasa con o sin protección frente al silenciamiento génico mediante STAR6 en clones resistentes a puromicina.

Figura 13. Orientación del elemento STAR

Diagrama esquemático de la orientación de elementos STAR tal como se clonan en el vector pSelect (panel A), tal como se clonan en vectores pSDH para conservar su orientación nativa (panel B), y tal como se clonan en el vector pSDH en la orientación opuesta (panel C).

Figura 14. Direccionalidad de la función de STAR66.

Se clonó el elemento STAR66 en pSDH-Tet o bien en la orientación nativa (STAR66 nativa) o bien en la opuesta (STAR66 opuesta), y se transfectó en células U-2 OS. Se sometió a prueba la actividad de luciferasa en clones resistentes a puromicina.

Figura 15. Dependencia del número de copias de la función STAR.

Transferencia de tipo Southern de unidades de expresión de luciferasa en pSDH-Tet-STAR10, integrado en el ADN genómico de U-2 OS. Se usó una sonda radioactiva de ADN de luciferasa para detectar la cantidad de ADN de transgén en el genoma de cada clon, que entonces se cuantificó con un sistema de detección y cuantificación de la radioactividad.

Figura 16. Dependencia del número de copias de la función STAR.

Se determinó el número de copias de unidades de expresión de pSDH-Tet-STAR10 en cada clon mediante sistemas de detección y cuantificación de radiactividad, y se compararon con la actividad de la enzima indicadora luciferasa expresada por cada clon.

Figura 17. Ensayos de bloqueo de potenciador y de potenciador.

Se muestran de manera esquemática los vectores de expresión de luciferasa usados para someter a prueba STAR para determinar la actividad de bloqueo de potenciador y de potenciador. El sitio de unión a la caja E para la proteína potenciadora E47 está en el sentido de 5’ de un sitio de clonación para elementos STAR. En el sentido de 3’ del sitio de clonación de STAR está el gen de luciferasa bajo el control de un promotor mínimo (mp) de fosfatasa alcalina humana. Los histogramas indican los resultados esperados para las tres situaciones experimentales posibles (véase el texto). Panel A: Ensayo de bloqueo de potenciador. Panel B: Ensayo de potenciador.

Figura 18. Ensayo de bloqueo de potenciador.

Se activa la expresión de luciferasa a partir de un promotor mínimo mediante el potenciador E47/caja E en el vector vacío (vector). La inserción de bloqueadores de potenciador (scs, HS4) o elementos STAR (elementos STAR 1, 2, 3, 6, 10, 11, 18 y 27) bloquea la activación de la luciferasa por el potenciador E47/caja E.

Figura 19. Ensayo de potenciador.

Se activa la expresión de luciferasa de un promotor mínimo mediante el potenciador E47/caja E en el vector vacío (E47). La inserción de los elementos HS4 y scs o varios elementos STAR (STAR 1, 2, 3, 6, 10, 11, 18 y 27) no activan la transcripción del gen indicador.

Figura 20. Conservación de la secuencia STAR18 entre el ratón y el ser humano.

Se muestra la región del genoma humano que contiene STAR18 de 497 pares de bases (recuadros negros); el elemento se produce entre los genes de caja homeótica HOXD8 y HOXD4 en el cromosoma 2 humano. Se alinea con una región en el cromosoma 2 del ratón que comparte una identidad de secuencia del 72%. La región del cromosoma 2 humano inmediatamente a la izquierda del STAR18 también está altamente conservada con el cromosoma 2 del ratón (identidad del 73%; recuadros grises); más allá de esta región, la identidad cae por debajo del 60%. Se indica la capacidad de estas regiones de seres humanos y ratones, o bien por separado o bien en combinación, para conferir crecimiento en zeocina: -, sin crecimiento; +, crecimiento moderado; ++, crecimiento vigoroso; +++, crecimiento rápido.

Figura 21.

Diagrama esquemático del flujo de trabajo del análisis bioinformático. Para detalles, véase el texto.

Figura 22. Resultados del análisis discriminante en la clasificación del conjunto de entrenamiento de 65 elementos STAR.

Se muestran en un diagrama de Venn elementos STAR que están correctamente clasificados mediante análisis discriminante lineal gradual (LDA). Se seleccionaron las variables para LDA a partir de resultados de análisis de frecuencia para oligonucleótidos hexaméricos (“oligos”) y para díadas. El diagrama indica la concordancia de los dos conjuntos de variables en la clasificación correcta de STAR.

Figura 23. Ensayo de RT-PCR de la fuerza de STAR de Arabidopsis

Se transfectaron células U-2 OS/Tet-Off/lexA-HP1 con elementos STAR de Arabidopsis candidatos y se cultivaron a bajas concentraciones de doxiciclina. Se aisló ARN total y se sometió a RT-PCR; se detectaron las bandas que corresponden a ARNm de resistencia a zeocina e higromicina mediante transferencia de tipo Southern y se cuantificaron con un sistema de detección y cuantificación de la radioactividad. Se muestra la proporción de las señales de zeocina con respecto a higromicina para transfectantes que contienen unidades de expresión de zeocina flanqueadas por 12 elementos STAR de Arabidopsis diferentes, el elemento scs de Drosophila, o ningún elemento de flanqueo.

Figura 24. Los elementos STAR permiten la expresión eficaz y simultánea de dos genes de dos vectores distintos.

Se muestran los vectores ppGIZ, ppGIZ-STAR7, ppRIP y ppRIP-STAR7 usados para someter a prueba la expresión simultánea de, respectivamente, GFP y RED. La unidad de expresión comprende (desde 5’ hacia 3’) genes que codifican para las proteínas GFP o RED, un IRES y un marcador seleccionable (zeo, que confiere resistencia a zeocina o respectivamente puro, gen de resistencia a puromicina) bajo el control del promotor de CMV. La unidad de expresión tiene el terminador transcripcional de SV40 en su extremo 3’ (t). Los casetes con las unidades de expresión de GFP y RED o bien están flanqueados por elementos STAR7 (protegidos con STAR7) o bien no lo están (control). Se transfectan simultáneamente las dos construcciones de control o los dos vectores protegidos con STAR7 a células CHO-K1. Se expanden colonias estables que son resistentes tanto a zeocina como a puromicina y se determinan las señales de GFP y RED en un citómetro de flujo XL-MCL Beckman Coulter. Se toma el porcentaje de células en una colonia que son doble positivas tanto para las señales de GFP como de RED como medida para la expresión simultánea de ambas proteínas y esto se representa gráficamente en la figura 24.

Figura 25. Los elementos STAR mejoran la expresión de un anticuerpo funcional en células CHO.

En la figura 25, se muestran los diferentes vectores que contienen las cadenas ligera y pesada del anticuerpo RING1. Se transfectan simultáneamente las construcciones a células CHO. Se expanden colonias estables que son resistentes tanto a zeocina como a puromicina. Se somete a prueba el medio de cultivo celular de estas colonias para la detección del anticuerpo RING1 funcional en un ELISA con una proteína de RING 1 como antígeno. Se dividen los valores entre el número de células en la colonia. El valor detectado más alto en el control sin STAR se establece arbitrariamente al 100%.

BIBLIOGRAFÍA

Aranda, A, and Pascual, A. (2001) Nuclear hormone receptors and gene expression Physiol Rev 81, 1269-304.

Berger, J, Hauber, J, Hauber, R, Geiger, R, and Cullen, BR. (1988) Secreted placental alkaline phosphatase: a powerful new quantitative indicator of gene expression in eukaryotic cells Gene 66, 1-10.

Bell, AC, West, AG, and Felsenfeld, G. (2001) Insulators and boundaries: versatile regulatory elements in the eukaryotic genome Science 291, 447-50.

Bevan, M, Mayer, K, White, O, Eisen, JA, Preuss, D, Bureau, T, Salzberg, SL, and Mewes, HW. (2001) Sequence and analysis of the Arabidopsis genome Curr Opin Plant Biol 4, 105-10.

Boivin, A, and Dura, JM. (1998) In vivo chromatin accessibility correlates with gene silencing in Drosophila Genetics 150, 1539-49.

Boshart, M, Weber, F, Jahn, G, Dorsch-Hasler, K, Fleckenstein, B, and Schaffner, W. (1985) A very strong enhancer is located upstream of an immediate early gene of human cytomegalovirus Cell 41, 521-30.

Bunker, C.A. and Kingston, R.E. (1994) Transcriptional repression by Drosophila and mammalian Polycomb group proteins in transfected mammalian cells. Mol Cell Biol, 14, 1721-1732.

Chan, A, and Mak, TW. (1989) Genomic organization of the T cell receptor Cancer Detect Prev 14, 261-7.

Chung, JH, Whiteley, M, and Felsenfeld, G. (1993) A 5’ element of the chicken beta-globin domain serves as an insulator in human erythroid cells and protects against position effect in Drosophila Cell 74, 505-14.

Chevet, E, Cameron, PH, Pelletier, MF, Thomas, DY, and Bergeron, JJ. (2001) The endoplasmic reticulum: integration of protein folding, quality control, signaling and degradation Curr Opin Struct Biol 11, 120-4.

Das, GC, Niyogi, SK, and Salzman, NP. (1985) SV40 promoters and their regulation Prog Nucleic Acid Res Mol Biol 32, 217-36.

Deuschle, U, Meyer, WK, and Thiesen, HJ. (1995) Tetracycline-reversible silencing of eukaryotic promoters Mol Cell Biol 15, 1907-14.

Doll, R.F., Crandall, J.E., Dyer, C.A., Aucoin, J.M. and Smith, F.I. (1996) Comparison of promoter strengths on gene delivery into mammalian brain cells using AAV vectors. Gene Ther, 3, 437-447.

Eszterhas, SK, Bouhassira, EE, Martin, DI, and Fiering, S. (2002) Transcriptional interference by independently regulated genes occurs in any relative arrangement of the genes and is influenced by chromosomal integration

position Mol Cell Biol 22, 469-79. European patent application 01202581.3 Foecking, MK, and Hofstetter, H. (1986) Powerful and versatile enhancer-promoter unit for mammalian expression

vectors Gene 45, 101-5.

Garrick, D, Fiering, S, Martin, DI, and Whitelaw, E. (1998) Repeat-induced gene silencing in mammals Nat Genet 18, 56-9. Gerasimova, TI, and Corces, VG. (2001) Chromatin insulators and boundaries: effects on transcription and nuclear

organization Annu Rev Genet 35, 193-208. Gill, DR, Smyth, SE, Goddard, CA, Pringle, IA, Higgins, CF, Colledge, WH, and Hyde, SC. (2001) Increased

persistence of lung gene expression using plasmids containing the ubiquitin C or elongation factor 1alpha promoter Gene Ther 8, 1539-46. Gossen, M, and Bujard, H. (1992) Tight control of gene expression in mammalian cells by tetracycline-responsive

promoters Proc.Natl Acad Sci U S A 89, 5547-51.

Groeneveld, EH, and Burger, EH. (2000) Bone morphogenetic proteins in human bone regeneration Eur J Endocrinol 142, 9-21. Hamer, CM, Sewalt, RGAB, Den Blaauwen, JL, Hendrix, M, Satijn, DPE, and Otte, AP. (2002). A panel of

monoclonal antibodies against human Polycomb group proteins. Hybridoma and Hybridomics 21, 245-52. Henthorn, P, Zervos, P, Raducha, M, Harris, H, and Kadesch, T. (1988) Expression of a human placental alkaline

phosphatase gene in transfected cells: use as a reporter for studies of gene expression Proc Natl Acad Sci U S A 85, 6342-6. Himes, S.R. and Shannon, M.F. (2000) Assays for transcriptional activity based on the luciferase reporter gene.

Methods Mol Biol, 130, 165-174. Huberty, CJ (1994) Applied discriminant analysis, Wiley and Sons, New York. Hynes, RO. (1999) Cell adhesion: old and new questions Trends Cell Biol 9, M33-7. Initiative, AG. (2000) Analysis of the genome sequence of the flowering plant Arabidopsis thaliana Nature 408, 796

815.

Izumi, M, and Gilbert, DM. (1999) Homogeneous tetracycline-regulatable gene expression in mammalian fibroblasts J Cell Biochem 76, 280-9. Kain, SR. (1997) Use of secreted alkaline phosphatase as a reporter of gene expression in mammalian cells Methods

Mol Biol 63, 49-60. Kaufman, RJ. (2000) Overview of vector design for mammalian gene expression Mol Biotechnol 16, 151-60. Kaufman, RJ. (1990) Selection and coamplification of heterologous genes in mammalian cells Methods in

Enzymology 185, 536-566.

Kaufman, RJ, and Sharp, PA. (1982) Construction of a modular dihydrofolate reductase cDNA gene: analysis of signals utilized for efficient expression Mol Cell Biol 2, 1304-19. Kellum, R. and Schedl, P. (1992) A group of scs elements function as domain boundaries in an enhancer-blocking

assay. Mol Cell Biol, 12, 2424-2431. Kent, WJ. (2002) BLAT--the BLAST-like alignment tool Genome Res 12, 656-64. Knofler, M, Meinhardt, G, Bauer, S, Loregger, T, Vasicek, R, Bloor, DJ, Kimber, SJ, and Husslein, P. (2002) Human

Hand1 basic helix-loop-helix (bHLH) protein: extra-embryonic expression pattern, interaction partners and

identification of its transcriptional repressor domains Biochem J 361, 641-51. Liu, DT. (1992) Glycoprotein pharmaceuticals: scientific and regulatory considerations, and the US Orphan Drug Act Trends Biotechnol 10, 114-20.

Lopez de Quinto, S, and Martinez-Salas, E. (1998) Parameters influencing translational efficiency in aphthovirus IRES- based bicistronic expression vectors Gene 217, 51-6. Martin, DI, and Whitelaw, E. (1996) The vagaries of variegating transgenes Bioessays 18, 919-23.

Martinez-Salas, E. (1999) Internal ribosome entry site biology and its use in expression vectors Curr Opin Biotechnol 10, 458-64.

McBurney, MW, Mai, T, Yang, X, and Jardine, K. (2002) Evidence for repeat-induced gene silencing in cultured Mammalian cells: inactivation of tandem repeats of transfected genes Exp Cell Res 274, 1-8.

Meyer, P. (2000) Transcriptional transgene silencing and chromatin components Plant Mol Biol 43, 221-34.

Migliaccio, AR, Bengra, C, Ling, J, Pi, W, Li, C, Zeng, S, Keskintepe, M, Whitney, B, Sanchez, M, Migliaccio, G, and Tuan, D. (2000) Stable and unstable transgene integration sites in the human genome: extinction of the Green Fluorescent Protein transgene in K562 cells Gene 256, 197-214.

Mizuguchi, H, Xu, Z, Ishii-Watabe, A, Uchida, E, and Hayakawa, T. (2000) IRES-dependent second gene expression is significantly lower than cap-dependent first gene expression in a bicistronic vector Mol Ther 1, 376-82.

Morgenstern, JP, and Land, H. (1990) Advanced mammalian gene transfer: high titre retroviral vectors with multiple drug selection markers and a complementary helper-free packaging cell line Nucleic Acids Res 18, 3587-96.

Pahl, HL, and Baeuerle, PA. (1997) The ER-overload response: activation of NF-kappa B Trends Biochem Sci 22, 63-7.

Patil, C, and Walter, P. (2001) Intracellular signaling from the endoplasmic reticulum to the nucleus: the unfolded protein response in yeast and mammals Curr Opin Cell Biol 13, 349-55.

Petersson, K, Ivars, F, and Sigvardsson, M. (2002) The pT alpha promoter and enhancer are direct targets for transactivation by E box-binding proteins Eur J Immunol 32, 911-20.

Quong, MW, Romanow, WJ, and Murre, C. (2002) E protein function in lymphocyte development Annu Rev Immunol 20, 301-22.

Rees, S, Coote, J, Stables, J, Goodson, S, Harris, S, and Lee, MG. (1996) Bicistronic vector for the creation of stable mammalian cell lines that predisposes all antibiotic-resistant cells to express recombinant protein Biotechniques 20, 102-4, 106, 108-10.

Ruezinsky, D, Beckman, H, and Kadesch, T. (1991) Modulation of the IgH enhancer’s cell type specificity through a genetic switch Genes Dev 5, 29-37.

Sambrook, J, Fritsch, EF, and Maniatis, T (1989) Molecular Cloning: A Laboratory Manual, Second ed., Cold Spring Harbor Laboratory Press, Plainview NY.

Sanger, F, Nicklen, S, and Coulson, AR. (1977) DNA sequencing with chain-terminating inhibitors Proc Natl Acontecimiento adverso Sci U S A 74, 5463-7.

Schorpp, M, Jager, R, Schellander, K, Schenkel, J, Wagner, EF, Weiher, H, and Angel, P. (1996) The human ubiquitin C promoter directs high ubiquitous expression of transgenes in mice Nucleic Acids Res 24, 1787-8.

Sheeley, DM, Merrill, BM, and Taylor, LC. (1997) Characterization of monoclonal antibody glycosylation: comparison of expression systems and identification of terminal alpha-linked galactose Anal Biochem 247, 102-10.

Stam, M, Viterbo, A, Mol, JN, and Kooter, JM. (1998) Position-dependent methylation and transcriptional silencing of transgenes in inverted T-DNA repeats: implications for posttranscriptional silencing of homologous host genes in plants Mol Cell Biol 18, 6165-77.

Strutzenberger, K, Borth, N, Kunert, R, Steinfellner, W, and Katinger, H. (1999) Changes during subclone development and ageing of human antibody-producing recombinant CHO cells J Biotechnol 69, 215-26.

Thotakura, NR, and Blithe, DL. (1995) Glycoprotein hormones: glycobiology of gonadotrophins, thyrotrophin and free alpha subunit Glycobiology 5, 3-10.

Umana, P, Jean-Mairet, J, and Bailey, JE. (1999) Tetracycline-regulated overexpression of glycosyltransferases in Chinese hamster ovary cells Biotechnol Bioeng 65, 542-9.

van der Vlag, J, den Blaauwen, JL, Sewalt, RG, van Driel, R, and Otte, AP. (2000) Transcriptional repression mediated by polycomb group proteins and other chromatin-associated repressors is selectively blocked by insulators J Biol Chem 275, 697-704.

van Helden, J, Andre, B, and Collado-Vides, J. (1998) Extracting regulatory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies J Mol Biol 281, 827-42.

van Helden, J, Andre, B, and Collado-Vides, J. (2000) A web site for the computational analysis of yeast regulatory sequences Yeast 16, 177-87.

van Helden, J, Rios, AF, and Collado-Vides, J. (2000) Discovering regulatory elements in non-coding sequences by analysis of spaced dyads Nucleic Acids Res 28, 1808-18.

5 Vance, V, and Vaucheret, H. (2001) RNA silencing in plants--defense and counterdefense Science 292, 2277-80.

Venkatesan, A, and Dasgupta, A. (2001) Novel fluorescence-based screen to identify small synthetic internal ribosome entry site elements Mol Cell Biol 21, 2826-37.

Villemure, JF, Savard, N, and Belmaaza, A. (2001) Promoter Suppression in Cultured Mammalian Cells can be Blocked by the Chicken beta-Globin Chromatin Insulator 5’HS4 and Matrix/Scaffold Attachment Regions J Mol Biol

10 312, 963-74.

Whitelaw, E, Sutherland, H, Kearns, M, Morgan, H, Weaving, L, and Garrick, D. (2001) Epigenetic effects on transgene expression Methods Mol Biol 158, 351-68.

Wright, A, and Morrison, SL. (1997) Effect of glycosylation on antibody function: implications for genetic engineering Trends Biotechnol 15, 26-32.

15 Yang, TT, Sinai, P, Kitts, PA, and Kain, SR. (1997) Quantification of gene expression with a secreted alkaline phosphatase reporter system Biotechniques 23, 1110-4.

Zink, D, and Paro, R. (1995) Drosophila Polycomb-group regulated chromatin inhibits the accessibility of a transactivator to its target DNA Embo J 14, 5660-71.

Claims

REIVINDICACIONES

1.

Célula que comprende dos unidades de expresión de proteínas que codifican cada una para al menos una proteína de interés, caracterizada por que:

una de dichas unidades de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en (a) SEQ ID: 7 en la figura 6; (b) una secuencia derivada de SEQ ID: 7 en la figura 6 mediante deleción, modificación y/o inserción de una base; y (c) un fragmento funcional de SEQ ID: 7 en la figura 6; y en la que la otra unidad de expresión de proteínas comprende al menos una secuencia de antirrepresor de estabilización (STAR) elegida del grupo que consiste en: (a) SEQ ID: 1-65 en la figura 6; (b) una secuencia derivada de SEQ ID: 1-65 en la figura 6 mediante deleción, modificación y/o inserción de una base; y (c) un fragmento funcional de SEQ ID: 1-65 en la figura 6.
2.

Célula según la reivindicación 1, en la que dichas dos unidades de expresión de proteínas codifican cada una además para un marcador de selección diferente.
3.

Célula según la reivindicación 1 ó 2, en la que al menos una de dichas unidades de expresión de proteínas comprende un gen monocistrónico que comprende un marco de lectura abierto que codifica para una proteína de interés y en la que dicho gen monocistrónico está bajo el control de un promotor funcional.
4.

Célula según la reivindicación 1 ó 2, en la que al menos una de dichas unidades de expresión de proteínas comprende un gen bicistrónico que comprende en el siguiente orden: (i) un marco de lectura abierto que codifica para una proteína de interés, (ii) un sitio de entrada interna del ribosoma (IRES), y (iii) un marcador de selección, y en la que dicho gen bicistrónico está bajo el control de un promotor funcional.
5.

Célula según una cualquiera de las reivindicaciones 1-4, en la que al menos una de dichas unidades de expresión de proteínas comprende al menos dos de dichas secuencias STAR dispuestas de manera que dicha unidad de expresión de proteínas está flanqueada en cada lado por al menos una de dichas secuencias STAR.
6.

Célula según la reivindicación 5, en la que dichas al menos dos secuencias STAR son esencialmente idénticas.
7.

Célula según una cualquiera de las reivindicaciones 1-6, en la que al menos una proteína de interés comprende una cadena pesada de inmunoglobulina, o una cadena ligera de inmunoglobulina, y preferiblemente en la que al menos una proteína de interés comprende una cadena pesada de inmunoglobulina y la otra proteína de interés comprende una cadena ligera de inmunoglobulina, en la que dicha cadena pesada y ligera puede formar un anticuerpo funcional.
8.

Método para expresar al menos dos proteínas de interés en una célula, que comprende cultivar una célula según una cualquiera de las reivindicaciones 1-7 en condiciones en las que se expresan dichas unidades de expresión de proteínas.
9.

Unidad de expresión de proteínas que comprende:

-

un gen bicistrónico que comprende en el siguiente orden: (i) un marco de lectura abierto que codifica para una proteína de interés, (ii) un sitio de entrada interna del ribosoma (IRES), y (iii) un marcador de selección, y en la que dicho gen bicistrónico está bajo el control de un promotor funcional; y

-

al menos una secuencia STAR elegida del grupo que consiste en: (a) SEQ ID: 7 en la figura 6; (b) a) una secuencia derivada de SEQ ID: 7 en la figura 6 mediante deleción, modificación y/o inserción de una base; y (c) un fragmento funcional de SEQ ID: 7 en la figura 6.
10.

Unidad de expresión de proteínas según la reivindicación 9, que comprende al menos dos de dichas secuencias STAR dispuestas de manera que dicha unidad de expresión de proteínas está flanqueada en cada lado por al menos una de dichas secuencias STAR.
11.

Unidad de expresión de proteínas según la reivindicación 10, en la que dichas al menos dos secuencias STAR son esencialmente idénticas.
12.

Unidad de expresión de proteínas según una cualquiera de las reivindicaciones 9-11, en la que dicha proteína de interés es una cadena pesada de inmunoglobulina o una cadena ligera de inmunoglobulina.