Filogenética molecular

La filogenética molecular es la rama de la filogenia que analiza las diferencias moleculares hereditarias en las secuencias de ADN, ARN y proteínas, para obtener información sobre las relaciones evolutivas de un organismo. El resultado de un análisis filogenético molecular se expresa en un árbol filogenético.

Historia de la filogenia molecular

Los marcos teóricos para la sistemática molecular se establecieron en la década de 1960 en las obras de Emile Zuckerkandl, Emanuel Margoliash, Linus Pauling, y Walter M. Fitch.^[1] Las aplicaciones de la sistemática molecular fueron iniciados por Charles G. Sibley (aves), Herbert C . Dessauer (herpetología), y Morris Goodman (primates), seguido por Allan C. Wilson, Robert K. Selander, y John C. Avise (que estudió varios grupos).

Antecedentes

Todos los organismos contienen ADN, ARN, y proteínas. En general, los organismos estrechamente relacionados tienen un alto grado de concordancia en las estructuras moleculares, mientras que las secuencias de organismos distantemente relacionados suelen mostrar un patrón de disimilitud. Secuencias conservadas, tales como las del ADN mitocondrial en eucariotas, se espera que acumulen mutaciones a lo largo del tiempo, y asumiendo que estas mutaciones se producen a una tasa constante, proveen un reloj molecular para datar divergencia. La filogenia molecular usa datos como esos para construir un árbol de relaciones que muestra la probable evolución de varios organismos. Con la invención del método de Sanger^[2]^[3] en 1977 fue posible aislar e identificar estas estructuras moleculares.
Una filogenia se puede representar en forma de árbol, el cual contiene nodos que conectan ramas entre sí. Estos nodos y ramas pueden representar diferentes eventos, procesos, o relaciones. Dependiendo del árbol filogenético, por ejemplo: los nodos podrían representar eventos de especiación, y las ramas, las relaciones entre los diferentes grupos.
Los primeros intentos en sistemática molecular se denominaron quimiotaxonomía la cual hacía uso de proteínas, enzimas, carbohidratos y otras moléculas, que eran separadas mediante técnicas como la cromatografía. Las mismas fueron reemplazadas ampliamente por técnicas de secuenciación las cuales son capaces de revelar la secuencia exacta de ADN o ARN. En general son técnicas consideradas superiores para los estudios de evolución debido a que los cambios evolutivos están bien reflejados en el código genético. Se puede obtener con relativa facilidad la secuencia de una determinada área del genoma. La sistemática molecular típica requiere de la secuenciación de fragmentos de alrededor de 1000 pares de bases. En cualquier región de la secuencia, las bases de un organismo pueden variar respecto a las de otro. La secuencia particular de un organismo es denominada haplotipo. Como existen 4 tipos diferentes de bases, en una región de 1000 pares de bases podemos tener 4^1000 tipos diferentes de haplotipos. Sin embargo se ha encontrado que en los organismos de una especie o de un grupo de especies relacionadas las variaciones son relativamente pequeñas, haciendo que el número de haplotipos diferentes sea relativamente pequeño respecto a la cantidad de haplotipos posibles.
Generalmente se usa una muestra sustancial de individuos de la especie objetivo de estudio y también los individuos de otro taxón, sin embargo, muchos estudios en el presente solo usan la secuencia de un individuo. Los haplotipos entre los individuos de una especie son diferentes, pero estrechamente relacionados, sin embargo, el haplotipo del taxón externo es notablemente diferente. Las bases de las secuencias de los diferentes organismos pueden ser comparadas mediante el alineamiento de secuencias. En los casos más simples, las diferencias entre dos haplotipos se pueden considerar como las regiones de las secuencias donde hay diferentes bases. Esto se suele llamar como cantidad de sustituciones, inserciones o deleciones. La diferencia entre organismos se suele expresar como porcentaje de divergencia, dividiendo el número de sustituciones por el total de bases comparadas: se asume que esta medida será independiente de la localización y longitud de la sección de ADN analizada, sin embargo se sabe que en realidad existen excepciones a esta generalización.
En una aproximación más antigua se determinaba la divergencia entre los genotipos de individuos mediante técnicas de hibridación ADN-ADN.^[4] La ventaja de este método por sobre la secuenciación de genes se basa en la comparación del genotipo entero, más que solo en una sección del ADN. La comparación de múltiples secuencias de genes en el presente ha hecho que la ventaja antes mencionada pierda valor.
Una vez determinada la divergencia entre todos los pares de bases, la matriz triangular de diferencias resultante es analizada por técnicas estadísticas de determinación de grupos, y el dendrograma resultante es examinado para ver cómo se agrupan las muestras. Todos los grupos de haplotipos que son más similares entre sí que con los haplotipos de otro grupo serán quienes compongan un determinado clado. Las técnicas estadísticas como bootstrap y jacknife ayudan proveyendo la confiabilidad estimada para cada haplotipo dentro de los árboles filogenéticos.

Técnicas

Reconstrucción del árbol filogenético

Un árbol filogenético se infiere a partir de secuencias de ADN o proteínas y puede ser considerado un modelo evolutivo de las mismas. Los métodos de reconstrucción utilizados se basan en las distancias entre los grupos o en los caracteres que determinan las divisiones entre organismos. Para medir esas distancias o diferencias y, de esa forma, generar los nodos y las ramas del árbol fiogenético, se utilizan diferentes métodos. Para medir distancias y realizar mediciones basadas en caracteres, se utilizan matrices de distancia, método de unión de vecinos el método de máxima parsimonia, máxima verosimilitud e inferencia bayesiana.

Matriz de distancia

Antes de generar una matriz de distancias es necesario calcular las distancias entre los pares de secuencias. Para ello, se utiliza un modelo, el cual puede suponer una misma tasa de sustitución entre residuos o diferentes tasas de transición y transversión. Con las distancias calculadas, partiendo desde el alineamiento de secuencias, se puede proceder a la construcción de la matriz y del árbol. Los métodos de medición de distancias comúnmente utilizados son: mínimos cuadrados, evolución mínima y método de unión de vecinos, siendo el más utilizado este último, el cual es un algoritmo de agrupamiento basado en la distancia de taxones. Una de las mayores ventajas de estos métodos son la relativamente alta eficacia computacional respecto al de máxima parsimonia o máxima verosimilitud. Es por este motivo que el método de unión de vecinos es útil para comparar grandes juegos de datos de secuencias con bajos niveles de divergencia.

Máxima parsimonia

El método de máxima parsimonia fue desarrollado para utilizarse con caracteres morfológicos discretos durante la década de 1970. Luego fue utilizado en datos moleculares. Este modo supone una cantidad de mutaciones mínimas entre secuencias emparentadas a la hora de reconstruir un árbol.
Es necesario hacer dos cuantificaciones: en primer lugar, la longitud del sitio, la cual es el mínimo número de cambios necesarios para que ese sitio tenga ese estado, partiendo de un estado ancestral. En segundo lugar, el puntaje del árbol, el cual se calcula sumando todas las longitudes de todos los sitios del árbol. El árbol de máxima parsimonia es aquel que minimiza el puntaje del árbol. Esto quiere decir que el árbol de máxima parsimonia será aquel que suponga la menor cantidad de mutaciones para llegar de un estado ancestral a otro estado derivado de este.
En la reconstrucción de árboles de máxima parsimonia hay sitios que son informativos y otros que no. Aquellos sitios que se encuentran totalmente conservados o solo una de las secuencias posee una posición variable, no son informativos. Los sitios informativos son aquellos en los cuales se observan al menos dos residuos que aparecen al menos dos veces cada uno de ellos. El método de máxima parsimonia es comúnmente utilizado porque aporta resultados razonables a un costo computacional aceptable.
Las ventajas de este método son su sencillez y la simplicidad con la cual se pueden utilizar en el desarrollo de algoritmos computacionales eficientes. Una de las mayores desventajas es el problema denominado atracción de ramas grandes, el cual implica que cuando en el árbol real hay dos o más clados de gran cantidad de secuencias, el algoritmo tiende a unirlos en uno solo, generando así un árbol incorrecto.

Máxima verosimilitud

El método de máxima verosimilitud fue desarrollado en 1920 por R. A. Fishcher como una metodología estadística para estimar parámetros desconocidos en un modelo dado. El primer algoritmo de máxima verosimilitud para datos de ADN fue desarrollado por Felsetein. El método es actualmente utilizado gracias al poder de computo disponible y el incremento en modelos evolutivos moleculares que se han desarrollado. Desde un punto de vista estadístico, el árbol construido es un modelo, siendo que la longitud de las ramas son los parámetros estimados del mismo. Es posible calcular la verosimilitud de un árbol ya construido utilizando diferentes modelos de sustitución.
La utilización de máxima verosimilitud es implementada en software como PHYLIP, MOLPHY, PhyML,^[5] RAxML y GARLI. La mayor ventaja que se puede mencionar respecto a los métodos de máxima verosimilitud es el hecho que apunta a entender el proceso de evolución de las secuencias. Una de las desventajas es que la construcción de árboles es computacionalmente costosa.

Aplicaciones

La técnica más usada en genes y proteínas es la comparación de secuencias homólogas mediante de alineamientos de secuencias múltiples. Desde estos alineamientos construidos, es posible construir filogenias.
Las aplicaciones de la filogenia son muy variadas e incluyen la representación de las relaciones entre especies en el árbol de la vida, relación entre parálogos, reconstrucción de historia de poblaciones. Actualmente es muy utilizado para la comparación de genomas y la clasificación de metagenomas.

Limitaciones de la sistemática molecular

La sistemática molecular es una aproximación esencialmente cladística: asume que la clasificación debe corresponder a la descendencia filogenética, y que todos los taxones válidos deben ser monofiléticos. El descubrimiento reciente de la transferencia lateral de genes entre organismos supone una complicación significativa a la sistemática molecular, indicando que diferentes genes dentro del mismo organismo pueden tener diferentes filogenias o historias evolutivas.
La filogenética molecular puede tener sesgos sobre la base de los modelos y supuestos utilizados para construirla. Enfrenta artefactos técnicos y problemas como la atracción de ramas largas, saturación, heterogeneidad composicional y homoplasia en las secuencias, problemas de muestreo de taxones. Esto quiere decir que se pueden obtener resultados muy diferentes cuando se utilizan diferentes modelos sobre el mismo juego de datos.^[6]

Librerías para el análisis de secuencias genéticas y construcción de árboles filogenéticos en R

Como es mencionado anteriormente, los árboles filogenéticos son usados para representar "gráficamente" las relaciones evolutivas entre especies. Diferentes softwares esta disponibles para la realización de dichos árboles. Uno de ellos es R, un software computacional libre, dirigido para el análisis estadístico y realización de gráficos^[7].

En R, diferentes paquetes han sido desarrollados con el objetivo de analizar la base de datos del usuario y realizar "el" o "los" árboles filogenéticos. Sin embargo, el usuario debe tenet en cuenta que hay múltiples formatos a tomar en cuenta para el análisis de los datos.

Por ejemplo, formatos como BAM (por sus siglas en inglés "Binary Alignment/Map"), son secuencias genéticas, y se utilizan para leer alineamientos (alignments, más información en ^[8]). Por otro lado, FASTA, es un formato de archivo utilizado comúnmente en bioinformática para representar secuencias de nucleótidos (ADN o ARN) o secuencias de aminoácidos (proteínas)^[9]. Otro formato comúnmente utilizado es NEXUS, archivo utilizado para almacenar datos de secuencias y árboles filogenéticos^[10] y como último ejemplo, El Variant Call Format (VCF), es un formato de archivo utilizado en para almacenar información sobre variantes genéticas, como polimorfismos de nucleótido único ( single nucleotide polymorphism, SNP), inserciones, deleciones y sustituciones, que se encuentran en muestras de secuenciación de genomas o exomas^[11].

Como obtener datos para la creación de alineamientos genéticos

En R, se pueden utilizar diferentes métodos para la obtencioin de datos. Para la alineación de secuencias genéticas. Por ejemplo, con la librería seqinr^[12], se puede acceder a la base de datos de la NCBI (The National Center for Biotechnology Information^[13]). La librería ips^[14], mediante la función MAFFT (Multiple Alignment using Fast Fourier Transform), permite alineamiento de las secuencias obtenidas. Por último, la librería ape^[15], mediante la función image.DNAbin(), permite visualizar el alineamiento realizado.

Graficar árboles filogenéticos

R cuenta con librerías que permiten el acceso a base de datos que son adecuados para la exploración y análisis. Librerías como adegenet^[16]y phytools^[17]ofrecen herramientas para el análisis de datos genéticos y evolutivos.

Para graficár árboles filogenéticos en R, la librería ape^[15], permite la visualización y manipulación de los árboles filogenéticos. Con ape, se pueden cargar árboles desde archivos en varios formatos (Nexus, etc.), y realizar operaciones como la poda, la unión y la reorganización de ramas. También, se puede comparar árboles filogenéticos utilizando diversas medidas de distancia o similitud. Esto es útil para evaluar la congruencia entre diferentes árboles. Por último, ape incluye herramientas para realizar análisis evolutivos, como pruebas de correlación entre características y análisis de diversificación.

Esto es un breve resumen de lo que se puede hacer con las librerías mencionadas en el presente artículo. Este artículo es informativo y no se debe utilizar como una guía.

Referencias

↑ Suárez-Díaz, Edna and Anaya-Muñoz, Victor H. (2008). «History, objectivity, and the construction of molecular phylogenies». Stud. Hist. Phil. Biol. & Biomed. Sci. 39 (4): 451-468. PMID 19026976. doi:10.1016/j.shpsc.2008.09.002.
↑ Sanger F, Coulson AR (May 1975). «A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase». J. Mol. Biol. 94 (3): 441-8. PMID 1100841. doi:10.1016/0022-2836(75)90213-2.
↑ Sanger F, Nicklen S, Coulson AR (December 1977). «DNA sequencing with chain-terminating inhibitors». Proc. Natl. Acad. Sci. U.S.A. 74 (12): 5463-7. Bibcode:1977PNAS...74.5463S. PMC 431765. PMID 271968. doi:10.1073/pnas.74.12.5463.
↑ Ahlquist, Jon E. (1999). «Charles G. Sibley: A commentary on 30 years of collaboration». The Auk 116 (3): 856-860. doi:10.2307/4089352.
↑ S Guindon, J F Dufayard, V Lefort. (2010). «New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0». Systematic Biology 59 (3): 307-321. doi:10.1093/sysbio/syq010.
↑ Philippe, H.; Brinkmann, H.; Lavrov, D. V.; Littlewood, D. T. J.; Manuel, M.; Wörheide, G.; Baurain, D. (2011). «Resolving Difficult Phylogenetic Questions: Why More Sequences Are Not Enough». En Penny, David, ed. PLoS Biology 9 (3): e1000602. PMC 3057953. PMID 21423652. doi:10.1371/journal.pbio.1000602.
↑ «R: The R Project for Statistical Computing». www.r-project.org. Consultado el 18 de febrero de 2024.
↑ Carver, Tim; Böhme, Ulrike; Otto, Thomas D.; Parkhill, Julian; Berriman, Matthew (1 de marzo de 2010). «BamView: viewing mapped read alignment data in the context of the reference sequence». Bioinformatics (en inglés) 26 (5): 676-677. ISSN 1367-4811. PMC 2828118. PMID 20071372. doi:10.1093/bioinformatics/btq010. Consultado el 19 de febrero de 2024.
↑ «FASTA Format for Nucleotide Sequences». www.ncbi.nlm.nih.gov. Consultado el 19 de febrero de 2024.
↑ Maddison, David R.; Swofford, David L.; Maddison, Wayne P. (1 de diciembre de 1997). «Nexus: An Extensible File Format for Systematic Information». En Cannatella, David, ed. Systematic Biology (en inglés) 46 (4): 590-621. ISSN 1076-836X. doi:10.1093/sysbio/46.4.590. Consultado el 19 de febrero de 2024.
↑ Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton et al. (1 de agosto de 2011). «The variant call format and VCFtools». Bioinformatics (en inglés) 27 (15): 2156-2158. ISSN 1367-4811. PMC 3137218. PMID 21653522. doi:10.1093/bioinformatics/btr330. Consultado el 19 de febrero de 2024.
↑ Charif, Delphine; Clerc, Olivier; Frank, Carolin; Lobry, Jean R.; Necşulea, Anamaria; Palmeira, Leonor; Penel, Simon; Perrière, Guy (8 de diciembre de 2023), seqinr: Biological Sequences Retrieval and Analysis, consultado el 19 de febrero de 2024 .
↑ «National Center for Biotechnology Information». www.ncbi.nlm.nih.gov (en inglés). Consultado el 19 de febrero de 2024.
↑ Heibl, Christoph; Cusimano, Natalie; Krah, Franz-Sebastian (4 de julio de 2019), ips: Interfaces to Phylogenetic Software in R, consultado el 19 de febrero de 2024 .
↑ ^a ^b Paradis, Emmanuel; Blomberg, Simon; Bolker [aut, Ben; cph; Brown, Joseph; Claramunt, Santiago; Claude, Julien; Cuong, Hoa Sien (13 de marzo de 2023), ape: Analyses of Phylogenetics and Evolution, consultado el 19 de febrero de 2024 .
↑ Jombart, Thibaut; Kamvar, Zhian N.; Collins, Caitlin; Lustrik, Roman; Beugin, Marie-Pauline; Knaus, Brian J.; Solymos, Peter; Mikryukov, Vladimir (26 de enero de 2023), adegenet: Exploratory Analysis of Genetic and Genomic Data, consultado el 19 de febrero de 2024 .
↑ Revell, Liam J. (9 de enero de 2024), phytools: Phylogenetic Tools for Comparative Biology (and Other Things), consultado el 19 de febrero de 2024 .

Bibliografía

Z. Yang et all. 2012. Moclecular phylogenetics: principles and practices.Nature Reviews. doi:10.1038/nrg3186.

Datos: Q2007033
Multimedia: Molecular phylogenetics / Q2007033

[1] Suárez-Díaz, Edna and Anaya-Muñoz, Victor H. (2008). «History, objectivity, and the construction of molecular phylogenies». Stud. Hist. Phil. Biol. & Biomed. Sci. 39 (4): 451-468. PMID 19026976. doi:10.1016/j.shpsc.2008.09.002.

[Sanger75-2] Sanger F, Coulson AR (May 1975). «A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase». J. Mol. Biol. 94 (3): 441-8. PMID 1100841. doi:10.1016/0022-2836(75)90213-2.

[Sanger1977-3] Sanger F, Nicklen S, Coulson AR (December 1977). «DNA sequencing with chain-terminating inhibitors». Proc. Natl. Acad. Sci. U.S.A. 74 (12): 5463-7. Bibcode:1977PNAS...74.5463S. PMC 431765. PMID 271968. doi:10.1073/pnas.74.12.5463.

[4] Ahlquist, Jon E. (1999). «Charles G. Sibley: A commentary on 30 years of collaboration». The Auk 116 (3): 856-860. doi:10.2307/4089352.

[5] S Guindon, J F Dufayard, V Lefort. (2010). «New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0». Systematic Biology 59 (3): 307-321. doi:10.1093/sysbio/syq010.

[Philippe2011-6] Philippe, H.; Brinkmann, H.; Lavrov, D. V.; Littlewood, D. T. J.; Manuel, M.; Wörheide, G.; Baurain, D. (2011). «Resolving Difficult Phylogenetic Questions: Why More Sequences Are Not Enough». En Penny, David, ed. PLoS Biology 9 (3): e1000602. PMC 3057953. PMID 21423652. doi:10.1371/journal.pbio.1000602.

[7] «R: The R Project for Statistical Computing». www.r-project.org. Consultado el 18 de febrero de 2024.

[8] Carver, Tim; Böhme, Ulrike; Otto, Thomas D.; Parkhill, Julian; Berriman, Matthew (1 de marzo de 2010). «BamView: viewing mapped read alignment data in the context of the reference sequence». Bioinformatics (en inglés) 26 (5): 676-677. ISSN 1367-4811. PMC 2828118. PMID 20071372. doi:10.1093/bioinformatics/btq010. Consultado el 19 de febrero de 2024.

[9] «FASTA Format for Nucleotide Sequences». www.ncbi.nlm.nih.gov. Consultado el 19 de febrero de 2024.

[10] Maddison, David R.; Swofford, David L.; Maddison, Wayne P. (1 de diciembre de 1997). «Nexus: An Extensible File Format for Systematic Information». En Cannatella, David, ed. Systematic Biology (en inglés) 46 (4): 590-621. ISSN 1076-836X. doi:10.1093/sysbio/46.4.590. Consultado el 19 de febrero de 2024.

[11] Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton et al. (1 de agosto de 2011). «The variant call format and VCFtools». Bioinformatics (en inglés) 27 (15): 2156-2158. ISSN 1367-4811. PMC 3137218. PMID 21653522. doi:10.1093/bioinformatics/btr330. Consultado el 19 de febrero de 2024.

[12] Charif, Delphine; Clerc, Olivier; Frank, Carolin; Lobry, Jean R.; Necşulea, Anamaria; Palmeira, Leonor; Penel, Simon; Perrière, Guy (8 de diciembre de 2023), seqinr: Biological Sequences Retrieval and Analysis, consultado el 19 de febrero de 2024 .

[13] «National Center for Biotechnology Information». www.ncbi.nlm.nih.gov (en inglés). Consultado el 19 de febrero de 2024.

[14] Heibl, Christoph; Cusimano, Natalie; Krah, Franz-Sebastian (4 de julio de 2019), ips: Interfaces to Phylogenetic Software in R, consultado el 19 de febrero de 2024 .

[:0-15] Paradis, Emmanuel; Blomberg, Simon; Bolker [aut, Ben; cph; Brown, Joseph; Claramunt, Santiago; Claude, Julien; Cuong, Hoa Sien (13 de marzo de 2023), ape: Analyses of Phylogenetics and Evolution, consultado el 19 de febrero de 2024 .

[16] Jombart, Thibaut; Kamvar, Zhian N.; Collins, Caitlin; Lustrik, Roman; Beugin, Marie-Pauline; Knaus, Brian J.; Solymos, Peter; Mikryukov, Vladimir (26 de enero de 2023), adegenet: Exploratory Analysis of Genetic and Genomic Data, consultado el 19 de febrero de 2024 .

[17] Revell, Liam J. (9 de enero de 2024), phytools: Phylogenetic Tools for Comparative Biology (and Other Things), consultado el 19 de febrero de 2024 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]