Resumen del workflow de obtención de árboles de coalescencia y de máxima verosimilitud a partir de proteomas de especies de vertebrados:
En un inicio, claro esta lo principal es obtener los datos potencialmente analizables por filogenómica (en este caso correspondientes a proteomas de 23 spp de vertebrados:elephant:). Luego, al ya tener nuestras secuencias en una carpeta de trabajo, activamos el ambiente conda
⚙️ 🏜️. Lo primero es iniciar con la inferencia de ortólogos, nuestro objetivo es rastrear regiones ortólogas entre proteínas. Para ello empleamos el software Orthofinder con el comando orthofinder
especificandole la carpeta 🗂️ con los respectivos proteomas 🧬, nos generará de esta forma un archivo de secuencia para cada uno en formato .tsv. Por último y para facilitar la concatenación, empleamos expresiones regulares para cambiar la estructura de los nombres de las secuencias a Género_especie
lo más conveniente es usar sed
. Después, es importante hacer un filtraje de calidad🔎 con PREQUAL
para descartar todos los posibles errores de ensamblaje o anotación. Con ello, para corroborar homología entre aa realizamos un alineamiento múltiple por mafft
. Además, removemos:scissors: posibles gaps generados con BMGE
🗑️. Por útlimo, realizamos un alinamiento cancatenando🧮 por medio de FASconCAT y perl
, para así obtener 23 taxa con 21 genes. Con esa información generamos dos árboles por máxima verosimilitud: 1. un solo locus que evoluciona de la misma forma:round_pushpin: y 2. por partición según ubicación de genes, usando IQTREE
📊. Así como un árbol de coalescencia usando ASTRAL
☄️.
En general, el árbol señala la formación de distintos clados como el que incluye las especies Oreochromis niloticus🐠, Takifugu rubripes🐟, Danio rerio🍤 y Lepisosteus oculatus🦐, donde la especie T. rubripes señala mayor acumulación de cambios evolutivos a tráves del tiempo ⏳. Cabe resaltar que este grupo monofilético muestra apariciones y cambios evolutivos más lejanos entre cada especie.
Asimismo, es posible identificar otros clados con apariciones y cambios evolutivos no muy lejanos entre sí: el primero, conformado por las especies Pelodiscus sinensis🐢, Anolis carolinensis🦎, Taeniopygia guttata🐦, Meleagris gallopavo🦃 y Gallus gallus 🐓; el segundo, conformado por Homo sapiens💁, Mus musculus🐁, Canis lupus familiaris🐕, Dasypus novemcintus🦔 y Loxodonta africana🐘, siendo este último grupo monofilético más reciente.
Pero si nos fijamos bien, podemos observar que las especies Neoceratodus forsteri🐧, Protopterus annectens🦐 y Lepidosiren paradoxa🦐 se separan de los clados anteriores un tiempo evolutivo considerable, siendo N. forsteri la especie más reciente 🆕. Además, la especie Callorhinchus milli🦈 sería la especie que menos características compartiría con el resto de clados, sin embargo debe presentar una característica que lo separó del primer clado mencionado, y que a lo largo del tiempo ha permanecido en un constante cambio evolutivo.
En este caso, los valores de bootstrap nos permiten corroborar la fiabilidad de las relaciones filogenéticas obtenidas. De esta forma, atendiendo a lo mencionado en el análisis anterior, la ubicación de A. carolinensis realmente es incierta teniendo en cuenta el valor de soporte tan bajo (44.6). De resto, todas las relaciones filogenéticas señalan valores de bootstrap bastante confiables. Y haciendo un barrido de las distancias de rama, podemos observar que al generar particiones dentro del análisis, la sensibilidad frente a los cambios evolutivos es mayor, ya que posiblemente se pudieron contemplar cambios en las secuencias dentro de un modelo de evolución para distintos locus.
Ya para un análisis de coalescencia, el árbol nos indica los tiempos de coalescencia y las longitudes de rama para el caso de cada especie según la señal de cambio evolutivo en unidades coalescentes. De este modo, es posible observar que las inferencias de las relaciones filogenéticas son diferentes a las propuestas por el algoritmo de máxima verosimilitud. De hech, para la primera división de clados se evidencia un claro evento de politomía, que teniendo en cuenta el valor bajo de bootstrap, solo no se pudo inferir una clara filiación de ese ancestro frente al resto, es decir, aún no es claro el tiempo de coalescencia en el que los ancestros de los respectivos clados dieron inició a estos clados.
Aspecto | Árbol de máxima verosimilitud sin particiones | Árbol de máxima verosimilitud particionado | Árbol de coalescencia |
---|---|---|---|
Valor de soporte | Bootstrap | Bootstrap | Basado en probabilidades posteriores o valores de bootstrap por medio de múltiples árboles generados por estocasticidad de los procesos coalescentes |
Representación rama | Se basa en las distancias filogenéticas | Se basa en las distancias filogenéticas | Representa unidades de tiempo coalescente en generaciones o años |
Interpretación y resultados | Representa el árbol que mejor ubica las distancias evolutivas entre especies | Representa la estimación más adecuada para representar la historia evolutiva dadas las distancias evolutivas de cada especie | Representa la historia genealógica más probable según los datos de secuencia y las inferencias propuestas por un modelo coalescente |
Uso | Estimar relaciones filogenéticas para secuencias lejanamente relacionadas | Estimar relaciones filogenéticas para secuencias estrechamente relacionadas | Establecer relaciones filogenéticas a nivel poblacional a partir de eventos de coalescencia |