Formación escalonada del sistema flagelar bacteriano

Resultados

Definición del conjunto básico de genes flagelares.

Al consultar los genomas de las bacterias flageladas de las que se dispone de secuencias genómicas completas, obtuvimos la distribución filogenética de todos los genes que se sabe que están implicados en la biosíntesis y regulación de los flagelos. Para investigar el origen y la evolución del sistema flagelar bacteriano, aplicamos un método de perfil filogenético (21) para clasificar los genes en grupos funcionales basándonos en su co-ocurrencia y distribución compartida en los genomas. Los genes con diferentes papeles funcionales tienen distribuciones y perfiles filogenéticos distintos; sin embargo, la mayoría de los genes cuyos productos proteicos constituyen los componentes estructurales del flagelo están presentes en todos los filos bacterianos considerados (Fig. 1). Esta distribución sugiere que este conjunto central de genes estructurales se originó antes de la divergencia de los principales linajes bacterianos e incluye 21 genes que especifican las proteínas que forman el filamento (fliC, que a menudo está presente en múltiples copias), la unión gancho-filamento (flgK y flgL), el gancho (flgE, que está presente como pseudogén en Thermotoga maritima), la varilla (flgB, flgC, flgG y flgF, que sólo falta en Listeria innocua), el anillo MS (fliF), el anillo C (fliG, fliM, y fliN), el motor (motA y motB), y el aparato de exportación (flhA, flhB, fliI, fliP, fliR, y fliQ, que carece de un homólogo en Clostridium tetani). Además, flgD, que codifica la proteína tapadora de ganchos, necesaria para el ensamblaje flagelar pero que no contribuye a la estructura final, tiene homólogos en todas las bacterias flageladas y, por tanto, se consideró como parte del conjunto central.

Fig. 1.

Distribución de las proteínas flagelares (excluyendo las proteínas de quimiotaxis) entre las especies bacterianas flageladas. Las proteínas codificadas por los genes centrales se designan en negrita. Esta figura se ha redibujado con permiso a partir de la que aparece en la base de datos de vías KEGG (www.genome.jp/kegg/pathway/eco/eco02040.html).

Otros genes estructurales flagelares que están ampliamente distribuidos, pero no universalmente, entre las especies flageladas incluyen flgH, flgI, fliD, fliE y fliH. La ausencia de algunos de estos genes en un genoma es comprensible una vez que se consideran las características de la bacteria en particular. Por ejemplo, las proteínas de los anillos L y P FlgH y FlgI no son necesarias en los Firmicutes porque estas bacterias carecen de la membrana externa en la que estas proteínas se sitúan típicamente en las bacterias Gram negativas. FlgH y FlgI tampoco son necesarias en las Spirochaetes, que tienen un flagelo periplásmico situado dentro de la membrana externa. Los Firmicutes y los Spirochaetes se consideran dos de los linajes bacterianos más basales (22, 23), lo que sugiere que flgH y flgI se originaron después del conjunto básico de proteínas estructurales. En cambio, otros tres genes (fliD, fliE y fliH) están presentes en todos los grupos principales, pero faltan esporádicamente en algunos genomas, sobre todo en las alfaproteobacterias. Dado que las distribuciones actuales de estos tres genes son atribuibles a una pérdida secundaria, también deben considerarse como parte del conjunto ancestral de genes que especifican el flagelo bacteriano, con lo que el total de genes básicos asciende a 24.

Por lo tanto, la tarea de dilucidar la evolución del flagelo se basa en establecer cómo se originó este conjunto de 24 genes estructurales. Los restantes genes flagelares, incluidos los que desempeñan papeles reguladores o auxiliares en el ensamblaje y la función del flagelo (como los reguladores maestros flhC y flhD, y el gen de control de la longitud del gancho fliK), tienen distribuciones muy variables y se excluyen del conjunto principal, aunque se sabe que algunos de los genes son esenciales para el correcto funcionamiento del sistema flagelar en una especie concreta. (Las historias evolutivas de estos genes reguladores, junto con la de un segundo sistema flagelar bacteriano quedan por describir.)

Análisis filogenético de los genes centrales del sistema flagelar.

Para determinar si los 24 genes que forman el conjunto central del sistema flagelar tienen historias evolutivas congruentes entre sí, comparamos el árbol filogenético inferido para cada gen central con el basado en los alineamientos concatenados de las proteínas codificadas por 14 de los genes centrales. (Estos 14 genes se seleccionaron porque estaban presentes en todas las especies incluidas en este estudio y codificaban las proteínas que tenían una alta proporción de posiciones alineables). Para cada uno de los 24 genes, todas las ramas con valores bootstrap de >75% coincidieron con las del árbol concatenado, lo que indica que ningún orden de ramificación alternativo muestra un fuerte apoyo y que cada uno de estos genes ha seguido una historia común en las bacterias desde que se originaron.

Congruencia de los genes flagelares con la filogenia organísmica de las bacterias.

La distribución de los 24 genes centrales entre los filos bacterianos divergentes es más consistente con un origen antiguo, anterior al ancestro compartido de las bacterias. Sin embargo, la distribución podría haberse logrado mediante una transferencia horizontal posterior. Probamos estas alternativas comparando la filogenia de las proteínas centrales flagelares con la filogenia de los correspondientes filos bacterianos basada en 25 genes de distribución universal. Las filogenias son en gran medida congruentes en las ramas que tienen >75% de soporte bootstrap; sin embargo, hay dos inconsistencias entre el gen central y las filogenias del organismo; en la colocación de la alfaproteobacteria Zymomonas mobilis y un clado de tres Betaproteobacterias dentro de las Gammaproteobacterias (Fig. 2). Debido a que los genes flagelares individuales dentro del conjunto básico muestran la misma historia evolutiva (véase más arriba), estas incongruencias han sido probablemente el resultado de la transferencia de los complejos genéticos flagelares completos entre los linajes de proteobacterias después de su separación de otros grupos principales de bacterias.

Fig. 2.

Congruencia entre el árbol de especies y el árbol de proteínas flagelares. (A) Árbol de especies basado en la alineación concatenada de proteínas de 25 proteínas de una sola copia. (B) Árbol de proteínas flagelares basado en la alineación concatenada de proteínas de 14 proteínas centrales flagelares. Los grupos de bacterias están sombreados para resaltar las incongruencias resultantes de los eventos de transferencia de genes.

Las proteínas flagelares centrales surgieron a través de la duplicación y diversificación de un único precursor.

Cuando se compara cada una de las 24 proteínas flagelares centrales de E. coli (mediante BLAST) con todas las proteínas codificadas en el genoma de E. coli, sus mejores y a menudo únicas coincidencias son con otras proteínas flagelares centrales. Las comparaciones por pares entre estas proteínas centrales revelaron que diez son homólogas a otras proteínas centrales cuando se aplica un valor de corte e de 10-4 (Fig. 3). Este patrón indica que los genes estructurales que especifican la parte del flagelo que reside fuera de la membrana citoplasmática (es decir, la varilla, el gancho y el filamento) son paralogos y se derivaron unos de otros a través de duplicaciones.

Fig. 3.

Red de relaciones entre las proteínas centrales flagelares. Encima de cada enlace está el número de genomas para los que se detectó homología entre un determinado par de proteínas mediante comparación por pares a un valor de corte de 10-4 o inferior. Las líneas azules que enlazan las proteínas con recuadro amarillo representan la red de homología revelada cuando las proteínas centrales de E. coli se sometieron a comparaciones por pares.

Además de estas coincidencias con otras proteínas centrales, las comparaciones por pares de estas proteínas flagelares con las >4.000 proteínas no flagelares codificadas por todo el genoma de E. coli recuperaron acumulativamente un total de sólo 24 coincidencias que alcanzaron el mismo nivel de significación. Entre estas coincidencias, la mitad (incluyendo algunas con valores e tan bajos como 3e -10 para las proteínas del núcleo flagelar) están implicadas en otros sistemas de secreción, como el pilus P y el sistema de secreción de tipo V, lo que es coherente con la idea de que el flagelo se originó como un sistema de secreción. Otras 10 de las 24 coincidencias (con valores e que van de 10-5 a 10-6) son proteínas de membrana, y las dos restantes son proteínas de la cola del profago. Así, concluimos que a pesar de su antigüedad, las similitudes entre las proteínas del núcleo son más comunes y, en promedio, más fuertes que con las proteínas no flagelares.

Debido a que los genes que constituyen el conjunto del núcleo son antiguos y altamente divergentes, es posible que algunas de las relaciones entre los genes no se reconozcan a partir de análisis limitados al complejo flagelar de E. coli. Repetimos este análisis y comparamos el conjunto de genes del núcleo de cada una de las demás bacterias flageladas con todas las proteínas codificadas en los genomas correspondientes y entre sí, y obtuvimos un resultado similar, es decir, las mejores (y a menudo las únicas) coincidencias de los genes del núcleo flagelar fueron con otros genes del núcleo flagelar. Sin embargo, al ampliar este análisis más allá de E. coli, se resolvieron las relaciones de similitud y los vínculos entre varios otros genes centrales. Por ejemplo, una coincidencia altamente significativa entre fliM y fliN (que no se detectó para los homólogos de E. coli) fue evidente en 15 genomas de diversas subdivisiones bacterianas (Fig. 3). Además, los componentes de exportación que interactúan codificados por fliP, fliR y fliQ están relacionados en base a sus secuencias de proteínas dentro de varios taxones. E incluso entre los 10 genes centrales de E. coli que originalmente mostraban similitud entre sí, había varias interconexiones nuevas (por ejemplo, flgB con flgE y flgG, y entre flgL y flgK) reveladas al realizar el análisis en otros genomas. De forma acumulativa, cada uno de los 24 genes centrales muestra una similitud significativa con uno o más de los otros genes centrales (Fig. 3), un patrón que resultaría de su origen sucesivo por duplicaciones y/o fusiones genéticas independientes.

La similitud entre la proteína de varilla proximal FlgF, la proteína de varilla distal FlgG, y la proteína de gancho FlgE ejemplifica las relaciones entre estas proteínas flagelares (Fig. 4). FlgF y FlgG tienen un tamaño similar (251 aa frente a 260 aa en E. coli) y muestran un 31% de identidad de aminoácidos en toda su longitud. En cambio, el gen flgE es mucho más largo y parece haber evolucionado a partir de flgG mediante una duplicación intragénica que añadió un dominio de 160 aa al extremo N de su proteína codificada. Las búsquedas PSI-BLAST revelan dos alineamientos significativos entre FlgE y FlgG en E. coli: uno con un 24% de identidad entre toda la longitud de FlgG y la terminación C de FlgE (156-401 aa), y el otro con un 29% de identidad entre la terminación N de las dos proteínas (≈160 aa). Que flgE evolucionó por una duplicación también se ve apoyado por el hecho de que hay dos versiones de flgE en el género Bacillus: entre los genomas secuenciados, cuatro especies (B. subtilis, B. clausii, B. licheniformis, y B. halodurans) contienen una versión más corta, que es similar en longitud a flgG, y tres especies (B. thuringiensis, B. cereus, y B. anthracis) tienen la versión más larga.

Fig. 4.

Semejanza de la secuencia de proteínas entre la proteína de varilla proximal FlgF, la proteína de varilla distal FlgG, y la proteína de gancho FlgE en E. coli. Mientras que FlgF y FlgG son homólogas en toda su longitud, FlgE contiene una duplicación intragénica en su extremo N.

A partir de la matriz de relaciones y alineaciones de secuencias de proteínas de los genes del núcleo flagelar de E. coli, también es posible inferir el orden en que se originaron muchos de estos genes y sus correspondientes estructuras. Los bajos niveles de identidad proteica entre estos paralogos, los pares paralogos son entre el 18% y el 32% idénticos, requirieron que aplicáramos un método que combina la salida de series de programas de alineación múltiple para derivar una alineación de consenso. Los alineamientos en las regiones terminales de las proteínas, especialmente en la terminación C, ofrecen la mayor confianza. Un árbol de unión de vecinos no arraigado y un árbol de máxima probabilidad muestran que las proteínas de varilla se originaron con FlgB o FlgC, que son ambas proteínas cortas, y luego generaron FlgF y FlgG (y la proteína gancho FlgE) a través de una serie de eventos de duplicación. Las relaciones evolutivas de estos genes flagelares son paralelas a las ubicaciones de sus proteínas codificadas en los flagelos contemporáneos. Las proteínas de varilla proximales, y luego distales, preceden (tanto evolutiva como físicamente) a las proteínas de gancho, que precedieron a la unión gancho-filamento y a las proteínas de filamento.