Formação gradual do sistema bacteriano flagelar

Resultados

Definindo o Conjunto Principal de Genes Flagelares.

Pela consulta dos genomas das bactérias flageladas para as quais estão disponíveis sequências genómicas completas, obtivemos a distribuição filogenética de todos os genes que se sabe estarem envolvidos na biossíntese e regulação do flagelar. Para investigar a origem e evolução do sistema bacteriano flagelar, aplicamos então um método de perfil filogenético (21) para classificar os genes em grupos funcionais baseados na sua co-ocorrência e distribuição compartilhada entre os genomas. Genes com diferentes papéis funcionais têm distribuições e perfis filogenéticos distintos; entretanto, a maioria dos genes cujos produtos protéicos constituem os componentes estruturais do flagelo estão presentes em todos os filamentos bacterianos considerados (Fig. 1). Esta distribuição sugere este conjunto central de genes estruturais originados antes da divergência das principais linhagens bacterianas e inclui 21 genes que especificam proteínas que formam o filamento (fliC, que muitas vezes está presente em múltiplas cópias), a junção gancho-filamento (flgK e flgL), o gancho (flgE), que está presente como um pseudogene em Thermotoga maritima), a haste (flgB, flgC, flgG e flgF, que só falta na Listeria innocua), o anel de EM (fliF), o anel C (fliG, fliM e fliN), o motor (motA e motB), e o aparelho de exportação (flhA, flhB, fliI, fliP, fliR e fliQ, que não tem um homólogo em Clostridium tetani). Além disso, o flgD, codificando a proteína de cobertura do gancho, que é necessária para a montagem flagelar mas não contribui para a estrutura final, tem homólogos em todas as bactérias flageladas e, portanto, foi considerado como parte do conjunto principal.

Fig. 1.

Distribuição de proteínas flagelares (excluindo as proteínas de quimiotaxis) entre as espécies bacterianas flageladas. Essas proteínas codificadas pelos genes do núcleo são designadas em negrito. Esta figura é redesenhada com permissão do que aparece na base de dados da via KEGG (www.genome.jp/kegg/pathway/eco/eco02040.html).

Outros genes estruturais flagelares que são amplamente mas não universalmente distribuídos entre as espécies flageladas incluem flgH, flgI, fliD, fliE, e fliH. A ausência de alguns destes genes de um genoma é compreensível uma vez que as características das bactérias em particular são consideradas. Por exemplo, as proteínas L e P ring FlgH e FlgI não são necessárias nos Firmicutes porque estas bactérias não possuem a membrana externa na qual estas proteínas estão tipicamente situadas nas bactérias Gram-negativas. FlgH e FlgI também não são necessárias nas Spirochaetes, que têm um flagelo periplasmático localizado no interior da membrana externa. Os Firmicutes e os Spirochaetes são vistos como duas das linhagens bacterianas mais basais (22, 23), sugerindo que flgH e flgI se originaram após o conjunto principal de proteínas estruturais. Em contraste, três outros genes (fliD, fliE e fliH) estão presentes em todos os grupos principais, mas faltam esporadicamente em alguns genomas, mais notadamente nas Alfaproteobactérias. Como as distribuições atuais desses três genes são atribuíveis à perda secundária, eles também devem ser considerados como parte do conjunto ancestral de genes especificando o flagelo bacteriano, elevando o total de genes centrais para 24,

Por isso, a tarefa de elucidar a evolução do flagelo repousa em estabelecer como esse conjunto de 24 genes estruturais se originou. Os restantes genes flagelares, incluindo aqueles que desempenham funções reguladoras ou auxiliares no conjunto e função flagelar (tais como os reguladores mestres flhC e flhD, e o gene de controle de comprimento de gancho fliK), têm distribuições altamente variáveis e são excluídos do conjunto principal, mesmo que alguns dos genes sejam conhecidos como essenciais para o bom funcionamento do sistema flagelar em uma determinada espécie. (As histórias evolutivas destes genes reguladores, juntamente com a de um segundo sistema bacteriano flagelar permanecem por descrever).)

Análise filogenética dos genes do núcleo flagelar.

Para verificar se os 24 genes que formam o conjunto do núcleo flagelar têm histórias evolutivas congruentes entre si, comparamos a árvore filogenética inferida para cada gene do núcleo com aquela baseada em alinhamentos concatenados de proteínas codificadas por 14 dos genes do núcleo. (Estes 14 genes foram seleccionados porque estavam presentes em todas as espécies incluídas neste estudo e codificaram as proteínas com uma elevada proporção de posições alinháveis). Para cada um dos 24 genes, todos os ramos com valores >75% de bootstrap concordam com os da árvore concatenada, indicando que nenhuma ordem alternativa de ramificação mostra forte suporte e que cada um destes genes tem seguido uma história comum nas bactérias desde a sua origem.

Congruência dos Genes Flagelares com a Filogenia Organismal das Bactérias.

A distribuição dos 24 genes centrais entre os filamentos bacterianos divergentes é mais consistente com uma origem antiga, predando o ancestral compartilhado das Bactérias. No entanto, a distribuição poderia ter sido alcançada através de transferência horizontal posterior. Testamos estas alternativas comparando a filogenia das proteínas do núcleo flagelar com a filogenia do filo bacteriano correspondente com base em 25 genes universalmente distribuídos. As filogenias são largamente congruentes em ramos que têm >75% de suporte bootstrap; no entanto, existem duas inconsistências entre o gene do núcleo e as filogenias do organismo; na colocação tanto das Zymomonas mobilis alfaproteobacterianas como de um clade de três Betaproteobactérias dentro das Gammaproteobactérias (Fig. 2). Como os genes flagelares individuais dentro do conjunto principal mostram a mesma história evolutiva (ver acima), essas incongruências provavelmente resultaram da transferência de todos os complexos de genes flagelares entre linhagens proteobacterianas após sua separação de outros grupos de bactérias principais.

Fig. 2.

Congruência entre a árvore de espécies e a árvore de proteínas flagelar. (A) Espécie árvore baseada no alinhamento proteico concatenado de 25 proteínas de copa única. (B) Árvore proteica flagelar baseada no alinhamento proteico concatenado de 14 proteínas de núcleo flagelar. Grupos bacterianos são sombreados para destacar incongruências resultantes de eventos de transferência de genes.

Core Flagellar Proteins Arose Através da Duplicação e Diversificação de um Único Precursor.

Quando cada uma das 24 proteínas principais flagelares de E. coli são comparadas (via BLAST) com todas as proteínas codificadas no genoma E. coli, o seu melhor e muitas vezes apenas acertos são com outras proteínas principais flagelares. Comparações de pares entre estas proteínas do núcleo revelaram que dez são homólogas a outras proteínas do núcleo quando se aplica um corte de 10-4 valores E. coli (Fig. 3). Este padrão indica que os genes estruturais que especificam a porção de flagelo residente fora da membrana citoplasmática (ou seja, a haste, o gancho e o filamento) são parálogos e foram derivados um do outro através de duplicações.

Fig. 3.

Rede de relações entre as proteínas do núcleo flagelar. Acima de cada ligação está o número de genomas para os quais a homologia entre um par de proteínas em particular foi detectada por comparação em pares a um valor de corte de 10-4 ou inferior. Linhas azuis ligando as proteínas da caixa amarela retratam a rede de homologia revelada quando as proteínas do núcleo de E. coli foram submetidas a comparações em pares.

Além dessas combinações com outras proteínas do núcleo, comparações em pares dessas proteínas flagelares com as >4.000 proteínas não flagelares codificadas por todo o genoma E. coli recuperaram cumulativamente um total de apenas 24 batidas que alcançaram o mesmo nível de significância. Entre estas correspondências, metade (incluindo algumas com valores e tão baixos como 3e -10 para as proteínas do núcleo flagelar) estão envolvidas em outros sistemas de secreção, como o P pilus e o sistema de secreção tipo V, o que é consistente com a ideia de que o flagelum se originou como um sistema de secreção. Mais 10 das 24 batidas (com valores e variando de 10-5 a 10-6) são proteínas de membrana, e as duas restantes são proteínas de fibra de cauda de prophage. Assim, concluímos que apesar da sua antiguidade, as semelhanças entre as proteínas do núcleo entre si são mais comuns e, em média, mais fortes do que as proteínas não flagelares.

Porque os genes que constituem o conjunto núcleo são antigos e altamente divergentes, é possível que algumas das relações entre os genes não sejam reconhecidas a partir de análises limitadas ao complexo E. coli flagellar. Repetimos esta análise e comparamos o conjunto de genes do núcleo de cada uma das outras bactérias flageladas com todas as proteínas codificadas nos genomas correspondentes e entre si, e obtivemos um resultado semelhante, ou seja, os melhores (e muitas vezes os únicos) acertos dos genes do núcleo flagelar foram com outros genes do núcleo flagelar. No entanto, ao estender esta análise para além da E. coli, as relações de similaridade e ligações entre vários outros genes do núcleo foram resolvidas. Por exemplo, uma combinação altamente significativa entre fliM e fliN (que não foi detectada para E. coli homologs) foi evidente em 15 genomas de diversas subdivisões bacterianas (Fig. 3). Além disso, os componentes de exportação interativos codificados por fliP, fliR e fliQ estão relacionados com base em suas seqüências protéicas dentro de vários taxa. E mesmo entre os 10 genes do núcleo de E. coli que originalmente mostraram similaridade entre si, houve várias novas interconexões (por exemplo, flgB para flgE e flgG, e entre flgL e flgK) reveladas pela realização da análise de outros genomas. Cumulativamente, cada um dos 24 genes do núcleo mostra significantemente similar a um ou mais dos outros genes do núcleo (Fig. 3), um padrão que resultaria da sua sucessiva originação de um outro gene por duplicações e/ou fusões de genes independentes.

A semelhança entre a proteína proximal de haste FlgF, a proteína distal de haste FlgG e a proteína de gancho FlgE exemplifica as relações entre estas proteínas flagelares (Fig. 4). FlgF e FlgG são de tamanho semelhante (251 aa vs. 260 aa em E. coli) e mostram 31% de identidade de aminoácidos em todo o seu comprimento. Em contraste, o gene flgE é muito mais longo e parece ter evoluído do flgG através de uma duplicação intragênica que adicionou um domínio de 160 aa ao terminal N da sua proteína codificada. As pesquisas PSI-BLAST revelam dois alinhamentos significativos entre FlgE e FlgG em E. coli: um com 24% de identidade entre todo o comprimento de FlgG e o terminal C de FlgE (156-401 aa), e o outro com 29% de identidade entre o terminal N de duas proteínas (≈160 aa). A evolução do flgE por uma duplicação é também suportada pelo facto de existirem duas versões de flgE no género Bacillus: entre genomas sequenciados, quatro espécies (B. subtilis, B. clausii, B. licheniformis, e B. halodurans) contêm uma versão mais curta, que é semelhante em comprimento ao flgG, e três espécies (B. thuringiensis, B. cereus, e B. anthracis) têm a versão mais longa.

Fig. 4.

Protein sequence similarity among the proximal rod protein FlgF, the distal rod protein FlgG, and the hook protein FlgE in E. coli. Enquanto FlgF e FlgG são homólogos em todo o seu comprimento, FlgE contém uma duplicação intragênica em seu terminal N.

Da matriz de relações e alinhamentos de seqüência proteica dos genes do núcleo flagelar de E. coli, também é possível inferir a ordem em que muitos destes genes e suas estruturas correspondentes se originaram. Os baixos níveis de identidade protéica entre estes parálgrafos, pares paralógicos, estão entre 18% e 32% idênticos, sendo necessário que se aplique um método que combine a saída de séries de múltiplos programas de alinhamento para se obter um alinhamento consensual. Os alinhamentos nas regiões terminais das proteínas, especialmente no terminal C, oferecem a maior confiança. Uma árvore de junção vizinha não enraizada e uma árvore de máxima verossimilhança mostram que as proteínas de cana originaram-se com FlgB ou FlgC, que são ambas proteínas curtas, e depois geraram FlgF e FlgG (e FlgE da proteína do gancho) através de uma série de eventos de duplicação. As relações evolutivas destes genes flagelares são paralelas às localizações das suas proteínas codificadas na flagela contemporânea. As proteínas de haste proximal, depois distal, precedem (tanto evolutiva como fisicamente) as proteínas de gancho, que precederam a junção gancho-filamento e as proteínas de filamento.