Formazione graduale del sistema flagellare batterico
Risultati
Definizione del nucleo di geni flagellari.
Interrogando i genomi di batteri flagellati per i quali sono disponibili sequenze complete del genoma, abbiamo ottenuto la distribuzione filogenetica di ogni gene noto per essere coinvolto nella biosintesi e regolazione dei flagelli. Per studiare l’origine e l’evoluzione del sistema flagellare batterico, abbiamo poi applicato un metodo di profiling filogenetico (21) per associare i geni in gruppi funzionali basati sulla loro co-occorrenza e distribuzione condivisa nei genomi. I geni con diversi ruoli funzionali hanno distribuzioni filogenetiche e profili distinti; tuttavia, la maggior parte dei geni i cui prodotti proteici costituiscono i componenti strutturali del flagello sono presenti in tutti i phyla batterici considerati (Fig. 1). Questa distribuzione suggerisce che questo nucleo di geni strutturali ha avuto origine prima della divergenza dei principali lignaggi batterici e comprende 21 geni che specificano le proteine che formano il filamento (fliC, che è spesso presente in più copie), la giunzione uncino-filamento (flgK e flgL), l’uncino (flgE, che è presente come pseudogene in Thermotoga maritima), l’asta (flgB, flgC, flgG, e flgF, che manca solo in Listeria innocua), l’anello MS (fliF), l’anello C (fliG, fliM, e fliN), il motore (motA e motB), e l’apparato di esportazione (flhA, flhB, fliI, fliP, fliR, e fliQ, che manca un omologo in Clostridium tetani). Inoltre, flgD, che codifica la proteina hook-capping, che è necessaria per l’assemblaggio flagellare ma non contribuisce alla struttura finale, ha omologhi in tutti i batteri flagellati e quindi è stato considerato come parte del core set.
Distribuzione delle proteine flagellari (escluse le proteine della chemiotassi) tra le specie batteriche flagellate. Le proteine codificate dai geni del nucleo sono designate in grassetto. Questa figura è ridisegnata con il permesso di quella che appare nel database KEGG pathway (www.genome.jp/kegg/pathway/eco/eco02040.html).
Altri geni strutturali flagellari che sono ampiamente ma non universalmente distribuiti tra le specie flagellate includono flgH, flgI, fliD, fliE e fliH. L’assenza di alcuni di questi geni da un genoma è comprensibile una volta che si considerano le caratteristiche dei particolari batteri. Per esempio, le proteine degli anelli L e P FlgH e FlgI non sono necessarie nei Firmicutes perché questi batteri mancano della membrana esterna in cui queste proteine sono tipicamente situate nei batteri Gram-negativi. FlgH e FlgI non sono necessari nemmeno nelle Spirochete, che hanno un flagello periplasmatico situato all’interno della membrana esterna. I Firmicutes e le Spirochaetes sono visti come due dei lignaggi batterici più basali (22, 23), suggerendo che flgH e flgI hanno avuto origine dopo il nucleo di proteine strutturali. Al contrario, altri tre geni (fliD, fliE e fliH) sono presenti in tutti i principali gruppi ma mancano sporadicamente da alcuni genomi, soprattutto negli alfaproteobatteri. Poiché le distribuzioni attuali di questi tre geni sono attribuibili a perdite secondarie, anch’essi dovrebbero essere considerati come parte dell’insieme ancestrale di geni che specificano il flagello batterico, portando il totale dei geni fondamentali a 24.
Pertanto, il compito di chiarire l’evoluzione del flagello si basa sullo stabilire come questo insieme di 24 geni strutturali abbia avuto origine. I restanti geni flagellari, compresi quelli che svolgono ruoli regolatori o ausiliari nell’assemblaggio e nella funzione flagellare (come i regolatori master flhC e flhD, e il gene di controllo della lunghezza dell’uncino fliK), hanno distribuzioni altamente variabili e sono esclusi dal nucleo centrale, anche se alcuni dei geni sono noti per essere essenziali per il corretto funzionamento del sistema flagellare in una particolare specie. (Le storie evolutive di questi geni regolatori, insieme a quella di un secondo sistema batterico flagellare rimangono da descrivere.)
Analisi filogenetica dei geni core flagellari.
Per accertare se i 24 geni che formano il core set flagellare hanno storie evolutive congruenti tra loro, abbiamo confrontato l’albero filogenetico dedotto per ogni gene core con quello basato sugli allineamenti concatenati delle proteine codificate da 14 dei geni core. (Questi 14 geni sono stati selezionati perché erano presenti in tutte le specie incluse in questo studio e codificavano le proteine con un’alta percentuale di posizioni allineabili). Per ognuno dei 24 geni, tutti i rami con valori bootstrap >75% concordavano con quelli dell’albero concatenato, indicando che nessun ordine di ramificazione alternativo mostra un forte supporto e che ognuno di questi geni ha seguito una storia comune nei batteri fin dalla loro origine.
Congruenza dei geni flagellari con la filogenesi organismica dei batteri.
La distribuzione dei 24 geni fondamentali tra i phyla batterici divergenti è più coerente con un’origine antica, precedente all’antenato condiviso dei batteri. Tuttavia, la distribuzione potrebbe essere stata ottenuta attraverso un successivo trasferimento orizzontale. Abbiamo testato queste alternative confrontando la filogenesi delle proteine del nucleo flagellare con la filogenesi dei phyla batterici corrispondenti basati su 25 geni universalmente distribuiti. Le filogenie sono in gran parte congruenti su rami che hanno un supporto bootstrap >75%; tuttavia, ci sono due incongruenze tra il gene del nucleo e le filogenie degli organismi; nel posizionamento sia dell’alfaproteobatterico Zymomonas mobilis che di un clade di tre Betaproteobatteri all’interno dei Gammaproteobatteri (Fig. 2). Poiché i singoli geni flagellari all’interno del nucleo mostrano la stessa storia evolutiva (vedi sopra), queste incongruenze sono probabilmente il risultato del trasferimento di interi complessi di geni flagellari tra i lignaggi proteobatterici dopo la loro separazione da altri grandi gruppi di batteri.
Congruenza tra albero delle specie e albero delle proteine flagellari. (A) Albero delle specie basato sull’allineamento proteico concatenato di 25 proteine a copia singola. (B) Albero delle proteine flagellari basato sull’allineamento concatenato delle proteine di 14 proteine del nucleo flagellare. I gruppi batterici sono ombreggiati per evidenziare le incongruenze derivanti da eventi di trasferimento genico.
Le proteine flagellari di base sono sorte attraverso la duplicazione e la diversificazione di un singolo precursore.
Quando ognuna delle 24 proteine flagellari di base di E. coli viene confrontata (tramite BLAST) con tutte le proteine codificate nel genoma di E. coli, i loro migliori e spesso unici risultati sono con altre proteine flagellari di base. Confronti a coppie tra queste proteine del nucleo hanno rivelato che dieci sono omologhe ad altre proteine del nucleo quando si applica un cutoff di e-value di 10-4 (Fig. 3). Questo modello indica che i geni strutturali che specificano la porzione di flagello che risiede al di fuori della membrana citoplasmatica (cioè, l’asta, il gancio e il filamento) sono paraloghi e sono stati derivati gli uni dagli altri attraverso duplicazioni.
Rete di relazioni tra le proteine del nucleo flagellare. Sopra ogni collegamento è il numero di genomi per i quali l’omologia tra una particolare coppia di proteine è stata rilevata dal confronto a coppie ad un valore di cutoff di 10-4 o inferiore. Le linee blu che collegano le proteine in giallo ritraggono la rete di omologia rivelata quando le proteine del nucleo di E. coli sono state sottoposte a confronti a coppie.
A parte queste corrispondenze con altre proteine del nucleo, i confronti a coppie di queste proteine flagellari con le >4.000 proteine non flagellari codificate dall’intero genoma di E. coli hanno recuperato cumulativamente un totale di soli 24 risultati che hanno raggiunto lo stesso livello di significatività. Tra queste corrispondenze, la metà (tra cui alcuni con valori e- basso come 3e -10 alle proteine del nucleo flagellare) sono coinvolti in altri sistemi di secrezione, come il P pilus e il sistema di secrezione di tipo V, che è coerente con l’idea che il flagello ha avuto origine come un sistema di secrezione. Altri 10 dei 24 riscontri (con e-valori che vanno da 10-5 a 10-6) sono proteine di membrana, e i restanti due sono proteine della fibra della coda del profago. Quindi, concludiamo che, nonostante la loro antichità, le somiglianze tra le proteine del nucleo tra di loro sono più comuni e, in media, più forti rispetto alle proteine nonflagellari.
Perché i geni che costituiscono il nucleo sono antichi e altamente divergenti, è possibile che alcune delle relazioni tra i geni non possano essere riconosciute da analisi limitate al complesso flagellare di E. coli. Abbiamo ripetuto questa analisi e confrontato il core set di geni di ogni altro batterio flagellato con tutte le proteine codificate nei genomi corrispondenti e tra di loro, e abbiamo ottenuto un risultato simile, cioè, i migliori (e spesso gli unici) riscontri dei geni core flagellari erano verso altri geni core flagellari. Tuttavia, estendendo questa analisi oltre l’E. coli, sono state risolte le relazioni di somiglianza e i collegamenti tra diversi altri geni del nucleo. Per esempio, una corrispondenza altamente significativa tra fliM e fliN (che non è stata rilevata per gli omologhi di E. coli) era evidente in 15 genomi di diverse suddivisioni batteriche (Fig. 3). Inoltre, i componenti di esportazione interagenti codificati da fliP, fliR e fliQ sono correlati sulla base delle loro sequenze proteiche in diversi taxa. E anche tra i 10 geni principali di E. coli che originariamente mostravano somiglianza l’uno con l’altro, c’erano diverse nuove interconnessioni (ad esempio, flgB a entrambi flgE e flgG, e tra flgL e flgK) rivelate eseguendo l’analisi su altri genomi. Cumulativamente, ognuno dei 24 geni principali mostra una significativa somiglianza con uno o più degli altri geni principali (Fig. 3), un modello che risulterebbe dalla loro successiva origine l’uno dall’altro da duplicazioni di geni indipendenti e/o fusioni di geni.
La somiglianza tra la proteina prossimale FlgF, la proteina distale FlgG, e la proteina FlgE esemplifica le relazioni tra queste proteine flagellari (Fig. 4). FlgF e FlgG sono di dimensioni simili (251 aa contro 260 aa in E. coli) e mostrano il 31% di identità aminoacidica su tutta la loro lunghezza. Al contrario, il gene flgE è molto più lungo e sembra essersi evoluto da flgG attraverso una duplicazione intragenica che ha aggiunto un dominio di 160 aa al termine N della sua proteina codificata. Le ricerche PSI-BLAST rivelano due allineamenti significativi tra FlgE e FlgG in E. coli: uno con il 24% di identità tra l’intera lunghezza di FlgG e il terminale C di FlgE (156-401 aa), e l’altro con il 29% di identità tra il terminale N delle due proteine (≈160 aa). Che flgE si sia evoluto per duplicazione è supportato anche dal fatto che ci sono due versioni di flgE nel genere Bacillus: tra i genomi sequenziati, quattro specie (B. subtilis, B. clausii, B. licheniformis, e B. halodurans) contengono una versione più corta, che è simile in lunghezza a flgG, e tre specie (B. thuringiensis, B. cereus, e B. anthracis) hanno la versione più lunga.
Similitudine di sequenza proteica tra la proteina dell’asta prossimale FlgF, la proteina dell’asta distale FlgG e la proteina dell’uncino FlgE in E. coli. Mentre FlgF e FlgG sono omologhi per tutta la loro lunghezza, FlgE contiene una duplicazione intragenica al suo terminale N.
Dalla matrice di relazioni e allineamenti di sequenze proteiche dei geni del nucleo flagellare di E. coli, è anche possibile dedurre l’ordine in cui molti di questi geni e le loro strutture corrispondenti hanno avuto origine. I bassi livelli di identità proteica tra questi paraloghi, le coppie paraloghe sono tra il 18% e il 32% identiche, hanno richiesto l’applicazione di un metodo che combina l’output di serie di programmi di allineamento multiplo per derivare un allineamento di consenso. Gli allineamenti sulle regioni terminali delle proteine, specialmente al terminale C, offrono la massima confidenza. Un albero unrooted neighbor-joining e un albero di massima verosimiglianza mostrano che le proteine dell’asta hanno avuto origine con FlgB o FlgC, che sono entrambe proteine corte, e poi hanno generato FlgF e FlgG (e la proteina uncino FlgE) attraverso una serie di eventi di duplicazione. Le relazioni evolutive di questi geni flagellari sono parallele alle posizioni delle loro proteine codificate nei flagelli contemporanei. Le proteine dell’asta prossimale, poi distale, precedono (sia evolutivamente che fisicamente) le proteine dell’uncino, che hanno preceduto la giunzione uncino-filamento e le proteine del filamento.