Trinvis dannelse af det bakterielle flagellarsystem

Resultater

Definering af kernesættet af flagellargener.

Ved at søge i genomerne af flagellaterede bakterier, for hvilke komplette genomsekvenser er tilgængelige, fik vi den fylogenetiske fordeling af alle de gener, der vides at være involveret i biosyntesen og reguleringen af flagellerne. For at undersøge oprindelsen og udviklingen af det bakterielle flagellarsystem anvendte vi derefter en fylogenetisk profileringsmetode (21) til at sortere gener i funktionelle grupper baseret på deres fælles forekomst og fælles fordeling på tværs af genomer. Gener med forskellige funktionelle roller har forskellige fylogenetiske fordelinger og profiler; de fleste af de gener, hvis proteinprodukter udgør flagellens strukturelle komponenter, er dog til stede i alle de betragtede bakteriefylaer (Fig. 1). Denne fordeling tyder på, at dette kernesæt af strukturelle gener opstod før divergensen af de store bakterielle slægter og omfatter 21 gener, der specificerer proteiner, der danner filamentet (fliC, som ofte er til stede i flere kopier), kroge-filamentforbindelsen (flgK og flgL), krogen (flgE, som findes som pseudogen i Thermotoga maritima), staven (flgB, flgC, flgG og flgF, som kun mangler i Listeria innocua) og MS-ringen (fliF), C-ringen (fliG, fliM og fliN), motoren (motA og motB) og eksportapparatet (flhA, flhB, fliI, fliP, fliR og fliQ, som mangler et homolog i Clostridium tetani). Desuden har flgD, der koder for hook-capping-proteinet, som er nødvendigt for flagellar samling, men som ikke bidrager til den endelige struktur, homologer i alle flagellerede bakterier og blev derfor betragtet som en del af kernesættet.

Fig. 1.

Fordeling af flagellære proteiner (eksklusive kemotakseproteiner) blandt flagellede bakteriearter. De proteiner, der er kodet af kernegenerne, er angivet med fed skrift. Denne figur er omtegnet med tilladelse fra den figur, der findes i KEGG pathway database (www.genome.jp/kegg/pathway/eco/eco02040.html).

Andre flagellarstrukturelle gener, der er bredt, men ikke universelt fordelt på tværs af flagellaterede arter, omfatter flgH, flgI, fliD, fliE og fliH. Fraværet af visse af disse gener i et genom er forståeligt, når man tager hensyn til de særlige karakteristika ved den pågældende bakterie. F.eks. er L- og P-ringproteinerne FlgH og FlgI ikke nødvendige hos Firmicutes, fordi disse bakterier mangler den ydre membran, hvori disse proteiner typisk er placeret hos Gram-negative bakterier. FlgH og FlgI er heller ikke nødvendige i Spirochaetes, som har en periplasmatisk flagellum, der er placeret inden for den ydre membran. Firmicutes og Spirochaetes betragtes som to af de mest basale bakterielle slægter (22, 23), hvilket tyder på, at flgH og flgI er opstået efter kernesættet af strukturelle proteiner. I modsætning hertil er tre andre gener (fliD, fliE og fliH) til stede i alle hovedgrupper, men mangler sporadisk i nogle få genomer, mest markant i Alphaproteobakterierne. Da den nuværende fordeling af disse tre gener kan tilskrives sekundært tab, bør de også betragtes som en del af det forfødte sæt af gener, der specificerer bakterieflagellet, hvilket bringer det samlede antal kernegener op på 24.

Det er derfor opgaven med at belyse flagellets udvikling, at fastslå, hvordan dette sæt af 24 strukturelle gener er opstået. De resterende flagellargener, herunder dem, der spiller regulerende eller hjælpende roller i flagellarsamling og -funktion (såsom masterregulatorerne flhC og flhD og kroglængdekontrolgenet fliK), har en meget variabel fordeling og er udelukket fra kernesættet, selv om nogle af generne vides at være afgørende for flagellarsystemets korrekte funktion hos en bestemt art. (Den evolutionære historie for disse reguleringsgener og for et andet bakterielt flagellarsystem mangler stadig at blive beskrevet.)

Fylogenetisk analyse af flagellarkernegener.

For at fastslå, om de 24 gener, der udgør flagellarkerne-sættet, har kongruente evolutionære historier med hinanden, sammenlignede vi det fylogenetiske træ, der er udledt for hvert kernegen, med det træ, der er baseret på sammenkædede tilpasninger af proteiner, der er kodet af 14 af kernegenerne. (Disse 14 gener blev udvalgt, fordi de var til stede i alle de arter, der indgik i denne undersøgelse, og fordi de kodede for de proteiner, der havde en høj andel af alignerbare positioner). For hvert af de 24 gener stemte alle grene med >75% bootstrap-værdier overens med dem i det sammenkædede træ, hvilket indikerer, at ingen alternative forgreningsordener viser stærk støtte, og at hvert af disse gener har fulgt en fælles historie i bakterier, siden de opstod.

Sammenhæng mellem flagellar generne og bakteriernes organismiske fylogeni.

Fordelingen af de 24 kernegener blandt divergerende bakteriefylaer er mest i overensstemmelse med en gammel oprindelse, der går forud for bakteriernes fælles forfader. Fordelingen kunne dog være opnået gennem senere horisontal overførsel. Vi testede disse alternativer ved at sammenligne fylogenien af flagellarkerneproteinerne med fylogenien af de tilsvarende bakteriefylaer baseret på 25 universelt distribuerede gener. Fylogenierne er stort set kongruente på grene, der har >75% bootstrap-støtte; der er dog to uoverensstemmelser mellem kernegenet og organisme-fylogenierne; i placeringen af både den alfaproteobakterielle Zymomonas mobilis og en klade af tre Betaproteobakterier inden for Gammaproteobakterierne (Fig. 2). Da individuelle flagellargener inden for kernesættet viser den samme udviklingshistorie (se ovenfor), har disse uoverensstemmelser sandsynligvis været et resultat af overførsel af hele flagellargenkomplekser mellem proteobakterielle slægter efter deres adskillelse fra andre større bakteriegrupper.

Fig. 2.

Kongruens mellem artstræ og flagellarproteintræ. (A) Artetræ baseret på konkateneret proteinjustering af 25 enkeltkopierede proteiner. (B) Flagellar-proteintræ baseret på konkateneret proteinjustering af 14 flagellarkerneproteiner. Bakteriegrupper er skraveret for at fremhæve uoverensstemmelser som følge af genoverførsel.

Kerneflagellarproteiner er opstået gennem duplikation og diversificering af en enkelt forløber.

Når hver af de 24 flagellarkerneproteiner fra E. coli sammenlignes (via BLAST) med alle proteiner, der er kodet i E. coli-genomet, er deres bedste og ofte eneste hits andre flagellarkerneproteiner. Parvise sammenligninger mellem disse kerneproteiner viste, at ti er homologe med andre kerneproteiner, når man anvender en e-værdigrænseværdi på 10-4 (fig. 3). Dette mønster indikerer, at de strukturelle gener, der specificerer den del af flagellum, der befinder sig uden for cytoplasmisk membran (dvs. staven, krogen og filamentet), er paraloge og er afledt af hinanden gennem duplikationer.

Fig. 3.

Netværk af relationer mellem flagellære kerneproteiner. Over hvert link er antallet af genomer, for hvilke homologi mellem et bestemt proteinpar blev påvist ved parvis sammenligning ved en cutoff-værdi på 10-4 eller lavere. Blå linjer, der forbinder proteiner med gule bokse, viser det homologienetværk, der blev afsløret, da E. coli’s kerneproteiner blev underkastet parvise sammenligninger.

Ud over disse matches med andre kerneproteiner gav parvise sammenligninger af disse flagellære proteiner med de >4.000 ikke-flagellære proteiner, der er kodet af hele E. coli-genomet, i alt kun 24 hits, der nåede samme signifikansniveau. Blandt disse matches er halvdelen (herunder nogle med e-værdier så lave som 3e -10 til flagellarkerneproteinerne) involveret i andre sekretionssystemer, såsom P-pilus og Type V-sekretionssystemet, hvilket er i overensstemmelse med idéen om, at flagellum oprindeligt var et sekretionssystem. Yderligere 10 af de 24 hits (med e-værdier på mellem 10-5 og 10-6) er membranproteiner, og de resterende to er profagehaletfiberproteiner. Vi konkluderer således, at på trods af deres oldtid er lighederne mellem kerneproteinerne til hinanden mere almindelige og i gennemsnit stærkere end til ikke-flagellære proteiner.

Da de gener, der udgør kernesættet, er gamle og stærkt divergerede, er det muligt, at nogle af relationerne mellem generne ikke kan genkendes ud fra analyser, der er begrænset til E. coli-flagellærekomplekset. Vi gentog denne analyse og sammenlignede kernegen-sættet for hver anden flagellat bakterie med alle proteiner, der er kodet i de tilsvarende genomer og indbyrdes, og vi opnåede et lignende resultat, dvs. at de bedste (og ofte de eneste) hits for flagellarkerne-generne var til andre flagellarkerne-gener. Ved at udvide denne analyse ud over E. coli blev lighedsrelationerne og forbindelserne mellem flere andre kernegener imidlertid opklaret. For eksempel var der et meget signifikant match mellem fliM og fliN (som ikke blev påvist for E. coli-homologer) i 15 genomer fra forskellige bakterielle underafdelinger (fig. 3). Desuden er de interagerende eksportkomponenter, der er kodet af fliP, fliR og fliQ, beslægtede på grundlag af deres proteinsekvenser inden for flere taxa. Og selv blandt de 10 E. coli-kernegener, der oprindeligt viste lighed med hinanden, var der flere nye indbyrdes forbindelser (f.eks. flgB til både flgE og flgG og mellem flgL og flgK), der blev afsløret ved at udføre analysen på andre genomer. Kumulativt viser hvert af de 24 kernegener en betydelig lighed med et eller flere af de andre kernegener (Fig. 3), et mønster, der ville være et resultat af deres successive oprindelse fra hinanden ved uafhængige genduplikationer og/eller genfusioner.

Ligheden mellem det proximale stavprotein FlgF, det distale stavprotein FlgG og krogeproteinet FlgE illustrerer relationerne mellem disse flagellære proteiner (Fig. 4). FlgF og FlgG er af samme størrelse (251 aa vs. 260 aa i E. coli) og viser 31% aminosyreidentitet over hele deres længde. I modsætning hertil er flgE-genet meget længere og synes at have udviklet sig fra flgG gennem en intragenisk duplikation, der tilføjede et 160-aa-domæne til N-terminalen af dets kodede protein. PSI-BLAST-søgninger afslører to signifikante tilpasninger mellem FlgE og FlgG i E. coli: den ene med 24 % identitet mellem hele længden af FlgG og C terminus af FlgE (156-401 aa), og den anden med 29 % identitet mellem N terminus af to proteiner (≈160 aa). At flgE udviklede sig ved en duplikation understøttes også af, at der findes to versioner af flgE i Bacillus-slægten: blandt de sekventerede genomer indeholder fire arter (B. subtilis, B. clausii, B. licheniformis og B. halodurans) en kortere version, som har samme længde som flgG, og tre arter (B. thuringiensis, B. cereus og B. anthracis) har den længere version.

Fig. 4.

Proteinsekvenslighed mellem det proximale stavprotein FlgF, det distale stavprotein FlgG og krogproteinet FlgE i E. coli. Mens FlgF og FlgG er homologe over hele deres længde, indeholder FlgE en intragen duplikering ved sin N-terminus.

Ud fra matrixen af relationer og proteinsekvensudligninger af de flagellære kernegener i E. coli er det også muligt at udlede den rækkefølge, i hvilken mange af disse gener og deres tilsvarende strukturer er opstået. De lave niveauer af proteinidentitet blandt disse paraloge, paraloge par er mellem 18% og 32% identiske, krævede, at vi anvendte en metode, der kombinerer output fra serier af multiple alignment programmer for at udlede en konsensus alignment. De tilpasninger, der er foretaget på de terminale regioner af proteinerne, især ved C-terminus, giver den højeste tillid. Et urodet nabosammenføjningstræ og et træ med maksimal sandsynlighed viser, at stavproteinerne stammer fra enten FlgB eller FlgC, som begge er korte proteiner, og derefter genererede FlgF og FlgG (og krogproteinet FlgE) gennem en række duplikationsbegivenheder. Disse flagellargeners evolutionære relationer er parallelle med placeringen af deres kodede proteiner i nutidige flageller. De proximale og derefter distale stavproteiner går forud (både evolutionært og fysisk) for krogproteinerne, som gik forud for krog-filamentforbindelsen og filamentproteinerne.