Formation par étapes du système flagellaire bactérien

Résultats

Définir l’ensemble de base des gènes flagellaires.

En interrogeant les génomes des bactéries flagellées pour lesquelles des séquences génomiques complètes sont disponibles, nous avons obtenu la distribution phylogénétique de chaque gène connu pour être impliqué dans la biosynthèse et la régulation des flagelles. Pour étudier l’origine et l’évolution du système flagellaire bactérien, nous avons ensuite appliqué une méthode de profilage phylogénétique (21) pour classer les gènes en groupes fonctionnels en fonction de leur cooccurrence et de leur distribution commune dans les génomes. Les gènes ayant des rôles fonctionnels différents ont des distributions et des profils phylogénétiques distincts ; cependant, la plupart des gènes dont les produits protéiques constituent les composants structurels du flagelle sont présents dans tous les phylums bactériens considérés (Fig. 1). Cette distribution suggère que ce noyau de gènes structuraux est né avant la divergence des principales lignées bactériennes et comprend 21 gènes qui spécifient les protéines qui forment le filament (fliC, qui est souvent présent en copies multiples), la jonction crochet-filament (flgK et flgL), le crochet (flgE, qui est présent comme un pseudogène dans Thermotoga maritima), la tige (flgB, flgC, flgG, et flgF, qui est absent seulement de Listeria innocua), l’anneau MS (fliF), l’anneau C (fliG, fliM, et fliN), le moteur (motA et motB), et l’appareil d’exportation (flhA, flhB, fliI, fliP, fliR, et fliQ, qui manque un homologue dans Clostridium tetani). En outre, flgD, codant pour la protéine de coiffage des crochets, qui est nécessaire à l’assemblage flagellaire mais ne contribue pas à la structure finale, a des homologues chez toutes les bactéries flagellées et a donc été considéré comme faisant partie de l’ensemble de base.

Fig. 1.

Distribution des protéines flagellaires (à l’exclusion des protéines de chimiotaxie) parmi les espèces bactériennes flagellées. Les protéines codées par les gènes centraux sont désignées en gras. Cette figure est redessinée avec la permission de celle qui apparaît dans la base de données KEGG pathway (www.genome.jp/kegg/pathway/eco/eco02040.html).

Les autres gènes structurels flagellaires qui sont largement mais pas universellement distribués parmi les espèces flagellées comprennent flgH, flgI, fliD, fliE, et fliH. L’absence de certains de ces gènes dans un génome est compréhensible une fois que les caractéristiques de la bactérie particulière sont considérées. Par exemple, les protéines des anneaux L et P FlgH et FlgI ne sont pas nécessaires chez les Firmicutes car ces bactéries n’ont pas la membrane externe dans laquelle ces protéines sont typiquement situées chez les bactéries Gram-négatives. FlgH et FlgI ne sont pas non plus nécessaires chez les Spirochaetes, qui possèdent un flagelle périplasmique situé à l’intérieur de la membrane externe. Les Firmicutes et les Spirochaetes sont considérés comme deux des lignées bactériennes les plus basiques (22, 23), ce qui suggère que FlgH et FlgI sont apparus après le noyau de protéines structurelles. En revanche, trois autres gènes (fliD, fliE et fliH) sont présents dans tous les grands groupes mais manquent sporadiquement dans quelques génomes, notamment dans les Alphaproteobacteria. Parce que les distributions actuelles de ces trois gènes sont attribuables à une perte secondaire, ils devraient également être considérés comme faisant partie de l’ensemble ancestral de gènes spécifiant le flagelle bactérien, ce qui porte le total des gènes centraux à 24.

Par conséquent, la tâche d’élucider l’évolution du flagelle repose sur l’établissement de la façon dont cet ensemble de 24 gènes structurels est né. Les gènes flagellaires restants, y compris ceux qui jouent des rôles régulateurs ou auxiliaires dans l’assemblage et la fonction flagellaire (tels que les maîtres régulateurs flhC et flhD, et le gène de contrôle de la longueur du crochet fliK), ont des distributions très variables et sont exclus de l’ensemble de base, même si certains des gènes sont connus pour être essentiels au bon fonctionnement du système flagellaire dans une espèce particulière. (Les histoires évolutives de ces gènes régulateurs, ainsi que celle d’un second système flagellaire bactérien restent à décrire.)

Analyse phylogénétique des gènes centraux flagellaires.

Pour vérifier si les 24 gènes qui forment l’ensemble central flagellaire ont des histoires évolutives congruentes entre elles, nous avons comparé l’arbre phylogénétique déduit pour chaque gène central à celui basé sur les alignements concaténés des protéines codées par 14 des gènes centraux. (Ces 14 gènes ont été sélectionnés parce qu’ils étaient présents dans toutes les espèces incluses dans cette étude et qu’ils codaient les protéines ayant une proportion élevée de positions alignables). Pour chacun des 24 gènes, toutes les branches avec des valeurs bootstrap >75% étaient en accord avec celles de l’arbre concaténé, ce qui indique qu’aucun ordre de branchement alternatif ne présente un fort soutien et que chacun de ces gènes a suivi une histoire commune dans les bactéries depuis leur origine.

Congruence des gènes flagellaires avec la phylogénie organisationnelle des Bactéries.

La distribution des 24 gènes centraux parmi les phyla bactériens divergents est la plus cohérente avec une origine ancienne, antérieure à l’ancêtre partagé des Bactéries. Cependant, cette distribution pourrait avoir été obtenue par un transfert horizontal ultérieur. Nous avons testé ces alternatives en comparant la phylogénie des protéines centrales flagellaires avec la phylogénie des phyla bactériens correspondants basée sur 25 gènes universellement distribués. Les phylogénies sont largement congruentes sur les branches qui ont >75% de soutien bootstrap ; cependant, il y a deux incohérences entre le gène central et les phylogénies de l’organisme ; dans le placement de l’alphaproteobactérie Zymomonas mobilis et un clade de trois Betaproteobacteria dans le Gammaproteobacteria (Fig. 2). Étant donné que les gènes flagellaires individuels au sein de l’ensemble de base montrent la même histoire évolutive (voir ci-dessus), ces incongruités ont probablement résulté du transfert de l’ensemble des complexes de gènes flagellaires entre les lignées protéobactériennes après leur séparation des autres groupes majeurs de bactéries.

Fig. 2.

Congruence entre l’arbre des espèces et l’arbre des protéines flagellaires. (A) Arbre des espèces basé sur l’alignement protéique concaténé de 25 protéines à copie unique. (B) Arbre des protéines flagellaires basé sur l’alignement protéique concaténé de 14 protéines centrales flagellaires. Les groupes bactériens sont ombragés pour mettre en évidence les incongruités résultant des événements de transfert de gènes.

Les protéines flagellaires centrales sont apparues par la duplication et la diversification d’un précurseur unique.

Lorsque chacune des 24 protéines flagellaires centrales d’E. coli est comparée (via BLAST) à toutes les protéines codées dans le génome d’E. coli, leurs meilleurs et souvent seuls résultats sont d’autres protéines flagellaires centrales. Les comparaisons par paires entre ces protéines centrales ont révélé que dix d’entre elles sont homologues à d’autres protéines centrales lorsqu’on applique un seuil de valeur électronique de 10-4 (figure 3). Ce schéma indique que les gènes de structure spécifiant la partie du flagelle résidant à l’extérieur de la membrane cytoplasmique (c’est-à-dire la tige, le crochet et le filament) sont des paralogues et ont été dérivés les uns des autres par duplication.

Fig. 3.

Réseau de relations entre les protéines centrales flagellaires. Au-dessus de chaque lien figure le nombre de génomes pour lesquels l’homologie entre une paire de protéines particulière a été détectée par comparaison par paire à une valeur seuil de 10-4 ou moins. Les lignes bleues reliant les protéines encadrées en jaune représentent le réseau d’homologie révélé lorsque les protéines centrales d’E. coli ont été soumises à des comparaisons par paires.

A part ces correspondances avec d’autres protéines centrales, les comparaisons par paires de ces protéines flagellaires avec les >4 000 protéines non flagellaires codées par l’ensemble du génome d’E. coli ont retrouvé cumulativement un total de seulement 24 occurrences qui ont atteint le même niveau de signification. Parmi ces correspondances, la moitié (y compris certaines avec des valeurs e aussi basses que 3e -10 aux protéines centrales flagellaires) sont impliquées dans d’autres systèmes de sécrétion, tels que le pilus P et le système de sécrétion de type V, ce qui est cohérent avec l’idée que le flagelle a commencé comme un système de sécrétion. Dix autres des 24 occurrences (avec des e-valeurs allant de 10-5 à 10-6) sont des protéines membranaires, et les deux autres sont des protéines de la fibre caudale du prophage. Ainsi, nous concluons qu’en dépit de leur ancienneté, les similitudes des protéines centrales entre elles sont plus courantes et, en moyenne, plus fortes que celles des protéines non flagellaires.

Parce que les gènes qui constituent l’ensemble central sont anciens et très divergents, il est possible que certaines des relations entre les gènes ne soient pas reconnues à partir d’analyses limitées au complexe flagellaire d’E. coli. Nous avons répété cette analyse et comparé l’ensemble des gènes centraux de chaque autre bactérie flagellée à toutes les protéines codées dans les génomes correspondants et entre eux, et nous avons obtenu un résultat similaire, c’est-à-dire que les meilleures (et souvent les seules) correspondances des gènes centraux flagellaires étaient avec d’autres gènes centraux flagellaires. Cependant, en étendant cette analyse au-delà de E. coli, les relations de similarité et les liens entre plusieurs autres gènes centraux ont été résolus. Par exemple, une correspondance hautement significative entre fliM et fliN (qui n’a pas été détectée pour les homologues d’E. coli) était évidente dans 15 génomes de diverses subdivisions bactériennes (Fig. 3). En outre, les composants d’exportation interagissant codés par fliP, fliR et fliQ sont apparentés sur la base de leurs séquences protéiques au sein de plusieurs taxons. Et même parmi les 10 gènes centraux d’E. coli qui présentaient à l’origine une similarité entre eux, plusieurs nouvelles interconnexions (par exemple, flgB vers flgE et flgG, et entre flgL et flgK) ont été révélées en effectuant l’analyse sur d’autres génomes. Cumulativement, chacun des 24 gènes centraux montre une similitude significative avec un ou plusieurs des autres gènes centraux (Fig. 3), un modèle qui résulterait de leur origine successive les uns des autres par des duplications de gènes indépendants et/ou des fusions de gènes.

La similitude entre la protéine de tige proximale FlgF, la protéine de tige distale FlgG, et la protéine de crochet FlgE illustre les relations entre ces protéines flagellaires (Fig. 4). FlgF et FlgG sont de taille similaire (251 aa contre 260 aa chez E. coli) et présentent 31 % d’identité d’acides aminés sur toute leur longueur. En revanche, le gène flgE est beaucoup plus long et semble avoir évolué à partir de flgG par une duplication intragénique qui a ajouté un domaine de 160 aa à l’extrémité N-terminale de sa protéine codée. Les recherches PSI-BLAST révèlent deux alignements significatifs entre FlgE et FlgG dans E. coli : l’un avec 24 % d’identité entre la longueur totale de FlgG et l’extrémité C-terminale de FlgE (156-401 aa), et l’autre avec 29 % d’identité entre l’extrémité N-terminale des deux protéines (≈160 aa). Le fait que FlgE ait évolué par une duplication est également étayé par le fait qu’il existe deux versions de FlgE dans le genre Bacillus : parmi les génomes séquencés, quatre espèces (B. subtilis, B. clausii, B. licheniformis, et B. halodurans) contiennent une version plus courte, dont la longueur est similaire à celle de FlgG, et trois espèces (B. thuringiensis, B. cereus, et B. anthracis) ont la version plus longue.

Fig. 4.

Similitude de séquence protéique entre la protéine de tige proximale FlgF, la protéine de tige distale FlgG, et la protéine de crochet FlgE chez E. coli. Alors que FlgF et FlgG sont homologues sur toute leur longueur, FlgE contient une duplication intragénique à son extrémité N.

À partir de la matrice des relations et des alignements de séquences protéiques des gènes du noyau flagellaire d’E. coli, il est également possible de déduire l’ordre dans lequel nombre de ces gènes et leurs structures correspondantes sont nés. Les faibles niveaux d’identité protéique parmi ces paralogues, les paires paralogues sont entre 18% et 32% identiques, ont exigé que nous appliquions une méthode qui combine la sortie d’une série de programmes d’alignement multiple pour dériver un alignement de consensus. Les alignements sur les régions terminales des protéines, en particulier à l’extrémité C, offrent la plus grande confiance. Un arbre de voisinage non enraciné et un arbre de maximum de vraisemblance montrent que les protéines de la tige proviennent de FlgB ou FlgC, qui sont toutes deux des protéines courtes, et ont ensuite généré FlgF et FlgG (et la protéine crochet FlgE) par une série d’événements de duplication. Les relations évolutives de ces gènes flagellaires sont parallèles aux emplacements des protéines codées dans les flagelles contemporains. Les protéines de la tige proximale, puis distale, précèdent (à la fois sur le plan évolutif et physique) les protéines du crochet, qui ont précédé la jonction crochet-filament et les protéines du filament.