Identifizierung von Tandem-Ankyrin-Wiederholungen in Proteinstrukturen

Hier präsentieren wir die Analyse des vorgeschlagenen Algorithmus an einer repräsentativen Gruppe von fünfzehn ANK-Wiederholungsproteinen (Tabelle 2). Zunächst diskutieren wir im Detail unsere Analyse eines entworfenen ANK-Proteins, 1N0R (Kette A), das aus vier exakten ANK-Repeats in Tandemanordnung besteht, wie in Abbildung 2(a) gezeigt, und dessen Proteinkontaktnetzwerk in Abbildung 2(b) dargestellt ist. Die Haupteigenvektoren der Adjazenzmatrix, A levc , für das entworfene ANK-Protein 1N0R sind in Abbildung 3(a) dargestellt. In den vier Wiederholungsregionen ist ein deutliches Wiederholungsmuster im A levc-Profil zu beobachten (gestrichelte und durchgezogene vertikale Linien entsprechen den Anfang-Ende-Wiederholungsgrenzen auf der Grundlage der RADAR-Ausgabe). Dies wird deutlich, wenn man das A levc-Profil für die einzelnen Wiederholungskopien in Abbildung 3(b) nach der Normalisierung mit dem größten Peak in jeder Wiederholungskopie überlagert. Die Vorhersage ist sowohl in Bezug auf die Kopienzahl als auch auf die Start-End-Grenzen der Wiederholungsregionen im Vergleich zum sequenzbasierten Tool RADAR gut (siehe Tabelle 2), während zwei Wiederholungskopien vom strukturbasierten Programm ConSole übersehen werden, sogar im Fall des entworfenen ANK-Proteins. Die multiplen Sequenzalignments (MSA) der von unserem Ansatz, RADAR und ConSole vorhergesagten Wiederholungsregionen sind in Abbildung 4(a), (b) bzw. (c) mit CLUSTALW dargestellt. Die MSA der einzelnen Kopien ist in beiden Fällen sehr gut erhalten und in guter Übereinstimmung.

Tabelle 2 Vorhersage von Wiederholungsregionen für einen repräsentativen Satz von 15 Proteinen im Vergleich mit UniProt-Annotation, RADAR- und ConSole-Ergebnissen
Abbildung 4
Abbildung4

MSA der vorhergesagten Wiederholungsregionen für 1N0R. (a) Vorhersage durch den vorgeschlagenen Ansatz, (b) RADAR-Ausgabe und (c) ConSole-Ausgabe.

Als nächstes betrachten wir ein Beispiel für ein natürliches Protein, den Osteoklasten-stimulierenden Faktor 1, 3EHQ (Kette A), der die Knochenresorption auslöst. Gemäß der Annotation in UniProt enthält es drei Ankyrin-Wiederholungen von 72-168, wie in der 3-D-Struktur durch unterschiedliche Farben in Abbildung 5(a) dargestellt. In Abbildung 5(b) ist das A levc-Profil für 3EHQ dargestellt, das eindeutig auf das Vorhandensein von drei sich wiederholenden Einheiten in der Region 72-177 hinweist. Es besteht eine gute Übereinstimmung zwischen den vorhergesagten Start-End-Grenzen der drei Wiederholungseinheiten und der UniProt-Annotation (siehe Tabelle 2). Die Vorhersage der sich wiederholenden Regionen durch RADAR und ConSole stimmt jedoch nicht mit der UniProt-Annotation überein. Die RADAR-Vorhersage weicht sowohl in Bezug auf die Kopienzahl als auch auf die Wiederholungsgrenzen ab, wobei die erste Wiederholung völlig übersehen wird. ConSole sagt drei Kopien der ANK-Wiederholungen voraus, aber die Positionen der Anfangs- und Endgrenzen der Wiederholungseinheiten weichen für jede Wiederholungskopie um etwa 10 Reste ab. Abbildung 6 zeigt die MSA der Wiederholungsregionen (a), die von unserem Ansatz vorhergesagt wurden, (b), die in der UniProt-Datenbank annotiert sind, und (c), die von ConSole vorhergesagt wurden. Die MSA der vorhergesagten Wiederholungsregionen in Abbildung 6(a) stimmt sehr gut mit der MSA der annotierten UniProt-Wiederholungsregionen (Abbildung 6(b)) überein, verglichen mit der MSA der von ConSole vorhergesagten Region in Abbildung 6(c). Die Ergebnisse für einen repräsentativen Satz von 15 ANK-Repeat-Proteinen sind in Tabelle 2 zusammen mit der Annotation in der UniProt-Datenbank und den Vorhersagen durch sequenz- und strukturbasierte Methoden, RADAR bzw. ConSole, zusammengefasst. Im Großen und Ganzen beobachten wir eine gute Übereinstimmung bei der Erkennung von Ankyrin-Wiederholungen sowohl bei der Kopienzahl als auch bei den Wiederholungsgrenzen mit der UniProt-Annotation und auch mit ConSole.

Abbildung 5
Abbildung5

Natürliches Ankyrin-Wiederholungsprotein 3EHQ (Kette A). (a) Die 3D-Struktur und (b) die Eigenvektorkomponenten, die dem größten Eigenwert der Adjazenzmatrix (A levc ) entsprechen.

Abbildung 6
Abbildung6

MSA der Wiederholungsregionen in Protein 3EHQ. (a) vorhergesagt durch den vorgeschlagenen Ansatz, (b) annotiert in der UniProt-Datenbank und (c) vorhergesagt durch den ConSole-Output.

In Tabelle 2 sind die Proteine ausgewählt worden, um Beispiele sowohl für gute Übereinstimmung als auch für Unstimmigkeiten zu präsentieren. Im Folgenden werden einige Beispiele erörtert, bei denen unsere Vorhersage von der Annotation in der UniProt-Datenbank abweicht. Im Falle des Proteins 3EU9 (Kette A) sind in UniProt fünf Kopien von ANK-Motiven von 89-253 annotiert, während unser Ansatz sieben Kopien vorhersagt, eine zusätzliche Kopie auf jeder Seite von 57-88 und 258-281. Aus der 3-D-Struktur von 3EU9 in Abbildung 7(a) und dem Levc-Profil in Abbildung 7(b) wird deutlich, dass die vorhergesagten terminalen Wiederholungen (rot dargestellt) ein ähnliches Levc-Profil aufweisen wie die fünf intermediären Wiederholungen (grau dargestellt). Die strukturelle Ausrichtung dieser vorhergesagten terminalen Wiederholungen mit einem repräsentativen strukturellen ANK-Motiv (aus dem entworfenen Protein 1N0R) unter Verwendung des Cealign-Moduls in Pymol ist in Abbildung 7(c) und (d) dargestellt; die Root Mean Square Deviation (RMSD) für jede terminale Kopie ist kleiner als 1 Å, was auf eine hohe strukturelle Ähnlichkeit mit dem ANK-Motiv hinweist. Auf Sequenzebene sind diese terminalen Wiederholungen jedoch nicht gut konserviert, wie aus der MSA der vorhergesagten Regionen in Abbildung 8(a) im Vergleich zu den von UniProt annotierten Wiederholungsregionen in Abbildung 8(b) ersichtlich ist. Mit einer zusätzlichen terminalen Kopie, die von ConSole vorhergesagt wird, werden insgesamt sechs Kopien vorhergesagt, aber die Grenzen der ConSole-Kopien sind im Vergleich zur UniProt-Annotation um etwa 10 Reste verschoben. Im Allgemeinen sind die terminalen Wiederholungen auf Sequenzebene weniger konserviert oder unvollständig, und ihre Erkennung ist nicht einfach. Bei 52 anderen Proteinen (siehe Zusatzdatei 1) wurden zusätzliche Kopien der ANK-Wiederholungen durch den vorgeschlagenen Ansatz vorhergesagt, wodurch die Annotation der vollständigen Wiederholungsregion in diesen 53 Proteinen verbessert wurde. In 16 dieser Fälle wird eine zusätzliche Kopie auch von ConSole vorhergesagt. Für das Protein 3SO8 (Kette A, UniProt Id: Q9H9E1) wurden in der früheren Version von UniProt (Version 2012_08) ursprünglich drei ANK-Wiederholungen von 181-279 annotiert, während unser Ansatz fünf Wiederholungen von Rest 149-310 vorhersagt, d. h. eine zusätzliche Wiederholung an jedem Ende. In der jüngsten Version der UniProt-Datenbank (Version 2014_05) wird das Protein nun mit fünf Kopien des ANK-Motivs von 148-313 annotiert, was mit der Vorhersage des vorgeschlagenen Ansatzes übereinstimmt (Tabelle 2).

Abbildung 7
Abbildung7

Natürliches Ankyrin-Repeat-Protein 3EU9 (Kette A). (a) 3-D-Struktur (b) Darstellung des Haupteigenvektors der Adjazenzmatrix. (c) – (d) Strukturelles Alignment der zusätzlichen Ankyrin-Repeat-Kopie, die in 3EU9 vorhergesagt wurde (in blauer Farbe dargestellt), mit einer Repeat-Kopie des entworfenen Proteins 1N0R (in roter Farbe dargestellt).

Abbildung 8
Abbildung8

MSA der Repeat-Regionen im Protein 3EU9. (a) durch den vorgeschlagenen Ansatz vorhergesagt und (b) in der UniProt-Datenbank annotiert.

In Protein 1D9S (Kette A) werden vier ANK-Wiederholungen von 5-130 in der UniProt-Datenbank gemeldet, aber nur zwei werden durch unseren Ansatz von 71-129 identifiziert. Bei der Analyse der Sekundärstrukturarchitektur aus PDBsum für 1D9S in Abbildung 9 stellen wir fest, dass die Region 38-66 nur eine Helix enthält, die sowohl von STRIDE als auch von DSSP zugeordnet wurde, während ein ANK-Motiv aus zwei antiparallelen Helices besteht, was darauf hindeutet, dass diese Region in der UniProt-Datenbank falsch annotiert worden sein könnte. Die Region 5-34 wird im vorläufigen Screening unseres Ansatzes als ANK-Motiv vorhergesagt, wird aber im Nachbearbeitungsschritt verworfen, während zusammenhängende Tandemwiederholungsregionen gemeldet werden. Eine ähnliche Situation wurde bei 18 weiteren Proteinen festgestellt (siehe Zusatzdatei 1), bei denen die erste Wiederholung in der UniProt-Annotation zunächst von unserem Algorithmus vorhergesagt, später aber verworfen wurde, weil die nächste Wiederholung nicht innerhalb eines Schwellenwerts von 17 Resten (halbe Länge eines ANK-Motivs) identifiziert wurde. Bei all diesen Proteinen, mit Ausnahme von 4HBD, werden eine oder mehrere Kopien von ConSole im Vergleich zur UniProt-Annotation übersehen (siehe Zusatzdatei 1). Es ist möglich, dass bei all diesen Proteinen das fehlende ANK-Motiv so mutiert ist, dass es selbst auf der Strukturebene nicht mehr erkannt werden kann, oder dass eine Helix deletiert ist. Wir sehen also, dass die Eigen-Spektren der Adjazenzmatrix das sich wiederholende Faltungsmuster des ANK-Motivs sehr gut erfassen, und durch die Einbeziehung der Sekundärstrukturinformationen und der Variation ihrer Längen ist eine genaue Vorhersage der Wiederholungsgrenzen möglich (Tabelle 2). Liegt jedoch ein Fehler in der Sekundärstrukturzuordnung vor, wird die Vorhersage des vorgeschlagenen Algorithmus beeinträchtigt.

Abbildung 9
Abbildung9

Sekundärstrukturdarstellung des Ankyrin-Repeat-Proteins 1D9S (Kette A) aus PDBsum.

Leistung des vorgeschlagenen Algorithmus

Zunächst erörtern wir die Vorhersagegenauigkeit von ANK-Motiven mit der UniProt-Annotation bei einer bekannten Menge von 370 Proteinen, die eine positive Testmenge von 125 Ankyrin-Repeat-Proteinen und eine negative Testmenge von 245 nicht-solenoiden Proteinen umfasst. Die Ergebnisse sind in Tabelle 3 (a) zusammengefasst, wobei die Sensitivität und Spezifität des Algorithmus wie folgt berechnet wird:

Sensitivität= T P T P + F N ≃0.976
Spezifität= T N T N + F P ≃1
Tabelle 3 Leistung des vorgeschlagenen Ansatzes

wobei TP der Anzahl der korrekt vorhergesagten bekannten Ankyrin-Repeat-Proteine entspricht, FN – die Anzahl der bekannten Ankyrin-Repeat-Proteine, die von unserem Ansatz übersehen wurden, FP – die Anzahl der Proteine, die von unserem Ansatz als Tandem-Ankyrin-Repeats enthaltend vorhergesagt, aber nicht als Ankyrin-Protein annotiert wurden, und TN – die Anzahl der Proteine, die von unserem Ansatz korrekt als Nicht-Ankyrin-Proteine vorhergesagt wurden. Da es nur drei falsch-negative (FN), 1SW6, 2ETB und 3ZRH, und keine falsch-positiven (FP) gab, ist die Sensitivität und Spezifität des Algorithmus sehr hoch (≃1).

Als Nächstes analysieren wir für die vorhergesagten Ankyrin-Proteine die Anzahl der ANK-Motive, die in dem Datensatz von 125 bekannten Ankyrin-Wiederholungsproteinen korrekt vorhergesagt wurden, und vergleichen sie mit einem neueren strukturbasierten Ansatz, ConSole, und einem sequenzbasierten Ansatz RADAR. In der UniProt-Datenbank sind insgesamt 584 ANK-Motive in diesen 125 Proteinen annotiert, während 582 ANK-Motive durch den vorgeschlagenen Ansatz, 528 durch ConSole und 458 durch RADAR vorhergesagt werden. Die Einzelheiten der Analyse sind in Tabelle 3(b) in Bezug auf Sensitivität und Präzision zusammengefasst, definiert als:

Sensitivität= T P T P + F N
Präzision= T P T P + F P

wobei TP die Anzahl der von der Methode korrekt vorhergesagten ANK-Motive in einem bekannten Datensatz von 125 Proteinen ist, FP ist die Anzahl der ANK-Motive, die von der Methode vorhergesagt, aber nicht in der UniProt-Datenbank annotiert wurden, und FN ist die Anzahl der annotierten ANK-Motive, die von der Methode übersehen wurden. Es kann festgestellt werden, dass sowohl die Sensitivität als auch die Präzision des vorgeschlagenen Ansatzes, AnkPred, ~ 0,88 beträgt, was im Vergleich zu ConSole (0,72 und 0,79) und RADAR (0,68 und 0,86) recht gut ist. Es ist bekannt, dass die terminalen Kopien eine geringe Sequenzerhaltung aufweisen, was zu einer geringeren Empfindlichkeit der RADAR-Methode führt. Wir sind uns darüber im Klaren, dass die Empfindlichkeit unseres Algorithmus aufgrund seiner Abhängigkeit von der Sekundärstrukturzuweisung noch weiter verbessert werden könnte.

Um die Genauigkeit der durch den vorgeschlagenen Ansatz vorhergesagten Wiederholungsgrenzen zu analysieren, erstellten wir das Multiple Sequence Alignment (MSA) der 582 vorhergesagten ANK-Motive im Datensatz von 125 bekannten Ankyrin-Proteinen mit CLUSTALW .Der Konsens der vorhergesagten ANK-Motive wurde dann mit SeaView bei 50 % Identität erstellt und ist unten angegeben:

XGXTPLHXAXXXGXXXXXXXLLXXXAXX

Dies stimmt sehr gut mit dem von Kohl et al. und Mosavi et al. vorgeschlagenen ANK-Konsensmotiv überein. Das konservierte Tetrapeptid-Motiv TPLH an den Positionen 4-7, Glycin an den Positionen 2 und 13 und Leucin an den Positionen 21-22 bestätigt die Vorhersagegenauigkeit der Wiederholungsgrenzen durch den vorgeschlagenen Ansatz.

Analyse der Proteindatenbank

Wir haben den vorgeschlagenen Algorithmus an der kompletten PDB durchgeführt. Insgesamt wurden 98.341 Strukturen heruntergeladen, die als Proteine oder Proteine im Komplex mit Nukleinsäuren dargestellt sind. Nach Abzug kurzer Fragmente < 50 Reste (da es unwahrscheinlich ist, dass diese zwei zusammenhängende Kopien von ANK-Motiven enthalten) und von Proteinen, denen keine Sekundärstrukturen zugeordnet sind, wurden insgesamt 94.975 Strukturen für die Analyse verwendet. Der vorgeschlagene Algorithmus identifizierte 819 Proteinstrukturen, die mindestens zwei tandemartig wiederholte ANK-Motive enthalten. Von diesen sind 181 als bekannte ANK-Proteine in UniProt, Pfam, PROSITE und PDB annotiert, von denen etwa 50 Strukturen entworfene Ankyrin-Repeat-Proteine (DARPINS) enthalten. Die Zahl der korrekt vorhergesagten Ankyrin-Repeat-Proteine beträgt 178, und nur 3 wurden von unserem Ansatz übersehen: 1SW6 (Kette A), 2ETB (Kette A) und 3ZRH (Kette A). In den ersten beiden Fällen verpasste der vorgeschlagene Ansatz die Erkennung von ANK-Motiven, da die in UniProt annotierten Repeat-Regionen 3-4 Helices enthalten, während nach den im Algorithmus definierten Regeln ein ANK-Motiv aus zwei antiparallelen Helices besteht. In 3ZRH sind die beiden annotierten Kopien der ANK-Wiederholungen nicht zusammenhängend, sondern durch 23 Reste getrennt und werden daher von unserem Ansatz übersehen. Daher werden die verbleibenden 641 Strukturen als bisher unerkannte Ankyrin-Wiederholungen vorgeschlagen und sind in Zusatzdatei 2 aufgeführt. Es wird festgestellt, dass 27 dieser Proteine andere Repeat-Typen enthalten, nämlich 9 TPR, 7 Pumilio-Repeats, 2 HEAT, 2 Annexin-Repeats, 2 Tumornekrosefaktor-Rezeptoren (TNFR-Cys), 2 mitochondriale Terminationsfaktor-Repeats (MTERF), 2 Clathrin Heavy Chain Repeats (CHCR) und 1 HAT (Additional file 2). Strukturell sind die TPR-, HEAT- und HAT-Motive dem ANK-Repeat-Motiv sehr ähnlich, da jedes von ihnen aus zwei antiparallelen Helices besteht, die einen Helix-Turn-Helix-Kern bilden, und sie sind auch ähnlich lang, etwa 30-34 Reste. Der Hauptunterschied besteht darin, dass das ANK-Motiv eine lange Schleife aufweist, die in einer β-Wendung endet, die in den TPR-, HEAT- und HAT-Motiven nicht vorhanden ist. Trotz dieser starken Ähnlichkeit zwischen diesen strukturellen Motiven werden von unserem Ansatz nur 13 falsch positive Ergebnisse (9 TPR, 3 HEAT und 1 HAT) gemeldet. Um die Zuverlässigkeit unserer Vorhersage in diesen Proteinen zu überprüfen, haben wir eine Struktur-Struktur-Überlagerung der vorhergesagten ANK-Repeat-Region mit einem DARPin-Motiv aus 1N0R mit dem Cealign-Modul in Pymol durchgeführt. Zum Beispiel sind in Protein 1OUV (Kette A) sieben Kopien von TPR in der UniProt-Datenbank von 29-278 (Zusatzdatei 2) gemeldet, die 14 Helices H 1-H 14 enthalten, wie in der Sekundärstrukturdarstellung von PDBsum in Abbildung 10(a) gezeigt. Die Überlagerung ist gut mit einer mittleren quadratischen Abweichung (RMSD) für alle drei vorhergesagten ANK-Wiederholungseinheiten von < 3 Å, wie in Abbildung 10(b) gezeigt. Das A levc-Profil in der vorhergesagten Ankyrin-Region von 185 bis 292 in Abbildung 10(c) ist auch sehr ähnlich zu dem für ein typisches ANK-Motiv in Abbildung 1(a). In diesem Fall befinden sich die vorhergesagten ANK-Wiederholungsmotive innerhalb der TPR-kommentierten Region, die aus einer Helix von jeder benachbarten TPR-Wiederholung besteht und als H 2 i T i H 1 i + 1 dargestellt werden kann, wobei H 2 i die zweite Helix des i-ten TPR-Motivs und H 1 i + 1 die erste Helix des (i + 1)-ten TPR-Motivs ist. Das strukturelle Alignment der 7 annotierten TPR-Regionen wurde mit einem repräsentativen TPR-Motiv des entworfenen Proteins 1NA0 durchgeführt und der RMSD für jede Wiederholungseinheit betrug < 2 Å (Ergebnisse nicht gezeigt), was darauf hindeutet, dass die UniProt-Annotation ebenfalls korrekt ist. Es wurde jedoch beobachtet, dass die β-Wendung zwischen zwei Helices innerhalb eines TPR-Motivs länger ist als die des typischen entworfenen TPR-Motivs und der Endschleife des ANK-Motivs ähnelt. Dies deutet auf die Möglichkeit einer Multi-Repeat-Architektur in komplexen Proteinen hin. Bei 21 weiteren Repeat-Proteinen wurde eine ähnliche Multi-Repeat-Architektur beobachtet. Im Falle des HEAT-Repeat-Proteins 3LWW (Kette A) sind in UniProt sechs kontinuierliche Kopien von 124-441 und zwei entfernte Kopien von 602-641 und 687-726 angegeben. Die vorhergesagte ANK-Wiederholung liegt in der Nicht-HEAT-Region von 520-621 mit einer sehr geringen Überlappung von 20 Resten mit der HEAT-Wiederholung. In diesem Fall sind zwei verschiedene Repeats in verschiedenen Regionen des Proteins vorhanden, und insgesamt wurden 10 Proteine beobachtet, die zwei verschiedene Repeat-Typen enthalten, die sich nicht überlappen (markiert mit „*“ in Zusatzdatei 2). Für diese Proteine, die eine Multi-Repeat-Architektur aufweisen, wäre es interessant, die Interaktionsstellen zu analysieren, was dazu beitragen würde, mehrere Annotationen/Funktionen in diesen Proteinen mit komplexer Architektur zu bestätigen. Somit ist der hier vorgeschlagene strukturbasierte Ansatz vielversprechend bei der Erkennung von tandemstrukturellen Wiederholungen in Proteinen und leistungsfähig genug, um zwischen sehr ähnlichen strukturellen Wiederholungen, nämlich Ankyrin und TPR/HEAT/HAT, zu unterscheiden.

Abbildung 10
Abbildung10

Voraussichtliches Ankyrin-Wiederholungsprotein 1OUV (Kette A). (a) Sekundärstrukturdarstellung aus PDBsum (b) Strukturelles Alignment der vorhergesagten ANK-Wiederholungskopie (in blauer Farbe dargestellt) mit einer Wiederholungskopie des entworfenen ANK-Proteins 1N0R (in orange dargestellt) (c) Ein Levc-Plot mit gepunkteten und durchgezogenen Linien, die den Anfang und das Ende der vorhergesagten ANK-Grenzen zeigen.

Funktionsanalyse bisher unerkannter Ankyrin-Proteine

Wir identifizierten 641 bisher unerkannte Ankyrin-Repeat-Proteine durch den vorgeschlagenen Ansatz. In Tabelle 4 stellen wir unsere Analyse von 11 dieser Proteine vor. Bei all diesen Proteinen stellen wir fest, dass die in PDBsum gemeldeten Bindungsstellen in der vorhergesagten Ankyrin-Repeat-Region liegen. Das DNA-Polymerase-Lambda-Protein 3HWT (Human), das für den DNA-Replikationsprozess wichtig ist, enthält beispielsweise vier Domänen. Die gemeldeten DNA-Bindungsstellen in 3HWT befinden sich in der DNA-Polymerase-Domäne (257-331) und liegen an der zweiten Helix der beiden Kopien der vorhergesagten Ankyrin-Einheiten. Das Vorhandensein von Ankyrin-Wiederholungen in den DNA-bindenden Proteinen 1SW6 und 3V30, die in UniProt annotiert sind, unterstützt unsere Vorhersage und die mögliche funktionelle Rolle von 3HWT. Diese Analyse hilft dabei, die Art der Interaktion zu verstehen, an der 3HWT beteiligt ist, und der Vergleich mit anderen Proteinen mit ähnlichen Funktionen kann zu einem besseren Verständnis der Rolle der Ankyrin-Wiederholungen führen. In ähnlicher Weise ist die Interaktion von Ankyrin-Wiederholungen mit RNA im Fall von 1WDY und 4G8K bekannt. Wir stellen fest, dass die Proteine 3Q0P, 3K4E und 3V71 Bindungsstellen in der vorhergesagten Repeat-Region mit RNA als Bindungspartner haben, was wiederum unsere Vorhersage unterstützt.

Tabelle 4 Beispielproteine mit Bindungsstellen in der vorhergesagten Ankyrin-Repeat-Region

Wir haben Ankyrin-Repeats in zwei Mannosidase-Proteinstrukturen vorhergesagt, 1FO3 (Mensch) und 1KRF (P. citrinum). Kifunensin (KIF) ist der Inhibitor von Mannosidasen und reguliert die Aktivität dieser Proteine. In PDBsum sind die KIF-Bindungsstellen für die Proteine 1FO3 und 1KRF in der Region annotiert, die von unserem Ansatz als Ankyrin-Repeat vorhergesagt wurde. Dies deutet auf neue Interaktionen dieser Ankyrin-Repeat-Proteine hin. So könnte man eine systematische Analyse anderer bisher unerkannter Anyrin-Proteine durchführen, um ihre Interaktionspartner zu identifizieren, was zu einem Verständnis ihrer funktionellen Rolle führen würde.

Analyse modellierter Ankyrin-Proteine

Die strukturellen Informationen über Proteine nehmen mit den Fortschritten bei der Auflösung von Proteinstrukturen rasant zu, sind aber immer noch nicht mit der Fülle der Sequenzinformationen vergleichbar. Von den über 1200 Proteinen, die in der UniProt-Datenbank mit Ankyrin-Repeat-Motiven angegeben sind, liegen nur für etwa 60 Ankyrin-Proteine Strukturinformationen vor. Um die Wirksamkeit unseres Ansatzes an modellierten Strukturen zu zeigen, haben wir 30 Ankyrin-Repeat-Proteine aus der UniProt-Datenbank modelliert, für die die Struktur noch nicht aufgelöst ist. Die Strukturen wurden mit Hilfe des Swiss-Model-Servers modelliert, der auf der Grundlage von Sequenzabdeckung und Sequenzidentität Vorlagenstrukturen aus der PDB identifiziert. Die Vorlagen mit hoher Abdeckung und Sequenzidentität in der Wiederholungsregion werden für die homologiebasierte Modellierung dieser 30 Proteinsequenzen ausgewählt. Der vorgeschlagene Algorithmus, AnkPred, wird auf die entsprechenden modellierten Proteine angewendet, und die Vorhersage der Wiederholungsregionen ist in Zusatzdatei 3 enthalten. In Abbildung 11(a) ist die Vorhersage des vorgeschlagenen Ansatzes für die modellierte Struktur der Integrin-verknüpften Proteinkinase (UniProt Id: Q99J82) dargestellt, die sehr gut mit der Annotation in UniProt übereinstimmt. Es ist anzumerken, dass bei etwa der Hälfte der Proteine (in Zusatzdatei 3 mit einem Sternchen gekennzeichnet) die vorhergesagte Kopienzahl erhöht war, wobei terminale Wiederholungen identifiziert wurden. Es ist bekannt, dass terminale Kopien im Allgemeinen weniger konserviert und manchmal unvollständig sind und daher von sequenzbasierten Methoden übersehen werden, aber von unserer strukturbasierten Methode identifiziert werden, wie für das Protein ANKRD (UniProt Id: Q7Z3H0) in Abbildung 11(b) gezeigt. Dies deutet auf die Leistungsfähigkeit unseres Ansatzes bei der Verbesserung der Annotation von Wiederholungsregionen für Proteinsequenzen hin, für die keine Strukturinformationen verfügbar sind.

Abbildung 11
Abbildung11

Vorhersage auf modellierten Strukturen gezeigt. (a) Integrin-verknüpfte Proteinkinase (UniProt Id: Q99J82). Die Wiederholungsgrenzen von fünf Ankyrin-Motiven, die von AnkPred vorhergesagt wurden (in verschiedenen Farben dargestellt), stimmen gut mit fünf annotierten Kopien in Uniprot überein. (b) ANKRD-Protein (UniProt Id: Q7Z3H0). In diesem Fall sind in UniProt nur 3 Ankyrin-Motive annotiert (Zwischenkopien), während AnkPred zwei zusätzliche Kopien auf beiden Seiten vorhersagt.

Analyse anderer struktureller Repeats

Um die Wirksamkeit des vorgeschlagenen Ansatzes bei anderen Protein-Repeat-Familien zu bewerten, stellen wir im Folgenden unsere Analyse von vier verschiedenen Repeat-Typen vor: Tetratricopeptid-Repeat (TPR), Armadillo-Repeat (ARM), Leucin-reiches Repeat (LRR) und Kelch-Repeat. Die dreidimensionale Struktur eines repräsentativen Proteins jedes Repeat-Typs ist in Abbildung 12(a)-(d) und die jeweiligen A levc-Profile in Abbildung 12(e)-(h) dargestellt. Ein einzigartiges A levc-Profil wird in den sich wiederholenden Regionen in jedem dieser Proteine beobachtet, die innerhalb der benachbarten sich wiederholenden Einheiten gut konserviert sind, wie durch Überlappung des A levc-Profils in den sich wiederholenden Einheiten in Abbildung 12(i)-(l) dargestellt. Die unterschiedlichen A levc-Profile für die verschiedenen Wiederholungseinheiten entsprechen der spezifischen Ausrichtung der sekundären Strukturelemente in jedem Wiederholungstyp. Es ist festzustellen, dass das A levc-Profil für das TPR-Repeat im Vergleich zu dem des Ankyrin-Repeats (Abbildung 3(a)) sehr unterschiedlich ist, obwohl es von ähnlicher Länge ist und eine sehr ähnliche Sekundärstrukturarchitektur mit Helix-Turn-Helix-Kern aufweist. Dies zeigt deutlich die Leistungsfähigkeit der Eigen-Spektren-Analyse des Protein-Kontaktnetzwerks bei der Identifizierung von strukturellen Wiederholungen und ihre Empfindlichkeit bei der Unterscheidung ähnlicher struktureller Wiederholungen.

Abbildung 12
Abbildung12

Proteine anderer struktureller Wiederholungsfamilien. (a)-(d) 3-D-Struktur: (a) 2C2L: Kette A (TPR) (b) 3SL9: Kette A (ARM) (c) 1D0B: Kette A (LRR) (d) 1U6D: Kette X (KELCH). In (e), (f), (g) und (h) ist das A levc-Diagramm für die jeweiligen Proteine dargestellt. In (i), (j), (k) und (l) sind die A levc-Profile der Wiederholungsregionen in den jeweiligen Proteinen überlagert.