Identyfikacja tandemowych powtórzeń Ankiryny w strukturach białek

Przedstawiamy tutaj analizę zaproponowanego algorytmu na reprezentatywnym zestawie piętnastu białek z powtórzeniami ANK (Tabela 2). Najpierw szczegółowo omawiamy naszą analizę na zaprojektowanym białku ANK, 1N0R (łańcuch A), zawierającym cztery dokładne powtórzenia ANK w tandemie, jak pokazano na Rysunku 2(a) i jego sieć kontaktów białkowych przedstawioną na Rysunku 2(b). Główne wektory własne macierzy przylegania, A levc , dla zaprojektowanego białka ANK 1N0R są wykreślone na rysunku 3(a). Wyraźny powtarzający się wzór w profilu A levc jest obserwowany w czterech regionach powtórzeń (przerywane i ciągłe linie pionowe odpowiadają granicom początku i końca powtórzenia w oparciu o dane wyjściowe RADAR). Jest to wyraźnie widoczne przez nałożenie na siebie profilu A levc dla poszczególnych kopii powtórzenia na Rysunku 3(b) po znormalizowaniu z największym pikiem w każdej kopii powtórzenia. Prognoza jest dobra zarówno pod względem liczby kopii, jak i granic początku i końca regionów powtórzenia w porównaniu z narzędziem RADAR opartym na sekwencji (patrz Tabela 2), podczas gdy dwie kopie powtórzenia są pominięte przez program ConSole oparty na strukturze, nawet w przypadku zaprojektowanego białka ANK. Wielokrotne dopasowania sekwencji (MSA) regionów powtórzeń przewidywanych przez nasze podejście, RADAR i ConSole są pokazane na Rysunku 4(a), (b) i (c) odpowiednio przy użyciu CLUSTALW . MSA poszczególnych kopii w obu przypadkach jest bardzo dobrze zachowany i w dobrej zgodności.

Tabela 2 Przewidywanie regionów powtórzeń dla reprezentatywnego zestawu 15 białek w porównaniu z anotacją UniProt, wyjściem RADAR i ConSole
Rysunek 4
figure4

MSA przewidywanych regionów powtórzeń dla 1N0R. (a) przewidywane przez proponowane podejście, (b) wyjście RADAR, i (c) wyjście ConSole.

Następnie rozważymy przykład naturalnego białka, czynnika stymulującego osteoklasty 1, 3EHQ (łańcuch A), który indukuje resorpcję kości. Zgodnie z adnotacją w UniProt, zawiera on trzy powtórzenia Ankiryny od 72-168, jak pokazano w strukturze 3-D różnymi kolorami na Rysunku 5(a). Na Rysunku 5(b) pokazano wykres profilu A levc dla 3EHQ, wyraźnie wskazujący na obecność trzech jednostek powtarzających w regionie 72-177. Istnieje dobra zgodność pomiędzy przewidywanymi granicami początku i końca trzech jednostek powtarzających z anotacją UniProt (patrz Tabela 2). Jednak przewidywania regionów powtórzeń przez RADAR i ConSole nie są zgodne z anotacją UniProt. Prognoza RADAR różni się zarówno pod względem liczby kopii, jak i granic powtórzeń, przy czym pierwsze powtórzenie jest całkowicie pominięte. ConSole przewiduje trzy kopie powtórzeń ANK, ale pozycje granic początkowych końców jednostek powtarzających są przesunięte o około 10 reszt dla każdej kopii powtórzenia. Na Rysunku 6 pokazano MSA regionów powtórzeń (a) przewidywanych przez nasze podejście, (b) anotowanych w bazie UniProt i (c) przewidywanych przez ConSole. MSA przewidywanego regionu powtórzeń na Rysunku 6(a) jest w bardzo dobrej zgodności z regionami powtórzeń opisanymi w bazie UniProt (Rysunek 6(b)), w porównaniu do regionu przewidywanego przez ConSole na Rysunku 6(c). Wyniki dla reprezentatywnego zestawu 15 białek powtórzonych ANK są podsumowane w Tabeli 2 wraz z adnotacją w bazie UniProt oraz przewidywaniami metodami opartymi na sekwencji i strukturze, odpowiednio RADAR i ConSole. W większości przypadków obserwujemy dobrą zgodność w wykrywaniu powtórzeń Ankiryny zarówno w liczbie kopii, jak i granicach powtórzeń z adnotacją UniProt, a także z ConSole.

Rycina 5
figure5

Naturalne białko powtórzeń Ankiryny 3EHQ (łańcuch A). (a) Struktura 3d, oraz (b) składowe wektora własnego odpowiadające największej wartości własnej macierzy adjacency (A levc ).

Ryc. 6
figure6

MSA regionów powtórzonych w białku 3EHQ. (a) przewidywane przez proponowane podejście, (b) anotowane w bazie UniProt, oraz (c) przewidywane przez wyjście ConSole.

W Tabeli 2 białka zostały wybrane w celu przedstawienia przykładów zarówno dobrej zgodności, jak i niezgodności. Poniżej omówiono kilka przykładów, w których nasza predykcja różni się od anotacji w bazie UniProt. Na przykład, w przypadku białka 3EU9 (łańcuch A), pięć kopii motywów ANK jest anotowanych w UniProt od 89-253, podczas gdy nasze podejście przewiduje siedem kopii, dodatkową kopię po obu stronach od 57-88 i 258-281. Ze struktury 3-D 3EU9 na Rysunku 7(a) i profilu A levc pokazanego na Rysunku 7(b), jasne jest, że przewidywane powtórzenia końcowe (pokazane na czerwono) wykazują profil A levc podobny do pięciu powtórzeń pośrednich (pokazanych na szaro). Strukturalne wyrównanie tych przewidywanych powtórzeń końcowych z reprezentatywnym strukturalnym motywem ANK (z zaprojektowanego białka 1N0R) przy użyciu modułu Cealign w Pymolu pokazane jest na Rysunku 7(c) i (d); Root Mean Square Deviation (RMSD) dla każdej kopii końcowej jest mniejsze niż 1 Å wskazując na wysokie strukturalne podobieństwo z motywem ANK. Jednakże na poziomie sekwencji te końcowe powtórzenia nie są dobrze konserwowane, jak wynika z MSA przewidywanych regionów na Rysunku 8(a), w porównaniu z regionami powtórzeń opisanymi w bazie UniProt na Rysunku 8(b). Z jedną dodatkową kopią końcową przewidywaną przez ConSole, w sumie przewidywanych jest sześć kopii, ale granice kopii ConSole są przesunięte o około 10 reszt w porównaniu do anotacji UniProt. Ogólnie rzecz biorąc, powtórzenia terminalne są mniej konserwowane na poziomie sekwencji lub niekompletne, a ich wykrycie nie jest łatwe. W 52 innych białkach (patrz plik dodatkowy 1), dodatkowe kopie powtórzeń ANK zostały przewidziane przez proponowane podejście, poprawiając w ten sposób anotację kompletnego regionu powtórzeń w tych 53 białkach. W 16 z tych przypadków, jedna dodatkowa kopia jest również przewidywana przez ConSole. Dla białka 3SO8 (łańcuch A, UniProt Id: Q9H9E1), początkowo trzy powtórzenia ANK były anotowane we wcześniejszym wydaniu UniProt (wydanie 2012_08) od reszty 181-279, podczas gdy pięć powtórzeń jest przewidywanych przez nasze podejście od reszty 149-310, tj. jedno dodatkowe powtórzenie na każdym końcu. W ostatnim wydaniu bazy UniProt (release 2014_05), białko jest obecnie anotowane jako posiadające pięć kopii motywu ANK od 148-313, co jest zgodne z przewidywaniami proponowanego podejścia (Tabela 2).

Rysunek 7
figure7

Naturalne białko z powtórzeniami ankirynowymi 3EU9 (łańcuch A). (a) Struktura 3-D (b) Wykres głównego wektora własnego macierzy przyległości. (c) – (d) Strukturalne dopasowanie dodatkowej kopii powtórzenia Ankiryny przewidywanej w 3EU9 (pokazanej niebieskim kolorem) do kopii powtórzenia zaprojektowanego białka 1N0R (pokazanej czerwonym kolorem).

Rysunek 8
figure8

MSA regionów powtórzenia w białku 3EU9. (a) przewidywane przez proponowane podejście i (b) anotowane w bazie UniProt.

W białku 1D9S (łańcuch A), cztery powtórzenia ANK są odnotowane od 5-130 w bazie UniProt, ale tylko dwa są zidentyfikowane przez nasze podejście od 71-129. Analizując architekturę struktury drugorzędowej z PDBsum dla 1D9S na Rysunku 9, zauważamy, że region 38-66 zawiera tylko jedną helisę przypisaną zarówno przez STRIDE jak i DSSP , podczas gdy motyw ANK składa się z dwóch antyrównoległych helis, co sugeruje, że region ten mógł zostać błędnie zaanotowany w bazie UniProt. Region 5-34 jest przewidywany jako motyw ANK we wstępnych badaniach naszego podejścia, ale został odrzucony w etapie post-processingu podczas raportowania sąsiadujących regionów powtórzeń tandemowych. Podobną sytuację napotkano w przypadku 18 innych białek (patrz plik dodatkowy 1), gdzie pierwsze powtórzenie w anotacji UniProt jest wstępnie przewidywane przez nasz algorytm, ale później odrzucane, ponieważ kolejne powtórzenie nie jest identyfikowane w obrębie progu 17 reszt (połowa długości motywu ANK). Dla wszystkich tych białek, z wyjątkiem 4HBD, jedna lub więcej kopii jest pominięta przez ConSole w porównaniu z anotacją UniProt (patrz plik dodatkowy 1). Jest możliwe, że we wszystkich tych białkach brakujący motyw ANK jest zmutowany poza rozpoznaniem nawet na poziomie struktury lub występuje delecja helisy. Widzimy więc, że widmo własne macierzy adjacencji bardzo dobrze oddaje powtarzalny wzór fałdowy motywu ANK, a dzięki uwzględnieniu informacji o strukturze drugorzędowej i zmienności ich długości, możliwe jest dokładne przewidywanie granic powtórzeń (Tabela 2). Jednakże, jeśli istnieje błąd w przypisaniu struktury drugorzędowej, predykcja proponowanego algorytmu jest zaburzona.

Ryc. 9
figure9

Przedstawienie struktury drugorzędowej białka powtórzonego Ankyrin 1D9S (łańcuch A) z PDBsum.

Wydajność proponowanego algorytmu

Po pierwsze, omawiamy dokładność predykcji motywów ANK z adnotacją UniProt na znanym zbiorze 370 białek składającym się z pozytywnego zbioru testowego 125 białek z powtórzeniami ankirynowymi i negatywnego zbioru testowego 245 białek nie-solenoidowych. Wyniki zestawiono w tabeli 3 (a), gdzie czułość i specyficzność algorytmu obliczono w następujący sposób:

Czułość= T P T P + F N ≃0.976
Specificity= T N T N + F P ≃1
Tabela 3 Wydajność proponowanego podejścia

gdzie TP odpowiada liczbie poprawnie przewidywanych znanych białek z powtórzeniami Ankiryny, FN – liczba znanych białek z powtórzeniami ankyrinowymi pominiętych przez nasze podejście, FP – liczba białek przewidywanych przez nasze podejście jako zawierające tandemowe powtórzenia ANK, ale nie przypisane do białek ankyrinowych, oraz TN – liczba białek prawidłowo przewidywanych przez nasze podejście jako białka nieankyrinowe. Ponieważ wystąpiły tylko trzy fałszywe negatywy (FN), 1SW6, 2ETB i 3ZRH, i nie było fałszywych pozytywów (FP), czułość i specyficzność algorytmu jest bardzo wysoka (≃1).

Następnie, dla przewidywanych białek ankyrinowych, analizujemy liczbę motywów ANK poprawnie przewidywanych w zbiorze danych 125 znanych białek z powtórzeniami ankyrinowymi i porównujemy z niedawnym podejściem opartym na strukturze, ConSole, i podejściem opartym na sekwencji RADAR. W bazie danych UniProt w tych 125 białkach zaanotowano w sumie 584 motywy ANK, podczas gdy proponowane podejście przewiduje 582 motywy ANK, ConSole – 528, a RADAR – 458. Szczegóły analizy są podsumowane w Tabeli 3(b) pod względem czułości i precyzji, zdefiniowanych jako:

Czułość= T P T P + F N
Precyzja= T P T P + F P

gdzie, TP jest liczbą motywów ANK poprawnie przewidywanych przez metodę w znanym zbiorze danych 125 białek, FP jest liczbą motywów ANK przewidywanych przez metodę, ale nie zanotowanych w bazie UniProt, a FN jest liczbą zanotowanych motywów ANK pominiętych przez metodę. Można zauważyć, że zarówno czułość, jak i precyzja proponowanego podejścia, AnkPred, wynosi ~ 0.88, co jest dość dobrym wynikiem w porównaniu z ConSole (0.72 i 0.79) oraz RADAR (0.68 i 0.86). Wiadomo, że kopie terminalne charakteryzują się niskim stopniem zachowania sekwencji, co skutkuje niższą czułością metody RADAR. Uznajemy, że czułość naszego algorytmu, z jego zależnością od przypisania struktury drugorzędowej, może być dalej poprawiana.

Aby przeanalizować dokładność granic powtórzeń przewidywanych przez proponowane podejście, skonstruowaliśmy wielokrotne wyrównanie sekwencji (MSA) 582 przewidywanych motywów ANK w zbiorze danych 125 znanych białek ankyrinowych przy użyciu CLUSTALW .Konsensus przewidywanych motywów ANK został następnie zbudowany przy użyciu SeaView przy 50% identyczności i jest podany poniżej:

XGXTPLHXAXXXGXXXXXXXLLXXXAXX

Jest to w bardzo dobrej zgodności z konsensusem motywu ANK zaproponowanym przez Kohla i wsp. oraz Mosavi i wsp. Konserwatywny tetrapeptydowy motyw TPLH w pozycjach 4-7, Glicyna w pozycjach 2 i 13 oraz Leucyna w pozycjach 21-22 potwierdza dokładność przewidywania granic powtórzeń przez proponowane podejście.

Analiza na banku danych białek

Przeprowadziliśmy proponowany algorytm na kompletnym PDB. W sumie pobrano 98 341 struktur reprezentowanych jako białka lub białka w kompleksie z kwasami nukleinowymi. Po usunięciu krótkich fragmentów < 50 reszt (ponieważ jest mało prawdopodobne, aby zawierały one dwie ciągłe kopie motywów ANK) oraz białek, którym nie przypisano struktur drugorzędowych, do analizy wykorzystano łącznie 94 975 struktur. Zaproponowany algorytm zidentyfikował 819 struktur białkowych zawierających co najmniej dwa tandemowo powtórzone motywy ANK. Spośród nich 181 jest anotowanych jako znane białka ANK w UniProt, Pfam, PROSITE i PDB, z czego ~ 50 struktur zawiera zaprojektowane białka z powtórzeniami Ankiryny (DARPINS). Liczba poprawnie przewidywanych białek z powtórzeniami ankirynowymi wynosi 178 i tylko 3 zostały pominięte przez nasze podejście, 1SW6 (łańcuch A), 2ETB (łańcuch A) i 3ZRH (łańcuch A). W dwóch pierwszych przypadkach proponowane podejście nie wykryło motywów ANK, ponieważ regiony powtórzenia opatrzone adnotacją UniProt zawierają 3-4 heliksy, podczas gdy zgodnie z regułami zdefiniowanymi w algorytmie motyw ANK składa się z dwóch antyrównoległych heliksów. W 3ZRH dwie adnotowane kopie powtórzeń ANK nie przylegają do siebie, lecz są rozdzielone 23 resztami, a więc nie zostały uwzględnione przez nasze podejście. Tak więc, pozostałe 641 struktur zostało zaproponowanych jako wcześniej nierozpoznane powtórzenia Ankyrin i są wymienione w pliku dodatkowym 2. Zauważono, że 27 z tych białek jest oznaczonych jako zawierające inne typy powtórzeń, tj. 9 TPR, 7 Pumilio repeat, 2 HEAT, 2 Annexin repeat, 2 Tumor necrosis factor receptor (TNFR-Cys), 2 Mitochondrial termination factor repeat (MTERF), 2 Clathrin heavy chain repeat (CHCR) i 1 HAT (plik dodatkowy 2). Strukturalnie, motywy TPR, HEAT i HAT są bardzo podobne do motywu powtórzenia ANK, każdy z nich składa się z dwóch antyrównoległych heliksów tworzących rdzeń Helix-Turn-Helix i mają podobną długość, ~ 30-34 reszty. Główna różnica polega na tym, że motyw ANK posiada długą pętlę zakończoną skrętem β, która nie występuje w motywach TPR, HEAT i HAT. Nawet przy tak dużym podobieństwie pomiędzy tymi motywami strukturalnymi, nasze podejście odnotowało tylko 13 fałszywych pozytywów (9 TPR, 3 HEAT i 1 HAT). Aby sprawdzić wiarygodność naszych przewidywań w tych białkach, przeprowadziliśmy superpozycję struktura-struktura przewidywanego regionu powtórzenia ANK z motywem DARPin z 1N0R przy użyciu modułu Cealign w programie Pymol . Na przykład, w białku 1OUV (łańcuch A), siedem kopii TPR jest odnotowanych w bazie danych UniProt z zakresu 29-278 (plik dodatkowy 2), zawierających 14 heliksów H 1-H 14, jak pokazano w reprezentacji struktury drugorzędowej z PDBsum na Rysunku 10(a). Superpozycja jest dobra z odchyleniem średniokwadratowym (RMSD) dla wszystkich trzech przewidywanych jednostek powtórzeń ANK < 3 Å, jak pokazano na Rysunku 10(b). Profil A levc w przewidywanym regionie Ankyrin od 185 do 292 na Rysunku 10(c) jest również bardzo podobny do tego dla typowego motywu ANK na Rysunku 1(a). W tym przypadku, przewidywane motywy powtórzenia ANK znajdują się w regionie opisanym TPR, składającym się z jednej helisy z każdego sąsiadującego powtórzenia TPR i mogą być przedstawione jako H 2 i T i H 1 i + 1, gdzie H 2 i jest drugą helisą i-tego motywu TPR, a H 1 i + 1 jest pierwszą helisą (i + 1)-tego motywu TPR. Wyrównanie strukturalne 7 anotowanych regionów TPR zostało wykonane z reprezentatywnym motywem TPR z zaprojektowanego białka 1NA0 i RMSD dla każdej jednostki powtórzenia < 2 Å (wyniki nie pokazane) sugerując, że anotacja UniProt jest również poprawna. Jednakże zaobserwowano, że skręt β pomiędzy dwoma helikaliami w obrębie motywu TPR jest dłuższy niż w typowym zaprojektowanym motywie TPR i przypomina końcową pętlę motywu ANK. Sugeruje to możliwość istnienia architektury wielopowtórzeniowej w białkach złożonych. Dla 21 innych białek powtórzonych zaobserwowano podobną architekturę wielopowtórzeniową. W przypadku białka powtórzonego HEAT 3LWW (łańcuch A), anotacja w UniProt to sześć ciągłych kopii od 124-441 oraz dwie odległe kopie od 602-641 i 687-726. Przewidywane powtórzenie ANK leży w regionie non-HEAT od 520-621 z bardzo małym nakładaniem się 20 reszt z powtórzeniem HEAT. W tym przypadku dwa różne powtórzenia są obecne w różnych regionach białka i w sumie zaobserwowano 10 białek zawierających dwa różne typy powtórzeń nienakładających się na siebie (oznaczone '*’ w pliku dodatkowym 2). Dla tych białek, które wykazują wielopowtórzeniową architekturę, interesujące byłoby przeanalizowanie miejsc interakcji, co pomogłoby w potwierdzeniu wielu adnotacji/funkcji w tych białkach o złożonej architekturze. Tak więc, zaproponowane tutaj podejście oparte na strukturze jest obiecujące w wykrywaniu tandemowych powtórzeń strukturalnych w białkach i jest wystarczająco silne, aby odróżnić bardzo podobne powtórzenia strukturalne, viz. Ankyrin i TPR/HEAT/HAT.

Ryc. 10
figure10

Predicted Ankyrin repeat protein 1OUV (chain A). (a) Przedstawienie struktury drugorzędowej z PDBsum (b) Wyrównanie strukturalne przewidywanej kopii powtórzenia ANK (pokazane niebieskim kolorem) z kopią powtórzenia zaprojektowanego białka ANK 1N0R (pokazane pomarańczowym kolorem) (c) Wykres levc z liniami przerywanymi i ciągłymi pokazującymi początek i koniec przewidywanych granic ANK.

Analiza funkcjonalna wcześniej nierozpoznanych białek ankyrinowych

Zidentyfikowaliśmy 641 wcześniej nierozpoznanych białek powtórzeń ankyrinowych za pomocą proponowanego podejścia. W Tabeli 4, przedstawiamy naszą analizę 11 z tych białek. We wszystkich tych białkach zaobserwowaliśmy, że miejsca wiążące podane w PDBsum leżą w przewidywanym regionie powtórzenia ankirynowego. Na przykład, białko polimerazy DNA lambda 3HWT (Human), które jest ważne dla procesu replikacji DNA, zawiera cztery domeny. Zgłoszone miejsca wi±zania DNA w 3HWT s± obecne w domenie polimerazy DNA (257-331) i leż± na drugiej helisie obu kopii przewidywanych jednostek Ankiryny. Obecność powtórzeń Ankiryny w białkach wiążących DNA, 1SW6 i 3V30, anotowanych w UniProt, dostarcza wsparcia dla naszych przewidywań i możliwej funkcjonalnej roli 3HWT. Analiza ta pomaga w zrozumieniu rodzaju interakcji, w jakie zaangażowany jest 3HWT, a porównanie z innymi białkami o podobnych funkcjach może prowadzić do lepszego zrozumienia roli powtórzeń ankyrinowych. Podobnie, oddziaływanie powtórzeń ankyrinowych z RNA jest znane w przypadku 1WDY i 4G8K. Obserwujemy, że białka 3Q0P, 3K4E i 3V71 mają miejsca wiążące zgłoszone w przewidywanym regionie powtórzeń z RNA jako partnerem wiążącym, ponownie dostarczając wsparcia dla naszego przewidywania.

Tabela 4 Przykładowe białka z miejscami wiążącymi w przewidywanym regionie powtórzeń Ankiryny

Przewidzieliśmy powtórzenia Ankiryny w dwóch strukturach białkowych mannozydazy, 1FO3 (człowiek) i 1KRF (P. citrinum). Kifunenzyna (KIF) jest inhibitorem mannozydaz i reguluje aktywność tych białek. W PDBsum miejsca wi±zania KIF z białkami 1FO3 i 1KRF s± anotowane w regionie przewidywanym przez nasz± metodę jako powtórzenie Ankiryny. Sugeruje to nowe oddziaływania tych białek z powtórzeniem Ankiryny. Można więc przeprowadzić systematyczną analizę innych, wcześniej nierozpoznanych białek ankirynowych w celu zidentyfikowania ich partnerów interakcyjnych, co doprowadzi do zrozumienia ich roli funkcjonalnej.

Analiza modelowanych białek ankirynowych

Informacja strukturalna o białkach wzrasta w szybkim tempie wraz z postępem w rozwiązywaniu struktur białkowych, ale wciąż nie jest porównywalna z bogactwem informacji sekwencyjnej. Warto zauważyć, że spośród ponad 1200 białek anotowanych jako zawierające powtarzające się motywy ankyrinowe w bazie UniProt, tylko około 60 białek ankyrinowych posiada dostępną informację strukturalną. Aby pokazać skuteczność naszego podejścia na modelowanych strukturach, zamodelowaliśmy 30 białek z powtórzeniami Ankiryny z bazy UniProt, dla których struktura nie została jeszcze rozwiązana. Struktury zostały zamodelowane przy użyciu serwera Swiss-Model, który identyfikuje szablony struktur z PDB na podstawie pokrycia sekwencji i identyczności sekwencji. Szablony o wysokim pokryciu i identyczności sekwencji w regionie powtórzenia zostały wybrane do modelowania opartego na homologii tych 30 sekwencji białkowych. Zaproponowany algorytm, AnkPred, jest wykonywany na odpowiednich modelowanych białkach, a przewidywanie regionów powtórzeń jest podane w pliku dodatkowym 3. Na Rysunku 11(a) przedstawiono predykcję proponowanego podejścia na modelowanej strukturze kinazy białkowej związanej z integryną (UniProt Id: Q99J82), która jest w bardzo dobrej zgodności z anotacją w UniProt. Można zauważyć, że w około połowie białek (oznaczonych gwiazdką w pliku dodatkowym 3) przewidywana liczba kopii uległa zwiększeniu, przy czym zidentyfikowano powtórzenia terminalne. Wiadomo, że końcowe kopie są generalnie mniej konserwowane i czasami niekompletne, a zatem pomijane przez metody oparte na sekwencji, ale są identyfikowane przez naszą metodę opartą na strukturze, jak pokazano dla białka ANKRD (UniProt Id: Q7Z3H0) na Rysunku 11(b). Sugeruje to moc naszego podejścia w poprawie anotacji regionów powtórzeń dla sekwencji białkowych, dla których nie jest dostępna informacja o strukturze.

Rysunek 11
figure11

Predykcja na przedstawionych modelowanych strukturach. (a) Kinaza białkowa związana z integryną (UniProt Id: Q99J82). Granice powtórzeń pięciu motywów ankyrinowych przewidywanych przez AnkPred (pokazane różnymi kolorami) są w dobrej zgodności z pięcioma adnotowanymi egzemplarzami w Uniprot. (b) Białko ANKRD (UniProt Id: Q7Z3H0). W tym przypadku tylko 3 motywy Ankyrin są zaanotowane w UniProt (kopie pośrednie), podczas gdy AnkPred przewiduje dwie dodatkowe kopie po obu stronach.

Analiza innych powtórzeń strukturalnych

Aby ocenić skuteczność proponowanego podejścia na innych rodzinach powtórzeń białkowych, przedstawiamy naszą analizę na czterech różnych typach powtórzeń: Tetratricopeptide repeat (TPR), Armadillo repeat (ARM), Leucine-rich repeat (LRR) oraz Kelch repeat. Trójwymiarowa struktura reprezentatywnego białka z każdego typu powtórzenia przedstawiona jest na Rysunku 12(a)-(d), a ich odpowiednie profile A levc na Rysunku 12(e)-(h). W regionach powtórzeń każdego z tych białek obserwuje się unikalny profil A levc, który jest dobrze konserwowany w obrębie przyległych jednostek powtarzających się, jak pokazano przez nałożenie na siebie profilu A levc w jednostkach powtarzających się na rysunku 12(i)-(l). Odmienne profile A levc dla różnych powtórzeń odpowiadają specyficznej orientacji drugorzędowych elementów strukturalnych w każdym typie powtórzenia. Można zauważyć, że profil A levc dla powtórzenia TPR jest bardzo wyraźny w porównaniu z profilem dla powtórzenia Ankyrin (rysunek 3(a)), chociaż jest podobnej długości i ma bardzo podobną architekturę struktury drugorzędowej z rdzeniem helisa-skręt-helisa. To wyraźnie pokazuje moc analizy widm własnych sieci kontaktów białkowych w identyfikacji powtórzeń strukturalnych i jej czułość w rozróżnianiu podobnych powtórzeń strukturalnych.

Rysunek 12
figure12

Białka innych rodzin powtórzeń strukturalnych. (a)-(d) Struktura 3-D: (a) 2C2L: łańcuch A (TPR) (b) 3SL9: łańcuch A (ARM) (c) 1D0B: łańcuch A (LRR) (d) 1U6D: łańcuch X (KELCH). W (e), (f), (g) i (h) pokazano wykres A levc dla odpowiednich białek. W (i), (j), (k) i (l) profil A levc regionów powtórzonych w odpowiednich białkach nałożony na siebie.

.