Identificarea repetărilor Ankyrin în tandem în structurile proteice
Aici prezentăm analiza algoritmului propus pe un set reprezentativ de cincisprezece proteine cu repetări ANK (tabelul 2). Discutăm mai întâi în detaliu analiza noastră pe o proteină ANK proiectată, 1N0R (lanțul A), care cuprinde patru repetări ANK exacte în tandem, așa cum se arată în figura 2(a) și rețeaua sa de contacte proteice prezentată în figura 2(b). Principalii vectori proprii ai matricei de adiacență, A levc , pentru proteina ANK proiectată 1N0R sunt reprezentați în figura 3(a). Se observă un model repetitiv clar în profilul A levc în cele patru regiuni de repetiție (liniile verticale punctate și solide corespund limitelor de început și sfârșit de repetiție bazate pe rezultatul RADAR). Acest lucru se observă în mod clar prin suprapunerea profilului A levc pentru copiile repetate individuale în figura 3(b) după normalizarea cu cel mai mare vârf din fiecare copie repetată. Predicția este bună atât în ceea ce privește numărul de copii, cât și limitele de început și sfârșit ale regiunilor de repetiție, în comparație cu instrumentul RADAR bazat pe secvență (a se vedea tabelul 2), în timp ce două copii de repetiție sunt ratate de programul ConSole bazat pe structură, chiar și în cazul proteinei ANK proiectate. Alinierile de secvențe multiple (MSA) ale regiunilor de repetiție prezise de abordarea noastră, RADAR și ConSole sunt prezentate în figura 4(a), (b) și, respectiv, (c) utilizând CLUSTALW . MSA ale copiilor individuale în ambele cazuri sunt foarte bine conservate și în bună concordanță.
Considerăm în continuare un exemplu de proteină naturală, factorul 1 de stimulare a osteoclastiei, 3EHQ (lanțul A), care induce resorbția osoasă. În conformitate cu adnotarea din UniProt, aceasta conține trei repetări Ankyrin de la 72-168, așa cum se arată în structura 3-D prin culori diferite în figura 5(a). În figura 5(b) este prezentat graficul profilului A levc pentru 3EHQ, indicând în mod clar prezența a trei unități repetitive în regiunea 72-177. Există o bună concordanță între limitele de început-extrem ale celor trei unități de repetiție prezise și adnotarea UniProt (a se vedea tabelul 2). Cu toate acestea, predicția regiunilor de repetiție de către RADAR și ConSole nu sunt în concordanță cu adnotarea UniProt. Predicția RADAR diferă atât în ceea ce privește numărul de copii, cât și în ceea ce privește limitele repetiției, prima repetiție fiind complet omisă. ConSole prezice trei copii ale repetițiilor ANK, dar pozițiile limitelor de început și sfârșit ale unităților de repetiție sunt diferite cu aproximativ 10 reziduuri pentru fiecare copie a repetiției. În figura 6 este prezentată MSA a regiunilor de repetiție (a) prezise de abordarea noastră, (b) adnotate în baza de date UniProt și (c) prezise de ConSole. MSA a regiunii repetate prezise în figura 6(a) este în foarte bună concordanță cu cea a regiunilor repetate adnotate de UniProt [figura 6(b)], în comparație cu cea a regiunii prezise de ConSole din figura 6(c). Rezultatele pentru un set reprezentativ de 15 proteine cu repetări ANK sunt rezumate în tabelul 2, împreună cu adnotarea furnizată în baza de date UniProt și predicțiile prin metode bazate pe secvență și structură, RADAR și, respectiv, ConSole. În general, observăm o bună concordanță în detectarea repetițiilor Ankyrin atât în ceea ce privește numărul de copii, cât și limitele repetițiilor cu adnotarea UniProt și, de asemenea, cu ConSole.
În tabelul 2, proteinele au fost selectate pentru a prezenta exemple atât de bună concordanță, cât și de dezacord. Mai jos vom discuta câteva exemple în care predicția noastră diferă de adnotarea din baza de date UniProt. De exemplu, în cazul proteinei 3EU9 (lanțul A), cinci copii ale motivelor ANK sunt notate în UniProt de la 89-253, în timp ce abordarea noastră prezice șapte copii, o copie în plus de fiecare parte de la 57-88 și 258-281. Din structura 3-D a 3EU9 din figura 7(a) și din profilul A levc prezentat în figura 7(b), este clar că repetițiile terminale prezise (prezentate în roșu) prezintă un profil A levc similar cu cele cinci repetiții intermediare (prezentate în gri). Alinierea structurală a acestor repetări terminale prezise cu un motiv structural ANK reprezentativ (din proteina proiectată 1N0R) utilizând modulul Cealign din Pymol este prezentată în figura 7(c) și (d); abaterea medie pătratică (RMSD) pentru fiecare copie terminală este mai mică de 1 Å, ceea ce indică o similitudine structurală ridicată cu motivul ANK. Cu toate acestea, la nivel de secvență, aceste repetări terminale nu sunt bine conservate, după cum reiese clar din MSA a regiunilor prezise din figura 8(a), în comparație cu cea a regiunilor repetate adnotate UniProt din figura 8(b). Cu o copie terminală suplimentară prezisă de ConSole, ConSole prezice un total de șase copii, dar limitele copiilor ConSole sunt deplasate cu aproximativ 10 reziduuri în comparație cu adnotarea UniProt. În general, repetițiile terminale sunt mai puțin conservate la nivel de secvență sau incomplete, iar detectarea lor nu este ușoară. În 52 alte proteine (a se vedea fișierul suplimentar 1), copii suplimentare ale repetițiilor ANK au fost prezise prin abordarea propusă, îmbunătățind astfel adnotarea regiunii complete de repetiție în aceste 53 proteine. În 16 dintre aceste cazuri, o copie suplimentară este, de asemenea, prezisă de ConSole. Pentru proteina 3SO8 (lanțul A, UniProt Id: Q9H9E1), inițial, în versiunea anterioară a UniProt (versiunea 2012_08) au fost notate trei repetări ANK de la 181-279, în timp ce abordarea noastră prezice cinci repetări de la reziduul 149-310, adică o repetare suplimentară la fiecare capăt. În versiunea recentă a bazei de date UniProt (versiunea 2014_05), proteina este acum adnotată ca având cinci copii ale motivului ANK de la 148-313, ceea ce este în concordanță cu predicția abordării propuse (tabelul 2).
În proteina 1D9S (lanțul A), patru repetări ANK sunt raportate de la 5-130 în baza de date UniProt, dar numai două sunt identificate prin abordarea noastră de la 71-129. Analizând arhitectura structurii secundare din PDBsum pentru 1D9S în figura 9, observăm că regiunea 38-66 conține doar o singură elice atribuită atât de STRIDE, cât și de DSSP , în timp ce un motiv ANK cuprinde două elice antiparalele, ceea ce sugerează că este posibil ca această regiune să fi fost adnotată greșit în baza de date UniProt. Regiunea 5-34 este prezisă ca motiv ANK în screeningul preliminar al abordării noastre, dar este eliminată în etapa de postprocesare, în timp ce se raportează regiunile cu repetiții în tandem contigue. O situație similară a fost întâlnită la alte 18 proteine (a se vedea fișierul suplimentar 1) în care prima repetiție din adnotarea UniProt este inițial prezisă de algoritmul nostru, dar ulterior este eliminată deoarece următoarea repetiție nu este identificată în cadrul unui prag de 17 reziduuri (jumătate din lungimea unui motiv ANK). Pentru toate aceste proteine, cu excepția 4HBD, una sau mai multe copii sunt ratate de ConSole în comparație cu adnotarea UniProt (a se vedea fișierul suplimentar 1). Este posibil ca la toate aceste proteine motivul ANK lipsă să fie mutat dincolo de recunoaștere chiar și la nivel de structură sau să existe o ștergere de helix. Astfel, observăm că spectrele proprii ale matricei de adiacență captează foarte bine modelul de pliere repetitivă a motivului ANK și, prin încorporarea informațiilor privind structura secundară și variația lungimilor acestora, este posibilă o predicție precisă a limitelor de repetiție (tabelul 2). Cu toate acestea, în cazul în care există o eroare în atribuirea structurii secundare, predicția algoritmului propus este afectată.
Performanța algoritmului propus
În primul rând, discutăm acuratețea de predicție a motivelor ANK cu adnotarea UniProt pe un set cunoscut de 370 de proteine care cuprinde un set de testare pozitiv de 125 de proteine cu repetiție Ankyrin și un set de testare negativ de 245 de proteine non-solenoide. Rezultatele sunt rezumate în tabelul 3 (a), unde sensibilitatea și specificitatea algoritmului sunt calculate după cum urmează:
unde TP corespunde numărului de proteine cunoscute cu repetiție de anchirină corect prezise, FN – numărul de proteine cunoscute cu repetări Ankyrin cunoscute ratate de abordarea noastră, FP – numărul de proteine prezise de abordarea noastră ca conținând repetări ANK în tandem, dar care nu au fost notate ca proteine Ankyrin, și TN – numărul de proteine prezise corect de abordarea noastră ca proteine non-Ankyrin. Deoarece au existat doar trei false negative (FN), 1SW6, 2ETB și 3ZRH, și niciun fals pozitiv (FP), sensibilitatea și specificitatea algoritmului este foarte ridicată (≃1).
În continuare, pentru proteinele Ankyrin prezise, analizăm numărul de motive ANK corect prezise în setul de date de 125 de proteine cu repetări Ankyrin cunoscute și le comparăm cu o abordare recentă bazată pe structură, ConSole, și cu o abordare bazată pe secvență, RADAR. În baza de date UniProt, un total de 584 de motive ANK sunt adnotate în aceste 125 de proteine, în timp ce 582 de motive ANK sunt prezise de abordarea propusă, 528 de ConSole și 458 de RADAR. Detaliile analizei sunt rezumate în tabelul 3(b) în ceea ce privește sensibilitatea și precizia, definite după cum urmează:
unde, TP este numărul de motive ANK prezise corect de metodă în setul de date cunoscut de 125 de proteine, FP este numărul de motive ANK prezise de metodă, dar care nu sunt adnotate în baza de date UniProt, iar FN este numărul de motive ANK adnotate care nu au fost observate de metodă. Se poate observa că atât sensibilitatea, cât și precizia abordării propuse, AnkPred, este de ~ 0,88, rezonabil de bună în comparație cu cea a ConSole (0,72 și 0,79) și, respectiv, RADAR (0,68 și 0,86). Se știe că copiile terminale au o conservare scăzută a secvenței, ceea ce duce la o sensibilitate mai scăzută a metodei RADAR. Recunoaștem că sensibilitatea algoritmului nostru, cu dependența sa de atribuirea structurii secundare, ar putea fi îmbunătățită în continuare.
Pentru a analiza acuratețea limitelor de repetiție prezise de abordarea propusă, am construit alinierea secvențială multiplă (MSA) a celor 582 de motive ANK prezise în setul de date de 125 de proteine Ankyrin cunoscute folosind CLUSTALW .Consensul motivelor ANK prezise a fost apoi construit folosind SeaView la 50% identitate și este prezentat mai jos:
Acest lucru este în foarte bună concordanță cu motivul ANK consensual propus de Kohl et al. și Mosavi et al. . Motivul tetrapeptidic conservat TPLH la pozițiile 4-7, Glicina la pozițiile 2 și 13 și Leucina la pozițiile 21-22 confirmă acuratețea predicției limitelor de repetiție prin abordarea propusă.
Analiză pe banca de date a proteinelor
Am efectuat algoritmul propus pe întreaga PDB. A fost descărcat un număr total de 98.341 de structuri reprezentate ca proteine sau proteine în complex cu acizi nucleici. La eliminarea fragmentelor scurte < 50 de reziduuri (deoarece este puțin probabil ca acestea să conțină două copii contigue ale motivelor ANK) și a proteinelor cărora nu li s-au atribuit structuri secundare, un număr total de 94.975 de structuri au fost utilizate pentru analiză. Algoritmul propus a identificat 819 structuri proteice care conțineau cel puțin două motive ANK repetate în tandem. Dintre acestea, 181 sunt notate ca proteine ANK cunoscute în UniProt, Pfam, PROSITE și PDB, dintre care ~ 50 de structuri conțin proteine Ankyrin repetate proiectate (DARPINS). Numărul de proteine Ankyrin repetate corect prezise este de 178 și numai 3 au fost ratate de abordarea noastră, 1SW6 (lanțul A), 2ETB (lanțul A) și 3ZRH (lanțul A). În primele două cazuri, abordarea propusă a ratat detectarea motivelor ANK, deoarece regiunile de repetiție adnotate de UniProt conțin 3-4 elice, în timp ce, conform regulilor definite în algoritm, un motiv ANK este format din două elice antiparalele. În cazul 3ZRH, cele două copii adnotate ale repetițiilor ANK nu sunt contigue, ci separate de 23 de reziduuri și, prin urmare, au fost ratate de abordarea noastră. Astfel, cele 641 de structuri rămase sunt propuse ca fiind repetări Ankyrin nerecunoscute anterior și sunt enumerate în fișierul suplimentar 2. Se observă că 27 dintre aceste proteine sunt notate ca conținând alte tipuri de repetări, și anume: 9 TPR, 7 repetări Pumilio, 2 HEAT, 2 repetări Annexin, 2 receptori ai factorului de necroză tumorală (TNFR-Cys), 2 repetări ale factorului de terminare mitocondrial (MTERF), 2 repetări ale lanțului greu al Clathrinei (CHCR) și 1 HAT (fișier suplimentar 2). Din punct de vedere structural, motivele TPR, HEAT și HAT sunt foarte asemănătoare cu motivul repetat ANK, fiecare dintre ele cuprinzând două elice antiparalele care formează un nucleu Helix-Turn-Helix și au, de asemenea, lungimi similare, ~ 30-34 de reziduuri. Diferența majoră constă în faptul că motivul ANK are o buclă lungă care se termină cu o întoarcere β, care nu este prezentă în motivele TPR, HEAT și HAT. Chiar și cu o asemănare atât de puternică între aceste motive structurale, abordarea noastră a raportat doar 13 falsuri pozitive (9 TPR, 3 HEAT și 1 HAT). Pentru a verifica fiabilitatea predicției noastre în aceste proteine, am efectuat suprapunerea structură-structură a regiunii de repetiție ANK prezise cu un motiv DARPin din 1N0R folosind modulul Cealign din Pymol . De exemplu, în proteina 1OUV (lanțul A), șapte copii ale TPR sunt raportate în baza de date UniProt de la 29-278 (Fișier suplimentar 2), conținând 14 elice H 1-H 14, așa cum se arată în reprezentarea structurii secundare din PDBsum din figura 10(a). Suprapunerea este bună, cu o deviație medie pătratică (RMSD) pentru toate cele trei unități ANK repetate prezise < 3 Å, așa cum se arată în figura 10(b). Profilul A levc în regiunea Ankyrin prezis de la 185 la 292 din figura 10(c) este, de asemenea, foarte asemănător cu cel pentru un motiv ANK tipic din figura 1(a). În acest caz, motivele de repetiție ANK prezise se află în interiorul regiunii adnotate TPR, alcătuite din câte o helixă din fiecare repetiție TPR adiacentă și pot fi reprezentate ca H 2 i T i H 1 i + 1, unde H 2 i este a doua helixă a celui de-al i-lea motiv TPR și H 1 i + 1 este prima helixă a (i + 1)-lea motiv TPR. Alinierea structurală a celor 7 regiuni TPR adnotate a fost realizată cu un motiv TPR reprezentativ din proteina proiectată 1NA0, iar RMSD pentru fiecare unitate de repetiție < 2 Å (rezultatele nu sunt prezentate), sugerând că adnotarea UniProt este, de asemenea, corectă. Cu toate acestea, s-a observat că întoarcerea β între două elice în cadrul unui motiv TPR este mai lungă decât cea a motivului TPR tipic proiectat și seamănă cu bucla terminală a motivului ANK. Acest lucru sugerează posibilitatea existenței unei arhitecturi cu mai multe repetiții în proteinele complexe. Pentru alte 21 de proteine repetate, a fost observată o arhitectură multi-repetată similară. În cazul proteinei repetate HEAT 3LWWW (lanțul A), adnotarea în UniProt este de șase copii continue de la 124-441 și două copii îndepărtate de la 602-641 și 687-726. Repetarea ANK prezisă se află în regiunea non-HEAT de la 520-621, cu o suprapunere foarte mică de 20 de reziduuri cu repetarea HEAT. În acest caz, două repetări diferite sunt prezente în regiuni diferite ale proteinei și a fost observat un total de 10 proteine care conțin două tipuri diferite de repetări care nu se suprapun (marcate cu „*” în fișierul suplimentar 2). Pentru aceste proteine care prezintă o arhitectură cu mai multe repetări, ar fi interesant să se analizeze site-urile de interacțiune, ceea ce ar ajuta la confirmarea adnotărilor/funcțiilor multiple în aceste proteine cu arhitectură complexă. Astfel, abordarea bazată pe structură propusă aici este promițătoare în detectarea repetărilor structurale în tandem în proteine și este suficient de puternică pentru a distinge între repetări structurale foarte asemănătoare, și anume Ankyrin și TPR/HEAT/HAT.
Analiză funcțională a proteinelor de anchirină nerecunoscute anterior
Am identificat 641 de proteine cu repetiție de anchirină nerecunoscute anterior prin abordarea propusă. În tabelul 4, prezentăm analiza noastră a 11 dintre aceste proteine. La toate aceste proteine, observăm că situsurile de legare raportate în PDBsum se află în regiunea de repetiție Ankyrin prezisă. De exemplu, proteina 3HWT (umană) a ADN polimerazei lambda, care este importantă pentru procesul de replicare a ADN-ului, conține patru domenii. Siturile de legare a ADN-ului raportate în 3HWT sunt prezente în domeniul ADN polimerazei (257-331) și se află pe cea de-a doua spirală a ambelor copii ale unităților Ankyrin prezise. Prezența repetărilor Ankyrin în proteinele de legare a ADN-ului, 1SW6 și 3V30, notate în UniProt, oferă sprijin pentru predicția noastră și pentru posibilul rol funcțional al 3HWT. Această analiză ajută la înțelegerea tipului de interacțiune în care este implicată 3HWT, iar comparația cu alte proteine cu funcții similare poate duce la o mai bună înțelegere a rolului repetițiilor Ankyrin. În mod similar, interacțiunea repetărilor Ankyrin cu ARN este cunoscută în cazul 1WDY și 4G8K. Observăm că proteinele 3Q0P, 3K4E și 3V71 au situsuri de legare raportate în regiunea de repetiție prezisă cu ARN ca partener de legare, oferind din nou sprijin pentru predicția noastră.
Am prezis repetările Ankyrin în două structuri proteice de mannosidază, 1FO3 (umană) și 1KRF (P. citrinum). Kifunensina (KIF) este inhibitor al mannosidazei și reglează activitatea acestor proteine. În PDBsum, situsurile de legare a KIF pentru proteinele 1FO3 și 1KRF sunt adnotate în regiunea prezisă ca fiind o repetiție de anchirină de către abordarea noastră. Acest lucru sugerează noi interacțiuni ale acestor proteine cu repetiție Ankyrin. Astfel, s-ar putea efectua o analiză sistematică a altor proteine Ankyrin nerecunoscute anterior pentru a identifica partenerii lor de interacțiune, ceea ce ar duce la o înțelegere a rolului lor funcțional.
Analiza proteinelor Ankyrin modelate
Informația structurală a proteinelor crește într-un ritm rapid, odată cu progresele în rezolvarea structurilor proteice, dar nu este încă comparabilă cu bogăția de informații de secvență. Se poate remarca faptul că din cele peste 1200 de proteine adnotate ca conținând motive repetate Ankyrin în baza de date UniProt, doar aproximativ 60 de proteine Ankyrin au informații structurale disponibile. Pentru a demonstra eficacitatea abordării noastre asupra structurilor modelate, am modelat 30 de proteine cu repetiții Ankyrin din baza de date UniProt pentru care structura nu este încă rezolvată. Structurile au fost modelate cu ajutorul serverului Swiss-Model , care identifică structuri model din PDB pe baza acoperirii secvenței și a identității secvenței. Șabloanele care au o acoperire și o identitate de secvență ridicată în regiunea de repetiție sunt selectate pentru modelarea bazată pe homologie a acestor 30 de secvențe de proteine. Algoritmul propus, AnkPred, este executat pe proteinele modelate corespunzătoare, iar predicția regiunilor de repetiție este prezentată în fișierul suplimentar 3. În figura 11(a) este prezentată predicția abordării propuse asupra structurii modelate a proteinei kinazei legate de integrină (UniProt Id: Q99J82), care este în foarte bună concordanță cu adnotarea din UniProt. Se poate observa că, la aproximativ jumătate dintre proteine (marcate cu un asterisc în fișierul suplimentar 3), numărul de copii prezis a crescut, fiind identificate repetiții terminale. Se știe că, în general, copiile terminale sunt mai puțin conservate și uneori incomplete și, prin urmare, sunt ratate de metodele bazate pe secvențe, dar sunt identificate de metoda noastră bazată pe structură, așa cum se arată pentru proteina ANKRD (UniProt Id: Q7Z3H0) în figura 11(b). Acest lucru sugerează puterea abordării noastre de a îmbunătăți adnotarea regiunilor de repetiție pentru secvențe de proteine pentru care nu sunt disponibile informații despre structură.
Analiză a altor repetări structurale
Pentru a evalua eficacitatea abordării propuse asupra altor familii de repetări proteice, prezentăm în continuare analiza noastră asupra a patru tipuri diferite de repetări: Tetratricopeptide repeat (TPR), Armadillo repeat (ARM), Leucine-rich repeat (LRR) și Kelch repeat. Structura tridimensională a unei proteine reprezentative din fiecare tip de repetiție este prezentată în figura 12(a)-(d), iar profilurile lor A levc respective în figura 12(e)-(h). Se observă un profil A levc unic în regiunile de repetiție la fiecare dintre aceste proteine, care sunt bine conservate în cadrul unităților de repetiție adiacente, așa cum este ilustrat prin suprapunerea profilului A levc în unitățile de repetiție din figura 12(i)-(l). Profilurile A levc distincte pentru diferitele repetări corespund orientării specifice a elementelor structurale secundare din fiecare tip de repetiție. Se poate observa că profilul A levc pentru repetiția TPR este foarte distinct în comparație cu cel al repetiției Ankyrin [figura 3(a)], deși are o lungime similară și o arhitectură de structură secundară foarte asemănătoare cu un nucleu de tip helix-turn-helix. Acest lucru arată în mod clar puterea analizei spectrelor proprii ale rețelei de contacte proteice în identificarea repetițiilor structurale și sensibilitatea sa în distingerea repetițiilor structurale similare.
.