Identifikace tandemových ankyrinových repetic ve strukturách proteinů
Předkládáme analýzu navrženého algoritmu na reprezentativní sadě patnácti proteinů s ANK repeticemi (tabulka 2). Nejprve se podrobně zabýváme naší analýzou na navrženém proteinu ANK, 1N0R (řetězec A), který se skládá ze čtyř přesných tandemových repetic ANK, jak je znázorněno na obrázku 2(a), a jeho sítě proteinových kontaktů uvedené na obrázku 2(b). Hlavní vlastní vektory matice přiléhavosti, A levc , pro navržený protein ANK 1N0R jsou vyneseny na obrázku 3(a). Ve čtyřech oblastech opakování je pozorován jasný opakující se vzorec v profilu A levc (čárkované a plné svislé čáry odpovídají hranicím začátku a konce opakování na základě výstupu RADAR). To je jasně patrné při překrytí profilu A levc pro jednotlivé kopie repetic na obrázku 3b) po normalizaci s největším vrcholem v každé kopii repetice. Ve srovnání s nástrojem RADAR založeným na sekvenci je předpověď dobrá jak z hlediska počtu kopií, tak z hlediska hranic začátku a konce oblastí repetic (viz tabulka 2), zatímco program ConSole založený na struktuře dvě kopie repetic přehlédne, a to i v případě navrženého proteinu ANK. Vícenásobná sekvenční zarovnání (MSA) oblastí repetic předpovězených naším přístupem, programem RADAR a ConSole jsou znázorněna na obrázku 4 a), b) a c) pomocí programu CLUSTALW . MSA jednotlivých kopií jsou v obou případech velmi dobře zachované a v dobré shodě.
Následujícím příkladem je přírodní protein, Osteoklasty stimulující faktor 1, 3EHQ (řetězec A), který vyvolává kostní resorpci. Podle anotace v databázi UniProt obsahuje tři ankyrinové repetice od 72 do 168, jak je znázorněno v trojrozměrné struktuře různými barvami na obrázku 5(a). Na obrázku 5(b) je zobrazen graf profilu A levc pro 3EHQ, který jasně ukazuje přítomnost tří opakujících se jednotek v oblasti 72-177. Existuje dobrá shoda mezi předpovězenými hranicemi počátku a konce tří opakujících se jednotek s anotací UniProt (viz tabulka 2). Předpovědi oblastí opakování pomocí RADAR a ConSole však nejsou v souladu s anotací UniProt. Predikce RADAR se liší jak z hlediska počtu kopií, tak z hlediska hranic repetic, přičemž první repetice je zcela vynechána. ConSole předpovídá tři kopie opakování ANK, ale pozice hranic začátku a konce opakujících se jednotek se u každé kopie opakování liší přibližně o 10 zbytků. Na obrázku 6 je znázorněna MSA oblastí repetic (a) předpovězených naším přístupem, (b) anotovaných v databázi UniProt a (c) předpovězených systémem ConSole. MSA předpovězené oblasti repetic na obrázku 6(a) je ve velmi dobré shodě s MSA anotovaných oblastí repetic v databázi UniProt (obrázek 6(b)), ve srovnání s MSA předpovězené oblasti ConSole na obrázku 6(c). Výsledky pro reprezentativní soubor 15 proteinů s opakováním ANK jsou shrnuty v tabulce 2 spolu s anotací uvedenou v databázi UniProt a předpověďmi pomocí metod založených na sekvenci a struktuře, RADAR a ConSole. Zkrátka a dobře pozorujeme dobrou shodu v detekci ankyrinových repetic jak v počtu kopií, tak v hranicích repetic s anotací UniProt a také s ConSole.
V tabulce 2 byly vybrány proteiny, které představují příklady dobré shody i neshody. Níže uvádíme několik příkladů, v nichž se naše predikce liší od anotace v databázi UniProt. Například v případě proteinu 3EU9 (řetězec A) je v databázi UniProt anotováno pět kopií motivů ANK v rozmezí 89-253, zatímco náš přístup předpovídá sedm kopií, z toho jednu kopii navíc na obou stranách v rozmezí 57-88 a 258-281. Z trojrozměrné struktury 3EU9 na obrázku 7(a) a profilu A levc zobrazeného na obrázku 7(b) je zřejmé, že předpovězené koncové repetice (zobrazené červeně) vykazují profil A levc podobný pěti mezilehlým repeticím (zobrazeným šedě). Strukturní zarovnání těchto předpovězených terminálních repetic s reprezentativním strukturním motivem ANK (z navrženého proteinu 1N0R) pomocí modulu Cealign v programu Pymol je znázorněno na obrázku 7(c) a (d); střední kvadratická odchylka (RMSD) pro každou terminální kopii je menší než 1 Å, což ukazuje na vysokou strukturní podobnost s motivem ANK. Na úrovni sekvence však tyto terminální repetice nejsou dobře konzervovány, jak je zřejmé z MSA předpovězených oblastí na obrázku 8(a) v porovnání s MSA anotovaných oblastí repetic UniProt na obrázku 8(b). S jednou další terminální kopií předpovězenou systémem ConSole je jím předpovězeno celkem šest kopií, ale hranice kopií systému ConSole jsou ve srovnání s anotací systému UniProt posunuty přibližně o 10 zbytků. Obecně jsou terminální kopie na úrovni sekvence méně konzervované nebo neúplné a jejich detekce není snadná. U 52 dalších proteinů (viz doplňkový soubor 1) byly navrženým přístupem předpovězeny další kopie opakování ANK, čímž se u těchto 53 proteinů zlepšila anotace kompletní oblasti opakování. V 16 z těchto případů byla jedna kopie navíc předpovězena také pomocí ConSole. U proteinu 3SO8 (řetězec A, UniProt Id: Q9H9E1) byly původně v dřívějším vydání UniProtu (vydání 2012_08) anotovány tři opakování ANK od 181-279, zatímco naším přístupem je předpovězeno pět opakování od zbytku 149-310, tj. na každém konci jedno opakování navíc. V posledním vydání databáze UniProt (vydání 2014_05) je nyní protein anotován jako protein s pěti kopiemi motivu ANK od zbytku 148-313, což je v souladu s předpovědí navrženého přístupu (tabulka 2).
V proteinu 1D9S (řetězec A) jsou v databázi UniProt uváděny čtyři repetice ANK od 5-130, ale naším přístupem jsou identifikovány pouze dvě od 71-129. V případě proteinu 1D9S (řetězec A) se jedná o čtyři repetice ANK. Při analýze architektury sekundární struktury z PDBsum pro 1D9S na obrázku 9 pozorujeme, že oblast 38-66 obsahuje pouze jednu šroubovici přiřazenou pomocí STRIDE i DSSP , zatímco motiv ANK se skládá ze dvou antiparalelních šroubovic, což naznačuje, že tato oblast mohla být v databázi UniProt chybně anotována. Oblast 5-34 je v předběžném screeningu našeho přístupu předpovězena jako motiv ANK, ale v kroku následného zpracování je vyřazena při hlášení přilehlých oblastí tandemových repetic. Podobná situace nastala u 18 dalších proteinů (viz doplňkový soubor 1), kde je první opakování v anotaci UniProt zpočátku předpovězeno naším algoritmem, ale později vyřazeno, protože další opakování není identifikováno do prahové hodnoty 17 zbytků (poloviční délka motivu ANK). U všech těchto proteinů, s výjimkou 4HBD, ConSole ve srovnání s anotací UniProt vynechal jednu nebo více kopií (viz doplňkový soubor 1). Je možné, že u všech těchto proteinů je chybějící motiv ANK zmutován tak, že jej nelze rozpoznat ani na úrovni struktury, nebo došlo k odstranění šroubovice. Vidíme tedy, že vlastní spektra přilehlé matice velmi dobře zachycují vzor repetitivních záhybů motivu ANK a po zahrnutí informace o sekundární struktuře a variabilitě jejich délek je možná přesná predikce hranic repetic (tab. 2). Pokud však dojde k chybě v přiřazení sekundární struktury, je předpověď navrženého algoritmu ovlivněna.
Nejprve diskutujeme přesnost predikce motivů ANK s anotací UniProt na známé množině 370 proteinů zahrnující pozitivní testovací množinu 125 proteinů ankyrinových repetic a negativní testovací množinu 245 nesolenoidních proteinů. Výsledky jsou shrnuty v tabulce 3 a), kde je citlivost a specifičnost algoritmu vypočtena takto:
kde TP odpovídá počtu správně předpovězených známých proteinů ankyrinových repetic, FN – počet známých proteinů s ankyrinovými repeticemi, které náš přístup přehlédl, FP – počet proteinů předpovězených naším přístupem jako obsahující tandemové ANK repetice, ale neanotovaných jako ankyrinové proteiny, a TN – počet proteinů správně předpovězených naším přístupem jako neankyrinové proteiny. Vzhledem k tomu, že se vyskytly pouze tři falešně negativní výsledky (FN), 1SW6, 2ETB a 3ZRH, a žádný falešně pozitivní výsledek (FP), je citlivost a specifičnost algoritmu velmi vysoká (≃1).
Dále pro předpovězené ankyrinové proteiny analyzujeme počet motivů ANK správně předpovězených v souboru dat 125 známých ankyrinových opakovaných proteinů a porovnáváme je s nedávným přístupem založeným na struktuře, ConSole, a přístupem založeným na sekvenci RADAR. V databázi UniProt je v těchto 125 proteinech anotováno celkem 584 motivů ANK, zatímco navrhovaný přístup předpověděl 582 motivů ANK, ConSole 528 a RADAR 458 motivů. Podrobnosti analýzy jsou shrnuty v tabulce 3b) z hlediska citlivosti a přesnosti, definované jako:
kde TP je počet motivů ANK správně předpovězených metodou ve známém souboru dat 125 proteinů, FP je počet motivů ANK předpovězených metodou, ale neanotovaných v databázi UniProt, a FN je počet anotovaných motivů ANK, které metoda přehlédla. Lze konstatovat, že citlivost i přesnost navrženého přístupu AnkPred je ~ 0,88, což je poměrně dobrá hodnota ve srovnání s ConSole (0,72 a 0,79) a RADAR (0,68 a 0,86). Je známo, že terminální kopie mají nízkou zachovalost sekvence, což vede k nižší citlivosti metody RADAR. Uznáváme, že citlivost našeho algoritmu se závislostí na přiřazení sekundární struktury by mohla být dále zlepšena.
Pro analýzu přesnosti hranic opakování předpovězených navrhovaným přístupem jsme zkonstruovali vícenásobné sekvenční zarovnání (MSA) 582 předpovězených motivů ANK v souboru dat 125 známých ankyrinových proteinů pomocí CLUSTALW .Konsensus předpovězených motivů ANK byl poté sestaven pomocí programu SeaView při 50% identitě a je uveden níže:
To je ve velmi dobré shodě s konsensem motivu ANK navrženým Kohlem a kol. a Mosavim a kol. Konzervativní tetrapeptidový motiv TPLH v polohách 4-7, glycin v polohách 2 a 13 a leucin v polohách 21-22 potvrzuje přesnost předpovědi hranic opakování pomocí navrženého přístupu.
Analýza na bance proteinových dat
Provedli jsme navržený algoritmus na kompletní PDB. Celkem bylo staženo 98 341 struktur reprezentovaných jako proteiny nebo proteiny v komplexu s nukleovými kyselinami. Po odstranění krátkých fragmentů < 50 zbytků (protože ty pravděpodobně neobsahují dvě souvislé kopie motivů ANK) a proteinů bez přiřazených sekundárních struktur bylo pro analýzu použito celkem 94 975 struktur. Navržený algoritmus identifikoval 819 proteinových struktur obsahujících alespoň dva tandemově se opakující motivy ANK. Z nich 181 je anotováno jako známé proteiny ANK v databázích UniProt, Pfam, PROSITE a PDB, z nichž ~ 50 struktur obsahuje navržené proteiny s ankyrinovými repeticemi (DARPINS). Počet správně předpovězených proteinů s ankyrinovými repeticemi je 178 a pouze 3 byly naším přístupem přehlédnuty: 1SW6 (řetězec A), 2ETB (řetězec A) a 3ZRH (řetězec A). V prvních dvou případech se navržený přístup netrefil při detekci motivů ANK, protože anotované oblasti repetic UniProt obsahují 3-4 šroubovice, zatímco podle pravidel definovaných v algoritmu se motiv ANK skládá ze dvou antiparalelních šroubovic. V případě 3ZRH nejsou dvě anotované kopie opakování ANK sousedící, ale oddělené 23 zbytky, a proto je náš přístup přehlédl. Zbývajících 641 struktur je tedy navrženo jako dříve nerozpoznané ankyrinové repetice a jsou uvedeny v doplňkovém souboru 2. Je patrné, že 27 z těchto proteinů je anotováno jako obsahující jiné typy repetic, a to 9 TPR, 7 Pumilio repeat, 2 HEAT, 2 Annexin repeat, 2 Tumor necrosis factor receptor (TNFR-Cys), 2 Mitochondrial termination factor repeat (MTERF), 2 Clathrin heavy chain repeat (CHCR) a 1 HAT (Additional file 2). Strukturálně jsou motivy TPR, HEAT a HAT velmi podobné motivu repetice ANK, každý z nich se skládá ze dvou antiparalelních šroubovic tvořících jádro Helix-Turn-Helix a mají také podobnou délku, ~ 30-34 zbytků. Hlavní rozdíl spočívá v tom, že motiv ANK má dlouhou smyčku zakončenou obratem β, která se u motivů TPR, HEAT a HAT nevyskytuje. I při tak výrazné podobnosti těchto strukturních motivů bylo naším přístupem zaznamenáno pouze 13 falešně pozitivních výsledků (9 TPR, 3 HEAT a 1 HAT). Abychom ověřili spolehlivost naší předpovědi u těchto proteinů, provedli jsme strukturně-strukturní superpozici předpovězené oblasti opakování ANK s motivem DARPin z 1N0R pomocí modulu Cealign v programu Pymol . Například u proteinu 1OUV (řetězec A) je v databázi UniProt uvedeno sedm kopií TPR z 29-278 (doplňkový soubor 2), které obsahují 14 šroubovic H 1-H 14, jak ukazuje zobrazení sekundární struktury z PDBsum na obrázku 10(a). Superpozice je dobrá se střední kvadratickou odchylkou (RMSD) pro všechny tři předpovězené jednotky opakování ANK < 3 Å, jak ukazuje obrázek 10b). Profil A levc v předpovězené oblasti Ankyrinu od 185 do 292 na obrázku 10(c) je také velmi podobný profilu pro typický motiv ANK na obrázku 1(a). V tomto případě se předpovězené motivy opakování ANK nacházejí v anotované oblasti TPR, skládají se z jednoho helixu z každého sousedního opakování TPR a lze je znázornit jako H 2 i T i H 1 i + 1, kde H 2 i je druhý helix i-tého motivu TPR a H 1 i + 1 je první helix (i + 1)tého motivu TPR. Strukturní zarovnání 7 anotovaných oblastí TPR bylo provedeno s reprezentativním motivem TPR z navrženého proteinu 1NA0 a RMSD pro každou jednotku repetice < 2 Å (výsledky nejsou uvedeny), což naznačuje, že anotace UniProt je také správná. Bylo však zjištěno, že β obrat mezi dvěma šroubovicemi v rámci motivu TPR je delší než u typického navrženého motivu TPR a připomíná terminální smyčku motivu ANK. To naznačuje možnost architektury s více opakováními ve složitých proteinech. U 21 dalších opakujících se proteinů byla pozorována podobná multirepeatová architektura. V případě HEAT repeat proteinu 3LWW (řetězec A) je v anotaci v UniProt uvedeno šest souvislých kopií z období 124-441 a dvě vzdálené kopie z období 602-641 a 687-726. Předpokládané opakování ANK leží v oblasti mimo HEAT od 520-621 s velmi malým překrytím 20 zbytků s opakováním HEAT. V tomto případě jsou v proteinu přítomny dvě různé repetice v různých oblastech a celkem bylo pozorováno 10 proteinů obsahujících dva různé typy repetic, které se navzájem nepřekrývají (v doplňkovém souboru 2 označeno „*“). U těchto proteinů, které vykazují architekturu s více opakováními, by bylo zajímavé analyzovat interakční místa, což by pomohlo potvrdit vícenásobné anotace/funkce u těchto proteinů se složitou architekturou. Zde navržený přístup založený na struktuře je tedy slibný při detekci tandemových strukturních opakování v proteinech a je dostatečně silný, aby rozlišil mezi velmi podobnými strukturními opakováními, tj. ankyrinem a TPR/HEAT/HAT.
Funkční analýza dosud nerozpoznaných ankyrinových proteinů
Navrženým přístupem jsme identifikovali 641 dosud nerozpoznaných ankyrinových opakovaných proteinů. V tabulce 4 uvádíme naši analýzu 11 z těchto proteinů. U všech těchto proteinů pozorujeme, že vazebná místa uvedená v PDBsum leží v předpovězené oblasti ankyrinových repetic. Například protein DNA polymerázy lambda 3HWT (Human), který je důležitý pro proces replikace DNA, obsahuje čtyři domény. Uváděná vazebná místa pro DNA u 3HWT se nacházejí v doméně DNA polymerázy (257-331) a leží na druhé šroubovici obou kopií predikovaných ankyrinových jednotek. Přítomnost ankyrinových repetic v DNA vazebných proteinech, 1SW6 a 3V30, anotovaných v UniProt, poskytuje podporu naší předpovědi a možné funkční roli 3HWT. Tato analýza pomáhá pochopit typ interakce, které se 3HWT účastní, a srovnání s jinými proteiny s podobnými funkcemi může vést k lepšímu pochopení úlohy ankyrinových repetic. Podobně je interakce ankyrinových repetic s RNA známa v případě 1WDY a 4G8K. Pozorujeme, že u proteinů 3Q0P, 3K4E a 3V71 jsou v předpovězené oblasti repetic zaznamenána vazebná místa s RNA jako vazebným partnerem, což opět poskytuje podporu naší předpovědi.
Předpověděli jsme struktury ankyrinových repetic u dvou proteinů mannosidázy, 1FO3 (člověk) a 1KRF (P. citrinum). Kifunensin (KIF) je inhibitor mannosidáz a reguluje aktivitu těchto proteinů. V PDBsum jsou vazebná místa KIF pro proteiny 1FO3 a 1KRF anotována v oblasti předpovězené naším přístupem jako ankyrinové repetice. To naznačuje nové interakce těchto proteinů s ankyrinovými repeticemi. Tak by bylo možné provést systematickou analýzu dalších dosud nerozpoznaných ankyrinových proteinů s cílem identifikovat jejich interakční partnery, což by vedlo k pochopení jejich funkční role.
Analýza modelovaných ankyrinových proteinů
S pokroky v řešení proteinových struktur rychle přibývá strukturních informací o proteinech, ale stále nejsou srovnatelné s bohatstvím sekvenčních informací. Lze poznamenat, že z více než 1200 proteinů anotovaných v databázi UniProt jako obsahující motivy ankyrinových repetic má strukturní informace k dispozici pouze asi 60 ankyrinových proteinů. Abychom ukázali účinnost našeho přístupu na modelovaných strukturách, modelovali jsme 30 proteinů s ankyrinovými repeticemi z databáze UniProt, u nichž struktura dosud nebyla vyřešena. Struktury byly modelovány pomocí serveru Swiss-Model , který identifikuje vzorové struktury z PDB na základě pokrytí sekvence a identity sekvence. Pro modelování těchto 30 proteinových sekvencí na základě homologie byly vybrány šablony s vysokým pokrytím a identitou sekvencí v oblasti repetic. Navržený algoritmus AnkPred byl proveden na příslušných modelovaných proteinech a predikce oblastí repetic je uvedena v doplňkovém souboru 3. Na obrázku 11(a) je zobrazena predikce navrženého přístupu na modelované struktuře proteinkinázy vázané na integrin (UniProt Id: Q99J82), která je ve velmi dobré shodě s anotací v UniProt. Lze si povšimnout, že přibližně u poloviny proteinů (označených hvězdičkou v Doplňkovém souboru 3) se zvýšil předpovězený počet kopií, přičemž byly identifikovány terminální repetice. Je známo, že terminální kopie jsou obecně méně konzervované a někdy neúplné , a proto je metody založené na sekvenci přehlížejí, ale naše metoda založená na struktuře je identifikuje, jak je znázorněno pro protein ANKRD (UniProt Id: Q7Z3H0) na obrázku 11b). To naznačuje sílu našeho přístupu při zlepšování anotace oblastí opakování u proteinových sekvencí, pro které nejsou k dispozici informace o struktuře.
Analýza dalších strukturních repetic
Pro posouzení účinnosti navrženého přístupu na další rodiny proteinových repetic uvádíme dále naši analýzu na čtyřech různých typech repetic: (TPR), Armadillo repeat (ARM), Leucine-rich repeat (LRR) a Kelch repeat. Trojrozměrná struktura reprezentativního proteinu z každého typu repetice je znázorněna na obr. 12(a)-(d) a jejich příslušné profily A levc na obr. 12(e)-(h). V oblastech opakování každého z těchto proteinů je pozorován jedinečný profil A levc, který je dobře konzervován v rámci sousedních opakovacích jednotek, jak je znázorněno překrytím profilu A levc v opakovacích jednotkách na obrázku 12(i)-(l). Odlišné profily A levc pro různé repetice odpovídají specifické orientaci sekundárních strukturních prvků v každém typu repetice. Lze si povšimnout, že profil A levc pro opakování TPR je velmi odlišný ve srovnání s profilem opakování ankyrinu (obrázek 3 a)), ačkoli má podobnou délku a velmi podobnou architekturu sekundární struktury s jádrem helix-turn-helix. To jasně ukazuje sílu analýzy vlastních spekter sítě proteinových kontaktů při identifikaci strukturních repetic a její citlivost při rozlišování podobných strukturních repetic.
.