Identifying tandem Ankyrin repeats in protein structures

Itt bemutatjuk a javasolt algoritmus elemzését tizenöt ANK ismétlődő fehérje reprezentatív készletén (2. táblázat). Először részletesen tárgyaljuk az elemzésünket egy tervezett ANK-fehérjén, az 1N0R (A-lánc) fehérjén, amely négy pontos tandemben elhelyezkedő ANK-ismétlődést tartalmaz, amint azt a 2(a) ábra és a 2(b) ábrán látható fehérje kapcsolathálózata mutatja. Az 1N0R tervezett ANK-fehérje A levc szomszédsági mátrixának fő sajátvektorait a 3. ábra (a) ábrázolja. Az A levc profilban egyértelmű ismétlődő mintázat figyelhető meg a négy ismétlődő régióban (a szaggatott és a folytonos függőleges vonalak megfelelnek a RADAR kimenete alapján a kezdő és vég ismétlődési határoknak). Ez jól látható, ha a 3(b) ábrán az egyes ismétlődő kópiák A levc profilját átlapoljuk az egyes ismétlődő kópiák legnagyobb csúcsával történő normalizálás után. Az előrejelzés a szekvencia alapú RADAR eszközzel összehasonlítva mind a másolatok számát, mind az ismétlődő régiók start-end határait tekintve jó (lásd a 2. táblázatot), míg a szerkezet alapú ConSole program két ismétlődő másolatot kihagy, még a tervezett ANK fehérje esetében is. A 4. a), b) és c) ábrán a CLUSTALW segítségével a mi megközelítésünk, a RADAR és a ConSole által megjósolt ismétlődő régiók többszörös szekvenciaillesztése (MSA) látható. Az egyes másolatok MSA-ja mindkét esetben nagyon jól konzervált és jó egyezést mutat.

2. táblázat Az ismétlődő régiók előrejelzése egy 15 fehérjéből álló reprezentatív készletre, összehasonlítva az UniProt annotációval, a RADAR és a ConSole kimenetével
4. ábra
4. ábra

MSA az 1N0R előrejelzett ismétlődő régiói. (a) a javasolt megközelítés által megjósolt, (b) a RADAR kimenete, és (c) a ConSole kimenete.

A következőkben egy természetes fehérjét, a csontreszorpciót indukáló csontklaszt-stimuláló faktor 1, 3EHQ (A-lánc) példáját tekintjük át. Az UniProt-ban található annotáció szerint három Ankyrin ismétlődést tartalmaz 72-168 között, amint azt a 3-D szerkezetben különböző színekkel az 5(a) ábrán látható. Az 5. b) ábrán a 3EHQ A levc profiljának ábrája látható, amely egyértelműen jelzi a három ismétlődő egység jelenlétét a 72-177-es régióban. A három ismétlődő egység prediktált kezdő- és véghatárai jól egyeznek az UniProt annotációval (lásd a 2. táblázatot). Az ismétlődő régiók RADAR és ConSole általi előrejelzése azonban nincs összhangban az UniProt annotációval. A RADAR előrejelzése mind a kópiaszám, mind az ismétlődési határok tekintetében eltér, az első ismétlődés teljesen kimaradt. A ConSole az ANK ismétlődések három kópiáját jelzi előre, de az ismétlődő egységek kezdő- és véghatárainak pozíciói minden egyes ismétlődési kópia esetében körülbelül 10 maradékkal eltérnek. A 6. ábrán az ismétlődő régiók (a) a mi megközelítésünk által megjósolt, (b) az UniProt adatbázisban jegyzetelt és (c) a ConSole által megjósolt MSA-ja látható. A 6(a) ábrán látható prediktált ismétlődő régió MSA-ja nagyon jó összhangban van az UniProt annotált ismétlődő régiók MSA-jával (6(b) ábra), összehasonlítva a 6(c) ábrán látható ConSole által prediktált régió MSA-jával. A 15 ANK ismétlődő fehérje reprezentatív készletére vonatkozó eredményeket a 2. táblázat foglalja össze az UniProt adatbázisban megadott annotációval, valamint a RADAR és a ConSole szekvencia- és szerkezetalapú módszerek előrejelzéseivel együtt. Összességében jó egyezést figyelhetünk meg az Ankyrin ismétlődések detektálásában mind a kópiaszám, mind az ismétlődési határok tekintetében az UniProt annotációval és a ConSole-lal is.

5. ábra
ábra5

A 3EHQ (A lánc) természetes Ankyrin ismétlődésű fehérje. (a) A 3d szerkezet, és (b) az adekvencia mátrix legnagyobb sajátértékének megfelelő sajátvektor komponensek (A levc ).

6. ábra
6. ábra

MSA a 3EHQ fehérje ismétlődő régióiról. (a) a javasolt megközelítéssel előrejelzett, (b) az UniProt adatbázisban annotált, és (c) a ConSole kimenetével előrejelzett.

A 2. táblázatban a fehérjéket úgy választottuk ki, hogy mind a jó egyezés, mind az eltérés példáit bemutassuk. Az alábbiakban néhány olyan példát tárgyalunk, amelyekben a mi előrejelzésünk eltér az UniProt adatbázisban található annotációtól. Például a 3EU9 fehérje (A-lánc) esetében az ANK-motívumok öt példányát annotálja az UniProt 89-253 között, míg a mi megközelítésünk hét példányt jósol, egy plusz példányt mindkét oldalon 57-88 és 258-281 között. A 3EU9 7(a) ábrán látható 3-D szerkezetéből és a 7(b) ábrán látható A levc profilból világosan látszik, hogy a megjósolt terminális ismétlődések (piros színnel ábrázolva) hasonló A levc profilt mutatnak, mint az öt köztes ismétlődés (szürkével ábrázolva). A 7. ábra (c) és (d) ábrán látható ezeknek a prediktált terminális ismétlődéseknek a szerkezeti összehangolása egy reprezentatív szerkezeti ANK-motívummal (a tervezett 1N0R fehérjéből) a Pymol Cealign moduljának segítségével; az egyes terminális ismétlődések átlagos négyzetes eltérése (RMSD) kisebb, mint 1 Å, ami nagy szerkezeti hasonlóságot jelez az ANK-motívummal. Szekvencia szinten azonban ezek a terminális ismétlődések nem jól konzerváltak, amint az a 8(a) ábrán látható prediktált régiók MSA-jából is kitűnik, összehasonlítva az UniProt által annotált ismétlődési régiók MSA-jával a 8(b) ábrán. A ConSole által megjósolt egy további terminális kópiával együtt összesen hat kópiát jósol, de a ConSole kópiák határai körülbelül 10 maradékkal eltolódnak az UniProt annotációjához képest. Általában a terminális ismétlődések szekvencia szinten kevésbé konzerváltak vagy hiányosak, és kimutatásuk nem könnyű. 52 Más fehérjékben (lásd Additional file 1) az ANK ismétlődések további kópiáit jósoltuk a javasolt megközelítéssel, így javítva a teljes ismétlődési régió annotációját ezekben az 53 fehérjékben. Ezek közül 16 esetben egy plusz példányt a ConSole is megjósolt. A 3SO8 fehérje (A lánc, UniProt Id: Q9H9E1) esetében az UniProt korábbi kiadásában (2012_08-as kiadás) eredetileg három ANK ismétlődést annotáltak a 181-279. szinttől, míg a mi megközelítésünk öt ismétlődést jósol a 149-310. szinttől, azaz mindkét végén egy-egy extra ismétlődést. Az UniProt adatbázis legutóbbi kiadásában (2014_05 kiadás) a fehérje már úgy van annotálva, hogy az ANK-motívum öt példányát tartalmazza a 148-313-as tartományban, ami összhangban van a javasolt megközelítés előrejelzésével (2. táblázat).

7. ábra
7. ábra

A 3EU9 (A lánc) természetes Ankyrin repeat fehérje. (a) 3-D szerkezet (b) Az adekvencia mátrix fő sajátvektorának ábrázolása. (c) – (d) A 3EU9-ben előre jelzett extra Ankyrin-ismétlő példány (kék színnel ábrázolva) és a tervezett 1N0R fehérje ismétlő példányának (piros színnel ábrázolva) szerkezeti illesztése.

8. ábra
8. ábra

MSA a 3EU9 fehérje ismétlő régióiról. (a) a javasolt megközelítéssel előrejelzett, és (b) az UniProt adatbázisban annotált.

Az 1D9S fehérjében (A lánc) négy ANK ismétlődést jelentettek 5-130 között az UniProt adatbázisban, de a mi megközelítésünk csak kettőt azonosított 71-129 között. A 9. ábrán az 1D9S-re a PDBsumból származó szekunderszerkezeti architektúrát elemezve megfigyeljük, hogy a 38-66 közötti régió csak egy, mind a STRIDE, mind a DSSP által hozzárendelt hélixet tartalmaz, míg egy ANK-motívum két antiparallel hélixből áll, ami arra utal, hogy ezt a régiót az UniProt adatbázisban tévesen annotálták. Az 5-34-es régiót a megközelítésünk előzetes szűrése során ANK-motívumként jósoltuk, de az utófeldolgozási lépésben elvetettük, miközben az összefüggő tandemismétlődő régiókat jelentettük. Hasonló helyzetet tapasztaltunk 18 másik fehérje esetében is (lásd az 1. kiegészítő fájlt), ahol az UniProt annotációban szereplő első ismétlődést az algoritmusunk eredetileg megjósolta, de később elvetette, mert a következő ismétlődést nem azonosította a 17 maradék (az ANK-motívum félhosszúsága) küszöbértékén belül. A 4HBD kivételével mindezen fehérjék esetében a ConSole egy vagy több ismétlődést kihagy az UniProt annotációhoz képest (lásd az 1. kiegészítő fájlt). Lehetséges, hogy mindezekben a fehérjékben a hiányzó ANK-motívum még a szerkezet szintjén is felismerhetetlenné mutálódott, vagy egy hélix deléciója történt. Így azt látjuk, hogy az adekvencia-mátrix saját spektrumai nagyon jól megragadják az ANK-motívum ismétlődő hajtásmintázatát, és a másodlagos szerkezetinformációk és a hosszuk variációjának beépítésével lehetővé válik az ismétlődési határok pontos előrejelzése (2. táblázat). Ha azonban hiba van a másodlagos szerkezet hozzárendelésében, az befolyásolja a javasolt algoritmus előrejelzését.

9. ábra
9. ábra

Az Ankyrin repeat protein 1D9S (A lánc) másodlagos szerkezetének ábrázolása a PDBsumból.

A javasolt algoritmus teljesítménye

Először az ANK-motívumok előrejelzési pontosságát tárgyaljuk az UniProt annotációval egy 370 fehérjéből álló ismert halmazon, amely egy 125 Ankyrin repeat fehérjéből álló pozitív teszthalmazból és 245 nem szolenoid fehérjéből álló negatív teszthalmazból áll. Az eredményeket a 3. táblázat a) pontja foglalja össze, ahol az algoritmus érzékenységét és specificitását a következőképpen számoltuk ki:

Szenzitivitás= T P T P + F N ≃0.976
Specifikusság= T N T N + F P ≃1
3. táblázat A javasolt megközelítés teljesítménye

ahol TP megfelel a helyesen megjósolt ismert Ankyrin ismétlődő fehérjék számának, FN – a megközelítésünk által kihagyott ismert Ankyrin ismétlődésű fehérjék száma, FP – a megközelítésünk által tandem ANK ismétlődéseket tartalmazó, de Ankyrin fehérjeként nem annotált fehérjék száma, és TN – a megközelítésünk által helyesen nem Ankyrin fehérjeként előrejelzett fehérjék száma. Mivel csak három hamis negatív eredmény (FN) volt, 1SW6, 2ETB és 3ZRH, és egyetlen hamis pozitív eredmény (FP) sem, az algoritmus érzékenysége és specificitása nagyon magas (≃1).

A következőkben az előrejelzett Ankyrin-fehérek esetében elemezzük a 125 ismert Ankyrin ismétlődésű fehérjéből álló adathalmazban helyesen előrejelzett ANK-motívumok számát, és összehasonlítjuk egy újabb szerkezetalapú megközelítéssel, a ConSole-val, valamint egy szekvenciaalapú megközelítéssel, a RADAR-ral. Az UniProt adatbázisban összesen 584 ANK-motívumot jegyeztek fel ebben a 125 fehérjében, míg a javasolt megközelítés 582 ANK-motívumot, a ConSole 528-at és a RADAR 458-at jósol. Az elemzés részleteit a 3(b) táblázat foglalja össze az érzékenység és a pontosság szempontjából, amelyet a következőképpen határozunk meg:

érzékenység= T P T P + F N
pontosság= T P T P + F P

ahol TP a módszer által helyesen megjósolt ANK-motívumok száma a 125 fehérjéből álló ismert adathalmazban, FP a módszer által megjósolt, de az UniProt adatbázisban nem annotált ANK-motívumok száma, és FN a módszer által kihagyott, annotált ANK-motívumok száma. Megfigyelhető, hogy a javasolt megközelítés, az AnkPred érzékenysége és pontossága egyaránt ~ 0,88, ami meglehetősen jó a ConSole (0,72 és 0,79) és a RADAR (0,68 és 0,86) módszerekkel összehasonlítva. A terminális másolatokról ismert, hogy alacsony szekvencia konzerváltsággal rendelkeznek, ami a RADAR módszer alacsonyabb érzékenységét eredményezi. Elismerjük, hogy algoritmusunk érzékenysége a másodlagos szerkezet hozzárendeléstől való függésével tovább javítható.

A javasolt megközelítéssel megjósolt ismétlődési határok pontosságának elemzésére CLUSTALW segítségével elkészítettük a 125 ismert Ankyrin-fehérje adathalmazban lévő 582 megjósolt ANK-motívum többszörös szekvenciaillesztését (MSA).A prediktált ANK-motívumok konszenzusát ezután SeaView segítségével 50%-os azonosság mellett építettük fel, és az alábbiakban adjuk meg:

XGXTPLHXAXXXGXXXXXXXXXLLXXXAXX

Ez nagyon jó összhangban van a Kohl et al. és Mosavi et al. által javasolt konszenzus ANK-motívummal. A konzervált tetrapeptid motívum TPLH a 4-7. pozícióban, glicin a 2. és 13. pozícióban és leucin a 21-22. pozícióban megerősíti az ismétlődési határok javasolt megközelítéssel történő előrejelzési pontosságát.

Analízis a fehérje adatbázisban

A javasolt algoritmust a teljes PDB-n végeztük el. Összesen 98 341 fehérjeként vagy nukleinsavakkal komplexben lévő fehérjeként ábrázolt struktúrát töltöttünk le. A rövid, < 50 maradékot tartalmazó töredékek (mivel ezek valószínűleg nem tartalmaznak két egybefüggő ANK-motívumot) és a nem hozzárendelt másodlagos szerkezetű fehérjék eltávolításával összesen 94 975 szerkezetet használtunk fel az elemzéshez. A javasolt algoritmus 819 olyan fehérjeszerkezetet azonosított, amely legalább két tandemszerűen ismétlődő ANK-motívumot tartalmazott. Ezek közül 181-et ismert ANK-fehérjékként annotáltak az UniProt, Pfam, PROSITE és PDB adatbázisokban, amelyek közül ~ 50 struktúra tartalmaz tervezett Ankyrin ismétlődő fehérjéket (DARPINS). A helyesen megjósolt Ankyrin ismétlődő fehérjék száma 178, és csak 3-at hagyott ki a megközelítésünk: 1SW6 (A lánc), 2ETB (A lánc) és 3ZRH (A lánc). Az első két esetben a javasolt megközelítés elhibázta az ANK-motívumok felismerését, mivel az UniProt által annotált ismétlődő régiók 3-4 hélixet tartalmaznak, míg az algoritmusban meghatározott szabályok szerint egy ANK-motívum két antiparallel hélixből áll. A 3ZRH-ban az ANK ismétlődések két annotált példánya nem egybefüggő, hanem 23 maradék választja el őket egymástól, ezért a megközelítésünk nem vette észre őket. Így a fennmaradó 641 struktúrát korábban fel nem ismert Ankyrin ismétlődésekként javasoltuk, és a 2. kiegészítő fájlban szerepelnek. Megfigyelhető, hogy e fehérjék közül 27-et más ismétlődéstípusokat tartalmazónak annotáltunk, nevezetesen 9 TPR, 7 Pumilio ismétlés, 2 HEAT, 2 Annexin ismétlés, 2 Tumor nekrózis faktor receptor (TNFR-Cys), 2 Mitokondriális terminációs faktor ismétlés (MTERF), 2 Clathrin nehézlánc ismétlés (CHCR) és 1 HAT (Additional file 2). Szerkezetileg a TPR, HEAT és HAT motívumok nagyon hasonlóak az ANK ismétlő motívumhoz, mindegyikük két antiparaleláris hélixből áll, amelyek egy Helix-Turn-Helix magot alkotnak, és hasonló hosszúságúak is, ~ 30-34 maradék. A fő különbség az, hogy az ANK-motívumnak van egy hosszú, β-fordulattal végződő hurokja, amely a TPR-, HEAT- és HAT-motívumokban nincs jelen. Még e szerkezeti motívumok közötti ilyen erős hasonlóság ellenére is csak 13 hamis pozitív eredményt (9 TPR, 3 HEAT és 1 HAT) jelentett a megközelítésünk. Hogy ellenőrizzük előrejelzésünk megbízhatóságát ezeknél a fehérjéknél, a Pymol Cealign moduljának segítségével szerkezet-szerkezet szuperpozíciót végeztünk a megjósolt ANK ismétlődő régió és az 1N0R-ből származó DARPin motívum között. Például az 1OUV fehérjében (A lánc) az UniProt adatbázisban a TPR hét példányát jelentették 29-278 között (Additional file 2), amely 14 H 1-H 14 hélixet tartalmaz, amint azt a PDBsumból származó másodlagos szerkezet ábrázolása mutatja a 10(a) ábrán. A szuperpozíció jó, az átlagos négyzetes eltérés (RMSD) mindhárom előre jelzett ANK ismétlődési egység esetében < 3 Å, amint az a 10. b) ábrán látható. A 10(c) ábrán látható A levc profil az Ankyrin prediktált régióban 185-től 292-ig szintén nagyon hasonló az 1(a) ábrán látható tipikus ANK motívumhoz. Ebben az esetben a prediktált ANK ismétlődő motívumok a TPR jegyzetelt régión belül vannak, minden szomszédos TPR ismétlődés egy-egy hélixéből állnak, és a következőképpen ábrázolhatók: H 2 i T i H 1 i + 1, ahol H 2 i az i-edik TPR motívum második hélixe, H 1 i + 1 pedig az (i + 1)-edik TPR motívum első hélixe. A 7 annotált TPR régió szerkezeti összehangolását a tervezett 1NA0 fehérjéből származó reprezentatív TPR motívummal végeztük el, és az RMSD minden egyes ismétlődő egységre < 2 Å (az eredmények nem láthatóak), ami arra utal, hogy az UniProt annotáció is helyes. Megfigyelték azonban, hogy a TPR-motívumon belül a két hélix közötti β fordulat hosszabb, mint a tipikusan tervezett TPR-motívumé, és hasonlít az ANK-motívum terminális hurokjára. Ez a több ismétlődéses architektúra lehetőségére utal a komplex fehérjékben. További 21 ismétlődő fehérje esetében hasonló multi-repeat architektúrát figyeltünk meg. A HEAT ismétlődő fehérje 3LWW (A-lánc) esetében az UniProt-ban található annotáció szerint hat folyamatos kópia van a 124-441-es és két távoli kópia a 602-641-es és a 687-726-os tartományban. Az előre jelzett ANK ismétlődés a nem HEAT régióban található 520-621 között, nagyon kis, 20 maradéknyi átfedéssel a HEAT ismétlődéssel. Ebben az esetben két különböző ismétlődés van jelen a fehérje különböző régióiban, és összesen 10 olyan fehérjét figyeltünk meg, amelyek két különböző, egymást nem átfedő ismétlődéstípust tartalmaznak (a 2. kiegészítő fájlban “*”-gal jelölve). E fehérjék esetében, amelyek több ismétlődéses architektúrát mutatnak, érdekes lenne a kölcsönhatási helyek elemzése, ami segítene a többszörös annotációk/funkciók megerősítésében ezekben a komplex architektúrájú fehérjékben. Így az itt javasolt szerkezetalapú megközelítés ígéretes a fehérjékben található tandem szerkezeti ismétlődések kimutatásában, és elég erős ahhoz, hogy különbséget tegyen a nagyon hasonló szerkezeti ismétlődések, azaz az Ankyrin és a TPR/HEAT/HAT között.

10. ábra
10. ábra

Az 1OUV (A lánc) Ankyrin ismétlődésű fehérje. (a) A PDBsumból származó másodlagos szerkezet ábrázolása (b) A prediktált ANK ismétlődési példány (kék színnel ábrázolva) és a tervezett ANK fehérje 1N0R ismétlődési példányának (narancssárga színnel ábrázolva) szerkezeti összehangolása (c) Levc-ábrázolás szaggatott és folytonos vonalakkal, amelyek a prediktált ANK-határok kezdetét és végét mutatják.

A korábban fel nem ismert ankyrin fehérjék funkcionális elemzése

A javasolt megközelítéssel 641 korábban fel nem ismert Ankyrin ismétlődő fehérjét azonosítottunk. A 4. táblázatban 11 ilyen fehérje elemzését mutatjuk be. Mindegyik fehérjénél megfigyeltük, hogy a PDBsumban jelentett kötőhelyek a prediktált Ankyrin-ismétlő régióba esnek. Például a DNS-polimeráz lambda fehérje 3HWT (Human), amely fontos a DNS-replikációs folyamatban, négy domént tartalmaz. A bejelentett DNS-kötőhelyek a 3HWT-ben a DNS-polimeráz doménben (257-331) vannak jelen, és a prediktált Ankyrin-egységek mindkét példányának második hélixén helyezkednek el. Az UniProt-ban annotált DNS-kötő fehérjékben, az 1SW6-ban és a 3V30-ban található Ankyrin ismétlődések jelenléte alátámasztja a 3HWT előrejelzésünket és lehetséges funkcionális szerepét. Ez az elemzés segít megérteni, hogy a 3HWT milyen típusú kölcsönhatásban vesz részt, és a hasonló funkciójú fehérjékkel való összehasonlítás az Ankyrin-ismétlődések szerepének jobb megértéséhez vezethet. Hasonlóképpen, az Ankyrin ismétlődések RNS-szel való kölcsönhatása ismert az 1WDY és a 4G8K esetében. Megfigyeltük, hogy a 3Q0P, 3K4E és 3V71 fehérjék esetében a prediktált ismétlődési régióban RNS-sel mint kötőpartnerrel rendelkező kötőhelyeket jelentettek, ami ismét alátámasztja az előrejelzésünket.

4. táblázat Példafehérjék kötőhelyekkel a prediktált Ankyrin ismétlődési régióban

Az Ankyrin ismétlődéseket két mannozidáz fehérje, az 1FO3 (humán) és az 1KRF (P. citrinum) szerkezetében prediktáltuk. A Kifunenzin (KIF) a mannozidázok inhibitora, és szabályozza e fehérjék aktivitását. A PDBsumban az 1FO3 és az 1KRF fehérjék KIF-kötőhelyei a megközelítésünk által Ankyrin repeatként megjósolt régióban vannak annotálva. Ez ezen Ankyrin repeat fehérjék újszerű kölcsönhatásaira utal. Így el lehetne végezni más, korábban fel nem ismert Anyrin-fehérjék szisztematikus elemzését, hogy azonosítsuk kölcsönhatási partnereiket, ami funkcionális szerepük megértéséhez vezethetne.

Modellezett ankyrin-fehérjék elemzése

A fehérjék szerkezeti információi a fehérjeszerkezetek felbontásában elért fejlődéssel gyors ütemben nőnek, de még mindig nem hasonlíthatóak a szekvenciainformációk gazdagságához. Megjegyzendő, hogy az UniProt adatbázisban Ankyrin ismétlődő motívumokat tartalmazónak annotált több mint 1200 fehérjéből csak körülbelül 60 Ankyrin-fehérje rendelkezik szerkezeti információval. Hogy bemutassuk megközelítésünk hatékonyságát a modellezett szerkezeteken, 30 olyan Ankyrin repeat fehérjét modelleztünk az UniProt adatbázisból, amelyeknek a szerkezete még nem megoldott. A szerkezeteket a Swiss-Model szerver segítségével modelleztük, amely a PDB-ből azonosítja a sablonszerkezeteket a szekvencia-lefedettség és a szekvencia-azonosság alapján. A 30 fehérje szekvencia homológia alapú modellezéséhez azokat a sablonokat választottuk ki, amelyeknek az ismétlődő régiójában magas a lefedettségük és a szekvenciaazonosságuk. A javasolt AnkPred algoritmust a megfelelő modellezett fehérjékre futtattuk, és az ismétlődő régiók előrejelzését a 3. kiegészítő fájl tartalmazza. A 11. a) ábrán a javasolt megközelítés előrejelzése látható az Integrin-linked protein kináz (UniProt Id: Q99J82) modellezett szerkezetén, amely nagyon jó összhangban van az UniProt-ban található annotációval. Megjegyezhetjük, hogy a fehérjék mintegy felénél (a 3. kiegészítő fájlban csillaggal jelölve) a megjósolt kópiaszám megnövekedett, és terminális ismétlődéseket azonosítottak. Ismeretes, hogy a terminális ismétlődések általában kevésbé konzerváltak és néha hiányosak , ezért a szekvencia-alapú módszerek nem veszik észre őket, de a mi szerkezet-alapú módszerünk azonosítja őket, ahogy az ANKRD (UniProt Id: Q7Z3H0) fehérje esetében a 11(b) ábrán látható. Ez azt sugallja, hogy megközelítésünk képes javítani az ismétlődő régiók annotációját olyan fehérjeszekvenciák esetében, amelyekről nem áll rendelkezésre szerkezeti információ.

11. ábra
11. ábra

Modellezett struktúrákon végzett előrejelzés látható. (a) Integrinhez kötött fehérje kináz (UniProt Id: Q99J82). Az AnkPred által prediktált öt Ankyrin-motívum ismétlődési határai (különböző színekkel ábrázolva) jó összhangban vannak az Uniprotban annotált öt példányával. (b) ANKRD fehérje (UniProt Id: Q7Z3H0). Ebben az esetben csak 3 Ankyrin-motívum van annotálva az UniProtban (köztes példányok), míg az AnkPred két további példányt jósol mindkét oldalon.

Más szerkezeti ismétlődések elemzése

A javasolt megközelítés hatékonyságának más fehérje ismétlődési családokra történő értékeléséhez a következőkben négy különböző ismétlődési típuson végzett elemzésünket mutatjuk be: Tetratricopeptid ismétlés (TPR), Armadillo ismétlés (ARM), Leucinban gazdag ismétlés (LRR) és Kelch ismétlés. Az egyes ismétlődéstípusok egy-egy reprezentatív fehérjéjének 3 dimenziós szerkezetét a 12(a)-(d) ábrán, a hozzájuk tartozó A levc profilokat pedig a 12(e)-h ábrán mutatjuk be. Mindegyik fehérjében egyedi A levc profil figyelhető meg az ismétlődő régiókban, amelyek jól konzerválódnak a szomszédos ismétlődő egységeken belül, amint azt a 12(i)-(l) ábrán az ismétlődő egységek A levc profiljának átfedése mutatja. A különböző ismétlődések eltérő A levc-profiljai megfelelnek a másodlagos szerkezeti elemek sajátos orientációjának az egyes ismétlődési típusokban. Megjegyzendő, hogy a TPR ismétlődés A levc profilja nagyon eltérő az Ankyrin ismétlődéséhez képest (3. ábra (a)), bár hasonló hosszúságú és nagyon hasonló másodlagos szerkezeti felépítésű, helix-turn-helix maggal rendelkezik. Ez világosan mutatja a fehérje kontaktushálózat sajátspektrum-elemzésének erejét a szerkezeti ismétlődések azonosításában és érzékenységét a hasonló szerkezeti ismétlődések megkülönböztetésében.

12. ábra
12. ábra

A többi szerkezeti ismétlődéscsalád fehérjéi. (a)-(d) 3-D szerkezet: (a) 2C2L: A lánc (TPR) (b) 3SL9: A lánc (ARM) (c) 1D0B: A lánc (LRR) (d) 1U6D: X lánc (KELCH). Az e), f), g) és h) ábrákon a megfelelő fehérjék A levc-diagramja látható. Az (i), (j), (k) és (l) ábrákon az adott fehérjék ismétlődő régióinak A levc profilja átlapolva látható.