Identifying tandem Ankyrin repeats in protein structures
Hier presenteren we de analyse van het voorgestelde algoritme op een representatieve set van vijftien ANK-repeat eiwitten (tabel 2). We bespreken eerst in detail onze analyse op een ontworpen ANK eiwit, 1N0R (keten A), bestaande uit vier exacte ANK herhalingen in tandem zoals weergegeven in figuur 2 (a) en zijn eiwit contact netwerk gegeven in figuur 2 (b). De belangrijkste eigenvectoren van de adjacency matrix, A levc , voor ontworpen ANK eiwit 1N0R is uitgezet in figuur 3 (a). Een duidelijk repeterend patroon in het A levc-profiel wordt waargenomen in de vier herhaalgebieden (gestippelde en ononderbroken verticale lijnen komen overeen met begin-eind herhaalgrenzen op basis van RADAR output). Dit is duidelijk te zien door overlapping van het A levc-profiel voor de afzonderlijke repeat-exemplaren in figuur 3(b) na normalisatie met de grootste piek in elk repeat-exemplaar. De voorspelling is goed zowel in termen van het kopie-aantal en de begin-eind grenzen van de herhaalde regio’s in vergelijking met de sequentie-gebaseerde tool RADAR (zie tabel 2), terwijl twee herhaalde kopieën worden gemist door de structuur gebaseerde programma ConSole, zelfs in het geval van ontworpen ANK eiwit. De multiple sequence alignments (MSA) van de herhaalde regio’s voorspeld door onze aanpak, RADAR en ConSole worden getoond in figuur 4(a), (b) en (c) respectievelijk met behulp van CLUSTALW . De MSA van de afzonderlijke kopieën is in beide gevallen zeer goed geconserveerd en komt goed overeen.
Wij beschouwen vervolgens een voorbeeld van een natuurlijk eiwit, Osteoclast-stimulerende factor 1, 3EHQ (keten A), dat botresorptie induceert. Volgens de annotatie in UniProt bevat het drie Ankyrin herhalingen van 72-168, zoals in de 3-D structuur met verschillende kleuren is weergegeven in figuur 5(a). In figuur 5(b) is de A levc profiel plot voor 3EHQ te zien, waaruit duidelijk de aanwezigheid van drie repeterende eenheden in de regio 72-177 blijkt. Er is een goede overeenkomst tussen de voorspelde begin-eindgrenzen van de drie herhalingseenheden en de UniProt annotatie (zie tabel 2). De voorspelling van de herhaalde regio’s door RADAR en ConSole zijn echter niet in overeenstemming met de UniProt annotatie. De RADAR-voorspelling verschilt zowel wat betreft het kopie-aantal als de herhaalde grenzen, waarbij de eerste herhaling volledig wordt gemist. ConSole voorspelt drie kopieën van de ANK herhalingen, maar de posities van de begin-eindgrenzen van de herhalende eenheden wijken voor elke herhaling met ongeveer 10 residuen af. Figuur 6 toont de MSA van de herhaalde gebieden (a) voorspeld door onze aanpak, (b) geannoteerd in de UniProt database, en (c) voorspeld door ConSole. De MSA van de voorspelde herhaalde regio in figuur 6(a) is in zeer goede overeenstemming met die van de UniProt geannoteerde herhaalde regio’s (figuur 6(b)), vergeleken met die van de ConSole voorspelde regio in figuur 6(c). De resultaten voor een representatieve set van 15 ANK-herhalingseiwitten zijn samengevat in Tabel 2, samen met de annotatie uit de UniProt database, en de voorspellingen door sequentie- en structuurgebaseerde methoden, respectievelijk RADAR en ConSole. Over het algemeen zien we een goede overeenkomst in de detectie van Ankyrin herhalingen zowel in aantal kopieën als in herhaalgrenzen met UniProt annotatie en ook met ConSole.
In tabel 2 zijn de eiwitten geselecteerd om voorbeelden te geven van zowel goede overeenstemming als van onenigheid. Hieronder bespreken we een paar voorbeelden waarin onze voorspelling afwijkt van de annotatie in de UniProt databank. Bijvoorbeeld, in het geval van eiwit 3EU9 (keten A), worden in UniProt vijf kopieën van ANK-motieven geannoteerd van 89-253, terwijl onze benadering zeven kopieën voorspelt, een extra kopie aan weerszijden van 57-88 en 258-281. Uit de 3-D structuur van 3EU9 in figuur 7(a) en een levc-profiel getoond in figuur 7(b), is het duidelijk dat de voorspelde terminale herhalingen (weergegeven in rood) een levc-profiel vertonen dat vergelijkbaar is met de vijf tussenliggende herhalingen (weergegeven in grijs). De structurele uitlijning van deze voorspelde terminale herhalingen met een representatief structureel ANK motief (van ontworpen eiwit 1N0R) met behulp van Cealign module in Pymol is weergegeven in figuur 7 (c) en (d); de Root Mean Square Deviation (RMSD) voor elk terminaal exemplaar is minder dan 1 Å wat duidt op een hoge structurele gelijkenis met het ANK motief. Op volgorde-niveau zijn deze terminale herhalingen echter niet goed geconserveerd, zoals duidelijk blijkt uit de MSA van de voorspelde regio’s in figuur 8(a), vergeleken met die van de UniProt geannoteerde herhalingsregio’s in figuur 8(b). Met één extra terminale kopie voorspeld door ConSole, worden er in totaal zes kopieën voorspeld, maar de grenzen van ConSole kopieën zijn met ongeveer 10 residuen verschoven in vergelijking met UniProt annotatie. In het algemeen zijn de terminale herhalingen minder geconserveerd op sequentie niveau of onvolledig, en hun detectie is niet eenvoudig. In 52 andere eiwitten (zie Additional file 1), zijn extra kopieën van de ANK herhalingen voorspeld door de voorgestelde aanpak, waardoor de annotatie van de volledige herhaalde regio in deze 53 eiwitten is verbeterd. In 16 van deze gevallen is een extra kopie ook voorspeld door ConSole. Voor het eiwit 3SO8 (keten A, UniProt Id: Q9H9E1), werden aanvankelijk drie ANK herhalingen geannoteerd in de eerdere release van UniProt (release 2012_08) van 181-279, terwijl vijf herhalingen worden voorspeld door onze aanpak van residu 149-310, d.w.z. een extra herhaling aan elk uiteinde. In de recente release van de UniProt-database (release 2014_05) wordt het eiwit nu geannoteerd als een eiwit met vijf kopieën van het ANK-motief van 148-313, wat overeenkomt met de voorspelling van de voorgestelde benadering (tabel 2).
In eiwit 1D9S (keten A), worden vier ANK herhalingen gerapporteerd van 5-130 in de UniProt database, maar slechts twee worden geïdentificeerd door onze aanpak van 71-129. Bij het analyseren van de secundaire structuur architectuur uit PDBsum voor 1D9S in figuur 9, zien we dat de regio 38-66 slechts één helix bevat toegewezen door zowel STRIDE als DSSP, terwijl een ANK motief bestaat uit twee anti-parallelle helices, wat suggereert dat deze regio verkeerd geannoteerd kan zijn in de UniProt database. De regio 5-34 is voorspeld als ANK motief in de voorlopige screening van onze benadering, maar is genegeerd in de post-processing stap, terwijl contiguous tandem herhaalde regio’s werden gerapporteerd. Een soortgelijke situatie werd aangetroffen bij 18 andere eiwitten (zie Additional file 1) waar de eerste herhaling in de UniProt annotatie in eerste instantie wordt voorspeld door ons algoritme, maar later wordt verworpen omdat de volgende herhaling niet wordt geïdentificeerd binnen een drempel van 17 residuen (de halve lengte van een ANK motief). Voor al deze eiwitten, behalve 4HBD, worden één of meer kopieën gemist door ConSole in vergelijking met de UniProt annotatie (zie Additional file 1). Het is mogelijk dat in al deze eiwitten het ontbrekende ANK motief onherkenbaar is gemuteerd, zelfs op structuurniveau, of dat er een helix is weggelaten. We zien dus dat de eigen spectra van de adjacency matrix het repetitieve vouwpatroon van het ANK motief zeer goed vastlegt en door de secundaire structuur informatie en variatie in hun lengtes mee te nemen, is een nauwkeurige voorspelling van de herhaalde grenzen mogelijk (Tabel 2). Als er echter een fout is in de secundaire structuurtoewijzing, wordt de voorspelling van het voorgestelde algoritme beïnvloed.
Prestaties van het voorgestelde algoritme
Voreerst bespreken we de voorspellingsnauwkeurigheid van ANK-motieven met de UniProt-annotatie op een bekende set van 370 eiwitten, bestaande uit een positieve testset van 125 Ankyrin-repeatoreiwitten en een negatieve testset van 245 niet-solenoïde eiwitten. De resultaten zijn samengevat in tabel 3 (a), waarin de gevoeligheid en specificiteit van het algoritme als volgt worden berekend:
waar TP overeenkomt met het aantal correct voorspelde bekende Ankyrin-repeiwitten, FN – het aantal bekende Ankyrin-repeat-eiwitten dat door onze benadering is gemist, FP – het aantal eiwitten dat volgens onze benadering tandem ANK-herhalingen bevat, maar niet als Ankyrin-eiwit is geannoteerd, en TN – het aantal eiwitten dat door onze benadering correct als niet-Ankyrin-eiwit is voorspeld. Aangezien er slechts drie vals-negatieven (FN) waren, 1SW6, 2ETB en 3ZRH, en geen vals-positieven (FP), is de gevoeligheid en specificiteit van het algoritme zeer hoog (≃1).
Volgende, voor de voorspelde Ankyrin proteïnen, analyseren we het aantal correct voorspelde ANK motieven in de dataset van 125 bekende Ankyrin repeat proteïnen en vergelijken we met een recente structuur-gebaseerde benadering, ConSole, en een sequentie-gebaseerde benadering RADAR. In de UniProt database zijn in totaal 584 ANK motieven geannoteerd in deze 125 eiwitten, terwijl 582 ANK motieven worden voorspeld door de voorgestelde benadering, 528 door ConSole en 458 door RADAR. De details van de analyse zijn samengevat in tabel 3(b) in termen van gevoeligheid en precisie, gedefinieerd als:
waarbij, TP het aantal ANK-motieven is dat door de methode correct is voorspeld in bekende dataset van 125 eiwitten, FP het aantal door de methode voorspelde maar niet in de UniProt databank geannoteerde ANK-motieven is, en FN het aantal door de methode gemiste geannoteerde ANK-motieven. Men kan vaststellen dat zowel de gevoeligheid als de precisie van de voorgestelde benadering, AnkPred, ~ 0,88 is, redelijk goed vergeleken met die van respectievelijk ConSole (0,72 en 0,79) en RADAR (0,68 en 0,86). Van de terminale kopieën is bekend dat ze een lage graad van sequentiebehoud hebben, wat resulteert in een lagere gevoeligheid van de RADAR-methode. We erkennen dat de gevoeligheid van ons algoritme, met zijn afhankelijkheid van de secundaire structuur toewijzing, verder kan worden verbeterd.
Om de nauwkeurigheid van de herhaalde grenzen voorspeld door de voorgestelde aanpak te analyseren, construeerden we de Multiple sequence alignment (MSA) van de 582 voorspelde ANK-motieven in de dataset van 125 bekende Ankyrin eiwitten met behulp van CLUSTALW .De consensus van de voorspelde ANK motieven is vervolgens met behulp van SeaView opgebouwd bij 50% identiteit en is hieronder gegeven:
Dit komt zeer goed overeen met het consensus ANK motief voorgesteld door Kohl et al. en Mosavi et al. Het geconserveerde tetrapeptidemotief TPLH op posities 4-7, Glycine op posities 2 en 13, en Leucine op posities 21-22 bevestigt de nauwkeurigheid van de voorspelling van de herhalingsgrenzen door de voorgestelde aanpak.
Analyse op eiwit-databank
We voerden het voorgestelde algoritme uit op de volledige PDB. Een totaal aantal van 98.341 structuren vertegenwoordigd als eiwitten of eiwitten in complex met nucleïnezuren werden gedownload. Na het verwijderen van korte fragmenten < 50 residuen (omdat het onwaarschijnlijk is dat deze twee aaneengesloten kopieën van ANK-motieven bevatten) en eiwitten waaraan geen secundaire structuren zijn toegewezen, werden in totaal 94.975 structuren gebruikt voor analyse. Het voorgestelde algoritme identificeerde 819 eiwitstructuren die ten minste twee tandem-herhaalde ANK-motieven bevatten. Hiervan zijn er 181 geannoteerd als bekende ANK eiwitten in UniProt, Pfam, PROSITE en PDB waarvan ~ 50 structuren ontworpen Ankyrin repeat eiwitten (DARPINS) bevatten. Het aantal correct voorspelde Ankyrin repeat eiwitten is 178 en slechts 3 werden door onze benadering gemist, 1SW6 (keten A), 2ETB (keten A) en 3ZRH (keten A). In de eerste twee gevallen miste de voorgestelde aanpak de detectie van ANK-motieven, omdat de door UniProt geannoteerde herhaalgebieden 3-4 helices bevatten, terwijl volgens de in het algoritme gedefinieerde regels een ANK-motief bestaat uit twee anti-parallelle helices. In 3ZRH zijn de twee geannoteerde kopieën van ANK herhalingen niet aaneengesloten maar gescheiden door 23 residuen, en dus gemist door onze aanpak. Dus, de resterende 641 structuren worden voorgesteld als eerder niet-herkende Ankyrin herhalingen en zijn opgenomen in aanvullend bestand 2. Van deze eiwitten zijn er 27 geannoteerd met andere herhalingstypen, namelijk 9 TPR, 7 Pumilio-repeat, 2 HEAT, 2 Annexin-repeat, 2 Tumor necrose factor receptor (TNFR-Cys), 2 Mitochondriale terminatiefactor-repeat (MTERF), 2 Clathrin zware keten-repeat (CHCR) en 1 HAT (Additional file 2). Structureel zijn TPR, HEAT en HAT motieven zeer vergelijkbaar met ANK herhalen motief, elk van hen bestaande uit twee anti-parallelle schroeflijnen die een Helix-Turn-Helix kern en zijn ook van vergelijkbare lengte, ~ 30-34 residuen. Het belangrijkste verschil is dat het ANK motief een lange lus heeft die eindigt in een β draai, die niet aanwezig is in TPR, HEAT en HAT motieven. Zelfs met zo’n sterke gelijkenis tussen deze structurele motieven, worden slechts 13 fout-positieven (9 TPR, 3 HEAT en 1 HAT) door onze benadering gerapporteerd. Om de betrouwbaarheid van onze voorspelling in deze eiwitten te controleren, hebben we structuur-structuur superpositie uitgevoerd van de voorspelde ANK herhaalde regio met een DARPin motief uit 1N0R met behulp van de Cealign module in Pymol . Bijvoorbeeld, in eiwit 1OUV (keten A), zeven exemplaren van TPR zijn gemeld in UniProt database van 29-278 (Additional file 2) met 14 schroeflijnen H 1-H 14 zoals weergegeven in de secundaire structuur vertegenwoordiging van PDBsum in figuur 10 (a). De superpositie is goed met een RMSD (root mean square deviation) voor alle drie de voorspelde ANK-repeat-eenheden < 3 Å, zoals te zien is in figuur 10(b). Het A levc profiel in de Ankyrin voorspelde regio van 185 tot 292 in figuur 10(c) is ook zeer vergelijkbaar met die voor een typisch ANK motief in figuur 1(a). In dit geval bevinden de voorspelde ANK-herhalingsmotieven zich binnen de TPR-geannoteerde regio, die bestaat uit één helix van elke aangrenzende TPR-repeat en kan worden voorgesteld als H 2 i T i H 1 i + 1 waarbij H 2 i de tweede helix van het i e TPR-motief is en H 1 i + 1 de eerste helix van het (i + 1)e TPR-motief. De structurele uitlijning van de 7 geannoteerde TPR-regio’s werd uitgevoerd met een representatief TPR-motief van het ontworpen eiwit 1NA0 en de RMSD voor elke herhalingseenheid < 2 Å (resultaten niet weergegeven), wat suggereert dat de UniProt-annotatie ook correct is. Echter, de β draai tussen twee helices binnen een TPR motief werd waargenomen om langer te zijn dan die van de typische ontworpen TPR motief en lijkt op de terminale lus van het ANK motief. Dit suggereert de mogelijkheid van multi-repeat architectuur in complexe eiwitten. Voor 21 andere repeat-eiwitten werd een vergelijkbare multi-repeat architectuur waargenomen. In het geval van HEAT-repeat-eiwit 3LWW (keten A) bestaat de annotatie in UniProt uit zes aaneengesloten kopieën van 124-441 en twee afgelegen kopieën van 602-641 en 687-726. De voorspelde ANK-repeat ligt in de niet-HEAT-regio van 520-621 met een zeer kleine overlap van 20 residuen met de HEAT-repeat. In dit geval zijn twee verschillende herhalingen aanwezig in verschillende regio’s in het eiwit en in totaal werden 10 eiwitten waargenomen die twee verschillende herhalingstypen bevatten die elkaar niet overlappen (gemarkeerd met ‘*’ in Additional file 2). Voor deze eiwitten die een multi-repeat architectuur vertonen, zou het interessant zijn om de interactieplaatsen te analyseren, wat zou helpen bij het bevestigen van meerdere annotaties/functies in deze eiwitten met complexe architectuur. De hier voorgestelde structuurgebaseerde benadering is dus veelbelovend voor het detecteren van tandem structurele herhalingen in eiwitten en is krachtig genoeg om onderscheid te maken tussen zeer gelijkaardige structurele herhalingen, nl. Ankyrin en TPR/HEAT/HAT.
Functionele analyse van niet eerder herkende ankyrine-eiwitten
Wij identificeerden 641 niet eerder herkende ankyrine-herhalingseiwitten door de voorgestelde aanpak. In Tabel 4, presenteren we onze analyse van 11 van deze eiwitten. Bij al deze eiwitten zien we dat de bindingsplaatsen die in PDBsum worden vermeld, in de voorspelde Ankyrin repeat regio liggen. Bijvoorbeeld, het DNA polymerase lambda eiwit 3HWT (Mens), dat belangrijk is voor het DNA replicatie proces, bevat vier domeinen. De gerapporteerde DNA bindingsplaatsen in 3HWT zijn aanwezig in het DNA polymerase domein (257-331) en liggen op de tweede helix van beide kopieën van de voorspelde Ankyrine eenheden. De aanwezigheid van Ankyrin herhalingen in de DNA bindende eiwitten, 1SW6 en 3V30, geannoteerd in UniProt geeft steun aan onze voorspelling en mogelijke functionele rol van 3HWT. Deze analyse helpt bij het begrijpen van het type interactie waar 3HWT bij betrokken is en vergelijking met andere eiwitten met vergelijkbare functies kan leiden tot een beter begrip van de rol van Ankyrin herhalingen. Evenzo is de interactie van Ankyrin-repeats met RNA bekend in het geval van 1WDY en 4G8K. We stellen vast dat voor de eiwitten 3Q0P, 3K4E en 3V71 bindingsplaatsen in de voorspelde herhaalde regio zijn gerapporteerd met RNA als bindingspartner, wat onze voorspelling opnieuw ondersteunt.
Wij voorspelden Ankyrin herhalingen in twee mannosidase eiwitstructuren, 1FO3 (mens) en 1KRF (P. citrinum). Kifunensine (KIF) is de remmer van mannosidases en reguleert de activiteit van deze eiwitten. In PDBsum zijn de KIF bindingsplaatsen voor de eiwitten 1FO3 en 1KRF geannoteerd in de regio die door onze benadering als Ankyrin repeat is voorspeld. Dit suggereert nieuwe interacties van deze Ankyrin repeat eiwitten. Men zou dus een systematische analyse kunnen uitvoeren van andere, nog niet eerder herkende Ankyrin eiwitten om hun interagerende partners te identificeren, wat leidt tot een beter begrip van hun functionele rol.
Analyse van gemodelleerde ankyrin eiwitten
De structurele informatie over eiwitten neemt in snel tempo toe met de vooruitgang in het oplossen van eiwitstructuren, maar is nog steeds niet vergelijkbaar met de rijkdom aan sequentie-informatie. Van de meer dan 1200 eiwitten die in de UniProt database zijn geannoteerd als Ankyrin herhalingsmotieven, hebben slechts ongeveer 60 Ankyrin eiwitten structurele informatie beschikbaar. Om de doeltreffendheid van onze aanpak op gemodelleerde structuren aan te tonen, hebben we 30 Ankyrin repeat eiwitten uit de UniProt database gemodelleerd waarvan de structuur nog niet is opgelost. De structuren werden gemodelleerd met behulp van de Swiss-Model server, die template structuren uit PDB identificeert op basis van sequentie-dekking en sequentie-identiteit. De templates met een hoge dekking en sequentie-identiteit in de herhaalde regio zijn geselecteerd voor homologie-gebaseerde modellering van deze 30 eiwit-sequenties. Het voorgestelde algoritme, AnkPred, is uitgevoerd op de overeenkomstige gemodelleerde eiwitten en de voorspelling van herhaalde regio’s wordt gegeven in het Extra bestand 3. Figuur 11(a) toont de voorspelling van de voorgestelde aanpak op de gemodelleerde structuur van het Integrine-gekoppelde proteïnekinase (UniProt Id: Q99J82), die zeer goed overeenkomt met de annotatie in UniProt. Opgemerkt kan worden dat in ongeveer de helft van de eiwitten (gemarkeerd met een asterisk in Additional file 3), het voorspelde kopiegetal was toegenomen, waarbij terminale herhalingen werden geïdentificeerd. Het is bekend dat terminale kopieën over het algemeen minder geconserveerd zijn en soms onvolledig, en dus gemist door sequentie-gebaseerde methoden, maar worden geïdentificeerd door onze structuur-gebaseerde methode, zoals getoond voor ANKRD (UniProt Id: Q7Z3H0) eiwit in figuur 11 (b). Dit suggereert de kracht van onze aanpak bij het verbeteren van de annotatie van herhaalde regio’s voor eiwitsequenties waarvoor geen structuurinformatie beschikbaar is.
Analyse van andere structurele herhalingen
Om de werkzaamheid van de voorgestelde aanpak op andere eiwitherhalingsfamilies te beoordelen, presenteren we vervolgens onze analyse op vier verschillende herhalingstypen: Tetratricopeptide repeat (TPR), Armadillo repeat (ARM), Leucine-rijke repeat (LRR) en Kelch repeat. De 3-dimensionale structuur van een representatief eiwit van elk herhalingstype wordt getoond in figuur 12(a)-(d) en hun respectieve A levc-profielen in figuur 12(e)-(h). Een unieke A levc profiel wordt waargenomen in de herhaling regio’s in elk van deze eiwitten die goed geconserveerd binnen de aangrenzende repeterende eenheden zoals afgebeeld door het overlappen van de A levc profiel in de repeterende eenheden in figuur 12 (i) – (l). De verschillende A levc-profielen voor verschillende herhalingen komen overeen met de specifieke oriëntatie van de secundaire structuurelementen in elk herhalingstype. Opgemerkt kan worden dat het A levc-profiel voor de TPR-repeat zeer verschillend is vergeleken met dat van de Ankyrin-repeat (figuur 3(a)), hoewel deze van vergelijkbare lengte is en een zeer vergelijkbare secundaire structuurarchitectuur heeft met een helix-turn-helix-kern. Hieruit blijkt duidelijk de kracht van de eigen-spectra-analyse van het eiwitcontactnetwerk bij de identificatie van structurele herhalingen en de gevoeligheid ervan bij het onderscheiden van gelijksoortige structurele herhalingen.