Identificação de repetições de Ankyrin tandem em estruturas protéicas

Aqui apresentamos a análise do algoritmo proposto num conjunto representativo de quinze proteínas ANK repetidas (Tabela 2). Primeiramente discutimos em detalhe nossa análise sobre uma proteína ANK projetada, 1N0R (cadeia A), compreendendo quatro repetições ANK exatas em tandem como mostrado na Figura 2(a) e sua rede de contato protéica dada na Figura 2(b). Os principais vetores próprios da matriz adjacente, A levc , para a proteína ANK 1N0R projetada é plotada na Figura 3(a). Um claro padrão repetitivo no perfil do levc A é observado nas quatro regiões de repetição (linhas verticais sólidas e tracejadas correspondem a limites de repetição de início e fim com base na saída do RADAR). Isto é claramente visto pela sobreposição do perfil de levc A para as cópias repetidas individuais na Figura 3(b) após a normalização com o maior pico em cada cópia repetida. A previsão é boa tanto em termos do número de cópias como dos limites iniciais das regiões de repetição em comparação com a ferramenta baseada na sequência RADAR (ver Tabela 2), enquanto duas cópias de repetição não são vistas pelo programa ConSole baseado na estrutura, mesmo no caso da proteína ANK projetada. Os alinhamentos sequenciais múltiplos (MSA) das regiões de repetição previstas pela nossa abordagem, RADAR e ConSole são mostrados na Figura 4(a), (b) e (c), respectivamente, usando CLUSTALW . A MSA das cópias individuais em ambos os casos está muito bem conservada e em bom acordo.

Tabela 2 Predição das regiões de repetição para um conjunto representativo de 15 proteínas em comparação com a anotação UniProt, RADAR e ConSole
Figure 4
figure4

MSA das regiões de repetição previstas para 1N0R. (a) Previsto pela abordagem proposta, (b) Saída RADAR, e (c) Saída ConSole.

Consideramos em seguida um exemplo de uma proteína natural, fator estimulante Osteoclast 1, 3EHQ (cadeia A), que induz a reabsorção óssea. De acordo com a anotação em UniProt, ela contém três repetições de Ankyrin de 72-168 como mostrado na estrutura 3-D por cores diferentes na Figura 5(a). Na Figura 5(b) é mostrado o gráfico do perfil A de levc para o 3EHQ, indicando claramente a presença de três unidades repetidoras na região 72-177. Há uma boa concordância entre os limites previstos de início e fim das três unidades de repetição com a anotação UniProt (ver Tabela 2). Entretanto, a previsão das regiões de repetição por RADAR e ConSole não estão de acordo com a anotação UniProt. A previsão do RADAR difere tanto em termos do número da cópia como dos limites da repetição, falhando completamente a primeira repetição. A ConSole prevê três cópias das repetições ANK, mas as posições dos limites iniciais e finais das unidades de repetição estão desligadas por cerca de 10 resíduos para cada cópia repetida. Na Figura 6 é mostrado o MSA das regiões de repetição (a) previsto pela nossa abordagem, (b) anotado na base de dados UniProt, e (c) previsto pela ConSole. O MSA da região de repetição prevista na Figura 6(a) está em muito boa concordância com o da região de repetição prevista pela UniProt (Figura 6(b)), em comparação com o da região prevista pela ConSole na Figura 6(c). Os resultados para um conjunto representativo de 15 proteínas ANK repetidas estão resumidos na Tabela 2, juntamente com a anotação fornecida na base de dados UniProt, e as previsões por métodos baseados em seqüência e estrutura, RADAR e ConSole, respectivamente. De modo geral, observamos uma boa concordância na detecção de Ankyrin repete tanto no número de cópias como na repetição de limites com a anotação UniProt e também com ConSole.

Figure 5
figure5

Natural Ankyrin repeat protein 3EHQ (cadeia A). (a) A estrutura 3d, e (b) os componentes eigenvectoriais correspondentes ao maior valor eigenvectorial da matriz adjacente (A levc ).

Figure 6
figure6>

MSA das regiões de repetição na proteína 3EHQ. (a) previsto pela abordagem proposta, (b) anotado no banco de dados UniProt, e (c) previsto pela saída ConSole.

Na Tabela 2 as proteínas foram selecionadas para apresentar exemplos tanto de boa concordância quanto de discordância. Abaixo discutimos alguns exemplos em que a nossa previsão difere da anotação na base de dados UniProt. Por exemplo, no caso da proteína 3EU9 (cadeia A), cinco cópias de motivos ANK são anotadas no UniProt de 89-253, enquanto nossa abordagem prevê sete cópias, uma cópia extra de cada lado de 57-88 e 258-281. Da estrutura 3-D de 3EU9 na Figura 7(a) e do perfil A levc mostrado na Figura 7(b), fica claro que as repetições terminais previstas (mostradas em vermelho) apresentam um perfil A levc semelhante às cinco repetições intermediárias (mostradas em cinza). O alinhamento estrutural dessas repetições terminais preditas com um motivo estrutural representativo ANK (da proteína 1N0R projetada) usando o módulo Cealign em Pymol é mostrado na Figura 7(c) e (d); o desvio médio quadrático de raiz (RMSD) para cada cópia terminal é inferior a 1 Å indicando alta similaridade estrutural com o motivo ANK. Entretanto, no nível de seqüência, essas repetições terminais não são bem conservadas, como é claro na MSA das regiões previstas na Figura 8(a), em comparação com a das regiões de repetição anotadas no UniProt na Figura 8(b). Com uma cópia terminal adicional prevista pela ConSole, um total de seis cópias são previstas por ela, mas os limites das cópias da ConSole são deslocados por cerca de 10 resíduos, em comparação com a anotação UniProt. Em geral, as repetições do terminal são menos conservadas ao nível da sequência ou incompletas, e a sua detecção não é fácil. Em 52 outras proteínas (ver arquivo adicional 1), cópias adicionais das repetições ANK foram previstas pela abordagem proposta, melhorando assim a anotação da região de repetição completa nestas 53 proteínas. Em 16 desses casos, uma cópia extra também foi prevista pela ConSole. Para a proteína 3SO8 (cadeia A, UniProt Id: Q9H9E1), inicialmente três repetições ANK foram anotadas na versão anterior do UniProt (versão 2012_08) de 181-279, enquanto cinco repetições são previstas pela nossa abordagem do resíduo 149-310, ou seja, uma repetição extra em cada extremidade. Na recente liberação da base de dados UniProt (liberação 2014_05), a proteína é agora anotada como tendo cinco cópias do motivo ANK de 148-313, o que está de acordo com a previsão da abordagem proposta (Tabela 2).

Figure 7
figure7

Ankyrin natural repeat protein 3EU9 (cadeia A). (a) Estrutura 3-D (b) Lote do vetor próprio principal da matriz adjacente. (c) – (d) Alinhamento estrutural da cópia de repetição de anquirina extra prevista em 3EU9 (mostrado na cor azul) com uma cópia de repetição da proteína projetada 1N0R (mostrado na cor vermelha).

Figure 8
figure8

MSA das regiões de repetição na proteína 3EU9. (a) previsto pela abordagem proposta, e (b) anotado na base de dados UniProt.

Na proteína 1D9S (cadeia A), quatro repetições ANK são relatadas de 5-130 na base de dados UniProt, mas apenas duas são identificadas pela nossa abordagem de 71-129. Ao analisarmos a arquitetura da estrutura secundária do PDBsum para o 1D9S na Figura 9, observamos que a região 38-66 contém apenas uma hélice atribuída por ambas STRIDE e DSSP , enquanto um motivo ANK é composto por duas hélices anti-paralelas, sugerindo que esta região pode ter sido erroneamente anotada na base de dados UniProt. A região 5-34 é prevista como motivo ANK na triagem preliminar da nossa abordagem, mas é descartada na etapa de pós-processamento, enquanto relatando regiões tandem contíguas de repetição. Uma situação semelhante foi encontrada em 18 outras proteínas (ver arquivo adicional 1) onde a primeira repetição na anotação UniProt é inicialmente prevista pelo nosso algoritmo, mas posteriormente descartada porque a próxima repetição não é identificada dentro de um limite de 17 resíduos (metade do comprimento de um motivo ANK). Para todas estas proteínas, excepto 4HBD, uma ou mais cópias são perdidas pelo ConSole em comparação com a anotação UniProt (ver ficheiro adicional 1). É possível que em todas estas proteínas o motivo ANK em falta seja mutado para além do reconhecimento, mesmo ao nível da estrutura, ou que haja uma eliminação da hélice. Assim, vemos que os espectros próprios da matriz adjacente capturam muito bem o padrão de dobra repetitiva do motivo ANK e, ao incorporar a informação da estrutura secundária e variação nos seus comprimentos, é possível uma previsão precisa dos limites de repetição (Tabela 2). Entretanto, se houver um erro na atribuição da estrutura secundária, a previsão do algoritmo proposto é afetada.

Figure 9
figure9

Representação da estrutura secundária da proteína repetida de Ankyrin 1D9S (cadeia A) do PDBsum.

>

Desempenho do algoritmo proposto

Primeiro, discutimos a precisão da previsão dos motivos ANK com a anotação UniProt num conjunto conhecido de 370 proteínas, compreendendo um conjunto de teste positivo de 125 proteínas de Ankyrin repeat e um conjunto de teste negativo de 245 proteínas não solenóides. Os resultados estão resumidos na Tabela 3 (a), onde a sensibilidade e especificidade do algoritmo é computada da seguinte forma:

Sensibilidade= T P T P + F N ≃0.976
Specificidade= T N T N + F P ≃1

>

>
Tabela 3 Desempenho da abordagem proposta

onde TP corresponde ao número de proteínas de repetição de anquirina conhecidas correctamente previstas, FN – o número de proteínas conhecidas como Ankyrin repeat perdidas pela nossa abordagem, FP – o número de proteínas previstas pela nossa abordagem como contendo ANK tandem repetidas mas não anotadas como proteína de Ankyrin, e TN – o número de proteínas corretamente previstas pela nossa abordagem como proteínas não-Ankyrin. Como havia apenas três falsos negativos (FN), 1SW6, 2ETB e 3ZRH, e nenhum falso positivo (FP), a sensibilidade e especificidade do algoritmo é muito alta (≃1).

Next, para as proteínas de Ankyrin previstas, analisamos o número de motivos ANK corretamente previstos no conjunto de dados de 125 proteínas de Ankyrin repeat conhecidas e comparamos com uma abordagem recente baseada em estrutura, ConSole, e uma abordagem baseada em seqüência RADAR. Na base de dados UniProt, um total de 584 motivos ANK são anotados nestas 125 proteínas, enquanto 582 motivos ANK são previstos pela abordagem proposta, 528 por ConSole e 458 por RADAR. Os detalhes da análise estão resumidos na Tabela 3(b) em termos de sensibilidade e precisão, definidos como:

Sensibilidade= T P T P P + F N
Precisão= T P P T P + F P

Em outro lugar, TP é o número de motivos ANK corretamente previstos pelo método no conjunto de dados conhecido de 125 proteínas, FP é o número de motivos ANK previstos pelo método mas não anotados no banco de dados UniProt, e FN é o número de motivos ANK anotados falhados pelo método. Pode-se observar que tanto a sensibilidade quanto a precisão da abordagem proposta, AnkPred, é ~ 0,88, razoavelmente bom comparado com o ConSole (0,72 e 0,79) e RADAR (0,68 e 0,86), respectivamente. Sabe-se que as cópias terminais têm baixa conservação de sequência, resultando em menor sensibilidade do método RADAR. Reconhecemos que a sensibilidade do nosso algoritmo, com sua dependência da atribuição da estrutura secundária, pode ser ainda melhorada.

Para analisar a precisão dos limites de repetição previstos pela abordagem proposta, construímos o alinhamento de sequências múltiplas (MSA) dos 582 motivos ANK previstos no conjunto de dados de 125 proteínas de Ankyrin conhecidas usando CLUSTALW .O consenso dos motivos ANK previstos foi então construído usando SeaView a 50% de identidade e é dado abaixo:

XGXTPLHXAXXXGXXXXXXXLLXXXAXX

Este está em muito boa concordância com o consenso do motivo ANK proposto por Kohl et al. e Mosavi et al. . O motivo tetrapéptido conservado TPLH nas posições 4-7, Glycine nas posições 2 e 13, e Leucine nas posições 21-22 confirma a precisão da previsão dos limites de repetição pela abordagem proposta.

Análise no banco de dados de proteínas

Realizamos o algoritmo proposto no PDB completo. Um número total de 98.341 estruturas representadas como proteínas ou proteínas em complexo com ácidos nucléicos foram baixadas. Na remoção de fragmentos curtos < 50 resíduos (pois é improvável que estes contenham duas cópias contíguas de motivos ANK) e proteínas sem estruturas secundárias atribuídas, um total de 94.975 estruturas foram utilizadas para análise. O algoritmo proposto identificou 819 estruturas protéicas contendo pelo menos dois motivos ANK tandemamente repetidos. Destas 181 são anotadas como proteínas ANK conhecidas em UniProt, Pfam, PROSITE e PDB, das quais ~ 50 estruturas contêm proteínas projetadas de Ankyrin repeat (DARPINS). O número de proteínas de Ankyrin repeat correctamente previsto é 178 e apenas 3 foram perdidas pela nossa abordagem, 1SW6 (cadeia A), 2ETB (cadeia A) e 3ZRH (cadeia A). Nos dois primeiros casos a abordagem proposta falhou a detecção dos motivos ANK, uma vez que as regiões repetidas anotadas UniProt contêm 3-4 hélices, enquanto que de acordo com as regras definidas no algoritmo, um motivo ANK é composto por duas hélices anti-paralelas. No 3ZRH as duas cópias anotadas das repetições ANK não são contíguas, mas separadas por 23 resíduos, e portanto falhadas pela nossa aproximação. Assim, as 641 estruturas restantes são propostas como repetidas Ankyrin não reconhecidas anteriormente e são listadas no arquivo adicional 2. Observa-se que 27 destas proteínas são anotadas como contendo outros tipos de repetição, a saber, 9 TPR, 7 Pumilio repeat, 2 HEAT, 2 Annexin repeat, 2 Tumor necrosis factor receptor (TNFR-Cys), 2 Mitochondrial termination factor repeat (MTERF), 2 Clathrin heavy chain repeat (CHCR) e 1 HAT (arquivo adicional 2). Estruturalmente, os motivos TPR, HEAT e HAT são muito semelhantes ao motivo ANK repeat, cada um deles compreendendo duas hélices anti-paralelas formando um núcleo Helix-Turn-Helix e são também de comprimentos semelhantes, ~ 30-34 resíduos. A maior diferença é que o motivo ANK tem um laço longo que termina numa volta β que não está presente nos motivos TPR, HEAT e HAT. Mesmo com uma semelhança tão forte entre estes motivos estruturais, apenas 13 falsos positivos (9 TPR, 3 CALORES e 1 CHEIO) são relatados pela nossa abordagem. Para verificar a confiabilidade de nossa previsão nestas proteínas, realizamos a superposição estrutura-estrutura da região de repetição ANK prevista com um motivo DARPin de 1N0R usando o módulo Cealign em Pymol . Por exemplo, na proteína 1OUV (cadeia A), sete cópias do TPR são relatadas na base de dados UniProt de 29-278 (arquivo adicional 2) contendo 14 hélices H 1-H 14 como mostrado na representação da estrutura secundária do PDBsum na Figura 10(a). A sobreposição é boa com o desvio médio quadrático (RMSD) para todas as três unidades de repetição ANK previstas < 3 Å, como mostrado na Figura 10(b). O perfil do levc A na região de Ankyrin prevista de 185 a 292 na Figura 10(c) também é muito semelhante ao de um motivo típico da ANK na Figura 1(a). Neste caso, os motivos de repetição ANK previstos estão dentro da região anotada do TPR, composta de uma hélice de cada repetição TPR adjacente e podem ser representados como H 2 i T i H 1 i + 1 onde H 2 i é a segunda hélice do motivo i do TPR e H 1 i + 1 é a primeira hélice do motivo (i + 1)do TPR. O alinhamento estrutural das 7 regiões de TPR anotadas foi realizado com um motivo de TPR representativo da proteína 1NA0 e RMSD projetada para cada unidade de repetição < 2 Å (resultados não mostrados) sugerindo que a anotação UniProt também está correta. No entanto, a curva β entre duas hélices dentro de um motivo TPR foi observada como sendo mais longa do que a do típico motivo TPR projetado e se assemelhando ao laço terminal do motivo ANK. Isto sugere a possibilidade de uma arquitectura multi-repetição em proteínas complexas. Para outras 21 proteínas repetidas, foi observada uma arquitetura similar de multi-repetição. No caso da proteína HEAT repeat protein 3LWW (cadeia A), a anotação em UniProt é de seis cópias contínuas de 124-441 e duas cópias distantes de 602-641 e 687-726. A repetição ANK prevista encontra-se na região não aquecida de 520-621 com sobreposição muito pequena de 20 resíduos com a repetição HEAT. Neste caso, duas repetições diferentes estão presentes em regiões diferentes da proteína e foi observado um total de 10 proteínas contendo dois tipos diferentes de repetição que não se sobrepõem (marcado com ‘*’ no arquivo adicional 2). Para estas proteínas que exibem arquitetura multi-repetição, seria interessante analisar os sites de interação que ajudariam na confirmação de múltiplas anotações/funções nestas proteínas com arquitetura complexa. Assim, a abordagem baseada na estrutura aqui proposta é promissora na detecção de repetições estruturais tandem em proteínas e é poderosa o suficiente para distinguir entre repetições estruturais muito semelhantes, a saber: Ankyrin e TPR/HEAT/HAT.

Figure 10
figure10

Predicted Ankyrin repeat protein 1OUV (chain A). (a) Representação da estrutura secundária do PDBsum (b) Alinhamento estrutural da cópia prevista ANK repeat (mostrada na cor azul) com uma cópia repetida da proteína ANK 1N0R projetada (mostrada na cor laranja) (c) Um gráfico levc com linhas pontilhadas e sólidas mostrando o início e o fim dos limites previstos ANK.

Análise funcional de proteínas de anquirina anteriormente não reconhecidas

Identificamos 641 proteínas repetidas de anquirina anteriormente não reconhecidas pela abordagem proposta. Na Tabela 4, apresentamos nossa análise de 11 dessas proteínas. Em todas essas proteínas, observamos que os locais de ligação relatados no PDBsum se encontram na região prevista de Ankyrin repeat. Por exemplo, a proteína 3HWT (Humana) DNA polimerase lambda, que é importante para o processo de replicação do DNA, contém quatro domínios. Os locais de ligação de DNA relatados no 3HWT estão presentes no domínio da DNA polimerase (257-331) e se encontram na segunda hélice de ambas as cópias das unidades de anquirina previstas. A presença de Ankyrin se repete nas proteínas de ligação de DNA, 1SW6 e 3V30, anotadas no UniProt, fornece suporte à nossa previsão e possível papel funcional do 3HWT. Esta análise ajuda a compreender o tipo de interacção em que o 3HWT está envolvido e a comparação com outras proteínas com funções semelhantes pode levar a uma melhor compreensão do papel das repetições de Ankirina. Da mesma forma, a interação da Ankyrin se repete com RNA é conhecida no caso do 1WDY e do 4G8K. Observamos que as proteínas 3Q0P, 3K4E e 3V71 têm locais de ligação relatados na região prevista de repetição com RNA como o parceiro de ligação, mais uma vez fornecendo suporte à nossa previsão.

Tabela 4 Exemplo de proteínas com locais de ligação na região prevista de repetição da anquirina

Prevemos que a anquirina se repete em duas estruturas proteicas de manosidase, 1FO3 (humano) e 1KRF (P. citrinum). A Kifunensina (KIF) é o inibidor das manosidases e regula a atividade destas proteínas. No PDBsum, os locais de ligação da KIF para as proteínas 1FO3 e 1KRF são anotados na região prevista como Ankyrin repeat pela nossa abordagem. Isto sugere novas interações destas proteínas de repetição de anquirina. Assim, pode-se realizar uma análise sistemática de outras proteínas Anyrin anteriormente não reconhecidas para identificar seus parceiros interativos, levando a uma compreensão de seu papel funcional.

Análise de proteínas anquilinas modeladas

Informação estrutural das proteínas está aumentando a um ritmo acelerado com os avanços na resolução das estruturas protéicas, mas ainda não é comparável com a riqueza de informação da seqüência. Pode-se notar que de mais de 1200 proteínas anotadas como contendo motivos de repetição de Ankyrin na base de dados UniProt, apenas cerca de 60 proteínas de Ankyrin têm informação estrutural disponível. Para mostrar a eficácia da nossa abordagem em estruturas modeladas, nós modelamos 30 proteínas de Ankyrin repeat da base de dados UniProt para as quais a estrutura ainda não está resolvida. As estruturas foram modeladas utilizando o servidor Swiss-Model , que identifica as estruturas modelo do PDB com base na cobertura da sequência e na identidade da sequência. Os modelos com alta cobertura e identidade de seqüência na região de repetição são selecionados para modelagem baseada em homologia dessas 30 seqüências de proteínas. O algoritmo proposto, AnkPred, é executado sobre as proteínas modeladas correspondentes e a previsão das regiões de repetição é dada no arquivo adicional 3. Na Figura 11(a) é mostrada a previsão da abordagem proposta na estrutura modelada da proteína quinase ligada à Integrin (UniProt Id: Q99J82), que está em muito boa concordância com a anotação em UniProt. Pode-se notar que em cerca de metade das proteínas (marcadas por um asterisco no arquivo adicional 3), o número de cópias previsto tinha aumentado, com repetições terminais sendo identificadas. Sabe-se que as cópias terminais são geralmente menos conservadas e por vezes incompletas , e portanto falhadas por métodos baseados em sequência, mas são identificadas pelo nosso método baseado em estrutura, como mostrado para a proteína ANKRD (UniProt Id: Q7Z3H0) na Figura 11(b). Isto sugere o poder da nossa abordagem em melhorar a anotação de regiões repetidas para seqüências proteicas para as quais não há informação estrutural disponível.

Figure 11
figure11

Previsão das estruturas modeladas mostradas. (a) Integrin-linked protein kinase (UniProt Id: Q99J82). Os limites de repetição de cinco motivos Ankyrin previstos pelo AnkPred (mostrados em cores diferentes) estão em boa concordância com cinco cópias anotadas em Uniprot. (b) Proteína ANKRD (UniProt Id: Q7Z3H0). Neste caso apenas 3 motivos Ankyrin são anotados em UniProt (cópias intermediárias) enquanto AnkPred prevê duas cópias adicionais de cada lado.

Análise de outras repetições estruturais

Para avaliar a eficácia da abordagem proposta em outras famílias de repetição de proteína, apresentamos em seguida nossa análise em quatro tipos diferentes de repetição: Tetratricopeptide repeat (TPR), Armadillo repeat (ARM), Leucine-rich repeat (LRR) e Kelch repeat. A estrutura tridimensional de uma proteína representativa de cada tipo de repetição é mostrada na Figura 12(a)-(d) e seus respectivos perfis A levc na Figura 12(e)-(h). Um perfil único de levc A é observado nas regiões de repetição em cada uma destas proteínas que estão bem conservadas dentro das unidades de repetição adjacentes, como representado pela sobreposição do perfil de levc A nas unidades de repetição da Figura 12(i)-(l). Os diferentes perfis de levc A para diferentes repetições correspondem à orientação específica dos elementos estruturais secundários em cada tipo de repetição. Pode-se notar que o perfil de levc A para a repetição do TPR é muito distinto em comparação com o da repetição da Ankyrin (Figura 3(a)), embora seja de comprimento semelhante e tenha arquitetura de estrutura secundária muito semelhante com núcleo de hélice – hélice. Isto mostra claramente o poder da análise dos espectros próprios da rede de contato protéica na identificação das repetições estruturais e sua sensibilidade em distinguir repetições estruturais similares.

Figure 12
figure12

Proteínas de outras famílias de repetição estrutural. (a)-(d) Estrutura 3-D: (a) 2C2L: corrente A (TPR) (b) 3SL9: corrente A (ARM) (c) 1D0B: corrente A (LRR) (d) 1U6D: corrente X (KELCH). Em (e), (f), (g) e (h) a trama A levc para as respectivas proteínas mostradas. Em (i), (j), (k) e (l) o perfil de levc A das regiões de repetição das respectivas proteínas são sobrepostos.