Identifying tandem Ankyrin repeats in protein structures

ここでは、15個のANKリピートタンパクの代表セット(表2)に対する提案アルゴリズムの解析を紹介します。 まず、図2(a)に示すように4つの正確なANK反復配列からなる設計されたANKタンパク質1N0R(鎖A)と図2(b)に示すそのタンパク質接触ネットワークについての解析を詳細に説明する。 図3(a)に設計されたANKタンパク質1N0Rの隣接行列A levcの主固有ベクトルをプロットする。 A levc プロファイルには、4つの繰り返し領域で明確な繰り返しパターンが見られる(破線と実線の垂直線は、RADAR 出力に基づく開始-終了繰り返し境界線に対応する)。 これは、各リピートコピーにおける最大のピークで正規化した後、図3(b)の個々のリピートコピーのA levcプロファイルを重ね合わせることで明確にわかる。 この予測は、配列ベースのツールRADARと比較して、繰り返し領域のコピー数および開始端境界の両方において良好である(表2参照)。一方、構造ベースのプログラムConSoleでは、設計されたANKタンパク質の場合でさえ、2つの繰り返しコピーを見逃してしまう。 CLUSTALW を用いて、我々のアプローチ、RADAR、ConSole によって予測された繰り返し領域の多重配列アラインメント(MSA)をそれぞれ図 4(a)、(b)、(c) に示す。 いずれの場合も、個々のコピーのMSAは非常によく保存され、よく一致する。

Table 2 代表的な15個のタンパク質セットに対する繰り返し領域の予測とUniProtアノテーション、RADAR、ConSole出力との比較
Figure 4
figure4

1N0R に対する予測繰り返し領域のMSA. (a)提案されたアプローチによって予測された、(b)RADAR出力、(c)ConSole出力。

次に、骨吸収を誘導する天然タンパク質、骨芽細胞刺激因子1、3EHQ(鎖A)の例について考察している。 UniProtのアノテーションによれば、図5(a)の3次元構造に異なる色で示すように、72〜168の3つのAnkyrin repeatを含んでいる。 図5(b)は3EHQのA levcプロファイルプロットであり、72-177の領域に3つの繰り返し単位が存在することを明確に示している。 3つの繰り返し単位の予測された開始端境界とUniProtのアノテーションとの間には良い一致が見られた(表2参照)。 しかし、RADARとConSoleによる繰り返し領域の予測は、UniProtのアノテーションと一致しない。 RADARによる予測は、コピー数、リピート境界ともに異なり、最初のリピートは完全に見逃されている。 ConSoleはANKの繰り返しを3つ予測したが、繰り返し単位の始端境界の位置は、それぞれの繰り返しについて10残基程度ずれている。 図6に、(a)我々の手法で予測された繰り返し領域、(b)UniProtデータベースで注釈された領域、(c)ConSoleで予測された領域のMSAを示す。 図6(a)の予測リピート領域のMSAは、図6(c)のConSole予測領域のMSAと比較して、UniProt注釈付きリピート領域(図6(b))のMSAと非常によく一致しています。 代表的な15種類のANKリピートタンパク質について、UniProtデータベースで提供されているアノテーション、配列および構造に基づく手法であるRADARとConSoleによる予測結果をそれぞれ表2にまとめた。

Figure 5
figure 5

Natural Ankyrin repeat protein 3EHQ (chain A)のコピー数、リピート境界ともによく一致している。 (a) 3次元構造、(b) 隣接行列(A levc )の最大固有値に対応する固有ベクトル成分。

Figure 6
figure 6

MSA in the protein 3EHQリピート領域のSSA。 (a)提案されたアプローチで予測、(b)UniProtデータベースで注釈、(c)ConSole出力で予測。

表2では、良い一致と不一致の両方の例を示すためにタンパク質が選択されています。 以下、我々の予測とUniProtデータベースのアノテーションが異なるいくつかの例について述べる。 例えば、タンパク質3EU9(鎖A)の場合、UniProtではANKモチーフは89-253の5コピーと注釈されているが、我々のアプローチでは57-88と258-281の両側で余分に7コピーと予測される。 図7(a)の3EU9の立体構造と図7(b)のA levc profileから、予測された末端リピート(赤で示す)は5つの中間リピート(灰で示す)と同様のA levc profileを示していることが明らかである。 PymolのCealignモジュールを用いて、これらの予測された末端リピートの代表的な構造ANKモチーフ(設計タンパク質1N0Rから)との構造アラインメントを図7(c)及び(d)に示す。各末端コピーについてのRMSD(Root Mean Square Deviation)は、ANKモチーフとの高い構造類似性を示す1Å未満であった。 しかし、配列レベルでは、図8(a)の予測領域のMSAと図8(b)のUniProt注釈付き繰り返し領域のMSAを比較すると明らかなように、これらの末端繰り返しはあまり保存されていないことがわかる。 ConSoleによって予測される末端コピーは1つ追加され、合計6つのコピーが予測されるが、ConSoleコピーの境界はUniProtアノテーションと比較して約10残基分ずれている。 一般に、末端リピートは配列レベルでの保存性が低いか、不完全であり、その検出は容易でない。 他の52のタンパク質(追加ファイル1参照)では、提案した手法によりANK反復配列の追加コピーが予測され、これらの53のタンパク質における完全な反復配列領域のアノテーションが改善されました。 これらのうち16のケースでは、ConSoleでも1つの余分なコピーが予測されています。 3SO8(鎖A、UniProt ID: Q9H9E1)については、UniProtの初期リリース(リリース2012_08)では、181-279に3つのANK繰り返しがアノテーションされていましたが、我々のアプローチでは149-310に5つが予測され、すなわち両端に1つの余分の繰り返しがあると予測されます。 UniProtデータベースの最近のリリース(リリース2014_05)では、このタンパク質は148-313からANKモチーフの5つのコピーを有すると注釈されており、これは提案したアプローチの予測と一致する(表2)。

図7
図7

天然アンキリン反復タンパク質3EU9(チェーンA)。 (a)3次元構造 (b)隣接行列の主固有ベクトルのプロット。 (c) – (d) 3EU9で予測された余分なアンキリンリピートコピー(青色で示す)と設計したタンパク質1N0Rのリピートコピー(赤色で示す)の構造アライメント。

図8
図8

タンパク質3EU9におけるリピート領域のMSA。 (a)提案手法で予測、(b)UniProtデータベースで注釈。

タンパク質1D9S(鎖A)ではUniProtデータベースで5-130に4つのANK繰り返しが報告されているが、我々のアプローチでは71-129に2つのみ特定された。 図9の1D9SのPDBsumの二次構造解析では、38-66の領域はSTRIDEとDSSPの両方で割り当てられた1本のらせんだけであり、ANKモチーフは2本の逆平行らせんからなることが観察され、この領域はUniProtデータベースの間違ったアノテーションである可能性が示唆された。 このことは、この領域がUniProtデータベースにおいて誤ってアノテーションされている可能性を示唆している。5-34の領域は、我々のアプローチの予備スクリーニングではANKモチーフとして予測されたが、後処理の段階で、連続したタンデムリピート領域を報告する際に破棄された。 また、他の18のタンパク質(Additional file 1参照)でも、UniProtのアノテーションにある最初の繰り返しが最初に予測されるが、17残基(ANKモチーフの半分の長さ)の閾値内で次の繰り返しが識別されないため、後に破棄された。 4HBDを除くこれらのタンパク質では、ConSoleはUniProtのアノテーションと比較して、1つ以上のコピーを見落としました(追加ファイル1参照)。 これらのタンパク質では、欠落したANKモチーフが構造レベルでも認識できないほど変異しているか、ヘリックスが欠落している可能性がある。 このように、隣接行列の固有スペクトルはANKモチーフの反復フォールドパターンを非常によく捉えており、二次構造情報やその長さのばらつきを取り込むことで、繰り返し境界を正確に予測することが可能であることがわかる(表2)。 しかし、二次構造の割り当てに誤りがあると、提案アルゴリズムの予測に影響が出る。

Figure 9
figure 9

PDBsumからのAnkyrin repeat protein 1D9S(鎖A)の二次構造表現。

提案アルゴリズムの性能

まず、125のAnkyrin repeatタンパク質からなるポジティブテストセットと245の非ソレノイドタンパク質からなるネガティブテストセットの370の既知のタンパク質セットについてUniProtアノテーションによるANKモチーフの予測精度について議論する。 結果は表3(a)にまとめられており、アルゴリズムの感度と特異性は以下のように計算される:

Sensitivity= T P T P + F N ≃0.976
Specificity= T N T N + F P ≃1
Table 3 提案手法の性能

ここで TP は正しく予測された既知のAnkyrin repeatタンパク質の数である。 FN -我々のアプローチによって見逃された既知のアンキリンリピートタンパク質の数、FP -我々のアプローチによってタンデムANKリピートを含むと予測されたがアンキリンタンパク質として注釈されていないタンパク質の数、TN -我々のアプローチによって非アンキリンタンパク質として正しく予測されたタンパク質の数です。 次に、予測されたアンキリンタンパク質について、125の既知のアンキリンリピートタンパク質のデータセットで正しく予測されたANKモチーフの数を分析し、最近の構造ベースのアプローチであるConSoleおよび配列ベースのアプローチであるRADARと比較した。 UniProtデータベースにおいて、これら125のタンパク質には合計584のANKモチーフがアノテーションされているが、提案するアプローチでは582、ConSoleでは528、RADARでは458のANKモチーフが予測された。 解析の詳細を表3(b)に、感度、精度として定義してまとめた。

Sensitivity= T P T P + F N
Precision= T P T P + F P

where, TPは125タンパク質の既知のデータセットにおいて本手法により正しく予測したANKモチーフの数である。 FPは本手法で予測されたがUniProtデータベースで注釈されていないANKモチーフの数、FNは本手法で注釈されなかったANKモチーフの数である。 提案手法であるAnkPredの感度と精度はともに〜0.88であり、ConSole(0.72と0.79)およびRADAR(0.68と0.86)に比べて適度に良いことが観察されます。 末端コピーは配列保存性が低いことが知られており、その結果、RADAR法の感度が低くなっています。

提案する手法で予測されたリピート境界の精度を分析するために、125の既知のアンキリンタンパク質のデータセットで予測された582のANKモチーフのMultiple sequence alignment(MSA)をCLUSTALWで構築した。そして、予測された ANK モチーフのコンセンサスを SeaView を用いて 50%の同一性で構築し、以下に示す。

XGXTPLHAXXXXXGXXXXLXXX

これは Kohl らと Mosavi らによって提案されたコンセンサス ANKモチーフと非常に良く一致する。 また、4-7位にTPLH、2位と13位にグリシン、21-22位にロイシンが保存されていることから、提案手法によるリピート境界の予測精度を確認することができた。 タンパク質またはタンパク質と核酸の複合体として表される総数98,341の構造がダウンロードされた。 短い断片 < 50 残基(これらは ANK モチーフの連続したコピーを含む可能性が低いため)と二次構造が割り当てられていないタンパク質を削除すると、合計 94,975 構造が解析に使用されました。 提案したアルゴリズムにより、少なくとも2つのタンデムに繰り返されるANKモチーフを含む819のタンパク質構造が同定されました。 これらのうち181個はUniProt、Pfam、PROSITE、PDBで既知のANKタンパク質として注釈されており、そのうち約50個の構造は設計されたANK反復タンパク質(DARPINS)であった。 正しく予測されたアンキリンリピートタンパク質の数は178であり、我々のアプローチでは3つだけ見逃されました。 最初の2つのケースでは、UniProtに注釈された繰り返し領域が3-4個のらせんを含むため、提案されたアプローチではANKモチーフの検出を逃しました。 3ZRHでは、2つの注釈付きANK反復配列は連続ではなく、23残基離れているため、我々のアプローチでは見逃されました。 したがって、残りの641個の構造は、これまで認識されていなかったアンキリンリピートとして提案され、追加ファイル2にリストアップされています。 これらのタンパク質のうち27個は他のリピートタイプを含むと注釈されている。すなわち、9 TPR、7 Pumilio repeat、2 HEAT、2 Annexin repeat、2 Tumor necrosis factor receptor (TNFR-Cys) 、2 Mitochondrial termination factor repeat (MTERF) 、2 Clathrin heavy chain repeat (CHCR) および 1 HAT (Additional file 2)である。 TPR、HEAT、HATモチーフはANKモチーフと構造的に非常によく似ており、それぞれがHelix-Turn-Helixコアを形成する2つの逆平行ヘリックスからなり、長さも30-34残基とほぼ同じであった。 大きな違いは、ANKモチーフにはβターンで終わる長いループがあり、TPR、HEAT、HATモチーフには存在しないことである。 このような構造モチーフの強い類似性があるにもかかわらず、我々のアプローチでは13件(TPR 9件、HEAT 3件、HAT 1件)しか偽陽性が報告されていません。 また、PymolのCealignモジュールを用いて、予測されたANKリピート領域と1N0RのDARPinモチーフの構造-構造重ね合わせを行い、予測の信頼性を確認した。 例えば、タンパク質1OUV(鎖A)では、図10(a)のPDBsumからの二次構造表現に示すように、H 1-H 14のヘリックスを含む29-278のUniProtデータベース(追加ファイル2)に7個のTPRのコピーが報告されている。 図10(b)に示すように、予測された3つのANK反復単位すべてについて二乗平均平方根偏差(RMSD)が< 3Åと良好な重ね合わせができた。 図10(c)の185から292までのアンキリン予測領域のA levcプロファイルも、図1(a)の典型的なANKモチーフのプロファイルと非常によく似ている。 この場合、予測されたANKリピートモチーフはTPR注釈領域内にあり、隣接する各TPRリピートから1つのヘリックスで構成され、H 2 i T i H 1 i + 1として表すことができる。ここでH 2 iはi番目のTPRモチーフの第2ヘリックス、H 1 i + 1は(i + 1)番目のTPRモチーフの第1ヘリックスである。 7つのアノテーションされたTPR領域の構造アラインメントを設計タンパク質1NA0の代表的なTPRモチーフで行ったところ、各繰り返し単位のRMSD < 2 Å(結果示さず)であり、UniProtアノテーションも正しいことが示唆された。 しかし、TPRモチーフ内の2つのヘリックス間のβターンは、典型的な設計されたTPRモチーフのそれよりも長く、ANKモチーフの末端ループに似ていることが観察された。 このことは、複雑なタンパク質にマルチリピート構造が存在する可能性を示唆している。 他の21のリピートタンパク質についても、同様のマルチリピートアーキテクチャが観察された。 HEATリピートタンパク質3LWW(chain A)の場合、UniProtでのアノテーションは、124-441の連続した6つのコピーと602-641と687-726の離れた2つのコピーであった。 ANKリピートは520-621の非HEAT領域にあり、HEATリピートとの重複は20残基と非常に小さいことが予測される。 この場合、2つの異なる繰り返しがタンパク質内の異なる領域に存在し、互いに重ならない2つの異なる繰り返しタイプを含む合計10個のタンパク質が観察された(追加ファイル2で’*’をマーク)。 これらのタンパク質では、相互作用部位を解析することで、複雑な構造を持つタンパク質の複数のアノテーションや機能を確認することができると思われます。 このように、ここで提案した構造に基づくアプローチは、タンパク質中のタンデム構造反復を検出するのに有望であり、アンキリンとTPR/HEAT/HATのような非常に類似した構造反復を区別するのに十分強力である。 (a)PDBsumからの二次構造表現(b)予測されたANK反復コピー(青色で示す)と設計されたANKタンパク質1N0Rの反復コピー(オレンジで示す)の構造アライメント(c)予測されたANK境界の開始と終了を示す点線と実線によるlevcプロット(a)。

Functional analysis of previously unrecognized ankyrin proteins

我々は提案したアプローチにより、641の以前に認識されていないAnkyrin repeat proteinを同定した。 表4では、これらのうち11のタンパク質の解析結果を示す。 これら全てのタンパク質において、PDBsumで報告された結合部位が予測されたアンキリンリピート領域に存在することが確認された。 例えば、DNAの複製に重要なDNAポリメラーゼλタンパク質3HWT(ヒト)は、4つのドメインを含んでいる。 3HWTで報告されているDNA結合部位は、DNAポリメラーゼドメイン(257-331)に存在し、予測されるアンカリンユニットの両方のコピーの第2ヘリックス上に位置している。 UniProtで注釈されたDNA結合タンパク質である1SW6と3V30にアンキリンリピートが存在することは、我々の予測と3HWTの機能的役割の可能性を支持するものである。 この解析は、3HWTがどのような相互作用に関与しているかを理解するのに役立ち、同様の機能を持つ他のタンパク質との比較により、Ankyrin repeatの役割のより良い理解につながる可能性がある。 同様に、アンキリンリピートとRNAの相互作用は、1WDYと4G8Kのケースで知られています。

Table 4 予測されたアンキリンリピート領域に結合部位を持つタンパク質例

我々は、1FO3(ヒト)と1KRF(シトリナム)の2つのマンノシダーゼタンパク質の構造でアンキリンリピートを予言した。 キフネンシン(KIF)はマンノシダーゼの阻害剤であり、これらのタンパク質の活性を調節している。 PDBsumでは、1FO3および1KRFのKIF結合部位は、我々のアプローチでAnkyrin repeatと予測された領域にアノテーションされている。 このことは、これらのアンキリンリピートタンパク質の新しい相互作用を示唆しています。

Analysis of Modelled Ankyrin proteins

Protein structural information is rapidly pace increasing with solving protein structures, but still not comparable with the wealth of sequence information.タンパク質構造の解明の進歩に伴い、タンパク質構造情報は急速に増加している。 UniProtデータベースでAnkyrin repeatモチーフを含むと注釈された1200以上のタンパク質のうち、構造情報が利用可能なAnkyrinタンパク質は60程度であることに注目してもよいだろう。 モデル化された構造に対する我々のアプローチの有効性を示すために、我々はUniProtデータベースから構造が未解決の30種のアンキリンリピートタンパク質をモデル化した。 これらの構造は、配列カバー率と配列同一性に基づいてPDBからテンプレート構造を識別するSwiss-Modelサーバを使用してモデリングされました。 これらの30個のタンパク質配列の相同性に基づいたモデリングを行うために、繰り返し領域において高いカバー率と配列同一性を持つテンプレートが選択された。 提案したアルゴリズムAnkPredは、対応するモデリングされたタンパク質に対して実行され、繰り返し領域の予測はAdditional file 3に示されています。 図 11(a)は、インテグリン結合型プロテインキナーゼ(UniProt Id: Q99J82)のモデリング構造に対する提案手法の予測を示しており、UniProt の注釈と非常によく一致している。 また、約半数のタンパク質(Additional file 3でアスタリスクが付けられている)では、予測されるコピー数が増加し、末端の繰り返しが同定されていることに注目されます。 一般に末端コピーは保存状態が悪く、不完全であることが知られており、そのため配列ベースの手法では見落とされますが、図11(b)のANKRD(UniProt ID: Q7Z3H0)タンパク質で示されるように、構造ベースの手法では同定されます。

Figure 11
figure 11

モデルの構造で予測した結果を示す。 (a) インテグリン結合型プロテインキナーゼ(UniProt Id:Q99J82)。 AnkPredによって予測された5つのアンキリンモチーフの繰り返し境界(異なる色で示す)は、Uniprotにおいて注釈された5つのコピーとよく一致する。 (b) ANKRDタンパク質(UniProt Id: Q7Z3H0)。 この場合、3つのアンキリンモチーフのみがUniProtに注釈されている(中間コピー)のに対し、AnkPredは両側にさらに2つのコピーを予測する。

他の構造反復の分析

他のタンパク質反復族に対する提案アプローチの効力を評価するために、次に4つの異なる反復タイプに関する分析を示す。 Tetratricopeptide repeat (TPR), Armadillo repeat (ARM), Leucine-rich repeat (LRR) and Kelch repeatである。 図12(a)-(d)に各リピートタイプの代表的なタンパク質の3次元構造を、図12(e)-(h)にそれぞれのA levcプロフィールを示す。 図12(i)-(l)に繰り返し単位内のA levcプロファイルを重ねることによって描かれているように、これらのタンパク質のそれぞれの繰り返し領域には、隣接する繰り返し単位内でよく保存されている固有のA levcプロファイルが観察される。 異なる繰返しに対する異なるA levcプロファイルは、各繰返しタイプにおける二次構造要素の特定の配向に対応する。 TPRのA levcプロファイルは、AnkyrinのA levcプロファイル(Figure 3(a))と比較して非常に明確であることに注目されたい。 これは、構造的反復の同定におけるタンパク質接触ネットワークの固有スペクトル解析の威力と、類似した構造的反復を区別する感度を明らかに示している。

Figure 12
figure 12

他の構造的反復ファミリーのタンパク質。 (a)〜(d)3次元構造。 (a)2C2L:鎖A(TPR)(b)3SL9:鎖A(ARM)(c)1D0B:鎖A(LRR)(d)1U6D:鎖X(KELCH)。 (e), (f), (g), (h)はそれぞれのタンパク質のA levc plotを示す。 i)、(j)、(k)、(l)はそれぞれのタンパク質の繰り返し領域のA levcプロファイルを重ねたもの。