ここでは、15個のANKリピートタンパクの代表セット(表2)に対する提案アルゴリズムの解析を紹介します。 まず、図2(a)に示すように4つの正確なANK反復配列からなる設計されたANKタンパク質1N0R(鎖A)と図2(b)に示すそのタンパク質接触ネットワークについての解析を詳細に説明する。 図3(a)に設計されたANKタンパク質1N0Rの隣接行列A levcの主固有ベクトルをプロットする。 A levc プロファイルには、4つの繰り返し領域で明確な繰り返しパターンが見られる(破線と実線の垂直線は、RADAR 出力に基づく開始-終了繰り返し境界線に対応する)。 これは、各リピートコピーにおける最大のピークで正規化した後、図3(b)の個々のリピートコピーのA levcプロファイルを重ね合わせることで明確にわかる。 この予測は、配列ベースのツールRADARと比較して、繰り返し領域のコピー数および開始端境界の両方において良好である(表2参照)。一方、構造ベースのプログラムConSoleでは、設計されたANKタンパク質の場合でさえ、2つの繰り返しコピーを見逃してしまう。 CLUSTALW を用いて、我々のアプローチ、RADAR、ConSole によって予測された繰り返し領域の多重配列アラインメント(MSA)をそれぞれ図 4(a)、(b)、(c) に示す。 いずれの場合も、個々のコピーのMSAは非常によく保存され、よく一致する。
次に、骨吸収を誘導する天然タンパク質、骨芽細胞刺激因子1、3EHQ(鎖A)の例について考察している。 UniProtのアノテーションによれば、図5(a)の3次元構造に異なる色で示すように、72〜168の3つのAnkyrin repeatを含んでいる。 図5(b)は3EHQのA levcプロファイルプロットであり、72-177の領域に3つの繰り返し単位が存在することを明確に示している。 3つの繰り返し単位の予測された開始端境界とUniProtのアノテーションとの間には良い一致が見られた(表2参照)。 しかし、RADARとConSoleによる繰り返し領域の予測は、UniProtのアノテーションと一致しない。 RADARによる予測は、コピー数、リピート境界ともに異なり、最初のリピートは完全に見逃されている。 ConSoleはANKの繰り返しを3つ予測したが、繰り返し単位の始端境界の位置は、それぞれの繰り返しについて10残基程度ずれている。 図6に、(a)我々の手法で予測された繰り返し領域、(b)UniProtデータベースで注釈された領域、(c)ConSoleで予測された領域のMSAを示す。 図6(a)の予測リピート領域のMSAは、図6(c)のConSole予測領域のMSAと比較して、UniProt注釈付きリピート領域(図6(b))のMSAと非常によく一致しています。 代表的な15種類のANKリピートタンパク質について、UniProtデータベースで提供されているアノテーション、配列および構造に基づく手法であるRADARとConSoleによる予測結果をそれぞれ表2にまとめた。