Blastn vs. blastp

Blastn は実際、タンパク質をコードする配列を見つけるにはかなり悪いツールである。 これは、ほとんどのコドンにおける 3 番目のヌクレオチドの位置がふらついていることが一因である。 ほとんどのアミノ酸は3番目の位置が異なる複数のコドンによってコードされることがある。 したがって、全く同じアミノ酸配列が、3位ごとに異なる2つのヌクレオチド配列によってコードされることがある(3位の変異は得られるタンパク質に影響を与えないので、このような変異は通常かなり急速に蓄積される)。 アミノ酸配列が同一であれば、blastpはもう一方の配列をクエリとして問題なく検索することができます。 しかし、Blastnはデフォルトで11ヌクレオチドのワードサイズを使用します。 つまり、2つの配列が少なくとも11塩基で一致しなければ、blastnはヒットしないことになります。 上記の例では、ワードサイズを6に設定した場合、最良のヒットのe値は0.031であった。 この場合、クエリとデータベース配列の間に6塩基の完全一致が見つかりましたが、blastnはこのアラインメントをあまり拡張できなかったため、e値が悪くなりました(多くの場合、これは重要なヒットとはみなされません)