Blastn vs. blastp

Blastn ist in der Tat ein eher schlechtes Werkzeug, um proteinkodierende Sequenzen zu finden. Dies ist zum Teil auf die Wobble-Position des dritten Nukleotids in den meisten Codons zurückzuführen. Die meisten Aminosäuren können durch mehrere Codons kodiert werden, die sich in der dritten Position unterscheiden. So kann die exakt gleiche Aminosäuresequenz durch zwei Nukleotidsequenzen kodiert werden, die sich in jeder dritten Position unterscheiden (da Mutationen in der dritten Position keine Auswirkungen auf das resultierende Protein haben, häufen sich solche Mutationen in der Regel recht schnell an). Da die Aminosäuresequenzen identisch sind, hätte blastp kein Problem, eine Sequenz abzurufen und die andere Sequenz als Abfrage zu verwenden. Blastn verwendet jedoch eine Standardwortgröße von 11 Nukleotiden. Das bedeutet, dass die beiden Sequenzen mit mindestens 11 Nukleotiden übereinstimmen müssen, damit blastn überhaupt einen Treffer melden kann. Im obigen Beispiel hatte der beste Treffer einen e-Wert von 0,031, wenn die Wortgröße auf 6 gesetzt wurde. In diesem Fall wurde eine perfekte Übereinstimmung von 6 Nukleotiden zwischen der Abfrage- und der Datenbanksequenz gefunden, aber blastn war nicht in der Lage, dieses Alignment sehr zu erweitern, was den schlechten e-Wert erklärt (oft würde dies nicht als signifikanter Treffer angesehen werden).