Blastn vs. blastp

Blastn est en fait un outil assez pauvre pour trouver des séquences codant pour des protéines. Ceci est en partie dû à la position wobble du troisième nucléotide dans la plupart des codons. La plupart des acides aminés peuvent être codés par plusieurs codons qui diffèrent par la troisième position. Ainsi, la même séquence d’acides aminés peut être codée par deux séquences nucléotidiques qui diffèrent par une position sur trois (les mutations en troisième position n’affectant pas la protéine résultante, ces mutations s’accumulent généralement assez rapidement). Les séquences d’acides aminés étant identiques, blastp n’aurait aucun problème à retrouver une séquence, en utilisant l’autre séquence comme requête. Blastn, cependant, utilise une taille de mot par défaut de 11 nucléotides. Cela signifie que les deux séquences doivent correspondre avec au moins 11 nucléotides pour que blastn puisse rapporter un résultat. Dans l’exemple ci-dessus, en fixant la taille des mots à 6, la meilleure correspondance avait une valeur e de 0,031. Dans ce cas, une correspondance parfaite de 6 nucléotides a été trouvée entre les séquences de la requête et de la base de données, mais blastn n’a pas été en mesure d’étendre beaucoup cet alignement, ce qui explique la mauvaise valeur e (souvent, cela ne serait pas considéré comme une correspondance significative).