Blastn vs. blastp

Blastn es, de hecho, una herramienta bastante pobre para encontrar secuencias que codifican proteínas. Esto se debe en parte a la posición de bamboleo del tercer nucleótido en la mayoría de los codones. La mayoría de los aminoácidos pueden ser codificados por múltiples codones que difieren en la tercera posición. Así, la misma secuencia de aminoácidos puede estar codificada por dos secuencias de nucleótidos que difieren en cada tercera posición (como las mutaciones en la tercera posición no afectan a la proteína resultante, dichas mutaciones suelen acumularse con bastante rapidez). Dado que las secuencias de aminoácidos son idénticas, blastp no tendría ningún problema en recuperar una secuencia, utilizando la otra secuencia como consulta. Sin embargo, Blastn utiliza un tamaño de palabra por defecto de 11 nucleótidos. Esto significa que las dos secuencias deben coincidir con al menos 11 nucleótidos para que blastn pueda informar de algún resultado. En el ejemplo anterior, al establecer el tamaño de la palabra en 6, el mejor resultado tuvo un valor e de 0,031. En este caso, se encontró una coincidencia perfecta de 6 nucleótidos entre la consulta y las secuencias de la base de datos, pero blastn no pudo ampliar mucho esta alineación, lo que explica el mal valor e (a menudo, esto no se consideraría un acierto significativo).