Blastn vs. blastp

Blastn é de facto uma ferramenta bastante pobre para encontrar sequências de codificação de proteínas. Isto é em parte devido à posição de oscilação do terceiro nucleotídeo na maioria dos códons. A maioria dos aminoácidos pode ser codificada por múltiplos códons que diferem na terceira posição. Assim, exatamente a mesma seqüência de aminoácidos pode ser codificada por duas seqüências de nucleotídeos diferentes em cada terceira posição (já que as mutações na terceira posição não afetam a proteína resultante, tais mutações normalmente se acumulam muito rapidamente). Sendo as sequências de aminoácidos idênticas, a explosão não teria qualquer problema em recuperar uma sequência, utilizando a outra sequência como consulta. Blastn, no entanto, usa uma palavra padrão de 11 nucleotídeos. Isto significa que as duas sequências devem corresponder a pelo menos 11 nucleotídeos para que Blastn seja capaz de reportar qualquer acerto. No exemplo acima, ao definir o tamanho da palavra para 6, o melhor acerto teve um valor e-valor de 0,031. Neste caso, foi encontrada uma correspondência perfeita de 6 nucleotídeos entre a consulta e as seqüências da base de dados, mas blastn não foi capaz de estender muito esse alinhamento, explicando o mau valor eletrônico (muitas vezes, isso não seria considerado um acerto significativo).