Blastn vs. blastp

Blastn è infatti uno strumento piuttosto povero per trovare sequenze codificanti proteine. Questo è in parte dovuto alla posizione oscillante del terzo nucleotide nella maggior parte dei codoni. La maggior parte degli aminoacidi può essere codificata da più codoni che differiscono nella terza posizione. Così la stessa identica sequenza di aminoacidi può essere codificata da due sequenze nucleotidiche che differiscono in ogni terza posizione (poiché le mutazioni nella terza posizione non influenzano la proteina risultante, tali mutazioni si accumulano tipicamente abbastanza rapidamente). Essendo le sequenze di aminoacidi identiche, blastp non avrebbe problemi a recuperare una sequenza, usando l’altra sequenza come query. Blastn, tuttavia, utilizza una dimensione di parola predefinita di 11 nucleotidi. Questo significa che le due sequenze devono combaciare con almeno 11 nucleotidi perché blastn sia in grado di riportare un qualsiasi riscontro. Nell’esempio precedente, quando si imposta la dimensione della parola a 6, il miglior riscontro ha un valore e- di 0,031. In questo caso, è stata trovata una corrispondenza perfetta di 6 nucleotidi tra la query e le sequenze del database, ma blastn non è stato in grado di estendere molto questo allineamento, spiegando il cattivo e-value (spesso, questo non sarebbe considerato un hit significativo).