Tecnología

Inicio

FASTA Formato Descripción

FASTA Formato Descripción


Un archivo FASTA-formato contiene una o más secuencias de nucleótidos en el ADN. El formato FASTA se originó con el paquete de software FASTA para la secuenciación de ADN, aunque se ha convertido en un formato estándar para la representación de secuencias de ADN en la bioinformática. FASTA es un formato simple que hace que las secuencias fáciles de analizar el uso de lenguajes de programación como Perl y Python.

Visión de conjunto

La base de un archivo es una línea que comienza con el carácter ">" y seguido de un texto para identificar el origen de la secuencia. La línea de cabecera es típicamente menos de 80 caracteres. La línea que sigue esta línea de encabezado contiene una serie de caracteres que representan nucleótidos de ADN o residuos de aminoácidos en una secuencia peptídica.

Permiten caracteres de ADN

Sólo los caracteres significativos se permiten como parte de una secuencia FASTA. Las secuencias pueden consistir en A, C, T, G o U, que corresponde a los nucleótidos de adenosina, citosina, timidina, guanina o uracilo, respectivamente. Sin embargo, la identidad exacta de los nucleótidos puede no ser siempre presente de secuenciación. FASTA también contiene códigos que representan los posibles nucleótidos cuando la incertidumbre está presente. El código de N se utiliza cuando no determinación se puede hacer y X cuando el nucleótido está enmascarada por otras moléculas. El "-" código se utiliza para representar una diferencia de longitud indeterminada.

Permiten caracteres de péptidos

Un código alfanumérico también se puede utilizar para representar los 24 aminoácidos presentes en una secuencia de péptidos. Si un péptido que no se puede determinar, se utiliza el código de X, de manera similar a una secuencia de ADN. Un "*" se utiliza para indicar el terminal o secuencia de parada de traducción de un péptido. Un "-" también se utiliza para representar una brecha en los datos de secuenciación de péptidos.

Otra información

El NCBI establece un estándar de identificación de secuencia, o SeqID, para su uso en líneas de cabecera FASTA, aunque no existe una norma definitiva para su inclusión en la línea de cabecera FASTA. Un archivo que contiene múltiples secuencias FASTA se conoce como un archivo multi-FASTA. FASTA archivos pueden tener la extensión de archivo ".fasta", ".fna", ".ffn", ".faa", ".frn" o ".fas."