Tecnología

Inicio

Cuál es el formato FASTA?

bioquímica crudo y datos biológicos pueden ser representados como archivos individuales o múltiples, conocidos como archivos planos. formatos de archivos planos suelen tener una estructura interna simple, regular y contienen caracteres de texto, que pueden ser leídos por los editores de texto normales. El formato FASTA es un formato simple, compacto archivo que permite que los datos de secuencia - tal como la secuencia de aminoácidos en una molécula de proteína, o la secuencia de nucleótidos en una molécula de ADN - a grabar en un archivo de ordenador.

¿Qué es FASTA?

El formato FASTA es el nombre de la herramienta de alineación FASTA - un precursor de la alineación herramienta de búsqueda local básico, que encuentra regiones de similitud entre las secuencias - que originalmente se utiliza el formato. El FASTA también se conoce como el formato de Pearson, después de que el autor de la herramienta de alineación FASTA. Formato FASTA archivos pueden tener las extensiones de archivo ".fasta", ".fa" o ".ffa".

Línea de cabecera

El formato FASTA consiste una sola línea de cabeza, o la línea de definición, seguido por una o más líneas de datos de secuencias. La línea de cabecera siempre comienza con un ">", seguido de un código de identificación de la secuencia, o el nombre de la secuencia - por lo general la primera parte de la información proporcionada sobre la línea de cabecera - y, opcionalmente, una descripción textual limitada. La descripción textual se puede utilizar para incluir información complementaria, como - para secuencias de nucleótidos - cromosoma, filamento y la información genética. La descripción no es oficialmente parte de la descripción del formato FASTA, por lo que algunas aplicaciones puede ignorarlo, incluso si está presente.

Líneas de secuencia

El formato FASTA es muy simple medida en que, con la excepción de las líneas en blanco, cada línea que no es una línea de cabecera se trata como una línea de secuencia. Las líneas restantes en archivo con formato FASTA simplemente contienen secuencias de nucleótidos de los ácidos y aminoácidos, por lo general con formato de 60 caracteres por línea. Un archivo en formato FASTA puede contener más de una secuencia, con una secuencia que aparece inmediatamente después de otro. El formato FASTA es, de hecho, aceptado por muchos programas de alineamiento de secuencias múltiples.

consideraciones

Una línea en blanco en un archivo con formato FASTA puede ser ignorada completamente o interpretarse como terminación de cada secuencia, dependiendo del programa de aplicación utilizado para examinar el archivo. Del mismo modo, espacios y otros caracteres, tales como guiones, guiones bajos y períodos, pueden ser ignorados o tratados como las lagunas en una secuencia.