Tecnología

Inicio

¿Qué es un archivo UTF-8?

¿Qué es un archivo UTF-8?


UTF-8 es una mesa de juego de caracteres. Un archivo UTF-8 contiene texto sin formato. Es decir, el archivo no tiene ningún códigos de formato creadas por los procesadores de texto. Este es el tipo de archivo que se puede abrir y editar en un editor de texto simple como el Bloc de notas. El archivo UTF-8 tiene la extensión de archivo UTF8, pero también puede tener una extensión de archivo TXT.

Definición

UTF significa UCS Transformation Format y UCS es sinónimo de juego de caracteres universal. UCS incluye una gama de diferentes subgrupos, pero UTF-8 es probablemente el más ampliamente utilizado. El grupo de definiciones UCS es un proyecto conjunto entre la Organización Internacional de Normalización y un organismo de la industria llamado Unicode. UTF-8 incluye una serie de caracteres necesarios para los diferentes idiomas.

Método

Cada carácter se le asigna una fila de bytes. Un byte es una cadena de ocho bits, y un bit es un número binario, lo que significa que tiene que ser cero o uno. Los caracteres UTF-8 estratifica sistema desde simples a los personajes más complejos y el número de bytes utilizados para representar cada grupo aumenta de uno, de los personajes más simples hasta seis caracteres más complicados, o menos usadas. Sin embargo, UTF-8 utiliza un mínimo de dos bytes, y por lo que los caracteres más simples tienen un byte cero inserta en el frente. Cada carácter se le asigna un número hexadecimal. Hexadecimal es un sistema de conteo de base 16. Los seres humanos utilizan un sistema de base 10, llamado decimal, que utiliza los dígitos 0 - 9 hexadecimal utiliza 0 - 9 más A - F para representar un número. El código UTF-8 es un número de ocho dígitos, que es precedido por "U". Un archivo codificado en UTF-8 pone cada carácter en el archivo como la representación de bytes, no el número de códigos UTF-8.

Fondo

El sistema más antiguo para la codificación, y sigue siendo el más conocido, es la tabla de códigos ASCII producido por el American National Standards Institute. Este conjunto de códigos es anterior a la utilización de ordenadores y fue creado originalmente para máquinas de teletipo. La tabla de códigos se desarrolló entre 1958 y 1967 y se le asigna un número a cada personaje que mecanógrafos estadounidenses eran más propensos a usar. Este conjunto de caracteres es a veces conocido como ANSI. Durante la década de 1980 empresas en desarrollo de software dieron cuenta de que ASCII necesitaba ser ampliado para dar cuenta de los caracteres utilizados en otros idiomas. Ellos formaron el proyecto de Unicode para definir una nueva tabla de códigos. Al mismo tiempo, ISO estaba trabajando en su norma ISO 10646, que tiene el mismo objetivo. Las dos organizaciones combinan sus esfuerzos. Esta es la razón por UTF-8, un nombre ISO, también se llama Unicode.

Los editores de texto

Algunos editores de texto son capaces de codificar UTF-8, pero tienen problemas para código creado en otros editores de lectura. Esto se debe a que algunos editores utilizan un orden de bytes inversa, denominado "ascendente hacia la izquierda," el orden regular se llama "big-endian". Esto está permitido en las normas, pero el archivo debe comenzar con un código que explica el orden en que la bytes son almacenados. archivos little endian deben comenzar con "FF FE" y los archivos big-endian comienzan con "FE FF". esto se llama el orden de bytes Marcos, o lista de materiales. Sin embargo, no todos los editores de texto están programados para reconocer el código , y crea un error en la interpretación de código.