Tecnología

Inicio

La definición de un analizador de HTML

La definición de un analizador de HTML


La página web que está leyendo es un producto de HTML, o lenguaje de marcado de hipertexto. Es una colección organizada de texto, que tiene los comandos de formato, denominados etiquetas, que rodea el texto sin formato que se lee en la pantalla. El programa que se utiliza para la navegación web, como Internet Explorer, lee los datos de la página web, analiza las etiquetas y muestra el texto terminado, formateado. Además de los navegadores web que utilizan las personas, programas de análisis gramatical automática HTML exploran la web para los datos.

El formato HTML

HTML es un lenguaje de programación especializado diseñado para mostrar texto con formato en una página. Se compone de etiquetas de formato de ese lugar y textos de la pantalla normal, negrita, en colores y de otras maneras diferentes. En un archivo HTML, paréntesis angulares siempre rodean a una etiqueta, por lo que las etiquetas fáciles de encontrar. Por ejemplo, el documento HTML comienza con una etiqueta "<html>" y termina con una etiqueta "</ html>". Entre estas etiquetas son otras etiquetas que describen el diseño de la página. El texto de la página se encuentra dentro del conjunto más profundo de las etiquetas. Un analizador de HTML está programado para "entender" estas etiquetas de lo que puede mostrar una página web o derivar información de ella.

análisis de HTML

Un analizador de HTML solicita una página web desde un servidor Web, tal y como se escribe las direcciones Web en la barra de direcciones del navegador. El servidor envía el código HTML para el analizador, que luego se explora a través de la página, en busca de etiquetas y texto. Se comprueba el archivo para asegurarse de que tiene las etiquetas HTML y en el orden correcto; de lo contrario puede ser un archivo Acrobat o algún otro tipo de documento. Si el autor preparó la página a mano, que puede haber cometido errores en el código HTML, lo que lleva al analizador para rechazarla. Si la página comprueba hacia fuera, el analizador recoge lo distinguen de acuerdo a las reglas de HTML. El analizador continuación, organiza, pantallas y recolecta información de la página web.

Los navegadores

La intención original era de la Web para hacer páginas legible por humanos, y que es lo que hace un navegador. Se analiza el código HTML y crea una página visible, con el formato de su contenido. El navegador sabe cuándo hacer un poco de texto más grandes que otros, cómo mostrar enlaces web y cómo mostrar imágenes. Cuando el navegador haya acabado de crear la página, se espera a que el usuario haga clic en el ratón, escriba el texto o realizar alguna otra acción. Si el usuario hace clic en un vínculo o una dirección de tipos, el navegador va a buscar otra página Web.

rastreo web

sitios Web de búsqueda como Google, Bing y Ask tienen programas que escanean automáticamente toda la web, buscando información fresca. Estos llamados "rastreadores Web" leer una página web, catálogo de su texto y examinarla en busca de enlaces a otras páginas. Para encontrar los enlaces y otras informaciones importantes, los programas rastreador web analizar el HMTL. A diferencia de un navegador, sin embargo, que no se muestran las páginas en una pantalla.

Captura de imágenes y spam

Los programadores escriben analizadores HTML para una variedad de propósitos. Algunos extraer automáticamente los datos del informe de tabla de páginas web, otros se reúnen imágenes. Los programadores llaman a esto "captura de imágenes", como los extractos de programas, o "raspaduras" los datos de la página Web y la recoja. Una práctica ilegal llamada "correo basura" implica un analizador automático que examina Web páginas para direcciones de correo electrónico, que el analizador puede identificar fácilmente. Una vez que el analizador sintáctico extrae la dirección, se añade a la base de datos del spammer. Otros programas a continuación, enviar automáticamente mensajes de venta por correo electrónico, o "spam", a la dirección. Para evitar que su buzón de correo electrónico inundado con mensajes de venta, no incluya su dirección de correo electrónico en páginas web accesibles al público.