Tecnología

Inicio

Cómo utilizar Html5lib en Python

El lenguaje de programación Python puede apoyar HTML 5 sitios web usando la biblioteca 'Html5lib.' Esta biblioteca permite escribir scripts de Python que analizar HTML 5 páginas mediante una estructura de árbol. estructuras de árbol son vistas jerárquicas de elementos de la página web. Acceso a elementos de páginas web se realiza mediante un árbol andador. El árbol caminante 'camina' a lo largo de las conexiones de los nodos del árbol, y se puede recorrer todo el árbol. Puede utilizar Python con 'Html5lib' para abrir, ver e imprimir una página web HTML 5.

Instrucciones

1 Abra el editor de texto en IDLE Archivos de programa (o aplicaciones para Macintosh) en el directorio de Python. Se abre un archivo de código fuente en blanco.

2 Importar el módulo "Html5lib" escribiendo las siguientes declaraciones en la parte superior del archivo de código fuente:

html5lib importación

treebuilders de importación html5lib, treewalkers, serializador

urllib2 importación

3 Crear un nuevo analizador de HTML 5, que va a utilizar para leer una página web HTML. Declarar un nuevo analizador escribiendo lo siguiente:

analizador = html5lib.HTMLParser ()

4 Abrir una página web pasando su nombre en la función urllib2.urlopen. Por ejemplo, si desea abrir "www.website_adddress.com," escribe lo siguiente:

URL = urllib2.urlopen ( "http://www.website_address.com") .read ()

5 Pasar la página web en el HTML 5 analizador para recibir una representación de árbol. Guardar esta representación en una variable llamada "árbol" escribiendo la siguiente declaración:

árbol = parser.parse (URL)

6 Crear un árbol andador como esto:

TreeWalker = treewalkers.getTreeWalker ( "dom")

7 Paseo por el árbol utilizando el árbol andador. El árbol andador devolverá un flujo de información que se descubre en la página web HTML 5. Para pasear por el árbol, escribir lo siguiente:

= corriente de TreeWalker (árbol)

8 Serializar la corriente, para que pueda salir fácilmente a la consola. Puede serializar la corriente usando las dos afirmaciones siguientes:

de serie = serializer.htmlserializer.HTMLSerializer (omit_optional_tags = False)

serial.serialize salida = (corriente)

9 Iterar a través de la salida en serie de la corriente de la siguiente manera:

para el elemento de la producción:

10 Sangría a la línea inmediatamente después de la declaración anterior y escribir una función de impresión, como esto:

de impresión (elemento)

11 Ejecutar el programa presionando F5. La secuencia de comandos se abrirá y luego analizar una página web HTML 5. La secuencia de comandos a continuación, serializa la estructura de árbol de la página y da salida a la consola. La salida variará dependiendo de la página web elegido, pero puede ser algo como esto:

<Html>

<Head>

</ Head>

<Body>

Bienvenido a una página web!

</ Body>

</ Html>