Tecnología

Inicio

Cómo separar HTML y Python Código

Python es un código abierto, lenguaje de programación orientado a objetos optimizado para la creación de aplicaciones Web dinámicas. Al programar en Python, puede ser necesario separar el formato HTML de código Python. Por ejemplo, un usuario puede entrar en una página Web en un campo de datos, lo que requiere que se deben eliminar las etiquetas HTML para almacenar los datos textuales. Para quitar las etiquetas HTML de una cadena, utilice la "expresión regular." Incorporado en Python módulo de expresiones regulares

Instrucciones

1 Abra el editor de Python.

2 Cargar el módulo previamente escribiendo lo siguiente:

import re

3 Definir una función para eliminar todas las etiquetas HTML. Por ejemplo, escriba lo siguiente:

delete_html def (datos):

4 Separar los elementos de código HTML utilizando la función "re.compile" para compilar los patrones de expresiones regulares en un objeto que se puede utilizar para la coincidencia de patrones. Continuando con el ejemplo, escriba lo siguiente:

htmlPattern = re.compile (r '<. *?>')

En este ejemplo, el "re.compile" atributo le dice a Python para buscar la cadena " '<..>", que significa las etiquetas HTML inicial y final.

El calificativo ". *?" le dice a Python para que coincida con sólo las etiquetas. Sin el calificador, Python devuelve la cadena "<h2> subtítulo </ h2>"; con el calificador, Python devuelve "<h2> y </ h2>".

5 Sustituir un espacio para todo el código HTML utilizando la función "sub". Continuando con el ejemplo, escriba lo siguiente:

htmlPattern.sub volver ( '', los datos)

En este caso, Python se estropea el código HTML y lo reemplaza con un espacio en blanco. En este punto, dependiendo de cómo desea estructurar los datos, puede utilizar la función de cadena "tira" para eliminar los espacios en blanco o utilizar expresiones regulares, tales como "\ s +" para quitar los espacios adicionales.