Tecnología

Inicio

Cómo convertir de HTML a texto ASP

El lenguaje de programación ASP le permite recuperar la página web HTML y convertirlo en texto normal. Esto es beneficioso si se quiere extraer información de un sitio web y tira a las etiquetas HTML antes de analizar la información. Se puede utilizar la función "Reemplazar" para quitar cualquier etiqueta HTML a partir de los datos HTML y devolver sólo texto. Sólo se necesitan unas pocas líneas de código para implementar una conversión de HTML a texto.

Instrucciones

1 Crear las variables ASP. Estas variables tienen el siguiente texto HTML y el contenido de texto sin formato convertido. El código siguiente muestra cómo crear las variables ASP:

html Dim como secuencia

Dim como secuencia de texto

2 Añadir un poco de HTML para la variable "html". Esto puede ser el texto introducido por un usuario, HTML creado en su formulario o una página web. El siguiente código añade una etiqueta de título simple de la variable HTML:

html = "<title> Mi Página Web </ title>"

3 Cree la función que elimina el código HTML. La siguiente función quita las etiquetas HTML y espacios de código de la página web:

Función pública HTMLtoText (ByVal como secuencia HTML) As String

Dim strip As _

System.Text.RegularExpressions.Regex

Volver strip.Replace (HTML, "& lt; [^>] *>", "")

End Function

4 Convertir HTML a texto y asignarlo al "texto" variable. Se llama a la función creada en el paso 3 para quitar las etiquetas. El resultado de volver es texto. El código siguiente muestra cómo convertir el código:

text = HTMLtoText (html)