Tecnología

Inicio

Cómo convertir de HTML a texto sin formato en los applets de Java

La biblioteca "jsoup" Java contiene una función que elimina una serie Java de todas las etiquetas HTML y convierte el contenido en texto sin formato. Esta biblioteca es útil cuando se desea descargar páginas web y sitios web HTML y evaluar sólo el texto en su programa. El contenido es la izquierda, para que pueda guardar el contenido de una base de datos o almacenar el contenido de un archivo en el servidor local.

Instrucciones

1 Haga clic en el archivo Java que desea editar y seleccione "Abrir con". Haga clic en su editor de applet de Java en la lista de programas para abrir el código.

2 Busque la cadena HTML que desea analizar y crear la variable de texto sin formato. El siguiente código crea una variable para almacenar el contenido HTML analizados:

Documento plainText = null;

3 Analizar el código HTML a texto sin formato y almacenar el resultado en la variable "plainText". El código siguiente muestra cómo analizar las etiquetas HTML:

plainText = Jsoup.parse (html);

Reemplazar "html" con su propia cadena HTML.