Tecnología

Inicio

Cómo exportar HTML a texto

Exportación de HTML al texto es un sencillo proceso tedioso si. Los archivos HTML son archivos de texto con una extensión .html o .htm. Hay varias formas de eliminar HTML y mantener el texto de la página Web. Las etiquetas HTML se deben retirar del archivo. El software de terceros puede quitar el archivo de etiquetas HTML; un usuario puede borrar las etiquetas en un editor de texto o copia el texto desde un navegador y pegarla sin formatear en un editor de texto.

Instrucciones

Copiar y pegar el texto

1 Abra el archivo .html en el navegador haciendo clic en "Archivo" y "Abrir archivo".

2 Seleccione el texto haciendo clic en la página y arrastra el cursor sobre el texto para resaltar el texto. Pulse la tecla "Ctrl-C" ( "Comando-C" en un Mac) para copiar el texto.

3 Abra el editor de texto, como Bloc de notas en Windows o TextEdit en Mac OS X. Haga clic en "Editar" y seleccione "Pegar". Un simple editor de texto como Bloc de notas se tira automáticamente las etiquetas HTML en el texto. Sin embargo, si está utilizando un procesador más potente Word como editor de texto como el Word, entonces usted tendrá que elegir "Pegado especial" y pegar como texto plano o "sólo texto" para quitar el formato.

Uso del Software de Terceros

4 Descargar el software de terceros de su elección que despoja a las etiquetas HTML en el texto. Vea los enlaces de recursos para algunas sugerencias.

5 Abra el archivo en el software de terceros. Dependiendo del software, es posible que necesite abrir el archivo con "Archivo" y "Abrir" para abrir el archivo. Algunos programas pueden tener que haga clic en "Examinar" para cargar el archivo de exportación.

6 Haga clic en "Aceptar" o "Guardar" o "Convertir", en función del software, para iniciar el proceso de conversión.

Retire las etiquetas en un editor de texto

7 Abra el archivo en un editor de texto haciendo clic en "Archivo" y "Abrir".

8 Busque la etiqueta <body> en el archivo. Eliminar todo, desde la etiqueta <body> arriba. Esta información es para el navegador para analizar el archivo para su visualización y no forma parte del texto.

9 Busque la etiqueta </ ​​body> cerca de la parte inferior del documento. Eliminar esta y cualquier etiqueta debajo de ella.

10 Retirar todas las palabras y código entre menor que (<) y mayor que (>) símbolos y los símbolos en sí. Estas son las etiquetas HTML. Si su editor de texto tiene una búsqueda y reemplazo en el menú "Editar", busque "<*>" y sustituir por un campo en blanco. El asterisco es un comodín que cubrirá cualquier texto entre los dos símbolos.