Tecnología

Inicio

Cómo convertir HTML etiquetas con texto sin formato en C #

La página Web que se ve en el navegador no muestra todo en la página. Detrás de las escenas, el navegador carga constante de contenido que contiene código HTML críptica. Este código consta de "etiquetas", tales como "<p>". Esa etiqueta le dice al navegador que muestre un párrafo en la página Web. Usando C #, lenguaje de desarrollo de Microsoft que funciona con Visual Studio, puede convertir el HTML de cualquier sitio al texto y quitar esas etiquetas.

Instrucciones

1 Lanzar Microsoft Visual Studio. Haga clic en "Archivo" y luego en "Nuevo proyecto".

2 Haga clic en "Visual C #" para seleccionarlo, y haga doble clic en "Aplicación de Windows Forms". Visual Studio creará un nuevo proyecto y mostrar una forma vacía en la ventana de diseño.

3 Haga clic en "Ver" y luego haga clic en "caja de herramientas" para abrir la caja de herramientas. Desplazarse hacia abajo para el control WebBrowser, y hacer doble clic en él. Ese control aparecerá en el formulario. Estudio nombres visuales it "WebBrowser1".

4 Pulse la tecla "F4". Se abre la ventana "Propiedades". Busque el icono de "Lightning Bolt" en la parte superior de la ventana. El icono tiene la forma de un rayo. Haga clic en el icono. La ventana "Propiedades" le mostrará una lista de eventos que se pueden conferirse a dicho control "WebBrowser1".

5 Busque el elemento "DocumentCompleted" en la lista y haga doble clic en él. Una ventana de código se abre y muestra el siguiente código:

private void webBrowser1_DocumentCompleted (remitente del objeto, WebBrowserDocumentCompletedEventArgs e)

{

}

Este código se ejecuta cada vez que el control "WebBrowser1" finaliza la carga de una página Web.

6 Modificar ese código para que se parezca a esto:

private void webBrowser1_DocumentCompleted (remitente del objeto, WebBrowserDocumentCompletedEventArgs e)

{

HtmlDocument doc = webBrowser1.Document;

cadena websiteText = doc.Body.InnerText;

MessageBox.Show (websiteText);

}

Después de abrir una página Web, el código agarra el texto de la página. A continuación, muestra el texto en un cuadro de mensaje emergente.

7 Haga clic en cualquier lugar de la ventana de código, y luego haga clic en "Ver diseñador." La forma volverá a aparecer en la ventana de diseño.

8 Haga doble clic en la barra de título de esa forma. Otra ventana de código aparecerá y mostrará método de "carga" del formulario. El código en el que el método se ejecuta cuando se carga el formulario. El código aparece como se muestra a continuación:

Private void Form1_Load (remitente del objeto, EventArgs e)

{

}

9 Reemplazar ese código con el siguiente código:

Private void Form1_Load (remitente del objeto, EventArgs e)

{

sitio web de la cadena = "http://www.whitehouse.gov";

WebBrowser1.Navigate (sitio web);

}

Este código hace que el control "WebBrowser1" para navegar a la URL del sitio web almacena en la variable llamada "página web". En este ejemplo, la URL es "http://www.whitehouse.gov."

10 Pulse la tecla "F5" para ejecutar el código. El formulario se cargará y ejecutará el código "Form1_Load". Ese código hace que el control "WebBrowser1" para navegar a la página web "whitehouse.gov". El código "DocumentCompleted" se ejecutará después de que el navegador finaliza la carga de ese sitio. Un cuadro de mensaje emergente le mostrará el texto de ese sitio sin las etiquetas HTML.

Consejos y advertencias

  • En este ejemplo, el control "WebBrowser1" navega al sitio Whitehouse. Sustituir a la dirección URL con lo que quiera. Por ejemplo, para convertir las etiquetas HTML y mostrar el texto de "http://www.xyz.com," establecer el valor de la variable llamada "web" a esa URL. Esa variable es en el método Form_Load, como se muestra en estos pasos.