Tecnología

Inicio

Cómo Raspe y analizar las direcciones

Cómo Raspe y analizar las direcciones


Raspado y el análisis son dos prácticas estrechamente relacionadas de extracción de datos del sitio web. El más general, el análisis, se refiere a la separación de los datos en sus partes constituyentes. Cuando su profesor de Inglés de secundaria que pidió a diagrama frases, que estaba al analizar las palabras de esas oraciones por sus partes de la oración. Raspar más específicamente se refiere a análisis de páginas web para tipos particulares de datos, en este caso, las direcciones. El lenguaje de programación Python y la extensión "BeautifulSoup" permiten al usuario para raspar y analizar los sitios web en unas pocas líneas de código.

Instrucciones

1 Instalar BeautifulSoup mediante la descarga de la última versión del software de mala muerte y desempaquetar / descomprimir el archivo. Abra una ventana de terminal y escriba el siguiente comando:
Mi Imac: ~ $ Me pitón Descargas / BeautifulSoup-3.2.0 / python setup.py install

Esto le dice al intérprete de Python para ejecutar el script de instalación BeautifulSoup que se pueden encontrar en la carpeta BeautfulSoup, que se encuentra en la carpeta de descargas.

2 Tipo de Python en la línea de retorno de golpear e importación BeautifulSoup,:
Mi Imac: ~ $ Me pitón

importación BeautifulSoup

3 Ejecute la siguiente secuencia de comandos para abrir una página web e imprimir cualquier universal localizadores de recursos (direcciones web) que puede encontrar en una página:

urllib2 importación
page = urllib2.urlopen ( "http: //www.THE URL que desea para raspar AQUÍ")
Sopa = BeautifulSoup (página)
soup.findAll ( 'a')
soup.strip de impresión ()
impresión
Este script se abrirá una página web, analizar el HTML, busque la etiqueta <a> en el que están incrustadas las direcciones web, eliminar las etiquetas y dejar el texto.