Tecnología

Inicio

Cómo hacer un Web Bot

Los motores de búsqueda, como Google o Yahoo !, tiran de las páginas Web en sus resultados de búsqueda mediante el uso de robots web (también a veces llamados arañas o rastreadores), que son programas que escanean las páginas de Internet e índice en una base de datos. los robots web se pueden hacer usando la mayoría de los lenguajes de programación, incluyendo C, Perl, Python y PHP, todos los cuales permiten a los ingenieros de software para escribir secuencias de comandos que realizan tareas de procedimiento, tales como la exploración Web y la indexación.

Instrucciones

1 Abra una aplicación de edición de texto sin formato, como el Bloc de notas, que se incluye con Microsoft Windows o TextEdit de Mac OS X, donde autor de una aplicación Python Web Bot.

2 Iniciar la secuencia de comandos de Python mediante la inclusión de las siguientes líneas de código, y la sustitución de la dirección URL de ejemplo con la dirección URL de la página web que desea analizar y el nombre de la base de datos ejemplo, con la base de datos que se va a almacenar los resultados:

urllib2 importación, re, cuerdas
enter_point = 'http://www.exampleurl.com'
nombre_base_de_datos = 'example.sql'

3 Incluir las siguientes líneas de código para definir la secuencia de operaciones que el bot Web seguirá:

uniq def (ss):
set = {}
Mapa (juego. setitem, ss, [])
set.keys volver ()

4 Obtener las direcciones URL en la estructura de la página web mediante el uso de las siguientes líneas de código:

geturls def (URL):
items = []
request = urllib2.Request (url)
request.add.header (, 'Bot_name' Usuario ';)')
content = urllib2.urlopen (petición) .read ()
artículos re.findall = ( 'href = "http:.? // & quot;', contenido)
urls = []
urls volver

5 Definir la base de datos que el bot Web va a usar y especificar qué información se debe almacenar para terminar haciendo que el robot Web:

db = abierto (nombre_base_de_datos, 'a')
allurls = uniq (geturls (enter_point))

6 Guarde el documento de texto y subirlo a un servidor o un ordenador con una conexión a Internet donde se puede ejecutar el script y comenzar a escanear páginas web.