Tecnología

Inicio

¿Qué es la araña de software?

Araña de software es un software que de forma autónoma, o sin control desde el exterior, "arrastra" de una página a otra en la World Wide Web. Araña de software es utilizado habitualmente por los motores de búsqueda, como Yahoo! y Google, para crear un índice de puesta al día, de las páginas web locales que el buscador puede realizar búsquedas más rápido que la propia Web.

¿Cómo funciona el software de araña

software de la araña comienza típicamente con una o más direcciones de Internet, que corresponde a bien conocido, las páginas web frecuentemente visitados, conocidos como semillas. El programa elige una de estas direcciones Web y las recuperaciones, o descargas, la página web asociada a ella. Un módulo de software dentro de la araña extrae el contenido de la página, lo almacena en una base de datos y los índices para futuras referencias. Otro módulo añade enlaces externos - es decir, enlaces a otras páginas web - a una lista llamada URL frontera, por lo que la araña puede rastrear uno por uno.

Las políticas de comportamiento

software de araña es típicamente capaces de arrastrarse millones de páginas web en un período muy corto de tiempo, pero el volumen de la World Wide Web significa que el software de la araña no puede descargar cada página. Por lo tanto, el software de araña utiliza un conjunto de políticas de comportamiento para determinar qué páginas web se descarga y la frecuencia con que se arrastra esas páginas para buscar contenido actualizado. El software puede, por ejemplo, sólo descargar páginas que corresponden a un tema predefinido o conjunto de temas, o excluir páginas de contenido que no sea texto estático Hypertext Markup Language (HTML) nada.

arrastrándose

Si quieren propietarios de sitios web de software de araña para rastrear sus sitios web, que pueden incluir etiquetas escritas en HTML - el protocolo estándar para el formato y la visualización de documentos en la Web - en cada página web. etiquetas HTML describen el contenido de la página y le dicen al software de araña cómo indexar la misma. Alternativamente, si propietarios de sitios web no quieren que sus sitios web se rastrearán - o el contenido no es adecuado para el rastreo - que pueden incluir un protocolo de exclusión de robots en un archivo llamado "robot.txt", para indicarle al software de araña no arrastrarse una página o páginas.

Usos

Muchos motores de búsqueda utilizan software de araña. Además de crear una instantánea de la World Wide Web en un momento dado, el software de araña también puede generar estadísticas, o simplemente validar la estructura y enlaces de páginas web para propósitos de administración. Sin embargo, el software de araña también puede recoger información específica, incluyendo direcciones de correo electrónico, el cual individuos y grupos sin escrúpulos utilizan para inundar la web con mensajes no solicitados, correo electrónico no deseado, también conocido como spam.