Tecnología

Inicio

¿Cuáles son las arañas de Internet?

¿Cuáles son las arañas de Internet?


arañas de Internet se automatizan los programas de ordenador que se arrastran de página en página en la Web. Llevan a cabo tareas rutinarias, tales como las búsquedas en línea, y operan de acuerdo con un conjunto de políticas de comportamiento definidas por sus creadores, por lo que recuperar, indexar y clasificar el contenido Web más adecuado para su propósito.

componentes

El componente funcional principal de una araña Internet se conoce como un Frontier Localizador Universal de Recursos (URL). La URL de la Frontera es una lista de direcciones de Internet, que la araña de Internet todavía tiene que explorar. Los otros componentes funcionales son un módulo de sistema de nombres de dominio (DNS), un módulo de búsqueda, un módulo de análisis y un módulo de supresión de la duplicación. El módulo DNS determina el servidor Web desde el que la araña de Internet recupera una página Web, los módulos de traer y analizar sintácticamente recuperar y analizar el contenido y el módulo de supresión de la duplicación impide que cada página Web ser recuperado más de una vez.

Operación

La mayoría de las páginas web contienen hipervínculos - palabras, frases, imágenes o iconos que los usuarios pueden hacer clic para desplazarse a otras páginas Web - lo que, en teoría, una araña de Internet puede iniciar el rastreo en cualquier lugar de la Web. En la práctica, sin embargo, las arañas de Internet suelen comenzar con unas pocas páginas Web conocidas, conocidas como semillas. La araña recupera el contenido de una de estas páginas, incluyendo los enlaces a otras páginas, y añade los enlaces hacia la URL Frontier, que proporciona la base para continuar el rastreo.

Los motores de búsqueda

arañas de Internet son ampliamente utilizados por los motores de búsqueda, como Google y Yahoo !. Los motores de búsqueda suelen emplear muchas arañas de Internet, operando en paralelo, para recuperar y indexar el contenido Web. Las arañas copiar el contenido que encuentran en una base de datos y, en efecto, crear un índice local, que los motores de búsqueda pueden buscar mucho más rápido que toda la Web cuando un usuario envía una consulta. arañas de Internet pueden rastrear millones de páginas web en un corto espacio de tiempo, pero incluso muchas arañas no pueden esperar para rastrear la totalidad de la Web antes de las páginas se modifican o eliminan, por lo que los motores de búsqueda seleccionar qué páginas visitan y con qué frecuencia.

La recolección de correo electrónico

arañas de Internet pueden validar la estructura de las páginas Web, incluyendo hipervínculos o generar estadísticas que permiten una mejor comprensión del contenido de la Web. También pueden recoger, o "cosecha" información específica, como las direcciones de correo electrónico, que pueden ser utilizados por personas o grupos de distribución de correo basura a Internet sin escrúpulos, también conocido como spam.