Tecnología

Inicio

¿Cuáles son las arañas en los sitios web?

Arañas en la World Wide Web se automatizan los programas de ordenador que deambulan, o se arrastran, desde la página web a la página web de acuerdo con las políticas de comportamiento definidas por sus creadores. Las arañas suelen copiar el contenido de las páginas Web que visitan en una base de datos para que pueda ser analizado por los motores de búsqueda como Google y Yahoo !, pero las arañas también pueden validar la estructura de las páginas Web o recopilar información específica, como direcciones de correo electrónico.

arrastrándose

La mayoría de las páginas web contienen enlaces a otras páginas, por lo que una araña puede comenzar efectivamente se arrastra en casi cualquier lugar en la World Wide Web. Sin embargo, en la práctica, las arañas suelen comenzar con una o direcciones web más conocidos, conocido como "semillas". La araña elige una dirección Web, descarga la página Web correspondiente y extrae la información digital, incluyendo enlaces a otras páginas, a partir de ella. La araña añade los enlaces externos a una lista, conocido como un localizador de recursos universal Frontier, que utiliza para seguir a cada eslabón de turno.

componentes funcionales

Aparte de la dirección URL de la frontera, que es una lista de las direcciones Web que una araña todavía no se ha explorado, una araña puede ser dividido en varios otros componentes funcionales. Un módulo de nombres de dominio del sistema determina el servidor Web desde el que la araña recibe una página Web, una zona de alcance módulo recupera la página Web y un módulo de análisis sintáctico extrae el contenido y los enlaces de ella. Un módulo de eliminación duplicación se asegura de que cada página Web se recupera sólo una vez.

Las arañas de motores de búsqueda

Los motores de búsqueda utilizan las arañas para que la búsqueda de la World Wide Web tan rápido y fácil como sea posible, desde el punto de vista del usuario. Los grandes motores de búsqueda utilizan muchas arañas, trabajando en paralelo, para copiar el contenido y el índice Web sobre una base regular. Esto significa que cuando un usuario envía una consulta, el motor de búsqueda puede buscar su índice local de los resultados más aplicables en lugar de buscar la totalidad de la World Wide Web. El motor de búsqueda debe, sin embargo, mantener un índice de puesta al día para preservar su credibilidad y la fiabilidad, por lo que los motores de búsqueda operan continuamente.

Selección

La World Wide Web se compone de millones de páginas web disponibles públicamente, por lo que incluso los grandes motores de búsqueda sólo se descarga una fracción de ellos. Por lo tanto, las arañas emplean varias técnicas para dar prioridad a las páginas o asegurarse de que las páginas que descargan contienen tanta información útil como sea posible. Pueden, por ejemplo, sólo se descarga páginas de lenguaje de marcado de hipertexto o páginas cuyo contenido corresponde a una lista predefinida de temas.