Tecnología

Inicio

¿De qué manera las arañas línea de trabajo?

Una "araña" o "robot de rastreo" es un programa automatizado que viaja a través de Internet, siguiendo los hipervínculos entre las páginas y la descarga de contenido para su análisis. Los motores de búsqueda utilizan estos programas para construir un índice de la World Wide Web, lo que permite a los usuarios buscar contenido en su catálogo. Los usuarios menos escrupulosos pueden utilizar arañas para recopilar direcciones de correo electrónico u otra información personal para publicidad u otras, menos agradables, propósitos.

webcrawling

Arañas comienzan con una lista de sitios web, por lo general se llama una lista de semillas. El programa de visita el primer sitio en la lista, la descarga de la página y tomando nota de los hipervínculos en la página. La araña agrega estos enlaces a su lista para visitar una vez que se ha terminado con la lista original de los sitios. Como la araña cataloga páginas, se acumula una lista cada vez mayor de los posibles sitios para visitar, y si se deja correr indefinidamente, visitará cada página web accesible a través de hipervínculos. Las arañas también pueden seguir las reglas establecidas para limitar sus viajes, diseñados para seguir los vínculos dentro de un dominio o de un país específico.

Clasificación

Originalmente, arañas recogen las páginas Web y los motores de búsqueda se limita a clasificarlos por el número de veces que una palabra específica apareció en la página. Esto llevó a la práctica del llamado "relleno de palabras clave", donde los autores de páginas usarían términos de valor elevado en varias ocasiones, por lo general ocultas en texto invisible, con el fin de aumentar el rango de su página en la base de datos del motor de búsqueda. Larry Page de Google ha desarrollado un método alternativo que llamó "PageRank", donde las arañas medirían cuántas otras páginas web vinculadas a cada página. La idea detrás de este sistema es que el contenido de alta calidad, naturalmente, reunir una serie de enlaces de otras páginas, y resultó ser un gran éxito en la medición de la importancia relativa de los lugares.

robots.txt

Desde arañas generalmente se ejecuta a partir de conexiones de alta velocidad y atraviesan la Web de forma automática, se puede vaciar el ancho de banda de un sitio web mediante la descarga de su contenido en varias ocasiones. Para combatir este uso excesivo de recursos, la búsqueda mayoría de las arañas para un archivo "robots.txt" en cada página web que visitan. En este archivo, el propietario del sitio indica qué áreas de la página web son de acceso prohibido a búsquedas automáticas, lo que limita la cantidad de datos que la araña puede descargar antes de que se va. araña autores legítimos también limitan la frecuencia con sus programas pueden enviar peticiones a un servidor único para evitar averías de servicio.

Las arañas maliciosos

No todos araña en la Web es un ser inofensivo, sin embargo. Los spammers utilizan webcrawlers de páginas para buscar direcciones de correo electrónico visibles, a su recogida para construir listas de correo de usuarios activos. Los delincuentes también pueden enviar las arañas a través de sitios de redes sociales en busca de los usuarios de información pública, sin saberlo, puesto, que proporciona información que puede ser valiosa para fines de robo de identidad. Los hackers también pueden utilizar arañas para acabar con un sitio programándolas hacer caso omiso de las restricciones y páginas de descarga en varias ocasiones lo más rápido posible, abrumando el ancho de banda de una página Web y lo derriba sin conexión.