Tecnología

Inicio

Durante la búsqueda en Internet, ¿Qué es una araña?

Cuando en la búsqueda en Internet, una araña - también conocido como una araña de internet, tela de araña o rastreador Web - es un programa que busca, índices y clasifica las páginas Web. Se llama una araña porque, como una araña real, se "arrastra" de una página a otra de una manera significativa. Una araña web recoge información sobre cada página Web, incluyendo cualquier referencia a los documentos citados por la página, y sigue los enlaces a otras páginas.

Punto de partida

Una araña funciona efectivamente como un navegador web, pero puede visitar millones de páginas por segundo y, porque la mayoría de las páginas web contienen enlaces a otras páginas, se puede iniciar el rastreo en casi cualquier lugar en la web. Sin embargo, los puntos de partida más comunes para las arañas web son listas de páginas web conocidas cuyos servidores Web son muy cargado.

Las arañas de motores de búsqueda

Un buscador es una página web o un programa que busca en Internet las páginas web palabras clave o frases especificadas por el usuario que contienen. Los principales motores de búsqueda, como Google y Yahoo !, utilizan muchas arañas web, trabajando en paralelo, para acceder a páginas Web, copie el contenido en una base de datos y el índice para futuras referencias. Cuando un usuario introduce una consulta en un motor de búsqueda, el motor de búsqueda a través de su índice local, en lugar de toda la World Wide Web, de modo que pueda volver las páginas Web más rápida y eficiente aplicables.

Etiquetas HTML

propietarios de sitios web por lo general quieren manejar tanto tráfico como sea posible a sus sitios web, por lo que incluyen información - en forma de Hypertext Markup Language (HTML) etiquetas en cada página Web - para contar una araña web cómo indexar el contenido. Sin embargo, algunas páginas Web pueden no ser adecuados para el rastreo, por lo que propietarios de sitios web también pueden incluir un archivo llamado robot.txt, que contiene un protocolo de exclusión de robots. Un protocolo de exclusión de robots le dice a las arañas no para rastrear una página, pero algunas arañas están programados para rastrear todas las páginas web de acceso público, con independencia de los protocolos de exclusión de robots.

La recolección de correo electrónico

Otro uso legítimo de las arañas es validar la estructura de las páginas Web, incluyendo las palabras, frases, imágenes e iconos en el que los visitantes pueden hacer clic para navegar de una página a otra, conocida como hipervínculos. Las arañas también pueden generar estadísticas Web o simplemente crear una instantánea de contenido web en un momento dado. arañas web Menos de buen carácter pueden cosechar direcciones de correo electrónico y otra información de contacto de las páginas web y utilizarlo para fines menos-que-salados, incluyendo correo electrónico no solicitado, o spam.