Tecnología

Inicio

Definir las arañas en el ordenador

Definir las arañas en el ordenador


A pesar de que las arañas web son simplemente secuencias de comandos que se ejecutan en un ordenador conectado a Internet, su nombre tiene una connotación siniestra debido a su homónimo de ocho patas. Como resultado, las personas a menudo tienen una serie de conceptos erróneos acerca de las arañas y la forma en que operan. En la mayoría de los casos, las arañas son beneficiosas para su sitio web, para ayudar a las personas a encontrar usted y la información que están buscando. Algunas arañas son parásitos sin embargo, y roban contenido. Es posible bloquear estas arañas tengan acceso a su sitio.

¿Cuáles son las arañas?

En términos de computación, las arañas se automatizan secuencias de comandos que rastrean la Internet y recuperar información. Arañas comienzan con un conjunto de direcciones de semillas para visitar, y envían solicitudes Web estándar para descargar páginas de estas direcciones. La araña analiza la página, y extrae la información de destino. Nuevas direcciones encontradas de enlaces en las páginas descargadas se agregan a su base de datos, y con el tiempo, esas páginas se rastrean y el proceso continúa. Esto permite que la araña para navegar automáticamente su camino alrededor de la web, utilizando la información que está programado para reunirse para ampliar su base de datos.

¿Cómo funcionan las arañas?

Las arañas suelen recuperar grandes cantidades de información a medida que atraviesan el Internet, por lo que para evitar quedarse sin recursos en términos de ancho de banda y espacio de almacenamiento, la araña utiliza un conjunto de reglas para rastrear de forma inteligente. El autor de los programas de script estas reglas en el guión, para determinar cuántos niveles de profundidad en un sitio web viajará a la araña, y la frecuencia con la araña vuelve a visitar el sitio para verificar si el contenido actualizado. arañas automatizadas pueden generar muchas más peticiones web que un ser humano puede dentro de un corto período de tiempo, y esto puede afectar negativamente a una actuación sitios web. El autor de la escritura por lo general evita este escenario por las solicitudes de escalonamiento, por lo que el propietario del sitio no tiene ninguna razón para bloquear la araña.

Por qué se utilizan las arañas?

Las arañas tienen muchos propósitos, pero son principalmente recolectores de información. Todos los motores de búsqueda se basan en las arañas para explorar la Web con el fin de crear un índice de búsqueda, y sin arañas, sitios como Google o Yahoo podría proporcionar un conjunto de resultados mucho más pequeño. Precio sitios de comparación utilizan las arañas para encontrar vendedores de productos seleccionados, la exploración de los sitios web de forma regular para mostrar los últimos precios. A pesar de que las arañas tienen muchos usos legítimos y beneficiosos, sino que también se utilizan para fines maliciosos, tales como sitios web de exploración en busca de direcciones de correo electrónico para vender a los comerciantes de correo electrónico. Otras arañas pueden rastrear sitios web en busca de secuencias de comandos explotables y software con vulnerabilidades conocidas, con el fin de lanzar un ataque y robar datos privados.

El bloqueo de las arañas

Puede bloquear los motores de búsqueda rastreen su sitio web mediante la creación de un archivo robots.txt. Este es un archivo de texto almacenado en la raíz de su sitio web, que le permite dar instrucciones a los rastreadores compatibles para controlar su comportamiento cuando visitan su sitio. Puede orientar arañas individuales, o utilizar instrucciones generales para orientar todas las arañas. Uno de los problemas con este enfoque es que el cumplimiento es voluntario, y sólo los robots legítimos obedecen las reglas. arañas maliciosos simplemente ignorar las reglas, por lo que necesita un método alternativo para bloquearlos. A medida que las arañas son simplemente secuencias de comandos, que generalmente se ejecuta desde una base estática, por lo que las solicitudes proceden de la misma dirección IP. Si encuentra una araña que visita su sitio utilizando los sitios de archivo de registro, se puede ver su dirección IP, que luego se puede bloquear para detener la araña accedan a su sitio.