Tecnología

Inicio

¿Qué es una araña Bot?

¿Qué es una araña Bot?


Una araña bot es un programa informático automatizado - bot es la abreviatura de "robot" - que tiene acceso a las páginas disponibles públicamente en la web, recupera su contenido y cataloga. Motor de búsqueda arañas también siguen todos los enlaces externos o hipervínculos - palabras, frases e imágenes en las que los usuarios pueden hacer clic para navegar de una página a otra - en una página y catalogar el contenido que encuentran.

¿Cómo Motor de búsqueda arañas Trabajo

Una araña robot comienza típicamente con una única dirección web, bien conocido, también conocido como un localizador uniforme de recursos (URL). La araña robot descarga el contenido de la página Web asociada con esa dirección y lo copia en una base de datos. Cualquier enlace externo de la página se añaden a una lista, conocida como URL Frontier, que la araña robot utiliza para descargar y copiar el contenido de la página de destino o de aterrizaje para cada enlace. Por supuesto, la mayoría de las páginas web contienen enlaces, por lo que las arañas robot puede iniciar la búsqueda, o "rastreo", en casi cualquier lugar en la web.

Los motores de búsqueda

Los motores de búsqueda, como Google, Yahoo y muchos otros, utilizan un grupo de arañas bot, operando en paralelo, para crear una instantánea de la Web en una base regular. El objetivo es crear un catálogo local, o índice, de las páginas Web que el motor de búsqueda puede buscar los resultados más aplicables cuando un usuario escribe una consulta. Un conjunto de políticas de comportamiento, definidas por el creador de las arañas bot, determina qué páginas web son visitadas y con qué frecuencia. Un motor de búsqueda debe, sin embargo, mantener un catálogo actualizado si se trata de conservar su fiabilidad y credibilidad.

Selectividad

La web consta de millones de páginas, por lo que incluso un grupo de arañas no se puede esperar para descargar el conjunto de la Web antes de añadir páginas, modificados o eliminados. Por lo tanto, las arañas Motor de búsqueda deben dar prioridad a las páginas que descargar y copiar, a menudo en relación con un tema predefinido, o una lista de temas, o mediante la descarga sólo las páginas con texto estático - escrito en el lenguaje de marcado de hipertexto (HTML) - y haciendo caso omiso de todos los demás tipos de contenido.

Otras aplicaciones

Motor de búsqueda arañas no sólo son utilizados por los motores de búsqueda. Pueden ser utilizados por otras aplicaciones para validar la estructura de las páginas Web, incluyendo hipervínculos, o para generar estadísticas que permiten que el contenido Web sea mejor entendida. Motor de búsqueda arañas también pueden ser usadas para obtener información específica, incluyendo direcciones de correo electrónico e información de contacto, una función que con frecuencia es explotada por remitentes de correo no deseado de Internet o correo no deseado.