Tecnología

Inicio

¿Cuáles son las arañas y qué es lo que buscan en mi página web?

¿Cuáles son las arañas y qué es lo que buscan en mi página web?


Una araña web es un programa que rastrea la Internet de una manera específica, significativa. arañas web son utilizados por los motores de búsqueda de Internet, como Google, Yahoo y muchos otros para recuperar y contenido de índice. Pero también se pueden utilizar para recopilar información - incluyendo direcciones de correo electrónico - contenido del archivo comprimido y generar estadísticas.

Los motores de búsqueda

El propósito de las arañas web del motor de búsqueda es hacer la búsqueda en Internet tan rápida y eficiente como sea posible. arañas web acceder a los sitios web de acceso público, copiar contenidos en una base de datos y el índice sobre una base regular. Esto significa que cuando se introduce una consulta en un buscador puede buscar rápidamente el índice local y devolver los resultados que sean más aplicables a la consulta. arañas de motores de búsqueda Web utilizan un conjunto de políticas de comportamiento para determinar la frecuencia con la que los sitios web son visitadas y qué páginas web se copian en la base de datos.

Inclusión

Si desea aumentar el perfil o de visibilidad, de su sitio web en Internet, puede registrarse con un motor de búsqueda. También puede utilizar Hypertext Markup Language (HTML) etiquetas, conocido como etiquetas meta, en la parte superior de cada página web para describir su contenido y proporcionar palabras clave - un pequeño conjunto de palabras que expresan el tema del contenido - a una araña web. Esta información determina cómo su contenido se encuentra indexada en la base de datos del motor de búsqueda.

Exclusión

La copia del contenido del sitio web por las arañas web no se considera una violación del derecho de autor en los EE.UU., pero aún así, es posible que desee evitar que su página web esté rastreando. Para ello, se puede añadir un protocolo de exclusión de robots - normalmente en un archivo llamado "robot.txt" - a una página Web. Un protocolo de exclusión de robots indica que una araña web que una página no es adecuado para el rastreo o simplemente que su propietario no quiere que la rastree. Se advierte, sin embargo, que no hay nada legalmente vinculante sobre los protocolos de exclusión de robots, arañas y algunas web están programados para ignorar por completo.

Otros tipos de arañas

Otros tipos no tradicionales de las arañas web se pueden usar para tomar una instantánea del contenido de Internet en un momento dado, o para generar estadísticas que permiten que el contenido sea entendido. Del mismo modo, algunas arañas web se pueden usar para comprobar la validez del HTML e hipervínculos - palabras, frases o imágenes en el que los visitantes pueden hacer clic - en una página Web. Por desgracia, otro tipo de araña Web malintencionado se puede utilizar para recopilar direcciones de correo electrónico, que se utilizan para generar no solicitado, o spam, mensajes de correo electrónico.