Tecnología

Inicio

¿Cómo sabe GoogleBot Cuando se modifica una página?

¿Cómo sabe GoogleBot Cuando se modifica una página?


araña de Google, también conocido como el robot de Google, rastrea la Web en su propio horario, determinando qué páginas se modifican y se requieren reindexing comparándolos con el índice existente. A pesar de que este proceso ocurre muy rápidamente, es muy útil saber qué salta al robot de Google utiliza para buscar páginas actualizadas y los problemas que pueda encontrar.

Googlebot Frecuencia

araña de Google rastrea la web muy rápidamente; muchos sitios son visitados diariamente. Eso no quiere decir que la araña se arrastra todas las páginas actualizadas, sin embargo. El algoritmo de Google utiliza para determinar la frecuencia de rastreo incluye variables como la fila de la página, el número de enlaces que apuntan a la página, la información en el mapa del sitio e incluso la longitud de la URL. Una página específica puede ser actualizada en el índice de Google en cuestión de horas, mientras que otro no se pueden actualizar durante varios días, dependiendo de estas variables.

Mapas del sitio

Una señal del robot de Google utiliza para determinar la frescura de su sitio es el archivo de mapa del sitio, un documento XML que contiene tanto las páginas importantes de su sitio y la frecuencia con la que es muy probable que actualizarlas. Puede crear un mapa del sitio utilizando una serie de herramientas en línea, incluidos los servicios Web gratuitos y WordPress plug-ins, subirlo al nivel de la raíz de su sitio y enviarlo a Google ya sea a través de Google Webmaster Tools o la siguiente URL:

http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.YourSite.com/sitemap.xml

If-Modified-Since encabezado

Otra señal es en la cabecera HTTP del servidor Web de su sitio. Llamado el "si-modified-since" de cabecera, cuando el robot de Google llega a su página, se le pedirá al servidor si la página se ha actualizado desde la última visita. Si es así, o cuando la página es totalmente nuevo, el servidor devuelve una respuesta "200 OK". Si la página no se ha cambiado, esta cabecera devuelve la respuesta "304 Not Modified", ahorrando el tiempo y el robot de Google ahorrará ancho de banda. problemas de configuración con el servidor Web podrían causar problemas con esta cabecera y prevenir la araña de rastreo de su página. Puede comprobar si el If-Modified-Since encabezado con una herramienta en línea en Feedthebot.com.

Herramientas para webmasters

Google ha desarrollado el sitio web Herramientas para webmasters para ayudar a los propietarios de sitios monitorean las visitas del robot de Google, así como para ver los errores de indexación y otros problemas que pueden impedir que Google indexe páginas actualizadas. Herramientas para webmasters de Google también incluye herramientas para la presentación de sus mapas de sitio, la presentación de las páginas individuales para la indexación y la eliminación de las direcciones URL que no desea que aparezca en el índice de Google. Incluso hay una herramienta que le permite comprobar el archivo robots.txt, que advierte arañas lejos de las páginas que no desea indexar.

AJAX contenido

Aunque AJAX se actualiza dinámicamente una página Web en la marcha, el robot de Google no ve más que el código HTML de la página y no ejecutará el código JavaScript. Si desea que Google actualizaciones de índice hechas usando las características de AJAX de su página, debe incluir HTML alternativo para la araña. Google ofrece un método por el cual se puede ofrecer una versión alternativa del contenido AJAX para el robot de Google.