Tecnología

Inicio

Cómo evitar controles Motor de búsqueda

Cómo evitar controles Motor de búsqueda


Los motores de búsqueda como Google y Bing generan los enlaces en sus sitios mediante el uso de programas automatizados para buscar en la Internet para los enlaces y el contenido. Estos programas, conocidos como bots, crawlers o arañas, visitan una página web cuando el propietario de la página web envía la URL al motor de búsqueda, o cuando los sitios web visitados por los robots de búsqueda enlace a otro sitio. Un propietario del sitio web podría no querer que su sitio web, o partes de su sitio web, que se aparece en un motor de búsqueda. Para permitir a los propietarios para ocultar partes de su sitio web, motores de búsqueda buscan un archivo llamado robots.txt inmediatamente después de visitar un nuevo sitio web.

Instrucciones

1 Abra un editor de texto, como Bloc de notas de Microsoft.

2 Escriba el siguiente a impedir la realización robots de indexando las áreas de su sitio.

Agente de usuario: *

No permitir: /

3 Alterar el valor "User-agent" al nombre de un motor de búsqueda 'araña o varias arañas de búsqueda para crear reglas específicamente para esos robots. Cambie el valor "No permitir" a los nombres de directorio específicos para bloquear los robots accedan a sólo aquellos directorios tiempo que les permite atravesar el resto de la página web. Añadir varias líneas "User-Agent" para crear diferentes "No permitir" comandos de varios robots. Por ejemplo, las siguientes líneas bloquean la mayoría de los robots de búsqueda de todas las partes de un sitio web, pero permite que los robots de Google acceso sin restricciones, con excepción de dos directorios:

Agente de usuario: *

No permitir: /

User-agent: Googlebot

No permitir: / private /

No permitir: / secreto /

4 Guarde el archivo de texto con el nombre "robots.txt" Exactamente. No agregue la capitalización o cualquier otro cambio en el nombre del archivo.

5 Cargar el archivo en el directorio raíz principal de su sitio web, donde normalmente se encuentra la "Principal", "bienvenida" o "Índice de la página". Compruebe que la dirección Web para el archivo termina por separado del título de la página de página de una sola barra invertida (www.example.com/robots.txt). Evitar poner el archivo en otro directorio, como robots sólo comprobar el directorio principal para obtener instrucciones de robots.txt.

Consejos y advertencias

  • El asterisco es un comando especial en el archivo robots.txt que llama a todos los robots de búsqueda. No se puede utilizar como un comando de "wild card" de cualquier otra manera.
  • Puede ocultar las páginas específicas, así como directorios escribiendo la ruta de directorio para el archivo. Por ejemplo, el siguiente texto oculta sólo la página "nospiders.html" ubicado en el directorio "secreto": "No permitir: /secret/nospiders.html".
  • La alteración del nombre del archivo o colocarlo en cualquier directorio que no sea el directorio raíz hará que los robots de hacer caso omiso de las instrucciones en el archivo.