Expedientes de robots.txt de mostra para o seu sitio web

Un arquivo robots.txt almacenado na raíz do teu sitio web dirá aos robots web como as arañas do motor de procura cales son os directorios e os ficheiros aos que se lles permiten rastrexar. É fácil empregar un ficheiro robots.txt, pero hai algunhas cousas que debes recordar:

  1. Os robots web de sombreiro negro ignorarán o ficheiro robots.txt. Os tipos máis comúns son robots de malware e robots que buscan enderezos de correo electrónico para coller.
  2. Algúns programadores novos escriben robots que ignoran o arquivo robots.txt. Isto xeralmente faise por erro.
  1. Calquera pode ver o ficheiro robots.txt. Son sempre chamados robots.txt e sempre están almacenados na raíz do sitio web.
  2. Finalmente, se alguén vincula a un arquivo ou directorio que está excluído polo seu ficheiro robots.txt dunha páxina que non está excluída polo seu ficheiro robots.txt, os buscadores poderán atopalo de todos os xeitos.

Non empregue robots.txt para ocultar nada importante. En cambio, debe poñer información importante detrás de contrasinais seguros ou deixala completamente fóra da rede.

Como usar estes arquivos de exemplo

Copia o texto da mostra que está máis preto do que queres facer e pégalla no teu ficheiro robots.txt. Cambia o robot, o directorio e os nomes dos ficheiros para que coincidan coa túa configuración preferida.

Dous ficheiros básicos de Robots.txt

Axente de usuário: *
Non permitir: /

Este ficheiro di que calquera robot (User-agent: *) que o acceda debería ignorar todas as páxinas do sitio (Disallow: /).

Axente de usuário: *
Non admitir:

Este ficheiro di que calquera robot (User-agent: *) que o accede permítelle ver todas as páxinas do sitio (Deshabilitar:).

Tamén podes facelo deixando o teu ficheiro robots.txt en branco ou non ter un no teu sitio.

Protexa os directorios específicos dos robots

Axente de usuário: *
Non permitir: / cgi-bin /
Non permitir: / temp /

Este ficheiro di que calquera robot (User-agent: *) que o acceda debería ignorar os directorios / cgi-bin / e / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Protexa páxinas específicas de robots

Axente de usuário: *
Non permitir: /jenns-stuff.htm
Non permitir: /private.php

Este ficheiro di que calquera robot (User-agent: *) que o acceda ignore os ficheiros /jenns-stuff.htm e /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Impedir que un robot específico acceda ao teu sitio

Axente de usuário: Lycos / xx
Non permitir: /

Este ficheiro di que o Bot de Lycos (Usuario-axente: Lycos / xx) non está permitido acceder a calquera lugar do sitio (Disallow: /).

Permitir só un acceso específico de Robot

Axente de usuário: *
Non permitir: /
Axente de usuário: Googlebot
Non admitir:

Este ficheiro non admite primeiro todos os robots como o que fixemos anteriormente e, de forma explícita, deixa que o Googlebot (User-agent: Googlebot) teña acceso a todo (Disallow:).

Combina varias liñas para obter exactamente as exclusións que desexes

Aínda que é mellor usar unha liña de axente de usuario moi inclusiva, como User-agent: *, pode ser o máis específico que desexe. Lembre que os robots len o ficheiro en orde. Entón, se as primeiras liñas din que todos os robots están bloqueados de todo e despois no arquivo di que todos os robots teñen acceso a todo, os robots terán acceso a todo.

Se non está seguro de se escribiu correctamente o seu ficheiro robots.txt, pode usar as ferramentas de administrador web de Google para verificar o ficheiro robots.txt ou escribir un novo.