El archivo robots.txt es un archivo de texto simple utilizado por los sitios web para comunicar a los motores de búsqueda qué partes de su sitio deberían o no deberían ser rastreadas e indexadas.
Este archivo se coloca en el directorio raíz de un sitio web y contiene directivas específicas que los robots de los motores de búsqueda (también conocidos como crawlers o spiders) deben seguir al visitar el sitio.
¿Cómo funciona el archivo Robots.txt?
Cuando un motor de búsqueda visita un sitio web, lo primero que hace es buscar el archivo robots.txt para determinar qué partes del sitio están permitidas para rastrear e indexar. El archivo puede incluir directivas como:
User-agent: Especifica el robot o crawler al que se aplican las reglas siguientes. Puede ser específico para un motor de búsqueda (como Googlebot) o aplicarse a todos los robots (*
).
Disallow: Indica las páginas o directorios que no se deben rastrear.
Disallow: /privado/ Disallow: /admin/
Allow: Se utiliza en combinación con Disallow
para permitir el rastreo de subdirectorios específicos dentro de un directorio prohibido. Esto es común en sitios que desean bloquear un directorio completo excepto una o más páginas.
Sitemap: Indica la ubicación del fichero sitemap.xml del sitio, lo que ayuda a los motores de búsqueda a entender la estructura del sitio y a rastrear las páginas con mayor eficiencia.
Ejemplo de un archivo Robots.txt
User-agent: *
Disallow: /admin/
Disallow: /privado/
Allow: /publico/
Sitemap: https://www.ejemplo.com/sitemap.xml
En este ejemplo, todos los robots tienen prohibido rastrear los directorios /admin/
y /privado/
, pero se permite el acceso al subdirectorio /publico/
.
NOTA: Si quieres saber todo sobre el fichero robots.txt, visita nuestra guía.
¿Para qué es útil el archivo Robots.txt?
El archivo robots.txt es útil en varias situaciones:
- Proteger contenido privado: Si tienes secciones de tu sitio que no deberían ser accesibles para el público o que contienen información sensible, puedes usar robots.txt para evitar que los motores de búsqueda las indexen.
- Optimización del rastreo: Para sitios web grandes con miles de páginas, robots.txt ayuda a optimizar el rastreo, guiando a los robots para que se enfoquen en las páginas más importantes, ahorrando el presupuesto de rastreo.
- Evitar la indexación de contenido duplicado: Si tienes varias versiones de la misma página o contenido duplicado, puedes usar robots.txt para evitar que los motores de búsqueda indexen esas versiones duplicadas.
- Bloquear recursos no necesarios: Puedes evitar que los motores de búsqueda rastreen recursos como archivos CSS, imágenes o scripts si no son necesarios para la indexación.
Limitaciones del archivo Robots.txt
Es importante entender que el archivo robots.txt es una directiva, no un mandato. Los motores de búsqueda legítimos como Google respetan estas directivas, pero otros robots pueden ignorarlas. Además:
- No protege contenido: El archivo robots.txt no garantiza la seguridad ni la privacidad de las páginas. Cualquiera que conozca la URL exacta de una página prohibida aún puede acceder a ella directamente.
- No elimina páginas ya indexadas: Si una página ya ha sido indexada, agregarla al archivo robots.txt no la eliminará de los resultados de búsqueda. Para esto, es necesario utilizar otras herramientas, como la eliminación de URL en Google Search Console.
Conclusión
El archivo robots.txt es un fichero imprescindible para la gestión del rastreo y la indexación de un sitio web. Ayuda a controlar qué contenido se muestra en los resultados de búsqueda y a optimizar la eficiencia del rastreo. Sin embargo, debe utilizarse correctamente y con conciencia de sus limitaciones para evitar problemas de indexación o exposición no deseada de contenido.
Si la explicación te ha gustado, hay muchos más términos explicados en el Glosario de Marketing Digital.