El archivo robots.txt es un archivo que indica a los buscadores qué partes de una web pueden rastrear y cuáles no.
Dicho de forma sencilla: es un archivo que da instrucciones a los robots de los buscadores sobre qué páginas deben visitar.
Se coloca normalmente en la raíz del dominio y sirve para controlar cómo los bots, como Googlebot, acceden al contenido del sitio.
Qué significa robots.txt
El nombre robots.txt proviene del protocolo llamado Robots Exclusion Protocol, que define cómo los sitios web pueden comunicar a los robots de internet qué partes del sitio deben evitar.
El archivo se utiliza principalmente para:
- bloquear ciertas rutas del sitio
- evitar el rastreo de páginas innecesarias
- controlar el acceso de bots a determinadas secciones
Aunque es una herramienta muy útil, su función es controlar el rastreo, no necesariamente la indexación.
Dónde se encuentra robots.txt
El archivo robots.txt se encuentra siempre en la raíz del dominio.
Por ejemplo:
https://tudominio.com/robots.txt
Los buscadores consultan este archivo antes de empezar a rastrear una web para saber qué reglas deben seguir.
Ejemplo básico de robots.txt
Un archivo robots.txt sencillo podría tener este aspecto:
User-agent: *
Disallow: /admin/
Disallow: /carrito/
Esto significa que todos los robots (User-agent: *) tienen prohibido rastrear las carpetas /admin/ y /carrito/.
También se pueden permitir rutas específicas o indicar la ubicación del sitemap.
Por ejemplo:
User-agent: *
Allow: /Sitemap: https://tudominio.com/sitemap.xml
Para qué sirve robots.txt
El archivo robots.txt se utiliza principalmente para gestionar el rastreo del sitio por parte de los buscadores.
Entre sus funciones más habituales están:
- evitar que se rastreen páginas sin valor SEO
- bloquear áreas privadas del sitio
- reducir el rastreo de páginas innecesarias
- mejorar el uso del crawl budget
- indicar la ubicación del sitemap
En sitios grandes puede ayudar a que Google se centre en rastrear páginas importantes.
Ejemplo fácil de entender
Imagina una tienda online con miles de páginas.
Algunas de esas páginas pueden ser:
- paneles de administración
- páginas de carrito
- resultados de búsqueda interna
- páginas generadas por filtros
Estas páginas no tienen valor para posicionar en Google.
Con robots.txt se puede evitar que los buscadores pierdan tiempo rastreando ese tipo de contenido.
Es como poner señales en un edificio que dicen: “esta puerta no lleva a ninguna parte interesante”.
Cuándo utilizar robots.txt
El archivo robots.txt es especialmente útil cuando una web tiene secciones que no deberían ser rastreadas.
Por ejemplo:
- páginas administrativas
- resultados de búsqueda internos
- parámetros de URL
- áreas privadas del sitio
- contenido duplicado generado automáticamente
Gestionarlo correctamente ayuda a optimizar el rastreo.
Confusión habitual
Una confusión muy común es pensar que robots.txt impide que una página aparezca en Google.
En realidad, robots.txt solo bloquea el rastreo.
Si una página tiene enlaces desde otros sitios, Google podría indexarla igualmente aunque no pueda rastrear su contenido.
Para evitar la indexación de una página se utilizan otras herramientas como:
- meta robots noindex
- cabeceras HTTP noindex
- redirecciones
Por eso robots.txt debe utilizarse con cuidado.
Relación con otros conceptos
El archivo robots.txt está muy relacionado con varios conceptos clave del SEO técnico:
- Rastreo
- Crawl budget
- Sitemap
- Indexación
- Arquitectura web
Todos ellos influyen en cómo los buscadores descubren y procesan las páginas de una web.
En resumen
El archivo robots.txt es una herramienta que permite controlar qué partes de una web pueden ser rastreadas por los buscadores.
Utilizado correctamente, ayuda a optimizar el rastreo y a evitar que los bots pierdan tiempo en páginas que no aportan valor.
Sin embargo, es importante recordar que robots.txt controla el rastreo, pero no garantiza que una página no pueda indexarse.