Robots.txt

El archivo robots.txt es un archivo que indica a los buscadores qué partes de una web pueden rastrear y cuáles no.

Dicho de forma sencilla: es un archivo que da instrucciones a los robots de los buscadores sobre qué páginas deben visitar.

Se coloca normalmente en la raíz del dominio y sirve para controlar cómo los bots, como Googlebot, acceden al contenido del sitio.

Qué significa robots.txt

El nombre robots.txt proviene del protocolo llamado Robots Exclusion Protocol, que define cómo los sitios web pueden comunicar a los robots de internet qué partes del sitio deben evitar.

El archivo se utiliza principalmente para:

bloquear ciertas rutas del sitio
evitar el rastreo de páginas innecesarias
controlar el acceso de bots a determinadas secciones

Aunque es una herramienta muy útil, su función es controlar el rastreo, no necesariamente la indexación.

Dónde se encuentra robots.txt

El archivo robots.txt se encuentra siempre en la raíz del dominio.

Por ejemplo:

https://tudominio.com/robots.txt

Los buscadores consultan este archivo antes de empezar a rastrear una web para saber qué reglas deben seguir.

Ejemplo básico de robots.txt

Un archivo robots.txt sencillo podría tener este aspecto:

User-agent: *
Disallow: /admin/
Disallow: /carrito/

Esto significa que todos los robots (User-agent: *) tienen prohibido rastrear las carpetas /admin/ y /carrito/.

También se pueden permitir rutas específicas o indicar la ubicación del sitemap.

Por ejemplo:

User-agent: *
Allow: /Sitemap: https://tudominio.com/sitemap.xml

Para qué sirve robots.txt

El archivo robots.txt se utiliza principalmente para gestionar el rastreo del sitio por parte de los buscadores.

Entre sus funciones más habituales están:

evitar que se rastreen páginas sin valor SEO
bloquear áreas privadas del sitio
reducir el rastreo de páginas innecesarias
mejorar el uso del crawl budget
indicar la ubicación del sitemap

En sitios grandes puede ayudar a que Google se centre en rastrear páginas importantes.

Ejemplo fácil de entender

Imagina una tienda online con miles de páginas.

Algunas de esas páginas pueden ser:

paneles de administración
páginas de carrito
resultados de búsqueda interna
páginas generadas por filtros

Estas páginas no tienen valor para posicionar en Google.

Con robots.txt se puede evitar que los buscadores pierdan tiempo rastreando ese tipo de contenido.

Es como poner señales en un edificio que dicen: “esta puerta no lleva a ninguna parte interesante”.

Cuándo utilizar robots.txt

El archivo robots.txt es especialmente útil cuando una web tiene secciones que no deberían ser rastreadas.

Por ejemplo:

páginas administrativas
resultados de búsqueda internos
parámetros de URL
áreas privadas del sitio
contenido duplicado generado automáticamente

Gestionarlo correctamente ayuda a optimizar el rastreo.

Confusión habitual

Una confusión muy común es pensar que robots.txt impide que una página aparezca en Google.

En realidad, robots.txt solo bloquea el rastreo.

Si una página tiene enlaces desde otros sitios, Google podría indexarla igualmente aunque no pueda rastrear su contenido.

Para evitar la indexación de una página se utilizan otras herramientas como:

meta robots noindex
cabeceras HTTP noindex
redirecciones

Por eso robots.txt debe utilizarse con cuidado.

Relación con otros conceptos

El archivo robots.txt está muy relacionado con varios conceptos clave del SEO técnico:

Rastreo
Crawl budget
Sitemap
Indexación
Arquitectura web

Todos ellos influyen en cómo los buscadores descubren y procesan las páginas de una web.

En resumen

El archivo robots.txt es una herramienta que permite controlar qué partes de una web pueden ser rastreadas por los buscadores.

Utilizado correctamente, ayuda a optimizar el rastreo y a evitar que los bots pierdan tiempo en páginas que no aportan valor.

Sin embargo, es importante recordar que robots.txt controla el rastreo, pero no garantiza que una página no pueda indexarse.