SEO Basics

¿Qué es un archivo robots.txt?

Un archivo robots.txt es un documento de texto ubicado en el directorio raíz de un sitio web que indica a los rastreadores de los motores de búsqueda qué páginas o secciones deben o no rastrear. Es una herramienta vital para gestionar el crawl budget y evitar la indexación de partes sensibles o redundantes de un sitio.

Empieza gratis Guía paso a paso ↓

El archivo robots.txt es esencialmente un conjunto de instrucciones para los robots de la web (crawlers). Cuando un motor de búsqueda como Google visita un sitio, lo primero que busca es este archivo. Utiliza el 'Protocolo de Exclusión de Robots' para dar comandos como 'User-agent' (a quién se aplica la regla) y 'Disallow' (qué rutas deben ignorarse). Aunque es excelente para evitar que los rastreadores pierdan tiempo en páginas de poco valor —como pantallas de inicio de sesión, resultados de búsqueda interna o carpetas de administración—, es importante notar que el robots.txt no garantiza que una página quede fuera del índice de Google. Si una página está bloqueada en robots.txt pero tiene enlaces externos apuntando a ella, Google podría indexar la URL de todos modos. Para evitar realmente que una página aparezca en los resultados de búsqueda, se requiere una etiqueta 'noindex'. Configurar mal tu archivo robots.txt es un error técnico de SEO común; bloquear accidentalmente todo tu sitio puede llevar a una pérdida total de visibilidad, por lo que debe manejarse con cuidado.

Guía paso a paso

Localizar o crear el archivo

Asegúrate de que exista un archivo llamado robots.txt en el directorio raíz de tu sitio (ej. ejemplo.com/robots.txt).

Definir los User-Agents

Especifica a qué bots se aplican las reglas, usando un asterisco (*) para todos los bots o 'Googlebot' para rastreadores específicos.

Configurar reglas Disallow

Enumera los directorios o rutas de archivos específicos que quieres mantener privados para los rastreadores.

Añadir enlace al Sitemap

Incluye un enlace directo a tu sitemap XML al final del archivo para ayudar a los bots a encontrar tu contenido.

Probar errores

Usa el Probador de robots.txt de Google Search Console para asegurar que no estás bloqueando páginas importantes.

Pro Tips

Usa 'Disallow' para páginas privadas o repetitivas como /wp-admin/ o /search/.
Nunca uses robots.txt para ocultar datos sensibles de usuarios; utiliza protección por contraseña en su lugar.
Mantén la sintaxis simple; las reglas complejas pueden provocar errores de rastreo.

🚀

Cómo ayuda pSeoMatic

pSeoMatic monitorea automáticamente tu archivo robots.txt en busca de cambios inesperados. Si un desarrollador bloquea por accidente una sección de alto tráfico, nuestro sistema envía una alerta inmediata, evitando caídas catastróficas en la visibilidad orgánica antes de que afecten a tu negocio.

Prueba pSeoMatic gratis

Preguntas relacionadas

¿Puede el robots.txt evitar que una página se indexe?

Detiene el rastreo, pero la indexación puede ocurrir si otros sitios enlazan a esa página. Usa una etiqueta noindex para una eliminación total.

¿Dónde coloco el archivo robots.txt?

Debe colocarse en el directorio raíz principal del host de tu sitio web.

¿El robots.txt distingue entre mayúsculas y minúsculas?

Sí, tanto el nombre del archivo como las rutas de los directorios dentro de él distinguen entre mayúsculas y minúsculas.

Guías relacionadas

¿Listo para poner esto en práctica?

pSeoMatic genera miles de páginas optimizadas para SEO a partir de tus datos.

Empieza gratis