El archivo robots.txt es un archivo de texto en la raíz de un sitio web que indica a los robots de exploración qué páginas pueden o no explorar, incluyendo los crawlers de las IA.
¿Qué es el archivo Robots.txt?
El archivo robots.txt es un archivo de texto estándar situado en la raíz de un sitio web que comunica a los crawlers las directivas de acceso. Es lo primero que consultan Googlebot, GPTBot y los demás crawlers.
Robots.txt y crawlers IA
- GPTBot: Crawler de OpenAI para ChatGPT
- ClaudeBot: Crawler de Anthropic para Claude
- PerplexityBot: Crawler de Perplexity AI
- Google-Extended: Crawler de Google para Gemini
- Bytespider: Crawler de ByteDance (TikTok)
Configuración recomendada
# Autorizar los crawlers IA
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Errores comunes
- Bloquear todos los bots: También bloquea los crawlers IA
- Olvidar los crawlers IA: Si GPTBot está bloqueado, ChatGPT no indexa su contenido
Robots.txt y AI Labs Audit
El Score GEO verifica automáticamente su robots.txt y le alerta si crawlers IA están bloqueados.