Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots d'exploration (crawlers) quelles pages ils peuvent ou ne peuvent pas explorer, incluant désormais les crawlers des IA.
Qu'est-ce que le fichier Robots.txt ?
Le fichier robots.txt est un fichier texte standard placé à la racine d'un site web (exemple.com/robots.txt) qui communique aux robots d'exploration (crawlers) les directives d'accès : quelles parties du site explorer et lesquelles ignorer. C'est la première chose que consultent Googlebot, GPTBot et les autres crawlers avant d'explorer votre site.
Robots.txt et crawlers IA
Avec l'essor des IA, de nouveaux crawlers sont apparus :
- GPTBot : Le crawler d'OpenAI pour alimenter ChatGPT
- ClaudeBot : Le crawler d'Anthropic pour alimenter Claude
- PerplexityBot : Le crawler de Perplexity AI
- Google-Extended : Le crawler de Google pour Gemini
- Bytespider : Le crawler de ByteDance (TikTok)
Configuration recommandée pour la visibilité IA
Pour maximiser votre visibilité sur les IA, votre robots.txt devrait autoriser les crawlers IA :
# Autoriser les crawlers IA
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Erreurs courantes
- Bloquer tous les bots : "User-agent: * / Disallow: /" bloque aussi les crawlers IA
- Oublier les crawlers IA : Si GPTBot est bloqué, ChatGPT ne peut pas indexer votre contenu
- Ne pas avoir de robots.txt : Les crawlers explorent tout, sans priorité
Robots.txt et AI Labs Audit
Le Score GEO d'AI Labs Audit vérifie automatiquement votre fichier robots.txt et vous alerte si des crawlers IA importants sont bloqués.