L'essentiel en 30 secondes
- Votre robots.txt est la premiere chose que les crawlers IA lisent. Une mauvaise configuration peut vous rendre invisible sur ChatGPT, Claude et Perplexity
- La strategie optimale : autoriser les crawlers IA de recherche (GPTBot, ClaudeBot, PerplexityBot) et bloquer les crawlers d'entrainement (CCBot, Google-Extended)
- Un WAF trop restrictif (Cloudflare Bot Fight Mode) peut bloquer les crawlers IA meme avec un robots.txt parfait
- AI Labs Audit teste automatiquement l'acces reel de chaque crawler IA a votre site
Votre fichier robots.txt est la premiere chose que les crawlers IA lisent quand ils visitent votre site. Une mauvaise configuration peut vous rendre completement invisible sur ChatGPT, Claude et Perplexity, ou au contraire offrir tout votre contenu aux crawlers d'entrainement sans aucune contrepartie en termes de visibilite. Voici comment configurer votre robots.txt de maniere optimale pour les IA.
Comprendre les deux types de crawlers IA
Tous les crawlers IA ne se valent pas. Il est essentiel de distinguer deux categories aux objectifs tres differents :
Crawlers de recherche IA (a autoriser)
Ces crawlers indexent votre contenu pour repondre aux questions des utilisateurs en temps reel. Les autoriser signifie que les IA pourront citer votre site comme source dans leurs reponses, generant du trafic vers vos pages.
| Crawler | Editeur | Usage |
|---|---|---|
| GPTBot | OpenAI | Recherche web pour ChatGPT et les plugins |
| ClaudeBot | Anthropic | Recherche web pour Claude |
| PerplexityBot | Perplexity AI | Indexation en temps reel pour Perplexity Search |
| CohereBot | Cohere | Recherche pour les applications Cohere |
| YouBot | You.com | Moteur de recherche IA You.com |
Crawlers d'entrainement (a bloquer)
Ces crawlers collectent votre contenu pour entrainer les modeles de langue. Les bloquer ne reduit pas votre visibilite puisqu'ils n'influencent pas les reponses en temps reel, mais protege votre propriete intellectuelle.
| Crawler | Editeur | Usage |
|---|---|---|
| CCBot | Common Crawl | Dataset d'entrainement open source utilise par de nombreux LLM |
| Google-Extended | Entrainement des modeles Gemini | |
| GPTBot-Training | OpenAI | Collecte de donnees d'entrainement (distinct de la recherche) |
| FacebookBot | Meta | Entrainement des modeles Llama |
| Bytespider | ByteDance | Entrainement et indexation TikTok/Douyin |
Configuration robots.txt optimale
Voici la configuration recommandee qui maximise votre visibilite sur les IA de recherche tout en protegeant votre contenu contre l'utilisation pour l'entrainement :
# === Crawlers IA de recherche : AUTORISER ===
# Ces crawlers citent votre site dans les reponses IA
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: CohereBot
Allow: /
User-agent: YouBot
Allow: /
# === Crawlers d'entrainement : BLOQUER ===
# Ces crawlers collectent vos donnees sans contrepartie
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot-Training
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Bytespider
Disallow: /
Les erreurs les plus frequentes
Erreur 1 : Bloquer tous les bots IA
La regle User-agent: * suivie de Disallow: / bloque indistinctement les crawlers de recherche et d'entrainement. Resultat : votre site est invisible sur les IA de recherche. Certaines entreprises ajoutent cette regle par precaution sans realiser l'impact sur leur visibilite.
Erreur 2 : Ne pas avoir de robots.txt du tout
L'absence de robots.txt est mieux que de tout bloquer, mais vous perdez le controle : les crawlers d'entrainement peuvent librement collecter votre contenu.
Erreur 3 : Bloquer GPTBot en pensant bloquer l'entrainement
GPTBot est utilise pour la recherche web de ChatGPT, pas pour l'entrainement. Le bloquer signifie que ChatGPT ne pourra pas citer votre site dans ses reponses avec recherche web.
Le piege du WAF et de Cloudflare
Meme avec un robots.txt parfaitement configure, votre site peut rester invisible pour les IA si votre WAF (Web Application Firewall) bloque les crawlers IA :
- Cloudflare Bot Fight Mode : cette fonctionnalite bloque agressivement les bots automatises, y compris GPTBot et ClaudeBot. Si vous l'activez, votre robots.txt est ignore car les crawlers n'arrivent jamais jusqu'a lui
- Regles WAF trop restrictives : des regles basees sur le user-agent ou le comportement peuvent bloquer les crawlers IA legitimes
- Rate limiting : des limites de requetes trop basses peuvent empecher les crawlers d'indexer suffisamment de pages
La solution : ajoutez des exceptions dans votre WAF pour les user-agents des crawlers IA de recherche que vous souhaitez autoriser.
Verification automatique avec AI Labs Audit
La checklist GEO d'AI Labs Audit ne se contente pas de lire votre robots.txt. Elle teste l'acces reel de chaque crawler IA a votre site :
- Test robots.txt : verification des regles pour chaque user-agent IA (GPTBot, ClaudeBot, PerplexityBot)
- Test SSR : simulation de l'acces reel avec chaque user-agent pour verifier que le WAF ne bloque pas
- Distinction recherche/entrainement : le rapport distingue clairement les crawlers que vous devez autoriser de ceux que vous pouvez bloquer
- Recommandations actionnables : si un probleme est detecte, le rapport fournit la configuration robots.txt exacte a appliquer
Aller plus loin : llms.txt et meta tags
Le robots.txt n'est qu'un element de votre strategie d'accessibilite IA. Deux autres mecanismes complementaires meritent votre attention :
- llms.txt : un fichier place a la racine de votre site qui fournit aux IA un resume structure de votre entreprise, de vos produits et de vos pages cles. C'est l'equivalent d'un briefing pour les IA
- Meta tags noai : la directive
<meta name="robots" content="noai">peut etre placee page par page pour exclure certaines pages de l'utilisation par les IA. Utile pour les pages sensibles sans bloquer l'ensemble du site
Verifiez que les IA peuvent acceder a votre site