GPTBot est le crawler d'OpenAI qui parcourt le web pour alimenter les données de ChatGPT. Identifiable par le User-Agent "GPTBot/1.0", il peut être autorisé ou bloqué via robots.txt.
Qu'est-ce que GPTBot ?
GPTBot est l'agent d'exploration web (crawler) développé par OpenAI. Son rôle est de parcourir les sites web pour collecter des données qui seront utilisées pour entraîner et alimenter les modèles GPT, notamment ChatGPT. Il est identifiable dans les logs serveur par son User-Agent "GPTBot/1.0".
Faut-il autoriser GPTBot ?
La question est stratégique pour la visibilité IA :
- Autoriser GPTBot : Vos contenus alimentent ChatGPT, augmentant les chances d'être cité dans les réponses. C'est la stratégie recommandée pour le GEO
- Bloquer GPTBot : Protège votre propriété intellectuelle mais réduit votre visibilité sur ChatGPT
Configuration dans robots.txt
Le contrôle se fait via le fichier robots.txt :
User-agent: GPTBot
Allow: / # Autoriser tout le site
Disallow: /private/ # Bloquer certaines sections
Suivi avec AI Labs Audit
AI Labs Audit détecte automatiquement les visites de GPTBot sur votre site via le module de tracking. Vous pouvez ainsi mesurer la fréquence de crawl et corréler avec votre visibilité sur ChatGPT. Voir aussi : ClaudeBot, PerplexityBot, Google-Extended.