El crawl designa la exploración automática de las páginas web por robots (crawlers o spiders). Googlebot rastrea la web para alimentar el índice de Google. BingBot hace lo mismo para Bing. Para el AEO, el crawl es fundamental: una página no rastreada no existe para los motores de búsqueda ni para las IA que utilizan el RAG.
Crawlers importantes para el AEO
Googlebot: El crawler de Google. Influye en el ranking de Google y los AI Overviews.
BingBot: El crawler de Bing. Crítico porque ChatGPT utiliza Bing para su RAG.
GPTBot: El crawler de OpenAI. Alimenta los futuros datos de entrenamiento.
PerplexityBot: El crawler de Perplexity.
Controlar el crawl: robots.txt
El archivo robots.txt controla qué robots pueden rastrear su sitio. Atención: Bloquear GPTBot u otros crawlers de IA le hace invisible para estos sistemas.
Optimizar para el crawl
- Sitio rápido (los crawlers tienen un "presupuesto" de tiempo)
- Sin bloqueos por error en robots.txt
- Sitemap XML actualizado
- Enlazado interno coherente