El RAG (Retrieval-Augmented Generation) es una arquitectura que permite a las IA buscar información en la web antes de generar una respuesta. En lugar de limitarse a sus datos de entrenamiento estáticos, los modelos recuperan contenidos actualizados, los analizan y los sintetizan para producir respuestas con fuentes. ChatGPT con navegación web, Perplexity y los AI Overviews de Google utilizan el RAG.
Cómo funciona el RAG
El proceso se desarrolla en tres etapas diferenciadas:
1. Análisis de la consulta: La IA descompone la pregunta del usuario en intenciones de búsqueda.
2. Recuperación (Retrieval): El sistema consulta un motor de búsqueda — Bing para ChatGPT, el índice propio para Perplexity — y recupera los extractos más relevantes.
3. Generación aumentada: La IA sintetiza la información recuperada con sus conocimientos preexistentes para formular una respuesta coherente.
Por qué el RAG cambia las reglas de la visibilidad
El RAG representa su ventana de acción sobre los LLM. No puede modificar retroactivamente los datos de entrenamiento de un modelo — están fijados. Pero puede optimizar sus contenidos para que sean seleccionados por el sistema de recuperación.
Bing se vuelve estratégico: ChatGPT utiliza Bing para su RAG. Su posicionamiento en Bing influye directamente en su visibilidad en las respuestas de ChatGPT.
La estructura del contenido importa: El RAG extrae pasajes, no páginas enteras. Un contenido bien estructurado con bloques autónomos tiene más probabilidades de ser seleccionado.
RAG vs datos de entrenamiento
| Aspecto | Datos de entrenamiento | RAG |
|---|---|---|
| Temporalidad | Fijados a una fecha | Tiempo real |
| Control | Casi nulo | Optimizable |
| Citas | Raramente con fuentes | Fuentes visibles |
| Plazo de acción | Meses/años | Semanas |