Metodología AGS — AI Grading System | AI Labs Audit
AGS (AI Grading System) es el motor de puntuación de AI Labs Audit. Hace que cada respuesta IA sea evaluada por 5 IA-jueces que se calibran entre sí, y publica un coeficiente de fiabilidad inter-jueces para que sepas exactamente cuán defendible es tu puntuación.
En 30 segundos
El AGS (AI Grading System) es un método abierto para medir la visibilidad de una marca en las respuestas de las IA. Para cada respuesta evaluamos tres aspectos —si la marca está presente, si lo que se dice resulta favorable y si la respuesta es fiable— mediante un jurado de varias IA independientes. La puntuación final combina estas tres notas de modo que una debilidad no pueda quedar oculta. Es ante todo un método: puede comprenderlo, verificarlo y rebatirlo.
Este método se lee en varios niveles: una definición en 30 segundos, un esquema, la explicación de las dimensiones, la fórmula y, por último, el anexo de reproducibilidad. Un director de marketing, un consultor GEO y un investigador deben poder orientarse en él, cada uno con el nivel de detalle que le resulte más cercano.
El esquema
+---------------------------------------------+
Prompt ---> | Respuesta de un modelo de IA (ChatGPT...) |
+---------------------------------------------+
|
v
+---------------------------------------------+
| JURADO = varias IA jueces independientes |
| (proveedores distintos, anti autopref.) |
+---------------------------------------------+
|
+--------------------------+--------------------------+
v v v
P - Presencia I - Influencia Q - Calidad
(M, RP, WC) (INF, UNQ, REL) (SENT, ACC)
+--------------------------+--------------------------+
v
AGS = (P x I x Q) ^ (1/3)
(media geométrica: un cero en una
dimensión hunde la puntuación)
La media geométrica es intencionada: es imposible compensar la falta de presencia con un buen sentimiento. Mucho más difícil de inflar que una media clásica.
¿Qué es AGS?
AGS es un protocolo de puntuación multi-jueces de código abierto. En lugar de usar un solo LLM para evaluar la visibilidad de tu marca (sesgos, alucinaciones, deriva del modelo), AGS interroga 5 IA-jueces en paralelo (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) y publica la desviación entre ellos. Cuanto menor sea la desviación, más fiable es la puntuación.
Las 3 dimensiones evaluadas
- P (Precisión): ¿la respuesta cita correctamente tu marca, sin confundirla con un competidor u homónimo? Mide las alucinaciones y errores de atribución.
- I (Informatividad): ¿la respuesta aporta información útil y diferenciadora sobre tu marca, o solo la nombra? Mide la profundidad de la cita.
- Q (Calidad): ¿la respuesta es fácticamente correcta y actualizada? Mide la frescura de la información y la conformidad con hechos verificables.
La fórmula (método público, ponderaciones propietarias)
AGS = (P x I x Q) ^ (1/3), con cada dimensión puntuada de 0 a 100. Cada dimensión es una combinación ponderada de submétricas:
- P — Presencia = combinación de la Mención (M), el Rango / Posición (RP) y la Cobertura (WC).
- I — Influencia = combinación de la Informatividad (INF), la Unicidad (UNQ) y la Pertinencia (REL).
- Q — Calidad = combinación del Sentimiento (SENT) y la Exactitud (ACC).
Los valores exactos de las ponderaciones forman parte de nuestra metodología propietaria: están normalizados (suma = 1), calibrados y versionados, y quedan rastreados por el judge_config_hash (que garantiza que dos auditorías con el mismo hash sean estrictamente comparables). Publicamos el método —estructura, media geométrica, dimensiones, submétricas, jurado, fiabilidad— sin divulgar la ponderación exacta, que forma parte de nuestro saber hacer.
Jurado y reproducibilidad
Cada respuesta es puntuada por varios modelos jueces de proveedores distintos para evitar que un modelo se prefiera a sí mismo. En la fecha de publicación, el jurado combina, por ejemplo, modelos de OpenAI, Anthropic, Google, Mistral y DeepSeek, pero los modelos evolucionan: esta lista es un ejemplo a fecha de hoy, no una promesa inamovible.
La configuración real de cada auditoría (modelos + pesos + rúbricas) queda rastreada por su judge_config_hash (SHA-256): esa es la referencia estable. Dos auditorías con el mismo hash son estrictamente comparables, y todo cambio de jurado queda registrado.
- GRC: coeficiente de fiabilidad entre jueces publicado para cada auditoría (grado de acuerdo entre los jueces).
- Intervalo de confianza de Wilson mostrado sobre las puntuaciones de presencia: se muestra la incertidumbre, no solo una cifra.
- Anchor set: un panel de marcas de referencia remedido de forma continua detecta la deriva de los modelos; la puntuación del cliente se corrige según esa deriva.
Protocolo de evaluación
Para cada prompt auditado, AGS ejecuta 5 llamadas paralelas a las IA-jueces con instrucciones idénticas (puntuación zero-shot). Las puntuaciones se agregan mediante una media ponderada con la confianza declarada de cada juez. El resultado final incluye la puntuación media, la desviación estándar inter-jueces y el intervalo de confianza bootstrap al 95%.
Coeficiente de fiabilidad inter-jueces
AGS publica el coeficiente kappa de Fleiss (medida de acuerdo entre múltiples evaluadores) para cada auditoría. Un kappa superior a 0,80 indica un consenso fuerte entre los jueces (puntuación muy fiable). Entre 0,60 y 0,80: consenso moderado. Por debajo de 0,60: consenso débil — la puntuación debe interpretarse con cautela y la pregunta reformularse.
Transparencia y reproducibilidad
Cada auditoría AGS produce un hash criptográfico de los prompts, las respuestas en bruto y las puntuaciones individuales. Esta firma permite demostrar que la puntuación no ha sido manipulada. El código AGS es de código abierto (licencia MIT) en github.com/sarsator/aqa-specification, y la fórmula de puntuación está versionada y publicada. Cualquier cliente puede verificar o impugnar una puntuación.
Acrónimos AGS
- GRC
- Generative Response Coverage: porcentaje de prompts donde al menos un juez cita la marca.
- GIS
- Generative Inclusion Score: puntuación media ponderada por la posición de la marca en la respuesta (mencionada primero = 100%, última = 0%).
- ASR
- Answer Sentiment Rating: tonalidad de la mención (positiva/neutral/negativa) en una escala de -1 a +1.
- BVI
- Brand Visibility Index: puntuación compuesta (GRC × GIS × ASR), de 0 a 100, que resume el rendimiento global de la marca en las IAs testeadas.
- CIA
- Citation Inter-judge Agreement: coeficiente kappa de Fleiss que mide el acuerdo entre los 5 IA-jueces sobre la presencia de la cita.
30 Advanced Checks GEO 2026
El Sprint 15 entregó 30 nuevas señales GEO/AEO medidas de forma pasiva (cero scraping que viole ToS). Estas señales complementan el scoring AGS mediante la 6ª categoría « advanced_signals » (peso 15 % del composite).
6 diferenciadores de mercado
- A08 — Puntuación de especificidad (Princeton GEO 2024) — Densidad de estadísticas con fuentes tier-1 (Princeton GEO KDD 2024: +27 a +40 % de citas LLM).
- A09 — Marcadores de contraargumentos — Ninguna herramienta competidora mide los marcadores de argumentación equilibrada.
- A07 — Declaraciones con fecha
- S05 — Inclusión en Common Crawl
- S08 — Validación RFC de llms.txt
- B10 — Menciones de marca en Stack Overflow
Módulo 6 — External Authority Signals
Nuevo módulo dedicado a las señales de autoridad externa: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.
Checks por módulo GEO
- SSR / Crawlabilidad
- mainEntity · QAPage · Transcripciones de vídeo · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verificaciones · HTTP/3 · Brotli
- Entity Health
- Wikidata · DBpedia
- Citation Readiness
- Estadísticas con fuente · Argumentación equilibrada · Fechado inline · ItemList · Dataset · Blockquote cite · Enlaces internos · Anchor entropy · Sitemap News
- External Authority
- Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B reviews · Newsletter
Todos los checks usan safe_external_call (retry + caché + circuit breaker) y almacenan sus resultados en audits.advanced_checks_v2 (JSONB + índice GIN).
Artículo completo en el blog: 30 nuevas señales GEO/AEO 2026 — Estado del arte auditado.
Lo que medimos — y lo que no medimos
Lo que medimos
Interrogamos los modelos de IA a través de sus API oficiales, en modo nativo (la memoria del modelo, sin navegación) y en modo web (búsqueda en línea activada), con preguntas reproducibles. Cada auditoría calcula una huella criptográfica de su configuración: dos auditorías comparadas son realmente comparables.
El panel por defecto está alineado con los productos que el público utiliza realmente (ChatGPT, Gemini, Perplexity, Claude, Mistral…), y el panel de control muestra una visibilidad ponderada por la cuota de audiencia real de cada motor (fuentes Statcounter / SimilarWeb, fechadas y revisadas).
Lo que no medimos
Una respuesta obtenida por API puede diferir de la interfaz de consumo del mismo producto: memoria de conversación, instrucciones propietarias, geolocalización o pruebas A/B del proveedor. Medimos el motor, no la sesión personalizada de un usuario conectado.
Las respuestas de las IA son probabilísticas: la misma pregunta puede producir variantes. Por eso medimos sobre decenas de preguntas, con intervalos de confianza (Wilson), en lugar de una prueba única.
Las cuotas de audiencia utilizadas para la ponderación son estimaciones de terceros, fechadas y revisadas con regularidad — no cifras internas inverificables.
¿Por qué documentar nuestros límites? Porque una medición cuyo perímetro se desconoce no vale nada. Es lo que hace que nuestras puntuaciones sean defendibles ante sus clientes.
Límites y variabilidad
Medir la visibilidad en IA no es una ciencia exacta. Documentamos nuestros límites y cómo el método los tiene en cuenta.
LeerLa prueba, paso a paso
Un ejemplo anonimizado que muestra cómo una respuesta de IA se convierte realmente en una puntuación AGS.
LeerGlosario de términos técnicos
Para profundizar
Mide la visibilidad real de tu marca en las IA
Lanza una auditoría AGS y obtén una puntuación auditable, límites asumidos y un plan de acción concreto.
Ver precios