Metodología AGS — AI Grading System | AI Labs Audit
AGS (AI Grading System) es el motor de puntuación de AI Labs Audit. Hace que cada respuesta IA sea evaluada por 5 IA-jueces que se calibran entre sí, y publica un coeficiente de fiabilidad inter-jueces para que sepas exactamente cuán defendible es tu puntuación.
¿Qué es AGS?
AGS es un protocolo de puntuación multi-jueces de código abierto. En lugar de usar un solo LLM para evaluar la visibilidad de tu marca (sesgos, alucinaciones, deriva del modelo), AGS interroga 5 IA-jueces en paralelo (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) y publica la desviación entre ellos. Cuanto menor sea la desviación, más fiable es la puntuación.
Las 3 dimensiones evaluadas
- P (Precisión): ¿la respuesta cita correctamente tu marca, sin confundirla con un competidor u homónimo? Mide las alucinaciones y errores de atribución.
- I (Informatividad): ¿la respuesta aporta información útil y diferenciadora sobre tu marca, o solo la nombra? Mide la profundidad de la cita.
- Q (Calidad): ¿la respuesta es fácticamente correcta y actualizada? Mide la frescura de la información y la conformidad con hechos verificables.
Protocolo de evaluación
Para cada prompt auditado, AGS ejecuta 5 llamadas paralelas a las IA-jueces con instrucciones idénticas (puntuación zero-shot). Las puntuaciones se agregan mediante una media ponderada con la confianza declarada de cada juez. El resultado final incluye la puntuación media, la desviación estándar inter-jueces y el intervalo de confianza bootstrap al 95%.
Coeficiente de fiabilidad inter-jueces
AGS publica el coeficiente kappa de Fleiss (medida de acuerdo entre múltiples evaluadores) para cada auditoría. Un kappa superior a 0,80 indica un consenso fuerte entre los jueces (puntuación muy fiable). Entre 0,60 y 0,80: consenso moderado. Por debajo de 0,60: consenso débil — la puntuación debe interpretarse con cautela y la pregunta reformularse.
Transparencia y reproducibilidad
Cada auditoría AGS produce un hash criptográfico de los prompts, las respuestas en bruto y las puntuaciones individuales. Esta firma permite demostrar que la puntuación no ha sido manipulada. El código AGS es de código abierto (licencia MIT) en github.com/sarsator/aqa-specification, y la fórmula de puntuación está versionada y publicada. Cualquier cliente puede verificar o impugnar una puntuación.
Acrónimos AGS
- GRC
- Generative Response Coverage: porcentaje de prompts donde al menos un juez cita la marca.
- GIS
- Generative Inclusion Score: puntuación media ponderada por la posición de la marca en la respuesta (mencionada primero = 100%, última = 0%).
- ASR
- Answer Sentiment Rating: tonalidad de la mención (positiva/neutral/negativa) en una escala de -1 a +1.
- BVI
- Brand Visibility Index: puntuación compuesta (GRC × GIS × ASR), de 0 a 100, que resume el rendimiento global de la marca en las IAs testeadas.
- CIA
- Citation Inter-judge Agreement: coeficiente kappa de Fleiss que mide el acuerdo entre los 5 IA-jueces sobre la presencia de la cita.
30 Advanced Checks GEO 2026
El Sprint 15 entregó 30 nuevas señales GEO/AEO medidas de forma pasiva (cero scraping que viole ToS). Estas señales complementan el scoring AGS mediante la 6ª categoría « advanced_signals » (peso 15 % del composite).
6 diferenciadores de mercado
- A08 — Puntuación de especificidad (Princeton GEO 2024) — Densidad de estadísticas con fuentes tier-1 (Princeton GEO KDD 2024: +27 a +40 % de citas LLM).
- A09 — Marcadores de contraargumentos — Ninguna herramienta competidora mide los marcadores de argumentación equilibrada.
- A07 — Declaraciones con fecha
- S05 — Inclusión en Common Crawl
- S08 — Validación RFC de llms.txt
- B10 — Menciones de marca en Stack Overflow
Módulo 6 — External Authority Signals
Nuevo módulo dedicado a las señales de autoridad externa: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.
Checks por módulo GEO
- SSR / Crawlabilidad
- mainEntity · QAPage · Transcripciones de vídeo · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verificaciones · HTTP/3 · Brotli
- Entity Health
- Wikidata · DBpedia
- Citation Readiness
- Estadísticas con fuente · Argumentación equilibrada · Fechado inline · ItemList · Dataset · Blockquote cite · Enlaces internos · Anchor entropy · Sitemap News
- External Authority
- Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B reviews · Newsletter
Todos los checks usan safe_external_call (retry + caché + circuit breaker) y almacenan sus resultados en audits.advanced_checks_v2 (JSONB + índice GIN).
Artículo completo en el blog: 30 nuevas señales GEO/AEO 2026 — Estado del arte auditado.