Inicio Panel de control Mis clientes Nuevo cliente Auditorías Planificacion Prompts
🤖 Guía completa Asistente RoboKali
Langue
EnglishEN FrançaisFR EspañolES DeutschDE
0%
Completar mi perfil

Metodología AGS — AI Grading System | AI Labs Audit

AGS (AI Grading System) es el motor de puntuación de AI Labs Audit. Hace que cada respuesta IA sea evaluada por 5 IA-jueces que se calibran entre sí, y publica un coeficiente de fiabilidad inter-jueces para que sepas exactamente cuán defendible es tu puntuación.

¿Qué es AGS?

AGS es un protocolo de puntuación multi-jueces de código abierto. En lugar de usar un solo LLM para evaluar la visibilidad de tu marca (sesgos, alucinaciones, deriva del modelo), AGS interroga 5 IA-jueces en paralelo (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) y publica la desviación entre ellos. Cuanto menor sea la desviación, más fiable es la puntuación.

Las 3 dimensiones evaluadas

  • P (Precisión): ¿la respuesta cita correctamente tu marca, sin confundirla con un competidor u homónimo? Mide las alucinaciones y errores de atribución.
  • I (Informatividad): ¿la respuesta aporta información útil y diferenciadora sobre tu marca, o solo la nombra? Mide la profundidad de la cita.
  • Q (Calidad): ¿la respuesta es fácticamente correcta y actualizada? Mide la frescura de la información y la conformidad con hechos verificables.

Protocolo de evaluación

Para cada prompt auditado, AGS ejecuta 5 llamadas paralelas a las IA-jueces con instrucciones idénticas (puntuación zero-shot). Las puntuaciones se agregan mediante una media ponderada con la confianza declarada de cada juez. El resultado final incluye la puntuación media, la desviación estándar inter-jueces y el intervalo de confianza bootstrap al 95%.

Coeficiente de fiabilidad inter-jueces

AGS publica el coeficiente kappa de Fleiss (medida de acuerdo entre múltiples evaluadores) para cada auditoría. Un kappa superior a 0,80 indica un consenso fuerte entre los jueces (puntuación muy fiable). Entre 0,60 y 0,80: consenso moderado. Por debajo de 0,60: consenso débil — la puntuación debe interpretarse con cautela y la pregunta reformularse.

Transparencia y reproducibilidad

Cada auditoría AGS produce un hash criptográfico de los prompts, las respuestas en bruto y las puntuaciones individuales. Esta firma permite demostrar que la puntuación no ha sido manipulada. El código AGS es de código abierto (licencia MIT) en github.com/sarsator/aqa-specification, y la fórmula de puntuación está versionada y publicada. Cualquier cliente puede verificar o impugnar una puntuación.

Acrónimos AGS

GRC
Generative Response Coverage: porcentaje de prompts donde al menos un juez cita la marca.
GIS
Generative Inclusion Score: puntuación media ponderada por la posición de la marca en la respuesta (mencionada primero = 100%, última = 0%).
ASR
Answer Sentiment Rating: tonalidad de la mención (positiva/neutral/negativa) en una escala de -1 a +1.
BVI
Brand Visibility Index: puntuación compuesta (GRC × GIS × ASR), de 0 a 100, que resume el rendimiento global de la marca en las IAs testeadas.
CIA
Citation Inter-judge Agreement: coeficiente kappa de Fleiss que mide el acuerdo entre los 5 IA-jueces sobre la presencia de la cita.

30 Advanced Checks GEO 2026

El Sprint 15 entregó 30 nuevas señales GEO/AEO medidas de forma pasiva (cero scraping que viole ToS). Estas señales complementan el scoring AGS mediante la 6ª categoría « advanced_signals » (peso 15 % del composite).

6 diferenciadores de mercado

  • A08 — Puntuación de especificidad (Princeton GEO 2024) — Densidad de estadísticas con fuentes tier-1 (Princeton GEO KDD 2024: +27 a +40 % de citas LLM).
  • A09 — Marcadores de contraargumentos — Ninguna herramienta competidora mide los marcadores de argumentación equilibrada.
  • A07 — Declaraciones con fecha
  • S05 — Inclusión en Common Crawl
  • S08 — Validación RFC de llms.txt
  • B10 — Menciones de marca en Stack Overflow

Módulo 6 — External Authority Signals

Nuevo módulo dedicado a las señales de autoridad externa: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.

Checks por módulo GEO

SSR / Crawlabilidad
mainEntity · QAPage · Transcripciones de vídeo · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verificaciones · HTTP/3 · Brotli
Entity Health
Wikidata · DBpedia
Citation Readiness
Estadísticas con fuente · Argumentación equilibrada · Fechado inline · ItemList · Dataset · Blockquote cite · Enlaces internos · Anchor entropy · Sitemap News
External Authority
Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B reviews · Newsletter

Todos los checks usan safe_external_call (retry + caché + circuit breaker) y almacenan sus resultados en audits.advanced_checks_v2 (JSONB + índice GIN).

Artículo completo en el blog: 30 nuevas señales GEO/AEO 2026 — Estado del arte auditado.