Méthodologie AGS — AI Grading System | AI Labs Audit
AGS (AI Grading System) est le moteur de notation d’AI Labs Audit. Il fait noter chaque réponse IA par 5 IA-juges qui se calibrent entre elles, puis publie un coefficient de fiabilité inter-juges pour que vous sachiez à quel point votre score est défendable.
Qu’est-ce qu’AGS ?
AGS est un protocole de scoring multi-jugés open source. Au lieu d’utiliser un seul LLM pour évaluer la visibilité de votre marque (biais, hallucinations, dérive du modèle), AGS interroge 5 IA-juges en parallèle (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) et publie l’écart entre eux. Plus l’écart est faible, plus le score est fiable.
Les 3 dimensions évaluées
- P (Précision) : la réponse cite-t-elle votre marque correctement, sans confondre avec un concurrent ou un homonyme ? Mesure les hallucinations et les fautes d’attribution.
- I (Informativité) : la réponse fournit-elle des informations utiles et différenciantes sur votre marque, ou se contente-t-elle de la nommer ? Mesure la profondeur de la citation.
- Q (Qualité) : la réponse est-elle factuellement correcte et à jour ? Mesure la fraîcheur de l’information et la conformité aux faits vérifiables.
Protocole d’évaluation
Pour chaque prompt audité, AGS exécute 5 appels parallèles aux IA-juges avec des instructions identiques (zero-shot scoring). Les scores sont agrégés via une moyenne pondérée par la confiance déclarée de chaque juge. Le résultat final inclut le score moyen, l’écart-type inter-juges et l’intervalle de confiance bootstrap à 95%.
Coefficient de fiabilité inter-juges
AGS publie le coefficient kappa de Fleiss (mesure d’accord entre plusieurs évaluateurs) pour chaque audit. Un kappa supérieur à 0,80 indique un consensus fort entre les juges (score très fiable). Entre 0,60 et 0,80 : consensus modéré. En dessous de 0,60 : consensus faible — le score doit être interprété avec prudence et la question reformulée.
Transparence et reproductibilité
Chaque audit AGS produit un hash cryptographique des prompts, des réponses brutes et des scores individuels. Ce signature permet de prouver que le score n’a pas été manipulé. Le code AGS est open source (licence MIT) sur github.com/sarsator/aqa-specification, et la formule de scoring est versionnée et publiée. Tout client peut vérifier ou contester un score.
Acronymes AGS
- GRC
- Generative Response Coverage : pourcentage de prompts pour lesquels au moins un juge cite la marque.
- GIS
- Generative Inclusion Score : score moyen pondéré par la position de la marque dans la réponse (premier mentionné = 100%, dernier = 0%).
- ASR
- Answer Sentiment Rating : tonalité de la mention (positif/neutre/négatif) sur une échelle de -1 à +1.
- BVI
- Brand Visibility Index : score composite (GRC × GIS × ASR), de 0 à 100, qui résume la performance globale de la marque sur les IA testées.
- CIA
- Citation Inter-judge Agreement : coefficient kappa de Fleiss mesurant l’accord entre les 5 IA-juges sur la présence de la citation.
30 Advanced Checks GEO 2026
Sprint 15 a livré 30 nouveaux signaux GEO/AEO mesurés en passif (zéro scraping ToS-violant). Ces signaux complètent le scoring AGS via la 6e catégorie « advanced_signals » (poids 15 % du composite).
6 différenciateurs marché
- A08 — Specificity score (Princeton GEO 2024) — Densité de statistiques sourcées tier-1 (Princeton GEO KDD 2024 : +27 à +40 % de citations LLM).
- A09 — Counter-arguments markers — Aucun outil concurrent ne mesure les marqueurs d’argumentation équilibrée.
- A07 — Date-stamped statements
- S05 — Common Crawl inclusion
- S08 — llms.txt RFC validation
- B10 — Stack Overflow brand mentions
Module 6 — External Authority Signals
Nouveau module dédié aux signaux d’autorité externes : LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.
Checks par module GEO
- SSR / Crawlabilité
- mainEntity · QAPage · Transcripts vidéo · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verifications · HTTP/3 · Brotli
- Entity Health
- Wikidata · DBpedia
- Citation Readiness
- Stats sourcées · Argumentation · Datage inline · ItemList · Dataset · Blockquote cite · Liens internes · Anchor entropy · Sitemap News
- External Authority
- Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B reviews · Newsletter
Tous les checks utilisent safe_external_call (retry + cache + circuit breaker) et stockent leurs résultats dans audits.advanced_checks_v2 (JSONB + index GIN).
Article complet sur le blog : 30 nouveaux signaux GEO/AEO 2026 — État de l’art audité.