Méthode & Transparence

Limites connues & variabilité de la mesure

Mesurer la visibilité d'une marque dans des IA génératives n'est pas une science exacte : les modèles sont non-déterministes et évoluent. Plutôt que de masquer cette réalité derrière un score « propre », nous la documentons — et nous expliquons comment notre méthode la prend en compte.

1Les réponses des IA varient d'une exécution à l'autre

Un même prompt peut donner des réponses différentes selon le moment et l'aléa du modèle (la variabilité observée est typiquement de l'ordre de 15 à 20 % sur certaines requêtes).

Notre réponse : Jury de plusieurs juges, agrégation robuste, et intervalle de confiance de Wilson affiché — vous voyez la marge d'incertitude, pas seulement un chiffre.

2Chaque modèle a son comportement

Les modèles ne se valent pas : certains citent davantage les sources techniques, d'autres sont plus instables sur les requêtes locales, d'autres encore varient selon la langue.

Notre réponse : Audit multi-modèles (plusieurs juges, des dizaines de modèles interrogés) et détail par modèle dans le rapport, plutôt qu'une note globale qui masquerait ces écarts.

3Les scores bougent quand les fournisseurs changent leurs modèles

Quand OpenAI, Google ou Anthropic mettent à jour un modèle, les réponses — et donc les scores — peuvent bouger sans que la marque n'ait rien changé.

Notre réponse : L'anchor set (marques témoins re-mesurées en continu) isole cette dérive du modèle de la performance réelle de la marque ; le score client est corrigé en conséquence.

4Une mesure ponctuelle ne suffit pas

La visibilité IA est instable dans le temps : une seule mesure est trompeuse.

Notre réponse : Audits programmés / récurrents et suivi de tendance — on regarde l'évolution, pas un instantané.

5La part « recherche web » vs « mémoire du modèle »

Une réponse change selon que le modèle a fait une recherche web (retrieval) ou répond depuis sa mémoire interne (paramétrique).

Notre réponse : Diagnostic différentiel natif vs web pour distinguer les deux et savoir sur quel levier agir.

6Les résultats dépendent de la formulation du prompt

Deux façons de poser la même question peuvent produire des réponses — donc des scores — différents.

Notre réponse : Prompts normalisés, versionnés et documentés (taxonomie de prompts par intention) ; on n'improvise pas la question, on applique un protocole reproductible et on suit la même grille dans le temps.

7Le contexte géographique et linguistique change la réponse

Une IA peut répondre différemment selon le pays (France, Belgique, Canada, États-Unis…) et la langue.

Notre réponse : Chaque audit est réalisé dans un contexte linguistique et géographique documenté (audits par langue avec contextualisation marché, concurrents locaux) — on précise toujours dans quel marché la mesure a été faite, plutôt qu'un score « hors-sol ».

Ce que cela implique honnêtement

L'AGS est une estimation calibrée et reproductible, pas une vérité absolue. Il est conçu pour être comparable dans le temps (même judge_config_hash) et honnête sur son incertitude (intervalles de confiance, GRC, dérive corrigée). Notre objectif n'est pas un chiffre flatteur, mais une mesure que vous — et vos clients — pouvez comprendre, vérifier et contester.

Mesurez la visibilité réelle de votre marque dans les IA

Lancez un audit AGS et obtenez un score auditable, des limites assumées et un plan d'action concret.

Découvrir les tarifs