metrique-ia

Fiabilité inter-juges (GRC)

La fiabilité inter-juges mesure le degré d'accord entre plusieurs juges notant la même réponse. Un accord élevé signifie que la note est stable et reproductible ; un accord faible signale une réponse ambiguë sur laquelle les juges divergent.

Mesurer l'accord du jury

Quand un jury d'IA note une réponse, encore faut-il savoir si les juges sont d'accord entre eux. La fiabilité inter-juges quantifie cet accord : plus il est fort, plus la note est digne de confiance. Dans l'AGS, nous publions ce coefficient (que nous appelons GRC en interne) pour chaque audit.

À quoi ça sert ?

  • Confiance : un score adossé à un accord fort est solide.
  • Signal d'alerte : un désaccord marqué révèle une réponse ambiguë ou un cas limite à examiner.

Transparence

Avec l'intervalle de confiance, la fiabilité inter-juges fait partie des indicateurs que nous affichons pour montrer la robustesse — et les limites — de chaque mesure. Détail sur la méthodologie AGS.

16 % seulement des marques apparaissent quand leurs clients interrogent les IA. La vôtre ?

Chaque question posée à ChatGPT sans votre nom dans la réponse, c'est un concurrent qui est recommandé à votre place — mesuré sur 6 820 réponses d'IA réelles.