La fiabilité inter-juges mesure le degré d'accord entre plusieurs juges notant la même réponse. Un accord élevé signifie que la note est stable et reproductible ; un accord faible signale une réponse ambiguë sur laquelle les juges divergent.
Mesurer l'accord du jury
Quand un jury d'IA note une réponse, encore faut-il savoir si les juges sont d'accord entre eux. La fiabilité inter-juges quantifie cet accord : plus il est fort, plus la note est digne de confiance. Dans l'AGS, nous publions ce coefficient (que nous appelons GRC en interne) pour chaque audit.
À quoi ça sert ?
- Confiance : un score adossé à un accord fort est solide.
- Signal d'alerte : un désaccord marqué révèle une réponse ambiguë ou un cas limite à examiner.
Transparence
Avec l'intervalle de confiance, la fiabilité inter-juges fait partie des indicateurs que nous affichons pour montrer la robustesse — et les limites — de chaque mesure. Détail sur la méthodologie AGS.
Chaque question posée à ChatGPT sans votre nom dans la réponse, c'est un concurrent qui est recommandé à votre place — mesuré sur 6 820 réponses d'IA réelles.