Le jury d'IA, ou « LLM-as-a-judge », consiste à faire évaluer une réponse par plusieurs modèles de langue jouant le rôle de juges. En croisant des modèles de fournisseurs différents, on limite le biais d'auto-préférence et on obtient une notation plus robuste qu'avec un seul modèle.
Le principe
Plutôt que de noter une réponse d'IA avec un seul modèle — qui aurait tendance à se préférer lui-même —, on convoque un jury de plusieurs modèles juges issus de fournisseurs différents. Chacun note la réponse selon des grilles précises (présence, exactitude, sentiment), puis les notes sont agrégées.
Pourquoi plusieurs juges ?
- Anti auto-préférence : un modèle ne peut pas favoriser ses propres réponses si le jury est diversifié.
- Robustesse : les erreurs ponctuelles d'un juge sont lissées par les autres.
- Détection d'hallucinations : un claim invérifiable repéré par les juges fait baisser la note.
Fiabilité et traçabilité
L'accord entre les juges est mesuré par un coefficient de fiabilité inter-juges. La composition exacte du jury de chaque audit est tracée par une empreinte de configuration, garantissant la comparabilité dans le temps. Ce jury est au cœur de l'AGS ; voir la méthodologie et la démonstration.
Chaque question posée à ChatGPT sans votre nom dans la réponse, c'est un concurrent qui est recommandé à votre place — mesuré sur 6 820 réponses d'IA réelles.