Die Inter-Judge-Verlässlichkeit misst den Grad der Übereinstimmung zwischen mehreren Judges, die dieselbe Antwort bewerten. Eine hohe Übereinstimmung bedeutet, dass die Bewertung stabil und reproduzierbar ist; eine geringe Übereinstimmung signalisiert eine mehrdeutige Antwort, bei der die Judges auseinandergehen.
Die Übereinstimmung der Jury messen
Wenn eine KI-Jury eine Antwort bewertet, gilt es noch herauszufinden, ob die Judges untereinander übereinstimmen. Die Inter-Judge-Verlässlichkeit beziffert diese Übereinstimmung: Je stärker sie ist, desto vertrauenswürdiger ist die Bewertung. Im AGS veröffentlichen wir diesen Koeffizienten (den wir intern GRC nennen) für jedes Audit.
Wozu dient das?
- Vertrauen: Ein Wert, der auf einer starken Übereinstimmung beruht, ist belastbar.
- Warnsignal: Eine deutliche Uneinigkeit verrät eine mehrdeutige Antwort oder einen zu prüfenden Grenzfall.
Transparenz
Zusammen mit dem Konfidenzintervall gehört die Inter-Judge-Verlässlichkeit zu den Kennzahlen, die wir anzeigen, um die Robustheit — und die Grenzen — jeder Messung aufzuzeigen. Details in der AGS-Methodik.
Jede Frage an ChatGPT ohne Ihren Namen in der Antwort ist ein Wettbewerber, der an Ihrer Stelle empfohlen wird — gemessen an 6 820 echten KI-Antworten.