KI-Metrik

Inter-Judge-Verlässlichkeit (GRC)

Die Inter-Judge-Verlässlichkeit misst den Grad der Übereinstimmung zwischen mehreren Judges, die dieselbe Antwort bewerten. Eine hohe Übereinstimmung bedeutet, dass die Bewertung stabil und reproduzierbar ist; eine geringe Übereinstimmung signalisiert eine mehrdeutige Antwort, bei der die Judges auseinandergehen.

Die Übereinstimmung der Jury messen

Wenn eine KI-Jury eine Antwort bewertet, gilt es noch herauszufinden, ob die Judges untereinander übereinstimmen. Die Inter-Judge-Verlässlichkeit beziffert diese Übereinstimmung: Je stärker sie ist, desto vertrauenswürdiger ist die Bewertung. Im AGS veröffentlichen wir diesen Koeffizienten (den wir intern GRC nennen) für jedes Audit.

Wozu dient das?

  • Vertrauen: Ein Wert, der auf einer starken Übereinstimmung beruht, ist belastbar.
  • Warnsignal: Eine deutliche Uneinigkeit verrät eine mehrdeutige Antwort oder einen zu prüfenden Grenzfall.

Transparenz

Zusammen mit dem Konfidenzintervall gehört die Inter-Judge-Verlässlichkeit zu den Kennzahlen, die wir anzeigen, um die Robustheit — und die Grenzen — jeder Messung aufzuzeigen. Details in der AGS-Methodik.

Nur 16 % der Marken erscheinen, wenn ihre Kunden die KIs befragen. Ihre?

Jede Frage an ChatGPT ohne Ihren Namen in der Antwort ist ein Wettbewerber, der an Ihrer Stelle empfohlen wird — gemessen an 6 820 echten KI-Antworten.