Die KI-Jury, oder „LLM-as-a-judge“, bedeutet, eine Antwort von mehreren Sprachmodellen bewerten zu lassen, die als Judges fungieren. Durch das Kreuzen von Modellen verschiedener Anbieter wird der Selbstbevorzugungs-Bias begrenzt und eine robustere Bewertung erzielt als mit einem einzigen Modell.
Das Prinzip
Statt eine KI-Antwort mit einem einzigen Modell zu bewerten — das dazu neigen würde, sich selbst zu bevorzugen —, beruft man eine Jury aus mehreren Judge-Modellen verschiedener Anbieter ein. Jedes bewertet die Antwort anhand präziser Raster (Präsenz, Korrektheit, Sentiment), danach werden die Bewertungen zusammengeführt.
Warum mehrere Judges?
- Gegen Selbstbevorzugung: Ein Modell kann seine eigenen Antworten nicht bevorzugen, wenn die Jury vielfältig ist.
- Robustheit: Vereinzelte Fehler eines Judges werden von den anderen geglättet.
- Erkennung von Halluzinationen: Ein von den Judges aufgespürter, nicht überprüfbarer Claim senkt die Bewertung.
Verlässlichkeit und Nachvollziehbarkeit
Die Übereinstimmung zwischen den Judges wird durch einen Koeffizienten der Inter-Judge-Verlässlichkeit gemessen. Die genaue Zusammensetzung der Jury jedes Audits wird über einen Konfigurations-Fingerabdruck festgehalten und sichert so die Vergleichbarkeit im Zeitverlauf. Diese Jury steht im Zentrum des AGS; siehe die Methodik und die Demonstration.
Jede Frage an ChatGPT ohne Ihren Namen in der Antwort ist ein Wettbewerber, der an Ihrer Stelle empfohlen wird — gemessen an 6 820 echten KI-Antworten.