KI-Technik

KI-Jury (LLM-as-a-judge)

Die KI-Jury, oder „LLM-as-a-judge“, bedeutet, eine Antwort von mehreren Sprachmodellen bewerten zu lassen, die als Judges fungieren. Durch das Kreuzen von Modellen verschiedener Anbieter wird der Selbstbevorzugungs-Bias begrenzt und eine robustere Bewertung erzielt als mit einem einzigen Modell.

Das Prinzip

Statt eine KI-Antwort mit einem einzigen Modell zu bewerten — das dazu neigen würde, sich selbst zu bevorzugen —, beruft man eine Jury aus mehreren Judge-Modellen verschiedener Anbieter ein. Jedes bewertet die Antwort anhand präziser Raster (Präsenz, Korrektheit, Sentiment), danach werden die Bewertungen zusammengeführt.

Warum mehrere Judges?

  • Gegen Selbstbevorzugung: Ein Modell kann seine eigenen Antworten nicht bevorzugen, wenn die Jury vielfältig ist.
  • Robustheit: Vereinzelte Fehler eines Judges werden von den anderen geglättet.
  • Erkennung von Halluzinationen: Ein von den Judges aufgespürter, nicht überprüfbarer Claim senkt die Bewertung.

Verlässlichkeit und Nachvollziehbarkeit

Die Übereinstimmung zwischen den Judges wird durch einen Koeffizienten der Inter-Judge-Verlässlichkeit gemessen. Die genaue Zusammensetzung der Jury jedes Audits wird über einen Konfigurations-Fingerabdruck festgehalten und sichert so die Vergleichbarkeit im Zeitverlauf. Diese Jury steht im Zentrum des AGS; siehe die Methodik und die Demonstration.

Nur 16 % der Marken erscheinen, wenn ihre Kunden die KIs befragen. Ihre?

Jede Frage an ChatGPT ohne Ihren Namen in der Antwort ist ein Wettbewerber, der an Ihrer Stelle empfohlen wird — gemessen an 6 820 echten KI-Antworten.