Methode & Transparenz

AGS-Methodik — AI Grading System | AI Labs Audit

AGS (AI Grading System) ist die Bewertungs-Engine von AI Labs Audit. Jede KI-Antwort wird von 5 KI-Richtern bewertet, die sich gegenseitig kalibrieren, und der Inter-Richter-Reliabilitätskoeffizient wird veröffentlicht, damit Sie genau wissen, wie verteidigbar Ihre Punktzahl ist.

In 30 Sekunden

Der AGS (AI Grading System) ist eine offene Methode zur Messung der Sichtbarkeit einer Marke in den Antworten von KIs. Für jede Antwort bewerten wir drei Dinge – ist die Marke präsent, ist das Gesagte wertschätzend, und ist die Antwort verlässlich – über eine Jury aus mehreren unabhängigen KIs. Der Endwert kombiniert diese drei Noten so, dass eine Schwäche nicht verdeckt werden kann. Es ist vor allem eine Methode: Sie können sie verstehen, überprüfen und anfechten.

Diese Methode lässt sich auf mehreren Ebenen lesen: eine Definition in 30 Sekunden, ein Schaubild, die Erläuterung der Dimensionen, die Formel und schließlich der Anhang zur Reproduzierbarkeit. Eine Marketingleitung, eine GEO-Beratung und eine forschende Person sollen sich alle wiederfinden – jede auf der Detailebene, die ihr entspricht.

Das Schaubild

                 +---------------------------------------------+
   Prompt  --->  |  Antwort eines KI-Modells (ChatGPT usw.)    |
                 +---------------------------------------------+
                                     |
                                     v
                 +---------------------------------------------+
                 |   JURY = mehrere unabhängige KI-Richter     |
                 |   (versch. Anbieter, gegen Selbstpräferenz) |
                 +---------------------------------------------+
                                     |
          +--------------------------+--------------------------+
          v                          v                          v
     P - Präsenz                I - Einfluss               Q - Qualität
     (M, RP, WC)              (INF, UNQ, REL)             (SENT, ACC)
          +--------------------------+--------------------------+
                                     v
                        AGS = (P x I x Q) ^ (1/3)
                  (geometrisches Mittel: eine Null in
                   einer Dimension lässt den Wert kollabieren)

Das geometrische Mittel ist gewollt: Eine fehlende Präsenz lässt sich nicht durch ein gutes Sentiment ausgleichen. Sehr viel schwerer aufzublähen als ein klassischer Durchschnitt.

Was ist AGS?

AGS ist ein quelloffenes Multi-Richter-Bewertungsprotokoll. Anstatt sich für die Bewertung Ihrer Markensichtbarkeit auf einen einzigen LLM zu verlassen (Verzerrungen, Halluzinationen, Modell-Drift), befragt AGS 5 KI-Richter parallel (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) und veröffentlicht die Streuung zwischen ihnen. Je kleiner die Streuung, desto zuverlässiger die Punktzahl.

Die 3 bewerteten Dimensionen

  • P (Präzision): Erwähnt die Antwort Ihre Marke korrekt, ohne Verwechslung mit einem Konkurrenten oder Namensvetter? Misst Halluzinationen und Zuordnungsfehler.
  • I (Informativität): Liefert die Antwort nützliche und differenzierende Informationen über Ihre Marke, oder nennt sie nur den Namen? Misst die Tiefe der Zitierung.
  • Q (Qualität): Ist die Antwort sachlich korrekt und aktuell? Misst die Aktualität der Information und die Übereinstimmung mit verifizierbaren Fakten.

Die Formel (öffentliche Methode, proprietäre Gewichtungen)

AGS = (P x I x Q) ^ (1/3), jede Dimension auf einer Skala von 0 bis 100 bewertet. Jede Dimension ist eine gewichtete Kombination von Teilmetriken:

  • P — Präsenz = Kombination aus Erwähnung (M), Rang / Position (RP) und Abdeckung (WC).
  • I — Einfluss = Kombination aus Informationsgehalt (INF), Einzigartigkeit (UNQ) und Relevanz (REL).
  • Q — Qualität = Kombination aus Sentiment (SENT) und Korrektheit (ACC).

Die genauen Werte der Gewichtungen sind Teil unserer proprietären Methodik: Sie sind normalisiert (Summe = 1), kalibriert und versioniert sowie über den judge_config_hash nachvollziehbar (der garantiert, dass zwei Audits mit demselben Hash strikt vergleichbar sind). Wir veröffentlichen die Methode – Struktur, geometrisches Mittel, Dimensionen, Teilmetriken, Jury, Verlässlichkeit – ohne die genaue Gewichtung offenzulegen, die zu unserem Know-how gehört.

Jury & Reproduzierbarkeit

Jede Antwort wird von mehreren Richter-Modellen verschiedener Anbieter bewertet, um zu verhindern, dass ein Modell sich selbst bevorzugt. Zum Zeitpunkt der Veröffentlichung kombiniert die Jury zum Beispiel Modelle von OpenAI, Anthropic, Google, Mistral und DeepSeek – aber die Modelle entwickeln sich weiter: Diese Liste ist ein Beispiel zum Stichtag, kein festgeschriebenes Versprechen.

Die tatsächliche Konfiguration jedes Audits (Modelle + Gewichte + Bewertungsrubriken) wird über seinen judge_config_hash (SHA-256) nachverfolgt: Er ist die stabile Referenz. Zwei Audits mit demselben Hash sind strikt vergleichbar, und jede Änderung der Jury wird nachvollziehbar.

  • GRC: Koeffizient der Verlässlichkeit zwischen den Richtern, der für jedes Audit veröffentlicht wird (Grad der Übereinstimmung zwischen den Richtern).
  • Wilson-Konfidenzintervall, das auf den Präsenzwerten angezeigt wird: Die Unsicherheit wird sichtbar gemacht, nicht nur eine Zahl.
  • Anchor set: ein laufend neu vermessenes Panel von Referenzmarken erkennt die Drift der Modelle; der Kundenwert wird um diese Drift korrigiert.

Bewertungsprotokoll

Für jeden auditierten Prompt führt AGS 5 parallele Aufrufe an die KI-Richter mit identischen Anweisungen aus (Zero-Shot-Bewertung). Die Punktzahlen werden über einen gewichteten Durchschnitt mit der erklärten Konfidenz jedes Richters aggregiert. Das Endergebnis enthält die Durchschnittspunktzahl, die Standardabweichung zwischen den Richtern und das 95%-Bootstrap-Konfidenzintervall.

Inter-Richter-Reliabilitätskoeffizient

AGS veröffentlicht den Fleiss-Kappa-Koeffizienten (Maß für die Übereinstimmung zwischen mehreren Bewertern) für jedes Audit. Ein Kappa über 0,80 zeigt einen starken Konsens zwischen den Richtern (sehr zuverlässige Punktzahl). Zwischen 0,60 und 0,80: moderater Konsens. Unter 0,60: schwacher Konsens — die Punktzahl sollte mit Vorsicht interpretiert und die Frage umformuliert werden.

Transparenz und Reproduzierbarkeit

Jedes AGS-Audit erzeugt einen kryptografischen Hash der Prompts, Rohantworten und Einzelpunktzahlen. Diese Signatur beweist, dass die Punktzahl nicht manipuliert wurde. Der AGS-Code ist Open Source (MIT-Lizenz) auf github.com/sarsator/aqa-specification, und die Bewertungsformel ist versioniert und veröffentlicht. Jeder Kunde kann eine Punktzahl überprüfen oder anfechten.

AGS-Akronyme

GRC
Generative Response Coverage: Prozentsatz der Prompts, bei denen mindestens ein Richter die Marke zitiert.
GIS
Generative Inclusion Score: gewichteter Durchschnitt basierend auf der Position der Marke in der Antwort (zuerst erwähnt = 100%, zuletzt = 0%).
ASR
Answer Sentiment Rating: Tonalität der Erwähnung (positiv/neutral/negativ) auf einer Skala von -1 bis +1.
BVI
Brand Visibility Index: zusammengesetzte Punktzahl (GRC × GIS × ASR), von 0 bis 100, die die Gesamtleistung der Marke über die getesteten KIs zusammenfasst.
CIA
Citation Inter-judge Agreement: Fleiss-Kappa-Koeffizient, der die Übereinstimmung zwischen den 5 KI-Richtern bezüglich des Vorhandenseins der Zitierung misst.

30 Advanced GEO Checks 2026

Sprint 15 hat 30 neue GEO/AEO-Signale geliefert, passiv gemessen (kein ToS-verletzendes Scraping). Diese Signale ergänzen das AGS-Scoring über die 6. Kategorie „advanced_signals“ (15 % Gewichtung im Composite).

6 Marktunterscheidungsmerkmale

  • A08 — Specificity-Score (Princeton GEO 2024) — Dichte tier-1-belegter Statistiken (Princeton GEO KDD 2024: +27 bis +40 % LLM-Zitate).
  • A09 — Gegenargument-Marker — Kein Konkurrenz-Tool misst Marker für ausgewogene Argumentation.
  • A07 — Datierte Aussagen
  • S05 — Common-Crawl-Aufnahme
  • S08 — llms.txt-RFC-Validierung
  • B10 — Stack-Overflow-Markenerwähnungen

Modul 6 — External Authority Signals

Neues Modul für externe Autoritätssignale: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.

Checks nach GEO-Modul

SSR / Crawlbarkeit
mainEntity · QAPage · Video-Transkripte · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verifizierungen · HTTP/3 · Brotli
Entity Health
Wikidata · DBpedia
Citation Readiness
Belegte Statistiken · Ausgewogene Argumentation · Inline-Datierung · ItemList · Dataset · Blockquote cite · Interne Links · Anchor-Entropy · News-Sitemap
External Authority
Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B-Reviews · Newsletter

Alle Checks nutzen safe_external_call (Retry + Cache + Circuit Breaker) und speichern Ergebnisse in audits.advanced_checks_v2 (JSONB + GIN-Index).

Vollständiger Artikel im Blog: 30 neue GEO/AEO-Signale 2026 — Stand der Technik auditiert.

Was wir messen — und was wir nicht messen

Was wir messen

Wir befragen die KI-Modelle über ihre offiziellen APIs, im nativen Modus (das Gedächtnis des Modells, ohne Navigation) und im Web-Modus (Online-Suche aktiviert), mit reproduzierbaren Fragen. Jedes Audit berechnet einen kryptografischen Fingerabdruck seiner Konfiguration: Zwei verglichene Audits sind wirklich vergleichbar.

Das Standard-Panel ist auf die Produkte ausgerichtet, die das Publikum tatsächlich nutzt (ChatGPT, Gemini, Perplexity, Claude, Mistral…), und das Dashboard zeigt eine nach dem realen Nutzungsanteil jedes Motors gewichtete Sichtbarkeit (Quellen Statcounter / SimilarWeb, datiert und überarbeitet).

Was wir nicht messen

Eine über die API erhaltene Antwort kann von der Verbraucheroberfläche desselben Produkts abweichen: Gesprächsgedächtnis, proprietäre Anweisungen, Geolokalisierung oder A/B-Tests des Anbieters. Wir messen den Motor, nicht die personalisierte Sitzung eines angemeldeten Nutzers.

KI-Antworten sind probabilistisch: Dieselbe Frage kann Varianten erzeugen. Deshalb messen wir über Dutzende von Fragen, mit Konfidenzintervallen (Wilson), statt mit einem Einzeltest.

Die für die Gewichtung verwendeten Nutzungsanteile sind datierte, regelmäßig überarbeitete Schätzungen Dritter — keine unüberprüfbaren internen Zahlen.

Warum dokumentieren wir unsere Grenzen? Weil eine Messung, deren Geltungsbereich unbekannt ist, nichts wert ist. Das macht unsere Scores gegenüber Ihren Kunden verteidigbar.

Messen Sie die reale Sichtbarkeit Ihrer Marke in KI-Antworten

Starten Sie ein AGS-Audit und erhalten Sie einen auditierbaren Wert, offen benannte Grenzen und einen konkreten Aktionsplan.

Preise ansehen