AGS-Methodik — AI Grading System | AI Labs Audit
AGS (AI Grading System) ist die Bewertungs-Engine von AI Labs Audit. Jede KI-Antwort wird von 5 KI-Richtern bewertet, die sich gegenseitig kalibrieren, und der Inter-Richter-Reliabilitätskoeffizient wird veröffentlicht, damit Sie genau wissen, wie verteidigbar Ihre Punktzahl ist.
Was ist AGS?
AGS ist ein quelloffenes Multi-Richter-Bewertungsprotokoll. Anstatt sich für die Bewertung Ihrer Markensichtbarkeit auf einen einzigen LLM zu verlassen (Verzerrungen, Halluzinationen, Modell-Drift), befragt AGS 5 KI-Richter parallel (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) und veröffentlicht die Streuung zwischen ihnen. Je kleiner die Streuung, desto zuverlässiger die Punktzahl.
Die 3 bewerteten Dimensionen
- P (Präzision): Erwähnt die Antwort Ihre Marke korrekt, ohne Verwechslung mit einem Konkurrenten oder Namensvetter? Misst Halluzinationen und Zuordnungsfehler.
- I (Informativität): Liefert die Antwort nützliche und differenzierende Informationen über Ihre Marke, oder nennt sie nur den Namen? Misst die Tiefe der Zitierung.
- Q (Qualität): Ist die Antwort sachlich korrekt und aktuell? Misst die Aktualität der Information und die Übereinstimmung mit verifizierbaren Fakten.
Bewertungsprotokoll
Für jeden auditierten Prompt führt AGS 5 parallele Aufrufe an die KI-Richter mit identischen Anweisungen aus (Zero-Shot-Bewertung). Die Punktzahlen werden über einen gewichteten Durchschnitt mit der erklärten Konfidenz jedes Richters aggregiert. Das Endergebnis enthält die Durchschnittspunktzahl, die Standardabweichung zwischen den Richtern und das 95%-Bootstrap-Konfidenzintervall.
Inter-Richter-Reliabilitätskoeffizient
AGS veröffentlicht den Fleiss-Kappa-Koeffizienten (Maß für die Übereinstimmung zwischen mehreren Bewertern) für jedes Audit. Ein Kappa über 0,80 zeigt einen starken Konsens zwischen den Richtern (sehr zuverlässige Punktzahl). Zwischen 0,60 und 0,80: moderater Konsens. Unter 0,60: schwacher Konsens — die Punktzahl sollte mit Vorsicht interpretiert und die Frage umformuliert werden.
Transparenz und Reproduzierbarkeit
Jedes AGS-Audit erzeugt einen kryptografischen Hash der Prompts, Rohantworten und Einzelpunktzahlen. Diese Signatur beweist, dass die Punktzahl nicht manipuliert wurde. Der AGS-Code ist Open Source (MIT-Lizenz) auf github.com/sarsator/aqa-specification, und die Bewertungsformel ist versioniert und veröffentlicht. Jeder Kunde kann eine Punktzahl überprüfen oder anfechten.
AGS-Akronyme
- GRC
- Generative Response Coverage: Prozentsatz der Prompts, bei denen mindestens ein Richter die Marke zitiert.
- GIS
- Generative Inclusion Score: gewichteter Durchschnitt basierend auf der Position der Marke in der Antwort (zuerst erwähnt = 100%, zuletzt = 0%).
- ASR
- Answer Sentiment Rating: Tonalität der Erwähnung (positiv/neutral/negativ) auf einer Skala von -1 bis +1.
- BVI
- Brand Visibility Index: zusammengesetzte Punktzahl (GRC × GIS × ASR), von 0 bis 100, die die Gesamtleistung der Marke über die getesteten KIs zusammenfasst.
- CIA
- Citation Inter-judge Agreement: Fleiss-Kappa-Koeffizient, der die Übereinstimmung zwischen den 5 KI-Richtern bezüglich des Vorhandenseins der Zitierung misst.
30 Advanced GEO Checks 2026
Sprint 15 hat 30 neue GEO/AEO-Signale geliefert, passiv gemessen (kein ToS-verletzendes Scraping). Diese Signale ergänzen das AGS-Scoring über die 6. Kategorie „advanced_signals“ (15 % Gewichtung im Composite).
6 Marktunterscheidungsmerkmale
- A08 — Specificity-Score (Princeton GEO 2024) — Dichte tier-1-belegter Statistiken (Princeton GEO KDD 2024: +27 bis +40 % LLM-Zitate).
- A09 — Gegenargument-Marker — Kein Konkurrenz-Tool misst Marker für ausgewogene Argumentation.
- A07 — Datierte Aussagen
- S05 — Common-Crawl-Aufnahme
- S08 — llms.txt-RFC-Validierung
- B10 — Stack-Overflow-Markenerwähnungen
Modul 6 — External Authority Signals
Neues Modul für externe Autoritätssignale: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.
Checks nach GEO-Modul
- SSR / Crawlbarkeit
- mainEntity · QAPage · Video-Transkripte · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verifizierungen · HTTP/3 · Brotli
- Entity Health
- Wikidata · DBpedia
- Citation Readiness
- Belegte Statistiken · Ausgewogene Argumentation · Inline-Datierung · ItemList · Dataset · Blockquote cite · Interne Links · Anchor-Entropy · News-Sitemap
- External Authority
- Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B-Reviews · Newsletter
Alle Checks nutzen safe_external_call (Retry + Cache + Circuit Breaker) und speichern Ergebnisse in audits.advanced_checks_v2 (JSONB + GIN-Index).
Vollständiger Artikel im Blog: 30 neue GEO/AEO-Signale 2026 — Stand der Technik auditiert.