Startseite Dashboard Meine Kunden Neuer Kunde Audits Planung Prompts
🤖 Vollständiger Leitfaden RoboKali-Assistent
Langue
EnglishEN FrançaisFR EspañolES DeutschDE
0%
Mein Profil vervollständigen

AGS-Methodik — AI Grading System | AI Labs Audit

AGS (AI Grading System) ist die Bewertungs-Engine von AI Labs Audit. Jede KI-Antwort wird von 5 KI-Richtern bewertet, die sich gegenseitig kalibrieren, und der Inter-Richter-Reliabilitätskoeffizient wird veröffentlicht, damit Sie genau wissen, wie verteidigbar Ihre Punktzahl ist.

Was ist AGS?

AGS ist ein quelloffenes Multi-Richter-Bewertungsprotokoll. Anstatt sich für die Bewertung Ihrer Markensichtbarkeit auf einen einzigen LLM zu verlassen (Verzerrungen, Halluzinationen, Modell-Drift), befragt AGS 5 KI-Richter parallel (GPT-4o, Claude Sonnet, Gemini Pro, Mistral Large, Llama 3.1) und veröffentlicht die Streuung zwischen ihnen. Je kleiner die Streuung, desto zuverlässiger die Punktzahl.

Die 3 bewerteten Dimensionen

  • P (Präzision): Erwähnt die Antwort Ihre Marke korrekt, ohne Verwechslung mit einem Konkurrenten oder Namensvetter? Misst Halluzinationen und Zuordnungsfehler.
  • I (Informativität): Liefert die Antwort nützliche und differenzierende Informationen über Ihre Marke, oder nennt sie nur den Namen? Misst die Tiefe der Zitierung.
  • Q (Qualität): Ist die Antwort sachlich korrekt und aktuell? Misst die Aktualität der Information und die Übereinstimmung mit verifizierbaren Fakten.

Bewertungsprotokoll

Für jeden auditierten Prompt führt AGS 5 parallele Aufrufe an die KI-Richter mit identischen Anweisungen aus (Zero-Shot-Bewertung). Die Punktzahlen werden über einen gewichteten Durchschnitt mit der erklärten Konfidenz jedes Richters aggregiert. Das Endergebnis enthält die Durchschnittspunktzahl, die Standardabweichung zwischen den Richtern und das 95%-Bootstrap-Konfidenzintervall.

Inter-Richter-Reliabilitätskoeffizient

AGS veröffentlicht den Fleiss-Kappa-Koeffizienten (Maß für die Übereinstimmung zwischen mehreren Bewertern) für jedes Audit. Ein Kappa über 0,80 zeigt einen starken Konsens zwischen den Richtern (sehr zuverlässige Punktzahl). Zwischen 0,60 und 0,80: moderater Konsens. Unter 0,60: schwacher Konsens — die Punktzahl sollte mit Vorsicht interpretiert und die Frage umformuliert werden.

Transparenz und Reproduzierbarkeit

Jedes AGS-Audit erzeugt einen kryptografischen Hash der Prompts, Rohantworten und Einzelpunktzahlen. Diese Signatur beweist, dass die Punktzahl nicht manipuliert wurde. Der AGS-Code ist Open Source (MIT-Lizenz) auf github.com/sarsator/aqa-specification, und die Bewertungsformel ist versioniert und veröffentlicht. Jeder Kunde kann eine Punktzahl überprüfen oder anfechten.

AGS-Akronyme

GRC
Generative Response Coverage: Prozentsatz der Prompts, bei denen mindestens ein Richter die Marke zitiert.
GIS
Generative Inclusion Score: gewichteter Durchschnitt basierend auf der Position der Marke in der Antwort (zuerst erwähnt = 100%, zuletzt = 0%).
ASR
Answer Sentiment Rating: Tonalität der Erwähnung (positiv/neutral/negativ) auf einer Skala von -1 bis +1.
BVI
Brand Visibility Index: zusammengesetzte Punktzahl (GRC × GIS × ASR), von 0 bis 100, die die Gesamtleistung der Marke über die getesteten KIs zusammenfasst.
CIA
Citation Inter-judge Agreement: Fleiss-Kappa-Koeffizient, der die Übereinstimmung zwischen den 5 KI-Richtern bezüglich des Vorhandenseins der Zitierung misst.

30 Advanced GEO Checks 2026

Sprint 15 hat 30 neue GEO/AEO-Signale geliefert, passiv gemessen (kein ToS-verletzendes Scraping). Diese Signale ergänzen das AGS-Scoring über die 6. Kategorie „advanced_signals“ (15 % Gewichtung im Composite).

6 Marktunterscheidungsmerkmale

  • A08 — Specificity-Score (Princeton GEO 2024) — Dichte tier-1-belegter Statistiken (Princeton GEO KDD 2024: +27 bis +40 % LLM-Zitate).
  • A09 — Gegenargument-Marker — Kein Konkurrenz-Tool misst Marker für ausgewogene Argumentation.
  • A07 — Datierte Aussagen
  • S05 — Common-Crawl-Aufnahme
  • S08 — llms.txt-RFC-Validierung
  • B10 — Stack-Overflow-Markenerwähnungen

Modul 6 — External Authority Signals

Neues Modul für externe Autoritätssignale: LinkedIn, ProductHunt, G2/Capterra, Stack Overflow, GitHub, Substack/Medium.

Checks nach GEO-Modul

SSR / Crawlbarkeit
mainEntity · QAPage · Video-Transkripte · Speakable · @graph @id · inLanguage · Common Crawl · llms.txt · IndexNow · ai.txt · Verifizierungen · HTTP/3 · Brotli
Entity Health
Wikidata · DBpedia
Citation Readiness
Belegte Statistiken · Ausgewogene Argumentation · Inline-Datierung · ItemList · Dataset · Blockquote cite · Interne Links · Anchor-Entropy · News-Sitemap
External Authority
Stack Overflow · LinkedIn · GitHub · ProductHunt · B2B-Reviews · Newsletter

Alle Checks nutzen safe_external_call (Retry + Cache + Circuit Breaker) und speichern Ergebnisse in audits.advanced_checks_v2 (JSONB + GIN-Index).

Vollständiger Artikel im Blog: 30 neue GEO/AEO-Signale 2026 — Stand der Technik auditiert.