Methode & Transparenz

Bekannte Grenzen & Variabilität der Messung

Die Sichtbarkeit einer Marke in generativen KIs zu messen ist keine exakte Wissenschaft: Die Modelle sind nicht-deterministisch und entwickeln sich weiter. Statt diese Realität hinter einem „sauberen“ Wert zu verbergen, dokumentieren wir sie – und erklären, wie unsere Methode sie berücksichtigt.

1Die KI-Antworten variieren von einem Durchlauf zum anderen

Ein und derselbe Prompt kann je nach Zeitpunkt und Zufallsanteil des Modells unterschiedliche Antworten liefern (die beobachtete Variabilität liegt bei bestimmten Anfragen typischerweise in der Größenordnung von 15 bis 20 %).

Unsere Antwort : Jury aus mehreren Richtern, robuste Aggregation und angezeigtes Wilson-Konfidenzintervall – Sie sehen die Unsicherheitsspanne, nicht nur eine Zahl.

2Jedes Modell hat sein eigenes Verhalten

Die Modelle sind nicht gleichwertig: Manche zitieren technische Quellen häufiger, andere sind bei lokalen Anfragen instabiler, wieder andere variieren je nach Sprache.

Unsere Antwort : Multi-Modell-Audit (mehrere Richter, Dutzende abgefragte Modelle) und Aufschlüsselung pro Modell im Bericht, statt einer Gesamtnote, die diese Unterschiede verdecken würde.

3Die Werte verändern sich, wenn die Anbieter ihre Modelle ändern

Wenn OpenAI, Google oder Anthropic ein Modell aktualisieren, können sich die Antworten – und damit die Werte – verschieben, ohne dass die Marke etwas geändert hat.

Unsere Antwort : Das anchor set (laufend neu vermessene Referenzmarken) trennt diese Modell-Drift von der tatsächlichen Leistung der Marke; der Kundenwert wird entsprechend korrigiert.

4Eine einmalige Messung genügt nicht

Die KI-Sichtbarkeit ist im Zeitverlauf instabil: Eine einzelne Messung ist irreführend.

Unsere Antwort : Geplante / wiederkehrende Audits und Trendverfolgung – wir betrachten die Entwicklung, nicht eine Momentaufnahme.

5Der Anteil „Websuche“ vs. „Modellgedächtnis“

Eine Antwort ändert sich je nachdem, ob das Modell eine Websuche durchgeführt hat (retrieval) oder aus seinem internen Gedächtnis antwortet (parametrisch).

Unsere Antwort : Differenzialdiagnose nativ vs. Web, um die beiden zu unterscheiden und zu wissen, an welchem Hebel man ansetzen muss.

6Die Ergebnisse hängen von der Formulierung des Prompts ab

Zwei Arten, dieselbe Frage zu stellen, können unterschiedliche Antworten – und damit unterschiedliche Werte – erzeugen.

Unsere Antwort : Normalisierte, versionierte und dokumentierte Prompts (Prompt-Taxonomie nach Absicht); wir improvisieren die Frage nicht, sondern wenden ein reproduzierbares Protokoll an und folgen im Zeitverlauf demselben Raster.

7Der geografische und sprachliche Kontext verändert die Antwort

Eine KI kann je nach Land (Frankreich, Belgien, Kanada, USA …) und Sprache unterschiedlich antworten.

Unsere Antwort : Jedes Audit wird in einem dokumentierten sprachlichen und geografischen Kontext durchgeführt (Audits pro Sprache mit Marktkontextualisierung, lokale Wettbewerber) – wir geben immer an, in welchem Markt die Messung erfolgt ist, statt eines „realitätsfernen“ Werts.

Was das ehrlicherweise bedeutet

Der AGS ist eine kalibrierte und reproduzierbare Schätzung, keine absolute Wahrheit. Er ist darauf ausgelegt, im Zeitverlauf vergleichbar (gleicher judge_config_hash) und ehrlich in Bezug auf seine Unsicherheit zu sein (Konfidenzintervalle, GRC, korrigierte Drift). Unser Ziel ist keine schmeichelhafte Zahl, sondern eine Messung, die Sie – und Ihre Kundschaft – verstehen, überprüfen und anfechten können.

Messen Sie die reale Sichtbarkeit Ihrer Marke in KI-Antworten

Starten Sie ein AGS-Audit und erhalten Sie einen auditierbaren Wert, offen benannte Grenzen und einen konkreten Aktionsplan.

Preise ansehen