Ein GEO-Audit (Generative Engine Optimization) ist kein AEO-Audit unter neuem Namen. Im Jahr 2026 leisten generative Engines wie ChatGPT, Claude, Gemini, Perplexity und Google AI Overviews weit mehr als nur Quellen zu zitieren: Sie schreiben um, fassen zusammen, empfehlen und erfinden manchmal Fakten über Ihre Marke. Ein seriöses GEO-Audit misst all das, einschließlich Halluzinationen und narrativem Sentiment. Dieser Leitfaden beschreibt die vollständige Methodik, die unser Team bei AI Labs Audit einsetzt, um ein belastbares und wiederholbares GEO-Audit zu liefern.
GEO vs AEO vs traditionelles Audit: Was sich wirklich ändert
Viele Praktiker verwenden AEO und GEO synonym. Beide Disziplinen sind verwandt, aber ihr Anwendungsbereich ist nicht identisch. Die konzeptionelle Definition finden Sie in unserem Leitfaden zu GEO. Aus methodischer Sicht unterscheiden sich die drei Audits wie folgt.
- Traditionelles GEO-/Web-Audit: technischer Crawl, On-Page-Signale, Backlinks, Rankings auf Google oder Bing. Es zeigt, ob eine Suchmaschine Sie finden und einordnen kann.
- AEO-Audit: konzentriert sich darauf, ob Antwortmaschinen Sie zitieren. Es betrachtet Zitationsrate, Erwähnungsrate, Quell-URLs. Siehe unseren AEO-Audit-Leitfaden für den ergänzenden Blickwinkel.
- GEO-Audit: deckt alles ab, was ein AEO-Audit leistet, plus die generative Ausgabe selbst. Was sagt die KI tatsächlich über Ihre Marke? Stimmt es? Ist das Sentiment positiv? Gibt es halluzinierte URLs? Empfiehlt sie Sie gegenüber Wettbewerbern in einem multimodalen Kontext (Text, Sprache, AI Overviews)?
Kurz: AEO fragt "Werde ich zitiert?", GEO fragt "Werde ich zitiert, gut repräsentiert, empfohlen und frei von gefährlichen Halluzinationen?". Ein GEO-Audit muss daher eine größere Oberfläche abdecken: AI Overviews, Sprachassistenten, bildbasierte Antworten.
Die 7 Dimensionen, die ein seriöses GEO-Audit misst
Ein Audit, das nur meldet "wir werden in 32 % der Fälle zitiert", ist unvollständig. Ein belastbares GEO-Audit misst 2026 sieben distinkte Dimensionen, jede mit eigenem KPI.
1. Zitationsrate
Anteil der Prompts, bei denen die KI Ihre URL oder Domain explizit zitiert. Starkes Signal für Quellautorität. Gut korreliert mit einer Bing-Top-10-Platzierung und der Qualität strukturierter Daten.
2. Erwähnungsrate
Anteil der Prompts, in denen der Markenname auftaucht, auch ohne URL. Eine Marke kann erwähnt werden, ohne als Quelle zitiert zu sein - das ist für sich genommen schon eine nützliche Information.
3. Share of Voice (SoV)
Ihre Erwähnungen geteilt durch die Gesamterwähnungen der Wettbewerber. Vertiefend in unserer Analyse zum KI-Share of Voice. SoV ist die beste Einzelmetrik für die Zeitverlaufsbeobachtung.
4. Sentiment
Ton der generativen Ausgabe, wenn Ihre Marke diskutiert wird. Positiv, neutral, negativ. Sentiment ist wichtig, weil ein Modell, das einen Wettbewerber statt Ihrer empfiehlt, funktional schlechter ist als ein Modell, das Sie gar nicht erwähnt.
5. Source Authority
Welche URLs und Domains nutzt das Modell, wenn es über Ihre Kategorie spricht? Die Antwort zeigt, welche Drittquellen Sie beeinflussen müssen (Presse, Wikipedia, Bewertungsplattformen). Siehe unsere Analyse zu Source Authority.
6. Halluzinationsrate
Anteil generierter Ausgaben mit faktischen Fehlern über Ihre Marke, erfundenen Funktionen, fiktiven URLs oder fabrizierten Zitaten. Das ist die Brand-Safety-Dimension, die GEO eigen ist. Detailliert in unserer Arbeit zu halluzinierten URLs.
7. Relative Position gegenüber Wettbewerbern
Wenn Sie neben Wettbewerbern zitiert werden, stehen Sie an erster, zweiter oder letzter Stelle? In listenartigen Antworten korreliert die Position mit der Klickrate zur Marke.
GEO-Audit-Methodik in 8 Schritten
Hier die Methodik, die unser Team intern anwendet und die wir in der AI Labs Audit-Plattform industrialisiert haben. Sie ist engine-agnostisch: Sie können sie manuell oder mit einem Tool ausführen.
Schritt 1: Scoping
Marke, Geografien, Sprachen und Kategorie definieren. Ein französischer B2B-SaaS, auf Englisch aus den USA auditiert, liefert kaum Signal. Das Scoping bestimmt alles Weitere.
Schritt 2: Prompt-Design
Einen Prompt-Korpus erzeugen, der widerspiegelt, wie reale Nutzer mit einer KI sprechen. Discovery-Prompts ("wer sind die führenden Anbieter von X?"), Vergleichs-Prompts ("X vs Y"), Empfehlungs-Prompts ("welches Tool für Z?") und Fakten-Prompts ("wann wurde X gegründet?") mischen. In AI Labs Audit werden die Prompts auf Basis des Kundenbriefings von einer KI generiert - wer eignet sich besser, um eine KI zu befragen, als eine andere KI?
Schritt 3: Multi-Modell-Läufe
Pro Prompt mindestens 5 generative Engines abfragen. Single-Engine-Audits haben 2026 keine statistische Aussagekraft, weil jedes Modell unterschiedliche Trainingsdaten und Such-Backends hat.
Schritt 4: Nativ vs Web testen
Jeden Prompt zweimal ausführen: einmal mit deaktivierter Websuche (natives Wissen) und einmal mit aktivierter Websuche (RAG-Modus). Die Lücke zwischen beiden Scores ist entscheidend, wie in unserer Analyse nativer vs Web-Score erläutert.
Schritt 5: Scoring
Die sieben Dimensionen auf jede Antwort anwenden. Automatisiertes Scoring (regex + LLM-Klassifikator) ist im großen Maßstab wesentlich verlässlicher als manuelles Lesen.
Schritt 6: Halluzinations-Erkennung
Jede vom Modell produzierte URL erfassen, crawlen. Jedes 404 ist eine halluzinierte URL. Faktische Aussagen über die Marke gegen die offizielle Website abgleichen. Dieser Schritt wird am häufigsten übersprungen - und ist am gefährlichsten zu überspringen.
Schritt 7: Wettbewerbs-Benchmark
Dieselben Prompts gegen 3-5 Wettbewerber ausführen. Ohne Baseline sind Rohscores bedeutungslos.
Schritt 8: Aktionsplan
Erkenntnisse in priorisierte Maßnahmen übersetzen: Schema-Markup, Content-Überarbeitungen, Drittplatzierungen, Wikipedia/Wikidata-Arbeit, FAQ-Seiten. Der Plan soll Maßnahmen nach erwarteter Wirkung pro Aufwand sortieren.
Heikles Thema: Halluzinationen über Ihre Marke erkennen
Halluzinationen sind das am stärksten unterschätzte Risiko in GEO. Ein Modell kann selbstbewusst behaupten, Ihr Produkt biete eine Funktion, die es nicht gibt, eine fiktive Fallstudie zitieren oder Nutzer auf eine URL schicken, die 404 liefert. Schlimmer noch: Es kann Ihrem CEO Aussagen zuschreiben, die nie gemacht wurden.
Ein GEO-Audit muss daher eine systematische Halluzinations-Erkennung auf drei Ebenen enthalten:
- URL-Halluzinationen: jede generierte URL wird gecrawlt. Jedes 404 oder falsche Domain wird protokolliert.
- Faktische Halluzinationen: Preise, Gründungsdatum, Mitarbeiterzahl, Funktionen, Zertifizierungen. Abgeglichen mit der offiziellen Website und einer kuratierten Wissensdatenbank.
- Zuschreibungs-Halluzinationen: falsche Zitate, erfundene Partnerschaften, fabrizierte Auszeichnungen.
Die Brand-Safety-Dimension von GEO wird ausführlich in unserem Leitfaden KI Brand Safety behandelt. Diesen Schritt zu überspringen bedeutet, ein Audit zu liefern, das die rechtlich und reputationsmäßig sensibelsten Punkte verfehlt.
Multi-Modell-GEO-Audit: Wie viele Engines testen?
Der häufigste methodische Fehler besteht darin, eine einzelne Engine zu testen, meist ChatGPT, und das ein GEO-Audit zu nennen. Realität: ChatGPT, Claude, Gemini und Perplexity verhalten sich sehr unterschiedlich, weil sie auf verschiedene Trainingsdaten und unterschiedliche Web-Backends zurückgreifen.
- 1 Modell: anekdotisch, statistisch unhaltbar.
- 3 Modelle: akzeptables Minimum für ein bezahltes Audit, deckt die drei dominanten Anbieter ab.
- 5 bis 10 Modelle: der AI-Labs-Audit-Standard, erfasst regionale Engines und Reasoning-Varianten.
- 50+ Modelle: die Plattform testet gegen mehr als 50 generative Engines, weil jede Variante einer Modellfamilie unterschiedliche Antworten liefern kann, besonders bei sensiblen Prompts.
Auch Stichproben-Stabilität zählt. Jeden Prompt mehrfach abzuspielen zeigt, dass derselbe Prompt an dasselbe Modell unterschiedliche Antworten zurückgibt. Ein seriöses GEO-Audit berichtet daher einen Durchschnitt über mehrere Läufe, keinen Einzel-Snapshot.
Welche Prompts in einem GEO-Audit verwenden?
Das Audit ist nur so gut wie seine Prompts. Ein schlechter Korpus liefert statistisch wertlose Ergebnisse, egal wie viele Modelle Sie abfragen.
Discovery-Prompts
"Wer sind die führenden Anbieter von X in Europa?". Diese Prompts prüfen, ob Sie überhaupt im Consideration Set auftauchen. Sie sind am schwersten zu gewinnen, weil sie lange Listen erzeugen, in denen nur die Spitzennamen zitiert werden.
Vergleichs-Prompts
"X vs Y, welches wählen?". Diese Prompts prüfen, wie das Modell Ihre Marke gegenüber einem konkreten Wettbewerber einordnet. Sentiment und funktionales Framing zählen ebenso wie die Zitation.
Empfehlungs-Prompts
"Was ist das beste Tool für Z?". Hohe kommerzielle Intention. Diese Prompts zu gewinnen ist am wertvollsten, weil die Nutzer kurz vor der Kaufentscheidung stehen.
Faktische Prompts
"Wann wurde X gegründet?", "Was kostet X?". Diese Prompts testen die faktische Genauigkeit des Modells über Ihre Marke und decken Halluzinationen auf.
Für einen tieferen Blick auf KI-generierte Prompt-Korpora siehe unsere Analyse zu maßgeschneiderten GEO-Audits.
Was ein GEO-Audit-Bericht enthalten muss
Ein GEO-Audit-Deliverable, das eine Agentur an einen Kunden übergeben kann, sollte immer die folgenden Abschnitte enthalten.
- Executive Summary: 1 Seite mit den sieben KPIs und einer Kernerkenntnis pro Dimension.
- Aufschlüsselung pro Modell: Markenperformance auf jeder Engine separat.
- Wettbewerbs-Benchmark: Share-of-Voice-Diagramm gegenüber dem abgestimmten Wettbewerberset.
- Halluzinations-Log: jede markierte Halluzination mit Prompt, Modell, Datum und korrigierter Version.
- Source-Authority-Karte: Top 20 der URLs, auf die das Modell für Ihre Kategorie zurückgreift.
- Priorisierter Aktionsplan: 10 bis 20 Maßnahmen, sortiert nach erwartetem Lift pro Aufwand.
- Re-Audit-Plan: Das Audit muss in definiertem Rhythmus wiederholt werden, weil LLMs und ihre Backends sich kontinuierlich ändern.
Für Agenturen wird das Deliverable typischerweise als PDF ausgeliefert. Unser Team hat den Ansatz in Premium-PDF-Berichten für KI-Sichtbarkeits-Audits detailliert beschrieben.
Häufige Fehler beim GEO-Audit
- Nur ein Modell testen: liefert ein Teilbild, manchmal schlicht falsch.
- Keine Wettbewerbs-Baseline: ohne Wettbewerber haben KPIs keine Aussagekraft.
- Halluzinations-Erkennung überspringen: die gefährlichste Abkürzung, weil sie das Brand-Safety-Risiko verbirgt.
- One-Shot-Audit: GEO-Ergebnisse driften wöchentlich. Ein einmaliges Audit ist binnen 30 Tagen obsolet. Stattdessen geplante Audits einsetzen.
- Nativ und Web vermischen: beide Scores in einem einzigen Durchschnitt verbergen, woher die Sichtbarkeit tatsächlich kommt.
- Keine Prompt-Vielfalt: ausschließlich Empfehlungs-Prompts zu testen, unterrepräsentiert die Discovery- und Fakten-Ebenen.
Tools zur Durchführung eines GEO-Audits
Sie können ein GEO-Audit manuell durchführen, indem Sie jedes Modell über seine Verbraucherschnittstelle abfragen, die Ergebnisse in einer Tabelle festhalten und die URLs händisch crawlen. Für einen einmaligen Proof of Concept funktioniert das, aber es skaliert nicht und ist nicht zuverlässig reproduzierbar.
Spezialisierte Plattformen - AI Labs Audit, Profound, Otterly und andere - automatisieren den Großteil: Multi-Modell-Abfragen, Scoring, Halluzinations-Erkennung, Wettbewerbs-Benchmark und PDF-Auslieferung. AI Labs Audit ist die europäische Option, für Agenturen konzipiert, mit White-Label-PDF-Berichten, Nur-Lese-Kundenportal, mehr als 50 getesteten Engines und 600 Gratis-Credits bei der Anmeldung, um vor jeder Verpflichtung ein vollständiges Audit zu starten. Breiterer Vergleich in unserer Übersicht zu AEO/GEO-Monitoring-Tools.
FAQ: GEO-Audit
Wie lange dauert ein GEO-Audit?
Ein manuelles GEO-Audit mit 50 Prompts und 5 Modellen kostet ein bis zwei Beratertage. Dasselbe Audit über eine automatisierte Plattform startet in Minuten und liefert binnen einer Stunde einen PDF-Bericht.
Wie oft sollte ein GEO-Audit wiederholt werden?
Mindestens monatlich. LLMs aktualisieren ihre Backends laufend, und eine Marke, die im März zu 40 % zitiert wurde, kann im April nach einem Modell-Update auf 12 % fallen.
Unterscheidet sich ein GEO-Audit von einem AEO-Audit?
Ja. AEO konzentriert sich auf Zitation. GEO ergänzt die generative Dimension: Sentiment, Halluzinationen, narratives Framing, AI Overviews, multimodale Antworten. Beide Audits sind komplementär und haben ihren Platz.
Kann man einem GEO-Audit trauen, das nur ChatGPT getestet hat?
Nein. ChatGPT verhält sich sehr anders als Claude, Gemini und Perplexity. Ein Single-Modell-Audit ist anekdotisch und sollte nicht als Grundlage strategischer Entscheidungen dienen.
Wie erkennt man Halluzinationen im großen Maßstab?
Automatisiertes URL-Crawling für halluzinierte Links, ergänzt um einen LLM-as-Judge-Klassifikator, der faktische Aussagen mit einer kuratierten Markenwissensbasis abgleicht. Eine manuelle Prüfung bestätigt die sensibelsten Treffer.
Erinnern sich generative Engines an frühere Anfragen?
Innerhalb einer Sitzung manchmal. Zwischen Sitzungen nicht. Jeder GEO-Audit-Lauf beginnt auf einer leeren Tafel - genau deshalb zählt eine wiederholbare Methodik mehr als ein cleverer Prompt-Wortlaut.
Fazit: GEO-Audit als wiederkehrende Disziplin
Ein GEO-Audit ist 2026 keine einmalige Übung. Generative Engines ändern sich zu schnell, und ihre Backends bewegen sich wöchentlich. Das richtige mentale Modell liegt näher an Finanzreporting als an einer Launch-Checkliste: messen, vergleichen, handeln, wiederholen.
Wenn Sie sich die manuelle Einrichtung sparen wollen, können Sie ein vollständiges GEO-Audit auf AI Labs Audit starten - mit den 600 Gratis-Credits, die bei der Anmeldung gewährt werden. Die Plattform wurde von unserem europäischen Team für Agenturen und Berater entwickelt, die eine belastbare, wiederholbare Methodik und ein White-Label-PDF-Deliverable benötigen, das sie an Kunden übergeben können.