AEO-Audit: Der vollständige Methodik-Leitfaden 2026

2026 lautet die Frage, die sich jede Marke stellt, nicht mehr „ranken wir bei Google?", sondern „werden wir von ChatGPT, Claude, Perplexity oder Gemini zitiert, wenn ein Käufer sein Problem beschreibt?". Ein AEO-Audit (Answer Engine Optimization Audit) beantwortet diese Frage mit Zahlen. Dieser Leitfaden beschreibt die praktische Methodik, die wir bei einem AEO-Audit anwenden — vom Design der Prompts über das Scoring bis zum Liefergegenstand —, damit Sie es entweder selbst durchführen oder das Ergebnis Ihrer Agentur kritisch prüfen können.

Wenn Sie zunächst die konzeptuelle Definition von AEO suchen, lesen Sie den ergänzenden Beitrag: Was ist AEO (Answer Engine Optimization)? Leitfaden 2026. Dieser Artikel konzentriert sich auf das Audit selbst — den Workflow, die Kennzahlen und den Liefergegenstand.

AEO- vs. GEO-Audit: Was unterscheidet sie in der Praxis?

AEO und GEO sind zwei Blickwinkel auf dasselbe Problem: für KI-generierte Antworten optimieren statt für blaue Links. Kurz gefasst:

  • AEO (Answer Engine Optimization) umfasst Antwortmaschinen, die eine einzige synthetisierte Antwort liefern: ChatGPT, Claude, Perplexity, den Konversationsmodus von Gemini, You.com.
  • GEO (Generative Engine Optimization) deckt eine breitere Oberfläche ab, einschließlich der in die Suche integrierten generativen Erlebnisse — Google AI Overviews, SGE, Bing Copilot, multimodale Antworten.

In der Praxis deckt ein Audit beides ab: gemessen wird, wie die Marke über alle diese Oberflächen genannt, zitiert und kontextualisiert wird. Für einen tieferen Vergleich siehe unseren Artikel SEO vs. AEO: Unterschiede und Komplementarität sowie den GEO-Audit-Leitfaden. Die folgende Methodik gilt für beide Bezeichnungen.

Was ein AEO-Audit tatsächlich misst

Ein seriöses AEO-Audit ist kein Screenshot eines einzigen ChatGPT-Gesprächs. Es liefert strukturierte Kennzahlen, die sich zwischen Wettbewerbern und über die Zeit vergleichen lassen. Das zentrale Messset:

  • Zitationsrate — Anteil der Antworten, in denen die Marke mit einem klickbaren Link oder einer benannten Quelle erscheint. Dieser Wert generiert Referral-Traffic und das stärkste Autoritätssignal.
  • Erwähnungsrate — Anteil der Antworten, in denen die Marke ohne Link genannt wird. Erwähnungen beeinflussen die Wahrnehmung auch ohne Klick.
  • Share of Voice (SoV) — der Anteil der genannten Entitäten, die zur Marke gehören, über alle Prompts hinweg, verglichen mit einem Wettbewerberpanel. Die Kennzahl, die das „Keyword-Ranking" ersetzt. Siehe KI-Share of Voice.
  • Sentiment — positive, neutrale oder negative Einrahmung, wenn die Marke genannt wird. Eine hohe Erwähnungsrate mit negativem Sentiment ist ein Risiko, kein Sieg.
  • Position in Listen — wenn ein Modell eine sortierte Liste zurückgibt, der durchschnittliche Rang der Marke. Die Plätze 1 bis 3 bündeln die Aufmerksamkeit.
  • Quellenautorität — die URLs, die als Quellen neben (oder anstelle) der Marke zitiert werden. Sie zeigt, ob eigene Domains, Bewertungsseiten oder Wiki-Seiten die Antwort treiben.
  • Halluzinationsrate — Anteil der Antworten mit sachlichen Fehlern über die Marke: erfundene Produkte, falsche Preise, falsche Aussagen, erfundene URLs. Entscheidend für das Risiko-Reporting.

Diese Kennzahlen funktionieren zusammen. Eine Erwähnungsrate von 70 % mit 0 % klickbaren Zitationen, neutralem Sentiment und einem Wettbewerber, der drei von vier von den Modellen erzeugten Listen anführt, erzählt eine ganz andere Geschichte als die Schlagzeile allein.

Die 6-Schritte-Methodik eines AEO-Audits

1. Scoping: Zielanfragen und Wettbewerberpanel

Bevor ein einziger Prompt läuft, braucht der Auditor drei Dinge: die Zielgruppe (Entscheider, Geografie, Sprache), die Fragen aus der Buyer Journey, die die Marke gewinnen will, und die Wettbewerberliste — typischerweise vier bis sechs direkte Rivalen plus ein bis zwei angrenzende Herausforderer. Ohne diesen Rahmen rutschen die Prompts in generische Anfragen ab und der Score wird bedeutungslos.

Konkret hält die Scoping-Notiz fest: Branche, Subsegment, Geografie, zu auditierende Sprachen, Markennamenvarianten (Firmenname, Handelsname, häufige Schreibfehler) und eine schriftliche Beschreibung des Angebots in 200 bis 400 Wörtern. Der letzte Punkt ist entscheidend — KI-Modelle paraphrasieren diese Beschreibung, ihre Genauigkeit im öffentlichen Web setzt also die Obergrenze dessen, was das Audit messen kann.

2. Prompt-Erzeugung

Manuelles Schreiben von Prompts skaliert nicht und bringt Autoren-Bias ein. Der zuverlässigste Ansatz besteht darin, ein LLM aus der Scoping-Notiz Prompts erzeugen zu lassen, mit expliziten Abdeckungszielen: gebrandet, ungebrandet, vergleichend, problemorientiert, personabasiert, geografisch. Unsere Plattform erzeugt pro Audit eine maßgeschneiderte Prompt-Bank; das Prinzip ist dokumentiert in KI-Prompt-Erzeugung.

Eine typische Bank für ein einzelnes Audit enthält 40 bis 120 Prompts pro Sprache. Abdeckung zählt mehr als Volumen: zehn gut über den Funnel verteilte Prompts schlagen hundert nahezu identische Varianten von „bestes X-Tool".

3. Multi-Modell-Lauf

Ein einziges Modell zu testen ist kein Audit, sondern eine Anekdote. Das minimale glaubwürdige Set 2026 ist ChatGPT, Claude, Perplexity und Gemini — ergänzt um Mistral, Llama oder Grok je nach Geografie. Jeder Prompt wird gegen jedes Modell ausgeführt, gegebenenfalls in zwei getrennten Durchläufen: Native-Modus (das Modell antwortet nur aus Trainingsdaten) und Web-Modus (das Modell darf surfen). Die beiden Durchläufe messen sehr unterschiedliche Dinge und gehören im Bericht getrennt ausgewiesen. Siehe Native- vs. Web-Score.

4. Scoring und Extraktion

Jede Antwort wird ausgewertet auf: die Präsenz der Marke, die Form dieser Präsenz (mit Link zitiert, namentlich erwähnt, in einer Vergleichsliste aufgeführt), das Sentiment, die Position falls vorhanden, die genannten Wettbewerber, die zitierten URLs und jeden sachlichen Fehler. Manuelles Scoring ist für eine Stichprobe von fünfzig Antworten machbar; darüber hinaus ist Automatisierung Pflicht. Das Ergebnis ist ein Datensatz mit einer Zeile pro Antwort, der die gesamte weitere Analyse speist.

Die Normalisierung der Scores zählt. Eine fünfmal auf 50 Prompts zitierte Marke liegt bei 10 % Erwähnungsrate — diese Zahl ergibt nur Sinn im Vergleich zum 22-mal (44 %) zitierten Wettbewerber und zur Baseline des vorherigen Quartals.

5. Vergleichende Analyse

Hier rechtfertigt sich das Audit. Nützliche Schnitte:

  • Share of Voice pro Modell — bricht die Marke bei einem bestimmten Modell ein?
  • Share of Voice nach Funnel-Stufe — sichtbar bei „Awareness"-Prompts, aber unsichtbar bei „Compare"-Prompts?
  • Überlappung der Autoritätsquellen — welche URLs werden sowohl für die Marke als auch für ihre Wettbewerber zitiert?
  • Sentiment-Lücke — bekommt ein Wettbewerber systematisch eine wärmere Einrahmung?
  • Delta Native vs. Web — stark im Web, aber schwach im Native heißt, die Autoritätssignale der Marke sind zu jung für die Trainingsdaten.

Siehe KI-Wettbewerbsanalyse für die vollständige Benchmarking-Vorlage.

6. Priorisierter Aktionsplan

Das Audit endet mit einem schriftlichen Aktionsplan, nicht nur Dashboards. Jede Empfehlung trägt einen geschätzten Aufwand, eine zu bewegende Zielmetrik und einen Verantwortlichen (Content, Technik, PR, Partnerschaften). Eine nützliche Regel: in der ersten Iteration nie mehr als zehn Prioritätsaktionen liefern — darüber hinaus passiert nichts.

Wie viele Prompts machen ein AEO-Audit glaubwürdig?

Es gibt keine magische Zahl, aber einige praktische Anker. Für einen einzelnen Markt, eine einzige Sprache und vier bis sechs Wettbewerber bewegt sich ein glaubwürdiges Audit zwischen 40 und 120 Prompts. Unter 30 erstickt das statistische Rauschen das Signal — eine einzige feindliche Antwort verschiebt den Sentiment-Score um zehn Punkte. Über 200 zahlt man für eine Auflösung, die man nicht handhaben kann.

Der intelligentere Hebel ist die Stratifizierung: die Prompt-Bank nach Funnel-Stufe (Entdeckung, Vergleich, Entscheidung, After-Sales), Persona und Geografie aufteilen. Ein 60-Prompt-Audit mit 15 pro Stufe liefert mehr nutzbare Erkenntnis als eine flache 200er-Liste. Für die Verfolgung über die Zeit die Prompt-Bank einfrieren und monatlich oder vierteljährlich neu ausführen — siehe Geplante Audits.

Werkzeuge für ein AEO-Audit

Ein AEO-Audit lässt sich manuell mit einer Tabelle, einer Stoppuhr und vier Browser-Tabs durchführen. Über den ersten Proof of Concept hinaus empfehlen wir es nicht — der manuelle Ansatz scheitert an zwei Punkten: Multi-Modell-Abdeckung im großen Maßstab und Reproduzierbarkeit zwischen Audits.

Eine speziell entwickelte Plattform wie AI Labs Audit automatisiert die Prompt-Ausführung über mehr als 50 KI-Modelle, bewertet jede Antwort und erzeugt einen vergleichbaren Bericht. Neue Konten erhalten 600 Gratis-Credits, genug, um ein erstes Audit ohne Festlegung zu starten. Für einen breiteren Blick auf die Kategorie siehe unsere Übersicht der besten AEO/GEO-Monitoring-Tools 2026.

Automatisiertes Scoring ist über den POC hinaus nicht optional. Hundert Antworten manuell zu annotieren ist machbar; das monatlich über vier Modelle und sechs Wettbewerber zu tun, nicht mehr.

Wie man die Ergebnisse eines AEO-Audits liest und präsentiert

Am Liefergegenstand scheitern die meisten Audits. Dashboards allein werden nicht zu Handlung. Ein nützlicher AEO-Audit-Bericht enthält vier Abschnitte:

  • Management Summary — drei bis fünf Sätze und eine Grafik. Headline Share of Voice, Position gegenüber dem führenden Wettbewerber, die größte zu schließende Lücke und der empfohlene erste Schritt.
  • Metrik-Tiefenanalyse — Zitationsrate, Erwähnungsrate, Sentiment, Quellenautorität, Halluzinationsbeispiele. Ein Modell pro Seite, damit der Vergleich lesbar bleibt.
  • Wettbewerbs-Benchmark — eine Seite, die die Marke gegen das gewählte Panel über jede Kennzahl auffädelt.
  • Aktionsplan — höchstens zehn Prioritäten, jeweils mit Aufwand, erwarteter Wirkung und Verantwortlichem.

Die Methodik überschneidet sich mit dem breiteren Visibility-Audit, das in unserem KI-Sichtbarkeits-Audit-Leitfaden behandelt wird. Für die Kennzahlenebene speziell ist der Leitfaden der wichtigen KI-Sichtbarkeitskennzahlen die Referenz.

Häufige Fehler in AEO-Audits

  • Zu wenige Prompts — unter 30 verschluckt das Rauschen das Signal. Stratifizieren statt aufblasen.
  • Keine Wettbewerbs-Baseline — eine Erwähnungsrate von 25 % sagt nichts ohne die Zahlen der Wettbewerber daneben.
  • Sentiment und Zitation verwechseln — häufig mit feindlichem Ton erwähnt zu werden ist ein Problem, kein Erfolg.
  • Nur ein Modell — reine ChatGPT-Audits verfehlen das Zitationsmuster von Perplexity und die Gemini-AI-Overviews-Oberfläche komplett.
  • Halluzinationen ignorieren — ein Modell, das ein Produkt oder einen Preis erfindet, schadet der Marke auch ohne Zitationen. Explizit nachverfolgen. Siehe KI-Halluzinationen und Markenreputation.
  • One-Shot-Audits — KI-Antworten verändern sich ständig. Ohne wiederkehrenden Zeitplan veraltet das erste Audit innerhalb von Wochen.

FAQ AEO-Audit

Wie lange dauert ein AEO-Audit?

Ein automatisiertes Audit mit 60 bis 100 Prompts über vier Modelle läuft in wenigen Stunden Rechenzeit, dann ein Tag Analyse für den schriftlichen Bericht. Manuell braucht derselbe Umfang eine Woche sorgfältige Arbeit.

Wie oft sollte ein AEO-Audit wiederholt werden?

Quartalsweise ist die Untergrenze für langsam bewegliche Kategorien, monatlich ist gesünder in umkämpften Märkten. Die Prompt-Bank muss zwischen den Läufen eingefroren bleiben — sonst vergleicht die Trendlinie unterschiedliche Fragen.

Kann eine kleine Marke ein AEO-Audit durchführen?

Ja. Eine kleine Marke mit klarer Positionierung und drei direkten Wettbewerbern braucht nur rund 40 Prompts. Die Komplexität skaliert mit Anzahl der Geografien und Sprachen, nicht mit der Größe der Marke.

Sollen gebrandete Anfragen einbezogen werden?

Ja — sie zeigen, was KI-Modelle spontan über die Marke sagen, einschließlich Sentiment und Halluzinationen. Etwa 20 bis 30 % der Bank sollten gebrandet sein; der Rest bleibt ungebrandet, um die organische Sichtbarkeit zu messen.

Ersetzt ein AEO-Audit ein klassisches Such-Audit?

Nein, sie ergänzen sich. Die Suchautorität beeinflusst weiterhin, was KI-Modelle zitieren, vor allem im Web-Modus. Das AEO-Audit misst die KI-Oberfläche; die Suchmaschinen-Arbeit stützt sie weiterhin.

Was kostet ein AEO-Audit?

Es hängt vom Prompt-Volumen, der Sprachabdeckung und der Modellanzahl ab. Ein Self-Service-Lauf auf einer Plattform wie unserer ist mit den 600 bei der Anmeldung geschenkten Credits machbar; agenturgestützte Audits mit strategischer Auslegung werden pro Projekt abgerechnet.

Ist ein AEO-Audit für eine Marke mit bereits starker Suchpräsenz nützlich?

Oft sogar mehr. Starke Suchautorität garantiert keine KI-Zitationen — die Logik der Quellenauswahl unterscheidet sich, und die Aufbereitung strukturierter Inhalte zählt ebenso viel wie das Ranking. Siehe die AEO-Checkliste 2026 für die Aktionsebene.

Nächster Schritt

Ein AEO-Audit ist das Fundament jedes seriösen KI-Sichtbarkeitsprogramms — nicht die Ziellinie. Sobald die Baseline steht, verlagert sich die Arbeit auf das Schließen der Lücken, die das Audit aufzeigt: Content, Autorität, strukturierte Daten, Partnerschaften. Das Audit wird zugleich zum wiederkehrenden Messinstrument, das belegt, ob diese Anstrengungen die Nadel bewegen.

Um die hier beschriebene Methodik zu testen, können Sie ein erstes AEO-Audit auf AI Labs Audit mit den 600 bei der Anmeldung geschenkten Credits starten. Der Output liefert die strukturierte Baseline, den Wettbewerbs-Benchmark und den priorisierten Aktionsplan, die in diesem Leitfaden beschrieben sind.

Über den Autor

Davy Abderrahman

Gründer & CEO von

Spezialist für KI-Sichtbarkeit (AEO/GEO/LLMO). Ich unterstütze Agenturen und Berater dabei, die Präsenz ihrer Kunden auf ChatGPT, Claude, Gemini, Perplexity und anderen KI-Antwortmaschinen zu messen und zu optimieren. Pionier im Bereich KI-Sichtbarkeits-Audits seit 2024.

AEO GEO LLMO KI-Sichtbarkeit KI-Audits

War dieser Artikel hilfreich?

- (0 votes)