KI-Empfehlungen sind ein Glücksspiel: Was die neue SparkToro-Studie für GEO bedeutet

Wer heute in AI-Visibility-Tracking investiert, sollte vorher die Grundlagenforschung kennen. Eine neue Studie von Rand Fishkin (SparkToro) und Patrick O’Donnell (Gumshoe.ai) liefert erstmals belastbare Daten zur Konsistenz von Markenempfehlungen in ChatGPT, Claude und Google AI. Die Ergebnisse sind ernüchternd — und gleichzeitig aufschlussreich.

Screenshot der Studie: Wenn man ChatGPT 100 Mal nach Markenempfehlungen fragt, wie viele unterschiedliche Antworten erhält man? Gezeigt wird ein ChatGPT-Interface mit einem Beispiel-Prompt zu Kochmessern. — Die zentrale Frage der SparkToro-Studie: Wie konsistent sind KI-Markenempfehlungen bei wiederholter Abfrage? (Quelle: SparkToro / Gumshoe.ai)

Das Experiment

600 Freiwillige gaben 12 identische Prompts jeweils 60–100 Mal in die drei meistgenutzten KI-Tools ein: ChatGPT, Claude und Google Search AI (Overviews bzw. AI Mode). Insgesamt wurden 2.961 Antworten erfasst, normalisiert und statistisch ausgewertet. Die Prompts deckten verschiedene Branchen und Kategoriengrößen ab — von Kochmessern über Kopfhörer bis hin zu Krebskliniken und Digital-Marketing-Beratungen.

Die methodische Grundlage bildete die Carnegie-Mellon-Studie „Estimating LLM Consistency“, deren Pairwise-Correlation-Metriken für die Analyse übernommen wurden. Die Rohdaten sind öffentlich verfügbar.

Allein bei der Frage nach Kochmessern für Hobbyköche produzierte ChatGPT eine erstaunliche Vielfalt an Marken und Modellen — mit teils über 40 verschiedenen Empfehlungen in der Gesamtauswertung:

Tabelle mit über 40 verschiedenen Kochmesser-Marken, die ChatGPT bei wiederholter Abfrage empfohlen hat, inklusive Ranking-Positionen und Gesamtnennungen. Mac Mth-80 führt mit 61 Nennungen, gefolgt von Global G-2 und Victorinox Fibrox Pro mit je 57. — Die Vielfalt der ChatGPT-Antworten auf eine einzige Kochmesser-Frage: Über 40 verschiedene Marken und Modelle bei wiederholter Abfrage (Quelle: SparkToro / Gumshoe.ai)

Die Kernbefunde

Nahezu jede Antwort ist ein Unikat. Stellt man einem KI-Tool hundertmal dieselbe Frage nach Markenempfehlungen, unterscheiden sich die Antworten in drei Dimensionen: welche Marken genannt werden, in welcher Reihenfolge sie erscheinen und wie viele Empfehlungen die Liste überhaupt enthält.

Die folgende Grafik zeigt, wie viele einzigartige Marken die drei KI-Tools über alle 12 Prompt-Kategorien hinweg nannten. In breiten Kategorien wie Science-Fiction-Romanen oder Nutrition Accounts auf Social Media explodierten die Zahlen — in engen Märkten wie LA-Volvo-Händlern blieben sie überschaubar:

Balkendiagramm: Anzahl einzigartiger Marken pro Kategorie für ChatGPT (grün), Claude (orange) und Google AI (blau). SciFi-Romane erreichen über 200 einzigartige Nennungen, LA-Volvo-Händler unter 20. Pink markierte Punkte zeigen die durchschnittliche Anzahl Empfehlungen pro Antwort. — Anzahl einzigartiger Marken pro Kategorie und KI-Tool — je breiter die Kategorie, desto größer die Streuung (Quelle: SparkToro / Gumshoe.ai)

Listenidentität unter 1 %. Die Wahrscheinlichkeit, dass ChatGPT oder Google AI bei zwei beliebigen Durchläufen dieselbe Markenliste zurückgibt, liegt unter 1:100. Claude produziert minimal häufiger identische Listen (1,65 %), variiert dafür die Reihenfolge noch stärker (0,07 % Übereinstimmung):

Balkendiagramm zur Konsistenz der drei KI-Tools: ChatGPT liefert in 0,74 % der Fälle dieselbe Markenliste, Claude in 1,65 %, Google AI in 0,81 %. Die Wahrscheinlichkeit identischer Reihenfolge liegt bei ChatGPT bei 0,10 %, Claude bei 0,07 % und Google AI bei 0,28 %. — Unter 1 % Chance auf identische Listen — und nahe null für identische Reihenfolge. Ranking-Positionen in KI-Antworten sind statistisch bedeutungslos. (Quelle: SparkToro / Gumshoe.ai)

Reihenfolge praktisch zufällig. Dieselbe Reihenfolge zweimal zu erhalten, hat eine Wahrscheinlichkeit von etwa 1:1.000. Wer also „Ranking-Positionen in KI“ trackt, misst statistisches Rauschen.

Listenlänge variiert unkontrolliert. Manche Antworten enthalten zwei bis drei Empfehlungen, andere zehn oder mehr — bei identischem Prompt.

Aber: Visibility-Prozente haben Substanz

Fishkins Ausgangshypothese war, dass AI-Tracking grundsätzlich nutzlos sei. Diese Hypothese wurde teilweise widerlegt. Denn obwohl Listen, Reihenfolge und Umfang massiv schwanken, zeigt sich über viele Durchläufe hinweg ein stabiles Muster: Bestimmte Marken tauchen konsistent häufiger auf als andere.

Die folgende Grafik zeigt für alle 12 Kategorien und drei KI-Tools, wie oft die jeweils am häufigsten, zweithäufigsten und dritthäufigsten genannten Marken in den Antworten auftauchten:

Gestapeltes Balkendiagramm für alle 12 Prompt-Kategorien und drei KI-Tools: Zeigt die absoluten Nennungen der Top-1-, Top-2- und Top-3-Marken pro Kategorie. In engen Märkten wie Cloud Computing oder LA Volvos dominieren wenige Marken mit hohen Nennungszahlen. — Trotz zufälliger Listen und Reihenfolgen: Die meistgenannten Marken erscheinen über Dutzende Durchläufe hinweg konsistent häufiger als andere (Quelle: SparkToro / Gumshoe.ai)

Beispiel: Bei der Frage nach Digital-Marketing-Beratungen mit E-Commerce-Expertise erschien die Agentur Smartsites in 85 von 95 Google-AI-Antworten. City of Hope tauchte bei der Frage nach den besten Krebskliniken an der US-Westküste in 69 von 71 ChatGPT-Antworten auf — eine Sichtbarkeit von 97 %. Aber: Nur in 25 dieser 71 Antworten war City of Hope auch die erstgenannte Empfehlung.

Balkendiagramm der ChatGPT-Visibility für Top-, Zweit- und Drittplatzierte Marken über alle 12 Kategorien. Hervorgehoben: City of Hope Hospital erscheint in 69 von 71 Antworten (97 %), war aber nur in 25 davon die erstgenannte Empfehlung. Cloud Computing zeigt die höchste Visibility über alle drei Positionen. — 97 % Sichtbarkeit, aber nur in einem Drittel der Fälle erstgenannt: Die Position innerhalb einer Antwort ist Zufall — die Häufigkeit der Nennung nicht (Quelle: SparkToro / Gumshoe.ai)

Die entscheidende Erkenntnis: Nicht die Position in einer einzelnen Antwort ist aussagekräftig, sondern die Häufigkeit des Erscheinens über viele Durchläufe hinweg. Visibility-Prozent — also der Anteil an Antworten, in denen eine Marke überhaupt genannt wird — scheint eine statistisch belastbare Metrik zu sein.

Kategoriegröße bestimmt Varianz

Die Studie zeigt einen klaren Zusammenhang zwischen der Breite einer Kategorie und der Streuung der Ergebnisse. Die Konsistenz variiert stärker zwischen Branchen als zwischen KI-Tools — ein zentraler Befund:

Kombiniertes Balken- und Punktdiagramm: Pairwise Consistency Rate (Balken) und durchschnittliche Rang-Differenz (pinke Punkte) für alle Kategorien, aufgeteilt nach ChatGPT, Claude und Google AI. Cloud Computing zeigt die höchste Konsistenz (70–85 %), Nutrition Accounts und SciFi Novels die niedrigste. Ein blauer Pfeil verdeutlicht: Die Konsistenz variiert stärker zwischen Sektoren als zwischen Tools. — Entscheidender als das Tool ist die Marktbreite: Cloud Computing zeigt 70–85 % Konsistenz, fragmentierte Kategorien fallen auf unter 15 % (Quelle: SparkToro / Gumshoe.ai)

In engen Märkten mit wenigen relevanten Anbietern — etwa Cloud-Computing-Anbieter für SaaS-Startups — liegt die Pairwise-Konsistenzrate bei 70–85 %. In breiten Kategorien wie Science-Fiction-Romanen oder Branding-Agenturen fällt sie auf unter 15 %. Die KI hat schlicht mehr Optionen zur Auswahl, was die Streuung erhöht. Für GEO bedeutet das: Je fragmentierter der Markt, desto schwieriger ist es, konsistente Sichtbarkeit zu erreichen — und desto wichtiger wird eine systematische Strategie.

Das Prompt-Problem

Ein zweiter Teil der Studie untersuchte, wie echte Menschen Prompts formulieren. 142 Teilnehmer schrieben Prompts mit derselben Intention (Kopfhörer-Empfehlung für ein reisendes Familienmitglied). Die semantische Ähnlichkeit zwischen den Prompts lag bei 0,081 — extrem niedrig. Die Heatmap visualisiert diese Dissimilarität eindrücklich:

Heatmap der semantischen Ähnlichkeit von 142 menschlichen Prompts mit identischer Intention (Kopfhörer-Empfehlung). Die Matrix ist fast durchgehend dunkelviolett, was extrem niedrige Ähnlichkeit signalisiert. Durchschnittliche Pairwise-Similarity: 0,0809, Median: 0,0592. Fazit: Selbst bei identischem Ziel formulieren Menschen radikal unterschiedliche Prompts. — 142 Menschen, eine Intention, nahezu null Übereinstimmung in der Formulierung: Die Heatmap zeigt, wie unterschiedlich reale Nutzer ihre KI-Prompts schreiben (Quelle: SparkToro / Gumshoe.ai)

Trotzdem: Die KI-Tools erkannten die zugrunde liegende Intention zuverlässig und lieferten über 994 Antworten hinweg ein konsistentes Set an Top-Marken. Gumshoe ließ alle 142 einzigartigen Prompts durch ihr System laufen — das Ergebnis bestätigte die Befunde der kontrollierten Studie:

Screenshot des Gumshoe-Dashboards mit Visibility-Prozenten für Kopfhörer-Marken, basierend auf 142 menschlichen Prompts und 994 KI-Antworten. Sony führt mit 87 % Visibility (867/994), gefolgt von Bose mit 77 %, Sennheiser mit 58 % und Apple mit 55 %. JBL liegt bei 15 %, Jabra bei 12 %. — Intent überlebt Prompt-Varianz: Trotz radikal unterschiedlicher Formulierungen erkennen KI-Tools die Absicht und liefern ein stabiles Marken-Set — Sony 87 %, Bose 77 %, Sennheiser 58 % (Quelle: SparkToro / Gumshoe.ai)

Intent überlebt Prompt-Varianz. Die Tools sind besser im Erkennen der Absicht als im konsistenten Formatieren der Antwort.

Auch über die Zeit hinweg bleiben die Visibility-Prozente relativ stabil, selbst wenn die konkreten Listen und Positionen sich bei jedem Durchlauf ändern:

Positionen schwanken, Proportionen bleiben: Die Visibility-Prozente einzelner Marken sind über mehrere Durchläufe hinweg relativ stabil (Quelle: SparkToro / Gumshoe.ai)

Was das für GEO-Strategien bedeutet

1. Ranking-Position in KI-Antworten ist bedeutungslos. Jedes Tool oder jeder Anbieter, der „Platz 1 bei ChatGPT“ als Metrik verkauft, verkauft statistische Artefakte. Die einzig sinnvolle Metrik ist die prozentuale Sichtbarkeit über viele Durchläufe.

2. Visibility-Tracking braucht Volumen. Einzelne Stichproben sind wertlos. Fishkin empfiehlt mindestens 60–100 Durchläufe pro Prompt, um belastbare Daten zu erhalten. Anbieter von AI-Tracking-Tools sollten ihre Methodik offenlegen und statistisch validieren.

3. Intent-Orientierung schlägt Keyword-Optimierung. Weil Nutzer ihre Prompts radikal unterschiedlich formulieren, die KI-Tools aber die Intention zuverlässig erkennen, muss GEO auf Intent-Cluster statt auf einzelne Formulierungen optimieren.

4. Marktbreite ist ein strategischer Faktor. In Nischen mit wenigen Anbietern reicht konsistente Präsenz in den relevanten Quellen. In fragmentierten Märkten braucht es eine breitere Strategie mit mehr Touchpoints im Trainingscorpus der Modelle.

5. Anbieter-Transparenz einfordern. Bevor Budget in AI-Tracking fließt, sollten Unternehmen folgende Fragen stellen: Wie oft wird jeder Prompt ausgeführt? Wird die Methodik öffentlich dokumentiert? Wie wird mit der dokumentierten Varianz umgegangen? Werden Ranking-Positionen berichtet (die laut Forschung bedeutungslos sind)?

Einordnung und offene Fragen

Die SparkToro-Studie ist die erste öffentliche Untersuchung dieser Art — und sie ist methodisch transparent. Fishkin und O’Donnell veröffentlichen Rohdaten, Prompts und Methodik. Gleichzeitig bleiben Fragen offen:

API vs. Web-Interface: Erste Hinweise deuten darauf hin, dass API-Antworten sich von Interface-Antworten unterscheiden könnten. Das ist relevant, weil die meisten Tracking-Tools über APIs arbeiten.
Zeitliche Stabilität: Die Daten stammen aus November/Dezember 2025. Ob Visibility-Werte über Monate hinweg stabil bleiben, ist ungeklärt.
Stichprobengröße: Für eine vollwertige statistische Absicherung wären deutlich größere Samples nötig.
Modell-Updates: Wie sich Modell-Aktualisierungen auf die Visibility einzelner Marken auswirken, wurde nicht untersucht.

Ausblick: Weitere Forschung in Vorbereitung

Die SparkToro-Studie ist ein wichtiger erster Schritt — aber sie kratzt erst an der Oberfläche. In unserer Research Group an der RPTU Kaiserslautern-Landau bereitet aktuell ein Doktorand eine groß angelegte wissenschaftliche Studie vor, die genau diese Fragestellungen systematisch untersucht. Denn neben den von Fishkin und O’Donnell betrachteten Variablen gibt es weitere Faktoren, die die Konsistenz und Zusammensetzung von KI-Empfehlungen beeinflussen und bislang nicht erfasst wurden.

Ohne zu viel vorwegzunehmen: Wir setzen an mehreren Stellen an, an denen die SparkToro-Studie designbedingt Grenzen hat. Das Panel aus menschlichen Freiwilligen war für eine explorative Studie sinnvoll, limitiert aber Reproduzierbarkeit und Skalierung. Unsere Studie wird auf technisch automatisierten Testläufen basieren, mit deutlich höheren Stichprobengrößen und einer breiteren Abdeckung an Plattformen über die drei US-Marktführer hinaus. Zudem planen wir eine Anbindung an den existierenden akademischen Forschungsstand — etwa durch den Rückgriff auf etablierte Prompt-Kataloge aus Benchmarks wie GEO-Bench —, um die Ergebnisse in den wissenschaftlichen Diskurs einordnen zu können.

Ich werde hier in den kommenden Monaten deutlich mehr in diese Richtung berichten.

Fazit

Die Studie bestätigt, was viele im GEO-Umfeld intuitiv vermutet haben: KI-Empfehlungen sind probabilistisch, nicht deterministisch. Rankings in KI-Antworten sind Zufall. Aber die Häufigkeit, mit der eine Marke im Consideration Set der Modelle auftaucht, ist messbar und strategisch relevant.

Für Unternehmen bedeutet das: Nicht die Position in einer einzelnen Antwort entscheidet, sondern die systematische Präsenz in den Datenquellen, aus denen KI-Modelle ihre Empfehlungen generieren. Genau das ist der Kern von Generative Engine Optimization.

Quelle: Fishkin, R. & O’Donnell, P. (2026). „NEW Research: AIs are highly inconsistent when recommending brands or products.“ SparkToro Blog, 27. Januar 2026. sparktoro.com

KI-Empfehlungen sind ein Glücksspiel: Was die neue SparkToro-Studie für GEO bedeutet

Das Experiment

Die Kernbefunde

Aber: Visibility-Prozente haben Substanz

Kategoriegröße bestimmt Varianz

Das Prompt-Problem

Was das für GEO-Strategien bedeutet

Einordnung und offene Fragen

Ausblick: Weitere Forschung in Vorbereitung

Fazit

Abonniere das kostenlose KI-Update

Kai Spriestersbach

Verwandte Beiträge

GEO-Expertenbefragung 2026: Was 22 SEO-Profis wirklich über KI-Sichtbarkeit denken

Wie klassifizieren Generative Engines Nutzer-Intents? Was OpenAI, Microsoft und die Forschung (nicht) gemeinsam haben

Das richtige WordPress Theme für deine nächste Website