Review der Wix/Peec-Analyse zu LLM-Zitationen & GEO

Ich habe mir angesehen, was man aus der Wix/Peec-Analyse zu LLM-Zitationen wirklich lesen kann – und was nicht

Der Beitrag von Wix über die „most cited content types by LLMs“ ist interessant, weil er einmal nicht nur Meinungen oder Best Practices sammelt, sondern mit einem größeren Datensatz arbeitet: Laut Artikel wurden 75.000 AI-Antworten mit 1.056.727 Zitationen aus ChatGPT, Google AI Mode und Perplexity ausgewertet. Vorab gut zu wissen ist, dass die Daten laut Autor über Peec erhoben wurden und dass er selbst dort als Researcher arbeitet. Das macht den Beitrag nicht unbrauchbar, aber eben zu einer vendorseitigen Auswertung und nicht zu einer unabhängigen wissenschaftlichen Studie.

Was der Datensatz zunächst einmal tatsächlich zeigt, ist ziemlich klar: In diesem Setup entfallen die meisten sichtbaren Zitationen auf Listicles, Articles und Product Pages. Innerhalb der Intent-Klassen verschiebt sich das Bild deutlich: Bei informational Prompts dominieren Articles, bei commercial Prompts Listicles, und bei navigational/local sowie transactional Prompts treten Product- und Category-Pages deutlich stärker hervor. Als deskriptive Beobachtung über genau dieses Sample ist das nützlich und plausibel.

Genau an dieser Stelle beginnt aber die wissenschaftlich wichtige Trennung zwischen Beobachtung und Interpretation. Peec unterscheidet selbst zwischen Sources und Citations: Citations sind nur die URLs, die direkt im Antworttext auftauchen; Sources umfassen auch weitere URLs, die das System genutzt, aber nicht sichtbar zitiert hat. Der Beitrag analysiert hier also nur die sichtbaren Zitationen. Das ist ein valider Messpunkt, aber ich fände es gerade interessant, was zitierte Inhalte von den gelieferten Quellen und diese wiederum von „allen möglichen Quellen“ unterscheidet, denn so kommen wir der Frage „welcher Content-Typ objektiv am besten funktioniert“ nicht unbedingt näher.

Für mich ist deshalb der belastbarste Schluss ein recht nüchterner:

Die Verteilung sichtbarer LLM-Zitationen variiert in diesem Datensatz deutlich nach Prompt-Intent.

Mehr nicht, aber auch nicht weniger.

Man kann also vorsichtig sagen, dass Articles in informational Kontexten häufiger sichtbar zitiert wurden, Listicles in commercial Kontexten und Product- bzw. Category-Pages eher in navigational und transactional Kontexten. Was man daraus noch nicht sauber sagen kann, ist, dass LLMs diese Formate „bevorzugen“ im starken Sinn oder dass genau diese Formate kausal für Sichtbarkeit verantwortlich sind.

Der Artikel geht an mehreren Stellen über diese Evidenz hinaus. Wenn dort etwa steht, Nutzer wollten bei kommerziellen Suchanfragen „structured comparisons and peer opinions“, dann ist das als Hypothese nachvollziehbar — gemessen wurde es hier aber nicht!

Die Auswertung enthält keine Nutzerbefragung, keine Klickdaten, keine Conversion-Daten und keine Verhaltensmaße. Gemessen wurde allein, welche Seitentypen in Antworten sichtbar zitiert wurden. Aus solchen Mustern kann man psychologische Erklärungen ableiten; belegt sind diese Erklärungen dadurch aber nicht.

Dasselbe gilt für starke strategische Aussagen am Ende des Beitrags. Formulierungen wie „Articles build trust but don’t drive decisions“, „optimize for user intent rather than models“ oder „don’t rely on articles“ lesen sich handlungsnah, sind aber durch dieses Studiendesign nicht kausal abgesichert.

Es handelt sich um eine beobachtende Auswertung, nicht um ein kontrolliertes Experiment, in dem identische Inhalte systematisch variiert und deren Effekte getestet wurden. Der Beitrag zeigt Korrelationen in sichtbaren Zitationen, keine Wirkungsnachweise.

Ein weiterer methodischer Punkt wird leicht übersehen: Die Zahl von über einer Million Zitationen klingt (wie bereits bei der 1,2 Millionen Prompts-Studie) nach enormer statistischer Wucht, ist aber nicht automatisch gleichbedeutend mit über einer Million unabhängigen Beobachtungen.

Eine einzelne Antwort kann mehrere Quellen enthalten, und Peec weist selbst darauf hin, dass Sources und Citations unterschiedliche Dinge sind. Wer also Citation-Shares betrachtet, betrachtet keine Query-Shares und auch keine „Gewinner pro Prompt“, sondern Anteile innerhalb eines Zitationsraums. Das ist analytisch relevant, weil sich dadurch die Denominator-Logik ändert.

Man sieht diese Unschärfe schon in den Aufmacherzahlen des Artikels: Dort heißt es, Articles würden bei informational Queries „2.7x more“ zitiert als bei anderen Intents. Schaut man auf die veröffentlichte Tabelle, liegt der Article-Anteil bei informational Prompts bei 45,48 Prozent und overall bei 16,68 Prozent. Der Faktor 2,7 ergibt sich also offenbar aus dem Vergleich mit dem Gesamtwert, nicht mit dem Durchschnitt der anderen drei Intent-Klassen. Das ist kein gravierender Fehler, aber ein gutes Beispiel dafür, warum man Marketing-kompatible Kennzahlen immer gegen die Tabelle selbst lesen sollte.

Auch die Modellvergleiche würde ich vorsichtiger lesen, als der Text es nahelegt. Peec dokumentiert selbst, dass Plattformen bei Quellen und Zitationen unterschiedlich funktionieren: ChatGPT sucht nicht immer im Web, Perplexity zeigt oft viele Sources, aber relativ weniger direkte Citations, und die Quellenauswahl schwankt von Tag zu Tag. Wenn die Produkte bereits unterschiedlich suchen und unterschiedlich zitieren, dann misst ein Modellvergleich eben nicht nur „inhaltliche Präferenzen“, sondern auch Unterschiede im Produktverhalten. Aussagen wie „Perplexity values community opinions“ sind deshalb eher Interpretation als harter Befund.

Eine weitere Einschränkung steckt in den transactional Prompts. Der Autor schreibt selbst, dass transaktionale Anfragen in der Realität oft branded sind, für die Studie aber absichtlich non-branded gehalten wurden. Das ist methodisch nachvollziehbar, weil es den Vergleich sauberer macht. Gleichzeitig entfernt sich das Setup damit gerade in einem besonders handlungsnahen Bereich ein Stück von realem Nutzerverhalten. Wer daraus operative Empfehlungen für Kauf- oder Conversion-Szenarien ableiten will, sollte diese Grenze im Blick behalten.

Interessant, aber ebenfalls nur begrenzt generalisierbar, ist die Passage zu Third-Party-Listicles. Der Beitrag zeigt für das Subset „Professional services, top 1.000 cited URLs“, dass externe Listicles dort deutlich häufiger vorkamen als selbstpromotende. Das ist als Beobachtung für genau dieses Subset völlig okay. Daraus folgt aber noch nicht, dass Third-Party-Listicles allgemein „den Unterschied machen“ oder kausal Sichtbarkeit erzeugen. Dafür wäre ein deutlich enger kontrolliertes Design nötig.

Mein Fazit wäre deshalb dieses:

Der Beitrag ist als explorative Marktanalyse lesenswert, weil er ein plausibles Muster sichtbar macht — nämlich, dass sich die sichtbar zitierten URL-Typen je nach Prompt-Intent stark unterscheiden. Was der Beitrag nicht liefert, ist ein wissenschaftlich belastbarer Nachweis für Nutzerpsychologie, Trust-Effekte, Conversion-Wirkungen oder allgemeingültige Content-Rezepte.

Anders gesagt:

Als Hypothesengenerator ist die Analyse gut. Als Beleg für starke Strategieaussagen ist sie deutlich schwächer.

Wenn man es in einen einzigen sauberen Satz pressen will, würde ich es so formulieren: In einem großen, aber vendorseitigen Datensatz sichtbarer LLM-Zitationen variiert die Verteilung der zitierten Seitentypen deutlich nach Prompt-Intent; alles darüber hinaus ist eher Interpretation als Evidenz.

Review der Wix/Peec-Analyse zu LLM-Zitationen & GEO

Mein Fazit wäre deshalb dieses:

Abonniere das AFAIK-Update

Kai Spriestersbach

Verwandte Beiträge

„High-Stakes Purchases in AI Mode“ Was man wirklich daraus lesen kann – und was nicht

Kevin Indigs Teil 3 zur AI-Visibility: gute Beobachtungen, zu große Schlussfolgerungen

Update zur „1,2-Millionen“-Studie: Was Teil 2 über ChatGPT-Quellen wirklich zeigt