„High-Stakes Purchases in AI Mode“ Was man wirklich daraus lesen kann – und was nicht

Der neue Growth-Memo-Beitrag erzählt eine starke Geschichte: AI Mode verdichtet Kaufentscheidungen, Nutzer übernehmen Shortlists, und Marken außerhalb der AI-Liste verlieren Sichtbarkeit. Die empirische Basis dafür ist aber keine große Bevölkerungsstudie, sondern eine remote, unmoderated Think-aloud-Usability-Studie mit 48 US-Teilnehmenden, 185 Aufgaben in vier Kategorien.

Der zugrunde liegende Report wird von Citation Labs, Xofu und Clickstream Solutions veröffentlicht, und die Autoren schreiben selbst, dass die Ergebnisse vor allem als richtungsweisend und nicht als belastbare Bevölkerungsschätzung zu lesen sind.

Wie belastbar ist die zugrundeliegende „Studie“?

Genau so würde ich den Text auch einordnen: als interessante Verhaltensbeobachtung mit echtem Signal, aber nicht als letzten Beweis dafür, wie „der Konsument“ nun grundsätzlich in AI-Interfaces handelt.

Der große Pluspunkt ist, dass hier tatsächliches Verhalten beobachtet wird und nicht nur Selbstauskünfte.

Der große Haken ist: kleines, kuratiertes Sample, Ausschlüsse im Rekrutierungsprozess, stark kontextgebundene Aufgaben und ein deutlich ungleiches Verhältnis von 149 AI-Mode- zu 36 Search-Beobachtungen.

Das ist für explorative UX-Forschung völlig legitim, aber nicht die Grundlage für allzu absolute Marktaussagen.

Was ich für belastbar halte, ist die Grundrichtung des zentralen Befunds: In diesem Setup zieht AI Mode einen Teil der Vergleichsarbeit in die Oberfläche selbst hinein. Viele Teilnehmende blieben im AI-Output, viele klickten gar nichts, und externe Besuche wirkten häufiger wie Bestätigung bereits akzeptierter Kandidaten als wie echte Exploration. Aber gerade bei den harten Prozentwerten wäre ich vorsichtig. Der Report nennt für direkte Übernahme der AI-Shortlist einmal 74 Prozent und später 88 Prozent. Das spricht nicht gegen den Effekt, aber klar gegen die Präzision, mit der er kommuniziert wird.

Relativ stark finde ich auch den Rang-Effekt. Dass der erstgenannte Kandidat überproportional häufig gewählt wird, passt nicht nur zu dieser Studie, sondern auch zu breiter Forschung zu Position Bias in Ranglisten und Empfehlungssystemen. Anders gesagt: Dass der Top-Pick des Systems häufig zum Top-Pick des Nutzers wird, ist psychologisch und informationswissenschaftlich sehr plausibel. Ob es hier exakt 74 Prozent sind, ist weniger wichtig als die Richtung des Effekts.

Auch die These, dass Vertrauen im AI-Modus anders entsteht, halte ich im Kern für plausibel: weniger Triangulation über mehrere Quellen, mehr Wirkung von Formulierung, Struktur und Markenvertrautheit. Dafür gibt es auch Anschluss an bestehende Forschung: Vertrauen in Algorithmen wächst unter anderem mit Vertrautheit, und bei schwierigeren Aufgaben greifen Menschen oft stärker auf algorithmische Hinweise zurück. Nur sollte man die exakte Messung im Report nicht überlesen: An einer Stelle heißt es, AI framing habe in 48 Prozent der AI-Mode-Fälle den Ausschlag gegeben, in der Tabelle selbst stehen 37 Prozent. Auch hier ist die Richtung glaubwürdig, die Feinmessung aber wacklig.

Ebenso ernst nehme ich den Befund, dass Abwesenheit im AI-Set problematisch ist. In den AI-Mode-Daten konzentrierten sich die finalen Entscheidungen je nach Kategorie stark auf wenige Marken, und der Report formuliert ausdrücklich, dass Marken außerhalb der AI-generierten Shortlist oft gar nicht bewertet wurden. Das ist noch kein Naturgesetz des Marktes, aber ein valider Hinweis darauf, dass generative Interfaces Sichtbarkeit stärker in kleine Kandidatensets bündeln können als klassische Suchergebnisseiten.

Was ich daraus nicht machen würde, ist eine große Allgemeinaussage über „den Konsumenten“. Dafür ist die Studie zu klein, zu kuratiert und zu kontextspezifisch. Wir reden über 48 US-Personen, vier Produktkategorien, ein Think-aloud-Setting, monetär incentivierte Teilnahme und eine deutliche Asymmetrie zwischen AI-Mode- und Search-Beobachtungen. Vor allem: Der Report selbst bittet darum, die Prozentwerte nicht als population-level estimates zu lesen. Wer daraus dennoch harte Marktprozente baut, liest mehr hinein, als die Studie sauber hergibt.

Ich würde außerdem keine saubere Kausalbehauptung aus der Prompt-Frage ableiten. Der Report zeigt zwar, dass in AI Mode häufiger natürlichsprachlich formuliert wurde und verbindet das mit stärkerer Delegation. Zugleich steht im Material selbst, dass die Search-Aufgaben nach zwei AI-Mode-Aufgaben stattfanden und diese Reihenfolge das Query-Verhalten beeinflusst haben kann. Das ist ein interessanter Zusammenhang, aber eben kein sauber isolierter Ursache-Wirkungs-Effekt.

Und die Zuspitzung „If you’re not in the list, you don’t exist“ ist mir als Wissenschaftssatz zu hart. Als aufmerksamkeitsstarke Marketing-Formel funktioniert sie, aber sie überzieht den Datenraum. Seriöser wäre: In dieser Studie wurden Marken außerhalb der AI-Shortlist deutlich seltener oder gar nicht aktiv berücksichtigt. Ähnlich vorsichtig wäre ich bei der Versicherungs-These. Dass Teilnehmende dort zum Teil zu viel Vertrauen in formatierte Zahlen legten, ist ein wichtiges Warnsignal – aber es basiert im Report auf 16 kodierten Insurance-Fällen, von denen 10 als overconfident/rash bewertet wurden. Das ist Hypothesengenerierung, noch keine ausbuchstabierte Gesetzmäßigkeit.

Der Punkt ist also nicht, dass der Artikel „falsch“ wäre. Im Gegenteil: Die Richtung seiner Geschichte passt gut zu bekannter Forschung zu Automation Bias, algorithmischer Akzeptanz und Position Bias.

Menschen können algorithmische Hinweise übergewichten, besonders wenn Aufgaben schwierig sind oder wenn die Oberfläche die Vergleichsarbeit schon vorstrukturiert. Zugleich zeigt breitere Forschung, dass Algorithmen in entscheidungsnahen Kontexten durchaus einen anfänglichen Vertrauensvorsprung haben können, dieser aber bei sichtbaren Fehlern auch schnell wieder kippt.

Genau deshalb ist der Report interessant: Er zeigt ein Verhalten, das theoretisch anschlussfähig ist – nur eben noch nicht mit der Präzision, die der Tonfall des Blogposts an manchen Stellen nahelegt.

Meine wissenschaftlich bereinigte Kurzfassung wäre deshalb diese:

In einer kleinen, beobachtungsbasierten Usability-Studie verschob Google AI Mode bei ausgewählten High-Stakes-Kaufaufgaben einen Teil der Vergleichs- und Verifikationsarbeit in die Oberfläche selbst. Nutzer blieben häufiger innerhalb der vom System vorstrukturierten Kandidatenmenge, der erste Rang gewann stark an Gewicht, und externe Besuche dienten eher der Bestätigung als der Exploration. Mehr kann man daraus im Moment guten Gewissens lesen. Alles darüber hinaus – harte Marktprozente, universelle Konsumentenpsychologie oder endgültige SEO-Gesetze – ist vorerst eher Zuspitzung als belastbare Wissenschaft.

„High-Stakes Purchases in AI Mode“ Was man wirklich daraus lesen kann – und was nicht

Wie belastbar ist die zugrundeliegende „Studie“?

Abonniere das AFAIK-Update

Kai Spriestersbach

Verwandte Beiträge

Kevin Indigs Teil 3 zur AI-Visibility: gute Beobachtungen, zu große Schlussfolgerungen

Update zur „1,2-Millionen“-Studie: Was Teil 2 über ChatGPT-Quellen wirklich zeigt

KI-Software ist wie ein Filmset