Kevin Indigs Teil 3 zur AI-Visibility: gute Beobachtungen, zu große Schlussfolgerungen

Kevin Indigs dritter Teil seiner „Science of AI“-Reihe ist in einer Hinsicht der bislang stärkste: Er korrigiert genau den Denkfehler, der große Teile der GEO-/AI-SEO-Debatte prägt. Seine beste Aussage lautet nämlich nicht „So schreibt man für AI“, sondern:

Es gibt sehr wahrscheinlich keine universelle Formel.

Laut dem Artikel basiert die Auswertung auf rund 98.000 ChatGPT-Zitationszeilen aus etwa 1,2 Millionen ChatGPT-Antworten über sieben Verticals. Schon dadurch ist die wichtigste Erkenntnis keine magische Taktik, sondern Heterogenität.

Und genau dafür sollte man Kevin ausdrücklich Credit geben. Er macht etwas, das der GEO-Debatte oft fehlt: Er versucht, Behauptungen an Daten zu binden statt an Anekdoten.

Wer die Branche beobachtet, sieht ja vor allem einfache Rezepte: mehr Entities, mehr Headings, mehr Listen, weniger Hedging, mehr Authority, mehr Reddit. Teil 3 ist dort am stärksten, wo er zeigt, dass solche Schemata vertikalübergreifend nicht sauber tragen.

Trotzdem ist der Titel größer als die Evidenzbasis. Der Artikel heißt sinngemäß „what AI actually rewards“, aber der Datensatz misst eben nicht „AI“ im Allgemeinen, sondern ChatGPT-Zitationsverhalten in einem bestimmten Messaufbau.

OpenAI beschreibt ChatGPT Search selbst als System, dessen Ranking auf mehreren Faktoren beruht, ohne Garantie auf Top-Platzierung, und die Release Notes zeigen, dass Search-Qualität und Retrieval-Verhalten laufend angepasst werden. Wissenschaftlich sauber wäre daher eher der Titel: „Welche Merkmale in diesem ChatGPT-Datensatz mit mehr Zitationen assoziiert waren.“

Was an Teil 3 wirklich wertvoll ist

Der wichtigste Verdienst des Artikels ist die Absage an die Universalformel. Dass CRM/SaaS andere Muster zeigt als Finance oder Healthcare, ist keine Kleinigkeit, sondern vermutlich die belastbarste Pointe des gesamten Textes. Wissenschaftlich gesprochen reduziert diese Aufspaltung wenigstens einen Teil des Problems, das entsteht, wenn man heterogene Query- und Seitentypen in einen großen Topf wirft und dann aus dem Aggregat vermeintliche Regeln ableitet.

Für SEOs und GEOs ist genau das die brauchbare Lehre: Nicht „AI will X“, sondern „bestimmte Verticals und Seitentypen scheinen auf bestimmte Formate anders zu reagieren“.

Auch der UGC-Befund ist, bei aller Vorsicht, eher auf der robusteren Seite. Wenn in diesem Datensatz Corporate-/Editorial-Content rund 94,7% der Zitationen ausmacht und UGC nur einen kleinen Anteil, dann ist das als deskriptive Aussage erst einmal interessant – und vermutlich deutlich belastbarer als die feingranularen Aussagen über einzelne Writing-Signale. Das ist vor allem deshalb stärker, weil hier weniger von subtilen Feature-Konstruktionen und viel mehr von einfacher Häufigkeitsverteilung abhängt.

Die vorsichtige Formulierung müsste aber heißen: UGC dominiert in diesem ChatGPT-Datensatz und in diesen sieben Verticals nicht. Nicht: UGC sei generell strategisch irrelevant.

Hinzu kommt: Teil 2 der Reihe hatte bereits gezeigt, dass Zitationen stark von Seitentypen und Themenclustern geprägt sind. Dort heißt es, dass die Top-30-Domains rund 67% der Zitationen in einem Topic vereinen und dass die stärksten „evergreen“ Seiten typischerweise Kategorie-Guides, Vergleiche oder Verzeichnisse sind, die mehrere Query-Intents in einer URL bündeln. Das ist wichtig, weil Teil 3 sehr wahrscheinlich oft genau diese Seitentypen erneut misst – nur diesmal über Stellvertreter wie Heading-Anzahl, Zahlen, Datum oder Intro-Stil.

Was die Daten tatsächlich zeigen – und was nicht

Teil 3 zeigt beobachtete Zusammenhänge. Er zeigt nicht direkt, dass ein einzelner Hebel kausal „von AI belohnt“ wird. Das klingt nach einem semantischen Unterschied, ist aber methodisch zentral. Ein beobachteter Zusammenhang kann durch Confounding, Seitentypen, Intent, Query-Mix, Domain-Templates oder Selektionsmechanismen entstehen. STROBE erinnert genau daran, dass bei Beobachtungsstudien die vollständige Beschreibung von Design, Bias-Risiken und Auswertung entscheidend ist, damit Leserinnen und Leser Stärken und Grenzen überhaupt beurteilen können.

Das sieht man besonders deutlich an den starken Formulierungen im Text: „LLMs penalize hedging“, „KG presence is the wrong lever“, „3-4 headings are worse than zero in every vertical“. Solche Sätze lesen sich wie Kausalmechanismen. Tatsächlich sehen wir aber Korrelationen in einem Messaufbau, der viele Einflussfaktoren nicht explizit kontrolliert. Die ASA weist seit Langem darauf hin, dass statistische Signifikanz oder einzelne Kennzahlen weder Effektgröße noch Evidenzstärke ersetzen; hier liegt das Problem sogar noch vor der Signifikanzfrage: Schon die Übersetzung von Assoziation in Intervention ist zu forsch.

Noch wichtiger: Zumindest für die Heading-Analyse sagt der Artikel explizit, dass die Headings „across all cited URLs“ gezählt wurden. Insgesamt basiert Teil 3 laut Methodik auf Zitationsdaten aus ChatGPT-Antworten. Das heißt: Wir reden sehr wahrscheinlich nicht über ein sauberes Modell „welche Seiten werden überhaupt zitiert vs. nicht zitiert“, sondern häufig über Unterschiede innerhalb eines bereits sichtbaren, bereits selektierten Sets.

BMJ beschreibt genau dieses Problem allgemein: Wenn Analyse oder Design auf einer Variablen konditionieren, die von mehreren Ursachen beeinflusst wird, kann Selection Bias bzw. Collider Bias entstehen. Für die Praxis heißt das: Diese Ergebnisse sagen nicht sauber, was eine Seite aus der Unsichtbarkeit in die Sichtbarkeit hebt. Sie sagen eher, wie sich Merkmale unter bereits zitierten oder bereits im Pool gelandeten Seitentypen verteilen.

Dazu kommt ein zweites, in SEO/GEO besonders relevantes Abhängigkeitsproblem: Domains und Templates sind keine unabhängigen Beobachtungen. Teil 2 sagt selbst, dass die Zitationen stark konzentriert sind und dass bestimmte Seitentypen – Vergleichsseiten, Verzeichnisse, breite Kategorie-Guides – überproportional viel Citation Reach aufbauen. Wenn dieselben starken Domains hunderte URLs mit ähnlicher Informationsarchitektur publizieren, dann können „Page-Level-Signale“ leicht bloß Template-Effekte erfolgreicher Sites sein. Ohne ein hierarchisches Modell mit Domain- und Prompt-Clustering ist es methodisch zu kühn, aus solchen Korrelationen feine operative Regeln abzuleiten.

Die riesige Zahl „1,2 Millionen Antworten“ klingt zwar beeindruckend, löst dieses Problem aber nicht automatisch. Methodische Arbeiten zu LLM-Evaluationen zeigen, dass wiederholte Promptings stark korrelierte Outputs erzeugen können, und dass Ignorieren dieser Abhängigkeiten zu künstlich engen Konfidenzintervallen und zu kleinen p-Werten führt. Gleichzeitig zeigt Forschung zu RAG-Systemen, dass schon kleine Query-Variationen Retrieval-Ergebnisse spürbar verändern können. Große N sind in LLM-Studien deshalb kein Freifahrtschein für unabhängige Evidenz. Entscheidend ist die effektive, nicht nur die nominelle Stichprobengröße.

Die größten methodischen Schwachstellen im Detail

Ein auffälliges Problem ist die Vielzahl möglicher Vergleiche. Teil 3 arbeitet mit mehreren Writing-Signalen, sieben Verticals, zahlreichen Entity-Typen, mehreren Heading-Buckets und zusätzlichen Storylines zu UGC.

Genau in solchen Situationen warnen Gelman und Loken vor dem „garden of forking paths“: Selbst ohne bewusstes p-hacking können forschungslogische Freiheitsgrade und datengetriebene Auswahl zu überstarken Befunden führen.

Das Columbia-Material zur False Discovery Rate macht denselben Punkt aus einer anderen Perspektive: Viele parallele Tests erhöhen das Risiko von Zufallstreffern, wenn man sie nicht sauber kontrolliert. Gerade deswegen sollte man Schwellenwerte wie „3–4 Headings sind überall schlechter als 0“ eher als Hypothese behandeln als als robuste Regel.

Die Heading-Story ist überhaupt ein gutes Beispiel für Überinterpretation. Der Artikel summiert H1, H2 und H3 zu einer Gesamtzahl und gruppiert dann in Buckets wie 0, 1–2, 3–4, 5–9, 10–19, 20–49, 50+. Das erzeugt erzählbare Schwellen, ist aber analytisch grob. Eine Seite mit 1 H1, 8 H2 und 0 H3 ist strukturell etwas ganz anderes als eine Seite mit 1 H1, 2 H2 und 6 H3 – beide können aber in ähnlichen Buckets landen. Dazu kommt die Seitentyp-Konfundierung: In CRM/SaaS kann „20+ Headings“ einfach ein Produktvergleichs- oder Directory-Template bedeuten; in Healthcare kann „0 Headings“ mit knappen, institutionellen, hochvertrauenswürdigen Seiten zusammenfallen. Dann misst man nicht die Wirkung von Headings, sondern den Fingerabdruck eines Seitentyps.

Ähnlich vorsichtig muss man die Entity-Analyse lesen. Der Artikel nutzt Google Cloud Natural Language API auf den ersten 1.000 Zeichen des Textes und leitet daraus Aussagen über ChatGPT-Zitationswahrscheinlichkeit ab.

Das ist als Proxy nicht illegitim, aber es ist eben ein Google-definierter Proxy.

Google dokumentiert, dass Knowledge-Graph-Metadaten wie Wikipedia-URL und MID nur dann erscheinen, wenn sie verfügbar sind, und dass Entity-Mentions derzeit nur Eigennamen unterstützen. Daraus einen Satz wie „KG presence and brand authority do not translate to AI citation advantage“ zu machen, ist deutlich stärker als das Messinstrument hergibt. Gemessen wurde nicht „Brand Authority“, sondern die Verfügbarkeit bestimmter Google-NLP-Metadaten in einem kleinen Anfangsfenster des Textes.

Hinzu kommt eine kleine, aber methodisch interessante Unschärfe im öffentlichen Text: An einer Stelle ist von den ersten 1.000 Wörtern die Rede, später von den ersten 1.000 Zeichen. Vermutlich ist das ein redaktioneller Fehler oder eine Kurzfassung unterschiedlicher Teilanalysen. Aber genau solche Inkonsistenzen zeigen, warum knappe öffentliche Methodenbeschreibungen für harte operative Regeln nicht ausreichen. Wer starke Aussagen verkaufen will, muss starke Replizierbarkeit liefern.

Der DATE/NUMBER-Befund ist praktisch interessant, aber theoretisch deutlich unterbestimmt. Teil 2 hatte schon gezeigt, dass die besten evergreen URLs oft explizite Jahresanker in Titel oder URL tragen und breite Vergleichs- oder Guide-Formate bedienen. Außerdem zeigt klassische Temporal-IR-Forschung, dass Publikationszeit bei zeitsensitiven Queries ein relevanter Teil der Relevanzbewertung sein kann. Es ist also sehr gut möglich, dass DATE nicht deshalb „universell positiv“ ist, weil AI ein Datum als solches liebt, sondern weil bestimmte Query-Klassen und Seitentypen von Frische- und Zeitbezug profitieren. Daraus folgt nicht: Jetzt überall ein Datum reinwerfen. Daraus folgt: In zeit- und faktsensitiven Kontexten sind Frische und temporale Spezifität oft nützlich.

Auch der Befund zu direkten, deklarativen Intros ist nur dann sauber gelesen, wenn man ihn als Heuristik und nicht als Dogma versteht. Ja, ich halte es für plausibel, dass klare erste Sätze helfen. Aber wahrscheinlich nicht, weil „AI Sicherheit statt Vorsicht liebt“, sondern weil klare, dichte, low-noise Formulierungen für Retrieval und Paraphrase leichter anschlussfähig sind. Forschung zu neuronalen Retrievern zeigt, dass diese LLM-generierte bzw. semantisch fokussierte Texte bevorzugen können; andere Arbeiten zeigen, dass RAG-Pipelines schon auf kleine Query-Variationen empfindlich reagieren.

Die operative Konsequenz lautet daher: Sage früh klar, worum es geht. Nicht: Entferne überall epistemische Vorsicht, auch dort, wo sie inhaltlich geboten ist. Gerade in Wissenschaft, Medizin oder Regulierung wäre letzteres eine schlechte Norm.

Was SEOs und GEOs daraus wirklich mitnehmen sollten

Für die Praxis würde ich Kevin Indigs Teil 3 nicht als Sammlung von Rankingfaktoren lesen, sondern als Sammlung von guten Hypothesen für segmentierte Tests.

Die stärkste Einsicht ist nicht „mehr DATE, weniger PRICE, exakt X Headings“, sondern: Seitentyp, Query-Intent, Vertical und Informationsdichte sind wahrscheinlich wichtiger als pauschale AI-Writing-Regeln. Das ist im Kern auch eine Rückkehr zu gutem SEO-Denken – nur eben für eine neue Oberfläche.

Für SEOs heißt das: Testet nicht „funktioniert diese GEO-Regel?“, sondern „für welchen Seitentyp, in welchem Vertical, bei welchem Intent und in welcher Prompt-Klasse funktioniert sie – falls überhaupt?“

Klare Intros, frühe Entitäten, Zahlen, Daten und sichtbare Aktualität können sehr sinnvoll sein, wenn sie die Antwortdichte, Spezifität oder zeitliche Relevanz erhöhen. Kosmetisch eingebaut werden sollten sie aber nicht. Eine dekorative Zahl ist kein Signal. Ein relevantes Faktum ist eines.

Für GEOs ist außerdem wichtig, die Pipeline sauber zu trennen: Crawlability und Inclusion, Retrieval, Citation, Paraphrase. OpenAI sagt selbst, dass ChatGPT Search auf mehreren Faktoren basiert und dass Inclusion zunächst voraussetzt, dass OAI-Searchbot die Seite überhaupt crawlen darf. Teil 3 misst überwiegend Muster im Retrieval-/Citation-Layer. Wer daraus eine vollständige Strategie ableitet, verwechselt einen Pipeline-Abschnitt mit dem Gesamtsystem.

Und nein: Aus dem KG-Befund folgt nicht, dass Marke, Vertrauen und Autorität „der falsche Hebel“ seien. Was der Artikel zeigt, ist viel enger: In diesem Setup korreliert eine höhere Zahl Google-NLP-erkennbarer KG-Metadaten im Intro nicht mit höherer Citation-Breadth. Das ist etwas völlig anderes als der Satz „Brand spielt keine Rolle“. Zumal OpenAI Search explizit von reliable and relevant information spricht.

Die richtige Lesart lautet daher: Spezifität kann in diesem Datensatz sichtbarer gewesen sein als Prominenz. Nicht: Prominenz und Vertrauen sind irrelevant.

Wie man es wissenschaftlich sauberer testen müsste

Eine sauberere Studie würde erstens die Stufen des Problems trennen: nicht nur cited vs. more cited, sondern eligible vs. retrieved vs. cited. Zweitens würde sie keine grobe 3+-Schwelle als Hauptoutcome setzen, sondern Count-Modelle oder Hurdle-Modelle nutzen. Drittens würde sie Domain-, Template- und Prompt-Cluster explizit modellieren. Viertens würde sie Unsicherheiten berichten: Konfidenzintervalle, Sensitivitätsanalysen, FDR-Korrekturen oder gleich eine Multiverse-Analyse. Fünftens – und das wäre der eigentliche Goldstandard – würde sie kontrollierte Rewrite-Experimente auf derselben URL fahren: klare vs. vorsichtige Intros, Datum vs. kein Datum, unterschiedliche Heading-Strukturen, alles bei konstantem Thema, Domain und Seitentyp.

Außerdem müsste man die Zeitdimension ernst nehmen. ChatGPT Search ist kein statisches System; OpenAI dokumentiert laufende Qualitäts- und Retrieval-Updates. Dazu kommt, dass LLM-Ausgaben korreliert und RAG-Systeme query-sensitiv sind. Wer heute ein Muster misst, misst also immer auch eine Momentaufnahme eines Produkts in Bewegung.

Gute GEO-Forschung braucht deshalb Replikationen über Zeitfenster, Modellversionen und Prompt-Sets hinweg – nicht nur große Zahlen in einer einmaligen Auswertung.

Fazit

Mein Fazit zu Teil 3 ist deshalb zweigeteilt. Kevin Indig liegt sehr wahrscheinlich richtig, wenn er einfache GEO-Dogmen angreift und Vertikal-Spezifik betont. Genau dort ist sein Artikel am wertvollsten. Er geht aber zu weit, wenn er aus beobachteten Mustern direkte, quasi-kausale Hebel macht. Für SEOs und GEOs steckt die eigentliche Erkenntnis daher nicht in einer neuen Checkliste, sondern in einer besseren Grundannahme:

Es gibt keine allgemeine AI-Schreibformel. Es gibt kontextspezifische Seitentypen, Retriever-Artefakte, Query-Mixe und Sichtbarkeitsoberflächen, die man nur segmentiert und sauber getestet verstehen kann.

Kevin Indigs Teil 3 zur AI-Visibility: gute Beobachtungen, zu große Schlussfolgerungen

Was an Teil 3 wirklich wertvoll ist

Was die Daten tatsächlich zeigen – und was nicht

Die größten methodischen Schwachstellen im Detail

Was SEOs und GEOs daraus wirklich mitnehmen sollten

Wie man es wissenschaftlich sauberer testen müsste

Fazit

Abonniere das AFAIK-Update

Kai Spriestersbach

Verwandte Beiträge

Update zur „1,2-Millionen“-Studie: Was Teil 2 über ChatGPT-Quellen wirklich zeigt

KI-Software ist wie ein Filmset

Googles neues Patent: KI-Zwischenseiten statt eurer Landing Pages?