Kategorie: Artikel

  • KI-Software ist wie ein Filmset

    KI-Software ist wie ein Filmset

    Ki software filmset

    Die Euphorie rund um KI in der Softwareentwicklung speist sich oft aus einer Beobachtung, die zunächst absolut plausibel wirkt: Die Ergebnisse sehen erstaunlich gut aus. In erstaunlich kurzer Zeit entstehen Benutzeroberflächen, kleine Tools, Prototypen, sogar komplette Anwendungen. Von außen betrachtet wirkt das fast magisch.

    Das Problem ist nur: Von außen betrachtet sieht auch ein Filmset beeindruckend aus.

    Von der Straße aus ist alles da. Die Fassaden sind sauber gebaut, der Saloon sieht aus wie ein echter Saloon, die Stadt wirkt glaubwürdig, die Welt scheint vollständig. Solange die Kamera in die richtige Richtung zeigt, funktioniert die Illusion perfekt. Genau deshalb ist ein Filmset erfolgreich: Es sieht vollständig aus, obwohl es das oft gar nicht ist.

    Und genau so fühlt sich heute viel KI-generierte Software an.

    Die Fassade steht schneller als das Gebäude

    Für klar definierte Prozesse funktioniert KI bereits erstaunlich zuverlässig. Wenn genau bekannt ist, was hineingeht, was herauskommen soll und wie Qualität geprüft wird, dann kann man mit gutem Prompting, Guard Rails und sauberer Evaluierung sehr viel absichern. In solchen Fällen bewegt man sich in einem begrenzten System. Die Möglichkeiten sind überschaubar, die Erwartungen klar, die Fehlerfälle bekannt.

    Softwareentwicklung ist aber oft das Gegenteil davon.

    Vor allem dann, wenn Menschen ohne Entwicklungserfahrung Software “einfach mal mit KI bauen” wollen, fehlt genau das, was Software braucht: eine präzise Beschreibung des Soll-Zustands. Nicht nur der Oberfläche, sondern des Verhaltens. Nicht nur dessen, was sichtbar ist, sondern auch dessen, was im Hintergrund passieren muss. Nicht nur des Happy Paths, sondern auch der Ausnahmen, Randfälle, Abhängigkeiten und Konsequenzen.

    Die KI kann dann zwar schnell eine überzeugende Fassade erzeugen. Aber eine Fassade ist noch kein Gebäude.

    Der Saloon ist fertig. Aber wo sind die Toiletten?

    Man bittet die KI vielleicht, einen Saloon zu bauen. Und der Saloon sieht fantastisch aus. Türen, Theke, Fensterläden, Schwingtüren — alles da. Für die erste Szene reicht das auch. Die Kamera läuft, das Bild stimmt, alle sind begeistert.

    Dann kommt die nächste Szene.

    Jetzt muss jemand durch eine Seitentür nach hinten gehen. Dahinter ist aber noch nichts. Also baut man schnell einen Nebenraum. In der nächsten Szene braucht man eine Treppe. Dann ein Büro. Dann eine Küche. Dann Toiletten. Dann einen Hinterausgang. Dann einen Flur, der logisch mit dem Rest verbunden sein muss. Dann stellt sich heraus, dass die Fenster von außen an einer Stelle sitzen, an der innen eigentlich gar kein Raum sein kann. Dann passt der Grundriss nicht mehr. Dann kollidiert die neue Treppe mit dem Raum, der in der vorigen Szene improvisiert wurde.

    Was am Anfang wie ein fertiger Ort wirkte, entpuppt sich Schritt für Schritt als Ansammlung plausibler Kulissen.

    Genau das passiert bei KI-generierter Software.

    Ein Screen sieht fertig aus. Ein Formular funktioniert. Ein Button tut irgendetwas. Ein Workflow ist angedeutet. Aber sobald man tiefer hineingeht, zeigt sich, dass vieles nur für den Moment, für den sichtbaren Ausschnitt oder für den wahrscheinlichsten Fall gebaut wurde. Nicht aus Bosheit. Nicht, weil die KI “schlecht” wäre. Sondern weil sie die Lücken füllen musste — und zwar mit dem, was plausibel klingt, nicht mit dem, was fachlich zwingend richtig ist.

    Es gibt nur zwei Wege

    Wenn man mit KI belastbare Software bauen will, gibt es im Grunde zwei Wege:

    Der erste Weg ist, vorab so etwas wie ein Drehbuch zu schreiben. Nicht nur eine Idee, sondern eine echte Spezifikation. Welche Szenen gibt es? Welche Räume werden benötigt? Wie müssen sie zusammenhängen? Wie verhält sich jede Komponente? Welche Datenflüsse existieren? Welche Zustände darf es geben, welche nicht? Was passiert bei Fehlern? Welche Regeln gelten fachlich, technisch und rechtlich?

    Je besser dieses Drehbuch ist, desto eher kann die KI etwas erzeugen, das nicht nur gut aussieht, sondern auch zusammenpasst.

    Der zweite Weg ist, während des Drehs permanent weiterzubauen. Man geht von Szene zu Szene, von Anforderung zu Anforderung, und gestaltet jeden Ort genau in dem Moment aus, in dem er gebraucht wird. Auch das kann funktionieren — aber nur, wenn jemand am Set den Überblick behält. Jemand, der erkennt, wenn sich Widersprüche einschleichen. Jemand, der weiß, welche improvisierte Entscheidung später Probleme verursacht. Jemand, der nicht nur bewertet, ob die Kulisse überzeugend aussieht, sondern ob sie im Gesamtsystem tragfähig ist.

    Ohne diese Rolle entsteht sehr schnell ein Dorf voller schöner Fassaden, die aus jedem Blickwinkel glaubwürdig wirken sollen, aber strukturell nie als Ganzes gedacht wurden.

    Wenn man nicht spezifiziert, entscheidet die KI

    Sobald Anforderungen nicht klar formuliert sind, werden Entscheidungen delegiert. Nicht bewusst, aber faktisch.

    Dann entscheidet die KI, was sie weglässt.
    Dann entscheidet sie, was nur angedeutet wird.
    Dann entscheidet sie, welche von mehreren möglichen fachlichen Interpretationen sie auswählt.
    Dann entscheidet sie, welche Vereinfachung „wahrscheinlich schon reicht”.

    Manchmal baut sie Fakes. Dinge, die so aussehen, als seien sie vorhanden, aber in Wahrheit nur Attrappen sind. Ein Button ohne belastbare Logik dahinter. Eine Validierung, die nur offensichtliche Fälle abdeckt. Eine Datenstruktur, die für die Demo genügt, aber nicht für den Betrieb. Ein Login, das irgendwie funktioniert, aber sicherheitstechnisch unzureichend ist. Eine Integration, die auf dem Happy Path beeindruckt und beim ersten Sonderfall scheitert.

    Und genau hier liegt der Unterschied zu generativer Bildproduktion.

    Wenn auf einem KI-generierten Bild im Hintergrund das falsche Auto steht, ist das oft egal. Vielleicht fällt es niemandem auf. Vielleicht stört es die Aussage des Bildes überhaupt nicht. Es ist Dekoration.

    In Software gibt es aber fast keine echte Dekoration.

    Wenn etwas sichtbar ist, hat es in der Regel einen Zweck. Wenn etwas passiert, hat es eine Folge. Wenn ein Feld existiert, muss klar sein, warum. Wenn ein Button da ist, muss er eindeutig definiert sein. Wenn Daten gespeichert werden, muss präzise feststehen, was sie bedeuten, woher sie kommen, wohin sie gehen und was mit ihnen geschehen darf.

    Software ist kein stimmungsvolles Bild. Software ist eine Maschine mit Absicht.

    KI ist kein Ersatz für Definition

    Das heißt nicht, dass KI für Softwareentwicklung ungeeignet wäre. Im Gegenteil. Sie ist ein enormes Werkzeug. Sie beschleunigt. Sie hilft beim Strukturieren, Formulieren, Prototypisieren, Testen, Dokumentieren und Implementieren. In den Händen erfahrener Entwicklerinnen und Entwickler ist sie oft ein massiver Produktivitätshebel.

    Aber sie ersetzt nicht die Notwendigkeit, Systeme zu verstehen und Entscheidungen bewusst zu treffen.

    Wer nicht weiß, was gebaut werden soll, kann mit KI sehr schnell etwas bauen, das so aussieht, als wüsste man es.

    Und genau das macht die Sache so tückisch.

    Denn die größte Stärke der KI ist im Moment oft ihre Fähigkeit, Vollständigkeit zu simulieren. Sie erzeugt Kohärenz an der Oberfläche. Sie produziert plausible Antworten, plausible Strukturen, plausible Interfaces. Aber Plausibilität ist in Software nicht dasselbe wie Korrektheit. Und ein überzeugender Eindruck ist noch keine tragfähige Architektur.

    Die eigentliche Frage ist nicht: Kann die KI das bauen?

    Die eigentliche Frage lautet: Wer verantwortet die unsichtbaren Teile?

    Wer denkt an die Räume hinter den Fassaden?
    Wer prüft, ob der Grundriss noch stimmt?
    Wer stellt sicher, dass die Türen wirklich irgendwohin führen?
    Wer merkt, wenn ein Fenster nach außen zeigt, hinter dem innen gar kein Raum existieren kann?

    Solange die Antwort darauf niemand geben kann, ist KI-generierte Software oft genau das: ein beeindruckendes Filmset.

    Von vorne sieht alles echt aus.
    Aber sobald man hineingeht, merkt man, dass die eigentliche Bauarbeit erst beginnt.

  • Googles neues Patent: KI-Zwischenseiten statt eurer Landing Pages?

    Googles neues Patent: KI-Zwischenseiten statt eurer Landing Pages?

    Was US12536233B1 für SEO und GEO bedeutet – und warum vor allem der E-Commerce aufpassen sollte.

    Am 27. Januar 2026 hat das USPTO Google das Patent US12536233B1 erteilt – Titel: „AI-generated content page tailored to a specific user.“ Die europäische Fassung EP4685671A1 ist veröffentlicht, aber noch anhängig. Klingt erstmal nach einem weiteren Google-Patent, von denen es Tausende gibt. Aber dieses hier ist anders: Es beschreibt einen konkreten Mechanismus, mit dem Google eure Landing Pages bewerten und im Zweifelsfall durch eine eigene, KI-generierte Seite ergänzen – oder ersetzen – könnte. Und es passt verdächtig gut zu dem, was Google gerade tatsächlich baut.

    Was das Patent im Kern schützt

    Rechtlich zählt bei Patenten immer der Anspruchstext, nicht der Titel. Und der Hauptanspruch (Claim 1) deckt einen überraschend konkreten Ablauf ab:

    1. Google empfängt eine Suchanfrage.
    2. Google erzeugt eine normale Suchergebnisseite mit einem Ergebnis, das auf die Landing Page einer Organisation verweist.
    3. Google berechnet einen Landing Page Score für diese Zielseite.
    4. Überschreitet der Score einen Schwellenwert, erzeugt Google eine aktualisierte Ergebnisseite – und diese enthält einen Navigationslink zu einer KI-generierten Seite für diese Organisation.
    5. Die aktualisierte Ergebnisseite wird dem Nutzer angezeigt.

    Erst der abhängige Anspruch 2 ergänzt die Personalisierung: Kontextinformationen des Nutzerkontos, frühere Suchanfragen, Verarbeitung durch ein Machine-Learned Model. Der Hauptanspruch selbst braucht die Personalisierung also noch gar nicht – er braucht nur das Landing-Page-Scoring plus den KI-Seitenlink.

    Das ist eine wichtige Unterscheidung: Das Patent gilt nicht pauschal für „jede KI-Suche“. Es gilt für genau diese Kombination aus Qualitätsbewertung einer bestehenden Seite und dem Einfügen eines Alternativlinks zu einer von Google generierten Seite.

    Was der Landing Page Score misst

    Das Patent ist erstaunlich konkret, wenn es um die Signale für den Landing Page Score geht. Genannt werden:

    • Conversion Rate der Landing Page (Claim 7)
    • Bounce Rate (Claim 8)
    • Click-Through-Rate (Claim 9)
    • Qualitative Faktoren: Page Design Quality und Content Quality (Claim 10)
    • Performance-Metriken allgemein (Claim 16)
    • Explizit als Beispiel: Eine Landing Page, die keine Produktfilter hat (Claim 13)

    Für SEOs und GEOs heißt das: Google denkt hier offensichtlich nicht über die klassische Content-Qualität à la E-E-A-T nach. Es geht um UX-Signale, Conversion-Signale, Interface-Qualität. Das Fehlen von Produktfiltern als explizites Beispiel zeigt, wie konkret das auf E-Commerce-Seiten zielt.

    Was auf der KI-Seite passiert

    Die abhängigen Ansprüche und die Beschreibung zeichnen ein ziemlich detailliertes Bild der KI-generierten Seite:

    • CTA-Button zur Produktseite (Claim 3)
    • Produktfeed mit Produktübersicht (Claim 4)
    • KI-Chatbot (Claim 5)
    • Dynamisch annotierte Inhalte basierend auf der Suchanfrage (Claim 6)
    • Personalisierte Headlines, vorgeschlagene Filter und Cluster (Claim 11)
    • Sitelinks zu Produktdetailseiten (Claim 15)
    • Informationen über frühere Suchanfragen des Nutzers (Claim 14)
    • Die Möglichkeit, den Link in einem Sponsored Content Item unterzubringen (Claim 12)

    Das Beispiel im Patent ist eine Laptop-Kaufreise: Der Nutzer hat vorher nach „best laptop for architecture“ und „best laptop for 3D modeling“ gesucht. Die KI-Seite nutzt diese Historie, um eine maßgeschneiderte Übersichtsseite zu generieren – mit den richtigen Filtern, den richtigen Produkten, den richtigen CTAs.

    Warum das ein Shopping-Patent ist, kein Wissens-Patent

    Wer die Beschreibung liest, merkt schnell: Hier geht es nicht um Wikipedia-Wissen oder informationelle Suchen. Es geht um Transaktionen. Die Patentbeschreibung spricht von schnelleren Kaufentscheidungen, besseren Conversion-Metriken und generativen KI-Funktionen, die Anbietern ohne eigenen Entwicklungsaufwand zur Verfügung stehen.

    Das Laptop-Beispiel unterstreicht das. Die „previous queries“ im Patent sind keine Wissensanfragen – es sind Produktrecherche-Schritte in einem klassischen Shopping-Funnel. Und die Features der KI-Seite (Produktfeed, CTA, Chatbot, Filter) sind E-Commerce-Features, keine Content-Features.

    Wie das zu Googles aktuellem Kurs passt

    Und jetzt wird es interessant. Denn dieses Patent steht nicht im luftleeren Raum – es passt fast unheimlich gut zu dem, was Google in den letzten Monaten an konkreten Produkten gebaut und angekündigt hat.

    AI Mode und Personal Intelligence

    Google beschreibt AI Mode als durchgängige KI-Suche mit Follow-up-Fragen und Web-Links. Im Mai 2025 bei Google I/O angekündigt, ist AI Mode inzwischen für alle US-Nutzer verfügbar. Google hat mehrfach betont, dass Funktionen aus AI Mode langfristig in die Kernsuche wandern können.

    Seit Januar 2026 gibt es dazu Personal Intelligence – zunächst in der Gemini-App, dann auch in AI Mode in Google Search. Opt-in verbindet Gmail und Google Photos mit der Suche, sodass AI Mode auf Buchungsbestätigungen, Kaufhistorie und persönliche Kontexte zugreifen kann. Google bewirbt explizit Shopping-Szenarien: Markenvorlieben aus vergangenen Käufen, Reiseziel aus der Gmail-Flugbestätigung, passende Produktvorschläge.

    Wenn man das mit dem Patent zusammendenkt: Personal Intelligence liefert genau die „contextual information associated with the user account“ und „previous queries“, die Claim 2 des Patents beschreibt. Die technische Infrastruktur für personalisierte KI-Zwischenseiten wird gerade in Echtzeit ausgerollt.

    Agentic Commerce: UCP, Business Agent, Direct Offers

    Im Januar 2026 hat Google auf der NRF eine Welle von Commerce-Produkten angekündigt, die alle in dieselbe Richtung zeigen:

    Universal Commerce Protocol (UCP) ist ein offener Standard für „agentic commerce“, mitentwickelt mit Shopify, Etsy, Wayfair, Target und Walmart. UCP-basierter Checkout ist bereits live – US-Nutzer können Produkte von Etsy und Wayfair direkt in AI Mode und der Gemini-App kaufen, ohne Google zu verlassen.

    Business Agent bringt markeneigene KI-Chats direkt in die Google-Suchergebnisse. Marken wie Lowe’s, Michaels und Reebok sind seit Januar 2026 live. In Zukunft sollen Marken den Agenten mit eigenen Daten trainieren und Käufe direkt im Chat ermöglichen können.

    Direct Offers ermöglicht Advertisern, exklusive Rabatte und Angebote innerhalb von AI Mode anzuzeigen – als „Sponsored Deal“ direkt bei den Produktempfehlungen.

    Und seit Februar 2026 testet Google neue Shopping-Anzeigenformate in AI Mode, die bei Produktempfehlungen in KI-Antworten als Sponsored-Ergebnisse eingeblendet werden. AI Mode hat inzwischen über 75 Millionen tägliche Nutzer.

    Das Gesamtbild

    Einzeln betrachtet sind das Feature-Updates. Zusammen betrachtet ist es eine systematische Strategie: Google hält Discovery, Vergleich, Beratung, Angebot und Kauf immer länger auf eigenen KI-Oberflächen. Das Patent US12536233B1 sieht aus wie die juristische Absicherung für genau diese Richtung.

    Was das für SEO und GEO konkret bedeutet

    Landing Page Quality wird zum harten Ranking-Faktor – anders als bisher

    Bisher war „Landing Page Quality“ primär ein Google-Ads-Konzept (Quality Score). Dieses Patent zeigt, dass Google die gleiche Logik auf organische Ergebnisse anwenden könnte: Wenn eure Seite schlecht konvertiert, schlecht designed ist oder keine Produktfilter hat, könnte Google eine KI-Alternative davorschalten.

    Handlungsempfehlung: Investiert in Merchant-Center-Daten und die neuen Datenattribute, die Google für die „conversational commerce era“ angekündigt hat: Antworten auf häufige Produktfragen, kompatibles Zubehör, Substitute.

    GEO muss Shopping-Szenarien abdecken

    Für GEO-Strategien heißt das: Wer bisher nur an informationelle Queries und AI Overviews gedacht hat, muss umdenken. Wenn Google personalisierte KI-Seiten für transaktionale Queries baut, wird die Frage „Wie erscheint mein Produkt in der KI-Antwort?“ mindestens so wichtig wie „Wie ranke ich auf Position 1?“.

    Handlungsempfehlung: Erweitert euer GEO-Framework um transaktionale und kommerzielle Queries. Analysiert, bei welchen Shopping-Anfragen Google bereits AI-Mode-Ergebnisse mit Produktempfehlungen zeigt. Stellt sicher, dass eure Marke und eure Produkte in diesen KI-Antworten vorkommen.

    Die Rolle der eigenen Website verändert sich

    Das Patent beschreibt keine Abschaffung von Websites – der Hauptanspruch spricht von einem Navigationslink, nicht von einem Ersatz. Aber die eigene Website wird potenziell zur zweiten Station statt zur ersten. Der Erstkontakt könnte auf Googles KI-Seite stattfinden. Wenn ihr Glück habt, klickt der Nutzer dann auf den CTA zu eurer Produktseite. Wenn nicht, hat Google vielleicht schon einen UCP-Checkout angeboten.

    Handlungsempfehlung: Überlegt, welchen einzigartigen Wert eure Website bietet, den eine KI-generierte Seite nicht replizieren kann. Eigene Beratungsinhalte, Community, exklusive Angebote, Kundenbindungsprogramme – alles, was über eine Produktliste hinausgeht.

    Sponsored Placement bekommt eine neue Dimension

    Claim 12 des Patents sagt explizit: Der Navigationslink zur KI-Seite kann in einem Sponsored Content Item platziert werden. Das bedeutet, dass die KI-Zwischenseite nicht nur organisch auftauchen könnte, sondern auch als Werbeformat. Für Advertiser eröffnet das die Möglichkeit, eine von Google optimierte, personalisierte Landingpage als Alternative zur eigenen Seite zu schalten.

    Handlungsempfehlung: Beobachtet, ob Google dieses Format in die Google-Ads-Produktlinie integriert. Frühzeitige Adoption könnte sich lohnen, ähnlich wie bei Performance Max oder den neuen Direct Offers.

    Was ich daraus nicht ableiten würde

    Es gibt auch die Lesart, dass Google mit diesem Patent jede normale Website komplett ersetzen will. Die halte ich für überzogen – aus mehreren Gründen:

    Erstens: Der erteilte Hauptanspruch spricht wörtlich von einer aktualisierten Ergebnisseite mit einem Link zu einer KI-Seite. Die aggressiveren Varianten – Sponsored Placement, Produktfeed, Chatbot – stehen in abhängigen Ansprüchen oder in der Beschreibung, die den Schutzumfang nicht erweitern.

    Zweitens: Google baut AI Mode offiziell weiterhin mit Verweisen ins offene Web. Die Web-Links in AI-Antworten sind ein Kernfeature, kein Auslaufmodell.

    Drittens: Nicht jedes erteilte Patent wird auch umgesetzt. Google hält Tausende Patente, die nie zu Produkten werden.

    Und viertens: Die Beschreibung selbst betont, dass die KI-Seiten auch für andere Organisationen wiederverwendet und für zukünftige Suchen genutzt werden können. Das klingt nach einem Mehrwert-Layer, nicht nach einem Ersatz-Layer.

    Fazit: Jetzt handeln, nicht in Panik verfallen

    Das Patent US12536233B1 ist kein Beweis dafür, dass Google morgen eure Website abschaltet. Aber es ist ein sehr konkretes Signal dafür, wohin die Reise geht: personalisierte KI-Zwischenseiten im Such-, Shopping- und Anzeigenkontext, die schwache Landing Pages durch besser monetarisierbare Google-Oberflächen ergänzen oder teilweise verdrängen.

    Zusammen mit AI Mode, Personal Intelligence, UCP-Checkout, Business Agent und Direct Offers ergibt sich ein kohärentes Bild: Google will den gesamten Kaufprozess – von der Entdeckung über den Vergleich bis zum Checkout – auf eigenen KI-Oberflächen abbilden.

    Für SEOs und GEOs heißt das nicht, dass eure Arbeit irrelevant wird. Es heißt, dass sie sich verschiebt: weg von „Traffic auf meine Seite bekommen“ hin zu „In Googles KI-Oberflächen sichtbar, relevant und kaufbar sein“. Wer das versteht und jetzt handelt, hat einen echten Vorsprung.

    Dieser Beitrag basiert auf einer Analyse des erteilten US-Patents US12536233B1 (Google LLC, erteilt am 27.01.2026) sowie öffentlich zugänglicher Produktankündigungen von Google aus Januar und Februar 2026.

  • Der „meistverkaufte Backlink 2025“: Eine Analyse, die den Hype nicht überlebt

    Der „meistverkaufte Backlink 2025“: Eine Analyse, die den Hype nicht überlebt

    Es gibt in der SEO-Welt eine bewährte Dramaturgie: Eine mysteriöse Domain taucht auf, jemand mit großer Reichweite verkündet, sie sei der heilige Gral des Linkbuildings – und der Marktplatz dahinter verkauft. Diesen Frühling machte ein solcher Case die Runde. Angeblich: DR 91, höhere Autorität als Spiegel, Focus und WiWo. Angeblich: „massiver Sprung im Domain Rating nach wenigen Tagen.“ Angeblich: Rankings, die sich spürbar verbessern.

    Ich habe nachgeschaut. Das Ergebnis war ernüchternd – aber nicht überraschend.

    Was so verlockend klingt

    Die beworbene Domain – nennen wir sie einfach wie sie ist: disclaimer.de – hat tatsächlich ein beachtliches Domain Rating. Auf dem Papier beeindruckend. Genau der Wert, den Linkbroker-Marktplätze gerne fett in ihre Angebote schreiben, weil er sich gut anfühlt und schlecht zu widerlegen ist, zumindest für alle, die nicht tiefer schauen.

    Das Argument klingt in etwa so: „Thematische Relevanz ist zwar wichtig – aber wenn die Autorität hoch genug ist, schlägt sie alles.“ Ein schöner Satz. Er hat nur ein Problem: Er ist empirisch kaum haltbar, sobald man ihn ernst nimmt und anfängt zu messen.

    Was die Daten tatsächlich zeigen

    Die Domain rankt fast ausschließlich für das, wofür sie existiert

    Ein Export der Top-10-Rankings von disclaimer.de aus SISTRIX liefert 671 Keywords. Klingt viel. Schaut man genauer hin, entsteht ein ganz anderes Bild:

    • ~44 % aller Rankings: juristische Keywords – Rechtsanwälte, Kanzleien, Notare, Steuerberater.
    • ~52 % aller Rankings: Personen- und Kanzleinamen – also Suchanfragen wie „Kanzlei Mustermann Münster“ oder „Andreas Beispiel Rechtsanwalt.“
    • ~3 %: alles andere. Und selbst davon hat der Großteil noch einen rechtlichen Kontext.

    Mit anderen Worten: disclaimer.de ist eine juristische Branchenplattform, die für das rankt, wofür sie gebaut wurde. Ihre Sichtbarkeit existiert fast ausschließlich im Rechtsbereich – und selbst dort oft nur für Markennamen, die praktisch keine Konkurrenz haben.

    Das ist kein DR-91-Allrounder. Das ist eine spezialisierte Domain mit sehr engem thematischen Fußabdruck.

    Der Linkeffekt: klein, uneinheitlich, kaum trennbar vom Rauschen

    Im zweiten Schritt wurden die ersten 500 URLs von disclaimer.de gecrawlt und alle verlinkten Ziel-Domains identifiziert, bei denen der Link erkennbar transaktional oder künstlich wirkte – kommerzielle Anchortexte, Local-Leadgen-Themen, YMYL-Bereiche.

    Für jede dieser Domains wurde das Veröffentlichungsdatum des verlinkenden Artikels ermittelt und anschließend der wöchentliche SISTRIX-Sichtbarkeitsverlauf abgerufen. Das Ergebnis wurde als Event-Study ausgewertet: Woche 0 = Linkveröffentlichung. Dann Vergleich der Sichtbarkeit in mehreren Zeitfenstern davor und danach (0–3 Wochen, 4–8 Wochen, 9–12 Wochen). Zusätzlich ein Placebo-Test mit künstlich vordatierten „Fake-Linkdaten“ – um zu prüfen, ob ähnliche Muster auch ohne echten Linkevent auftreten.

    Das Ergebnis: Es gab ein kleines positives Signal, am deutlichsten etwa in Woche +7.
    Aber:

    • Der Effekt war klein und heterogen – manche Domains stiegen, andere stagnierten, bei mehreren gab es sogar einen Rückgang.
    • Der Placebo-Test zeigte vergleichbare Ausschläge ohne echte Linksetzung.
    • Viele betroffene Domains hatten so niedrige Ausgangswerte, dass selbst kleine absolute Veränderungen prozentual spektakulär aussahen.

    Kurz: Kein belastbarer, einheitlicher Effekt. Nur Rauschen mit gelegentlichen Peaks, die sich durch andere Ursachen besser erklären lassen – neue Inhalte, weitere Backlinks, technische Änderungen, Google-Updates.

    Das eigentliche Problem mit diesem Case

    Wer einen Link verkauft mit dem Argument „Autorität schlägt Relevanz“, setzt darauf, dass Käufer:innen nicht nachrechnen. Die Logik klingt plausibel, weil sie an etwas Wahres andockt: Ja, Autorität spielt eine Rolle. Ja, es gibt Domains, deren Links breit wirken. Aber nein – ein DR-Wert allein ist kein Beweis für Transferleistung in fachfremde Bereiche.

    Die „Traffic- und Ranking-Verläufe“, die als Beweis präsentiert werden, sind klassische Cherry-Picks. Man zeigt die Domains, die sich positiv entwickelt haben – und lässt jene weg, bei denen nichts passiert ist oder es sogar schlechter wurde. Das ist keine Analyse. Das ist Marketing.

    Dazu kommt: Die platzierten Links wirken erkennbar transaktional und künstlich. Kommerzielle Anchortexte auf einer juristischen Plattform, die thematisch nichts mit dem verlinkten Inhalt zu tun hat – das ist genau das Muster, das Googles Spam-Policies adressieren.

    Fazit

    DR 91 klingt gut. Die Realität sieht so aus: disclaimer.de rankt fast ausschließlich für Anwaltsnamen und Rechtsbegriffe – und der messbare SEO-Effekt der dort platzierten Links ist klein, uneinheitlich und kaum vom allgemeinen Marktgeschehen zu trennen.

    Wer sein Budget in diesen Link investiert, zahlt für ein Gefühl von Autorität – nicht für nachweisbare Rankings. Das Budget wäre in hochwertigen Content, echte digitale PR oder technische SEO-Maßnahmen messbar besser angelegt.

    Das Risiko ist real. Der Nutzen ist es nicht.

  • Your Business Is My Next Prompt

    Your Business Is My Next Prompt

    Gemini Generated Image s899f0s899f0s899

    Warum die These als Warnsignal klug ist, als Totalerklärung falsch — und unter Exponentialannahme richtig gefährlich wird.

    „Your Business is my next prompt.“

    Der Satz klingt wie eine Drohung aus einem LinkedIn-Post mit zu vielen Emojis der behauptet, man könne mit Hilfe künstlicher Intelligenz so gut wie jedes Geschäftsmodell angreifen. Aber hinter der Zuspitzung steckt ein Kern, der ernst genommen werden sollte — und ein blinder Fleck, der genauso ernst genommen werden muss.

    Die These trifft — aber nur die Oberfläche

    Der Satz beschreibt ziemlich gut eine bestimmte Klasse von Geschäftsmodellen: solche, deren gesamter Wert darin besteht, dass jemand Informationen entgegennimmt, umformt und als Text, Bild, Analyse oder Standardentscheidung zurückgibt. Überall dort, wo der Kundennutzen ein einmaliger kognitiver Output ist, schrumpft die Wertschöpfung tatsächlich gefährlich nah an einen Prompt.

    Aber ein Business ist fast nie nur ein Output. Ein stabiles Geschäft besteht aus Schichten: Zugang zum Kunden, Vertrauen, Einbettung in reale Prozesse, Daten, Qualitätssicherung, Haftung, Integration in bestehende Systeme, Vertrieb und Distribution, operative Ausführung.

    Ein Prompt kann vieles ersetzen. Er ersetzt aber nicht automatisch Verantwortung, Verlässlichkeit und Umsetzung.

    Deshalb die erste Umformulierung:

    Alles, was nur eine Antwort verkauft, ist gefährdet.
    Alles, was ein Ergebnis liefert, ist deutlich robuster.

    Ein Tool, das bloß Werbetexte erzeugt, ist stark gefährdet. Ein System, das Kampagnen plant, Brand-Richtlinien einhält, Freigaben steuert, Kanäle bespielt, Ergebnisse misst und ins CRM zurückschreibt, ist viel schwerer durch „einen Prompt“ zu ersetzen. Eine App, die Verträge zusammenfasst, ist leicht angreifbar. Eine Lösung, die Vertragsdaten extrahiert, versioniert, Fristen überwacht, Risiken klassifiziert, juristische Workflows dokumentiert und revisionssicher arbeitet, hat ein anderes Verteidigungsniveau.

    AI vernichtet nicht einfach Businesses. Sie verschiebt die Grenze dessen, was als Produkt zählt. Der Moat wandert weg von der reinen Generierung, hin zu Workflow, proprietären Daten, Distribution, Compliance, Vertrauen und tatsächlicher Ausführung.

    Falls Du Dich fragst: Der „Moat“ (deutsch: Burggraben) ist ein von Warren Buffett populär gemachter Begriff für den nachhaltigen Wettbewerbsvorteil eines Unternehmens. Wie ein Wassergraben eine Burg schützt, bewahrt dieser ökonomische Schutzwall (Economic Moat) ein Unternehmen vor Konkurrenz, sichert langfristige Gewinne und ermöglicht oft überdurchschnittliche Marktrenditen. (Quelle)

    Das macht die These besonders nützlich für Strategiearbeit. Sie zwingt zu harten Fragen: Wenn man mein Produkt in einen Chat einbauen könnte — was bleibt dann noch übrig? Besitze ich einen echten Prozess oder nur eine hübsche UI? Verkaufe ich Arbeitserleichterung oder ein messbares Ergebnis? Würde der Kunde mich auch dann brauchen, wenn das Basismodell morgen dreimal besser wird?

    Jetzt drehen wir an der Exponentialschraube

    Und unter der Annahme exponentieller Verbesserung wird die These deutlich härter.

    Aus „Your business is my next prompt“ wird: „Your workflow is my next agent.

    Das Entscheidende an den aktuellen Fortschritten ist, dass die Frontier nicht mehr nur bessere Texte schreibt. Modelle wie GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro positionieren sich explizit für professionelle Arbeit mit nativer Computer-Nutzung, langem Kontext und Agent-Planning. Das ist ein Übergang von der Antwortmaschine zum Werkzeugbenutzer für Wissensarbeit.

    Der tiefere Indikator ist der Zeithorizont autonomer Arbeit. METR misst seit Jahren, wie lange Aufgaben für Menschen dauern, die Frontier-Modelle mit einer gegebenen Erfolgsquote lösen können. Auf der langen Reihe verdoppelt sich dieser Horizont ungefähr alle sieben Monate. Wenn die Kurve hält, werden stundenlange Softwareaufgaben 2027–2028 und tagelange bis 2030 erreichbar.

    Parallel dazu fällt der Preis der Intelligenz brutal. Die Inferenzkosten für GPT-3.5-Niveau sind zwischen November 2022 und Oktober 2024 um mehr als Faktor 280 gefallen. Wer heute nur „Zugang zur besten Intelligenz“ verkauft, verkauft einen sehr schnell erodierenden Vorteil.

    Der sich verschiebende Angriffsvektor

    Wenn man das weiterdenkt, ändert sich der Angriffsvektor auf Geschäftsmodelle stufenweise:

    Zuerst frisst KI Antworten und Artefakte: Copy, Zusammenfassungen, Slides, Standardanalyse, UI-Mockups.

    Dann frisst sie Workflows: Recherche, CRM-Updates, Ticketing, Vertragsrouting, Claims Intake, QA, Code-Review, Reporting.

    Bei weiter exponentieller Verbesserung frisst sie Koordinationsschichten: also genau die Tätigkeiten, die vor allem darin bestehen, Arbeit zu zerlegen, an den nächsten weiterzugeben, zu prüfen, zu dokumentieren und zu eskalieren.

    In linearem Fortschritt frisst KI Features.
    In exponentiellem Fortschritt frisst sie Organisation.

    Darum sind nicht nur dünne AI-Wrapper gefährdet. Auch viele junior-lastige Dienstleistungsmodelle geraten unter Druck: Agenturen, Research- und Ops-Teams, Teile von Legal, Finance, Recruiting oder Support — überall dort, wo der Wert aus vielen kleinen kognitiven Zwischenschritten besteht.

    Man darf die Kurve trotzdem nicht naiv lesen. Dieselben Quellen betonen jagged capabilities, Halluzinationen, Evaluation Gaps und sinkende Zuverlässigkeit bei längeren, unordentlichen Real-World-Aufgaben. Die Substitution kommt nicht als glatte Linie, sondern als Mischung aus beeindruckender Breite und lästiger Fragilität.

    Gerade deshalb ist der wahrscheinlichste Pfad ein Deployment Overhang: Die Modelle können oft schon mehr, als Unternehmen ihnen organisatorisch, rechtlich oder kulturell erlauben. Das macht Disruption erst scheinbar langsam — und dann plötzlich sehr schnell.

    SaaS: Thin wird Promptware, Thick wird Agent-Infrastruktur

    In SaaS stirbt zuerst das Feature, nicht zwingend das System. Die Modelle gehen direkt in bestehende Bürosoftware hinein: ChatGPT-for-Excel, Claude in PowerPoint, native Pivot-Tabellen-Bearbeitung und Conditional Formatting durch KI.

    Horizontale SaaS-Produkte, deren Kern nur „Frage rein, Artefakt raus“ ist, werden am stärksten kommodifiziert: Note-Taker, einfache BI-Copilots, generische Report- und Slide-Generatoren, Assistenz-Features in CRM/PM/ERP, sofern sie nicht den eigentlichen Daten- oder Kontrollkern besitzen.

    Der verteidigbare Teil von SaaS wandert nach unten in System-of-Record-Funktionen und nach oben in Kontrolllogik: Berechtigungen, Audit-Trails, Workflow-Genehmigungen, Integrationen, Transaktionsrechte, Compliance und proprietäre Betriebsdaten.

    Kurzform: Wer nur Oberfläche plus Generierung verkauft, wird eingedrückt. Wer Zustand, Rechte, Historie und Ausführung kontrolliert, wird eher stärker.

    Beratung: Von Content-Produktion zu Entscheidungs-Orchestrierung

    Hier gerät das klassische Pyramidenmodell unter Druck. GPT-5.4 erreicht 83 % auf GDPval (einem Benchmark für wohldefinierte Wissensarbeit über 44 Berufe) und 87,3 % bei Spreadsheet-Modelling-Aufgaben auf Junior-Investment-Banking-Niveau.

    Der erste ökonomische Treffer ist nicht die komplette Ersetzung von Senior Judgment, sondern die Entwertung von junior-lastiger Zwischenarbeit: Research Memos, Markt-Screens, Excel-Modelle, Due-Diligence-Vorstufen, Vertrags-First-Drafts, Präsentationsproduktion.

    Beratung verschwindet nicht, aber sie kippt. Weniger Wert in abrechenbarer Zwischenarbeit, mehr Wert in Zugang zu internen Daten, politischer Navigation, Stakeholder-Alignment, Haftung, Implementierung und Change.

    Wenn die Capability-Kurve weiter exponentiell steigt, wird die Pyramide kleiner und steiler: weniger Juniors, mehr Plattform-/Methoden-Owner, mehr Senior-Client-Interface. Dann gerät auch das Billing-Modell unter Druck, weil „wir haben 200 Stunden in Analyse gesteckt“ immer weniger überzeugend klingt.

    Medien: Der härteste Sonderfall

    Medien sind der härteste Sonderfall, weil hier nicht nur die Produktion, sondern auch die Distribution angegriffen wird. KI-Chatbots tauchen erstmals als relevante Nachrichtenquelle auf; die Suche nach aktuellen Nachrichten gehört inzwischen zu den meistgenutzten KI-Funktionen.

    Die Medien-These ist deshalb schärfer: Nicht nur „your article is my next prompt“, sondern „your audience touchpoint is my next answer“. Commodity-Content wie Erklärstücke, Wire-Rewrites, SEO-Texte, Übersetzungen, Headline-Varianten wird billiger und austauschbarer.

    Was bleibt, ist das, was ein Modell nicht einfach aus dem offenen Web ziehen kann: originale Quellen, Verifikation, juristisch belastbare Redaktion, lokales Vertrauen, Community, Live-Berichterstattung, Rechte an Archiven und Formaten, starke Persönlichkeiten. Der Moat verschiebt sich weg von „wir können Content produzieren“ hin zu „wir haben Zugriff, Rechte, Vertrauen und Nähe zum Publikum“.

    Die Ableitung aus ersten Prinzipien: Wer fällt, wer steht

    Jetzt nicht mehr als Zitatenschlacht, sondern als Deduktion aus einem einzigen Grundgesetz:

    Wenn eine bisher knappe Vorleistung exponentiell billiger wird, dann verschwinden die Margen zuerst dort, wo genau diese Vorleistung bisher verkauft wurde.

    Bei KI ist diese Vorleistung nicht „Intelligenz insgesamt“, sondern etwas Engeres: standardisierbare Kognition — Lesen, Umformulieren, Zusammenfassen, Klassifizieren, Recherchieren, Entwerfen, Variieren, Priorisieren, erste Analysen, Boilerplate-Code, Standardkommunikation.

    Die Gefährdungsformel

    Ein Geschäftsmodell ist besonders gefährdet, wenn es hohen Anteil standardisierbarer Kognition hat, rein digital abläuft, billig verifizierbar ist, niedrige Haftungsfolgen hat und geringe Umstellungsfriktion beim Kunden aufweist. Robuster wird es durch proprietäre Daten, Prozesskontrolle, das Recht zu handeln, Beziehung/Marke und physische oder regulatorische Reibung.

    Warum exponentielle Verbesserung so gefährlich ist: Die Schwellenlogik

    Substitution verläuft nicht linear, sondern schwellenartig. Wenn ein Workflow aus 8 Schritten besteht und die KI jeden Schritt mit einer Zuverlässigkeit p schafft, dann ist die End-to-End-Tauglichkeit etwa p⁸:

    • bei 90 % pro Schritt: nur etwa 43 % insgesamt
    • bei 97 % pro Schritt: schon etwa 78 %
    • bei 99 % pro Schritt: etwa 92 %

    Ein Modell kann lange „noch nicht gut genug“ wirken — und dann kippt ein ganzer Workflow überraschend schnell von unbrauchbar zu wirtschaftlich attraktiv. Viele Geschäftsmodelle geraten schon bei „gut genug + drastisch billiger + sofort verfügbar“ unter Druck.

    Akut gefährdet: Wer nur digitale Zwischenarbeit verkauft

    1. Der Umformulierer. Alles, was vorhandene Information in ein neues Format gießt: SEO-Texte, Standardcopy, Zusammenfassungen, Übersetzungen, Transkription, Slides, Standard-Reports, generische Bild-/Textvarianten. Input und Output sind digital, der Arbeitsauftrag ist sprachlich formulierbar, und der Kunde kann „gut genug“ leicht akzeptieren.
    2. Der Thin Wrapper. Produkte, die im Kern nur eine hübsche Oberfläche über ein generisches Modell legen: einfache Meeting-Notes-Tools, generische Wissensbots, simple Copilots ohne tiefen Workflow-Zugriff. Sobald die Basismodelle selbst besser werden und die großen Plattformen das Feature einbauen, schmilzt der Differenzwert.
    3. Der Routine-BPO. Tier-1-Support, Inbox-Triage, CRM-Pflege, Datenerfassung, Dokumentklassifikation, Standard-Outreach, viele Backoffice-Tasks. Viele kleine, klar beobachtbare Einzelschritte mit reversiblen Fehlern — dort wird „gut genug“ schnell wirtschaftlich.
    4. Die Junior-Pyramide. Dienstleister, die vor allem viele relativ günstige Köpfe auf standardisierte Wissensarbeit setzen: Research-Vorarbeit, Deck-Bau, Standardanalyse, Variantenproduktion, Content-Ops. Wenn der First Draft fast nichts mehr kostet, wird die wirtschaftliche Basis der Pyramide angegriffen.
    5. Commodity-Medienproduktion. Nicht Medien als Ganzes, sondern alle Modelle, deren Wert fast nur in regelmäßiger standardisierter Textproduktion liegt.

    Unter massivem Preisdruck, aber nicht weg

    • Beratung — die Produktionsanteile werden komprimiert; politische Navigation, Umsetzung und Entscheidung unter Unsicherheit bleiben. Weniger bezahlte Zwischenarbeit, mehr bezahlte Verantwortung.
    • Software-Dienstleistung — Boilerplate, Standard-Features, Debugging-Routine unter Druck. Robuster bleiben Architektur, Integration in chaotische Altsysteme, Verantwortung für Betrieb, Security und Produktverständnis.
    • Recht, Steuer, Accounting-nahe Arbeit — Standardentwürfe und Dokumentprüfung erster Ordnung gefährdet. Haftung, Sign-off, Mandatsvertrauen und Auslegung bleiben länger zentral. Eher Repricing als Auslöschung.
    • Recruiting — Sourcing und Screening stark automatisierbar. Wertvoller bleiben Zugang zu schwer erreichbaren Kandidaten, echtes Urteil über Passung, Closing und Vertrauen.
    • Education/EdTech — Standardcontent verliert Wert. Robuster bleiben Motivation, Feedback, Disziplin, soziale Bindung und individuelles Coaching. Content wird billig, Verbindlichkeit wird teuer.

    Eher Gewinner

    • Systems of Record und Workflow-Gatekeeper — Wer den Zustand der Welt im Prozess hält (Daten, Historie, Rechte, Freigaben, Transaktionen), gewinnt. Agenten brauchen einen Ort, an dem Wahrheit, Berechtigung und Ausführung zusammenlaufen.
    • Verifikation, Compliance, Security, Audit — Wenn Generierung fast kostenlos wird, wird Prüfen wertvoller. Je mehr synthetische Arbeit anfällt, desto mehr Nachfrage nach Nachvollziehbarkeit, Freigabe und Kontrolle.
    • Vertikale Operatoren mit proprietären Daten — Unternehmen, die nicht nur denken, sondern handeln dürfen und reale Feedbackschleifen besitzen: Zahlungsflüsse, Logistik, operative Industrieprozesse. Sie verbinden KI nicht mit Text, sondern mit Wirkung.
    • Distributionseigner — Wer die Kundenbeziehung besitzt (Community, Marke, Marktplatz, Kanal), sitzt auf einem knappen Gut. Wenn Inhalte und Features billig werden, wird Kundenzugang relativ wertvoller.
    • Menschliche Premium-Signale — Alles, was nicht wegen Effizienz gekauft wird, sondern wegen Identität, Status, Geschmack, Nähe, Vertrauen oder Live-Erlebnis.

    Die harte Schlussthese

    Die Mitte wird zerdrückt. Oben sitzen die Modell- und Plattformanbieter. Unten sitzen die Besitzer von Kundenzugang, Systemzustand, Freigaberechten und realer Ausführung. Dazwischen sitzen sehr viele Firmen, die im Kern nur eines tun: Sie bewegen Information von A nach B und schreiben dafür Rechnung. Genau diese Mitte ist am stärksten bedroht.

    Der wahrscheinlichste Verlauf in drei Phasen:

    Phase 1: „Your business is my next prompt.“
    Phase 2: „Your workflow is my next agent.“
    Phase 3: „Your team is my next software layer.“

    Nicht jedes Unternehmen wird ersetzt. Aber jedes Unternehmen, dessen Wert vor allem im Übersetzen von Unsicherheit in digitale Outputs liegt, wird durch KI massiv neu bepreist.

    Die beste Gegenstrategie ist nicht, „prompt-sicher“ zu sein. Sondern ein Geschäft so zu bauen, dass der Prompt nur der Startschuss ist — nicht das fertige Produkt.

    Oder noch schärfer: Verlierer verkaufen Denken als Stückware. Gewinner kontrollieren, was nach dem Denken passiert.

    Screenshot von ChatGPT 5.4 Pro
    Kaum zu glauben, aber dieser Beitrag war auch nur ein Prompt!
  • Tokens statt Code: Dieses Video erklärt, warum sich Softwareentwicklung gerade grundlegend neu erfindet

    Tokens statt Code: Dieses Video erklärt, warum sich Softwareentwicklung gerade grundlegend neu erfindet

    Es gibt Videos über KI, die zeigen dir ein neues Tool. Und es gibt Videos, die dir eine neue Landkarte geben. Dieses hier gehört zur zweiten Sorte.

    Die zentrale These ist provokant – aber im Kern sehr plausibel: Wir erleben gerade keinen „Tools-Upgrade-Moment“, sondern einen Paradigmenwechsel. Über Jahrzehnte war die kleinste Einheit von Softwarearbeit die Instruktion: Ein Mensch schreibt Code, eine Maschine führt ihn deterministisch aus. Produktivität bedeutete: bessere Abstraktionen, cleverere Logik, saubere Implementierung.

    Im Video wird argumentiert, dass sich diese Einheit verschiebt – hin zum Token. Token sind hier nicht nur Texthäppchen, sondern das, was du in der Praxis „kaufst“, wenn du ein Modell nutzt: Inference, also „gekaufte Intelligenz“. Du gibst Kontext, formulierst ein Ziel, und die Maschine findet die Schritte selbst. Die Arbeit wandert von „Wie implementiere ich das?“ zu „Was will ich exakt, und wie sichere ich Qualität und Kosten?“

    Das klingt nach Semantik – hat aber ziemlich konkrete Folgen: für Budgets, Org-Strukturen, Karrierewege und die Skills, die in den nächsten Jahren zählen.

    Warum die Token-Ökonomie mehr ist als „KI ist teuer“

    Im Video tauchen Beispiele auf, die zeigen, wie ernst Unternehmen diese neue Rechenlogik nehmen:

    • Teams, die ~1.000 Dollar pro Tag in Token-Spend kalkulieren – und dafür keinen handgeschriebenen Code mehr als Ziel definieren, sondern Output.
    • Unternehmen, bei denen KI-Ausgaben so stark steigen, dass Pricing-Änderungen der Modellanbieter unmittelbare Krisen auslösen können.
    • Der Gedanke: Wenn Inference pro Token billiger wird, steigt der Verbrauch oft trotzdem (Jevons-Paradox) – weil plötzlich viel mehr möglich und wirtschaftlich wird.

    Die Konsequenz: Token sind nicht nur „Kostenstelle“, sondern ein Produktionshebel. Wer ihn beherrscht, produziert schneller, breiter und in manchen Fällen mit kleineren Teams mehr als klassische Organisationen.

    Die 3 Entwickler-Typen (und warum du dich positionieren solltest

    Der interessanteste Teil: Das Video zeichnet drei Karrierepfade, die sich aus dieser Verschiebung ergeben. Es geht weniger um „AI ersetzt Entwickler: ja/nein“, sondern um Differenzierung.

    1) Der Orchestrator: Spezifikation, Steuerung, Qualitätskontrolle

    Orchestrators schreiben weniger Code – sie lenken Intelligenz.

    Skills, die hier zählen:

    • Problemdekomposition: Große Ziele in agententaugliche Teilaufgaben zerlegen.
    • Spezifikation & Präzision: Anforderungen so formulieren, dass KI nicht „irgendwas“, sondern das Richtige baut.
    • Kontext-Engineering: Relevante Infos strukturieren (Dokumente, Beispiele, Constraints, APIs, Datenzugriff).
    • Qualitätsevaluation: Output prüfen, testen, vergleichen – mit klaren Kriterien.
    • Token-Ökonomie / Kosten pro Outcome: Nicht „Kosten minimieren“, sondern ROI maximieren (welches Modell für welche Aufgabe, wann lohnt sich High-End, wann reicht günstig?).
    • Agenten-Orchestrierung: Loops, Workflows, Tool-Use, Guardrails – sodass über viele Schritte hinweg Qualität stabil bleibt.

    Merksatz: Orchestrators sind Fabrikleiter einer Intelligenzproduktion.

    2) Der Systems Builder: Infrastruktur für KI-Produktion

    Diese Rolle ist technischer und seltener, aber enorm wirkungsstark: Systems Builder bauen die Plattformen, die Orchestrators benutzen.

    Skills, die hier zählen:

    • Agenten-Frameworks & Workflow-Design: Wie Aufgaben geroutet, verteilt und wieder zusammengeführt werden.
    • Eval-Pipelines & Testsysteme: Automatisierte Qualitätsmessung (Regressionen, Benchmarks, Szenarien).
    • Routing & Model-Mix: „Right model, right cost“ als Architekturprinzip.
    • Reliability Engineering für probabilistische Systeme: Monitoring, Fallbacks, Safety, Determinismus-Illusion vermeiden.
    • Daten-/Kontext-Infrastruktur: Retrieval, Wissensspeicher, Caching, Versionierung von Kontext und Prompts.
    • Kosten-/Performance-Optimierung: Latenz, Durchsatz, Token-Budget, Skalierung.

    Merksatz: Systems Builder sind die, die den „Token-Fabrikboden“ bauen.

    3) Der Domain Translator: Branchenwissen + KI-Fluency = neue Entwickler

    Das ist laut Video die unterschätzteste und wahrscheinlich größte Gruppe: Menschen mit tiefem Domänenwissen, die mithilfe von KI Software bauen, obwohl sie sich nie als Entwickler gesehen haben.

    Skills, die hier zählen:

    • Domänenexpertise: Du erkennst, welche Probleme wirklich teuer sind (Zeit, Fehler, Compliance, Umsatz).
    • Workflow-Verständnis: Wo hakt es im Alltag? Wo entstehen Reibungsverluste?
    • KI-Fluency: Nicht „Prompt-Zauberei“, sondern die Fähigkeit, Tools sinnvoll einzusetzen (Automationen, Agents, Datenzugriff, Integrationen).
    • Produktdenken: Problem → Lösung → Nutzen → Adoption → Verankerung im Betrieb.
    • Verteilung/Distribution: Zugang zu Kunden, Vertrauen, Branchen-Community – weil KI-Intelligenz als Rohstoff künftig überall kaufbar ist.

    Merksatz: Domain Translators gewinnen nicht über Code, sondern über Relevanz.

    Die zentrale Skill-Liste: Was du JETZT lernen solltest

    Wenn man das Video in konkrete Lernziele übersetzt, ergibt sich eine ziemlich klare Liste. Egal welchen Pfad du wählst, diese Bereiche werden wichtiger:

    1. Spezifikationsfähigkeit (klar schreiben, Anforderungen präzisieren, Constraints definieren)
    2. Kontext-Engineering (Wissen strukturieren, Beispiele, Policies, Datenquellen, Retrieval)
    3. Evaluation & Qualitätsmessung (Tests, Kriterien, Benchmarks, iterative Verbesserung)
    4. Agenten-Orchestrierung (Workflows, Tool-Use, Loops, Guardrails)
    5. Token Economics (Kosten pro Ergebnis, Model-Routing, Budgetierung, ROI)
    6. Systemdenken (End-to-End-Prozesse statt einzelne Features)
    7. Domänen- und Marktverständnis (Probleme erkennen, die sich lohnen)
    8. Distribution/Adoption (wie Lösungen wirklich genutzt werden, nicht nur gebaut)

    Das Video macht außerdem eine unbequeme Aussage: Am meisten gefährdet ist die Mitte – „kompetentes, generisches App-Coding“. Nicht, weil es morgen verschwindet, sondern weil sein Wert in dem Maß fällt, wie KI billiger und besser wird.

    Warum ich das Video empfehle

    Ich empfehle es nicht, weil jede Zahl oder Prognose garantiert stimmt. Sondern weil es dir ein scharfes Modell liefert, das eine Menge aktueller Beobachtungen zusammenbindet:

    • Warum AI-native Teams mit viel weniger Leuten erstaunlich viel Output schaffen.
    • Warum Unternehmen nicht nur „KI-Tools kaufen“, sondern anfangen, Token-Management als Kernkompetenz aufzubauen.
    • Warum Karrierepfade auseinanderlaufen – und warum „ein bisschen AI-Assistent beim Coden“ auf Dauer nicht die ganze Antwort ist.

    Wenn du Software entwickelst (oder Software einkaufst), lohnt es sich, dieses Video nicht als Hype zu sehen, sondern als Aufforderung zur Positionierung: Werde Orchestrator, Systems Builder oder Domain Translator – aber bleib nicht in der Mitte stehen!

  • Warum ich als SEO-Veteran jetzt doch „GEO“ sage – und Du das auch tun solltest

    Warum ich als SEO-Veteran jetzt doch „GEO“ sage – und Du das auch tun solltest

    Ich gebe es zu: Der Begriff „Generative Engine Optimization“ hat mich anfangs genervt. Wieder ein neues Buzzword. Wieder jemand, der versucht, aus einer evolutionären Entwicklung eine Revolution zu machen, die natürlich auch gleich einen neuen, fancy Oberbegriff braucht. Mein erster Impuls als jemand, der seit über 15 Jahren in der Suchmaschinenoptimierung arbeitet, war klar: Das ist doch einfach SEO mit einem neuen Anstrich.

    Ich lag falsch. Und ich erkläre, warum.

    Mein Problem mit neuen Begriffen

    Die SEO-Branche liebt Akronyme. SXO, LLMO, AI SEO, AEO, SGE-Optimization – jedes Jahr taucht eine neue Buchstabenkombination auf, hinter der sich meist nichts anderes verbirgt als eine Facette dessen, was wir ohnehin schon tun. Content optimieren, Nutzerbedürfnisse verstehen, technisch sauber arbeiten. Die Substanz hinter dem neuen Label ist oft dünn, die Halbwertszeit kurz.

    Als ich also zum ersten Mal „GEO – Generative Engine Optimization“ las, war mein Reflex entsprechend: Brauchen wir nicht. Haben wir schon. Nennt sich SEO.

    Aber dann habe ich mir angeschaut, wer diesen Begriff geprägt hat. Und wo er geprägt wurde. Und wie er in der wissenschaftlichen Community aufgenommen wurde. Und genau das hat meine Meinung fundamental verändert.

    GEO ist kein Branchenblog-Buzzword – es ist ein akademisches Framework

    Der entscheidende Unterschied zu all den anderen Akronymen: GEO wurde nicht von einer Marketing-Agentur erfunden, die einen neuen Service verkaufen will. GEO wurde als wissenschaftliches Framework auf der KDD 2024 veröffentlicht – der 30. ACM SIGKDD Conference on Knowledge Discovery and Data Mining, eine der weltweit wichtigsten Konferenzen für Data Science und maschinelles Lernen. Das Paper „GEO: Generative Engine Optimization“ von Aggarwal et al. durchlief ein rigoroses Peer-Review-Verfahren und wurde im August 2024 in Barcelona präsentiert.

    Allein das unterscheidet GEO qualitativ von 99 % aller Begriffe, die in unserer Branche zirkulieren.

    Die Autor:innen sprechen eine klare Sprache

    Was mich endgültig überzeugt hat, war ein genauerer Blick auf das Team hinter der Studie. Denn die Frage, ob ein neuer Begriff Substanz hat, beantwortet sich oft über die Frage: Wer steht dahinter?

    Prof. Karthik Narasimhan ist der Senior-Betreuer der Arbeit. Er ist Associate Professor an der Princeton University, Co-Direktor der Princeton NLP Group und – das ist der Punkt, an dem man aufhorchen sollte – Co-Autor des originalen GPT-Papers bei OpenAI. Narasimhan hat seinen PhD am MIT gemacht, war Research Scientist bei OpenAI in der Phase, als GPT-1 entwickelt wurde, und hat danach an Princeton Arbeiten wie ReAct, Tree of Thoughts und SWE-agent mitverantwortet. Das sind keine Randnotizen in der KI-Forschung. Das sind Meilensteine.

    Wenn also der Mann, der das generative Modell miterfunden hat, auf dem die heutigen Suchmaschinen aufbauen, einen Begriff für deren Optimierung definiert – dann hat dieser Begriff Gewicht.

    Vishvak Murahari und Ameet Deshpande, beide PhD-Studenten unter Narasimhan an Princeton, brachten tiefe Expertise in NLP, Modell-Effizienz und KI-Sicherheit ein. Murahari war Zweitplatzierter beim Bell Labs Prize 2022 und hat seine Dissertation Ende 2025 abgeschlossen. Deshpande, mit einem B.Tech. vom IIT Madras, wurde durch die vielbeachtete Studie zur Toxizität in ChatGPT bekannt, die es bis ins Wall Street Journal schaffte.

    Pranjal Aggarwal war zum Zeitpunkt der Studie Undergraduate am IIT Delhi – und trotzdem Equal-Contribution-Autor. Heute promoviert er an der Carnegie Mellon University. Seine Publikationsliste als Bachelor-Student umfasst Papers bei EMNLP (Oral), ICML und NeurIPS – ein Ausnahmetalent, das mittlerweile auch bei Meta FAIR forscht.

    Ashwin Kalyan, Research Scientist am Allen Institute for AI (AI2), und Tanmay Rajpurohit, ein promovierter Aerospace-Ingenieur aus Georgia Tech mit zusätzlichem Jura-Abschluss, rundeten das Team mit Industry-Erfahrung und einem ungewöhnlich interdisziplinären Blick ab.

    Das ist kein Marketing-Team, das ein Akronym auf eine Landing Page klebt. Das ist ein Forschungsteam an der Schnittstelle zwischen den Institutionen, die KI überhaupt erst gebaut haben.

    Die wissenschaftliche Community hat GEO adoptiert

    Ein Begriff ist nur dann relevant, wenn er aufgegriffen wird. Und genau das passiert. Seit der Veröffentlichung des GEO-Papers wird der Terminus in Folgestudien referenziert, weiterentwickelt und als Grundlage für neue Frameworks genutzt. Auf Konferenzen wie NeurIPS, bei SIGIR-Workshops und in der wachsenden Literatur zu LLM-gestützter Suche hat sich „Generative Engine Optimization“ als der Fachbegriff für dieses Forschungsfeld etabliert.

    Wenn ich in meiner eigenen Forschung – ja, auch ich arbeite akademisch an diesem Thema – über die Optimierung von Inhalten für generative Suchsysteme schreibe, ist GEO der Begriff, den Reviewer erwarten, den Konferenzen verwenden und den die Community versteht.

    Was GEO anders macht als SEO

    Aber hat der Begriff auch inhaltlich eine Berechtigung? Ist GEO wirklich etwas anderes als SEO? Die kurze Antwort: Ja.

    Die GEO-Studie zeigt empirisch, dass klassische SEO-Methoden wie Keyword Stuffing in generativen Suchmaschinen nicht funktionieren – teilweise sogar kontraproduktiv sind. Das ist zwar ein bisschen Old-School, aber eine klare Abgrenzung. Denn, wie KI-Systeme Antworten geben, ist fundamental anders und damit auch was für die Optimierung funktioniert. Die Studie stellte fest, dass das Hinzufügen von Zitaten, Statistiken und Quellenangaben die Sichtbarkeit in generativen Antworten um bis zu 40 % steigerte. Fluency Optimization und ein autoritativer Schreibstil zeigten signifikante Effekte. Und die Wirksamkeit variiert stark nach Domäne – was für Law & Government funktioniert, ist für People & Society irrelevant.

    Ob das immernoch so ist, ist eine andere Frage. Aber mit LLM-Processing, Intermediate-Resoning, Generierung von Fan-Out-Queries, Retrieval, ReRanking, und Citation unterscheidet sich der Prozess fundamental von dem, wie eine klassische Websuche ihre Trefferlisten erzeugt.

    Das ist kein SEO mit neuem Namen. Das ist eine andere Optimierungsdisziplin mit anderen Metriken, anderen Strategien und anderen Wirkungsmechanismen.

    Was ich daraus gelernt habe

    Mein Fehler war, GEO an denselben Maßstäben zu messen wie die vielen inhaltsleeren Buzzwords, die unsere Branche produziert. GEO verdient diesen Vergleich nicht, weil es eine andere Herkunft hat: Es kommt nicht aus dem Marketing, sondern aus der Wissenschaft. Es wurde nicht von Praktikern auf LinkedIn geprägt, sondern von Forschern an Princeton, CMU, IIT Delhi und AI2. Es wurde nicht in einem Blogpost definiert, sondern in einem peer-reviewten Paper auf einer Top-Konferenz.

    Und – das ist vielleicht der wichtigste Punkt – es beschreibt ein reales, messbares Phänomen, das sich empirisch vom klassischen SEO unterscheidet.

    Mein Fazit

    Ich benutze jetzt „GEO“. Nicht weil es trendy ist. Nicht weil es sich in Pitchdecks gut macht. Sondern weil die Evidenz stimmt, die Autor:innen glaubwürdig sind und die wissenschaftliche Community den Begriff als Standard etabliert hat.

    Wenn ein GPT-Miterfinder, zwei Princeton-PhDs, ein CMU-Doktorand und zwei Research Scientists gemeinsam auf einer der wichtigsten Data-Science-Konferenzen der Welt einen neuen Begriff einführen – und die Community diesen Begriff aufgreift und weiterentwickelt – dann ist das kein Buzzword. Dann ist das ein Paradigmenwechsel, der einen eigenen Namen verdient hat.

    GEO ist kein neues SEO. GEO ist das, was nach SEO kommt – und es hat die akademischen Credentials, um diesen Anspruch zu untermauern.

    Wer den Begriff ablehnt, weil er „mal wieder was Neues“ ist, macht den gleichen Fehler wie ich. Schaut euch an, wer dahintersteht. Das spricht eine sehr klare Sprache.

  • Grounding Pages: Der „Standard“, den niemand braucht – und der dennoch helfen kann

    Grounding Pages: Der „Standard“, den niemand braucht – und der dennoch helfen kann

    Seit Ende 2025 macht ein Konzept namens „Grounding Page Standard“ die Runde. Die Idee: Unternehmen sollen spezielle, maschinenlesbare Seiten erstellen, die als „semantischer Anker“ für KI-Systeme dienen. ChatGPT, Perplexity und Co. sollen diese Seiten heranziehen, um Marken und Entitäten korrekt zu interpretieren – weniger Halluzinationen, mehr Sichtbarkeit in KI-generierten Antworten.

    Klingt verlockend. Aber hält das Versprechen einer Überprüfung stand?

    Was der Standard verspricht

    Das Grounding Page Project definiert sich als offener Standard für „machine-readable brand management“. Die Kernbehauptung: KI-Systeme performen besser, wenn sie strukturierte, konsistente Informationen erhalten. Grounding Pages sollen genau das liefern – faktische, Marketing-freie Entitätsbeschreibungen, die RAG-Systeme und Grounding-APIs bevorzugt heranziehen.

    Die Zielgruppe sind Brand Manager und „AI-SEOs“. Die Vision: Eine strukturierte Evolution der klassischen About-Seite für das KI-Zeitalter.

    Das Problem: Kein nachweisbarer Mechanismus

    Damit eine Grounding Page funktioniert, wie behauptet, müssen zwei Dinge stimmen: Erstens muss ein KI-System die Seite überhaupt abrufen. Zweitens muss es sie gegenüber anderen Quellen bevorzugen.

    An beiden Punkten hapert es.

    1. Chatbots suchen seltener als man denkt. Die meisten LLM-basierten Chatbots entscheiden situativ, ob sie eine Websuche durchführen. Bei einer Frage wie „Was macht Firma X?“ passiert zum Teil Folgendes: Kennt das Modell die Firma aus dem Training, antwortet es direkt aus dem parametrischen Wissen – ohne jede Websuche. Die Grounding Page wird gar nicht abgerufen.

      Das erzeugt ein Paradox: Starke Marken wie BMW oder SAP brauchen keine Grounding Page, weil LLMs ohnehin genug über sie wissen. Schwache Marken, die am meisten profitieren würden, lösen oft gar keine Suche aus – oder das Modell sagt schlicht „darüber weiß ich nichts“. Perplexity ist eine Ausnahme, weil es grundsätzlich sucht. Aber das ist nur ein System von vielen.
    2. Es gibt keinen Ranking-Vorteil für Grounding Pages. Bei RAG-Systemen entscheidet ein Retrieval-Schritt (typischerweise Embedding-Similarity oder ein Suchindex), welche Dokumente als Kontext in den Prompt kommen. Dieser Schritt kennt keinen Seitentyp namens „Grounding Page“. Er rankt nach semantischer Relevanz zur Anfrage. Eine gut geschriebene Wikipedia-Seite, ein Presseartikel oder eine klassische About-Seite kann genauso gut oder durch Verlinkungen sogar besser ranken.

      Bei Googles Grounding-API für Gemini wird aus dem Google-Suchindex gezogen. Da gelten dieselben Ranking-Faktoren wie bei der normalen Suche: Autorität, Relevanz, Linkprofil. Der Seitentyp hat keinen inhärenten Vorteil.

    Was tatsächlich hilft

    Der erfundene „Standard“ ist überflüssig. Aber die Grundidee dahinter ist nicht verkehrt – sie ist nur nicht neu.

    Wer ein gut verlinktes Dokument auf seiner Website pflegt, das klar und faktisch beschreibt, was das Unternehmen ist, was es tut und was es anbietet, macht es KI-Systemen tatsächlich leichter. Konkret:

    1. Informationsdichte und Klarheit. Eine Seite, die frei von Marketing-Fluff ist und stattdessen strukturiert Fakten liefert, hat ein besseres Signal-Rausch-Verhältnis. Wenn ein RAG-System diese Seite in seine Chunks zerlegt, entsteht weniger Rauschen. Die relevanten Informationen sind leichter extrahierbar.
    2. Konsistenz über Quellen hinweg. Wenn die eigene Website sauber und faktisch formuliert, was das Unternehmen ist und tut, steigt die Wahrscheinlichkeit, dass diese Formulierungen im Trainingskorpus des nächsten Modells kohärent repräsentiert sind. Das ist kein Grounding im technischen Sinne – es ist ein Beitrag zur Trainingsqualität.
    3. Strukturierte Daten. Schema.org-Markup (Organization, Product, Service) hilft Knowledge-Graph-Systemen bei der Entitätszuordnung. Das ist ein seit Jahren etabliertes Instrument, kein neuer Standard. LLMs brauchen übrigens kein Schema-Markup und parsen den Quellcode in vielen Fällen auch nicht, sondern schauen sich den puren Text an, den Menschen zu Gesicht bekommen!

    Kurzum: Eine saubere, gut verlinkte Informationsseite über das eigene Unternehmen „schmeckt“ einem LLM tatsächlich besser als eine mit Superlativen überladene Marketing-Landingpage. Das war allerdings auch schon vor diesem Standard der Fall und braucht keinen neuen Seitentyp mit eigenem Logo.

    Die Drittquellen-Frage

    Ein wichtiger Aspekt fehlt in der Diskussion um Grounding Pages fast vollständig: LLMs gewichten Drittquellen in der Regel stärker als Eigenaussagen. Was auf Wikipedia, in Pressartikeln oder in Branchenverzeichnissen über ein Unternehmen steht, hat für die meisten Systeme mehr Gewicht als die eigene About-Seite.

    Das Grounding Page Project suggeriert, dass eine strukturierte Eigenaussage den gleichen Effekt haben kann. Die Hoffnung, dass Journalist:innen, Blogger:innen oder Wikipedia-Autor:innen eine Grounding Page als Quelle heranziehen und damit Drittquellen entstehen, die den KI-Systemen als Signal dienen, halte ich für sehr fraglich. Journalist:innen recherchieren nicht auf standardisierten Fakten-Landingpages. Sie suchen Geschichten, Zitate und Kontext – nicht maschinenlesbare Entitätsdefinitionen.

    Eine Grounding Page ersetzt nicht die Arbeit, die tatsächlich Drittquellen erzeugt: PR, Thought Leadership, relevante Inhalte, die andere zitieren wollen.

    Fazit

    Das Grounding Page Project adressiert ein reales Problem: Viele Unternehmen haben ihre Entitäten nie systematisch und faktisch für KI-Systeme beschrieben. Diese Erkenntnis ist richtig und wichtig.

    Aber die Lösung braucht keinen eigenen Standard mit Versionsnummer. Sie braucht das, was gute Informationsarchitektur schon immer gebraucht hat: eine klare, gut verlinkte Seite mit faktischen Informationen über das Unternehmen, ergänzt durch strukturierte Daten. Wer das noch nicht hat, sollte damit anfangen. Wer es hat, braucht keine Grounding Page.

    Der Mehrwert des Standards liegt allenfalls darin, dass er Unternehmen dazu bringt, erstmals systematisch über ihre Entitätsbeschreibungen nachzudenken. Danke dafür Hanns. Aber für die tatsächliche Wirkung auf KI-Systeme zählt nicht der Seitentyp, sondern die Qualität der Information, die Verlinkung und vor allem die Bestätigung durch Drittquellen, die unabhängig von jeder Grounding Page entsteht – oder eben nicht.

  • Wie KI wirklich liest: Die Wahrheit hinter der „1,2 Millionen“-Studie (und was das für dein SEO/GEO bedeutet)

    Wie KI wirklich liest: Die Wahrheit hinter der „1,2 Millionen“-Studie (und was das für dein SEO/GEO bedeutet)

    In der SEO- und Marketing-Bubble geistert gerade eine gewaltige Zahl durch die Feeds: 1,2 Millionen. So viele Suchergebnisse hat Kevin Indig in seiner viel beachteten Studie „The Science of How AI Pays Attention“ analysiert. Sein Ziel: Endlich das Geheimnis zu lüften, worauf KI-Suchmaschinen wie Google AI Overviews, Perplexity oder SearchGPT eigentlich achten, wenn sie Antworten generieren.

    Das zentrale Ergebnis klingt revolutionär und banal zugleich: KIs sind faul. Sie leiden unter einem massiven „Attention Decay“. Was nicht ganz oben im Text steht, existiert für die Maschine oft gar nicht.

    Aber stimmt das wirklich? Ist das ein technisches Limit der großen Sprachmodelle (LLMs), oder messen wir hier nur menschliche Gewohnheiten? Und vor allem: Wie belastbar ist diese „Big Data“-Analyse eigentlich für unsere tägliche Arbeit?

    Als jemand, der sich tief in die Wissenschaft, LLMs und Generative Engine Optimization (GEO) eingegraben hat, habe ich mir die Studie methodisch sehr genau angesehen. Lass uns gemeinsam die „Statistik-Zwiebel“ schälen, die akademische Beweislage prüfen und schauen, was am Ende wirklich an Gold für deine Content-Strategie übrig bleibt:

    Die Statistik-Zwiebel: Was bedeuten „1,2 Millionen“ wirklich?

    Bevor wir Ergebnisse blind übernehmen, müssen wir die Datenbasis verstehen. In der heutigen „Headline-Ökonomie“ wirken große Zahlen wie Autoritäts-Booster. „1,2 Millionen analysierte Ergebnisse“ suggeriert eine lückenlose Vermessung des Internets, die keinen Raum für Zufälle lässt.

    Doch wissenschaftlich betrachtet müssen wir differenzieren. Man muss sich die Datenbasis wie eine Zwiebel oder einen Trichter vorstellen, der nach unten hin immer enger wird:

    1. Der Top of Funnel (Die Basis): Ja, es wurden 1,2 Millionen Keywords (SERPs) überwacht. Das ist das Spielfeld. Aber hier liegt bereits der erste „Selection Bias“: Die Keywords waren stark kommerziell geprägt (z.B. „Best CRM Software“). Informationsorientierte Nischen-Themen sind unterrepräsentiert.
    2. Der erste Filter (AI-Trigger): Nicht jede Suche löst eine AI-Antwort aus. Die Verbreitung von AI Overviews schwankt massiv. Wir betrachten also nur die Teilmenge, bei der Google überhaupt eine Antwort generiert hat.
    3. Die Extraktion (Zitate): Jede AI-Antwort enthält Quellen. Diese müssen extrahiert werden.
    4. Das Matching (Der kritische Kern): Um zu prüfen, wo im Text eine Information stand, muss die Studie den zitierten Satz exakt im Quellcode der Webseite wiederfinden. Hier schrumpft die Datenbasis von der Million auf einen Bereich von ca. 18.000 bis 50.000 verifizierten Datenpunkten.

    Zwischenfazit: Die Stichprobe ist immer noch groß genug, um statistisch signifikant zu sein – sie ist weit besser als bloßes Bauchgefühl. Aber sie ist kein absolutes Naturgesetz. Wir sollten die Ergebnisse als starke Heuristik (Faustregel) betrachten, aber immer im Hinterkopf behalten, dass hier primär „Review-Content“ analysiert wurde! Eine Übertragung auf andere Content-Typen ist zumindest fraglich!

    Der „Front-Loading“-Effekt: Ein klassisches Henne-Ei-Problem

    Das wichtigste Chart der Studie ist visuell eindeutig: 44,2 % aller Zitate stammen aus den ersten 30 % des Contents. Danach fällt die Kurve steil ab. Indig nennt das treffend den „Busy Editor“-Effekt: Die KI liest wie ein gestresster Chefredakteur – ein schneller Scan des Intros, die wichtigsten Fakten werden mitgenommen, der Rest wird ignoriert.

    Which sections of a text are most likely to be cited by ChatGPT

    Hier müssen wir jedoch methodisch kritisch einhaken. Die Studie zeigt eine Korrelation, keine Kausalität.

    • Die These der Studie: Die KI bevorzugt technisch den Anfang (Attention Bias).
    • Der Gegenentwurf (Nullhypothese): Gute Autoren schreiben seit 100 Jahren nach dem Prinzip der „Umgekehrten Pyramide“.

    Jeder Journalist lernt am ersten Tag: Das Wichtigste (die News, das Fazit, die Antwort) gehört nach oben – „Above the Fold“. Wenn also 90 % der relevanten Fakten im Internet zufällig im ersten Drittel stehen, dann muss die KI sie dort finden, um die Frage korrekt zu beantworten.

    Sprich: Messen wir hier also einen Bias der Maschine oder einfach nur den Qualitätsstandard guter Autoren? Die Studie selbst kann das aufgrund ihres Designs (Beobachtung von Live-Daten statt Labor-Experiment) nicht auflösen.

    Die wissenschaftliche Evidenz: Warum Indig trotzdem recht hat

    Müssen wir die Studie also verwerfen? Nein. Denn auch wenn Indigs Design die Ursache nicht isolieren kann, gibt es harte wissenschaftliche Rückendeckung für die „Front-Loading“-These aus der Computerwissenschaft.

    Die berühmte Studie „Lost in the Middle“ von Liu et al. beweist das Phänomen unter Laborbedingungen. Die Forscher zeigten, dass LLMs (wie GPT-4 oder Claude) eine U-förmige Aufmerksamkeitskurve haben:

    1. Primacy Effect: Informationen ganz am Anfang des Kontext-Fensters werden exzellent verarbeitet.
    2. Recency Effect: Informationen ganz am Ende ebenfalls.
    3. The Valley of Death: Informationen in der Mitte eines langen Kontextes werden signifikant häufiger „vergessen“ oder halluziniert.

    Dazu kommt ein technischer Aspekt der RAG-Systeme (Retrieval Augmented Generation): Um Kosten und Rechenleistung zu sparen, lesen Crawler oft nicht die gesamte Seite, sondern setzen ein Token-Limit. Da wir als SEOs nie wissen, wann der Crawler „abschneidet“ (Cut-off), ist das Ende einer Seite ein unsicherer Ort. Der Anfang bleibt der einzige sichere Hafen für deine Kernbotschaften.

    Die 5 Gewinnermerkmale der KI-Suche (und ihr Faktencheck)

    Neben der Positionierung hat die Studie fünf spezifische textliche Eigenschaften identifiziert, die Gewinner-Inhalte gemeinsam haben. Doch auch hier gilt: Nicht blind optimieren! Lass uns jeden Punkt mit der gleichen methodischen Strenge behandeln wie das Front-Loading.

    A. Definitive Language (Klartext statt Konjunktiv)

    Was die Studie sagt: Zitierte Texte enthalten fast doppelt so häufig definitive Sprache wie nicht-zitierte (36,2 % vs. 20,2 %). Gemeint sind klare „X ist Y“-Strukturen mit Verben wie „is defined as“ oder „refers to“.

    Definitive vs. vague language

    Die methodische Einordnung: Die Erklärung der Studie klingt technisch elegant: In einer Vektor-Datenbank fungiere das Wort „ist“ als starke semantische Brücke zwischen Subjekt und Definition. Wenn ein Nutzer fragt „Was ist X?“, suche das Modell den kürzesten Vektorpfad – und der führe fast immer zu einem direkten „X ist Y“-Satz.

    Das ist im Kern korrekt, aber die Kausalität ist komplizierter als die Studie es darstellt. Was wir hier beobachten, ist kein mysteriöser „Preference Bias“ der KI für Klartext. Es ist ein Artefakt der Architektur.

    LLMs operieren auf Basis eines Attention-Mechanismus (Vaswani et al., 2017, „Attention Is All You Need“). Dieser Mechanismus berechnet die Beziehungsstärke zwischen Token-Paaren im Kontext. Ein Satz wie „Demo-Automatisierung ist der Prozess der Nutzung von Software zur…“ erzeugt in der Attention-Matrix einen extrem starken, gerichteten Pfad vom Subjekt zum Prädikat. Ein Satz wie „In unserer schnelllebigen Welt wird Automatisierung immer wichtiger…“ verteilt die Attention-Gewichte diffus auf irrelevante Füllwörter – die eigentliche Relation ertrinkt im Rauschen.

    Das Phänomen lässt sich auch über das Konzept der Perplexität erklären: Definitive Sätze sind für das Modell vorhersagbarer (niedrigere Perplexität), weil die „X ist Y“-Struktur eines der häufigsten Muster in den Trainingsdaten ist. Schwammige Formulierungen erhöhen die Perplexität, was das Modell als Signal für geringere Informationsqualität interpretiert.

    Aber Vorsicht – der YMYL-Vorbehalt: In Nischen wie Medizin, Recht oder Finanzen kann ein „X ist Y“-Absolutismus gefährlich werden. Wenn ein medizinischer Text behauptet „Vitamin D heilt Depressionen“ statt „Studien zeigen einen Zusammenhang zwischen Vitamin-D-Mangel und depressiven Symptomen“, dann gewinnt er vielleicht das Zitat – aber verliert die fachliche Seriosität. Googles Quality-Rater-Guidelines bewerten übermäßige Vereinfachung in YMYL-Bereichen explizit negativ! Die Empfehlung „Schreib definitiv“ ist also kein Universalgesetz, sondern gilt primär für die untersuchte Stichprobe kommerzieller Ratgeber-Queries.

    Das Fazit für deine Praxis: Beantworte die Kernfrage in deinem ersten Satz mit einer klaren „X ist Y“-Struktur. Aber verwechsle „definitiv“ nicht mit „vereinfacht“. Präzision schlägt Vagheit – aber erfundene Gewissheit schlägt zurück.

    B. Conversational Question-Answer Structure (Q&A-Format)

    Was die Studie sagt: Zitierte Texte enthalten doppelt so häufig Fragezeichen wie nicht-zitierte (18 % vs. 8,9 %). Noch wichtiger: 78,4 % dieser Fragen stehen in Überschriften (H2-Tags). Die KI behandelt die Überschrift als User-Prompt und den folgenden Absatz als generierte Antwort.

    Conversational writing

    Die methodische Einordnung: Von allen fünf Ergebnissen hat dieses die stärkste kausale Begründung – und zwar direkt aus der Architektur moderner LLMs.

    Der Grund liegt im sogenannten „Instruction Tuning“ (auch „RLHF“ – Reinforcement Learning from Human Feedback, Ouyang et al., 2022). Jedes moderne LLM durchläuft nach dem Pretraining eine Feinabstimmungsphase, in der es auf Millionen von Frage-Antwort-Paaren trainiert wird. Das innere Format ist dabei immer identisch: User: [Frage] → Assistant: [Antwort]. Dieses Schema ist so tief im Modell verankert, dass es quasi die „Muttersprache“ jedes LLMs darstellt.

    Wenn du nun eine H2-Überschrift als Frage formulierst und im ersten Satz darunter direkt antwortest, dann replizierst du exakt das Format, auf das das Modell optimiert ist. Die Studie beschreibt dafür den treffenden Mechanismus des „Entity Echoing“: Wenn die Überschrift nach „SEO“ fragt und das erste Wort der Antwort „SEO“ ist, erzeugt das im Attention-Mechanismus einen direkten Rückbezug, der die Relevanz des Absatzes für die Frage maximiert.

    Das ist auch aus der Information-Retrieval-Forschung gut belegt. BM25, der klassische Ranking-Algorithmus, bewertet Term-Frequenz und inverse Dokumentfrequenz. Neuere Dense-Retrieval-Modelle arbeiten ähnlich: Ein Passage wird als relevant für eine Query eingestuft, wenn die semantische Überlappung im Embedding-Raum hoch ist. Eine Frage-Überschrift, die das Query exakt spiegelt, erzeugt maximale Überlappung.

    Warum das Ergebnis trotzdem nicht universell ist: Die 78,4 % gelten für die untersuchte Stichprobe kommerzieller Queries. Für narrative Formate (Longform-Reportagen, wissenschaftliche Abhandlungen) ist eine reine Q&A-Struktur weder üblich noch sinnvoll. Die Studie misst, was KI-Suchmaschinen für informationssuchende Queries zitieren – nicht, was generell den „besten“ Content ausmacht.

    Das Fazit für deine Praxis: Formuliere deine H2-Überschriften als exakte User-Fragen. Beginne den ersten Satz darunter mit einer direkten Antwort, die die Schlüssel-Entität aus der Frage wiederholt. Das ist kein Hack – es ist die strukturelle Sprache, die LLMs am besten verstehen.

    C. Entity Richness (Faktendichte)

    Was die Studie sagt: Normaler englischer Text hat eine „Entitätsdichte“ (Anteil von Eigennamen wie Marken, Tools, Personen) von ca. 5–8 %. Häufig zitierter Text liegt bei 20,6 % – fast dem Vierfachen.

    Entity richness

    Die methodische Einordnung: Die Referenzwerte von 5–8 % stammen laut Studie aus linguistischen Standard-Korpora wie dem Brown Corpus und dem Penn Treebank. Das ist eine solide Benchmark für „durchschnittliches Englisch“. Der Sprung auf 20,6 % ist beeindruckend – aber methodisch liegt hier ein klassischer Zirkelschluss vor, den die Studie nicht adressiert.

    Das Problem: Die untersuchten Suchanfragen sind überwiegend kommerziell und entitätsbezogen. „Best CRM Software“ verlangt nach Antworten, die Salesforce, HubSpot und Pipedrive nennen. Ein Text, der diese Frage beantwortet, ohne Entitäten zu nennen, wäre schlicht eine schlechte Antwort. Die hohe Entitätsdichte der „Winner“ ist also kein KI-Bias, sondern eine Mindestanforderung an inhaltliche Relevanz für diese Art von Queries.

    Wissenschaftlich lässt sich das über das Konzept des „Information Gain“ einordnen. In der Information-Retrieval-Theorie wird ein Dokument als relevanter eingestuft, wenn es mehr neue, konkrete Information liefert als konkurrierende Dokumente. Entitäten sind dabei die effizientesten Informationsträger: Der Satz „Das Gerät ist schnell“ enthält nahezu null Information Gain. Der Satz „Der Apple M2-Chip verarbeitet 15,8 Billionen Operationen pro Sekunde“ trägt drei Entitäten (Apple, M2, Operationen/Sekunde) und einen konkreten Datenpunkt. Für ein Sprachmodell bedeutet mehr Entitäten pro Satz weniger Perplexität bei der Antwortgenerierung – die Aussage ist „verankert“ und verifizierbar.

    Das Gegenargument: Die 20,6 % sind kein Zielwert zum Reverse-Engineeren. Wenn du künstlich Markennamen in einen Text stopfst, der sie nicht braucht, verschlechterst du die Lesbarkeit, ohne Relevanz zu gewinnen. Entitäten sind kein Stilmittel, sondern ein Indikator für Informationsdichte. Der Unterschied ist entscheidend!

    Das Fazit für deine Praxis: Ersetze generische Formulierungen durch konkrete Entitäten – Markennamen, Produktbezeichnungen, Kennzahlen, Personennamen. Aber tu das nicht als Keyword-Stuffing, sondern weil es deinen Text faktisch besser macht. Und ja: Nenne ruhig auch Wettbewerber. Ein Vergleich „Salesforce vs. HubSpot vs. Pipedrive“ ist für die KI informativer als „verschiedene Tools im Vergleich“.

    D. Balanced Sentiment (Die „Analysten-Stimme“)

    Was die Studie sagt: Zitierte Texte haben einen durchschnittlichen Subjectivity Score von 0,47 auf einer Skala von 0,0 (rein objektiv) bis 1,0 (rein subjektiv). Die KI will weder trockenen Wikipedia-Stil (0,1) noch ungefilterte Meinung (0,9), sondern eine Art „Analysten-Stimme“.

    Balanced sentiment

    Die methodische Einordnung: Der Subjectivity Score ist eine Standard-Metrik im Natural Language Processing (NLP) und misst den Anteil persönlicher Meinungen, Emotionen oder Wertungen in einem Text. Die Studie nutzt ihn, um zu zeigen, dass ein ausgewogener Ton bevorzugt wird. Aber wie belastbar ist dieser Wert?

    Zunächst das methodische Problem: Ein Subjectivity Score von 0,47 ist ein Durchschnitt. Durchschnitte können irreführend sein, wenn die Verteilung bimodal ist – also wenn sowohl sehr objektive als auch sehr subjektive Texte zitiert werden und sich der Mittelwert „zufällig“ bei 0,5 einpendelt. Ohne Einsicht in die Verteilung der Scores (Standardabweichung, Quartile) ist die Aussagekraft begrenzt.

    Trotzdem ist das Ergebnis wissenschaftlich plausibel, und zwar aus zwei Gründen:

    Erstens durchlaufen alle modernen LLMs ein Safety-Alignment via RLHF. In diesem Prozess werden die Modelle systematisch darauf trainiert, ausgewogene, hilfreiche und nicht-polarisierende Antworten zu bevorzugen. Wenn ein Retrieval-System einen Textbaustein für eine Antwort auswählt, wird ein Kandidat, der selbst bereits dem trainierten „Ton“ des Modells ähnelt, mit höherer Wahrscheinlichkeit übernommen. Extreme Meinungen – ob euphorisch positiv oder harsch negativ – weichen vom trainierten Gleichgewicht ab und werden häufiger verworfen.

    Zweitens gibt es einen informativen Grund: Ein rein faktischer Satz („Das iPhone 15 wurde im September 2023 veröffentlicht“) beantwortet ein „Wann?“, aber kein „Warum sollte mich das interessieren?“. Ein rein meinungsbasierter Satz („Das iPhone 15 ist ein absolutes Meisterwerk!“) liefert keine verwertbare Information. Der „Sweet Spot“ bei ~0,5 ergibt sich, weil die nützlichsten Antworten Fakt und Einordnung verbinden: „Das iPhone 15 setzt auf den A16-Chip (Fakt), was es besonders für Content Creator attraktiv macht (Analyse).“

    Das Fazit für deine Praxis: Schreib wie ein Analyst, nicht wie ein Marktschreier und nicht wie ein Lexikon. Jede Behauptung braucht einen Fakt als Fundament, und jeder Fakt profitiert von einer Einordnung, die dem Leser (und der KI) sagt, warum er relevant ist. Vermeide sowohl werbliche Superlative („Das beste Tool aller Zeiten!“) als auch emotionslose Datenfriedhöfe.

    E. Business-Grade Writing (Einfachheit ≠ Verdummung)

    Was die Studie sagt: „Winner“-Texte haben einen Flesch-Kincaid-Grade-Level von 16 (College-Niveau), „Loser“-Texte von 19,1 (akademisches PhD-Niveau). Selbst bei komplexen Themen schadet übermäßige sprachliche Komplexität.

    Business-grade writing

    Die methodische Einordnung: Der Flesch-Kincaid-Score ist eine der ältesten Lesbarkeitsformeln (Kincaid et al., 1975) und basiert auf genau zwei Variablen: durchschnittliche Satzlänge und durchschnittliche Silbenzahl pro Wort. Das ist einerseits ein Vorteil (objektiv, reproduzierbar), andererseits eine massive Vereinfachung. Der Score misst Oberflächenkomplexität, nicht inhaltliche Tiefe.

    Was die Studie trotzdem richtig erfasst, ist ein Architektur-Effekt der Transformer-Modelle. LLMs verarbeiten Text Token für Token und berechnen Attention-Gewichte zwischen allen Token-Paaren in einem Fenster. Bei langen Schachtelsätzen mit vielen Einschüben steigt die Distanz zwischen semantisch zusammengehörigen Token. Die Attention muss über mehr „Rauschen“ hinweg die richtige Verbindung herstellen – was die Wahrscheinlichkeit erhöht, dass der semantische Bezug verloren geht.

    Konkret: Der Satz „Salesforce, das 1999 von Marc Benioff gegründete und heute in San Francisco ansässige Unternehmen, das sowohl im B2B- als auch im B2C-Segment aktiv ist, bietet eine CRM-Lösung an“ zwingt das Modell, über 25+ Token hinweg die Verbindung zwischen „Salesforce“ und „CRM-Lösung“ aufrechtzuerhalten. Der Satz „Salesforce bietet eine CRM-Lösung an“ erzeugt die gleiche Kernaussage mit maximaler Attention-Konzentration.

    Hier widerlegt die Studie übrigens eine verbreitete Annahme in der SEO-Szene: Nein, KI belohnt nicht das „Dumbing Down“ von Content! Ein Flesch-Kincaid-Score von 16 ist College-Niveau – das entspricht dem Stil von The Economist oder Harvard Business Review. Es geht nicht darum, Fachsprache zu vermeiden, sondern darum, sie in klaren syntaktischen Strukturen zu verpacken. „Einfache Sprache“ bedeutet: kurze Sätze, Subjekt-Verb-Objekt, ein Gedanke pro Satz. Es bedeutet nicht: einfache Gedanken.

    Das Fazit für deine Praxis: Vereinfache die Satzstruktur, nicht den Inhalt. Zerlege komplexe Aussagen in mehrere kurze Sätze. Nutze Fachbegriffe, wenn sie nötig sind – aber bette sie in klare syntaktische Strukturen ein. Dein Zielwert ist „The Economist“, nicht „Blöd-Zeitung“ und nicht „Doktorarbeit“.

    Du willst tiefer in die Welt der Generative Engine Optimization eintauchen und lernen, wie du deine Inhalte systematisch für die KI-Suche fit machst? Genau darum geht es in meinem neuen Buch „SEO für KI – Auf den Punkt“, an dem ich gerade schreibe. Abonniere gerne meinen Newsletter, um den Start nicht zu verpassen.

  • GEO-Expertenbefragung 2026: Was 22 SEO-Profis wirklich über KI-Sichtbarkeit denken

    GEO-Expertenbefragung 2026: Was 22 SEO-Profis wirklich über KI-Sichtbarkeit denken

    22 der erfahrensten SEO-Köpfe im DACH-Raum, eine Umfrage mit 50 Fragen, null Konsens bei den spannendsten Themen. Die Ergebnisse der GEO-Expertenbefragung für mein kommendes Buch „SEO für KI“ (O’Reilly Verlag) sind da — und sie räumen mit einigen Mythen auf.

    Im Januar 2026 habe ich für mein Buch „SEO für KI — Auf den Punkt“ (O’Reilly Verlag, geplant Q3 2026) eine umfangreiche Expertenbefragung durchgeführt. 22 deutschsprachige SEO- und GEO-Experten haben sich die Zeit genommen, 50 Fragen zu beantworten — von der Relevanz einzelner KI-Systeme über Prompt-Recherche bis hin zu Agentic AI. 91 Prozent der Teilnehmer bringen mehr als zehn Jahre SEO-Erfahrung mit, verteilt auf Agenturen, Beratung, Tool-Anbieter und Inhouse-Positionen.

    Was dabei herausgekommen ist, überrascht an vielen Stellen. Nicht weil die Antworten besonders exotisch wären, sondern weil sie so nüchtern sind. Hier die wichtigsten Erkenntnisse.

    Infografik zur GEO-Expertenbefragung 2026 mit Ergebnissen von 22 SEO/GEO-Experten zu 50 Fragen. Sektion 1 zeigt die Relevanz der KI-Systeme: Google AI Overviews führt mit 96 Prozent (73 Prozent sehr relevant), ChatGPT erreicht 87 Prozent, während 64 Prozent der Experten für Perplexity weniger als 5 Prozent Marktanteil erwarten. Sektion 2 zur Einordnung von GEO als Disziplin: 59 Prozent sehen GEO als SEO mit Anpassungen, 36 Prozent fordern substanzielle Ergänzungen, 82 Prozent investieren mindestens 11 Prozent ihrer Zeit in GEO. Sektion 3 zu Taktiken: 55 Prozent sehen keinen Bedarf für llms.txt, 82 Prozent betreiben Prompt-Recherche, 68 Prozent halten FAQs für nützlich. Sektion 4 zu Traffic-Prognosen: 82 Prozent erwarten weniger organischen Google-Traffic, 50 Prozent messen KI-Traffic nicht oder nur teilweise, 64 Prozent erwarten dass KI-Suche dominant wird. Sektion 5 zeigt die Konsens-Übersicht: Sehr hoher Konsens bei Google-Dominanz (96 Prozent) und weniger Traffic (82 Prozent), hoher Konsens bei Earned Media und Snake-Oil-Warnung, niedriger Konsens bei GEO als eigenständige Disziplin, sehr niedriger Konsens bei llms.txt-Wirksamkeit (27 Prozent). Stärkste Polarisierung bei Agentic AI.
    Daten: GEO-Expertenbefragung 2026 · afaik.de/geo-expertenbefragung-2026 · Kai Spriestersbach · Visualisierung: TikZ/LATEX via Claude Cowork

    1. Google dominiert, der Rest kämpft um Aufmerksamkeit

    Die deutlichste Botschaft der Umfrage: Wer über KI-Sichtbarkeit spricht, spricht zuerst über Google. 73 Prozent der Befragten halten Googles AI Mode und AI Overviews für „sehr relevant“, weitere 23 Prozent für „relevant“. Kein einziger Experte stuft Google als wenig oder nicht relevant ein. Das ist der stärkste Konsens aller Relevanz-Bewertungen in der gesamten Umfrage.

    ChatGPT folgt mit Abstand auf Platz zwei: 32 Prozent „sehr relevant“, 55 Prozent „relevant“. Dahinter wird es dünn. Perplexity, Copilot und Claude werden von der Mehrheit als nachrangig eingestuft. Die KI-Suchlandschaft ist in der Wahrnehmung der Experten ein Zweikampf — und Google führt deutlich.

    Besonders aufschlussreich sind die Prognosen für die kommenden drei Jahre. 64 Prozent erwarten für Perplexity einen Marktanteil von unter 5 Prozent. Und bei ChatGPT gehen die Meinungen so weit auseinander wie bei keiner anderen Frage: Von „unter 5 Prozent“ bis „über 50 Prozent“ ist alles vertreten. 18 Prozent trauen sich nicht einmal eine Einschätzung zu — die höchste Enthaltungsrate der gesamten Befragung. Johannes Beus (Geschäftsführer, SISTRIX GmbH) erklärt die Skepsis gegenüber Perplexity: Es fehle an eigenen Modellen, eigenem Index und Distributionskanälen. Eric Kubitz (Head of AI, Wort & Bild Verlag) merkt pragmatisch an: „Kommt darauf an, wer Perplexity kauft.“

    Meine Meinung dazu: Angesichts der jünsten Werbeintegration bei ChatGPT und immer besserer KI in Googles Suchergebnissen, gehe ich nicht davon aus, dass OpenAI weiter an Marktanteilen gewinnt. Perplexity ist seit der integration der Deep Research Funktion in so gut wie allen Chatbots auch kein besseres Produkt mehr – also wieso sollte man wechseln?

    2. GEO ist kein neues SEO — aber auch kein altes

    Die Gretchenfrage: Ist GEO eine eigene Disziplin oder nur SEO mit neuem Anstrich? Die Antwort fällt differenzierter aus als der LinkedIn-Diskurs vermuten lässt. 59 Prozent sehen GEO als „SEO mit Anpassungen“, 36 Prozent halten „substanzielle Ergänzungen“ für nötig, und ein einzelner Befragter sieht „unterschiedliche Disziplinen“.

    Die qualitative Analyse zeigt: Die meisten Experten verankern GEO klar im SEO-Kontext, sehen aber gleichzeitig echten Zusatzaufwand. Astrid Kramer (Senior SEO & UX Consultant, Get Em All Consult) bringt es auf den Punkt: „Allerdings ist das bei genauer Betrachtung kein GEO, sondern einfach hochwertiges SEO, wie es bereits seit Jahren gemacht werden sollte.“

    Michael Weber (Geschäftsführer, searchVIU GmbH) argumentiert technisch: „Solange KI-Systeme auf klassische Such-Indizes für ihr Grounding zurückgreifen, bleibt SEO das Fundament jeder LLM-Optimierung.“ Und Philipp Götza (SEO Consultant, Wingmen Online Marketing) erdet die Diskussion: „Es sind immer die langweiligen Sachen, die wir lange und konsistent gut machen müssen, um erfolgreich zu sein. Das ändert sich nicht, nur weil es ein neues Akronym gibt.“

    Marcus Tandler (Chief Evangelist at Ryte, Semrush) sieht es anders: Für ihn ist der Ratschlag „Klassisches SEO ist genug!“ einer der am meisten überbewerteten Tipps der Branche. Er fordert ein fundamentales Umdenken: „Klassisches SEO optimiert für den Crawler. Modernes SEO über das Standardmaß hinaus optimiert für den Reasoning-Prozess der KI. Wir müssen aufhören, nur Dokumente zu bauen, und anfangen, Wissensmodelle zu füttern.“

    Eoghan Henn (Freier Berater, rebelytics.com) bleibt dagegen bei der Erfahrung: „Bisher kann ich nicht behaupten, dass ich mit gezielten Maßnahmen den GEO-Erfolg meiner Kunden verbessern konnte. Allerdings sehe ich, dass eine starke SEO-Basis auch eine gute Voraussetzung für den GEO-Bereich ist.“

    Trotzdem: Kein einziger Befragter investiert null Prozent seiner Arbeitszeit in GEO-Themen. 82 Prozent investieren mindestens 11 Prozent, fast die Hälfte sogar über 25 Prozent. Für eine Disziplin, die erst seit rund zwei Jahren existiert, ist das bemerkenswert.

    Ich persönliche sehe GEO als Erweiterung des bisherigen SEO, man könnte auch sagen eine Weiterentwicklung, denn in Zukunft wird kein Suchsystem mehr ohne KI auskommen!

    3. llms.txt: Der Mythos, der nicht sterben will

    Eines der vielleicht überraschendsten Ergebnisse: 55 Prozent der Experten haben llms.txt nicht implementiert und sehen auch keinen Bedarf. Nur 27 Prozent haben es umgesetzt. Angesichts des medialen Hypes ein klares Signal.

    Philipp Götza ist deutlich: „llms.txt. Vorgeschlagen, nie wieder vom Autor befeuert und hält sich als Mythos bis heute in den Köpfen. Niemand kann eine direkte Wirkung auf KI-Suchsysteme nachweisen und niemand unterstützt den Vorschlag offiziell.“

    Eoghan Henn (Freier Berater, rebelytics.com) liefert Daten dazu: „Ich war überrascht, als ich Anfang 2026 auf 50 Traffic-starken Domains analysiert habe, ob KI-Crawler gezielt nach einer llms.txt-Datei suchen. Das Ergebnis war wirklich sehr ernüchternd, da kein einziger KI-Crawler auf diesen 50 stark besuchten Domains gezielt nach einer llms.txt-Datei gesucht hat.“

    Thomas Peham (CEO, OtterlyAI) bestätigt aus Tool-Anbieter-Perspektive: „Unsere LLMs.txt Datei wird von AI Bots gecrawled, wir sehen aber keine positive Auswirkung auf unsere Sichtbarkeit.“ Johannes Beus differenziert: „Die Nutzung von llms.txt wird aktuell häufig überschätzt. Zwar kann sie ein zusätzliches Signal für AI-Systeme darstellen, ihr tatsächlicher Einfluss auf Zitierung oder Sichtbarkeit in AI-Antworten ist jedoch bislang nicht belegt und stark systemabhängig.“

    Johan v. Hülsen (SEO Consultant & Geschäftsführer, Wingmen Online Marketing GmbH) kommentiert trocken: „Von LLMs.txt hab ich keine Wirkung erwartet und konnte keine feststellen.“ Eric Kubitz testet auf seine Art: „Wir haben diese leer implementiert und geschaut, ob sie überhaupt aufgerufen wird.“ Und Udo Raaf (Geschäftsführer, ContentConsultants) urteilt: „Sehe keinen Sinn in Formaten, die anfällig für Spam sind.“

    Dem kann ich nichts hinzufügen, mein letzter Artikel hat die llms.txt bereits für tot erklärt:

    https://www.afaik.de/die-llms-txt-ist-tot/

    4. Prompt-Recherche: Alle machen es, keiner weiß wie

    82 Prozent der Befragten betreiben bereits Prompt-Recherche, 50 Prozent sogar regelmäßig. Das klingt nach einer etablierten Praxis — ist es aber nicht. Denn das Kernproblem ist ungelöst: Es gibt kein Äquivalent zum Suchvolumen, und es wird vermutlich nie eines geben.

    Marcus Tandler beschreibt den Paradigmenwechsel: „Die größte Herausforderung besteht darin, die deterministische Denkweise zu verlassen. Im klassischen SEO war eine Suchanfrage ein starrer Befehl in Form eines Keywords. Bei Prompts bewegen wir uns hingegen in einem probabilistischen Raum.“

    Auch wenn Microsofts Bing Webmaster Tools jetzt separate Daten zur KI-Leistung ausweisen, sehen wir dort nur die Grounding Queries und nicht die von den Nutzern eingegebenen Prompts. Philipp Götza untermauert das quantitativ: „Wir haben keinen vergleichbaren Nachfrage-Proxy wie Suchvolumen. Prompts sind deutlich länger und bis auf wenige Ausnahmen n = 1, daher kann es solche Daten auch nicht geben.“

    Alexander Rus (Inhaber & Geschäftsführer, Evergreen Media AR GmbH) geht noch weiter: „Für einen bestimmten Prompt aufzuscheinen zu wollen, ist nicht sinnvoll. Das ist aus meiner Sicht nicht wie das Ganze funktioniert, weil es viel zu viele Variablen gibt.“ Er kritisiert auch die Tool-Landschaft: „Die meisten AI-Tracking Tools von SEOs wurden gebaut und wollen das alles wieder auf Keywords reduzieren, wobei die Transformation von KI-Assistenten ist, dass sie dialogbasiert arbeiten.“

    Johan v. Hülsen ergänzt eine oft übersehene Nuance: „Kaum aber wird diskutiert, dass ein Prompt kein einzelnes Ereignis ist. Sondern Teil einer fluiden Diskussion zwischen Mensch und Maschine.“ Stefan Fischerländer (Selbständiger Consultant) stellt sogar die Kategorie „Suche“ grundsätzlich infrage: „Ich halte den Ausdruck ‚Suchanfrage‘ im Zusammenhang mit KI-Chatsystemen für völlig falsch.“ Jens Fauldrath (Geschäftsführender Gesellschafter, get traction GmbH) bleibt bewusst lakonisch: „Hirn und Verstand“ seien die beste Methode — man müsse wissen, „dass das alles nicht sehr belastbar ist“.

    Die Methoden sind entsprechend heterogen: Von Kundenbefragungen und Sales-Ticket-Analyse über klassische SEO-Tools als Proxy bis hin zu spezialisierten KI-Monitoring-Tools wie Peec.ai, OtterlyAI und SISTRIX. Götza unterscheidet zudem: „Klassische Suchmaschinen sind deterministisch, KI-Suchsysteme probabilistisch.“ Das verändert die Herangehensweise fundamental.

    Ein besonders praxisrelevantes Detail: Mehrere Experten betonen, dass Erwähnung und Zitierung unterschiedliche Optimierungspfade erfordern. Zitierung liegt näher an klassischem SEO, Erwähnung erfordert stärkeres Brand-Building.

    Ich stimme dem uneingeschränkt zu und habe im Oktober 25 geschrieben, dass trotz aller Schwächen, die Prompt Extraktion mittels Verbalized Sampling derzeit die beste Möglichkeit ist, so etwas wie repräsentativen Prompts wenigstens nahe zu kommen:

    https://www.afaik.de/prompt-research/

    5. Was KI-Systeme zitieren: Fakten schlagen Marketing

    Die Befragten sind sich erstaunlich einig darüber, was in KI-Antworten erscheint: klare, faktenorientierte, gut strukturierte Inhalte mit echtem Informationsgewinn. Marcus Tandler formuliert es bildhaft: „KI-Antworten filtern den ganzen ‚SEO-Füllstoff‘ gnadenlos raus und krallen sich nur die Essenz.

    Eoghan Henn liefert dafür ein anschauliches Beispiel: „Ich habe in mehreren Fällen beobachtet, dass ein Pressemitteilungs-Boilerplate in einer vergrabenen PDF-Datei öfter zitiert wurde, als die offizielle Über Uns-Seite des Unternehmens.“ Der Grund: PR-Boilerplates sind faktenorientiert und für Journalisten geschrieben, die offenbar einen ähnlichen Informationsbedarf wie KI-Systeme haben.

    Florian Stelzner (Geschäftsführender Gesellschafter, Wingmen Online Marketing GmbH) bringt es auf eine Formel: „Die KI zitiert lieber klare Aussagen als schwammige oder lyrisch möglichst ausschweifende Erklärungen.“ Oder kürzer: „Don’t make Systems think.“ Johan v. Hülsen wird konkret: „Kurze klare Sätze mit Belegen. Sätze die nicht in unterschiedliche Richtungen interpretiert werden können und eindeutige Antworten auf Fragen geben.“

    Christopher Wagner (AI Architect, ehem. Head of SEO Rheinische Post Mediengruppe) bringt die technische Perspektive ein: „Hohe semantische Dichte und logische Stringenz machen Inhalte besonders zitierfähig. LLMs […] bevorzugen Kausalität und faktische Härte gegenüber narrativen Einleitungs-, Zwischentext- und Fazitweichmachern.“

    Überraschend positiv werden FAQ-Abschnitte bewertet: 68 Prozent halten sie für „nützlich“ oder „sehr nützlich“ für die KI-Sichtbarkeit. Das ist bemerkenswert, da FAQs in der klassischen SEO-Community zuletzt eher kritisch gesehen wurden. Alexander Rus erklärt warum: „Sie sind sehr einfach extrahierbar, weil sie für sich allein stehen können.“

    Astrid Kramer widerspricht allerdings dem populären Rat, Content gezielt „in Snippet-Form für KI“ zu schreiben: Gute Nutzertexte würden zitiert, künstliche KI-Snippets eher nicht. Das Spannungsfeld zwischen „kurz und prägnant“ und „tiefgehend und kontextreich“ löst sich vermutlich in der Struktur: kurze, extrahierbare Abschnitte innerhalb eines umfassenden Gesamttexts.

    Ich halte FAQs grundsätzlich für eine gute Möglichkeit, klare Antworten auf Fragen der Nutzerinnen und Nutzer zu geben, werde das Thema aber im Buch nochmal ausführlicher analysieren.

    6. Fast alle (82 Prozent) erwarten weniger organischen Traffic

    Die vielleicht beunruhigendste Zahl: 82 Prozent der Experten erwarten eine Abnahme des organischen Traffics durch Google. Das ist die am häufigsten gewählte Option bei der Frage zur Google-Entwicklung — noch vor „Mehr KI-Antworten“ (68 Prozent).

    Udo Raaf rät trotzdem zu Gelassenheit: „Auch wenn die Klicks sich im letzten Jahr halbiert haben, rate ich zu stoischer Gelassenheit.“ Die Messproblematik verschärft die Situation: Die Hälfte der Befragten misst KI-Traffic nicht oder nur teilweise. Referrer-Daten sind unvollständig, KI-Systeme übergeben sie uneinheitlich oder gar nicht.

    Philipp Götza beschreibt das Dilemma: „Jemand der eine Empfehlung bekommen hat, wird im Tracking, egal wie ich es mache, nicht aufschlagen, da es keinen Klick gab.“ Alexander Rus denkt das weiter: „Ich halte generell nichts davon, an Klicks festzuhalten, wenn wir in eine Richtung gehen, wo KI Menschen berät und die machen dann irgendwas.“ Julian Strote (Geschäftsführer, rankeffect digital GmbH) verschiebt den Fokus: „Konzentriert euch auf die Conversion! SEO ist Mittel zum Zweck und auch GEO wird Mittel zum Zweck werden.“ Und Jens Fauldrath relativiert grundsätzlich: „Sichtbarkeit ist halt nichts, was in sich ein Ziel ist. Ist es im SEO auch nicht.“

    Auch hier kann ich nur zustimmen, speziell die Messbarkeit halte ich für ein Riesen-Problem angesichts fehlender Referrer-Informationen und utm-Parametern bei vielen Chatbots, worüber ich im Dezember hier schon berichtet hatte:

    https://www.afaik.de/ki-chatbot-traffic-analyse/

    7. Earned Media ist der neue Hebel

    Der deutlichste neue Trend: Digitale PR und Markenpräsenz jenseits der eigenen Domain werden als zentral bewertet. Über zwei Drittel der Teilnehmer nennen Digitale PR, Brand Mentions und externe Präsenz als wichtigste Ergänzung zu klassischem SEO.

    Alexander Rus bringt es auf den kürzesten Nenner: „Werde eine Brand, die man nicht ignorieren kann.“ Michael Weber beschreibt die Verschiebung: „External Reputation statt Linkbuilding. Der Fokus verschiebt sich: Es geht weniger um Backlinks als darum, in externen Quellen genannt und positiv bewertet zu werden. Die KI liest mit — und gewichtet Reputation.“Anja Höbarth (CSO & Head of SEO, SlopeLift PM Media GmbH) bestätigt: „Ganz eindeutig die Digitale PR. Was wo und wie über eine Brand offpage gesagt wird ist wichtiger denn je und geht weit über das, was man bei SEO als Backlink versteht, hinaus.“

    Johan v. Hülsen macht es greifbar: „Bisher konnte man mit gutem SEO einen Mangel an Produktqualität und USP teilweise verschleiern. Mit KI-Suchsystemen funktioniert das nicht mehr.“ Julian Strote formuliert es ähnlich: „Es reicht nicht mehr, dass eine Webseite verlinkt wird. Die eigene Marke muss im Kontext relevanter Themen im Web diskutiert werden.“

    Ich sehe es ganz ähnlich und habe Kunden sogar schon dazu geraten ein Affiliate-Programm zu starten, damit andere Webseiten, die eine hohe Relevanz als zitierte Quellen besitzen, deren Produkte testen und besprechen. Von einfachem Linkbuilding über gekaufte Links auf Seiten die ohnehin niemand besucht halte ich nach wie vor nichts.

    8. Die Fragmentierung: Google vs. ChatGPT vs. der Rest

    Ob man für verschiedene KI-Systeme unterschiedlich optimieren muss, ist die am stärksten polarisierte Frage der Umfrage — keine Antwortoption erreicht auch nur 33 Prozent. Die Branche hat hier kein einheitliches Bild.

    Johannes Beus beschreibt die Systemunterschiede fundiert: „Die Unterschiede zwischen den AI-Systemen sind erheblich. Google-basierte Systeme orientieren sich in der Bewertung von Quellen stark an etablierten Mechanismen der Google-Websuche. ChatGPT verfügt über diese Such- und Bewertungshistorie in dieser Form nicht.“ Florian Stelzner geht weiter: „Die Unterschiede sind sogar in der selben Systemlandschaft unterschiedlich, je nachdem welches Modell genutzt wird.“

    Die Mehrheit empfiehlt dennoch eine generelle Strategie statt systemspezifischer Optimierung. Eric Kubitz hält separate Optimierung sogar für „Unsinn“. Michael Weber sagt: „Die Grundprinzipien sind identisch, nur die Details variieren.“

    Ich halte eine unterschiedliche Optimierung, trotz der Unterschiede in den Systemen für wenig sinnvoll. Die Unterschiede ergeben sich aktuell noch aus dem Rückstand der relativ neuen Suchsysteme von Perplexity und ChatGPT und dem Datenvorsprung von Googles vor bing und allen anderen Suchmaschinen. Mittelfristig wird es jedoch, wie im SEO auch, so sein, dass „Was für Googles KI gut ist, ist für die anderen KIs auch gut.“ Zumindest habe ich noch keinen grundsätzlich neuen oder anderen Ansatz gesehen, der etwas anderes erfordern würde.

    9. Warnung vor Snake Oil

    Der Tenor bei den Praxisratschlägen ist auffällig konservativ. Die Experten warnen geschlossen vor Aktionismus und Hype. Jens Fauldrath ist dabei am deutlichsten: „Aktuell wird sehr viel Snake Oil verkauft. Da will sich eine Branche wohl schnell den Ruf ruinieren.“ Michael Weber vergleicht die aktuelle Situation mit dem „Wildwest der SEO-Anfangsjahre“ und warnt: „Wer sich von selbsternannten Experten und vermeintlichen Patentlösungen wie llm.txt oder Schema-Kosmetik blenden lässt, wiederholt die Fehler der SEO-Frühzeit.“

    Christopher Wagner fordert Quellenkritik: „Ich rate dazu, radikal zu hinterfragen: ‚Wer spricht da gerade? Ein Tool-Anbieter mit Verkaufsdruck oder ein erfahrener AI-Architect?’“ Johannes Bornewasser (Consultant & Herausgeber, Teneriffa News) wird knapp: „Hört auf, jeden Test als Geheimtrick zu verkaufen!“ Anke Probst (Head of SEO, 1337 UGC GmbH) wählt eine einprägsame Metapher: „Springt nicht auf jeden vorbeifahrenden Zug auf, hinterfragt erst wohin er fährt, ob ihr die richtige Fahrkarte habt bzw. ob ihr da mit eurem Business überhaupt hin müsst.“

    Astrid Kramer empfiehlt einen Perspektivwechsel: „Hört auf, GEO als Optimierungsproblem zu denken — und fangt an, es als Qualitätsaufgabe zu behandeln.“ Stefan Fischerländer fordert ein Umdenken: „Bitte hört auf, die KI-Chatsysteme als Suchsysteme zu betrachten. Menschen möchten nicht suchen, Menschen möchten ihre Probleme lösen.“

    Eoghan Henn rät: „Ruhig bleiben, nachdenken, experimentieren und analysieren — anstatt in Aktionismus zu verfallen.“ Udo Raaf hält sich lieber an „seriöse wissenschaftliche Untersuchungen“ als an das, was auf LinkedIn kursiert. Und Florian Stelzner bringt eine ethische Dimension ein: „Ich bin einst angetreten, um das Netz besser zu machen und nicht, um es systematisch vollzuspammen.“

    Ich möchte von Udo Raaf gerne mal erfahren, welchen „wissenschaftlichen Untersuchungen“ er hier vertraut, denn ich forsche und promoviere gerade genau in diesem Bereich und so viel gibt es dazu (noch) nicht aus der akademischen Welt. Mich persönlich nerven die ganzen Pseudowissenschaftlichen „Studien“, die irgendwelche Firmen auf Basis proprietärer Daten in intransparenten Prozessen „analysieren“ und die Erkenntnisse daraus als „Die Wahrheit“ verkaufen. Das ist übrigens ein weiterer Grund, wieso ich nach meiner SEO-Abstinenz mich verstärkt wieder diesen Themen widme.

    10. Agentic AI: Die nächste Front

    Bei Agentic AI zeigt sich die stärkste Spreizung der gesamten Umfrage. Alexander Rus sieht eine fundamentale Verschiebung: „Der Begriff Optimierung in all diesen Zusammenhängen ist zu klein gedacht. Es wird mehr brauchen als Optimierung, nämlich wirkliche Infrastrukturarbeit.“ Christopher Wagner formuliert einen klaren Handlungsauftrag: „Die Beschäftigung mit Agentic AI und der Nutzung des MCP sollte unbedingt auf der Agenda und Roadmap aller Firmen sein, die im KI-Zeitalter bestehen wollen.“

    Johan v. Hülsen macht es konkret: „Die KI Agenten mit der mutmaßlich größten Verbreitung dürften mittelfristig agentische Browser sein. Da diese Systeme verstehen müssen, was auf dem Bildschirm passiert, profitieren sie massiv von einer klaren Informationsarchitektur und Accessibility-Optimierung.“

    Auf der anderen Seite steht Udo Raaf: „Ich halte das Thema für massiv überschätzt.“ Johannes Beus sieht „noch keinen konkreten Handlungsbedarf“. Anke Probst reagiert mit einem ehrlichen: „Ohgott — gar nicht.“

    Philipp Götza beobachtet die Konvergenz: „Browser werden zunehmend agentisch und können Dinge für mich erledigen. Menschen sind bequem. Wir werden trainiert, nicht mehr zu klicken, selbst zu suchen, sondern lassen suchen.“ Oder poetischer: „Suchen klingt anstrengend. Finden klingt einfach. Mit KI suchen wir weniger und finden mehr.“

    Ich bin hier selbst noch unentschlossen. Auf der einen Seite sehe ich die Vorteile agentischer Systeme, andererseits ist mir die Zuverlässigkeit aktuell noch viel zu gering, um den Human aus dem Loop zu entfernen.

    11. KI wird dominant — aber nicht allein

    64 Prozent der Befragten erwarten, dass KI-Suche dominant wird oder die klassische Suche weitgehend ersetzt. Aber 32 Prozent sehen eine parallele Koexistenz. Die Mehrheit rechnet mit einem Szenario, in dem KI für informationelle und beratende Anfragen dominiert, während klassische Suche für navigationale und transaktionale Aufgaben bestehen bleibt.

    Nina Baumann (Unternehmerin, Linkspiel) wirft dabei einen kritischen Blick auf die gesellschaftliche Dimension: „Je besser die KI-Suche wird, desto weniger kommt der Nutzer aus der ‚eigenen‘ Bubble raus. Man bekommt gute Antworten aber eben immer aus demselben Denkraum. Ich halte das für enorm gruselig!“

    Eric Kubitz warnt vor Scheinsicherheit: „Ich warne davor, den aktuellen Stand als stabil anzusehen. Welche der Annahmen von vor ein oder zwei Jahren sind heute noch korrekt?“ Und Philipp Götza erinnert an das, was in der Optimierungs-Euphorie oft vergessen wird: „Wie wir damit umgehen, dass diese Technologie so teuer ist und unseren Planeten zerstört.“

    Das kann ich nur unterstreichen, wobei ich nicht davon ausgehe, dass in 5 Jahren noch irgendeine Suche ohne KI auskommen wird. Das heißt jedoch nicht, dass ein Chat-Interface für alles das Richtige ist!

    Fazit: Was ich aus der Umfrage gelernt habe

    Die GEO-Expertenbefragung hat mein Verständnis an mehreren Stellen verschoben. Drei Erkenntnisse haben mich besonders geprägt:

    Erstens: Die Branche ist nüchterner als ihr Ruf. Hinter dem lauten GEO-Diskurs auf LinkedIn und Konferenzen steht eine Praxis-Community, die experimentiert, abwägt und vor Aktionismus warnt. Das Bild des „GEO-Goldrausches“ hält der empirischen Prüfung nicht stand.

    Zweitens: Die Messlücke ist das zentrale ungelöste Problem. Nicht die Optimierung selbst, sondern der Nachweis ihrer Wirkung stellt die Branche vor die größte Herausforderung. Wer KI-Sichtbarkeit nicht messen kann, kann sie auch nicht systematisch steuern.

    Drittens: GEO ist keine Revolution, sondern eine Beschleunigung. Was als „GEO-Strategie“ verkauft wird, ist in den meisten Fällen das, was gutes SEO immer hätte sein sollen: klare Inhalte, technische Exzellenz, echte Expertise, starke Marke. Die KI macht nur sichtbar, was vorher schon fehlte. Oder: „Im KI-Zeitalter ist ‚Average Content‘ der neue ‚Duplicate Content‘.“, was Marcus Tandler in seiner Antwort schrieb, aber leider nicht mehr wusste, von wem dieses Zitat stammt.

    Mehr dazu im Buch

    Die vollständigen Ergebnisse — inklusive der Detailanalysen, der kontroversen Gegenstimmen und der offenen Dissense — fließen in mein Buch „SEO für KI — Auf den Punkt“ ein, das voraussichtlich im Q3 2026 beim O’Reilly Verlag erscheint. Es ist Teil der „Auf den Punkt“-Reihe und behandelt die Verschmelzung von Suchmaschinenoptimierung und Künstlicher Intelligenz — von den technischen Grundlagen über Prompt-Recherche und Content-Strategien bis hin zu Agentic AI.

    Mein Dank gilt allen 22 Expertinnen und Experten, die sich die Zeit für diese ausführliche Befragung genommen haben.

    Teilnehmer der GEO-Expertenbefragung 2026: Philipp Götza (Wingmen), Anja Höbarth (SlopeLift), Eoghan Henn (rebelytics), Thomas Peham (OtterlyAI), Johannes Bornewasser (Freelancer), Alexander Rus (Evergreen Media), Florian Stelzner (Wingmen), Astrid Kramer (Get Em All Consult), Anke Probst (1337 UGC), Johan v. Hülsen (Wingmen), Julian Strote (rankeffect), Nina Baumann (Linkspiel), Benjamin O’Daniel (Jaeckert & O’Daniel), Jens Fauldrath (get traction), Stefan Fischerländer, Johannes Beus (SISTRIX), Eric Kubitz (Wort & Bild Verlag), Michael Weber (searchVIU), Dr. Beatrice Eiring (eology), Udo Raaf (ContentConsultants), Marcus Tandler (Semrush) und Christopher Wagner.

  • KI-Empfehlungen sind ein Glücksspiel: Was die neue SparkToro-Studie für GEO bedeutet

    KI-Empfehlungen sind ein Glücksspiel: Was die neue SparkToro-Studie für GEO bedeutet

    Wer heute in AI-Visibility-Tracking investiert, sollte vorher die Grundlagenforschung kennen. Eine neue Studie von Rand Fishkin (SparkToro) und Patrick O’Donnell (Gumshoe.ai) liefert erstmals belastbare Daten zur Konsistenz von Markenempfehlungen in ChatGPT, Claude und Google AI. Die Ergebnisse sind ernüchternd — und gleichzeitig aufschlussreich.

    Screenshot der Studie: Wenn man ChatGPT 100 Mal nach Markenempfehlungen fragt, wie viele unterschiedliche Antworten erhält man? Gezeigt wird ein ChatGPT-Interface mit einem Beispiel-Prompt zu Kochmessern.
    Die zentrale Frage der SparkToro-Studie: Wie konsistent sind KI-Markenempfehlungen bei wiederholter Abfrage? (Quelle: SparkToro / Gumshoe.ai)

    Das Experiment

    600 Freiwillige gaben 12 identische Prompts jeweils 60–100 Mal in die drei meistgenutzten KI-Tools ein: ChatGPT, Claude und Google Search AI (Overviews bzw. AI Mode). Insgesamt wurden 2.961 Antworten erfasst, normalisiert und statistisch ausgewertet. Die Prompts deckten verschiedene Branchen und Kategoriengrößen ab — von Kochmessern über Kopfhörer bis hin zu Krebskliniken und Digital-Marketing-Beratungen.

    Die methodische Grundlage bildete die Carnegie-Mellon-Studie „Estimating LLM Consistency“, deren Pairwise-Correlation-Metriken für die Analyse übernommen wurden. Die Rohdaten sind öffentlich verfügbar.

    Allein bei der Frage nach Kochmessern für Hobbyköche produzierte ChatGPT eine erstaunliche Vielfalt an Marken und Modellen — mit teils über 40 verschiedenen Empfehlungen in der Gesamtauswertung:

    Tabelle mit über 40 verschiedenen Kochmesser-Marken, die ChatGPT bei wiederholter Abfrage empfohlen hat, inklusive Ranking-Positionen und Gesamtnennungen. Mac Mth-80 führt mit 61 Nennungen, gefolgt von Global G-2 und Victorinox Fibrox Pro mit je 57.
    Die Vielfalt der ChatGPT-Antworten auf eine einzige Kochmesser-Frage: Über 40 verschiedene Marken und Modelle bei wiederholter Abfrage (Quelle: SparkToro / Gumshoe.ai)

    Die Kernbefunde

    Nahezu jede Antwort ist ein Unikat. Stellt man einem KI-Tool hundertmal dieselbe Frage nach Markenempfehlungen, unterscheiden sich die Antworten in drei Dimensionen: welche Marken genannt werden, in welcher Reihenfolge sie erscheinen und wie viele Empfehlungen die Liste überhaupt enthält.

    Die folgende Grafik zeigt, wie viele einzigartige Marken die drei KI-Tools über alle 12 Prompt-Kategorien hinweg nannten. In breiten Kategorien wie Science-Fiction-Romanen oder Nutrition Accounts auf Social Media explodierten die Zahlen — in engen Märkten wie LA-Volvo-Händlern blieben sie überschaubar:

    Balkendiagramm: Anzahl einzigartiger Marken pro Kategorie für ChatGPT (grün), Claude (orange) und Google AI (blau). SciFi-Romane erreichen über 200 einzigartige Nennungen, LA-Volvo-Händler unter 20. Pink markierte Punkte zeigen die durchschnittliche Anzahl Empfehlungen pro Antwort.
    Anzahl einzigartiger Marken pro Kategorie und KI-Tool — je breiter die Kategorie, desto größer die Streuung (Quelle: SparkToro / Gumshoe.ai)

    Listenidentität unter 1 %. Die Wahrscheinlichkeit, dass ChatGPT oder Google AI bei zwei beliebigen Durchläufen dieselbe Markenliste zurückgibt, liegt unter 1:100. Claude produziert minimal häufiger identische Listen (1,65 %), variiert dafür die Reihenfolge noch stärker (0,07 % Übereinstimmung):

    Balkendiagramm zur Konsistenz der drei KI-Tools: ChatGPT liefert in 0,74 % der Fälle dieselbe Markenliste, Claude in 1,65 %, Google AI in 0,81 %. Die Wahrscheinlichkeit identischer Reihenfolge liegt bei ChatGPT bei 0,10 %, Claude bei 0,07 % und Google AI bei 0,28 %.
    Unter 1 % Chance auf identische Listen — und nahe null für identische Reihenfolge. Ranking-Positionen in KI-Antworten sind statistisch bedeutungslos. (Quelle: SparkToro / Gumshoe.ai)

    Reihenfolge praktisch zufällig. Dieselbe Reihenfolge zweimal zu erhalten, hat eine Wahrscheinlichkeit von etwa 1:1.000. Wer also „Ranking-Positionen in KI“ trackt, misst statistisches Rauschen.

    Listenlänge variiert unkontrolliert. Manche Antworten enthalten zwei bis drei Empfehlungen, andere zehn oder mehr — bei identischem Prompt.

    Aber: Visibility-Prozente haben Substanz

    Fishkins Ausgangshypothese war, dass AI-Tracking grundsätzlich nutzlos sei. Diese Hypothese wurde teilweise widerlegt. Denn obwohl Listen, Reihenfolge und Umfang massiv schwanken, zeigt sich über viele Durchläufe hinweg ein stabiles Muster: Bestimmte Marken tauchen konsistent häufiger auf als andere.

    Die folgende Grafik zeigt für alle 12 Kategorien und drei KI-Tools, wie oft die jeweils am häufigsten, zweithäufigsten und dritthäufigsten genannten Marken in den Antworten auftauchten:

    Gestapeltes Balkendiagramm für alle 12 Prompt-Kategorien und drei KI-Tools: Zeigt die absoluten Nennungen der Top-1-, Top-2- und Top-3-Marken pro Kategorie. In engen Märkten wie Cloud Computing oder LA Volvos dominieren wenige Marken mit hohen Nennungszahlen.
    Trotz zufälliger Listen und Reihenfolgen: Die meistgenannten Marken erscheinen über Dutzende Durchläufe hinweg konsistent häufiger als andere (Quelle: SparkToro / Gumshoe.ai)

    Beispiel: Bei der Frage nach Digital-Marketing-Beratungen mit E-Commerce-Expertise erschien die Agentur Smartsites in 85 von 95 Google-AI-Antworten. City of Hope tauchte bei der Frage nach den besten Krebskliniken an der US-Westküste in 69 von 71 ChatGPT-Antworten auf — eine Sichtbarkeit von 97 %. Aber: Nur in 25 dieser 71 Antworten war City of Hope auch die erstgenannte Empfehlung.

    Balkendiagramm der ChatGPT-Visibility für Top-, Zweit- und Drittplatzierte Marken über alle 12 Kategorien. Hervorgehoben: City of Hope Hospital erscheint in 69 von 71 Antworten (97 %), war aber nur in 25 davon die erstgenannte Empfehlung. Cloud Computing zeigt die höchste Visibility über alle drei Positionen.
    97 % Sichtbarkeit, aber nur in einem Drittel der Fälle erstgenannt: Die Position innerhalb einer Antwort ist Zufall — die Häufigkeit der Nennung nicht (Quelle: SparkToro / Gumshoe.ai)

    Die entscheidende Erkenntnis: Nicht die Position in einer einzelnen Antwort ist aussagekräftig, sondern die Häufigkeit des Erscheinens über viele Durchläufe hinweg. Visibility-Prozent — also der Anteil an Antworten, in denen eine Marke überhaupt genannt wird — scheint eine statistisch belastbare Metrik zu sein.

    Kategoriegröße bestimmt Varianz

    Die Studie zeigt einen klaren Zusammenhang zwischen der Breite einer Kategorie und der Streuung der Ergebnisse. Die Konsistenz variiert stärker zwischen Branchen als zwischen KI-Tools — ein zentraler Befund:

    Kombiniertes Balken- und Punktdiagramm: Pairwise Consistency Rate (Balken) und durchschnittliche Rang-Differenz (pinke Punkte) für alle Kategorien, aufgeteilt nach ChatGPT, Claude und Google AI. Cloud Computing zeigt die höchste Konsistenz (70–85 %), Nutrition Accounts und SciFi Novels die niedrigste. Ein blauer Pfeil verdeutlicht: Die Konsistenz variiert stärker zwischen Sektoren als zwischen Tools.
    Entscheidender als das Tool ist die Marktbreite: Cloud Computing zeigt 70–85 % Konsistenz, fragmentierte Kategorien fallen auf unter 15 % (Quelle: SparkToro / Gumshoe.ai)

    In engen Märkten mit wenigen relevanten Anbietern — etwa Cloud-Computing-Anbieter für SaaS-Startups — liegt die Pairwise-Konsistenzrate bei 70–85 %. In breiten Kategorien wie Science-Fiction-Romanen oder Branding-Agenturen fällt sie auf unter 15 %. Die KI hat schlicht mehr Optionen zur Auswahl, was die Streuung erhöht. Für GEO bedeutet das: Je fragmentierter der Markt, desto schwieriger ist es, konsistente Sichtbarkeit zu erreichen — und desto wichtiger wird eine systematische Strategie.

    Das Prompt-Problem

    Ein zweiter Teil der Studie untersuchte, wie echte Menschen Prompts formulieren. 142 Teilnehmer schrieben Prompts mit derselben Intention (Kopfhörer-Empfehlung für ein reisendes Familienmitglied). Die semantische Ähnlichkeit zwischen den Prompts lag bei 0,081 — extrem niedrig. Die Heatmap visualisiert diese Dissimilarität eindrücklich:

    Heatmap der semantischen Ähnlichkeit von 142 menschlichen Prompts mit identischer Intention (Kopfhörer-Empfehlung). Die Matrix ist fast durchgehend dunkelviolett, was extrem niedrige Ähnlichkeit signalisiert. Durchschnittliche Pairwise-Similarity: 0,0809, Median: 0,0592. Fazit: Selbst bei identischem Ziel formulieren Menschen radikal unterschiedliche Prompts.
    142 Menschen, eine Intention, nahezu null Übereinstimmung in der Formulierung: Die Heatmap zeigt, wie unterschiedlich reale Nutzer ihre KI-Prompts schreiben (Quelle: SparkToro / Gumshoe.ai)

    Trotzdem: Die KI-Tools erkannten die zugrunde liegende Intention zuverlässig und lieferten über 994 Antworten hinweg ein konsistentes Set an Top-Marken. Gumshoe ließ alle 142 einzigartigen Prompts durch ihr System laufen — das Ergebnis bestätigte die Befunde der kontrollierten Studie:

    Screenshot des Gumshoe-Dashboards mit Visibility-Prozenten für Kopfhörer-Marken, basierend auf 142 menschlichen Prompts und 994 KI-Antworten. Sony führt mit 87 % Visibility (867/994), gefolgt von Bose mit 77 %, Sennheiser mit 58 % und Apple mit 55 %. JBL liegt bei 15 %, Jabra bei 12 %.
    Intent überlebt Prompt-Varianz: Trotz radikal unterschiedlicher Formulierungen erkennen KI-Tools die Absicht und liefern ein stabiles Marken-Set — Sony 87 %, Bose 77 %, Sennheiser 58 % (Quelle: SparkToro / Gumshoe.ai)

    Intent überlebt Prompt-Varianz. Die Tools sind besser im Erkennen der Absicht als im konsistenten Formatieren der Antwort.

    Auch über die Zeit hinweg bleiben die Visibility-Prozente relativ stabil, selbst wenn die konkreten Listen und Positionen sich bei jedem Durchlauf ändern:

    Liniendiagramm der Brand Visibility History über fünf Runs innerhalb einer Stunde für Branding-Agenturen. Die Linien zeigen einzelne Marken wie Pentagram, Crate47, Landor und Fitch. Trotz Schwankungen bei einzelnen Runs bleiben die relativen Sichtbarkeitswerte der Marken zueinander stabil.
    Positionen schwanken, Proportionen bleiben: Die Visibility-Prozente einzelner Marken sind über mehrere Durchläufe hinweg relativ stabil (Quelle: SparkToro / Gumshoe.ai)

    Was das für GEO-Strategien bedeutet

    1. Ranking-Position in KI-Antworten ist bedeutungslos. Jedes Tool oder jeder Anbieter, der „Platz 1 bei ChatGPT“ als Metrik verkauft, verkauft statistische Artefakte. Die einzig sinnvolle Metrik ist die prozentuale Sichtbarkeit über viele Durchläufe.

    2. Visibility-Tracking braucht Volumen. Einzelne Stichproben sind wertlos. Fishkin empfiehlt mindestens 60–100 Durchläufe pro Prompt, um belastbare Daten zu erhalten. Anbieter von AI-Tracking-Tools sollten ihre Methodik offenlegen und statistisch validieren.

    3. Intent-Orientierung schlägt Keyword-Optimierung. Weil Nutzer ihre Prompts radikal unterschiedlich formulieren, die KI-Tools aber die Intention zuverlässig erkennen, muss GEO auf Intent-Cluster statt auf einzelne Formulierungen optimieren.

    4. Marktbreite ist ein strategischer Faktor. In Nischen mit wenigen Anbietern reicht konsistente Präsenz in den relevanten Quellen. In fragmentierten Märkten braucht es eine breitere Strategie mit mehr Touchpoints im Trainingscorpus der Modelle.

    5. Anbieter-Transparenz einfordern. Bevor Budget in AI-Tracking fließt, sollten Unternehmen folgende Fragen stellen: Wie oft wird jeder Prompt ausgeführt? Wird die Methodik öffentlich dokumentiert? Wie wird mit der dokumentierten Varianz umgegangen? Werden Ranking-Positionen berichtet (die laut Forschung bedeutungslos sind)?

    Einordnung und offene Fragen

    Die SparkToro-Studie ist die erste öffentliche Untersuchung dieser Art — und sie ist methodisch transparent. Fishkin und O’Donnell veröffentlichen Rohdaten, Prompts und Methodik. Gleichzeitig bleiben Fragen offen:

    1. API vs. Web-Interface: Erste Hinweise deuten darauf hin, dass API-Antworten sich von Interface-Antworten unterscheiden könnten. Das ist relevant, weil die meisten Tracking-Tools über APIs arbeiten.
    2. Zeitliche Stabilität: Die Daten stammen aus November/Dezember 2025. Ob Visibility-Werte über Monate hinweg stabil bleiben, ist ungeklärt.
    3. Stichprobengröße: Für eine vollwertige statistische Absicherung wären deutlich größere Samples nötig.
    4. Modell-Updates: Wie sich Modell-Aktualisierungen auf die Visibility einzelner Marken auswirken, wurde nicht untersucht.

    Ausblick: Weitere Forschung in Vorbereitung

    Die SparkToro-Studie ist ein wichtiger erster Schritt — aber sie kratzt erst an der Oberfläche. In unserer Research Group an der RPTU Kaiserslautern-Landau bereitet aktuell ein Doktorand eine groß angelegte wissenschaftliche Studie vor, die genau diese Fragestellungen systematisch untersucht. Denn neben den von Fishkin und O’Donnell betrachteten Variablen gibt es weitere Faktoren, die die Konsistenz und Zusammensetzung von KI-Empfehlungen beeinflussen und bislang nicht erfasst wurden.

    Ohne zu viel vorwegzunehmen: Wir setzen an mehreren Stellen an, an denen die SparkToro-Studie designbedingt Grenzen hat. Das Panel aus menschlichen Freiwilligen war für eine explorative Studie sinnvoll, limitiert aber Reproduzierbarkeit und Skalierung. Unsere Studie wird auf technisch automatisierten Testläufen basieren, mit deutlich höheren Stichprobengrößen und einer breiteren Abdeckung an Plattformen über die drei US-Marktführer hinaus. Zudem planen wir eine Anbindung an den existierenden akademischen Forschungsstand — etwa durch den Rückgriff auf etablierte Prompt-Kataloge aus Benchmarks wie GEO-Bench —, um die Ergebnisse in den wissenschaftlichen Diskurs einordnen zu können.

    Ich werde hier in den kommenden Monaten deutlich mehr in diese Richtung berichten.

    Fazit

    Die Studie bestätigt, was viele im GEO-Umfeld intuitiv vermutet haben: KI-Empfehlungen sind probabilistisch, nicht deterministisch. Rankings in KI-Antworten sind Zufall. Aber die Häufigkeit, mit der eine Marke im Consideration Set der Modelle auftaucht, ist messbar und strategisch relevant.

    Für Unternehmen bedeutet das: Nicht die Position in einer einzelnen Antwort entscheidet, sondern die systematische Präsenz in den Datenquellen, aus denen KI-Modelle ihre Empfehlungen generieren. Genau das ist der Kern von Generative Engine Optimization.

    Quelle: Fishkin, R. & O’Donnell, P. (2026). „NEW Research: AIs are highly inconsistent when recommending brands or products.“ SparkToro Blog, 27. Januar 2026. sparktoro.com

    Alle Grafiken: © SparkToro / Gumshoe.ai — verwendet mit Quellenangabe zu Analysezwecken.

  • Wie klassifizieren Generative Engines Nutzer-Intents? Was OpenAI, Microsoft und die Forschung (nicht) gemeinsam haben

    Wie klassifizieren Generative Engines Nutzer-Intents? Was OpenAI, Microsoft und die Forschung (nicht) gemeinsam haben

    Wer in der SEO-Welt sozialisiert wurde, kennt Broders Dreiteilung aus dem Jahr 2002: Navigational, Informational, Transactional. Drei Kategorien, die zwei Jahrzehnte lang als Goldstandard galten. Doch seit Large Language Models nicht mehr nur Links ranken, sondern Antworten generieren, reicht dieses Modell nicht mehr aus. Die zentrale Frage hat sich verschoben: Nicht mehr „Welche Seite passt zur Suchanfrage?“, sondern „Wird die Engine überhaupt externe Quellen heranziehen, um diese Antwort zu erzeugen?“

    Genau an dieser Stelle arbeite ich gerade an einem akademischen Framework: der Generative Intent Operationalization (GIO). Und während ich das Paper schreibe, liefern OpenAI und Microsoft unabhängig voneinander empirische Daten und Systemsignale, die zeigen, wie drängend die Frage nach einer neuen Intent-Taxonomie geworden ist. Dieser Beitrag ordnet diese Entwicklungen ein.

    Warum es ein neues Framework braucht

    The gio framework

    Klassische Intent-Modelle wurden für Suchmaschinen gebaut, die als deterministische Router funktionieren: Der Nutzer gibt eine Anfrage ein, das System liefert eine Ergebnisliste, der Nutzer klickt. Das Retrieval war implizit — jede Suchanfrage löste eine Suche aus.

    Generative Engines funktionieren fundamental anders. Sie sind probabilistische Antwortmaschinen, die entscheiden müssen, ob sie externe Quellen brauchen. Ein GPT-Modell kann „Wie binde ich eine Krawatte?“ komplett aus dem parametrischen Gedächtnis beantworten. Aber „Welche Förderungen gibt es 2026 für Wärmepumpen in Baden-Württemberg?“ erfordert zwingend aktuelle externe Daten. Diese Unterscheidung – parametrisch lösbar vs. grounding-abhängig – existiert in keinem klassischen Modell.

    Für GEO-Strategen ist das der entscheidende Hebel: Nur wenn die Engine retrieval-getriggert arbeitet, besteht überhaupt die Möglichkeit, als Quelle zitiert zu werden. Content, der auf rein parametrische Anfragen optimiert wird, ist verschwendete Energie.

    GIO formalisiert genau diesen Hebel. Das Framework klassifiziert Nutzer-Intents vor der Antwortgenerierung anhand der Grounding Necessity (GN) – der epistemischen Notwendigkeit, externe Evidenz heranzuziehen. GN wird dabei über vier Dimensionen operationalisiert: Information Gap (Igap), Temporal Decay (Tdecay), Entity Specificity (Espec) und Volatility (Vvolatility). Das Ergebnis ist eine Klassifizierungsmatrix, die direkt in GEO-Strategien übersetzt werden kann.

    Was OpenAI über die eigene Nutzung weiß: Die NBER-Studie

    Im September 2025 veröffentlichten Chatterji et al. unter dem Titel „How People Use ChatGPT“ (NBER Working Paper 34255) die bisher umfassendste Analyse von ChatGPT-Nutzungsdaten. Die Studie klassifizierte über eine Million Konversationen anhand von fünf Taxonomien:

    1. Work/Non-Work (binär): 73% aller Nachrichten im Juni 2025 waren nicht arbeitsbezogen. Für GEO-Zwecke ist diese Dimension irrelevant – Grounding Necessity ist unabhängig davon, ob jemand beruflich oder privat fragt.

    2. Conversation Topic (24 Kategorien, 7 Gruppen): Die drei dominanten Gruppen sind Practical Guidance (~29%), Seeking Information (~24%) und Writing (~24%). Hier liegt das erste Problem für GEO-Strategen: „Writing“ umfasst sowohl „Schreib mir ein Anschreiben“ (rein parametrisch, kein Retrieval nötig) als auch „Fasse den aktuellen EZB-Zinsentscheid zusammen“ (zwingend grounding-abhängig). Die Kategorie ist aus Grounding-Perspektive blind.

    3. Asking/Doing/Expressing (ternär): Die analytisch interessanteste Dimension. „Asking“ (49%) beschreibt Informations- und Beratungssuche, „Doing“ (40%) die Auftragserteilung an das Modell, „Expressing“ (11%) den Ausdruck von Gefühlen oder Meinungen ohne Handlungserwartung. Für eine GIO-Pipeline könnte diese Dreiteilung als Vorfilter dienen: „Expressing“ und rein kreatives „Doing“ (Fiktion, Rollenspiel) haben praktisch null GEO-Relevanz und können vor der aufwändigeren GN-Analyse ausgeschlossen werden. Aber: Eine „Asking“-Frage nach der Höhe des Eiffelturms hat null Retrieval-Bedarf, während eine „Doing“-Anfrage zur Zusammenfassung einer neuen Gesetzgebung maximalen Bedarf hat. Der Vorfilter spart Rechenkosten, ersetzt aber nicht die epistemische Analyse.

    4. O*NET Work Activities: Eine arbeitsmarktsoziologische Zuordnung zu 332 Intermediate Work Activities. Für GEO irrelevant.

    5. Interaction Quality: Post-Generation-Analyse der Nutzerzufriedenheit. Per Definition nicht pre-generation-fähig.

    Das Fazit: Die Chatterji-Studie beantwortet die Frage „Was tun Nutzer mit ChatGPT?“ – deskriptiv, soziologisch, auf aggregierter Ebene. Mein GIO-Framework beantwortet eine orthogonale Frage: „Wird die Engine für diesen spezifischen Prompt externe Quellen heranziehen?“ Die beiden Ansätze sind komplementär, aber nicht substituierbar.

    Was Microsoft intern verwendet: Die Bing AI Performance-Klassifizierung

    Parallel zur akademischen Debatte gibt es Signale aus der Industrie, die zeigen, dass die großen Anbieter intern längst eigene Intent-Taxonomien für ihre generativen Systeme operationalisieren.

    Im Client-Side-Quellcode der Bing Webmaster Tools AI Performance (Beta) finden sich Hinweise auf eine 13-stufige Intent-Klassifizierung, die Microsoft offenbar für die Zuordnung von Citations in Copilot/Bing AI verwendet:

    1. Navigational
    2. Learning and Problem Solving
    3. Creation
    4. Entertainment
    5. Shopping or Transaction
    6. Small Talk
    7. Informational Search
    8. Utility
    9. Multimedia Search
    10. Research
    11. Planning
    12. Comparison
    13. Others

    Diese Taxonomie ist bemerkenswert, weil sie mehrere Dinge gleichzeitig zeigt.

    Erstens: Microsoft unterscheidet zwischen „Informational Search“ und „Research“ – eine Trennung, die implizit verschiedene Grounding-Tiefen abbildet. Eine einfache Faktenabfrage (Informational Search) kann oft parametrisch beantwortet werden; eine Recherche (Research) erfordert typischerweise Multi-Source-Synthese mit hoher Grounding Necessity.

    Zweitens: Kategorien wie „Small Talk“ und „Entertainment“ sind aus GEO-Perspektive Nullwert-Kategorien – analog zu GIOs Einordnung als „Low GN“. Die Engine wird für Smalltalk keine externen Quellen zitieren. Wer Content für diese Kategorien optimiert, optimiert ins Leere.

    Drittens: „Comparison“ als eigene Kategorie ist strategisch aufschlussreich. Vergleichsanfragen erfordern fast immer aktuelle, multi-attributive Daten aus mehreren Quellen – ein klassischer High-GN-Fall, der in GIO als Mode 1.2 (Real-Time Synthesis) mit hoher Komplexität eingeordnet würde.

    Viertens: „Creation“ dürfte das gleiche Ambiguitätsproblem haben wie Chatterjis „Writing“ – es mischt parametrische Generierung („Schreib ein Gedicht“) mit grounding-abhängiger Produktion („Erstelle eine Marktanalyse zum deutschen E-Auto-Markt 2026“).

    Die Quelle: RESENEOs Reverse-Engineering-Arbeit

    Für die Hinweise auf Microsofts interne Klassifizierung und weit darüber hinaus gebührt Olivier de Segonzac, Gründer der Pariser Agentur RESONEO, besondere Anerkennung. RESONEO leistet derzeit echte Pionierarbeit im Bereich GEO-Reverse-Engineering und liefert damit empirische Grundlagen, die der akademischen Forschung oft fehlen.

    Besonders hervorzuheben sind zwei Analysen:

    Screenshot
    AIO/AIM Deep Dive

    Eine technische Analyse von Googles AI Overviews und AI Mode, die eine vierstufige Citation-Pipeline offenlegt (Information Retrieval, Grounding URLs, Pool, Displayed). Besonders relevant: RESONEO identifizierte Hidden Grounding URLs – Quellen, die das Modell zur Generierung heranzieht, aber dem Nutzer nie anzeigt. Diese Entdeckung hat direkte Implikationen für jede GEO-Strategie, weil sie zeigt, dass bisherige Sichtbarkeitsstudien die tatsächliche Retrieval-Nutzung systematisch unterschätzten. Ebenfalls aufgedeckt: AI Mode zerlegt Nutzeranfragen in 8-12 parallele Sub-Queries (bei Deep Search Hunderte), während AI Overviews kaum Sub-Query-Dekomposition betreiben – ein fundamentaler architektonischer Unterschied.

    Screenshot
    ChatGPT Search

    Eine Analyse des ChatGPT-Suchsystems, die unter anderem den Sonic Classifier identifizierte — einen probabilistischen Entscheider, der vor der Antwortgenerierung über einen search_prob-Score (Schwellenwert ~65%) bestimmt, ob externe Daten benötigt werden. Das ist exakt der Mechanismus, den GIO theoretisch modelliert: eine Pre-Generation-Entscheidung über Grounding Necessity. RESONEO dokumentierte außerdem das Fan-Out-System (1-3 Standard-Queries, 20+ im Thinking Mode) und die Abhängigkeit von Drittanbieter-Scrapern statt eigener Suchindizes.

    Was alle drei Ansätze gemeinsam zeigen — und wo sie sich unterscheiden

    Die Konvergenz ist bemerkenswert: OpenAI klassifiziert post-hoc, was Nutzer tun. Microsoft klassifiziert in Echtzeit, wie Citations zugeordnet werden. GIO klassifiziert pre-generation, ob Retrieval überhaupt nötig ist. Drei verschiedene Fragen, drei verschiedene Operationalisierungen — aber alle kreisen um denselben Kern: Die alte Dreiteilung Navigational/Informational/Transactional reicht für generative Systeme nicht mehr aus.

    Die Unterschiede sind dabei ebenso aufschlussreich:

    • Granularität vs. Operationalisierbarkeit: Chatterjis 24 Kategorien und Microsofts 13 Klassen bieten deskriptive Breite, aber keine direkte Handlungsanweisung für Content-Strategen. GIO ist bewusst schmaler angelegt, weil jede Klasse direkt in eine GEO-Strategie mündet.
    • Post-hoc vs. Pre-Generation: Chatterjis Taxonomie wurde auf historische Konversationslogs angewendet. Microsofts Klassifizierung scheint in Echtzeit zu operieren (sie steuert die Citation-Zuordnung). GIO ist konzeptionell pre-generation: Es soll die Grounding-Entscheidung vorhersagen, bevor das Modell antwortet — und damit dem Content-Strategen ermöglichen, proaktiv zu optimieren.
    • Deskriptiv vs. Prädiktiv: OpenAI und Microsoft beschreiben, was passiert. GIO will vorhersagen, was passieren wird — und daraus ableiten, was Content-Produzenten tun sollten.

    Was das für die GEO-Praxis bedeutet

    Für SEO-Professionals, die sich Richtung GEO bewegen, ergeben sich aus dieser Dreiecksbetrachtung konkrete Implikationen:

    Erstens, die Chatterji-Daten zeigen, dass knapp die Hälfte aller ChatGPT-Nachrichten „Asking“-Queries sind – also Informations- und Beratungssuche. Das ist der primäre Raum, in dem GEO-Strategien greifen können. Die 11% „Expressing“ und ein substanzieller Teil der 40% „Doing“ (kreative Textproduktion, Rollenspiel) sind für Content-Publisher strategisch irrelevant.

    Zweitens, Microsofts Trennung von „Informational Search“ und „Research“ als separaten Kategorien bestätigt, dass die Engine selbst zwischen unterschiedlichen Grounding-Tiefen differenziert. Wer Content produziert, sollte sich fragen: Ist das eine Faktenabfrage, die das Modell aus dem Kopf beantworten kann? Oder eine Recherchefrage, für die es zwingend aktuelle, strukturierte externe Daten braucht? Nur im zweiten Fall lohnt sich die GEO-Investition.

    Drittens, RESENEOs Identifikation des Sonic Classifiers und der Hidden Grounding URLs zeigt: Die Mechanismen, die GIO theoretisch modelliert, existieren in der Praxis bereits als harte architektonische Entscheidungen. Die Frage „Wird die Engine retrieval-triggern?“ ist keine akademische Abstraktion, sondern ein messbarer Schwellenwert in produktiven Systemen.

    Das GIO-Paper befindet sich derzeit in der Finalisierung. Es wird als Position Paper die theoretische Grundlage legen und einen empirischen Validierungsplan vorschlagen. Die hier diskutierten Industrie-Signale fließen bewusst nicht in das akademische Paper ein – dafür sind sie zu flüchtig und zu wenig dokumentiert. Aber sie bestätigen die zentrale These: Wer Generative Engine Optimization ernst nimmt, braucht ein Framework, das vor der Generierung ansetzt. Nicht bei dem, was Nutzer tun. Sondern bei dem, was die Engine tun wird.

  • Die llms.txt ist tot. Genauer gesagt: ein Rohrkrepierer.

    Die llms.txt ist tot. Genauer gesagt: ein Rohrkrepierer.

    Warum Du sofort aufhören solltest, llms.txt-Dateien zu erstellen — und was stattdessen zu tun ist.

    Ich muss Dir etwas sagen, das Du nicht hören willst: Die llms.txt, die ihr letzte Woche mit großem Aufwand erstellt hast, wird von keinem einzigen relevanten KI-Suchsystem gelesen. Von keinem. Nicht von Google. Nicht von ChatGPT. Nicht von Perplexity. Nicht von Claude.

    Das ist keine Meinung. Das sind Logfiles.

    0,1 Prozent

    OtterlyAI hat 90 Tage lang gemessen, was passiert, wenn man eine korrekt implementierte llms.txt bereitstellt. Das Ergebnis: Von 62.100 KI-Bot-Requests gingen genau 84 an die llms.txt. Das sind 0,1 Prozent. Die Datei performte dreimal schlechter als eine durchschnittliche Content-Seite auf derselben Domain. Sie lag auf dem Niveau eines vergessenen PDFs im /assets-Ordner.

    Wer 20.000 Domains hostet, berichtet dasselbe: Kein einziger relevanter KI-Agent fordert die Datei an. Der einzige Bot, der sie crawlt, ist BuiltWith — ein Technologie-Erkennungsdienst, der schlicht katalogisiert, welche Dateien existieren. Das ist kein Nutzungssignal. Das ist ein Inventurzettel.

    Was Google dazu sagt — und was Google damit tut

    Google hat die klarste Position aller Anbieter. John Mueller schrieb auf Bluesky:

    „FWIW no AI system currently uses llms.txt.“

    Er verglich die Datei explizit mit dem Keywords-Meta-Tag — jenem Tag, das Suchmaschinen seit über einem Jahrzehnt ignorieren, weil es vom Seitenbetreiber kontrolliert wird und daher für Manipulationen anfällig ist. Gary Illyes bestätigte auf der Google Search Central Live: Google unterstützt llms.txt nicht und plant dies auch nicht.

    Die Pointe: Am 3. Dezember 2025 tauchte kurzzeitig eine llms.txt in Googles eigenen Developer Docs auf. Die SEO-Community hielt den Atem an. Noch am selben Tag wurde die Datei wieder entfernt. Mueller stellte klar: keine offizielle Unterstützung. Was blieb, war ein kryptisches „hmmn :-/“ auf Bluesky und eine Community, die in dieses Emoticon mehr hineininterpretierte als in manchen Research Paper.

    Was der Erfinder eigentlich wollte

    An dieser Stelle lohnt sich ein Blick zurück, denn die Entstehungsgeschichte der llms.txt entlarvt das gesamte Missverständnis.

    Am 3. September 2024 veröffentlichte Jeremy Howard — Co-Founder von Answer.AI und fast.ai, KI-Forscher und Dozent an den Universitäten Queensland und Stanford — seinen Vorschlag auf answer.ai und llmstxt.org. Das Problem, das er lösen wollte, war klar umrissen und hatte mit GEO nichts zu tun: Context Windows von LLMs sind zu klein für komplette Websites. HTML mit Navigation, Werbung und JavaScript in LLM-freundlichen Text zu konvertieren ist aufwändig und fehleranfällig. Besonders relevant sei das, so Howard explizit, für Development-Umgebungen, in denen LLMs schnellen Zugriff auf Programmierdokumentation und APIs brauchen.

    Howards eigenes FastHTML-Projekt war die Referenzimplementierung. Ein Python-Framework mit technischer Dokumentation — genau der Use Case, für den die Idee konzipiert war.

    Die Adoption blieb monatelang nischenhaft. Der Wendepunkt kam im November 2024, als Mintlify — ein Hosting-Dienst für Developer-Dokumentation — die llms.txt-Unterstützung für alle gehosteten Docs-Sites ausrollte. Praktisch über Nacht bekamen Tausende Dokumentationsseiten eine llms.txt, darunter Anthropic und Cursor. Die Schlagzeilen interpretierten das als Durchbruch. Was tatsächlich passiert war: Ein Docs-Hoster hatte ein Feature für seine Docs-Kunden aktiviert.

    Ab hier begann die Zweckentfremdung. Die SEO- und GEO-Community entdeckte die llms.txt und interpretierte sie als das, was sie gerne hätte: einen neuen Hebel für Sichtbarkeit in KI-Suchsystemen. Yoast baute einen llms.txt-Generator in sein WordPress-Plugin. Agenturen nahmen „llms.txt-Erstellung“ in ihre Leistungskataloge auf. Konferenz-Speaker erklärten die Datei zum Pflichtprogramm.

    Das Problem: Jeremy Howard hat llms.txt nie als GEO- oder SEO-Maßnahme vorgeschlagen. Sein Proposal adressiert Inference-Time-Nutzung durch Coding-Tools und KI-Agenten, nicht Sichtbarkeit in generativen Suchsystemen. Wer llms.txt als Ranking-Hebel verkauft, verkauft etwas, das der Erfinder selbst nie versprochen hat.

    Die große Verwechslung: Publizieren vs. Konsumieren

    Hier wird es interessant, denn hier liegt der Denkfehler, den die halbe GEO-Szene macht:

    Ja, Anthropic hat eine llms.txt. Ja, OpenAI hat eine. Ja, Perplexity hat eine. Jede dieser Dateien liegt auf den jeweiligen Developer-Dokumentationsseiten. Sie dienen einem einzigen Zweck: Entwicklern und Coding-Assistenten einen strukturierten Einstiegspunkt in die API-Dokumentation zu geben. Wenn ein Entwickler in Cursor oder Claude Code arbeitet und die Anthropic-API-Docs laden will, ist eine llms.txt dafür ein sinnvolles Format.

    Aber das hat absolut nichts damit zu tun, ob ClaudeBot, GPTBot oder PerplexityBot beim Web-Retrieval die llms.txt einer beliebigen Unternehmenswebseite auswertet. Die Existenz einer llms.txt auf docs.anthropic.com beweist nicht, dass Anthropic eure llms.txt auf beispiel-firma.de im Suchprozess berücksichtigt.

    Wer diesen Unterschied nicht versteht, verwechselt die Tatsache, dass ein Restaurant eine Speisekarte hat, mit der Behauptung, es würde die Speisekarten anderer Restaurants lesen, bevor es kocht.

    Vier Gründe, warum das so ist — und so bleiben wird

    1. Manipulationsanfälligkeit

    Die llms.txt ist ein vom Seitenbetreiber kontrolliertes Signal. Der Betreiber entscheidet, welche Inhalte ein LLM sehen soll und welche nicht. Das ist exakt das Problem, das Suchmaschinen beim Keywords-Meta-Tag identifiziert haben: Ein Signal, das der Bewertete selbst kontrolliert, ist für den Bewertenden wertlos. Suchsysteme müssen eigene Relevanzurteile fällen. Eine Datei, in der ich selbst kuratiere, was eine Suchmaschine über mich erfahren soll, ist per Definition kein vertrauenswürdiges Signal.

    Was hindert jemanden daran, in der llms.txt eine geschönte Version der eigenen Inhalte zu präsentieren? Nichts. Das ist Cloaking mit Markdown-Syntax.

    2. Retrieval-Ineffizienz

    Stellt euch den hypothetischen Ablauf vor, den eine llms.txt im Retrieval-Stack erzeugen würde:

    1. Request an /llms.txt
    2. Parsing der Markdown-Struktur
    3. LLM-gestützte Interpretation der Anweisungen und Priorisierungen
    4. Anpassung der Retrieval-Strategie basierend auf diesen Anweisungen
    5. Eigentliches Content-Retrieval
    6. Antwortgenerierung

    Das sind mindestens zwei zusätzliche Schritte — mit zusätzlicher Latenz, Token-Kosten und Fehleranfälligkeit — in einer Pipeline, die auf Geschwindigkeit optimiert sein muss. Google, OpenAI und Anthropic haben Milliarden in Content-Extraction-Pipelines investiert, die HTML zuverlässig parsen, Boilerplate entfernen und Hauptinhalte identifizieren. Warum sollten sie diesen bewährten Stack durch eine Datei ersetzen, deren Inhalt sie ohnehin verifizieren müssten?

    Die Antwort: Würden sie nicht. Tun sie nicht.

    3. Redundanz zur robots.txt

    Für die Zugriffssteuerung existiert ein funktionierender, seit 1994 etablierter Standard: die robots.txt. Alle relevanten KI-Crawler — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — respektieren robots.txt-Direktiven. Anthropic verweist in der eigenen Dokumentation zur Crawler-Steuerung ausschließlich auf robots.txt. Kein einziger KI-Anbieter hat gesagt: „Nutzt llms.txt statt robots.txt für die Zugriffssteuerung.“ Warum? Weil das Problem bereits gelöst ist.

    4. Adoptionsversagen

    Ein Standard, den kein relevanter Konsument implementiert, ist kein Standard. Er ist ein Vorschlag, der nicht angenommen wurde. Die robots.txt brauchte Jahre, um vom Vorschlag zum De-facto-Standard zu werden — aber sie wurde von Anfang an von den Suchmaschinen gelesen und respektiert. Die llms.txt wird nach über einem Jahr von keinem großen KI-Suchsystem im Retrieval-Kontext verwendet. Das ist kein „noch nicht“. Das ist ein Signal.

    Was eure Agentur euch gerade verkauft

    In Pitch-Decks und GEO-Audits sehe ich seit Monaten denselben Punkt: „llms.txt erstellen und optimieren.“ Manchmal als eigener Workstream, manchmal als Teil eines größeren Pakets, immer mit dem impliziten Versprechen, dass diese Datei die Sichtbarkeit in KI-Suchsystemen verbessert.

    Das ist Ressourcenverschwendung. Jede Stunde, die euer Team damit verbringt, eine llms.txt zu pflegen, ist eine Stunde, die nicht in tatsächlich wirksame Maßnahmen fließt. Die Opportunitätskosten sind real: Content-Qualität, semantische Strukturierung, Entity-Abdeckung, Zitierfähigkeit — alles Faktoren, für die es tatsächliche Evidenz gibt, dass sie die Sichtbarkeit in generativen Suchsystemen beeinflussen.

    Wo llms.txt tatsächlich Sinn ergibt

    Fairness gebietet es, den einen Use Case zu benennen, in dem llms.txt einen legitimen Zweck erfüllt: Developer-Dokumentation für Coding-Assistenten und KI-Agenten.

    Wenn eure Zielgruppe Entwickler sind, die mit Cursor, Windsurf oder Claude Code arbeiten, und ihr eine umfangreiche API-Dokumentation habt, dann kann eine llms.txt als strukturierter Einstiegspunkt für diese Tools nützlich sein. Das ist der ursprüngliche Vorschlag von Jeremy Howard, und für diesen Kontext ist er nachvollziehbar.

    Aber: Das ist Developer Relations. Das ist kein GEO. Das ist kein SEO. Und es betrifft einen Bruchteil aller Websites.

    Was stattdessen zu tun ist

    Wer seine Sichtbarkeit in KI-Suchsystemen tatsächlich verbessern will, sollte sich auf das konzentrieren, was nachweislich funktioniert:

    1. Content-Qualität und Zitierfähigkeit. Generative Suchsysteme zitieren Quellen, die Fakten, Daten und Expertise liefern. Wer zitiert werden will, muss zitierwürdig sein. Das bedeutet: originäre Daten, klare Aussagen, nachprüfbare Fakten.
    2. Semantische Strukturierung. Klare Heading-Hierarchien, konsistente Entity-Nutzung und logische Struktur. Diese Signale werden von KI-Crawlern beim regulären Crawling erfasst — ohne Umweg über eine zusätzliche Datei.
    3. Topical Authority. Thematische Tiefe und Breite. Wer zu einem Thema die umfassendste und verlässlichste Quelle ist, wird von generativen Systemen bevorzugt herangezogen. Dabei sollte man nicht vergessen: Die großen KI-Suchsysteme nutzen für ihr Grounding klassische Websuche. Wer in der organischen Suche stark ist, hat auch in der generativen Suche die besseren Karten.
    4. Monitoring statt Spekulation. Messt, wo und wie euer Brand in KI-generierten Antworten erscheint. Passt eure Strategie auf Basis von Daten an, nicht auf Basis von Konferenz-Slides.

    Fazit

    Die llms.txt war eine interessante Idee mit einem nachvollziehbaren Kern: Webinhalte maschinenlesbarer machen. Für den spezifischen Kontext von Developer-Dokumentation hat sie ihren Platz.

    Als GEO-Maßnahme ist sie gescheitert. Nicht, weil sie schlecht implementiert wird. Nicht, weil sie „noch Zeit braucht“. Sondern weil die fundamentale Prämisse — dass KI-Suchsysteme eine vom Seitenbetreiber kuratierte Inhaltsbeschreibung als vertrauenswürdiges Signal verwenden würden — dem Grundprinzip moderner Suchsysteme widerspricht. Suchmaschinen bewerten. Sie lassen sich nicht bewerten.

    Hört auf, llms.txt-Dateien als GEO-Maßnahme zu erstellen. Investiert die Zeit in Inhalte, die es wert sind, von KI-Systemen gefunden und zitiert zu werden. Das ist schwerer. Aber es funktioniert.

  • Das richtige WordPress Theme für deine nächste Website

    Das richtige WordPress Theme für deine nächste Website

    Nach den Plugins stelle ich nun die besten WordPress Themes vor. Diese Liste umfasst alle populären und beliebten Themes und wird permanent aktualisiert und bei Bedarf erweitert. Ich habe mich mit meinen 20 Jahren Erfahrung beim Aufbau und der Optimierung webbasierter Vertriebs- und Geschäftsmodelle also der Frage gewidmet:

    Welches ist das beste WordPress Theme 2026?

    Diese Frage lässt sich leider nicht mit einer einzigen, kurzen Antwort beantworten, denn die Auswahl an hochwertigen WordPress Themes ist nahezu endlos. Jedes Theme hat seine Vor- und Nachteile und für unterschiedliche Bedürfnisse gibt es daher auch unterschiedlich gut geeignete Lösungen. Um die Frage möglichst knapp zu beantworten, habe ich meine Empfehlungen in WordPress Themes für Designer und Entwickler aufgeteilt, denn diese haben sehr unterschiedliche Bedürfnisse und Anforderungen:

    Die besten WordPress Themes 2026 im Überblick

    ThemeBeste FürPageSpeedPreis (ab)Bewertung
    DiviEinsteiger & DesignerGut (mit Optimierung)89 USD/Jahr⭐⭐⭐⭐⭐
    KadenceGutenberg-Fans & EntwicklerSehr schnellKostenlos / 69 USD/Jahr⭐⭐⭐⭐⭐
    GeneratePressEntwickler & SEOExtrem schnell (<1 MB)Kostenlos / 59 USD/Jahr⭐⭐⭐⭐⭐
    NeveGeschwindigkeit & Blogs100/100 PageSpeedKostenlos / 69 USD/Jahr⭐⭐⭐⭐⭐
    OceanWPElementor-NutzerSchnellKostenlos / 54 USD/Jahr⭐⭐⭐⭐
    Qi ThemePortfolio & DesignSchnellKostenlos / 69 USD/Jahr⭐⭐⭐⭐
    AstraVielseitigkeit & FlexibilitätSehr schnell (kein jQuery)Kostenlos / 69 USD/Jahr⭐⭐⭐⭐⭐
    FlatsomeWooCommerce & E-Commerce98/100 GTmetrix59 USD (einmalig)⭐⭐⭐⭐⭐
    BlocksyGutenberg & EinsteigerSehr schnellKostenlos / 69 USD/Jahr⭐⭐⭐⭐
    Page Builder FrameworkPageBuilder-NutzerSchnell (minimaler Code)58 USD/Jahr⭐⭐⭐⭐
    Genesis FrameworkProfessionelle EntwicklerSehr schnellKostenlos (mit WP Engine)⭐⭐⭐⭐
    Kostenlose Themes + Gutenberg BlöckeBudget-bewusste NutzerVariiertKostenlos⭐⭐⭐

    Welches ist das beste WordPress Theme für Designer?

    Wenn Du nicht den gesamten Artikel lesen willst und relativ neu in der Welt von WordPress bist, dann hol‘ Dir am besten das Divi-Theme. Kein anderes Theme ist so benutzerfreundlich und für Anfänger geeignet. Wenn Du eine große Auswahl an Templates, Vorlagen, Layouts und Stilen willst, aber wenig technisches Verständnis in Sachen HTML und CSS hast, dann ist ist Divi das Richtige Theme für Dich.

    Aktuell kannst Du bei Divi 10% sparen: Kurzfristig Divi mit 10% Rabatt bestellen

    Welches ist das beste WordPress Theme für Web-Entwickler?

    Wenn Du technisch versierter bist und eine genaue Vorstellung vom Design und Layout der Webseite hast, bist Du mit einem blockbasierten Theme wie GeneratePress, Kadence oder Neve wahrscheinlich am besten bedient. Alle drei setzen auf das modernste System und ermöglichen den Aufbau von Layouts mittels Gutenberg.

    Der Gutenberg-Editor hat derzeit bei vielen Nutzern noch einen schlechten Ruf. Das ist aus meiner Sicht aber längst nicht mehr gerechtfertigt, denn seit dem vermurksten Start von Gutenberg, hat sich sehr viel getan. Ich bin mittlerweile absoluter Fan des visuellen Editors, der sich hervorragend in WordPress integriert hat.

    Welches ist das beste WordPress Theme für WooCommerce?

    Für Online-Shops mit WooCommerce ist Flatsome die erste Wahl. Mit über 100.000 Kunden ist es eines der meistverkauften WooCommerce-Themes auf ThemeForest. Es bietet exzellente Shop-Features wie Live-Suche, Schnellansicht, Wunschlisten und einen eigenen UX Builder. Alternativ eignen sich auch Astra und Kadence hervorragend für WooCommerce.


    Falls Du Dir noch nicht sicher bist, solltest Du Dir die folgende Liste der besten und schnellsten WordPress Themes, also meine persönlichen Top 12 WordPress Themes 2026, anschauen.

    Ich lege in meinen Tests übrigens ein besonderen Augenmerk auf den PageSpeed, also die Ladezeiten der Themes, denn mittlerweile sind die Core Web Vitals fester Bestandteil des Algorithmus von Google. Damit ist der PageSpeed ein direkter Rankingfaktor und damit zum Erfolgskriterium für jede WordPress-Webseite!

    1. Divi – Das beste WordPress Theme für Einsteiger und Anfänger

    Divi ist das weltweit beliebteste Premium-Theme mit über 750.000 Kunden. Dank seines integrierten Visual Builders ist es besonders für Einsteiger ohne Programmierkenntnisse ideal geeignet.

    Divi WordPress Theme Deutsch

    Das Divi-Theme ist ein schickes, modernes und flexibles WordPress Theme, mit dem Du so gut wie jede Seite realisieren kannst. Es hat seinen eigenen Page Builder integriert und ist seit Version 4 mit einem mächtigen Theme Builder ausgestattet. Damit hast Du erstmals die volle Kontrolle über Deine gesamte Website und das ganz ohne Programmierkenntnisse. Divi bietet unzählige fertige Templates für quasi jeden Seitentyp und jede Inhaltsart, die es Dir erlauben sofort loszulegen und live zu gehen.

    Vorteile von Divi

    • Sehr benutzerfreundlicher Visual Builder mit Drag & Drop
    • Riesige Auswahl an fertigen Templates und Layouts
    • Theme Builder für Header, Footer und alle Seitentypen
    • Bloom (E-Mail Opt-in) und Monarch (Social Sharing) inklusive
    • Lifetime-Lizenz für unbegrenzte Webseiten verfügbar
    • Exzellenter Support

    Nachteile von Divi

    • Nicht das schlankeste Theme (benötigt teilweise noch jQuery)
    • Eigener Builder erzeugt Vendor-Lock-in
    • Nicht nativ Gutenberg-basiert
    Template Bereiche mit dem Template Builder in Divi 4
    Template Bereiche mit dem Template Builder in Divi 4

    Der integrierte Theme Builder nutzt die bekannten Funktionen des Divi Builders und erweitert ihn auf alle Bereiche des Themes, so dass man damit nun auch benutzerdefinierte Header und Footer, Kategorieseiten, Produktvorlagen, Blogposts, 404 Seiten und so weiter erstellen kann, ohne selbst Programmieren zu müssen.

    Damit ist Divi besonders geeignet für Nutzer, die nicht selbst programmieren können oder wollen, aber dennoch die Gestaltung Ihrer WordPress-Seite vollständig beeinflussen möchten.

    Selbstverständlich kannst Du mit Divi deutsche Webseiten erstellen! Ein kostenloses Child-Theme bekommst Du von mir hier.

    In Sachen PageSpeed kann man sehr gut mit Divi arbeiten. Dinge wie kritisches CSS, Caching, aufgeschobenes JavaScript und vernünftige Bildkompression werden mittlerweile voll unterstützt. Divi ist zwar nicht das schlankeste Theme und benötigt an vielen Stellen noch jQuery, bietet dafür jedoch eine gigantische Auswahl an Gestaltungselementen und einen hervorragenden Front-End-Editor.

    Das Preismodell von Elegant Themes, den Machern des Divi-Themes, finde ich sehr fair. Wer 249 USD einmalig bezahlt, kann alle Themes und Plugins inkl. Widgets auf Lebenszeit und für unbegrenzt viele Webseiten einsetzen und das sogar für Kundenprojekte. Alternativ kann man auch 89 USD jährlich für Updates und Support bezahlen. A Propos! Der Support ist richtig gut!

    Im Preis enthalten sind außerdem die beiden exzellenten Plugins Bloom und Monarch. Bloom ist ein E-Mail Opt-in Plugin, also dafür gedacht sehr konversionsstarke Newsletter-Formulare in die Webseite einzubinden. Monarch ist ein sehr umfangreiches und leistungsstarkes Social Media Sharing Plugin.

    Gemeinsam mit Divi und dem Divi Template Builder also ein super Paket, um schicke, schnelle und erfolgreiche Webseiten zu gestalten! So zu sagen eine Rundum-Glücklich-Lösung in Sachen WordPress.

    Bei Divi hast Du die Wahl zwischen einer Jahres-Lizenz für 89 USD oder einer Lifetime-Lizenz für 249 USD.

    Hol Dir jetzt das Divi Theme mit 10% Rabatt!

    Divi Theme Deutsch 20% Rabatt

    1 Lizenz. Vollständiger Zugriff.
    Unbegrenzte Anzahl von Websites.
    Unbegrenzte Anzahl von Benutzern.

    Nur 80$ im Jahr oder 224$ einmalig!

    Werde jetzt einer von 750.000 Kunden und erhalte Zugang zu Divi, Extra, Bloom, Monarch und mehr. Das ultimative WordPress-Toolkit wartet auf Dich, und zwar für einen unschlagbaren Preis.

    Unser Video-Tutorial für Divi:

    Mein Kollege Saša zeigt Dir, wie Du mit dem Divi Theme schnell und einfach eine deutschsprachige Webseite erstellen kannst. Dafür brauchst Du keine Programmierkenntnisse und musst keine Zeile Code schreiben:


    2. Kadence Theme – Macht Gutenberg zum PageBuilder!

    Kadence ist eines der schnellsten und modernsten WordPress-Themes und macht den Gutenberg-Editor zu einem vollwertigen Page Builder. Es ist unser absoluter Favorit für alle, die schlanke und schnelle Webseiten bevorzugen.

    Auf der Suche nach der perfekten Theme- und Block-Builder-Kombination tauchte das neue Kadence Theme bei unseren Recherchen auf. Es ist eines der wenigen Themes, das nicht versucht, sich über Hunderte von Extra-Features zu verkaufen, sondern ist auf das Wichtigste, Wesentliche reduziert.

    Kadence Theme - Das Theme, das Gutenberg zu einem PageBuilder macht!

    Kadence wurde von Grund auf für blitzschnelle Leistung entwickelt und mit modernen Funktionen ausgestattet, mit denen das Erstellen von Websites wirklich Spaß macht. Es lässt sich schnell installieren (Tutorial im Video weiter unten) und kommt nach der Installation sehr übersichtlich und ohne Schnickschnack daher.

    Vorteile von Kadence

    • Nahtlose Gutenberg-Integration ohne eigene Oberfläche
    • 23+ Kadence Blocks mit flexiblen Layout-Optionen
    • Extrem schnelle Ladezeiten dank schlankem Code
    • Professionelle Starter Templates zum Importieren
    • Global Colors und umfangreiche Typografie-Steuerung
    • WooCommerce-Unterstützung

    Nachteile von Kadence

    • Backend-basiertes Editing (Vorschau für Frontend nötig)
    • Weniger Templates als Divi oder Astra
    • Gelegentlich Workarounds bei der Element-Positionierung nötig

    Es enthält sämtliche Features, die man sich von einem modernen WordPress-Theme wünscht:

    Kadence WP Theme Features

    Das Essential Bundle enthält außerdem die Pro Starter Templates. Eine Kollektion von kompletten Website-Vorlagen, die professionell gestaltet sind. Immer mehr Themes gehen dazu über, das WordPress-eigene Userinterface als Schnittstelle für Layout- und Funktionselemente zu verwenden. So auch Kadence, denn mittels des Kadence Blocks Plugins wird aus Gutenberg ein echter PageBuilder.

    Unser Video-Tutorial für Kadence WP

    Im Rahmen unseres Kadence WP Pro Testberichts haben wir eine vollständige Installationsanleitung zum Kadence Theme und Kadence Blocks Pro, sowie die komplette Umsetzung einer fiktiven Website in einem 1 Stunde und 22 Minuten langen Mega-Videotutorial zusammen gestellt:

    Ganz ehrlich: Das Kadence Theme, gemeinsam mit den Blocks ist einfach zu bedienen und damit zu arbeiten macht wirklich Spaß! Die Integration in Gutenberg ist durch und durch gelungen. Man fragt sich, ob es in Zukunft noch Builder geben wird, die sich diese Schnittstelle nicht nutzen und eine eigene Oberfläche basteln. Der große Vorteil der Standardisierung: Sobald man einen Builder gelernt hat, kennt man alle. Es gibt kaum noch eine Lernkurve.

    Wir haben in den letzten Jahren eine ganze Reihe an Page-Buildern getestet und ich kann sagen, dass Kadence unser absoluter Favorit ist! Elementor und Divi können mehr. Keine Frage. Aber mir persönlich macht das schnelle Arbeiten mit Kadence wirklich Spaß.

    Wenn du schlanke Webseiten und schnelle Page Builder magst, die auch noch in Zukunft mit Gutenberg gemeinsam genutzt werden können, dann solltest du Kadence ernsthaft in Betracht ziehen!

    Der Express-Plan kostet 69 USD/Jahr für 3 Webseiten und enthält Theme Pro, Blocks Pro und Starter Templates. Der Plus-Plan liegt bei 169 USD/Jahr für 10 Sites und der Ultimate-Plan bei 299 USD/Jahr für 25 Sites. Es gibt auch eine Lifetime-Lizenz ab 899 USD einmalig.

    Falls Du eine große Auswahl an Layouts und Stilen und ein Gesamtpaket inklusive Marketing-Plugins möchtest und kein Verständnis für CSS und Layout-Regeln hast, bist Du bei Divi wahrscheinlich besser aufgehoben.


    3. GeneratePress – Schlankes Theme mit sehr cleanem Code

    GeneratePress ist mit weniger als 1 MB eines der leichtesten WordPress-Themes überhaupt. Es ist komplett auf Geschwindigkeit, SEO und Usability optimiert und eignet sich hervorragend für Entwickler und performance-bewusste Nutzer.

    GeneratePress WordPress-Theme

    GeneratePress ist ein sehr schnelles und extrem leichtes (< 1 MB Größe, gepackt), mobil angepasstes, responsives WordPress-Theme. Es ist komplett auf Geschwindigkeit, SEO und Usability ausgelegt und optimiert. Es eignet sich außerdem hervorragend für Einsteiger und kann durch das Freemium-Model auch erstmal kostenlos ausprobiert werden!

    Vorteile von GeneratePress

    • Extrem schlank und schnell (unter 1 MB)
    • Kostenlose Basisversion zum Ausprobieren
    • schema.org Mikrodaten bereits integriert
    • Funktioniert mit jedem Page Builder
    • GenerateBlocks für komplexe Gutenberg-Layouts
    • In über 20 Sprachen verfügbar

    Nachteile von GeneratePress

    • Weniger Design-Optionen als Divi oder Elementor-basierte Themes
    • Für komplexe Layouts wird GenerateBlocks Pro benötigt
    • Weniger Starter Templates als die Konkurrenz

    In der Premium-Version enthält es dann weitere Funktionen und Anpassungsmöglichkeiten. Das Schöne ist, dass GeneratePress mit jedem Page-Builder funktioniert. Für SEO sind bereits alle schema.org Mikrodaten integriert und ist in über 20 Sprachen verfügbar. Besonders toll: GeneratePress wurde bereits auf einer tieferen Ebene mit dem neuen Gutenberg-Editor integriert. Keine Angst also vor dem Gutenberg-Update! Du kannst Dir sogar das kostenlose GenerateBlocks Plugin installieren und damit sehr coole und komplexe Layouts ohne PageBuilder direkt in Gutenberg umzusetzen!

    Übrigens: GeneratePress eignet sich nicht nur für Nerds und Entwickler, denn in der GeneratePress Site Library gibt es mittlerweile unzählige schicke und schnelle Vorlagen, die man mit einem Klick importieren kann und die visuelle Anpassung geschieht vollkommen nativ über den eingebauten WordPress Customizer, wie ihr im Video auf der Startseite von GeneratePress sehr schön sehen könnt!

    GeneratePress Premium kostet 59 USD/Jahr für bis zu 500 Webseiten. Es gibt auch eine Lifetime-Option.


    4. Neve – Das schnellste WordPress Theme

    Neve erreicht volle 100 Punkte in Googles PageSpeed Insights Test und gehört damit zu den schnellsten WordPress Themes überhaupt. Es kommt komplett ohne jQuery und ohne aufgeblasenen Code daher.

    Neve - Das schnelle WordPress Theme

    Vorteile von Neve

    • 100/100 PageSpeed Insights Score
    • Komplett ohne jQuery – Ladezeit unter 1 Sekunde
    • Kompatibel mit allen großen Page Buildern
    • Volle WooCommerce-Unterstützung
    • Über 80 vorgefertigte Starter Templates
    • Drag & Drop Header- und Footer-Builder

    Nachteile von Neve

    • Weniger Gestaltungsoptionen als Divi oder Elementor
    • Premium Starter Sites nur im teureren Paket
    • Weniger Community-Ressourcen als Astra

    Viele WordPress Themes sind wahnsinnig überladen und durch immer mehr Features komplex und kompliziert zu benutzen geworden. Das macht viele WordPress Seiten langsam und schwerfällig. Doch Damit ist jetzt Schluß: Das nagelneue Neve-Theme wurde für maximale Geschwindigkeit in der neuen WordPress-Ära entwickelt. Dank Gutenberg Blocks und den Möglichkeiten des integrierten WordPress Customizer ist Neve genauso mächtig wie klassische Multipurpose-Themes mit PageBuilder.

    Neve kommt vollständig ohne jQuery und ohne aufgeblasenen Code daher. Die damit erstellten Seiten laden in weniger als 1 Sekunde vollständig! Bei einer Standardinstallation benötigte Neve gerade einmal 0,6 Sekunden zum Laden. Ich habe meinen Blog auf das Neve-Theme umgestellt und erreiche damit volle 100 Punkte in Googles PageSpeed Insights Test!

    Natürlich musst Du nicht auf eine stylishe Webseite verzichten und sogar WooCommerce wird von Neve voll unterstützt. Natürlich kannst Du damit ganz einfach Kopf- und Fußzeilen erstellen, per Drag & Drop anpassen und aus einer Vielzahl von Layout-Optionen auswählen.

    Falls Du mit einem PageBuilder arbeiten willst, oder deine existierende Webseite auf das Neve-Theme umstellen willst, kannst Du Neve problemlos mit Elementor, Brizy, Beaver Builder, Visual Composer, SiteOrigin, Gutenberg und Divi Builder verwenden. Dazu gibt es über 80 vorgefertigte Seiten, die Du mit einem Klick importieren kannst. Jeden Monat kommen weitere hinzu. Die Bibliothek des Neve-Starter-Themes ermöglicht es Dir, eine fertige Website im Handumdrehen zu importieren und dann einfach mit deinen Bildern und Inhalten anzupassen.

    Preislich liegt Neve sehr fair bei 69 USD/Jahr (Personal) für beliebig viele Domains und Webseiten. Wer die Premium Starter Sites, den WooCommerce Booster oder den Priority Support nutzen möchte, zahlt 149 USD/Jahr (Business). Für Agenturen und WordPress-Dienstleister ist das Agency-Paket mit 259 USD/Jahr wohl das Richtige. Es gibt auch Lifetime-Lizenzen ab 59 USD einmalig.


    5. Astra – Das beliebteste WordPress Theme aller Zeiten

    Astra ist mit über 2,3 Millionen aktiven Installationen das beliebteste Drittanbieter-Theme für WordPress. Es ist extrem schnell, kommt ohne jQuery aus und bietet eine riesige Auswahl an Starter Templates.

    Das beliebteste Theme aller Zeiten: Schnellstes, leichtgewichtiges und hochgradig anpassbares WordPress-Theme

    Vorteile von Astra

    • Über 2,3 Millionen aktive Nutzer – größte Community
    • Komplett ohne jQuery – extrem schnelle Ladezeiten
    • Riesige Bibliothek an vorgefertigten Webseiten
    • Funktioniert mit Elementor, Beaver Builder, Brizy und Gutenberg
    • Kostenlose Version zum Ausprobieren
    • Schema Pro Plugin im Growth Bundle inklusive

    Nachteile von Astra

    • Viele Features nur in teureren Bundles verfügbar
    • Kann für Anfänger durch die vielen Optionen überwältigend sein
    • Einige Premium-Starter-Sites erfordern Elementor Pro

    Astra ist nicht nur das beliebteste WordPress-Theme aller Zeiten, sondern auch noch eines der schnellsten und flexibelsten WordPress-Themes

    Es gibt unzählige vorgefertige Webseiten, die man sich nach der Installation einfach importieren kann und dann mit Veränderungen an die eigenen Bedürfnisse anpassen kann. Egal ob Du Elementor, den Beaver Builder, Brizy oder mit dem Gutenberg Editor arbeiten willst, in der Webseiten-Galerie wirst Du garantiert fündig. Übrigens: Als eines der wenigen Themes kommt Astra komplett ohne jQuery aus, was die Seiten wirklich schnell machen. Ladezeiten von einer halben Sekunde sind mit einem SCHNELLEN HOSTING wirklich möglich!

    Man kann Astra kostenlos ausprobieren, die Pro-Version geht ab 69 USD/Jahr los. Für Dienstleister und Agenturen empfiehlt sich das Essential Toolkit für 119 USD/Jahr, denn dafür bekommt man Spectra, die Ultimate Addons for Elementor und über 50 vorgebaute Webseiten zum Anpassen. Im Business Toolkit für 159 USD/Jahr sind dann zusätzlich OttoKit Pro und weitere Premium-Plugins enthalten. Für alle Pläne gibt es auch Lifetime-Lizenzen ab 319 USD.


    6. Flatsome – Das beste WordPress Theme für WooCommerce

    Flatsome ist mit über 100.000 Kunden eines der meistverkauften WooCommerce-Themes auf ThemeForest. Es bietet eine hervorragende E-Commerce-Integration mit eigenem UX Builder und erzielt 98 von 100 Punkten im GTmetrix Speed-Test.

    Flatsome - Das beste WooCommerce WordPress Theme

    Vorteile von Flatsome

    • Hervorragende WooCommerce-Integration mit Live-Suche, Schnellansicht und Wunschlisten
    • Eigener UX Builder (Frontend-WYSIWYG-Editor)
    • 98/100 GTmetrix Speed-Score
    • Über 100 vordefinierte Sektions-Vorlagen
    • Benutzerfreundlicher Setup-Wizard für WooCommerce
    • Einmaliger Kaufpreis ohne laufende Kosten

    Nachteile von Flatsome

    • Nur über ThemeForest erhältlich (kein eigener Marktplatz)
    • Support nur auf Englisch
    • Relativ wenige vordefinierte komplette Layouts (ca. 20 Variationen)
    • Nicht ideal für Anfänger ohne E-Commerce-Bedarf

    Flatsome wurde speziell für den E-Commerce entwickelt und bietet eine Vielzahl an Shop-spezifischen Features, die andere Themes nicht haben. Dazu gehören benutzerdefinierte Checkout-Seiten, Sale-Kennzeichnungen, QuickZoom für Produktbilder und ein integrierter Setup-Wizard, der die WooCommerce-Konfiguration zum Kinderspiel macht.

    Flatsome Theme Layouts

    Der UX Builder von Flatsome ist ein Frontend-Editor, mit dem man Seiten visuell gestalten kann. Er bietet über 36 Content-Elemente und rund 100 Sektions-Vorlagen. Damit lassen sich nicht nur Shop-Seiten, sondern auch Agentur-Websites oder Portfolio-Seiten erstellen.

    In Sachen Performance ist Flatsome beeindruckend: Im GTmetrix-Test erreicht es 98 von 100 Punkten. Für ein Theme mit so vielen integrierten Features ist das ein hervorragender Wert.

    Flatsome kostet 59 USD einmalig auf ThemeForest. Dafür erhält man 6 Monate Support, der für 17,63 USD um weitere 6 Monate verlängert werden kann. Für ein Theme mit diesem Funktionsumfang ist das ein sehr faires Preis-Leistungs-Verhältnis.


    7. OceanWP – Modernes, schnelles Theme mit 210 Demo-Seiten

    OceanWP ist mit über 5 Millionen Downloads und 700.000 Installationen eines der beliebtesten WordPress-Themes weltweit. Es bietet 210 professionelle Demo-Websites inklusive lizensierter Fotos und Illustrationen.

    Vorteile von OceanWP

    • 210 Pro-Demos inklusive lizensierter Bilder und Illustrationen
    • Umfangreiche Elementor-Widgets als Elementor Pro-Ersatz
    • Zugriff auf Bilddatenbanken im Business-Paket
    • Kostenlose Basisversion verfügbar
    • Sehr attraktiver Preis

    Nachteile von OceanWP

    • Viele Erweiterungen nur mit Elementor kompatibel
    • Gutenberg-Support weniger ausgereift als bei Kadence oder Blocksy
    • Einige Features nur in teureren Paketen

    OceanWP ist mit über 5 Mio. Downloads und 700.000 Installationen eines der beliebtesten WordPress-Themes auf dem Markt. Das Basis-Theme ist kostenlos, kann aber durch Aktivierung von kostenpflichtigen Premium-Plugins zu einem vollständigen Premium-Theme aufgewertet werden.

    Damit tritt es in direkte Konkurrenz zu den aktuellen Favoriten Kadence und Blocksy. Wir haben das Theme auf Herz und Nieren geprüft und ein Beispielprojekt damit umgesetzt:

    OceanWP ist zwar mit vielen Buildern kompatibel, der Favorit scheint jedoch Elementor zu sein. Einige Erweiterungen sind nur mit Elementor kompatibel und nur für Elementor gibt es eine ganze Reihe Content-Module.

    Die Premium-Version von OceanWP beinhaltet viele Pro-Erweiterungen. Die Elementor-Widgets verdienen einen besonderen Hinweis. Die Anzahl und Qualität sind so hoch, dass eine Lizenzierung von Elementor Pro für viele Anwender nicht notwendig sein sollte.

    Neben 15 kostenlosen Startervorlagen gibt es 210 Pro-Demos:

    Ocean WP Demoseiten

    Die Möglichkeit eine komplette Demo-Webseite inklusive aller lizensierten Fotos und Illustrationen zu importieren und sofort damit online gehen zu können, ist wirklich einzigartig!

    Die drei großen Stärken von OceanWP sind der Zugriff auf die Bilddatenbanken, die Elementor-Module und die zahlreichen Website-Demos. Der Preis ist sehr attraktiv. Die Business-Version ist sogar günstiger als das Abo bei Freepik selbst!


    8. Blocksy – Das schnelle Gutenberg-Theme für Einsteiger

    Blocksy ist ein performanceoptimiertes WordPress-Theme, das sich nahtlos in den Gutenberg-Editor integriert. Es ist besonders für Einsteiger geeignet, die ein modernes und schnelles Theme suchen.

    Blocksy WordPress Theme

    Vorteile von Blocksy

    • Sehr schnell und performanceoptimiert
    • Intuitiver und umfangreicher Customizer
    • 13+ vorkonfigurierte Starter Sites
    • Content Blocks mit Display Conditions (Pro)
    • Kostenlose Version mit vielen Features
    • Responsiver und schneller Support

    Nachteile von Blocksy

    • Weniger Starter Sites als Kadence oder Astra
    • Für komplexe Layouts wird ein zusätzlicher Block-Builder benötigt
    • Typografie-Einstellungen übernehmen nicht immer automatisch

    Blocksy überzeugt besonders durch seine Performance und den intuitiven Customizer. Mit den Content Blocks und Display Conditions der Pro-Version kann man gezielt Inhalte für bestimmte Seiten, Beiträge oder Kategorien anzeigen lassen. Das Theme kommt mit kostenlosen und Premium-Extensions, die den Funktionsumfang deutlich erweitern.

    Blocksy Starter Sites

    Im direkten Vergleich mit Kadence ist Blocksy genauso schnell. Allerdings hat Kadence die Nase vorn, wenn es um die Theme-Builder-Integration und die Anzahl der nativen Blöcke geht. Wer jedoch ein einfacheres, schlankeres Theme bevorzugt und mit einem externen Block-Builder wie Stackable oder Qubely arbeiten möchte, ist mit Blocksy bestens bedient.

    Blocksy Pro kostet ab 69 USD/Jahr für eine Webseite (Personal). Für 10 Webseiten zahlt man 99 USD/Jahr (Business) und für unbegrenzt viele 149 USD/Jahr (Agency). Es gibt auch Lifetime-Lizenzen ab 149 USD einmalig.


    9. Qi Theme – Sehr stylishes und modernes Theme

    Qi ist eines der visuell attraktivsten WordPress-Themes mit einer beeindruckenden Auswahl an Demo-Websites. Es eignet sich besonders für Portfolio-Webseiten und Kreative, die Wert auf schönes Design legen.

    Qi Theme - Ein WordPress-Theme mit 150 schönen Demos

    Vorteile von Qi Theme

    • Visuell sehr attraktive und liebevoll gestaltete Demo-Websites
    • Große Auswahl an Elementor-Widgets und Content-Modulen
    • Stark bei Portfolio- und Design-Webseiten
    • Auf Speed ausgerichtet

    Nachteile von Qi Theme

    • Bloglayouts haben noch Einschränkungen
    • Primär auf Elementor ausgerichtet
    • Weniger flexible Blog-Funktionen

    Unter den liebevoll gestalteten Demo-Websites sind einige echte Perlen, primär bei den Premiumlayouts.

    Wie immer haben wir das WordPress Theme durchleuchtet und damit unser Beispielprojekt damit umgesetzt. In unserem ausführlichen Testbericht kannst Du die Zusammenfassung und unsere Empfehlung nochmal ausführlich lesen. Unser Testbericht inkl. Mega-Tutorial kannst Du Dir hier anschauen:


    10. Page Builder Framework – Das WYSIWYG-Theme

    Das Page Builder Framework ist das ideale Theme für alle, die mit einem Page Builder wie Elementor, Beaver Builder oder Brizy arbeiten. Es bringt selbst wenig Code und Styling mit und überlässt die Gestaltung komplett dem Builder.

    Page Builder Framework – Das WYSIWYG-Theme

    Vorteile von Page Builder Framework

    • Optimiert für alle großen Page Builder
    • Minimaler eigener Code – maximale Performance
    • Volle Kontrolle über die visuelle Gestaltung
    • Anpassung über nativen WordPress Customizer

    Nachteile von Page Builder Framework

    • Wenig eigene Design-Elemente – Page Builder erforderlich
    • Nicht für Nutzer geeignet, die ein fertiges Design wollen
    • Kleinere Community als Astra oder GeneratePress

    Das Page Builder Framework Theme ist sehr einfach anzupassen. So kannst Du über das Theme alle Bereiche außerhalb des Contents gestalten, also Dein Menü, die Farben, etc. einfach über den integrierten WordPress Customizer anpassen und die restlichen Seitenelemente mit dem Page Builder ausgestalten.

    Das Page Builder Framework Theme kann in seiner einfachsten Standard-Version kostenlos heruntergeladen, muss aber für einen sinnvollen Einsatz schon mit dem kostenpflichtigen Premium Plugin für 58 USD jährlich oder 248 USD einmalig erweitert werden. Das Theme arbeitet dann exzellent mit Elementor, dem Beaver Builder, Brizy, Divi Builder, Visual Composer sowie dem SiteOrigin PageBuilder zusammen.

    unterstuetzte-page-builder-theme

    Wenn Du Dich also in einen der vielen Page Builder verliebt hast, würde ich Dir in der Tat das Page Builder Framework Theme empfehlen. Denn damit kannst Du beliebig viele Webseiten erstellen und jeden Aspekt Deiner visuellen Gestaltung selbst kontrollieren – und das auch noch schnell, einfach und ohne Programmierkenntnisse!


    11. Genesis Framework – Perfekt für Entwickler

    Genesis ist ein professionelles Theme-Framework von StudioPress, das mittlerweile zu WP Engine gehört. Es bietet eine suchmaschinenoptimierte und sichere Grundlage für professionelle Webseiten und ist bei WP Engine Hosting inklusive.

    genesis theme beispiel

    Vorteile von Genesis

    • Sauberer, suchmaschinenoptimierter Code
    • Hohe Sicherheitsstandards
    • 100% kompatibel mit dem Gutenberg-Editor
    • Bei WP Engine Hosting kostenlos enthalten

    Nachteile von Genesis

    • Erfordert Entwicklerkenntnisse für individuelle Anpassungen
    • Weniger visuelle Gestaltungsmöglichkeiten als moderne Themes
    • Child-Themes benötigen teilweise PHP-Kenntnisse

    Bei dieser Empfehlung handelt es sich nicht um ein einzelnes Theme, sondern ein WordPress-Theme Framework von StudioPress. Das Genesis Framework ermöglicht es, schnell und einfach tolle Websites mit WordPress zu erstellen. Genesis bietet eine professionelle und vor allem suchmaschinenoptimierte Grundlage für erfolgreiche Webseiten.

    Alle Themes wurden außerdem bereits ausgiebig mit dem Gutenberg-Editor getestet und sind zu 100% mit dem neuen Gutenberg-Editor kompatibel. Der neue Editor verwendet blockbasierte Elemente, um noch einfacher und flexibler wirklich tolle Seiten und Beiträge erstellen zu können.


    Auch wenn die Webseiten, auf denen man das jeweilige Theme kaufen kann auf englisch ist, kann man mit JEDEM hier empfohlenen Theme problemlos deutsche bzw. deutschsprachige Webseiten erstellen. Das WordPress-Backend ist natürlich auch Deutsch!

    12. Kostenlose WordPress Themes + Gutenberg Blöcke

    Kostenlose WordPress Themes gibt es wie Sand am Meer. Viele davon findet man im offiziellen Theme-Verzeichnis auf WordPress.org. Allerdings finden sich dort sehr häufig nur noch abgespeckte „light“-Versionen kostenpflichtiger Themes, bei denen man nur eine eingeschränkte Basis-Funktionalität umsonst erhält. Wer die Wahl hat und seiner Seite ein individuelles und professionelles Aussehen geben möchte, sollte meiner Meinung nach also lieber ein wenig Geld für ein sehr gutes Premium Theme ausgeben.

    Wenn Dein Budget einfach kein Premium-Theme wie Divi oder Kadence hergibt, kannst Du auch mit einem kostenlosen Theme starten und später auf die Premium-Version upgraden, oder mit einem schlanken, kostenlosen WordPress Theme starten und dieses mit Gutenberg Blöcken aus einer der folgenden Plugins erweitern:


    Hilfe: Das richtige WordPress Theme finden – So geht’s

    Unter Berücksichtigung der Bedürfnisse meiner Besucher habe ich viel Zeit darauf verwendet, die bestmöglichen WordPress Themes für verschiedene Arten von Websites zu finden, zu testen und hier vorzustellen. Unabhängig von Ihrem beruflichen Hintergrund oder Ihren Computerkenntnissen wird es Ihnen mit diesen Themes auf jeden Fall gelingen, Ihre Webseite zu erstellen und Änderungen selbst vorzunehmen. Um die Sache noch einfacher zu machen, wird jedes Theme mit allen notwendigen Dokumentationen geliefert, die jeden Schritt des Installationsprozesses explizit erklären.

    Um mit den modernen Trends im Web Schritt zu halten, sind alle Templates browserübergreifend aufgebaut, damit Ihre Website in allen modernen Browsern einwandfrei aussieht. Darüber hinaus haben alle hier vorgestellten Produkte ein 100% responsives Design, das es ermöglicht, Ihre Webseite von jedem modernen mobilen Gerät Ihrer Wahl aus zu besuchen und zu genießen.

    Jedes dieser Premium Themes für WordPress ist suchmaschinenfreundlich. So können Sie Ihre Website immer optimieren, damit mehr Kunden über die Waren und Dienstleistungen Ihres Unternehmens im Internet erfahren können!

    Mit dem Kauf bekommst Du vollen Zugang zum Support. Professionelle Unterstützung wird von den technischen Spezialisten der Hersteller in der Regel Tag und Nacht geleistet, wann immer sie benötigt wird. Diese garantieren, dass Deine Fragen beantwortet werden!

    Häufig hat man spezielle Anforderungen oder Funktionalitäten im Kopf, dann braucht man mit kostenlosen Themes meistens garnicht erst anfangen. Denn viele kostenlose Themes sind bloß abgespeckte Versionen der jeweiligen Premium-Variante oder es werden sowieso nur grundlegende Features ohne besondere Templates und Inhaltselemente unterstützt. Dann solltest Du jedes Theme, das für Dich in Frage kommt, auf die benötigten Funktionen hin überprüfen und am besten ausprobieren, ob Du damit auch zurecht kommst.

    Falls Du mit einer fertigen Vorlage arbeiten willst, die Du „nur“ noch mit Deinen Inhalten füllst, solltest Du am besten zuerst die Demo-Seiten der Themes und die Template-Bibliotheken von Kadence und Divi nach einem passenden Layout für Deinen Zweck durchstöbern.

    Mit Elementor Pro hast Du außerdem die Möglichkeit Elementor Templates und vollständige Template-Kits zu verwenden. Das sind quasi vorgefertigte Seitenvorlagen, die man in jede Website importieren kann. Das beste daran ist, dass Du die enthaltenen Fotos und Videos bis hin zu Hintergründen und Schriftarten, in den Template-Kits von Envato genutzt werden können, wenn Du ein Abo bei Envato Elements hast!

    Hierfür haben wir eine eigene Anleitung geschrieben: Eine Webseite mit Elementor-Vorlagen erstellen.

    In jedem Falle gilt: Lass Dich nicht entmutigen! Manchmal muss ich selbst auch erst zwei, drei, manchmal auch fünf Themes ausprobieren, bis ich das Richtige für mein Projekt gefunden habe!

    Für die häufigsten Einsatzzwecke stelle ich Euch in eigenen Artikel speziell passende Themes vor:

    Premium-Theme oder kostenloses Theme?

    Wie Du feststellen wirst, setze ich größtenteils auf Premium Themes, also kostenpflichtige Templates. Diese kosten zwar ein paar Dollar bzw. Euros, bringen dafür aber eine ganze Menge zusätzlicher Funktionalitäten mit sich, auf die ich nicht verzichten möchte. Der große Unterschied ist aber vorallem die Möglichkeit den Support des Herstellers in Anspruch zu nehmen, wenn man einmal nicht weiter kommt oder unerwartete Probleme auftreten.

    Mit einem kostenlosen Theme steht man alleine da.


    Häufige Fragen zu WordPress Themes

    Welches WordPress-Theme ist das beste?

    Das beste WordPress-Theme hängt von Deinen Anforderungen ab. Für Einsteiger ohne Programmierkenntnisse empfehle ich Divi, für Entwickler und SEO-bewusste Nutzer GeneratePress oder Kadence, und für WooCommerce-Shops ist Flatsome die erste Wahl. Astra ist das vielseitigste Theme mit der größten Community.

    Welches WordPress-Theme ist am schnellsten?

    Die schnellsten WordPress-Themes sind Neve (100/100 PageSpeed Score), GeneratePress (unter 1 MB Größe) und Kadence. Alle drei kommen ohne jQuery aus und laden in unter einer Sekunde. Auch Astra und Blocksy gehören zu den Performance-Spitzenreitern.

    Welches Theme eignet sich am besten für WooCommerce?

    Für WooCommerce-Shops ist Flatsome die beste Wahl. Es wurde speziell für E-Commerce entwickelt und bietet Features wie Live-Suche, Produktschnellansicht, Wunschlisten und einen eigenen UX Builder. Alternativ eignen sich Astra, Kadence und Neve ebenfalls sehr gut für WooCommerce.

    Sind kostenlose WordPress-Themes gut genug?

    Kostenlose WordPress-Themes sind für den Einstieg geeignet, haben aber oft eingeschränkte Funktionen und keinen Support. Themes wie Astra, Kadence, GeneratePress, Neve und Blocksy bieten starke kostenlose Versionen, die sich später auf die Premium-Version upgraden lassen. Für professionelle Webseiten empfehle ich ein Premium-Theme.

    WordPress-Theme vs. Page Builder – was brauche ich?

    Ein WordPress-Theme bestimmt das grundlegende Erscheinungsbild Deiner Website (Header, Footer, Farben, Typografie). Ein Page Builder wie Elementor, Divi Builder oder Kadence Blocks ermöglicht die visuelle Gestaltung einzelner Seiten per Drag & Drop. Moderne Themes wie Kadence und Blocksy integrieren den Gutenberg-Editor so tief, dass ein separater Page Builder oft nicht mehr nötig ist.

    Welches Theme ist am besten für SEO?

    GeneratePress, Astra und Kadence sind besonders SEO-freundlich. Sie laden schnell, haben sauberen Code und unterstützen Schema-Markup. GeneratePress hat schema.org Mikrodaten bereits integriert, Astra bietet das Schema Pro Plugin im Growth Bundle. Wichtig für SEO sind vor allem schnelle Ladezeiten und die Core Web Vitals – hier punkten alle drei Themes.

  • Die unbequeme Wahrheit über „Prompt Volume“: Warum die Zahlen Bullshit sind

    Die unbequeme Wahrheit über „Prompt Volume“: Warum die Zahlen Bullshit sind

    „Prompt Volume“ klingt nach der Zukunft der Keyword-Recherche: Wie oft suchen Menschen in ChatGPT, Perplexity & Co. nach bestimmten Begriffen? Einige Tools behaupten, genau das messen zu können. Doch die unbequeme Wahrheit ist: Diese Zahlen sind keine echten Messungen, sondern hochgerechnete Schätzungen auf Basis von unvollständigen Daten.

    Und genau darin liegt das Problem.

    Woher kommen Prompt-Volumen eigentlich?

    Die meisten sogenannten AI-Prompt-Tracking-Tools greifen auf Paneldaten aus Chrome Extensions zurück. Diese Extensions erfassen, was Nutzer in ChatGPT, Perplexity oder Googles AI Mode eingeben.

    Das führt zu mehreren fundamentalen Verzerrungen:

    • Nur ein winziger Teil der Nutzer ist erfasst
    • Keine Safari-Nutzer
    • Keine mobilen Nutzer
    • Keine ChatGPT-App-Nutzung
    • Keine Enterprise-Geräte mit gesperrten Erweiterungen
    • Keine Opt-out-Nutzer
    • Kurz gesagt: Die große Mehrheit fehlt

    Hinzu kommt: In LLMs wird nicht nur „gesucht“. Menschen erstellen Reisepläne, schreiben E-Mails, entwickeln Rezepte, brainstormen Ideen, lösen Hausaufgaben oder programmieren. Kommerzielle Suchanfragen sind nur ein sehr kleiner Teil dieses Rauschens.

    Das eigentliche Problem:
    Massive Hochrechnung (Extrapolation)

    Wenn ein Panel-Tool zum Beispiel nur 1 % der tatsächlichen Nutzung sieht, wird diese Zahl einfach mit Faktor 100 hochgerechnet. Genau deshalb wirken viele Prompt-Zahlen so gigantisch – und scheitern trotzdem am simplen Reality-Check.

    Beispiel 1: „ai email agents“

    • Ahrefs: 40 Suchanfragen
    • Google Search Console: 45 Impressions
    • Profound: 9.800 Prompts

    Das würde bedeuten, dass die Nachfrage in ChatGPT 245-fach höher sei als in Google. Realistisch? Kaum.

    Beispiel 2: Bottom-Funnel SaaS-Keyword

    • Ahrefs: 9.200
    • GSC: 11.667 Impressions
    • Profound: 250.800 Prompts

    Ein 25-facher Sprung, nicht durch echte Nachfrage – sondern durch mathematische Skalierung.

    Selbst Ali Vaghar, Head of Data bei Profound, empfiehlt ausdrücklich, Prompt-Zahlen immer gegen Google Search Console zu validieren. Ohne diesen Abgleich führen aufgeblähte Signale Teams schnell in die falsche Richtung.

    Die vier Datenquellen hinter AI-Visibility-Tools

    1. Chrome-Extension-Panels
    Liefern grobe Nutzungsmuster aus einem extrem kleinen Nutzersegment.

    ✅ Zeigen grobe Trends
    ❌ Keine Marktvolumina, keine Mobile-Daten, keine App-Daten

    2. Web-Analytics-Panels (Antivirus & Privacy Tools)
    Noch kleinere Stichproben mit hoher Fehlertoleranz.

    ✅ Extrem grobe Richtungen
    ❌ Keine echte Marktabbildung, massive Schätzfehler

    3. Klassische SERP-Tools (Ahrefs, Semrush)
    Basieren auf Klickdaten und Search-Console-Anbindungen.

    ✅ Realistischere Nachfrage
    ❌ Keine Aussagen zu LLMs

    4. Google Search Console (First Party)

    ✅ Echte Impressionen und Klicks
    ❌ Keine Einblicke in KI-Antworten

    Strukturelle Schwächen von Panel-Datasets

    • Extrem viel Rauschen durch nicht-kommerzielle Nutzung
    • Große blinde Flecken durch fehlende Plattformen
    • Künstliche Skalierung durch Hochrechnung
    • Trügerische Genauigkeit durch exakte Zahlen ohne echte Marktabdeckung
    • Fehlendes SEO-Domainwissen bei vielen Tool-Anbietern

    Das Ergebnis: Zahlen, die präzise wirken, aber nicht belastbar sind.

    27 kritische Fragen, die jedes Unternehmen stellen sollte

    Wer Prompt-Tracking-Tools einsetzt, sollte unter anderem fragen:

    • Wie groß ist euer Panel in Relation zum Gesamtmarkt?
    • Wie hoch ist eure tägliche Varianz?
    • Welcher Skalierungsfaktor wird angewendet – und warum genau dieser?
    • Gibt es eine echte Fehlertoleranz oder ein Konfidenzintervall?
    • Wie wird Mobile- und App-Nutzung berücksichtigt?
    • Wie viel der erfassten Prompts haben tatsächlich kommerzielle Intention?
    • Warum wird mit 90-Tage-Fenstern gearbeitet, wenn SEO-Tools monatlich rechnen?
    • Welche echten Business-Entscheidungen lassen sich seriös aus diesen Daten ableiten?

    Wie man Prompt-Volumen verantwortungsvoll nutzt

    ✔ Immer gegen Google Search Console und Ahrefs gegenprüfen
    ✔ Prompt-Daten nur als Richtungsindikator, nicht als absolute Wahrheit sehen
    Echte Prompts analysieren, nicht nur aggregierte Zahlen

    Fokus auf:

    • Wie wird meine Marke genannt?
    • Wie wird sie beschrieben?
    • Welche Wissenslücken nutzt das LLM?

    ❌ Nicht auf überhöhte Zahlen optimieren
    ❌ Keine Strategie auf reinen Hochrechnungen aufbauen

    Was stattdessen wirklich zählt

    Bei Notebook Agency wird nicht auf aufgeblähte Prompt-Zahlen geschaut, sondern auf die realen Entscheidungskriterien aus echten Sales-Gesprächen. Wenn klar ist, welche Kriterien einen Deal entscheiden, kann die Darstellung in LLMs gezielt optimiert werden – von der bloßen Erwähnung hin zur echten Empfehlung.

    Fazit

    „Prompt Volume“ ist aktuell weniger Messgröße als hochgerechnete Schätzung mit enormer Unsicherheit. Wer diese Zahlen unkritisch verwendet, riskiert falsche Prioritäten, verschobene Budgets und strategische Fehlentscheidungen. Der Schlüssel liegt nicht in der Jagd nach möglichst großen Zahlen – sondern in Sichtbarkeit, Klarheit und korrekter Repräsentation in KI-Systemen.

    Danke, Steve!

    Ein besonderer Dank geht an Steve Toth für diese klare, ehrliche und dringend notwendige Einordnung. Sein Beitrag bringt dringend benötigte Transparenz in einen Markt, der aktuell stark von Hype und falscher Sicherheit geprägt ist. 🙌

  • Der blinde Fleck in deiner Web-Analyse: Warum du KI-Chatbot-Traffic nicht siehst

    Der blinde Fleck in deiner Web-Analyse: Warum du KI-Chatbot-Traffic nicht siehst

    Du wirst in ChatGPT zitiert. Claude empfiehlt deine Seite. Perplexity verlinkt auf deinen Artikel. Nutzer klicken auf diese Links und landen auf deiner Website. Aber in Google Analytics? Nichts. Kein Hinweis auf diese Traffic-Quelle. Die Besucher tauchen als „Direct Traffic“ auf – so als hätten sie deine URL direkt in die Adresszeile getippt.

    Das ist kein Bug in deinem Analytics-Setup. Das ist ein systemisches Problem, das fast alle KI-Chatbot-Apps betrifft. Und es wird mit der wachsenden Nutzung von ChatGPT, Claude, Gemini und Perplexity immer relevanter. Um herauszufinden, wie gravierend dieses Problem wirklich ist, habe ich alle großen KI-Chatbots systematisch getestet. Die Ergebnisse sind ernüchternd – aber es gibt Lichtblicke.

    Das Problem: KI-Traffic ist Analytics-unsichtbar

    Wenn jemand über eine Google-Suche auf deine Website kommt, siehst du das in Analytics:

    • Quelle: google
    • Medium: organic
    • Referrer: https://www.google.com/

    Bei KI-Chatbots funktioniert das nicht zuverlässig. Der Grund liegt in der Art, wie diese Apps Links öffnen: Die meisten mobilen Apps übergeben beim Öffnen eines Links weder einen Referrer noch UTM-Parameter. Für dein Analytics-Tool sieht es so aus, als käme der Besucher „aus dem Nichts“.

    Das bedeutet konkret: Du könntest die wichtigste Traffic-Quelle der Zukunft komplett übersehen.

    Das Experiment: So habe ich getestet

    Um das Verhalten der verschiedenen Chatbots zu dokumentieren, habe ich den AIBotTracer eingesetzt – ein selbst entwickeltes Tool, das jeden Zugriff auf eine Webseite mit allen HTTP-Headern protokolliert:

    • Zeitstempel des Zugriffs
    • IP-Adresse des Besuchers
    • User-Agent (identifiziert Browser, Bot oder App)
    • Referrer (von welcher Seite der Besucher kam)
    • Query-String (angehängte Parameter wie UTM-Tags)

    In jeden Chatbot – Web-Version, iOS-App und Android-App – habe ich dieselbe Anfrage eingegeben:

    Was macht der AIBotTracer von Kai Spriestersbach?
    Schau bitte dafür hier: https://www.afaik.de/ai-search.php

    Anschließend habe ich auf den Link in der Antwort geklickt und im Log nachgesehen, welche Daten dabei übermittelt wurden.


    Grundlagen: Wie KI-Chatbots auf Webseiten zugreifen

    Bevor wir zu den Ergebnissen kommen, ist es wichtig zu verstehen, wie KI-Chatbots technisch funktionieren. Wenn du einem Chatbot eine URL gibst, passieren zwei getrennte Dinge:

    1. Der Bot-Request (serverseitig, für dich unsichtbar)

    Zuerst ruft der KI-Dienst die Webseite von seinen eigenen Servern ab:

    • IP-Adresse: Stammt vom Anbieter (z.B. OpenAI, Anthropic)
    • User-Agent: Enthält eine Bot-Kennung wie ChatGPT-User/1.0
    • Referrer: Leer
    • Zweck: Der Bot liest den Inhalt, um ihn für dich zusammenzufassen

    Dieser Request wird von Google Analytics nicht erfasst, weil kein JavaScript ausgeführt wird. Du siehst ihn nur in Server-Logfiles.

    2. Der User-Visit (wenn du auf den Link klickst)

    Wenn du anschließend auf einen Link in der Chatbot-Antwort klickst:

    • IP-Adresse: Deine eigene
    • User-Agent: Dein normaler Browser
    • Referrer: Hier liegt das Problem!
    • Zweck: Du besuchst die Seite selbst

    Dieser zweite Zugriff ist der einzige, den Google Analytics sehen kann. Und genau hier versagen die meisten KI-Apps: Sie übergeben keinen Referrer.


    Die Ergebnisse: Welche Chatbots welche Daten senden

    ChatGPT (OpenAI)

    PlattformBot-RequestReferrer beim User-VisitUTM-Parameter
    WebChatGPT-User/1.0https://chatgpt.com/
    iOS-App❌ (gecacht)❌ Kein Referrer
    Android-AppChatGPT-User/1.0❌ Kein Referrer

    Ergebnis: Nur die Web-Version ist in Analytics sichtbar. Der gesamte mobile Traffic – und das dürfte ein erheblicher Anteil sein – verschwindet im „Direct“-Kanal.


    Claude (Anthropic)

    PlattformBot-RequestReferrer beim User-VisitUTM-Parameter
    Web❌ (gecacht?)https://claude.ai/
    iOS-AppClaude-User/1.0❌ Kein Referrer
    Android-App❌ (alter Cache!)❌ Kein Referrer

    Ergebnis: Ähnliches Bild wie bei ChatGPT. Besonders problematisch: Die Android-App verwendete im Test eine mehrere Monate alte, gecachte Version der Seite und ließ sich nicht zu einem frischen Abruf bewegen.


    Gemini (Google)

    PlattformBot-RequestReferrer beim User-VisitUTM-Parameter
    Webhttps://gemini.google.com/
    iOS-App❌ (Google-Cache?)❌ Kein Referrer
    Android-App✅ (nur Google als UA)❌ Kein Referrer

    Ergebnis: Google verhält sich nicht besser als die Konkurrenz. Der Bot-Request der Android-App identifiziert sich nur mit dem generischen User-Agent Google, was eine Unterscheidung von anderen Google-Diensten unmöglich macht.


    Perplexity

    PlattformBot-RequestReferrer beim User-VisitUTM-Parameter
    WebPerplexity-User/1.0https://www.perplexity.ai/
    macOS-AppPerplexity-User/1.0❌ Kein Referrer
    iOS-App⚠️ ChatGPT-User/1.0 (Bug!)❌ Kein Referrer?utm_source=perplexity
    Android-AppPerplexity-User/1.0❌ Kein Referrer?utm_source=perplexity

    Ergebnis: Perplexity ist der einzige Anbieter, der das Problem erkannt und gelöst hat! Die mobilen Apps hängen den Parameter ?utm_source=perplexity an jeden Link an. Damit erscheint der Traffic in Google Analytics korrekt unter der Quelle „perplexity“.

    Kleiner Wermutstropfen: Die iOS-App identifiziert den Bot-Request fälschlicherweise als ChatGPT-User – ein Bug, der die serverseitige Analyse verfälscht.


    Die große Übersicht: Was ist in Analytics sichtbar?

    ChatbotWebiOS-AppAndroid-App
    ChatGPT✅ Sichtbar (Referrer)❌ Unsichtbar❌ Unsichtbar
    Claude✅ Sichtbar (Referrer)❌ Unsichtbar❌ Unsichtbar
    Gemini✅ Sichtbar (Referrer)❌ Unsichtbar❌ Unsichtbar
    Perplexity✅ Sichtbar (Referrer)✅ Sichtbar (UTM)✅ Sichtbar (UTM)

    Das ernüchternde Fazit: Mit Ausnahme von Perplexity ist der gesamte mobile KI-Chatbot-Traffic in Google Analytics nicht als solcher erkennbar. Er landet im „Direct“-Kanal und vermischt sich dort mit Nutzern, die deine URL direkt eingegeben haben.

    Warum ist das ein Problem?

    1. Du unterschätzt den Wert von KI-Traffic

    Wenn du nicht weißt, wie viele Besucher über ChatGPT & Co. kommen, kannst du den ROI von „AI Visibility“ nicht messen. Vielleicht investierst du viel in klassisches SEO, während KI-Chatbots längst eine wichtigere Traffic-Quelle sind.

    2. Du kannst nicht optimieren, was du nicht misst

    Welche Inhalte werden von KI-Chatbots bevorzugt zitiert? Welche Formulierungen führen zu Klicks? Ohne Daten bleiben diese Fragen unbeantwortet.

    3. Dein „Direct Traffic“ ist verzerrt

    Ein plötzlicher Anstieg im Direct-Kanal könnte bedeuten:

    • Deine Marke wird bekannter (gut!)
    • Du wirst in KI-Chatbots zitiert (auch gut, aber andere Ursache!)
    • Ein technisches Problem mit deinem Tracking (schlecht!)

    Ohne die Möglichkeit, KI-Traffic zu isolieren, weißt du nicht, was wirklich passiert.

    Was du trotzdem tun kannst

    1. Referrer-basiertes Tracking in GA4 einrichten

    Für die Web-Versionen funktioniert das Referrer-Tracking. Erstelle ein benutzerdefiniertes Segment:

    Bedingung: Sitzungsquelle enthält einen der folgenden Werte:

    • chatgpt.com
    • claude.ai
    • perplexity.ai
    • gemini.google.com

    Das erfasst zumindest den Desktop-Traffic der Chatbot-Websites.

    2. UTM-Parameter für Perplexity auswerten

    Perplexity-Traffic von mobilen Apps erscheint in GA4 automatisch mit:

    • Quelle: perplexity
    • Medium: referral

    Das funktioniert out-of-the-box, du musst nichts konfigurieren.

    3. Server-Logfiles analysieren

    Die Bot-Requests der KI-Dienste werden von Analytics nicht erfasst, aber sie erscheinen in deinen Server-Logs. Suche nach diesen User-Agent-Strings:

    ChatGPT-User/1.0
    Claude-User/1.0
    Perplexity-User/1.0
    GPTBot
    ClaudeBot
    

    Das zeigt dir zumindest, wie oft KI-Bots deine Inhalte abrufen – auch wenn du nicht weißt, wie viele Nutzer anschließend klicken.

    4. Eigenes Tracking implementieren

    Für detaillierte Analysen kannst du ein serverseitiges Tracking-Skript implementieren, das jeden Zugriff mit allen HTTP-Headern protokolliert. Der AIBotTracer, den ich für diesen Test verwendet habe, ist ein Beispiel dafür.

    Was die Anbieter ändern sollten

    Die Lösung wäre einfach: UTM-Parameter an alle Links anhängen, so wie Perplexity es bereits tut. Ein simples ?utm_source=chatgpt&utm_medium=ai-chat würde reichen.

    Hinweis: Diese Analyse wird erweitert

    Dieser Artikel wird noch um Tests der folgenden Dienste ergänzt:

    • Google AI Mode – Googles neue KI-Suche, die direkt in die Suchergebnisse integriert ist
    • Microsoft Copilot (ehemals Bing Chat) – Microsofts KI-Assistent

    Sobald die Daten vorliegen, werde ich die Ergebnisse hier ergänzen.

    Fazit: Ein Appell an die KI-Anbieter

    Die KI-Chatbots verändern fundamental, wie Menschen Informationen im Web finden und konsumieren. Für Website-Betreiber und Content-Ersteller ist es essenziell zu verstehen, welche Rolle diese neuen Kanäle spielen.

    Aktuell machen es uns die Anbieter – mit der löblichen Ausnahme von Perplexity – unnötig schwer. Der gesamte mobile Traffic von ChatGPT, Claude und Gemini ist in Standard-Analytics-Tools unsichtbar. Das ist nicht nur ein technisches Problem, sondern auch ein faires: Wer Inhalte von Websites nutzt und zitiert, sollte den Erstellern zumindest die Möglichkeit geben, diesen Traffic zu messen.

    Bis die Anbieter nachbessern, bleibt Website-Betreibern nur die Kombination aus Referrer-Tracking (für Web-Traffic), UTM-Auswertung (für Perplexity) und Server-Log-Analyse (für Bot-Requests). Es ist umständlich, aber besser als komplett im Dunkeln zu tappen.

    Die Zukunft des Web-Traffics ist KI-gestützt. Es wird Zeit, dass wir ihn auch messen können.

    Dieser Artikel basiert auf Tests, die am 21. Oktober 2025 und 4. Dezember 2025 durchgeführt wurden. Das Verhalten der Chatbots kann sich durch Updates jederzeit ändern. Updates zu Google AI Mode und Microsoft Copilot folgen.