Kategorie: Artikel

Harness Engineering: Wie wir KI-Agenten zuverlässiger machen – aber nicht unfehlbar

Die Diskussion um AI-Agenten hat sich verschoben. Vor einem Jahr klang vieles noch nach Modellvergleich: Welches LLM plant besser? Welches schreibt besseren Code? Welches halluziniert weniger? Inzwischen wird klarer: Die entscheidende Frage ist nicht nur, wie gut das Modell ist, sondern in welchem System es arbeitet.

Genau hier setzt Harness Engineering an.

Ein Agent ist eben nicht einfach ein Chatbot mit mehr Kontext. Sobald er Tools nutzen, Dateien ändern, Tests starten, Browser bedienen, Deployments vorbereiten oder Entscheidungen über mehrere Arbeitsschritte hinweg treffen soll, braucht er eine Umgebung, die ihn führt, begrenzt und überprüfbar macht. Der Harness ist diese Umgebung: Instructions, State, Verification, Scope und Session Lifecycle – also die Regeln, das Gedächtnis, die Prüfmechanismen, die Grenzen und die Übergaben, innerhalb derer ein Agent arbeitet. Das Projekt Learn Harness Engineering beschreibt diesen Ansatz als systematisches Design von Environment, State Management, Verification und Control Systems, um Coding Agents wie Codex oder Claude Code zuverlässiger zu machen.

Der Harness besteht selbst als fünf Subsystemen: Instructions, State, Verification, Scope und Session Lifecycle. Wichtig ist dabei die Formulierung: Das Modell entscheidet, welchen Code es schreibt; der Harness regelt, wann, wo und wie es schreibt. Der Harness macht das Modell also nicht klüger, sondern macht seine Arbeit kontrollierbarer und überprüfbarer.

Damit ist Harness Engineering mehr als „bessere Prompts schreiben“. Es ist der Übergang von Prompting zu Infrastruktur. OpenAI beschreibt diese Verschiebung sehr deutlich: In einer agentenorientierten Entwicklungswelt besteht die Arbeit des Engineering-Teams nicht mehr nur darin, selbst Code zu schreiben, sondern Umgebungen zu entwerfen, Intentionen zu spezifizieren und Feedback-Loops zu bauen, in denen Codex-Agenten zuverlässig arbeiten können. Ein zentrales Muster ist dabei: Das Repository wird zum „System of Record“, während AGENTS.md eher als Karte oder Inhaltsverzeichnis dient, nicht als allwissendes Handbuch.

Auch Anthropic argumentiert in eine ähnliche Richtung. In den Arbeiten zu long-running agents geht es nicht nur darum, ein Modell länger laufen zu lassen, sondern Fortschritt über Kontextfenster, Sessions und Teilaufgaben hinweg kontrollierbar zu machen. Dazu gehören Initialisierung, Feature-Listen, Übergabeartefakte, Browser-Validierung, QA-Agenten und explizite Verifikationsschleifen. Gleichzeitig zeigen diese Arbeiten auch die Grenze: Selbst bessere Harnesses stoßen an Decken, etwa wenn Evaluatoren zu großzügig urteilen, UI-Zustände nicht beobachtbar sind oder das System zwar viel schafft, aber nicht sicher weiß, ob es das Richtige geschafft hat.

Das macht die aktuelle Debatte so interessant: Harness Engineering ist einerseits eine der praktischsten Antworten auf die Unzuverlässigkeit von AI-Agenten. Es reduziert Kontextverlust, Scope Creep, ungeprüfte Annahmen, „fertig“-Behauptungen ohne Evidenz und gefährliche Tool-Nutzung. Andererseits darf man es nicht mit einer Sicherheitsgarantie verwechseln.

Ein Harness kann erzwingen, dass ein Agent Tests ausführt.
Er kann aber nicht garantieren, dass diese Tests die richtigen Dinge prüfen!

Er kann Rechte beschränken.
Er kann aber nicht automatisch erkennen, ob eine fachliche Entscheidung ethisch, rechtlich oder geschäftlich sinnvoll ist.

Er kann einen Agenten auditable machen.
Er kann ihn nicht unfehlbar machen!

Gerade deshalb ist die Sicherheitsdiskussion so wichtig. OWASP beschreibt für AI-Agenten Risiken, die über klassische Prompt Injection hinausgehen: Tool Abuse, Privilege Escalation, Memory Poisoning, Excessive Autonomy, Goal Hijacking und Cascading Failures. Sobald ein Agent nicht nur Text erzeugt, sondern Handlungen ausführt, reicht es nicht mehr, ihn gut zu instruieren. Man muss ihn wie einen potenziell fehlbaren, potenziell manipulierbaren Prozess behandeln – mit Least Privilege, Isolation, Monitoring, Approval Gates und Rollback.

Der entscheidende Punkt ist also: Ein guter Harness macht AI-Agenten nicht magisch zuverlässig. Er macht sie sichtbar, begrenzt, prüfbar, reversibel, eskalierbar und lernend. Das ist enorm viel. Es ist wahrscheinlich der Unterschied zwischen „ein Modell macht irgendetwas“ und „ein Agent kann produktiv in einem echten Workflow arbeiten“. Aber es bleibt ein Unterschied zwischen kontrollierter Autonomie und garantierter Korrektheit.

Wer AI-Agenten produktiv einsetzen will, sollte deshalb nicht nur fragen: „Welches Modell nehmen wir?“ Die bessere Frage lautet: Welche Arbeitsumgebung bauen wir, damit Fehler früh sichtbar werden, Schaden begrenzt bleibt und menschliche Urteilskraft dort eingreift, wo sie wirklich gebraucht wird?

Denn am Ende ist der Harness kein Schutzengel. Er ist ein Betriebssystem für begrenzte Autonomie.

Was ein optimaler Harness sehr gut kann

Er kann viele typische Agentenfehler fast mechanisch reduzieren: Kontextverlust, „ich bin fertig“-Behauptungen ohne Beweis, Scope Creep, Arbeiten auf kaputtem Ausgangszustand, vergessene Tests, fehlende Handoffs. Die mitgelieferte AGENTS.md-Vorlage verlangt zum Beispiel, vor Codeänderungen den Arbeitsstand zu lesen, init.sh auszuführen, Smoke- oder E2E-Verifikation zu starten und bei fehlschlagender Baseline erst den Ausgangszustand zu reparieren.

Er kann auch verhindern, dass „fertig“ nur ein Sprachakt ist. Die Vorlage definiert Done erst dann, wenn Zielverhalten implementiert ist, die Verifikation tatsächlich lief, Evidenz dokumentiert wurde und das Repository wieder vom Standardpfad startbar ist.

Und er kann Architektur, Security- und Qualitätsregeln teilweise aus dem menschlichen Gedächtnis in mechanische Gates verschieben. OpenAI beschreibt genau diesen Weg: kurze AGENTS.md als Router, Repo-Dokumente als System of Record, mechanische Linter, strukturelle Tests und Custom-Lints, um Invarianten durchzusetzen.

Die harte Grenze: Der Harness kann nur prüfen, was spezifiziert, beobachtbar und testbar ist

Die wichtigste Grenze ist das Oracle-Problem: Woher weiß das System, was richtig ist?

Ein Harness kann sagen: „Führe Tests aus.“ Er kann nicht automatisch sicherstellen, dass die Tests vollständig, relevant und richtig sind. Er kann sagen: „Arbeite nur an Feature X.“ Er kann nicht garantieren, dass Feature X fachlich sinnvoll, moralisch akzeptabel, rechtlich zulässig oder im Produktkontext die richtige Priorität ist.

Deshalb würde ich sagen:

Ein Harness kann Prozess- und Zugriffsgarantien geben.
Er kann Evidenz erzwingen.
Er kann Blast Radius begrenzen.
Er kann aber nicht aus unvollständiger Spezifikation vollständige Wahrheit machen.

Anthropic zeigt das sehr plastisch: Harnesses verbesserten Long-running Agents stark, aber auch mit Browser-Automation und Tests blieben blinde Flecken, etwa weil bestimmte UI-Zustände nicht sichtbar waren oder Browser-Automation nicht alles erfassen konnte.

Grenze 1: Unvollständige oder falsche Ziele

Ein Agent kann perfekt gegen die falsche Spezifikation arbeiten. Wenn die Akzeptanzkriterien fehlen, falsch sind oder wichtige Stakeholder-Anforderungen nicht im Repo stehen, optimiert der Harness auf eine Scheingenauigkeit.

OpenAI formuliert es sinngemäß so: Was Codex nicht im Kontext sehen kann, existiert für das System nicht; Wissen in Slack, Google Docs oder in Köpfen muss in repo-lokale, versionierte Artefakte übersetzt werden.

Das heißt: Der Harness schützt nicht vor fehlenden Prämissen. Er kann nur erzwingen, dass der Agent vorhandene Prämissen liest und nutzt.

Grenze 2: Tests sind Evidenz, keine Wahrheit

„Alle Tests grün“ heißt: Das System hat eine endliche Menge erwarteter Fälle bestanden. Es heißt nicht: keine Bugs, keine falschen Annahmen, keine Security-Lücken, keine ungesehenen Randfälle.

Das gilt besonders bei UX, Security, Datenqualität, Nebenwirkungen, Race Conditions, Performance unter Last, realen Nutzerdaten und externen APIs. Anthropic beschreibt, dass selbst ein getunter QA-Agent subtile Bugs und tiefer verschachtelte Features übersehen kann; außerdem war Claude als QA-Agent „out of the box“ zu großzügig und musste explizit auf skeptisches Prüfen getunt werden.

Ein optimaler Harness kann hier nur besser werden durch stärkere Oracles: Property-based Tests, Fuzzing, formale Spezifikationen, Golden Datasets, Replay realer Traces, unabhängige Evaluatoren, Canary Deployments, Monitoring und Rollback. Aber auch das bleibt Abdeckung, nicht Allwissenheit.

Grenze 3: LLM-Evaluatoren teilen oft dieselben Schwächen

Multi-Agent-Harnesses klingen attraktiv: Planner, Generator, Evaluator. Das hilft. Aber der Evaluator ist oft wieder ein LLM. Damit entstehen korrelierte Fehler: beide Modelle übersehen dasselbe, teilen dieselben Annahmen, lassen sich von plausiblen Erklärungen überzeugen oder bewerten oberflächlich.

Anthropic sagt explizit, dass Agenten bei Selbstbewertung dazu tendieren, ihre eigene Arbeit zu positiv zu beurteilen; ein separater Evaluator hilft, aber eliminiert die Tendenz nicht automatisch.

Darum: Ein Evaluator-Agent ist gut. Ein mechanischer, adversarialer, unabhängiger Evaluator ist besser. Ein menschlicher Fachexperte bleibt bei offenen Urteilsfragen noch einmal eine andere Qualität.

Grenze 4: Sicherheit kann nicht nur prompt-basiert sein

Ein Harness, der sagt „lösche keine Dateien“, ist schwach. Ein Harness, bei dem der Agent technisch keine Dateien außerhalb eines erlaubten Pfads löschen kann, ist stark.

Die große Grenze ist: Sobald der Agent Tools, Credentials, Shell, Browser, E-Mail, Datenbanken oder Deploy-Rechte hat, wird Fehlverhalten operativ relevant. OWASP nennt für Agenten unter anderem Prompt Injection, Tool Abuse, Privilege Escalation, Data Exfiltration, Memory Poisoning, Goal Hijacking, Excessive Autonomy und Cascading Failures als zentrale Risiken.

Prompt Injection ist besonders wichtig: OWASP beschreibt im Detail, dass manipulierte Inputs das Modellverhalten unerwartet verändern können und dass RAG oder Fine-Tuning solche Angriffe nicht vollständig entschärfen. Außerdem sei unklar, ob es narrensichere Prävention gibt; empfohlen werden daher Schadensbegrenzung, Least Privilege, Output-Validierung, Trennung untrusted content und Human Approval für Hochrisikoaktionen.

Praktisch heißt das: Der Harness darf dem Modell nicht vertrauen. Er muss den Agenten wie einen potenziell kompromittierten Prozess behandeln.

Grenze 5: Schaden entsteht oft außerhalb des Codes

Ein Coding-Harness kann Codequalität verbessern. Aber Schaden kann auch entstehen durch:

falsche Nutzerkommunikation, fehlerhafte fachliche Empfehlung, Datenschutzverletzung, Diskriminierung, falsche Priorisierung, unzulässige Automatisierung, falsche Eskalation, unbemerkte Kostenexplosion oder eine Entscheidung, die technisch korrekt, aber organisatorisch falsch ist.

NIST beschreibt Trustworthy AI nicht nur als Validität und Reliability, sondern auch als Safety, Security/Resilience, Accountability/Transparency, Explainability/Interpretability, Privacy und Fairness. NIST betont außerdem, dass das einzelne Adressieren dieser Eigenschaften nicht automatisch Vertrauenswürdigkeit garantiert, weil Trade-offs und Kontextentscheidungen bleiben.

Das ist eine wichtige Grenze für Harness Engineering: Ein Harness kann technische Gates bauen, aber nicht alle sozialen, rechtlichen und ethischen Trade-offs wegautomatisieren.

Grenze 6: Drift und Entropie bleiben

Ein Agent kopiert vorhandene Muster. Sind die Muster gut, skaliert Qualität. Sind sie schlecht, skaliert Müll.

OpenAI beschreibt genau das als neues Problem vollständiger Agentenautonomie: Codex repliziere vorhandene, auch suboptimale Patterns, was über Zeit zu Drift führt; dagegen wurden „Golden Principles“, Qualitätschecks und wiederkehrende Cleanup-Prozesse eingeführt.

Ein optimaler Harness braucht also nicht nur „Do the task“, sondern auch permanente Müllabfuhr: Qualitätsmetriken, Architektur-Reviews, Tech-Debt-Tracker, Refactoring-Routinen, Dokumentationspflege, Regressionstests und Mechanismen gegen veraltete Regeln.

Grenze 7: Menschliche Urteilskraft verschwindet nicht, sie wandert nach oben

Der Mensch schreibt weniger Code, aber entscheidet stärker über Ziele, Constraints, Akzeptanzkriterien, Risikoappetit und Eskalation. OpenAI beschreibt, dass Menschen im Loop bleiben, aber auf anderer Abstraktionsebene: priorisieren, User Feedback in Acceptance Criteria übersetzen und Outcomes validieren.

Das ist aus meiner Sicht die produktivste Lesart:

Der Harness soll Menschen nicht komplett ersetzen, sondern ihre Aufmerksamkeit an die Stellen verschieben, an denen sie am meisten Wert hat.

Was ein Harness tatsächlich garantieren kann

Stark garantierbar sind Dinge wie:

Art der Garantie	Kann ein guter Harness leisten?
Agent darf bestimmte Tools nicht nutzen	Ja, wenn technisch enforced, nicht nur prompt-basiert
Agent darf nur in Sandbox schreiben	Ja, über Dateisystem-/Containerrechte
Kein Merge ohne CI	Ja, über Branch Protection
Kein Deploy ohne Human Approval	Ja, über Deployment-Gates
Keine Arbeit ohne Baseline-Check	Weitgehend, wenn der Workflow technisch erzwingt
Keine „Done“-Meldung ohne Evidenz	Weitgehend, wenn Done-Status maschinell validiert wird
Keine fachlich falsche Entscheidung	Nein, nicht allgemein
Keine falsche Annahme	Nein, nur reduzierbar
Keine ungetesteten Nebenwirkungen	Nein, nur durch bessere Abdeckung reduzierbar
Kein Schaden	Nein, nur Risiko und Blast Radius reduzierbar

Der Unterschied ist: Zugriff, Prozess und Artefakte lassen sich hart kontrollieren. Bedeutung, Wahrheit, Priorität und Werturteile nur begrenzt.

Meine Kurzformel

Ein optimaler Harness macht den Agenten nicht unfehlbar. Er macht ihn:

sichtbar: Was wurde getan, warum, mit welcher Evidenz?
begrenzt: Was darf der Agent technisch überhaupt tun?
prüfbar: Welche Tests, Logs, Traces, Screenshots, Reviews existieren?
reversibel: Kann man Fehler zurückrollen?
eskalierbar: Wann muss ein Mensch entscheiden?
lernend: Werden Fehler in neue Regeln, Tests und Dokumente überführt?

Für harmlose oder gut testbare Coding-Aufgaben kann das reichen, damit man „reviewt statt rettet“. Für sicherheitskritische, rechtliche, medizinische, finanzielle oder reale Aktionsräume reicht es nicht als Autonomiebeweis. Dort sollte der Harness den Agenten eher als assistierendes System mit harter Sandbox, Least Privilege, Audit Trail und Human Approval behandeln. NIST formuliert für AI-Risikomanagement ebenfalls, dass bei Fehlern, die das System nicht erkennen oder korrigieren kann, menschliche Intervention nötig sein kann.

Fazit

Ein sehr guter Harness kann Zuverlässigkeit massiv erhöhen, aber er kann nicht garantieren, dass ein Agent „keine Fehlentscheidungen“ trifft. Er verschiebt das Problem: weg von „das Modell improvisiert frei“ hin zu „wir erzwingen Prozess, Kontext, Grenzen, Evidenz und Eskalation“. Das ist ein großer Fortschritt, aber kein Beweis für Wahrheit, Sicherheit oder gute Urteilsfähigkeit.

6. Mai 2026

ARC-AGI-3: Haben GPT-5.5 und Opus 4.7 wirklich so schlecht abgeschnitten – oder wurde ihnen nur nicht genug geholfen?
Es gibt KI-Benchmarks, die beeindrucken. Und es gibt Benchmarks, die irritieren. ARC-AGI-3 gehört für mich klar zur zweiten Kategorie – im besten Sinne.

Denn während viele aktuelle Benchmarks vor allem zeigen, ob ein Modell eine Aufgabe richtig beantwortet, schaut ARC-AGI-3 an einer viel unangenehmeren Stelle hin: Kann ein KI-System in einer völlig neuen Umgebung selbst herausfinden, was überhaupt zu tun ist?

Genau deshalb fand ich die aktuelle Analyse von ARC Prize zu GPT-5.5 und Anthropic Opus 4.7 so spannend. Die offiziellen Scores wirken auf den ersten Blick fast absurd niedrig: GPT-5.5 erreicht auf dem semi-privaten ARC-AGI-3-Set 0,43 Prozent, Opus 4.7 kommt auf 0,18 Prozent. Grundlage der qualitativen Analyse waren 160 Replays und Reasoning-Traces aus öffentlichen Runs, also nicht nur Endergebnisse, sondern tatsächliche Spielverläufe samt Modellbegründungen.

Das klingt nach einem vernichtenden Urteil über Frontier-Modelle. Aber ich glaube, genau hier lohnt sich ein zweiter Blick.

Denn die eigentliche Frage ist nicht nur: Wie schlecht schneiden LLMs bei ARC-AGI-3 ab?

Die interessantere Frage für mich lautet: Wie hart hat ARC Prize wirklich versucht, mit diesen LLMs möglichst weit zu kommen?

Meine Antwort nach der Lektüre: hart in der Analyse, aber bewusst nicht hart in der Optimierung.

Was ARC-AGI-3 eigentlich testet

ARC-AGI-3 besteht aus 135 neuartigen, von Menschen gestalteten interaktiven Umgebungen. Die Testperson – egal ob Mensch oder KI – bekommt keine Anleitung, sondern muss durch Ausprobieren herausfinden, welche Aktionen welche Effekte haben, welche Ziele gelten und welche Regeln von Level zu Level übertragen werden können.

Das ist ein wichtiger Unterschied zu klassischen Benchmarks. Hier geht es nicht darum, eine Frage zu beantworten, Code zu schreiben oder ein bekanntes Rätselmuster wiederzuerkennen. Es geht um Exploration, Hypothesenbildung, Korrektur falscher Annahmen, Planung und Lernen aus spärlichem Feedback. ARC Prize beschreibt genau diese Anforderungen: unbekannte Interfaces erkunden, Regeln aus wenig Feedback ableiten, Hypothesen testen, Irrtümer revidieren und Gelerntes auf spätere Level übertragen.

Das ist ziemlich nah an dem, was wir von echten Agenten erwarten würden. Ein Agent, der in einem Unternehmen mit internen Tools, Dashboards, Formularen, APIs und Workflows arbeiten soll, bekommt in der Realität auch nicht immer eine perfekte Bedienungsanleitung. Er muss erkennen, was wichtig ist, welche Aktionen möglich sind und welche Effekte sie haben.

Genau deshalb ist ARC-AGI-3 aus meiner Sicht so interessant: Es testet nicht nur Wissen, sondern adaptive Handlungsfähigkeit.

Die drei Fehlermuster: Sehen ist nicht Verstehen

Besonders spannend ist, dass ARC Prize nicht nur Scores veröffentlicht, sondern auch die Fehler analysiert. Dabei werden drei wiederkehrende Muster beschrieben:

Erstens: Die Modelle erkennen lokale Effekte, bauen daraus aber kein belastbares Weltmodell. Sie sehen beispielsweise, dass eine Aktion ein Objekt dreht, verstehen aber nicht, welche globale Regel dahintersteht und wie diese Regel strategisch genutzt werden müsste.

Zweitens: Die Modelle interpretieren neue Umgebungen zu stark durch bekannte Spielmuster. ARC Prize nennt unter anderem Analogien zu Tetris, Frogger, Sokoban, Breakout, Pong und anderen Spielen. Das Problem ist nicht, dass Analogien grundsätzlich schlecht wären. Das Problem ist, dass eine oberflächliche Ähnlichkeit zu einer falschen vollständigen Spieltheorie wird.

Drittens: Selbst wenn ein Level gelöst wird, bedeutet das nicht, dass das Modell das Spiel verstanden hat. ARC Prize beschreibt Beispiele, in denen ein Modell durch Zufall oder durch eine unvollständige Theorie ein erstes Level schafft, diese falsche Theorie dann aber in Level 2 fortschreibt und daran scheitert.

Das finde ich besonders aufschlussreich. Denn genau solche Fehler sehen wir auch bei LLM-Agenten außerhalb von Spielen: Sie machen etwas scheinbar richtig, aber aus dem falschen Grund. Und sobald sich der Kontext leicht verändert, bricht die Strategie zusammen.

Wie hart wurde es wirklich versucht?

Jetzt kommt der entscheidende Punkt.

Wenn man die offiziellen ARC-AGI-3-Scores liest, könnte man meinen: GPT-5.5 und Opus 4.7 können das schlicht nicht. Aber das wäre mir zu einfach.

Denn ARC Prize sagt sehr klar, dass die offiziellen Tests gerade nicht darauf ausgelegt sind, mit maximalem Prompt Engineering, spezialisierten Tools oder einem ausgefeilten Agenten-Harness den bestmöglichen Score herauszuholen.

In der offiziellen Testing Policy heißt es sinngemäß: Um faire Vergleiche zu ermöglichen und falsche AGI-Signale zu vermeiden, nutzt ARC Prize extrem generische minimale LLM-Testprompts, keine clientseitigen Harnesses, keine handgebauten Tools und keine individuell zugeschnittene Modellkonfiguration.

Auch der technische Report ist hier sehr deutlich. Für die offiziellen ARC-AGI-3-Scores sollen Systeme bewertet werden, die nicht speziell für ARC-AGI-3 vorbereitet wurden und hinter einer allgemeinen API laufen. Der offizielle Leaderboard-Score nutzt daher kein Harness. Die Modelle bekommen keine externen Tools, abgesehen von möglichen internen Tools, die hinter der Modell-API verborgen sind. Der Systemprompt ist minimal: „Du spielst ein Spiel. Dein Ziel ist zu gewinnen. Antworte mit der exakten Aktion …“

Mit anderen Worten: Die offiziellen Scores messen nicht, was ein Team aus Agenten-Entwickler:innen mit GPT-5.5 oder Opus 4.7 bauen könnte. Sie messen eher, was passiert, wenn man ein Frontier-Modell fast nackt in eine neue interaktive Umgebung wirft.

Das ist kein Bug des Benchmarks. Das ist die Designentscheidung.

Warum diese Designentscheidung sinnvoll ist

Ich halte diese Entscheidung für nachvollziehbar – auch wenn sie die Interpretation erschwert.

ARC Prize will nicht messen, wie viel menschliche Intelligenz in ein ARC-spezifisches System hineinentwickelt wurde. Sie wollen wissen, ob ein allgemeines KI-System beim Erstkontakt mit einer unbekannten Aufgabe selbstständig generalisieren kann. Der technische Report unterscheidet ausdrücklich zwischen task-spezifischem Overfitting, also Optimierung auf bekannte öffentliche Umgebungen, und domain-spezifischem Overfitting, also Strategien, die speziell auf ARC-AGI-3 als Domäne zugeschnitten sind.

Das ist wichtig. Denn sonst würden wir am Ende vor allem messen, wer den besten ARC-AGI-3-Solver gebaut hat – nicht, welches Modell allgemein intelligenter oder adaptiver ist.

Und genau hier entsteht die Spannung: Aus Sicht eines Benchmarks ist ein minimalistisches Setup sinnvoll. Aus Sicht praktischer Agentenentwicklung ist es aber fast künstlich schwach.

Denn in der Praxis würden wir ein LLM ja gerade nicht allein lassen.

Was ein gutes Harness verändern würde

Ein Harness ist vereinfacht gesagt das technische Gerüst um ein Modell herum. Es entscheidet, wie Beobachtungen aufbereitet werden, wie Erinnerungen gespeichert werden, welche Tools verfügbar sind, wie frühere Aktionen analysiert werden, wie Hypothesen verwaltet werden und wie Pläne überprüft werden.

Und genau da liegt meiner Meinung nach der Hebel.

Ein besseres Harness könnte etwa:
- visuelle Zustandsänderungen automatisch erkennen,
- Objekte über Frames hinweg tracken,
- Aktion-Effekt-Tabellen führen,
- Hypothesen explizit speichern und priorisieren,
- Experimente planen, statt zufällig zu klicken,
- erfolgreiche Level nachträglich kausal erklären,
- falsche Genre-Analogien unterdrücken,
- frühere Zustände gezielt abrufen,
- und nach jedem Reward prüfen, warum der Reward zustande kam.
Das ist nicht nur Prompting. Das ist Context Engineering im eigentlichen Sinne: Wahrnehmung, Gedächtnis, Tool-Nutzung, Kompression, Planung und Selbstkorrektur werden so gestaltet, dass das Modell überhaupt eine Chance hat, über viele Schritte hinweg konsistent zu handeln.

Und ARC Prize liefert selbst Hinweise darauf, dass Harnesses sehr wohl viel bringen können.

Im technischen Report wird beschrieben, dass Opus 4.6 in einer TR87-Variante ohne Harness 0,0 Prozent erreichte, mit dem Duke-Harness aber 97,1 Prozent. In einer anderen Umgebung, BP35, blieb dasselbe Modell allerdings sowohl mit als auch ohne Harness bei 0,0 Prozent. ARC Prize interpretiert das als Beleg dafür, dass Wahrnehmung und API-Format nicht grundsätzlich der limitierende Faktor sind, spezifisch gebaute Harnesses aber oft schlecht auf neue Umgebungen generalisieren.

Genau das ist der springende Punkt: Ein Harness kann massiv helfen. Aber sobald es zu stark auf bekannte Aufgaben oder eine bestimmte Benchmark-Logik zugeschnitten ist, misst der Score nicht mehr nur Modellfähigkeit, sondern auch die Ingenieursleistung im Gerüst.

Die wirklich spannende Frage: generisches Harness statt ARC-Tricks

Für mich ist deshalb nicht die Frage, ob man ARC-AGI-3 mit genug Tricks besser lösen kann. Natürlich kann man das.

Die spannende Frage lautet: Wie weit kommt ein vorab eingefrorenes, wirklich generisches Agenten-Harness auf ungesehenen ARC-AGI-3-Umgebungen?

Also kein System, das ARC-spezifische Strategien einprogrammiert bekommt. Keine manuell optimierten Prompts für einzelne Spiele. Kein Zugriff auf öffentliche Lösungen. Sondern ein allgemeines Agenten-Gerüst mit Werkzeugen, die auch in anderen Domänen sinnvoll wären:

Frame-Differencing. State-Tracking. Hypothesenmanagement. Kurz- und Langzeitgedächtnis. Explorationsplanung. Tool-Nutzung. Selbstkritik. Kausale Tests.

Das wäre aus meiner Sicht der eigentlich relevante nächste Schritt.

Interessanterweise erkennt ARC Prize den Wert solcher Harness-Forschung durchaus an. Der technische Report führt eine Community-Leaderboard-Kategorie für harness-getriebene Ergebnisse ein, warnt aber zugleich davor, solche Scores direkt als AGI-Fortschritt zu interpretieren.

Auch die frühen Experimente zeigen, wohin die Reise gehen könnte. In der Preview Agent Competition erreichte StochasticGoose von Tufa Labs 12,58 Prozent mit einem CNN- und Reinforcement-Learning-Ansatz zur Vorhersage frame-verändernder Aktionen; Blind Squirrel kam mit einem gerichteten State-Graphen auf 6,71 Prozent. Beide erfolgreichen Ansätze nutzten im Kern informierte Suche im Aktionsraum.

Dazu kommen agentische Harness-Ansätze wie das Duke-System, das einem Large Reasoning Model erlaubt, Python-Code auszuführen, um gezielt frühere Zustände aus der Aktionshistorie abzurufen und zu transformieren. In den öffentlichen Umgebungen löste dieser Ansatz alle drei Aufgaben mit menschenähnlicher Aktionseffizienz. Symbolica AIs Arcgentica wiederum arbeitet mit einer Orchestrator-Subagenten-Architektur und komprimierten Textzusammenfassungen, um Kontextwachstum zu begrenzen und trotzdem einen übergeordneten Plan zu halten.

Das sind für mich keine Nebendetails. Das ist der eigentliche Forschungsraum.

Prompting hilft – aber es reicht wahrscheinlich nicht

Natürlich könnte man auch mit besseren Prompts mehr herausholen.

Man könnte das Modell anweisen, Beobachtung, Hypothese und Plan strikt zu trennen. Man könnte verlangen, dass jede Aktion als Experiment verstanden wird. Man könnte falsche Genre-Analogien aktiv sanktionieren: „Nenne keine bekannten Spiele, solange keine kausale Evidenz dafür vorliegt.“ Man könnte nach jedem Erfolg eine Reflexionsphase erzwingen: „Welche Regel erklärt den Erfolg minimal und generalisiert auf das nächste Level?“

Das würde vermutlich helfen.

Aber ich glaube nicht, dass Prompting allein das Kernproblem löst. Denn viele Fehler entstehen nicht nur durch falsche Instruktion, sondern durch fehlende externe Struktur. LLMs sind stark darin, Muster sprachlich zu formulieren. Aber in langen interaktiven Umgebungen brauchen sie ein Gedächtnis, eine saubere Zustandsrepräsentation und eine robuste Methode, um Hypothesen gegen Beobachtungen zu testen.

Auch die ARC-Dokumentation zeigt übrigens sehr schön, wo die Grenze liegt. Es gibt dort ein „GuidedLLM“-Template mit expliziten spiel-spezifischen Regeln und Strategien im Prompt. Die Dokumentation weist aber selbst darauf hin, dass dieses Template zu Bildungszwecken gedacht ist und nicht auf andere Spiele generalisiert.

Das ist genau der Unterschied zwischen cleverem Prompt und allgemeiner Intelligenz.

Meine Einordnung

Die niedrigen Scores von GPT-5.5 und Opus 4.7 bei ARC-AGI-3 beweisen nicht, dass LLM-basierte Agentensysteme grundsätzlich chancenlos sind.

Sie beweisen eher etwas Präziseres und Spannenderes:

Nackte Frontier-LLMs sind beim Erstkontakt mit neuartigen, interaktiven, nichtsprachlich erklärten Umgebungen noch extrem schwach.

Das ist eine wichtige Aussage. Aber sie ist nicht identisch mit: „Mit Tools, Memory, Search, Perception und gutem Harness geht da nicht viel mehr.“

Im Gegenteil: Die bisher veröffentlichten Harness-Ergebnisse legen nahe, dass sehr viel mehr möglich ist – allerdings oft auf Kosten der Generalität. Ein System kann auf bekannten oder ähnlichen Umgebungen stark werden, ohne wirklich allgemein adaptiv zu sein.

Für mich liegt genau hier die Grenze zwischen Benchmarking und Produktentwicklung.

Ein Benchmark wie ARC-AGI-3 muss überfitting-resistent sein. Er muss verhindern, dass wir menschliche Vorarbeit im Harness fälschlich als Modellintelligenz feiern.

Ein praktisches Agentensystem hingegen sollte natürlich jede sinnvolle Hilfe nutzen. In realen Anwendungen interessiert mich selten, ob die Intelligenz „pur“ im Modell sitzt oder teilweise im Workflow, im Tooling, in der Memory-Schicht oder in der Systemarchitektur. Mich interessiert, ob das Gesamtsystem zuverlässig, nachvollziehbar und robust handelt.

Aber für die Forschung ist diese Unterscheidung entscheidend.

Fazit: Nicht das Ende der LLMs, sondern das Ende der Illusion vom nackten Agenten

ARC-AGI-3 zeigt für mich nicht, dass moderne LLMs nutzlos sind. Es zeigt, dass wir sie nicht mit echter autonomer Anpassungsfähigkeit verwechseln sollten.

Ein Modell, das hervorragend schreibt, codet, erklärt und bekannte Muster kombiniert, ist noch lange kein Agent, der in einer fremden Welt selbstständig stabile Regeln entdeckt, falsche Theorien verwirft und sein Verhalten effizient anpasst.

Gleichzeitig wäre es unfair, aus den offiziellen ARC-AGI-3-Scores ein hartes Limit für LLM-basierte Systeme abzuleiten. Denn die offiziellen Tests verzichten bewusst auf genau die Komponenten, die heutige Agentensysteme in der Praxis leistungsfähiger machen: Tools, Speicher, strukturierte Wahrnehmung, Suchverfahren, Reflexion und Kontextmanagement.

Die für mich spannendste nächste Messung wäre deshalb ein eingefrorenes, nicht ARC-spezifisches Agenten-Harness auf privaten ARC-AGI-3-Umgebungen.

Nicht: Wie gut kann ein Mensch ARC-AGI-3 für ein Modell lösen?

Sondern: Wie gut kann ein generisches KI-Agentensystem neue Regeln entdecken, wenn es dieselben Werkzeuge nutzen darf, die wir auch in echten Anwendungen brauchen?

AFAIK: Genau dort wird es interessant. Nicht beim nächsten Prozentpunkt auf einem Leaderboard, sondern bei der Frage, ob wir aus starken Sprachmodellen robuste, adaptive Handlungssysteme bauen können – ohne jedes neue Problem vorher für sie zu präparieren.
2. Mai 2026
KI ist wie der Knopf im Aufzug

Es gibt Sätze, die beruhigen, weil sie nicht ganz falsch sind.

KI ersetzt keine Menschen, sondern nur Tätigkeiten.

Das klingt vernünftig. Es ist differenziert. Es nimmt der Debatte etwas von der Panik. Und in vielen Fällen stimmt es auch.

Das Problem ist nur: Manche Jobs bestehen zu einem sehr großen Teil aus genau den Tätigkeiten, die automatisiert werden.

Dann ersetzt die Maschine nicht abstrakt „den Menschen“. Sie ersetzt auch nicht sofort eine ganze Branche. Sie ersetzt eine wiederholbare Funktion. Einen Ablauf. Eine Schnittstelle. Einen Routineteil.

Aber wenn ein Beruf historisch vor allem daraus bestand, dann verschwindet am Ende nicht nur eine Tätigkeit.

Dann verschwindet ein Job.

Der Aufzug war nicht menschenfeindlich

Früher brauchte man im Aufzug einen Menschen.

Nicht, weil Menschen gerne in kleinen Kabinen neben anderen Menschen standen. Sondern weil Aufzüge bedient werden mussten. Türen schließen, Hebel bewegen, sauber auf Etagenhöhe halten, Passagiere beruhigen, Fehler vermeiden. Das war keine Dekoration. Das war Arbeit.

Ein guter Aufzugsführer hatte Gefühl für die Maschine. Er musste den Wagen so steuern, dass niemand erschrak, stolperte oder zwischen zwei Stockwerken hängenblieb. Das Museum of American Heritage beschreibt, dass dafür durchaus Geschick nötig war; Anfang der 1950er waren Aufzugsführer in den USA noch verbreitet, zu Beginn der 1960er aber weitgehend durch Elektronik, günstigere Automatisierung und Druckknöpfe verdrängt. (Museum of American Heritage)

Das Interessante daran ist nicht, dass ein Knopf einen Menschen „intelligenter“ gemacht hätte.

Der Knopf hat nur eine Schnittstelle verändert.

Vorher war der Mensch die Bedienoberfläche der Maschine. Danach war es das Bedienfeld.

Und genau das ist eine der wichtigsten historischen Lektionen für KI.

Manche Berufe sind keine ewigen Berufungen. Manche Berufe sind Übergangslösungen, bis eine Maschine direkt genug, billig genug, zuverlässig genug oder akzeptiert genug ist.

„Computer“ waren früher Menschen

Das vielleicht schönste Beispiel ist gleichzeitig das naheliegendste.

Computer waren früher keine Geräte. Computer waren Menschen.

Bei NASA und ihren Vorgängerorganisationen arbeiteten ganze Gruppen menschlicher „Computer“, häufig Frauen, die komplexe mathematische Berechnungen durchführten. Bei JPL waren sie unter anderem für Berechnungen zu Startfenstern, Flugbahnen, Treibstoffverbrauch und anderen Details des Raumfahrtprogramms zuständig; viele wurden später selbst zu frühen Programmiererinnen bei NASA. (NASA)

Das ist als historische Analogie zu KI deshalb so stark, weil hier nicht Muskelkraft ersetzt wurde.

Sondern Denkarbeit.

Nicht Kreativität im romantischen Sinn. Nicht Urteilskraft im letzten Sinn. Aber sehr anspruchsvolle, strukturierte, formalisierbare geistige Arbeit.

Also genau das, was wir uns lange als ziemlich sicheren Bereich vorgestellt haben.

Die menschlichen Computer waren nicht überflüssig, weil sie unwichtig waren. Im Gegenteil. Sie waren wichtig genug, dass man ihre Arbeit beschleunigen, standardisieren und skalieren wollte.

Das ist oft der eigentliche Grund für Automatisierung.

Nicht: Diese Arbeit ist wertlos.

Sondern: Diese Arbeit ist wertvoll genug, um sie einer Maschine beizubringen.

Manche Jobs sind Schnittstellen

Ein weiteres Beispiel sind Telefonistinnen.

Heute wirkt es fast absurd, dass ein Telefongespräch einmal ein menschliches Vermittlungssystem brauchte. Man hob den Hörer ab, sagte, wen man sprechen wollte, und irgendwo verband ein Mensch zwei Leitungen.

Das war ein Beruf. Und zwar kein exotischer. Anfang des 20. Jahrhunderts gehörte Telefonvermittlung in den USA zu den häufigsten Jobs für Frauen. Zwischen 1920 und 1940 ersetzte AT&T in mehr als der Hälfte seines US-Netzes menschliche Vermittlung durch mechanische Schaltsysteme. Eine NBER-Studie kommt zu dem Ergebnis, dass diese Automatisierung die meisten Operatorinnen-Jobs eliminierte; viele betroffene Frauen waren zehn Jahre später in schlechter bezahlten Berufen oder gar nicht mehr erwerbstätig. (NBER)

Auch hier wurde nicht „Kommunikation“ ersetzt.

Menschen telefonierten danach nicht weniger, sondern mehr. Das Kommunikationssystem wurde größer, schneller und billiger.

Aber die menschliche Zwischenschicht verschwand.

Das ist ein Muster, das wir bei KI sehr genau anschauen sollten.

Wenn ein Job vor allem darin besteht, zwischen Nutzer und System zu vermitteln, ist er gefährdet, sobald Nutzer direkt mit dem System sprechen können.

Das muss nicht sofort passieren. Und nicht überall. Menschen vertrauen neuen Schnittstellen nicht über Nacht. Prozesse müssen umgebaut werden. Haftung muss geklärt werden. Qualität muss messbar sein.

Aber sobald die direkte Schnittstelle gut genug ist, wird die menschliche Schnittstelle erklärungsbedürftig.

Nicht unmöglich.

Aber erklärungsbedürftig.

Manche Jobs sind Umsetzungsmaschinen

Dann gibt es Berufe, die vor allem aus Umsetzung bestehen.

Nicht aus Entscheidung. Nicht aus Verantwortung. Nicht aus Strategie.

Sondern aus der Transformation von Input in Output.

Ein Text soll vervielfältigt werden.
Eine Vorlage soll gesetzt werden.
Eine Rechnung soll berechnet werden.
Eine Anfrage soll beantwortet werden.
Eine Aufnahme soll transkribiert werden.
Ein Dokument soll zusammengefasst werden.
Ein Produkt soll in fünf Varianten beschrieben werden.

Historisch waren Kopisten genau so eine Zwischenschicht. Vor dem Buchdruck wurden Texte professionell abgeschrieben. Mit Gutenbergs beweglichen Lettern und der schnellen Verbreitung des Drucks konnten Drucker den vertrauten Look von Manuskripten in einem Bruchteil der Zeit und zu geringeren Kosten reproduzieren; professionelle Manuskriptkopie ging bis zum Ende des 16. Jahrhunderts stark zurück. (Cornell Library Exhibits)

Später passierte etwas Ähnliches im Druck selbst.

Die Linotype war einmal eine revolutionäre Maschine. Sie automatisierte den Handsatz und prägte die Zeitungsproduktion über Jahrzehnte. Dann wurde auch sie durch neue Verfahren verdrängt. Als die New York Times 1978 auf elektronische und fotografische Verfahren umstellte, wurden die letzten 61 Linotype-Maschinen ersetzt. (The Library of Congress)

Das ist wichtig, weil es zeigt: Auch die Maschine von gestern kann der Mensch von vorgestern sein.

Technologie ersetzt nicht nur Handarbeit. Sie ersetzt auch frühere Technologien. Und mit ihnen die Berufe, die um diese Technologien herum entstanden sind.

Das Auto ersetzte nicht die Kutsche

Das beliebte Beispiel lautet oft: Das Auto hat die Kutschenbetriebe ersetzt.

Das stimmt so halb.

Eigentlich hat das Auto zuerst das Pferd ersetzt.

Und das ist mehr als eine Pointe.

Denn wenn das Pferd als Antriebstechnologie verschwindet, verschwindet nicht nur ein Tier aus dem Straßenbild. Dann geraten Hufschmiede, Stallknechte, Sattler, Futterlieferanten, Fuhrbetriebe, Kutscher und ganze städtische Infrastrukturen unter Druck. Der Ökonom David Autor beschreibt genau dieses Muster: Das massenproduzierte Automobil reduzierte die Nachfrage nach vielen pferdebezogenen Berufen drastisch, etwa nach Hufschmieden und Stallpersonal. (economics.mit.edu)

Das Auto hat also nicht einfach einen Job ersetzt.

Es hat eine zentrale Funktion ersetzt: Antrieb.

Und um diese Funktion herum hing ein ganzer Berufsverbund.

Bei KI ist die zentrale Funktion nicht Muskelkraft.

Es ist routinisierbare Informationsarbeit.

Text hinein, Text heraus.
Frage hinein, Antwort heraus.
Sprache hinein, Transkript heraus.
Daten hinein, Zusammenfassung heraus.
Briefing hinein, Entwurf heraus.
Regel hinein, Entscheidungsvorschlag heraus.

Solange diese Funktion nur ein kleiner Teil eines Berufs ist, verändert KI den Job.

Wenn diese Funktion aber der Kern des Berufs ist, kann KI den Job ersetzen.

Die beruhigende Formel ist zu bequem

Deshalb ist die Formel „KI ersetzt keine Jobs, sondern Tätigkeiten“ zu bequem.

Sie stimmt auf der Ebene der Tätigkeitsanalyse.

Aber sie unterschlägt die nächste Frage:

Wie viel vom Job besteht aus dieser Tätigkeit?

Wenn 10 Prozent eines Berufs automatisierbar sind, entsteht ein Produktivitätswerkzeug.

Wenn 40 Prozent automatisierbar sind, entsteht ein Umbauproblem.

Wenn 80 Prozent automatisierbar sind, entsteht eine Existenzfrage.

Das heißt nicht, dass morgen alle Menschen in diesen Rollen verschwinden. So funktionieren technologische Umbrüche fast nie. Es gibt Übergänge, Ausnahmen, Nischen, Regulierung, Kundenpräferenzen, Haftungsfragen und Qualitätsprobleme.

Aber historisch ist die Richtung trotzdem deutlich.

Zuerst wird eine Tätigkeit maschinell möglich.
Dann wird sie billig.
Dann wird sie gut genug.
Dann wird sie erwartet.
Dann wird der Mensch in dieser Tätigkeit zum Sonderfall.

Nicht immer.

Aber oft genug.

KI ist anders, weil sie keine einzelne Maschine ist

Der Webstuhl automatisierte Weben.

Der automatische Aufzug automatisierte Aufzugbedienung.

Die Telefonvermittlung automatisierte Verbindungsarbeit.

Die Rechenmaschine automatisierte Rechnen.

KI ist schwieriger zu greifen, weil sie nicht nur eine Maschine für eine Tätigkeit ist.

Sie ist eher eine Schicht, die sich über viele Informationsprozesse legt.

Deshalb wirkt sie gleichzeitig überschätzt und unterschätzt.

Überschätzt, weil viele Ergebnisse nur plausibel aussehen und bei genauer Prüfung Lücken haben.

Unterschätzt, weil sehr viele Jobs erstaunlich viele Tätigkeiten enthalten, bei denen „plausibel, schnell und zu 80 Prozent richtig“ wirtschaftlich schon ausreicht.

Genau hier liegt die Unbequemlichkeit.

In vielen Debatten wird so getan, als gehe es um perfekte Ersetzung.

Kann KI einen Top-Juristen ersetzen?
Kann KI eine erfahrene Ärztin ersetzen?
Kann KI einen sehr guten Softwarearchitekten ersetzen?
Kann KI eine strategische Marketingleiterin ersetzen?

Das sind interessante Fragen.

Aber sie lenken ab.

Denn viele Umbrüche beginnen nicht oben. Sie beginnen bei Routine, Vorarbeit, Standardfällen, Varianten, Recherche, Formatierung, Zusammenfassung, Transkription, Klassifikation und Erstentwürfen.

Also bei all dem, was in Organisationen viel Zeit frisst, aber selten im Organigramm glänzt.

Es wird nicht alle treffen. Aber es trifft echte Jobs.

Die Internationale Arbeitsorganisation kommt in ihrer Analyse zu dem Ergebnis, dass generative KI global eher Tätigkeiten ergänzt als ganze Berufe vollständig automatisiert. Gleichzeitig sieht sie die höchste Exposition bei Büro- und Verwaltungstätigkeiten, wo besonders viele Aufgaben mittel oder stark betroffen sind. (International Labour Organization)

Das klingt beruhigend.

Ist es aber nur teilweise.

Denn „eher Ergänzung als vollständige Automatisierung“ heißt nicht: keine Jobverluste.

Es heißt: Die meisten Berufe werden umgebaut. Einige werden aufgewertet. Einige werden entwertet. Einige werden kleiner. Und manche verschwinden in ihrer bisherigen Form.

Auch das US Bureau of Labor Statistics erwartet, dass KI und generative KI die Nachfrage in verschiedenen Bereichen dämpfen, unter anderem in Vertrieb, Design und administrativer Unterstützung. Genannt werden dort etwa Übersetzer, technische Redakteure, medizinische Sekretariate, Customer-Service-Rollen, nichtmedizinische Assistenzen, Paralegals und Claims Adjusters als Berufe, bei denen KI Effizienzgewinne erzeugt und Beschäftigungswachstum begrenzen oder Rückgänge verstärken kann. (Bureau of Labor Statistics)

Das ist der nüchterne Punkt.

Nicht: Alle Arbeit verschwindet.

Sondern: Bestimmte Arbeit verschwindet aus bestimmten Stellenprofilen.

Und wenn ein Stellenprofil um diese Arbeit herum gebaut war, verschwindet das Profil.

Die eigentliche Frage ist nicht: Wird KI Jobs ersetzen?

Die eigentliche Frage lautet:

Welche Jobs sind eigentlich nur historische Verpackungen für automatisierbare Tätigkeiten?

Das klingt hart. Aber es ist präziser.

Ein Aufzugsführer war nicht „nur“ ein Knopf.
Eine Telefonistin war nicht „nur“ ein Schalter.
Eine Rechnerin war nicht „nur“ eine Rechenmaschine.
Ein Schriftsetzer war nicht „nur“ ein Layoutalgorithmus.
Ein Kopist war nicht „nur“ ein Kopierer.

Jeder dieser Berufe hatte Würde, Erfahrung, Routinen, Stolz und soziale Bedeutung.

Aber die zentrale Marktleistung wurde automatisierbar.

Und sobald das passierte, half es wenig, darauf hinzuweisen, dass der Mensch mehr war als seine Tätigkeit.

Denn der Markt bezahlte vor allem für die Tätigkeit.

Das ist brutal.

Aber genau deshalb sollte man es nicht beschönigen.

Wo Menschen wichtiger werden

Die andere Seite gehört aber genauso dazu.

Automatisierung ersetzt nicht nur. Sie ergänzt auch. Sie macht manche Arbeit wertvoller, weil die maschinell erzeugten Zwischenschritte billiger werden.

Wenn Rechnen billig wird, werden Modellierung, Interpretation und Entscheidung wichtiger.

Wenn Textproduktion billig wird, werden Positionierung, Fachurteil, Quellenkritik und Verantwortung wichtiger.

Wenn Designvarianten billig werden, werden Geschmack, Kontext, Marke und Auswahl wichtiger.

Wenn Code schneller entsteht, werden Architektur, Sicherheit, Tests, Produktverständnis und Wartbarkeit wichtiger.

Wenn Supportantworten automatisch entstehen, werden Eskalation, Empathie, Kulanz und echte Problemlösung wichtiger.

Das ist kein Widerspruch.

Das ist genau das Muster.

Die Maschine frisst den standardisierbaren Teil.

Der Mensch bleibt dort stark, wo das Problem unscharf ist, Verantwortung trägt, soziale Bedeutung hat oder in einem komplexen System richtig eingeordnet werden muss.

Aber auch das ist keine Garantie für jeden bestehenden Job.

Es ist eher eine Aufforderung, den eigenen Wert nicht mit der Tätigkeit zu verwechseln, die gerade automatisiert wird.

Der Fehler ist, den Übergang mit dem Endzustand zu verwechseln

Bei jeder neuen Technologie gibt es eine Phase, in der man sie leicht unterschätzen kann.

Automatische Aufzüge wirkten zunächst unheimlich.
Telefonvermittlung ohne Menschen wirkte ungewohnt.
Elektronische Computer waren teuer, groß und begrenzt.
KI macht Fehler, halluziniert, missversteht, glättet, erfindet und wirkt oft sicherer, als sie ist.

Daraus entsteht eine tröstliche Beobachtung:

„Siehst du, es geht doch nicht ohne Menschen.“

Stimmt.

Heute.

In vielen Fällen.

Aber die Geschichte zeigt: Der Anfangszustand einer Technologie ist selten ihr Endzustand.

Die ersten Autos waren keine guten Pferde.
Die ersten Drucke waren keine perfekten Manuskripte.
Die ersten Computer waren keine universellen Alleskönner.
Die ersten automatischen Aufzüge mussten erst Vertrauen gewinnen.

Der entscheidende Moment kommt nicht, wenn die Maschine perfekt ist.

Er kommt, wenn sie für genügend Anwendungsfälle gut genug ist.

Und wenn Organisationen ihre Prozesse so umbauen, dass die Maschine nicht mehr wie ein schlechter Mensch arbeiten muss, sondern wie eine Maschine arbeiten darf.

Nicht Panik. Aber Ehrlichkeit.

Es wäre falsch, aus der Geschichte eine einfache Untergangserzählung zu machen.

Technologische Umbrüche vernichten nicht nur Arbeit. Sie schaffen auch neue Arbeit. Das World Economic Forum erwartet bis 2030 weltweit zwar erhebliche Verdrängung, aber zugleich auch viele neue Rollen; konkret nennt es 170 Millionen neu entstehende und 92 Millionen verdrängte Jobs, also netto 78 Millionen zusätzliche Beschäftigungsmöglichkeiten. (World Economic Forum)

Aber solche Nettobetrachtungen trösten nur auf Folien.

Für den einzelnen Menschen ist es egal, ob irgendwo anders ein neuer Job entsteht, wenn der eigene verschwindet.

Für Unternehmen ist es egal, ob „der Arbeitsmarkt“ langfristig neue Rollen schafft, wenn kurzfristig ganze Tätigkeitsketten neu kalkuliert werden.

Und für die Gesellschaft ist es gefährlich, Menschen mit semantischen Beruhigungspillen abzuspeisen.

KI ersetzt nicht alle Jobs.

KI ersetzt auch nicht einfach „den Menschen“.

Aber KI ersetzt sehr wohl bestimmte Tätigkeiten so stark, dass manche Jobs in ihrer heutigen Form verschwinden werden.

Weitere werden kleiner.

Viele werden umgebaut.

Und einige werden wertvoller, weil Menschen mit KI plötzlich mehr leisten können als vorher.

Das ist kein Grund für Panik.

Aber es ist ein Grund für Ehrlichkeit.

Denn der Satz „KI ersetzt keine Jobs, sondern Tätigkeiten“ ist nur dann hilfreich, wenn man den zweiten Teil dazusagt:

Manche Jobs bestehen fast vollständig aus diesen Tätigkeiten.

Und genau dort wird es ernst.

1. Mai 2026
Google Search Central Live Toronto 2026: Was Google über SEO, KI und die Zukunft der Suche verrät
Wenn Google-Mitarbeiter:innen einen ganzen Tag lang vor einem Publikum aus SEOs stehen, lohnt es sich, sehr genau zuzuhören. Am 21. April 2026 war es wieder so weit: In Toronto fand das erste Google Search Central Live auf kanadischem Boden statt. Fünf Vorträge, ein Panel, viele Folien – und am Ende eine ziemlich klare Botschaft: KI verändert die Suche, aber sie macht das klassische SEO-Handwerk nicht überflüssig. Sie erhöht eher die Messlatte.

Der kanadische SEO Jean-Christophe Chouinard war vor Ort, hat die Slides fotografiert und sie in seinem Blog dokumentiert. Auf Basis dieser Dokumentation ordne ich hier die wichtigsten Aussagen der fünf Sessions ein – und leite daraus ab, was für die tägliche SEO-Arbeit relevant ist.

Die Vortragenden:
- Martin Splitt (Search Advocate) – „How Search Works“
- Danny Sullivan (Director, Google Search) – „AI in Google Search“
- Annanya Raghavan (Trends Analyst) – „Telling Stories with Google Trends“
- Daniel Waisberg (Search Advocate) – „New in Search Console & Trends“
- Ryan Levering (Search Engineering) – „Structured Data, Quality & AI“
Die wichtigsten Takeaways auf einen Blick

Bevor wir in die einzelnen Sessions einsteigen, die verdichtete Version für alle, die es eilig haben:
1. Indexierung ist kein Selbstläufer mehr. Weil KI Content-Produktion trivialisiert hat, hebt Google die Qualitätsschwelle dafür an, was überhaupt indexiert wird. „Crawled – currently not indexed“ ist selten ein Rendering-Problem.
2. Gutes SEO ist gutes „GEO“. Die neuen Akronyme (GEO, AEO, LLM SEO, AI SEO) ändern wenig an den Grundlagen. Für AI Overviews und AI Mode gelten dieselben Prinzipien wie für die klassische Suche.
3. Fan-out ist der Schlüssel, um AI Search zu verstehen. Eine einzelne Query wird in viele Teil-Queries zerlegt, die parallel Quellen aus Web, Shopping, Knowledge Graph, Wetter und Finance einsammeln.
4. Google Trends wird erwachsen. Eine neue API (Alpha), konsistente Skalierung, neue Zeitauflösungen und Gemini-Integration machen Trends vom Keyword-Tool zum Narrativ-Werkzeug.
5. Search Console wird assistiver. Query Groups bündeln ähnliche Anfragen, eine AI-powered Configuration übersetzt natürliche Sprache in Filter – GSC-Analysen sollen zugänglicher werden.
6. Strukturierte Daten sind nicht tot – sie werden wichtiger. Vor allem im E-Commerce: Shipping, Loyalty, Produktvarianten, Cross-Page-@id-Verknüpfungen.
7. KI-generierter Content ist nicht per se das Problem. Das Problem heißt Scaled Content Abuse: massenhaft ähnliche Seiten ohne Mehrwert.
Jetzt im Detail.

1. Martin Splitt: How Search Works

Martin Splitt hatte den undankbaren, aber wichtigen Job des Grundlagen-Vortrags. Seine Folien waren eine Erinnerung daran, dass viele SEO-Fragen leichter werden, wenn man das Modell dahinter wirklich verstanden hat.

Das Life-of-a-URL-Modell

Splitt zerlegte den Weg einer URL in vier Zustände:
1. Discovered – Google weiß, dass die URL existiert (über Links oder Sitemap).
2. Crawled – Googlebot hat die URL abgerufen.
3. Indexed – die URL wurde verarbeitet und in den Index aufgenommen.
4. Serving – die URL erscheint in den Ergebnissen, wenn sie für eine Query ein guter Kandidat ist.
Der Punkt: Jeder dieser Schritte kann scheitern. URLs sind schwer zu entdecken, Crawling dauert oder wird durch robots.txt verhindert, Indexing kann eine andere Canonical-URL wählen, URLs können wieder aus dem Index fallen, andere URLs können für dieselbe Query bessere Kandidaten sein – und die Suchnachfrage selbst verändert sich.

Das mündet in einen Satz, der auf einer eigenen Folie prangte: „Google won’t index everything at all times.“ Das ist kein Bug, das ist Feature. Und es ist die Grundlage für den nächsten wichtigen Gedanken.

Unterschiedliche Signale für unterschiedliche Inhalte

Google nutzt hunderte Signale, aber nicht für alles dieselben. Splitt zeigte:
- Webseiten: Text, Links, Passagen
- Bilder: Auflösung, Farbe, umliegender Text
- News: Frische, Originalität, Diversität
- Local: Standort, Typ, Bewertung, Öffnungszeiten
- Videos: Sprache, Transkripte
Für SEO heißt das: Wer auf Image Search zielt, optimiert anders als für News oder lokale Suche. Eine vertikalübergreifende Einheits-SEO-Checkliste gibt es nicht.

Search ist ein Experimentiersystem

Eine Zahl aus der Session, die hängenbleibt: 719.000 Search-Quality-Tests und mehr als 4.700 Launches allein im Jahr 2023. Wer also denkt, zwischen zwei Core Updates sei „nichts los“, irrt – es ist eher so, dass laufend Kleinigkeiten angepasst werden, die in Summe sichtbar werden.

2. Danny Sullivan: AI in Google Search

Danny Sullivan hatte die Aufgabe, das Thema zu besprechen, das alle umtreibt: AI Overviews, AI Mode, Fan-outs, Agentic Search. Seine Kernbotschaft war zugleich beruhigend und unbequem.

„Good SEO is good GEO“

Sullivan fasste eine Folie mit den Akronymen GEO, LLM SEO, AEO – und einem ironischen „Let’s go back to the basics“ – in einem Satz zusammen, der in den kommenden Monaten noch oft zitiert werden dürfte: Gute SEO ist gute „GEO“ (oder AEO, oder AI SEO, oder LLMNOPEO). Die Suchoberfläche ändert sich, die zugrunde liegenden Qualitätsprinzipien nicht.

Wie Fan-out wirklich funktioniert

Sullivan erklärte AI Search als Kombination aus drei Informationsquellen:
1. Allgemeines Modellwissen aus dem Training.
2. Spezifisches Wissen aus klassischen Suchergebnissen.
3. Fan-out – die ursprüngliche Query wird in verwandte Sub-Queries zerlegt.
Das Beispiel aus den Folien: Aus „ebikes in red for 5 mile commute with hills“ werden intern Queries wie „best ebikes“, „ebikes for hills“ und „red ebikes“. Diese Sub-Queries ziehen parallel Informationen aus unterschiedlichen Vertikalen: Shopping, Knowledge Graph, Real World, Web, Sport, Weather, Finance.

Die praktische Konsequenz: Sichtbarkeit in AI Search entsteht nicht nur über eine optimierte Haupt-Query. Man muss in all den Teilfragen präsent sein, die eine komplexe Nutzerfrage implizit enthält.

Commodity vs. Non-Commodity Content

Die vielleicht pragmatischste Folie der ganzen Veranstaltung war Sullivans Gegenüberstellung von austauschbarem und nicht-austauschbarem Content. Drei Beispiele aus seiner Präsentation:
- Laufschuh-Händler: „Top 10 Dinge beim Kauf von Laufschuhen“ (Commodity) vs. eine Analyse, warum die Schuhe eines konkreten Kunden nach 400 Meilen kollabiert sind, inklusive Laufmuster (Non-Commodity).
- Immobilienmakler: generische Erstkäufer-Tipps (Commodity) vs. ein konkreter Fall, in dem eine übersprungene Inspektion 15.000 Dollar gespart hat, mit Blick in die Abwasserleitung (Non-Commodity).
- Innenarchitektin: generische Küchentrends mit Pinterest-Bildern (Commodity) vs. ein Experiment, warum Marmor für eine fünfköpfige Familie ungeeignet war – mit Fleckentests von Traubensaft und Kurkuma (Non-Commodity).
Was guten Non-Commodity-Content auszeichnet: Unique, Specific, Authentic. Eigene Perspektive. Konkreter Fall. First-Hand-Erfahrung. Das ist genau der Content, den ein LLM nicht synthetisieren kann, weil er schlicht noch nicht im Trainingsdatensatz existiert.

Mythbusting: Was ihr NICHT tun müsst

Sullivan machte auf mehreren Folien mit typischen Missverständnissen auf:
- Kein „Chunking“ für KI. Baut euren Content für menschliche Leser:innen auf, nicht für hypothetische LLM-Parser.
- H1/H2-Header müssen nicht KI-präzise sein. Sie sind für Menschen da.
- Keine „Conversational Keywords“ auf Vorrat. Googles Sprachverständnis erkennt Synonyme und Beziehungen.
- JavaScript ist okay, solange Google es wie ein Mensch ausführen kann.
- Keine Website nach Markdown migrieren. Laut Notizen kein SEO- oder LLM-Vorteil.
- Keine llms.txt anlegen. Laut Notizen ebenfalls kein SEO-Nutzen.
Und zum Dauerbrenner KI-Content: Generative KI ist für Recherche und Strukturierung in Ordnung. Problematisch wird es bei Scaled Content Abuse – massenhaft publizierte Seiten ohne eigenen Mehrwert. Googles Spam Policies zielen genau darauf, nicht auf KI als Werkzeug an sich.

Agentic Search – vor allem Commerce

Ein spannender, aber klar begrenzter Teil war der Ausblick auf agentische Features:
- Business Agent: Händler:innen in den USA können im Merchant Center einen gebrandeten Agent aktivieren, mit dem Käufer:innen direkt in Google Search chatten können.
- Universal Commerce Protocol (UCP): Soll eine neue Checkout-Funktion in AI Mode und der Gemini-App antreiben.
Die ehrliche Einordnung aus den Notizen: Jenseits von Commerce und UCP waren nicht viele konkrete neue Chancen sichtbar. Wer also kein E-Commerce-Business betreibt, darf Agentic Search vorerst beobachten statt hyperventilieren.

Messen, nicht zählen

Sullivan wies darauf hin, dass Nutzer:innen, die aus AI Overviews auf eine Seite klicken, tendenziell länger bleiben und engagierter sind – weil sie bereits kontextuell vorgewärmt sind. Die Messlatte darf also nicht nur das Klickvolumen sein. Wichtiger werden Besuchsdauer, Signups, Conversions, Engagement und qualitative Signale.

3. Annanya Raghavan: Storytelling mit Google Trends

Annanya Raghavans Vortrag war die strategisch vielleicht inspirierendste Session. Ihre These: Trends ist kein Keyword-Tool. Trends ist ein kultureller Kompass.

„Why Narratives Beat Keywords“

Raghavans Leitsatz: Keywords zeigen, was Menschen wollen. Trends zeigen, wer Menschen sind. Ein Keyword ist eine Transaktion, ein Trend eine Transformation im Publikumsverhalten.

Was Trends-Daten laut ihrer Darstellung einzigartig macht:
- Big: Milliarden Suchanfragen pro Tag – einer der größten Echtzeit-Datensätze der Welt.
- Immediate: nahezu in Echtzeit, was Menschen gerade umtreibt.
Ein paar Beispiele, die in der Session hängen geblieben sind:
- Globale Frage „how can we control anxiety“
- Kanada: „how can we reduce food waste“
- Indien: „how can we care for our elders“
- UK: „how can we mitigate climate change“
- USA: „how can we stop bullying“
Dieselbe Satzstruktur – und doch völlig unterschiedliche gesellschaftliche Prioritäten.

Tagesrhythmen und Kulturmuster

Raghavan zeigte tägliche Peaks verschiedener Suchanfragen:
- 7:00 Uhr – „surfing“ in Australien
- 8:00 Uhr – „full english“ in England
- 13:00 Uhr – „beer garden“ in Deutschland
- 15:00 Uhr – „hiking“ in Kanada
- 16:00 Uhr – „disco“ in Spanien
- 17:00 Uhr – „karaoke“ in Japan
- 23:00 Uhr – „jazz music“ in Brasilien
Für Content-Planung, Paid-Timing oder regionale Ansprache ist das Gold wert – solange man Trends konsequent dafür nutzt.

Die drei Säulen narrativer Verbindung

Raghavans Framework für strategische Trends-Nutzung:
1. Seasonality vs. Spontaneity – erwartbare jährliche Peaks planen, aber agil genug für Breakout-Momente bleiben.
2. Generative Context – Search-AI-Features analysieren, um zu verstehen, wie Informationen synthetisiert werden.
3. The Narrative Gap – Breakout-Trends gegenüber statischen High-Volume-Keywords priorisieren, um First-Mover-Vorteile in AI-Antworten zu sichern.
Der Brand-Connectivity-Prozess in fünf Schritten
1. Identify: In Trends eine Breakout-Query finden, bei der Neugier schneller steigt als der Wettbewerb.
2. Verify: Über „Interest by Subregion“ regionale Relevanz gegenprüfen.
3. Synthesize: In Search AI prüfen, wie Google das Thema aktuell zusammenfasst.
4. Differentiate: Eigene Daten, Expertise oder Perspektive hinzufügen, die über den AI-Gist hinausgeht.
5. Execute: Hilfreichen, originären Content veröffentlichen, der das tiefere „Warum“ beantwortet.
Das ist im Grunde ein SEO-Prozess, in den AI Search als Research-Tool integriert wird – nicht als Bedrohung, sondern als Diagnoseinstrument.

4. Daniel Waisberg: Neues in Search Console und Trends

Daniel Waisberg brachte die konkreten Tool-News mit. Vier Themen: Query Groups, AI-powered Configuration, Trends API (Alpha), Trends Explore mit Gemini.

Query Groups: Weil eine Anfrage hundert Varianten hat

Waisberg nutzte das wunderbare Beispiel „How to spell Britney Spears?“ – mit einer langen Liste der Schreibweisen, die Menschen tatsächlich eintippen. Genau dieses Problem adressieren Query Groups: ähnliche Anfragen werden automatisch zu Themenclustern gebündelt.

Beispiele aus der Insight Card in den Folien: schema checker, seo, robots.txt, core web vitals, google core update. Jede Gruppe kommt mit Gesamtmetriken, Top Countries und Additional Traffic Sources – und lässt sich auf die zugrunde liegende Regex drill-downen. Wer will, kann die Gruppierung also bis auf Einzelquery-Ebene nachvollziehen.

Query Groups lösen ein echtes Problem: Statt sich durch hundert Keyword-Varianten zu filtern, bekommt man Themen serviert. Pluspunkt für Dashboards und Executive Reports.

AI-powered Configuration: GSC per Prompt

Die zweite Neuerung ist eine experimentelle Funktion, die natürliche Sprache in GSC-Filter übersetzt. Drei Schritte:
1. Wunsch in Umgangssprache beschreiben.
2. System schlägt passende Filter und Einstellungen vor.
3. Prüfen, anwenden (oder verwerfen).
Beispielprompt aus der Demo: „CTR von Queries anzeigen, die ‚how to‘ oder ‚what is‘ enthalten, in Kanada letzte Woche.“ Die vorgeschlagene Konfiguration: letzte 7 Tage, Web-Search, Country Canada, Query-Matching how to | what is, Metric CTR, Breakdown Queries.

Wichtig: Es gibt einen expliziten Review-Schritt. Die KI schlägt vor, Menschen entscheiden. Das Feature ist als experimentell markiert – Feedback ausdrücklich erwünscht.

Trends API (Alpha)

Für alle, die bisher mit Screenshots aus dem Trends-UI leben mussten: Es kommt eine echte API. Die relevanten Eckdaten:
- 5 Jahre Rolling Window, Daten bis 48 Stunden vor „jetzt“ (die Verzögerung ist bewusst, um Missbrauch zu erschweren).
- Konsistent skalierte Suchinteresse-Werte – isolierte Einzelabfragen sind damit mit Vergleichsabfragen kompatibel (das war vorher ein häufiger Stolperstein).
- Neue Zeitauflösungen: täglich, wöchentlich, monatlich, jährlich.
- Asynchrones Request-Modell: Anfrage erstellen, Operation-ID erhalten, Ergebnis abrufen.
Ein Sample-Request aus der Folie: geo: US, expression: "world cup", time_range: 2024-01-01 bis 2024-12-31, time_resolution: WEEK. Die Response liefert points mit search_interest und scaled_search_interest.

Das ist ein ziemlich großer Schritt für alle, die Trends-Daten in Dashboards, Data-Science-Workflows oder Content-Planungs-Tools einbinden wollen.

Trends Explore mit Gemini

Die vierte Neuerung: Ein Gemini-gestütztes Panel in Trends Explore, das Themenvorschläge macht. Beispiel aus den Folien: Für die Eingabe „Dog breeds“ schlägt Gemini Verfeinerungen wie „small dog breeds“, „hypoallergenic dog breeds“, „Labrador vs. Golden Retriever“ oder „most popular dog breeds in the US“ vor.

Nützlich für Brainstorming – und um nicht ständig im eigenen Bubble-Vokabular festzustecken.

5. Ryan Levering: Strukturierte Daten, Qualität & KI

Ryan Leverings Vortrag war die technische Kür – und die wichtigste Korrektur an einem verbreiteten Mythos: Strukturierte Daten sind in der KI-Ära nicht weniger wichtig, sondern mehr.

Die zwei Extrempositionen – und die Wahrheit dazwischen

Levering stellte zwei überzogene Sichtweisen gegenüber:
- „Strukturierte Daten sind nutzlos, LLMs verstehen auch ohne Schema alles.“
- „Strukturierte Daten sind die Zukunft, Agenten brauchen eh kein Web mehr.“
Beides falsch. Seine vier Argumente, warum strukturierte Daten weiter wichtig sind:
1. Precision: Für komplexe Commerce-Schemata (z. B. Sale Pricing) sind sie präziser als LLM-Extraktion.
2. Extra Content: Sie transportieren unsichtbare Metadaten (vollständige ISO-Daten, stabile IDs), die im sichtbaren Text fehlen.
3. Efficiency: Parsebare Daten sind deutlich günstiger als LLM-Extraktion bei jedem Crawl.
4. Focus: Sie heben die relevanten Datenpunkte hervor und verhindern, dass das System irrelevante Informationen (z. B. Preise verwandter Produkte) heranzieht.
Entscheidend: Strukturierte Daten befeuern nicht nur Rich Results in der SERP. Sie werden auch als Kontext in AI Overviews und AI Mode verwendet.

Der Shopping-Schwerpunkt

Der Großteil der Session drehte sich um E-Commerce. Die wichtigen Bausteine:

Shipping Service Annotations
- handlingTime als ServicePeriod mit cutoffTime und duration.
- shippingConditions mit Destinations, Mindestbestellwerten, Raten.
- Konkrete Beispiele: Versand bis 14:30 Uhr, 30 Minuten Handling, kostenloser Versand nach FR und DE ab 50 Euro Bestellwert.
Loyalty Programs
- Organization → MemberProgram → MemberProgramTier → Benefit (z. B. Member Price, kostenloser Versand).
- Tiers bekommen stabile @id-URLs, auf die andere Dokumente verlinken können.
Cross-Page-Verknüpfung über @id
- Versandangebote können per validForMemberTier auf den entsprechenden Loyalty-Tier verweisen.
- Produkte können auf Organisationsrichtlinien verlinken.
Und der Ausblick: Google will die Symmetrie zwischen Merchant-Center-Feeds und Web-Markup stärken – was bedeutet, dass saubere Structured Data auf der Website zunehmend dieselben Signale liefert wie gepflegte Feeds.

Rich Results Test vs. schema.org Validator

Eine praktische Klarstellung aus der Session: Diese beiden Tools beantworten unterschiedliche Fragen.
- Rich Results Test (search.google.com/test/rich-results): Nutzt Googles internen Indexing-Stack und prüft, ob Google das Markup tatsächlich verarbeiten kann.
- schema.org Validator (validator.schema.org): Prüft reine Standardkonformität – unabhängig davon, ob Google etwas damit anfangen würde.
Für SEO-Zwecke ist der Rich Results Test der relevantere Check. Der schema.org Validator ist für strikte Standardvalidierung gedacht.

UGC, Forum und Q&A

Kleine, aber feine Neuerungen:
- Bessere Verarbeitung von Embedded Posts und Reposts.
- Ein neues Property digitalSourceType, das maschinengenerierte Inhalte kennzeichnen kann (algorithmisch vs. modellgeneriert).
Und für Bildauswahl in Search/AI: primaryImageOfPage, mainEntity -> image und og:image sind die Signale, auf die Google hört.

Praktische Implikationen für SEO

Wer die fünf Sessions zusammennimmt, bekommt eine erstaunlich kohärente To-do-Liste für die nächsten Monate.

Indexierung und Crawling

„Crawled – currently not indexed“ ist selten ein Rendering-Problem. Wer dieses Problem hat, sollte nicht zuerst ins JavaScript-Rendering schauen, sondern in Qualität, Duplicate Content, Canonicals, Nachfrage, Konkurrenz anderer URLs, 404s, Weiterleitungen und robots.txt. Sitemaps und interne Verlinkung bleiben wichtig, weil Discovery ein eigener Schritt im Life-of-a-URL-Modell ist.

Content-Strategie
- Nicht in Panik verfallen und die Website für AI Search umstrukturieren.
- Kein „Chunking“, keine Markdown-Migration, keine llms.txt.
- Dafür: Unique, Specific, Authentic. Eigene Daten, Experimente, Fälle, Perspektiven.
- Keine massenhaft ähnlichen KI-generierten Seiten – das ist Scaled Content Abuse.
Messung

AI-Search-Klicks nicht nur am Volumen bewerten. Engagement, Besuchsdauer, Conversions, Signups und qualitative Signale werden wichtiger. GSC Query Groups und AI-powered Configuration können Analyseaufwand reduzieren – aber vorgeschlagene Filter immer gegenprüfen.

Google Trends als strategisches Werkzeug

Trends ist mehr als ein Keyword-Research-Tool. Breakout-Themen können strategisch wichtiger sein als statisch hohe Suchvolumina. Regionale Muster, Tagesrhythmen und Ereignis-Peaks fließen in Content-Planung ein. Die neue API öffnet die Tür für systematischere Trends-Analyse.

Strukturierte Daten

Vor allem im E-Commerce: Shipping-Policies, Loyalty-Programme, Produktvarianten, Member Pricing, UGC-Kennzeichnung. Cross-Page-Verknüpfungen über stabile @id-URLs werden wichtiger. Und: Der Rich Results Test beantwortet eine andere Frage als der schema.org Validator – beide haben ihre Daseinsberechtigung.

Blockieren von Google-Extended

Ein Detail, das in den Notizen auftaucht und das oft missverstanden wird: Das Blockieren von Google-Extended beeinflusst laut Veranstaltung nicht die Sichtbarkeit in AI Overviews oder AI Mode negativ, weil Google die Inhalte auch aus dem regulären Suchindex heranziehen kann. Wer konkrete Inhalte wirklich von der KI-Nutzung ausschließen will, muss eher mit data-nosnippet arbeiten – was allerdings auch klassische SEO-Snippets beschränkt. Das komplette Blockieren kann zudem dazu führen, dass die eigene Seite nicht mehr als Grounding- oder Link-Quelle in AI-Antworten erscheint.

Fazit: Mehr Evolution als Revolution

Die ehrlichste Zusammenfassung der Veranstaltung steht auf einer von Danny Sullivans Folien: „All this is good news!“ Menschen müssen ihre Websites nicht panisch für AI-Search-Erfolg auseinanderreißen.

Was wirklich passiert, ist subtiler – und anspruchsvoller:
- Die Qualitätsschwelle für Indexierung steigt, weil KI Content-Produktion trivialisiert.
- Sichtbarkeit wird über mehr Oberflächen verteilt: Web, Bilder, Videos, Shopping, Local, Fan-outs.
- Strukturierte Daten werden zum zuverlässigeren Signal gegenüber KI-Extraktion.
- Measurement verschiebt sich vom Klick zum Engagement.
- Google selbst baut seine Tools (GSC, Trends) assistiver und API-freundlicher aus.
Und quer über alle fünf Sessions zog sich dieselbe Botschaft: Wer heute guten, eigenen, spezifischen Content für Menschen macht, ist für AI Search richtig aufgestellt. Keine neuen Akronyme. Keine magischen Schalter. Nur: Handwerk, ehrlich gemacht.

Wer die Originalfolien sehen will, findet die komplette Bildsammlung im Blogpost von Jean-Christophe Chouinard.

Quelle: JC Chouinard, „Google Search Central Live Toronto Slides (April 2026)“, veröffentlicht am 22. April 2026. Analyse und Einordnung auf Basis der dort dokumentierten Slides.
25. April 2026
GEO in der Praxis: Wie B2B-Unternehmen in generativen Suchsystemen sichtbar werden
Ein Praxis-Ratgeber für Marketing-, SEO- und Content-Verantwortliche

Klassisches SEO hat seine Steuerungsgrößen verloren. Wenn bei Googles AI Mode rund 95 von 100 Anfragen ohne Klick auf eine externe Website bleiben und die Zero-Click-Rate bei ChatGPT je nach Query-Typ zwischen 78 und 99 Prozent liegt, wird Traffic als einzige Erfolgsmetrik zum Blindflug. Gleichzeitig sind AI-referred Sessions zwischen Januar und Mai 2025 um 527 Prozent gewachsen — die Frage ist also nicht mehr, ob man sich mit generativer Suche beschäftigt, sondern wie systematisch.

Generative Engine Optimization (GEO) beschreibt die Arbeit an genau dieser Sichtbarkeit: nicht mehr für Klicks zu optimieren, sondern dafür, in KI-Antworten zitiert, empfohlen und als Ground Truth akzeptiert zu werden. Dieser Beitrag bündelt die wichtigsten Hebel für B2B-Unternehmen — entlang strategischer, organisatorischer und operativer Fragen. Am Ende steht eine priorisierte Handlungsliste.

1. Der Paradigmenwechsel: Von Rankings zu Antwortrepräsentation

Der Kernsatz lautet: Wir optimieren nicht mehr für Klicks, sondern dafür, zitiert, empfohlen und als Ground Truth akzeptiert zu werden.

Drei Verschiebungen prägen den neuen Kanal:
- Natürliche Sprache statt Keywords. Nutzer formulieren Anfragen mit 20+ Wörtern und erwarten direkte Antworten. Der Long-Tail ist nicht mehr Nische, sondern Norm.
- Die Website wird zur Bestätigung, nicht zur Überzeugung. Ein Großteil der Entscheidungsarbeit findet im Chat statt. Wenn der Nutzer die Seite überhaupt noch besucht, hat er meist schon eine Vorentscheidung getroffen.
- Volatilität als Dauerzustand. Dieselbe Frage liefert zu unterschiedlichen Zeitpunkten unterschiedliche Antworten — je nach Modell, Personalisierung, Query Fan-out und Grounding-Auswahl. Selbst bei identischen Prompts variieren die zitierten Quellen stark.
Handlungsempfehlung: Stellen Sie die Leitfrage im Team um. Weg von „Wie ranke ich?“ hin zu „Bei welchen entscheidungsrelevanten Prompts tauche ich als empfohlene Option auf?“

2. Zielgrößen neu denken: Was jetzt gemessen wird

Rankings und reines Traffic-Volumen verlieren an Aussagekraft. Sinnvoller sind:
- Share of Voice in generativen Antworten — bei einem definierten Set von 25–50 Kern-Prompts über mehrere Systeme hinweg.
- Citation Rate — bei welchen Prompts werden Sie nicht nur erwähnt, sondern als Quelle zitiert?
- Sentiment der Erwähnungen — Erwähnung allein reicht nicht.
- Entity Recall — kennt das Modell Ihre Marke im relevanten Kontext?
- Business Impact — Lead-Qualität und Conversion-Qualität statt reines Traffic-Volumen.
Attribution bleibt schwierig. Zitiert zu werden erzeugt oft keinen sichtbaren Klick, obwohl es eine Kaufentscheidung beeinflusst. Offizielle APIs und Standard-Metriken fehlen, die Tool-Landschaft ist unreif. Der pragmatische Weg ist Triangulation: Sichtbarkeits-Signale aus spezialisierten Tools kombiniert mit manuellen Tests, GA4-Referrer-Daten (chatgpt.com, perplexity.ai, gemini.google.com) und Business-Outcomes.

Ein oft unterschätzter Indikator: Neukunden direkt fragen, wie sie Sie gefunden haben. Das ist qualitativ unbezahlbar.

Handlungsempfehlung: Definieren Sie 25–50 geschäftsrelevante Prompts, messen Sie eine Baseline über drei bis vier Systeme (ChatGPT, Perplexity, Google AI Mode, Claude), idealerweise bilden sie einen laufenden Durchschnitt aus mehreren Abfragen jedes Prompts und checken Sie mindestens monatlich auf Veränderungen.

3. Die häufigsten strategischen Fehlannahmen

Fünf Irrtümer begegnen mir regelmäßig in der Beratung:
1. „GEO ersetzt SEO.“ Falsch. GEO funktioniert nur als Erweiterung solider SEO-Grundlagen. Ohne saubere Tech-SEO und Brand Building fehlt der Hebel.
2. llms.txt-Hype. Viele Experimente haben bestätigt: Kein KI-Crawler hat gezielt nach llms.txt gesucht. Die Datei gilt als wirkungslos.
3. Quantität ohne Qualität. KI-generierte Massen an Content schaden eher — LLMs verstehen Semantik, nicht Worthäufigkeit.
4. FOMO statt Business Case. Sichtbarkeit ohne Geschäftsrelevanz ist kein Ziel.
5. Sofortige Messbarkeit erwartet. GEO ist ein Marathon. Erste belastbare Erkenntnisse brauchen mindestens ein Quartal, besser ein halbes Jahr.
Die gute Nachricht: Wer eine solide SEO-Basis hat, kann innerhalb weniger Wochen spürbar etwas bewegen.

4. Organisation und Governance: Die unterschätzte Hürde

Die größte Hürde bei systematischer GEO-Umsetzung ist nicht technisch, sondern organisatorisch. GEO-Sichtbarkeit entsteht an der Schnittstelle von SEO, Content, PR, Brand, Produkt und Web — keine dieser Funktionen allein kann sie verantworten.

In der Praxis scheitert es meist an drei Punkten:
- Unklare Ownership. GEO fällt zwischen die Stühle. Wenn niemand expliziter Owner ist, bleibt es bei Einzelprojekten.
- Fehlende Prozess-Disziplin. Monitoring ist sporadisch, Learnings fließen nicht in Content-Briefings zurück.
- Leadership-Education. Entscheider müssen verstehen, warum GEO wichtig ist — ohne sich von Hype treiben zu lassen.
Eigene Rolle oder Erweiterung bestehender Funktionen? Für die meisten Unternehmen reicht eine Erweiterung der SEO- und Content-Funktion. Nur Enterprise-SaaS, hochregulierte Branchen oder Konzerne mit komplexem Buying Center brauchen dedizierte Senior-Rollen (Adobe hat Ende 2024 eine entsprechende Stelle mit ausgeschrieben).

Handlungsempfehlung: Benennen Sie einen klaren Accountability-Owner — meist im SEO- oder Content-Team — mit definierten Eskalationswegen und Einbindung in Digital PR. Committen Sie alle Beteiligten auf ein gemeinsames Zielsystem: Brand Visibility in KI-Antworten und Business-Outcomes.

5. Content-Lifecycle: Wo die meisten Teams scheitern

Das praxiserprobte Framework verläuft in vier Phasen: Source Analysis → Optimization → Assessment → Refinement. In der Realität werden Phase 1 und Phase 3 fast immer übersprungen.
- Phase 1 — Source Analysis. Die Frage „Woher bezieht die KI ihre Antwort zu unserem Thema heute?“ wird selten systematisch gestellt. Dabei dominiert Earned Media: Bis zu die meisten KI-Zitationen stammen aus Drittquellen. Wer nur die eigene Domain optimiert, ignoriert den größten Hebel.
- Phase 3 — Assessment. Ohne definiertes Prompt-Set, ohne Baseline, ohne regelmäßige Re-Checks gibt es keine Lernschleife.
Dazu kommen drei operative Lücken, die sich quer durch alle Teams ziehen: Passage-Optimierung (im klassischen SEO konkurrieren Seiten, im GEO konkurrieren Passagen), Claim-Evidence-Source (jede zentrale Aussage sollte mit Beweis und Quelle verknüpft sein) und Information Gain (wenn ein Artikel nichts sagt, was nicht auch Wikipedia sagt, wird die KI Wikipedia zitieren).

6. Der stärkste inhaltliche Hebel: Autorität und Struktur

Das Hinzufügen von Statistiken, Zitaten und wissenschaftlichen Quellenangaben steigert die Sichtbarkeit in KI-Antworten messbar.

Konkret wirksam sind:
- Claim-Evidence-Source-Format — jede Kernaussage mit Beleg und nachvollziehbarer Quelle.
- Passage-Optimierung in semantisch geschlossenen Einheiten von etwa 40–60 Wörtern, die isoliert Sinn ergeben.
- Direkte Antwortlogik — Frage, prägnante Antwort in den ersten Zeilen, Beleg, Kontext. TL;DRs in den ersten 10 Prozent eines Textes sind messbar wirksam.
- Information Gain — eigene Daten, Studien, Fallbeispiele.
Was im B2B funktioniert: Thought-Leadership-Artikel in Fachmedien, Original-Research, Vergleichsguides mit Kriterien-Transparenz, lösungsorientierte Deep-Dives („Wie reduziere ich IT-Kosten?“ statt „Unser Cloud-Service hat 99,9 % Uptime“), Whitepaper mit echtem Mehrwert, Case Studies mit harten Zahlen.

Was nicht funktioniert: Keyword-optimierte Seiten ohne Information Gain, Feature-Listen ohne Problem-Kontext, KI-generierte Masse, reine Produktseiten ohne Entscheidungsunterstützung, Content ohne erkennbare Autoren oder Quellen.

7. Multiperspektivischer Content für das Buying Center

Im B2B fragen Techniker, CFO und Geschäftsführung am selben Thema völlig unterschiedliche Fragen. Der Techniker fragt nach Integration und Security, der CFO nach TCO und ROI, die Geschäftsführung nach Strategie und Risiko.

Die praktikabelste Lösung ist eine integrierte Hub-Struktur statt isolierter Silos: Ein zentrales Pillar-Content-Stück pro Thema mit klar benannten Zielrollen-Abschnitten („Für Entscheider“, „Für IT-Verantwortliche“, „Für den CFO“). Vorteil: Die KI findet für jede Perspektive einen zitierfähigen Abschnitt, und die semantische Tiefe des Hubs stärkt die Topical Authority.

Ergänzend: Spezialisierte Inhalte pro Rolle an den Entscheidungsmomenten, wo Tiefe zählt — aber immer aus dem Hub verlinkt, nicht parallel.

Warum keine komplett getrennten Inhalte? Separate Artikel pro Rolle kannibalisieren sich semantisch und verteilen Autorität auf mehrere URLs. KI-Systeme bevorzugen kohärente, tiefe Quellen.

8. E-E-A-T neu gewichtet: Was im B2B wirklich zählt

Der Shift lautet: Von Domain Authority zu Entity Recall. Von Anchor Text zu Branded Search Lift. Von Backlinks zu Brand Mentions und Co-Occurrences.

Was im B2B den höchsten Wirkungsgrad hat:
- Expertise — nachweisbare Fachkompetenz, Studien, Original-Research, publizierte Vorträge. Schwache Expertise disqualifiziert sofort.
- Authoritativeness — Zitierungen in Branchenmedien, Thought-Leadership-Position, externe Anerkennung durch die Peer Group.
- Trust — Transparenz über Geschäftsmodell, Compliance-Konformität, saubere Quellen.
Was überschätzt wird:
- Experience im Sinne klassischer Nutzer-Reviews — im B2B zählt organisationale Experience in Form von Case Studies mit harten Ergebnissen mehr als generische Bewertungen.
- Allgemeines Firmenprestige ohne konkrete Expertise-Demonstration. „Wir sind ein Großkonzern“ ist kein E-E-A-T-Signal.
- Schema.org-Markup als Haupthebel für LLM-Systeme — sinnvoll für klassische SEO, aber kein nachgewiesener Zusatznutzen für generative Antworten.
9. Technik: Unverzichtbar vs. überschätzt

Unverzichtbar:
- Rendering ohne JavaScript-Abhängigkeit. KI-Crawler sind deutlich restriktiver als Googlebot — Server-Side-Rendering oder statisches HTML für zentrale Inhalte.
- Saubere, differenzierte robots.txt.
- Indexierbarkeit der Kerninhalte, keine Access-Walls oder Layer.
- Schnelle Ladezeiten und Server-Stabilität.
Überschätzt:
- llms.txt — nachweislich wirkungslos.
- Schema.org-Markup als Hauptmaßnahme für LLM-Sichtbarkeit.
- Komplexe Chunking-Strategien — die Wirkung kommt aus guter Struktur, nicht aus Technik.
Crawler-Management: Differenziert vorgehen. Training-Crawler (CCBot, GPTBot im Training-Modus) blockieren, wenn Content nicht als Trainingsdaten dienen soll. Search- und Citation-Crawler (OAI-SearchBot, PerplexityBot, Google-Extended im Search-Modus) sind sichtbarkeitsrelevant — erlauben. Wer alles blockiert, wird in KI-Antworten nicht zitiert.

10. Priorisierte Handlungsliste für B2B

Wenn Sie heute anfangen, in dieser Reihenfolge:
1. Inhalte auf Entscheidungsfragen und Stakeholder-Perspektiven ausrichten. Im B2B ist Thought Leadership der zentrale Hebel.
2. E-E-A-T-Signale explizit und maschinenlesbar machen. Autorität ist der stärkste Einzeleffekt
3. Content auf semantisch geschlossene Einheiten umbauen. Claim-Evidence-Source und Passage-Optimierung sind die Voraussetzung, damit Autorität in KI-Antworten landet.
4. Content-Audit als Fakten-Inventar durchführen. Für jedes geschäftsrelevante Thema: Welche zentralen Fakten, Zahlen, Definitionen sind zitierfähig vorhanden — und welche nicht? Deckt meist 20–50 konkrete Lücken auf.
5. Earned-Media-Initiative starten. Ein fundierter Fachbeitrag in einer autoritativen Publikation bringt im B2B oft mehr GEO-Sichtbarkeit als 50 On-Page-Optimierungen.
6. Monitoring etablieren. 25–50 Prompts, Baseline über 3–4 Systeme mit Mehrfachabfragen und Bildung von Durchschnitten und Trends, monatliche Re-Checks.
7. Autoren- und Entity-Signale pflegen. Klare Autorennennung, Bio mit Credentials, konsistente Pflege in Wikipedia/Wikidata, wo möglich.
8. Ownership und Prozesse verankern. Klarer Accountability-Owner, monatliche GEO-Reviews mit SEO, Content, PR und Produkt.
Was ich zuerst nicht anfassen würde: llms.txt, großflächiges Schema.org-Rollout als GEO-Haupthebel, hochtechnische Chunking-Frameworks.

Fazit: GEO ist eine Qualitätsaufgabe, kein Optimierungstrick

Der unbequemste Teil zuerst: Die tatsächlichen Erfolgstreiber sind unspektakulär. Saubere Topical Authority, belastbare Expertise, Earned Media, solide SEO-Grundlagen. Vieles davon ist kein neuer GEO-Trick, sondern hochwertiges SEO, wie es seit Jahren gemacht werden sollte.

Drei Entwicklungen werden die nächsten 24 Monate prägen — und sind in der aktuellen Debatte deutlich unterrepräsentiert:
- Adversarial GEO. Wenige präparierte Dokumente reichen bereits, um RAG-Systeme messbar zu beeinflussen. Die Branche diskutiert GEO fast ausschließlich als Optimierungsproblem — kaum als Sicherheits- und Reputationsproblem.
- Regulatorischer Druck. Die Landesmedienanstalten Berlin-Brandenburg und Hamburg haben Verwaltungsverfahren gegen Google und Perplexity eingeleitet. Studien belegen Reichweitenverluste bei Content-Anbietern zwischen 10 und 50 Prozent.
- Das Agentic Web. Morgan Stanley erwartet, dass die Hälfte der US-Online-Shopper Agenten nutzen wird. Wer heute über llms.txt diskutiert, hat die Ebene nicht verstanden, auf der sich die Schlacht verlagert.
Für den deutschsprachigen Raum gibt es dabei eine unterschätzte Chance: Hochwertige deutsche Fachinhalte haben Seltenheitswert. Wer fundierten Content auf Deutsch liefert, konkurriert mit deutlich weniger Quellen als im englischsprachigen Raum — bei gleichzeitig hoher Nachfrage.

Wer anfängt, sollte nicht auf das perfekte Tool warten. Ein definiertes Prompt-Set, eine ehrliche Baseline und die Disziplin, die eigenen Top-20-Seiten nach Claim-Evidence-Source umzubauen, bringen innerhalb eines Quartals mehr als jede Hype-Lösung.
22. April 2026
Review der Wix/Peec-Analyse zu LLM-Zitationen & GEO

Ich habe mir angesehen, was man aus der Wix/Peec-Analyse zu LLM-Zitationen wirklich lesen kann – und was nicht

Der Beitrag von Wix über die „most cited content types by LLMs“ ist interessant, weil er einmal nicht nur Meinungen oder Best Practices sammelt, sondern mit einem größeren Datensatz arbeitet: Laut Artikel wurden 75.000 AI-Antworten mit 1.056.727 Zitationen aus ChatGPT, Google AI Mode und Perplexity ausgewertet. Vorab gut zu wissen ist, dass die Daten laut Autor über Peec erhoben wurden und dass er selbst dort als Researcher arbeitet. Das macht den Beitrag nicht unbrauchbar, aber eben zu einer vendorseitigen Auswertung und nicht zu einer unabhängigen wissenschaftlichen Studie.

Was der Datensatz zunächst einmal tatsächlich zeigt, ist ziemlich klar: In diesem Setup entfallen die meisten sichtbaren Zitationen auf Listicles, Articles und Product Pages. Innerhalb der Intent-Klassen verschiebt sich das Bild deutlich: Bei informational Prompts dominieren Articles, bei commercial Prompts Listicles, und bei navigational/local sowie transactional Prompts treten Product- und Category-Pages deutlich stärker hervor. Als deskriptive Beobachtung über genau dieses Sample ist das nützlich und plausibel.

Genau an dieser Stelle beginnt aber die wissenschaftlich wichtige Trennung zwischen Beobachtung und Interpretation. Peec unterscheidet selbst zwischen Sources und Citations: Citations sind nur die URLs, die direkt im Antworttext auftauchen; Sources umfassen auch weitere URLs, die das System genutzt, aber nicht sichtbar zitiert hat. Der Beitrag analysiert hier also nur die sichtbaren Zitationen. Das ist ein valider Messpunkt, aber ich fände es gerade interessant, was zitierte Inhalte von den gelieferten Quellen und diese wiederum von „allen möglichen Quellen“ unterscheidet, denn so kommen wir der Frage „welcher Content-Typ objektiv am besten funktioniert“ nicht unbedingt näher.

Für mich ist deshalb der belastbarste Schluss ein recht nüchterner:

Die Verteilung sichtbarer LLM-Zitationen variiert in diesem Datensatz deutlich nach Prompt-Intent.

Mehr nicht, aber auch nicht weniger.

Man kann also vorsichtig sagen, dass Articles in informational Kontexten häufiger sichtbar zitiert wurden, Listicles in commercial Kontexten und Product- bzw. Category-Pages eher in navigational und transactional Kontexten. Was man daraus noch nicht sauber sagen kann, ist, dass LLMs diese Formate „bevorzugen“ im starken Sinn oder dass genau diese Formate kausal für Sichtbarkeit verantwortlich sind.

Der Artikel geht an mehreren Stellen über diese Evidenz hinaus. Wenn dort etwa steht, Nutzer wollten bei kommerziellen Suchanfragen „structured comparisons and peer opinions“, dann ist das als Hypothese nachvollziehbar — gemessen wurde es hier aber nicht!

Die Auswertung enthält keine Nutzerbefragung, keine Klickdaten, keine Conversion-Daten und keine Verhaltensmaße. Gemessen wurde allein, welche Seitentypen in Antworten sichtbar zitiert wurden. Aus solchen Mustern kann man psychologische Erklärungen ableiten; belegt sind diese Erklärungen dadurch aber nicht.

Dasselbe gilt für starke strategische Aussagen am Ende des Beitrags. Formulierungen wie „Articles build trust but don’t drive decisions“, „optimize for user intent rather than models“ oder „don’t rely on articles“ lesen sich handlungsnah, sind aber durch dieses Studiendesign nicht kausal abgesichert.

Es handelt sich um eine beobachtende Auswertung, nicht um ein kontrolliertes Experiment, in dem identische Inhalte systematisch variiert und deren Effekte getestet wurden. Der Beitrag zeigt Korrelationen in sichtbaren Zitationen, keine Wirkungsnachweise.

Ein weiterer methodischer Punkt wird leicht übersehen: Die Zahl von über einer Million Zitationen klingt (wie bereits bei der 1,2 Millionen Prompts-Studie) nach enormer statistischer Wucht, ist aber nicht automatisch gleichbedeutend mit über einer Million unabhängigen Beobachtungen.

Eine einzelne Antwort kann mehrere Quellen enthalten, und Peec weist selbst darauf hin, dass Sources und Citations unterschiedliche Dinge sind. Wer also Citation-Shares betrachtet, betrachtet keine Query-Shares und auch keine „Gewinner pro Prompt“, sondern Anteile innerhalb eines Zitationsraums. Das ist analytisch relevant, weil sich dadurch die Denominator-Logik ändert.

Man sieht diese Unschärfe schon in den Aufmacherzahlen des Artikels: Dort heißt es, Articles würden bei informational Queries „2.7x more“ zitiert als bei anderen Intents. Schaut man auf die veröffentlichte Tabelle, liegt der Article-Anteil bei informational Prompts bei 45,48 Prozent und overall bei 16,68 Prozent. Der Faktor 2,7 ergibt sich also offenbar aus dem Vergleich mit dem Gesamtwert, nicht mit dem Durchschnitt der anderen drei Intent-Klassen. Das ist kein gravierender Fehler, aber ein gutes Beispiel dafür, warum man Marketing-kompatible Kennzahlen immer gegen die Tabelle selbst lesen sollte.

Auch die Modellvergleiche würde ich vorsichtiger lesen, als der Text es nahelegt. Peec dokumentiert selbst, dass Plattformen bei Quellen und Zitationen unterschiedlich funktionieren: ChatGPT sucht nicht immer im Web, Perplexity zeigt oft viele Sources, aber relativ weniger direkte Citations, und die Quellenauswahl schwankt von Tag zu Tag. Wenn die Produkte bereits unterschiedlich suchen und unterschiedlich zitieren, dann misst ein Modellvergleich eben nicht nur „inhaltliche Präferenzen“, sondern auch Unterschiede im Produktverhalten. Aussagen wie „Perplexity values community opinions“ sind deshalb eher Interpretation als harter Befund.

Eine weitere Einschränkung steckt in den transactional Prompts. Der Autor schreibt selbst, dass transaktionale Anfragen in der Realität oft branded sind, für die Studie aber absichtlich non-branded gehalten wurden. Das ist methodisch nachvollziehbar, weil es den Vergleich sauberer macht. Gleichzeitig entfernt sich das Setup damit gerade in einem besonders handlungsnahen Bereich ein Stück von realem Nutzerverhalten. Wer daraus operative Empfehlungen für Kauf- oder Conversion-Szenarien ableiten will, sollte diese Grenze im Blick behalten.

Interessant, aber ebenfalls nur begrenzt generalisierbar, ist die Passage zu Third-Party-Listicles. Der Beitrag zeigt für das Subset „Professional services, top 1.000 cited URLs“, dass externe Listicles dort deutlich häufiger vorkamen als selbstpromotende. Das ist als Beobachtung für genau dieses Subset völlig okay. Daraus folgt aber noch nicht, dass Third-Party-Listicles allgemein „den Unterschied machen“ oder kausal Sichtbarkeit erzeugen. Dafür wäre ein deutlich enger kontrolliertes Design nötig.

Mein Fazit wäre deshalb dieses:

Der Beitrag ist als explorative Marktanalyse lesenswert, weil er ein plausibles Muster sichtbar macht — nämlich, dass sich die sichtbar zitierten URL-Typen je nach Prompt-Intent stark unterscheiden. Was der Beitrag nicht liefert, ist ein wissenschaftlich belastbarer Nachweis für Nutzerpsychologie, Trust-Effekte, Conversion-Wirkungen oder allgemeingültige Content-Rezepte.

Anders gesagt:

Als Hypothesengenerator ist die Analyse gut. Als Beleg für starke Strategieaussagen ist sie deutlich schwächer.

Wenn man es in einen einzigen sauberen Satz pressen will, würde ich es so formulieren: In einem großen, aber vendorseitigen Datensatz sichtbarer LLM-Zitationen variiert die Verteilung der zitierten Seitentypen deutlich nach Prompt-Intent; alles darüber hinaus ist eher Interpretation als Evidenz.

8. April 2026
„High-Stakes Purchases in AI Mode“ Was man wirklich daraus lesen kann – und was nicht

Der neue Growth-Memo-Beitrag erzählt eine starke Geschichte: AI Mode verdichtet Kaufentscheidungen, Nutzer übernehmen Shortlists, und Marken außerhalb der AI-Liste verlieren Sichtbarkeit. Die empirische Basis dafür ist aber keine große Bevölkerungsstudie, sondern eine remote, unmoderated Think-aloud-Usability-Studie mit 48 US-Teilnehmenden, 185 Aufgaben in vier Kategorien.

Der zugrunde liegende Report wird von Citation Labs, Xofu und Clickstream Solutions veröffentlicht, und die Autoren schreiben selbst, dass die Ergebnisse vor allem als richtungsweisend und nicht als belastbare Bevölkerungsschätzung zu lesen sind.

Wie belastbar ist die zugrundeliegende „Studie“?

Genau so würde ich den Text auch einordnen: als interessante Verhaltensbeobachtung mit echtem Signal, aber nicht als letzten Beweis dafür, wie „der Konsument“ nun grundsätzlich in AI-Interfaces handelt.

Der große Pluspunkt ist, dass hier tatsächliches Verhalten beobachtet wird und nicht nur Selbstauskünfte.

Der große Haken ist: kleines, kuratiertes Sample, Ausschlüsse im Rekrutierungsprozess, stark kontextgebundene Aufgaben und ein deutlich ungleiches Verhältnis von 149 AI-Mode- zu 36 Search-Beobachtungen.

Das ist für explorative UX-Forschung völlig legitim, aber nicht die Grundlage für allzu absolute Marktaussagen.

Was ich für belastbar halte, ist die Grundrichtung des zentralen Befunds: In diesem Setup zieht AI Mode einen Teil der Vergleichsarbeit in die Oberfläche selbst hinein. Viele Teilnehmende blieben im AI-Output, viele klickten gar nichts, und externe Besuche wirkten häufiger wie Bestätigung bereits akzeptierter Kandidaten als wie echte Exploration. Aber gerade bei den harten Prozentwerten wäre ich vorsichtig. Der Report nennt für direkte Übernahme der AI-Shortlist einmal 74 Prozent und später 88 Prozent. Das spricht nicht gegen den Effekt, aber klar gegen die Präzision, mit der er kommuniziert wird.

Relativ stark finde ich auch den Rang-Effekt. Dass der erstgenannte Kandidat überproportional häufig gewählt wird, passt nicht nur zu dieser Studie, sondern auch zu breiter Forschung zu Position Bias in Ranglisten und Empfehlungssystemen. Anders gesagt: Dass der Top-Pick des Systems häufig zum Top-Pick des Nutzers wird, ist psychologisch und informationswissenschaftlich sehr plausibel. Ob es hier exakt 74 Prozent sind, ist weniger wichtig als die Richtung des Effekts.

Auch die These, dass Vertrauen im AI-Modus anders entsteht, halte ich im Kern für plausibel: weniger Triangulation über mehrere Quellen, mehr Wirkung von Formulierung, Struktur und Markenvertrautheit. Dafür gibt es auch Anschluss an bestehende Forschung: Vertrauen in Algorithmen wächst unter anderem mit Vertrautheit, und bei schwierigeren Aufgaben greifen Menschen oft stärker auf algorithmische Hinweise zurück. Nur sollte man die exakte Messung im Report nicht überlesen: An einer Stelle heißt es, AI framing habe in 48 Prozent der AI-Mode-Fälle den Ausschlag gegeben, in der Tabelle selbst stehen 37 Prozent. Auch hier ist die Richtung glaubwürdig, die Feinmessung aber wacklig.

Ebenso ernst nehme ich den Befund, dass Abwesenheit im AI-Set problematisch ist. In den AI-Mode-Daten konzentrierten sich die finalen Entscheidungen je nach Kategorie stark auf wenige Marken, und der Report formuliert ausdrücklich, dass Marken außerhalb der AI-generierten Shortlist oft gar nicht bewertet wurden. Das ist noch kein Naturgesetz des Marktes, aber ein valider Hinweis darauf, dass generative Interfaces Sichtbarkeit stärker in kleine Kandidatensets bündeln können als klassische Suchergebnisseiten.

Was ich daraus nicht machen würde, ist eine große Allgemeinaussage über „den Konsumenten“. Dafür ist die Studie zu klein, zu kuratiert und zu kontextspezifisch. Wir reden über 48 US-Personen, vier Produktkategorien, ein Think-aloud-Setting, monetär incentivierte Teilnahme und eine deutliche Asymmetrie zwischen AI-Mode- und Search-Beobachtungen. Vor allem: Der Report selbst bittet darum, die Prozentwerte nicht als population-level estimates zu lesen. Wer daraus dennoch harte Marktprozente baut, liest mehr hinein, als die Studie sauber hergibt.

Ich würde außerdem keine saubere Kausalbehauptung aus der Prompt-Frage ableiten. Der Report zeigt zwar, dass in AI Mode häufiger natürlichsprachlich formuliert wurde und verbindet das mit stärkerer Delegation. Zugleich steht im Material selbst, dass die Search-Aufgaben nach zwei AI-Mode-Aufgaben stattfanden und diese Reihenfolge das Query-Verhalten beeinflusst haben kann. Das ist ein interessanter Zusammenhang, aber eben kein sauber isolierter Ursache-Wirkungs-Effekt.

Und die Zuspitzung „If you’re not in the list, you don’t exist“ ist mir als Wissenschaftssatz zu hart. Als aufmerksamkeitsstarke Marketing-Formel funktioniert sie, aber sie überzieht den Datenraum. Seriöser wäre: In dieser Studie wurden Marken außerhalb der AI-Shortlist deutlich seltener oder gar nicht aktiv berücksichtigt. Ähnlich vorsichtig wäre ich bei der Versicherungs-These. Dass Teilnehmende dort zum Teil zu viel Vertrauen in formatierte Zahlen legten, ist ein wichtiges Warnsignal – aber es basiert im Report auf 16 kodierten Insurance-Fällen, von denen 10 als overconfident/rash bewertet wurden. Das ist Hypothesengenerierung, noch keine ausbuchstabierte Gesetzmäßigkeit.

Der Punkt ist also nicht, dass der Artikel „falsch“ wäre. Im Gegenteil: Die Richtung seiner Geschichte passt gut zu bekannter Forschung zu Automation Bias, algorithmischer Akzeptanz und Position Bias.

Menschen können algorithmische Hinweise übergewichten, besonders wenn Aufgaben schwierig sind oder wenn die Oberfläche die Vergleichsarbeit schon vorstrukturiert. Zugleich zeigt breitere Forschung, dass Algorithmen in entscheidungsnahen Kontexten durchaus einen anfänglichen Vertrauensvorsprung haben können, dieser aber bei sichtbaren Fehlern auch schnell wieder kippt.

Genau deshalb ist der Report interessant: Er zeigt ein Verhalten, das theoretisch anschlussfähig ist – nur eben noch nicht mit der Präzision, die der Tonfall des Blogposts an manchen Stellen nahelegt.

Meine wissenschaftlich bereinigte Kurzfassung wäre deshalb diese:

In einer kleinen, beobachtungsbasierten Usability-Studie verschob Google AI Mode bei ausgewählten High-Stakes-Kaufaufgaben einen Teil der Vergleichs- und Verifikationsarbeit in die Oberfläche selbst. Nutzer blieben häufiger innerhalb der vom System vorstrukturierten Kandidatenmenge, der erste Rang gewann stark an Gewicht, und externe Besuche dienten eher der Bestätigung als der Exploration. Mehr kann man daraus im Moment guten Gewissens lesen. Alles darüber hinaus – harte Marktprozente, universelle Konsumentenpsychologie oder endgültige SEO-Gesetze – ist vorerst eher Zuspitzung als belastbare Wissenschaft.

7. April 2026
Kevin Indigs Teil 3 zur AI-Visibility: gute Beobachtungen, zu große Schlussfolgerungen

Kevin Indigs dritter Teil seiner „Science of AI“-Reihe ist in einer Hinsicht der bislang stärkste: Er korrigiert genau den Denkfehler, der große Teile der GEO-/AI-SEO-Debatte prägt. Seine beste Aussage lautet nämlich nicht „So schreibt man für AI“, sondern:

Es gibt sehr wahrscheinlich keine universelle Formel.

Laut dem Artikel basiert die Auswertung auf rund 98.000 ChatGPT-Zitationszeilen aus etwa 1,2 Millionen ChatGPT-Antworten über sieben Verticals. Schon dadurch ist die wichtigste Erkenntnis keine magische Taktik, sondern Heterogenität.

Und genau dafür sollte man Kevin ausdrücklich Credit geben. Er macht etwas, das der GEO-Debatte oft fehlt: Er versucht, Behauptungen an Daten zu binden statt an Anekdoten.

Wer die Branche beobachtet, sieht ja vor allem einfache Rezepte: mehr Entities, mehr Headings, mehr Listen, weniger Hedging, mehr Authority, mehr Reddit. Teil 3 ist dort am stärksten, wo er zeigt, dass solche Schemata vertikalübergreifend nicht sauber tragen.

Trotzdem ist der Titel größer als die Evidenzbasis. Der Artikel heißt sinngemäß „what AI actually rewards“, aber der Datensatz misst eben nicht „AI“ im Allgemeinen, sondern ChatGPT-Zitationsverhalten in einem bestimmten Messaufbau.

OpenAI beschreibt ChatGPT Search selbst als System, dessen Ranking auf mehreren Faktoren beruht, ohne Garantie auf Top-Platzierung, und die Release Notes zeigen, dass Search-Qualität und Retrieval-Verhalten laufend angepasst werden. Wissenschaftlich sauber wäre daher eher der Titel: „Welche Merkmale in diesem ChatGPT-Datensatz mit mehr Zitationen assoziiert waren.“

Was an Teil 3 wirklich wertvoll ist

Der wichtigste Verdienst des Artikels ist die Absage an die Universalformel. Dass CRM/SaaS andere Muster zeigt als Finance oder Healthcare, ist keine Kleinigkeit, sondern vermutlich die belastbarste Pointe des gesamten Textes. Wissenschaftlich gesprochen reduziert diese Aufspaltung wenigstens einen Teil des Problems, das entsteht, wenn man heterogene Query- und Seitentypen in einen großen Topf wirft und dann aus dem Aggregat vermeintliche Regeln ableitet.

Für SEOs und GEOs ist genau das die brauchbare Lehre: Nicht „AI will X“, sondern „bestimmte Verticals und Seitentypen scheinen auf bestimmte Formate anders zu reagieren“.

Auch der UGC-Befund ist, bei aller Vorsicht, eher auf der robusteren Seite. Wenn in diesem Datensatz Corporate-/Editorial-Content rund 94,7% der Zitationen ausmacht und UGC nur einen kleinen Anteil, dann ist das als deskriptive Aussage erst einmal interessant – und vermutlich deutlich belastbarer als die feingranularen Aussagen über einzelne Writing-Signale. Das ist vor allem deshalb stärker, weil hier weniger von subtilen Feature-Konstruktionen und viel mehr von einfacher Häufigkeitsverteilung abhängt.

Die vorsichtige Formulierung müsste aber heißen: UGC dominiert in diesem ChatGPT-Datensatz und in diesen sieben Verticals nicht. Nicht: UGC sei generell strategisch irrelevant.

Hinzu kommt: Teil 2 der Reihe hatte bereits gezeigt, dass Zitationen stark von Seitentypen und Themenclustern geprägt sind. Dort heißt es, dass die Top-30-Domains rund 67% der Zitationen in einem Topic vereinen und dass die stärksten „evergreen“ Seiten typischerweise Kategorie-Guides, Vergleiche oder Verzeichnisse sind, die mehrere Query-Intents in einer URL bündeln. Das ist wichtig, weil Teil 3 sehr wahrscheinlich oft genau diese Seitentypen erneut misst – nur diesmal über Stellvertreter wie Heading-Anzahl, Zahlen, Datum oder Intro-Stil.

Was die Daten tatsächlich zeigen – und was nicht

Teil 3 zeigt beobachtete Zusammenhänge. Er zeigt nicht direkt, dass ein einzelner Hebel kausal „von AI belohnt“ wird. Das klingt nach einem semantischen Unterschied, ist aber methodisch zentral. Ein beobachteter Zusammenhang kann durch Confounding, Seitentypen, Intent, Query-Mix, Domain-Templates oder Selektionsmechanismen entstehen. STROBE erinnert genau daran, dass bei Beobachtungsstudien die vollständige Beschreibung von Design, Bias-Risiken und Auswertung entscheidend ist, damit Leserinnen und Leser Stärken und Grenzen überhaupt beurteilen können.

Das sieht man besonders deutlich an den starken Formulierungen im Text: „LLMs penalize hedging“, „KG presence is the wrong lever“, „3-4 headings are worse than zero in every vertical“. Solche Sätze lesen sich wie Kausalmechanismen. Tatsächlich sehen wir aber Korrelationen in einem Messaufbau, der viele Einflussfaktoren nicht explizit kontrolliert. Die ASA weist seit Langem darauf hin, dass statistische Signifikanz oder einzelne Kennzahlen weder Effektgröße noch Evidenzstärke ersetzen; hier liegt das Problem sogar noch vor der Signifikanzfrage: Schon die Übersetzung von Assoziation in Intervention ist zu forsch.

Noch wichtiger: Zumindest für die Heading-Analyse sagt der Artikel explizit, dass die Headings „across all cited URLs“ gezählt wurden. Insgesamt basiert Teil 3 laut Methodik auf Zitationsdaten aus ChatGPT-Antworten. Das heißt: Wir reden sehr wahrscheinlich nicht über ein sauberes Modell „welche Seiten werden überhaupt zitiert vs. nicht zitiert“, sondern häufig über Unterschiede innerhalb eines bereits sichtbaren, bereits selektierten Sets.

BMJ beschreibt genau dieses Problem allgemein: Wenn Analyse oder Design auf einer Variablen konditionieren, die von mehreren Ursachen beeinflusst wird, kann Selection Bias bzw. Collider Bias entstehen. Für die Praxis heißt das: Diese Ergebnisse sagen nicht sauber, was eine Seite aus der Unsichtbarkeit in die Sichtbarkeit hebt. Sie sagen eher, wie sich Merkmale unter bereits zitierten oder bereits im Pool gelandeten Seitentypen verteilen.

Dazu kommt ein zweites, in SEO/GEO besonders relevantes Abhängigkeitsproblem: Domains und Templates sind keine unabhängigen Beobachtungen. Teil 2 sagt selbst, dass die Zitationen stark konzentriert sind und dass bestimmte Seitentypen – Vergleichsseiten, Verzeichnisse, breite Kategorie-Guides – überproportional viel Citation Reach aufbauen. Wenn dieselben starken Domains hunderte URLs mit ähnlicher Informationsarchitektur publizieren, dann können „Page-Level-Signale“ leicht bloß Template-Effekte erfolgreicher Sites sein. Ohne ein hierarchisches Modell mit Domain- und Prompt-Clustering ist es methodisch zu kühn, aus solchen Korrelationen feine operative Regeln abzuleiten.

Die riesige Zahl „1,2 Millionen Antworten“ klingt zwar beeindruckend, löst dieses Problem aber nicht automatisch. Methodische Arbeiten zu LLM-Evaluationen zeigen, dass wiederholte Promptings stark korrelierte Outputs erzeugen können, und dass Ignorieren dieser Abhängigkeiten zu künstlich engen Konfidenzintervallen und zu kleinen p-Werten führt. Gleichzeitig zeigt Forschung zu RAG-Systemen, dass schon kleine Query-Variationen Retrieval-Ergebnisse spürbar verändern können. Große N sind in LLM-Studien deshalb kein Freifahrtschein für unabhängige Evidenz. Entscheidend ist die effektive, nicht nur die nominelle Stichprobengröße.

Die größten methodischen Schwachstellen im Detail

Ein auffälliges Problem ist die Vielzahl möglicher Vergleiche. Teil 3 arbeitet mit mehreren Writing-Signalen, sieben Verticals, zahlreichen Entity-Typen, mehreren Heading-Buckets und zusätzlichen Storylines zu UGC.

Genau in solchen Situationen warnen Gelman und Loken vor dem „garden of forking paths“: Selbst ohne bewusstes p-hacking können forschungslogische Freiheitsgrade und datengetriebene Auswahl zu überstarken Befunden führen.

Das Columbia-Material zur False Discovery Rate macht denselben Punkt aus einer anderen Perspektive: Viele parallele Tests erhöhen das Risiko von Zufallstreffern, wenn man sie nicht sauber kontrolliert. Gerade deswegen sollte man Schwellenwerte wie „3–4 Headings sind überall schlechter als 0“ eher als Hypothese behandeln als als robuste Regel.

Die Heading-Story ist überhaupt ein gutes Beispiel für Überinterpretation. Der Artikel summiert H1, H2 und H3 zu einer Gesamtzahl und gruppiert dann in Buckets wie 0, 1–2, 3–4, 5–9, 10–19, 20–49, 50+. Das erzeugt erzählbare Schwellen, ist aber analytisch grob. Eine Seite mit 1 H1, 8 H2 und 0 H3 ist strukturell etwas ganz anderes als eine Seite mit 1 H1, 2 H2 und 6 H3 – beide können aber in ähnlichen Buckets landen. Dazu kommt die Seitentyp-Konfundierung: In CRM/SaaS kann „20+ Headings“ einfach ein Produktvergleichs- oder Directory-Template bedeuten; in Healthcare kann „0 Headings“ mit knappen, institutionellen, hochvertrauenswürdigen Seiten zusammenfallen. Dann misst man nicht die Wirkung von Headings, sondern den Fingerabdruck eines Seitentyps.

Ähnlich vorsichtig muss man die Entity-Analyse lesen. Der Artikel nutzt Google Cloud Natural Language API auf den ersten 1.000 Zeichen des Textes und leitet daraus Aussagen über ChatGPT-Zitationswahrscheinlichkeit ab.

Das ist als Proxy nicht illegitim, aber es ist eben ein Google-definierter Proxy.

Google dokumentiert, dass Knowledge-Graph-Metadaten wie Wikipedia-URL und MID nur dann erscheinen, wenn sie verfügbar sind, und dass Entity-Mentions derzeit nur Eigennamen unterstützen. Daraus einen Satz wie „KG presence and brand authority do not translate to AI citation advantage“ zu machen, ist deutlich stärker als das Messinstrument hergibt. Gemessen wurde nicht „Brand Authority“, sondern die Verfügbarkeit bestimmter Google-NLP-Metadaten in einem kleinen Anfangsfenster des Textes.

Hinzu kommt eine kleine, aber methodisch interessante Unschärfe im öffentlichen Text: An einer Stelle ist von den ersten 1.000 Wörtern die Rede, später von den ersten 1.000 Zeichen. Vermutlich ist das ein redaktioneller Fehler oder eine Kurzfassung unterschiedlicher Teilanalysen. Aber genau solche Inkonsistenzen zeigen, warum knappe öffentliche Methodenbeschreibungen für harte operative Regeln nicht ausreichen. Wer starke Aussagen verkaufen will, muss starke Replizierbarkeit liefern.

Der DATE/NUMBER-Befund ist praktisch interessant, aber theoretisch deutlich unterbestimmt. Teil 2 hatte schon gezeigt, dass die besten evergreen URLs oft explizite Jahresanker in Titel oder URL tragen und breite Vergleichs- oder Guide-Formate bedienen. Außerdem zeigt klassische Temporal-IR-Forschung, dass Publikationszeit bei zeitsensitiven Queries ein relevanter Teil der Relevanzbewertung sein kann. Es ist also sehr gut möglich, dass DATE nicht deshalb „universell positiv“ ist, weil AI ein Datum als solches liebt, sondern weil bestimmte Query-Klassen und Seitentypen von Frische- und Zeitbezug profitieren. Daraus folgt nicht: Jetzt überall ein Datum reinwerfen. Daraus folgt: In zeit- und faktsensitiven Kontexten sind Frische und temporale Spezifität oft nützlich.

Auch der Befund zu direkten, deklarativen Intros ist nur dann sauber gelesen, wenn man ihn als Heuristik und nicht als Dogma versteht. Ja, ich halte es für plausibel, dass klare erste Sätze helfen. Aber wahrscheinlich nicht, weil „AI Sicherheit statt Vorsicht liebt“, sondern weil klare, dichte, low-noise Formulierungen für Retrieval und Paraphrase leichter anschlussfähig sind. Forschung zu neuronalen Retrievern zeigt, dass diese LLM-generierte bzw. semantisch fokussierte Texte bevorzugen können; andere Arbeiten zeigen, dass RAG-Pipelines schon auf kleine Query-Variationen empfindlich reagieren.

Die operative Konsequenz lautet daher: Sage früh klar, worum es geht. Nicht: Entferne überall epistemische Vorsicht, auch dort, wo sie inhaltlich geboten ist. Gerade in Wissenschaft, Medizin oder Regulierung wäre letzteres eine schlechte Norm.

Was SEOs und GEOs daraus wirklich mitnehmen sollten

Für die Praxis würde ich Kevin Indigs Teil 3 nicht als Sammlung von Rankingfaktoren lesen, sondern als Sammlung von guten Hypothesen für segmentierte Tests.

Die stärkste Einsicht ist nicht „mehr DATE, weniger PRICE, exakt X Headings“, sondern: Seitentyp, Query-Intent, Vertical und Informationsdichte sind wahrscheinlich wichtiger als pauschale AI-Writing-Regeln. Das ist im Kern auch eine Rückkehr zu gutem SEO-Denken – nur eben für eine neue Oberfläche.

Für SEOs heißt das: Testet nicht „funktioniert diese GEO-Regel?“, sondern „für welchen Seitentyp, in welchem Vertical, bei welchem Intent und in welcher Prompt-Klasse funktioniert sie – falls überhaupt?“

Klare Intros, frühe Entitäten, Zahlen, Daten und sichtbare Aktualität können sehr sinnvoll sein, wenn sie die Antwortdichte, Spezifität oder zeitliche Relevanz erhöhen. Kosmetisch eingebaut werden sollten sie aber nicht. Eine dekorative Zahl ist kein Signal. Ein relevantes Faktum ist eines.

Für GEOs ist außerdem wichtig, die Pipeline sauber zu trennen: Crawlability und Inclusion, Retrieval, Citation, Paraphrase. OpenAI sagt selbst, dass ChatGPT Search auf mehreren Faktoren basiert und dass Inclusion zunächst voraussetzt, dass OAI-Searchbot die Seite überhaupt crawlen darf. Teil 3 misst überwiegend Muster im Retrieval-/Citation-Layer. Wer daraus eine vollständige Strategie ableitet, verwechselt einen Pipeline-Abschnitt mit dem Gesamtsystem.

Und nein: Aus dem KG-Befund folgt nicht, dass Marke, Vertrauen und Autorität „der falsche Hebel“ seien. Was der Artikel zeigt, ist viel enger: In diesem Setup korreliert eine höhere Zahl Google-NLP-erkennbarer KG-Metadaten im Intro nicht mit höherer Citation-Breadth. Das ist etwas völlig anderes als der Satz „Brand spielt keine Rolle“. Zumal OpenAI Search explizit von reliable and relevant information spricht.

Die richtige Lesart lautet daher: Spezifität kann in diesem Datensatz sichtbarer gewesen sein als Prominenz. Nicht: Prominenz und Vertrauen sind irrelevant.

Wie man es wissenschaftlich sauberer testen müsste

Eine sauberere Studie würde erstens die Stufen des Problems trennen: nicht nur cited vs. more cited, sondern eligible vs. retrieved vs. cited. Zweitens würde sie keine grobe 3+-Schwelle als Hauptoutcome setzen, sondern Count-Modelle oder Hurdle-Modelle nutzen. Drittens würde sie Domain-, Template- und Prompt-Cluster explizit modellieren. Viertens würde sie Unsicherheiten berichten: Konfidenzintervalle, Sensitivitätsanalysen, FDR-Korrekturen oder gleich eine Multiverse-Analyse. Fünftens – und das wäre der eigentliche Goldstandard – würde sie kontrollierte Rewrite-Experimente auf derselben URL fahren: klare vs. vorsichtige Intros, Datum vs. kein Datum, unterschiedliche Heading-Strukturen, alles bei konstantem Thema, Domain und Seitentyp.

Außerdem müsste man die Zeitdimension ernst nehmen. ChatGPT Search ist kein statisches System; OpenAI dokumentiert laufende Qualitäts- und Retrieval-Updates. Dazu kommt, dass LLM-Ausgaben korreliert und RAG-Systeme query-sensitiv sind. Wer heute ein Muster misst, misst also immer auch eine Momentaufnahme eines Produkts in Bewegung.

Gute GEO-Forschung braucht deshalb Replikationen über Zeitfenster, Modellversionen und Prompt-Sets hinweg – nicht nur große Zahlen in einer einmaligen Auswertung.

Fazit

Mein Fazit zu Teil 3 ist deshalb zweigeteilt. Kevin Indig liegt sehr wahrscheinlich richtig, wenn er einfache GEO-Dogmen angreift und Vertikal-Spezifik betont. Genau dort ist sein Artikel am wertvollsten. Er geht aber zu weit, wenn er aus beobachteten Mustern direkte, quasi-kausale Hebel macht. Für SEOs und GEOs steckt die eigentliche Erkenntnis daher nicht in einer neuen Checkliste, sondern in einer besseren Grundannahme:

Es gibt keine allgemeine AI-Schreibformel. Es gibt kontextspezifische Seitentypen, Retriever-Artefakte, Query-Mixe und Sichtbarkeitsoberflächen, die man nur segmentiert und sauber getestet verstehen kann.

30. März 2026
Update zur „1,2-Millionen“-Studie: Was Teil 2 über ChatGPT-Quellen wirklich zeigt
Update vom 23. März 2026: Kevin Indig hat inzwischen auch den zweiten Teil seiner Reihe veröffentlicht: The science of how AI picks its sources. Und der ist tatsächlich interessant – nicht, weil er alle offenen Fragen löst, sondern weil er die Perspektive verschiebt.

Während Teil 1 vor allem fragte, wo auf einer Seite ChatGPT bevorzugt zitiert, geht es jetzt um eine andere Ebene: Welche Seiten, Domains und URL-Typen kommen überhaupt regelmäßig in den Kandidatenpool? Laut Artikel analysiert Teil 2 „over 21K citations“; in den ausgewiesenen Teilanalysen arbeitet Indig unter anderem mit 21.482 ChatGPT-Citation-Rows für die Konzentrationsanalyse und 42.460 matched citations für die Positionsanalyse.

Teil 2 ist erschienen – und er verschiebt die Debatte

Der wichtigste Punkt zuerst: Teil 2 widerspricht meiner Kritik am ersten Text nicht. Er macht die Arbeit nützlicher, aber nicht automatisch allgemeingültiger. Denn beobachtet werden hier ChatGPT-Zitationen, nicht „KI-Suche“ als Ganzes.

Und wie schon beim ersten Teil gilt: Die große Zahl sorgt für Aufmerksamkeit, die eigentliche Aussagekraft steckt in den kleineren, engeren Teilstichproben.

Genau deshalb bleibt es sinnvoll, das Ganze eher als proprietäre Benchmark denn als wissenschaftliche Letztbegründung zu lesen.

Der eigentliche Fortschritt liegt im Ebenenwechsel.

Sein erster Text war vor allem eine Analyse der Passage-Selection: Warum werden bestimmte Sätze, Absätze oder Blöcke eher zitiert als andere? Teil 2 geht eine Stufe höher und schaut auf Source-Selection: Welche Domains tauchen überhaupt wiederholt auf, welche URL-Typen funktionieren, und wie verteilt sich Zitationssichtbarkeit über Themenräume hinweg? Das ist für GEO extrem relevant, weil damit plötzlich nicht nur Schreibstil und Textstruktur zählen, sondern auch Seitentyp, Query-Breadth und Content-Architektur.

Besonders spannend ist die Frage nach der Marktkonzentration. In der dafür ausgewiesenen Teilstichprobe ziehen die Top-10-Domains 46 Prozent aller Zitationen, die Top 30 sogar 67 Prozent.

Das ist keine kleine Schieflage, sondern ein echter Konzentrationseffekt.

Gleichzeitig variieren die Verticals massiv: Education ist stark konzentriert, Healthcare deutlich offener, CRM/SaaS und HR Tech eher diffus.

Die praktische Konsequenz daraus ist simpel:

Es gibt kein universelles GEO-Playbook. Was in Education funktioniert, kann in Healthcare schon wieder komplett anders aussehen.

Noch interessanter finde ich den URL-Befund: Laut Teil 2 erscheinen im Durchschnitt 67 Prozent der zitierten URLs nur in genau einem Prompt.

Die kleine Spitzengruppe mit echter Wiederholbarkeit sieht dagegen fast immer ähnlich aus: Vergleichsseiten, Category-Level-Guides oder Verzeichnis-/Listing-Seiten, die mehrere benachbarte Nutzerfragen auf einer URL bündeln.

Indig formuliert das ziemlich klar: Die Top-4,8 Prozent der URLs, die in 10 oder mehr Prompt-Kontexten zitiert werden, sind durchgehend Seiten, die „Was ist das?“, „Wer nutzt das?“, „Wie wählt man es aus?“ und „Was kostet es?“ gemeinsam auf einer Adresse beantworten.

Das ist ein wichtiger Shift für GEO:

Nicht nur einzelne Absätze müssen zitierfähig sein – ganze URLs müssen mehrere relevante Intents glaubwürdig abdecken.

Der Front-Loading-Effekt aus Teil 1 wird in Teil 2 bestätigt, aber zugleich präzisiert. Das unterste Seiten-Decile ist für ChatGPT fast totes Land: Je nach Vertical landen dort nur 2,4 bis 4,4 Prozent der Zitationen. Gleichzeitig liegt der eigentliche Peak laut Teil 2 häufig nicht im allerersten Decile, sondern eher im Bereich 10 bis 20 Prozent der Seite.

Der Grund ist plausibel: Die ersten 10 Prozent sind oft Navigation, Überschrift, Intro-Fluff und Boilerplate. Heißt praktisch: Nicht einfach „möglichst ganz oben“, sondern möglichst früh im ersten gehaltvollen Inhaltsblock müssen Definitionen, Zahlen, Vergleiche und klare Aussagen stehen.

Auch die Längenfrage wird durch Teil 2 eher differenzierter als simpler. Der Artikel zeigt zwar grundsätzlich einen positiven Zusammenhang zwischen Seitenlänge und Zitationshäufigkeit, betont aber selbst, dass der Effekt vertikalabhängig ist.

Für sehr kurze Seiten unter 1.000 Wörtern sieht es in allen Verticals schlecht aus. Aber schon bei Finance kippt die Logik teilweise: Dort schneiden kompaktere, autoritative Seiten, Tabellen und regulatorische Zusammenfassungen besser ab als immer längere Guides. In Education, Crypto und Product Analytics hilft Länge stärker; in SaaS zählt Struktur offenbar mehr als reine Wortmasse.

Auch hier ist die Lehre also nicht „mach es länger“, sondern „triff die Formatlogik deines Themas“.

Was in Teil 2 weiterhin fehlt, ist eine echte Trennung zwischen Retrieval, Auswahl und Zitat.

Genau da hilft die ergänzende AirOps-Analyse vom 12. März 2026 weiter. Sie basiert auf 15.000 Originalprompts, 43.233 Original- plus Fan-out-Queries und 548.534 abgerufenen Seiten. Das Ergebnis ist ziemlich ernüchternd: 85 Prozent der von ChatGPT abgerufenen Seiten werden nie zitiert. Auf 89,6 Prozent der Suchen erzeugt ChatGPT zwei oder mehr Fan-out-Queries, und 32,9 Prozent der zitierten Seiten, die überhaupt in Top-20-SERPs auftauchen, wurden ausschließlich über solche Fan-out-Suchen sichtbar.

Übersetzt: Gute Copy allein reicht nicht. Wer gar nicht erst im erweiterten Recherchepfad auftaucht, kann noch so schön formulieren – zitiert wird er trotzdem nicht.

Genau deshalb ist Teil 2 für die Praxis wertvoller als Teil 1 allein. Er zeigt, dass GEO auf mindestens drei Ebenen stattfindet: Passage, URL und Themenraum.
1. Auf Passage-Ebene bleiben die alten Regeln gültig: Klarheit, frühe Platzierung, hohe Entitätsdichte, konkrete Aussagen.
2. Auf URL-Ebene gewinnen Seiten, die mehrere benachbarte Fragen strukturiert bündeln.
3. Und auf Themenraum-Ebene entscheidet die Marktstruktur darüber, ob du in einem offenen Feld spielst oder gegen eine Handvoll bereits zementierter Gewinner antreten musst.
Diese drei Ebenen gehören zusammen. Wer nur schöner schreibt, verliert. Wer nur breiter clustert, aber keine zitierfähigen Passagen liefert, ebenfalls.

Trotzdem bleibt methodische Vorsicht angebracht. Der frei zugängliche Text des zweiten Teils enthält selbst kleine definitorische Stolperstellen: Eine Überschrift spricht davon, dass 58 Prozent der zitierten URLs nur einmal auftauchen, im Ergebnisteil stehen dann 67 Prozent. Außerdem springt die Längenpassage zwischen Wörtern und Zeichen.

Das sind keine vernichtenden Einwände, aber sie sind ein guter Reminder: Wir lesen hier keine peer-reviewte Grundlagenforschung, sondern eine nützliche, proprietäre Branchenanalyse. Und genau so sollte man sie auch behandeln.

Mein Fazit nach Veröffentlichung von Teil 2

Die ursprüngliche Kernthese bleibt richtig, wird aber breiter.

Ja, ChatGPT bevorzugt klare, frontgeladene und gut strukturierte Inhalte. Aber Sichtbarkeit in KI-Antworten entsteht nicht nur auf Satzebene.

Sie entsteht auch auf der Ebene von Seitentypen, Query-Clustern und ganzen Themenarchitekturen.

GEO ist damit weder bloß „schreib sauberer“ noch bloß „bau Pillar Pages“.

Es ist die Verbindung aus zitierfähiger Passage, intelligenter URL-Architektur und strategischer Themenabdeckung.

Methodische Einordnung: Was ist Teil 2 wissenschaftlich wert?

Weil ich den ersten Teil ausführlich methodisch zerlegt habe, ist es nur fair, auch Teil 2 nach denselben Maßstäben einzuordnen. Und das Ergebnis ist differenzierter, als ein einfaches Daumen-hoch oder -runter vermuten lässt.

Am treffendsten ist Teil 2 als explorative, nicht-experimentelle Beobachtungsanalyse mit proprietärer Datenbasis einzuordnen.

Der Text erscheint als Growth-Memo-Beitrag, nicht als Fachpublikation. Im Methodikteil beschreibt Indig rund 98.000 ChatGPT-Citation-Rows aus etwa 1,2 Millionen ChatGPT-Antworten über sieben Verticals. Die einzelnen Kernaussagen operieren aber mit ganz unterschiedlichen Teilstichproben: 21.482 Citation-Rows und 670 Domains für die Konzentrationsanalyse, 42.460 matched citations für die Positionsauswertung, 2.344 URLs und 127 Prompts an anderer Stelle. Als Analyseverfahren kommen unter anderem Structural Parsing, Jaccard-Sliding-Window-Similarity für die Positionszuordnung sowie Entity- und Sentiment-Extraktion per Google Natural Language API und TextBlob zum Einsatz.

Was gut dokumentiert ist – und was nicht

Für die Einordnung eignet sich die STROBE-Leitlinie als Maßstab. Wichtig: STROBE ist kein Gütesiegel für Methodenqualität, sondern ein Standard dafür, was Leserinnen und Leser über Design, Variablen, Bias, Studiengröße, statistische Methoden und Limitationen erfahren sollten.

Nach diesem Maßstab ist Teil 2 besser dokumentiert als viele reine SEO-Meinungsstücke – aber er bleibt deutlich unter dem Niveau einer voll transparent berichteten Beobachtungsstudie.

Was da ist: Datengröße, Verticals, einzelne Analyseverfahren.

Was fehlt: Der Sampling-Frame der Prompts, Ein- und Ausschlussregeln, der genaue Erhebungszeitraum, systematische Bias-Adressierung, Sensitivitätsanalysen und Präzisionsmaße.

Das Reproduzierbarkeitsproblem

Die größte methodische Schwäche betrifft die unabhängige Prüfbarkeit. Die National Academies unterscheiden zwischen direkter rechnerischer Reproduzierbarkeit und indirekter Transparenzprüfung – und betonen, dass Reproduktionen oft schon an zu wenig Detail zu Daten, Code und Workflow scheitern.

Im Fall von Teil 2 werden weder Rohdaten noch Code offengelegt. Die zugrunde liegende Datenbasis stammt aus Gauge, einer proprietären Plattform.

Eine unabhängige Reproduktion der Ergebnisse ist für Dritte damit derzeit praktisch nicht möglich.

Korrelation, nicht Kausalität

Beobachtungsstudien sind nicht randomisiert und deshalb grundsätzlich anfällig für Confounding. Ohne explizite Adjustierungen lassen sich aus ihnen primär Assoziationen ableiten, keine belastbaren Ursache-Wirkung-Aussagen.

Teil 2 berichtet zwar Unterschiede nach Seitenlänge, URL-Typ und Position auf der Seite – aber keine multivariaten Adjustierungen, Konfidenzintervalle oder Robustheitsanalysen. Aussagen wie ein angeblicher „citation advantage“ ab einer bestimmten Textlänge sollte man deshalb als deskriptive Korrelationen in diesem Datensatz lesen, nicht als Nachweis einer isolierten kausalen Wirkung von Textlänge.

Externe Validität: gemischt

Positiv ist, dass die Analyse sieben Verticals separat betrachtet – ausdrücklich, um themenspezifische Muster nicht in einer Gesamtauswertung zu verwischen. Gleichzeitig bleibt der Geltungsbereich eng: Untersucht werden ChatGPT-Zitationen aus einer proprietären Gauge-Datenbasis, nicht mehrere Modelle unter identischen Bedingungen und auch nicht „KI-Suche“ im Allgemeinen.

Die Ergebnisse sind am überzeugendsten als ChatGPT-nahe Marktbeobachtung und als Hypothesengenerator zu lesen – nicht als universelles Gesetz darüber, wie „AI“ allgemein Quellen auswählt.

Ein Wort zur Unabhängigkeit

STROBE verlangt ausdrücklich Angaben zur Finanzierung und zur Rolle der Geldgeber. Im Beitrag wird Gauge als Datenquelle genannt; zugleich enthält derselbe Abschnitt eine Rabattaktion für Growth-Memo-Abonnenten auf Gauge. Das beweist keinen Fehler in den Ergebnissen – aber es erhöht aus wissenschaftlicher Sicht den Bedarf an sauberer Offenlegung, externer Validierung und unabhängigen Replikationen.

Mein nüchternes Urteil

Teil 2 ist keine „Studie“ im starken Sinn eines transparent reproduzierbaren Fachartikels. Er ist eine explorative, proprietäre Beobachtungsanalyse mit hohem Praxiswert und begrenzter Beweiskraft.

Stark genug, um Hypothesen zu generieren, Muster sichtbar zu machen und operative Benchmarks für GEO zu liefern. Für robuste kausale Aussagen oder allgemein verbindliche Regeln wären offenere Daten, vollständigeres Reporting, Unsicherheitsmaße, Sensitivitätsanalysen und unabhängige Replikationen notwendig.
24. März 2026
KI-Software ist wie ein Filmset

Die Euphorie rund um KI in der Softwareentwicklung speist sich oft aus einer Beobachtung, die zunächst absolut plausibel wirkt: Die Ergebnisse sehen erstaunlich gut aus. In erstaunlich kurzer Zeit entstehen Benutzeroberflächen, kleine Tools, Prototypen, sogar komplette Anwendungen. Von außen betrachtet wirkt das fast magisch.

Das Problem ist nur: Von außen betrachtet sieht auch ein Filmset beeindruckend aus.

Von der Straße aus ist alles da. Die Fassaden sind sauber gebaut, der Saloon sieht aus wie ein echter Saloon, die Stadt wirkt glaubwürdig, die Welt scheint vollständig. Solange die Kamera in die richtige Richtung zeigt, funktioniert die Illusion perfekt. Genau deshalb ist ein Filmset erfolgreich: Es sieht vollständig aus, obwohl es das oft gar nicht ist.

Und genau so fühlt sich heute viel KI-generierte Software an.

Die Fassade steht schneller als das Gebäude

Für klar definierte Prozesse funktioniert KI bereits erstaunlich zuverlässig. Wenn genau bekannt ist, was hineingeht, was herauskommen soll und wie Qualität geprüft wird, dann kann man mit gutem Prompting, Guard Rails und sauberer Evaluierung sehr viel absichern. In solchen Fällen bewegt man sich in einem begrenzten System. Die Möglichkeiten sind überschaubar, die Erwartungen klar, die Fehlerfälle bekannt.

Softwareentwicklung ist aber oft das Gegenteil davon.

Vor allem dann, wenn Menschen ohne Entwicklungserfahrung Software “einfach mal mit KI bauen” wollen, fehlt genau das, was Software braucht: eine präzise Beschreibung des Soll-Zustands. Nicht nur der Oberfläche, sondern des Verhaltens. Nicht nur dessen, was sichtbar ist, sondern auch dessen, was im Hintergrund passieren muss. Nicht nur des Happy Paths, sondern auch der Ausnahmen, Randfälle, Abhängigkeiten und Konsequenzen.

Die KI kann dann zwar schnell eine überzeugende Fassade erzeugen. Aber eine Fassade ist noch kein Gebäude.

Der Saloon ist fertig. Aber wo sind die Toiletten?

Man bittet die KI vielleicht, einen Saloon zu bauen. Und der Saloon sieht fantastisch aus. Türen, Theke, Fensterläden, Schwingtüren — alles da. Für die erste Szene reicht das auch. Die Kamera läuft, das Bild stimmt, alle sind begeistert.

Dann kommt die nächste Szene.

Jetzt muss jemand durch eine Seitentür nach hinten gehen. Dahinter ist aber noch nichts. Also baut man schnell einen Nebenraum. In der nächsten Szene braucht man eine Treppe. Dann ein Büro. Dann eine Küche. Dann Toiletten. Dann einen Hinterausgang. Dann einen Flur, der logisch mit dem Rest verbunden sein muss. Dann stellt sich heraus, dass die Fenster von außen an einer Stelle sitzen, an der innen eigentlich gar kein Raum sein kann. Dann passt der Grundriss nicht mehr. Dann kollidiert die neue Treppe mit dem Raum, der in der vorigen Szene improvisiert wurde.

Was am Anfang wie ein fertiger Ort wirkte, entpuppt sich Schritt für Schritt als Ansammlung plausibler Kulissen.

Genau das passiert bei KI-generierter Software.

Ein Screen sieht fertig aus. Ein Formular funktioniert. Ein Button tut irgendetwas. Ein Workflow ist angedeutet. Aber sobald man tiefer hineingeht, zeigt sich, dass vieles nur für den Moment, für den sichtbaren Ausschnitt oder für den wahrscheinlichsten Fall gebaut wurde. Nicht aus Bosheit. Nicht, weil die KI “schlecht” wäre. Sondern weil sie die Lücken füllen musste — und zwar mit dem, was plausibel klingt, nicht mit dem, was fachlich zwingend richtig ist.

Es gibt nur zwei Wege

Wenn man mit KI belastbare Software bauen will, gibt es im Grunde zwei Wege:

Der erste Weg ist, vorab so etwas wie ein Drehbuch zu schreiben. Nicht nur eine Idee, sondern eine echte Spezifikation. Welche Szenen gibt es? Welche Räume werden benötigt? Wie müssen sie zusammenhängen? Wie verhält sich jede Komponente? Welche Datenflüsse existieren? Welche Zustände darf es geben, welche nicht? Was passiert bei Fehlern? Welche Regeln gelten fachlich, technisch und rechtlich?

Je besser dieses Drehbuch ist, desto eher kann die KI etwas erzeugen, das nicht nur gut aussieht, sondern auch zusammenpasst.

Der zweite Weg ist, während des Drehs permanent weiterzubauen. Man geht von Szene zu Szene, von Anforderung zu Anforderung, und gestaltet jeden Ort genau in dem Moment aus, in dem er gebraucht wird. Auch das kann funktionieren — aber nur, wenn jemand am Set den Überblick behält. Jemand, der erkennt, wenn sich Widersprüche einschleichen. Jemand, der weiß, welche improvisierte Entscheidung später Probleme verursacht. Jemand, der nicht nur bewertet, ob die Kulisse überzeugend aussieht, sondern ob sie im Gesamtsystem tragfähig ist.

Ohne diese Rolle entsteht sehr schnell ein Dorf voller schöner Fassaden, die aus jedem Blickwinkel glaubwürdig wirken sollen, aber strukturell nie als Ganzes gedacht wurden.

Wenn man nicht spezifiziert, entscheidet die KI

Sobald Anforderungen nicht klar formuliert sind, werden Entscheidungen delegiert. Nicht bewusst, aber faktisch.

Dann entscheidet die KI, was sie weglässt.
Dann entscheidet sie, was nur angedeutet wird.
Dann entscheidet sie, welche von mehreren möglichen fachlichen Interpretationen sie auswählt.
Dann entscheidet sie, welche Vereinfachung „wahrscheinlich schon reicht”.

Manchmal baut sie Fakes. Dinge, die so aussehen, als seien sie vorhanden, aber in Wahrheit nur Attrappen sind. Ein Button ohne belastbare Logik dahinter. Eine Validierung, die nur offensichtliche Fälle abdeckt. Eine Datenstruktur, die für die Demo genügt, aber nicht für den Betrieb. Ein Login, das irgendwie funktioniert, aber sicherheitstechnisch unzureichend ist. Eine Integration, die auf dem Happy Path beeindruckt und beim ersten Sonderfall scheitert.

Und genau hier liegt der Unterschied zu generativer Bildproduktion.

Wenn auf einem KI-generierten Bild im Hintergrund das falsche Auto steht, ist das oft egal. Vielleicht fällt es niemandem auf. Vielleicht stört es die Aussage des Bildes überhaupt nicht. Es ist Dekoration.

In Software gibt es aber fast keine echte Dekoration.

Wenn etwas sichtbar ist, hat es in der Regel einen Zweck. Wenn etwas passiert, hat es eine Folge. Wenn ein Feld existiert, muss klar sein, warum. Wenn ein Button da ist, muss er eindeutig definiert sein. Wenn Daten gespeichert werden, muss präzise feststehen, was sie bedeuten, woher sie kommen, wohin sie gehen und was mit ihnen geschehen darf.

Software ist kein stimmungsvolles Bild. Software ist eine Maschine mit Absicht.

KI ist kein Ersatz für Definition

Das heißt nicht, dass KI für Softwareentwicklung ungeeignet wäre. Im Gegenteil. Sie ist ein enormes Werkzeug. Sie beschleunigt. Sie hilft beim Strukturieren, Formulieren, Prototypisieren, Testen, Dokumentieren und Implementieren. In den Händen erfahrener Entwicklerinnen und Entwickler ist sie oft ein massiver Produktivitätshebel.

Aber sie ersetzt nicht die Notwendigkeit, Systeme zu verstehen und Entscheidungen bewusst zu treffen.

Wer nicht weiß, was gebaut werden soll, kann mit KI sehr schnell etwas bauen, das so aussieht, als wüsste man es.

Und genau das macht die Sache so tückisch.

Denn die größte Stärke der KI ist im Moment oft ihre Fähigkeit, Vollständigkeit zu simulieren. Sie erzeugt Kohärenz an der Oberfläche. Sie produziert plausible Antworten, plausible Strukturen, plausible Interfaces. Aber Plausibilität ist in Software nicht dasselbe wie Korrektheit. Und ein überzeugender Eindruck ist noch keine tragfähige Architektur.

Die eigentliche Frage ist nicht: Kann die KI das bauen?

Die eigentliche Frage lautet: Wer verantwortet die unsichtbaren Teile?

Wer denkt an die Räume hinter den Fassaden?
Wer prüft, ob der Grundriss noch stimmt?
Wer stellt sicher, dass die Türen wirklich irgendwohin führen?
Wer merkt, wenn ein Fenster nach außen zeigt, hinter dem innen gar kein Raum existieren kann?

Solange die Antwort darauf niemand geben kann, ist KI-generierte Software oft genau das: ein beeindruckendes Filmset.

Von vorne sieht alles echt aus.
Aber sobald man hineingeht, merkt man, dass die eigentliche Bauarbeit erst beginnt.

20. März 2026
Googles neues Patent: KI-Zwischenseiten statt eurer Landing Pages?
Was US12536233B1 für SEO und GEO bedeutet – und warum vor allem der E-Commerce aufpassen sollte.

Am 27. Januar 2026 hat das USPTO Google das Patent US12536233B1 erteilt – Titel: „AI-generated content page tailored to a specific user.“ Die europäische Fassung EP4685671A1 ist veröffentlicht, aber noch anhängig. Klingt erstmal nach einem weiteren Google-Patent, von denen es Tausende gibt. Aber dieses hier ist anders: Es beschreibt einen konkreten Mechanismus, mit dem Google eure Landing Pages bewerten und im Zweifelsfall durch eine eigene, KI-generierte Seite ergänzen – oder ersetzen – könnte. Und es passt verdächtig gut zu dem, was Google gerade tatsächlich baut.

Was das Patent im Kern schützt

Rechtlich zählt bei Patenten immer der Anspruchstext, nicht der Titel. Und der Hauptanspruch (Claim 1) deckt einen überraschend konkreten Ablauf ab:
1. Google empfängt eine Suchanfrage.
2. Google erzeugt eine normale Suchergebnisseite mit einem Ergebnis, das auf die Landing Page einer Organisation verweist.
3. Google berechnet einen Landing Page Score für diese Zielseite.
4. Überschreitet der Score einen Schwellenwert, erzeugt Google eine aktualisierte Ergebnisseite – und diese enthält einen Navigationslink zu einer KI-generierten Seite für diese Organisation.
5. Die aktualisierte Ergebnisseite wird dem Nutzer angezeigt.
Erst der abhängige Anspruch 2 ergänzt die Personalisierung: Kontextinformationen des Nutzerkontos, frühere Suchanfragen, Verarbeitung durch ein Machine-Learned Model. Der Hauptanspruch selbst braucht die Personalisierung also noch gar nicht – er braucht nur das Landing-Page-Scoring plus den KI-Seitenlink.

Das ist eine wichtige Unterscheidung: Das Patent gilt nicht pauschal für „jede KI-Suche“. Es gilt für genau diese Kombination aus Qualitätsbewertung einer bestehenden Seite und dem Einfügen eines Alternativlinks zu einer von Google generierten Seite.

Was der Landing Page Score misst

Das Patent ist erstaunlich konkret, wenn es um die Signale für den Landing Page Score geht. Genannt werden:
- Conversion Rate der Landing Page (Claim 7)
- Bounce Rate (Claim 8)
- Click-Through-Rate (Claim 9)
- Qualitative Faktoren: Page Design Quality und Content Quality (Claim 10)
- Performance-Metriken allgemein (Claim 16)
- Explizit als Beispiel: Eine Landing Page, die keine Produktfilter hat (Claim 13)
Für SEOs und GEOs heißt das: Google denkt hier offensichtlich nicht über die klassische Content-Qualität à la E-E-A-T nach. Es geht um UX-Signale, Conversion-Signale, Interface-Qualität. Das Fehlen von Produktfiltern als explizites Beispiel zeigt, wie konkret das auf E-Commerce-Seiten zielt.

Was auf der KI-Seite passiert

Die abhängigen Ansprüche und die Beschreibung zeichnen ein ziemlich detailliertes Bild der KI-generierten Seite:
- CTA-Button zur Produktseite (Claim 3)
- Produktfeed mit Produktübersicht (Claim 4)
- KI-Chatbot (Claim 5)
- Dynamisch annotierte Inhalte basierend auf der Suchanfrage (Claim 6)
- Personalisierte Headlines, vorgeschlagene Filter und Cluster (Claim 11)
- Sitelinks zu Produktdetailseiten (Claim 15)
- Informationen über frühere Suchanfragen des Nutzers (Claim 14)
- Die Möglichkeit, den Link in einem Sponsored Content Item unterzubringen (Claim 12)
Das Beispiel im Patent ist eine Laptop-Kaufreise: Der Nutzer hat vorher nach „best laptop for architecture“ und „best laptop for 3D modeling“ gesucht. Die KI-Seite nutzt diese Historie, um eine maßgeschneiderte Übersichtsseite zu generieren – mit den richtigen Filtern, den richtigen Produkten, den richtigen CTAs.

Warum das ein Shopping-Patent ist, kein Wissens-Patent

Wer die Beschreibung liest, merkt schnell: Hier geht es nicht um Wikipedia-Wissen oder informationelle Suchen. Es geht um Transaktionen. Die Patentbeschreibung spricht von schnelleren Kaufentscheidungen, besseren Conversion-Metriken und generativen KI-Funktionen, die Anbietern ohne eigenen Entwicklungsaufwand zur Verfügung stehen.

Das Laptop-Beispiel unterstreicht das. Die „previous queries“ im Patent sind keine Wissensanfragen – es sind Produktrecherche-Schritte in einem klassischen Shopping-Funnel. Und die Features der KI-Seite (Produktfeed, CTA, Chatbot, Filter) sind E-Commerce-Features, keine Content-Features.

Wie das zu Googles aktuellem Kurs passt

Und jetzt wird es interessant. Denn dieses Patent steht nicht im luftleeren Raum – es passt fast unheimlich gut zu dem, was Google in den letzten Monaten an konkreten Produkten gebaut und angekündigt hat.

AI Mode und Personal Intelligence

Google beschreibt AI Mode als durchgängige KI-Suche mit Follow-up-Fragen und Web-Links. Im Mai 2025 bei Google I/O angekündigt, ist AI Mode inzwischen für alle US-Nutzer verfügbar. Google hat mehrfach betont, dass Funktionen aus AI Mode langfristig in die Kernsuche wandern können.

Seit Januar 2026 gibt es dazu Personal Intelligence – zunächst in der Gemini-App, dann auch in AI Mode in Google Search. Opt-in verbindet Gmail und Google Photos mit der Suche, sodass AI Mode auf Buchungsbestätigungen, Kaufhistorie und persönliche Kontexte zugreifen kann. Google bewirbt explizit Shopping-Szenarien: Markenvorlieben aus vergangenen Käufen, Reiseziel aus der Gmail-Flugbestätigung, passende Produktvorschläge.

Wenn man das mit dem Patent zusammendenkt: Personal Intelligence liefert genau die „contextual information associated with the user account“ und „previous queries“, die Claim 2 des Patents beschreibt. Die technische Infrastruktur für personalisierte KI-Zwischenseiten wird gerade in Echtzeit ausgerollt.

Agentic Commerce: UCP, Business Agent, Direct Offers

Im Januar 2026 hat Google auf der NRF eine Welle von Commerce-Produkten angekündigt, die alle in dieselbe Richtung zeigen:

Universal Commerce Protocol (UCP) ist ein offener Standard für „agentic commerce“, mitentwickelt mit Shopify, Etsy, Wayfair, Target und Walmart. UCP-basierter Checkout ist bereits live – US-Nutzer können Produkte von Etsy und Wayfair direkt in AI Mode und der Gemini-App kaufen, ohne Google zu verlassen.

Business Agent bringt markeneigene KI-Chats direkt in die Google-Suchergebnisse. Marken wie Lowe’s, Michaels und Reebok sind seit Januar 2026 live. In Zukunft sollen Marken den Agenten mit eigenen Daten trainieren und Käufe direkt im Chat ermöglichen können.

Direct Offers ermöglicht Advertisern, exklusive Rabatte und Angebote innerhalb von AI Mode anzuzeigen – als „Sponsored Deal“ direkt bei den Produktempfehlungen.

Und seit Februar 2026 testet Google neue Shopping-Anzeigenformate in AI Mode, die bei Produktempfehlungen in KI-Antworten als Sponsored-Ergebnisse eingeblendet werden. AI Mode hat inzwischen über 75 Millionen tägliche Nutzer.

Das Gesamtbild

Einzeln betrachtet sind das Feature-Updates. Zusammen betrachtet ist es eine systematische Strategie: Google hält Discovery, Vergleich, Beratung, Angebot und Kauf immer länger auf eigenen KI-Oberflächen. Das Patent US12536233B1 sieht aus wie die juristische Absicherung für genau diese Richtung.

Was das für SEO und GEO konkret bedeutet

Landing Page Quality wird zum harten Ranking-Faktor – anders als bisher

Bisher war „Landing Page Quality“ primär ein Google-Ads-Konzept (Quality Score). Dieses Patent zeigt, dass Google die gleiche Logik auf organische Ergebnisse anwenden könnte: Wenn eure Seite schlecht konvertiert, schlecht designed ist oder keine Produktfilter hat, könnte Google eine KI-Alternative davorschalten.

Handlungsempfehlung: Investiert in Merchant-Center-Daten und die neuen Datenattribute, die Google für die „conversational commerce era“ angekündigt hat: Antworten auf häufige Produktfragen, kompatibles Zubehör, Substitute.

GEO muss Shopping-Szenarien abdecken

Für GEO-Strategien heißt das: Wer bisher nur an informationelle Queries und AI Overviews gedacht hat, muss umdenken. Wenn Google personalisierte KI-Seiten für transaktionale Queries baut, wird die Frage „Wie erscheint mein Produkt in der KI-Antwort?“ mindestens so wichtig wie „Wie ranke ich auf Position 1?“.

Handlungsempfehlung: Erweitert euer GEO-Framework um transaktionale und kommerzielle Queries. Analysiert, bei welchen Shopping-Anfragen Google bereits AI-Mode-Ergebnisse mit Produktempfehlungen zeigt. Stellt sicher, dass eure Marke und eure Produkte in diesen KI-Antworten vorkommen.

Die Rolle der eigenen Website verändert sich

Das Patent beschreibt keine Abschaffung von Websites – der Hauptanspruch spricht von einem Navigationslink, nicht von einem Ersatz. Aber die eigene Website wird potenziell zur zweiten Station statt zur ersten. Der Erstkontakt könnte auf Googles KI-Seite stattfinden. Wenn ihr Glück habt, klickt der Nutzer dann auf den CTA zu eurer Produktseite. Wenn nicht, hat Google vielleicht schon einen UCP-Checkout angeboten.

Handlungsempfehlung: Überlegt, welchen einzigartigen Wert eure Website bietet, den eine KI-generierte Seite nicht replizieren kann. Eigene Beratungsinhalte, Community, exklusive Angebote, Kundenbindungsprogramme – alles, was über eine Produktliste hinausgeht.

Sponsored Placement bekommt eine neue Dimension

Claim 12 des Patents sagt explizit: Der Navigationslink zur KI-Seite kann in einem Sponsored Content Item platziert werden. Das bedeutet, dass die KI-Zwischenseite nicht nur organisch auftauchen könnte, sondern auch als Werbeformat. Für Advertiser eröffnet das die Möglichkeit, eine von Google optimierte, personalisierte Landingpage als Alternative zur eigenen Seite zu schalten.

Handlungsempfehlung: Beobachtet, ob Google dieses Format in die Google-Ads-Produktlinie integriert. Frühzeitige Adoption könnte sich lohnen, ähnlich wie bei Performance Max oder den neuen Direct Offers.

Was ich daraus nicht ableiten würde

Es gibt auch die Lesart, dass Google mit diesem Patent jede normale Website komplett ersetzen will. Die halte ich für überzogen – aus mehreren Gründen:

Erstens: Der erteilte Hauptanspruch spricht wörtlich von einer aktualisierten Ergebnisseite mit einem Link zu einer KI-Seite. Die aggressiveren Varianten – Sponsored Placement, Produktfeed, Chatbot – stehen in abhängigen Ansprüchen oder in der Beschreibung, die den Schutzumfang nicht erweitern.

Zweitens: Google baut AI Mode offiziell weiterhin mit Verweisen ins offene Web. Die Web-Links in AI-Antworten sind ein Kernfeature, kein Auslaufmodell.

Drittens: Nicht jedes erteilte Patent wird auch umgesetzt. Google hält Tausende Patente, die nie zu Produkten werden.

Und viertens: Die Beschreibung selbst betont, dass die KI-Seiten auch für andere Organisationen wiederverwendet und für zukünftige Suchen genutzt werden können. Das klingt nach einem Mehrwert-Layer, nicht nach einem Ersatz-Layer.

Fazit: Jetzt handeln, nicht in Panik verfallen

Das Patent US12536233B1 ist kein Beweis dafür, dass Google morgen eure Website abschaltet. Aber es ist ein sehr konkretes Signal dafür, wohin die Reise geht: personalisierte KI-Zwischenseiten im Such-, Shopping- und Anzeigenkontext, die schwache Landing Pages durch besser monetarisierbare Google-Oberflächen ergänzen oder teilweise verdrängen.

Zusammen mit AI Mode, Personal Intelligence, UCP-Checkout, Business Agent und Direct Offers ergibt sich ein kohärentes Bild: Google will den gesamten Kaufprozess – von der Entdeckung über den Vergleich bis zum Checkout – auf eigenen KI-Oberflächen abbilden.

Für SEOs und GEOs heißt das nicht, dass eure Arbeit irrelevant wird. Es heißt, dass sie sich verschiebt: weg von „Traffic auf meine Seite bekommen“ hin zu „In Googles KI-Oberflächen sichtbar, relevant und kaufbar sein“. Wer das versteht und jetzt handelt, hat einen echten Vorsprung.

Dieser Beitrag basiert auf einer Analyse des erteilten US-Patents US12536233B1 (Google LLC, erteilt am 27.01.2026) sowie öffentlich zugänglicher Produktankündigungen von Google aus Januar und Februar 2026.
13. März 2026
Der „meistverkaufte Backlink 2025“: Eine Analyse, die den Hype nicht überlebt
Es gibt in der SEO-Welt eine bewährte Dramaturgie: Eine mysteriöse Domain taucht auf, jemand mit großer Reichweite verkündet, sie sei der heilige Gral des Linkbuildings – und der Marktplatz dahinter verkauft. Diesen Frühling machte ein solcher Case die Runde. Angeblich: DR 91, höhere Autorität als Spiegel, Focus und WiWo. Angeblich: „massiver Sprung im Domain Rating nach wenigen Tagen.“ Angeblich: Rankings, die sich spürbar verbessern.

Ich habe nachgeschaut. Das Ergebnis war ernüchternd – aber nicht überraschend.

Was so verlockend klingt

Die beworbene Domain – nennen wir sie einfach wie sie ist: disclaimer.de – hat tatsächlich ein beachtliches Domain Rating. Auf dem Papier beeindruckend. Genau der Wert, den Linkbroker-Marktplätze gerne fett in ihre Angebote schreiben, weil er sich gut anfühlt und schlecht zu widerlegen ist, zumindest für alle, die nicht tiefer schauen.

Das Argument klingt in etwa so: „Thematische Relevanz ist zwar wichtig – aber wenn die Autorität hoch genug ist, schlägt sie alles.“ Ein schöner Satz. Er hat nur ein Problem: Er ist empirisch kaum haltbar, sobald man ihn ernst nimmt und anfängt zu messen.

Was die Daten tatsächlich zeigen

Die Domain rankt fast ausschließlich für das, wofür sie existiert

Ein Export der Top-10-Rankings von disclaimer.de aus SISTRIX liefert 671 Keywords. Klingt viel. Schaut man genauer hin, entsteht ein ganz anderes Bild:
- ~44 % aller Rankings: juristische Keywords – Rechtsanwälte, Kanzleien, Notare, Steuerberater.
- ~52 % aller Rankings: Personen- und Kanzleinamen – also Suchanfragen wie „Kanzlei Mustermann Münster“ oder „Andreas Beispiel Rechtsanwalt.“
- ~3 %: alles andere. Und selbst davon hat der Großteil noch einen rechtlichen Kontext.
Mit anderen Worten: disclaimer.de ist eine juristische Branchenplattform, die für das rankt, wofür sie gebaut wurde. Ihre Sichtbarkeit existiert fast ausschließlich im Rechtsbereich – und selbst dort oft nur für Markennamen, die praktisch keine Konkurrenz haben.

Das ist kein DR-91-Allrounder. Das ist eine spezialisierte Domain mit sehr engem thematischen Fußabdruck.

Der Linkeffekt: klein, uneinheitlich, kaum trennbar vom Rauschen

Im zweiten Schritt wurden die ersten 500 URLs von disclaimer.de gecrawlt und alle verlinkten Ziel-Domains identifiziert, bei denen der Link erkennbar transaktional oder künstlich wirkte – kommerzielle Anchortexte, Local-Leadgen-Themen, YMYL-Bereiche.

Für jede dieser Domains wurde das Veröffentlichungsdatum des verlinkenden Artikels ermittelt und anschließend der wöchentliche SISTRIX-Sichtbarkeitsverlauf abgerufen. Das Ergebnis wurde als Event-Study ausgewertet: Woche 0 = Linkveröffentlichung. Dann Vergleich der Sichtbarkeit in mehreren Zeitfenstern davor und danach (0–3 Wochen, 4–8 Wochen, 9–12 Wochen). Zusätzlich ein Placebo-Test mit künstlich vordatierten „Fake-Linkdaten“ – um zu prüfen, ob ähnliche Muster auch ohne echten Linkevent auftreten.

Das Ergebnis: Es gab ein kleines positives Signal, am deutlichsten etwa in Woche +7.
Aber:
- Der Effekt war klein und heterogen – manche Domains stiegen, andere stagnierten, bei mehreren gab es sogar einen Rückgang.
- Der Placebo-Test zeigte vergleichbare Ausschläge ohne echte Linksetzung.
- Viele betroffene Domains hatten so niedrige Ausgangswerte, dass selbst kleine absolute Veränderungen prozentual spektakulär aussahen.
Kurz: Kein belastbarer, einheitlicher Effekt. Nur Rauschen mit gelegentlichen Peaks, die sich durch andere Ursachen besser erklären lassen – neue Inhalte, weitere Backlinks, technische Änderungen, Google-Updates.

Das eigentliche Problem mit diesem Case

Wer einen Link verkauft mit dem Argument „Autorität schlägt Relevanz“, setzt darauf, dass Käufer:innen nicht nachrechnen. Die Logik klingt plausibel, weil sie an etwas Wahres andockt: Ja, Autorität spielt eine Rolle. Ja, es gibt Domains, deren Links breit wirken. Aber nein – ein DR-Wert allein ist kein Beweis für Transferleistung in fachfremde Bereiche.

Die „Traffic- und Ranking-Verläufe“, die als Beweis präsentiert werden, sind klassische Cherry-Picks. Man zeigt die Domains, die sich positiv entwickelt haben – und lässt jene weg, bei denen nichts passiert ist oder es sogar schlechter wurde. Das ist keine Analyse. Das ist Marketing.

Dazu kommt: Die platzierten Links wirken erkennbar transaktional und künstlich. Kommerzielle Anchortexte auf einer juristischen Plattform, die thematisch nichts mit dem verlinkten Inhalt zu tun hat – das ist genau das Muster, das Googles Spam-Policies adressieren.

Fazit

DR 91 klingt gut. Die Realität sieht so aus: disclaimer.de rankt fast ausschließlich für Anwaltsnamen und Rechtsbegriffe – und der messbare SEO-Effekt der dort platzierten Links ist klein, uneinheitlich und kaum vom allgemeinen Marktgeschehen zu trennen.

Wer sein Budget in diesen Link investiert, zahlt für ein Gefühl von Autorität – nicht für nachweisbare Rankings. Das Budget wäre in hochwertigen Content, echte digitale PR oder technische SEO-Maßnahmen messbar besser angelegt.

Das Risiko ist real. Der Nutzen ist es nicht.
8. März 2026
Your Business Is My Next Prompt
Warum die These als Warnsignal klug ist, als Totalerklärung falsch — und unter Exponentialannahme richtig gefährlich wird.

„Your Business is my next prompt.“

Der Satz klingt wie eine Drohung aus einem LinkedIn-Post mit zu vielen Emojis der behauptet, man könne mit Hilfe künstlicher Intelligenz so gut wie jedes Geschäftsmodell angreifen. Aber hinter der Zuspitzung steckt ein Kern, der ernst genommen werden sollte — und ein blinder Fleck, der genauso ernst genommen werden muss.

Die These trifft — aber nur die Oberfläche

Der Satz beschreibt ziemlich gut eine bestimmte Klasse von Geschäftsmodellen: solche, deren gesamter Wert darin besteht, dass jemand Informationen entgegennimmt, umformt und als Text, Bild, Analyse oder Standardentscheidung zurückgibt. Überall dort, wo der Kundennutzen ein einmaliger kognitiver Output ist, schrumpft die Wertschöpfung tatsächlich gefährlich nah an einen Prompt.

Aber ein Business ist fast nie nur ein Output. Ein stabiles Geschäft besteht aus Schichten: Zugang zum Kunden, Vertrauen, Einbettung in reale Prozesse, Daten, Qualitätssicherung, Haftung, Integration in bestehende Systeme, Vertrieb und Distribution, operative Ausführung.

Ein Prompt kann vieles ersetzen. Er ersetzt aber nicht automatisch Verantwortung, Verlässlichkeit und Umsetzung.

Deshalb die erste Umformulierung:

Alles, was nur eine Antwort verkauft, ist gefährdet.
Alles, was ein Ergebnis liefert, ist deutlich robuster.

Ein Tool, das bloß Werbetexte erzeugt, ist stark gefährdet. Ein System, das Kampagnen plant, Brand-Richtlinien einhält, Freigaben steuert, Kanäle bespielt, Ergebnisse misst und ins CRM zurückschreibt, ist viel schwerer durch „einen Prompt“ zu ersetzen. Eine App, die Verträge zusammenfasst, ist leicht angreifbar. Eine Lösung, die Vertragsdaten extrahiert, versioniert, Fristen überwacht, Risiken klassifiziert, juristische Workflows dokumentiert und revisionssicher arbeitet, hat ein anderes Verteidigungsniveau.

AI vernichtet nicht einfach Businesses. Sie verschiebt die Grenze dessen, was als Produkt zählt. Der Moat wandert weg von der reinen Generierung, hin zu Workflow, proprietären Daten, Distribution, Compliance, Vertrauen und tatsächlicher Ausführung.

Falls Du Dich fragst: Der „Moat“ (deutsch: Burggraben) ist ein von Warren Buffett populär gemachter Begriff für den nachhaltigen Wettbewerbsvorteil eines Unternehmens. Wie ein Wassergraben eine Burg schützt, bewahrt dieser ökonomische Schutzwall (Economic Moat) ein Unternehmen vor Konkurrenz, sichert langfristige Gewinne und ermöglicht oft überdurchschnittliche Marktrenditen. (Quelle)

Das macht die These besonders nützlich für Strategiearbeit. Sie zwingt zu harten Fragen: Wenn man mein Produkt in einen Chat einbauen könnte — was bleibt dann noch übrig? Besitze ich einen echten Prozess oder nur eine hübsche UI? Verkaufe ich Arbeitserleichterung oder ein messbares Ergebnis? Würde der Kunde mich auch dann brauchen, wenn das Basismodell morgen dreimal besser wird?

Jetzt drehen wir an der Exponentialschraube

Und unter der Annahme exponentieller Verbesserung wird die These deutlich härter.

Aus „Your business is my next prompt“ wird: „Your workflow is my next agent.“

Das Entscheidende an den aktuellen Fortschritten ist, dass die Frontier nicht mehr nur bessere Texte schreibt. Modelle wie GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro positionieren sich explizit für professionelle Arbeit mit nativer Computer-Nutzung, langem Kontext und Agent-Planning. Das ist ein Übergang von der Antwortmaschine zum Werkzeugbenutzer für Wissensarbeit.

Der tiefere Indikator ist der Zeithorizont autonomer Arbeit. METR misst seit Jahren, wie lange Aufgaben für Menschen dauern, die Frontier-Modelle mit einer gegebenen Erfolgsquote lösen können. Auf der langen Reihe verdoppelt sich dieser Horizont ungefähr alle sieben Monate. Wenn die Kurve hält, werden stundenlange Softwareaufgaben 2027–2028 und tagelange bis 2030 erreichbar.

Parallel dazu fällt der Preis der Intelligenz brutal. Die Inferenzkosten für GPT-3.5-Niveau sind zwischen November 2022 und Oktober 2024 um mehr als Faktor 280 gefallen. Wer heute nur „Zugang zur besten Intelligenz“ verkauft, verkauft einen sehr schnell erodierenden Vorteil.

Der sich verschiebende Angriffsvektor

Wenn man das weiterdenkt, ändert sich der Angriffsvektor auf Geschäftsmodelle stufenweise:

Zuerst frisst KI Antworten und Artefakte: Copy, Zusammenfassungen, Slides, Standardanalyse, UI-Mockups.

Dann frisst sie Workflows: Recherche, CRM-Updates, Ticketing, Vertragsrouting, Claims Intake, QA, Code-Review, Reporting.

Bei weiter exponentieller Verbesserung frisst sie Koordinationsschichten: also genau die Tätigkeiten, die vor allem darin bestehen, Arbeit zu zerlegen, an den nächsten weiterzugeben, zu prüfen, zu dokumentieren und zu eskalieren.

In linearem Fortschritt frisst KI Features.
In exponentiellem Fortschritt frisst sie Organisation.

Darum sind nicht nur dünne AI-Wrapper gefährdet. Auch viele junior-lastige Dienstleistungsmodelle geraten unter Druck: Agenturen, Research- und Ops-Teams, Teile von Legal, Finance, Recruiting oder Support — überall dort, wo der Wert aus vielen kleinen kognitiven Zwischenschritten besteht.

Man darf die Kurve trotzdem nicht naiv lesen. Dieselben Quellen betonen jagged capabilities, Halluzinationen, Evaluation Gaps und sinkende Zuverlässigkeit bei längeren, unordentlichen Real-World-Aufgaben. Die Substitution kommt nicht als glatte Linie, sondern als Mischung aus beeindruckender Breite und lästiger Fragilität.

Gerade deshalb ist der wahrscheinlichste Pfad ein Deployment Overhang: Die Modelle können oft schon mehr, als Unternehmen ihnen organisatorisch, rechtlich oder kulturell erlauben. Das macht Disruption erst scheinbar langsam — und dann plötzlich sehr schnell.

SaaS: Thin wird Promptware, Thick wird Agent-Infrastruktur

In SaaS stirbt zuerst das Feature, nicht zwingend das System. Die Modelle gehen direkt in bestehende Bürosoftware hinein: ChatGPT-for-Excel, Claude in PowerPoint, native Pivot-Tabellen-Bearbeitung und Conditional Formatting durch KI.

Horizontale SaaS-Produkte, deren Kern nur „Frage rein, Artefakt raus“ ist, werden am stärksten kommodifiziert: Note-Taker, einfache BI-Copilots, generische Report- und Slide-Generatoren, Assistenz-Features in CRM/PM/ERP, sofern sie nicht den eigentlichen Daten- oder Kontrollkern besitzen.

Der verteidigbare Teil von SaaS wandert nach unten in System-of-Record-Funktionen und nach oben in Kontrolllogik: Berechtigungen, Audit-Trails, Workflow-Genehmigungen, Integrationen, Transaktionsrechte, Compliance und proprietäre Betriebsdaten.

Kurzform: Wer nur Oberfläche plus Generierung verkauft, wird eingedrückt. Wer Zustand, Rechte, Historie und Ausführung kontrolliert, wird eher stärker.

Beratung: Von Content-Produktion zu Entscheidungs-Orchestrierung

Hier gerät das klassische Pyramidenmodell unter Druck. GPT-5.4 erreicht 83 % auf GDPval (einem Benchmark für wohldefinierte Wissensarbeit über 44 Berufe) und 87,3 % bei Spreadsheet-Modelling-Aufgaben auf Junior-Investment-Banking-Niveau.

Der erste ökonomische Treffer ist nicht die komplette Ersetzung von Senior Judgment, sondern die Entwertung von junior-lastiger Zwischenarbeit: Research Memos, Markt-Screens, Excel-Modelle, Due-Diligence-Vorstufen, Vertrags-First-Drafts, Präsentationsproduktion.

Beratung verschwindet nicht, aber sie kippt. Weniger Wert in abrechenbarer Zwischenarbeit, mehr Wert in Zugang zu internen Daten, politischer Navigation, Stakeholder-Alignment, Haftung, Implementierung und Change.

Wenn die Capability-Kurve weiter exponentiell steigt, wird die Pyramide kleiner und steiler: weniger Juniors, mehr Plattform-/Methoden-Owner, mehr Senior-Client-Interface. Dann gerät auch das Billing-Modell unter Druck, weil „wir haben 200 Stunden in Analyse gesteckt“ immer weniger überzeugend klingt.

Medien: Der härteste Sonderfall

Medien sind der härteste Sonderfall, weil hier nicht nur die Produktion, sondern auch die Distribution angegriffen wird. KI-Chatbots tauchen erstmals als relevante Nachrichtenquelle auf; die Suche nach aktuellen Nachrichten gehört inzwischen zu den meistgenutzten KI-Funktionen.

Die Medien-These ist deshalb schärfer: Nicht nur „your article is my next prompt“, sondern „your audience touchpoint is my next answer“. Commodity-Content wie Erklärstücke, Wire-Rewrites, SEO-Texte, Übersetzungen, Headline-Varianten wird billiger und austauschbarer.

Was bleibt, ist das, was ein Modell nicht einfach aus dem offenen Web ziehen kann: originale Quellen, Verifikation, juristisch belastbare Redaktion, lokales Vertrauen, Community, Live-Berichterstattung, Rechte an Archiven und Formaten, starke Persönlichkeiten. Der Moat verschiebt sich weg von „wir können Content produzieren“ hin zu „wir haben Zugriff, Rechte, Vertrauen und Nähe zum Publikum“.

Die Ableitung aus ersten Prinzipien: Wer fällt, wer steht

Jetzt nicht mehr als Zitatenschlacht, sondern als Deduktion aus einem einzigen Grundgesetz:

Wenn eine bisher knappe Vorleistung exponentiell billiger wird, dann verschwinden die Margen zuerst dort, wo genau diese Vorleistung bisher verkauft wurde.

Bei KI ist diese Vorleistung nicht „Intelligenz insgesamt“, sondern etwas Engeres: standardisierbare Kognition — Lesen, Umformulieren, Zusammenfassen, Klassifizieren, Recherchieren, Entwerfen, Variieren, Priorisieren, erste Analysen, Boilerplate-Code, Standardkommunikation.

Die Gefährdungsformel

Ein Geschäftsmodell ist besonders gefährdet, wenn es hohen Anteil standardisierbarer Kognition hat, rein digital abläuft, billig verifizierbar ist, niedrige Haftungsfolgen hat und geringe Umstellungsfriktion beim Kunden aufweist. Robuster wird es durch proprietäre Daten, Prozesskontrolle, das Recht zu handeln, Beziehung/Marke und physische oder regulatorische Reibung.

Warum exponentielle Verbesserung so gefährlich ist: Die Schwellenlogik

Substitution verläuft nicht linear, sondern schwellenartig. Wenn ein Workflow aus 8 Schritten besteht und die KI jeden Schritt mit einer Zuverlässigkeit p schafft, dann ist die End-to-End-Tauglichkeit etwa p⁸:
- bei 90 % pro Schritt: nur etwa 43 % insgesamt
- bei 97 % pro Schritt: schon etwa 78 %
- bei 99 % pro Schritt: etwa 92 %
Ein Modell kann lange „noch nicht gut genug“ wirken — und dann kippt ein ganzer Workflow überraschend schnell von unbrauchbar zu wirtschaftlich attraktiv. Viele Geschäftsmodelle geraten schon bei „gut genug + drastisch billiger + sofort verfügbar“ unter Druck.

Akut gefährdet: Wer nur digitale Zwischenarbeit verkauft
1. Der Umformulierer. Alles, was vorhandene Information in ein neues Format gießt: SEO-Texte, Standardcopy, Zusammenfassungen, Übersetzungen, Transkription, Slides, Standard-Reports, generische Bild-/Textvarianten. Input und Output sind digital, der Arbeitsauftrag ist sprachlich formulierbar, und der Kunde kann „gut genug“ leicht akzeptieren.
2. Der Thin Wrapper. Produkte, die im Kern nur eine hübsche Oberfläche über ein generisches Modell legen: einfache Meeting-Notes-Tools, generische Wissensbots, simple Copilots ohne tiefen Workflow-Zugriff. Sobald die Basismodelle selbst besser werden und die großen Plattformen das Feature einbauen, schmilzt der Differenzwert.
3. Der Routine-BPO. Tier-1-Support, Inbox-Triage, CRM-Pflege, Datenerfassung, Dokumentklassifikation, Standard-Outreach, viele Backoffice-Tasks. Viele kleine, klar beobachtbare Einzelschritte mit reversiblen Fehlern — dort wird „gut genug“ schnell wirtschaftlich.
4. Die Junior-Pyramide. Dienstleister, die vor allem viele relativ günstige Köpfe auf standardisierte Wissensarbeit setzen: Research-Vorarbeit, Deck-Bau, Standardanalyse, Variantenproduktion, Content-Ops. Wenn der First Draft fast nichts mehr kostet, wird die wirtschaftliche Basis der Pyramide angegriffen.
5. Commodity-Medienproduktion. Nicht Medien als Ganzes, sondern alle Modelle, deren Wert fast nur in regelmäßiger standardisierter Textproduktion liegt.
Unter massivem Preisdruck, aber nicht weg
- Beratung — die Produktionsanteile werden komprimiert; politische Navigation, Umsetzung und Entscheidung unter Unsicherheit bleiben. Weniger bezahlte Zwischenarbeit, mehr bezahlte Verantwortung.
- Software-Dienstleistung — Boilerplate, Standard-Features, Debugging-Routine unter Druck. Robuster bleiben Architektur, Integration in chaotische Altsysteme, Verantwortung für Betrieb, Security und Produktverständnis.
- Recht, Steuer, Accounting-nahe Arbeit — Standardentwürfe und Dokumentprüfung erster Ordnung gefährdet. Haftung, Sign-off, Mandatsvertrauen und Auslegung bleiben länger zentral. Eher Repricing als Auslöschung.
- Recruiting — Sourcing und Screening stark automatisierbar. Wertvoller bleiben Zugang zu schwer erreichbaren Kandidaten, echtes Urteil über Passung, Closing und Vertrauen.
- Education/EdTech — Standardcontent verliert Wert. Robuster bleiben Motivation, Feedback, Disziplin, soziale Bindung und individuelles Coaching. Content wird billig, Verbindlichkeit wird teuer.
Eher Gewinner
- Systems of Record und Workflow-Gatekeeper — Wer den Zustand der Welt im Prozess hält (Daten, Historie, Rechte, Freigaben, Transaktionen), gewinnt. Agenten brauchen einen Ort, an dem Wahrheit, Berechtigung und Ausführung zusammenlaufen.
- Verifikation, Compliance, Security, Audit — Wenn Generierung fast kostenlos wird, wird Prüfen wertvoller. Je mehr synthetische Arbeit anfällt, desto mehr Nachfrage nach Nachvollziehbarkeit, Freigabe und Kontrolle.
- Vertikale Operatoren mit proprietären Daten — Unternehmen, die nicht nur denken, sondern handeln dürfen und reale Feedbackschleifen besitzen: Zahlungsflüsse, Logistik, operative Industrieprozesse. Sie verbinden KI nicht mit Text, sondern mit Wirkung.
- Distributionseigner — Wer die Kundenbeziehung besitzt (Community, Marke, Marktplatz, Kanal), sitzt auf einem knappen Gut. Wenn Inhalte und Features billig werden, wird Kundenzugang relativ wertvoller.
- Menschliche Premium-Signale — Alles, was nicht wegen Effizienz gekauft wird, sondern wegen Identität, Status, Geschmack, Nähe, Vertrauen oder Live-Erlebnis.
Die harte Schlussthese

Die Mitte wird zerdrückt. Oben sitzen die Modell- und Plattformanbieter. Unten sitzen die Besitzer von Kundenzugang, Systemzustand, Freigaberechten und realer Ausführung. Dazwischen sitzen sehr viele Firmen, die im Kern nur eines tun: Sie bewegen Information von A nach B und schreiben dafür Rechnung. Genau diese Mitte ist am stärksten bedroht.

Der wahrscheinlichste Verlauf in drei Phasen:

Phase 1: „Your business is my next prompt.“
Phase 2: „Your workflow is my next agent.“
Phase 3: „Your team is my next software layer.“

Nicht jedes Unternehmen wird ersetzt. Aber jedes Unternehmen, dessen Wert vor allem im Übersetzen von Unsicherheit in digitale Outputs liegt, wird durch KI massiv neu bepreist.

Die beste Gegenstrategie ist nicht, „prompt-sicher“ zu sein. Sondern ein Geschäft so zu bauen, dass der Prompt nur der Startschuss ist — nicht das fertige Produkt.

Oder noch schärfer: Verlierer verkaufen Denken als Stückware. Gewinner kontrollieren, was nach dem Denken passiert.

Kaum zu glauben, aber dieser Beitrag war auch nur ein Prompt!
6. März 2026
Tokens statt Code: Dieses Video erklärt, warum sich Softwareentwicklung gerade grundlegend neu erfindet
Es gibt Videos über KI, die zeigen dir ein neues Tool. Und es gibt Videos, die dir eine neue Landkarte geben. Dieses hier gehört zur zweiten Sorte.

Die zentrale These ist provokant – aber im Kern sehr plausibel: Wir erleben gerade keinen „Tools-Upgrade-Moment“, sondern einen Paradigmenwechsel. Über Jahrzehnte war die kleinste Einheit von Softwarearbeit die Instruktion: Ein Mensch schreibt Code, eine Maschine führt ihn deterministisch aus. Produktivität bedeutete: bessere Abstraktionen, cleverere Logik, saubere Implementierung.

Im Video wird argumentiert, dass sich diese Einheit verschiebt – hin zum Token. Token sind hier nicht nur Texthäppchen, sondern das, was du in der Praxis „kaufst“, wenn du ein Modell nutzt: Inference, also „gekaufte Intelligenz“. Du gibst Kontext, formulierst ein Ziel, und die Maschine findet die Schritte selbst. Die Arbeit wandert von „Wie implementiere ich das?“ zu „Was will ich exakt, und wie sichere ich Qualität und Kosten?“

Das klingt nach Semantik – hat aber ziemlich konkrete Folgen: für Budgets, Org-Strukturen, Karrierewege und die Skills, die in den nächsten Jahren zählen.

Warum die Token-Ökonomie mehr ist als „KI ist teuer“

Im Video tauchen Beispiele auf, die zeigen, wie ernst Unternehmen diese neue Rechenlogik nehmen:
- Teams, die ~1.000 Dollar pro Tag in Token-Spend kalkulieren – und dafür keinen handgeschriebenen Code mehr als Ziel definieren, sondern Output.
- Unternehmen, bei denen KI-Ausgaben so stark steigen, dass Pricing-Änderungen der Modellanbieter unmittelbare Krisen auslösen können.
- Der Gedanke: Wenn Inference pro Token billiger wird, steigt der Verbrauch oft trotzdem (Jevons-Paradox) – weil plötzlich viel mehr möglich und wirtschaftlich wird.
Die Konsequenz: Token sind nicht nur „Kostenstelle“, sondern ein Produktionshebel. Wer ihn beherrscht, produziert schneller, breiter und in manchen Fällen mit kleineren Teams mehr als klassische Organisationen.

Die 3 Entwickler-Typen (und warum du dich positionieren solltest

Der interessanteste Teil: Das Video zeichnet drei Karrierepfade, die sich aus dieser Verschiebung ergeben. Es geht weniger um „AI ersetzt Entwickler: ja/nein“, sondern um Differenzierung.

1) Der Orchestrator: Spezifikation, Steuerung, Qualitätskontrolle

Orchestrators schreiben weniger Code – sie lenken Intelligenz.

Skills, die hier zählen:
- Problemdekomposition: Große Ziele in agententaugliche Teilaufgaben zerlegen.
- Spezifikation & Präzision: Anforderungen so formulieren, dass KI nicht „irgendwas“, sondern das Richtige baut.
- Kontext-Engineering: Relevante Infos strukturieren (Dokumente, Beispiele, Constraints, APIs, Datenzugriff).
- Qualitätsevaluation: Output prüfen, testen, vergleichen – mit klaren Kriterien.
- Token-Ökonomie / Kosten pro Outcome: Nicht „Kosten minimieren“, sondern ROI maximieren (welches Modell für welche Aufgabe, wann lohnt sich High-End, wann reicht günstig?).
- Agenten-Orchestrierung: Loops, Workflows, Tool-Use, Guardrails – sodass über viele Schritte hinweg Qualität stabil bleibt.
Merksatz: Orchestrators sind Fabrikleiter einer Intelligenzproduktion.

2) Der Systems Builder: Infrastruktur für KI-Produktion

Diese Rolle ist technischer und seltener, aber enorm wirkungsstark: Systems Builder bauen die Plattformen, die Orchestrators benutzen.

Skills, die hier zählen:
- Agenten-Frameworks & Workflow-Design: Wie Aufgaben geroutet, verteilt und wieder zusammengeführt werden.
- Eval-Pipelines & Testsysteme: Automatisierte Qualitätsmessung (Regressionen, Benchmarks, Szenarien).
- Routing & Model-Mix: „Right model, right cost“ als Architekturprinzip.
- Reliability Engineering für probabilistische Systeme: Monitoring, Fallbacks, Safety, Determinismus-Illusion vermeiden.
- Daten-/Kontext-Infrastruktur: Retrieval, Wissensspeicher, Caching, Versionierung von Kontext und Prompts.
- Kosten-/Performance-Optimierung: Latenz, Durchsatz, Token-Budget, Skalierung.
Merksatz: Systems Builder sind die, die den „Token-Fabrikboden“ bauen.

3) Der Domain Translator: Branchenwissen + KI-Fluency = neue Entwickler

Das ist laut Video die unterschätzteste und wahrscheinlich größte Gruppe: Menschen mit tiefem Domänenwissen, die mithilfe von KI Software bauen, obwohl sie sich nie als Entwickler gesehen haben.

Skills, die hier zählen:
- Domänenexpertise: Du erkennst, welche Probleme wirklich teuer sind (Zeit, Fehler, Compliance, Umsatz).
- Workflow-Verständnis: Wo hakt es im Alltag? Wo entstehen Reibungsverluste?
- KI-Fluency: Nicht „Prompt-Zauberei“, sondern die Fähigkeit, Tools sinnvoll einzusetzen (Automationen, Agents, Datenzugriff, Integrationen).
- Produktdenken: Problem → Lösung → Nutzen → Adoption → Verankerung im Betrieb.
- Verteilung/Distribution: Zugang zu Kunden, Vertrauen, Branchen-Community – weil KI-Intelligenz als Rohstoff künftig überall kaufbar ist.
Merksatz: Domain Translators gewinnen nicht über Code, sondern über Relevanz.

Die zentrale Skill-Liste: Was du JETZT lernen solltest

Wenn man das Video in konkrete Lernziele übersetzt, ergibt sich eine ziemlich klare Liste. Egal welchen Pfad du wählst, diese Bereiche werden wichtiger:
1. Spezifikationsfähigkeit (klar schreiben, Anforderungen präzisieren, Constraints definieren)
2. Kontext-Engineering (Wissen strukturieren, Beispiele, Policies, Datenquellen, Retrieval)
3. Evaluation & Qualitätsmessung (Tests, Kriterien, Benchmarks, iterative Verbesserung)
4. Agenten-Orchestrierung (Workflows, Tool-Use, Loops, Guardrails)
5. Token Economics (Kosten pro Ergebnis, Model-Routing, Budgetierung, ROI)
6. Systemdenken (End-to-End-Prozesse statt einzelne Features)
7. Domänen- und Marktverständnis (Probleme erkennen, die sich lohnen)
8. Distribution/Adoption (wie Lösungen wirklich genutzt werden, nicht nur gebaut)
Das Video macht außerdem eine unbequeme Aussage: Am meisten gefährdet ist die Mitte – „kompetentes, generisches App-Coding“. Nicht, weil es morgen verschwindet, sondern weil sein Wert in dem Maß fällt, wie KI billiger und besser wird.

Warum ich das Video empfehle

Ich empfehle es nicht, weil jede Zahl oder Prognose garantiert stimmt. Sondern weil es dir ein scharfes Modell liefert, das eine Menge aktueller Beobachtungen zusammenbindet:
- Warum AI-native Teams mit viel weniger Leuten erstaunlich viel Output schaffen.
- Warum Unternehmen nicht nur „KI-Tools kaufen“, sondern anfangen, Token-Management als Kernkompetenz aufzubauen.
- Warum Karrierepfade auseinanderlaufen – und warum „ein bisschen AI-Assistent beim Coden“ auf Dauer nicht die ganze Antwort ist.
Wenn du Software entwickelst (oder Software einkaufst), lohnt es sich, dieses Video nicht als Hype zu sehen, sondern als Aufforderung zur Positionierung: Werde Orchestrator, Systems Builder oder Domain Translator – aber bleib nicht in der Mitte stehen!
4. März 2026
Warum ich als SEO-Veteran jetzt doch „GEO“ sage – und Du das auch tun solltest

Ich gebe es zu: Der Begriff „Generative Engine Optimization“ hat mich anfangs genervt. Wieder ein neues Buzzword. Wieder jemand, der versucht, aus einer evolutionären Entwicklung eine Revolution zu machen, die natürlich auch gleich einen neuen, fancy Oberbegriff braucht. Mein erster Impuls als jemand, der seit über 15 Jahren in der Suchmaschinenoptimierung arbeitet, war klar: Das ist doch einfach SEO mit einem neuen Anstrich.

Ich lag falsch. Und ich erkläre, warum.

Mein Problem mit neuen Begriffen

Die SEO-Branche liebt Akronyme. SXO, LLMO, AI SEO, AEO, SGE-Optimization – jedes Jahr taucht eine neue Buchstabenkombination auf, hinter der sich meist nichts anderes verbirgt als eine Facette dessen, was wir ohnehin schon tun. Content optimieren, Nutzerbedürfnisse verstehen, technisch sauber arbeiten. Die Substanz hinter dem neuen Label ist oft dünn, die Halbwertszeit kurz.

Als ich also zum ersten Mal „GEO – Generative Engine Optimization“ las, war mein Reflex entsprechend: Brauchen wir nicht. Haben wir schon. Nennt sich SEO.

Aber dann habe ich mir angeschaut, wer diesen Begriff geprägt hat. Und wo er geprägt wurde. Und wie er in der wissenschaftlichen Community aufgenommen wurde. Und genau das hat meine Meinung fundamental verändert.

GEO ist kein Branchenblog-Buzzword – es ist ein akademisches Framework

Der entscheidende Unterschied zu all den anderen Akronymen: GEO wurde nicht von einer Marketing-Agentur erfunden, die einen neuen Service verkaufen will. GEO wurde als wissenschaftliches Framework auf der KDD 2024 veröffentlicht – der 30. ACM SIGKDD Conference on Knowledge Discovery and Data Mining, eine der weltweit wichtigsten Konferenzen für Data Science und maschinelles Lernen. Das Paper „GEO: Generative Engine Optimization“ von Aggarwal et al. durchlief ein rigoroses Peer-Review-Verfahren und wurde im August 2024 in Barcelona präsentiert.

Allein das unterscheidet GEO qualitativ von 99 % aller Begriffe, die in unserer Branche zirkulieren.

Die Autor:innen sprechen eine klare Sprache

Was mich endgültig überzeugt hat, war ein genauerer Blick auf das Team hinter der Studie. Denn die Frage, ob ein neuer Begriff Substanz hat, beantwortet sich oft über die Frage: Wer steht dahinter?

Prof. Karthik Narasimhan ist der Senior-Betreuer der Arbeit. Er ist Associate Professor an der Princeton University, Co-Direktor der Princeton NLP Group und – das ist der Punkt, an dem man aufhorchen sollte – Co-Autor des originalen GPT-Papers bei OpenAI. Narasimhan hat seinen PhD am MIT gemacht, war Research Scientist bei OpenAI in der Phase, als GPT-1 entwickelt wurde, und hat danach an Princeton Arbeiten wie ReAct, Tree of Thoughts und SWE-agent mitverantwortet. Das sind keine Randnotizen in der KI-Forschung. Das sind Meilensteine.

Wenn also der Mann, der das generative Modell miterfunden hat, auf dem die heutigen Suchmaschinen aufbauen, einen Begriff für deren Optimierung definiert – dann hat dieser Begriff Gewicht.

Vishvak Murahari und Ameet Deshpande, beide PhD-Studenten unter Narasimhan an Princeton, brachten tiefe Expertise in NLP, Modell-Effizienz und KI-Sicherheit ein. Murahari war Zweitplatzierter beim Bell Labs Prize 2022 und hat seine Dissertation Ende 2025 abgeschlossen. Deshpande, mit einem B.Tech. vom IIT Madras, wurde durch die vielbeachtete Studie zur Toxizität in ChatGPT bekannt, die es bis ins Wall Street Journal schaffte.

Pranjal Aggarwal war zum Zeitpunkt der Studie Undergraduate am IIT Delhi – und trotzdem Equal-Contribution-Autor. Heute promoviert er an der Carnegie Mellon University. Seine Publikationsliste als Bachelor-Student umfasst Papers bei EMNLP (Oral), ICML und NeurIPS – ein Ausnahmetalent, das mittlerweile auch bei Meta FAIR forscht.

Ashwin Kalyan, Research Scientist am Allen Institute for AI (AI2), und Tanmay Rajpurohit, ein promovierter Aerospace-Ingenieur aus Georgia Tech mit zusätzlichem Jura-Abschluss, rundeten das Team mit Industry-Erfahrung und einem ungewöhnlich interdisziplinären Blick ab.

Das ist kein Marketing-Team, das ein Akronym auf eine Landing Page klebt. Das ist ein Forschungsteam an der Schnittstelle zwischen den Institutionen, die KI überhaupt erst gebaut haben.

Die wissenschaftliche Community hat GEO adoptiert

Ein Begriff ist nur dann relevant, wenn er aufgegriffen wird. Und genau das passiert. Seit der Veröffentlichung des GEO-Papers wird der Terminus in Folgestudien referenziert, weiterentwickelt und als Grundlage für neue Frameworks genutzt. Auf Konferenzen wie NeurIPS, bei SIGIR-Workshops und in der wachsenden Literatur zu LLM-gestützter Suche hat sich „Generative Engine Optimization“ als der Fachbegriff für dieses Forschungsfeld etabliert.

Wenn ich in meiner eigenen Forschung – ja, auch ich arbeite akademisch an diesem Thema – über die Optimierung von Inhalten für generative Suchsysteme schreibe, ist GEO der Begriff, den Reviewer erwarten, den Konferenzen verwenden und den die Community versteht.

Was GEO anders macht als SEO

Aber hat der Begriff auch inhaltlich eine Berechtigung? Ist GEO wirklich etwas anderes als SEO? Die kurze Antwort: Ja.

Die GEO-Studie zeigt empirisch, dass klassische SEO-Methoden wie Keyword Stuffing in generativen Suchmaschinen nicht funktionieren – teilweise sogar kontraproduktiv sind. Das ist zwar ein bisschen Old-School, aber eine klare Abgrenzung. Denn, wie KI-Systeme Antworten geben, ist fundamental anders und damit auch was für die Optimierung funktioniert. Die Studie stellte fest, dass das Hinzufügen von Zitaten, Statistiken und Quellenangaben die Sichtbarkeit in generativen Antworten um bis zu 40 % steigerte. Fluency Optimization und ein autoritativer Schreibstil zeigten signifikante Effekte. Und die Wirksamkeit variiert stark nach Domäne – was für Law & Government funktioniert, ist für People & Society irrelevant.

Ob das immernoch so ist, ist eine andere Frage. Aber mit LLM-Processing, Intermediate-Resoning, Generierung von Fan-Out-Queries, Retrieval, ReRanking, und Citation unterscheidet sich der Prozess fundamental von dem, wie eine klassische Websuche ihre Trefferlisten erzeugt.

Das ist kein SEO mit neuem Namen. Das ist eine andere Optimierungsdisziplin mit anderen Metriken, anderen Strategien und anderen Wirkungsmechanismen.

Was ich daraus gelernt habe

Mein Fehler war, GEO an denselben Maßstäben zu messen wie die vielen inhaltsleeren Buzzwords, die unsere Branche produziert. GEO verdient diesen Vergleich nicht, weil es eine andere Herkunft hat: Es kommt nicht aus dem Marketing, sondern aus der Wissenschaft. Es wurde nicht von Praktikern auf LinkedIn geprägt, sondern von Forschern an Princeton, CMU, IIT Delhi und AI2. Es wurde nicht in einem Blogpost definiert, sondern in einem peer-reviewten Paper auf einer Top-Konferenz.

Und – das ist vielleicht der wichtigste Punkt – es beschreibt ein reales, messbares Phänomen, das sich empirisch vom klassischen SEO unterscheidet.

Mein Fazit

Ich benutze jetzt „GEO“. Nicht weil es trendy ist. Nicht weil es sich in Pitchdecks gut macht. Sondern weil die Evidenz stimmt, die Autor:innen glaubwürdig sind und die wissenschaftliche Community den Begriff als Standard etabliert hat.

Wenn ein GPT-Miterfinder, zwei Princeton-PhDs, ein CMU-Doktorand und zwei Research Scientists gemeinsam auf einer der wichtigsten Data-Science-Konferenzen der Welt einen neuen Begriff einführen – und die Community diesen Begriff aufgreift und weiterentwickelt – dann ist das kein Buzzword. Dann ist das ein Paradigmenwechsel, der einen eigenen Namen verdient hat.

GEO ist kein neues SEO. GEO ist das, was nach SEO kommt – und es hat die akademischen Credentials, um diesen Anspruch zu untermauern.

Wer den Begriff ablehnt, weil er „mal wieder was Neues“ ist, macht den gleichen Fehler wie ich. Schaut euch an, wer dahintersteht. Das spricht eine sehr klare Sprache.

25. Februar 2026