Vom Bauchgefühl zur Evidenz: Warum GEO wissenschaftlicher arbeiten muss

Die SEO- und GEO-Branche produziert gerade enorm viele Inhalte über Messung. Fast täglich erscheinen neue Auswertungen, Benchmarks, Tool-Vergleiche, Prompt-Experimente und vermeintliche Best Practices. Das ist verständlich: Alle versuchen, ein neues Feld greifbar zu machen.

Trotzdem wissen wir erstaunlich wenig wirklich sicher.

Viele dieser Veröffentlichungen sind wertvoll als Beobachtung, als Hypothese oder als praktischer Erfahrungsbericht. Sie können inspirieren, Orientierung geben und Diskussionen anstoßen. Aber sie sind selten so angelegt, dass daraus belastbare, replizierbare Erkenntnisse entstehen. Häufig arbeiten sie mit kleinen Stichproben, unklaren Auswahlverfahren, fehlenden Baselines und Messdesigns, die plausibel wirken, aber wissenschaftlich kaum geprüft sind.

Das Problem ist nicht, dass Praxiswissen wertlos wäre. Das Problem ist, dass wir Praxiswissen oft so behandeln, als wäre es bereits Evidenz.

Wir sollten wissenschaftlicher arbeiten. Nicht, weil Wissenschaft besser klingt. Sondern weil sie uns zwingt, zwischen dem zu unterscheiden, was wir wissen, was wir vermuten und was wir nur überzeugend erzählen können.

Wissenschaftliches Arbeiten ist anstrengend, komplex, kompliziert und sehr kleinteilig. Man muss einen riesigen Aufwand für oft sehr kleine Erkenntnisse treiben. Aber genau diese kleinen Erkenntnisse sind dann — vorausgesetzt, man hat sauber gearbeitet — auch wirklich belastbar.

Und genau darum geht es mir in diesem Text: nicht darum, einzelne Menschen oder einzelne Methoden abzuwerten, sondern darum, den Unterschied zwischen plausibler Praxis und belastbarer Evidenz ernst zu nehmen.

Ein gutes Beispiel für eine echte Methodenfrage

Wie anspruchsvoll das in GEO wird, sieht man ausgerechnet an einem Beispiel, das ich ausdrücklich nicht als Negativbeispiel verstehe. Im Gegenteil: Es zeigt, wie eine ernsthafte methodische Diskussion überhaupt aussehen kann.

Ein von mir sehr geschätzter Kollege, Hanns Kronenberg, verfolgt bei der GEO-Messung einen klaren und nachvollziehbaren Ansatz: Er normalisiert Prompts. Aus einem Roheingang wie

„Hey ChatGPT, kannst du mir bitte sagen, welche Anbieter für X gut sind?“

wird sinngemäß

„beste Anbieter für X“.

Die Begründung dahinter ist gut: Rohprompts enthalten viel Varianz — Höflichkeitsfloskeln, Ich-Kontext, Tippstil, Formulierungslaune, Kontextreste. Wer ein Messinstrument bauen will, will diese Varianz nicht unkontrolliert in der Messung haben. Ein Instrument, das bei scheinbar gleichem Sachverhalt stark schwankt, ist schwer interpretierbar.

Normalisierung versucht, diese Störfaktoren zu reduzieren, damit das Messinstrument stabiler wird. Das ist keine naive Abkürzung und auch kein methodischer Fehlgriff. Es ist eine legitime Messentscheidung.

In einer Infografik auf LinkedIn sieht man schön, dass Hanns bei der Normalisierung keinen pauschalen Kahlschlag vornimmt, sondern Füllwörter, Höflichkeit und Kontextreste entfernt und aus vielen Rohvarianten Intent-/Constraints-Gruppen für wenige Standardformen bildet:

Genau deshalb ist dieses Beispiel interessant: nicht, weil Hanns hier „falsch“ liegt, sondern weil an einer guten Methode sichtbar wird, was Wissenschaft leisten müsste.

Wissenschaft müsste nicht behaupten, ob Normalisierung richtig oder falsch ist. Sie müsste prüfen, unter welchen Bedingungen Normalisierung ein valider Messproxy ist — und unter welchen Bedingungen nicht.

Aus einer Meinung wird eine testbare Hypothese

Das ist der entscheidende Schritt. Solange wir nur sagen „ich glaube, natürliche Prompts sind besser“ oder „ich glaube, normalisierte Prompts sind stabiler“, führen wir eine Meinungsdebatte. Interessant wird es erst, wenn wir daraus prüfbare Hypothesen machen.

Die These des Normalisierungsansatzes könnte man so formulieren:

C, also normalisierte, komprimierte Prompts, ist ein guter Low-Cost-Proxy für die Ergebnisverteilung echter Prompts.

Meine Gegenthese wäre:

B, also natürliche repräsentative Prompts, bildet die Ergebnisverteilung echter Prompts besser ab als künstlich normalisierte Prompts.

Schon diese Formulierung verändert die Debatte. Es geht nicht mehr darum, wer rhetorisch überzeugender klingt. Es geht darum, welche Methode die reale Prompt-Welt besser approximiert.

Und genau so beginnt wissenschaftliches Arbeiten: Eine plausible Behauptung wird so formuliert, dass sie an Daten scheitern darf.

Reliabilität ist nicht dasselbe wie Validität

In der Messtheorie unterscheidet man zwei Eigenschaften eines Instruments, die gerne verwechselt werden:

Reliabilität bedeutet: Misst ein Instrument konsistent?

Validität bedeutet: Misst es tatsächlich das, was es messen soll?

Ein Messinstrument kann sehr stabil sein und trotzdem an der Zielgröße vorbeimessen. Eine Waage, die immer gleich abweicht, ist konsistent — aber nicht deshalb automatisch gültig. Genau diese Unterscheidung ist hier wichtig.

Die Normalisierung priorisiert zunächst Reliabilität: weniger Rauschen, stabilere Werte, besser reproduzierbare Reports.

Die offene wissenschaftliche Frage betrifft die Validität: Misst der normalisierte Prompt noch hinreichend gut das, was echte Nutzerprompts in generativen Systemen auslösen? Oder entsteht durch die Reduktion ein eigenes, sehr sauberes Messobjekt, das in bestimmten Fällen von realer Nutzung abweichen kann?

Das ist kein Argument gegen Hanns’ Methode. Es ist die Frage, die man stellen muss, wenn man sie wissenschaftlich ernst nimmt.

Die prüfbare Annahme hinter Normalisierung

Formal betrachtet ist Normalisierung eine verlustbehaftete Kompression. Ein Rohprompt enthält nicht nur Intent, sondern auch Constraints, Stil, Kontext und vermeintliches Rauschen.

Man könnte ihn vereinfacht so darstellen:

Rohprompt X = Intent I + Constraints C + Stil S + Kontext K + Rauschen R

Der normalisierte Prompt ist dann eine Funktion davon:

N = f(X)

Diese Reduktion ist dann ein gutes Messsignal, wenn die weggeworfenen Bestandteile tatsächlich keine relevante Zusatzinformation für das Ergebnis enthalten. Anders gesagt: Sobald man den normalisierten Prompt kennt, dürfte der ursprüngliche Rohprompt keine zusätzliche Information mehr darüber liefern, welche Antwort, welche Quellen oder welche Zitate entstehen.

Statistisch ausgedrückt:

Y ⟂ X | N

Auf Deutsch: Sobald man den normalisierten Prompt kennt, liefert der ursprüngliche Rohprompt keine zusätzliche Information mehr über das Ergebnis. Stil, Kontext und Constraints wären dann tatsächlich nur Rauschen.

Genau das ist die zentrale empirische Frage.

Nicht: „Ist Normalisierung richtig oder falsch?“

Sondern: „Reduziert Normalisierung nur Rauschen — oder entfernt sie intentrelevantes Signal?“

Warum diese Frage bei GEO besonders wichtig ist

In der klassischen Suche war es oft plausibel, Suchanfragen stärker zu vereinheitlichen. Viele Varianten landeten auf ähnlichen SERPs, und Suchmaschinen hatten über Jahre gelernt, kurze, keywordartige Queries zu interpretieren.

Bei generativen Systemen ist das weniger selbstverständlich. Der Prompt ist nicht einfach nur der Input in ein Ranking. Er kann der Ausgangspunkt für eine ganze interne Verarbeitungskette sein: Umschreibung, Query Fan-out, Retrieval, Quellenbewertung, Antwortmodus, Zitierauswahl.

Die Oberfläche des Prompts kann also mehr sein als nur Rauschen. Ton, Kontext, Detailgrad, Constraints oder Nutzersituation können beeinflussen, welche internen Suchanfragen entstehen, welche Quellen herangezogen werden und ob eine Antwort eher beratend, erklärend, vergleichend oder transaktional ausfällt.

Wenn das stimmt, dann wäre Normalisierung in manchen Fällen ein sehr gutes Analysehilfsmittel, aber nicht zwingend die alleinige Grundlage einer Erfolgsmessung.

Noch einmal: Das ist keine Widerlegung. Es ist eine Hypothese.

Und Hypothesen sind genau dafür da, getestet zu werden.

Ein Experiment, das die Frage beantworten könnte

Der wichtigste Punkt wäre: Wir dürfen nicht einzelne Antworten vergleichen.

Eine einzelne Antwort ist bei generativen Systemen viel zu instabil. Sie kann durch Tageszeit, Modellversion, Session, Randomness, Suchindex, Personalisierung, Standort oder kleine Formulierungsdetails schwanken. Wer einzelne Antworten nebeneinanderlegt, macht aus Rauschen schnell eine Geschichte.

Sauberer wäre deshalb eine andere Frage:

Welche Prompt-Methode approximiert die Verteilung von Antworten, Quellen, Zitierungen, Marken-Nennungen und Empfehlungen aus echten Prompts am besten?

Das Grunddesign sähe so aus:

Gruppe A: echte Prompts
= Ground Truth / Referenzverteilung

Gruppe B: repräsentative natürliche Prompts
= komprimierter natürlicher Proxy

Gruppe C: normalisierte Prompts
= komprimierter intentbasierter Proxy

Gruppe D: zufällige Stichprobe echter Prompts
= Kontrollgruppe / harte Baseline

Dann misst man:

Wie nah liegt B an A?
Wie nah liegt C an A?
Wie nah liegt D an A?

Wenn B näher an A liegt, spricht das für die These, dass natürliche Repräsentanz für GEO aussagekräftiger ist. Wenn C gleich nah oder näher an A liegt, spricht das für Hanns’ These, dass Normalisierung ein guter Low-Cost-Proxy ist. Wenn D gewinnt, wäre der Befund besonders interessant: Dann wäre die beste Low-Cost-Methode möglicherweise gar keine künstliche Prompt-Erzeugung, sondern echtes Sampling.

Und wenn B, C und D alle stark von A abweichen, wäre auch das ein wichtiger wissenschaftlicher Befund: Einzelne Prompt-Proxies reichen für bestimmte GEO-Messungen womöglich grundsätzlich nicht aus.

Wichtig ist: In keinem dieser Fälle „verliert“ eine Person. Es verliert höchstens eine Annahme. Und genau das ist der Sinn wissenschaftlichen Arbeitens.

A ist nicht ein Prompt, sondern die Zielverteilung

Der häufigste Denkfehler wäre, A als einen „echten Prompt“ zu verstehen. Das wäre falsch. A ist die Referenzverteilung echter Prompts pro Intent.

Beispiel:

Intent:
Steuersoftware für Selbstständige vergleichen

A: 100 echte Prompts
- Welche Steuersoftware ist gut für Freelancer?
- Ich bin selbstständig, womit mache ich am besten meine Steuer?
- Taxfix oder WISO für Selbstständige?
- einfache Steuerapp für Freiberufler
- beste Software Steuererklärung Kleinunternehmer
- ...

Daraus erzeugt man dann:

B: 10 repräsentative natürliche Prompts
C: 10 normalisierte Prompts oder normalisierte Intent-Varianten
D: 10 zufällig gezogene echte Prompts

Wichtig ist, dass dieses Verhältnis pro Intent-Gruppe gilt, nicht nur über das gesamte Experiment. Sonst kann es passieren, dass eine Methode bei manchen Intents über- oder unterrepräsentiert ist.

Noch sauberer: mit Holdout arbeiten

Ein häufiger methodischer Fehler wäre, aus allen echten Prompts die repräsentativen und normalisierten Prompts zu bauen und sie dann wieder gegen genau dieselbe Menge zu testen.

Das klingt harmlos, ist aber problematisch. Dann prüft man nur, ob eine Methode eine bekannte Prompt-Menge gut zusammenfassen kann. Interessanter ist die Frage, ob sie eine unbekannte reale Prompt-Verteilung gut approximiert.

Sauberer wäre deshalb:

A_total: alle echten Prompts

A_train: echte Prompts, aus denen B, C und D abgeleitet werden
A_test: echte Prompts, die B, C und D nachbilden müssen

Der Ablauf wäre:

1. Sammle echte Prompts.
2. Teile sie in Train und Test.
3. Erzeuge B, C und D nur aus Train.
4. Vergleiche B, C und D gegen Test.

Damit wird das Experiment methodisch deutlich stärker. Es prüft nicht nur Kompression, sondern Generalisierung.

Warum Gruppe D so wichtig ist

Neben A, B und C würde ich unbedingt eine vierte Gruppe ergänzen:

Gruppe D:
zufällige 10%-Stichprobe echter Prompts

D ist die wichtigste Benchmark, weil sie eine unangenehme, aber notwendige Frage beantwortet:

Wie gut wäre ich, wenn ich einfach 10 Prozent echte Prompts zufällig nehme und gar keine intelligente Repräsentation baue?

Diese Kontrollgruppe verhindert, dass man B oder C überschätzt. Eine kluge Methode muss nicht nur plausibel klingen. Sie muss besser sein als ein einfacher, billiger Zufallsgriff aus der echten Verteilung.

Die Interpretation wäre dann:

B besser als C:
Natürliche repräsentative Prompts approximieren A besser als Normalisierung.

C besser als B:
Normalisierte Prompts funktionieren als Messproxy besser.

B nicht besser als D:
Die natürliche Repräsentation bringt wenig gegenüber Zufall.

C nicht besser als D:
Normalisierung bringt wenig gegenüber Zufall.

B und C schlechter als D:
Echte natürliche Variation ist wichtiger als kuratierte Kompression.

B und C ähnlich nah an A:
Prompt-Reduktion funktioniert für diesen Intent-Typ grundsätzlich.

Das ist Wissenschaft in einer sehr nüchternen Form: Man baut ein Design, in dem die eigene Lieblingsmethode verlieren kann.

Was genau wird verglichen?

Nicht: „Ist die Antwort wortgleich?“

Das wäre der falsche Vergleich. Für GEO ist entscheidend, ob B, C oder D die relevanten Signale aus A nachbilden. Ich würde mindestens diese Outcome-Klassen messen:

1. Marken-Nennung
2. Domain-Zitierung
3. URL-Zitierung
4. Empfehlung / Ranking
5. Antwortstruktur
6. Quellenklasse
7. Themen- und Argumentationsmuster
8. Sentiment / Empfehlungsstärke

Beispiel für einen Intent:

A echte Prompts:
- Marke X wird in 38% der Antworten genannt
- Domain X wird in 12% der Antworten zitiert
- Wettbewerber Y wird in 44% empfohlen
- Vergleichsportale machen 35% der Quellen aus
- Herstellerseiten machen 20% der Quellen aus

B:
- Marke X 35%
- Domain X 14%
- Wettbewerber Y 41%
- Vergleichsportale 33%
- Herstellerseiten 22%

C:
- Marke X 58%
- Domain X 4%
- Wettbewerber Y 61%
- Vergleichsportale 12%
- Herstellerseiten 49%

In diesem Beispiel wäre B deutlich näher an A. C hätte dann womöglich weniger Rauschen, aber mehr Bias. Das wäre kein moralischer Befund, sondern ein methodischer: Die Normalisierung hätte in diesem Intent-Typ relevante Signale entfernt oder verschoben.

Zentrale Metriken

Pro Intent, Engine und Messzeitpunkt könnte man verschiedene Abweichungen berechnen.

1. Brand Visibility Error

| Sichtbarkeit_B - Sichtbarkeit_A |
| Sichtbarkeit_C - Sichtbarkeit_A |
| Sichtbarkeit_D - Sichtbarkeit_A |

Beispiel:

A: Marke wird in 40% genannt
B: Marke wird in 36% genannt → Fehler: 4 Prozentpunkte
C: Marke wird in 55% genannt → Fehler: 15 Prozentpunkte
D: Marke wird in 43% genannt → Fehler: 3 Prozentpunkte

2. Citation Error

Für Domains und URLs wäre die Frage: Finden B, C und D dieselben Quellenlandschaften wie A?

Domain Share of Citations
URL Share of Citations
Top-k Citation Recall
Citation Jaccard Similarity

Nicht jede einzelne URL muss identisch sein. Aber die Verteilung der Domains und Quellentypen sollte ähnlich sein.

3. Recommendation Error

Für empfohlene Anbieter, Produkte, Tools oder Marken müsste man messen:

Welche Entities werden empfohlen?
Wie oft werden sie empfohlen?
In welcher Reihenfolge erscheinen sie?
Wie stark ist die Empfehlung?

Mögliche Metriken wären:

Top-k Entity Overlap
Ranking-Korrelation
NDCG
Share of Recommendation

4. Source-Class Distribution

Für Content-Strategie wäre besonders wichtig, ob dieselben Quellenklassen ausgelöst werden:

A zitiert:
30% Vergleichsportale
25% Herstellerseiten
20% Medien
15% Foren / Reddit
10% Behörden / Studien

Wenn normalisierte Prompts zum Beispiel viel häufiger Herstellerseiten triggern, natürliche Prompts aber eher Foren, Vergleichsportale oder Ratgeberseiten, dann ist das strategisch ein riesiger Unterschied.

5. Antwortmodus

Auch der Antworttyp sollte gemessen werden:

direkte Empfehlung
Vergleich
How-to
Liste
Ratgeberantwort
Definition
Warnung / Einschränkung
Kaufberatung

Ein normalisierter Prompt wie

beste steuersoftware selbstständige

kann ein anderes Antwortformat erzeugen als

Ich bin selbstständig und suche eine einfache Software für meine Steuererklärung. Was würdest du empfehlen?

Für GEO ist das relevant, weil Empfehlungen und Zitate oft vom Antwortmodus abhängen.

Nicht nur global, sondern nach Intent-Typ auswerten

Ein globaler Durchschnitt wäre wahrscheinlich zu grob. Viel spannender wäre eine Auswertung nach Intent-Typ.

Am Ende sollte nicht einfach dort stehen:

B ist besser als C.

Sondern eher:

Bei informationalen Intents ist C ähnlich gut.
Bei Empfehlungs-Intents ist B deutlich besser.
Bei transaktionalen Intents kippt C die Quellenlandschaft.
Bei lokalen Intents ist natürliche Formulierung entscheidend.
Bei einfachen Head-Intents reicht C oft aus.

Das wäre vermutlich der wertvollste Befund, weil er beiden Seiten gerecht würde. Normalisierung wäre dann nicht „falsch“ oder „richtig“, sondern unter bestimmten Bedingungen nützlich und unter anderen Bedingungen riskanter.

Meine Erwartung wäre:

Normalisierte Prompts funktionieren vermutlich besser bei:
- einfachen Informationsintents
- Definitionen
- generischen Head-Themen
- stabilen Wissensfragen
- klassischen suchquery-ähnlichen Aufgaben

Natürliche repräsentative Prompts funktionieren vermutlich besser bei:
- Empfehlungen
- Anbieter- und Produktvergleichen
- Kaufberatung
- Problem-Lösungs-Intents
- persönlichen oder constraint-reichen Situationen
- lokalen Suchen
- B2B-Entscheidungsfragen
- Use-Case-getriebenen Content-Strategien

Aber auch das wäre nur eine Hypothese. Und genau deshalb müsste man sie testen.

Wie man B sauber konstruiert

Für repräsentative natürliche Prompts sollte B nicht einfach manuell geschrieben werden. Das wäre angreifbar und würde zu viel subjektives Bauchgefühl ins Experiment bringen.

B sollte aus A_train abgeleitet werden:

1. Echte Prompts pro Intent sammeln.
2. Embeddings bilden.
3. Innerhalb des Intents Subcluster finden.
4. Pro Subcluster den Medoid-Prompt wählen.
5. Optional leicht redaktionell glätten, aber natürlich lassen.

Ein Medoid ist der echte Prompt, der dem Zentrum eines Clusters am nächsten liegt. Dadurch ist B nicht ausgedacht, sondern repräsentativ für echte Formulierungen.

Beispiel:

Intent:
beste Steuersoftware für Selbstständige

Subcluster 1:
"Welche Steuersoftware ist gut für Freelancer?"

Subcluster 2:
"Ich bin selbstständig und brauche ein einfaches Tool für die Steuer."

Subcluster 3:
"WISO oder Lexware für Selbstständige?"

Subcluster 4:
"Beste Steuer App für Freiberufler Deutschland"

Subcluster 5:
"Steuererklärung Kleinunternehmer Software Empfehlung"

Dann besteht B aus echten, natürlichen Stellvertreterprompts. Das macht die Methode empirisch deutlich stärker als „ich formuliere nach Gefühl repräsentative Prompts“.

Wie man C fair konstruiert

Auch C sollte nicht unfair gebaut werden. Sonst testet man nicht die beste Version des Normalisierungsansatzes, sondern eine Karikatur davon.

Für Hanns’ Methode bräuchte man eine klare Normalisierungsregel, zum Beispiel:

- Anreden entfernen
- Höflichkeit entfernen
- Ich-Kontext entfernen, sofern nicht intentrelevant
- Füllwörter entfernen
- Synonyme vereinheitlichen
- Reihenfolge standardisieren
- Constraints erhalten
- auf Kleinbuchstaben normalisieren
- keine Frageform erzwingen

Beispiel:

Rohprompt:
Ich bin selbstständig und suche eine einfache Software für meine Steuererklärung. Welche Anbieter sind empfehlenswert?

Normalisiert:
steuersoftware selbstständige deutschland empfehlung einfach

Wichtig ist: C darf nicht absichtlich schlecht oder zu keywordhaft gebaut werden. Die faire Version wäre:

C = bestmögliche normalisierte Intent-Repräsentation

Nur dann testet man die eigentliche These ernsthaft.

Ein realistischer Pilot

Ein sinnvoller Pilot könnte so aussehen:

50 Intent-Gruppen
× 40 echte Prompts pro Intent für A_test
= 2.000 echte Prompts als Ground Truth

B:
4 repräsentative natürliche Prompts pro Intent
= 200 Prompts

C:
4 normalisierte Prompts pro Intent
= 200 Prompts

D:
4 zufällige echte Prompts pro Intent
= 200 Prompts

Dann pro Engine:

A: 2.000 Runs
B: 200 Runs
C: 200 Runs
D: 200 Runs

= 2.600 Runs pro Engine und Wiederholung

Bei vier Oberflächen:

ChatGPT
Perplexity
Google AI Mode
Google AI Overviews

ergibt das:

2.600 × 4 = 10.400 Runs pro Wiederholung

Mit drei Wiederholungen:

31.200 Runs

Das ist groß genug, um erste robuste Aussagen zu treffen. Und es zeigt zugleich, warum echte Wissenschaft in GEO so selten ist: Schon die Beantwortung einer einzigen Methodenfrage landet schnell im fünfstelligen Abfragebereich.

Für einen kleineren MVP könnte man reduzieren:

20 Intent-Gruppen
× 30 echte Prompts
= 600 A-Prompts

B: 3 pro Intent = 60
C: 3 pro Intent = 60
D: 3 pro Intent = 60

Gesamt:
780 Prompts × 4 Engines × 3 Wiederholungen
= 9.360 Runs

Auch das wäre noch kein perfektes Forschungsprogramm. Aber es wäre bereits deutlich näher an wissenschaftlicher Evidenz als das, was in unserer Branche oft als „Studie“ verkauft wird.

Wiederholungen, Zeit und Kontrolle

Wiederholungen sind nötig, weil KI-Antworten nicht deterministisch stabil sind. Ein sauberes Design müsste deshalb mindestens kontrollieren:

3 Wiederholungen pro Prompt
an mehreren Tagen
randomisierte Reihenfolge
neue Session pro Prompt
keine History
keine Personalisierung
gleiche Sprache
gleicher Standort
gleicher Device- und Browser-Kontext, soweit möglich

Sonst verwechselt man Prompt-Effekte mit Tages-, Modell-, Index- oder Session-Effekten.

Auch das ist ein wichtiger Teil wissenschaftlichen Arbeitens: Man versucht nicht nur, den Effekt zu finden, den man sehen möchte. Man versucht aktiv, alternative Erklärungen auszuschließen.

Was heißt „besser nachgebildet“?

Am Ende bräuchte man einen transparenten Gesamtscore, aber mit nachvollziehbaren Subscores. Zum Beispiel:

Proxy Fidelity Score =

w1 × Brand Visibility Fidelity
+ w2 × Citation Fidelity
+ w3 × Recommendation Fidelity
+ w4 × Source-Class Fidelity
+ w5 × Answer-Mode Fidelity

Eine beispielhafte Gewichtung für GEO-Reporting könnte sein:

30% Empfehlungen / Rankings
25% Quellen & Zitationen
20% Marken-/Domain-Sichtbarkeit
15% Antwortstruktur / Intent-Erfüllung
10% Quellenklassen

Für Content-Strategie würde man Quellenklassen und Themenmuster vielleicht stärker gewichten. Für reines GEO-Reporting eher Brand, Domain und Recommendation.

Dann erhält man pro Intent:

Fidelity_B_to_A
Fidelity_C_to_A
Fidelity_D_to_A

Und über alle Intents zum Beispiel:

B schlägt C in 37 von 50 Intent-Gruppen.
C schlägt B in 8 von 50 Intent-Gruppen.
Kein signifikanter Unterschied in 5 von 50 Intent-Gruppen.
D schlägt beide in 12 von 50 Intent-Gruppen.

Das wäre wesentlich aussagekräftiger als ein globaler Durchschnitt oder ein einzelnes Beispiel.

Die wichtigste Ergebnisdarstellung

Am Ende würde ich keine Siegergeschichte erzählen, sondern eine Matrix bauen:

Intent-Typ	B näher an A	C näher an A	D näher an A	Interpretation
Informational	45%	40%	15%	Normalisierung oft brauchbar
Empfehlung	70%	10%	20%	Natürliche Prompts klar besser
Vergleich	65%	15%	20%	Normalisierung verzerrt Rankings
Lokal	75%	5%	20%	Kontext entscheidend
How-to	50%	30%	20%	Gemischt
Branded	40%	35%	25%	Beide brauchbar

Genau solche Ergebnisse wären wertvoll. Nicht, weil sie eine Seite vernichten. Sondern weil sie differenzieren.

Vielleicht ist Normalisierung bei einfachen Informationsintents völlig ausreichend. Vielleicht ist natürliche Formulierung bei Empfehlungs-, Vergleichs- und Kaufberatungs-Intents deutlich näher an der Realität. Vielleicht ist bei lokalen Suchen Kontext entscheidend. Vielleicht ist bei bestimmten Head-Intents fast egal, wie man formuliert.

Das wäre keine Schwäche. Das wäre Erkenntnis.

Hypothesen vorab registrieren

Ein weiterer wissenschaftlicher Schritt wäre, die Hypothesen vorab festzulegen. Nicht erst nach den Daten erzählen, was man angeblich schon immer erwartet hat.

Ich würde vorab etwa diese Hypothesen formulieren:

H1:
Normalisierte Prompts weichen bei Quellen- und Zitierverhalten stärker von echten Prompts ab als repräsentative natürliche Prompts.

H2:
Der Unterschied ist bei Empfehlungs-, Vergleichs- und Kaufberatungs-Intents größer als bei einfachen Informations-Intents.

H3:
Normalisierte Prompts erzeugen stabilere, aber nicht zwingend repräsentativere Ergebnisse.

H4:
Repräsentative natürliche Prompts haben mehr Varianz, aber geringeren Bias gegenüber echten Prompts.

H5:
Eine zufällige 10%-Stichprobe echter Prompts ist ein harter Benchmark, den B und C schlagen müssen.

Auch hier geht es nicht darum, vorher recht zu haben. Es geht darum, sich selbst daran zu hindern, hinterher jede Beobachtung zur Bestätigung der eigenen Meinung umzudeuten.

Was an diesem Design wissenschaftlich ist

Das Experiment wäre nicht deshalb wissenschaftlich, weil es kompliziert klingt. Es wäre wissenschaftlich, weil es ein paar unbequeme methodische Mindeststandards erfüllt:

Es formuliert prüfbare Hypothesen.
Es definiert eine Ground Truth.
Es arbeitet mit Holdout-Daten.
Es vergleicht Verteilungen statt Einzelfälle.
Es nutzt eine Kontrollgruppe.
Es trennt Reliabilität von Validität.
Es kontrolliert Störfaktoren.
Es erlaubt, dass die eigene These scheitert.

Das letzte ist vielleicht der wichtigste Punkt. Wissenschaftliches Arbeiten bedeutet nicht, die eigene Meinung mit Zahlen hübscher zu machen. Es bedeutet, Bedingungen zu schaffen, unter denen man herausfinden kann, dass man falsch liegt.

Warum die Branche das selten macht

Vor diesem Hintergrund ist erklärbar, warum echte Evidenz in SEO und GEO selten ist. Nicht, weil alle unfähig wären. Sondern weil die Anreize dagegenstehen.

Belastbare Forschung ist teuer, langsam und liefert selten einfache Slogans. Sie produziert eher Sätze wie:

Bei Empfehlungs-Intents scheint natürliche Formulierung näher an realem Nutzerverhalten zu liegen, während Normalisierung bei einfachen Informations-Intents ausreichend stabil sein kann.

Das wäre wahrscheinlich näher an der Wahrheit. Aber es verkauft sich schlechter als:

Mach X und du gewinnst.

Die Branche belohnt klare, schnelle, handlungsleitende Aussagen. Wissenschaft belohnt vorsichtige, differenzierte, belastbare Aussagen. Diese beiden Logiken passen nicht gut zusammen.

Die typische SEO/GEO-Untersuchung tut deshalb oft fast spiegelbildlich das Gegenteil dessen, was methodisch nötig wäre: Sie arbeitet mit winzigen Stichproben statt mit Verteilungen. Sie vergleicht einzelne Antworten statt Ergebnisverteilungen. Sie hat keine Ground Truth, gegen die man prüfen könnte. Sie hat keinen Holdout. Sie hat keine Baseline. Sie misst oft nur einmal und verwechselt damit Modell- und Tagesschwankungen mit echtem Effekt. Und sie registriert keine Hypothesen vorab, sondern erzählt hinterher die Geschichte, die zu den Zahlen passt.

Auch das ist nicht als persönlicher Vorwurf gemeint. Viele dieser Auswertungen haben einen praktischen Zweck: Sie sollen Orientierung geben, Tools erklären, Hypothesen liefern oder Diskussionen anstoßen. Nur sollten wir sie dann auch als das behandeln — und nicht so tun, als wären sie bereits belastbare Evidenz.

Warum Hanns’ Beispiel trotzdem wichtig ist

Gerade deshalb finde ich die Debatte um Hanns’ Ansatz wertvoll.

Nicht, weil sie zeigt, dass jemand falsch liegt. Sondern weil sie zeigt, wie eine ernsthafte Methodendebatte aussehen kann.

Hanns trifft eine klare, begründete Messentscheidung. Diese Entscheidung hat eine nachvollziehbare Logik. Gleichzeitig lässt sich eine prüfbare Frage daran formulieren: Welche Informationen gehen durch die Normalisierung verloren, und sind sie für GEO-relevante Ergebnisse relevant?

Das ist viel mehr Wissenschaft, als die meisten Branchendebatten leisten.

Niemand muss dogmatisch behaupten: „Normalisierung ist falsch.“ Es reicht zu sagen: „Normalisierung ist eine starke und plausible Methode. Aber ihre Validität hängt an einer empirischen Annahme, die man prüfen sollte.“

Wenn C gewinnt, spricht das für Hanns’ Methode. Wenn B gewinnt, spricht das für natürliche Repräsentanz. Wenn D gewinnt, lernen beide Seiten etwas. In allen Fällen wäre die Branche klüger als vorher.

Genau so beginnt Erkenntnis.

Die eigentliche Frage

Die spannende Frage ist deshalb nicht nur:

Sollen wir Prompts normalisieren oder nicht?

Die größere Frage lautet:

Sind wir bereit, den Preis zu zahlen, den es kostet, etwas wirklich zu wissen?

Solange die Antwort meistens „nein“ lautet, wird die SEO/GEO-Branche weiter sehr viel publizieren und vergleichsweise wenig sicher wissen.

Das ist kein Vorwurf an Einzelne. Niemand kann jede Methode selbst vollständig validieren. Aber genau deshalb sollten wir sauberer unterscheiden zwischen dem, was wir wissen, dem, was wir vermuten, und dem, was wir nur übernommen haben.

Und jetzt mal ganz ehrlich: zu dir

Bevor du das auf „die Branche“ schiebst, dreh die Frage einmal auf dich selbst.

Wie viele Dinge hältst du für „wahr“ oder „richtig“, einfach weil ein Toolanbieter, eine Agentur oder ein:e Freelancer:in sie dir als Wahrheit verkauft hat? Wie viele Best Practices wendest du an, deren Herkunft du nie geprüft hast — weil sie alle sagen? Wie viel von dem, was in deinen Reports und Strategien als Gewissheit steht, hast du wirklich selbst hinterfragt? Getestet? Mit einer Baseline verglichen? An echten Daten validiert?

Und bei dem Rest — bei den meisten Punkten, ehrlicherweise: Woher weißt du eigentlich, dass es stimmt?

Im klassischen SEO war dieses Vertrauen irgendwann halbwegs vertretbar. Da gibt es mittlerweile zwei Jahrzehnte aus Versuch und Irrtum: Vieles wurde tausendfach durchgespielt, widerlegt, bestätigt, nachgeschärft. Aus diesem langen Reibungsprozess sind Best Practices entstanden, die man — mit Vorsicht — übernehmen kann, ohne jede einzelne selbst neu zu beweisen.

Im GEO gibt es das schlicht noch nicht. Keine gut abgehangenen, über Jahre erprobten, allseits akzeptierten Best Practices.

Was heute als „GEO-Wahrheit“ durch LinkedIn wandert, ist oft nur ein paar Monate alt, basiert auf einer Handvoll Beobachtungen an Systemen, die sich ständig verändern — und niemand hat es unter den Bedingungen geprüft, die es ernsthaft prüfen würden.

Hier ist Skepsis kein Zynismus. Sie ist methodische Hygiene.

Niemand kann alles selbst nachmessen, dafür ist der oben skizzierte Aufwand viel zu groß. Aber genau deshalb lohnt sich die ehrliche Unterscheidung: Was hast du geprüft, was hast du übernommen — und behandelst du beides im Alltag wirklich unterschiedlich?

Wer das ernst nimmt, sagt häufiger „das wissen wir noch nicht“ und seltener „das ist so“. Das ist unbequemer. Aber es ist der einzige Weg, auf dem aus einer Meinungsbranche langsam eine Erkenntnisbranche wird.

Die Bühne im Maschinengeist: Was Claude über unser eigenes Denken verraten könnte

Schlechte Prompts, schlechte Texte: Warum mich diese KI-„Studie“ so ärgert

Zitiert heißt nicht empfohlen: Was drei Experimente über Self-Promotional Content in der KI-Suche zeigen

Agenten sind keine Kolleg:innen. Und genau deshalb brauchen sie eine Plattform

Vom Bauchgefühl zur Evidenz: Warum GEO wissenschaftlicher arbeiten muss

Ein gutes Beispiel für eine echte Methodenfrage

Aus einer Meinung wird eine testbare Hypothese

Reliabilität ist nicht dasselbe wie Validität

Die prüfbare Annahme hinter Normalisierung

Warum diese Frage bei GEO besonders wichtig ist

Ein Experiment, das die Frage beantworten könnte

A ist nicht ein Prompt, sondern die Zielverteilung

Noch sauberer: mit Holdout arbeiten

Warum Gruppe D so wichtig ist

Was genau wird verglichen?

Zentrale Metriken

Nicht nur global, sondern nach Intent-Typ auswerten

Wie man B sauber konstruiert

Wie man C fair konstruiert

Ein realistischer Pilot

Wiederholungen, Zeit und Kontrolle

Was heißt „besser nachgebildet“?

Die wichtigste Ergebnisdarstellung

Hypothesen vorab registrieren

Was an diesem Design wissenschaftlich ist

Warum die Branche das selten macht

Warum Hanns’ Beispiel trotzdem wichtig ist

Die eigentliche Frage

Und jetzt mal ganz ehrlich: zu dir

Abonniere das AFAIK-Update

Weitere Beiträge

Die Bühne im Maschinengeist: Was Claude über unser eigenes Denken verraten könnte

Schlechte Prompts, schlechte Texte: Warum mich diese KI-„Studie“ so ärgert

Zitiert heißt nicht empfohlen: Was drei Experimente über Self-Promotional Content in der KI-Suche zeigen

Agenten sind keine Kolleg:innen. Und genau deshalb brauchen sie eine Plattform