Die SEO- und GEO-Branche produziert gerade enorm viele Inhalte über Messung. Fast täglich erscheinen neue Auswertungen, Benchmarks, Tool-Vergleiche, Prompt-Experimente und vermeintliche Best Practices. Das ist verständlich: Alle versuchen, ein neues Feld greifbar zu machen.
Trotzdem wissen wir erstaunlich wenig wirklich sicher.
Viele dieser Veröffentlichungen sind wertvoll als Beobachtung, als Hypothese oder als praktischer Erfahrungsbericht. Sie können inspirieren, Orientierung geben und Diskussionen anstoßen. Aber sie sind selten so angelegt, dass daraus belastbare, replizierbare Erkenntnisse entstehen. Häufig arbeiten sie mit kleinen Stichproben, unklaren Auswahlverfahren, fehlenden Baselines und Messdesigns, die plausibel wirken, aber wissenschaftlich kaum geprüft sind.
Das Problem ist nicht, dass Praxiswissen wertlos wäre. Das Problem ist, dass wir Praxiswissen oft so behandeln, als wäre es bereits Evidenz.
Wir sollten wissenschaftlicher arbeiten. Nicht, weil Wissenschaft besser klingt. Sondern weil sie uns zwingt, zwischen dem zu unterscheiden, was wir wissen, was wir vermuten und was wir nur überzeugend erzählen können.
Wissenschaftliches Arbeiten ist anstrengend, komplex, kompliziert und sehr kleinteilig. Man muss einen riesigen Aufwand für oft sehr kleine Erkenntnisse treiben. Aber genau diese kleinen Erkenntnisse sind dann — vorausgesetzt, man hat sauber gearbeitet — auch wirklich belastbar.
Und genau darum geht es mir in diesem Text: nicht darum, einzelne Menschen oder einzelne Methoden abzuwerten, sondern darum, den Unterschied zwischen plausibler Praxis und belastbarer Evidenz ernst zu nehmen.
Ein gutes Beispiel für eine echte Methodenfrage
Wie anspruchsvoll das in GEO wird, sieht man ausgerechnet an einem Beispiel, das ich ausdrücklich nicht als Negativbeispiel verstehe. Im Gegenteil: Es zeigt, wie eine ernsthafte methodische Diskussion überhaupt aussehen kann.
Ein von mir sehr geschätzter Kollege, Hanns Kronenberg, verfolgt bei der GEO-Messung einen klaren und nachvollziehbaren Ansatz: Er normalisiert Prompts. Aus einem Roheingang wie
„Hey ChatGPT, kannst du mir bitte sagen, welche Anbieter für X gut sind?“
wird sinngemäß
„beste Anbieter für X“.
Die Begründung dahinter ist gut: Rohprompts enthalten viel Varianz — Höflichkeitsfloskeln, Ich-Kontext, Tippstil, Formulierungslaune, Kontextreste. Wer ein Messinstrument bauen will, will diese Varianz nicht unkontrolliert in der Messung haben. Ein Instrument, das bei scheinbar gleichem Sachverhalt stark schwankt, ist schwer interpretierbar.
Normalisierung versucht, diese Störfaktoren zu reduzieren, damit das Messinstrument stabiler wird. Das ist keine naive Abkürzung und auch kein methodischer Fehlgriff. Es ist eine legitime Messentscheidung.
In einer Infografik auf LinkedIn sieht man schön, dass Hanns bei der Normalisierung keinen pauschalen Kahlschlag vornimmt, sondern Füllwörter, Höflichkeit und Kontextreste entfernt und aus vielen Rohvarianten Intent-/Constraints-Gruppen für wenige Standardformen bildet:

Genau deshalb ist dieses Beispiel interessant: nicht, weil Hanns hier „falsch“ liegt, sondern weil an einer guten Methode sichtbar wird, was Wissenschaft leisten müsste.
Wissenschaft müsste nicht behaupten, ob Normalisierung richtig oder falsch ist. Sie müsste prüfen, unter welchen Bedingungen Normalisierung ein valider Messproxy ist — und unter welchen Bedingungen nicht.
Aus einer Meinung wird eine testbare Hypothese
Das ist der entscheidende Schritt. Solange wir nur sagen „ich glaube, natürliche Prompts sind besser“ oder „ich glaube, normalisierte Prompts sind stabiler“, führen wir eine Meinungsdebatte. Interessant wird es erst, wenn wir daraus prüfbare Hypothesen machen.
Die These des Normalisierungsansatzes könnte man so formulieren:
C, also normalisierte, komprimierte Prompts, ist ein guter Low-Cost-Proxy für die Ergebnisverteilung echter Prompts.
Meine Gegenthese wäre:
B, also natürliche repräsentative Prompts, bildet die Ergebnisverteilung echter Prompts besser ab als künstlich normalisierte Prompts.
Schon diese Formulierung verändert die Debatte. Es geht nicht mehr darum, wer rhetorisch überzeugender klingt. Es geht darum, welche Methode die reale Prompt-Welt besser approximiert.
Und genau so beginnt wissenschaftliches Arbeiten: Eine plausible Behauptung wird so formuliert, dass sie an Daten scheitern darf.
Reliabilität ist nicht dasselbe wie Validität
In der Messtheorie unterscheidet man zwei Eigenschaften eines Instruments, die gerne verwechselt werden:
Reliabilität bedeutet: Misst ein Instrument konsistent?
Validität bedeutet: Misst es tatsächlich das, was es messen soll?
Ein Messinstrument kann sehr stabil sein und trotzdem an der Zielgröße vorbeimessen. Eine Waage, die immer gleich abweicht, ist konsistent — aber nicht deshalb automatisch gültig. Genau diese Unterscheidung ist hier wichtig.
Die Normalisierung priorisiert zunächst Reliabilität: weniger Rauschen, stabilere Werte, besser reproduzierbare Reports.
Die offene wissenschaftliche Frage betrifft die Validität: Misst der normalisierte Prompt noch hinreichend gut das, was echte Nutzerprompts in generativen Systemen auslösen? Oder entsteht durch die Reduktion ein eigenes, sehr sauberes Messobjekt, das in bestimmten Fällen von realer Nutzung abweichen kann?
Das ist kein Argument gegen Hanns’ Methode. Es ist die Frage, die man stellen muss, wenn man sie wissenschaftlich ernst nimmt.
Die prüfbare Annahme hinter Normalisierung
Formal betrachtet ist Normalisierung eine verlustbehaftete Kompression. Ein Rohprompt enthält nicht nur Intent, sondern auch Constraints, Stil, Kontext und vermeintliches Rauschen.
Man könnte ihn vereinfacht so darstellen:
Rohprompt X = Intent I + Constraints C + Stil S + Kontext K + Rauschen R
Der normalisierte Prompt ist dann eine Funktion davon:
N = f(X)
Diese Reduktion ist dann ein gutes Messsignal, wenn die weggeworfenen Bestandteile tatsächlich keine relevante Zusatzinformation für das Ergebnis enthalten. Anders gesagt: Sobald man den normalisierten Prompt kennt, dürfte der ursprüngliche Rohprompt keine zusätzliche Information mehr darüber liefern, welche Antwort, welche Quellen oder welche Zitate entstehen.
Statistisch ausgedrückt:
Y ⟂ X | N
Auf Deutsch: Sobald man den normalisierten Prompt kennt, liefert der ursprüngliche Rohprompt keine zusätzliche Information mehr über das Ergebnis. Stil, Kontext und Constraints wären dann tatsächlich nur Rauschen.
Genau das ist die zentrale empirische Frage.
Nicht: „Ist Normalisierung richtig oder falsch?“
Sondern: „Reduziert Normalisierung nur Rauschen — oder entfernt sie intentrelevantes Signal?“
Warum diese Frage bei GEO besonders wichtig ist
In der klassischen Suche war es oft plausibel, Suchanfragen stärker zu vereinheitlichen. Viele Varianten landeten auf ähnlichen SERPs, und Suchmaschinen hatten über Jahre gelernt, kurze, keywordartige Queries zu interpretieren.
Bei generativen Systemen ist das weniger selbstverständlich. Der Prompt ist nicht einfach nur der Input in ein Ranking. Er kann der Ausgangspunkt für eine ganze interne Verarbeitungskette sein: Umschreibung, Query Fan-out, Retrieval, Quellenbewertung, Antwortmodus, Zitierauswahl.
Die Oberfläche des Prompts kann also mehr sein als nur Rauschen. Ton, Kontext, Detailgrad, Constraints oder Nutzersituation können beeinflussen, welche internen Suchanfragen entstehen, welche Quellen herangezogen werden und ob eine Antwort eher beratend, erklärend, vergleichend oder transaktional ausfällt.
Wenn das stimmt, dann wäre Normalisierung in manchen Fällen ein sehr gutes Analysehilfsmittel, aber nicht zwingend die alleinige Grundlage einer Erfolgsmessung.
Noch einmal: Das ist keine Widerlegung. Es ist eine Hypothese.
Und Hypothesen sind genau dafür da, getestet zu werden.
Ein Experiment, das die Frage beantworten könnte
Der wichtigste Punkt wäre: Wir dürfen nicht einzelne Antworten vergleichen.
Eine einzelne Antwort ist bei generativen Systemen viel zu instabil. Sie kann durch Tageszeit, Modellversion, Session, Randomness, Suchindex, Personalisierung, Standort oder kleine Formulierungsdetails schwanken. Wer einzelne Antworten nebeneinanderlegt, macht aus Rauschen schnell eine Geschichte.
Sauberer wäre deshalb eine andere Frage:
Welche Prompt-Methode approximiert die Verteilung von Antworten, Quellen, Zitierungen, Marken-Nennungen und Empfehlungen aus echten Prompts am besten?
Das Grunddesign sähe so aus:
Gruppe A: echte Prompts
= Ground Truth / Referenzverteilung
Gruppe B: repräsentative natürliche Prompts
= komprimierter natürlicher Proxy
Gruppe C: normalisierte Prompts
= komprimierter intentbasierter Proxy
Gruppe D: zufällige Stichprobe echter Prompts
= Kontrollgruppe / harte Baseline
Dann misst man:
Wie nah liegt B an A?
Wie nah liegt C an A?
Wie nah liegt D an A?
Wenn B näher an A liegt, spricht das für die These, dass natürliche Repräsentanz für GEO aussagekräftiger ist. Wenn C gleich nah oder näher an A liegt, spricht das für Hanns’ These, dass Normalisierung ein guter Low-Cost-Proxy ist. Wenn D gewinnt, wäre der Befund besonders interessant: Dann wäre die beste Low-Cost-Methode möglicherweise gar keine künstliche Prompt-Erzeugung, sondern echtes Sampling.
Und wenn B, C und D alle stark von A abweichen, wäre auch das ein wichtiger wissenschaftlicher Befund: Einzelne Prompt-Proxies reichen für bestimmte GEO-Messungen womöglich grundsätzlich nicht aus.
Wichtig ist: In keinem dieser Fälle „verliert“ eine Person. Es verliert höchstens eine Annahme. Und genau das ist der Sinn wissenschaftlichen Arbeitens.
A ist nicht ein Prompt, sondern die Zielverteilung
Der häufigste Denkfehler wäre, A als einen „echten Prompt“ zu verstehen. Das wäre falsch. A ist die Referenzverteilung echter Prompts pro Intent.
Beispiel:
Intent:
Steuersoftware für Selbstständige vergleichen
A: 100 echte Prompts
- Welche Steuersoftware ist gut für Freelancer?
- Ich bin selbstständig, womit mache ich am besten meine Steuer?
- Taxfix oder WISO für Selbstständige?
- einfache Steuerapp für Freiberufler
- beste Software Steuererklärung Kleinunternehmer
- ...
Daraus erzeugt man dann:
B: 10 repräsentative natürliche Prompts
C: 10 normalisierte Prompts oder normalisierte Intent-Varianten
D: 10 zufällig gezogene echte Prompts
Wichtig ist, dass dieses Verhältnis pro Intent-Gruppe gilt, nicht nur über das gesamte Experiment. Sonst kann es passieren, dass eine Methode bei manchen Intents über- oder unterrepräsentiert ist.
Noch sauberer: mit Holdout arbeiten
Ein häufiger methodischer Fehler wäre, aus allen echten Prompts die repräsentativen und normalisierten Prompts zu bauen und sie dann wieder gegen genau dieselbe Menge zu testen.
Das klingt harmlos, ist aber problematisch. Dann prüft man nur, ob eine Methode eine bekannte Prompt-Menge gut zusammenfassen kann. Interessanter ist die Frage, ob sie eine unbekannte reale Prompt-Verteilung gut approximiert.
Sauberer wäre deshalb:
A_total: alle echten Prompts
A_train: echte Prompts, aus denen B, C und D abgeleitet werden
A_test: echte Prompts, die B, C und D nachbilden müssen
Der Ablauf wäre:
1. Sammle echte Prompts.
2. Teile sie in Train und Test.
3. Erzeuge B, C und D nur aus Train.
4. Vergleiche B, C und D gegen Test.
Damit wird das Experiment methodisch deutlich stärker. Es prüft nicht nur Kompression, sondern Generalisierung.
Warum Gruppe D so wichtig ist
Neben A, B und C würde ich unbedingt eine vierte Gruppe ergänzen:
Gruppe D:
zufällige 10%-Stichprobe echter Prompts
D ist die wichtigste Benchmark, weil sie eine unangenehme, aber notwendige Frage beantwortet:
Wie gut wäre ich, wenn ich einfach 10 Prozent echte Prompts zufällig nehme und gar keine intelligente Repräsentation baue?
Diese Kontrollgruppe verhindert, dass man B oder C überschätzt. Eine kluge Methode muss nicht nur plausibel klingen. Sie muss besser sein als ein einfacher, billiger Zufallsgriff aus der echten Verteilung.
Die Interpretation wäre dann:
B besser als C:
Natürliche repräsentative Prompts approximieren A besser als Normalisierung.
C besser als B:
Normalisierte Prompts funktionieren als Messproxy besser.
B nicht besser als D:
Die natürliche Repräsentation bringt wenig gegenüber Zufall.
C nicht besser als D:
Normalisierung bringt wenig gegenüber Zufall.
B und C schlechter als D:
Echte natürliche Variation ist wichtiger als kuratierte Kompression.
B und C ähnlich nah an A:
Prompt-Reduktion funktioniert für diesen Intent-Typ grundsätzlich.
Das ist Wissenschaft in einer sehr nüchternen Form: Man baut ein Design, in dem die eigene Lieblingsmethode verlieren kann.
Was genau wird verglichen?
Nicht: „Ist die Antwort wortgleich?“
Das wäre der falsche Vergleich. Für GEO ist entscheidend, ob B, C oder D die relevanten Signale aus A nachbilden. Ich würde mindestens diese Outcome-Klassen messen:
1. Marken-Nennung
2. Domain-Zitierung
3. URL-Zitierung
4. Empfehlung / Ranking
5. Antwortstruktur
6. Quellenklasse
7. Themen- und Argumentationsmuster
8. Sentiment / Empfehlungsstärke
Beispiel für einen Intent:
A echte Prompts:
- Marke X wird in 38% der Antworten genannt
- Domain X wird in 12% der Antworten zitiert
- Wettbewerber Y wird in 44% empfohlen
- Vergleichsportale machen 35% der Quellen aus
- Herstellerseiten machen 20% der Quellen aus
B:
- Marke X 35%
- Domain X 14%
- Wettbewerber Y 41%
- Vergleichsportale 33%
- Herstellerseiten 22%
C:
- Marke X 58%
- Domain X 4%
- Wettbewerber Y 61%
- Vergleichsportale 12%
- Herstellerseiten 49%
In diesem Beispiel wäre B deutlich näher an A. C hätte dann womöglich weniger Rauschen, aber mehr Bias. Das wäre kein moralischer Befund, sondern ein methodischer: Die Normalisierung hätte in diesem Intent-Typ relevante Signale entfernt oder verschoben.
Zentrale Metriken
Pro Intent, Engine und Messzeitpunkt könnte man verschiedene Abweichungen berechnen.
1. Brand Visibility Error
| Sichtbarkeit_B - Sichtbarkeit_A |
| Sichtbarkeit_C - Sichtbarkeit_A |
| Sichtbarkeit_D - Sichtbarkeit_A |
Beispiel:
A: Marke wird in 40% genannt
B: Marke wird in 36% genannt → Fehler: 4 Prozentpunkte
C: Marke wird in 55% genannt → Fehler: 15 Prozentpunkte
D: Marke wird in 43% genannt → Fehler: 3 Prozentpunkte
2. Citation Error
Für Domains und URLs wäre die Frage: Finden B, C und D dieselben Quellenlandschaften wie A?
Domain Share of Citations
URL Share of Citations
Top-k Citation Recall
Citation Jaccard Similarity
Nicht jede einzelne URL muss identisch sein. Aber die Verteilung der Domains und Quellentypen sollte ähnlich sein.
3. Recommendation Error
Für empfohlene Anbieter, Produkte, Tools oder Marken müsste man messen:
Welche Entities werden empfohlen?
Wie oft werden sie empfohlen?
In welcher Reihenfolge erscheinen sie?
Wie stark ist die Empfehlung?
Mögliche Metriken wären:
Top-k Entity Overlap
Ranking-Korrelation
NDCG
Share of Recommendation
4. Source-Class Distribution
Für Content-Strategie wäre besonders wichtig, ob dieselben Quellenklassen ausgelöst werden:
A zitiert:
30% Vergleichsportale
25% Herstellerseiten
20% Medien
15% Foren / Reddit
10% Behörden / Studien
Wenn normalisierte Prompts zum Beispiel viel häufiger Herstellerseiten triggern, natürliche Prompts aber eher Foren, Vergleichsportale oder Ratgeberseiten, dann ist das strategisch ein riesiger Unterschied.
5. Antwortmodus
Auch der Antworttyp sollte gemessen werden:
direkte Empfehlung
Vergleich
How-to
Liste
Ratgeberantwort
Definition
Warnung / Einschränkung
Kaufberatung
Ein normalisierter Prompt wie
beste steuersoftware selbstständige
kann ein anderes Antwortformat erzeugen als
Ich bin selbstständig und suche eine einfache Software für meine Steuererklärung. Was würdest du empfehlen?
Für GEO ist das relevant, weil Empfehlungen und Zitate oft vom Antwortmodus abhängen.
Nicht nur global, sondern nach Intent-Typ auswerten
Ein globaler Durchschnitt wäre wahrscheinlich zu grob. Viel spannender wäre eine Auswertung nach Intent-Typ.
Am Ende sollte nicht einfach dort stehen:
B ist besser als C.
Sondern eher:
Bei informationalen Intents ist C ähnlich gut.
Bei Empfehlungs-Intents ist B deutlich besser.
Bei transaktionalen Intents kippt C die Quellenlandschaft.
Bei lokalen Intents ist natürliche Formulierung entscheidend.
Bei einfachen Head-Intents reicht C oft aus.
Das wäre vermutlich der wertvollste Befund, weil er beiden Seiten gerecht würde. Normalisierung wäre dann nicht „falsch“ oder „richtig“, sondern unter bestimmten Bedingungen nützlich und unter anderen Bedingungen riskanter.
Meine Erwartung wäre:
Normalisierte Prompts funktionieren vermutlich besser bei:
- einfachen Informationsintents
- Definitionen
- generischen Head-Themen
- stabilen Wissensfragen
- klassischen suchquery-ähnlichen Aufgaben
Natürliche repräsentative Prompts funktionieren vermutlich besser bei:
- Empfehlungen
- Anbieter- und Produktvergleichen
- Kaufberatung
- Problem-Lösungs-Intents
- persönlichen oder constraint-reichen Situationen
- lokalen Suchen
- B2B-Entscheidungsfragen
- Use-Case-getriebenen Content-Strategien
Aber auch das wäre nur eine Hypothese. Und genau deshalb müsste man sie testen.
Wie man B sauber konstruiert
Für repräsentative natürliche Prompts sollte B nicht einfach manuell geschrieben werden. Das wäre angreifbar und würde zu viel subjektives Bauchgefühl ins Experiment bringen.
B sollte aus A_train abgeleitet werden:
1. Echte Prompts pro Intent sammeln.
2. Embeddings bilden.
3. Innerhalb des Intents Subcluster finden.
4. Pro Subcluster den Medoid-Prompt wählen.
5. Optional leicht redaktionell glätten, aber natürlich lassen.
Ein Medoid ist der echte Prompt, der dem Zentrum eines Clusters am nächsten liegt. Dadurch ist B nicht ausgedacht, sondern repräsentativ für echte Formulierungen.
Beispiel:
Intent:
beste Steuersoftware für Selbstständige
Subcluster 1:
"Welche Steuersoftware ist gut für Freelancer?"
Subcluster 2:
"Ich bin selbstständig und brauche ein einfaches Tool für die Steuer."
Subcluster 3:
"WISO oder Lexware für Selbstständige?"
Subcluster 4:
"Beste Steuer App für Freiberufler Deutschland"
Subcluster 5:
"Steuererklärung Kleinunternehmer Software Empfehlung"
Dann besteht B aus echten, natürlichen Stellvertreterprompts. Das macht die Methode empirisch deutlich stärker als „ich formuliere nach Gefühl repräsentative Prompts“.
Wie man C fair konstruiert
Auch C sollte nicht unfair gebaut werden. Sonst testet man nicht die beste Version des Normalisierungsansatzes, sondern eine Karikatur davon.
Für Hanns’ Methode bräuchte man eine klare Normalisierungsregel, zum Beispiel:
- Anreden entfernen
- Höflichkeit entfernen
- Ich-Kontext entfernen, sofern nicht intentrelevant
- Füllwörter entfernen
- Synonyme vereinheitlichen
- Reihenfolge standardisieren
- Constraints erhalten
- auf Kleinbuchstaben normalisieren
- keine Frageform erzwingen
Beispiel:
Rohprompt:
Ich bin selbstständig und suche eine einfache Software für meine Steuererklärung. Welche Anbieter sind empfehlenswert?
Normalisiert:
steuersoftware selbstständige deutschland empfehlung einfach
Wichtig ist: C darf nicht absichtlich schlecht oder zu keywordhaft gebaut werden. Die faire Version wäre:
C = bestmögliche normalisierte Intent-Repräsentation
Nur dann testet man die eigentliche These ernsthaft.
Ein realistischer Pilot
Ein sinnvoller Pilot könnte so aussehen:
50 Intent-Gruppen
× 40 echte Prompts pro Intent für A_test
= 2.000 echte Prompts als Ground Truth
B:
4 repräsentative natürliche Prompts pro Intent
= 200 Prompts
C:
4 normalisierte Prompts pro Intent
= 200 Prompts
D:
4 zufällige echte Prompts pro Intent
= 200 Prompts
Dann pro Engine:
A: 2.000 Runs
B: 200 Runs
C: 200 Runs
D: 200 Runs
= 2.600 Runs pro Engine und Wiederholung
Bei vier Oberflächen:
ChatGPT
Perplexity
Google AI Mode
Google AI Overviews
ergibt das:
2.600 × 4 = 10.400 Runs pro Wiederholung
Mit drei Wiederholungen:
31.200 Runs
Das ist groß genug, um erste robuste Aussagen zu treffen. Und es zeigt zugleich, warum echte Wissenschaft in GEO so selten ist: Schon die Beantwortung einer einzigen Methodenfrage landet schnell im fünfstelligen Abfragebereich.
Für einen kleineren MVP könnte man reduzieren:
20 Intent-Gruppen
× 30 echte Prompts
= 600 A-Prompts
B: 3 pro Intent = 60
C: 3 pro Intent = 60
D: 3 pro Intent = 60
Gesamt:
780 Prompts × 4 Engines × 3 Wiederholungen
= 9.360 Runs
Auch das wäre noch kein perfektes Forschungsprogramm. Aber es wäre bereits deutlich näher an wissenschaftlicher Evidenz als das, was in unserer Branche oft als „Studie“ verkauft wird.
Wiederholungen, Zeit und Kontrolle
Wiederholungen sind nötig, weil KI-Antworten nicht deterministisch stabil sind. Ein sauberes Design müsste deshalb mindestens kontrollieren:
3 Wiederholungen pro Prompt
an mehreren Tagen
randomisierte Reihenfolge
neue Session pro Prompt
keine History
keine Personalisierung
gleiche Sprache
gleicher Standort
gleicher Device- und Browser-Kontext, soweit möglich
Sonst verwechselt man Prompt-Effekte mit Tages-, Modell-, Index- oder Session-Effekten.
Auch das ist ein wichtiger Teil wissenschaftlichen Arbeitens: Man versucht nicht nur, den Effekt zu finden, den man sehen möchte. Man versucht aktiv, alternative Erklärungen auszuschließen.
Was heißt „besser nachgebildet“?
Am Ende bräuchte man einen transparenten Gesamtscore, aber mit nachvollziehbaren Subscores. Zum Beispiel:
Proxy Fidelity Score =
w1 × Brand Visibility Fidelity
+ w2 × Citation Fidelity
+ w3 × Recommendation Fidelity
+ w4 × Source-Class Fidelity
+ w5 × Answer-Mode Fidelity
Eine beispielhafte Gewichtung für GEO-Reporting könnte sein:
30% Empfehlungen / Rankings
25% Quellen & Zitationen
20% Marken-/Domain-Sichtbarkeit
15% Antwortstruktur / Intent-Erfüllung
10% Quellenklassen
Für Content-Strategie würde man Quellenklassen und Themenmuster vielleicht stärker gewichten. Für reines GEO-Reporting eher Brand, Domain und Recommendation.
Dann erhält man pro Intent:
Fidelity_B_to_A
Fidelity_C_to_A
Fidelity_D_to_A
Und über alle Intents zum Beispiel:
B schlägt C in 37 von 50 Intent-Gruppen.
C schlägt B in 8 von 50 Intent-Gruppen.
Kein signifikanter Unterschied in 5 von 50 Intent-Gruppen.
D schlägt beide in 12 von 50 Intent-Gruppen.
Das wäre wesentlich aussagekräftiger als ein globaler Durchschnitt oder ein einzelnes Beispiel.
Die wichtigste Ergebnisdarstellung
Am Ende würde ich keine Siegergeschichte erzählen, sondern eine Matrix bauen:
| Intent-Typ | B näher an A | C näher an A | D näher an A | Interpretation |
|---|---|---|---|---|
| Informational | 45% | 40% | 15% | Normalisierung oft brauchbar |
| Empfehlung | 70% | 10% | 20% | Natürliche Prompts klar besser |
| Vergleich | 65% | 15% | 20% | Normalisierung verzerrt Rankings |
| Lokal | 75% | 5% | 20% | Kontext entscheidend |
| How-to | 50% | 30% | 20% | Gemischt |
| Branded | 40% | 35% | 25% | Beide brauchbar |
Genau solche Ergebnisse wären wertvoll. Nicht, weil sie eine Seite vernichten. Sondern weil sie differenzieren.
Vielleicht ist Normalisierung bei einfachen Informationsintents völlig ausreichend. Vielleicht ist natürliche Formulierung bei Empfehlungs-, Vergleichs- und Kaufberatungs-Intents deutlich näher an der Realität. Vielleicht ist bei lokalen Suchen Kontext entscheidend. Vielleicht ist bei bestimmten Head-Intents fast egal, wie man formuliert.
Das wäre keine Schwäche. Das wäre Erkenntnis.
Hypothesen vorab registrieren
Ein weiterer wissenschaftlicher Schritt wäre, die Hypothesen vorab festzulegen. Nicht erst nach den Daten erzählen, was man angeblich schon immer erwartet hat.
Ich würde vorab etwa diese Hypothesen formulieren:
H1:
Normalisierte Prompts weichen bei Quellen- und Zitierverhalten stärker von echten Prompts ab als repräsentative natürliche Prompts.
H2:
Der Unterschied ist bei Empfehlungs-, Vergleichs- und Kaufberatungs-Intents größer als bei einfachen Informations-Intents.
H3:
Normalisierte Prompts erzeugen stabilere, aber nicht zwingend repräsentativere Ergebnisse.
H4:
Repräsentative natürliche Prompts haben mehr Varianz, aber geringeren Bias gegenüber echten Prompts.
H5:
Eine zufällige 10%-Stichprobe echter Prompts ist ein harter Benchmark, den B und C schlagen müssen.
Auch hier geht es nicht darum, vorher recht zu haben. Es geht darum, sich selbst daran zu hindern, hinterher jede Beobachtung zur Bestätigung der eigenen Meinung umzudeuten.
Was an diesem Design wissenschaftlich ist
Das Experiment wäre nicht deshalb wissenschaftlich, weil es kompliziert klingt. Es wäre wissenschaftlich, weil es ein paar unbequeme methodische Mindeststandards erfüllt:
- Es formuliert prüfbare Hypothesen.
- Es definiert eine Ground Truth.
- Es arbeitet mit Holdout-Daten.
- Es vergleicht Verteilungen statt Einzelfälle.
- Es nutzt eine Kontrollgruppe.
- Es trennt Reliabilität von Validität.
- Es kontrolliert Störfaktoren.
- Es erlaubt, dass die eigene These scheitert.
Das letzte ist vielleicht der wichtigste Punkt. Wissenschaftliches Arbeiten bedeutet nicht, die eigene Meinung mit Zahlen hübscher zu machen. Es bedeutet, Bedingungen zu schaffen, unter denen man herausfinden kann, dass man falsch liegt.
Warum die Branche das selten macht
Vor diesem Hintergrund ist erklärbar, warum echte Evidenz in SEO und GEO selten ist. Nicht, weil alle unfähig wären. Sondern weil die Anreize dagegenstehen.
Belastbare Forschung ist teuer, langsam und liefert selten einfache Slogans. Sie produziert eher Sätze wie:
Bei Empfehlungs-Intents scheint natürliche Formulierung näher an realem Nutzerverhalten zu liegen, während Normalisierung bei einfachen Informations-Intents ausreichend stabil sein kann.
Das wäre wahrscheinlich näher an der Wahrheit. Aber es verkauft sich schlechter als:
Mach X und du gewinnst.
Die Branche belohnt klare, schnelle, handlungsleitende Aussagen. Wissenschaft belohnt vorsichtige, differenzierte, belastbare Aussagen. Diese beiden Logiken passen nicht gut zusammen.
Die typische SEO/GEO-Untersuchung tut deshalb oft fast spiegelbildlich das Gegenteil dessen, was methodisch nötig wäre: Sie arbeitet mit winzigen Stichproben statt mit Verteilungen. Sie vergleicht einzelne Antworten statt Ergebnisverteilungen. Sie hat keine Ground Truth, gegen die man prüfen könnte. Sie hat keinen Holdout. Sie hat keine Baseline. Sie misst oft nur einmal und verwechselt damit Modell- und Tagesschwankungen mit echtem Effekt. Und sie registriert keine Hypothesen vorab, sondern erzählt hinterher die Geschichte, die zu den Zahlen passt.
Auch das ist nicht als persönlicher Vorwurf gemeint. Viele dieser Auswertungen haben einen praktischen Zweck: Sie sollen Orientierung geben, Tools erklären, Hypothesen liefern oder Diskussionen anstoßen. Nur sollten wir sie dann auch als das behandeln — und nicht so tun, als wären sie bereits belastbare Evidenz.
Warum Hanns’ Beispiel trotzdem wichtig ist
Gerade deshalb finde ich die Debatte um Hanns’ Ansatz wertvoll.
Nicht, weil sie zeigt, dass jemand falsch liegt. Sondern weil sie zeigt, wie eine ernsthafte Methodendebatte aussehen kann.
Hanns trifft eine klare, begründete Messentscheidung. Diese Entscheidung hat eine nachvollziehbare Logik. Gleichzeitig lässt sich eine prüfbare Frage daran formulieren: Welche Informationen gehen durch die Normalisierung verloren, und sind sie für GEO-relevante Ergebnisse relevant?
Das ist viel mehr Wissenschaft, als die meisten Branchendebatten leisten.
Niemand muss dogmatisch behaupten: „Normalisierung ist falsch.“ Es reicht zu sagen: „Normalisierung ist eine starke und plausible Methode. Aber ihre Validität hängt an einer empirischen Annahme, die man prüfen sollte.“
Wenn C gewinnt, spricht das für Hanns’ Methode. Wenn B gewinnt, spricht das für natürliche Repräsentanz. Wenn D gewinnt, lernen beide Seiten etwas. In allen Fällen wäre die Branche klüger als vorher.
Genau so beginnt Erkenntnis.
Die eigentliche Frage
Die spannende Frage ist deshalb nicht nur:
Sollen wir Prompts normalisieren oder nicht?
Die größere Frage lautet:
Sind wir bereit, den Preis zu zahlen, den es kostet, etwas wirklich zu wissen?
Solange die Antwort meistens „nein“ lautet, wird die SEO/GEO-Branche weiter sehr viel publizieren und vergleichsweise wenig sicher wissen.
Das ist kein Vorwurf an Einzelne. Niemand kann jede Methode selbst vollständig validieren. Aber genau deshalb sollten wir sauberer unterscheiden zwischen dem, was wir wissen, dem, was wir vermuten, und dem, was wir nur übernommen haben.
Und jetzt mal ganz ehrlich: zu dir
Bevor du das auf „die Branche“ schiebst, dreh die Frage einmal auf dich selbst.
Wie viele Dinge hältst du für „wahr“ oder „richtig“, einfach weil ein Toolanbieter, eine Agentur oder ein:e Freelancer:in sie dir als Wahrheit verkauft hat? Wie viele Best Practices wendest du an, deren Herkunft du nie geprüft hast — weil sie alle sagen? Wie viel von dem, was in deinen Reports und Strategien als Gewissheit steht, hast du wirklich selbst hinterfragt? Getestet? Mit einer Baseline verglichen? An echten Daten validiert?
Und bei dem Rest — bei den meisten Punkten, ehrlicherweise: Woher weißt du eigentlich, dass es stimmt?
Im klassischen SEO war dieses Vertrauen irgendwann halbwegs vertretbar. Da gibt es mittlerweile zwei Jahrzehnte aus Versuch und Irrtum: Vieles wurde tausendfach durchgespielt, widerlegt, bestätigt, nachgeschärft. Aus diesem langen Reibungsprozess sind Best Practices entstanden, die man — mit Vorsicht — übernehmen kann, ohne jede einzelne selbst neu zu beweisen.
Im GEO gibt es das schlicht noch nicht. Keine gut abgehangenen, über Jahre erprobten, allseits akzeptierten Best Practices.
Was heute als „GEO-Wahrheit“ durch LinkedIn wandert, ist oft nur ein paar Monate alt, basiert auf einer Handvoll Beobachtungen an Systemen, die sich ständig verändern — und niemand hat es unter den Bedingungen geprüft, die es ernsthaft prüfen würden.
Hier ist Skepsis kein Zynismus. Sie ist methodische Hygiene.
Niemand kann alles selbst nachmessen, dafür ist der oben skizzierte Aufwand viel zu groß. Aber genau deshalb lohnt sich die ehrliche Unterscheidung: Was hast du geprüft, was hast du übernommen — und behandelst du beides im Alltag wirklich unterschiedlich?
Wer das ernst nimmt, sagt häufiger „das wissen wir noch nicht“ und seltener „das ist so“. Das ist unbequemer. Aber es ist der einzige Weg, auf dem aus einer Meinungsbranche langsam eine Erkenntnisbranche wird.
Abonniere das AFAIK-Update
Bleib auf dem Laufenden in Sachen Künstliche Intelligenz im Online Marketing!
Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen Rund um KI aus den Bereichen Online-Marketing, SEO, GEO, WordPress und vieles mehr.
Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Monat eine E-Mail von mir. Versprochen.