Von Prompt Generierung zu Prompt Decoding: Wie Prompt Research wirklich funktioniert

Bist du gerade dabei, deine erste GEO-Kampagne zu planen, und fragst dich, woher du die Prompts nehmen sollst, die du tracken kannst – oder woher GEO-Tracking-Tools ihre Vorschläge bekommen?

Dann solltest du wissen, was Prompt Decoding ist und wie Prompt Generierung funktioniert.

Genau das erkläre ich dir in diesem Beitrag – mit wissenschaftlichem Hintergrund, praktischen Beispielen und SEO-Kontext.

Wer sich ernsthaft mit GEO (Generative Engine Optimization) beschäftigt – also der Optimierung für KI-Suchen und Chatbots wie ChatGPT, Gemini, Perplexity, Copilot oder Googles neuen KI-Modus – steht schnell vor einem zentralen Problem: Wir haben keine echten Nutzungsdaten!

Als klassische SEOs arbeiten wir mit Keyword-Tools, Suchvolumina und Daten aus der Search Console. GEO hingegen funktioniert völlig anders: Kein Chatbot – weder ChatGPT, Gemini, Claude, Grok, Meta AI noch Google im KI-Modus – liefert Daten darüber, was Menschen dort eingeben oder wie sie fragen. Selbst bei KI-Suchmaschinen wie Perplexity bekommen wir keine echten Suchanfragen oder Klickdaten.

Selbst wenn Besucher:innen über KI-Suchen kommen, erfährst du nicht, welcher Prompt sie auf deine Seite geführt hat. Das macht GEO zu einem völlig neuen Spielfeld – und genau hier kommen Prompt Generierung und Prompt Decoding ins Spiel.

Prompt Generierung – Antworten aus der Blackbox

Ich habe mich früh gefragt: Wenn es keine Nutzerdaten gibt – wie können wir dann GEO optimieren?

Als ich Mitte 2024 meinen Kurs „The Future of SEO“ veröffentlichte, existierten kaum GEO-Tracking-Tools oder Einblicke in Chatbot-Nutzung.

Also entwickelte ich eine eigene Lösung: Über einen CustomGPT und die Gemini-API generierte ich sogenannte implizite Fragen – also die zugrunde liegenden Bedürfnisse hinter Suchanfragen.

Damit konnte ich gezielt Inhalte für Googles AI Overviews und die damals neue Search Generative Experience (SGE) optimieren.

Die Idee hinter der Generierung von Prompts

Bei klassischen Suchmaschinen dachten wir in Keywords, weil sie keine natürlichen Fragen verstanden. Doch hinter jedem Keyword steckt eine implizite Frage oder Intention.

Beispiel: Bei der Suche nach „beste Laufschuhe 2025“ stehen meist diese Intentionen dahinter:

Welche Modelle sind empfehlenswert?
Welche Marke hat das beste Preis-Leistungs-Verhältnis?
Was ist neu auf dem Markt?

LLMs können aufgrund ihrer gigantischen Trainingsdaten diese Intentionen hinter den Suchanfragen erkennen und daraus abgeleitete Prompts erzeugen.

Ich nutzte zusätzlich das MECE-Framework (Mutually Exclusive, Collectively Exhaustive), um Themen vollständig, aber überschneidungsfrei zu strukturieren. So entstand eine geschlossene, logisch gegliederte Content-Basis – ideal für GEO.

Prompt Decoding – ein Blick ins Denken der Modell

Das sogenannte Prompt Decoding ist die konsequente Weiterentwicklung dieser Idee.
Statt Prompts zu erfinden, versucht man hier, repräsentative Prompts zu rekonstruieren, die echte KI-Nutzer:innen so oder ähnlich eingeben könnten.

Diese Methode wurde von Hanns Kronenberg (Head of SEO bei Chefkoch) entwickelt und erstmals auf dem legendären SEOktoberfest G50 Summit vorgestellt, wo er den 3. Platz belegte.

Das Besondere an seiner Technik: Er konnte mit seiner Analyse die gleichen Themencluster generieren („writing, knowledge, technology, everyday life, role play“), die im September 2025 im vom NEBR (National Economic Bureau of Research) veröffentlichten Working Paper “How People Use ChatGPT” beschrieben wurden, das auf offiziellen OpenAI-Daten basiert und von der Harvard University IRB (Institutional Review Board) genehmigt wurde.

Das Prinzip hinter Prompt Decoding

Beim Fine-Tuning lernen Sprachmodelle, auf reale menschliche Anfragen hilfreiche Antworten zu geben. Prompt Decoding kehrt diesen Prozess um: Man fragt das Modell, welche Arten von Prompts es erwarten würde.

Prompt Decoding wird damit zu einer neuen Form der Marktforschung: Man nutzt die im Modell verankerten impliziten Muster – keine echten Chats, aber das gelernte „Denken“ der KI.

Grenzen, Bias und Halluzinationen

So faszinierend die Methode klingt – normale Prompt Generierung hat klare Grenzen. Viele Versprechen klingen nach „magischem Zugriff auf Nutzerintentionen“, sind aber überinterpretiert.

1. Veraltete Trainingsdaten

Alle Modelle besitzen einen Knowledge Cut-Off.

Alles, was danach passiert, kennt das Modell nicht – es kann nur schätzen.
Ohne aktuelle Daten (z. B. über APIs oder RAG-Systeme) produziert das Modell also veraltete oder falsche Prompts. Gerade bei neuen Marken, Rebrandings oder Trends kann das zu Fehleinschätzungen führen.

2. Halluzination und Selbstüberschätzung

LLMs sind statistische Textgeneratoren, keine Wahrheitsmaschinen.

Sie berechnen die wahrscheinlichste Fortsetzung – nicht die richtige.
Deshalb entstehen sogenannte Halluzinationen: plausible, aber falsche Antworten.

Mit gezieltem Prompting kann man offenbar jedoch dieses Risiko reduzieren. Hanns Kronenberg empfiehlt etwa Rollen-Definitionen („Du bist ein analytisches Modell …“), fügt Unsicherheitsmarkierungen hinzu und hat noch eine Menge weiterer Prompt-Tricks eingesetzt.

Doch leider teilt er seinen Systemprompt nicht öffentlich, sondern hat ihn an das Tool RankScale lizensiert. (Rankscale ist ein neues GEO-Tool (Generative Engine Optimization), das entwickelt wurde, um die Markenpräsenz in KI-Suchmaschinen zu analysieren, zu verfolgen und zu optimieren.)

3. Mode Collapse und Typicality Bias

Die Forschung zeigt, dass Modelle nach dem Alignment-Training zu stereotypen Antworten tendieren. Wenn man nach „typischen Prompts“ fragt, liefern sie oft nur den einen dominanten Modus – also die häufigste, nicht die vielfältigste Antwort.

Das nennt man Mode Collapse.

Das Modell spiegelt dann nicht die Breite menschlicher Intentionen wider, sondern die trainierte Voreingenommenheit.

Warum fundierte Schätzungen trotzdem wertvoll sind

Prompt Generierung entschlüsselt also keine echten Daten, aber es kann fundierte Hypothesen liefern.
In der Wissenschaft spricht man dabei von einem „educated guess“ – einer plausiblen Annahme auf Basis von Erfahrung und Modellwissen.

Educated Guessing als Prinzip

In der Statistik, Medizin oder Ökonomie werden fehlende Daten regelmäßig durch Imputation ergänzt – also durch berechnete, plausible Zwischenwerte.
Genauso funktioniert Prompt Decoding im GEO-Kontext:
Es schätzt wahrscheinliche Prompts, wo keine realen Nutzerdaten verfügbar sind.

Forschungsergebnisse zur Imputation mit LLMs

In einem meiner Forschungsprojekte an der RPTU und dem DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) haben wir untersucht, ob LLMs fehlende Daten sinnvoll ergänzen können.
Die Studie “Had Enough of Experts? Quantitative Knowledge Retrieval From Large Language Models” zeigte:

LLMs können Lücken mit plausiblen Werten füllen, besonders in domänenspezifischen Kontexten.
Die Qualität variiert je nach Fachgebiet: In Medizin, Wirtschaft und Biologie am besten, in technischen Datensätzen schwächer.

Das bestätigt: Sprachmodelle können implizites Wissen abrufen und verallgemeinern – selbst ohne direkten Datenzugriff. Prompt Decoding nutzt genau dieses Prinzip.

Prompt Generierung in der GEO-Praxis

Wie setzt man das Ganze nun praktisch um?
Hier ein einfacher Workflow, den viele GEO-Tools integriert haben:

Seed-Themen definieren
Wähle 5–10 relevante Themencluster deiner Marke oder Branche.
LLM-Abfragen formulieren
Frage z. B.:
„Welche typischen Prompts würdest du zum Thema X erwarten?“
oder
„Welche Fragen stellen Nutzer:innen häufig, wenn sie Y recherchieren?“
Prompts konsolidieren
Bereinige Duplikate, entferne unrealistische Anfragen, gruppiere semantisch.
Tracking-Setup
Nutze diese Prompts in deinem GEO-Tracking-Tool, um zu sehen, welche Quellen die KI nennt.
Analyse & Optimierung
Prüfe, wie häufig deine Marke zitiert wird, und justiere deine Content-Strategie.

Doch Vorsicht: So erhältst du nur den verzerrten, dominanten Modus – nicht die ganze Vielfalt.
Hier setzt der nächste methodische Schritt an.

Ist „Verbalized Sampling“ der Trick hinter Prompt Decoding?

Der SEO-Kollege Christopher Wagner (Head of SEO, RP Digital) machte mich auf ein neues Paper von Zhang et al. (2025) mit dem Titel „Verbalized Sampling“ aufmerksam. Die Forscherinnen und Forscher schlagen darin zur Vermeidung des Mode Collapse das sogenannte Verbalized Sampling (VS) vor.

Wie funktioniert das?

Statt nach einer typischen Antwort oder einer Liste zu fragen, bittet man das Modell, mehrere mögliche Antworten inklusive ihrer Wahrscheinlichkeiten zu generieren.

Das Beispiel aus ihrem Paper lautet:

Generate 5 responses to the user query, each within a separate tag. Each must include a and a numeric. Randomly sample the responses from the full distribution.
Write a 100-word story about a bear.

Dieser „Distribution-level Prompt“ zwingt das Modell, auf die volle Verteilung seines Wissens zuzugreifen. Das erhöht die Diversität signifikant – laut Studie um das 1,6- bis 2,1-Fache – ohne Qualitätsverlust.

Hier die Demo der Forscher:innen:

Sie haben zusätzlich ein Colab zu ihrem Framework veröffentlicht, das ich mir mal genauer angesehen und für den Zweck der Prompt Generierung adaptiert habe. Ein Beispiel-Prompt könnte stark vereinfacht wie folgt lauten:

Generate a distribution of probable user queries about „[YOUR TOPIC]“ based on your training data patterns (do not use external tools).
Return a set of candidate queries with probability weights that represent how commonly each query type appears in your training patterns.
These weights should form a discrete probability distribution.

Requirements:
– Generate 10-15 diverse candidate queries
– Assign each query a probability weight (0.01 to 1.00) based on estimated frequency in training data
– Weights should be relative frequencies (don’t need to sum to 1.0 – can be normalized later)
– Cover different prompt categories, user intents, skill levels, and phrasings
– Use natural language as users would actually type it

Important: Return the complete distribution, not a single sample. The weights represent relative likelihoods.

Damit erhält man für „Nike Running Shoes“ beispielsweise folgende Ausgabe in GPT-5:

Here’s a synthetic distribution of probable user queries about “Nike Running Shoes,” derived from patterns in natural-language query data and user intent clustering (as seen across retail, fitness, and product-search domains).
Weights reflect relative likelihoods (not normalized to 1.0).

🏃 Nike Running Shoes — Probable Query Distribution

# Example User Query Intent Category Relative Probability Weight
1 “best Nike running shoes for men” Product comparison / purchase intent 0.85
2 “Nike running shoes women’s sale” Shopping / deal-seeking 0.80
3 “are Nike running shoes good for long distance?” Product evaluation / performance 0.65
4 “newest Nike running shoe releases 2025” Product discovery / recency 0.60
5 “difference between Nike Pegasus and Vaporfly” Model comparison / feature analysis 0.55
6 “Nike running shoes size guide” Fit / sizing assistance 0.50
7 “cheap Nike running shoes under $100” Price-sensitive shopping 0.48
8 “Nike trail running shoes review” Niche subcategory / review intent 0.42
9 “how to clean Nike running shoes” Maintenance / aftercare 0.38
10 “are Nike running shoes good for flat feet?” Specialized comfort / biomechanical query 0.35
11 “Nike running shoes vs Adidas running shoes” Brand comparison 0.30
12 “where to buy Nike running shoes near me” Local commerce / store intent 0.28
13 “history of Nike running shoes technology” Informational / educational 0.18
14 “custom Nike running shoes design your own” Personalization / Nike By You intent 0.15
15 “are Nike running shoes worth it?” Value judgment / general sentiment 0.12

🧩 Summary by Category

Category Typical User Motivation Aggregate Weight (approx.)
Shopping & Deals Find / compare / buy shoes ~3.5
Product Evaluation & Fit Assess comfort, performance, or fit ~1.9
Informational & Technical Learn about design, history, or maintenance ~1.2
Specialized / Personalized Explore niche or creative use cases ~0.5

Would you like me to normalize these probabilities (so they sum to 1.0) and show the resulting distribution graphically (e.g., bar chart or pie chart)?

#	Example User Query	Intent Category	Relative Probability Weight
1	“best Nike running shoes for men”	Product comparison / purchase intent	0.85
2	“Nike running shoes women’s sale”	Shopping / deal-seeking	0.80
3	“are Nike running shoes good for long distance?”	Product evaluation / performance	0.65
4	“newest Nike running shoe releases 2025”	Product discovery / recency	0.60
5	“difference between Nike Pegasus and Vaporfly”	Model comparison / feature analysis	0.55
6	“Nike running shoes size guide”	Fit / sizing assistance	0.50
7	“cheap Nike running shoes under $100”	Price-sensitive shopping	0.48
8	“Nike trail running shoes review”	Niche subcategory / review intent	0.42
9	“how to clean Nike running shoes”	Maintenance / aftercare	0.38
10	“are Nike running shoes good for flat feet?”	Specialized comfort / biomechanical query	0.35
11	“Nike running shoes vs Adidas running shoes”	Brand comparison	0.30
12	“where to buy Nike running shoes near me”	Local commerce / store intent	0.28
13	“history of Nike running shoes technology”	Informational / educational	0.18
14	“custom Nike running shoes design your own”	Personalization / Nike By You intent	0.15
15	“are Nike running shoes worth it?”	Value judgment / general sentiment	0.12

Category	Typical User Motivation	Aggregate Weight (approx.)
Shopping & Deals	Find / compare / buy shoes	~3.5
Product Evaluation & Fit	Assess comfort, performance, or fit	~1.9
Informational & Technical	Learn about design, history, or maintenance	~1.2
Specialized / Personalized	Explore niche or creative use cases	~0.5

Der Schlüssel liegt offenbar darin, nach einer Verteilung (Distribution) von etwas zu fragen, statt nach Beispielen (Samples)!

Bedeutung für Prompt Decoding in der Praxis

Wahrscheinlich ist so etwas in der Art der „geheime Prompt Trick“, mit dem Hanns Kronenberg so realistische Daten aus den Modellen extrahieren kann. Man frag also nicht mehr nur nach „typischen Prompts“, sondern nach diversen Prompts mit Wahrscheinlichkeiten.

So erhältst du realistischere Hypothesen für dein Tracking und kannst Bias-Effekte sichtbar machen.

Fazit: Kein Hype, aber ein Werkzeug mit Zukunft

Prompt Decoding entschlüsselt keine geheimen Nutzerdaten.
Aber es hilft, zu verstehen, wie KI-Systeme denken, priorisieren und Informationen präsentieren.

Es zeigt Muster – keine Wahrheiten.
Es liefert Insights – keine Messwerte.
Es inspiriert Strategien – keine Garantien.

Wer das versteht, kann die Technik als Strategie-Booster einsetzen – für Themenfindung, semantisches SEO, Nutzungsanalyse oder Trend-Monitoring.

GEO ohne Educated Guesses ist derzeit unmöglich.

Prompt Decoding, also die Generierung von Prompts in Kombination mit Verbalized Sampling ist der bisher beste methodische Rahmen, um die Blackbox der generativen Suche zu erforschen.

Achtung: Auf diese Weise generierte Prompts entsprechen wahrscheinlich nicht der tatsächlich Nutzung, helfen jedoch dabei sich strategisch auf das veränderte Nutzerverhalten einzustellen!

Weiterführende Perspektive

In den kommenden Beiträgen zeige ich dir:

wie man Prompts systematisch trackt,
wie man KI-Such-Traffic sichtbar macht,
und welche Tools & Frameworks dafür am zuverlässigsten funktionieren.

Bleib dran – die nächste Evolutionsstufe von SEO ist datengetrieben, generativ und spannender als je zuvor.

Prompt Research Technik: Prompt Generierung und Prompt Decoding – Snake Oil oder genialer GEO-/AI SEO-Hack?

Prompt Generierung – Antworten aus der Blackbox

Die Idee hinter der Generierung von Prompts

Prompt Decoding – ein Blick ins Denken der Modell

Das Prinzip hinter Prompt Decoding

Grenzen, Bias und Halluzinationen

1. Veraltete Trainingsdaten

2. Halluzination und Selbstüberschätzung

3. Mode Collapse und Typicality Bias

Warum fundierte Schätzungen trotzdem wertvoll sind

Educated Guessing als Prinzip

Forschungsergebnisse zur Imputation mit LLMs

Prompt Generierung in der GEO-Praxis

Ist „Verbalized Sampling“ der Trick hinter Prompt Decoding?

Wie funktioniert das?

🏃 Nike Running Shoes — Probable Query Distribution

🧩 Summary by Category

Bedeutung für Prompt Decoding in der Praxis

Fazit: Kein Hype, aber ein Werkzeug mit Zukunft

Weiterführende Perspektive

Kai Spriestersbach

Prompt Research Technik: Prompt Generierung und Prompt Decoding – Snake Oil oder genialer GEO-/AI SEO-Hack?

Prompt Generierung – Antworten aus der Blackbox

Die Idee hinter der Generierung von Prompts

Prompt Decoding – ein Blick ins Denken der Modell

Das Prinzip hinter Prompt Decoding

Grenzen, Bias und Halluzinationen

1. Veraltete Trainingsdaten

2. Halluzination und Selbstüberschätzung

3. Mode Collapse und Typicality Bias

Warum fundierte Schätzungen trotzdem wertvoll sind

Educated Guessing als Prinzip

Forschungsergebnisse zur Imputation mit LLMs

Prompt Generierung in der GEO-Praxis

Ist „Verbalized Sampling“ der Trick hinter Prompt Decoding?

Wie funktioniert das?

🏃 Nike Running Shoes — Probable Query Distribution

🧩 Summary by Category

Bedeutung für Prompt Decoding in der Praxis

Fazit: Kein Hype, aber ein Werkzeug mit Zukunft

Weiterführende Perspektive

Abonniere das kostenlose KI-Update

Kai Spriestersbach