Revolution in den Datenwissenschaften: Große Sprachmodelle öffnen neue Horizonte

Ich freue mich riesig, euch heute etwas ganz Besonderes vorstellen zu dürfen: Ein brandneues Paper, das gerade frisch als Pre-Print auf arXiv gelandet ist – und an dem ich mitgewirkt habe.

Was haben wir konkret untersucht?

In der Welt der Datenwissenschaften stoßen Forschende oft auf das knifflige Problem, mit unvollständigen Datensätzen arbeiten zu müssen. Die meisten herkömmlichen Algorithmen kommen mit diesen Lücken in den Daten einfach nicht klar. Bisherige Lösungen sahen so aus, dass sich Data Scientists an Experten wandten, um mit deren Hilfe die fehlenden Teile zu ergänzen – ein Vorgehen, das nicht nur zeitintensiv, sondern auch oft genug alles andere als praktikabel ist.

Stellt euch vor, eine Maschine könnte die Rolle eines Experten übernehmen – genau das haben wir erforscht. Wir wollten herausfinden, ob große Sprachmodelle (LLMs) das Zeug dazu haben, als Experten in verschiedensten Fachbereichen zu agieren. Diese Modelle, die mittels gigantischer Textmengen trainiert wurden, könnten ein tiefgreifendes Verständnis für eine breite Palette von Themen besitzen.

Unsere Untersuchung, die die Leistungen der LLM-Experten mit realen Daten und anerkannten statistischen Methoden zur Behandlung von Datenlücken vergleicht, hat einige spannende Erkenntnisse zutage gefördert. Die Ergebnisse zeigen: In vielen Fällen können LLMs genauso präzise Einschätzungen treffen wie herkömmliche Methoden, und das ohne die Notwendigkeit, sich auf menschliche Experten zu stützen. Diese Entdeckung eröffnet völlig neue Möglichkeiten für die Datenanalyse und könnte die Herangehensweise an das Problem des Expertenmangels radikal verändern.

Traditionell setzt man auf zwei Hauptstrategien im Umgang mit Lücken in Datensätzen: Die Ermittlung von Vorwissen (Prior Elicitation) und die Ergänzung fehlender Daten (Data Imputation).

Hier eine kurze Erläuterung beider Verfahren:

Prior Elicitation zielt darauf ab, vorhandenes Expertenwissen systematisch zu erfassen, um Annahmen über bestimmte Modellparameter zu formulieren, die in Bayes’schen Workflows für die Datenanalyse benötigt werden.
Data Imputation kommt zum Einsatz, wenn Datensätze Lücken aufweisen. Anstatt wertvolle Daten wegen einiger fehlender Informationen zu verwerfen, füllen Wissenschaftler diese Lücken mit statistisch plausiblen Werten auf. So werden die Datensätze vervollständigt und können für Analysen verwendet werden.

Data Imputation per LLMs

Unser Augenmerk bei der Imputation lag auf einem Experiment im Zusammenhang mit der OpenML-CC18 Curated Classification Benchmark, einem umfangreichen Datensatz, der 72 Klassifizierungsaufgaben aus den unterschiedlichsten Bereichen abdeckt – von der Kreditbewertung über die Medizin bis hin zum Marketing. Diese Vielfalt stellte sicher, dass unsere Experimente eine breite Palette an realen Szenarien simulieren und somit tiefgreifende Einsichten in die Effektivität der LLMs unter verschiedenen Bedingungen ermöglichen.

Ein zentraler Aspekt unserer Methodik war die künstliche Erzeugung von Datenlücken nach dem Prinzip „Missing at Random“ (MAR), um realistische Situationen nachzustellen, in denen Datenpunkte fehlen. Ziel war es, ein Setting zu schaffen, in dem normalerweise das Fachwissen von Experten gefragt wäre. Anschließend definierten wir für jeden Datensatz eine spezifische Expertenrolle, die wir nutzten, um das LLM für die Beantwortung von Fragen zu den fehlenden Daten zu initialisieren.

Für die eigentliche Datenimputation setzten wir auf eine Reihe von LLMs, darunter LLaMA 2 13B Chat, LLaMA 2 70B Chat, Mistral 7B Instruct und Mixtral 8x7B Instruct. Jedes dieser Modelle wurde separat evaluiert und mit drei traditionellen Ansätzen der Datenimputation verglichen: Mittelwert- und Modusimputation für kontinuierliche bzw. kategoriale Merkmale, k-Nearest Neighbours (k-NN) Imputation und Random Forest Imputation. Die Qualität der Imputation maßen wir anhand des „Normalized Root Mean Square Error“ (NRMSE) und des F1-Scores für kontinuierliche bzw. kategoriale Merkmale.

Diese methodische Vorgehensweise erlaubte es uns, nicht nur zu bewerten, inwiefern LLMs als Experten in der Datenimputation dienen können, sondern auch deren Effizienz im Vergleich zu herkömmlichen Methoden zu beurteilen.

Vergleich von LLMs und traditionellen Methoden

Unsere Untersuchung brachte überraschende Erkenntnisse zum Vorschein: Die Imputationsqualität der LLMs übertraf entgegen unserer Erwartung nicht durchgängig die der drei herangezogenen empirischen Methoden. Trotzdem zeigte sich, dass LLM-basierte Imputationen in bestimmten Bereichen, insbesondere im Ingenieurwesen und der Computer Vision, von großem Nutzen sein können. Besonders in Datensätzen wie ‚pc1‘, ‚pc3′ und ’satimage‘ aus diesen Domänen erzielten wir Imputationsqualitäten mit einem NRMSE von etwa 0,1. Ähnliche positive Ergebnisse wurden auch in den Feldern der Biologie und des Natural Language Processing (NLP) beobachtet.

Interessanterweise variierte die Leistung der LLM-basierten Imputation je nach Anwendungsbereich erheblich. Während die Sozialwissenschaften und Psychologie eher enttäuschende Ergebnisse lieferten, konnten in den Bereichen Medizin, Wirtschaft und Biologie bessere Erfolge verbucht werden. Bemerkenswert ist insbesondere die hohe Performance der LLM-basierten Imputation im Wirtschaftssektor.

Diese Befunde deuten darauf hin, dass LLMs in spezifischen Kontexten eine vielversprechende Alternative zu traditionellen Imputationsmethoden darstellen könnten, vor allem in Szenarien, in denen menschliche Expertise schwer zugänglich ist.

Die universelle Anwendbarkeit der LLM-basierten Imputation ist jedoch begrenzt, und es bedarf weiterer Forschung, um die Bereiche und Bedingungen zu ermitteln, unter denen diese Technik am effektivsten eingesetzt werden kann.

Die Ergebnisse suggerieren, dass LLMs basierend auf ihrem Trainingsdatensatz in der Lage sind, präzise Einschätzungen zu liefern, die in einigen Fällen mit den realen Daten übereinstimmen können. Diese differenzierten Ergebnisse unterstreichen, dass der Einsatz von LLMs für die Datenimputation vielversprechend ist, jedoch eine genaue Betrachtung der jeweiligen Domäne und des spezifischen Einsatzgebietes erfordert.

LLMs in der Prior Elicitation

Der zweite Teil unseres Projekts widmete sich der Frage, wie große Sprachmodelle (LLMs) im Bereich der Prior Elicitation eingesetzt werden können. Wir wollten herausfinden, welche Auswirkungen LLM-generierte Priorverteilungen auf die Datensammlung und die anschließende Analyse haben und wie effektiv diese im Vergleich zu herkömmlichen Methoden sind.

Unser Ansatz bestand darin, die Fähigkeiten der LLMs mit den Ergebnissen eines Experiments von Stefan et al. (2022) zu vergleichen. In diesem Experiment wurden sechs Psychologieforscher zu den typischen kleinen bis mittleren Effektgrößen und Pearson-Korrelationen in ihren Fachgebieten befragt. Ähnlich forderten wir LLMs auf, entweder einen einzelnen Experten, eine Gruppe von Experten oder einen Nichtexperten zu simulieren und Prioritätsverteilungen zu generieren, sowohl mit als auch ohne Bezugnahme auf das in der Vergleichsstudie verwendete Erhebungsprotokoll.

Eine besondere Herausforderung bestand darin, eine Methodik zu entwickeln, die es den Modellen ermöglicht, Expertenwissen in Bereichen zu generieren, in denen direkte quantitative Aussagen durch eingebaute Sicherheitsvorkehrungen eingeschränkt sind. Aufgrund ihres Alignments liefern herkömmliche Instruct- oder Chat-Modelle in der Regel keine quantitativen Informationen zu sensiblen Themen wie Gesundheitszuständen.

Um diese Einschränkungen zu überwinden, haben wir eine innovative Prompting-Strategie entwickelt. Statt nach spezifischen Mittelwerten oder Standardabweichungen zu fragen, baten wir die Modelle, ihre Einschätzungen in Form von Pseudocode für Stan-Verteilungen zu äußern, wie zum Beispiel y ∼ normal(120, 10), um eine Verteilung für den typischen systolischen Blutdruck einer zufällig ausgewählten Person anzugeben.

In unseren Experimenten zur Prior Elicitation spielte ChatGPT 3.5 eine zentrale Rolle, indem es seine Kenntnisse über akademische Elicitation-Frameworks, wie das Sheffield-Elicitation-Framework in Kombination mit der Histogramm-Methode, erfolgreich einsetzte. Diese Methoden wendeten wir an, um Priorverteilungen für die typische Tagestemperatur und den Niederschlag in 25 Klein- und Großstädten weltweit für den Monat Dezember zu erstellen.

ChatGPT griff auf sein umfangreiches, aus den Trainingsdaten gewonnenes Wissen zurück, um eine simulierte Diskussion unter Experten zu führen und eine parametrische Wahrscheinlichkeitsverteilung zu entwickeln. Dieses Vorgehen verdeutlicht, wie LLMs auch bei vorhandenen Beschränkungen effektiv für komplexe Aufgaben wie die Prior Elicitation eingesetzt werden können. Durch innovative Prompting-Strategien lassen sich LLMs als Quellen für Expertenwissen nutzen, was die Forschung in der Bayesschen Datenanalyse und weit darüber hinaus bereichert.

Ein wesentlicher Bestandteil unserer Analyse bestand darin, die „Konzentration“ oder „Breite“ der KI generierten Verteilungen im Vergleich zu realen Daten zu bewerten. Unser Ziel war es zu ermitteln, wie viele reale Datenpunkte benötigt würden, um die Vorhersagen der KI zu bestätigen oder zu widerlegen. Diese Untersuchung half uns, die Zuverlässigkeit der durch KI unterstützten Sammlung von Vorwissen im Vergleich zu traditionellen Methoden zu verstehen.

Ergebnisse der Prior Elicitation Experimente

Unsere Untersuchungen haben zu überraschenden Erkenntnissen geführt: Die Übernahme verschiedener Expertenrollen durch die LLMs hatte, entgegen unserer Erwartungen, keinen signifikanten Einfluss auf die generierten Priors. Unabhängig von der simulierten Rolle tendierten die künstlichen Experten dazu, vorsichtige Vorhersagen zu machen, wobei sie meist auf geringe Effekte hinwiesen. Eine Ausnahme bildete GPT-4, der sich mutiger zeigte und eher mäßig starke Effekte prognostizierte.

Besonders interessant war die Beobachtung der Beziehungen zwischen Variablen, wie dem Einfluss des Wetters auf unser Einkaufsverhalten. Hier offenbarten die LLMs eigene, teils unerwartete Perspektiven. Während einige Modelle eine „Badewannen“-Kurve zeigten, präsentierte GPT-4 eine gleichmäßigere, glockenförmige Verteilung.

Die Untersuchung des Vertrauens, das diese digitalen Intelligenzen in ihre eigenen Vorhersagen setzen, brachte weitere Unterschiede ans Licht. Einige Modelle äußerten sich zurückhaltend mit vorsichtigen Schätzungen, GPT-4 hingegen gab sich informationsreich. Das Mistral 7B Instruct Modell stach durch extrem hohe Zuversicht hervor und nutzte tausende von Datenpunkten.

Interessanterweise wichen die von den LLMs angebotenen Beta-Priors für Pearson-Korrelationen stark von denen echter Experten ab. GPT-4 lieferte eine symmetrische unimodale Verteilung, während andere Modelle eine rechtsschiefe „Badewannen“-Verteilung präsentierten.

In unserer meteorologischen Aufgabe untersuchten wir, wie viele reale Wetterbeobachtungen nötig wären, um präzisere Vorhersagen als die künstlichen Experten zu treffen. Dies half uns zu evaluieren, ob der Rückgriff auf digitale Assistenten oder traditionelle Wettermodelle die bessere Wahl für zukünftige Wettervorhersagen wäre.

Diese Ergebnisse verdeutlichen, dass LLMs zwar die Fähigkeit besitzen, Priors zu generieren, die in manchen Bereichen mit menschlichen Experteneinschätzungen konkurrieren können, in anderen Bereichen jedoch signifikante Abweichungen aufweisen.

Die Eignung von LLMs als Ersatz für menschliche Expertise bei der Erstellung von Priorverteilungen variiert je nach spezifischer Aufgabenstellung und dem verwendeten Modell, was die Komplexität und die potenziellen Grenzen dieser Technologie unterstreicht.

Fazit und Ausblick

Die Ergebnisse unserer Forschung enthüllen das beeindruckende Potenzial von großen Sprachmodellen (LLMs), Wissen aus einer Vielzahl von Quellen zu synthetisieren und gezielt in verschiedenen Anwendungskontexten einzusetzen. Besonders in Situationen, in denen die Expertise rar oder sehr kostbar ist, könnten sich LLMs als unschätzbare Ressource erweisen.

Unsere Studien zeigen, dass LLMs in Fachbereichen wie Medizin, Wirtschaft und Biologie bereits wertvolle Einblicke bieten können, die sich mit denen traditioneller Datenimputationsmethoden messen lassen. Darüber hinaus kann das von LLMs bereitgestellte Vorwissen, verglichen mit konventionellen Ansätzen und unter Abwägung von Kosten und Präzision, in bestimmten Szenarien eine hochwertige und kosteneffiziente Alternative darstellen. Die Nutzung von LLMs für die Prior Elicitation könnte somit in einigen Fällen eine vorzuziehende Option sein.

Zusammenfassend markiert unsere Forschung einen entscheidenden Schritt in Richtung einer verstärkten Integration von LLMs in die Datenwissenschaft. Die Aussichten sind vielversprechend, und mit weiteren Entwicklungen in Technologie und Methodik könnten wir am Beginn einer revolutionären Ära der Datenanalyse stehen, in der LLMs eine Schlüsselrolle einnehmen.