Immer mehr Unternehmen drängen auf die Markteinführung von KI-Produkten, obwohl es viele Beweise dafür gibt, dass sie schwer zu kontrollieren sind und sich oft auf unvorhersehbare Weise verhalten. Dieses Verhalten ist besonders besorgniserregend, wenn man sich klar macht, dass niemand genau weiß, wie oder warum Deep Learning, die grundlegende Technologie hinter dem heutigen KI-Boom, funktioniert. Denn, es ist nach wie vor ein großes Rätsel, wie große Sprachmodelle wie Googles Gemini und OpenAIs GPT-4 lernen können, etwas zu tun, was ihnen nicht beigebracht wurde!
Klar ist bislang nur: Man kann ein Sprachmodell mit englischen Matheaufgaben trainieren und ihm anschließend französische Literatur zeigen, woraufhin es lernen wird, Matheaufgaben auch auf Französisch zu lösen. Diese Fähigkeiten widersprechen der klassischen Statistik, die uns eigentlich Erklärungen dafür liefern sollte, wie sich Vorhersagemodelle verhalten. Doch wie sich bei genauerer Betrachtung herausgestellt hat, wurden einige der bemerkenswertesten Durchbrüche bei Open AI „aus Versehen“ erzielt, die nun seit der Veröffentlichung von ChatGPT die Welt im Sturm erobert und gerade dabei ist ganze Unternehmen und Industrien vollkommen umzukrempeln. Offenbar geht die Firma, die sich einst der Schaffung sicherer und quelloffener AGI zum Nutzen der Allgemeinheit verschrieb, wenig Verantwortungsvoll mit Technologien um, die sie im Kern selbst nicht versteht.
Will Douglas Heaven, leitender Redakteur für KI der MIT Technology Review hat es in seinem Artikel wunderbar auf den Punkt gebracht, weshalb ich diesen hier auszugsweise wiedergeben möchte. Er schreibt darin:
„Große Sprachmodelle können verblüffende Dinge tun. Aber niemand weiß genau, warum. Und das ist ein Problem.“
Ich stimme ihm vollkommen zu. Genau das herauszufinden, ist nicht nur eines der größten wissenschaftlichen Rätsel unserer Zeit und ein entscheidender Schritt, um in Zukunft noch leistungsfähigere Modelle zu entwickeln, sondern auch mein Antrieb mich selbst in die KI-Forschung zu begeben.
Vor zwei Jahren versuchten Forscher bei OpenAI noch herauszufinden, was nötig wäre, um ein großes Sprachmodell dazu zu bringen, einfache Rechenoperationen durchzuführen. Sie wollten wissen, wie viele Beispiele für die Addition von zwei Zahlen das Modell sehen muss, bevor es in der Lage ist, zwei beliebige Zahlen zu addieren. Zu Beginn lief das nicht so gut, denn die Modelle merkten sich zwar die Summen, die sie in den Trainingsdaten sahen, aber sie konnten keine neuen Aufgaben lösen.
Aus Versehen ließen die beiden Forscher einige ihrer Experimente viel länger laufen, als sie eigentlich wollten. Aus Stunden wurden Tage und so wurden den Modellen die Beispielrechnungen immer und immer wieder gezeigt, und das weit über den Punkt hinaus, an dem die Forscher sonst längst aufgegeben hätten. Aber als die beiden zurückkamen, waren sie überrascht, dass das Experiment dennoch funktioniert hatten.
Sie hatten ein großes Sprachmodell darauf trainiert, zwei Zahlen zu addieren! Es hatte nur viel mehr Zeit in Anspruch genommen, als man dies für möglich gehalten hatte.
Die beiden taten sich sofort mit ihren Kollegen zusammen, um das Phänomen zu untersuchen und fanden heraus, dass Modelle in bestimmten Fällen zunächst nicht in der Lage waren, eine Aufgabe zu erlernen, und es dann plötzlich doch schafften, als ob eine Glühbirne angegangen wäre. Das entgegen allem, was man über die Art und Weise zu wissen glaubte, wie Deep Learning eigentlich funktionieren sollte. Sie nannten dieses Verhalten „Grokking“.
Hattie Zhou, KI-Forscherin an der Universität von Montreal und bei Apple Machine Learning Research, die nicht an der Arbeit beteiligt war, brachte es wie folgt auf den Punkt:
„Das ist wirklich interessant. Wie können wir jemals sicher sein, dass die Modelle aufgehört haben zu lernen? Denn vielleicht haben wir einfach nicht lange genug trainiert.“
Dieses merkwürdige Verhalten hat die Fantasie der breiteren Forschungsgemeinschaft beflügelt. Viele Leute hätten laut Lauro Langosco von der University of Cambridge zwar eine Meinung dazu, aber er glaube nicht, dass es einen Konsens darüber gibt, was genau vor sich geht. Dabei ist Grokking ist nur eines von mehreren seltsamen Phänomenen, die KI-Forscher:innen weltweit den Kopf zerbrechen lassen. Die größten Modelle, insbesondere große Sprachmodelle, scheinen sich so zu verhalten, wie es laut Lehrbuch eigentlich gar nicht sein sollte. Dies unterstreicht eine bemerkenswerte Tatsache beim Deep Learning, der grundlegenden Technologie hinter dem heutigen KI-Boom: Trotz des durchschlagenden Erfolgs weiß niemand genau, wie oder warum sie funktionieren.
Die größten Modelle sind inzwischen so komplex, dass die Forscher sie wie seltsame Naturphänomene untersuchen, Experimente durchführen und versuchen, die Ergebnisse zu erklären. Viele dieser Beobachtungen stehen im Widerspruch zur klassischen Statistik, die die besten Erklärungen für das Verhalten von Vorhersagemodellen geliefert hat.
Kann uns das egal sein?
In den letzten Wochen hat Google DeepMind seine generativen Modelle für die meisten seiner Verbraucheranwendungen eingeführt. OpenAI begeisterte die Menschen mit Sora, seinem beeindruckenden neuen Text-zu-Video-Modell. Und Unternehmen auf der ganzen Welt bemühen sich darum, KI für ihre Bedürfnisse zu nutzen. Die Technologie funktioniert.
Ist das nicht genug?
Aber herauszufinden, warum Deep Learning so gut funktioniert, ist nicht nur ein faszinierendes wissenschaftliches Rätsel. Es könnte auch der Schlüssel sein, um die nächste Generation der Technologie zu entwickeln und um die enormen Risiken, die damit verbunden sind in den Griff zu bekommen.
Bislang bin ich selbst immer davon ausgegangen, dass Wissenschaftler wissen, was sie tun. Sie würden die Theorien aufstellen und dann die Modelle bauen. Das war aber überhaupt nicht der Fall!
Die jüngsten Durchbrüche der Large Language Models in den letzten mehr als zehn Jahren beruhen eher auf Versuch und Irrtum als auf Verständnis. Die Forscher:innen kopieren, was bei anderen funktioniert und fügen eigene Ideen und Innovationen hinzu. Inzwischen gibt es viele verschiedene „Zutaten“, die den Modellen hinzugefügt werden können, und ein wachsendes Kochbuch mit Rezepten für ihre Verwendung. Mikhail Belkin, Informatiker an der University of California in San Diego sagt dazu „Es funktioniert, was erstaunlich ist. Wir sind verblüfft, wie mächtig diese Dinge sind“. Doch trotz ihres Erfolgs sind die Rezepte eigentlich mehr Alchemie als Chemie.
Grokking: Wieso trotzen LLMs der Statistik?
Heaven schreibt, das Problem sei, dass die KI im Zeitalter der großen Sprachmodelle der Lehrbuchstatistik zu trotzen scheint. Die leistungsstärksten Modelle sind heute gigantisch und bestehen aus hunderten Milliarden künstlicher Neuronen, jedes davon mit einem Parameter, also einem Wert des Modells, der während des Trainings angepasst wird. Die Statistik besagt laut Lehrbuch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann eigentlich verschlechtern sollte. Der Grund dafür ist die sogenannte Überanpassung auf Englisch Overfitting.
Wenn ein Modell auf einem Datensatz trainiert wird, versucht es, sein internes Modell als eine Art von Muster an diese Daten anzupassen. Dabei wird das Modell versuchen diese Daten zu verallgemeinern, was dazu führt, dass es zunächst nicht sehr genau ist, da es viele der Datenpunkte nicht berücksichtigt. Hier spricht man von Underfitting. Wenn man nun jedoch das Muster zu komplex macht, also jeden Datenpunkt der Trainingsdaten berücksichtigt, wird bei Tests mit den Trainingsdaten die volle Punktzahl erreichen, aber niemals verallgemeinern können und damit bei neuen, noch nicht bekannten Daten wahrscheinlich falsche Schlüsse ziehen. In diesem Fall spricht man von einer Überanpassung des Modells an die Daten, auf Englisch Overfitting.
Die klassische Statistik besagt, dass ein Modell umso anfälliger für eine Überanpassung ist, je größer es ist. Das liegt daran, dass ein Modell mit mehr Parametern, mit denen es spielen kann, leichter auf komplexe Grenzen stößt, die jeden Datenpunkt einbeziehen. Es gibt also immer eine Art „Sweet Spot“ zwischen Unter- und Überanpassung, den ein Modell finden muss, wenn es verallgemeinern soll. Doch das ist offenbar nicht das, was man bei den großen Modellen beobachtet. Das bekannteste Beispiel ist laut Heaven das Phänomen des doppelten Abstiegs:
Die Leistung eines Modells wird oft durch die Anzahl der Fehler dargestellt, die es macht: Wenn die Leistung steigt, sinkt die Fehlerquote. Jahrzehntelang ging man davon aus, dass die Fehlerquote erst sinkt und dann steigt, wenn die Modelle größer werden: Stell dir einfach eine U-förmige Kurve vor, bei der der Sweet Spot für die Verallgemeinerung am niedrigsten Punkt liegt. Doch offenbar fanden Belkin und seine Kollegen 2018 heraus, dass die Fehlerquote bestimmter Modelle mit zunehmender Größe erst sinkt, dann steigt, um schließlich wieder zusinken, auf ein vollkommen neues, noch niedrigeres Niveau (eine doppelt abfallende oder W-förmige Kurve). Mit anderen Worten: Große Modelle überwanden den Sweet Spot und das Overfitting-Problem, indem sie mit zunehmender Größe immer besser wurden.
Ein Jahr später war einer der OpenAI Entwickler, Barak erneut Mitautor einer Arbeit, die zeigte, dass das Phänomen des doppelten Abstiegs sogar noch häufiger auftritt, als viele dachten. (arxiv.org/pdf/1912.02292.pdf) Es tritt nicht nur auf, wenn Modelle größer werden, sondern auch bei Modellen mit großen Mengen an Trainingsdaten oder bei Modellen, die länger trainiert werden. Dieses Verhalten, das als „benign overfitting“ bezeichnet wird, ist noch immer nicht vollständig geklärt. Es wirft grundlegende Fragen darüber auf, wie Modelle trainiert werden sollten, um das Beste aus ihnen herauszuholen.
Doch Forscherinnen und Forscher haben Hypothesen gebildet, was ihrer Meinung nach vor sich geht. Belkin bespielsweise glaubt, dass eine Art Occam’scher Rasiermesser-Effekt im Spiel ist: Das einfachste Muster, das zu den Daten passt, also die glatteste Grenze zwischen den Datenpunkten, sei oft dasjenige, das am besten verallgemeinert. Der Grund dafür, dass sich größere Modelle am Ende bessere Leistungen zeigen, als sie eigentlich sollten, könnte darin liegen, dass größere Modelle eher auf die „richtige Kurve“ treffen als kleinere. Mehr Parameter bedeuten mehr mögliche Kurven, die man ausprobieren kann, nachdem man die wackeligste (overfitted) verworfen hat.
Diese Theorie schien die Grundlagen zunächst erklären, warum es funktioniert, aber dann haben andere Forscher Modelle gebaut, die 100 Sprachen sprechen konnten, und man musste sich eingestehen, im Grunde garnichts verstanden zu haben. Belkin selbst sagte dazu im Interview mit Heaven. „Es stellte sich heraus, dass wir nicht einmal an der Oberfläche gekratzt hatten.“ Bereits 2016 veröffentlichten Chiyuan Zhang vom MIT und Kollegen von Google Brain eine einflussreiche Arbeit mit dem Titel „Understanding Deep Learning Requires Rethinking Generalization“, jedoch war es 2021, also fünf Jahre später Zeit für eine komplette Neufassung der Arbeit, dieses mal unter dem Titel „Understanding Deep Learning (Still) Requires Rethinking Generalization“. Doch mittlerweile hat es, laut Zhang so viele Fortschritte gegeben, obwohl viel mehr Fragen auftauchen als gelöst werden.
Ist die KI-Emergenz nur ein Trugbild?
Kürzlich konnten Stanford-Forscher aufzeigen, dass die scheinbaren emergenten Fähigkeiten großer Sprachmodelle vielleicht doch nicht mehr als die Summe ihrer Teile sind. In der Studie versucht das Forscherteam um Rylan Schaeffer die Annahme zu entkräften, dass größere Modelle unvorhersehbare Fähigkeiten entwickeln könnten. Die Studie, die auf dem Preprint-Server arXiv veröffentlicht wurde, untersuchte 29 verschiedene Metriken zur Bewertung der Leistung von Modellen. Spannend ist: In 25 davon zeigten die KI-Modelle keine emergenten Eigenschaften, sondern eine kontinuierliche, lineare Steigerung der Fähigkeiten in Abhängigkeit von der Modellgröße.
Die Forschungsarbeit lässt vermuten, dass die Wahrnehmung von emergenten Fähigkeiten lediglich durch die Wahl der Bewertungsmetriken entstanden sein könnte. Schaeffer merkt darin an, dass harte Metriken in der Evaluierung, wie das „Exact String Match“ selbst kleine Fehler bei einfachen Rechenaufgaben so bewerten, als wären sie gravierende Fehler, also komplett falsch, was zu einer übertriebenen Darstellung der Fähigkeiten größerer Modelle führt. Interessanterweise wurde festgestellt, dass Forscher im Bereich der Bilderkennungsmodelle solche harten Metriken nicht verwenden, und folglich keine emergenten Eigenschaften feststellen.
Diese Erkenntnisse legen in der Tat nahe, dass die Entwicklung einer allgemeinen künstlichen Intelligenz (AGI) vorhersehbar bleiben wird, da die Fortschritte der Modelle nachvollziehbar und schrittweise erfolgen. Schaeffer betont, dass, sollte AGI realisiert werden, wir deren Eintreffen sehen können sollten, was bedeutende Implikationen für die zukünftige Entwicklung und Regulierung von KI-Technologien hat.
Doch diese Studie erklärt nicht das Phänomen des „Grokkings“
So interessant und richtig die Betrachtungen des Papers sind, ignoriert sie jedoch das Phänomen des „Grokkings“. Dieses Konzept beschreibt ein bemerkenswertes Phänomen, das bei tiefen neuronalen Netzwerken auftritt, wenn ein neuronales Netzwerk nach einer Phase des Lernens, die keine sichtbaren Fortschritte mehr zeigt, plötzlich und unerwartet ein tiefes Verständnis für ein Muster in den Daten entwickelt. Dieses tiefe Verständnis ermöglicht es dem Netzwerk, von einer anfänglich zufälligen Leistung bei der Generalisierung zu einer perfekten Generalisierung zu springen, wo es die Aufgaben korrekt und konsistent löst.
In der aktuellen Studie „Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets“ von Alethea Power et al. wurde beispielsweise untersucht, wie neuronale Netzwerke auf kleinen, algorithmisch generierten Datensätzen generalisieren. In dem speziellen Szenario, wird dieses Phänomen an kleinen, algorithmisch generierten Datensätzen demonstriert. Diese Datensätze bestehen typischerweise aus binären Tabellen, die das Netzwerk ausfüllen muss. Während des Trainingsprozesses lernt das Netzwerk nicht nur, diese Tabellen korrekt auszufüllen, sondern entwickelt auch ein tiefgreifendes Verständnis der binären Operationen, die zur Erstellung der Daten verwendet wurden. Das Netzwerk „erkennt“ also die logischen oder mathematischen Regeln, die den Datensatz definieren, was eine plötzliche und deutliche Verbesserung seiner Leistung zur Folge hat. Damit zeigt sich, dass die Netzwerke ein tiefgehendes Verständnis für bestimmte Muster im Datensatz entwickeln können, was zu einer signifikanten Verbesserung der Generalisierungsleistung führt – von zufälliger Chance bis hin zu perfekter Generalisierung.
Forscherinnen wie Alicia Curth, die an der Universität Cambridge Statistik studiert, gefällt es wenig, dass modernes maschinelles Lernen eine Art Magie ist, die sich über alle Gesetze hinweg zusetzen scheint. Ihr Team argumentierte kürzlich, dass das Phänomen des doppelten Abstiegs, bei dem die Modelle erst besser, dann schlechter und dann wieder besser zu werden scheinen, wenn sie größer werden, womöglich durch die Art und Weise entsteht, wie die Komplexität der Modelle gemessen wurde. Einfach die Anzahl der Parameter zu zählen, scheint zu einfach zu sein, um die Komplexität angemessen zu beschreiben, insbesondere da in sehr großen Modellen offenbar unterschiedliche Parameter unterschiedliche Funktionen übernehmen.
Dieses Phänomen tritt auf, obwohl das Netzwerk bereits den Punkt des Überfittings überschritten hat, was darauf hinweist, dass die Netzwerke eine Art von „Aha-Erlebnis“ und einer gewissen internen Reorganisation erreichen, bei dem sie die zugrunde liegenden Strukturen der Daten erkennen und effizient nutzen können.
Doch das eigentliche Problem geht noch viel tiefer
Denn ein besseres theoretisches Verständnis würde nicht nur helfen, noch bessere KI zu entwickeln, sondern auch sicherer! Im Moment sind die Fortschritte zwar schnell, aber vollkommen unvorhersehbar. Viele Dinge, die OpenAIs GPT-4 kann, waren selbst für die Leute, die es entwickelt haben, eine Überraschung. Die Forscherinnen und Forscher streiten sich immer noch darüber, was es leisten kann und was nicht. Ohne eine grundlegende Theorie sei es sehr schwer, eine Vorstellung davon zu bekommen, was wir von diesen Dingern erwarten können und selbst wenn wir die Modelle haben, ist es selbst im Nachhinein nicht einfach zu sagen, warum bestimmte Fähigkeiten entstanden sind!
Einer der beiden KI-Forscher, die per Zufall auf diese Fähigkeiten stießen, Boaz Barak arbeitet mittlerweile im Superalignment-Team von OpenAI, das vom Chefwissenschaftler des Unternehmens, Ilya Sutskever, gegründet wurde, um herauszufinden, wie man eine hypothetische Superintelligenz davon abhalten kann, sich gegen die Menschheit zu wenden. Barak sagt selbst im Interview mit Will Douglas Heaven:
„Wir sind eine sehr junge Wissenschaft. Die Fragen, die mich diesen Monat am meisten begeistern, können sich von denen unterscheiden, die mich nächsten Monat am meisten begeistern. Wir sind immer noch dabei, Dinge zu entdecken. Wir müssen noch viel experimentieren und uns überraschen lassen.“
Klingt das nicht vertrauenserweckend?
Künstliche Intelligenz: Hype und Wirklichkeit
Doch so langsam kommt Bewegung in die Debatte, denn auch die, gerne von OpenAI zu Marketing-Zwecken verwendeten Leistungsmessungen anhand menschlicher Tests werden zunehmend kritischer gesehen. So hat beispielsweise mein Lieblingsautor Will Douglas Heaven in seinem jüngsten Artikel für das MIT Technology Review kritisch die gängigen Methoden zur Bewertung künstlicher Intelligenz durch traditionelle menschliche Tests hinterfragt. Der äußerst lesenswerte Artikel schlägt dabei eine faszinierende Brücke zwischen der aktuellen KI-Forschung und traditionellen kognitiven Tests und regt dazu an, die Grenzen unserer Technologien und die Methoden, mit denen wir sie evaluieren, zu hinterfragen.
Er beginnt mit der faszinierenden Beobachtung von Taylor Webb, einem Psychologen an der Universität von Kalifornien in Los Angeles, der die beeindruckenden Fähigkeiten von OpenAIs Sprachmodell GPT-3 erlebte. Webb, der gewohnt ist, neuronale Netzwerke zu bauen, die spezifische Denkfähigkeiten simulieren, war erstaunt darüber, wie GPT-3 komplexe abstrakte Probleme lösen konnte, die typischerweise in IQ-Tests zu finden sind. Webb und sein Team publizierten ihre Erkenntnisse in Nature, wobei sie GPT-3’s Fähigkeiten in Analogieschlussfolgerungen bewerteten, eine Schlüsselkomponente menschlicher Vernunft. Interessanterweise schnitt GPT-3 in einigen dieser Tests besser ab als College-Studenten. Dies führt zu der aufregenden Frage, ob wir tatsächlich am Rand einer neuen Ära der künstlichen Intelligenz stehen, oder ob diese Ergebnisse trügerisch sind.
Heavens Artikel beleuchtet, dass trotz beeindruckender Testergebnisse erhebliche Zweifel an der Validität dieser Methoden bestehen. Er argumentiert, dass die Erfolge von GPT-3 und seinem Nachfolger GPT-4 – der sogar Teile des US-amerikanischen Medizinexamen bestand – möglicherweise weniger über echte Verstehensfähigkeit aussagen und mehr über die Fähigkeit der Modelle, aus ihrem umfangreichen Training mit Internettexten zu „lernen“.
Ein zentraler Punkt des Artikels ist die Diskussion über die Angemessenheit, Maschinen mit menschlichen Intelligenztests zu bewerten. Melanie Mitchell, eine Forscherin am Santa Fe Institute, äußert Bedenken über die Anthropomorphisierung dieser Technologien und die daraus resultierende Verzerrung in unserer Wahrnehmung ihrer Fähigkeiten. Sie fordert eine gründlichere und vielschichtigere Evaluierung.
Webb hat daher mittlerweile neue Testtypen entwickelt, um diese Modelle weiter herauszufordern, darunter eine Adaptation der Raven’s Progressive Matrices, die allgemein zur Bewertung des nichtverbalen Schlussfolgerns verwendet werden. Diese neuen Tests sind so konzipiert, dass sie die Herausforderung für die Modelle erhöhen, indem er die herkömmlichen visuellen Elemente der Tests in numerische Sequenzen umwandelte. Dadurch wurde sichergestellt, dass diese spezifischen Tests nicht in den Trainingsdaten der Modelle vorhanden waren, was die Wahrscheinlichkeit einer einfachen Reproduktion von gelernten Antworten verringert.
Die Ergebnisse dieser neuen Tests zeigten, dass, während die Modelle beeindruckende Leistungen in bestimmten Standard-Testformaten erbringen können, ihre Fähigkeit, echtes Verständnis und kreatives Problemlösen zu demonstrieren, begrenzt bleibt. Dies deutet darauf hin, dass die Modelle zwar komplexe Muster und Strukturen aus ihren Trainingsdaten erkennen und nachahmen können, aber Schwierigkeiten haben, wenn sie mit völlig neuen, unerwarteten Problemtypen konfrontiert werden, die nicht direkt aus den Trainingsdaten abgeleitet sind.
Diese Erkenntnisse werfen wichtige Fragen über die Grenzen der aktuellen KI-Technologien auf und zeigen, dass die Fähigkeit der Modelle, echtes menschenähnliches Denken zu simulieren, noch immer stark eingeschränkt ist. Sie betonen auch die Bedeutung der Entwicklung neuer und rigoroserer Testmethoden, um ein tieferes Verständnis der Fähigkeiten und Grenzen dieser fortschrittlichen maschinellen Lernsysteme zu gewinnen.
Abonniere das kostenlose KI-Update
Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!
Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.
Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.