Die Zukunft generativer KI: Revolution oder Sackgasse?

Die jüngste Veröffentlichung von „Sora“, einem KI-Modell von OpenAI, das realistische und phantasievolle Videoszenen aus Textanweisungen erzeugen kann, befeuert gerade die hitzige Debatte darüber, ob solche Modelle grundsätzlich dazu geeignet sind, die Welt zu verstehen, oder ob sie letztendlich stochastische Papageien bleiben werden.

OpenAI betont in seiner Ankündigung explizit, sie lehrten KI, die physische Welt in Bewegung zu verstehen und zu simulieren, mit dem Ziel, Modelle zu trainieren, die Menschen bei Problemlösungen unterstützen, welche echte Weltinteraktion erfordern, also ein sogenanntes Weltmodell zu erschaffen.

Doch genau hier scheiden sich offenbar die Geister.

Yann LeCun, ein führender Kopf in der KI-Forschung, äußerte auf X Bedenken: „Die Welt durch Pixelgenerierung für Handlungen zu modellieren, ist ebenso verschwenderisch und zum Scheitern verurteilt wie die weitgehend aufgegebene Idee der ‚Analyse durch Synthese‘.“ Er sagt weiter, wenn das Ziel darin bestünde, ein Weltmodell für Erkennung oder Planung zu trainieren, sei die Vorhersage auf Pixelebene eine furchtbare Idee.

Zum Hintergrund:

Ein Weltmodell ist ein KI-System, das eine interne Repräsentation einer Umgebung aufbaut und diese nutzt, um zukünftige Ereignisse innerhalb dieser Umgebung zu simulieren. Die Forschung zu Weltmodellen hat sich bisher auf sehr begrenzte und kontrollierte Umgebungen konzentriert, entweder auf simulierte Spielzeugwelten (wie die von Videospielen) oder auf enge Kontexte (wie die Entwicklung von Weltmodellen für das Autofahren).

Das Ziel von allgemeinen Weltmodellen ist es, eine breite Palette von Situationen und Interaktionen darzustellen und zu simulieren, wie sie in der realen Welt vorkommen.
Runway ML

Ich frage mich jedoch ernsthaft: Wieso sollte das grundsätzlich nicht möglich sein, immerhin lernen so Menschen?

Yann LeCun’s Kritik könnte aus meiner Sicht daher vielmehr tieferliegende philosophische Ansichten oder eine verborgene Agenda widerspiegeln, die eine Offenheit für das Potenzial dieser Technologie vermissen lassen.

Ich bin der Überzeugung, dass Systeme mit ausreichender Komplexität, Rechenleistung und Trainingsdaten sich unweigerlich einer Funktion annähern, die ausreichend genau ein Modell der Welt nachahmt, da dies der effizienteste Weg ist, die ihnen zugewiesenen Aufgaben zu bewältigen. Derzeit nehmen sie dabei noch zu viele Abkürzungen und sind nicht komplex genug, was zu Fehlern führt.

Eine aktuelle Arbeit von Google DeepMind bestätigt meine Vermutung: So wurde gerade Genie vorgestellt, ein KI-System, das interaktive Videospiele aus einer Text- oder Bildaufforderung generieren kann. Das besondere daran: Das kann es ohne vorheriges Training in Spielmechanik, also alleine auf Basis der Beobachtung von Trainingsmaterial aus Spielen!
Kai Spriestersbach

Wenn man, wie Henning Beck bei LinkedIn sagt: „Mit der bestehenden Architektur von Transformationsmodellen definitiv nicht. Es geht nicht um die Menge (Daten, Rechenleistung etc.). Wenn man den Mount Everest in Rekordzeit besteigt, ist das nicht der erste Schritt zum Mars, sondern das Ende der Reise.“ halte ich diesen Vergleich für mindestens irreführend.

Ein Transformer ist nicht bloß eine Leiter, die an ihre physikalischen Grenzen stößt, wenn man höher steigen will, als die Leiter lang ist. Diese Modelle sind generalisierende Funktionsapproximatoren! Es gibt daher aus meiner Sicht keinen Grund, warum hinreichend komplexe Modelle in eine Sackgasse führen sollten, außer der begrenzten Vorstellungskraft.

Man muss sich nur Conways Game of Life ansehen, um ein Gefühl dafür zu bekommen, wie aus sehr einfachen Bausteinen und ein paar sehr einfachen Regeln hochkomplexe Verhaltensweisen und Strukturen entstehen können.

Das ist auch der Grund für das emergente Verhalten großer neuronaler Netze!

Es ist zwar richtig, dass man Modelle nicht durch reine statistische Analyse ableiten kann (was auch mathematisch bewiesen werden kann), daraus folgt jedoch noch lange nicht, dass alle LLMs (Large Language Models) schließlich an eine Grenze stoßen werden, wenn es darum geht, mentale Modelle der Welt abzubilden.

Denn sie müssen kein perfektes Modell erstellen. Sie müssen nur etwas generieren, das hinreichend gut bzw. hinreichend glaubwürdig ist. Und für eine Annäherung an ein System, sind diese Algorithmen geradezu prädestiniert!

Vielleicht wäre es auch besser auf dem Pfad der generativen KI zu bleiben, damit wir uns nicht irgendwann mit der Frage nach Menschenrechten für fühlender KI mit Bewusstsein stellen müssen, die uns vielleicht irgendwann vernichten will.

Inhaltsverzeichnis

Diskrete KI in kontinuierlicher Welt?

Yann LeCun hatte in seinem Tweet jedoch noch ein weiteres Argument, auf das ich hier eingehen möchte. Er schrieb weiter: „Generierung funktioniert mit Text, weil Text diskret ist und eine endliche Anzahl von Symbolen hat. Der Umgang mit Vorhersageunsicherheiten ist in solchen Umgebungen einfach. Der Umgang mit Vorhersageunsicherheiten bei hochdimensionalen, kontinuierlichen sensorischen Eingaben ist schlicht unlösbar.“

Auch hier muss ich widersprechen. Die möglichen Zustände von Pixeln, die für einen Menschen als Bild oder Video „Sinn machen“, sind begrenzt, genauso wie die möglichen Zustände von Token oder Wörtern „Sinn machen“. Der potenzielle Raum ist nur um Größenordnungen größer.

Es ist daher in der Praxis garnicht notwendig, kontinuierliche Werte oder da dahinter liegende physikalische Modell exakt abzubilden. In der digitalen Welt werden alle Werte früher oder später diskret. Dabei braucht man nicht einmal damit zu argumentieren, dass unsere Realität wahrscheinlich im Innersten ebenfalls quantisiert und damit diskret ist.

Ineffizient heißt nicht unmöglich

Wenn jemand argumentiert, dass die Modellierung der Welt durch die Erzeugung von Pixeln extrem aufwändig und womöglich verschwenderisch sei, stimme ich sogar zu. Aber ich habe die Hoffnung, dass zukünftige Modelle durch eine Standardisierung aus den trainierten Gewichten ihrer Vorgänger „lernen“ und man bei der Erstellung immer komplexerer Modelle nicht mehr ständig bei Null anfangen muss, sondern aufbauend auf den jeweils leistungsstärksten Modellen durch das Hinzufügen weiterer Schichten zu immer generalisierteren Modellen gelangt.

Klarstellung durch Yann Le Cun

In einem Beitrag hat Yann Le Cun gerade seine Sicht der Dinge mit einer Definition eines „world models“ versucht klar zu stellen:

Natürlich, ich werde versuchen, Yann LeCuns Aussage in verständlicheres Deutsch zu übersetzen und zu erklären.

Yann LeCun spricht über sogenannte Weltmodelle und wie diese funktionieren. Ein Weltmodell versucht zu verstehen und vorherzusagen, was in der Welt passiert, basierend auf Beobachtungen und Aktionen. Hier sind die Schlüsselkomponenten seines Weltmodells:

Beobachtung (x(t)): Was das Modell zu einem bestimmten Zeitpunkt sieht oder wahrnimmt.
Vorherige Schätzung des Weltzustands (s(t)): Was das Modell bisher über den Zustand der Welt denkt.
Aktionsvorschlag (a(t)): Eine Aktion, die das Modell vorschlägt zu tun.
Latente Variable (z(t)): Eine Variable, die unbekannte Informationen repräsentiert, die helfen würden, genau vorherzusagen, was als Nächstes passiert.

Basierend auf diesen Eingaben berechnet das Weltmodell:

Repräsentation (h(t)): Eine codierte Form der Beobachtung, erstellt durch eine Funktion namens Encoder, die lernen kann, Beobachtungen in nützliche Informationen umzuwandeln.
Vorhersage (s(t+1)): Eine Vorhersage darüber, wie der Zustand der Welt im nächsten Moment aussehen wird, basierend auf der aktuellen Beobachtung, dem aktuellen Zustand, der latenten Variable und dem vorgeschlagenen Aktionsplan.

LeCun beschreibt, wie dieses Modell trainiert wird, indem es lernt, aus Beobachtungen und den daraus resultierenden Veränderungen zu lernen, ohne dabei einfache Lösungen zu finden, die wichtige Eingaben ignorieren würden.

Er vergleicht dann große Sprachmodelle (LLMs) mit diesem Weltmodellkonzept. LLMs sind spezielle Fälle, bei denen:

Die Beobachtungen direkt als Repräsentationen verwendet werden (ohne sie zu verändern).
Der Zustand des Modells auf einer Reihe vergangener Eingaben basiert.
Es keine Aktionsvariable gibt.
Die Eingaben diskret sind (z.B. Text).
Das Modell Vorhersagen über die nächste Eingabe macht und die latente Variable verwendet, um aus vielen möglichen Ausgängen einen auszuwählen.

In dieser Erklärung wird deutlich, dass LLMs in ihrer Funktionsweise vereinfacht sind im Vergleich zu dem, was LeCun als ideales Weltmodell beschreibt. LLMs konzentrieren sich auf das Vorhersagen der nächsten Sequenz von Eingaben, ohne explizit Aktionen oder den umfassenderen Zustand der Welt zu berücksichtigen, wie es in einem vollständigen Weltmodell der Fall wäre.

Er geht darin zwar nicht direkt auf die Grenzen der statistischen Analyse ein, betont aber die Notwendigkeit, das gesamte System so zu trainieren, dass es nicht auf triviale Lösungen reduziert wird, die Eingaben ignorieren. So beschreibt er LLMs als spezielle Fälle von autoregressiven generativen Modellen, die vereinfachte Weltmodelle darstellen. Er identifiziert also keine expliziten Grenzen der LLMs in Bezug auf ihre Fähigkeit, mentale Modelle der Welt abzubilden, aber er deutet an, dass LLMs in ihrer aktuellen Form Einschränkungen haben, indem er sie als „vereinfachte Sonderfälle“ beschreibt.

Meine Aussage, dass Algorithmen prinzipiell dazu prädestiniert sind, Systeme zu approximieren, findet eine gewisse Entsprechung in LeCuns Beschreibung, wie Weltmodelle mithilfe von Encoder und Predictor Funktionen aus Beobachtungen lernen. Während ich die Generalisierungsfähigkeit und die potenzielle Unbegrenztheit der Modelle betone, legt LeCun den Fokus darauf, wie spezifische Funktionen innerhalb des Modells trainiert werden, um Vorhersagen zu machen und repräsentiert somit einen methodischeren Ansatz zur Annäherung an die Realität.

Allerdings greift er damit aus meiner Sicht zu kurz.

Wir verstehen noch nicht einmal im Ansatz, was LLMs intelligent macht!

Immer mehr Unternehmen drängen auf die Markteinführung von KI-Produkten, obwohl es viele Beweise dafür gibt, dass sie schwer zu kontrollieren sind und sich oft auf unvorhersehbare Weise verhalten. Dieses Verhalten ist besonders besorgniserregend, wenn man sich klar macht, dass niemand genau weiß, wie oder warum Deep Learning, die grundlegende Technologie hinter dem heutigen KI-Boom, funktioniert. Es ist nach wie vor ein großes Rätsel, wie große Sprachmodelle wie Googles Gemini und OpenAIs GPT-4 lernen können, etwas zu tun, was ihnen nicht beigebracht wurde.

Klar ist bislang nur: Man kann ein Sprachmodell mit englischen Matheaufgaben trainieren und ihm anschließend französische Literatur zeigen, woraufhin es lernen wird, Matheaufgaben auch auf Französisch zu lösen. Diese Fähigkeiten widersprechen der klassischen Statistik, die uns eigentlich Erklärungen dafür liefern sollte, wie sich Vorhersagemodelle verhalten. Doch wie sich bei genauerer Betrachtung herausgestellt hat, wurden einige der bemerkenswertesten Durchbrüche bei Open AI „aus Versehen“ erzielt, die nun seit der Veröffentlichung von ChatGPT die Welt im Sturm erobert und gerade dabei ist ganze Unternehmen und Industrien vollkommen umzukrempeln. Offenbar geht die Firma, die sich einst der Schaffung sicherer und quelloffener AGI zum Nutzen der Allgemeinheit verschrieb, wenig Verantwortungsvoll mit Technologien um, die sie im Kern selbst nicht versteht.

Will Douglas Heaven, leitender Redakteur für KI der MIT Technology Review hat es in seinem Artikel (www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/) wunderbar auf den Punkt gebracht, weshalb ich diesen hier auszugsweise wiedergeben möchte. Er schreibt darin: „Große Sprachmodelle können verblüffende Dinge tun. Aber niemand weiß genau, warum. Und das ist ein Problem“. Ich stimme ihm vollkommen zu. Genau das herauszufinden, ist nicht nur eines der größten wissenschaftlichen Rätsel unserer Zeit und ein entscheidender Schritt, um in Zukunft noch leistungsfähigere Modelle zu entwickeln, sondern auch mein Antrieb mich selbst in die KI-Forschung zu begeben.

Vor zwei Jahren versuchten Forscher bei OpenAI noch herauszufinden, was nötig wäre, um ein großes Sprachmodell dazu zu bringen, einfache Rechenoperationen durchzuführen. Sie wollten wissen, wie viele Beispiele für die Addition von zwei Zahlen das Modell sehen muss, bevor es in der Lage ist, zwei beliebige Zahlen zu addieren. Zu Beginn lief das nicht so gut, denn die Modelle merkten sich zwar die Summen, die sie in den Trainingsdaten sahen, aber sie konnten keine neuen Aufgaben lösen.

Aus Versehen ließen die beiden Forscher einige ihrer Experimente viel länger laufen, als sie eigentlich wollten. Aus Stunden wurden Tage und so wurden den Modellen die Beispielrechnungen immer und immer wieder gezeigt, und das weit über den Punkt hinaus, an dem die Forscher sonst längst aufgegeben hätten. Aber als die beiden zurückkamen, waren sie überrascht, dass das Experiment dennoch funktioniert hatten. Sie hatten ein großes Sprachmodell darauf trainiert, zwei Zahlen zu addieren! Es hatte nur viel mehr Zeit in Anspruch genommen, als man dies für möglich gehalten hatte. Die beiden taten sich sofort mit ihren Kollegen zusammen, um das Phänomen zu untersuchen und fanden heraus, dass Modelle in bestimmten Fällen zunächst nicht in der Lage waren, eine Aufgabe zu erlernen, und es dann plötzlich doch schafften, als ob eine Glühbirne angegangen wäre. Das entgegen allem, was man über die Art und Weise zu wissen glaubte, wie Deep Learning eigentlich funktionieren sollte. Sie nannten dieses Verhalten „Grokking“.

Hattie Zhou, KI-Forscherin an der Universität von Montreal und bei Apple Machine Learning Research, die nicht an der Arbeit beteiligt war, brachte es wie folgt auf den Punkt „Das ist wirklich interessant. Wie können wir jemals sicher sein, dass die Modelle aufgehört haben zu lernen? Denn vielleicht haben wir einfach nicht lange genug trainiert.“

Dieses merkwürdige Verhalten hat die Fantasie der breiteren Forschungsgemeinschaft beflügelt. Viele Leute hätten laut Lauro Langosco von der University of Cambridge zwar eine Meinung dazu, aber er glaube nicht, dass es einen Konsens darüber gibt, was genau vor sich geht. Dabei ist Grokking ist nur eines von mehreren seltsamen Phänomenen, die KI-Forscher:innen weltweit den Kopf zerbrechen lassen. Die größten Modelle, insbesondere große Sprachmodelle, scheinen sich so zu verhalten, wie es laut Lehrbuch eigentlich gar nicht sein sollte. Dies unterstreicht eine bemerkenswerte Tatsache beim Deep Learning, der grundlegenden Technologie hinter dem heutigen KI-Boom: Trotz des durchschlagenden Erfolgs weiß niemand genau, wie oder warum sie funktionieren.

Die größten Modelle sind inzwischen so komplex, dass die Forscher sie wie seltsame Naturphänomene untersuchen, Experimente durchführen und versuchen, die Ergebnisse zu erklären. Viele dieser Beobachtungen stehen im Widerspruch zur klassischen Statistik, die die besten Erklärungen für das Verhalten von Vorhersagemodellen geliefert hat.

Kann uns das egal sein?

In den letzten Wochen hat Google DeepMind seine generativen Modelle für die meisten seiner Verbraucheranwendungen eingeführt. OpenAI begeisterte die Menschen mit Sora, seinem beeindruckenden neuen Text-zu-Video-Modell. Und Unternehmen auf der ganzen Welt bemühen sich darum, KI für ihre Bedürfnisse zu nutzen. Die Technologie funktioniert.

Ist das nicht genug?

Aber herauszufinden, warum Deep Learning so gut funktioniert, ist nicht nur ein faszinierendes wissenschaftliches Rätsel. Es könnte auch der Schlüssel sein, um die nächste Generation der Technologie zu entwickeln und um die enormen Risiken, die damit verbunden sind in den Griff zu bekommen.

Bislang bin ich selbst immer davon ausgegangen, dass Wissenschaftler wissen, was sie tun. Sie würden die Theorien aufstellen und dann die Modelle bauen. Das war aber überhaupt nicht der Fall!

Die jüngsten Durchbrüche der Large Language Models in den letzten mehr als zehn Jahren beruhen eher auf Versuch und Irrtum als auf Verständnis. Die Forscher:innen kopieren, was bei anderen funktioniert und fügen eigene Ideen und Innovationen hinzu. Inzwischen gibt es viele verschiedene „Zutaten“, die den Modellen hinzugefügt werden können, und ein wachsendes Kochbuch mit Rezepten für ihre Verwendung. Mikhail Belkin, Informatiker an der University of California in San Diego sagt dazu „Es funktioniert, was erstaunlich ist. Wir sind verblüfft, wie mächtig diese Dinge sind“. Doch trotz ihres Erfolgs sind die Rezepte eigentlich mehr Alchemie als Chemie.

Wieso trotzen LLMs der Statistik?

Heaven schreibt, das Problem sei, dass die KI im Zeitalter der großen Sprachmodelle der Lehrbuchstatistik zu trotzen scheint. Die leistungsstärksten Modelle sind heute gigantisch und bestehen aus hunderten Milliarden künstlicher Neuronen, jedes davon mit einem Parameter, also einem Wert des Modells, der während des Trainings angepasst wird. Die Statistik besagt laut Lehrbuch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann eigentlich verschlechtern sollte. Der Grund dafür ist die sogenannte Überanpassung auf Englisch Overfitting.

Wenn ein Modell auf einem Datensatz trainiert wird, versucht es, sein internes Modell als eine Art von Muster an diese Daten anzupassen. Dabei wird das Modell versuchen diese Daten zu verallgemeinern, was dazu führt, dass es zunächst nicht sehr genau ist, da es viele der Datenpunkte nicht berücksichtigt. Hier spricht man von Underfitting. Wenn man nun jedoch das Muster zu komplex macht, also jeden Datenpunkt der Trainingsdaten berücksichtigt, wird bei Tests mit den Trainingsdaten die volle Punktzahl erreichen, aber niemals verallgemeinern können und damit bei neuen, noch nicht bekannten Daten wahrscheinlich falsche Schlüsse ziehen. In diesem Fall spricht man von einer Überanpassung des Modells an die Daten, auf Englisch Overfitting.

Die klassische Statistik besagt, dass ein Modell umso anfälliger für eine Überanpassung ist, je größer es ist. Das liegt daran, dass ein Modell mit mehr Parametern, mit denen es spielen kann, leichter auf komplexe Grenzen stößt, die jeden Datenpunkt einbeziehen. Es gibt also immer eine Art „Sweet Spot“ zwischen Unter- und Überanpassung, den ein Modell finden muss, wenn es verallgemeinern soll. Doch das ist offenbar nicht das, was man bei den großen Modellen beobachtet. Das bekannteste Beispiel ist laut Heaven das Phänomen des doppelten Abstiegs:

Die Leistung eines Modells wird oft durch die Anzahl der Fehler dargestellt, die es macht: Wenn die Leistung steigt, sinkt die Fehlerquote. Jahrzehntelang ging man davon aus, dass die Fehlerquote erst sinkt und dann steigt, wenn die Modelle größer werden: Stell dir einfach eine U-förmige Kurve vor, bei der der Sweet Spot für die Verallgemeinerung am niedrigsten Punkt liegt. Doch offenbar fanden Belkin und seine Kollegen 2018 heraus, dass die Fehlerquote bestimmter Modelle mit zunehmender Größe erst sinkt, dann steigt, um schließlich wieder zusinken, auf ein vollkommen neues, noch niedrigeres Niveau (eine doppelt abfallende oder W-förmige Kurve). Mit anderen Worten: Große Modelle überwanden den Sweet Spot und das Overfitting-Problem, indem sie mit zunehmender Größe immer besser wurden.

Ein Jahr später war einer der OpenAI Entwickler, Barak erneut Mitautor einer Arbeit, die zeigte, dass das Phänomen des doppelten Abstiegs sogar noch häufiger auftritt, als viele dachten. (arxiv.org/pdf/1912.02292.pdf) Es tritt nicht nur auf, wenn Modelle größer werden, sondern auch bei Modellen mit großen Mengen an Trainingsdaten oder bei Modellen, die länger trainiert werden. Dieses Verhalten, das als „benign overfitting“ bezeichnet wird, ist noch immer nicht vollständig geklärt. Es wirft grundlegende Fragen darüber auf, wie Modelle trainiert werden sollten, um das Beste aus ihnen herauszuholen.

Doch Forscherinnen und Forscher haben Hypothesen gebildet, was ihrer Meinung nach vor sich geht. Belkin bespielsweise glaubt, dass eine Art Occam’scher Rasiermesser-Effekt im Spiel ist: Das einfachste Muster, das zu den Daten passt, also die glatteste Grenze zwischen den Datenpunkten, sei oft dasjenige, das am besten verallgemeinert. Der Grund dafür, dass sich größere Modelle am Ende bessere Leistungen zeigen, als sie eigentlich sollten, könnte darin liegen, dass größere Modelle eher auf die „richtige Kurve“ treffen als kleinere. Mehr Parameter bedeuten mehr mögliche Kurven, die man ausprobieren kann, nachdem man die wackeligste (overfitted) verworfen hat.

Diese Theorie schien die Grundlagen zunächst erklären, warum es funktioniert, aber dann haben andere Forscher Modelle gebaut, die 100 Sprachen sprechen konnten, und man musste sich eingestehen, im Grunde garnichts verstanden zu haben. Belkin selbst sagte dazu im Interview mit Heaven. „Es stellte sich heraus, dass wir nicht einmal an der Oberfläche gekratzt hatten.“ Bereits 2016 veröffentlichten Chiyuan Zhang vom MIT und Kollegen von Google Brain eine einflussreiche Arbeit mit dem Titel „Understanding Deep Learning Requires Rethinking Generalization“, jedoch war es 2021, also fünf Jahre später Zeit für eine komplette Neufassung der Arbeit, dieses mal unter dem Titel „Understanding Deep Learning (Still) Requires Rethinking Generalization“. Doch mittlerweile hat es, laut Zhang so viele Fortschritte gegeben, obwohl viel mehr Fragen auftauchen als gelöst werden.

Forscherinnen wie Alicia Curth, die an der Universität Cambridge Statistik studiert, gefällt es wenig, dass modernes maschinelles Lernen eine Art Magie ist, die sich über alle Gesetze hinweg zusetzen scheint. Ihr Team argumentierte kürzlich, dass das Phänomen des doppelten Abstiegs, bei dem die Modelle erst besser, dann schlechter und dann wieder besser zu werden scheinen, wenn sie größer werden, womöglich durch die Art und Weise entsteht, wie die Komplexität der Modelle gemessen wurde. Einfach die Anzahl der Parameter zu zählen, scheint zu einfach zu sein, um die Komplexität angemessen zu beschreiben, insbesondere da in sehr großen Modellen offenbar unterschiedliche Parameter unterschiedliche Funktionen übernehmen.

Doch das eigentliche Problem geht noch viel tiefer

Denn ein besseres theoretisches Verständnis würde nicht nur helfen, noch bessere KI zu entwickeln, sondern auch sicherer! Im Moment sind die Fortschritte zwar schnell, aber vollkommen unvorhersehbar. Viele Dinge, die OpenAIs GPT-4 kann, waren selbst für die Leute, die es entwickelt haben, eine Überraschung. Die Forscherinnen und Forscher streiten sich immer noch darüber, was es leisten kann und was nicht. Ohne eine grundlegende Theorie sei es sehr schwer, eine Vorstellung davon zu bekommen, was wir von diesen Dingern erwarten können und selbst wenn wir die Modelle haben, ist es selbst im Nachhinein nicht einfach zu sagen, warum bestimmte Fähigkeiten entstanden sind!

Einer der beiden KI-Forscher, die per Zufall auf diese Fähigkeiten stießen, Boaz Barak arbeitet mittlerweile im Superalignment-Team von OpenAI, das vom Chefwissenschaftler des Unternehmens, Ilya Sutskever, gegründet wurde, um herauszufinden, wie man eine hypothetische Superintelligenz davon abhalten kann, sich gegen die Menschheit zu wenden. Barak sagt selbst im Interview mit Will Douglas Heaven: „Wir sind eine sehr junge Wissenschaft. Die Fragen, die mich diesen Monat am meisten begeistern, können sich von denen unterscheiden, die mich nächsten Monat am meisten begeistern. Wir sind immer noch dabei, Dinge zu entdecken. Wir müssen noch viel experimentieren und uns überraschen lassen.“

Klingt das nicht vertrauenserweckend? Holy s…

Was können wir von den neuen Modellen in Zukunft erwarten?

Wharton Professor Ethan Mollick teilt in seinem Newsletter stets seine jüngsten Erkenntnisse und Erfahrungen im Umgang mit den neuesten Entwicklungen in der Welt der großen Sprachmodelle (LLMs). Er betont in seiner letzten Ausgabe, dass er seine Ansichten über den aktuellen Stand der KI-Technologie unerwartet schnell aktualisieren musste, insbesondere nach der Einführung von Googles Gemini Advanced, einem bedeutenden Konkurrenten von GPT-4. Er hebt zwei wesentliche Fortschritte hervor, die jeweils bedeutende praktische Auswirkungen haben:

Erstens, die erweiterten Gedächtniskapazitäten und zweitens die gesteigerte Geschwindigkeit der KI-Systeme.

Im Ersten Punkt berichtet der Professor von der beeindruckenden Erweiterung des Kontextfensters in der neuesten Version von Googles Gemini, die es ermöglicht, über eine Million Token zu verarbeiten. Dieses erweiterte Gedächtnis ermöglicht es der KI, umfangreiche Informationsmengen, wie zum Beispiel Mollicks gesamtes akademisches Werk, effizient zu speichern und zu analysieren. Diese Kapazität übertrifft bei weitem die bisherigen Beschränkungen vieler Chatbots und eröffnet neue Nutzungsmöglichkeiten durch ihre nahezu perfekte Erinnerungsfähigkeit.

Ich bin hier noch etwas spektisch, denn obwohl Google Gemini 1.5 mit seinem Kontextfenster von bis zu einer Million Token hervorsticht und die Verarbeitung umfangreicher Datenmengen ermöglicht, ist jedoch die Frage nach der Präzision solcher Modelle entscheidend, da eine hohe Datenverarbeitungskapazität ohne Genauigkeit wenig Nutzen bietet, insbesondere wenn wichtige Details übersehen werden oder Informationen ungenau wiedergegeben werden. Dieses Problem, bekannt als „Lost in the Middle“, betrifft auch andere Modelle mit großen Kontextfenstern wie GPT-4 Turbo und Claude 2, die trotz spezifischer Anweisungen relevante Details auslassen können.

Im Zweiten beschreibt Mollick die Fortschritte in der Antwortgeschwindigkeit der KI, die durch neue Hardwareentwicklungen eines Unternehmens namens Groq ermöglicht wurden. Diese Innovationen bieten fast augenblickliche Antworten von Modellen der GPT-3.5-Klasse und überwinden damit eine der größten Frustrationsquellen bei der Nutzung von ChatGPT: die langsame Geschwindigkeit. Er betont, wie diese Entwicklungen – sowohl in Bezug auf Gedächtnis als auch auf Geschwindigkeit – KIs in realen Anwendungen wesentlich leistungsfähiger und benutzerfreundlicher machen. Er teilt faszinierende Beispiele, in denen KIs komplexe Aufgaben bewältigen, die von der Zusammenfassung wissenschaftlicher Arbeiten bis zum Erlernen einer Sprache mit nur 200 Sprechern reichen, basierend auf begrenzten verfügbaren Materialien.

Darüber hinaus reflektiert Mollick über seine Lehrerfahrung und wie er seinen Studierenden beibrachte, mit GPTs zu arbeiten und diese für innovative Projekte zu nutzen, die von der Automatisierung von Social-Media-Posts bis hin zur Unterstützung bei der Durchführung von Due-Diligence-Prozessen reichen. Diese Erfahrungen unterstreichen das enorme Potenzial von KIs, branchenübergreifend Veränderungen herbeizuführen und neue Möglichkeiten zu eröffnen, die zuvor als unmöglich galten.

Abschließend fordert er Führungskräfte und Organisationen auf, vier zentrale Fragen zu bedenken, die dabei helfen sollen, die Herausforderungen und Chancen zu verstehen, die die rasante Entwicklung der KI-Technologie mit sich bringt. Diese Fragen zielen darauf ab, die Auswirkungen der KI auf bestehende Werte und Prozesse zu evaluieren, neue Möglichkeiten zu erkunden, die durch KI erschlossen werden können, und Strategien zu entwickeln, um sowohl den Markt als auch das Angebot von Produkten und Dienstleistungen zu erweitern und zu personalisieren.

Diese Einblicke bieten aus meiner Sicht eine wertvolle Perspektive auf die Zukunft der KI und die Bedeutung, sich auf eine Welt vorzubereiten, die sich kontinuierlich und schnell verändert. Er mahnt zur Vorsicht vor den Risiken, die mit einer unüberlegten Integration von KI in Arbeitsprozesse einhergehen, betont aber gleichzeitig die enormen Möglichkeiten, die sich durch diese Technologien eröffnen, sowohl für die Verbesserung der Arbeitsbedingungen als auch für die Expansion und Innovation innerhalb von Branchen.