Im Gespräch mit Clemens Boisserée von der Rheinischen Post Ende April hatten wir gerade noch über das ernüchternde Abschneiden aktueller KI-Modelle beim damals neuen AGI-2-Benchmark gesprochen. Jetzt, nur wenige Monate später, steht schon die nächste Generation bereit – und wieder zeigt sich: Echte Denkarbeit bleibt (noch) menschlich.
ARC-AGI-3: Denkspiele statt Datenpuzzles
ARC-AGI-3, entwickelt vom KI-Forscher François Chollet und seinem Team, geht mit einem klaren Ziel an den Start: Herausfinden, ob KI-Systeme auch dann bestehen können, wenn sie völlig neues Terrain betreten – ohne Vorwissen, ohne Anleitungen, ohne kulturellen Kontext.
Das Mittel der Wahl: kleine interaktive Mini-Games in einer Grid-Welt, die wie Denkspiele aufgebaut sind. Die KI muss selbst herausfinden, was das Ziel ist, welche Regeln gelten und wie sie zum Erfolg kommt. Trial and Error, wie bei einem Kind, das zum ersten Mal ein Puzzle sieht.
Ich hab’s ausprobiert – und war fasziniert
Ich habe die drei Mini-Games aus der Developer Preview selbst durchgespielt – und es war total spannend zu erleben, welche Fähigkeiten, kleinen Experimente und Aha-Momente mich Schritt für Schritt zur Lösung gebracht haben. Man denkt, probiert, scheitert, lernt – ganz intuitiv.

Genau diese Art des flexiblen, transferierbaren Denkens fehlt heutigen LLMs komplett. Beim Spielen wird einem nochmal richtig klar: So beeindruckend aktuelle KI-Modelle in vielen Bereichen wirken – echte Intelligenz sieht anders aus.
Menschen? Kein Problem. KI? Keine Chance.
Laut den Entwickler*innen lösen Menschen die Aufgaben in wenigen Minuten. Bei aktuellen KI-Modellen sieht das ganz anders aus: Keines der großen Sprachmodelle – nicht mal die neuesten – konnte bisher Punkte erzielen. Mit einer Ausnahme: Ein mysteriöser Eintrag auf dem Leaderboard, dessen Herkunft unbekannt ist. Angeblich hat OpenAIs neues ChatGPT-Agentensystem das erste Spiel bereits gelöst, aber ob das wirklich der Top-Performer ist, bleibt offen.
Der große Unterschied: Lernen in der echten Welt
Der Clou an ARC-AGI-3 ist der Wechsel vom statischen Benchmark zu interaktiven Aufgaben. Es geht nicht mehr darum, gesehene Muster wiederzuerkennen, sondern darum, zu verstehen, zu planen und sich anzupassen. Genau das machen Menschen täglich – KI dagegen tut sich hier noch erstaunlich schwer.
Oder wie das ARC-Team selbst schreibt: „Solange diese Lücke besteht, haben wir keine AGI.“
Entwickler*innen-Challenge mit 10.000 $ Preisgeld
Parallel zur Developer Preview startet HuggingFace einen vierwöchigen Sprint-Wettbewerb. Mitmachen können alle, die versuchen wollen, ein erfolgreiches KI-System zu bauen – zu gewinnen gibt’s 10.000 Dollar. Die API und alle Infos findet ihr unter arcprize.org.
Bis Anfang 2026 soll der vollständige Benchmark dann rund 100 verschiedene Spiele umfassen – ein Mix aus öffentlichen und privaten Testsets.
Fazit: AGI bleibt Zukunftsmusik
Auch mit ARC-AGI-3 zeigt sich: Trotz aller Fortschritte sind heutige KI-Systeme noch weit davon entfernt, so flexibel und einfallsreich zu denken wie wir Menschen. Der Benchmark ist ein spannender Realitätscheck – und eine Einladung an die KI-Community, nicht nur schneller, sondern auch klüger zu werden.
Abonniere das kostenlose KI-Update
Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!
Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.
Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.