ARC-AGI-3: Menschen schlagen KI – immer noch

Im Gespräch mit Clemens Boisserée von der Rheinischen Post Ende April hatten wir gerade noch über das ernüchternde Abschneiden aktueller KI-Modelle beim damals neuen AGI-2-Benchmark gesprochen. Jetzt, nur wenige Monate später, steht schon die nächste Generation bereit – und wieder zeigt sich: Echte Denkarbeit bleibt (noch) menschlich.

ARC-AGI-3: Denkspiele statt Datenpuzzles

ARC-AGI-3, entwickelt vom KI-Forscher François Chollet und seinem Team, geht mit einem klaren Ziel an den Start: Herausfinden, ob KI-Systeme auch dann bestehen können, wenn sie völlig neues Terrain betreten – ohne Vorwissen, ohne Anleitungen, ohne kulturellen Kontext.

Das Mittel der Wahl: kleine interaktive Mini-Games in einer Grid-Welt, die wie Denkspiele aufgebaut sind. Die KI muss selbst herausfinden, was das Ziel ist, welche Regeln gelten und wie sie zum Erfolg kommt. Trial and Error, wie bei einem Kind, das zum ersten Mal ein Puzzle sieht.

Ich hab’s ausprobiert – und war fasziniert

Ich habe die drei Mini-Games aus der Developer Preview selbst durchgespielt – und es war total spannend zu erleben, welche Fähigkeiten, kleinen Experimente und Aha-Momente mich Schritt für Schritt zur Lösung gebracht haben. Man denkt, probiert, scheitert, lernt – ganz intuitiv.

Genau diese Art des flexiblen, transferierbaren Denkens fehlt heutigen LLMs komplett. Beim Spielen wird einem nochmal richtig klar: So beeindruckend aktuelle KI-Modelle in vielen Bereichen wirken – echte Intelligenz sieht anders aus.

Menschen? Kein Problem. KI? Keine Chance.

Laut den Entwickler*innen lösen Menschen die Aufgaben in wenigen Minuten. Bei aktuellen KI-Modellen sieht das ganz anders aus: Keines der großen Sprachmodelle – nicht mal die neuesten – konnte bisher Punkte erzielen. Mit einer Ausnahme: Ein mysteriöser Eintrag auf dem Leaderboard, dessen Herkunft unbekannt ist. Angeblich hat OpenAIs neues ChatGPT-Agentensystem das erste Spiel bereits gelöst, aber ob das wirklich der Top-Performer ist, bleibt offen.

Der große Unterschied: Lernen in der echten Welt

Der Clou an ARC-AGI-3 ist der Wechsel vom statischen Benchmark zu interaktiven Aufgaben. Es geht nicht mehr darum, gesehene Muster wiederzuerkennen, sondern darum, zu verstehen, zu planen und sich anzupassen. Genau das machen Menschen täglich – KI dagegen tut sich hier noch erstaunlich schwer.

Oder wie das ARC-Team selbst schreibt: „Solange diese Lücke besteht, haben wir keine AGI.“

Entwickler*innen-Challenge mit 10.000 $ Preisgeld

Parallel zur Developer Preview startet HuggingFace einen vierwöchigen Sprint-Wettbewerb. Mitmachen können alle, die versuchen wollen, ein erfolgreiches KI-System zu bauen – zu gewinnen gibt’s 10.000 Dollar. Die API und alle Infos findet ihr unter arcprize.org.

Bis Anfang 2026 soll der vollständige Benchmark dann rund 100 verschiedene Spiele umfassen – ein Mix aus öffentlichen und privaten Testsets.

Fazit: AGI bleibt Zukunftsmusik

Auch mit ARC-AGI-3 zeigt sich: Trotz aller Fortschritte sind heutige KI-Systeme noch weit davon entfernt, so flexibel und einfallsreich zu denken wie wir Menschen. Der Benchmark ist ein spannender Realitätscheck – und eine Einladung an die KI-Community, nicht nur schneller, sondern auch klüger zu werden.

ARC-AGI-3: Menschen schlagen KI – immer noch

ARC-AGI-3: Denkspiele statt Datenpuzzles

Ich hab’s ausprobiert – und war fasziniert

Menschen? Kein Problem. KI? Keine Chance.

Der große Unterschied: Lernen in der echten Welt

Entwickler*innen-Challenge mit 10.000 $ Preisgeld

Fazit: AGI bleibt Zukunftsmusik

Abonniere das kostenlose KI-Update

Kai Spriestersbach

Verwandte Beiträge

Warum ich als SEO-Veteran jetzt doch „GEO“ sage – und Du das auch tun solltest

Grounding Pages: Der „Standard“, den niemand braucht – und der dennoch helfen kann

Wie KI wirklich liest: Die Wahrheit hinter der „1,2 Millionen“-Studie (und was das für dein SEO/GEO bedeutet)