ARC-AGI-3: Menschen schlagen KI – immer noch

21. Juli 2025

3 Min. Lesezeit

Im Gespräch mit Clemens Boisserée von der Rheinischen Post Ende April hatten wir gerade noch über das ernüchternde Abschneiden aktueller KI-Modelle beim damals neuen AGI-2-Benchmark gesprochen. Jetzt, nur wenige Monate später, steht schon die nächste Generation bereit – und wieder zeigt sich: Echte Denkarbeit bleibt (noch) menschlich.

ARC-AGI-3: Denkspiele statt Datenpuzzles

ARC-AGI-3, entwickelt vom KI-Forscher François Chollet und seinem Team, geht mit einem klaren Ziel an den Start: Herausfinden, ob KI-Systeme auch dann bestehen können, wenn sie völlig neues Terrain betreten – ohne Vorwissen, ohne Anleitungen, ohne kulturellen Kontext.

Das Mittel der Wahl: kleine interaktive Mini-Games in einer Grid-Welt, die wie Denkspiele aufgebaut sind. Die KI muss selbst herausfinden, was das Ziel ist, welche Regeln gelten und wie sie zum Erfolg kommt. Trial and Error, wie bei einem Kind, das zum ersten Mal ein Puzzle sieht.

Ich hab’s ausprobiert – und war fasziniert

Ich habe die drei Mini-Games aus der Developer Preview selbst durchgespielt – und es war total spannend zu erleben, welche Fähigkeiten, kleinen Experimente und Aha-Momente mich Schritt für Schritt zur Lösung gebracht haben. Man denkt, probiert, scheitert, lernt – ganz intuitiv.

Genau diese Art des flexiblen, transferierbaren Denkens fehlt heutigen LLMs komplett. Beim Spielen wird einem nochmal richtig klar: So beeindruckend aktuelle KI-Modelle in vielen Bereichen wirken – echte Intelligenz sieht anders aus.

Menschen? Kein Problem. KI? Keine Chance.

Laut den Entwickler*innen lösen Menschen die Aufgaben in wenigen Minuten. Bei aktuellen KI-Modellen sieht das ganz anders aus: Keines der großen Sprachmodelle – nicht mal die neuesten – konnte bisher Punkte erzielen. Mit einer Ausnahme: Ein mysteriöser Eintrag auf dem Leaderboard, dessen Herkunft unbekannt ist. Angeblich hat OpenAIs neues ChatGPT-Agentensystem das erste Spiel bereits gelöst, aber ob das wirklich der Top-Performer ist, bleibt offen.

Der große Unterschied: Lernen in der echten Welt

Der Clou an ARC-AGI-3 ist der Wechsel vom statischen Benchmark zu interaktiven Aufgaben. Es geht nicht mehr darum, gesehene Muster wiederzuerkennen, sondern darum, zu verstehen, zu planen und sich anzupassen. Genau das machen Menschen täglich – KI dagegen tut sich hier noch erstaunlich schwer.

Oder wie das ARC-Team selbst schreibt: „Solange diese Lücke besteht, haben wir keine AGI.“

Entwickler*innen-Challenge mit 10.000 $ Preisgeld

Parallel zur Developer Preview startet HuggingFace einen vierwöchigen Sprint-Wettbewerb. Mitmachen können alle, die versuchen wollen, ein erfolgreiches KI-System zu bauen – zu gewinnen gibt’s 10.000 Dollar. Die API und alle Infos findet ihr unter arcprize.org.

Bis Anfang 2026 soll der vollständige Benchmark dann rund 100 verschiedene Spiele umfassen – ein Mix aus öffentlichen und privaten Testsets.

Fazit: AGI bleibt Zukunftsmusik

Auch mit ARC-AGI-3 zeigt sich: Trotz aller Fortschritte sind heutige KI-Systeme noch weit davon entfernt, so flexibel und einfallsreich zu denken wie wir Menschen. Der Benchmark ist ein spannender Realitätscheck – und eine Einladung an die KI-Community, nicht nur schneller, sondern auch klüger zu werden.

Geschrieben von

Kai Spriestersbach

Kai Spriestersbach ist KI-Forscher, Autor und Head of AI bei einer Online-Marketing-Agentur. Er hat einen Master of Science in Web-Wissenschaften von der TH Köln und promoviert an der RPTU im Bereich angewandter KI (PhD in CS) und bringt über 20 Jahre SEO-Erfahrung mit. Seine Schwerpunkte liegen im Bereich GEO sowie der Entwicklung KI-gestützter Tools und Workflows. Er hat mehrere Bücher über künstliche Intelligenz veröffentlicht, unter anderem den Bestseller „Richtig texten mit KI“.
KI-Hinweis: Kai nutzt Claude von Anthropic als Schreibwerkzeug und ChatGPT Pro als Denkhilfe. Alle Inhalte sind von ihm konzipiert, redigiert und auf Korrektheit geprüft.

Woran man KI-Geschichten erkennt – und warum das weniger bedeutet, als es klingt

Die Bühne im Maschinengeist: Was Claude über unser eigenes Denken verraten könnte

Schlechte Prompts, schlechte Texte: Warum mich diese KI-„Studie“ so ärgert

Zitiert heißt nicht empfohlen: Was drei Experimente über Self-Promotional Content in der KI-Suche zeigen