Skip to content

ARC-AGI-3: Menschen schlagen KI – immer noch

Im Gespräch mit Clemens Boisserée von der Rheinischen Post Ende April hatten wir gerade noch über das ernüchternde Abschneiden aktueller KI-Modelle beim damals neuen AGI-2-Benchmark gesprochen. Jetzt, nur wenige Monate später, steht schon die nächste Generation bereit – und wieder zeigt sich: Echte Denkarbeit bleibt (noch) menschlich.

ARC-AGI-3: Denkspiele statt Datenpuzzles

ARC-AGI-3, entwickelt vom KI-Forscher François Chollet und seinem Team, geht mit einem klaren Ziel an den Start: Herausfinden, ob KI-Systeme auch dann bestehen können, wenn sie völlig neues Terrain betreten – ohne Vorwissen, ohne Anleitungen, ohne kulturellen Kontext.

Das Mittel der Wahl: kleine interaktive Mini-Games in einer Grid-Welt, die wie Denkspiele aufgebaut sind. Die KI muss selbst herausfinden, was das Ziel ist, welche Regeln gelten und wie sie zum Erfolg kommt. Trial and Error, wie bei einem Kind, das zum ersten Mal ein Puzzle sieht.

Ich hab’s ausprobiert – und war fasziniert

Ich habe die drei Mini-Games aus der Developer Preview selbst durchgespielt – und es war total spannend zu erleben, welche Fähigkeiten, kleinen Experimente und Aha-Momente mich Schritt für Schritt zur Lösung gebracht haben. Man denkt, probiert, scheitert, lernt – ganz intuitiv.

Genau diese Art des flexiblen, transferierbaren Denkens fehlt heutigen LLMs komplett. Beim Spielen wird einem nochmal richtig klar: So beeindruckend aktuelle KI-Modelle in vielen Bereichen wirken – echte Intelligenz sieht anders aus.

Menschen? Kein Problem. KI? Keine Chance.

Laut den Entwickler*innen lösen Menschen die Aufgaben in wenigen Minuten. Bei aktuellen KI-Modellen sieht das ganz anders aus: Keines der großen Sprachmodelle – nicht mal die neuesten – konnte bisher Punkte erzielen. Mit einer Ausnahme: Ein mysteriöser Eintrag auf dem Leaderboard, dessen Herkunft unbekannt ist. Angeblich hat OpenAIs neues ChatGPT-Agentensystem das erste Spiel bereits gelöst, aber ob das wirklich der Top-Performer ist, bleibt offen.

Der große Unterschied: Lernen in der echten Welt

Der Clou an ARC-AGI-3 ist der Wechsel vom statischen Benchmark zu interaktiven Aufgaben. Es geht nicht mehr darum, gesehene Muster wiederzuerkennen, sondern darum, zu verstehen, zu planen und sich anzupassen. Genau das machen Menschen täglich – KI dagegen tut sich hier noch erstaunlich schwer.

Oder wie das ARC-Team selbst schreibt: „Solange diese Lücke besteht, haben wir keine AGI.“

Entwickler*innen-Challenge mit 10.000 $ Preisgeld

Parallel zur Developer Preview startet HuggingFace einen vierwöchigen Sprint-Wettbewerb. Mitmachen können alle, die versuchen wollen, ein erfolgreiches KI-System zu bauen – zu gewinnen gibt’s 10.000 Dollar. Die API und alle Infos findet ihr unter arcprize.org.

Bis Anfang 2026 soll der vollständige Benchmark dann rund 100 verschiedene Spiele umfassen – ein Mix aus öffentlichen und privaten Testsets.

Fazit: AGI bleibt Zukunftsmusik

Auch mit ARC-AGI-3 zeigt sich: Trotz aller Fortschritte sind heutige KI-Systeme noch weit davon entfernt, so flexibel und einfallsreich zu denken wie wir Menschen. Der Benchmark ist ein spannender Realitätscheck – und eine Einladung an die KI-Community, nicht nur schneller, sondern auch klüger zu werden.

Abonniere das kostenlose KI-Update

Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!

Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.

Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.

Kai Spriestersbach

Kai Spriestersbach

Kai Spriestersbach ist erfolgreicher Unternehmer und digitaler Stratege mit einem Master-Abschluss in Web Science. Er verfügt über mehr als 20 Jahre Erfahrung im Aufbau und der Optimierung von webbasierten Geschäftsmodellen. Als einer der erfahrensten SEO-Experten im deutschsprachigen Raum hat dutzende Vorträge auf SEO- und Online-Marketing-Konferenzen gehalten. In den letzten Jahren hat er sich intensiv mit Large Language Models beschäftigt und sich als Experte für generative künstliche Intelligenz etabliert und forscht im Bereich angewandte generative KI. Er unterstützt Unternehmen bei der Nutzung generativer AI und berät Marketing-Abteilungen, die in Chatbots und KI-Suchmaschinen gefunden werden wollen und entwickelt eigene KI-Tools und digitale Geschäftsmodelle. Offenlegung der Verwendung von KI: Kai verwendet generative KI, wenn er über seine eigenen Erfahrungen, Ideen, Erlebnisse, Konzepte, Tools, Experimente oder Forschungsergebnisse schreibt. Sein bevorzugtes Tool für diesen Prozess ist Anthropics Claude Opus 4.5. Alle Inhalte wurden von Kai konzipiert, bearbeitet und auf ihre Korrektheit überprüft.

×