OpenAI hat mal wieder einen rausgehauen: Eine KI, die Matheaufgaben auf dem Niveau der Internationalen Mathematik-Olympiade (IMO) löst – fünf von sechs Aufgaben geknackt, angeblich Goldmedaille, alles in natürlicher Sprache. Klingt erstmal beeindruckend. Aber je tiefer man schaut, desto mehr kratzt man sich am Kopf: Geht’s hier wirklich um Forschung – oder nur um die nächste große PR-Welle?
Was ist passiert?
Laut OpenAI hat ein neues Sprachmodell beim IMO-Wettbewerb 2025 satte 35 von 42 Punkten erreicht – was einem Goldrang entspricht. Das Besondere: Keine Mathe-Speziallösung, sondern ein „ganz normales“ Sprachmodell, das einfach weiter trainiert wurde. Lösungen wurden in natürlicher Sprache generiert, ohne Tools, unter realistischen Wettbewerbsbedingungen. Klingt nach Fortschritt – sagt auch OpenAI-Forscher Jerry Tworek:
„We did very little IMO-specific work […] All natural language proofs. No evaluation harness.“
Die Forschung dahinter: offenbar ein neues Setup für Reinforcement Learning und Rechenpower zur Testzeit. Kurz: Kein Mathe-Modell, sondern ein Allrounder mit Hirn – oder zumindest mit Textverständnis.
Aber: Die Geschichte hat einen faden Beigeschmack
Denn es gibt mehrere Dinge, die in dieser Glanzleistung ziemlich schief laufen:
1. OpenAI hat sich nicht an Absprachen gehalten
Laut mehreren Quellen – unter anderem dem Mathematiker Mikhail Samin – haben die IMO-Organisatorinnen die KI-Firmen explizit gebeten, nicht vor der offiziellen Siegerehrung mit Ergebnissen rauszugehen. Warum? Weil dieser Wettbewerb für Schülerinnen gedacht ist. Für kluge Kids aus der ganzen Welt, nicht für die nächste OpenAI-Schlagzeile. OpenAI hat trotzdem vor dem Ende der IMO-Pressekonferenz veröffentlicht – und damit die Show geklaut.
Zitat aus dem IMO-Umfeld:
„The general sense of the IMO Jury and Coordinators is that it was rude and inappropriate.“
2. Die Goldmedaille ist womöglich gar keine
Google-Forscher Thang Luong weist darauf hin, dass OpenAIs Bewertung auf einer inoffiziellen Korrektur basiert. Die echte IMO-Bewertung erfolgt nach streng geheimen Richtlinien, die nicht öffentlich zugänglich sind. Ohne die kann man gar keine offizielle Medaille vergeben.
Und: Wenn man einen einzigen Punkt abzieht (was realistisch sein könnte), wäre das nur Silber, nicht Gold. Also: Ein „Gold-Standard“ auf wackligem Fundament.
3. DeepMind war möglicherweise besser – hält sich aber an Absprachen
Im Gegensatz zu OpenAI scheint sich Google DeepMind an die Bitte der Veranstalter zu halten. Dabei gibt’s Gerüchte, dass sie ebenfalls Gold erreicht oder sogar besser abgeschnitten haben – nur eben ohne großes Tamtam. Letztes Jahr hatten ihre spezialisierten Systeme AlphaProof und AlphaGeometry bereits vier von sechs Aufgaben gelöst. Dieses Jahr könnte es mehr sein – wir werden es erfahren, nach der IMO-Ehrung.
Mein Fazit: Forschung, schön und gut – aber PR bitte mit Anstand
Natürlich: Technisch ist das spannend. Eine Sprach-KI, die komplexe Matheaufgaben sauber löst – in natürlicher Sprache, ohne Tricks – das zeigt, was bei Large Language Models möglich ist. Aber der Kontext ist entscheidend.
Wenn man bei einem Schüler*innen-Wettbewerb die Bühne klaut, sich über Bitten hinwegsetzt und mit einer womöglich falschen Goldmedaille wedelt, dann ist das kein wissenschaftlicher Durchbruch. Dann ist das einfach schlechter Stil – und leider typisch OpenAI: mehr Buzz als Bodenhaftung.
Übrigens nahmen insgesamt 641 Studierende aus 112 Ländern an der diesjährigen IMO teil, darunter fünf mit der Bestnote von 42 Punkten!
Laut einer unabhängigen Auswertung von MathArena hat kein veröffentlichtes Sprachmodell 2025 überhaupt eine IMO-Bronzemedaille erreicht – selbst mit massiver Rechenpower und Best-of-32-Trickserei. Der beste Score lag bei mageren 13 von 42 Punkten. OpenAI behauptet zwar, mit einem geheimen Modell Gold geholt zu haben, aber wie genau? Das bleibt (noch) undurchsichtig. Die IMO-Organisator*innen konnten die Lösungen zwar prüfen, nicht aber den Entstehungsprozess!
Update: Google zeigt, wie’s geht – mit Anstand und Anerkennung
Einen Tag nach dem PR-Blitz von OpenAI meldet sich nun Google DeepMind zu Wort – mit Fakten, Ergebnissen und, ja: echter Anerkennung durch die IMO.
In einem offiziellen Blogpost berichten Thang Luong und Edward Lockhart, dass eine erweiterte Version von Gemini („Deep Think“) beim IMO-Wettbewerb 2025 ebenfalls 35 von 42 Punkten erreicht hat – und dass diese Leistung vom IMO-Korrektor*innen-Team offiziell geprüft und bestätigt wurde. Damit steht fest: Auch Gemini hat den Goldmedaillenstandard erreicht. Der Unterschied? DeepMind hat sich an die Spielregeln gehalten und die Ergebnisse erst nach der offiziellen Siegerehrung veröffentlicht.
Zitat vom IMO-Präsidenten Prof. Dr. Gregor Dolinar:
„We can confirm that Google DeepMind has reached the much-desired milestone […] IMO graders found [the solutions] to be clear, precise and most of them easy to follow.“
Der Blogpost geht dabei transparent auf die Methodik ein: Gemini Deep Think wurde mit fortgeschrittenem Reinforcement Learning trainiert, nutzte sogenanntes „Parallel Thinking“ (mehrere Lösungsideen gleichzeitig verfolgen), arbeitete in natürlicher Sprache und lieferte innerhalb des 4,5-Stunden-Zeitlimits präzise mathematische Beweise – ohne formale Sprache, ohne Spezialwerkzeuge, aber mit Struktur und Klarheit.
Besonders bemerkenswert: DeepMind bedankt sich explizit bei der IMO-Organisation, benennt dutzende beteiligte Forscher*innen und macht klar, dass der Reviewprozess nicht die gesamte Systemarchitektur validiert – ein wohltuend differenzierter, bodenständiger Ton.
Fazit zum Update: So geht’s auch
Was OpenAI mit Hektik, Geheimniskrämerei und dem Hang zur Schlagzeile inszenierte, zeigt DeepMind nun mit Respekt, Kooperation und Transparenz. Das Modell erreichte dasselbe Ergebnis – aber ohne den Beigeschmack. Und mit echter IMO-Bestätigung.
Es zeigt: Auch in der KI-Forschung kommt es nicht nur aufs Ergebnis an – sondern auf den Umgang damit. Wer den Wettbewerb ernst nimmt, sollte auch dessen Regeln respektieren. DeepMind hat das verstanden. OpenAI? Eher nicht.
Obwohl beide Modelle unterschiedliche Wege eingeschlagen haben, zeigen ihre Leistungen, dass sich KI dem fortgeschrittenen mathematischen Denken annähert. Bei diesem Tempo stellt sich nicht mehr die Frage, ob sie alle sechs IMO-Probleme lösen können, sondern ob sie jemals die Kreativität entwickeln werden, um Probleme zu lösen, die noch kein Mensch zuvor gelöst hat.
|