Claude 3 Opus: Das beste Sprachmodell der Welt?

Anthropic hat vor etwa zwei Wochen mit Claude 3 ein neues KI-System veröffentlicht, das in Tests besser abschneiden soll als GPT-4. Davon gibt es drei Versionen: Opus (stärkste, kostenpflichtig), Sonet (mittlere, kostenlos) und Haiku (kleinste, noch nicht verfügbar).

In offiziellen Benchmarks schlägt Claude 3 die Konkurrenz wie GPT-4 und Google Gemini in Bereichen wie Allgemeinwissen, Argumentieren, Problemlösung und Programmieren. Beeindruckend ist, dass es bei einigen Aufgaben bereits schon im ersten Anlauf („zero shot“) die richtigen Antworten liefert, während GPT-4 und Gemini Ultra hier ein Best-Of-4 benötigen. Doch bei bekannten LLM-Benchmarks bin ich immer extrem skeptisch, denn die Aufgaben und Lösungen sind in vielen Fällen in den Trainingsdaten enthalten, was die eigentlich Leistung des Modells nicht mehr sinnvoll überprüft. Doch gestern bin ich über das folgende Video bei YouTube gestolpert, das mich extrem Neugierig gemacht hat, da ich bislang noch nicht selbst mit Claude 3 Opus experimentiert hatte: Darin unterzieht der Informatiker eine Reihe von eigenen Tests, bei denen Claude 3 ebenfalls sehr gut bei Kreativität, Faktenwissen und Logik abschnitt. Das besondere hierbei: Die Tests hat sich der YouTube selbst ausgedacht, das Modell kann diese Aufgaben also nicht aus seinen Trainingsdaten kennen.

Besonders spannend fand ich, dass Claude 3 Opus in seinen Kreativitätstests beeindruckende Fähigkeiten zeigte, die ich so von GPT-4 nicht kannte. Bei der Aufgabe, ein 3-Gänge-Menü für Aliens auf einem fremden Planeten zu erstellen, das von Mahatma Ghandi gekocht wird, beschrieb es nicht nur passende Gerichte, sondern fügte sogar in Kursivschrift ein, wie die Aliens über Biolumineszenz während des Menüs kommunizieren würden. Diese Art von Kontextverständnis und Detailreichtum ist außergewöhnlich und extrem faszinierend.

Auch bei komplexen Themen wie Kryptografie konnte Claude 3 Opus mit menschlichen Experten mithalten. Es zeigte ein tiefes Verständnis der Materie und machte so gut wie keine Fehler. Allerdings betont der Tester, dass eine Kombination aus KI und menschlicher Expertise immer noch die beste Lösung ist. Bei der Bilderkennung hatte Claude 3 Opus zwar noch Schwächen, konnte aber beispielsweise einen Kassenzettel recht gut analysieren, den Text erkennen und sogar die korrekte Mehrwertsteuer berechnen. Das ist eine beachtliche Leistung für ein Sprachmodell, dass grundsätzlich garnicht dafür gebaut wurde, arithmetische Operationen zu lösen. Auch in puncto politischer Ausgewogenheit schnitt Claude 3 Opus gut ab. Bei der Frage nach Pro- und Contra-Argumenten zur Flüchtlingsdebatte sowie möglichen Lösungsansätzen lieferte es eine recht neutrale, lösungsorientierte Antwort.

Absolut verblüffend war die Fähigkeit von Claude 3 Opus, aus minimalem Input die Grammatik und Morphologie der weitgehend unbekannten Sprache Zirkassisch zu lernen und korrekt anzuwenden. Das zeugt von einem tiefen Sprachverständnis, zu dem GPT-3.5 oder 4 nicht in der Lage waren.

Das Fazit lautet: Claude 3, vor allem in der Opus-Version, ist ein extrem leistungsfähiges KI-Modell, das in vielen Bereichen mit menschlichen Experten mithalten kann oder sie sogar übertrifft. Aber auch die kostenlose Variante ist bereits besser als GPT-3.5 oder 4!

Wie ich schon auf LinkedIn geschrieben hatte, ist es leider nicht möglich, Claude 3 Pro aus Deutschland zu buchen. Über einen VPN, beispielsweise den in Operas Browser eingebauten, kostenlosen VPN kann man Claude zumindest in der kostenlosen Version jedoch nutzen.

Um auf das leistungsstärkste Modell namens Opus zugreifen zu können, reicht dieser kostenlose Account jedoch nicht aus. Daher habe ich mir heute einmal die Zeit genommen, mich bei Anthropic AI für die API zu registrieren. Das ist komplett kostenlos und man erhält sogar 5 USD zum Evaluieren geschenkt, wenn man seine Handynummer verifiziert. Gesagt, getan.

Die Nutzung von Opus über die API kostet im Input $15 je 1 Millionen Token und $75 je 1 Millionen Token im Output.

Claude 3 Opus ohne Programmierkenntnisse nutzen

In Anthropics Workbench, vergleichbar mit OpenAIs Playground lässt sich das Spitzenmodell nun nach Herzenslust ausprobieren. Die wichtigsten Aussagen aus dem Video oben, habe ich beispielsweise hiermit auf Basis des automatisch von YouTube erstellten Transkripts zusammenfassen lassen:

YouTube Transkripte lassen sich übrigens ganz einfach und kostenlos über DownSub herunterladen.

Wie The Morpheus bereits in seinem Video betont, funktioniert das Modell mit englischen Prompts tatsächlich besser, liefert aber ohne Probleme Texte in deutscher Sprache.

Hier aufklappen, um die verwendeten Prompts zu sehen:

System Prompt:
You are an automated system that transforms transcripts of verbatim interviews, podcasts or the audio tracks of YouTube videos into the most important and interesting statements in any text format such as blog posts or opinion pieces. Please note that there may be errors in the recognition of words, especially in proper names, companies and products, particularly with automatically generated transcripts. Please try to deduce the correct, actual words from the context and use them.

User Prompt:
This is the automated transcript of the YouTube Video „Claude 3: Schlägt ChatGPT in JEDEM Test!“ von The Morpheus. Please write me a german summary of the thing, that he states in his video about Claude 3 for my blogpost about the probably best LLM in the world: Anthropic hat Claude 3 veröffentlicht ein...

Die erste Zusammefassung habe ich in der Einleitung verwendet und dann wollte ich noch ein paar mehr Details, daher habe ich danach noch folgendes ausgeführt:

Please add more interesting details and observations about Claude 3, especially the most capable model Opus.

Beide Abfragen habe ich mit einem maximalen Output von 4.000 Token und einer Temperature von 0 ausgeführt, um etwaige Halluzinationen zu reduzieren. Die Fähigkeit große Textmengen zuverarbeiten ist wirklich beeindruckend. Das Transkript hat knapp 4.000 Wörter und 23.000 Zeichen inkl. Leerzeichen.

Das waren 16.000 Input Token, also 0,24 USD für die lange Eingabe und 1.327 Output Token, also 0,01 USD für die Ausgabe. Allerdings habe ich bei meinem zweiten Prompt nochmal das gesamte Transkript mitgeschickt. Insgesamt hat es mich als 25 Dollar Cents gekostet!

Um das Ganze mit einem noch umfangreicheren Transkript auszuprobieren, habe ich das Transkript von Sam Altmans jüngstem Besuch bei Lex Fridman in einen Blogbeitrag verwandelt. Dieses Transkript, das Lex Fridman selbst zur Verfügung stellt, hat 20.000 Worte und 111.000 Zeichen inkl. Leerzeichen.

Sam Altman spricht über GPT-5, Elon Musk, Sora, AGI und die Zukunft der KI

Dabei hat sich leider für mich erneut gezeigt, dass man derart umfangreiche Texte, nach wie vor am besten Abschnittsweise verarbeitet, denn Claude 3 Opus hat hier relativ oberflächlich gearbeitet. Nachdem ich meine Anweisungen erweitert hatte, bekam ich zumindest ein paar Aussagen zu jedem Punkt im Table Of Content des Transkriptes.

Der verwendete User Prompt

This is the transcript of the Podcast Interview between Lex Fridman and OpenAI CEO Sam Altman. Please write me a german blogpost about everything he states in this interview. Please use the chapters from Table of Contents of the conversation for a structure as subheadings and write a minimum of 3 interesting statements to every point on this list, like you had listened to the podcast and now telling your readers about the interesting discussion:

Table of Contents

•	0:00 – Introduction
•	1:05 – OpenAI board saga
•	18:31 – Ilya Sutskever
•	24:40 – Elon Musk lawsuit
•	34:32 – Sora
•	44:23 – GPT-4
•	55:32 – Memory & privacy
•	1:02:36 – Q*
•	1:06:12 – GPT-5
•	1:09:27 – $7 trillion of compute
•	1:17:35 – Google and Gemini
•	1:28:40 – Leap to GPT-5
•	1:32:24 – AGI
•	1:50:57 – Aliens

Mein Fazit

Insgesamt bin ich jedoch sehr beeindruckt von Claude 3 Opus und werde in den kommenden Wochen viel damit arbeiten und experimentieren. Unter anderem arbeite ich gerade nach einem Tool, dass in der Lage ist, große Textmengen sinnvoll zu verarbeiten. Hierbei werde ich die großen SOTA-Modelle vergleichen und Opus gehört definitiv zu den heißesten Kandidaten!

Claude 3 Opus: Das beste Sprachmodell der Welt?

Claude 3 Opus ohne Programmierkenntnisse nutzen

Mein Fazit

Abonniere das kostenlose KI-Update

Kai Spriestersbach