Skandal-KI in Schulen: Große Sprachmodelle würfeln Noten!

Der Zugang zu Bildung ist ein Grundrecht (Art. 7 GG), was unter anderem das Recht auf chancengleiche Zugänglichkeit zu höherer Bildung, basierend auf persönlicher Leistung und Eignung umfasst. Das betrifft sowohl die allgemeine Bildung als auch die berufliche Bildung. Daher ist es aus meiner Sicht nicht verwunderlich, dass der Anwendungsbereich Bildung im EU AI Act als hochriskant klassifiziert. Insbesondere wenn es um Zugänge zu Bildung, die durch KI-Systeme (teil-)autonom erteilt werden könnten und damit den Gleichbehandlungsgrundsatz verletzen könnten, zieht die EU eine rote Linie. Dabei geht es auch um automatisierte Bewertungen von Lernergebnissen (Quelle). Das ist im Grunde ein No-Go.

Umso verwunderter war ich, als mir jemand erzählte, dass eine „KI-basierte“ Software aus Deutschland, die bereits von mindestens 5 Bundesländern angeschafft wurde und allen Lehrerinnen und Lehrern kostenlos zur Verfügung gestellt wird, ein Tool enthält, mit dem die Leistungen von Schülerinnen und Schülern durch ein sogenanntes großes Sprachmodell bewertet wird und „Bewertungsvorschläge“ macht, die sich bei genauerer Betrachtung als gewürfelte Noten herausstellen! Kostenlos ist das Tool natürlich nur für die Lehrkräfte – die Bundesländer zahlen einen 7-stelligen Betrag dafür!

Natürlich verstehe ich die Verlockung, die generative KI ausübt. Glaubt man den großen US-Konzernen und kommerzielle Anbieter dieser Systeme, lässt sich mit KI-Tools alles lösen. Doch während die Automatisierung bestimmter Aufgaben Lehrkräften theoretisch mehr Zeit für individuelle Förderung geben könnte, ist insbesondere die Übertragung der Bewertungsaufgaben an KI-Systeme aus meiner Sicht extrem problematisch.

Insbesondere die Nutzung von sogenannten Large Language Models (LLMs) für die Leistungsbeurteilung und Benotung von Schülerinnen und Schülern an deutschen Schulen birgt mehrere Herausforderungen und potenzielle Probleme:

Vermeintliche Objektivität und Fairness

Machen wir uns nichts vor: Lehrkräfte sind auch nur Menschen und damit niemals objektiv bei der Notenvergabe. Und ja: Die Leistungsbewertung mittels KI könnte theoretisch zumindest zu einer objektiveren Bewertung führen, da sie nicht direkt von menschlichen Vorurteilen, beispielsweise der Sympathie einer Lehrkraft für einen Schüler oder eine Schülerin beeinflusst sind.

Wenn nun aber KI-Modelle verwendet werden, basieren diese ebenfalls auf Daten, die bestehende Ungleichheiten und Verzwerrungen in ihren Trainingsdaten widerspiegeln können. Denn trotz der vermeintlichen Objektivität von KI-Systemen sind diese nicht frei von Bias!

Dank unserer bestehenden Datenschutzregulierungen werden in dem Tool zumindest keine personenbezogener Daten abgefragt, was mögliche Bevorzugung oder Benachteiligungen von Schüler:innen aufgrund ihrer Namen verhindert. Im Falle von Rheinland-Pfalz wurde im Vorfeld immerhin der Landesdatenschutzbeauftragte als zuständige Aufsichtsbehörde über die anstehende Einführung des Portals unterrichtet.

Dennoch können Sprachmodelle unbeabsichtigt Vorurteile oder Diskriminierungen perpetuieren, etwa durch sprachliche Eigenheiten oder den kulturellen Kontext der Lernenden und ihrer schriftlichen Leistungen. Da sie mit historischen Daten trainiert werden, die menschliche Vorurteile widerspiegeln können, besteht das Risiko, dass diese Verzerrungen in die Leistungsbeurteilung einfließen. Dies untergräbt die angestrebte Neutralität und Fairness der Bewertung.

Das heißt, dass auch ohne persönliche Informationen, wie zum Beispiel den Namen des Schülers bzw. der Schülerin können bestimmte Formulierungen in den Arbeiten dafür sorgen, dass die Leistungsbewertung in die eine oder andere Richtung verschoben wird.

Fehlende Individualität und Kontextverständnis

Ein derartiges Bewertungstool, dass lediglich Aufgabenstellung, Erwartungshorizont oder Musterlösung, Bewertungskriterien und Text des Schülers bzw. der Schülerin an ein LLMs weiterreicht, kann den individuellen Kontext und die spezifischen Lernwege weder kennen noch verstehen oder bewerten. Menschliche Lehrkräfte hingegen können die persönlichen Umstände, den Fortschritt und die Entwicklung von Schülern in ihre Beurteilungen einfließen lassen, während ein LLM generische Kriterien anwendet.

Insbesondere die Möglichkeit, die Leistung eines Schülers im Vergleich zum gesamten Klassenverband zu bewerten, ist ein weiterer wichtiger Aspekt, der die pädagogische Bewertung in der Praxis prägt. Derartig unterkomplexe KI-Systeme können diese Art von relationaler Bewertung nicht leisten, ohne dass Lehrkräfte die Ergebnisse manuell anpassen.

Zudem umfasst die pädagogische Beurteilung einen erheblichen Ermessensspielraum, der individuelle Umstände und den Klassenkontext berücksichtigt. KI-Systeme sind unfähig, solche nuancierten Bewertungen vorzunehmen, da ihnen neben Kontextinformationen über die Personen um Umstände grundsätzlich die menschliche Empathie und das pädagogische Verständnis fehlen.

Kreativität und kritisches Denken fehlen der KI

Doch damit nicht genug. Gerade im Schulalltag findet häufig eine Bewertung von kreativen oder kritisch reflektierenden Leistungen statt, die für große Sprachmodelle eine weitere Herausforderung darstellt. LLMs haben Schwierigkeiten, Originalität, Kreativität oder tiefergehendes kritisches Denken adäquat zu erfassen und zu bewerten, da ihre Bewertungen lediglich auf statistischer Wahrscheinlichkeit aus vorher trainierten Daten basieren. Sie sind selbst nicht zu dieser Art von Leistungserbringung nicht im Stande.

Die Funktionsweise von LLMs, basierend auf der Vorhersage des statistisch wahrscheinlichsten nächsten Tokens, bedeutet, dass ihr „Verständnis“ und ihre „Reasoning“-Fähigkeiten auf Wahrscheinlichkeiten und nicht auf echtem Verstehen oder abstraktem Denken beruhen. Das kann zu unzuverlässigen Ergebnissen führen, besonders bei Aufgaben, die echtes Verständnis oder kritisches Denken erfordern.

Keine Anpassung an lokale Bildungssysteme

KI-Systeme müssten speziell auf den deutschen Bildungskontext, einschließlich der lokalen Lehrpläne, pädagogischen Standards und kulturellen Besonderheiten der einzelnen Bundeslänger, angepasst werden, denn Bildung ist in Deutschland Ländersache. Eine solche Anpassung ist komplex und erfordert kontinuierliche Aktualisierungen und Überarbeitungen.

Die Frage, ob individuelle Regelungen für jedes Bundesland, jede Schulart und jedes Fach in den KI-Systemen hinterlegt sind, ist demnach zentral. Ohne diese Anpassung kann keine angemessene und faire Bewertung gewährleistet werden. Offenbar fehlt es der angeschafften Software an solchen spezifischen Anpassungen, was die Effektivität der KI-Benotung stark einschränkt. Denn eine derartige Anpassung ist weder erkennbar noch wird dies von Seiten des Anbieters kommuniziert.

Mangelnde Transparenz und Nachvollziehbarkeit

Die Entscheidungsfindung von LLMs ist grundsätzlich weder transparent noch nachvollziehbar. Ein Grundproblem, an dem sich bereits Aleph Alpha die Zähne ausbeißt. Schüler:innen und Eltern könnten es also zurecht als problematisch empfinden, wenn nicht klar ist, wie genau eine Bewertung zustande gekommen ist.

Wir sprechen hier über weitestgehend unverstandene Technologien, die dank ChatGPT für großes Aufsehen in der Öffentlichkeit und eine Disruption in der KI-Forschung gesorgt hat, aber dessen Verständnis und Erforschung noch ganz am Anfang stehen.

Fazit: KI ja, aber nicht so!

Die Nutzung von KI zur Leistungsbeurteilung und Benotung an Schulen sollte daher mit größter Vorsicht betrachtet werden. Während Automatisierung und technologische Unterstützung in bestimmten Bereichen sinnvoll sein können, ist die pädagogische Beurteilung eine zutiefst menschliche Aufgabe, die Fachkenntnis, Empathie und ein Verständnis für den individuellen Lernkontext erfordert. Die Entscheidung, solche Systeme einzusetzen, muss die genannten Risiken und Begrenzungen sorgfältig abwägen und stets das Wohl der Schülerinnen und Schüler in den Vordergrund stellen.

Wieso reagiert „die Politik“ nicht?

Da entsprechende politische Stellen offenbar nicht in der Lage sind, diese Technologie entsprechend zu bewerten und auch auf höchster Ebene von kompetenter Stelle informiert nicht reagiert wurde, bleibt nur der Weg über die Medien, um Eltern zu informieren und darüber hoffentlich zu einem Umdenken zu sorgen.

Immerhin berichtete Steffen Stierle mittlerweile in einem Tagesspiegel Background über den zunehmenden Einsatz künstlicher Intelligenz (KI) in Deutschlands Bildungswesen. Der Bericht zitiert mich an einigen Stellen und hebt auch Beispiele aus Großbritannien und Spanien hervor, wo der Einsatz von KI in der Bildung zu diskriminierenden Ergebnissen geführt hat. In Deutschland ist das Bewusstsein für solche Probleme jedoch unterschiedlich stark ausgeprägt.

Laut seinen Recherchen wird Kritik an KI-basierten Korrekturtools in Rheinland-Pfalz zumindest thematisiert:

„Dem Ministerium ist die Diskussion über die Reproduzierbarkeit von Bewertungen, die mithilfe von ChatGPT-basierten Werkzeugen entstehen, selbstverständlich bekannt“, heißt es auf Nachfrage aus dem Landesbildungsministerium. Man habe die Nutzer daher darauf hingewiesen, „dass Leistungen von Schülerinnen und Schülern grundsätzlich durch Lehrkräfte nachvollziehbar und rechtssicher zu bewerten sind“. Der Bewertungsvorschlag der KI-Assistenz dürfe „nicht als unmittelbar oder allein maßgeblich für eine endgültige Festlegung herangezogen werden“.
Aus „Wenn die KI Schulleistungen bewertet“ – Tagesspiegel Background

doch in Mecklenburg-Vorpommern scheint weniger Sensibilität für die Thematik zu bestehen. Dort hat man sich zwar um die datenschutzspezifischen Herausforderungen gekümmert, aber nichts zur Lösung der KI-bezogenen Probleme unternommen.

Die Anbieter der KI-Lösungen entziehen sich der Verantwortung, mit dem Verweis darauf, dass ihre Technologien lediglich Vorschläge liefern und die Verantwortung für die endgültige Bewertung bei den Lehrkräften läge. Dennoch bestätigt man auf Nachfrage, dass bereits eine fünfstelligen Anzahl an Nutzenden diese Funktion verwendet!

Was für eine faule Ausrede!

Wenn diese Erkenntnisse – zumindest in Rheinland-Pfalz angekommen sind – wieso schaltet man diese Funktion dann nicht einfach ab?

Wir sollten also alle die Betreiber derartiger Software auffordern, Tools zur Notenvergabe per KI unmittelbar einzustellen. Zumindest solange, bis ausreichend Transparenz über die genaue Funktionsweise hergestellt wurde und unabhängige Stellen die Effektivität einer LLM-basierten Notenvergabe bewertet haben!

Das Artikelbild wurde mittels DALL-E generiert.

Skandal-KI in Schulen: Große Sprachmodelle würfeln Noten!

Vermeintliche Objektivität und Fairness

Fehlende Individualität und Kontextverständnis

Kreativität und kritisches Denken fehlen der KI

Keine Anpassung an lokale Bildungssysteme

Mangelnde Transparenz und Nachvollziehbarkeit

Fazit: KI ja, aber nicht so!

Wieso reagiert „die Politik“ nicht?

Weitere Beiträge:

Kai Spriestersbach

Skandal-KI in Schulen: Große Sprachmodelle würfeln Noten!

Vermeintliche Objektivität und Fairness

Fehlende Individualität und Kontextverständnis

Kreativität und kritisches Denken fehlen der KI

Keine Anpassung an lokale Bildungssysteme

Mangelnde Transparenz und Nachvollziehbarkeit

Fazit: KI ja, aber nicht so!

Wieso reagiert „die Politik“ nicht?

Abonniere das kostenlose KI-Update

Weitere Beiträge:

Kai Spriestersbach