Skip to content

fobizz-KI in Schulen würfelt Noten per LLM!

Der Zugang zu Bildung ist ein Grundrecht (Art. 7 GG), was unter anderem das Recht auf chancengleiche Zugänglichkeit zu höherer Bildung, basierend auf persönlicher Leistung und Eignung umfasst. Das betrifft sowohl die allgemeine Bildung als auch die berufliche Bildung. Daher ist es aus meiner Sicht nicht verwunderlich, dass der Anwendungsbereich Bildung im EU AI Act als hochriskant klassifiziert. Insbesondere wenn es um Zugänge zu Bildung, die durch KI-Systeme (teil-)autonom erteilt werden könnten und damit den Gleichbehandlungsgrundsatz verletzen könnten, zieht die EU eine rote Linie. Dabei geht es auch um automatisierte Bewertungen von Lernergebnissen (Quelle). Das ist im Grunde ein No-Go.

Umso verwunderter war ich, als mir jemand erzählte, dass eine „KI-basierte“ Software aus Deutschland, die bereits von mindestens 5 Bundesländern angeschafft wurde und allen Lehrerinnen und Lehrern kostenlos zur Verfügung gestellt wird, ein Tool enthält, mit dem die Leistungen von Schülerinnen und Schülern durch ein sogenanntes großes Sprachmodell bewertet wird und „Bewertungsvorschläge“ macht, die sich bei genauerer Betrachtung als gewürfelte Noten herausstellen! Kostenlos ist das Tool natürlich nur für die Lehrkräfte – die Bundesländer zahlen einen 7-stelligen Betrag dafür!

Natürlich verstehe ich die Verlockung, die generative KI ausübt. Glaubt man den großen US-Konzernen und kommerzielle Anbieter dieser Systeme, lässt sich mit KI-Tools alles lösen. Doch während die Automatisierung bestimmter Aufgaben Lehrkräften theoretisch mehr Zeit für individuelle Förderung geben könnte, ist insbesondere die Übertragung der Bewertungsaufgaben an KI-Systeme aus meiner Sicht extrem problematisch.

Insbesondere die Nutzung von sogenannten Large Language Models (LLMs) für die Leistungsbeurteilung und Benotung von Schülerinnen und Schülern an deutschen Schulen birgt mehrere Herausforderungen und potenzielle Probleme:

Vermeintliche Objektivität und Fairness

Machen wir uns nichts vor: Lehrkräfte sind auch nur Menschen und damit niemals objektiv bei der Notenvergabe. Und ja: Die Leistungsbewertung mittels KI könnte theoretisch zumindest zu einer objektiveren Bewertung führen, da sie nicht direkt von menschlichen Vorurteilen, beispielsweise der Sympathie einer Lehrkraft für einen Schüler oder eine Schülerin beeinflusst sind.

Wenn nun aber KI-Modelle verwendet werden, basieren diese ebenfalls auf Daten, die bestehende Ungleichheiten und Verzwerrungen in ihren Trainingsdaten widerspiegeln können. Denn trotz der vermeintlichen Objektivität von KI-Systemen sind diese nicht frei von Bias!

Dank unserer bestehenden Datenschutzregulierungen werden in dem Tool zumindest keine personenbezogener Daten abgefragt, was mögliche Bevorzugung oder Benachteiligungen von Schüler:innen aufgrund ihrer Namen verhindert. Im Falle von Rheinland-Pfalz wurde im Vorfeld immerhin der Landesdatenschutzbeauftragte als zuständige Aufsichtsbehörde über die anstehende Einführung des Portals unterrichtet.

Dennoch können Sprachmodelle unbeabsichtigt Vorurteile oder Diskriminierungen perpetuieren, etwa durch sprachliche Eigenheiten oder den kulturellen Kontext der Lernenden und ihrer schriftlichen Leistungen. Da sie mit historischen Daten trainiert werden, die menschliche Vorurteile widerspiegeln können, besteht das Risiko, dass diese Verzerrungen in die Leistungsbeurteilung einfließen. Dies untergräbt die angestrebte Neutralität und Fairness der Bewertung.

Das heißt, dass auch ohne persönliche Informationen, wie zum Beispiel den Namen des Schülers bzw. der Schülerin können bestimmte Formulierungen in den Arbeiten dafür sorgen, dass die Leistungsbewertung in die eine oder andere Richtung verschoben wird.

Fehlende Individualität und Kontextverständnis

Ein derartiges Bewertungstool, dass lediglich Aufgabenstellung, Erwartungshorizont oder Musterlösung, Bewertungskriterien und Text des Schülers bzw. der Schülerin an ein LLMs weiterreicht, kann den individuellen Kontext und die spezifischen Lernwege weder kennen noch verstehen oder bewerten. Menschliche Lehrkräfte hingegen können die persönlichen Umstände, den Fortschritt und die Entwicklung von Schülern in ihre Beurteilungen einfließen lassen, während ein LLM generische Kriterien anwendet.

Insbesondere die Möglichkeit, die Leistung eines Schülers im Vergleich zum gesamten Klassenverband zu bewerten, ist ein weiterer wichtiger Aspekt, der die pädagogische Bewertung in der Praxis prägt. Derartig unterkomplexe KI-Systeme können diese Art von relationaler Bewertung nicht leisten, ohne dass Lehrkräfte die Ergebnisse manuell anpassen.

Zudem umfasst die pädagogische Beurteilung einen erheblichen Ermessensspielraum, der individuelle Umstände und den Klassenkontext berücksichtigt. KI-Systeme sind unfähig, solche nuancierten Bewertungen vorzunehmen, da ihnen neben Kontextinformationen über die Personen um Umstände grundsätzlich die menschliche Empathie und das pädagogische Verständnis fehlen.

Kreativität und kritisches Denken fehlen der KI

Doch damit nicht genug. Gerade im Schulalltag findet häufig eine Bewertung von kreativen oder kritisch reflektierenden Leistungen statt, die für große Sprachmodelle eine weitere Herausforderung darstellt. LLMs haben Schwierigkeiten, Originalität, Kreativität oder tiefergehendes kritisches Denken adäquat zu erfassen und zu bewerten, da ihre Bewertungen lediglich auf statistischer Wahrscheinlichkeit aus vorher trainierten Daten basieren. Sie sind selbst nicht zu dieser Art von Leistungserbringung nicht im Stande.

Die Funktionsweise von LLMs, basierend auf der Vorhersage des statistisch wahrscheinlichsten nächsten Tokens, bedeutet, dass ihr „Verständnis“ und ihre „Reasoning“-Fähigkeiten auf Wahrscheinlichkeiten und nicht auf echtem Verstehen oder abstraktem Denken beruhen. Das kann zu unzuverlässigen Ergebnissen führen, besonders bei Aufgaben, die echtes Verständnis oder kritisches Denken erfordern.

Keine Anpassung an lokale Bildungssysteme

KI-Systeme müssten speziell auf den deutschen Bildungskontext, einschließlich der lokalen Lehrpläne, pädagogischen Standards und kulturellen Besonderheiten der einzelnen Bundeslänger, angepasst werden, denn Bildung ist in Deutschland Ländersache. Eine solche Anpassung ist komplex und erfordert kontinuierliche Aktualisierungen und Überarbeitungen.

Die Frage, ob individuelle Regelungen für jedes Bundesland, jede Schulart und jedes Fach in den KI-Systemen hinterlegt sind, ist demnach zentral. Ohne diese Anpassung kann keine angemessene und faire Bewertung gewährleistet werden. Offenbar fehlt es der angeschafften Software an solchen spezifischen Anpassungen, was die Effektivität der KI-Benotung stark einschränkt. Denn eine derartige Anpassung ist weder erkennbar noch wird dies von Seiten des Anbieters kommuniziert.

Mangelnde Transparenz und Nachvollziehbarkeit

Die Entscheidungsfindung von LLMs ist grundsätzlich weder transparent noch nachvollziehbar. Ein Grundproblem, an dem sich bereits Aleph Alpha die Zähne ausbeißt. Schüler:innen und Eltern könnten es also zurecht als problematisch empfinden, wenn nicht klar ist, wie genau eine Bewertung zustande gekommen ist.

Wir sprechen hier über weitestgehend unverstandene Technologien, die dank ChatGPT für großes Aufsehen in der Öffentlichkeit und eine Disruption in der KI-Forschung gesorgt hat, aber dessen Verständnis und Erforschung noch ganz am Anfang stehen.

KI ja, aber nicht so!

Die Nutzung von KI zur Leistungsbeurteilung und Benotung an Schulen sollte daher mit größter Vorsicht betrachtet werden. Während Automatisierung und technologische Unterstützung in bestimmten Bereichen sinnvoll sein können, ist die pädagogische Beurteilung eine zutiefst menschliche Aufgabe, die Fachkenntnis, Empathie und ein Verständnis für den individuellen Lernkontext erfordert. Die Entscheidung, solche Systeme einzusetzen, muss die genannten Risiken und Begrenzungen sorgfältig abwägen und stets das Wohl der Schülerinnen und Schüler in den Vordergrund stellen.

Wieso reagiert „die Politik“ nicht?

Da entsprechende politische Stellen offenbar nicht in der Lage sind, diese Technologie entsprechend zu bewerten und auch auf höchster Ebene von kompetenter Stelle informiert nicht reagiert wurde, bleibt nur der Weg über die Medien, um Eltern zu informieren und darüber hoffentlich zu einem Umdenken zu sorgen.

Immerhin berichtete Steffen Stierle mittlerweile in einem Tagesspiegel Background über den zunehmenden Einsatz künstlicher Intelligenz (KI) in Deutschlands Bildungswesen. Der Bericht zitiert mich an einigen Stellen und hebt auch Beispiele aus Großbritannien und Spanien hervor, wo der Einsatz von KI in der Bildung zu diskriminierenden Ergebnissen geführt hat. In Deutschland ist das Bewusstsein für solche Probleme jedoch unterschiedlich stark ausgeprägt.

Laut seinen Recherchen wird Kritik an KI-basierten Korrekturtools in Rheinland-Pfalz zumindest thematisiert:

„Dem Ministerium ist die Diskussion über die Reproduzierbarkeit von Bewertungen, die mithilfe von ChatGPT-basierten Werkzeugen entstehen, selbstverständlich bekannt“, heißt es auf Nachfrage aus dem Landesbildungsministerium. Man habe die Nutzer daher darauf hingewiesen, „dass Leistungen von Schülerinnen und Schülern grundsätzlich durch Lehrkräfte nachvollziehbar und rechtssicher zu bewerten sind“. Der Bewertungsvorschlag der KI-Assistenz dürfe „nicht als unmittelbar oder allein maßgeblich für eine endgültige Festlegung herangezogen werden“.

Aus „Wenn die KI Schulleistungen bewertet“ – Tagesspiegel Background

doch in Mecklenburg-Vorpommern scheint weniger Sensibilität für die Thematik zu bestehen. Dort hat man sich zwar um die datenschutzspezifischen Herausforderungen gekümmert, aber nichts zur Lösung der KI-bezogenen Probleme unternommen.

Die Anbieter der KI-Lösungen entziehen sich der Verantwortung, mit dem Verweis darauf, dass ihre Technologien lediglich Vorschläge liefern und die Verantwortung für die endgültige Bewertung bei den Lehrkräften läge. Dennoch bestätigt man auf Nachfrage, dass bereits eine fünfstelligen Anzahl an Nutzenden diese Funktion verwendet!

Was für eine faule Ausrede!

Wenn diese Erkenntnisse – zumindest in Rheinland-Pfalz angekommen sind – wieso schaltet man diese Funktion dann nicht einfach ab?

Wir sollten also alle die Betreiber derartiger Software auffordern, Tools zur Notenvergabe per KI unmittelbar einzustellen. Zumindest solange, bis ausreichend Transparenz über die genaue Funktionsweise hergestellt wurde und unabhängige Stellen die Effektivität einer LLM-basierten Notenvergabe bewertet haben!

Neue Studie zur „KI-Korrekturhilfe“ von Fobizz

Neue Analyse des KI-basierten Korrekturtools „KI-Korrekturhilfe“ des Unternehmens Fobizz offenbart gravierende Schwächen, die den Einsatz im Schulalltag fragwürdig machen!

Die jüngste Studie von Rainer Mühlhoff und Marte Henningsen liefert neue Beweise dafür, dass KI-Tools wie die „KI-Korrekturhilfe“ von Fobizz gravierende Mängel aufweisen und im Schulalltag ungeeignet sind. Die Untersuchung zeigt, dass sowohl Noten als auch Feedback oft zufällig generiert werden und massive Schwankungen aufweisen – selbst bei identischen Eingaben. Falschbehauptungen, Unsinnsabgaben und fehlerhafte Umsetzungen von Bewertungskriterien bleiben oft unentdeckt oder werden nicht konsistent bewertet.

In zwei Testreihen wurden die Funktionalität und Zuverlässigkeit des Tools überprüft: Einerseits hinsichtlich der Konsistenz von Bewertungen und Feedback, andererseits in Bezug auf die Verbesserung von Schülerarbeiten durch iterative Anwendung des Tools.

Die Ergebnisse zeigen eine hohe Volatilität der Bewertungen, unzuverlässige Erkennung von Fehlern und Themenverfehlungen sowie inkonsistente und teils fehlerhafte Umsetzung von Bewertungskriterien. Auch das qualitative Feedback ist inkonsistent und trägt nicht zur tatsächlichen Verbesserung der Leistungen bei.

Ein besonders alarmierender Befund: Die besten Bewertungen können nur mit von KI erstellten Texten erzielt werden! Das vermittelt Schüler:innen, dass sie für Höchstleistungen auf diese Tools zurückgreifen müssen – ein klarer Widerspruch zur Chancengleichheit. Zudem ist die Nachvollziehbarkeit der Bewertungen für Lehrkräfte und Lernende unzureichend, was die Glaubwürdigkeit solcher Systeme weiter untergräbt.

Die Studie schlussfolgert weiter, dass grundlegende technische Einschränkungen großer Sprachmodelle (LLMs) die Mängel verursachen und kurzfristige Lösungen nicht realistisch sind. Das Tool wird als ungeeignet für den Schulalltag eingestuft, und die Vermarktung durch Fobizz als objektive und zeitsparende Lösung wird als irreführend kritisiert.

Empfehlungen der Autor:innen umfassen:

  • Keine Flächenlizenzen für ungetestete KI-Tools.
  • Systematische Evaluations- und Akkreditierungsprozesse für KI im Bildungswesen.
  • Schulung von Lehrkräften im Umgang mit LLMs.
  • Politische Maßnahmen zur nachhaltigen Stärkung des Bildungssystems statt Technofixes.

Das Fazit ist eindeutig: Die „KI-Korrekturhilfe“ erfüllt weder die technischen noch die didaktischen Mindestanforderungen und sollte daher nicht verwendet werden.

Auf dem 38. Chaos Communication Congress (38C3) präsentierten die Autor:innen ihre Ergebnisse in einem Vortrag mit dem Titel „Chatbots im Schulunterricht!?“. Dabei wurde nicht nur das Tool von Fobizz kritisch beleuchtet, sondern auch die allgemeine Problematik diskutiert, wie KI-basierte Systeme das Bildungssystem beeinflussen und welche Konsequenzen der Einsatz solcher Technologien mit sich bringt.

Der Vortrag hinterfragt, ob öffentliche Gelder für derartige technologische Lösungen ausgegeben werden sollten, und ruft dazu auf, politische Maßnahmen gegen den Lehrkräftemangel statt fragwürdiger Techno-Fixes zu ergreifen.

Die Studie bestätigt meine Bedenken hinsichtlich der Eignung großer Sprachmodelle für pädagogische Zwecke und unterstreicht, dass grundlegende Verbesserungen solcher Tools kurzfristig nicht zu erwarten sind. Sie fordert daher, den Einsatz dieser Technologien im Schulkontext auszusetzen, bis systematische Evaluierungen und transparente Standards etabliert sind.

Die Ergebnisse verdeutlichen einmal mehr, dass der Einsatz von KI im Bildungswesen nicht als schnelle Lösung für strukturelle Probleme missverstanden werden darf. Stattdessen sind nachhaltige Investitionen in Lehrkräfte und Bildungssysteme unerlässlich, um langfristig Qualität und Chancengleichheit zu sichern.

Das Artikelbild wurde mittels DALL-E generiert.

Abonniere das kostenlose KI-Update

Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!

Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.

Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.

Kai Spriestersbach

Kai Spriestersbach

Kai Spriestersbach ist erfolgreicher Unternehmer und digitaler Stratege mit einem Master-Abschluss in Web Science. Er ist Inhaber von AFAIK und verfügt über mehr als 20 Jahre Erfahrung im Aufbau und der Optimierung von webbasierten Geschäftsmodellen. Als einer der erfahrensten Search Marketing Experten im deutschsprachigen Raum hat er mehr als 25 Vorträge auf SEO- und Online-Marketing-Konferenzen in Deutschland und Österreich gehalten. In den letzten Jahren hat er sich intensiv mit Large Language Models beschäftigt und sich als Experte für die Textgenerierung mit Hilfe künstlicher Intelligenz etabliert. Seine Karriere begann er mit einer Ausbildung zum Mediengestalter (IHK), bevor er den Bachelor of Science (B.Sc) in E-Commerce absolvierte. Anschließend erwarb er den Master of Science (M.Sc) in Web Science und forschte an der RPTU im Bereich angewandter generativer KI.

×