Kategorie: Artikel

  • EU AI Act / KI-VO: Neue gesetzliche Anforderungen an KI-Kompetenzen – Sind Sie vorbereitet?

    EU AI Act / KI-VO: Neue gesetzliche Anforderungen an KI-Kompetenzen – Sind Sie vorbereitet?

    Der Countdown läuft: In sechs Monaten tritt der EU AI Act in Kraft!

    Anbieter von KI Kompetenz & KI-Kenntnisse Schulung, Seminar und Kursen für EU AI Act & KI-VO

    In weniger als einem halben Jahr wird der EU AI Act die Art und Weise, wie Unternehmen mit künstlicher Intelligenz umgehen, grundlegend verändern. Eine der weitreichendsten, aber oft übersehenen Anforderungen betrifft die KI-Kompetenz der Mitarbeiter. Sind Sie und Ihr Unternehmen darauf vorbereitet?

    Die neue Pflicht: KI-Kompetenz als gesetzliche Vorgabe

    Ab Januar 2025 tritt Artikel 4 des EU AI Acts in Kraft. Dieser verpflichtet jede Organisation, die KI-Systeme einsetzt – und sei es nur ein einfacher Chatbot – sicherzustellen, dass ihr Personal über „ein ausreichendes Maß an KI-Kompetenz“ verfügt. Diese Verpflichtung gilt nicht nur für EU-Unternehmen, sondern für alle, die KI-Systeme auf dem EU-Markt anbieten oder nutzen.

    Was bedeutet KI-Kompetenz?

    Der EU AI Act definiert KI-Kompetenz als die Fähigkeiten, das Wissen und das Verständnis, die erforderlich sind, um:

    1. Fundierte Entscheidungen über KI-Systeme zu treffen
    2. Die Chancen und Risiken von KI zu verstehen
    3. Mögliche Schäden durch KI-Systeme zu erkennen und zu vermeiden
    4. KI-Systeme verantwortungsbewusst einzusetzen

    Warum ist KI-Kompetenz so wichtig?

    Unabhängig von der gesetzlichen Verpflichtung ist die Schulung der Mitarbeiter in KI-Technologien eine der wichtigsten Maßnahmen bei der Implementierung von KI. Gut informierte Mitarbeiter können:

    • KI-Technologien effektiver nutzen
    • Risiken frühzeitig erkennen und minimieren
    • Innovationen vorantreiben
    • Die Einhaltung von Vorschriften sicherstellen

    Was müssen Unternehmen tun?

    1. Bestandsaufnahme: Identifizieren Sie, wo in Ihrem Unternehmen KI-Systeme eingesetzt werden.
    2. Schulungsbedarf ermitteln: Analysieren Sie, welche Mitarbeiter mit KI arbeiten und welche spezifischen Kompetenzen sie benötigen.
    3. Schulungsprogramme entwickeln: Erstellen Sie maßgeschneiderte Schulungen, die technische, ethische und gesellschaftliche Aspekte von KI abdecken.
    4. Kontinuierliche Weiterbildung: KI entwickelt sich rasant. Stellen Sie sicher, dass die Kompetenzen Ihrer Mitarbeiter aktuell bleiben.

    Die Konsequenzen der Nichtbeachtung

    Viele Organisationen sind sich dieser bevorstehenden Anforderungen noch nicht bewusst. Doch Unwissenheit schützt vor Strafe nicht. Verstöße gegen den EU AI Act können zu erheblichen Bußgeldern führen. Wichtiger noch: Mangelnde KI-Kompetenz kann den sicheren und effektiven Einsatz von KI-Technologien behindern und Ihr Unternehmen im Wettbewerb zurückwerfen.

    Chance statt Last

    Auch wenn die Erfüllung der KI-Kompetenzanforderungen zunächst aufwendig erscheinen mag, bietet sie enorme Chancen. Gut geschulte Mitarbeiter können das volle Potenzial von KI ausschöpfen, Innovationen vorantreiben und Ihr Unternehmen an die Spitze der digitalen Transformation führen.

    Fazit: Jetzt handeln!

    Der Countdown läuft. In sechs Monaten müssen Unternehmen die Anforderungen des EU AI Acts erfüllen. Nutzen Sie die Zeit, um sich mit den Vorgaben vertraut zu machen und entsprechende Schulungsprogramme zu implementieren. Investieren Sie in die KI-Kompetenz Ihrer Mitarbeiter – es ist eine Investition in die Zukunft Ihres Unternehmens.

    Bereiten Sie sich und Ihr Unternehmen rechtzeitig auf die Anforderungen des EU AI Acts vor. Kontaktieren Sie uns noch heute für ein individuelles Beratungsgespräch und sichern Sie sich Ihren Platz in unseren KI-Kompetenz-Schulungen.

    KI-Kompetenz
    Auf dem Laufenden bleiben
    Datenschutz

    Bereiten Sie Ihr Unternehmen auf die Zukunft vor – mit KI-Kompetenz von Kai Spriestersbach

    Kai Spriestersbach ist KI-Experte und Gründer von AFAIK. Mit über zwei Jahrzehnten Erfahrung in digitalen Technologien und als Dozent für generative KI unterstützt er Unternehmen dabei, die Herausforderungen des EU AI Acts zu meistern und das volle Potenzial von KI auszuschöpfen.

  • Knowledge Graphen in der Praxis: Der Google-Ansatz

    Knowledge Graphen in der Praxis: Der Google-Ansatz

    Trotz der Herausforderungen und potenziellen Fallstricke, die mit der Erstellung und Nutzung von Knowledge Graphen verbunden sind und die ich in meinem letzten Beitrag beschrieben habe, setzen große Technologieunternehmen wie Google weiterhin auf diese Technologie, insbesondere im Bereich der Websuche. Dies wirft die Frage auf: Warum nutzt Google noch immer Knowledge Graphen, wenn die Erstellung mit Hilfe von unzuverlässigen LLMs weder besonders effektiv noch effizient erscheint?

    Insbesondere SEOs stellt sich diese Frage, denn Google hat seinen Knowledge Graphen sogar in seine Cloudbasierte Enterprise Suche Vertex AI Search integriert.

    Die Antwort liegt in der Natur der Websuche und der Art und Weise, wie Google seinen Knowledge Graph aufbaut und einsetzt. Anders als bei einem vollständig LLM-generierten Knowledge Graphen, wie er im GraphRAG-Ansatz verwendet wird, basiert Googles Knowledge Graph auf einer Kombination von Quellen und Methoden:

    1. Kuratierte Datenquellen: Ein Großteil von Googles Knowledge Graph basiert auf sorgfältig kuratierten und verifizierten Datenquellen wie Wikipedia, Wikidata, Freebase und anderen vertrauenswürdigen Informationsquellen.
    2. Strukturierte Daten aus dem Web: Google nutzt strukturierte Daten, die Webseitenbetreiber in ihren HTML-Code einbetten (z.B. Schema.org Markup), um den Knowledge Graph zu erweitern.
    3. Maschinelles Lernen und NLP: Fortschrittliche Algorithmen werden eingesetzt, um Informationen aus unstrukturierten Webinhalten zu extrahieren und zu verarbeiten, aber dies geschieht unter strenger Kontrolle und Überprüfung.

    Dieser Ansatz ermöglicht es Google, die Vorteile von Knowledge Graphen zu nutzen, während gleichzeitig die Risiken minimiert werden, die mit einer vollständig automatisierten Erstellung verbunden wären. Hier sind einige konkrete Beispiele, wie der Knowledge Graph die Websuche verbessert:

    1. Erkennung und Kontextualisierung von Eigennamen

    Die Erkennung von Nachnamen berühmter Persönlichkeiten ein gutes Beispiel. Der Knowledge Graph ermöglicht es Google, Suchanfragen wie „Merkel Politik“ korrekt zu interpretieren, auch wenn der Vorname „Angela“ nicht explizit genannt wird. Der Graph enthält die Information, dass „Merkel“ der Nachname einer prominenten Politikerin ist, und kann so den Kontext erweitern und insgesamt relevantere Suchergebnisse liefern.

    2. Disambiguierung von mehrdeutigen Begriffen

    Ein weiteres Anwendungsgebiet ist die Disambiguierung von Begriffen, die mehrere Bedeutungen haben können. Nehmen wir als Beispiel den Begriff „Jaguar“:

    • Wenn ein Nutzer „Jaguar Geschwindigkeit“ sucht, kann Google anhand des Knowledge Graphs erkennen, dass sich die Anfrage auf das Tier und die Automarke beziehen könnte.
    • Basierend auf dem Suchverlauf des Nutzers, seiner geografischen Location und anderen kontextuellen Hinweisen kann die Suchmaschine die wahrscheinlichere Bedeutung priorisieren oder eine gemischte Suchergebnisseite erstellen, die beide Bedeutungen gleichermaßen berücksichtigt.

    3. Beantwortung von Faktenfragen

    Bei einfachen Faktenfragen kann der Knowledge Graph direkte Antworten liefern, ohne dass der Nutzer eine Website besuchen muss. Zum Beispiel:

    • „Wie hoch ist der Eiffelturm?“
    • „Wer ist der aktuelle Bundeskanzler von Deutschland?“
    • „Wann wurde Albert Einstein geboren?“

    Diese Informationen werden oft direkt in den Suchergebnissen angezeigt, was die Benutzerfreundlichkeit erheblich verbessert.

    4. Verknüpfung verwandter Konzepte

    Der Knowledge Graph ermöglicht es Google, verwandte Konzepte zu verknüpfen und so umfassendere Suchergebnisse zu liefern.

    Ein Beispiel:

    Bei einer Suche nach „Impressionistische Maler“ kann Google nicht nur eine Liste von Künstlern liefern, sondern auch Informationen über die Epoche, wichtige Werke und Museen, in denen diese Werke ausgestellt sind.

    5. Verbesserung lokaler Suchen

    Für lokale Suchanfragen ist der Knowledge Graph besonders wertvoll:

    Eine Suche nach „Italienische Restaurants in der Nähe“ kann dank des Knowledge Graphs nicht nur Adressen liefern, sondern auch Öffnungszeiten, Bewertungen, typische Gerichte und sogar Informationen zur italienischen Küche im Allgemeinen.

    Diese Informationen liegen Google dank der Unternehmensprofile in gesicherter und strukturierter Form zum Größten Teil bereits vor.

    6. Unterstützung bei der Beantwortung komplexer Fragen

    Obwohl der Knowledge Graph allein keine komplexen Fragen beantworten kann, unterstützt er die Suchmaschine dabei, relevante Informationen zu finden und zu präsentieren.

    Ein Beispiel:

    Bei einer Frage wie „Wie hat sich die Klimapolitik in Deutschland seit 2010 entwickelt?“ kann der Knowledge Graph helfen, relevante Ereignisse, Personen und Konzepte zu identifizieren und in einen zeitlichen Kontext zu setzen, was mit einer semantischen Suche alleine nicht möglich wäre.

    Keine generierten Knowledge Graphen in Suchmaschinen

    Trotz dieser Vorteile und Beispiele, generiert Google (zumindest bislang) noch keine Knowledge Graphen via KI aus unstrukturierten Texten. Die folgende Google SERP zu „ChatGPT Alternatives“ wird zwar von einigen SEOs als automatisch generierte Knowledge Graph Integration interpretiert, aber das ist eine Fehleinschätzung:

    Google SERP zu ChatGPT Alternatives mit einer automatisch generierten Knowledge Graph Integration

    Wenn man sich die Eigenschaften dieser gefundenen Entitäten, insbesondere die fehlenden Beziehungen ansieht, wird klar, dass hierbei lediglich eine NER (Named-entity recognition) zum Einsatz kommt.

    Google erkennt auf Webseiten also die Firmen oder Tools, kann diese aber noch lange nicht in Beziehung zu anderen Entitäten setzen, insbesondere nicht zu denen im gesichterten KG!

    Kai Spriestersbach

    Die Verwendung von Knowledge Graphen in Suchmaschinen wie Google zeigt, dass diese Technologie, wenn sie sorgfältig implementiert und mit anderen Methoden kombiniert wird, erhebliche Vorteile bieten kann. Der Schlüssel liegt in der Kombination verschiedener Datenquellen und Methoden, sowie in der ständigen Überprüfung und Verfeinerung der Informationen.

    Während die Erstellung von Knowledge Graphen ausschließlich mit Hilfe von LLMs tatsächlich problematisch wäre, zeigt der Ansatz von Google, dass eine ausgewogene Mischung aus kuratierten Daten, maschinellem Lernen und menschlicher Überprüfung zu deutlichen Verbesserungen in der Qualität und Relevanz von Suchergebnissen führen kann.

    Es ist jedoch wichtig zu betonen, dass selbst Googles gesicherter Knowledge Graph nicht unfehlbar ist und ständiger Verbesserung und Aktualisierung bedarf. Die Herausforderung besteht darin, die richtige Balance zwischen Automatisierung und menschlicher Überprüfung zu finden, um sowohl Effizienz als auch Zuverlässigkeit zu gewährleisten.

  • Warum Knowledge Graphen das Problem der Unverlässigkeit von KI-Anwendungen oft nicht lösen

    Warum Knowledge Graphen das Problem der Unverlässigkeit von KI-Anwendungen oft nicht lösen

    Generative künstliche Intelligenz gewinnt immer mehr Einfluss auf unser tägliches Leben und zieht ebenso Stück für Stück auch in Suchmaschinen und andere Information Retrieval Systeme ein. Dabei stehen wir jedoch vor einer grundlegenden Herausforderung: Wie können wir sicherstellen, dass KI-Systeme zuverlässige und faktisch korrekte Informationen liefern?

    Eine Möglichkeit das sogenannte Grounding über das Einbeziehen von Informationen aus einer Websuche über Googles eigene Grounding API zu realisieren, habe ich in meinem letzen Beitrag beschrieben.

    Eine weitere oft diskutierte Lösung sind sogenannte Knowledge Graphen – komplexe Netzwerke von Informationen, die Beziehungen zwischen Entitäten darstellen. Doch während diese Technologie in bestimmten Bereichen brilliert, stößt sie in anderen an ihre Grenzen. Dieser Artikel beleuchtet die Potenziale und Limitationen von Knowledge Graphen im Kontext der KI-Zuverlässigkeit.

    Die Stärke von Knowledge Graphen

    Knowledge Graphen sind zweifellos leistungsfähige Werkzeuge, wenn es darum geht, komplexe Zusammenhänge zu erfassen und abzubilden. Ein klassisches Beispiel, das die Stärke dieser Technologie verdeutlicht, ist die Analyse von Unternehmensgründungen durch ehemalige Mitarbeiter großer Tech-Konzerne.

    Stellen wir uns vor, wir möchten herausfinden, welche erfolgreichen Start-ups von ehemaligen Apple- oder Google-Mitarbeitern gegründet wurden. Ein gut strukturierter Knowledge Graph könnte diese Frage nahezu instantan beantworten, indem er Verbindungen zwischen Personen, Unternehmen, Positionen und Zeiträumen herstellt.

    Diese Art von Analyse, die normalerweise aufwendige journalistische Recherche erfordern würde, kann durch einen Knowledge Graphen automatisiert und in Sekundenschnelle durchgeführt werden.

    Die Stärke liegt hier in der Fähigkeit, disparate Informationen zu verknüpfen:

    1. Wer hat welches Unternehmen gegründet?
    2. Wie erfolgreich sind diese Unternehmen?
    3. Wo haben die Gründer vorher gearbeitet?
    4. Welche Positionen hatten sie inne und wie lange?

    Durch die Verknüpfung dieser Datenpunkte können Knowledge Graphen komplexe Fragen beantworten und Muster aufdecken, die sonst verborgen blieben.

    Die Herausforderung der Datengenerierung

    Trotz ihrer offensichtlichen Vorteile stoßen Knowledge Graphen auf ein fundamentales Problem: Sie bauen sich nicht von selbst auf. Die Recherchearbeit, die normalerweise von Journalist:innen oder Wissenschaftler:innen geleistet wird, muss auch für den Aufbau eines Knowledge Graphen durchgeführt werden – und zwar mit der gleichen Sorgfalt und Genauigkeit.

    Einige Unternehmen haben diesen Prozess perfektioniert. In Spezialbereichen wie der Medizin gibt es Firmen, die seit Jahrzehnten hochwertige und faktisch sorgfältig überprüfte Knowledge Graphen aufbauen. Diese wertvollen Datensammlungen werden nun für beträchtliche Summen an Unternehmen lizenziert, die ihre KI-Anwendungen damit „grounden“ – also mit einer verlässlichen Faktenbasis untermauern – wollen.

    Der Aufbau solcher spezialisierten Knowledge Graphen ist jedoch ein zeitaufwändiger und kostspieliger Prozess. Er erfordert nicht nur technisches Know-how, sondern auch tiefgreifendes Fachwissen in den jeweiligen Domänen. Zudem müssen die Daten ständig auf ihre Aktualität und Richtigkeit überprüft werden, was den Prozess zusätzlich verkompliziert.

    Der verführerische Einsatz von Large Language Models

    Angesichts des enormen Aufwands, der mit dem manuellen Aufbau von Knowledge Graphen verbunden ist, erscheint der Einsatz von Large Language Models (LLMs) zur Automatisierung dieses Prozesses verlockend. Die Idee ist bestechend einfach: LLMs könnten unstrukturierte Texte analysieren, relevante Informationen extrahieren und daraus automatisch Knowledge Graphen generieren.

    Ein vielversprechender, aber problematischer Ansatz: GraphRAG

    Angesichts der Herausforderungen bei der Erstellung und Nutzung von Knowledge Graphen arbeiten Forscher intensiv an Lösungen, die die Vorteile dieser Technologie nutzen und gleichzeitig ihre Limitationen adressieren wollen. Ein Ansatz, der in diesem Kontext besondere Aufmerksamkeit erregt hat, ist GraphRAG von Microsoft Research.

    GraphRAG baut auf der Technologie der Retrieval-Augmented Generation (RAG) auf, erweitert diese aber durch den Einsatz von LLM-generierten Knowledge Graphen. RAG ist eine Technik, bei der Informationen basierend auf einer Benutzeranfrage gesucht und als Referenz für eine KI-generierte Antwort bereitgestellt werden. GraphRAG geht einen Schritt weiter, indem es LLMs nutzt, um aus unstrukturierten Texten Knowledge Graphen zu erstellen und diese dann für verbesserte Antworten zu verwenden.

    Dieser Ansatz bietet durchaus einige Vorteile:

    1. Verbesserte Kontextualisierung: Der GraphRAG-Ansatz verspricht, besser darin zu sein, „die Punkte zu verbinden“ und komplexe Zusammenhänge zu erfassen. Es kann Informationen aus verschiedenen Teilen eines Dokuments oder sogar aus mehreren Dokumenten kombinieren, um umfassendere Antworten zu generieren.
    2. Umgang mit privaten Datensätzen: GraphRAG wurde speziell entwickelt, um mit privaten Datensätzen zu arbeiten – also mit Informationen, die nicht im Trainingsdatensatz des LLMs enthalten sind. Dies macht es besonders interessant für Unternehmen, die ihre eigenen, proprietären Daten analysieren möchten.
    3. Thematische Analyse: GraphRAG zeigt sich besonders stark darin, übergreifende Themen und Konzepte in großen Datensätzen zu identifizieren. Dies verspricht ein tieferes Verständnis komplexer Informationssammlungen.

    Kritische Betrachtung: Verschiebung statt Lösung des Problems

    Trotz der vielversprechenden Aspekte von GraphRAG ist es wichtig, einen kritischen Blick auf diesen Ansatz zu werfen. Ein fundamentales Problem bleibt bestehen: Die Verwendung eines LLMs zur Erstellung eines Knowledge Graphen, der dann wiederum für das Grounding desselben oder eines anderen LLMs genutzt wird, verschiebt das Problem der Unzuverlässigkeit, löst es aber nicht grundsätzlich.

    Der Kern des Problems liegt darin, dass das LLM in Microsofts GraphRAG-Ansatz dafür zuständig ist, die Informations-Tupel oder -Tripel aus unstrukturiertem Text zu extrahieren, um den Graphen aufzubauen. Dieser Prozess ist inhärent mit den gleichen Risiken und Schwächen behaftet, die wir bei LLMs generell beobachten:

    1. Fehleranfälligkeit: LLMs können Informationen falsch interpretieren oder Zusammenhänge herstellen, die in Wirklichkeit nicht existieren. Diese Fehler würden direkt in den Knowledge Graphen übernommen.
    2. Halluzinationen: Die Tendenz von LLMs, plausibel klingende, aber faktisch falsche Informationen zu generieren, könnte zu einem Knowledge Graphen führen, der nicht existierende Verbindungen oder Entitäten enthält.
    3. Bias und Verzerrungen: Vorurteile und Verzerrungen, die im Trainingsdatensatz des LLMs vorhanden sind, könnten sich in der Struktur und den Inhalten des generierten Knowledge Graphen widerspiegeln.
    4. Kontextuelle Missverständnisse: LLMs können den Kontext von Informationen missverstehen, was zu fehlerhaften Verknüpfungen im Knowledge Graphen führen kann.

    Indem wir ein LLM verwenden, um einen Knowledge Graphen aufzubauen, und diesen dann für das Grounding eines (möglicherweise desselben) LLMs nutzen, schaffen wir einen potenziellen Teufelskreis der Fehlerfortpflanzung. Es besteht die Gefahr, dass Fehler oder Ungenauigkeiten im ursprünglichen Text durch das LLM in den Knowledge Graphen übernommen und dann durch den Grounding-Prozess weiter verstärkt werden.

    Kai Spriestersbach

    Dies bedeutet nicht, dass GraphRAG ohne Wert ist. Der Ansatz kann durchaus zu verbesserten Ergebnissen in bestimmten Anwendungsfällen führen, insbesondere wenn es um die Verarbeitung großer Mengen unstrukturierter Daten geht. Allerdings ist es entscheidend zu verstehen, dass GraphRAG das grundlegende Problem der KI-Zuverlässigkeit nicht löst, sondern lediglich auf eine andere Ebene verlagert.

    Um wirklich zuverlässige KI-Systeme zu entwickeln, müssen wir weiterhin an Methoden arbeiten, die die Genauigkeit und Verlässlichkeit von LLMs grundlegend verbessern. Dies könnte die Entwicklung verbesserter Trainingsmethoden, die Integration von externem Faktenwissen oder die Kombination von KI mit menschlicher Expertise umfassen.

    Gleichzeitig unterstreicht die Entwicklung von Ansätzen wie GraphRAG die Notwendigkeit für robuste Evaluierungsmethoden. Wir müssen in der Lage sein, die Qualität und Zuverlässigkeit von automatisch generierten Knowledge Graphen rigoros zu überprüfen und zu bewerten, bevor wir sie für kritische Anwendungen einsetzen.

    Dieser Ansatz verspricht eine erhebliche Beschleunigung und Kosteneinsparung bei der Erstellung von Knowledge Graphen. Statt mühsam jede einzelne Information manuell zu überprüfen und einzupflegen, könnten LLMs riesige Textmengen in kurzer Zeit verarbeiten und strukturieren.

    Das Dilemma der Verifizierung

    Eine mögliche Lösung wäre, den KI-generierten Knowledge Graphen einer gründlichen manuellen Überprüfung zu unterziehen. Doch dies bringt uns zurück zum Ausgangspunkt: Der enorme Zeit- und Ressourcenaufwand, den wir ursprünglich durch den Einsatz von KI vermeiden wollten.

    Dennoch könnte sich dieser Aufwand lohnen, wenn wir einen einmal verifizierten Knowledge Graphen für eine Vielzahl von Anwendungen nutzen könnten. Die Idee eines universellen, zuverlässigen Wissensfundaments für KI-Systeme ist zweifelsohne attraktiv.

    Die Dynamik der realen Welt

    Doch selbst wenn wir einen perfekt verifizierten Knowledge Graphen erstellen könnten, stoßen wir auf ein weiteres, fundamentales Problem: Die Welt steht nicht still. Informationen, die heute korrekt sind, können morgen schon veraltet sein. Menschen wechseln Jobs, Unternehmen fusionieren oder gehen bankrott, wissenschaftliche Erkenntnisse werden revidiert.

    Ein Knowledge Graph ist daher niemals wirklich „fertig“. Er erfordert eine ständige Aktualisierung und Pflege, um mit der sich ändernden Realität Schritt zu halten. Dies stellt eine enorme logistische und finanzielle Herausforderung dar, insbesondere wenn wir von einem umfassenden, domänenübergreifenden Knowledge Graphen sprechen.

    Knowledge Graphen als Teil der Lösung, nicht als Allheilmittel

    Knowledge Graphen sind zweifellos ein mächtiges Werkzeug im Arsenal der KI-Technologien. Sie können komplexe Zusammenhänge abbilden und Erkenntnisse liefern, die sonst verborgen blieben. In spezialisierten Bereichen, wo die Datenmenge überschaubar und die Aktualisierungsrate handhabbar ist, können sie einen erheblichen Mehrwert bieten.

    Doch als universelle Lösung für das Problem der KI-Zuverlässigkeit stoßen sie an ihre Grenzen. Die Herausforderungen bei der Erstellung, Verifizierung und kontinuierlichen Aktualisierung sind enorm. Der Einsatz von LLMs zur Automatisierung dieser Prozesse verschiebt das Problem der Unzuverlässigkeit lediglich, anstatt es zu lösen.

    Die Zukunft liegt wahrscheinlich in einem hybriden Ansatz: Der gezielte Einsatz von Knowledge Graphen in Bereichen, wo ihre Stärken voll zum Tragen kommen, kombiniert mit anderen Technologien und menschlicher Expertise. Wir müssen akzeptieren, dass es keine einfache, universelle Lösung für das Problem der KI-Zuverlässigkeit gibt.

    Stattdessen sollten wir uns darauf konzentrieren, die Grenzen und Möglichkeiten jeder Technologie zu verstehen und transparente Systeme zu entwickeln, die ihre Unsicherheiten klar kommunizieren. Nur so können wir KI-Systeme schaffen, die nicht nur leistungsfähig, sondern auch vertrauenswürdig sind.

    Die Herausforderung der KI-Zuverlässigkeit bleibt bestehen, aber mit einem nuancierten Verständnis der verfügbaren Werkzeuge – einschließlich der Stärken und Schwächen von Knowledge Graphen – sind wir besser gerüstet, ihr zu begegnen.

  • Googles KI-Revolution: Wie Chatbots faktenbasiert werden und die Suche transformieren

    Googles KI-Revolution: Wie Chatbots faktenbasiert werden und die Suche transformieren

    Als jemand, der seit Jahren in der KI-Forschung und SEO-Branche tätig ist, bin ich immer auf der Suche nach bahnbrechenden Entwicklungen. Und lasst mich Euch sagen: Google hat gerade einen Volltreffer gelandet!

    Stellt Euch vor, Ihr fragt Euren KI-Assistenten nach dem Wetter und bekommt eine Vorhersage vom letzten Jahr. Oder Ihr erkundigt Euch nach dem aktuellen Oscar-Gewinner und hört von einer Verleihung, die schon ewig her ist. Klingt frustrierend, oder? Genau dieses Problem an Large Language Models und KI-basierten Chatbots hat Google jetzt angegangen, und zwar mit einer Lösung, die wir sofort nutzen können!

    Googles „Grounding“-Technologie

    Auf der Google Cloud Next 2024 haben die Produktmanager:innen Louis Leo und Tom eine Technologie vorgestellt, die sie „Grounding“ nennen. Im Kern ist es verblüffend einfach: Jede Anfrage an ein Gemini-Modell (Googles neueste KI-Familie) löst eine Suche im Hintergrund aus. Die KI greift also in Echtzeit auf das riesige, stets aktuelle Wissen des Internets zu – ganz so, als würde sie kurz googeln, bevor sie antwortet.

    Ankündigung der Google-Suche Grounding für Gemini
1. Antworten des Ankermodells
LLM-Antworten basieren direkt auf vertrauenswürdigem Google-Suchweltwissen und öffentlichen Fakten
2. Quellenangaben, die Halluzinationen reduzieren
Grounding liefert Bestätigungsurls, so dass du die Beweise bestätigen und Halluzinationen leichter identifizieren kannst
3. Funktioniert out-of-box, ohne dass eine Entwicklung erforderlich ist
Aktiviere die Funktion mit einer einfachen Konfiguration für verschiedene Datenquellen
    Screenshot aus dem YouTube Video der Präsentation

    Aber es kommt noch besser: Das System liefert auch gleich Quellenangaben und Links mit. Es ist, als hätte Euer KI-Assistent plötzlich einen Grundkurs in wissenschaftlichem Arbeiten belegt:

    Kunden bauen
GenAl-Anwendungen auf Clouds
Vertex LLM API
- Vertrauen der Nutzer aufbauen
- Erklärbare Antworten senden
- Eine Reihe von Perspektiven bieten
- Neugierde wecken
    Screenshot aus dem YouTube Video der Präsentation

    Die Anwendungsmöglichkeiten sind so vielfältig wie aufregend: Stellt Euch vor, Ihr fragt Eure Essenslieferungs-App nach einem Gericht, das Ihr noch nie probiert habt. Statt einer langweiligen Standardbeschreibung bekommt Ihr eine informative Antwort mit kulturellem Kontext, Zutateninformationen und sogar aktuellen Bewertungen – und das alles, ohne die App zu verlassen.

    Uber Eats experimentiert bereits mit dieser Technologie. Bald könnte es Schluss sein mit dem hektischen Googeln von „Was ist Poke?“, während Ihr versucht, Euer Abendessen zu bestellen. Eure App wird zu einem:r kenntnisreichen Foodie-Freund:in, der:die Euch mit brandaktuellen Informationen durch kulinarische Abenteuer führt.

    Jenseits des Chats: Die RAG-Revolution

    Google hat noch mehr in petto: Eine ganze Suite von Tools für Unternehmen und Entwickler:innen, um ihre eigenen „geerdeten“ KI-Erfahrungen zu schaffen. Diese Technologie nennt sich Retrieval-Augmented Generation (RAG) und umfasst:

    • Vertex AI Search: Eine vollständig verwaltete Lösung für Unternehmen, um ihre eigenen Daten zu indexieren und zu durchsuchen.
    • Grounded Generation API: Ein System zur Erstellung von KI-Antworten, die auf spezifischen Informationssets basieren.
    • Check Grounding API: Ein Faktenchecker für KI-generierte Inhalte.

    Stellt Euch einen Kundenservice-Chatbot vor, der sofort auf die gesamte Wissensdatenbank Eures Unternehmens zugreifen kann, oder ein Content-Creation-Tool, das sich in Echtzeit selbst auf Fakten prüft. Die Möglichkeiten sind endlos!

    Die Zukunft ist geerdet

    Je mehr KI in unseren Alltag integriert wird, desto wichtiger wird es, dass wir ihr vertrauen können. Googles Grounding-Technologie ist ein großer Schritt in diese Richtung und ich gehe fest davon aus, dass OpenAI und Co. hier nachziehen werden.

    Für Unternehmen bedeutet das effizientere Werkzeuge und bessere Kundenerfahrungen. Für Entwickler:innen eröffnen sich neue Horizonte bei der Erstellung intelligenter, reaktionsschneller Anwendungen. Und für uns alle verspricht es eine Zukunft, in der digitale Assistent:innen nicht nur clevere Lügner:innen sind, sondern kenntnisreiche, stets aktuelle Begleiter:innen auf unseren digitalen Reisen.

    Wenn Du das Ganze in Aktion sehen willst, hier das Video zum Vortrag:

  • KI-SEO-Tool der Zukunft? Googles Enterprise Search mit RankBrain, Gecko & Knowledge Graph als Vertex AI Search nutzen

    KI-SEO-Tool der Zukunft? Googles Enterprise Search mit RankBrain, Gecko & Knowledge Graph als Vertex AI Search nutzen

    Für meinen aktuell laufenden Onlinekurs „The Future of Search“ entwickle ich gerade ein kleines Tool, mit dem man gezielt die Relevanz von Dokumenten zu Suchanfragen messen kann, um gezielter für die kommenden „AI Overviews“ oder „Search Generative Experience“ optimieren zu können. Bei meinen Recherchen bin ich auf etwas unglaublich spannendes gestoßen…

    Die KI-SEO-Tool-Revolution kommt: Google macht RankBrain & Knowledge Graph über Vertex AI Search zugänglich

    Das Unternehmen hat seine Suchtechnologie, die bis dato als „Enterprise Search“ vermarktet wurde und auf den Kernbestandteilen der Google Suche basiert, für alle über die Vertex AI API verfügbar gemacht. Diese nutzt unter anderem das proprietäre RankBrain-System, ein einzigartiges Text-Embedding-Modell sowie ein fortgeschrittenes neuronales Matching-System, das bislang nur von ausgewählten Testkunden ausprobiert werden konnte.

    Diese Entwicklung eröffnet aus meiner Sicht vollkommen neue Perspektiven für SEO-Experten & -Expertinnen sowie KI-Enthusiasten & -Enthusiastinnen. Insbesondere mit Blick auf die SGE (Search Generative Experience) und Googles AI Overviews bekommt dieser Release, den wahrscheinlich die meisten nicht einmal mitbekommen haben, aus meiner Sicht eine vollkommen neue Bedeutung.

    Zum ersten mal ist es möglich, das Ranking von Dokumenten, alleine auf Basis deren Relevanz bei Google zu erforschen, ohne dass andere Rankingfaktoren dieses Bild verzerren.
    Und das beste: Vertex AI Search kann noch mehr!

    Kai Spriestersbach

    Was ist Vertex AI Search?

    Vertex AI Search ist eine sofort einsatzbereite Suchmaschine, die von der Vertex AI-Plattform von Google Cloud bereitgestellt wird. Damit können Unternehmen schnell auf generativer KI basierende Suchmaschinen für Kunden und Mitarbeiter erstellen. Wenn Sie die Qualität der Suche auf Ihren Websites verbessern möchten oder Ihre Mitarbeiter interne Daten leichter finden sollen, können Sie über Vertex AI Search ganz einfach Suchmaschinen einrichten, die Ihren Zielen entsprechen und gleichzeitig Zugriffssteuerung, Datenschutz und Datenhoheit unterstützen.

    Was ist Vertex AI Search

    Vertex AI Search baut auf einer Vielzahl von Google-Suchtechnologien auf, darunter die semantische Suche. Durch Natural Language Processing sowie Machine Learning lassen sich so relevantere Ergebnisse als bei herkömmlichen, auf Suchbegriffen basierenden Suchverfahren bereitstellen, weil anhand der Suchanfrage des Nutzers Beziehungen innerhalb des Inhalts sowie die eigentliche Absicht erkannt werden.

    Der wirklich interessante Teil ist allerdings aus meiner Sicht:

    Darüber hinaus baut Vertex AI Search auf die Google-Erfahrung zum Suchverhalten der Nutzer auf und berücksichtigt bei der Reihenfolge der angezeigten Ergebnisse die Relevanz von Inhalten.

    Denn damit verrät Google quasi, dass mehr als nur reine Texte in das Modell einfließen. Insbesondere dieser Umstand, also dass Daten zum Nutzerverhalten der Google Suche verwendet werden, um die Ergebnisse von Rankbrain zu verbessern, macht die Technologie aus meiner Sicht extrem interessant für SEOs, im Gegensatz zu klassischen Text-Embeddings von OpenAI & Co.

    Was ist Google RankBrain?

    RankBrain, eingeführt im Jahr 2015, ist ein auf maschinellem Lernen basierendes System, das Google nutzt, um Suchanfragen zu verstehen und relevante Ergebnisse zu liefern. Über Jahre hinweg haben SEOs darüber gerätselt, was sich hinter dieser Technologie verbergen könnte. Google spricht selbst von einem „Deep-Learning-Rankingsystem“.

    Was genau sich dahinter verbirgt, können wir uns nun selbst anschauen, denn Googles Cloud Dienst „Vertex AI Search“ nutzt dieselben RankBrain- und neuronalen Matching-Prozesse, um Abfrage- und Dokumenteneinbettungsvektoren zu generieren, die semantische Beziehungen abbilden und eine semantische Suche in Google-Qualität ermöglichen.

    Im Grunde handelt es sich also um eine semantische Suche, die mit Text-Embeddings arbeitet, vergleichbar mit denen anderer Anbieter, wie beispielsweise OpenAI, nur mit dem Vorteil, dass dieses mit Nutzerdaten aus echten Suchvorgängen bei Google optimiert wurde.

    Vertex AI Search ist optimiert für RAG

    Der Hauptanwendungsbereich für diese Technologie ist natürlich die Retrieval-Augmented-Generation, kurz RAG. Beim RAG-Pattern kombiniert man große Sprachmodelle (LLMs) mit einem Informationsabruf aus externen Quellen, um einige der größten Einschränkungen von LLMs zu überwinden. Insbesondere der begrenzten Wissensbasis aufgrund des Trainingsdatensatzes, dem Mangel an relevantem Kontext aus Unternehmensdaten sowie veralteten Informationen im Sprachmodell lassen sich damit begegnen.

    RAG = Die KI benutzt eine Suchmaschine als Werkzeug

    RAG heißt im Grunde, dass die KI eine Suchmaschine als Werkzeug benutzt, um Fragen besser beantworten zu können.

    LLMs sind zwar intelligent genug, um Fragen zu verstehen und diese korrekt zu beantworten, wenn man ihnen die dazu notwendigen Informationen mitliefert, aber sie können ihre Leistung nicht voll ausschöpfen, wenn die Suche nicht die richtigen Dokumente findet, in denen die notwendigen Informationen stehen!

    Seit dem RAG-basierte Ansätze in KI-Tools und Suchmaschinen wie perplexity oder auch ChatGPT Einzug halten, lässt sich gut nachvollziehen, dass die Effizienz eines RAG-Systems nahezu vollständig von der Suchqualität des Backend-Retrievalsystems, also der Suchmaschine dahinter abhängt und hier hat Google zweifelsohne die besten Daten.

    In den letzten Monaten haben KI-Forscher und -Entwickler zahlreiche RAG-Technologien erforscht, darunter Text Chunking, Query Expansion, Hybrid Search, Knowledge Graphen, Reranking und andere. Aber fest steht: Ein LLM braucht die richtigen Daten, damit es keine Dinge erfinden muss, und du brauchst die beste Suchtechnologie, um die besten Daten zu bekommen.

    Die semantische Suche mittels Deep Learning ist heutzutage für die meisten Suchmaschinen unverzichtbar geworden. Sie ermöglicht es Entwicklern, Systeme zu erstellen, die den Sinn von Suchanfragen verstehen können, anstatt nur nach Schlüsselwörtern zu suchen. Doch die meisten RAG-Systeme verwenden relativ einfache Ähnlichkeitssuchen in Vektordatenbanken, meist auf Basis der Text-Embeddings von Suchanfrage und Dokumenten-Chunks um Informationen zu finden. Dies führt jedoch oft zu qualitativ minderwertigen und irrelevanten Ergebnissen, insbesondere bei komplexeren Fragestellungen und Fachthemen.

    Exkurs: Matching-Verfahren im RAG

    Es gibt verschiedene Methoden, um die Ähnlichkeit zwischen zwei Vektoren zu berechnen, die in zahlreichen Anwendungen in der Künstlichen Intelligenz zum Einsatz kommen, zum Beispiel um zu erkennen, wie ähnlich sich zwei Sätze sind.

    Die übliche Methode dafür ist die Cosine Similarity, zu Deutsch Kosinus-Ähnlichkeit. Sie hat aber einen Nachteil: Wenn zwei Vektoren sehr ähnlich sind (also fast in die gleiche Richtung zeigen), kann sie die kleinen Unterschiede nicht gut erfassen.

    Google hat daher in einem Forschungspapier eine verbesserte Methode vorgeschlagen. Diese nennt sich Angular Distance (Winkelabstand). Sie kann auch bei sehr ähnlichen Vektoren die feinen Unterschiede besser erkennen.

    Der Hauptunterschied ist, dass die Kosinus-Ähnlichkeit bei sehr ähnlichen Vektoren fast immer den Wert 1 ausgibt. Zudem ist die Kosinus-Ähnlichkeit beispielsweise effektiv bei hochdimensionalen Räumen, die typisch für Textanalysen sind, kann bei sehr kurzen Dokumenten oder Anfragen jedoch ziemlich unzuverlässig sein.

    Die Angular Distance differenziert hier stärker und gibt unterschiedlichere Werte aus und ist insgesamt robuster bei kurzen Texten. Es ist also ein bisschen so, als ob man eine Lupe benutzt, um feine Unterschiede besser zu sehen. Das macht die Angular Distance gerade im Vergleich von Suchanfragen mit Dokumenten-Chunks in vielen Fällen genauer und nützlicher, allerdings auch rechenintensiver und weniger effizient bei hochdimensionalen Embedding-Vektoren. Für das Matching komplexer Suchanfragen mit längeren Dokumentenvektoren ist daher die Cosine Similarity oft die beste Wahl.

    Es noch weitere Methoden, die ähnliche Verbesserungen bringen können. Die Wahl der besten Methode hängt vom konkreten Anwendungsfall ab. In der Regel findet zudem eine Vorverarbeitung der Texte (z.B. Stemming, Stopword-Entfernung) statt und es werden moderne Embedding-Techniken mit klassischen Relevanzkriterien (z.B. TF-IDF, BM25) kombiniert.

    Semantische Suche ist mehr als nur Ähnlichkeitssuche von Texten

    In wissenschaftlichen Publikationen und theoretischen Demonstration ist diese einfache Ähnlichkeitssuche sehr effektiv, da die Datensätze Millionen von Frage-Antwort-Paaren enthalten. In vielen realen RAG-Szenarien gibt es jedoch keine vorgefertigten Frage-Antwort- oder Anfrage-Kandidaten-Paare. Daher ist es wichtig, dass ein KI-Modell die Beziehung zwischen Anfragen und entsprechenden Antworten lernen und vorhersagen kann, um eine qualitativ hochwertige semantische Suche zu ermöglichen.

    Google Search begann 2015 mit der Einführung der semantischen Suche, insbesondere durch das Deep-Learning-Rankingsystem RankBrain. Kurz darauf folgte das neuronale Matching, um die Genauigkeit der Dokumentensuche zu verbessern. Neuronales Matching ermöglicht es einer Suchmaschine, die Beziehungen zwischen den Absichten einer Anfrage und hochrelevanten Dokumenten zu erlernen. So kann die Suchmaschine den Kontext einer Anfrage erkennen, anstatt nur nach Ähnlichkeiten zu suchen.

    Googles Vertex AI Search ist extrem spannend für SEOs, denn diese besondere Art des maschinellen Lernens hinsichtlich der Relevanz von Suchanfragen zu Dokumenten, genannt Rankbrain, bietet kein anderes Embedding-Modell.

    Kai Spriestersbach

    Neuronales Matching lernt die Beziehungen zwischen Anfragen und Dokumenten

    Vertex AI Search nutzt tatsächlich die gleichen RankBrain- und neuronalen Matching-Prozesse, um Anfrage- und Dokument-Embeddings zu erzeugen, wie Googles Suche. Diese Vektoren bilden semantische Beziehungen ab und ermöglichen eine semantische Suche in Google-Qualität.

    Das lässt sich mittlerweile auch in der Dokumentation zu Googles Text-Embedding-Modellen Gecko nachlesen:

    Bei Verwendung von Modellversionen, die am oder nach August 2023 veröffentlicht wurden, einschließlich textembedding-gecko@003 und textembedding-gecko-multilingual@001 , gibt es einen neuen Aufgabentypparameter und den optionalen Titel (nur mit task_type=RETRIEVAL_DOCUMENT gültig).

    Über den Parameter task_type wird also der Anwendungszweck der Embeddings spezifiziert, um dem Modell zu helfen, Einbettungen mit höherer Qualität zu erstellen und diese Liste ist extrem interessant!

    Es gibt sowohl Werte für Suchanfragen, als auch Dokumente einer Suche, sowie Texte für eine semantische Textähnlichkeit (Semantic Textual Similarity, STS). Andere NLP-Tasks wie Klassifizierung, Clustering und sogar die Beantwortung von Fragen werden offenbar jeweils mit speziell optimierten Embeddings versehen. Und sogar zur Faktenüberprüfung gibt es eigene Embeddings!

    Das bietet kein anderer Anbieter!

    Kai Spriestersbach

    Anstatt selbst einen Weg zu finden, die Lücke zwischen Fragen und Antworten in einem RAG-System zu schließen, können Entwickler:innen ganz einfach die Vorteile der semantischen Suchtechnologie nutzen, die von Milliarden von Nutzer:innen über viele Jahre getestet wurde. Mit Vertex AI Search bietet Google nun eine vollständig verwaltete Plattform, die dieselben RankBrain- und Neural Matching-Prozesse nutzt, die Google Search seit Jahren einsetzt und die von Milliarden von Nutzern über viele Jahre hinweg trainiert und erprobt wurde.

    Google ist führend bei semantischer Suche

    Entgegen der weitverbreiteten Meinung ist die semantische Suche jedoch keine neue Erfindung, die erst mit dem Aufkommen von großen Sprachmodellen populär wurde. Tatsächlich ist sie das Ergebnis jahrelanger Forschung und Entwicklung.

    Google war hier schon früh Vorreiter und traf bereits 2013 die strategische Entscheidung, in die Entwicklung eigener KI-Prozessoren zu investieren – den sogenannten Tensor Processing Units (TPUs). Diese TPUs wurden speziell dafür konzipiert, die nötige Rechenleistung für maschinelles Lernen und KI-Anwendungen bereitzustellen. Ihr Ursprung liegt laut Google jedoch in dem Ziel, das für eine praxistaugliche semantische Suche erforderliche Deep Learning zu ermöglichen.

    Der erste TPU wurde 2015 in die Produktionsinfrastruktur von Google Search integriert. Diese erhebliche Investition hat dazu beigetragen, Kosten und Latenzzeiten zu reduzieren und so eine hochwertige semantische Suche für Milliarden von Nutzern zu realisieren. Google hat über Jahre hinweg in die Entwicklung leistungsfähiger Suchtechnologien investiert. So verarbeitet Google Search semantische Suchen mithilfe von ScaNN, einer der größten und schnellsten Vektorsuch-Infrastrukturen weltweit.

    ScaNN

    ScaNN kommt nicht nur bei Google Search zum Einsatz, sondern auch in vielen anderen Google-Diensten. Es findet blitzschnell relevante Dokumente und Inhalte, um Nutzern in Sekundenschnelle die benötigten Informationen zu liefern. Laut Benchmarks gehört ScaNN zu den führenden Algorithmen der Branche für die Abfrage-Verarbeitung.

    Insgesamt stellen Googles bahnbrechende Suchtechnologien wie RankBrain, neuronales Matching, ScaNN und die TPU-Familie einige der wertvollsten technologischen Errungenschaften des letzten Jahrzehnts dar. Diese Technologien werden nun auch in Vertex AI Search genutzt, wodurch Entwickler Zugang zu semantischen Suchfunktionen in Google-Qualität erhalten – mit minimaler Latenz und zu vertretbaren Kosten.

    Aber damit nicht genug…

    Funktionen & Bedeutung für SEOs

    Wenn wir unsere Inhalte und Webseiten für KI-basierte Suchmaschinen wie Perplexity, das neue bing und Googles SGE optimieren wollen, oder die Chance steigern wollen, dass Googles „AI Overviews“ Informationen von unserer Webseite zitiert, brauchen wir zunächst einmal irgendeinen Anhaltspunkt, ob wir in die richtige Richtung gehen. Wir müssen also die semantische Relevanz unserer Inhalte im Bezug auf Suchanfragen messen.

    Vertex AI Search bietet uns hierfür quasi eine fertige hybride Suchmaschine an, die für jede Anfrage gleichzeitig sowohl eine Schlüsselwort- als auch eine semantische Suche auf Basis der Technologien durchführt, die Google auch in seiner eigenen Suche verwendet!

    Kai Spriestersbach

    Die Ergebnisse werden dann zusammengeführt und basierend auf ihren jeweiligen Bewertungen neu geordnet. Dadurch werden die Vorteile beider Suchansätze kombiniert und die Lücken, die jeder Ansatz für sich genommen lässt, geschlossen.

    Das Bild veranschaulicht diesen hybriden Suchansatz von Vertex AI Search.

    Ein weiterer wichtiger Aspekt ist das Verstehen und Umformulieren von Suchanfragen.

    Nutzer tippen oft Suchanfragen falsch ein oder erinnern sich nicht genau an die richtigen Bezeichnungen. Hier kommen Techniken wie die Umformulierung und Erweiterung von Suchanfragen zum Einsatz.

    Vertex AI Search bietet standardmäßig eine automatische, kontextbezogene Umformulierung und Erweiterung von Suchanfragen in den unterstützten Sprachen an. Dazu gehören neben der Wortstammbildung (Stemming) und Rechtschreibkorrektur auch das Hinzufügen verwandter Wörter und Synonyme sowie das Entfernen unwichtiger Wörter.

    Diese Funktionen helfen der Suche dabei, die Intention hinter einer Suchanfrage besser zu verstehen und präzisere Ergebnisse zu liefern, selbst wenn die ursprüngliche Eingabe des Nutzers nicht optimal war, was insbesondere mit Blick auf die Suchmaschinenoptimierung eine wertvolle Informationsquelle darstellt.

    Mit der Vertex AI Search bekommen wir nun ein Werkzeug direkt von Google an die Hand, mit dem wir ein besseres Verständnis der Nutzerintention hinter Suchanfragen erhalten, als auch überprüfen können, ob unsere Inhalte für Fragestellungen relevanter sind, als die unserer Mitbewerber!

    Kai Spriestersbach

    Bau Dir Dein eigenes Google!

    Wir können nun also zu einem beliebigen Keyword einfach die Top 50 der rankenden Dokumente in einen eigenen Mini-Index direkt in der Google Cloud packen, um den ersten Teil von Googles zweistufigen Retrieval-Ansatz nachzubauen und können die selben Funktionen der API für die Extraktion und Erstellung von Inhalten verwenden, wie Google sie selbst in seiner Suche verwendet.

    Der zweistufige Retrieval-Ansatz (aus Scaling deep retrieval with TensorFlow Recommenders and Vertex AI Matching Engine)

    Nachdem wir also die Suche mit relevanten Dokumenten gefüttert haben, kann diese uns auch noch die wichtigsten Abschnitte herausfiltern, die dann als Grundlage für das KI-Sprachmodell dienen, um Antworten zu generieren oder Zusammenfassungen zu erstellen.

    Das KI-SEO-Tool der Zukunft?

    Umgehauen hat es mich, als ich gesehen habe, dass Googles Vertex AI Search gleich mehrere Möglichkeiten mitbringt, um besonders relevante Inhalte aus den gefundenen Dokumenten zu extrahieren.

    Jedem SEO sollten diese Beispiele von Google das Wasser im Mund zusammen laufen lassen:

    Snippet, Extractive answer, and Extractive Segment with Vertex AI Search

    Jedes Suchergebnis kann folgende Inhaltstypen umfassen, die sich aus meiner Sicht perfekt für die Verwendung in SEO-Tools eignen:

    1. Textauszug für die Snippet-Optimierung

    Vertex AI Search erstellt automatisch einen kurzen Ausschnitt aus dem Dokument, der einen Überblick über den Inhalt gibt. Diese Auszüge werden ähnlich wie bei Google-Suchergebnissen unter jedem Treffer angezeigt und helfen Nutzern, die Relevanz einzuschätzen.

    Hiermit erhalten SEOs quasi einen Einblick in den Mechanismus, der die automatisch generierten Snippets erstellt und können sehr viel gezielter für diesen optimieren!

    2. Extrahierte Antwort für die Optimierung für „Featured Snippets“

    Laut Googles eigener Dokumentation handelt es sich dabei um einen wörtlichen Textauszug aus dem Originaldokument, vergleichbar mit Google’s eigenen „Featured Snippets“. Diese Antworten stehen typischerweise am Anfang der Seite und bieten knappe, kontextbezogene Antworten auf Nutzeranfragen.

    Hiermit lassen sich Texte also potentiell dahingehend optimieren, häufiger als Quelle für Googles Featured Snippets herangezogen zu werden!

    3. Extrahierte Segmente für die Optimierung der „AI Summaries

    In dieser Funktion liefert die Suche ausführlichere wörtliche Textauszüge aus einem Dokument, die mehr Kontext für KI-Sprachmodelle liefern als eine extrahierte Antwort. Diese Segmente können anschließend noch weiterverarbeitet werden, z.B. als Input für ein KI-Modell wie Gemini 1.5 um KI-generierte Zusammenfassungen zu erstellen, oder Vorschläge für die Verbesserung eines Dokumentes. Man könnte sogar den Inhalt direkt per KI verbessern, wenn man eine menschliche Qualitätssicherung nachschaltet.

    Hiermit lassen sich wahrscheinlich nicht nur die „AI Summaries“ gezielt optimieren, sondern die Verbesserungen der Inhalte könnte auch zu einer Verbesserung des Rankings in der organischen Suche bei tragen und dabei sowohl die Nutzerzufriedenheit, als auch die Konversionsraten positiv beeinflussen.

    Die Informationsextraktion lässt sich so konfigurieren, wie sie (mutmaßlich) auch in Googles Suche zum Einsatz kommt. So lässt sich beispielsweise die Anzahl der zu extrahierenden Textabschnitte pro Dokument festlegen, benachbarte Abschnitte für zusätzlichen Kontext einbeziehen und sogar die relevantesten Segmente auswählen oder weniger wichtige herausfiltern.

    Kai Spriestersbach

    Bonus: Dokumenten Handling like you are Google!!

    Wie jeder SEO weiß, ist es für eine Suchmaschine wichtig, die Struktur jedes Dokuments zu verstehen und sie angemessen zu verarbeiten, bevor die eigentliche Informationssuche und -bewertung stattfindet. Wer schon einmal selbst eine Suchmaschine oder ein RAG-System gebaut hat, weiß wie schwierig es sein kann, PDFs, HTML-Dateien und andere Dokumente so zu parsen und in Häppchen aufzuteilen, dass diese die Antworten der KI wirklich verbessert.

    Vertex AI Search nimmt einem diese mühsame Arbeit komplett ab und geht dabei, wie Googles Suche, über die reine Textextraktion hinaus. Der Prä-Prozessor erkennt dabei sogar strukturelle und inhaltliche Elemente wie Überschriften, Abschnitte, Absätze und Tabellen, die die Organisation und Hierarchie verschiedener Dokumente definieren.

    Diese Informationen werden genutzt, um die Dokumente intelligent in kleinere, abrufbare Segmente (Chunks) zu unterteilen. Dabei wird die Kohärenz semantischer Elemente bewahrt und Störfaktoren minimiert. Diese Methode ist effektiver als die weit verbreitete einfache Textsegmentierung, die oft die semantische Kohärenz nicht aufrechterhält.

    Dieses Feature alleine hat mir nächtelang Kopfzerbrechen gemacht, als ich überlegt hatte, wie man eine KI-basierte Suche bauen würde.

    Killer-Feature: Einblicke in den Knowledge Graph

    Wir sind noch nicht am Ende. Denn sogar die Entitäts-Fetischisten kommen auf ihre Kosten! Google liefert, sozusagen als Sahne auf der Torte noch eine automatische Dokumenten- und Suchanfragen-Annotation mit Wissensgraphen mit.

    Falls Du mit diesem Begriff nichts anfangen kannst: Ein Wissensgraph, auf englisch Knowledge Graph findet Informationen, indem die Beziehungen zwischen Entitäten in einem Graphen genutzt werden.

    Google setzt Knowledge Graphen bereits seit 2012 in der Google-Suche ein und hat sogar 2013 für 30 Millionen das Unternehmen Wavii gekauft, um seinen Knowledge Graph zu verbessern. Dieser hilft Google dabei, Suchanfragen mehr Kontext zu geben, indem sie Informationen über Dinge, Personen oder Orte liefern, die Google bereits kennt.

    Die Google-Suche nutzt Wissensgraphen, um auf ihr bestehendes Wissen und Verständnis des Webs zuzugreifen und Ergebnisse zu finden, die mit der Suchanfrage des Nutzers in Verbindung stehen, wie etwa Sehenswürdigkeiten, Prominente, Städte, geografische Merkmale, Filme und vieles mehr.

    Wenn beispielsweise ein Dokument oder eine Suchanfrage das Stichwort „Buffett“ enthält, ist es sehr wahrscheinlich, dass sich dieses Keyword auf Warren Buffett bezieht.

    Annotation von Dokumenten und Abfragen mit Knowledge Graph-Beziehungen

    Vertex AI Search annotiert Dokumente automatisch mit zusätzlichen Informationen über ihn aus dem Wissensgraphen der Google-Suche und fügt der ursprünglichen Anfrage verwandte Keywords. Dies erhöht die Wahrscheinlichkeit, dieses Dokument auch mit anderen Stichwörtern oder Themen zu finden, die mit ihm in Verbindung stehen.

    Vertex AI Search identifiziert automatisch relevante Entitäten bei Anfragen sowie der Verarbeitung oder Zusammenfassung von Dokumenten mithilfe von Wissensgraphen und fügt diese den Annotationen hinzu, welche sich anschließend in strukturierte Daten überführen und der Seite zur semantischen Auszeichnung oder für die interne Verlinkung nutzen lassen.

    Kai Spriestersbach

    AI Content Advanced: Grounding via Google Search

    Nach der Sahne auf der Torte, hier noch die Kirsche: Automatisiert generierte Texte bieten immer die Gefahr von Halluzinationen und Falschaussagen. Um die Korrektheit generierter Texte zu überprüfen lässt sich Googles Grounding API daher mit Google Search für alle Gemini-Modelle verwenden, um quellenbasiert Texte zu erstellen.

    https://www.afaik.de/googles-grounding-api/

    Dabei greift Googles Sprachmodell Gemini im Hintergrund auf die Google-Suche zu und erzeugt eine Ausgabe, die mit den relevanten Suchergebnissen „gegrounded“ ist, also deren Fakten und Aussagen auf den Informationen dieser Webseiten basieren.

    Damit lassen sich Modelle mit aktuellem Wissen aus dem Internet verknüpfen, oder man nutzt eine Verankerung mittels eigener Daten.

    Das beste ist: Hierbei lässt sich das Modell mit persönlichen Daten aus dem Vertex AI Search-Datenspeicher kombinieren. Damit kannst Du also Deine Unternehmensdaten, FAQ-Artikel, Blogbeiträge oder redaktionellen Inhalte quasi als Quellen für die generierung korrekter Antworten hinterlegen!

    Diese Funktion befindet sich derzeit jedoch noch in der Vorschauphase.

    Mein Fazit und Ausblick

    Jetzt denkst du vielleicht, wow das ist eine ganze Menge. Und wenn du – wie ich – vorhast, diese Technologien für deine eigene SEO-Arbeit zu nutzen, hast du Recht.

    Um derartig fortschrittliche Suchtechnologien zu implementieren, die eine mit der Google-Suche vergleichbare Suchqualität liefern, egal ob du sie GenAI verwendest oder nicht, bräuchtest du Jahre der Entwicklung und die Einstellung einer Vielzahl von Datenwissenschaftlern und Ingenieuren mit Spezialkenntnissen in ML, Suchmaschinen, DevOps und MLOps.

    Oder einfach einen Account bei Googles Vertex AI Cloud.

    Kai Spriestersbach

    Ich bin, wie du vielleicht beim Lesen gemerkt hast, ziemlich gehyped, denn für SEOs eröffnet die Verfügbarkeit von Googles bislang geheimen Technologien wie RankBrain und dem Knowledge Graphen über Vertex AI vollkommen neue Möglichkeiten für Innovationen im Bereich der Suchmaschinenoptimierung.

    Dazu liefert Google quasi die Technologie zur Verbesserung und Erstellung von Inhalte mit und bietet mit der Grounding API sogar endlich die Möglichkeit, die Korrektheit der generierten Aussagen zu verbessern.

    Ich bin extrem gespannt, welche Toolanbieter zuerst von den neuen Möglichkeiten gebrauch machen werden. Meinen eigenen KI-SEO-Stack werde ich vollständig auf Vertex AI umstellen. Leider ist die Dokumentation aktuell noch ziemlich inkonsistent und weist große Lücken auf.

    Wenn Du wissen willst, wie Du diese Technologien für Dein eigenes SEO in Zukunft nutzen kannst, melde Dich für die zweite Kohorte meines Kurses an, die Warteliste ist bereits geöffnet.

  • Risikomanagement von Halluzinationen generativer KI

    Risikomanagement von Halluzinationen generativer KI

    Die Gefahren von Falschinformationen durch generative KI

    Ian P. McCarthy, Timothy R. Hannigan und André Spicer haben sich in einem sehr guten Artikel im Harvard Business Review dem Thema Halluzinationen von Chatbots und großen Sprachmodellen angenommen und das Ganze mal aus Sicht des Risikomanagements von Unternehmen bewertet.

    Sie verwenden für ungenaue und unwahre Inhalte von Chatbots, die von Menschen unkritisch für Aufgaben verwendet werden den Begriff „Botshit“ und machen zu Recht darauf aufmerksam, dass dieser erhebliche Risiken für Unternehmen darstellen kann. Dazu gehören Reputationsschäden, Fehlentscheidungen, rechtliche Haftung, wirtschaftliche Verluste und sogar Gefährdung der menschlichen Sicherheit.

    Auf absehbare Zeit ist es unwahrscheinlich, dass Chatbots verschwinden werden und auch wenn RAG und Grounding-Techniken die Assistenten zuverlässiger machen und die KI-Forscherinnen und -Forscher mit Hochdruck an zuverlässigeren Modellen arbeitet, müssen wir uns die Frage stellen, wie Unternehmen diese Risiken managen und gleichzeitig die Vorteile dieser vielversprechenden neuen Werkzeuge nutzen können.

    Die Autoren schlagen vor, basierend auf ihrer Forschung zwei Schlüsselfragen zu stellen:

    1. Wie wichtig ist die Richtigkeit der Chatbot-Antwort für eine bestimmte Aufgabe?
    2. Wie schwierig ist es, die Richtigkeit der Chatbot-Antwort zu überprüfen?

    Anhand der Antworten auf diese Fragen können Unternehmen die mit einer bestimmten Aufgabe verbundenen Risiken besser identifizieren und erfolgreich mindern.

    Die Autoren erläutern verschiedene Vorfälle, bei denen der unkritische Einsatz von Chatbots zu Problemen geführt hat. Zum Beispiel führte ein Fehler des Google-Chatbots Bard zu einem massiven Kurssturz der Alphabet-Aktie. In einem anderen Fall wurden zwei Anwälte mit Geldstrafen belegt, weil sie von ChatGPT generierte fiktive Rechtsfälle eingereicht hatten.

    Um die Risiken von „Botshit“ zu managen, schlagen die Autoren vier Kategorien von Aufgaben vor, bei denen Chatbots eingesetzt werden können:

    Understanding the Risks of Different Chatbot-Assisted Tasks
First determine the answers to two key questions: How important is the veracity of a chatbot's response when it comes to a task? And how difficult is it to verify the veracity of the response? Once you understand which type of task is being performed, you can better manage its related risks.
    1. Authentifizierte Aufgaben: Hier ist die Richtigkeit entscheidend, aber schwer zu überprüfen. Das größte Risiko ist eine falsche Kalibrierung. Dies kann durch sorgfältige Überprüfung und Kalibrierung des Chatbot-Modells gemindert werden.
    2. Erweiterte Aufgaben: Die Genauigkeit ist weniger wichtig und schwer zu überprüfen. Das Hauptrisiko ist Unwissenheit. Dies kann durch den Einsatz menschlicher Experten zur Ergänzung der Chatbot-Antworten gemindert werden.
    3. Automatisierte Aufgaben: Genauigkeit ist wichtig und leicht zu überprüfen. Das Risiko liegt in der übermäßigen Routinisierung. Dies kann durch regelmäßige menschliche Überprüfung gemindert werden.
    4. Autonome Aufgaben: Genauigkeit ist weniger wichtig und leicht zu überprüfen. Das Risiko besteht in einer „Black Box“. Dies kann durch Einschränkung des Einsatzbereichs und strenge Leitplanken gemindert werden.

    Zusammenfassend lässt sich sagen, dass Chatbots und andere KI-Werkzeuge ein großes Potenzial haben, viele Arbeitsprozesse erheblich zu verbessern. Wie bei jeder wichtigen neuen Technologie bringen sie jedoch auch Risiken mit sich. Bei sorgfältigem Management können diese Risiken eingedämmt werden, während gleichzeitig die Vorteile genutzt werden können.

    Ich finde den Artikel sehr lesenswert, insbesondere weil die Autoren nicht so tun, als ließen sich Halluzinationen technisch lösen oder ignorieren, sondern liefern für unterschiedliche Aufgaben differenzierte Ansätze für eine Mitigierung der Risiken.

  • Generative KI in Unternehmen: Chancen, Herausforderungen und Best Practices

    Generative KI in Unternehmen: Chancen, Herausforderungen und Best Practices

    In der sich rasant entwickelnden Welt der künstlichen Intelligenz stehen Unternehmen vor der Herausforderung, generative KI-Technologien effektiv in ihre Geschäftsprozesse zu integrieren. Als KI-Experte möchte ich einen Einblick in die Schlüsselfaktoren für eine erfolgreiche Integration geben, mögliche Fallstricke aufzeigen und die Rolle der Mitarbeiter in diesem Transformationsprozess beleuchten.

    Erfolgreiche Integration von generativer KI

    Die Integration von generativer KI in Unternehmen erfordert zunächst eine solide Grundlage. Sauber aufgesetzte Geschäftsprozesse bilden das Fundament für eine erfolgreiche Implementierung. Darüber hinaus ist es unerlässlich, klare Regeln für den Einsatzbereich der KI zu definieren. Diese Regeln müssen nicht nur gesetzliche Regulierungen, Datenschutz und Sicherheitsaspekte berücksichtigen, sondern auch ethische Fragen adressieren. Insbesondere in Zeiten des Fachkräftemangels ist es wichtig, eine Balance zwischen der Unterstützung und dem möglichen Ersatz von Arbeitskräften zu finden.

    Kai Spriestersbach

    Ein tiefgreifendes Verständnis für die Natur der Technologie sowie Kompetenz im Umgang mit ihr sind entscheidende Faktoren für den Erfolg. Unternehmen sollten daher in die Schulung und Weiterbildung ihrer Mitarbeiter:innen investieren, um diese Kompetenzen aufzubauen und zu fördern.

    Vermeidung von Fallstricken

    Bei der Integration von generativer KI in Unternehmensprozesse gilt es, einige häufige Fallstricke zu vermeiden. Zu hohe Erwartungen und ein uninformierter Rollout können zu Enttäuschungen und Ineffizienzen führen. Es ist ratsam, den oft überzogenen Marketingversprechen von KI-Anbietern kritisch gegenüberzustehen und stattdessen auf fundierte Analysen und realistische Einschätzungen zu setzen.

    Ein weiterer häufiger Fehler ist die Einführung von KI ohne klare Zielsetzung und messbare Erfolgskriterien. Es reicht nicht aus, KI um ihrer selbst willen einzuführen. Stattdessen sollten Unternehmen konkrete Ziele definieren und Key Performance Indicators (KPIs) festlegen, anhand derer der Erfolg der KI-Integration evaluiert werden kann.

    Die Frage „Wozu setzen wir KI ein?“ sollte im Mittelpunkt stehen und klar beantwortet werden, bevor ein Projekt gestartet wird.

    Der KI-Werkraum: Ein innovativer Ansatz

    Ein vielversprechender Ansatz für die Einführung generativer KI in Unternehmen ist unser Konzept des KI-Werkraums. Dieses Pilotprogramm zielt darauf ab, Mitarbeiter:innen aus verschiedenen Abteilungen, Hierarchieebenen und mit unterschiedlichen Erfahrungsniveaus zusammenzubringen, um gemeinsam die Potenziale der KI-Technologie zu erkunden und zu verstehen.

    Dieser Ansatz fördert nicht nur einen Innovationsprozess „von unten“, sondern schafft auch Raum für wichtige Diskussionen über strategische und ethische Fragen. Die Ergebnisse sind beeindruckend: Mitarbeiter fühlen sich ermächtigt und motiviert, eigene Pilotprojekte in ihren Abteilungen zu initiieren. Diese werden dann von KI-Experten begleitet und kontinuierlich evaluiert, was zu einer nachhaltigen und mitarbeitergetriebenen Integration der KI-Technologie führt.

    Der KI-Werkraum hat sich als besonders effektiv erwiesen, da er eine unglaubliche Motivation und ein Empowerment bei den Teilnehmenden auslöst. Die Mitarbeitenden selbst identifizieren Potenziale für den Einsatz von KI im Unternehmen und stoßen eigenständig Pilotprojekte an. Dieser Bottom-up-Ansatz führt zu einer breiten Akzeptanz und einem tieferen Verständnis für die Technologie in der gesamten Organisation.

    Die entscheidende Rolle ihrer Mitarbeiter

    Die Rolle der Mitarbeiter:innen bei der Integration und dem weiteren Einsatz von generativer KI in Unternehmen kann nicht hoch genug eingeschätzt werden. Aufgrund der statistischen Natur generativer KI ist es unerlässlich, dass qualifiziertes Personal alle Ergebnisse kontrolliert und freigibt. Dieser „Human-in-the-Loop“-Ansatz stellt sicher, dass die Qualität und Angemessenheit der KI-generierten Inhalte gewährleistet bleibt.

    Darüber hinaus sind die Mitarbeiter entscheidend für das effektive Prompting, die Evaluierung und die kontinuierliche Optimierung der KI-gestützten Prozesse. Ihre Fachexpertise und ihr Verständnis des Unternehmenskontexts sind unerlässlich, um das volle Potenzial der generativen KI auszuschöpfen.

    Auswirkungen auf die Belegschaft

    Die Einführung von generativer KI hat das Potenzial, die Dynamik der Belegschaft und die Arbeitsaufgaben erheblich zu verändern. Hochqualifizierte Mitarbeiter:innen sehen in der Regel die Chance, Routineaufgaben abzugeben und zeitaufwändige Prozesse effizienter zu gestalten. Für weniger qualifizierte Mitarbeiter:innen kann KI als Befähigungstool dienen, das die Qualität ihrer Arbeitsergebnisse verbessert. Allerdings birgt dies auch Risiken, wenn nicht ausreichend in die Qualifizierung investiert wird, um die KI-generierten Ergebnisse angemessen zu beurteilen.

    Es ist entscheidend, dass KI als Werkzeug und nicht als Automatisierungslösung verstanden wird.

    Nur so kann verhindert werden, dass Mitarbeiter die KI als Bedrohung für ihre Arbeitsplätze wahrnehmen und sich gegen deren Einführung stemmen. Die Betonung sollte darauf liegen, dass KI ein Tool ist, das die Arbeit der Mitarbeiter unterstützt und ergänzt, anstatt sie zu ersetzen.

    Vorbereitung und Unterstützung der Mitarbeiter

    Um Mitarbeiter:innen bestmöglich auf die Veränderungen durch generative KI vorzubereiten, ist Qualifizierung der Schlüssel. Dies umfasst zwei Hauptaspekte:

    1. Weiterbildung zur Stärkung der Fachkompetenz: Da einfache Aufgaben zunehmend von KI übernommen werden können, ist es wichtig, dass Mitarbeiter:innen ihre Expertise in komplexeren Bereichen ausbauen.
    2. Aufbau von KI-Kompetenz: Mitarbeiter:innen sollten in die Lage versetzt werden, effektiv mit KI-Systemen zu arbeiten und deren Unterstützung optimal zu nutzen.

    Diese Qualifizierungsmaßnahmen sind entscheidend für eine erfolgreiche Zusammenarbeit zwischen Mensch und KI. Sie ermöglichen es den Mitarbeitern, die Technologie als Unterstützung zu nutzen und gleichzeitig ihre eigenen Fähigkeiten weiterzuentwickeln.

    Governance-Rahmen für generative KI

    Ein effektiver Governance-Rahmen für generative KI, der sich auf die Mitarbeiterzentrierung konzentriert, sollte mehrere Schlüsselkomponenten umfassen:

    1. Transparenz und Kommunikation: Offene Diskussionen über den Einsatz von KI-Technologien und leicht zugängliche Informationen für alle Mitarbeiter:innen.
    2. Schulung und Weiterbildung: Umfassende Programme zur Vermittlung von KI-Grundlagen und spezifischen Anwendungsfällen.
    3. Ethik und Verantwortung: Klare ethische Richtlinien und Verantwortlichkeiten für KI-basierte Entscheidungen.
    4. Datenschutz und Sicherheit: Strikte Einhaltung von Datenschutzgesetzen und Implementierung robuster Sicherheitsmaßnahmen.
    5. Inklusion und Vielfalt: Berücksichtigung verschiedener Perspektiven und Bedürfnisse bei der Entwicklung und Implementierung von KI-Lösungen.
    6. Mitarbeiterbeteiligung: Einbeziehung der Mitarbeiter:innen in Entscheidungsprozesse und Etablierung von Feedback-Mechanismen.
    7. Technische Infrastruktur: Bereitstellung notwendiger Ressourcen und Support-Services für den effektiven KI-Einsatz.
    8. Leistungsüberwachung und -bewertung: Entwicklung klarer KPIs und regelmäßige Überprüfungen des Governance-Rahmens.

    Ethische Erwägungen und Voreingenommenheit

    Um ethische Aspekte und potenzielle Voreingenommenheit in KI-Anwendungen angemessen zu berücksichtigen, sollten Unternehmen folgende Maßnahmen ergreifen:

    1. Entwicklung eines KI-Ethikkodex mit klaren Richtlinien zu Datenschutz, Fairness und Transparenz.
    2. Förderung diverser Entwicklungsteams, um vielfältige Perspektiven einzubeziehen.
    3. Sorgfältige Auswahl und Pflege von möglichst bias-freien Datensätzen.
    4. Implementierung von Methoden zur Erklärbarkeit von KI-Entscheidungen (Explainable AI), soweit dies bei generativer KI und Deep Learning möglich ist.
    5. Kontinuierliche Überwachung und regelmäßige unabhängige Audits zur Einhaltung ethischer Standards.
    6. Einrichtung von Feedback-Mechanismen für Nutzer und betroffene Personen.
    7. Umfassende Schulungsprogramme zu ethischen Aspekten und potenziellen Verzerrungen in KI-Systemen.
    8. Festlegung klarer Verantwortlichkeiten für das ethische Management von KI-Projekten.
    9. Durchführung umfangreicher Ethik- und Bias-Tests.
    10. Sicherstellung der Compliance mit gesetzlichen und regulatorischen Anforderungen.

    Es ist wichtig zu betonen, dass bei generativer KI und Deep Learning die vollständige Erklärbarkeit von Entscheidungen oft nur bedingt möglich ist. Dies stellt eine besondere Herausforderung dar, die bei der Implementierung und Nutzung dieser Technologien berücksichtigt werden muss.

    Zukünftige Entwicklungen in der KI-Governance

    Für die Zukunft sind weitere Entwicklungen im Bereich der KI-Governance notwendig, um Mitarbeiter:innen einzubeziehen und zu schützen. Diese sollten sich auf Transparenz, Partizipation, kontinuierliche Schulung und die Sicherstellung ethischer Standards konzentrieren. Nur so kann eine verantwortungsvolle und mitarbeiterzentrierte Integration von generativer KI in Unternehmen gewährleistet werden.

    Die erfolgreiche Integration von generativer KI in Unternehmen erfordert einen ganzheitlichen Ansatz, der technologische, ethische und menschliche Aspekte gleichermaßen berücksichtigt. Indem Unternehmen ihre Mitarbeiter in den Mittelpunkt stellen, klare Governance-Strukturen schaffen und ethische Prinzipien konsequent umsetzen, können sie das volle Potenzial dieser revolutionären Technologie ausschöpfen und gleichzeitig eine faire und verantwortungsvolle Arbeitsumgebung gewährleisten.

    Es ist entscheidend, dass Unternehmen die Integration von KI nicht als einen einmaligen Prozess betrachten, sondern als eine kontinuierliche Reise. Die Technologie entwickelt sich ständig weiter, und ebenso müssen sich die Strategien, Prozesse und Kompetenzen im Unternehmen anpassen. Nur durch eine fortwährende Bereitschaft zum Lernen, zur Anpassung und zur kritischen Reflexion können Unternehmen langfristig erfolgreich mit generativer KI arbeiten und dabei sowohl die Bedürfnisse ihrer Mitarbeiter:innen als auch ethische Standards berücksichtigen.

  • Grokking: Der Schlüssel zu neuen Erkenntnissen?

    Grokking: Der Schlüssel zu neuen Erkenntnissen?

    In meinem Beitrag „Messen wir künstliche Intelligenz falsch? Und verstehen wir überhaupt was große Sprachmodelle tun?“ habe ich mich schon einmal mit dem Phänomen des Grokkings beschäftigt. Zu diesem unglaublich faszinierendem Phänomen ist im letzten Monat ein sehr interessantes Paper erschienen: „Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization“ untersucht, ob Transformer-Modelle implizites logisches Denken über parametrisches Wissen erlernen können. Die Forscher haben darin nicht nur zeigen können, dass das Phänomen des Grokkings existiert, sondern auch tiefere Einblicke in die Funktionsweise von Sprachmodellen ermöglichen könnte.

    Untersucht wurden die Modelle mit zwei Arten des logischen Denkens, Komposition (Verknüpfung von Fakten) und Vergleich (Gegenüberstellung von Attributen) und dabei konnte Grokking beobachtet werden, ein Phänomen, bei dem Modelle durch extrem langes Training über das bloße Überanpassen hinaus generalisieren können. Dabei wurde analysiert, wie Transformer-Modelle während des Trainings ihre internen Mechanismen anpassen, um zu verstehen, wie und warum sie generalisieren.

    Hauptbefunde

    1. Implizites logisches Denken: Transformer-Modelle können implizites logisches Denken erlernen, aber nur durch sehr langes Training (Grokking).
    2. Unterschiedliche Generalisierungsfähigkeiten: Bei der Komposition scheitern die Modelle oft bei der systematischen Generalisierung, während sie beim Vergleich erfolgreicher sind.
    3. Interne Mechanismen: Während des Grokkings bilden sich spezielle Mechanismen, die das logische Denken unterstützen, wie etwa die Bildung von Generalisierungskreisen im Modell.

    Zusammengefasst zeigt das Paper, dass Transformer-Modelle implizites logisches Denken erlernen können, dies aber nur durch sehr umfangreiches Training möglich ist. Zudem identifiziert es Wege, wie diese Modelle und ihre Trainingsmethoden verbessert werden können, um ihre Generalisierungsfähigkeit zu erhöhen.

    Die Studie hat zudem gezeigt, dass Transformer-Modelle durch das Grokking spezielle Mechanismen und Kreisläufe entwickeln, die ihre Fähigkeit zur Generalisierung verbessern. Diese sogenannten Generalisierungskreise ermöglichen es den Modellen, nicht nur bekannte Muster zu erkennen, sondern auch neue, unbekannte Aufgaben zu lösen, indem sie tiefere logische Strukturen verstehen.

    Die mechanistische Analyse des Grokkings hat enthüllt, dass während des Trainings bestimmte Schichten und Zustände im Modell entstehen, die entscheidend für die Verarbeitung und Verknüpfung von Wissen sind. Diese Entdeckungen bieten wertvolle Hinweise darauf, wie die Architektur und das Training von Transformermodellen optimiert werden können, um ihre Leistungsfähigkeit weiter zu steigern.

    Praktische Implikationen und zukünftige Entwicklungen

    1. Verbesserung der Modelle: Das Paper schlägt vor, die Trainingsdaten und -methoden so anzupassen, dass das implizite logische Denken besser unterstützt wird.
    2. Erweiterung der Modellarchitektur: Mögliche Verbesserungen der Transformatorarchitektur, wie z.B. das Teilen von Wissen über verschiedene Schichten hinweg, könnten die Generalisierungsfähigkeit verbessern.
    3. Vergleich mit aktuellen Modellen: Das Paper zeigt, dass fortgeschrittene Sprachmodelle wie GPT-4-Turbo bei komplexen logischen Aufgaben versagen, während ein vollständig trainierter Transformer (der grokkt) fast perfekte Genauigkeit erreichen kann.

    Diese neuen Erkenntnisse könnten weitreichende Auswirkungen auf die Entwicklung und Anwendung von KI-Technologien haben. Durch ein besseres Verständnis der inneren Mechanismen von Sprachmodellen können gezielte Verbesserungen an der Modellarchitektur und den Trainingsmethoden vorgenommen werden, um die Modelle robuster und zuverlässiger zu machen.

    Die Entdeckung der Generalisierungskreise und der Mechanismen hinter dem Grokking könnte auch dazu beitragen, die Sicherheit und Vorhersehbarkeit von KI-Systemen zu erhöhen. Indem wir besser verstehen, wie und warum Modelle lernen, können wir gezielt Maßnahmen ergreifen, um unvorhersehbares Verhalten zu minimieren und die Kontrolle über die Systeme zu verbessern.

    Fazit

    Das Phänomen des Grokkings und die damit verbundenen Erkenntnisse sind ein wichtiger Schritt auf dem Weg zu einem tieferen Verständnis der Funktionsweise von KI-Modellen. Während die Technologie weiterhin beeindruckende Fortschritte macht, bleibt es entscheidend, die grundlegenden Mechanismen zu erforschen, um ihre Anwendung sicherer und effektiver zu gestalten. Nur durch kontinuierliche Forschung und Innovation können wir die enormen Potenziale der KI voll ausschöpfen und gleichzeitig die damit verbundenen Risiken in den Griff bekommen.

  • Fehlerhafte Google KI: Warum die neue Suchfunktion misslingt

    Fehlerhafte Google KI: Warum die neue Suchfunktion misslingt

    Passend zu den vielen unglaublichen AI Summary Fails, die in den letzten Tagen in den sozialen Medien kursierten, erschien heute ein Artikel von Rhiannon Williams im MIT Technology Review. Darin wurde kritisch beleuchtet, warum Googles neue KI-gestützte Suchfunktion namens AI Overviews fehlerhafte und teilweise gefährliche Empfehlungen gibt. Dieser Kritik möchte ich mich mit meinem Beitrag hier anschließen…

    Google hat Anfang dieses Monats die Einführung seiner KI-gestützten Suchfunktion groß angekündigt und vollmundig versprochen, dass „Google das Googeln für dich übernimmt“. Die Funktion soll kurze, KI-generierte Zusammenfassungen liefern, die wichtige Informationen und Links über den Suchergebnissen hervorheben.

    Doch trotz dieses Versprechens zeigt sich erneut, dass KI-Systeme von Natur aus unzuverlässig sind. Nur wenige Tage nach der Einführung in den USA teilten Nutzer Beispiele von Antworten, die bestenfalls seltsam waren. Die KI empfahl, Klebstoff auf Pizza zu geben oder täglich mindestens einen kleinen Stein zu essen. Außerdem behauptete sie, dass der frühere US-Präsident Andrew Johnson zwischen 1947 und 2012 Universitätsabschlüsse erworben habe, obwohl er 1875 starb.

    Hier sind noch weitere „AI Summary Fails“, die ich in den letzten Tagen gesammelt habe:

    Liz Reid, Leiterin der Google-Suche, gab an, dass Google technische Verbesserungen am System vornimmt, um die Wahrscheinlichkeit falscher Antworten zu verringern. Dazu gehören bessere Erkennungsmechanismen für unsinnige Anfragen und die Einschränkung satirischer, humorvoller und benutzergenerierter Inhalte in den Antworten.

    Funktionsweise von „AI Overviews“

    Um zu verstehen, warum die KI Fehler macht, muss man sich ansehen, wie sie optimiert wurde. AI Overviews verwendet ein neues generatives KI-Modell aus der Gemini-Familie von Google, das speziell für die Google-Suche angepasst wurde. Dieses Modell wurde in die Kern-Web-Ranking-Systeme von Google integriert, um relevante Ergebnisse aus dem Index der Websites herauszuziehen.

    Schwächen des Systems

    Große Sprachmodelle sagen einfach das nächste Wort in einer Sequenz voraus, was zu flüssiger Sprache führt, aber auch dazu, dass sie Dinge erfinden. Es wird vermutet, dass das Gemini-Modell in AI Overviews eine Technik namens Retrieval-Augmented Generation (RAG) verwendet, die es ermöglicht, spezifische Quellen außerhalb der Trainingsdaten zu überprüfen.

    Dennoch ist RAG nicht narrensicher. Eine schlechte Antwort kann entstehen, wenn entweder der Abruf der Informationen oder die Generierung der Antwort fehlschlägt. So führte die Empfehlung, Klebstoff auf Pizza zu geben, auf einen Scherzbeitrag auf Reddit zurück. Das System erkannte den Beitrag als relevant für die Anfrage, hinterfragte jedoch nicht dessen Richtigkeit oder Intention.

    Das System rechnet also derzeit einfach nicht mit Sarkasmus oder Ironie!

    Fehlinformationen aus korrekten Quellen

    Doch AI Overviews kann auch Fehlinformationen aus faktisch korrekten Quellen generieren. Ein Beispiel ist die Behauptung, dass Barack Obama ein muslimischer Präsident der USA sei, was auf einem Kapitel eines Buches beruhte, das jedoch eine andere Aussageabsicht hatte.

    Lösungsansätze und Einschränkungen

    Google plant, die Funktion weiter zu verbessern, aber die Unzuverlässigkeit von KI-Systemen bleibt bestehen. Google hat Trigger-Beschränkungen für bestimmte Anfragen eingeführt und zusätzliche Verfeinerungen für gesundheitsbezogene Anfragen vorgenommen. Techniken wie Reinforcement Learning aus menschlichem Feedback können helfen, die Qualität der Antworten zu verbessern. Außerdem könnten Sprachmodelle darin trainiert werden, zu erkennen, wann eine Frage nicht beantwortet werden kann.

    Google reagiert auf Kritik an AI Overviews

    In einem Beitrag auf der Google-Blogseite reagierte Liz Reid, Vizepräsidentin und Leiterin der Google-Suche, auf die jüngsten Fehlfunktionen der neuen KI-gestützten Suchfunktion AI Overviews. Der Beitrag erklärt ebenfalls, wie „AI Overviews“ funktioniert, welche Fehler aufgetreten sind und welche Maßnahmen Google ergriffen hat, um die Probleme zu beheben.

    Liz Reid berichtet, dass Google AI Overviews vor einigen Wochen in den USA eingeführt hat. Laut Nutzerfeedback sind die Suchergebnisse mit AI Overviews zufriedenstellender, und die Nutzer stellen längere und komplexere Fragen. AI Overviews dient als Ausgangspunkt, um zu weiterführenden Webseiten zu gelangen, was zu qualitativ hochwertigeren Klicks führt. Die Nutzer verweilen angeblich länger auf diesen Seiten, da Google bessere Informationen und hilfreiche Webseiten findet.

    Liz Reid erklärt darin auch die Funktionsweise von AI Overviews im Detail. Hier sind die wichtigsten Punkte:

    • Integration mit Web-Ranking-Systemen: AI Overviews ist in Googles Kern-Web-Ranking-Systeme integriert und soll traditionelle Suchaufgaben erfüllen, wie das Identifizieren relevanter, hochwertiger Ergebnisse aus dem Google-Index.
    • Unterschied zu Chatbots: Im Gegensatz zu Chatbots und anderen großen Sprachmodellen (LLMs), die lediglich basierend auf Trainingsdaten Ausgaben generieren, kombiniert AI Overviews die Fähigkeiten eines maßgeschneiderten Sprachmodells mit Googles Suchtechnologie. Es geht nicht nur darum, Text auszugeben, sondern auch relevante Links bereitzustellen, damit Nutzer weiter recherchieren können.
    • Genauigkeit und Quellenangaben: AI Overviews ist darauf ausgelegt, nur Informationen anzuzeigen, die durch die besten Web-Ergebnisse gestützt werden. Dies reduziert das Risiko von „Halluzinationen“ oder erfundenen Inhalten, die bei anderen LLM-Produkten häufig auftreten.
    • Fehlinterpretationen: Wenn AI Overviews Fehler macht, liegt dies oft an der falschen Interpretation von Anfragen oder sprachlichen Nuancen auf Webseiten oder an einem Mangel an qualitativ hochwertigen Informationen zu einem bestimmten Thema. Diese Herausforderungen treten auch bei anderen Suchfunktionen auf.

    Reid betont, dass AI Overviews sich kontinuierlich weiterentwickelt und verbessert, basierend auf Nutzungsdaten und Feedback, um eine qualitativ hochwertige Sucherfahrung zu bieten.

    Umgang mit Kritik

    Reid geht auf die in den sozialen Medien geteilten seltsamen und fehlerhaften Überblicke ein und betont, dass einige dieser Screenshots gefälscht waren. Google nimmt das Feedback ernst und erklärt, dass man sich bemühe, immer genaue Informationen zu liefern. Einige Fehler resultierten aus der falschen Interpretation von Anfragen oder sprachlichen Nuancen im Web. AI Overviews wurde daraufhin so optimiert, dass nur Informationen angezeigt werden, die durch die besten Web-Ergebnisse gestützt werden.

    Verbesserungen und Maßnahmen

    Google hat umfassende Tests und Evaluierungen durchgeführt, bevor AI Overviews gestartet wurde. Dennoch traten einige ungenaue oder unhilfreiche Überblicke auf, insbesondere bei ungewöhnlichen Anfragen. Google identifizierte Bereiche, in denen Verbesserungen notwendig waren, wie die Fähigkeit, unsinnige Anfragen und satirische Inhalte zu interpretieren.

    • Tests und Evaluierungen: Vor dem Start wurde AI Overviews umfangreich getestet, einschließlich Red-Team-Tests und Bewertungen mit typischen Benutzeranfragen.
    • Nutzerfeedback: Millionen von Nutzern stellen neuartige Anfragen, die in Tests nicht abgedeckt werden konnten. Das Feedback hilft, Muster zu erkennen und das System zu verbessern.
    • Technische Verbesserungen: Mehrere technische Verbesserungen wurden vorgenommen, darunter bessere Erkennungsmechanismen für unsinnige Anfragen, Einschränkungen für satirische und humorvolle Inhalte sowie die Begrenzung von benutzergenerierten Inhalten in den Antworten.

    Besonderheiten und Einschränkungen

    • Nicht für alle Themen geeignet: AI Overviews wird nicht für explizite oder gefährliche Themen angezeigt, und es gibt starke Schutzmaßnahmen für Nachrichten- und Gesundheitsthemen.
    • Fortlaufende Überwachung und Anpassung: Google überwacht kontinuierlich das System und nimmt bei Bedarf Anpassungen vor, um die Genauigkeit und Zuverlässigkeit von AI Overviews zu gewährleisten.

    Google bleibt angeblich also wachsam und überwacht kontinuierlich das Feedback und externe Berichte, um Maßnahmen bei Verstößen gegen Inhaltsrichtlinien zu ergreifen. Liz Reid betont, dass es bei Milliarden von täglichen Anfragen immer zu Fehlern kommen kann, aber Google lerne kontinuierlich aus diesen Fehlern, um die Sucherfahrung für alle zu verbessern.

    Letztendlich sollte Google wahrscheinlich klarer machen, dass die Funktion experimentell ist und sich in der Beta-Phase befindet. Sie sollte aus meiner Sicht optional bleiben, bis sie ausgereift ist.

  • Bullshit Alarm: Wieso LLMO/GenAIO nicht die Zukunft von SEO ist

    Bullshit Alarm: Wieso LLMO/GenAIO nicht die Zukunft von SEO ist

    In einem aktuellen Artikel im Harvard Business Review wird das Thema LLMO aufgegriffen. Vielleicht hast Du bereits an anderer Stelle schon einmal von LLMO oder GenAIO gehört und Dich gefragt, was es damit auf sich hat? Da ich das für ziemlichen Unsinn halte, habe ich den Artikel einmal genauer unter die Lupe genommen. Immerhin ist der Artikel im HBR erschienen, ein ziemlich einflussreiches englischsprachiges Management-Magazin, in dem nicht jeder Möchtegern-Experte seine wirren Ideen veröffentlichen kann.

    Obwohl der Artikel durchaus interessante Einblicke in die potenziellen Auswirkungen großer Sprachmodelle (LLMs) auf die Suchmaschinenoptimierung bietet, zeigt sich bei genauer Betrachtung, dass die Autoren offenbar grundlegende Missverständnisse über die Funktionsweise moderner Suchmaschinen und LLMs aufweisen, die den praktischen Nutzen ihrer Empfehlungen infrage stellen.

    In solchen Fällen hilft es in der Regel, die Autoren näher zu betrachten, dann wird meistens schnell klar, wieso und mit welchem Ziel Unsinn verbreitet wird. Und siehe da: Neben einem Marketing-Professor sind die beiden weiteren Autoren, Jarvis Bowers und Mike Ensing zufällig COO und CEO einer Firma, die sich auf die Aufwertung von Marken mit LLMs und generativer KI konzentriert. Ihnen kann man also mindestens Voreingenommenheit und einen Interessenkonflikt unterstellen.

    Was steht überhaupt in dem Artikel?

    Der Artikel beschreibt zunächst, wie große Sprachmodelle (LLMs) die Sucherfahrung revolutionieren und welche Auswirkungen dies auf SEO haben wird. Im Gegensatz zu traditionellen Webbrowsern, die Suchanfragen mit Links beantworten, liefern LLMs direkte Antworten in natürlicher Sprache. Diese Entwicklung stellt ohne jede Frage für Marketer neue Herausforderungen, aber auch neue Chancen dar.

    Es kommt zu einer Veränderung der Sucherfahrung: LLMs wie ChatGPT, Perplexity und Googles Search Generative Experience liefern direkte Antworten statt Links. Nutzer erfahren über Produkte und Marken durch KI-erzeugte, natürliche Sprache, bevor sie überhaupt auf eine Website gelangen.

    Hierfür sind einige neuer Marketingstrategien notwendig. Marketer müssen beispielsweise überwachen, ob und wie ihre Marken in den KI-Zusammenfassungen erscheinen. Dabei ist es ist wichtig zu analysieren, wie positiv oder negativ ihre Marken dargestellt werden und wie sichtbar sie im Vergleich zur Konkurrenz sind.

    Doch beim dritten Punkt, der Entwicklung neuer Optimierungstechniken greifen die Autoren aus meiner Sicht deutlich zu kurz. Sie postulieren, dass eine neue Disziplin, die LLM-Optimierung (LLMO), analog zur Suchmaschinenoptimierung (SEO) entstehen wird.

    Richtig ist, LLMs nutzen andere Algorithmen und Faktoren als traditionelle Suchmaschinen, wobei sie Inhalte aus verschiedenen Quellen und Modalitäten (Text, Bild, Video) integrieren können.

    Auch richtig ist, dass Studien zeigen, dass das Hinzufügen strategischer Textsequenzen zu Produktseiten die Wahrscheinlichkeit erhöhen kann, dass diese Produkte von LLMs empfohlen werden. Ein Beispiel dafür ist die Hervorhebung der Erschwinglichkeit eines Produkts, was zu häufigeren Empfehlungen führt. Dies trifft aber nur für bestimmte Modelle in engen Anwendungsszenarien zu und darf keinesfalls verallgemeinert werden.

    Unzureichendes Verständnis moderner Suchmaschinen

    Die Autoren scheinen jedoch nicht zu verstehen, dass moderne Suchmaschinen wie Perplexity, Bing und Google’s Search Generative Experience (SGE) keine Antworten ausschließlich auf Basis der Trainingsdaten der LLMs generieren. Vielmehr nutzen diese Suchmaschinen klassische Information Retrieval Systeme, das relevante Textabschnitte aus normalen Webseiten oder Reddit-Beiträgen extrahiert. Diese Abschnitte werden dann von einem LLM formuliert und präsentiert. Selbst Chatbots wie ChatGPT und Microsoft Co-Pilot greifen für Fragen zu Informationen häufig auf deren eingebaute Suchmaschinen-Schnittstelle zurück.

    Dies bedeutet konkret, dass es keinen Bedarf für LLMO im naheliegenden Sinne gibt, wie die Autoren es beschreiben.

    Die Autoren postulieren jedoch die Notwendigkeit einer neuen Disziplin namens LLM-Optimierung (LLMO). Sie gehen davon aus, dass Marketer die Trainingsdaten der LLMs direkt beeinflussen müssen, um die Sichtbarkeit und Darstellung ihrer Marken zu verbessern. In Wirklichkeit ist dies jedoch nicht der Fall.

    Die entscheidende Rolle spielt hier die Optimierung der Dokumente, die für die semantische Suche relevant sind und die Texte liefern, die für das Retrieval-Augmented-Generation (RAG) genutzt werden. Marketer müssen sich darauf konzentrieren, Inhalte zu erstellen und zu optimieren, die von diesen Retrieval-Systemen bevorzugt werden, anstatt direkt die Trainingsdaten der LLMs zu beeinflussen.

    Effizienz von RAG gegenüber direktem LLM-Training

    Ein weiterer Punkt, den die Autoren unterschlagen, ist der Grund, warum Informationen über RAG eingefügt werden und nicht als Trainingsdaten permanent in ein LLM integriert werden. Die Integration aller relevanten Informationen als Trainingsdaten wäre ineffizient und unpraktisch. Das kontinuierliche Aktualisieren eines LLMs mit neuen Daten ist äußerst ressourcenintensiv und zeitaufwändig. Zudem würde das Modell enorm an Größe zunehmen, was die Verarbeitung und das Training verlangsamen würde.

    Stattdessen ermöglicht RAG eine flexible und dynamische Aktualisierung der Informationen. Durch die Nutzung eines Information Retrieval Systems können aktuelle und relevante Daten in Echtzeit abgerufen und in die Antwortgenerierung eingebunden werden. Dies stellt sicher, dass die bereitgestellten Informationen immer auf dem neuesten Stand sind, ohne dass das gesamte Modell ständig neu trainiert werden muss.

    Fazit

    Aufgrund dieser Missverständnisse sehe ich die avisierten Auswirkungen auf den Arbeitsmarkt ebenso kritisch. Ich bezweifle, dass sich die Rolle von SEO-Spezialisten zu LLMO-Experten entwickeln wird.

    Richtig ist jedoch, dass SEOs neue Optimierungsmethoden für RAG-Systeme und LLM-Zusammenfassungen beherrschen müssen. Richtig ist auch, dass die Optimierung von Inhalten zunehmend von LLMs übernommen werden wird, was die Nachfrage nach traditionellem SEO reduziert. Ebenso können wir davon ausgehen, dass neue Rollen entstehen, die sich auf die Optimierung und Verwaltung von Marken in (reinen) LLM-Umgebungen konzentrieren.

    Zusammengefasst betont der Artikel die Notwendigkeit für Marketer, sich an die veränderte Suchlandschaft anzupassen, indem sie neue Optimierungsstrategien entwickeln und kontinuierlich lernen, um im Wettbewerb bestehen zu können.

    Die vorgeschlagenen Maßnahmen der Autoren, wie das Hinzufügen strategischer Textsequenzen zu Produktseiten, um die Wahrscheinlichkeit einer Erwähnung durch LLMs zu erhöhen, sind in der Praxis nur begrenzt anwendbar. Da die Antworten der LLMs auf der Grundlage von Inhalten generiert werden, die durch semantische Suche extrahiert wurden, sollten Marketer vielmehr die Prinzipien der semantischen Suche und des Information Retrievals verstehen und anwenden. Dies bedeutet, dass die Inhalte so gestaltet werden müssen, dass sie für diese Systeme leicht zugänglich und inhaltlich relevant sind.

    Insgesamt lässt der Artikel wesentliche Aspekte der modernen Funktionsweise von LLM-basierten Suchmaschinen außer Acht und bietet daher nur begrenzt umsetzbare Empfehlungen. Ein tieferes Verständnis der semantischen Suche und der Prinzipien des Information Retrievals wäre notwendig, um wirklich effektive Strategien zur Optimierung der Markenpräsenz in der Ära der LLMs zu entwickeln. Die Unkenntnis der Autoren in diesen grundlegenden Bereichen unterminiert die Glaubwürdigkeit und den praktischen Wert ihrer Vorschläge erheblich.

    Wenn du vermeiden möchtest, die gleichen Missverständnisse zu haben wie die Autoren dieses Artikels und wirklich verstehen willst, wie moderne Suchmaschinen funktionieren und wie man sie effektiv beeinflusst, dann solltest du dich weiterbilden.

    Genau dafür habe ich meinen neuen Onlinekurs „Die Zukunft der SEO!“ entwickelt. In diesem Kurs lernst du alles über die neuesten Entwicklungen in der Suchmaschinenoptimierung, einschließlich der Integration von Künstlicher Intelligenz und maschinellem Lernen.

    Melde dich an und bereite dich optimal auf die Herausforderungen und Möglichkeiten der neuen SEO-Welt vor.

  • Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

    Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

    Sprachmodelle wie GPT-4 und Google Gemini müssen mit großen Mengen an Text gefüttert werden, um daraus Muster zu lernen, die dann erstaunliche Fähigkeiten aufweisen. Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs ChatGPT, GPT-3, GPT-3.5 und GPT-4 sowie Googles Gemini ist das längst nicht mehr der Fall.

    Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, sind daraus mit der API und ChatGPT längst kommerzielle Produkte entstanden, die weder frei noch kostenlos zugänglich sind.

    Anders als mein persönliches Rechtsempfinden in die kommerzielle Nutzung von unlizensierten Trainingsdaten jedoch seit der jüngsten EU-Urheberrechtsreform kein Problem!

    Darin findet sich eine Erleichterung des Data und Textmining, genauer die §§ 44b für kommerzielle Zwecke und 60d UrhG-DE für wissenschaftliche Zwecke. Darin steht quasi: Solange nicht per Robots.txt eingeschränkt, dürfen öffentliche Daten und Werke auch zu kommerziellen Zwecken per Datamining verwertet werden.

    Text und Data Mining ist künftig vergütungsfrei gestattet, beispielsweise um künstliche Intelligenz für kommerzielle Anwendungen zu trainieren (§ 44b UrhG). Ein Nutzungsvorbehalt des Urhebers bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

    Haufe

    Auch andere Fachanwälte sehen das so:

    „Rechtmäßig zugänglich″ sind Werke, deren Zugriff dem Nutzer, also demjenigen, der das Mining durchführt, rechtlich erlaubt ist. Das trifft z.B. auf frei im Internet zugängliche Werke wie öffentliche Websites zu.

    Robin Schmitt

    In der Praxis bedeutet dass, dass man alle Bots per robots.txt aussperren sollte und dann gewünschte Crawler wie beispielsweise GoogleBot explizit erlauben sollte. Ansonsten gilt es offenbar als Einverständnis zur Verwertung mittels Data Mining!

    So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

    Mit einer robots.txt-Datei kannst du festlegen, welche Crawler auf welche Dateien auf deiner Website zugreifen können. Die robots.txt-Datei muss dabei stets im Stammverzeichnis deiner Website liegen und exakt „robots.txt“ genannt werden.

    Damit Du die Inhalte Deiner Website nicht zur Verwertung mittels Data Mining freigibst, solltest Du also zunächst sämtliche Inhalte für alle Crawler sperren und anschließend „gute Crawler“ wie Googlebot, Bingbot und die Bots der relevanten Suchmaschinen wieder den Zugriff erlauben.

    Deine robots.txt könnte beispielsweise so aussehen:

    # Block everything for all Crawlers
    User-agent: *
    Disallow: /
    
    # Allow everything for Google Search
    User-agent: Googlebot
    Allow: /
    
    User-agent: Googlebot-Mobile
    Allow: /
    
    User-agent: Googlebot-Image
    Allow: /
    
    # Allow everything for Bing Search
    User-agent: Bingbot
    Allow: /
    
    # Allow everything for Ecosia Search
    User-agent: EcosiaBot
    Allow: /
    
    # Allow everything for DuckDuckGo Search
    User-agent: DuckDuckBot
    Allow: /
    
    # Allow everything for Yahoo Search
    User-agent: Slurp
    Allow: /
    
    # Allow everything for Startpage Search
    User-agent: StartpageBot
    Allow: /
    
    # Allow everything for Qwant Search
    User-agent: Qwantify
    Allow: /
    
    # Allow everything for MetaGer Search
    User-agent: MetaGerBot
    Allow: /

    Bitte beachte, dass nach jedem Block von Allow oder Disallow-Anweisungen immer eine Leerzeile folgt, bevor ein neuer User-agent adressiert werden kann!

    Neben den in Deutschland nennenswerten Suchmaschinen gibt es auch andere wichtige Bots, die Zugriff auf deine Website benötigen könnten, um sicherzustellen, dass deine Inhalte gut verteilt und zugänglich sind. Hier sind einige weitere wichtige Bots, denen man in der robots.txt-Datei den Zugriff erlauben sollte:

    # Allow everything for Google Ads Bots
    User-agent: AdsBot-Google
    Allow: /
    
    # Allow everything for Bing Ads Bot
    User-agent: AdIdxBot
    Allow: /
    
    # Allow everything for Social Media Bots to generate Previews
    User-agent: facebot
    Allow: /
    
    User-agent: Twitterbot
    Allow: /
    
    User-agent: LinkedInBot
    Allow: /

    Möchtest Du gezielt die Archivierung deiner Seiten in das Internet Archive erlauben, solltest Du noch folgenden Code hinzufügen:

    # Allow everything for Internet Archive
    User-agent: ia_archiver
    Allow: /
  • Konfabulieren statt Halluzinieren – Wissenschaftler schlagen präzisere Sprache für Fehler der KI vor

    Konfabulieren statt Halluzinieren – Wissenschaftler schlagen präzisere Sprache für Fehler der KI vor

    Künstliche Intelligenz (KI) liegt manchmal daneben und gibt falsche Antworten. Sie erfindet Fakten, Bücher und Webseiten. Oft wird dann gesagt, dass die KI „halluziniert“. Doch Aljoscha Burchardt, Research Fellow am DFKI und Xenia Kersting, Oberärztin in der Universitätsmedizin Mainz halten diesen Begriff für irreführend und schlagen eine präzisere Alternative vor.

    Es ist mittlerweile üblich geworden, den Begriff „Halluzinieren“ zu verwenden, wenn große Sprachmodelle wie ChatGPT falsche Informationen generieren. Burchardt und Kersting halten diesen Begriff für unspezifisch und stigmatisierend. Sie argumentieren, dass er die Realität der Funktionsweise dieser Modelle nicht korrekt widerspiegelt und somit missverstanden werden kann.

    Warum „Halluzinieren“ der falsche Begriff ist

    Der Begriff „Halluzinieren“ warnt zwar Nutzer davor, den Ausgaben von Sprachmodellen blind zu vertrauen, da diese lediglich auf statistischen Vorhersagen basieren und keine garantierten Wahrheiten liefern. Sprachmodelle erzeugen ihren Output durch das Vorhersagen des nächsten wahrscheinlichen Wortes, ohne die Fähigkeit, die generierten Informationen zu überprüfen oder zu revidieren.

    Der Begriff suggeriert jedoch, dass das System in einem Ausnahmezustand ist, ähnlich wie Menschen, die aufgrund von psychischen Erkrankungen, Drogen oder Extremsituationen halluzinieren. Dies könnte zu dem Irrglauben führen, dass Sprachmodelle „repariert“ werden können, um diese „Halluzinationen“ zu vermeiden. Tatsächlich gehört das Erfinden von Informationen jedoch zum Wirkprinzip dieser Modelle und macht sie gleichzeitig so leistungsfähig.

    Ein Blick in die Psychiatrie

    Im psychiatrischen Kontext bedeutet „Halluzinieren“ das Erleben von Sinnestäuschungen, wie das Sehen oder Hören von nicht existierenden Dingen. Sprachmodelle haben jedoch keine Wahrnehmung und ihre falschen Aussagen sind einfach nur das Ergebnis fehlerhafter statistischer Vorhersagen.

    Stattdessen könnte man den Begriff „Konfabulieren“ verwenden, um das Verhalten von Sprachmodellen genauer zu beschreiben. In der Psychiatrie bedeutet Konfabulieren das Ausfüllen von Erinnerungslücken mit fiktiven Inhalten. Ähnlich füllen KI-Modelle ihre Wissenslücken spontan mit plausibel klingenden, aber falschen Informationen.

    Mir persönlich gefällt dieser Begriff ausserordentlich, denn er schafft eine deutlich bessere Analogie.

    Daneben plädieren die Autoren für einen präziseren und weniger stigmatisierenden Sprachgebrauch. Sie hoffen, dass dadurch nicht nur die Kommunikation über KI-Modelle verbessert, sondern auch Missverständnisse und Stigmatisierungen vermieden werden können.

    Anstatt von „Halluzinationen“ zu sprechen, könnten wir sagen, dass das Modell den Text statistisch generiert hat. Durch eine verbesserte Aufklärung könnten Nutzer besser verstehen, dass die Inhalte zwar plausibel klingen, aber nicht immer korrekt sind. Zudem könnten die Schnittstellen der Systeme optimiert werden, indem sie Selbstzweifel ausdrücken, wie „ich glaube“, „ich meine“ oder „meines Erachtens“.

    Quelle

  • Messen wir künstliche Intelligenz falsch? Und verstehen wir überhaupt was große Sprachmodelle tun?

    Messen wir künstliche Intelligenz falsch? Und verstehen wir überhaupt was große Sprachmodelle tun?

    Immer mehr Unternehmen drängen auf die Markteinführung von KI-Produkten, obwohl es viele Beweise dafür gibt, dass sie schwer zu kontrollieren sind und sich oft auf unvorhersehbare Weise verhalten. Dieses Verhalten ist besonders besorgniserregend, wenn man sich klar macht, dass niemand genau weiß, wie oder warum Deep Learning, die grundlegende Technologie hinter dem heutigen KI-Boom, funktioniert. Denn, es ist nach wie vor ein großes Rätsel, wie große Sprachmodelle wie Googles Gemini und OpenAIs GPT-4 lernen können, etwas zu tun, was ihnen nicht beigebracht wurde!

    Klar ist bislang nur: Man kann ein Sprachmodell mit englischen Matheaufgaben trainieren und ihm anschließend französische Literatur zeigen, woraufhin es lernen wird, Matheaufgaben auch auf Französisch zu lösen. Diese Fähigkeiten widersprechen der klassischen Statistik, die uns eigentlich Erklärungen dafür liefern sollte, wie sich Vorhersagemodelle verhalten. Doch wie sich bei genauerer Betrachtung herausgestellt hat, wurden einige der bemerkenswertesten Durchbrüche bei Open AI „aus Versehen“ erzielt, die nun seit der Veröffentlichung von ChatGPT die Welt im Sturm erobert und gerade dabei ist ganze Unternehmen und Industrien vollkommen umzukrempeln. Offenbar geht die Firma, die sich einst der Schaffung sicherer und quelloffener AGI zum Nutzen der Allgemeinheit verschrieb, wenig Verantwortungsvoll mit Technologien um, die sie im Kern selbst nicht versteht.

    Will Douglas Heaven, leitender Redakteur für KI der MIT Technology Review hat es in seinem Artikel wunderbar auf den Punkt gebracht, weshalb ich diesen hier auszugsweise wiedergeben möchte. Er schreibt darin:

    „Große Sprachmodelle können verblüffende Dinge tun. Aber niemand weiß genau, warum. Und das ist ein Problem.“

    Ich stimme ihm vollkommen zu. Genau das herauszufinden, ist nicht nur eines der größten wissenschaftlichen Rätsel unserer Zeit und ein entscheidender Schritt, um in Zukunft noch leistungsfähigere Modelle zu entwickeln, sondern auch mein Antrieb mich selbst in die KI-Forschung zu begeben.

    Vor zwei Jahren versuchten Forscher bei OpenAI noch herauszufinden, was nötig wäre, um ein großes Sprachmodell dazu zu bringen, einfache Rechenoperationen durchzuführen. Sie wollten wissen, wie viele Beispiele für die Addition von zwei Zahlen das Modell sehen muss, bevor es in der Lage ist, zwei beliebige Zahlen zu addieren. Zu Beginn lief das nicht so gut, denn die Modelle merkten sich zwar die Summen, die sie in den Trainingsdaten sahen, aber sie konnten keine neuen Aufgaben lösen.

    Aus Versehen ließen die beiden Forscher einige ihrer Experimente viel länger laufen, als sie eigentlich wollten. Aus Stunden wurden Tage und so wurden den Modellen die Beispielrechnungen immer und immer wieder gezeigt, und das weit über den Punkt hinaus, an dem die Forscher sonst längst aufgegeben hätten. Aber als die beiden zurückkamen, waren sie überrascht, dass das Experiment dennoch funktioniert hatten.

    Sie hatten ein großes Sprachmodell darauf trainiert, zwei Zahlen zu addieren! Es hatte nur viel mehr Zeit in Anspruch genommen, als man dies für möglich gehalten hatte.

    Die beiden taten sich sofort mit ihren Kollegen zusammen, um das Phänomen zu untersuchen und fanden heraus, dass Modelle in bestimmten Fällen zunächst nicht in der Lage waren, eine Aufgabe zu erlernen, und es dann plötzlich doch schafften, als ob eine Glühbirne angegangen wäre. Das entgegen allem, was man über die Art und Weise zu wissen glaubte, wie Deep Learning eigentlich funktionieren sollte. Sie nannten dieses Verhalten „Grokking“.

    Hattie Zhou, KI-Forscherin an der Universität von Montreal und bei Apple Machine Learning Research, die nicht an der Arbeit beteiligt war, brachte es wie folgt auf den Punkt:

    „Das ist wirklich interessant. Wie können wir jemals sicher sein, dass die Modelle aufgehört haben zu lernen? Denn vielleicht haben wir einfach nicht lange genug trainiert.“

    Dieses merkwürdige Verhalten hat die Fantasie der breiteren Forschungsgemeinschaft beflügelt. Viele Leute hätten laut Lauro Langosco von der University of Cambridge zwar eine Meinung dazu, aber er glaube nicht, dass es einen Konsens darüber gibt, was genau vor sich geht. Dabei ist Grokking ist nur eines von mehreren seltsamen Phänomenen, die KI-Forscher:innen weltweit den Kopf zerbrechen lassen. Die größten Modelle, insbesondere große Sprachmodelle, scheinen sich so zu verhalten, wie es laut Lehrbuch eigentlich gar nicht sein sollte. Dies unterstreicht eine bemerkenswerte Tatsache beim Deep Learning, der grundlegenden Technologie hinter dem heutigen KI-Boom: Trotz des durchschlagenden Erfolgs weiß niemand genau, wie oder warum sie funktionieren.

    Die größten Modelle sind inzwischen so komplex, dass die Forscher sie wie seltsame Naturphänomene untersuchen, Experimente durchführen und versuchen, die Ergebnisse zu erklären. Viele dieser Beobachtungen stehen im Widerspruch zur klassischen Statistik, die die besten Erklärungen für das Verhalten von Vorhersagemodellen geliefert hat.

    Kann uns das egal sein?

    In den letzten Wochen hat Google DeepMind seine generativen Modelle für die meisten seiner Verbraucheranwendungen eingeführt. OpenAI begeisterte die Menschen mit Sora, seinem beeindruckenden neuen Text-zu-Video-Modell. Und Unternehmen auf der ganzen Welt bemühen sich darum, KI für ihre Bedürfnisse zu nutzen. Die Technologie funktioniert.

    Ist das nicht genug?

    Aber herauszufinden, warum Deep Learning so gut funktioniert, ist nicht nur ein faszinierendes wissenschaftliches Rätsel. Es könnte auch der Schlüssel sein, um die nächste Generation der Technologie zu entwickeln und um die enormen Risiken, die damit verbunden sind in den Griff zu bekommen.

    Bislang bin ich selbst immer davon ausgegangen, dass Wissenschaftler wissen, was sie tun. Sie würden die Theorien aufstellen und dann die Modelle bauen. Das war aber überhaupt nicht der Fall!

    Die jüngsten Durchbrüche der Large Language Models in den letzten mehr als zehn Jahren beruhen eher auf Versuch und Irrtum als auf Verständnis. Die Forscher:innen kopieren, was bei anderen funktioniert und fügen eigene Ideen und Innovationen hinzu. Inzwischen gibt es viele verschiedene „Zutaten“, die den Modellen hinzugefügt werden können, und ein wachsendes Kochbuch mit Rezepten für ihre Verwendung. Mikhail Belkin, Informatiker an der University of California in San Diego sagt dazu „Es funktioniert, was erstaunlich ist. Wir sind verblüfft, wie mächtig diese Dinge sind“. Doch trotz ihres Erfolgs sind die Rezepte eigentlich mehr Alchemie als Chemie.

    Grokking: Wieso trotzen LLMs der Statistik?

    Heaven schreibt, das Problem sei, dass die KI im Zeitalter der großen Sprachmodelle der Lehrbuchstatistik zu trotzen scheint. Die leistungsstärksten Modelle sind heute gigantisch und bestehen aus hunderten Milliarden künstlicher Neuronen, jedes davon mit einem Parameter, also einem Wert des Modells, der während des Trainings angepasst wird. Die Statistik besagt laut Lehrbuch, dass sich die Leistung von Modellen mit zunehmender Größe zunächst verbessern und dann eigentlich verschlechtern sollte. Der Grund dafür ist die sogenannte Überanpassung auf Englisch Overfitting.

    Wenn ein Modell auf einem Datensatz trainiert wird, versucht es, sein internes Modell als eine Art von Muster an diese Daten anzupassen. Dabei wird das Modell versuchen diese Daten zu verallgemeinern, was dazu führt, dass es zunächst nicht sehr genau ist, da es viele der Datenpunkte nicht berücksichtigt. Hier spricht man von Underfitting. Wenn man nun jedoch das Muster zu komplex macht, also jeden Datenpunkt der Trainingsdaten berücksichtigt, wird bei Tests mit den Trainingsdaten die volle Punktzahl erreichen, aber niemals verallgemeinern können und damit bei neuen, noch nicht bekannten Daten wahrscheinlich falsche Schlüsse ziehen. In diesem Fall spricht man von einer Überanpassung des Modells an die Daten, auf Englisch Overfitting.

    Die klassische Statistik besagt, dass ein Modell umso anfälliger für eine Überanpassung ist, je größer es ist. Das liegt daran, dass ein Modell mit mehr Parametern, mit denen es spielen kann, leichter auf komplexe Grenzen stößt, die jeden Datenpunkt einbeziehen. Es gibt also immer eine Art „Sweet Spot“ zwischen Unter- und Überanpassung, den ein Modell finden muss, wenn es verallgemeinern soll. Doch das ist offenbar nicht das, was man bei den großen Modellen beobachtet. Das bekannteste Beispiel ist laut Heaven das Phänomen des doppelten Abstiegs:

    Die Leistung eines Modells wird oft durch die Anzahl der Fehler dargestellt, die es macht: Wenn die Leistung steigt, sinkt die Fehlerquote. Jahrzehntelang ging man davon aus, dass die Fehlerquote erst sinkt und dann steigt, wenn die Modelle größer werden: Stell dir einfach eine U-förmige Kurve vor, bei der der Sweet Spot für die Verallgemeinerung am niedrigsten Punkt liegt. Doch offenbar fanden Belkin und seine Kollegen 2018 heraus, dass die Fehlerquote bestimmter Modelle mit zunehmender Größe erst sinkt, dann steigt, um schließlich wieder zusinken, auf ein vollkommen neues, noch niedrigeres Niveau (eine doppelt abfallende oder W-förmige Kurve). Mit anderen Worten: Große Modelle überwanden den Sweet Spot und das Overfitting-Problem, indem sie mit zunehmender Größe immer besser wurden.

    Ein Jahr später war einer der OpenAI Entwickler, Barak erneut Mitautor einer Arbeit, die zeigte, dass das Phänomen des doppelten Abstiegs sogar noch häufiger auftritt, als viele dachten. (arxiv.org/pdf/1912.02292.pdf) Es tritt nicht nur auf, wenn Modelle größer werden, sondern auch bei Modellen mit großen Mengen an Trainingsdaten oder bei Modellen, die länger trainiert werden. Dieses Verhalten, das als „benign overfitting“ bezeichnet wird, ist noch immer nicht vollständig geklärt. Es wirft grundlegende Fragen darüber auf, wie Modelle trainiert werden sollten, um das Beste aus ihnen herauszuholen.

    Doch Forscherinnen und Forscher haben Hypothesen gebildet, was ihrer Meinung nach vor sich geht. Belkin bespielsweise glaubt, dass eine Art Occam’scher Rasiermesser-Effekt im Spiel ist: Das einfachste Muster, das zu den Daten passt, also die glatteste Grenze zwischen den Datenpunkten, sei oft dasjenige, das am besten verallgemeinert. Der Grund dafür, dass sich größere Modelle am Ende bessere Leistungen zeigen, als sie eigentlich sollten, könnte darin liegen, dass größere Modelle eher auf die „richtige Kurve“ treffen als kleinere. Mehr Parameter bedeuten mehr mögliche Kurven, die man ausprobieren kann, nachdem man die wackeligste (overfitted) verworfen hat.

    Diese Theorie schien die Grundlagen zunächst erklären, warum es funktioniert, aber dann haben andere Forscher Modelle gebaut, die 100 Sprachen sprechen konnten, und man musste sich eingestehen, im Grunde garnichts verstanden zu haben. Belkin selbst sagte dazu im Interview mit Heaven. „Es stellte sich heraus, dass wir nicht einmal an der Oberfläche gekratzt hatten.“ Bereits 2016 veröffentlichten Chiyuan Zhang vom MIT und Kollegen von Google Brain eine einflussreiche Arbeit mit dem Titel „Understanding Deep Learning Requires Rethinking Generalization“, jedoch war es 2021, also fünf Jahre später Zeit für eine komplette Neufassung der Arbeit, dieses mal unter dem Titel „Understanding Deep Learning (Still) Requires Rethinking Generalization“. Doch mittlerweile hat es, laut Zhang so viele Fortschritte gegeben, obwohl viel mehr Fragen auftauchen als gelöst werden.

    Ist die KI-Emergenz nur ein Trugbild?

    Kürzlich konnten Stanford-Forscher aufzeigen, dass die scheinbaren emergenten Fähigkeiten großer Sprachmodelle vielleicht doch nicht mehr als die Summe ihrer Teile sind. In der Studie versucht das Forscherteam um Rylan Schaeffer die Annahme zu entkräften, dass größere Modelle unvorhersehbare Fähigkeiten entwickeln könnten. Die Studie, die auf dem Preprint-Server arXiv veröffentlicht wurde, untersuchte 29 verschiedene Metriken zur Bewertung der Leistung von Modellen. Spannend ist: In 25 davon zeigten die KI-Modelle keine emergenten Eigenschaften, sondern eine kontinuierliche, lineare Steigerung der Fähigkeiten in Abhängigkeit von der Modellgröße.

    Die Forschungsarbeit lässt vermuten, dass die Wahrnehmung von emergenten Fähigkeiten lediglich durch die Wahl der Bewertungsmetriken entstanden sein könnte. Schaeffer merkt darin an, dass harte Metriken in der Evaluierung, wie das „Exact String Match“ selbst kleine Fehler bei einfachen Rechenaufgaben so bewerten, als wären sie gravierende Fehler, also komplett falsch, was zu einer übertriebenen Darstellung der Fähigkeiten größerer Modelle führt. Interessanterweise wurde festgestellt, dass Forscher im Bereich der Bilderkennungsmodelle solche harten Metriken nicht verwenden, und folglich keine emergenten Eigenschaften feststellen.

    Diese Erkenntnisse legen in der Tat nahe, dass die Entwicklung einer allgemeinen künstlichen Intelligenz (AGI) vorhersehbar bleiben wird, da die Fortschritte der Modelle nachvollziehbar und schrittweise erfolgen. Schaeffer betont, dass, sollte AGI realisiert werden, wir deren Eintreffen sehen können sollten, was bedeutende Implikationen für die zukünftige Entwicklung und Regulierung von KI-Technologien hat.

    Doch diese Studie erklärt nicht das Phänomen des „Grokkings“

    So interessant und richtig die Betrachtungen des Papers sind, ignoriert sie jedoch das Phänomen des „Grokkings“. Dieses Konzept beschreibt ein bemerkenswertes Phänomen, das bei tiefen neuronalen Netzwerken auftritt, wenn ein neuronales Netzwerk nach einer Phase des Lernens, die keine sichtbaren Fortschritte mehr zeigt, plötzlich und unerwartet ein tiefes Verständnis für ein Muster in den Daten entwickelt. Dieses tiefe Verständnis ermöglicht es dem Netzwerk, von einer anfänglich zufälligen Leistung bei der Generalisierung zu einer perfekten Generalisierung zu springen, wo es die Aufgaben korrekt und konsistent löst.

    In der aktuellen Studie „Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets“ von Alethea Power et al. wurde beispielsweise untersucht, wie neuronale Netzwerke auf kleinen, algorithmisch generierten Datensätzen generalisieren. In dem speziellen Szenario, wird dieses Phänomen an kleinen, algorithmisch generierten Datensätzen demonstriert. Diese Datensätze bestehen typischerweise aus binären Tabellen, die das Netzwerk ausfüllen muss. Während des Trainingsprozesses lernt das Netzwerk nicht nur, diese Tabellen korrekt auszufüllen, sondern entwickelt auch ein tiefgreifendes Verständnis der binären Operationen, die zur Erstellung der Daten verwendet wurden. Das Netzwerk „erkennt“ also die logischen oder mathematischen Regeln, die den Datensatz definieren, was eine plötzliche und deutliche Verbesserung seiner Leistung zur Folge hat. Damit zeigt sich, dass die Netzwerke ein tiefgehendes Verständnis für bestimmte Muster im Datensatz entwickeln können, was zu einer signifikanten Verbesserung der Generalisierungsleistung führt – von zufälliger Chance bis hin zu perfekter Generalisierung.

    Forscherinnen wie Alicia Curth, die an der Universität Cambridge Statistik studiert, gefällt es wenig, dass modernes maschinelles Lernen eine Art Magie ist, die sich über alle Gesetze hinweg zusetzen scheint. Ihr Team argumentierte kürzlich, dass das Phänomen des doppelten Abstiegs, bei dem die Modelle erst besser, dann schlechter und dann wieder besser zu werden scheinen, wenn sie größer werden, womöglich durch die Art und Weise entsteht, wie die Komplexität der Modelle gemessen wurde. Einfach die Anzahl der Parameter zu zählen, scheint zu einfach zu sein, um die Komplexität angemessen zu beschreiben, insbesondere da in sehr großen Modellen offenbar unterschiedliche Parameter unterschiedliche Funktionen übernehmen.

    Dieses Phänomen tritt auf, obwohl das Netzwerk bereits den Punkt des Überfittings überschritten hat, was darauf hinweist, dass die Netzwerke eine Art von „Aha-Erlebnis“ und einer gewissen internen Reorganisation erreichen, bei dem sie die zugrunde liegenden Strukturen der Daten erkennen und effizient nutzen können.

    Doch das eigentliche Problem geht noch viel tiefer

    Denn ein besseres theoretisches Verständnis würde nicht nur helfen, noch bessere KI zu entwickeln, sondern auch sicherer! Im Moment sind die Fortschritte zwar schnell, aber vollkommen unvorhersehbar. Viele Dinge, die OpenAIs GPT-4 kann, waren selbst für die Leute, die es entwickelt haben, eine Überraschung. Die Forscherinnen und Forscher streiten sich immer noch darüber, was es leisten kann und was nicht. Ohne eine grundlegende Theorie sei es sehr schwer, eine Vorstellung davon zu bekommen, was wir von diesen Dingern erwarten können und selbst wenn wir die Modelle haben, ist es selbst im Nachhinein nicht einfach zu sagen, warum bestimmte Fähigkeiten entstanden sind!

    Einer der beiden KI-Forscher, die per Zufall auf diese Fähigkeiten stießen, Boaz Barak arbeitet mittlerweile im Superalignment-Team von OpenAI, das vom Chefwissenschaftler des Unternehmens, Ilya Sutskever, gegründet wurde, um herauszufinden, wie man eine hypothetische Superintelligenz davon abhalten kann, sich gegen die Menschheit zu wenden. Barak sagt selbst im Interview mit Will Douglas Heaven:

    „Wir sind eine sehr junge Wissenschaft. Die Fragen, die mich diesen Monat am meisten begeistern, können sich von denen unterscheiden, die mich nächsten Monat am meisten begeistern. Wir sind immer noch dabei, Dinge zu entdecken. Wir müssen noch viel experimentieren und uns überraschen lassen.“

    Klingt das nicht vertrauenserweckend?

    Künstliche Intelligenz: Hype und Wirklichkeit

    Doch so langsam kommt Bewegung in die Debatte, denn auch die, gerne von OpenAI zu Marketing-Zwecken verwendeten Leistungsmessungen anhand menschlicher Tests werden zunehmend kritischer gesehen. So hat beispielsweise mein Lieblingsautor Will Douglas Heaven in seinem jüngsten Artikel für das MIT Technology Review kritisch die gängigen Methoden zur Bewertung künstlicher Intelligenz durch traditionelle menschliche Tests hinterfragt. Der äußerst lesenswerte Artikel schlägt dabei eine faszinierende Brücke zwischen der aktuellen KI-Forschung und traditionellen kognitiven Tests und regt dazu an, die Grenzen unserer Technologien und die Methoden, mit denen wir sie evaluieren, zu hinterfragen.

    Er beginnt mit der faszinierenden Beobachtung von Taylor Webb, einem Psychologen an der Universität von Kalifornien in Los Angeles, der die beeindruckenden Fähigkeiten von OpenAIs Sprachmodell GPT-3 erlebte. Webb, der gewohnt ist, neuronale Netzwerke zu bauen, die spezifische Denkfähigkeiten simulieren, war erstaunt darüber, wie GPT-3 komplexe abstrakte Probleme lösen konnte, die typischerweise in IQ-Tests zu finden sind. Webb und sein Team publizierten ihre Erkenntnisse in Nature, wobei sie GPT-3’s Fähigkeiten in Analogieschlussfolgerungen bewerteten, eine Schlüsselkomponente menschlicher Vernunft. Interessanterweise schnitt GPT-3 in einigen dieser Tests besser ab als College-Studenten. Dies führt zu der aufregenden Frage, ob wir tatsächlich am Rand einer neuen Ära der künstlichen Intelligenz stehen, oder ob diese Ergebnisse trügerisch sind.

    Heavens Artikel beleuchtet, dass trotz beeindruckender Testergebnisse erhebliche Zweifel an der Validität dieser Methoden bestehen. Er argumentiert, dass die Erfolge von GPT-3 und seinem Nachfolger GPT-4 – der sogar Teile des US-amerikanischen Medizinexamen bestand – möglicherweise weniger über echte Verstehensfähigkeit aussagen und mehr über die Fähigkeit der Modelle, aus ihrem umfangreichen Training mit Internettexten zu „lernen“.

    Ein zentraler Punkt des Artikels ist die Diskussion über die Angemessenheit, Maschinen mit menschlichen Intelligenztests zu bewerten. Melanie Mitchell, eine Forscherin am Santa Fe Institute, äußert Bedenken über die Anthropomorphisierung dieser Technologien und die daraus resultierende Verzerrung in unserer Wahrnehmung ihrer Fähigkeiten. Sie fordert eine gründlichere und vielschichtigere Evaluierung.

    Webb hat daher mittlerweile neue Testtypen entwickelt, um diese Modelle weiter herauszufordern, darunter eine Adaptation der Raven’s Progressive Matrices, die allgemein zur Bewertung des nichtverbalen Schlussfolgerns verwendet werden. Diese neuen Tests sind so konzipiert, dass sie die Herausforderung für die Modelle erhöhen, indem er die herkömmlichen visuellen Elemente der Tests in numerische Sequenzen umwandelte. Dadurch wurde sichergestellt, dass diese spezifischen Tests nicht in den Trainingsdaten der Modelle vorhanden waren, was die Wahrscheinlichkeit einer einfachen Reproduktion von gelernten Antworten verringert.

    Die Ergebnisse dieser neuen Tests zeigten, dass, während die Modelle beeindruckende Leistungen in bestimmten Standard-Testformaten erbringen können, ihre Fähigkeit, echtes Verständnis und kreatives Problemlösen zu demonstrieren, begrenzt bleibt. Dies deutet darauf hin, dass die Modelle zwar komplexe Muster und Strukturen aus ihren Trainingsdaten erkennen und nachahmen können, aber Schwierigkeiten haben, wenn sie mit völlig neuen, unerwarteten Problemtypen konfrontiert werden, die nicht direkt aus den Trainingsdaten abgeleitet sind.

    Diese Erkenntnisse werfen wichtige Fragen über die Grenzen der aktuellen KI-Technologien auf und zeigen, dass die Fähigkeit der Modelle, echtes menschenähnliches Denken zu simulieren, noch immer stark eingeschränkt ist. Sie betonen auch die Bedeutung der Entwicklung neuer und rigoroserer Testmethoden, um ein tieferes Verständnis der Fähigkeiten und Grenzen dieser fortschrittlichen maschinellen Lernsysteme zu gewinnen.

  • Models all the Way: Ein tiefer Blick in die Datensätze der KI

    Models all the Way: Ein tiefer Blick in die Datensätze der KI

    Im Zeitalter der künstlichen Intelligenz (KI) stehen wir an der Schwelle zu Entwicklungen, die das Potenzial haben, unser Verständnis von Technologie und Interaktion grundlegend zu verändern. Doch was geschieht, wenn die Grundlagen dieser revolutionären KI-Systeme in Frage gestellt werden? Ein spannendes Projekt namens „Knowing Machines“, initiiert von Christo Buschek und Jer Thorp, wirft ein kritisches Licht auf die Fundamente der generativen KI: Die Datensätze, auf denen diese Modelle trainiert werden.

    Die neueste visuelle Story „Models all the Way“ wirft einen Blick auf LAION-5B, einen Open-Source-Datensatz, der zum Trainieren von KI-Modellen wie Stable Diffusion verwendet wird. Er enthält 5,8 Milliarden Bild- und Textpaare – eine zu große Menge, um die Inhalte der Bilder zu verstehen. Mit einer großartigen visuellen Aufbereitung verfolgen die beiden den Aufbau des Datensatzes, um seinen Inhalt, seine Auswirkungen und seine Verstrickungen besser zu verstehen.

    Models-all-the-way

    Die Faszination großer KI-Modelle, die Bilder generieren, Hausaufgaben erledigen oder sogar Mondlandungen fälschen können, beginnt mit einem immensen Trainingsset. Milliarden von Bildern und Texten, gesammelt aus dem Internet, dienen als Baumaterial für die Welt, die durch die KI widergespiegelt wird. Die Zusammensetzung dieser Trainingssets ist von entscheidender Bedeutung, da sie maßgeblich beeinflusst, was ein Modell leisten kann und wie gut es dies tut. Dennoch haben nur wenige Menschen die Inhalte dieser Sets, die ihre Modelle speisen, gründlich untersucht. Wenn sie es tun, treten oft ernsthafte Probleme zutage, nicht selten mit schwerwiegenden rechtlichen Konsequenzen.

    Ein beunruhigendes Beispiel lieferte eine Untersuchung der Stanford’s Internet Observatory, die mehr als 3.000 Bilder als Material für sexuellen Missbrauch von Kindern (CSAM) in einem der einflussreichsten KI-Trainingssets der heutigen Zeit identifizierte: LAION-5B. Entworfen als offene Datenquelle von der deutschen Non-Profit-Organisation LAION, zielte dieses Projekt darauf ab, ein umfassendes Abbild der Welt zu erschaffen und damit eine Art Wörterbuch aus Dingen und Konzepten für KI-Modelle bereitzustellen. Doch die Entdeckung von CSAM-Bildern in LAION-5B, so alarmierend sie auch sein mag, überrascht kaum angesichts der schieren Größe des Datensatzes und der daraus resultierenden Unmöglichkeit einer manuellen Überprüfung.

    Wie untersucht man also ein Trainingsset, dessen Durchsicht mehrere Leben in Anspruch nehmen würde?

    Der Schlüssel liegt darin, genau zu verstehen, wie es erstellt wurde: LAION-5B basiert auf einem noch größeren Datensatz von Common Crawl und enthält Daten von mehr als 3 Milliarden Websites. Hierin wurde schlicht nach eingebundenen Bildern samt deren ALT-Attributen gesucht und diese in einen Datensatz überführt.

    Die Idee ist gut, denn der eigentlich Zweck des ALT-Attributs ist es, die Zugänglichkeit zu verbessern, insbesondere für sehbehinderte Nutzer, die Bildschirmlesegeräte verwenden. Doch in der Realität haben weniger als 40 % der Bilder im Internet haben ALT-Tags. Bei einigen Websites ist der Anteil jedoch viel höher.

    SlidePlayer zum Beispiel scheint ALT-Tags automatisch hinzuzufügen, indem er sie mit Text aus den PowerPoint-Folien füllt, die er aufnimmt. Pinterest generiert die Bildunterschriften auf seinen Seiten aus den ALT-Tags, so dass die Nutzer/innen gelernt haben, sie zu schreiben, bevor sie ihre Bilder „anpinnen“. Shopify-Nutzer/innen haben oft einen hohen Google PageRank im Auge und schreiben ALT-Tag-Beschreibungen mit Blick auf die Suchmaschinenoptimierung (SEO).

    All das bedeutet, dass ALT-Tags nur sehr selten die Beschreibung des Bildinhalts enthält, sondern vielmehr Artefakte der Funktionsweise des Internets und der Ambitionen der Ersteller*innen, insbesondere im Einzelhandel abbilden.

    Der Inhalt eines ALT-Tags sollte beschreiben, was auf dem Bild zu sehen ist. Meistens beschreiben ALT-Tags jedoch, was Algorithmen sehen sollen, und nicht, was die Menschen sehen sollen.

    Doch auch die Art und Weise, wie diese Daten kuratiert werden, beeinflusst entscheidend, welche Bilder und Texte in den Datensatz aufgenommen werden: Ein zentrales Element bei der Erstellung von LAION-5B war die Verwendung des CLIP-Modells (Contrastive Language–Image Pre-training) von OpenAI, um zu bewerten, wie gut ein Text zu einem Bild passt. Dieser Ansatz offenbart, wie sehr die Inhalte von LAION-5B nicht nur von menschlichen Sichtweisen, sondern auch von den Mechanismen des Internets und kommerziellen Logiken geprägt sind.

    Die Sprachverteilung innerhalb von LAION-5B wirft ebenfalls Fragen auf, insbesondere die überrepräsentation des Englischen im Vergleich zu anderen Sprachen. Dies spiegelt eine kulturelle Schieflage wider, die in die trainierten KI-Modelle übergeht und damit eine englischsprachige Perspektive über andere kulturelle und sprachliche Sichtweisen stellt. Darüber hinaus weist die kuratorische Praxis von LAION auf ein grundlegendes Problem hin: die Abhängigkeit von numerischen Schwellenwerten, die oft schlecht verstanden werden und die Konstruktion von Trainingssets tiefgreifend beeinflussen können.

    Ein weiterer kritischer Punkt ist die Ästhetik innerhalb der generativen KI. Sets wie LAION-Aesthetics, die darauf abzielen, Bilder von „hoher visueller Qualität“ zu enthalten, offenbaren, wie sehr die Konzepte von visueller Anziehungskraft durch die Vorlieben einer sehr kleinen Gruppe von Individuen und die von Datensatzschöpfern gewählten Prozesse beeinflusst werden können.

    Mein Fazit

    Die Diskussionen über Eigentum und Sicherheit, die generative KI-Modelle ausgelöst haben, finden ihren Ursprung in Trainingssets wie LAION-5B. Doch die statistische Herangehensweise dieser Sets an solche Themen wirft die Frage auf, ob die Verantwortung für die Auswirkungen der KI nicht zu sehr auf zukünftige Akteure abgewälzt wird. Die Öffentlichkeit von Datensätzen, wie es LAION praktiziert, ist grundsätzlich ein wichtiger und begrüßenswerter Schritt in Richtung Transparenz und Verantwortlichkeit, doch die Herausforderungen, die durch die statistische Kuratierung und die inhärenten strukturellen Voreingenommenheiten entstehen, bleiben bestehen.

    In einer Welt, in der KI-Systeme zunehmend unser Leben prägen, ist die Untersuchung von Trainingssets ein entscheidendes Instrument, um Einblick und Verständnis in die komplexesten Systeme zu gewinnen, die je vom Menschen konzipiert wurden. Die Forderung nach Transparenz bei Datensätzen ist daher von größter Bedeutung, wenn KI-Systeme jemals für ihre Auswirkungen in der Welt zur Rechenschaft gezogen werden sollen.

  • AI Content Detektoren: Kann man KI-Texte erkennen?

    AI Content Detektoren: Kann man KI-Texte erkennen?

    Als ich Anfang 2023 mein Buch über ChatGPT & Co. geschrieben habe, habe ich mich auch damit auseinander gesetzt, ob Suchmaschinen wie Google oder Lehrkräfte an Schulen und Hochschulen zuverlässig erkennen können, ob ein Text vollständig oder teilweise von einer generativen KI geschrieben wurde.

    GPTZero, eine der ersten Ansätze, die mir in meiner Recherche aufgefallen sind, war zum damaligen Zeitpunkt noch nicht öffentlich verfügbar, also habe ich mich mit den theoretischen Hintergründen und dem aktuellen Stand der KI-Forschung beschäftigt und mir die Frage gestellt, ob es überhaupt möglich sein kann und ob sich der Aufwand einer AI-Content-Erkennung, beispielsweise für Suchmaschinen überhaupt lohnt:

    Lassen sich KI-generierte Texte erkennen?

    In meinem Buch schrieb ich damals:

    Die rasanten Fortschritte in letzter Zeit führen dazu, dass immer mehr Texte von Sprachmodellen generiert werden und in den unterschiedlichsten Bereichen eingesetzt werden. Da drängt sich die wichtige Frage auf, ob man solche Texte automatisch erkennen kann? Nach derzeitigen Erkenntnissen scheint dieser Kampf jedoch eine Sisyphos-Aufgabe zu sein, denn KI-Detektoren stehen vor großen Herausforderungen: Ein Team von Forschern der Universität von Maryland [1] fand heraus, dass selbst die besten Detektoren, keine absolute Sicherheit bieten können.

    So können bereits einfache Umformulierungen oder kleinere Änderungen an den generierten Texten die Detektoren täuschen. Selbst die besten Detektoren schneiden kaum besser ab als ein rein zufälliger Klassifikator. Man könnte also genauso gut eine Münze werfen und sich auf diese Weise entscheiden, ob ein Text KI-generiert ist oder nicht.

    OpenAI arbeitet derzeit zwar an einem Tool, das die Ausgaben eines Text-KI-Systems mit unsichtbaren Wasserzeichen versieht [2], doch auch hier gibt es Schwachstellen: Die Forscher meinen, dass Menschen in der Lage sein könnten, die Wasserzeichen zu entschlüsseln und sie in andere, nicht von einer KI geschriebene Texte einzufügen. Dadurch würden die Erkennungsmechanismen ad absurdum geführt.

    Es ist offensichtlich, dass eine verlässliche und einfache Lösung für das Erkennen von KI-generierten Texten derzeit nicht in Sicht ist. Die ethische und verantwortungsvolle Nutzung von solchen Texten sollte dennoch oberste Priorität haben.

    Für mich persönlich spielt es keine Rolle, ob ein Text von einer KI oder einem Menschen geschrieben wurde. Entweder es ist ein guter Text oder es ist kein guter Text. So sieht es auch aus Sicht der Suchmaschine aus. Entweder es ist Spam oder es ist kein Spam. Menschengeschriebener Spam ist genauso schlecht für die Qualität der Suchergebnisse wie KI-geschriebener Spam. Und ein richtig guter Artikel, der von der KI geschrieben wurde, ist genauso gut, wie wenn ihn ein Mensch geschrieben hätte.

    Falls du dich also fragst, ob deine KI-generierten Texte in den Suchmaschinen gefunden werden, solltest du die Inhalte auf faktische Korrektheit überprüfen und dafür sorgen, dass deine Inhalte einen echten Nutzen für den Besucher bieten und ein Informationsbedürfnis erfüllen. Dann werden diese auch nicht abgestraft – warum sollten sie?

    Auszug aus meinem Buch „Richtig texten mit KI“

    [1] Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, Soheil Feizi: „Can AI-Generated Text be Reliably Detected?“, arXiv Pre-Print, abgerufen am 05.04.23, online abrufbar unter: https://kai.im/ai-text-detection
    [2] Kyle Wiggers: „OpenAI’s attempts to watermark AI text hit limits“, Techcrunch, abgerufen am 14.02.23, online verfügbar unter: https://kai.im/openai-watermark


    Was ist seit dem passiert?

    Seit dem Erscheinen meines Buches hat OpenAI seinen AI Classifier bereits Mangels Treffsicherheit zurück gezogen. Das Programm sollte KI-erzeugte Texte erkennen. Das klappte jedoch nicht zuverlässig genug: „Der AI Classifier ist nicht mehr verfügbar aufgrund seiner geringen Genauigkeit“, gesteht OpenAI ein.

    Daher hatte ich für mich mit dem Thema abgeschlossen und als nicht weiter interessant betrachtet. Doch mich hat ein Kollege darauf aufmerksam gemacht, dass offenbar immer häufiger Texte von Vorgesetzten oder Kunden abgelehnt werden, weil diese angeblich mittels künstlicher Intelligenz geschrieben wurden und große Sorge darüber besteht, dass man hierfür womöglich rechtliche Konsequenzen oder gar eine Abstrafung seitens der Suchmaschinen befürchten müsste.

    In den Fachabteilungen macht man sich offenbar Gedanken darüber, wie man verhindern kann, dass die eigenen Inhalte als KI-generiert erkannt werden – Was mich an die Bemühungen erinnert, gekaufte Links oder ganze Linkprofile als möglichst „organisch“ erscheinen zu lassen.

    Als Beispiel für ein derartiges Tool, das KI-Texte erkennen soll, wurde mir copyleaks genannt. Das musste ich mir also umgehend ansehen, immerhin bezeichnet sich das Unternehmen selbst als die „einzige Enterprise KI-Erkennungslösung“ und verspricht:

    Von der Sicherstellung der Cyber-Compliance bis zur Verhinderung von Urheberrechtsverletzungen ist es entscheidend zu wissen, welche Inhalte von Menschen erstellt wurden und welche von KI. Mit einer Genauigkeit von 99,1 % und einer vollständigen Modellabdeckung, einschließlich GPT-4 und Bard, ist der Copyleaks AI Content Detector die umfassendste und genaueste Lösung auf dem Markt.

    Auszug aus der Webseite von copyleaks
    Screenshot von copyleaks.com Die angeblich einzige Enterprise KI-Erkennungslösung

    Man sei dabei die einzige Plattform, die KI-Inhalte in mehreren Sprachen erkennt, eine genaue Wahrscheinlichkeitsbewertung von KI-Inhalten liefert und sogar die spezifischen Teile eines Textes hervorhebt, die von einem Menschen geschrieben wurden, und die, die von KI geschrieben wurden. Ja sogar umgeschriebene Inhalte will man erkennen können!

    Wow, das klingt beeindruckend. Und sieht auf den ersten Blick auch irgendwie überzeugend aus, immerhin vertrauen „führende Organisationen und Institutionen“ offenbar auf copyleaks:

    Führende Organisationen und Institutionen vertrauen copyleaks

    Doch auf den zweiten Blick werde ich hier stutzig: Wieso werden hier nur unbedeutende Colleges und Universitäten aufgeführt und keine aus der Ivy League?

    Der erste WTF-Moment kam mir direkt im nächsten Abschnitt der Webseite:

    Man arbeit seit fast einem Jahrzehnt an der KI-Erkennungslösung!

    Seit 2015 lernt die Copyleaks-KI-Engine, wie Menschen schreiben, indem sie Billionen von Seiten aus verschiedenen Quellen sammelt und analysiert, darunter: Arbeiten von Tausenden von Institutionen und Millionen von Schülern aus Bildungsinstitutionen sowie Marketinginhalte, Whitepaper und Forschungsarbeiten aus über 300 Unternehmen.

    Auszug aus der Webseite von copyleaks

    Wer die Entwicklung von generativer KI über die letzten 10 Jahre verfolgt hat weiß, dass das entscheidende Paper „Attention Is All You Need“ jedoch erst 2017 von Google-Forschern veröffentlich wurde und alle Modelle vor GPT-2 weit entfernt davon waren, Texte zu schreiben, die man für menschengeschrieben halten könnte.

    Ich finde es extrem problematisch, wenn der Eindruck erweckt wird, man könnte KI-Texte zuverlässig erkennen. Eines der Hauptprodukte von copyleaks ist immerhin die Bewertung von Aufsätzen und studentischen Arbeiten für Bildungseinrichtungen und da will ich mir garnicht vorstellen, was es bedeutet, wenn jemand wegen einer fehlerhaften Erkennung Probleme mit der Prüfungskommission bekommen könnte. Erste Berichte über falsche Anschuldigungen machten bereits die Runde.

    copyleaks behauptet auf seiner Webseite selbstbewusst:

    Wir haben mehr als 20.000 von Menschen verfasste Beiträge getestet und die Rate der Falschmeldungen lag bei 0,2 % – die niedrigste Falschmeldungsrate aller Plattformen. Außerdem testen wir unser KI-Modell ständig und trainieren es mit neuen Daten und Feedback, um die Genauigkeit zu verbessern.

    Damit müsse „niemand Angst vor falschen Positivmeldungen haben, die zu falschen Anschuldigungen führen können“.

    Doch ist das wirklich so?

    Ansätze für die Erkennung und deren Grenzen

    Die Fähigkeit, Texte zu erkennen, die von Künstlicher Intelligenz (KI), insbesondere von großen Sprachmodellen (LLMs), generiert wurden, ist ein sich schnell entwickelndes Forschungsgebiet mit weitreichenden Implikationen für Bereiche wie Cybersicherheit und akademische Integrität. Mit der zunehmenden Verfeinerung der LLMs wird die Unterscheidung zwischen von Menschen verfassten und von KI generierten Inhalten jedoch immer schwieriger.

    Dennoch existieren zahlreiche Ansätze, die zum Teil weit entwickelt und ständig verfeinert werden. Diese lassen sich in technische und stilometrische Methoden unterteilen, um unterschiedliche Aspekte der Textgenerierung und -modellierung zu nutzen.

    Die Erkennung KI-generierter Texte in Zeiten großer Sprachmodelle stellt jedoch eine zunehmende Herausforderung dar, bei der die Praktikabilität und Zuverlässigkeit der verschiedenen Ansätze kritisch betrachtet werden muss. Jede Methode hat ihre spezifischen Einschränkungen, die ihre Effektivität und Anwendbarkeit in realen Szenarien beeinflussen können.

    Technische Ansätze

    Maschinenlern-Klassifikatoren

    Durch das Training von Maschinenlernmodellen mit großen Datensätzen von von Menschen geschriebenen und KI-generierten Texten können Forscher:innen Klassifikatoren entwickeln, die den Ursprung eines neuen Textes vorhersagen. Merkmale, die von diesen Modellen verwendet werden, können Textkohärenz, Komplexität, die Verwendung bestimmter Phrasen oder syntaktische Muster umfassen, die in KI-generierten Texten häufiger vorkommen.

    Probleme dabei:

    • Das Training effektiver Klassifikatoren erfordert umfangreiche und vielfältige Datensätze, die sowohl von Menschen geschriebene als auch KI-generierte Texte umfassen. Die Beschaffung und Aufrechterhaltung dieser Datensätze ist ressourcenintensiv.
    • Klassifikatoren können durch die schnelle Evolution der KI-Modelle schnell veralten. Zudem besteht die Gefahr, dass sie durch innovative Textgenerierungsmethoden, die bestehende Erkennungsmuster umgehen, getäuscht werden.

    Statistische Mustererkennung

    KI-generierte Texte können statistische Anomalien aufweisen oder die Variabilität vermissen lassen, die in von Menschen geschriebenen Texten zu finden ist. Techniken wie die Analyse von N-Gramm-Häufigkeiten, Variationen der Satzlänge und andere statistische Merkmale können genutzt werden, um Muster zu identifizieren, die charakteristisch für KI-generierte Inhalte sind.

    Das Problem dabei: Große Sprachmodelle werden darauf trainiert, menschliche Variabilität in Texten zu imitieren, wodurch die Unterscheidungskraft statistischer Muster verringert wird.

    Wasserzeichen

    Einige Forscher erkunden die Möglichkeit, Wasserzeichen in die Ausgaben von LLMs einzubetten. Diese Wasserzeichen, die subtile Muster in der Wortwahl oder Satzstruktur sein könnten, würden die Lesbarkeit des Textes nicht beeinträchtigen, könnten jedoch von spezialisierten Algorithmen erkannt werden. Die Implementierung von derartigen Wasserzeichen erfordert grundsätzlich Zugriff auf den Entwicklungsprozess der Modelle, was bei proprietären Systemen nicht immer möglich ist.

    Das Hauptproblem: Wasserzeichen können umgangen, entfernt oder sogar in menschliche Texte eingebaut werden, sobald die Methoden ihrer Einbettung bekannt sind.

    Stilometrische Ansätze

    Konsistenz- und Kohärenzanalyse

    KI-generierte Texte, insbesondere längere, können Schwierigkeiten haben, thematische oder faktische Konsistenz aufrechtzuerhalten. Eine Analyse eines Textes auf wiederholte oder widersprüchliche Informationen kann ein Indikator für eine KI-Autorschaft sein.

    Die Durchführung einer gründlichen Konsistenzprüfung erfordert fortschrittliche Analysetools und kann bei längeren Texten herausfordernd sein. Neuere KI-Modelle verbessern ständig ihre Fähigkeit, kohärente und thematisch konsistente Texte zu generieren, was die Wirksamkeit dieser Methode in den letzten Jahren stark eingeschränkt hat.

    Stilistisches Fingerprinting

    Jeder Autor hat einen einzigartigen Schreibstil, einschließlich Vorlieben für bestimmte Phrasen, Interpunktion und Struktur. Durch den Vergleich des stilistischen Fingerabdrucks eines Textes mit bekannten menschlichen und KI-Fingerabdrücken ist es möglich, eine fundierte Vermutung über dessen Ursprung anzustellen.

    Dieser Ansatz benötigt umfangreiche Vergleichsdatenbanken mit menschlichen und KI-Stilen, deren Aufbau und Pflege aufwendig sein kann. Außerdem können KI-Systeme, die auf die Nachahmung spezifischer Schreibstile trainiert sind, stilistische Fingerabdrücke effektiv imitieren, was die Zuordnung erschwert.

    Was sagt die Fachwelt dazu?

    Im Dezember 2023 trafen sich auf der Neurips-Konferenz in New Orleans führende KI-Forscher, um über das brandaktuelle Thema der Erkennung von Deep-Fakes und anderen KI-generierten Betrügereien zu diskutieren. Die Konferenz beleuchtete die Bemühungen von Unternehmen wie Intel und Microsoft, die mittels spezieller Software solche Täuschungen aufspüren wollen. Parallel dazu wird an Techniken gearbeitet, um echte Bilder, Videos und Texte durch „Wasserzeichen“ von KI-generierten Medien zu unterscheiden.

    Eine Umfrage des Economist unter Konferenzteilnehmern zeigte jedoch eine skeptische Stimmung: 17 von 23 Befragten glauben nicht an die langfristige Erkennbarkeit KI-generierter Medien. Nur ein Einziger äußerte Optimismus bezüglich zuverlässiger Erkennungsmethoden.

    Die derzeitige Erkennungssoftware basiert auf der Annahme, dass KI-Modelle erkennbare Spuren hinterlassen. Früher konnten Menschen solche Fehler leichter erkennen, wie z.B. missgebildete Hände in Bildern. Heute jedoch werden diese Unzulänglichkeiten immer seltener, und die Software muss subtilere Merkmale identifizieren.

    Die Erkennungstechnik ist jedoch nicht fehlerfrei und neigt zu falsch-positiven sowie falsch-negativen Ergebnissen. Studien, wie eine von Zeyu Lu der Shanghai Jiao Tong University, belegen, dass selbst leistungsfähige Programme KI-generierte Bilder nicht immer korrekt identifizieren. Ähnlich unbefriedigend sind die Ergebnisse bei Texterkennung.

    Eine alternative Methode ist das Einbetten digitaler Wasserzeichen in KI-generierte Medien. Diese Technik, vorgeschlagen von Forscherteams der University of Maryland und der University of California, Santa Barbara, nutzt subtile Unterscheidungsmerkmale, die jedoch offensichtlich werden, wenn man danach sucht. Eine weitere Methode, das „Tree-Ring“-Wasserzeichen, wird während der Erstellung des digitalen Bildes angewendet, um die Erkennung auch nach Bearbeitung des Bildes zu ermöglichen.

    Trotz dieser Innovationen bleibt die Frage der Effektivität offen. Forscher der Harvard University und der University of Maryland haben bereits Methoden entwickelt, um solche Wasserzeichen zu entfernen oder zu umgehen.

    Die amerikanische Regierung hat im Juli 2023 „freiwillige Verpflichtungen“ mit mehreren KI-Firmen, darunter OpenAI und Google, angekündigt, um die Forschung in diesem Bereich zu fördern. Dies zeigt, dass auch unvollkommene Schutzmechanismen als besser angesehen werden als gar keine. Dennoch scheint es, als hätten die Fälscher aktuell die Oberhand im Kampf gegen die Detektive.

    Einblicke in aktuelle KI-Forschung

    Mittlerweile beschäftigt sich neues Gebiet der Forschung mit Fragen wie „Lassen sich KI-Texte zuverlässig erkennen?“. In den letzten Monaten wurden dazu sehr interessante Paper veröffentlicht.

    KI-Firmen aber auch KI-Forscher haben verschiedene Methoden entwickelt, um KI-Texte zu identifizieren. Manche fügen beispielsweise unsichtbare Wasserzeichen in die Texte ein. Andere analysieren statistische Eigenschaften wie die Zufälligkeit der Wörter. Wieder andere vergleichen neue Texte mit bereits bekannten KI-Texten. Diese Detektoren erreichen teilweise schon beeindruckende Erkennungsraten.

    Doch neue Studien zeigen auch ihre Grenzen auf. Oft reicht es aus, wenn man KI-Texte mit einem einfachen Programm umschreibt. Dann fallen die Wasserzeichen und statistischen Marker weg und die Detektoren versagen. Selbst wenn man KI-Texte in einer Datenbank speichert und neue Texte mit diesen vergleicht, können geschickte Umschreibungen die Erkennung austricksen.

    Noch grundlegender ist das theoretische Limit, das Forscher errechnet haben: Wenn KI-Systeme immer menschlicher schreiben, werden auch die besten Detektoren irgendwann ratlos. Derzeit kommen die besten Detektoren im Labor auf eine Erkennungsrate von über 90 Prozent. Aber schon bei einer Fehlerrate von nur 10 Prozent wären in der Praxis unzählige Texte falsch eingeschätzt.

    Zudem zeigte sich, dass viele Detektoren Texte von Menschen mit schlechten Sprachkenntnissen häufig fälschlicherweise als KI-Text einordnen. Die Systeme sind also nicht nur fehleranfällig, sondern diskriminieren auch bestimmte Gruppen.

    Forscher mahnen deshalb, die Fähigkeiten der Detektoren nicht zu überschätzen. Bevor sie in der Praxis eingesetzt werden, müssen sie umfassend getestet werden. Sonst könnten sie mehr Schaden als Nutzen anrichten. Langfristig braucht es wohl neue Ansätze. So könnte man KI-Systeme von vornherein so gestalten, dass ihre Texte nachweisbar von Menschen geschrieben wurden. Vorläufig bleibt es also spannend, ob es künftig gelingt, den stetig verbesserten KI-Textgeneratoren ebenso clevere Detektoren gegenüberzustellen.

    Dank Debora Weber-Wulff, einer emeritierten Professorin an der HTW Berlin bin ich auf das Pre-Print „Testing of Detection Tools for AI-Generated Text“ gestoßen. Darin hat sich die „working group on Technology & Academic Integrity at the European Network for Academic Integrity“ mit 12 kostenlosen KI-Checkern und zwei bezahlten KI-Erkennungstools beschäftigt.

    Getestet wurden dort die Tools: Check For AI, Compilatio, Content at Scale, Crossplag, DetectGPT, Go Winston, GPT Zero, GPT-2 Output Detector Demo, OpenAI Text Classifier, PlagiarismCheck, TurnItIn, Writeful, GPT Detector, Writer sowie Zero GPT. Copyleaks war zwar nicht Teil dieses Tests, doch die Forscherinnen und Forscher kommen ebenfalls zu dem Schluss, dass die verfügbaren Erkennungswerkzeuge weder genau, noch zuverlässig sind und vor allem dazu neigen, Texte als von Menschen geschrieben zu klassifizieren, anstatt KI-generierten Text zu erkennen.

    Diese Arbeitsgruppe arbeitet speziell an der Erprobung von KI-generierten Texterkennungsprogrammen und testet 14 Tools, die allesamt behaupten, KI-generierte Texte zu erkennen. Die Ergebnisse werde gerade auf der ECEIA 2023 vorgestellt, der Pre-Print, sowie die Rohdaten für den KI-Erkennungstest sind bereits veröffentlicht. Außerdem hat das ENAI Empfehlung für den ethischen Einsatz von KI in der Bildung als Leitartikel im „International Journal for Educational Integrity“ veröffentlicht.

    Wir dürfen hier weitere Veröffentlichungen erwarten, denn die jüngsten Fortschritte bei großen Sprachmodellen und generativer künstlicher Intelligenz haben gerade in der akademischen Welt viele Bedenken hinsichtlich ihrer ethischen Verwendung und der richtigen Bewertungsstrategien aufgeworfen. Das Hauptaugenmerk der akademischen Integritätsgemeinschaft verschiebt sich daher zunehmend von Plagiaten und Unterschleif auf den Einsatz generativer künstlicher Intelligenz. Die ENAI-Arbeitsgruppe beschäftigt sich daher mit dem Testen von Hilfsmitteln zur Plagiatserkennung und erweiterte hierfür ihren Forschungsbereich um die Bereiche Technologie und akademische Integrität.

    Können Menschen KI-Text erkennen?

    Bei der ganzen Diskussion um die Zuverlässigkeit von Algorithmen, Tools und Machine Learning Modellen zur Erkennung von KI-generierten Texten stellt sich die berechtigte Frage, ob Menschen fähig sind diese zuverlässig zu identifizieren.

    Ein aufschlussreiches Paper mit dem Titel „Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays“ wirft ein Licht auf die Schwierigkeiten, die Lehrkräfte bei der Unterscheidung zwischen von Schülern verfassten Arbeiten und solchen, die von KI erstellt wurden, erleben.

    Die Studie zeigt auf, dass sowohl unerfahrene als auch erfahrene Lehrkräfte gleichermaßen Schwierigkeiten haben, KI-generierte Texte zu erkennen, was die Frage aufwirft, inwiefern Fachwissen tatsächlich eine Rolle bei der Identifizierung solcher Texte spielt. Besonders bei argumentativen Essays waren die Teilnehmer nicht in der Lage, die Herkunft der Texte korrekt zu bestimmen, was auf eine weitverbreitete Unsicherheit in Bezug auf die Erkennung von KI-generierten Inhalten hindeutet.

    Interessanterweise zeigte sich, dass erfahrene Lehrkräfte zwar etwas erfolgreicher in der Identifizierung von Texten hoher Qualität waren, dennoch Probleme mit der Erkennung von minderwertigen KI-Texten hatten.

    Dies unterstreicht die Komplexität der Thematik und die Notwendigkeit einer umfassenden Auseinandersetzung mit den Möglichkeiten künstlicher Intelligenz im Bildungssektor. Insbesondere betont dies auch die Notwendigkeit, Bewertungspraktiken neu zu überdenken.

    KI-Text-Erkennung mit copyleaks im Praxistest

    In meinem Test habe ich zunächst einige, zu 100% KI-generierte Texte überprüft, die ich ihm Rahmen eines SEO-Experiments für einen KI-generierten Glossar mittels ChatGPT (GPT-4) erzeugt hatte. Und siehe da, dieser wurde von copyleaks mit 99,9%iger Sicherheit wurde dieser Text als „AI-Inhalt erkannt“:

    Screenshot von copyleaks Test

    Den Text habe ich unkenntlich gemacht, da ich mein SEO-Ranking-Experiment nicht verfälschen und die Webseite preisgeben möchte.

    Wow, das sieht doch wirklich überzeugend aus. Und auch die nächsten 10 KI-generierten Texte wurden als solche erkannt, jedes mal mit einer Wahrscheinlichkeit über 99%.

    Der selbe Text wurde von GPTzero übrigens als „wahrscheinlich komplett von einem Menschen geschrieben“ eingestuft:

    Screenshot von GPTzero Test

    Hatte copyleaks also wirklich geschafft, was ich für nicht machbar gehalten habe?

    Wenn das Tool KI-Texte so treffsicher klassifziert, wie sieht es dann mit menschengeschriebenen Texten aus?

    Ein erster Test mit dem frisch installierten Browser-Plugin von copyleaks sah vielversprechend aus: Einen Text, den ich selbst im Jahr 2016 geschrieben habe, selbstverständlich ohne Unterstützung einer KI, wurde korrekt als „Menschlicher Text“ klassifiziert:

    copyleaks Test mit Browser-Plugin

    Doch mein Erstaunen legte sich schnell wieder, als ich die nächsten Absätze überprüfte, die ich persönlich, weit vor der Veröffentlichung jeglicher generativer KI geschrieben hatte:

    copyleaks false positive

    Plötzlich wurde mitten in meinem Text ein großer Absatz als „KI-Content erkannt“ und ein paar Stichproben später betätigte sich mein Verdacht:

    Copyleaks lieferte in meinem Kurztest derart viele „False Positives“ (Texte, die als KI-generiert eingestuft werden, es in Wirklichkeit aber garnicht sind), so dass ich niemandem empfehlen kann, sich darauf zu verlassen.

    Kai Spriestersbach

    Die Wahrscheinlichkeiten, die mir das Tool hierfür angezeigt haben, lagen bei den Fehleinschätzungen zwischen 99,9% und 85,5%, wie in diesem Beispiel:

    false positive

    In meinem – zugegeben relativ kurzen Test – konnte ich zwar keine False Negatives identifizieren, also KI-generierte Texte, die von copyleaks nicht als solche klassifiziert werden, doch bei einer derart hohen Fehlerrate, ist das für den Einsatz des Tools unerheblich.

    Tom Tloks KI-Detektor „Made in Germany“

    Auch in Deutschland ist man vor Fehlschlüssen und unterkomplexer Betrachtung nicht gefeit, wie Tom Tlok von der Fachhochschule Wedel derzeit beweist:

    Der KI-Detektor, der durch einen modifizierten LLM-Ansatz im Rahmen von Tloks Master-Thesis entstanden ist, erkennt mit einer Zuverlässigkeit von 97,89 Prozent, ob ein deutschsprachiger Text mithilfe von Künstlicher Intelligenz erstellt wurde.

    NDR Lokalbericht

    Natürlich musste ich diesen direkt testen. Und ja: Bei ein paar Texten scheint es gut zu funktionieren, allerdings dauert es nicht lange, bis man sowohl False Positives, als auch False Negatives erhält:

    Diesen Text aus einem meiner Website Boosting Artikel stuft das Tool mit 99,89% korrekt als menschlich geschrieben ein.

    Diesen Text aus einem meiner Website Boosting Artikel stuft das Tool mit 99,89% korrekt als menschlich geschrieben ein. Sehr vielversprechend…

    Diesen zu 100% mit ChatGPT generierten Text aus einem Experiment stuft das Tool mit 91,88% KI generiert ein.

    Und diesen zu 100% mit ChatGPT generierten Text aus einem Experiment stuft das Tool mit 91,88%iger Sicherheit als „KI generiert“ ein. Sehr gut!

    Doch bereits bei einem, mittels RAG erstellten Text, ist sich das Tool nicht mehr sicher…

    Hier wird nur noch 19,83% KI angezeigt, obwohl der Output 1:1 aus ChatGPT stammt!

    Hier wird nur noch 19,83% KI angezeigt, obwohl der Output 1:1 aus ChatGPT stammt!

    Und mit ein bisschen ausprobieren konnte ich sogar für einen, zu 100% mittels ChatGPT generierten Text eine 90,68%ig menschliche Bewertung erhalten:

    Ich frage mich, wie hier evaluiert wurde, um auf solche Zahlen zu kommen.

    Falls hier ein Teil der Trainingsdaten zur Evaluierung verwendet wurde, liegt wahrscheinlich ein klassischer Selection Bias vor. Bei dem lernt das Modell nicht generell „KI generierte Texte“ zu erkennen, sondern eben nur den bestimmten Typus, der für das Training verwendet wurde. Daraus lässt sich jedoch nicht Generalisieren, ohne dass dies zulasten der Erkennungsrate und -genauigkeit geht.


    Gerade in einer Umgebung, in der es wichtig ist, zwischen menschlichen und KI-generierten Texten zu unterscheiden, zum Beispiel in der Wissenschaft oder im Journalismus, könnte eine falsche Identifikation schwerwiegende Konsequenzen haben.

    Zwischen Nachrichten über übereifrige Professoren, die eine ganze Klasse durchfallen lassen, weil sie verdächtigt werden, KI-Schreibprogramme zu benutzen, und Kindern, die fälschlicherweise beschuldigt werden, ChatGPT zu benutzen, ist die generative KI im Bildungsbereich in Aufruhr. Manche sprechen von einer existenziellen Krise. Lehrerinnen und Lehrer, die sich auf die Lehrmethoden des letzten Jahrhunderts verlassen, suchen nach Wegen, den Status quo zu erhalten, also sich auf den Aufsatz als Instrument zu verlassen, um die Beherrschung eines Themas zu messen.

    Obwohl es verlockend ist, sich auf KI-Tools zu verlassen, um KI-generierten Text zu erkennen, hat sich gezeigt, dass diese nicht zuverlässig sind. KI-Text-Detektoren wie GPTZero, ZeroGPT und der Text Classifier von OpenAI erkennen KI-generierte Texte, nicht zuverlässig, da sie häufig falsch positive Ergebnisse liefern.

    Kai Spriestersbach

    Ich bin mit dieser Einschätzung nicht alleine: Wenn man Amerikas wichtigstes Rechtsdokument – die US-Verfassung – in ein Tool eingibt, das von KI-Modellen wie ChatGPT geschriebene Texte angeblich erkennt, wird es einem sagen, dass das Dokument mit ziemlicher Sicherheit von einer KI geschrieben wurde. Aber wenn James Madison kein Zeitreisender war, kann das ja garnicht nicht stimmen. Fest steht: KI-Schrifterkennungswerkzeuge liefern falsch-positive Ergebnisse. arstechnica hat dazu mit verschiedenen Experten und dem Erfinder des KI-Schriftdetektors GPTZero gesprochen, um herauszufinden wieso das so ist.

    Analyse und Fazit

    Wenn generative KI-Modelle verwendet werden, um Texte zu generieren, ist es äußerst schwierig, diese mit Sicherheit zu erkennen. Große Sprachmodelle wurden genau dafür entwickelt, um menschliche Texte zu reproduzieren, also möglichst gut nachzuahmen. Die Lernmethode der KI sorgt zwar dafür, dass sie nur bestimmte Muster abbilden, die signifikant genug in den Trainingsdaten enthalten waren und dementsprechend eine geringere Varianz aufweisen. Dennoch ist es nicht trivial, diese von menschlichen Texten zu unterscheiden.

    Denn, selbst wenn wir die Modelle deterministisch machen würden (indem wir eine Temperatur von 0 verwenden), würden sie immer noch eine sehr lange und einzigartige Kette von Token generieren, die zudem Abhängig von deren Input, also dem Prompt des Nutzers ist. Stellen wir uns dazu eine hypothetische Kette aller Möglichkeiten vor, die jeden möglichen Text enthält, den das Modell jemals generieren könnte.

    Um zu überprüfen, ob ein bestimmter Text von der KI generiert wurde, müssten wir also die gesamte Tokenkette vorhersagen oder alle möglichen Kombinationen von Token speichern und den zu prüfenden Text damit vergleichen. Dies erfordert enorme Speicher- und Rechenkapazitäten, die praktisch nicht umsetzbar sind.

    Darüber hinaus verhalten sich KI-Modelle probabilistisch, nicht deterministisch. Das bedeutet, dass sie die nächsten Token nur mit bestimmten Wahrscheinlichkeiten vorhersagen, aus denen das Modell dann zufällig auswählt. Bei einer Auswahl von zehn möglichen Worten ergeben sich mehr Kombinationsmöglichkeiten als die Anzahl der Atome im Universum!

    Es ist auch wichtig zu beachten, dass jedes KI-Modell unterschiedliche Parameter und Gewichtungen besitzt, was zu unterschiedlichen Wahrscheinlichkeiten und Ergebnissen führt. Daher wäre eine Methode, die für ein Modell funktioniert, nicht unbedingt auf andere Modelle anwendbar.

    Es bleibt also nur der Ansatz, ein Modell mit KI-Texten und menschlichen Texten zu trainieren, das versucht zu lernen die beiden zu unterscheiden. Hierbei stößt man jedoch auf das Problem, dass das Detektor-Modell mit repräsentativen Daten gefüttert werden müsste, um Muster zu identifizieren, die inhärent durch die Art und Weise wie LLMs Texte erzeugen entstehen und nicht in menschlichen Texten auftreten.

    Zusammenfassend lässt sich sagen, dass aufgrund der Natur und Komplexität der generativen KI-Modelle eine sichere Erkennung von KI-generierten Texten quasi unmöglich ist.

    Detektorsysteme wie diese verdienen unser Vertrauen nicht. Bei fälschlicherweise erkannten KI-Texten kommt die Frage nach der Genauigkeit und Zuverlässigkeit auf.

    Kai Spriestersbach

    Mein Tipp lautet daher: Probiert es am besten selbst aus und zeigt Euren Kunden und Vorgesetzten, dass diese Tools grundlegende Schwächen haben.

    Solange KI-Detektoren nicht zuverlässig arbeiten und ihre Einschränkungen und potenziellen Fehler transparent machen, halte ich deren Einsatz für deutlich schädlicher als nützlich. Umso wichtiger ist es, dass Nutzer dieser Systeme verstehen, wie sie funktionieren und wie man ihre Ergebnisse interpretiert.