Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

Sprachmodelle wie GPT-4 und Google Gemini müssen mit großen Mengen an Text gefüttert werden, um daraus Muster zu lernen, die dann erstaunliche Fähigkeiten aufweisen. Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs ChatGPT, GPT-3, GPT-3.5 und GPT-4 sowie Googles Gemini ist das längst nicht mehr der Fall.

Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, sind daraus mit der API und ChatGPT längst kommerzielle Produkte entstanden, die weder frei noch kostenlos zugänglich sind.

Anders als mein persönliches Rechtsempfinden in die kommerzielle Nutzung von unlizensierten Trainingsdaten jedoch seit der jüngsten EU-Urheberrechtsreform kein Problem!

Darin findet sich eine Erleichterung des Data und Textmining, genauer die §§ 44b für kommerzielle Zwecke und 60d UrhG-DE für wissenschaftliche Zwecke. Darin steht quasi: Solange nicht per Robots.txt eingeschränkt, dürfen öffentliche Daten und Werke auch zu kommerziellen Zwecken per Datamining verwertet werden.

Text und Data Mining ist künftig vergütungsfrei gestattet, beispielsweise um künstliche Intelligenz für kommerzielle Anwendungen zu trainieren (§ 44b UrhG). Ein Nutzungsvorbehalt des Urhebers bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.
Haufe

Auch andere Fachanwälte sehen das so:

„Rechtmäßig zugänglich″ sind Werke, deren Zugriff dem Nutzer, also demjenigen, der das Mining durchführt, rechtlich erlaubt ist. Das trifft z.B. auf frei im Internet zugängliche Werke wie öffentliche Websites zu.
Robin Schmitt

In der Praxis bedeutet dass, dass man alle Bots per robots.txt aussperren sollte und dann gewünschte Crawler wie beispielsweise GoogleBot explizit erlauben sollte. Ansonsten gilt es offenbar als Einverständnis zur Verwertung mittels Data Mining!

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Mit einer robots.txt-Datei kannst du festlegen, welche Crawler auf welche Dateien auf deiner Website zugreifen können. Die robots.txt-Datei muss dabei stets im Stammverzeichnis deiner Website liegen und exakt „robots.txt“ genannt werden.

Damit Du die Inhalte Deiner Website nicht zur Verwertung mittels Data Mining freigibst, solltest Du also zunächst sämtliche Inhalte für alle Crawler sperren und anschließend „gute Crawler“ wie Googlebot, Bingbot und die Bots der relevanten Suchmaschinen wieder den Zugriff erlauben.

Deine robots.txt könnte beispielsweise so aussehen:

# Block everything for all Crawlers
User-agent: *
Disallow: /

# Allow everything for Google Search
User-agent: Googlebot
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Googlebot-Image
Allow: /

# Allow everything for Bing Search
User-agent: Bingbot
Allow: /

# Allow everything for Ecosia Search
User-agent: EcosiaBot
Allow: /

# Allow everything for DuckDuckGo Search
User-agent: DuckDuckBot
Allow: /

# Allow everything for Yahoo Search
User-agent: Slurp
Allow: /

# Allow everything for Startpage Search
User-agent: StartpageBot
Allow: /

# Allow everything for Qwant Search
User-agent: Qwantify
Allow: /

# Allow everything for MetaGer Search
User-agent: MetaGerBot
Allow: /

Bitte beachte, dass nach jedem Block von Allow oder Disallow-Anweisungen immer eine Leerzeile folgt, bevor ein neuer User-agent adressiert werden kann!

Neben den in Deutschland nennenswerten Suchmaschinen gibt es auch andere wichtige Bots, die Zugriff auf deine Website benötigen könnten, um sicherzustellen, dass deine Inhalte gut verteilt und zugänglich sind. Hier sind einige weitere wichtige Bots, denen man in der robots.txt-Datei den Zugriff erlauben sollte:

# Allow everything for Google Ads Bots
User-agent: AdsBot-Google
Allow: /

# Allow everything for Bing Ads Bot
User-agent: AdIdxBot
Allow: /

# Allow everything for Social Media Bots to generate Previews
User-agent: facebot
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: LinkedInBot
Allow: /

Möchtest Du gezielt die Archivierung deiner Seiten in das Internet Archive erlauben, solltest Du noch folgenden Code hinzufügen:

# Allow everything for Internet Archive
User-agent: ia_archiver
Allow: /

Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Weitere Beiträge:

Kai Spriestersbach

Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Abonniere das kostenlose KI-Update

Weitere Beiträge:

Kai Spriestersbach