Zum Inhalt springen

Tutorial: So sperrst Du OpenAIs ChatGPT, Googles Gemini und andere Bots aus, die deine Texte für ihre KI nutzen wollen

Sprachmodelle wie GPT-4 und Google Gemini müssen mit großen Mengen an Text gefüttert werden, um daraus Muster zu lernen, die dann erstaunliche Fähigkeiten aufweisen. Für das Training komplexer Sprachverarbeitungsmodelle greift man im wissenschaftlichen Umfeld gerne auf bekannte und öffentlich verfügbare Datensätze zurück. Dies ist insbesondere in der Forschung sinnvoll, denn so lassen sich Algorithmen besser mit deren Vorgängern und Konkurrenten vergleichen, die schließlich mit den selben Daten trainiert wurden. Da es sich in der Regel um nicht-kommerzielle Nutzung handelt, sehe ich hier auch keinerlei Probleme. Doch bei OpenAIs ChatGPT, GPT-3, GPT-3.5 und GPT-4 sowie Googles Gemini ist das längst nicht mehr der Fall.

Auch wenn ein Forschungspaper die grundlegenden Mechanismen hinter GPT-3 beschreibt, sind daraus mit der API und ChatGPT längst kommerzielle Produkte entstanden, die weder frei noch kostenlos zugänglich sind.

Anders als mein persönliches Rechtsempfinden in die kommerzielle Nutzung von unlizensierten Trainingsdaten jedoch seit der jüngsten EU-Urheberrechtsreform kein Problem!

Darin findet sich eine Erleichterung des Data und Textmining, genauer die §§ 44b für kommerzielle Zwecke und 60d UrhG-DE für wissenschaftliche Zwecke. Darin steht quasi: Solange nicht per Robots.txt eingeschränkt, dürfen öffentliche Daten und Werke auch zu kommerziellen Zwecken per Datamining verwertet werden.

Text und Data Mining ist künftig vergütungsfrei gestattet, beispielsweise um künstliche Intelligenz für kommerzielle Anwendungen zu trainieren (§ 44b UrhG). Ein Nutzungsvorbehalt des Urhebers bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

Haufe

Auch andere Fachanwälte sehen das so:

„Rechtmäßig zugänglich″ sind Werke, deren Zugriff dem Nutzer, also demjenigen, der das Mining durchführt, rechtlich erlaubt ist. Das trifft z.B. auf frei im Internet zugängliche Werke wie öffentliche Websites zu.

Robin Schmitt

In der Praxis bedeutet dass, dass man alle Bots per robots.txt aussperren sollte und dann gewünschte Crawler wie beispielsweise GoogleBot explizit erlauben sollte. Ansonsten gilt es offenbar als Einverständnis zur Verwertung mittels Data Mining!

So sperrst Du alle Bots und Crawler aus (außer Google, bing und Co.)

Mit einer robots.txt-Datei kannst du festlegen, welche Crawler auf welche Dateien auf deiner Website zugreifen können. Die robots.txt-Datei muss dabei stets im Stammverzeichnis deiner Website liegen und exakt „robots.txt“ genannt werden.

Damit Du die Inhalte Deiner Website nicht zur Verwertung mittels Data Mining freigibst, solltest Du also zunächst sämtliche Inhalte für alle Crawler sperren und anschließend „gute Crawler“ wie Googlebot, Bingbot und die Bots der relevanten Suchmaschinen wieder den Zugriff erlauben.

Deine robots.txt könnte beispielsweise so aussehen:

# Block everything for all Crawlers
User-agent: *
Disallow: /

# Allow everything for Google Search
User-agent: Googlebot
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Googlebot-Image
Allow: /

# Allow everything for Bing Search
User-agent: Bingbot
Allow: /

# Allow everything for Ecosia Search
User-agent: EcosiaBot
Allow: /

# Allow everything for DuckDuckGo Search
User-agent: DuckDuckBot
Allow: /

# Allow everything for Yahoo Search
User-agent: Slurp
Allow: /

# Allow everything for Startpage Search
User-agent: StartpageBot
Allow: /

# Allow everything for Qwant Search
User-agent: Qwantify
Allow: /

# Allow everything for MetaGer Search
User-agent: MetaGerBot
Allow: /

Bitte beachte, dass nach jedem Block von Allow oder Disallow-Anweisungen immer eine Leerzeile folgt, bevor ein neuer User-agent adressiert werden kann!

Neben den in Deutschland nennenswerten Suchmaschinen gibt es auch andere wichtige Bots, die Zugriff auf deine Website benötigen könnten, um sicherzustellen, dass deine Inhalte gut verteilt und zugänglich sind. Hier sind einige weitere wichtige Bots, denen man in der robots.txt-Datei den Zugriff erlauben sollte:

# Allow everything for Google Ads Bots
User-agent: AdsBot-Google
Allow: /

# Allow everything for Bing Ads Bot
User-agent: AdIdxBot
Allow: /

# Allow everything for Social Media Bots to generate Previews
User-agent: facebot
Allow: /

User-agent: Twitterbot
Allow: /

User-agent: LinkedInBot
Allow: /

Möchtest Du gezielt die Archivierung deiner Seiten in das Internet Archive erlauben, solltest Du noch folgenden Code hinzufügen:

# Allow everything for Internet Archive
User-agent: ia_archiver
Allow: /

Abonniere das kostenlose KI-Update

Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!

Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.

Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.

Kai Spriestersbach

Kai Spriestersbach

Kai Spriestersbach ist erfolgreicher Unternehmer und digitaler Stratege mit einem Master-Abschluss in Web Science. Er ist Inhaber von AFAIK und wpfox und verfügt über mehr als 20 Jahre Erfahrung im Aufbau und der Optimierung von webbasierten Geschäftsmodellen. Als einer der erfahrensten Search Marketing Experten im deutschsprachigen Raum hat er mehr als 25 Vorträge auf SEO- und Online-Marketing-Konferenzen in Deutschland und Österreich gehalten. In den letzten Jahren hat er sich intensiv mit Large Language Models beschäftigt und sich als Experte für die Textgenerierung mit Hilfe künstlicher Intelligenz etabliert. Seine Karriere begann er mit einer Ausbildung zum Mediengestalter (IHK), bevor er den Bachelor of Science (B.Sc) in E-Commerce absolvierte. Anschließend erwarb er den Master of Science (M.Sc) in Web Science und forscht aktuell an der RPTU im Bereich angewandter generativer KI.

×