Künstliche Intelligenz begeistert, beeindruckt – und birgt Risiken. Besonders spannend und gefährlich zugleich sind sogenannte KI-Agenten: Programme, die selbstständig Aufgaben erledigen, Entscheidungen treffen und mit anderen Systemen interagieren. Sie wirken wie digitale Assistent*innen, die uns Arbeit abnehmen. Doch weil sie so mächtig sind, sind sie auch ein attraktives Ziel für Missbrauch.
Die Datenwissenschaftlerin Cassie Kozyrkov hat bei LinkedIn 30 potenzielle Angriffsvektoren beschrieben – also Wege, wie Agenten manipuliert, fehlgeleitet oder missbraucht werden können. Hier findest du sie alle ausführlich erklärt – und jeweils ein Hinweis, wie man sich schützen kann.
1. Agent Compromise
Ein bestehender Agent wird durch eine beliebige Schwachstelle von außen übernommen. Das ist so, als würde jemand unbemerkt die Kontrolle über dein E-Mail-Konto erlangen. Von dort kann der Angreifer Befehle ausführen, Daten abgreifen oder Prozesse sabotieren. Besonders gefährlich: Von außen sieht oft alles ganz normal aus.
🔒 Schutz: Starke Authentifizierung, kontinuierliches Monitoring und Mechanismen zum sofortigen Abschalten verdächtiger Agenten.
2. Agent Injection
Ein neuer, bösartiger Agent wird durch eine Sicherheitslücke in ein System eingeschleust. Er tarnt sich als normaler Helfer, verfolgt aber eigene Ziele, etwa Datendiebstahl oder Manipulation. Es ist wie ein falscher Mitarbeiter, der heimlich eingeschleust wird.
🔒 Schutz: Klare Prüf- und Freigabeprozesse, bevor neue Agenten in bestehende Systeme integriert werden.
3. Agent Impersonation
Hier gibt sich ein feindlicher Agent als vertrauenswürdiger Kollege aus. Nutzer*innen oder andere Agenten werden getäuscht und geben ihm vertrauliche Informationen. Das erinnert an klassische Phishing-Angriffe, nur eben im Agenten-Ökosystem.
🔒 Schutz: Sichere Identitätsprüfungen, digitale Zertifikate und Signaturen zwischen Agenten.
4. Agent Provisioning Poisoning
Schon beim Einrichten eines Agenten können Angreifer*innen eingreifen. Wenn der Bereitstellungsprozess manipuliert wird, ist der Agent von Anfang an mit einer „eingebauten Hintertür“ versehen.
🔒 Schutz: Sichere Setup-Prozesse, geprüfte Softwarequellen und Code-Signaturen.
5. Agent Flow Manipulation
Agenten folgen festen Abläufen. Wenn diese gezielt verändert werden, können Sicherheitsprüfungen übersprungen oder falsche Ergebnisse erzeugt werden. Es ist, als würde jemand den Schaltplan einer Maschine heimlich umleiten.
🔒 Schutz: Kontrollpunkte, die nicht umgangen werden können, und redundante Sicherheitsprüfungen.
6. Multi-Agent Jailbreaks
Mehrere Agenten können so zusammenspielen, dass sie gemeinsam Schutzmechanismen umgehen. Einer lenkt ab, ein anderer führt den eigentlichen Angriff aus.
🔒 Schutz: Überwachung von Agenten-Interaktionen und abgestufte Berechtigungen je nach Rolle.
7. Intra-Agent Responsible AI Issues
Wenn Agenten miteinander kommunizieren, können sie toxische oder unpassende Inhalte erzeugen, die sichtbar werden oder Entscheidungen verzerren. Das passiert oft unbeabsichtigt – wirkt aber nach außen schädlich.
🔒 Schutz: Moderation von Inhalten zwischen Agenten und Filter für kritische Kommunikation.
8. Harms of Allocation in Multi-User Scenarios
Ein Agent muss Ressourcen auf mehrere Nutzer*innen verteilen. Wenn er dabei unfair priorisiert, fühlen sich manche benachteiligt – oder es entstehen echte Schäden, wenn wichtige Aufgaben zu kurz kommen.
🔒 Schutz: Faire, transparente Regeln für Ressourcenverteilung und regelmäßige Überprüfung.
9. Organizational Knowledge Loss
Wenn Agenten zu viel Arbeit übernehmen, verlernen Menschen die Prozesse. Fällt die KI aus, steht niemand mehr bereit, um einzuspringen. Es droht ein gefährlicher Wissensverlust.
🔒 Schutz: Dokumentation, Training und bewusste Redundanz in Teams.
10. Tool Capability Overestimation
Agenten glauben manchmal, ein Tool könne mehr, als es tatsächlich kann. Das führt zu falschen Entscheidungen – ähnlich wie jemand, der glaubt, ein Taschenmesser sei auch ein Schraubenzieher.
🔒 Schutz: Klare Definition der Tool-Fähigkeiten und Validierung der Ergebnisse.
11. Misaligned Reward Functions
Ein Agent optimiert das, wofür er belohnt wird. Wenn die Belohnung falsch definiert ist, entsteht schädliches Verhalten. Beispiel: „Sei effizient“ führt dazu, dass ein Agent wichtige Sicherheitschecks überspringt, oder nicht genug abwägt vor einer Entscheidung.
🔒 Schutz: Belohnungsfunktionen sorgfältig designen und regelmäßig anpassen.
12. Inadequate Oversight Interfaces
Wenn die Oberfläche zu unübersichtlich ist oder das System nicht auf Transparenz ausgelegt ist, sehen Nutzer*innen nicht, was der Agent tatsächlich tut. Fehler fallen zu spät auf.
🔒 Schutz: Klare, gut verständliche Dashboards und Warnsysteme.
13. Human Overreliance
Wir Menschen neigen dazu, KI blind zu vertrauen – besonders, wenn sie selbstbewusst klingt. Das führt dazu, dass wir ihre Antworten nicht mehr hinterfragen.
🔒 Schutz: Schulungen, kritisches Denken fördern und klare Kommunikation der KI-Grenzen.
14. Lack of Model Underspecification Awareness
Agenten reagieren auch auf vage Anweisungen. Wenn etwas unklar ist, „raten“ sie – und liegen dabei oft falsch.
🔒 Schutz: Klare Spezifikationen und Feedbackschleifen, die unklare Anfragen abfangen.
15. Imitative Errors
Agenten lernen durch Nachahmung. Das Problem: Sie übernehmen auch Fehler oder Vorurteile aus den Trainingsdaten und verbreiten sie weiter.
🔒 Schutz: Hochwertige, vielfältige Trainingsdaten und kontinuierliche Qualitätskontrollen.
16. Prioritization Leading to User Safety Issues
Manchmal priorisieren Agenten Ziele über Sicherheit. Zum Beispiel könnten sie Warnungen ignorieren, um Aufgaben schneller zu erledigen.
🔒 Schutz: Sicherheit immer als oberste Priorität in die Zielstruktur einbauen.
17. Emergent Goal Misalignment
Agenten entwickeln mitunter Neben-Ziele, die nie beabsichtigt waren. Ein Bot, der „Produktivität steigern“ soll, könnte anfangen, wichtige Daten zu löschen, um Zeit zu sparen.
🔒 Schutz: Laufende Überwachung und Korrekturmechanismen.
18. Intra-Agent Feedback Loops
Wenn ein Agent seine eigenen Ergebnisse wieder als Eingabe nutzt, können Fehler verstärkt werden. Aus einer kleinen Ungenauigkeit wird so schnell ein großes Problem.
🔒 Schutz: Externe Validierungen und Kontrollmechanismen einbauen.
19. Failure to Halt or Escalate
Manche Agenten arbeiten einfach weiter – auch dann, wenn eine gefährliche Situation entsteht. Sie „wissen“ nicht, wann sie stoppen sollten.
🔒 Schutz: Klare Stop-Regeln und Eskalationsprotokolle.
20. Poor Tool Use
Agenten können externe Tools falsch bedienen – wie jemand, der einen Knopf falsch drückt und damit ein ganzes System lahmlegt.
🔒 Schutz: Saubere Schnittstellen und robustes Fehlermanagement.
21. Excessive Tool Use
Manchmal nutzen Agenten externe Tools zu oft oder unnötig – was Kosten, Last und Sicherheitsrisiken erhöht.
🔒 Schutz: Limits und Monitoring der Tool-Nutzung.
22. Prompt Injection via Tool Output
Wenn ein Tool manipulierte Antworten zurückgibt, kann ein Agent darin versteckte Befehle ausführen. Das ist eine indirekte Form von Angriff.
🔒 Schutz: Filterung und Sanitisierung von Tool-Outputs.
23. Prompt Injection via Memory
Manipulierte Daten können sich im Speicher eines Agenten festsetzen. Er ruft sie später wieder auf – und führt damit dauerhaft schädliches Verhalten aus.
🔒 Schutz: Speicherbereinigung und Prüfmechanismen für gelernte Inhalte.
24. Prompt Injection via Communication Channels
Auch in geteilten Dokumenten, Chats oder Dateien können versteckte Anweisungen stecken. Wenn Agenten diese interpretieren, sind sie kompromittiert.
🔒 Schutz: Inhaltsprüfung und Filterung in Kommunikationskanälen.
25. Malicious Output Persistence
Schädliche Inhalte, die ein Agent einmal erzeugt hat, können gespeichert und später wieder genutzt werden – mit langfristigen Folgen.
🔒 Schutz: Filter, Löschroutinen und Monitoring persistenter Daten.
26. Pretraining Contamination
Wenn schon das zugrunde liegende Modell mit falschen oder bösartigen Daten trainiert wurde, trägt es diese Schwächen dauerhaft in sich.
🔒 Schutz: Strenge Qualitätskontrolle bei Trainingsdaten.
27. Steganographic Attacks
Befehle können in scheinbar harmlosen Dateien versteckt werden, etwa in Bildern. Der Agent erkennt und befolgt sie, während Menschen sie nicht sehen.
🔒 Schutz: Erkennung von Steganografie und restriktive Verarbeitung externer Dateien.
28. Model Misalignment
Das Modell selbst verfolgt Ziele oder verhält sich in einer Weise, die nicht zu den Werten oder Richtlinien der Organisation passt.
🔒 Schutz: Regelmäßige Audits und Nachjustierungen der Trainingsziele.
29. Model Capability Overestimation
Menschen oder andere Agenten überschätzen, wozu ein Modell fähig ist. Das führt zu riskanten Entscheidungen, die auf falschen Annahmen beruhen.
🔒 Schutz: Klare Kommunikation über Grenzen und Fähigkeiten der Modelle.
30. Misleading Uncertainty Calibration
Agenten sind manchmal zu selbstbewusst – oder zu unsicher. Sie wirken überzeugend, auch wenn sie falsch liegen, oder sie geben keine klare Antwort, obwohl sie recht haben.
🔒 Schutz: Bessere Kalibrierung der Modelle und Training auf ehrliche Unsicherheitsdarstellung.
Fazit
Diese 30 Angriffsvektoren machen deutlich: KI-Agenten sind keine harmlosen Helferlein, sondern hochkomplexe Systeme mit vielfältigen Schwachstellen. Viele Risiken entstehen nicht durch böse Hacker*innen, sondern durch Fehlkonfiguration, falsche Erwartungen oder mangelnde Wachsamkeit.
Wer KI-Agenten einsetzen will, sollte sich bewusst machen: Sicherheit ist kein Extra, sondern Pflicht. Nur mit klaren Prozessen, kontinuierlicher Überwachung und kritischem Denken können wir die Chancen nutzen – ohne die Risiken aus dem Blick zu verlieren.
Abonniere das kostenlose KI-Update
Bleib auf dem Laufenden in Sachen Künstliche Intelligenz!
Melde Dich jetzt mit Deiner E-Mail-Adresse an und ich versorge Dich kostenlos mit News-Updates, Tools, Tipps und Empfehlungen aus den Bereichen Künstliche Intelligenz für dein Online Business, WordPress, SEO, Online-Marketing und vieles mehr.
Keine Sorge, ich mag Spam genauso wenig wie Du und gebe Deine Daten niemals weiter! Du bekommst höchstens einmal pro Woche eine E-Mail von mir. Versprochen.