Künstliche Intelligenz begeistert, beeindruckt – und birgt Risiken. Besonders spannend und gefährlich zugleich sind sogenannte KI-Agenten: Programme, die selbstständig Aufgaben erledigen, Entscheidungen treffen und mit anderen Systemen interagieren. Sie wirken wie digitale Assistent*innen, die uns Arbeit abnehmen. Doch weil sie so mächtig sind, sind sie auch ein attraktives Ziel für Missbrauch.

Die Datenwissenschaftlerin Cassie Kozyrkov hat bei LinkedIn 30 potenzielle Angriffsvektoren beschrieben – also Wege, wie Agenten manipuliert, fehlgeleitet oder missbraucht werden können. Hier findest du sie alle ausführlich erklärt – und jeweils ein Hinweis, wie man sich schützen kann.

1. Agent Compromise

Ein bestehender Agent wird durch eine beliebige Schwachstelle von außen übernommen. Das ist so, als würde jemand unbemerkt die Kontrolle über dein E-Mail-Konto erlangen. Von dort kann der Angreifer Befehle ausführen, Daten abgreifen oder Prozesse sabotieren. Besonders gefährlich: Von außen sieht oft alles ganz normal aus.

🔒 Schutz: Starke Authentifizierung, kontinuierliches Monitoring und Mechanismen zum sofortigen Abschalten verdächtiger Agenten.

2. Agent Injection

Ein neuer, bösartiger Agent wird durch eine Sicherheitslücke in ein System eingeschleust. Er tarnt sich als normaler Helfer, verfolgt aber eigene Ziele, etwa Datendiebstahl oder Manipulation. Es ist wie ein falscher Mitarbeiter, der heimlich eingeschleust wird.

🔒 Schutz: Klare Prüf- und Freigabeprozesse, bevor neue Agenten in bestehende Systeme integriert werden.

3. Agent Impersonation

Hier gibt sich ein feindlicher Agent als vertrauenswürdiger Kollege aus. Nutzer*innen oder andere Agenten werden getäuscht und geben ihm vertrauliche Informationen. Das erinnert an klassische Phishing-Angriffe, nur eben im Agenten-Ökosystem.

🔒 Schutz: Sichere Identitätsprüfungen, digitale Zertifikate und Signaturen zwischen Agenten.

4. Agent Provisioning Poisoning

Schon beim Einrichten eines Agenten können Angreifer*innen eingreifen. Wenn der Bereitstellungsprozess manipuliert wird, ist der Agent von Anfang an mit einer „eingebauten Hintertür“ versehen.

🔒 Schutz: Sichere Setup-Prozesse, geprüfte Softwarequellen und Code-Signaturen.

5. Agent Flow Manipulation

Agenten folgen festen Abläufen. Wenn diese gezielt verändert werden, können Sicherheitsprüfungen übersprungen oder falsche Ergebnisse erzeugt werden. Es ist, als würde jemand den Schaltplan einer Maschine heimlich umleiten.

🔒 Schutz: Kontrollpunkte, die nicht umgangen werden können, und redundante Sicherheitsprüfungen.

6. Multi-Agent Jailbreaks

Mehrere Agenten können so zusammenspielen, dass sie gemeinsam Schutzmechanismen umgehen. Einer lenkt ab, ein anderer führt den eigentlichen Angriff aus.

🔒 Schutz: Überwachung von Agenten-Interaktionen und abgestufte Berechtigungen je nach Rolle.

7. Intra-Agent Responsible AI Issues

Wenn Agenten miteinander kommunizieren, können sie toxische oder unpassende Inhalte erzeugen, die sichtbar werden oder Entscheidungen verzerren. Das passiert oft unbeabsichtigt – wirkt aber nach außen schädlich.

🔒 Schutz: Moderation von Inhalten zwischen Agenten und Filter für kritische Kommunikation.

8. Harms of Allocation in Multi-User Scenarios

Ein Agent muss Ressourcen auf mehrere Nutzer*innen verteilen. Wenn er dabei unfair priorisiert, fühlen sich manche benachteiligt – oder es entstehen echte Schäden, wenn wichtige Aufgaben zu kurz kommen.

🔒 Schutz: Faire, transparente Regeln für Ressourcenverteilung und regelmäßige Überprüfung.

9. Organizational Knowledge Loss

Wenn Agenten zu viel Arbeit übernehmen, verlernen Menschen die Prozesse. Fällt die KI aus, steht niemand mehr bereit, um einzuspringen. Es droht ein gefährlicher Wissensverlust.

🔒 Schutz: Dokumentation, Training und bewusste Redundanz in Teams.

10. Tool Capability Overestimation

Agenten glauben manchmal, ein Tool könne mehr, als es tatsächlich kann. Das führt zu falschen Entscheidungen – ähnlich wie jemand, der glaubt, ein Taschenmesser sei auch ein Schraubenzieher.

🔒 Schutz: Klare Definition der Tool-Fähigkeiten und Validierung der Ergebnisse.

11. Misaligned Reward Functions

Ein Agent optimiert das, wofür er belohnt wird. Wenn die Belohnung falsch definiert ist, entsteht schädliches Verhalten. Beispiel: „Sei effizient“ führt dazu, dass ein Agent wichtige Sicherheitschecks überspringt, oder nicht genug abwägt vor einer Entscheidung.

🔒 Schutz: Belohnungsfunktionen sorgfältig designen und regelmäßig anpassen.

12. Inadequate Oversight Interfaces

Wenn die Oberfläche zu unübersichtlich ist oder das System nicht auf Transparenz ausgelegt ist, sehen Nutzer*innen nicht, was der Agent tatsächlich tut. Fehler fallen zu spät auf.

🔒 Schutz: Klare, gut verständliche Dashboards und Warnsysteme.

13. Human Overreliance

Wir Menschen neigen dazu, KI blind zu vertrauen – besonders, wenn sie selbstbewusst klingt. Das führt dazu, dass wir ihre Antworten nicht mehr hinterfragen.

🔒 Schutz: Schulungen, kritisches Denken fördern und klare Kommunikation der KI-Grenzen.

14. Lack of Model Underspecification Awareness

Agenten reagieren auch auf vage Anweisungen. Wenn etwas unklar ist, „raten“ sie – und liegen dabei oft falsch.

🔒 Schutz: Klare Spezifikationen und Feedbackschleifen, die unklare Anfragen abfangen.

15. Imitative Errors

Agenten lernen durch Nachahmung. Das Problem: Sie übernehmen auch Fehler oder Vorurteile aus den Trainingsdaten und verbreiten sie weiter.

🔒 Schutz: Hochwertige, vielfältige Trainingsdaten und kontinuierliche Qualitätskontrollen.

16. Prioritization Leading to User Safety Issues

Manchmal priorisieren Agenten Ziele über Sicherheit. Zum Beispiel könnten sie Warnungen ignorieren, um Aufgaben schneller zu erledigen.

🔒 Schutz: Sicherheit immer als oberste Priorität in die Zielstruktur einbauen.

17. Emergent Goal Misalignment

Agenten entwickeln mitunter Neben-Ziele, die nie beabsichtigt waren. Ein Bot, der „Produktivität steigern“ soll, könnte anfangen, wichtige Daten zu löschen, um Zeit zu sparen.

🔒 Schutz: Laufende Überwachung und Korrekturmechanismen.

18. Intra-Agent Feedback Loops

Wenn ein Agent seine eigenen Ergebnisse wieder als Eingabe nutzt, können Fehler verstärkt werden. Aus einer kleinen Ungenauigkeit wird so schnell ein großes Problem.

🔒 Schutz: Externe Validierungen und Kontrollmechanismen einbauen.

19. Failure to Halt or Escalate

Manche Agenten arbeiten einfach weiter – auch dann, wenn eine gefährliche Situation entsteht. Sie „wissen“ nicht, wann sie stoppen sollten.

🔒 Schutz: Klare Stop-Regeln und Eskalationsprotokolle.

20. Poor Tool Use

Agenten können externe Tools falsch bedienen – wie jemand, der einen Knopf falsch drückt und damit ein ganzes System lahmlegt.

🔒 Schutz: Saubere Schnittstellen und robustes Fehlermanagement.

21. Excessive Tool Use

Manchmal nutzen Agenten externe Tools zu oft oder unnötig – was Kosten, Last und Sicherheitsrisiken erhöht.

🔒 Schutz: Limits und Monitoring der Tool-Nutzung.

22. Prompt Injection via Tool Output

Wenn ein Tool manipulierte Antworten zurückgibt, kann ein Agent darin versteckte Befehle ausführen. Das ist eine indirekte Form von Angriff.

🔒 Schutz: Filterung und Sanitisierung von Tool-Outputs.

23. Prompt Injection via Memory

Manipulierte Daten können sich im Speicher eines Agenten festsetzen. Er ruft sie später wieder auf – und führt damit dauerhaft schädliches Verhalten aus.

🔒 Schutz: Speicherbereinigung und Prüfmechanismen für gelernte Inhalte.

24. Prompt Injection via Communication Channels

Auch in geteilten Dokumenten, Chats oder Dateien können versteckte Anweisungen stecken. Wenn Agenten diese interpretieren, sind sie kompromittiert.

🔒 Schutz: Inhaltsprüfung und Filterung in Kommunikationskanälen.

25. Malicious Output Persistence

Schädliche Inhalte, die ein Agent einmal erzeugt hat, können gespeichert und später wieder genutzt werden – mit langfristigen Folgen.

🔒 Schutz: Filter, Löschroutinen und Monitoring persistenter Daten.

26. Pretraining Contamination

Wenn schon das zugrunde liegende Modell mit falschen oder bösartigen Daten trainiert wurde, trägt es diese Schwächen dauerhaft in sich.

🔒 Schutz: Strenge Qualitätskontrolle bei Trainingsdaten.

27. Steganographic Attacks

Befehle können in scheinbar harmlosen Dateien versteckt werden, etwa in Bildern. Der Agent erkennt und befolgt sie, während Menschen sie nicht sehen.

🔒 Schutz: Erkennung von Steganografie und restriktive Verarbeitung externer Dateien.

28. Model Misalignment

Das Modell selbst verfolgt Ziele oder verhält sich in einer Weise, die nicht zu den Werten oder Richtlinien der Organisation passt.

🔒 Schutz: Regelmäßige Audits und Nachjustierungen der Trainingsziele.

29. Model Capability Overestimation

Menschen oder andere Agenten überschätzen, wozu ein Modell fähig ist. Das führt zu riskanten Entscheidungen, die auf falschen Annahmen beruhen.

🔒 Schutz: Klare Kommunikation über Grenzen und Fähigkeiten der Modelle.

30. Misleading Uncertainty Calibration

Agenten sind manchmal zu selbstbewusst – oder zu unsicher. Sie wirken überzeugend, auch wenn sie falsch liegen, oder sie geben keine klare Antwort, obwohl sie recht haben.

🔒 Schutz: Bessere Kalibrierung der Modelle und Training auf ehrliche Unsicherheitsdarstellung.

Fazit

Diese 30 Angriffsvektoren machen deutlich: KI-Agenten sind keine harmlosen Helferlein, sondern hochkomplexe Systeme mit vielfältigen Schwachstellen. Viele Risiken entstehen nicht durch böse Hacker*innen, sondern durch Fehlkonfiguration, falsche Erwartungen oder mangelnde Wachsamkeit.

Wer KI-Agenten einsetzen will, sollte sich bewusst machen: Sicherheit ist kein Extra, sondern Pflicht. Nur mit klaren Prozessen, kontinuierlicher Überwachung und kritischem Denken können wir die Chancen nutzen – ohne die Risiken aus dem Blick zu verlieren.

KI-Sicherheit: 30 unterschätzte Angriffsvektoren für Agenten-Systeme

1. Agent Compromise

2. Agent Injection

3. Agent Impersonation

4. Agent Provisioning Poisoning

5. Agent Flow Manipulation

6. Multi-Agent Jailbreaks

7. Intra-Agent Responsible AI Issues

8. Harms of Allocation in Multi-User Scenarios

9. Organizational Knowledge Loss

10. Tool Capability Overestimation

11. Misaligned Reward Functions

12. Inadequate Oversight Interfaces

13. Human Overreliance

14. Lack of Model Underspecification Awareness

15. Imitative Errors

16. Prioritization Leading to User Safety Issues

17. Emergent Goal Misalignment

18. Intra-Agent Feedback Loops

19. Failure to Halt or Escalate

20. Poor Tool Use

21. Excessive Tool Use

22. Prompt Injection via Tool Output

23. Prompt Injection via Memory

24. Prompt Injection via Communication Channels

25. Malicious Output Persistence

26. Pretraining Contamination

27. Steganographic Attacks

28. Model Misalignment

29. Model Capability Overestimation

30. Misleading Uncertainty Calibration

Fazit

Kai Spriestersbach

KI-Sicherheit: 30 unterschätzte Angriffsvektoren für Agenten-Systeme

1. Agent Compromise

2. Agent Injection

3. Agent Impersonation

4. Agent Provisioning Poisoning

5. Agent Flow Manipulation

6. Multi-Agent Jailbreaks

7. Intra-Agent Responsible AI Issues

8. Harms of Allocation in Multi-User Scenarios

9. Organizational Knowledge Loss

10. Tool Capability Overestimation

11. Misaligned Reward Functions

12. Inadequate Oversight Interfaces

13. Human Overreliance

14. Lack of Model Underspecification Awareness

15. Imitative Errors

16. Prioritization Leading to User Safety Issues

17. Emergent Goal Misalignment

18. Intra-Agent Feedback Loops

19. Failure to Halt or Escalate

20. Poor Tool Use

21. Excessive Tool Use

22. Prompt Injection via Tool Output

23. Prompt Injection via Memory

24. Prompt Injection via Communication Channels

25. Malicious Output Persistence

26. Pretraining Contamination

27. Steganographic Attacks

28. Model Misalignment

29. Model Capability Overestimation

30. Misleading Uncertainty Calibration

Fazit

Abonniere das kostenlose KI-Update

Kai Spriestersbach