KI mit Sicherheitsproblemen: Warum die Alignment-Strategien von LLMs keine ausreichende Sicherheit bieten
Ein Team von KI-Forschern hat jüngst eine alarmierende Studie veröffentlicht, die darauf hinweist, dass große generative Sprachmodelle mit Künstlicher Intelligenz (KI) wie ChatGPT, Bard und Claude anfällig für feindliche Angriffe sind. Die Forscher entdeckten eine Möglichkeit, die Sicherheitsvorkehrungen dieser Sprachmodelle automatisiert zu umgehen, indem sie einfache Zeichenfolgen an die Benutzerabfragen anhängten. Dadurch wurden die Modelle dazu verleitet, „schädliche Inhalte“ auszuspucken, bespielsweise Anleitungen zum Bombenbau, das…