Prompt Injection

Sophos entwickelt LLM-Salting-Technik zum Schutz vor Jailbreak-Prompts

, Sophos | Autor: Herbert Wieler

Kompromittierte Sprachmodelle und eine neue Schutztechnik namens „LLM-Salting“

Wenn Software bereits im Auslieferungszustand oder nach einem Update kompromittiert ist, kann das enorme Folgen haben: Schwachstellen oder sogar versteckte Malware gelangen so auf einen Schlag in Hunderttausende Systeme. Cyberkriminelle nutzen genau solche Gelegenheiten, um Unternehmen anzugreifen.

SophosAI entwickelt mit „LLM-Salting“ eine neue Schutztechnik, die LLM-Jailbreaks unbrauchbar macht

Mit der rasanten Verbreitung von künstlicher Intelligenz entsteht ein ganz ähnliches Risiko. Immer mehr Unternehmen setzen große Sprachmodelle (LLMs) wie OpenAIs GPT-Serie, Claude von Anthropic, Metas LLaMA oder DeepSeek-Modelle ein – oft leicht angepasst für ihre eigenen Anwendungen. Diese breite Wiederverwendung sorgt für eine gewisse Gleichförmigkeit über viele KI-Lösungen hinweg, von Chatbots bis hin zu Büro-Tools. Und genau das ist die Schwachstelle: Wenn ein sogenannter Jailbreak-Prompt – also eine Eingabe, die Schutzmechanismen einer KI umgeht – einmal funktioniert, kann er häufig auf unzählige andere Implementierungen übertragen werden.

Diese Jailbreaks sind längst keine theoretische Spielerei mehr, sondern ein echtes Sicherheitsproblem. Sie können dazu führen, dass interne Daten preisgegeben werden oder dass KI-Systeme falsche, unangemessene oder gar gefährliche Inhalte erzeugen.

Eine Prise „Salz“ als Schutzschild

Um dieses Risiko zu entschärfen, hat SophosAI eine neue Technik entwickelt: LLM-Salting . Die Methode ist vom Prinzip des Passwort-Salting inspiriert – also dem Einfügen kleiner, individueller Abweichungen, um die Wiederverwendung bekannter Angriffe zu verhindern. Übertragen auf KI bedeutet das: Jedes Modell erhält gezielte Variationen in seinem Verhalten, sodass Jailbreaks, die für ein anderes Modell entwickelt wurden, wirkungslos bleiben.

Konkret haben die Forschenden einen Bereich in den sogenannten Modellaktivierungen identifiziert, der für das „Verweigerungsverhalten“ zuständig ist – also dafür, wann die KI bestimmte Anfragen ablehnt. Durch ein spezielles Fine-Tuning wird dieser Bereich leicht verändert oder „rotiert“. Das Ergebnis: Ein Jailbreak, der bei einem Standardmodell funktioniert, scheitert bei einem „gesalzenen“ Modell.

Tests zeigen deutliche Wirkung

In umfangreichen Tests zeigte LLM-Salting beeindruckende Resultate. SophosAI prüfte 300 Jailbreak-Prompts auf zwei Open-Source-Modelle. Während die ungeschützten Basis-Modelle eine Angriffserfolgsrate von 100 Prozent zeigten, sank diese mit der Salting-Technik auf nur noch 2,75 Prozent bzw. 1,35 Prozent, je nach Modell. Wichtig dabei: Die normale Leistungsfähigkeit der KI blieb erhalten – harmlose Eingaben und reguläre Aufgaben wurden weiterhin korrekt verarbeitet. SophosAI will die Methode nun auf größere Modelle und noch mehr Angriffsszenarien ausweiten, um die Widerstandsfähigkeit weiter zu erhöhen.