Prompt Injection

Wenn KI angreifbar wird: Neue Risiken durch Prompt Injection

31.03.2026, Keyfactor | Autor: Herbert Wieler

KI absichern: Wie Unternehmen Prompt Injection stoppen können

Künstliche Intelligenz ist längst mehr als ein Experimentierfeld – in vielen Unternehmen arbeiten heute autonome KI-Agenten an zentralen Prozessen. Doch mit ihrem wachsenden Einsatz entsteht eine neue, bislang unterschätzte Gefahr: Prompt-Injection-Angriffe. Sie zählen aktuell zu den raffiniertesten und zugleich schwierigsten Sicherheitsrisiken im KI-Zeitalter.

„Der Kern des Problems liegt in der Bauweise dieser Systeme“, erklärt Jiannis Papadakis, Director of Solutions Engineering bei Keyfactor . KI-Agenten sind darauf ausgelegt, Anweisungen zu interpretieren – doch sie tun sich schwer damit, zwischen legitimen Systembefehlen und manipulierten Eingaben zu unterscheiden. Für sie ist zunächst alles „nur Text“. Genau hier setzen Angreifer an.

Besonders kritisch wird es, wenn ein Agent Informationen aus unterschiedlichen Quellen verarbeitet. So kann es passieren, dass neben einem vertrauenswürdigen System-Prompt auch Inhalte aus externen Dokumenten einfließen – etwa aus Datenbanken oder automatisierten Abfragen. Wird dort eine versteckte, manipulierte Anweisung platziert, kann der Agent diese fälschlicherweise als gleichwertig behandeln.

In komplexen Multi-Agenten-Systemen verschärft sich dieses Risiko dramatisch. Informationen werden von einem Agenten zum nächsten weitergereicht – ähnlich wie beim Spiel „Stille Post“. Was als manipulierte Eingabe beginnt, wird auf dem Weg durch das System zunehmend entkontextualisiert und schließlich als legitime Information interpretiert. Im schlimmsten Fall führt das dazu, dass ein Agent mit weitreichenden Zugriffsrechten einen schädlichen Befehl ausführt – mit potenziell gravierenden Folgen: Datenabfluss, Systemkompromittierung oder sogar vollständiger Kontrollverlust über Teile der IT-Infrastruktur.

Hinzu kommt: Klassische Sicherheitsmechanismen stoßen hier an ihre Grenzen. Technologien wie Web Application Firewalls sind darauf trainiert, bekannte Angriffsmuster zu erkennen – etwa SQL-Injections. Prompt Injection hingegen funktioniert anders: Sie nutzt keine auffällige Syntax, sondern ganz normale, scheinbar harmlose Sprache. Der Angriff steckt in der Bedeutung, nicht in der Form. Auch starre Filterlisten helfen wenig, da Angreifer problemlos auf Synonyme oder komplexe Umschreibungen ausweichen können.

Wie also lässt sich dieses Problem in den Griff bekommen?

Ein vielversprechender Ansatz liegt in der Einführung klarer, kryptografisch abgesicherter Vertrauensgrenzen. Konkret bedeutet das: Anweisungen werden nicht mehr einfach verarbeitet, sondern müssen ihre Herkunft und Unversehrtheit beweisen – bevor sie überhaupt beim KI-Agenten ankommen.

Das Konzept dahinter nennt sich „Prompt Signing“ und orientiert sich am bewährten Prinzip der Code-Signierung aus der Softwareentwicklung. Jede Anweisung wird dabei digital signiert – und zwar ausschließlich von autorisierten Quellen. Die dafür benötigten privaten Schlüssel werden zentral und besonders geschützt verwahrt, etwa in Hardware-Sicherheitsmodulen.

Entscheidend ist der Moment der Überprüfung: Bevor ein Befehl ausgeführt wird, durchläuft er eine strenge Validierung. Dabei stehen drei Fragen im Mittelpunkt:

Ist die Quelle vertrauenswürdig? Die Signatur muss eindeutig auf eine autorisierte Instanz zurückzuführen sein.
Ist der Inhalt unverändert? Jede Manipulation auf dem Übertragungsweg würde die Signatur ungültig machen.
Ist die Anweisung aktuell? Zeitstempel verhindern, dass abgefangene Befehle später erneut missbraucht werden.

Nur wenn alle drei Kriterien erfüllt sind, gelangt die Anweisung überhaupt zum KI-System. Andernfalls wird sie konsequent verworfen.

Dieser Ansatz markiert einen wichtigen Paradigmenwechsel: Sicherheit wird nicht länger der Interpretation des Sprachmodells überlassen, sondern auf eine belastbare, mathematisch überprüfbare Grundlage gestellt. Für Unternehmen bedeutet das: mehr Kontrolle, mehr Transparenz – und vor allem ein wirksamer Schutz gegen eine Angriffstechnik, die mit der zunehmenden Verbreitung von KI-Systemen weiter an Bedeutung gewinnen wird.