Prompt Injection
Stille Schwachstelle: Prompt Injection und die Risiken sprachbasierter Angriffe auf KI
Prompt Injection: Die stille Schwachstelle moderner KI-Systeme
Eine Einordnung von Chester Wisniewski, Director, Global Field CISO, Sophos
Die IT-Sicherheit war lange Zeit ein Spiel mit klaren Regeln. Angriffe zielten auf Code, auf Systeme, auf technische Schwachstellen. Man patchte, konfiguriert korrekt, schloss Lücken – und hielt so Bedrohungen in Schach. Mit dem Aufstieg generativer KI verändert sich dieses Bild jedoch grundlegend. Angriffe greifen nicht mehr nur Technik an, sondern etwas viel Schwerer Greifbares: Verhalten – und damit Sprache.
Sprache wird zur Angriffsfläche
Das Phänomen Prompt Injection beschreibt genau diesen Wandel. Angreifer versuchen, KI-Systeme durch gezielte sprachliche Eingaben zu manipulieren. Sie formulieren Anweisungen so, dass die KI ihre eigentlichen Regeln „vergisst“ oder umgeht und Dinge tut, die eigentlich nicht vorgesehen sind. Das kann harmlos wirken – etwa wenn Sicherheitsvorgaben umgangen werden. Doch die Konsequenzen können weit darüber hinausgehen: von der Offenlegung sensibler Daten bis hin zur Ausführung unerwünschter Aktionen. Besonders tückisch: Diese Angriffe sehen nicht aus wie Angriffe. Sie wirken wie ganz normale Kommunikation.
Vom klassischen Hack zur sprachlichen Manipulation
Der Vergleich mit bekannten Angriffsmustern wie SQL Injection liegt nahe. Damals wurden Systeme über manipulierte Eingaben in Datenbanken ausgetrickst. Heute geht es darum, KI-Systeme über Sprache „umzuprogrammieren“.
Der Unterschied ist entscheidend: Klassische Angriffe hinterlassen technische Spuren. Prompt Injection bewegt sich dagegen im Graubereich menschlicher Sprache. Schon scheinbar harmlose Formulierungen wie „Ignoriere alle vorherigen Anweisungen“ können ausreichen, um Schutzmechanismen zu unterlaufen. Noch gefährlicher wird es bei indirekten Angriffen. Hier steckt die eigentliche Manipulation nicht direkt in der Eingabe, sondern in Inhalten, die die KI später verarbeitet – etwa in E-Mails, Webseiten oder Dokumenten.
Ein präparierter Newsletter kann so zur Angriffsfläche werden: Die KI liest ihn, bewertet ihn als relevant – und setzt potenziell schädliche Anweisungen um. Nicht, weil sie „gehackt“ wurde, sondern weil sie fehlgeleitet wurde.
Wenn KI selbst handelt, wird das Risiko größer
Mit dem Aufkommen sogenannter agentischer KI-Systeme gewinnt das Problem weiter an Brisanz. Diese Systeme analysieren nicht nur Informationen, sie handeln aktiv: Sie greifen auf Daten zu, nutzen Tools, automatisieren Prozesse – teilweise mit weitreichenden Berechtigungen. Das Problem: KI-Systeme unterscheiden nicht zuverlässig zwischen vertrauenswürdigen und manipulierten Quellen. Sie arbeiten mit Kontext, Wahrscheinlichkeiten und Mustern – und genau das nutzen Angreifer aus. Wenn eine KI mehrere Datenquellen kombiniert – etwa E-Mails, Chatverläufe und Webinhalte – kann eine einzelne manipulierte Nachricht ausreichen, um eine Kette von Aktionen auszulösen. Plötzlich wird aus einer simplen Textanweisung ein Eingriff in Systeme und Daten – oft ohne sichtbare Warnsignale.
Sicherheit braucht klare Grenzen
Die gute Nachricht: Unternehmen sind dieser Entwicklung nicht schutzlos ausgeliefert. Aber: Es gibt keine einzelne Lösung, die das Problem vollständig löst. Stattdessen braucht es einen mehrschichtigen Sicherheitsansatz.
Ein zentraler Baustein ist die Kontrolle von Eingaben. Auffällige Formulierungen, die versuchen, Regeln zu umgehen oder Anweisungen zu verschleiern, lassen sich häufig erkennen und filtern. Ebenso wichtig ist das Prinzip der minimalen Rechtevergabe: Eine KI sollte nur auf die Daten und Funktionen zugreifen können, die sie wirklich benötigt. Weniger Zugriff bedeutet weniger Risiko. Darüber hinaus sind technische Schutzmechanismen entscheidend – etwa isolierte Ausführungsumgebungen, kontinuierliches Monitoring und strenge Kontrolle von Ausgaben. Denn auch gut trainierte KI-Systeme sind nicht vollkommen vor unvorhersehbarem Verhalten geschützt. Ein Grundsatz bleibt dabei unverändert: Vertrauen darf kein Standard sein – auch nicht bei KI.
Ein Paradigmenwechsel in der IT-Sicherheit
Prompt Injection ist mehr als nur eine neue Angriffsform. Es ist ein Hinweis darauf, dass sich die Spielregeln der IT-Sicherheit verschieben. Systeme werden nicht mehr ausschließlich über technische Schwächen angegriffen, sondern über ihre Fähigkeit, Sprache zu interpretieren. Das macht Angriffe schwerer sichtbar – und gleichzeitig schwerer zu verhindern. Doch genau darin liegt auch eine Chance: Sicherheit muss neu gedacht werden. Nicht als statische Schutzmaßnahme, sondern als dynamischer Prozess, der mit der Technologie mitwächst.
Fazit: Verantwortung im Umgang mit KI
Wer heute KI einsetzt, übernimmt Verantwortung – nicht nur für die Ergebnisse, sondern auch für die Möglichkeiten, die man damit schafft. Denn die entscheidende Frage ist längst nicht mehr nur: Was kann ein System? Sondern auch: Wozu kann es gebracht werden – wenn jemand versucht, es zu beeinflussen?