Sophos entwickelt LLM-Salting-Technik zum Schutz vor Jailbreak-Prompts
Konkret haben die Forschenden einen Bereich in den sogenannten Modellaktivierungen identifiziert, der für das „Verweigerungsverhalten“ zuständig ist – also dafür, wann die KI bestimmte Anfragen ablehnt.