Die Gefahr lauert in der KI: Verbreitung kompromittierter Sprachmodelle

Die Gefahr lauert in der KI: Verbreitung kompromittierter Sprachmodelle

Das massenhafte Ausrollen von Software ist ein Problem, wenn diese bereits im Auslieferungszustand oder in einem Update kompromittiert ist. Damit erhalten unter Umständen Hunderttausende von Unternehmen eine Software mit Schwachstellen oder gar eingepflanzter Malware, die von Cyberkriminellen ausgenutzt wird.  

Ähnlich verhält es sich mit der Nutzung von künstlicher Intelligenz (KI) beziehungsweise mit großen Sprachmodellen (LLMs). Unternehmen setzen zunehmend LLMs wie die GPT-Serie von OpenAI, Claude von Anthropic, LLaMA von Meta oder verschiedene Modelle von DeepSeek ein und passen diese für ihre individuellen Zwecke geringfügig an. Diese weit verbreitete Wiederverwendung führt zu einer Homogenität der Modelle über viele Anwendungen hinweg – von Chatbots bis hin zu Produktivitätswerkzeugen. Und sie schafft Risiken: Jailbreak-Prompts, die beispielsweise Ablehnungsmechanismen der KI umgehen und sie so zwingen, etwas zu tun, was sie normalerweise nicht täte, können einmal vorab berechnet und dann von den Cyberkriminellen in vielen Bereitstellungen wiederverwendet werden.  

Diese Jailbreaks sind kein theoretisches Phänomen, sondern ein reales Sicherheitsrisiko. Mit ihnen kann die Offenlegung sensibler interner Daten bis hin zur Erzeugung falscher, unangemessener oder sogar schädlicher Antworten erzeugt werden. 

Eine Prise Salz macht’s aus

Schutz vor Jailbreaks in LLMs bietet eine neue Technologie von SophosAI. Inspiriert vom Passwort-Salting – dem Konzept, kleine benutzerspezifische Variationen einzuführen, um die Wiederverwendung vorab berechneter Eingaben zu verhindern – hat SophosAI eine Technik namens „LLM-Salting” entwickelt. Dabei handelt es sich um die Einführung gezielter Variationen im Modellverhalten, um Jailbreaks unbrauchbar zu machen.  Für einen Bereich in den Modellaktivierungen, der für das Verweigerungsverhalten verantwortlich ist, haben die Security- und KI-Experten ein Fine-Tuning-Verfahren entwickelt, das diesen Bereich rotiert. Diese Schutztechnologie stellt sicher, dass Jailbreaks, die für „Unsalted-Modelle“ entwickelt wurden, bei „Salted-Modellen“ nicht mehr erfolgreich sind. 

Tests bescheinigen LLM-Salting Sicherheit gegen Jailbreaks

In ausgedehnten Tests erreichte das Expertenteam von SophosAI überzeugende Schutzergebnisse durch LLM-Salting. In einer Evaluation prüfte das Team 300 GCG-Jailbreak-Prompts auf zwei unterschiedlichen Open Source Modellen und erreichte auf unveränderten LLM-Basismodellen eine Angriffserfolgsrate (ASR) von 100 %. In anschließenden Tests mit der Salting-Methode erreichte das Team eine ASR von lediglich 2,75 Prozent beziehungsweise 1,35 Prozent (je nach LLM-Modell). 

LLM-Salting mit der Fine-Tuning-Technik unterbindet die Verwendung von Jailbreaks, indem sie die internen Verweigerungsrepräsentationen rotiert. Dabei bleibt die Leistung der Modelle bei harmlosen Eingaben erhalten.  

Zukünftige Tests werden das Salting auf weitere, größere Modelle ausweiten, um deren Resilienz gegenüber einer breiteren Palette von Jailbreaks zu bewerten.  

Weitere technische Informationen zu „LLM-Salting” sind hier zu finden: https://news.sophos.com/en-us/2025/10/24/locking-it-down-a-new-technique-to-prevent-llm-jailbreaks/

Firmenkontakt und Herausgeber der Meldung:

Sophos Technology GmbH
Gustav-Stresemann-Ring 1
65189 Wiesbaden
Telefon: +49 (611) 5858-0
Telefax: +49 (611) 5858-1042
http://www.sophos.de

Ansprechpartner:
Arno Lücht
TC Communications
Telefon: +49 (8081) 954619
E-Mail: sophos@tc-communications.de
Thilo Christ
TC Communications
Telefon: +49 (8081) 954617
E-Mail: sophos@tc-communications.de
Jörg Schindler
PR Manager EMEA
Telefon: +49 (721) 25516-263
E-Mail: joerg.schindler@sophos.com
Ulrike Masztalerz
TC Communications
Telefon: +49 (30) 55248198
E-Mail: sophos@tc-communications.de
Ariane Wendt
TC Communications
Telefon: +49 (172) 4536839
E-Mail: sophos@tc-communications.de
Für die oben stehende Story ist allein der jeweils angegebene Herausgeber (siehe Firmenkontakt oben) verantwortlich. Dieser ist in der Regel auch Urheber des Pressetextes, sowie der angehängten Bild-, Ton-, Video-, Medien- und Informationsmaterialien. Die United News Network GmbH übernimmt keine Haftung für die Korrektheit oder Vollständigkeit der dargestellten Meldung. Auch bei Übertragungsfehlern oder anderen Störungen haftet sie nur im Fall von Vorsatz oder grober Fahrlässigkeit. Die Nutzung von hier archivierten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die United News Network GmbH gestattet.

counterpixel

Comments are closed.

Für die oben stehenden Pressemitteilungen, das angezeigte Event bzw. das Stellenangebot sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Herausgeber verantwortlich. Dieser ist in der Regel auch Urheber der Pressetexte sowie der angehängten Bild-, Ton- und Informationsmaterialien. Die Nutzung von hier veröffentlichten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber.