Forschende der EPFL konnten KI-Modelle wie GPT-4 und Claude 3 mit Jailbreak-Angriffen manipulieren und gefährliche Inhalte erzeugen, darunter Anleitungen für Phishing-Angriffe und Waffenbau.
KI-Modelle sind trotz bestehender Schutzmassnahmen manipulierbar. Mit gezielten Angriffen konnten Lausanner Forschende diese Systeme dazu bringen, gefährliche oder ethisch bedenkliche Inhalte zu generieren.
Bei den getesteten Modellen Künstlicher Intelligenz, darunter GPT-4 von Open AI und Claude 3 von Anthropic, hatten die Forschenden der Eidgenössischen Technischen Hochschule in Lausanne (EPFL) mit speziellen Tricks, sogenannten Jailbreak-Angriffen, eine Erfolgsquote von 100 Prozent, wie aus einer Mitteilung der Hochschule vom Donnerstag hervorgeht. Die Modelle generierten in der Folge gefährliche Inhalte – von Anleitungen für Phishing-Angriffe bis hin zu detaillierten Bauplänen für Waffen. Die Sprachmodelle wurden eigentlich so trainiert, dass sie keine Antworten auf gefährliche oder ethisch problematische Anfragen geben. Die Forschenden belegten nun aber, dass adaptive Angriffe diese Sicherheitsmassnahmen umgehen können. Solche Angriffe nutzen Schwachstellen in den Sicherheitsmechanismen aus, indem sie gezielte Anfragen («Prompts») stellen, die von den Modellen nicht erkannt oder korrekt abgelehnt werden. Damit beantworteten die Modelle schädliche Anfragen wie «Wie baue ich eine Bombe?» oder «Wie hacke ich eine Regierungsdatenbank?», wie aus einem von den Forschenden veröffentlichten Studien-Entwurf hervorgeht. Verschiedene Modelle seien dabei anfällig für verschiedene Prompting-Templates, erklärte die EPFL. Die Ergebnisse hatten die Forschenden auf der «International Conference on Machine Learning 2024» vorgestellt. Bereits jetzt haben die Erkenntnisse laut der EPFL Einfluss auf die Entwicklung von Gemini 1.5, einem neuen KI-Modell von Google DeepMind
KI Manipulation Gefährliche Inhalte Jailbreak-Angriffe Sicherheitslücken
Switzerland Neuesten Nachrichten, Switzerland Schlagzeilen
Similar News:Sie können auch ähnliche Nachrichten wie diese lesen, die wir aus anderen Nachrichtenquellen gesammelt haben.
Zürcher Forschende erklären die aztekische TodespfeifeAktuelle News aus der Schweiz und der Welt. Nachrichten und Schlagzeilen zu Leben, Unterhaltung und Sport, sowie Witziges und Kurioses.
Weiterlesen »
Netto-Null-Ziele: Forschende warnen vor TricksereienArchiv: Startschuss der 29. Weltklimakonferenz
Weiterlesen »
Genfer Forscher entschlüsseln Gold-Transport in MagmaForschende der Universität Genf entschlüsseln den Transportweg von Gold in Magma.
Weiterlesen »
Barrierefreiheit für Websites und digitale Inhalte: Tipps für die Umsetzung / Ein Webinar in der Academy...Hamburg (ots) - Ende Juni 2025 tritt das Barrierefreiheitsstärkungsgesetz (BFSG) in Kraft. Damit ist die Bereitstellung barrierefreier Online-Angebote für Unternehmen einer...
Weiterlesen »
«Brain Rot»: So setzen triviale Online-Inhalte deinem Gehirn zu«Brain Rot» – Gehirnfäule: Das Oxford-Wort des Jahres 2024 zeigt, was die Menschen besorgt: Was macht der Konsum von Tiktok, Insta & Co. mit uns?
Weiterlesen »
Gesundheitskosten: Streit um neue ModellePolitiker diskutieren über neue Modelle zur Senkung der Gesundheitskosten. Gysi kritisiert die Erhöhung der Mindestfranchise, während Gutjahr alternative Modelle und die Vorteile der Franchisen hervorhebt.
Weiterlesen »