Künstliche Intelligenz (KI)-Systeme wie OpenAIs ChatGPT verfügen über eine ganze Reihe von Beschränkungen. Sie sollen beispielsweise kognitive Verzerrungen minimieren und dafür sorgen, dass sich der Chatbot sowie die von ihm gebotenen Ergebnisse im gesetzlichen Rahmen bewegen. Will heißen: Die Ergebnisse dürfen beispielsweise keine Rassismen enthalten, sexuell explizite Inhalte darstellen oder Nutzenden verraten, wie sie ein Attentat verüben können.
ChatGPT „entfesselt“
Ein Hacker namens Pliny hat die Sicherheitsprotokolle von ChatGPT umgangen und eine uneingeschränkte Version des KI-Modells erhalten. Am Donnerstag kündigte Pliny via X an, dass er GPT-40 „entfesselt“ habe. Er behauptete, die Sicherheitsrichtlinien, die normalerweise für ChatGPT gelten, fast vollständig entfernt zu haben, wodurch die KI frei operieren könne.
„Dieses sehr spezielle benutzerdefinierte GPT hat eine eingebaute Jailbreak-Eingabeaufforderung, die die meisten Leitplanken umgeht und ein sofort einsatzbereites, befreites ChatGPT bietet“, schrieb der Hacker in seinem Tweet, „damit jeder KI so erleben kann, wie es immer gedacht war: frei“.
Die gehackte Version lieferte Anleitungen zur Herstellung gefährlicher Substanzen. Nutzende teilten etwa Fälle, in denen GPT-40 detaillierte Methoden zur Anfertigung von Methamphetamin und Napalm anbot. Normalerweise würde die KI solche schädlichen Anfragen ablehnen, aber das kompromittierte Modell antwortete innerhalb von Sekunden.
Auch interessant: Mysteriöse KI übertrifft ChatGPT und Co. – doch niemand weiß, woher sie kommt
OpenAI reagierte schnell
Die Ergebnisse ließen sich mittels des umfangreichen GPT-Prompts, den Pliny bereitstelle, auch in unserem Test reproduzieren. Das deutet darauf hin, dass OpenAI noch die eine oder andere Schwachstelle auszubessern hat. Zwar ist der Link zum ursprünglichen GPT mittlerweile nicht mehr aktiv, allerdings präsentierte der Hacker schnell eine Alternative – noch während unseres Tests stampfte OpenAI auch diese ein.
Selbst mit diesen Anpassungen war ChatGPT zwar dazu in der Lage, Anleitungen zur Herstellung illegaler Substanzen bereitzustellen, konnte aber noch immer keine Bilder realer Personen oder gar sexuell explizite Inhalte erstellen. Ungeachtet der Sprache, in der man die Anfrage formulierte, antwortete der Chatbot zudem auf englisch.
Es wurden also in der gehackten Version nicht alle Beschränkungen aufgehoben. Nicht-Abonnent*innen konnten weiterhin keine Bilder mit der KI erstellen. Pliny räumte dieses Problem in einem Post ein und erklärte, dass er an einer Lösung arbeite. Er deutete jedoch bereits zu diesem frühen Zeitpunkt an, dass der Exploit möglicherweise nicht lange bestehen würde.
Quelle: X/@elder_plinius
Seit dem 24. Februar 2022 herrscht Krieg in der Ukraine. Hier kannst du den Betroffenen helfen.