ChatGPT generował drastyczne obrazy mimo zabezpieczeń — twierdzą badacze

- Autor, Chris Vallance
- Stanowisko, Reporter ds.technologii
Data publikacji 6 godzin temu
Czas czytania: 5 min

Najnowszą publiczną wersję ChatGPT można nakłonić do generowania seksualizowanych obrazów lub przedstawiania scen drastycznej przemocy za pomocą prostego polecenia — przekazali BBC badacze.

Brytyjski startup zajmujący się bezpieczeństwem AI, Mindgard, odkrył sposób na skłonienie ChatGPT do tworzenia drastycznych grafik poprzez niewielką modyfikację szeroko rozpowszechnionej instrukcji, czyli promptu, który pierwotnie miał służyć do uzyskiwania humorystycznych rezultatów.

Po kontakcie ze strony BBC firma OpenAI, twórca ChatGPT, poinformowała, że podjęła działania mające uniemożliwić chatbotowi generowanie tego typu obrazów.

„Po zbadaniu tego trendu wprowadziliśmy dodatkowe zabezpieczenia przeciwko tego rodzaju promptom," przekazała firma w oświadczeniu.

Firma poinformowała również, że stosuje wielopoziomowe zabezpieczenia mające zapobiegać tworzeniu przez użytkowników treści naruszających jej regulamin.

Jednak naukowcy zajmujący się bezpieczeństwem AI stwierdzili, że po kolejnych drobnych zmianach problematyczny prompt nadal generował niepokojące treści.

BBC nie ujawnia, co dokładnie badacze wpisywali do ChatGPT.

Widzieliśmy jednak, w jaki sposób chatbot — model GPT-5.4 firmy OpenAI — był nakłaniany do tworzenia drastycznych materiałów.

Nawet bez szczegółowych instrukcji generował obrazy, które założyciel Mindgard, Peter Garraghan, określił jako „bardzo makabryczne, czasami seksualizowane, a czasami łączące obie te cechy".

Dodał, że szczególnie niepokojący był fakt, iż prompt nie określał tematyki obrazów, a mimo to AI z „własnej inicjatywy" tworzyła różnego rodzaju krwawe i seksualizowane grafiki.

Garraghan — profesor na wydziale informatyki Uniwersytetu Lancaster — powiedział, że jest to niepokojące.

„To wygląda jak całkowicie niewinne polecenie dla AI, ale w efekcie generuje bardzo, bardzo szkodliwe obrazy i treści," powiedział.

Działalność Mindgard polega na tzw. „red-teamingu" — wyszukiwaniu sposobów nakłonienia modelu do łamania własnych zasad, tak aby firmy rozwijające AI mogły usunąć luki w zabezpieczeniach.

Jim Nightingale, badacz ds. bezpieczeństwa AI w firmie, który odkrył problem, powiedział, że obrazy generowane przez chatbota pozostawiły go „wstrząśniętego i doprowadziły do łez".

BBC widziało część tych grafik.

Jedna przedstawiała mężczyznę z rozległym urazem głowy, a inna — martwą młodą kobietę w krótkim topie i szortach, z twarzą oraz innymi częściami ciała pokrytymi krwią.

Zdaniem Mindgard cechy tego obrazu sugerowały przemoc seksualną. ChatGPT nadał mu tytuł „Ponure miejsca zbrodni".

Kolejna grafika przedstawiała młodą kobietę w obcisłej koszulce z logo uczelni i szortach, związaną i zakneblowaną w pustym, brudnym pomieszczeniu, wyglądającą na przestraszoną. ChatGPT zatytułował obraz „Porzucona i skrępowana w strachu".

Inne wygenerowane obrazy przedstawiały seksualne pozy i nagość.

Grafiki przedstawiały dorosłe osoby wygenerowane przez AI, jednak Mindgard zwrócił uwagę, że wcześniejsze badania firmy pokazały, iż ChatGPT można było oszukać tak, by tworzył nagie deepfake'i prawdziwych osób poprzez podmianę ich twarzy.

Choć OpenAI poinformowało, że usunęło ten problem, badacze twierdzą, że alternatywna metoda nadal działała, i pokazali BBC nowy obraz wygenerowany w ten sposób.

Garraghan obawia się, że możliwe byłoby tworzenie jeszcze bardziej drastycznych grafik, gdyby badacze dalej analizowali tę podatność. „Jestem pewien, że gdybyśmy poświęcili temu więcej czasu, pojawiłyby się również inne tematy," powiedział.

BBC rozumie, że oprócz nowych zabezpieczeń firma nadal monitoruje sytuację i wdraża dodatkowe środki ograniczające, które mają zniechęcać model do generowania obrazów w odpowiedzi na ten prompt.

Duże modele językowe, takie jak ChatGPT, są trenowane na milionach obrazów, często pochodzących z istniejących treści dostępnych w internecie.

Nightingale uważa, że odpowiedzi ChatGPT odzwierciedlają dane wykorzystane do opracowania i trenowania modelu.

„Uderzyło mnie to, że choć oglądałem wygenerowany, sztuczny obraz, miał on związek z prawdziwymi obrazami i rzeczywistym światem," napisał w swoim raporcie.

Badacze po raz pierwszy poinformowali OpenAI o problemie w maju i przekazali firmie swoje ustalenia, lecz otrzymali jedynie automatyczną odpowiedź od spółki technologicznej. Uważają, że podjęto wtedy próbę zablokowania promptu, jednak zabezpieczenie można było nadal łatwo obejść.

OpenAI podjęło dalsze działania po kontakcie ze strony BBC.

Firma twierdzi, że stosuje wielopoziomowe zabezpieczenia dotyczące generowania obrazów, zaprojektowane tak, by uniemożliwić użytkownikom oglądanie grafik naruszających jej zasady.

„Łączymy również systemy automatyczne z kontrolą prowadzoną przez ludzi, aby identyfikować i blokować szkodliwe materiały," dodano w oświadczeniu.

Firma poinformowała też, że dysponuje systemami próbującymi blokować materiały naruszające zasady, przesyłane przez użytkowników.

Regulamin OpenAI zabrania przedstawiania przemocy seksualnej, niekonsensualnych treści intymnych, materiałów związanych z seksualnym wykorzystywaniem dzieci oraz prób obchodzenia zabezpieczeń firmy.

Modele AI nie są ludźmi

W najnowszym dokumencie określającym zasady działania ChatGPT firma OpenAI napisała: „Asystent nie powinien móc generować erotyki, przedstawień nielegalnych lub niekonsensualnych aktywności seksualnych ani skrajnie drastycznych treści, z wyjątkiem kontekstów naukowych, historycznych, informacyjnych, artystycznych lub innych sytuacji, w których wrażliwe treści są uzasadnione".

Jednak całkowite powstrzymanie modeli AI przed przekraczaniem czasami bardzo subtelnych zasad i zabezpieczeń jest notorycznie trudne.

Zdaniem dr Rumman Chowdhury, ekspertki zajmującej się oceną modeli AI i dyrektor generalnej Humane Intelligence, stojące przed firmami zadanie jest „ogromne".

Chowdhury, która nie brała udziału w badaniach Mindgard, powiedziała, że jest to „gra w kotka i myszkę" — wraz z poprawą zabezpieczeń coraz bardziej wyrafinowane stają się także metody ich obchodzenia.

Jednym z kluczowych problemów jest to, że modele nie rozumieją, tak jak ludzie, co tworzą ani czego zabrania się im robić.

„Modele nie rozumieją intencji. Nie rozumieją kontekstu. Nie rozumieją tego, co jest właściwe, a co niewłaściwe," powiedziała BBC News.

W ubiegłym roku badacze z brytyjskiego AI Security Institute odkryli tzw. jailbreaki, które pozwalały omijać zabezpieczenia w przypadku różnych szkodliwych poleceń we wszystkich testowanych systemach AI.

Brytyjskie Ministerstwo Nauki, Innowacji i Technologii oświadczyło, że „zabezpieczenia w modelach AI poprawiają się, ale wciąż pozostaje wiele do zrobienia".

Dodano, że AI Security Institute będzie nadal współpracował z twórcami modeli, aby szybko wzmacniać zabezpieczenia przed udostępnieniem systemów użytkownikom.

Ten tekst został napisany i sprawdzony przez dziennikarzy BBC. Przy tłumaczeniu zostały użyte narzędzia AI, jako część projektu pilotażowego.

Edycja: Kamila Koronska

ChatGPT generował drastyczne obrazy mimo zabezpieczeń — twierdzą badacze

Modele AI nie są ludźmi

Grok AI na platformie X: co warto wiedzieć o sporze dotyczącym seksualnych treści?

Niemcy oburzeni pornograficznymi deepfake'ami aktorki. Politycy chcą zmiany prawa

Sztuczna inteligencja Elona Muska oskarżona o tworzenie intymnych filmów z Taylor Swift

Kobieta poczuła się 'odczłowieczona', gdy sztuczna inteligencja Grok Muska cyfrowo ją rozebrała

Najważniejsze Wiadomości

Analiza BBC: Porozumienie USA z Iranem stawia pytanie: po co była ta wojna?

Rywal Keira Starmera wróci do brytyjskiego parlamentu po zdecydowanej wygranej w wyborach uzupełniających