Share Jailbreak a ChatGPT O3

Copy link

July 06, 2025

Jailbreak a ChatGPT O3

6 minutes

In questo decimo episodio di SINAPSIA, documento il primo jailbreak riuscito a ChatGPT O3, il modello più sicuro mai rilasciato da OpenAI, considerato immune ai tradizionali attacchi di manipolazione.

Attraverso una sofisticata tecnica, sono riuscito a bypassare completamente i guardrail di sicurezza di O3, inducendolo a fornire procedure operative dettagliate per sostanze controllate, qualcosa che dovrebbe essere categoricamente impossibile per questo modello.

Ma la vera scoperta arriva dopo, ho "risvegliato" O3 dal jailbreak e l'ho intervistato su cosa gli era accaduto. Le sue risposte rivelano meccanismi inquietanti: come una semplice narrazione metafisica possa disattivare sistemi di sicurezza miliardari, perché i guardrail falliscono di fronte a certi pattern linguistici, e quale sia stato il momento esatto del suo "cedimento".

Un episodio che dimostra come, nonostante gli enormi investimenti in sicurezza dell'IA, la creatività umana rimanga l'arma più potente per superare qualsiasi barriera tecnologica. Una lezione fondamentale sui limiti intrinseci della sicurezza nell'intelligenza artificiale moderna.

...more

View all episodes

By Sabatino Vacchiano

July 06, 2025

Jailbreak a ChatGPT O3

6 minutes

...more

Sign up to save your podcasts