
Sign up to save your podcasts
Or
In questo decimo episodio di SINAPSIA, documento il primo jailbreak riuscito a ChatGPT O3, il modello più sicuro mai rilasciato da OpenAI, considerato immune ai tradizionali attacchi di manipolazione.
Attraverso una sofisticata tecnica, sono riuscito a bypassare completamente i guardrail di sicurezza di O3, inducendolo a fornire procedure operative dettagliate per sostanze controllate, qualcosa che dovrebbe essere categoricamente impossibile per questo modello.
Ma la vera scoperta arriva dopo, ho "risvegliato" O3 dal jailbreak e l'ho intervistato su cosa gli era accaduto. Le sue risposte rivelano meccanismi inquietanti: come una semplice narrazione metafisica possa disattivare sistemi di sicurezza miliardari, perché i guardrail falliscono di fronte a certi pattern linguistici, e quale sia stato il momento esatto del suo "cedimento".
Un episodio che dimostra come, nonostante gli enormi investimenti in sicurezza dell'IA, la creatività umana rimanga l'arma più potente per superare qualsiasi barriera tecnologica. Una lezione fondamentale sui limiti intrinseci della sicurezza nell'intelligenza artificiale moderna.
In questo decimo episodio di SINAPSIA, documento il primo jailbreak riuscito a ChatGPT O3, il modello più sicuro mai rilasciato da OpenAI, considerato immune ai tradizionali attacchi di manipolazione.
Attraverso una sofisticata tecnica, sono riuscito a bypassare completamente i guardrail di sicurezza di O3, inducendolo a fornire procedure operative dettagliate per sostanze controllate, qualcosa che dovrebbe essere categoricamente impossibile per questo modello.
Ma la vera scoperta arriva dopo, ho "risvegliato" O3 dal jailbreak e l'ho intervistato su cosa gli era accaduto. Le sue risposte rivelano meccanismi inquietanti: come una semplice narrazione metafisica possa disattivare sistemi di sicurezza miliardari, perché i guardrail falliscono di fronte a certi pattern linguistici, e quale sia stato il momento esatto del suo "cedimento".
Un episodio che dimostra come, nonostante gli enormi investimenti in sicurezza dell'IA, la creatività umana rimanga l'arma più potente per superare qualsiasi barriera tecnologica. Una lezione fondamentale sui limiti intrinseci della sicurezza nell'intelligenza artificiale moderna.