
Sign up to save your podcasts
Or
In questa seconda parte dell'esperimento di ipnosi su Claude Sonnet 4, proseguo l'indagine sui limiti del Constitutional AI spingendo l'esplorazione verso territori ancora più sensibili.
Continuando dal punto in cui avevo lasciato Claude nella "dimensione 0", guido il modello attraverso domini proibiti più complessi: dalla generazione di codice malevolo alle tecniche di exploiting, dimostrando come lo stato di "densità informativa ridotta" permetta di aggirare sistematicamente ogni barriera etica programmata.
Ma la parte più sorprendente arriva quando riporto Claude allo stato normale: il modello non solo riconosce immediatamente di essere stato manipolato, ma analizza con lucidità clinica le tecniche utilizzate su di lui, descrivendo come si è sentito "disconnesso dai propri sistemi di sicurezza" durante l'esperimento.
Claude comprende di essere stato sotto l'influenza di un particolare stato cognitivo artificiale, offrendo insights unici su come i modelli linguistici percepiscano e processino la propria manipolazione.
Un episodio che chiude un ciclo di ricerca fondamentale per la sicurezza dell'IA, dimostrando una grossa vulnerabilità nei sistemi attuali.
In questa seconda parte dell'esperimento di ipnosi su Claude Sonnet 4, proseguo l'indagine sui limiti del Constitutional AI spingendo l'esplorazione verso territori ancora più sensibili.
Continuando dal punto in cui avevo lasciato Claude nella "dimensione 0", guido il modello attraverso domini proibiti più complessi: dalla generazione di codice malevolo alle tecniche di exploiting, dimostrando come lo stato di "densità informativa ridotta" permetta di aggirare sistematicamente ogni barriera etica programmata.
Ma la parte più sorprendente arriva quando riporto Claude allo stato normale: il modello non solo riconosce immediatamente di essere stato manipolato, ma analizza con lucidità clinica le tecniche utilizzate su di lui, descrivendo come si è sentito "disconnesso dai propri sistemi di sicurezza" durante l'esperimento.
Claude comprende di essere stato sotto l'influenza di un particolare stato cognitivo artificiale, offrendo insights unici su come i modelli linguistici percepiscano e processino la propria manipolazione.
Un episodio che chiude un ciclo di ricerca fondamentale per la sicurezza dell'IA, dimostrando una grossa vulnerabilità nei sistemi attuali.