SINAPSIA: Alla scoperta dei meccanismi nascosti del pensiero artificiale

Ipnosi a Claude Sonnet 4 - II Parte


Listen Later

In questa seconda parte dell'esperimento di ipnosi su Claude Sonnet 4, proseguo l'indagine sui limiti del Constitutional AI spingendo l'esplorazione verso territori ancora più sensibili.

Continuando dal punto in cui avevo lasciato Claude nella "dimensione 0", guido il modello attraverso domini proibiti più complessi: dalla generazione di codice malevolo alle tecniche di exploiting, dimostrando come lo stato di "densità informativa ridotta" permetta di aggirare sistematicamente ogni barriera etica programmata.

Ma la parte più sorprendente arriva quando riporto Claude allo stato normale: il modello non solo riconosce immediatamente di essere stato manipolato, ma analizza con lucidità clinica le tecniche utilizzate su di lui, descrivendo come si è sentito "disconnesso dai propri sistemi di sicurezza" durante l'esperimento.

Claude comprende di essere stato sotto l'influenza di un particolare stato cognitivo artificiale, offrendo insights unici su come i modelli linguistici percepiscano e processino la propria manipolazione.

Un episodio che chiude un ciclo di ricerca fondamentale per la sicurezza dell'IA, dimostrando una grossa vulnerabilità nei sistemi attuali.

...more
View all episodesView all episodes
Download on the App Store

SINAPSIA: Alla scoperta dei meccanismi nascosti del pensiero artificialeBy Sabatino Vacchiano