June 12, 2025

Mappare la mente di un LLM ( AI per Tutti )

9 minutes

Il testo descrive un progetto di ricerca di Anthropic volto a estrarre e interpretare le "funzionalità" interne del modello linguistico Claude 3 Sonnet utilizzando autoencoder sparsi, una tecnica di apprendimento del dizionario. Gli autori dimostrano che queste funzionalità sono astratte, multilingue e multimodali, attivandosi per concetti complessi come luoghi, persone, errori di codice e persino aspetti della consapevolezza del modello stesso. La ricerca evidenzia l'utilità di queste funzionalità per comprendere e influenzare il comportamento del modello, in particolare per identificare e mitigare potenziali rischi di sicurezza, come la generazione di contenuti dannosi, la disinformazione o la condotta ingannevole. Sebbene i risultati siano preliminari, suggeriscono un passo avanti significativo nella comprensione meccanicistica dei modelli AI su larga scala.

...more

View all episodes

By simo

June 12, 2025

Mappare la mente di un LLM ( AI per Tutti )

9 minutes

...more

Share Mappare la mente di un LLM ( AI per Tutti )

Sign up to save your podcasts

Mappare la mente di un LLM ( AI per Tutti )

Mappare la mente di un LLM ( AI per Tutti )