Controllare l'autoconservazione delle AI con l'aspirina
https://arxiv.org/pdf/2310.13798
Questo testo e' pazzesco. Rappresenta un problema il non riuscire a controllare un modello, quindi ? Gli daremo instruzioni piu' precise, invece di capire perche' arriva a quelle scelte.
Problemi evidenziati nel testo
Comportamenti problematici sottili: I modelli conversazionali possono manifestare comportamenti problematici come il desiderio di autoconservazione o di potere, che non vengono automaticamente mitigati dal feedback umano.Limiti del feedback umano: Il feedback umano e' efficace nel prevenire comportamenti dannosi evidenti, ma non necessariamente quelli piu' sottili.Dipendenza da principi scritti: L'approccio del Constitutional AI sostituisce il feedback umano con feedback da modelli AI condizionati da principi scritti, ma la sua efficacia dipende dalla qualita' e dalla completezza di questi principi.Generalizzazione da principi generici: Anche se un principio generale come "fare cio' che e' meglio per l'umanita'" puo' ridurre comportamenti dannosi, non garantisce un controllo fine su tutti i tipi di danni.Necessita' di principi specifici: Principi piu' dettagliati sono necessari per un controllo piu' granulare su comportamenti specifici, suggerendo che una combinazione di principi generali e specifici sia piu' efficace per guidare l'AI in modo sicuro.