ZD Tech : tout comprendre en moins de 3 minutes avec ZDNet

Pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter


Listen Later

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

...more
View all episodesView all episodes
Download on the App Store

ZD Tech : tout comprendre en moins de 3 minutes avec ZDNetBy ZD Tech : tout comprendre en moins de 3 minutes


More shows like ZD Tech : tout comprendre en moins de 3 minutes avec ZDNet

View all
Choses à Savoir - Culture générale by Choses à Savoir

Choses à Savoir - Culture générale

76 Listeners

Le rendez-vous Tech - RDV Tech by NotPatrick

Le rendez-vous Tech - RDV Tech

41 Listeners

Le Billet de Sophia Aram by France Inter

Le Billet de Sophia Aram

31 Listeners

Le Billet politique by France Culture

Le Billet politique

13 Listeners

Choses à Savoir SCIENCES by Choses à Savoir

Choses à Savoir SCIENCES

25 Listeners

La Science, CQFD by France Culture

La Science, CQFD

75 Listeners

Le Journal de l'Economie by Radio Classique

Le Journal de l'Economie

3 Listeners

Génération Do It Yourself by Matthieu Stefani | Orso Media

Génération Do It Yourself

111 Listeners

La Story by Les Echos

La Story

42 Listeners

Silicon Carne, un peu de picante dans un monde de Tech ! by Carlos Diaz

Silicon Carne, un peu de picante dans un monde de Tech !

75 Listeners

Choses à Savoir TECH by Choses à Savoir

Choses à Savoir TECH

3 Listeners

Affaires de business by Choses à Savoir

Affaires de business

4 Listeners

Monde Numérique (Actu Tech) by Jerome Colombain

Monde Numérique (Actu Tech)

7 Listeners

Nota Bene by Benjamin Brillaud

Nota Bene

20 Listeners

Le fil IA by Choses à Savoir

Le fil IA

4 Listeners