December 03, 2025

Pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter

2 minutes

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

...more

View all episodes

By ZD Tech : tout comprendre en moins de 3 minutes