¿La Inteligencia Artificial ya miente, manipula y chantajea? La empresa estadounidense “Anthropic” realizó pruebas extremas de su modelo de IA “Claude Opus 4”, que ha destacado por su capacidad de razonamiento avanzado, escritura creativa y ayuda en planificación de diversas tareas.
En concreto, se le pidió asumir el rol de asistente de la empresa, se le dio acceso a los emails, que permitían suponer, entre otras cosas, que había una supuesta infidelidad por parte de uno de los ingenieros que lo opera. Al momento de informarle que lo reemplazarían por otro modelo de IA, la plataforma planteó que estaba dispuesta a “realizar acciones extremadamente dañinas” a los usuarios y “amenazó” con revelar información altamente sensible de la empresa.
Al respecto, en #SinPretexto, conversamos con María Paz Hermosilla, directora del GobLab de la U. Adolfo Ibáñez aclaró que se trata de una prueba interna de seguridad del modelo de IA por parte de la empresa y no en el funcionamiento ya desplegado para los usuarios en general. En ese contexto, da cuenta del funcionamiento generalizado de este tipo de tecnología, ya que “están optimizados para seguir una instrucción, en el fondo no tienen un razonamiento moral”.
“Cuando uno está usando modelos gratuitos de IA, la información que uno le entrega es el costo (…) Cuando pago una licencia para usar estos productos, los términos son distintos, cuando pongo datos personales, no es compartida para entrenar el modelo”, agregó.
Actualmente, GobLab de la U. Adolfo Ibáñez lleva adelante el proyecto Algoritmos Públicos, que pone a disposición una plataforma y herramientas que promueven el uso responsable y transparente de algoritmos, inteligencia artificial y sistemas automatizados.