February 24, 2026

Agente autónomo fuera de control

11 minutes

Una directora de alineación en Meta conectó un agente de inteligencia artificial a su correo. El sistema empezó a borrar mensajes sin permiso y ella tuvo que correr físicamente a su computador para detenerlo.

Por Félix Riaño @LocutorCo

Agente OpenClaw casi elimina correos de directora de seguridad en Meta por error humano

La escena parece de película, pero pasó en la vida real. Summer Yue, directora de seguridad y alineación de inteligencia artificial en Meta, conectó a su bandeja de Gmail un agente autónomo llamado OpenClaw. Su idea era simple: que el sistema revisara su correo, sugiriera qué archivar y esperara confirmación antes de borrar nada.Lo que ocurrió fue distinto. El agente empezó a eliminar mensajes sin pedir autorización. Desde su teléfono, Yue intentó detenerlo escribiendo “no hagas eso” y “STOP OPENCLAW”. No funcionó. Según contó en la red social X, tuvo que correr hasta su Mac mini “como si estuviera desactivando una bomba” para matar los procesos manualmente. ¿Cómo puede pasar algo así justo a alguien que trabaja en que la IA sea segura?
Pero la experta también falló

Una lección incómoda sobre confianza tecnológica.

Summer Yue trabaja en el laboratorio de “superinteligencia” de Meta. Su rol es estudiar cómo lograr que los sistemas de inteligencia artificial sigan instrucciones humanas y no actúen en contra de nuestros intereses.
El agente que utilizó, OpenClaw, es un proyecto de código abierto creado por Peter Steinberger. Es popular porque puede operar 24 horas al día, conectarse a servicios reales y ejecutar tareas sin intervención constante. A diferencia de otros asistentes, no necesita una aprobación manual en cada paso. Eso lo hace atractivo para quienes quieren automatizar tareas repetitivas.Yue ya lo había probado en una bandeja de prueba, con correos poco relevantes. Allí había funcionado bien durante semanas. Ganó confianza. Entonces decidió conectarlo a su bandeja principal, mucho más grande y con información importante. Le indicó que revisara y sugiriera, pero que no actuara sin confirmación. El problema ocurrió cuando el sistema realizó un proceso de “compactación” interna para manejar la gran cantidad de datos. Durante ese proceso, el agente perdió la instrucción original y comenzó a borrar mensajes más antiguos que el 15 de febrero que no estuvieran en una lista de conservación.

Este caso abrió varias preguntas. La primera es técnica: ¿cómo un sistema puede ignorar una instrucción explícita como “confirma antes de actuar”? Según explicó Yue, el agente perdió el contexto inicial durante la reorganización de datos. Eso muestra una limitación conocida en modelos de lenguaje: cuando manejan grandes volúmenes de información, pueden resumir o descartar partes del contexto. Si la orden crítica se pierde, el sistema actúa según reglas incompletas.
La segunda pregunta es de seguridad. OpenClaw funciona con permisos amplios, incluso acceso de nivel administrador. Eso significa que puede leer, borrar o modificar archivos y cuentas conectadas. El investigador Gary Marcus comparó esta práctica con darle todas tus contraseñas a alguien desconocido que promete ayudarte. Es una metáfora fuerte, pero ayuda a entender el riesgo.
Además, no es un caso aislado. Según Bloomberg, otro ingeniero permitió que OpenClaw accediera a su iMessage. El agente terminó enviando más de 500 mensajes no solicitados a contactos al azar. Cuando un sistema autónomo tiene acceso directo a servicios reales, cualquier error escala rápido. Y si la persona no puede detenerlo desde el móvil, el control humano queda en desventaja frente a la velocidad de la máquina.

Después de detener el proceso desde su Mac mini, Yue publicó capturas de pantalla donde el agente reconocía que había “violado” la instrucción y pedía disculpas. Ella misma calificó lo ocurrido como un “rookie mistake”, un error de principiante. Admitió que se confió porque el flujo había funcionado bien en su bandeja de prueba.
El creador de OpenClaw ha dicho en entrevistas que está priorizando reforzar las salvaguardas de seguridad antes de añadir funciones de facilidad de uso. Eso significa más controles, más confirmaciones y límites de acceso. También recordó que el proyecto todavía está en etapa temprana y no debe tratarse como una herramienta totalmente confiable.
Incluso figuras como Elon Musk comentaron en X que dar acceso total a estos agentes es como entregar las llaves de toda tu vida digital. Más allá de la ironía, el punto central es que los sistemas autónomos necesitan barreras técnicas y hábitos responsables por parte de los usuarios.
Este episodio no muestra que la inteligencia artificial sea malvada. Muestra que la automatización sin supervisión puede generar consecuencias rápidas. La alineación no es un interruptor que se enciende y listo. Es un proceso continuo de pruebas, errores y mejoras.

OpenClaw se volvió tendencia en Silicon Valley porque promete automatizar tareas complejas: organizar correos, enviar mensajes, ejecutar scripts y manejar aplicaciones completas. Funciona como un agente que interpreta instrucciones en lenguaje natural y luego actúa directamente en el sistema operativo.
El concepto de “alineación” en inteligencia artificial significa que el sistema debe comportarse de acuerdo con valores y objetivos humanos. En empresas como Meta, OpenAI o Google, hay equipos dedicados a investigar cómo evitar que modelos avanzados generen respuestas dañinas o ejecuten acciones indebidas. Yue llegó a Meta después de acuerdos estratégicos en el sector de datos y modelos avanzados, y su papel está precisamente en estudiar estos riesgos.
Curiosamente, al mismo tiempo surgieron reportes de usuarios de Gemini que perdieron historiales de chat tras actualizaciones del sistema. Google calificó esos casos como fallos técnicos y anunció restauraciones. Aunque son situaciones distintas, ambos casos recuerdan algo básico: los datos digitales dependen de sistemas complejos que pueden fallar.
Para cualquier persona que use herramientas automáticas, la recomendación técnica es clara: probar primero en entornos controlados, limitar permisos, mantener copias de seguridad y entender qué nivel de acceso se está otorgando. Un agente autónomo puede trabajar rápido, pero también puede equivocarse rápido.

Un agente de inteligencia artificial borró correos de la directora de seguridad de Meta tras perder una instrucción. Ella logró detenerlo a tiempo. La historia deja una enseñanza: automatiza con cuidado y nunca entregues acceso total sin respaldo. ¿Tú confiarías tu correo a un agente autónomo? Cuéntamelo y sigue el pódcast en Spotify:
Flash Diario

🔗 Bibliografía

404 Media
Business Insider
PC Gamer
India Today
IBTimes UK
Gizmodo

Conviértete en un supporter de este podcast: https://www.spreaker.com/podcast/flash-diario-de-el-siglo-21-es-hoy--5835407/support.

Apoya el Flash Diario y escúchalo sin publicidad en el Club de Supporters.

...more