En este episodio exploramos uno de los problemas más preocupantes de la inteligencia artificial actual: su uso en el cibercrimen. Analizamos cómo las técnicas de prompt injection permiten engañar a modelos como ChatGPT y Gemini para realizar tareas maliciosas, desde crear malware hasta facilitar ataques de phishing.
Conocemos a Anthropic, la empresa creada por ex-investigadores de OpenAI que desarrolló Claude, uno de los modelos más potentes y seguros del mercado. Descubrimos su innovadora funcionalidad que permite al modelo terminar conversaciones cuando detecta contenido inapropiado, y por qué esto representa un paso importante hacia una IA más responsable.
También exploramos las vulnerabilidades de los modelos de código abierto, las similitudes entre el prompt injection y las clásicas inyecciones SQL, y por qué la naturaleza probabilística de la IA hace que estos problemas sean tan difíciles de resolver completamente.