Seguimos con los monográficos dedicados a la IA y en este caso hablamos sobre cómo utilizarla en local y con modelos open source.
¿Qué tal la semana?
Semana Nahuai
Follow-up del episodio de la semana pasada.Le pasé a Claude la transcripción y le pregunté si había dicho algún dato incorrecto y el único que me rebatió fue el escaneo y destrucción de libros por parte de Anthropic. Pero una simple búsqueda web arroja decenas de enlaces sobre el proyecto Panama. ¡Ojo!Lectura recomendada, parcialmente relacionada.Implementando una restricción a contenido pasado personalizado en Restrict Content Pro.Última Meetup de WP Terrassa.Campus Connect en Lleida con charlas de Nilo, Ana y Celi. Además de un concurso de webs de los estudiantes.Tema de la semana:
¿Por qué correr LLMs en local?
Privacidad: tus datos no salen de tu máquinaSin costes por token: sin APIs de pago ni límites de usoModo offline: funciona sin conexión a internetControl total: elige el modelo, la cuantización y el contextoDescentralizar la tecnología y no contribuir al oligopolio de las big techHerramientas principales
LM Studio: interfaz gráfica, ideal para empezar, tiene chat integrado y servidor local.Ollama: orientado a terminal y desarrolladores, muy fácil de integrar con otras apps.Factores clave a entender
Tamaño del modelo (parámetros)
El número de parámetros (1B, 7B, 13B…) indica la "capacidad" del modeloMás parámetros = más calidad, pero más recursos necesariosUn modelo pequeño bien cuantizado puede superar a uno grande mal cuantizadoProceso de reducir la precisión de los pesos del modelo para que ocupe menos memoriaQ2/Q3: muy comprimido, baja calidad, pero cabe en casi cualquier máquinaQ4_K_M: buena calidad con tamaño razonableQ6/Q8: casi calidad completaF16/F32: precisión completaModelo denso: todos los parámetros se activan en cada inferencia. Es más predecible y estable, pero más exigente en recursos por parámetro.Mezcla de Expertos (MoE): solo se activan una fracción de los parámetros por token. Mucho más eficiente en velocidad y memoria.Velocidad de inferencia (tokens/s)
Cuántos tokens genera el modelo por segundoEn CPU suele ser lento (3–10 tok/s); con GPU dedicada puede ser 10x más rápidoLa RAM unificada de Apple Silicon es especialmente eficiente para estoGGUF: el formato estándar para correr modelos en local con llama.cpp (lo usan LM Studio y Ollama)MLX: formato optimizado por Apple para correr modelos directamente sobre Silicon, mejor rendimiento que GGUF en Mac.Cuántos tokens puede "recordar" el modelo en una conversaciónContextos largos (32k, 128k) consumen más RAM aunque el modelo sea pequeñoReducir el contexto es una palanca útil si te quedas sin memoriaRequerimientos de hardware
8 GB: modelos de hasta 7B en Q4 (justo), mejor quedarse en 3B–4B para fluidez16 GB: cómodo con modelos de 7B–8B en Q4-Q6, o 13B en Q3/Q432 GB: modelos de 13B–30B con buena cuantización, o 70B en Q2/Q364 GB+: modelos de 70B en Q4+ con buena velocidadEn Apple Silicon la RAM unificada actúa como VRAM, lo que lo hace muy eficiente para inferencia local
Código abierto vs. pesos abiertos
Código abierto: se publican los pesos del modelo, el código y datos de entrenamiento.Pesos abiertos: solo se publican los pesos, puedes usar y modificar el modelo, pero no sabes exactamente cómo fue entrenado ni con qué datos.La mayoría de modelos llamados open source en realidad son open weight: puedes correrlos y afinarlos libremente, pero el proceso de entrenamiento sigue siendo una caja negra.
Modelos de pesos abiertos recomendados (para programar)
Qwen3.6 (Alibaba): familia orientada a coding agéntico con dos modelos locales: 27B denso (~17 GB en Q4) y el 35B-A3B MoE (más versátil y ligero 16 GB de RAM)Qwen3-Coder (Alibaba): rama específica para programar. 30B-A3B para hardware de consumo y el Qwen3-Coder-Next (MoE con solo 3B activos) diseñado para agentes de código.Gemma 4 (Google): familia con cuatro tamaños y dos arquitecturas. 26B A4B es MoE, y el 31B es denso para máximo rendimiento en local.Kimi K2.6 (Moonshot AI): arquitectura Agent Swarm con 1T parámetros (32B activos), ideal para tareas agénticas complejasMiniMax 2.6: fuerte en razonamiento y contextos largos, buena relación calidad/tamañoGLM-5.1 (Zhipu AI): MoE de 744B parámetros, destacado en multilingüe y codingDeepSeek V4 referencia en razonamiento.Mistral Medium 3.5: modelo denso de 128B que unifica chat, razonamiento y coding en uno solo, el más accesible de los grandes para correr en localViejunos y/o discontinuados
Llama 4 (Meta): Modelo de pesos abiertos bastante popular al inicio.GPT-OSS (OpenAI): primer lanzamiento de pesos abiertos de OpenAI disponible en dos tamaños (20B y 120B).Modelos disponibles en HuggingFace y las apps.
Herramientas que actúan de forma autónoma sobre tu código usando un modelo como motor.
Claude Code (Anthropic): agente de terminal oficial de Anthropic.OpenCode: agente open source (MIT) orientado a terminal.Pi: agente minimalista y extensible de terminal. Usa menos tokens.Los tres exponen una API compatible con OpenAI, por lo que pueden conectarse a cualquier modelo local servido desde Ollama o LM Studio.
Casos de uso prácticos en local
Agents y automatizaciones: con frameworks como n8nChat privado: alternativa a ChatGPT sin enviar datosResumen de documentos: PDFs, notas, reunionesAsistente de código: con modelos como Qwen-Coder, Kimi 2.6, MiniMax 2.6Integración con apps propias: via API local (Ollama / LM Studio exponen endpoint OpenAI-compatible)Novedades
Chrome instala un LLM de 4GB sin pedir permiso al usuario: https://www.thatprivacyguy.com/blog/chrome-silent-nano-install
Además de la falta de consentimiento, el impacto sería el equivalente a generar 6.000-60.000 toneladas de CO2 (emisiones de unos 1.300-13.000 coches).
Claude Desktop instala silenciosamente un puente de Native Messaging en hasta siete navegadores basados en Chromium, sin consentimiento: https://www.thatprivacyguy.com/blog/anthropic-spyware
La extensión Claude in Chrome tiene una vulnerabilidad que permite a otras extensiones “hackearla”:
https://layerxsecurity.com/blog/a-flaw-in-claudes-browser-extension-allows-any-extension-to-hijack-it/
La colaboración en tiempo real no llegará a WordPress 7.0 finalmente: https://make.wordpress.org/core/2026/05/08/rtc-removed-from-7-0/
Tip de la semana
Chats que usan modelos de código abierto:
Le Chat — Mistral (desactivar opción de que entrene a modelos, si quieres que sea más privado)HuggingChat — Hugging FaceLumo — ProtonMenciones
DaTO nos comenta en iVox: “Coincido en vuestro análisis del estado actual de las IAs, gracias x el programa”.
Elías nos deja un comentario de que "usamos IA por encima de nuestras posibilidades" (por no hablar de las implicaciones de privacidad o medioambientales). Y el enlace a un vídeo que explica como funcionan los LLMs.
Tanto Nora como Weiko también le dan feedback sobre el tema a Nahuai. Que no descarta hacer una mesa redonda en un futuro.