May 11, 2026

#348 – IA en local y modelos (casi) open source

55 minutes

Síguenos en:

Seguimos con los monográficos dedicados a la IA y en este caso hablamos sobre cómo utilizarla en local y con modelos open source.

¿Qué tal la semana?

Semana Nahuai

Follow-up del episodio de la semana pasada.

Le pasé a Claude la transcripción y le pregunté si había dicho algún dato incorrecto y el único que me rebatió fue el escaneo y destrucción de libros por parte de Anthropic. Pero una simple búsqueda web arroja decenas de enlaces sobre el proyecto Panama. ¡Ojo!

Lectura recomendada, parcialmente relacionada.

Implementando una restricción a contenido pasado personalizado en Restrict Content Pro.

Última Meetup de WP Terrassa.

Campus Connect en Lleida con charlas de Nilo, Ana y Celi. Además de un concurso de webs de los estudiantes.

Tema de la semana:

¿Por qué correr LLMs en local?

Privacidad: tus datos no salen de tu máquina

Sin costes por token: sin APIs de pago ni límites de uso

Modo offline: funciona sin conexión a internet

Control total: elige el modelo, la cuantización y el contexto

Descentralizar la tecnología y no contribuir al oligopolio de las big tech

Herramientas principales

LM Studio: interfaz gráfica, ideal para empezar, tiene chat integrado y servidor local.

Ollama: orientado a terminal y desarrolladores, muy fácil de integrar con otras apps.

Factores clave a entender

Tamaño del modelo (parámetros)

El número de parámetros (1B, 7B, 13B…) indica la "capacidad" del modelo

Más parámetros = más calidad, pero más recursos necesarios

Un modelo pequeño bien cuantizado puede superar a uno grande mal cuantizado

Cuantización

Proceso de reducir la precisión de los pesos del modelo para que ocupe menos memoria

Q2/Q3: muy comprimido, baja calidad, pero cabe en casi cualquier máquina

Q4_K_M: buena calidad con tamaño razonable

Q6/Q8: casi calidad completa

F16/F32: precisión completa

Tipo de modelo

Modelo denso: todos los parámetros se activan en cada inferencia. Es más predecible y estable, pero más exigente en recursos por parámetro.

Mezcla de Expertos (MoE): solo se activan una fracción de los parámetros por token. Mucho más eficiente en velocidad y memoria.

Velocidad de inferencia (tokens/s)

Cuántos tokens genera el modelo por segundo

En CPU suele ser lento (3–10 tok/s); con GPU dedicada puede ser 10x más rápido

La RAM unificada de Apple Silicon es especialmente eficiente para esto

Formatos de modelo

GGUF: el formato estándar para correr modelos en local con llama.cpp (lo usan LM Studio y Ollama)

MLX: formato optimizado por Apple para correr modelos directamente sobre Silicon, mejor rendimiento que GGUF en Mac.

Ventana de contexto

Cuántos tokens puede "recordar" el modelo en una conversación

Contextos largos (32k, 128k) consumen más RAM aunque el modelo sea pequeño

Reducir el contexto es una palanca útil si te quedas sin memoria

Requerimientos de hardware

Memoria RAM

8 GB: modelos de hasta 7B en Q4 (justo), mejor quedarse en 3B–4B para fluidez

16 GB: cómodo con modelos de 7B–8B en Q4-Q6, o 13B en Q3/Q4

32 GB: modelos de 13B–30B con buena cuantización, o 70B en Q2/Q3

64 GB+: modelos de 70B en Q4+ con buena velocidad

En Apple Silicon la RAM unificada actúa como VRAM, lo que lo hace muy eficiente para inferencia local

Código abierto vs. pesos abiertos

Código abierto: se publican los pesos del modelo, el código y datos de entrenamiento.

Pesos abiertos: solo se publican los pesos, puedes usar y modificar el modelo, pero no sabes exactamente cómo fue entrenado ni con qué datos.

La mayoría de modelos llamados open source en realidad son open weight: puedes correrlos y afinarlos libremente, pero el proceso de entrenamiento sigue siendo una caja negra.

Modelos de pesos abiertos recomendados (para programar)

Local

Qwen3.6 (Alibaba): familia orientada a coding agéntico con dos modelos locales: 27B denso (~17 GB en Q4) y el 35B-A3B MoE (más versátil y ligero 16 GB de RAM)

Qwen3-Coder (Alibaba): rama específica para programar. 30B-A3B para hardware de consumo y el Qwen3-Coder-Next (MoE con solo 3B activos) diseñado para agentes de código.

Gemma 4 (Google): familia con cuatro tamaños y dos arquitecturas. 26B A4B es MoE, y el 31B es denso para máximo rendimiento en local.

La nube

Kimi K2.6 (Moonshot AI): arquitectura Agent Swarm con 1T parámetros (32B activos), ideal para tareas agénticas complejas

MiniMax 2.6: fuerte en razonamiento y contextos largos, buena relación calidad/tamaño

GLM-5.1 (Zhipu AI): MoE de 744B parámetros, destacado en multilingüe y coding

DeepSeek V4 referencia en razonamiento.

Mistral Medium 3.5: modelo denso de 128B que unifica chat, razonamiento y coding en uno solo, el más accesible de los grandes para correr en local

Viejunos y/o discontinuados

Llama 4 (Meta): Modelo de pesos abiertos bastante popular al inicio.

GPT-OSS (OpenAI): primer lanzamiento de pesos abiertos de OpenAI disponible en dos tamaños (20B y 120B).

Modelos disponibles en HuggingFace y las apps.

Agentes de código

Herramientas que actúan de forma autónoma sobre tu código usando un modelo como motor.

Claude Code (Anthropic): agente de terminal oficial de Anthropic.

OpenCode: agente open source (MIT) orientado a terminal.

Pi: agente minimalista y extensible de terminal. Usa menos tokens.

Los tres exponen una API compatible con OpenAI, por lo que pueden conectarse a cualquier modelo local servido desde Ollama o LM Studio.

Casos de uso prácticos en local

Agents y automatizaciones: con frameworks como n8n

Chat privado: alternativa a ChatGPT sin enviar datos

Resumen de documentos: PDFs, notas, reuniones

Asistente de código: con modelos como Qwen-Coder, Kimi 2.6, MiniMax 2.6

Integración con apps propias: via API local (Ollama / LM Studio exponen endpoint OpenAI-compatible)

Novedades

Chrome instala un LLM de 4GB sin pedir permiso al usuario: https://www.thatprivacyguy.com/blog/chrome-silent-nano-install

Además de la falta de consentimiento, el impacto sería el equivalente a generar 6.000-60.000 toneladas de CO2 (emisiones de unos 1.300-13.000 coches).

Claude Desktop instala silenciosamente un puente de Native Messaging en hasta siete navegadores basados en Chromium, sin consentimiento: https://www.thatprivacyguy.com/blog/anthropic-spyware

La extensión Claude in Chrome tiene una vulnerabilidad que permite a otras extensiones “hackearla”:

https://layerxsecurity.com/blog/a-flaw-in-claudes-browser-extension-allows-any-extension-to-hijack-it/

La colaboración en tiempo real no llegará a WordPress 7.0 finalmente: https://make.wordpress.org/core/2026/05/08/rtc-removed-from-7-0/

Tip de la semana

Chats que usan modelos de código abierto:

Le Chat — Mistral (desactivar opción de que entrene a modelos, si quieres que sea más privado)

HuggingChat — Hugging Face

Lumo — Proton

Menciones

DaTO nos comenta en iVox: “Coincido en vuestro análisis del estado actual de las IAs, gracias x el programa”.

Elías nos deja un comentario de que "usamos IA por encima de nuestras posibilidades" (por no hablar de las implicaciones de privacidad o medioambientales). Y el enlace a un vídeo que explica como funcionan los LLMs.

Tanto Nora como Weiko también le dan feedback sobre el tema a Nahuai. Que no descarta hacer una mesa redonda en un futuro.

...more

View all episodes

By Nahuai Badiola y esther solà