Freelandev - Vivir del desarrollo en WordPress

#348 – IA en local y modelos (casi) open source


Listen Later

Síguenos en:

Seguimos con los monográficos dedicados a la IA y en este caso hablamos sobre cómo utilizarla en local y con modelos open source.

¿Qué tal la semana?
Semana Nahuai
  • Follow-up del episodio de la semana pasada.
    • Le pasé a Claude la transcripción y le pregunté si había dicho algún dato incorrecto y el único que me rebatió fue el escaneo y destrucción de libros por parte de Anthropic. Pero  una simple búsqueda web arroja decenas de enlaces sobre el proyecto Panama. ¡Ojo!
    • Lectura recomendada, parcialmente relacionada.
    • Implementando una restricción a contenido pasado personalizado en Restrict Content Pro.
    • Última Meetup de WP Terrassa.
    • Campus Connect en Lleida con charlas de Nilo, Ana y Celi. Además de un concurso de webs de los estudiantes.
    • Tema de la semana:
      ¿Por qué correr LLMs en local?
      • Privacidad: tus datos no salen de tu máquina
      • Sin costes por token: sin APIs de pago ni límites de uso
      • Modo offline: funciona sin conexión a internet
      • Control total: elige el modelo, la cuantización y el contexto
      • Descentralizar la tecnología y no contribuir al oligopolio de las big tech
      • Herramientas principales
        • LM Studio: interfaz gráfica, ideal para empezar, tiene chat integrado y servidor local.
        • Ollama: orientado a terminal y desarrolladores, muy fácil de integrar con otras apps.
        • Factores clave a entender

          Tamaño del modelo (parámetros)

          • El número de parámetros (1B, 7B, 13B…) indica la "capacidad" del modelo
          • Más parámetros = más calidad, pero más recursos necesarios
          • Un modelo pequeño bien cuantizado puede superar a uno grande mal cuantizado
          • Cuantización

            • Proceso de reducir la precisión de los pesos del modelo para que ocupe menos memoria
            • Q2/Q3: muy comprimido, baja calidad, pero cabe en casi cualquier máquina
            • Q4_K_M: buena calidad con tamaño razonable
            • Q6/Q8: casi calidad completa
            • F16/F32: precisión completa
            • Tipo de modelo

              • Modelo denso: todos los parámetros se activan en cada inferencia. Es más predecible y estable, pero más exigente en recursos por parámetro.
              • Mezcla de Expertos (MoE): solo se activan una fracción de los parámetros por token. Mucho más eficiente en velocidad y memoria.
              • Velocidad de inferencia (tokens/s)

                • Cuántos tokens genera el modelo por segundo
                • En CPU suele ser lento (3–10 tok/s); con GPU dedicada puede ser 10x más rápido
                • La RAM unificada de Apple Silicon es especialmente eficiente para esto
                • Formatos de modelo

                  • GGUF: el formato estándar para correr modelos en local con llama.cpp (lo usan LM Studio y Ollama)
                  • MLX: formato optimizado por Apple para correr modelos directamente sobre Silicon, mejor rendimiento que GGUF en Mac.
                  • Ventana de contexto

                    • Cuántos tokens puede "recordar" el modelo en una conversación
                    • Contextos largos (32k, 128k) consumen más RAM aunque el modelo sea pequeño
                    • Reducir el contexto es una palanca útil si te quedas sin memoria
                    • Requerimientos de hardware

                      Memoria RAM

                      • 8 GB: modelos de hasta 7B en Q4 (justo), mejor quedarse en 3B–4B para fluidez
                      • 16 GB: cómodo con modelos de 7B–8B en Q4-Q6, o 13B en Q3/Q4
                      • 32 GB: modelos de 13B–30B con buena cuantización, o 70B en Q2/Q3
                      • 64 GB+: modelos de 70B en Q4+ con buena velocidad
                      • En Apple Silicon la RAM unificada actúa como VRAM, lo que lo hace muy eficiente para inferencia local

                        Código abierto vs. pesos abiertos

                        • Código abierto: se publican los pesos del modelo, el código y datos de entrenamiento.
                        • Pesos abiertos: solo se publican los pesos, puedes usar y modificar el modelo, pero no sabes exactamente cómo fue entrenado ni con qué datos.
                        • La mayoría de modelos llamados open source en realidad son open weight: puedes correrlos y afinarlos libremente, pero el proceso de entrenamiento sigue siendo una caja negra.

                          Modelos de pesos abiertos recomendados (para programar)

                          Local

                          • Qwen3.6 (Alibaba): familia orientada a coding agéntico con dos modelos locales: 27B denso (~17 GB en Q4) y el 35B-A3B MoE (más versátil y ligero 16 GB de RAM)
                          • Qwen3-Coder (Alibaba): rama específica para programar. 30B-A3B para hardware de consumo y el Qwen3-Coder-Next (MoE con solo 3B activos) diseñado para agentes de código.
                          • Gemma 4 (Google): familia con cuatro tamaños y dos arquitecturas. 26B A4B es MoE, y el 31B es denso para máximo rendimiento en local.
                          • La nube

                            • Kimi K2.6 (Moonshot AI): arquitectura Agent Swarm con 1T parámetros (32B activos), ideal para tareas agénticas complejas
                            • MiniMax 2.6: fuerte en razonamiento y contextos largos, buena relación calidad/tamaño
                            • GLM-5.1 (Zhipu AI): MoE de 744B parámetros, destacado en multilingüe y coding
                            • DeepSeek V4 referencia en razonamiento.
                            • Mistral Medium 3.5: modelo denso de 128B que unifica chat, razonamiento y coding en uno solo, el más accesible de los grandes para correr en local
                            • Viejunos y/o discontinuados

                              • Llama 4 (Meta): Modelo de pesos abiertos bastante popular al inicio.
                              • GPT-OSS (OpenAI): primer lanzamiento de pesos abiertos de OpenAI disponible en dos tamaños (20B y 120B).
                              • Modelos disponibles en HuggingFace y las apps.

                                Agentes de código

                                Herramientas que actúan de forma autónoma sobre tu código usando un modelo como motor.

                                • Claude Code (Anthropic): agente de terminal oficial de Anthropic.
                                • OpenCode: agente open source (MIT) orientado a terminal.
                                • Pi: agente minimalista y extensible de terminal. Usa menos tokens.
                                • Los tres exponen una API compatible con OpenAI, por lo que pueden conectarse a cualquier modelo local servido desde Ollama o LM Studio.

                                  Casos de uso prácticos en local
                                  • Agents y automatizaciones: con frameworks como n8n
                                  • Chat privado: alternativa a ChatGPT sin enviar datos
                                  • Resumen de documentos: PDFs, notas, reuniones
                                  • Asistente de código: con modelos como Qwen-Coder, Kimi 2.6, MiniMax 2.6
                                  • Integración con apps propias: via API local (Ollama / LM Studio exponen endpoint OpenAI-compatible)
                                  • Novedades

                                    Chrome instala un LLM de 4GB sin pedir permiso al usuario: https://www.thatprivacyguy.com/blog/chrome-silent-nano-install

                                    Además de la falta de consentimiento, el impacto sería el equivalente a generar 6.000-60.000 toneladas de CO2 (emisiones de unos 1.300-13.000 coches).

                                    Claude Desktop instala silenciosamente un puente de Native Messaging en hasta siete navegadores basados en Chromium, sin consentimiento: https://www.thatprivacyguy.com/blog/anthropic-spyware

                                    La extensión Claude in Chrome tiene una vulnerabilidad que permite a otras extensiones “hackearla”:

                                    https://layerxsecurity.com/blog/a-flaw-in-claudes-browser-extension-allows-any-extension-to-hijack-it/

                                    La colaboración en tiempo real no llegará a WordPress 7.0 finalmente: https://make.wordpress.org/core/2026/05/08/rtc-removed-from-7-0/

                                    Tip de la semana

                                    Chats que usan modelos de código abierto:

                                    • Le Chat — Mistral (desactivar opción de que entrene a modelos, si quieres que sea más privado)
                                    • HuggingChat — Hugging Face
                                    • Lumo — Proton
                                    • Menciones

                                      DaTO nos comenta en iVox: “Coincido en vuestro análisis del estado actual de las IAs, gracias x el programa”.

                                      Elías nos deja un comentario de que "usamos IA por encima de nuestras posibilidades" (por no hablar de las implicaciones de privacidad o medioambientales). Y el enlace a un vídeo que explica como funcionan los LLMs.

                                      Tanto Nora como Weiko también le dan feedback sobre el tema a Nahuai. Que no descarta hacer una mesa redonda en un futuro.

                                      ...more
                                      View all episodesView all episodes
                                      Download on the App Store

                                      Freelandev - Vivir del desarrollo en WordPressBy Nahuai Badiola y esther solà


                                      More shows like Freelandev - Vivir del desarrollo en WordPress

                                      View all
                                      Emilcar Daily by Emilcar

                                      Emilcar Daily

                                      24 Listeners

                                      Marketing Online by Joan Boluda

                                      Marketing Online

                                      65 Listeners

                                      WordPress Semanal by Gonzalo Navarro

                                      WordPress Semanal

                                      8 Listeners

                                      Campamento Web | SEO & Marketing Digital by Campamento Web - SEO

                                      Campamento Web | SEO & Marketing Digital

                                      1 Listeners

                                      Web Reactiva by Daniel Primo

                                      Web Reactiva

                                      1 Listeners

                                      Cupertino, podcast sobre Apple by Álex Barredo, Ángel Jiménez, Matías Zavia

                                      Cupertino, podcast sobre Apple

                                      15 Listeners

                                      Apple Coding Daily by Julio César Fernández Muñoz

                                      Apple Coding Daily

                                      24 Listeners

                                      Inteligencia Artificial by Pocho Costa

                                      Inteligencia Artificial

                                      18 Listeners

                                      Marketing4eCommerce Podcast by Rubén Bastón y Yara Quevedo

                                      Marketing4eCommerce Podcast

                                      0 Listeners

                                      Loop Infinito (by Xataka) by Webedia

                                      Loop Infinito (by Xataka)

                                      57 Listeners

                                      WordPress Pódcast (español) by WPpodcast Team

                                      WordPress Pódcast (español)

                                      1 Listeners

                                      Yinyang Podcast | SEO local y Marketing para negocios locales by Yinyang SEO local

                                      Yinyang Podcast | SEO local y Marketing para negocios locales

                                      0 Listeners

                                      Domótica Compatible by Carlos Sahuquillo

                                      Domótica Compatible

                                      0 Listeners

                                      BIG podcast by BIGSEO

                                      BIG podcast

                                      1 Listeners

                                      SEO by LMV by Luis M. Villanueva y Alex Novoa

                                      SEO by LMV

                                      0 Listeners