Servir un LLM no es como escalar una web app normal.
Hablamos de tokens, GPUs, KV cache, latencia, costos y por qué “agregar más pods” ya no salva a nadie.
Fuentes:
	• https://www.dheeth.blog/llm-serving-is-not-normal-web-serving/
	• https://arxiv.org/abs/2309.06180
	• https://kubernetes.io/docs/concepts/workloads/autoscaling/horizontal-pod-autoscale/

Servir un LLM no es como escalar una web app normal. Hablamos de tokens, GPUs, KV cache, latencia, costos y por qué “agregar más pods” ya no salva a nadie. Fuentes: • https://www.dheeth.blog/llm-serving-is-not-normal-web-serving/ • https://arxiv.org/abs/2309.06180 • https://kubernetes.io/docs/concepts/workloads/autoscaling/horizontal-pod-autoscale/

NTN 520 -   Escalar IA Duele

Ahora hablo mucho de AI, antes era una serie de charlas con amigos sobre tecnolog&iacute;a en general. Aunque por ahora No Tenemos Nombre, en un futuro seguro que maduramos y lo tenemos.

https://notienenombre.com/

Technology

Ahora hablo mucho de AI, antes era una serie de charlas con amigos sobre tecnología en general. Aunque por ahora No Tenemos Nombre, en un futuro seguro que maduramos y lo tenemos. https://notienenombre.com/

Ahora hablo mucho de AI, antes era una serie de charlas con amigos sobre tecnología en general. Aunque por ahora No Tenemos Nombre, en un futuro seguro que maduramos y lo tenemos.

https://notienenombre.com/

Share NTN 520 - Escalar IA Duele

Sign up to save your podcasts

NTN 520 - Escalar IA Duele

NTN 520 - Escalar IA Duele