<p>Hoy vamos con GPipe, un paper que resolvió uno de los problemas más prácticos del deep learning: <strong>¿Cómo entrenas modelos que son demasiado grandes para caber en una sola GPU?</strong> La respuesta: Pipeline parallelism con micro-batches. Suena técnico, pero es una idea elegante que permitió entrenar modelos de 6 mil millones de parámetros.</p>

Hoy vamos con GPipe, un paper que resolvió uno de los problemas más prácticos del deep learning: ¿Cómo entrenas modelos que son demasiado grandes para caber en una sola GPU? La respuesta: Pipeline parallelism con micro-batches. Suena técnico, pero es una idea elegante que permitió entrenar modelos de 6 mil millones de parámetros.

Ep. 09: GPipe - Easy Scaling with Micro-Batch Pipeline Parallelism

Artículos y papers de ML e IA convertidos y narrados en podcasts por IA. De la academia a tus oídos, en una forma casual de aprender.

Share Ep. 09: GPipe - Easy Scaling with Micro-Batch Pipeline Parallelism

Sign up to save your podcasts

Ep. 09: GPipe - Easy Scaling with Micro-Batch Pipeline Parallelism

Ep. 09: GPipe - Easy Scaling with Micro-Batch Pipeline Parallelism