
Sign up to save your podcasts
Or


Hoy vamos con GPipe, un paper que resolvió uno de los problemas más prácticos del deep learning: ¿Cómo entrenas modelos que son demasiado grandes para caber en una sola GPU? La respuesta: Pipeline parallelism con micro-batches. Suena técnico, pero es una idea elegante que permitió entrenar modelos de 6 mil millones de parámetros.
By Cápsulas de Inteligencia Artificial y Machine LearningHoy vamos con GPipe, un paper que resolvió uno de los problemas más prácticos del deep learning: ¿Cómo entrenas modelos que son demasiado grandes para caber en una sola GPU? La respuesta: Pipeline parallelism con micro-batches. Suena técnico, pero es una idea elegante que permitió entrenar modelos de 6 mil millones de parámetros.