AI Podcast

混合张量专家数据并行方法优化混合专家训练


Listen Later

深入探讨 DeepSpeed-TED,一种新颖的三维混合并行框架,用于训练具有大型基础模型的混合专家模型。我们讨论了内存优化、通信优化以及与现有方法的性能比较。
...more
View all episodesView all episodes
Download on the App Store

AI PodcastBy weedge