Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
January 04, 2025混合张量专家数据并行方法优化混合专家训练5 minutesPlay深入探讨 DeepSpeed-TED,一种新颖的三维混合并行框架,用于训练具有大型基础模型的混合专家模型。我们讨论了内存优化、通信优化以及与现有方法的性能比较。...moreShareView all episodesBy weedgeJanuary 04, 2025混合张量专家数据并行方法优化混合专家训练5 minutesPlay深入探讨 DeepSpeed-TED,一种新颖的三维混合并行框架,用于训练具有大型基础模型的混合专家模型。我们讨论了内存优化、通信优化以及与现有方法的性能比较。...more
January 04, 2025混合张量专家数据并行方法优化混合专家训练5 minutesPlay深入探讨 DeepSpeed-TED,一种新颖的三维混合并行框架,用于训练具有大型基础模型的混合专家模型。我们讨论了内存优化、通信优化以及与现有方法的性能比较。...more