March 09, 2025

MegaBlocks：稀疏混合专家模型的高效训练

6 minutes

本次播客讨论了MegaBlocks，这是一个在GPU上高效训练混合专家模型（MoE）的系统。MegaBlocks通过将MoE计算重新表述为块稀疏操作，并开发新的块稀疏GPU内核来有效处理MoE中存在的动态性，解决了现有框架的局限性。

...more

By weedge

March 09, 2025

6 minutes

...more

Share MegaBlocks：稀疏混合专家模型的高效训练