这篇文章系统地研究了混合专家模型(MoE)的设计优化,通过对超过2,000次预训练运行的详尽实验,分析了专家数量、粒度和路由机制对性能的影响。研究发现,在固定计算预算下,模型性能会随着总专家参数量的增加而持续提升,且最优的专家粒度主要取决于激活参数的规模。实验结果表明,复杂的专家异构性和共享专家(Generalists)设计并不能显著改善效果,甚至可能导致性能下降。相比之下,采用无丢弃路由(Dropless Routing)则能带来稳定的收益。作者最后提出了一套简化的MoE配置方案,建议开发者将优化重心放在专家总数和粒度上,而无需过度纠结于复杂的负载均衡调节。