January 20, 2025

大规模Transformer模型推理的效率优化

7 minutes

本播客深入探讨了如何高效地部署大型Transformer模型进行生成式推理，特别是在延迟敏感和长序列长度的场景下。我们将讨论模型并行策略、内存优化和低级优化技术，这些技术共同实现了在延迟和模型FLOPS利用率方面的新的帕累托前沿。

...more

By weedge

January 20, 2025

7 minutes

...more

Share 大规模Transformer模型推理的效率优化