October 28, 2025

策略内蒸馏：LLM高效训练的秘密武器

20 minutes

欢迎收听AI电台FM科技频道，本期节目我们将深入探讨Thinking Machines Lab的最新研究成果——策略内蒸馏。我们知道，大语言模型在各个领域都展现出惊人的能力，但训练这些模型，特别是针对特定任务进行微调，往往需要巨大的计算资源。那么，有没有一种方法能够兼顾训练效率和模型性能呢？今天，我们的技术专家weedge将带领我们了解策略内蒸馏这一创新方法，它如何将策略内训练的相关性和蒸馏的密集奖励信号相结合，以更低的成本实现卓越的模型性能，并解决小模型在特定领域训练中的诸多挑战。

...more

View all episodes

By weedge

October 28, 2025

策略内蒸馏：LLM高效训练的秘密武器

20 minutes

...more

Share 策略内蒸馏：LLM高效训练的秘密武器

Sign up to save your podcasts

策略内蒸馏：LLM高效训练的秘密武器

策略内蒸馏：LLM高效训练的秘密武器