April 02, 2025

DeepSeek-R1: Reasoning LLMs via Reinforcement Learning

30 minutes

We talk about DeepSeek-R1, a novel language model with enhanced reasoning capabilities achieved through reinforcement learning (RL). The researchers explored training methodologies, including DeepSeek-R1-Zero which uniquely utilizes large-scale RL without initial supervised fine-tuning (SFT), demonstrating emergent reasoning behaviors. To improve readability and further boost performance, DeepSeek-R1 incorporates a multi-stage training process with cold-start data before RL and achieves results comparable to OpenAI's o1-1217 on reasoning tasks. Furthermore, the paper discusses the distillation of DeepSeek-R1's reasoning abilities into smaller, more efficient models, showcasing their strong performance on various benchmarks.

...more

View all episodes

By Claude Henri Nguembi

April 02, 2025

DeepSeek-R1: Reasoning LLMs via Reinforcement Learning

30 minutes

...more

Share DeepSeek-R1: Reasoning LLMs via Reinforcement Learning

Sign up to save your podcasts

DeepSeek-R1: Reasoning LLMs via Reinforcement Learning

DeepSeek-R1: Reasoning LLMs via Reinforcement Learning