February 06, 2025

#79 - DeepSeek-R1 Deep Dive

1 hour 16 minutes

I denne episode af Verbos Podcast dykker værterne ned i DeepSeek og deres R1 reasoning model, som har skabt betydelig opmærksomhed på aktiemarkedet og i medierne. De diskuterer, hvordan DeepSeek har trænet deres model, dens indflydelse på aktiemarkedet, og hvordan open source tilgangen kan ændre landskabet for AI. Derudover udforsker de brugen af reinforcement learning med verificerbare belønninger og de fremtidige perspektiver for reasoning modeller. I denne samtale diskuterer Jonas Høgh Kyhse-Andersen og Kasper Junge forskellige aspekter af token generering, verifikation, og forskellene mellem reinforcement learning og supervised learning. De dykker ned i emner som preference tuning, usikkerhed i modeller, og hvordan selvrefleksion kan forbedre output. Derudover taler de om cold start og model distillering, samt hvordan reasoning oriented reinforcement learning kan forbedre modellerne. I denne samtale diskuterer værterne innovative tilgange til AI-modeller, herunder brugen af reinforcement learning og GPU-optimering. De udforsker, hvordan forskellige metoder kan forbedre præstationen af AI-systemer og hvordan fremtidige eksperimenter kan ændre landskabet for AI-træning. Samtalen dækker også vigtigheden af verifiable rewards i træningsprocessen og de potentielle anvendelser af reasoning-modeller.

Ugens Repo: https://github.com/Jiayi-Pan/TinyZero

Kapitler

00:00 Introduktion til DeepSeek og R1 modellen

03:03 DeepSeek's indflydelse på aktiemarkedet

05:51 Reasoning modeller og deres træningsmetoder

08:47 DeepSeek's open source tilgang

12:07 Reinforcement learning med verificerbare belønninger

15:09 Fremtidige perspektiver for reasoning modeller

28:45 Verifikation af Token Generering

31:12 Reinforcement Learning vs. Supervised Learning

32:55 Preference Tuning og Human Feedback

36:33 Verifikation og Usikkerhed i Modeller

39:43 Selvrefleksion i Modeller

42:51 Cold Start og Model Distillering

50:00 Reasoning Oriented Reinforcement Learning

54:01 Innovative Tænkning i AI Modeller

57:50 GPU Innovation og Performance Optimering

01:01:03 Reinforcement Learning og Verifiable Rewards

01:05:26 Eksperimenter med Reasoning Modeller

01:10:54 Fremtidige Perspektiver for AI Træning

...more

View all episodes

By Kasper Junge og Jonas Høgh Kyhse-Andersen

February 06, 2025

#79 - DeepSeek-R1 Deep Dive

1 hour 16 minutes

Ugens Repo: https://github.com/Jiayi-Pan/TinyZero

Kapitler

00:00 Introduktion til DeepSeek og R1 modellen

03:03 DeepSeek's indflydelse på aktiemarkedet

05:51 Reasoning modeller og deres træningsmetoder

08:47 DeepSeek's open source tilgang

12:07 Reinforcement learning med verificerbare belønninger

15:09 Fremtidige perspektiver for reasoning modeller

28:45 Verifikation af Token Generering

31:12 Reinforcement Learning vs. Supervised Learning

32:55 Preference Tuning og Human Feedback

36:33 Verifikation og Usikkerhed i Modeller

39:43 Selvrefleksion i Modeller

42:51 Cold Start og Model Distillering

50:00 Reasoning Oriented Reinforcement Learning

54:01 Innovative Tænkning i AI Modeller

57:50 GPU Innovation og Performance Optimering

01:01:03 Reinforcement Learning og Verifiable Rewards

01:05:26 Eksperimenter med Reasoning Modeller

01:10:54 Fremtidige Perspektiver for AI Træning

...more

Share #79 - DeepSeek-R1 Deep Dive

Sign up to save your podcasts

#79 - DeepSeek-R1 Deep Dive

#79 - DeepSeek-R1 Deep Dive