Verbos: AI og Softwareudvikling

#79 - DeepSeek-R1 Deep Dive


Listen Later

I denne episode af Verbos Podcast dykker værterne ned i DeepSeek og deres R1 reasoning model, som har skabt betydelig opmærksomhed på aktiemarkedet og i medierne. De diskuterer, hvordan DeepSeek har trænet deres model, dens indflydelse på aktiemarkedet, og hvordan open source tilgangen kan ændre landskabet for AI. Derudover udforsker de brugen af reinforcement learning med verificerbare belønninger og de fremtidige perspektiver for reasoning modeller. I denne samtale diskuterer Jonas Høgh Kyhse-Andersen og Kasper Junge forskellige aspekter af token generering, verifikation, og forskellene mellem reinforcement learning og supervised learning. De dykker ned i emner som preference tuning, usikkerhed i modeller, og hvordan selvrefleksion kan forbedre output. Derudover taler de om cold start og model distillering, samt hvordan reasoning oriented reinforcement learning kan forbedre modellerne. I denne samtale diskuterer værterne innovative tilgange til AI-modeller, herunder brugen af reinforcement learning og GPU-optimering. De udforsker, hvordan forskellige metoder kan forbedre præstationen af AI-systemer og hvordan fremtidige eksperimenter kan ændre landskabet for AI-træning. Samtalen dækker også vigtigheden af verifiable rewards i træningsprocessen og de potentielle anvendelser af reasoning-modeller.


Ugens Repo: https://github.com/Jiayi-Pan/TinyZero


Kapitler

00:00 Introduktion til DeepSeek og R1 modellen

03:03 DeepSeek's indflydelse på aktiemarkedet
05:51 Reasoning modeller og deres træningsmetoder
08:47 DeepSeek's open source tilgang
12:07 Reinforcement learning med verificerbare belønninger
15:09 Fremtidige perspektiver for reasoning modeller
28:45 Verifikation af Token Generering
31:12 Reinforcement Learning vs. Supervised Learning
32:55 Preference Tuning og Human Feedback
36:33 Verifikation og Usikkerhed i Modeller
39:43 Selvrefleksion i Modeller
42:51 Cold Start og Model Distillering
50:00 Reasoning Oriented Reinforcement Learning
54:01 Innovative Tænkning i AI Modeller
57:50 GPU Innovation og Performance Optimering
01:01:03 Reinforcement Learning og Verifiable Rewards
01:05:26 Eksperimenter med Reasoning Modeller
01:10:54 Fremtidige Perspektiver for AI Træning

...more
View all episodesView all episodes
Download on the App Store

Verbos: AI og SoftwareudviklingBy Kasper Junge og Jonas Høgh Kyhse-Andersen