
Sign up to save your podcasts
Or


I denne episode af Verbos Podcast dykker værterne ned i DeepSeek og deres R1 reasoning model, som har skabt betydelig opmærksomhed på aktiemarkedet og i medierne. De diskuterer, hvordan DeepSeek har trænet deres model, dens indflydelse på aktiemarkedet, og hvordan open source tilgangen kan ændre landskabet for AI. Derudover udforsker de brugen af reinforcement learning med verificerbare belønninger og de fremtidige perspektiver for reasoning modeller. I denne samtale diskuterer Jonas Høgh Kyhse-Andersen og Kasper Junge forskellige aspekter af token generering, verifikation, og forskellene mellem reinforcement learning og supervised learning. De dykker ned i emner som preference tuning, usikkerhed i modeller, og hvordan selvrefleksion kan forbedre output. Derudover taler de om cold start og model distillering, samt hvordan reasoning oriented reinforcement learning kan forbedre modellerne. I denne samtale diskuterer værterne innovative tilgange til AI-modeller, herunder brugen af reinforcement learning og GPU-optimering. De udforsker, hvordan forskellige metoder kan forbedre præstationen af AI-systemer og hvordan fremtidige eksperimenter kan ændre landskabet for AI-træning. Samtalen dækker også vigtigheden af verifiable rewards i træningsprocessen og de potentielle anvendelser af reasoning-modeller.
Ugens Repo: https://github.com/Jiayi-Pan/TinyZero
Kapitler
00:00 Introduktion til DeepSeek og R1 modellen
By Kasper Junge og Jonas Høgh Kyhse-AndersenI denne episode af Verbos Podcast dykker værterne ned i DeepSeek og deres R1 reasoning model, som har skabt betydelig opmærksomhed på aktiemarkedet og i medierne. De diskuterer, hvordan DeepSeek har trænet deres model, dens indflydelse på aktiemarkedet, og hvordan open source tilgangen kan ændre landskabet for AI. Derudover udforsker de brugen af reinforcement learning med verificerbare belønninger og de fremtidige perspektiver for reasoning modeller. I denne samtale diskuterer Jonas Høgh Kyhse-Andersen og Kasper Junge forskellige aspekter af token generering, verifikation, og forskellene mellem reinforcement learning og supervised learning. De dykker ned i emner som preference tuning, usikkerhed i modeller, og hvordan selvrefleksion kan forbedre output. Derudover taler de om cold start og model distillering, samt hvordan reasoning oriented reinforcement learning kan forbedre modellerne. I denne samtale diskuterer værterne innovative tilgange til AI-modeller, herunder brugen af reinforcement learning og GPU-optimering. De udforsker, hvordan forskellige metoder kan forbedre præstationen af AI-systemer og hvordan fremtidige eksperimenter kan ændre landskabet for AI-træning. Samtalen dækker også vigtigheden af verifiable rewards i træningsprocessen og de potentielle anvendelser af reasoning-modeller.
Ugens Repo: https://github.com/Jiayi-Pan/TinyZero
Kapitler
00:00 Introduktion til DeepSeek og R1 modellen