
Sign up to save your podcasts
Or


כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
By Tamir Nave, Mike Erlihson & Uri Goren5
11 ratings
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

21 Listeners

163 Listeners

140 Listeners

10 Listeners

39 Listeners

38 Listeners

13 Listeners

192 Listeners

24 Listeners

94 Listeners

308 Listeners

98 Listeners

15 Listeners

13 Listeners

6 Listeners