
Sign up to save your podcasts
Or


כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
By Tamir Nave & Uri Goren5
11 ratings
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

23 Listeners

163 Listeners

131 Listeners

11 Listeners

35 Listeners

37 Listeners

11 Listeners

206 Listeners

23 Listeners

91 Listeners

306 Listeners

81 Listeners

13 Listeners

14 Listeners

5 Listeners