
Sign up to save your podcasts
Or


כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
By Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang5
11 ratings
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

93 Listeners

155 Listeners

142 Listeners

39 Listeners

82 Listeners

197 Listeners

103 Listeners

313 Listeners

115 Listeners

97 Listeners

81 Listeners

50 Listeners

26 Listeners

6 Listeners

23 Listeners