
Sign up to save your podcasts
Or


פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
By Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang5
11 ratings
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL

93 Listeners

159 Listeners

147 Listeners

36 Listeners

83 Listeners

191 Listeners

104 Listeners

318 Listeners

117 Listeners

99 Listeners

81 Listeners

53 Listeners

30 Listeners

4 Listeners

23 Listeners