
Sign up to save your podcasts
Or


פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
By Tamir Nave, Mike Erlihson & Uri Goren5
11 ratings
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL

21 Listeners

163 Listeners

143 Listeners

11 Listeners

37 Listeners

37 Listeners

12 Listeners

195 Listeners

26 Listeners

94 Listeners

306 Listeners

95 Listeners

15 Listeners

13 Listeners

5 Listeners