
Sign up to save your podcasts
Or


פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
By Tamir Nave, Mike Erlihson & Uri Goren5
11 ratings
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL

21 Listeners

163 Listeners

140 Listeners

10 Listeners

39 Listeners

38 Listeners

13 Listeners

192 Listeners

24 Listeners

94 Listeners

308 Listeners

98 Listeners

15 Listeners

13 Listeners

6 Listeners