November 30, 2024

Gaming e intelligenza artificiale. BALROG il Nuovo standard per LLM e VLM

12 minutes

La puntata presenta BALROG, un nuovo benchmark ideato per valutare le capacità agentiche di modelli linguistici di grandi dimensioni (LLM) e modelli linguistici visivi (VLM). BALROG utilizza una serie di giochi di difficoltà crescente, che spaziano da BabyAI a NetHack, per testare abilità come il ragionamento spaziale e la pianificazione a lungo termine. I risultati rivelano significative lacune nei modelli attuali, in particolare riguardo al "knowing-doing gap" e all'integrazione di input visivi. Lo studio sottolinea la necessità di migliorare la pianificazione a lungo termine, l'integrazione visuo-linguistica e di colmare il divario tra conoscenza teorica e azione pratica, al fine di sviluppare agenti AI più autonomi ed efficaci.

...more

View all episodes

By Andrea Viliotti – Consulente Strategico AI per la Crescita Aziendale

November 30, 2024

Gaming e intelligenza artificiale. BALROG il Nuovo standard per LLM e VLM

12 minutes

...more

Share Gaming e intelligenza artificiale. BALROG il Nuovo standard per LLM e VLM

Sign up to save your podcasts

Gaming e intelligenza artificiale. BALROG il Nuovo standard per LLM e VLM

Gaming e intelligenza artificiale. BALROG il Nuovo standard per LLM e VLM