❓ 'Il modello ha 397 miliardi di parametri ma solamente 17 miliardi vengono attivati per ogni forward pass'. Probabilmente avrete sentito frasi di questo tipo nel corso degli ultimi mesi, ma qual è il motivo per cui solamente una parte dei miliardi di parametri di un LLM viene attivato? 💥 In questa puntata cerchiamo di dare una risposta alla domanda precedente, spiegandovi cosa sono e come funzionano i modelli Mixture of Experts e per quale motivo sono diventati popolari nel corso dell'ultimo periodo. 🎵 Prima di concludere, abbiamo lasciato spazio ad una discussione riguardante Lyria 3, il nuovo servizio di generazione di musica di Google, che Alessandro ha testato e di cui ci fornisce un feedback.Supporta il PointerPodcast
La nostra pagina supportaciUnitevi al nostro gruppo Telegram per discutere della puntataLascia una recensione su SpotifyLascia una recensione su Apple PodcastAcquista il prodotto della settimana o parti da uno dei link qui sotto per fare acquisti su Amazon!Prodotto della settimana
Build a Large Language Model from ScratchNote Puntata
Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 3 - Tranformers & Large Language ModelsMixtral of expertsMixture of Experts Explained The Big LLM Architecture ComparisonI nostri contatti:
Gruppo TelegramLinkedInTwitchYouTubeInstagramTwitterMail