🎬 Apriamo la puntata di questa settimana parlando della recente chiusura di Sora da parte di Open AI. Modelli di questo tipo richiedono costi elevati ed evidentemente nemmeno Open AI può più permettersi di perdere soldi.⚡ Il cuore della puntata è dedicato a TurboQuant, una tecnica che promette una quantizzazione più efficace, da utilizzare anche per la KV Cache . Tra vettori, quantizzazione e compromessi tra compressione e qualità, vediamo come sia possibile ridurre drasticamente la memoria utilizzata mantenendo prestazioni elevate, avvicinandosi persino ai limiti teorici della compressione. 🏗️ Chiudiamo con uno sguardo all’infrastruttura che rende tutto questo possibile: i nuovi rack NVIDIA pongono sfide enormi in termini di energia e raffreddamento. Tra data center sempre più energivori e strategie tra nucleari e rinnovabili, il futuro dell’AI passa anche (e soprattutto) da qui.Supporta il PointerPodcast
La nostra pagina supportaciUnitevi al nostro gruppo Telegram per discutere della puntataLascia una recensione su SpotifyLascia una recensione su Apple PodcastAcquista il prodotto della settimana o parti da uno dei link qui sotto per fare acquisti su Amazon!Prodotto della settimana
Build a Large Language Model from ScratchNote Puntata
TurboQuant: Redefining AI efficiency with extreme compressionTurboQuant: Online Vector Quantization with Near-optimal Distortion RateTurboQuant: What 3-Bit KV Caches Actually Mean for Your Inference StackI nostri contatti:
Gruppo TelegramLinkedInTwitchYouTubeInstagramTwitterMail