
Sign up to save your podcasts
Or


Et si on pouvait diviser par six la mémoire nécessaire à l'intelligence artificielle… sans perdre une seule once de qualité ?
En mars 2026, Google Research a publié TurboQuant — un algorithme de compression qui a fait chuter les actions des fabricants de mémoire, inspiré des comparaisons avec le Pied Piper de la série Silicon Valley, et qui sera présenté à ICLR 2026, l'une des plus grandes conférences mondiales en apprentissage automatique.
Dans cet épisode, on décortique tout. Pas la surface. Le fond.
Ce que vous allez découvrir :
🔹 Pourquoi la mémoire — pas le calcul — est le vrai gouffre financier de l'IA, et comment le KV cache dévore les GPU à chaque mot généré
🔹 La limite fondamentale posée par Claude Shannon en 1959 : il existe un mur de compression qu'aucun algorithme ne franchira jamais. TurboQuant s'en approche à un facteur 2,7
🔹 L'astuce géniale au cœur de l'algorithme : une rotation aléatoire qui transforme un problème impossible en un problème trivial, résolu par un quantifieur vieux de 65 ans
🔹 Le problème du biais — et comment un correcteur à 1 bit emprunté au lemme de Johnson-Lindenstrauss rend le tout mathématiquement non biaisé
🔹 Les benchmarks : 0,997 de rappel sur le test needle-in-a-haystack (identique au modèle non compressé), score LongBench inchangé à 3,5 bits, et un temps d'indexation 200 000 fois plus rapide que la product quantization classique
🔹 Les implications économiques et boursières : pourquoi CNBC, Bloomberg et TechCrunch ont tous couvert l'annonce, et ce que ça signifie pour l'avenir de l'infrastructure IA
Un épisode à l'intersection des mathématiques, de l'ingénierie et de l'économie de l'IA.
📄 Papier source : Zandieh, Daliri, Hadian, Mirrokni — TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate (arXiv:2504.19874, ICLR 2026)
By Franck Dubray - DragonflyEt si on pouvait diviser par six la mémoire nécessaire à l'intelligence artificielle… sans perdre une seule once de qualité ?
En mars 2026, Google Research a publié TurboQuant — un algorithme de compression qui a fait chuter les actions des fabricants de mémoire, inspiré des comparaisons avec le Pied Piper de la série Silicon Valley, et qui sera présenté à ICLR 2026, l'une des plus grandes conférences mondiales en apprentissage automatique.
Dans cet épisode, on décortique tout. Pas la surface. Le fond.
Ce que vous allez découvrir :
🔹 Pourquoi la mémoire — pas le calcul — est le vrai gouffre financier de l'IA, et comment le KV cache dévore les GPU à chaque mot généré
🔹 La limite fondamentale posée par Claude Shannon en 1959 : il existe un mur de compression qu'aucun algorithme ne franchira jamais. TurboQuant s'en approche à un facteur 2,7
🔹 L'astuce géniale au cœur de l'algorithme : une rotation aléatoire qui transforme un problème impossible en un problème trivial, résolu par un quantifieur vieux de 65 ans
🔹 Le problème du biais — et comment un correcteur à 1 bit emprunté au lemme de Johnson-Lindenstrauss rend le tout mathématiquement non biaisé
🔹 Les benchmarks : 0,997 de rappel sur le test needle-in-a-haystack (identique au modèle non compressé), score LongBench inchangé à 3,5 bits, et un temps d'indexation 200 000 fois plus rapide que la product quantization classique
🔹 Les implications économiques et boursières : pourquoi CNBC, Bloomberg et TechCrunch ont tous couvert l'annonce, et ce que ça signifie pour l'avenir de l'infrastructure IA
Un épisode à l'intersection des mathématiques, de l'ingénierie et de l'économie de l'IA.
📄 Papier source : Zandieh, Daliri, Hadian, Mirrokni — TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate (arXiv:2504.19874, ICLR 2026)