Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
September 10, 2025XQuant:突破大型语言模型推理的内存瓶颈15 minutesPlay本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存,实现高达12.5倍的内存节省,同时保持接近FP16的精度,为LLM推理带来革命性变革?我们还将揭示XQuant-CL如何利用跨层相似性,以及如何支持GQA模型,共同探讨这项面向未来的技术如何加速大模型应用!...moreShareView all episodesBy weedgeSeptember 10, 2025XQuant:突破大型语言模型推理的内存瓶颈15 minutesPlay本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存,实现高达12.5倍的内存节省,同时保持接近FP16的精度,为LLM推理带来革命性变革?我们还将揭示XQuant-CL如何利用跨层相似性,以及如何支持GQA模型,共同探讨这项面向未来的技术如何加速大模型应用!...more
本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存,实现高达12.5倍的内存节省,同时保持接近FP16的精度,为LLM推理带来革命性变革?我们还将揭示XQuant-CL如何利用跨层相似性,以及如何支持GQA模型,共同探讨这项面向未来的技术如何加速大模型应用!
September 10, 2025XQuant:突破大型语言模型推理的内存瓶颈15 minutesPlay本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存,实现高达12.5倍的内存节省,同时保持接近FP16的精度,为LLM推理带来革命性变革?我们还将揭示XQuant-CL如何利用跨层相似性,以及如何支持GQA模型,共同探讨这项面向未来的技术如何加速大模型应用!...more
本期节目我们将深入探讨XQuant,一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存,实现高达12.5倍的内存节省,同时保持接近FP16的精度,为LLM推理带来革命性变革?我们还将揭示XQuant-CL如何利用跨层相似性,以及如何支持GQA模型,共同探讨这项面向未来的技术如何加速大模型应用!