September 10, 2025

XQuant：突破大型语言模型推理的内存瓶颈

15 minutes

本期节目我们将深入探讨XQuant，一项通过巧妙利用计算能力超越内存限制的创新技术。它如何通过量化输入激活X而非KV缓存，实现高达12.5倍的内存节省，同时保持接近FP16的精度，为LLM推理带来革命性变革？我们还将揭示XQuant-CL如何利用跨层相似性，以及如何支持GQA模型，共同探讨这项面向未来的技术如何加速大模型应用！

...more

View all episodes

By weedge

September 10, 2025

XQuant：突破大型语言模型推理的内存瓶颈

15 minutes

...more

Share XQuant：突破大型语言模型推理的内存瓶颈

Sign up to save your podcasts

XQuant：突破大型语言模型推理的内存瓶颈

XQuant：突破大型语言模型推理的内存瓶颈