March 11, 2025

AI Radio FM - 动态内存压缩技术

4 minutes

本期播客深入探讨了动态内存压缩（DMC）技术，这是一种在推理时在线压缩键值（KV）缓存的方法，旨在提高大型语言模型（LLM）的效率。通过在预训练的LLM（如Llama 2）上应用DMC，可以在不增加额外参数的情况下显著提高推理吞吐量，同时保持原始模型的下游性能。

...more

By weedge

March 11, 2025

4 minutes

...more

Share AI Radio FM - 动态内存压缩技术