Tequila 新型大语言模型(LLM)三值量化技术,旨在解决模型压缩过程中的性能损失问题。传统的三值量化通过将权重限制在 {-1, 0, 1} 来加速推理,但容易导致大量权重陷入“死区(deadzone)”,因缺乏有效梯度而无法优化。Tequila 创新性地将这些被困权重重新利用为动态偏置,通过可微的激活函数为模型提供持续的信号流。实验表明,该方法在显著提升模型精度的同时,仅需极少的训练数据即可接近全精度性能。此外,由于偏置项可离线预计算,Tequila 在保持 3.0倍推理加速的同时几乎不增加额外开销,为边缘设备的低功耗部署提供了高效方案。