这项研究提出了一种名为 RKLD 的新型大型语言模型(LLM)去学习(Unlearning)算法,旨在有效删除模型中的个人隐私信息,以符合“被遗忘权”等法律法规。传统的梯度上升(GA)方法虽然能减少目标信息的出现,但往往会破坏模型的语义理解能力和通用效用。RKLD 算法通过构建一个专门的**“去学习教师模型”来引导学生模型,精准识别并移除特定的隐私标记,同时保留无关的分布。研究表明,采用逆向 KL 散度(Reverse KL-Divergence)作为蒸馏损失函数,能够比前向散度更有效地平衡遗忘质量与模型性能**。实验证明,RKLD 在 TOFU 基准测试中表现优异,不仅实现了深度遗忘,还成功维持了模型的通用逻辑能力和知识完整性。