每日AI

DeepSeek:Engram死记硬背让AI更聪明


Listen Later

这篇文章介绍了一种名为 Engram 的新型大型语言模型模块,旨在通过引入条件内存(Conditional Memory)来解决传统 Transformer 在处理静态知识检索时的低效问题。研究团队发现,现有模型常需消耗多层计算来模拟简单的信息查找,而 Engram 能够通过 O(1) 复杂度的查表操作直接提取 $N-gram$ 知识。通过对稀疏分配问题的深入研究,作者揭示了神经计算与静态内存之间的 U型扩展法则,从而在保持计算量不变的情况下显著提升了模型性能。实验证明,该技术不仅增强了模型的知识检索能力,还在逻辑推理、代码编写及长文本处理等方面表现优异。此外,Engram 的确定性寻址特性支持从宿主内存进行高效预取,克服了 GPU 显存限制,为构建超大规模稀疏模型提供了高效的基础设施方案。

...more
View all episodesView all episodes
Download on the App Store

每日AIBy 每日新闻