今年修复大模型幻觉问题最具可操作性的洞察,并非来自某个高调的 frontier 模型发布,而是苹果机器学习研究团队在 ICLR 2026 研讨会上的低调论文。他们的核心发现挑战了行业公理:更多训练数据并不总能产生更准确的模型。事实上,当数据超过模型的信息容量上限时,事实准确性反而会下降。这不是理论上的奇思妙想,而是为每个构建知识密集型 AI 产品的团队提供的实用框架。
苹果团队从信息论角度形式化了事实记忆化问题,提出了一个看似简单的问题:是什么决定了大模型可靠存储事实还是产生看似合理但错误的答案?他们的答案围绕信息容量限制展开。模型每参数、每训练 token 能吸收的信息量是有限的。当训练语料超过这个阈值时,模型无法完全编码所有存在的事实。结果是选择性遗忘——有时是对错误事实的遗忘,且没有可预测的模式。
论文证明,战略性数据修剪提供了一条前进的道路。与其向模型输入所有可用数据并寄希望于最好结果,不如基于信息论原则进行筛选,可以提高知识密集型任务的可靠性。含义是深远的:在数据管道规模化上投入数十亿美元的组织,通过更智能的选择可能会获得更好的准确性。
批评者会指出,研讨会论文缺乏主会论文的同行评审严谨性,且这些发现需要在更大规模上复现。论文也狭义地关注事实记忆化,而非使大模型有用的更广泛能力。纯粹为准确性优化的模型可能会牺牲创造力或推理灵活性。
然而时机很关键。随着企业客户要求 AI 在医疗、法律和金融应用中表现可靠,幻觉仍然是决定性的失败模式。苹果研究人员提供了一个攻击问题根源——训练数据本身——的严谨框架。对于实践者来说,清晰的路径是:衡量训练数据的信息密度,而不仅仅是数量。数据最大化的时代可能即将终结。