研究综合自 1 个来源

苹果论文揭示：删减训练数据反而提升模型准确性

要点

• 苹果论文：训练数据超容量时模型事实准确性反而下降
• 信息论框架解释了大模型的选择性遗忘机制
• 战略性数据修剪比增加数据量更能提升准确性
• 论文被 ICLR 2026 基础模型数据问题研讨会接收
• 该发现挑战了大模型开发中的数据最大化假设

参考来源 (1)

[1] 苹果研究：数据剪枝提升LLM记忆准确性 — Apple Machine Learning Research ↗

今年修复大模型幻觉问题最具可操作性的洞察，并非来自某个高调的 frontier 模型发布，而是苹果机器学习研究团队在 ICLR 2026 研讨会上的低调论文。他们的核心发现挑战了行业公理：更多训练数据并不总能产生更准确的模型。事实上，当数据超过模型的信息容量上限时，事实准确性反而会下降。这不是理论上的奇思妙想，而是为每个构建知识密集型 AI 产品的团队提供的实用框架。

苹果团队从信息论角度形式化了事实记忆化问题，提出了一个看似简单的问题：是什么决定了大模型可靠存储事实还是产生看似合理但错误的答案？他们的答案围绕信息容量限制展开。模型每参数、每训练 token 能吸收的信息量是有限的。当训练语料超过这个阈值时，模型无法完全编码所有存在的事实。结果是选择性遗忘——有时是对错误事实的遗忘，且没有可预测的模式。

论文证明，战略性数据修剪提供了一条前进的道路。与其向模型输入所有可用数据并寄希望于最好结果，不如基于信息论原则进行筛选，可以提高知识密集型任务的可靠性。含义是深远的：在数据管道规模化上投入数十亿美元的组织，通过更智能的选择可能会获得更好的准确性。

批评者会指出，研讨会论文缺乏主会论文的同行评审严谨性，且这些发现需要在更大规模上复现。论文也狭义地关注事实记忆化，而非使大模型有用的更广泛能力。纯粹为准确性优化的模型可能会牺牲创造力或推理灵活性。

然而时机很关键。随着企业客户要求 AI 在医疗、法律和金融应用中表现可靠，幻觉仍然是决定性的失败模式。苹果研究人员提供了一个攻击问题根源——训练数据本身——的严谨框架。对于实践者来说，清晰的路径是：衡量训练数据的信息密度，而不仅仅是数量。数据最大化的时代可能即将终结。