研究 综合自 1 个来源

大模型自我迭代陷有损压缩困境

要点

  • AI在合成数据上训练如JPEG反复保存般丢失信息
  • 模型崩溃研究显示递归训练导致可测量的降级
  • 更好的评估方法无法恢复生成阶段丢失的信息
  • 种子AI需要自我修改的架构设计,当前的LLM缺乏
  • 寡头叙事掩盖了根本的压缩问题
参考来源 (1)
  1. [1] 递归自我改进或导致AI能力逐代衰减 — Interconnects

大模型若能自我改进,究竟是变得更聪明,还是变得更干瘪?

递归自我改进(RSI)叙事已占据AI界想象力。根据这一观点,当前的大语言模型已经足够优秀,能够开始改进自身的架构和训练流程,形成闭环放大效应,最终达到超级智能。逻辑听起来简洁清晰,现实却是有损的。

Interconnects的一篇深度分析揭示了这一推理的根本缺陷:每代AI在用AI生成的数据训练时都会丢失信息,就像反复保存JPEG文件一样。每次压缩都会引入伪影。迭代次数足够多,图像就会变成一团模糊。你无法通过再次保存来找回丢失的细节。

有损压缩描述的是JPEG图像如何丢弃细微细节以减小文件大小。打开,保存,重复。降级累积。明亮的红色褪成橙色,锐利边缘模糊成渐变。文件变小了,画面变差了。

语言模型面临类似问题。当模型为下一代生成训练数据时,它优先选择高概率输出——统计上典型的响应。被挤出去的是长尾部分:不寻常的表达、边缘案例、有创造力的例外,这些正是原始数据集丰富性的来源。经过足够多次迭代后,模型收敛到人类表达的压缩版平庸值,失去了使其有价值的细微差别。

这不仅是假设担忧。模型崩溃研究已经证明,在合成数据上训练会可测量地降低性能。这种降级不是随机噪声——而是系统性地向一种单一模式收敛,看起来合理,却缺乏源材料的丰富性。

关于RSI的大众论述将自我改进描述为能力复利的工具。实际上并非如此。它是压缩。

反驳观点认为,更好的评估方法可以更谨慎地引导自我改进,只选择高质量输出用于训练。这有帮助,但没有解决根本的压缩问题。即使是最好的过滤器也无法恢复从未生成的信息。在模型输出中进行选择意味着在压缩表示中进行选择。信息丢失发生在生成阶段,而非筛选阶段。

有人提出用显式记忆和检索系统在迭代间保留多样性。这些是很有意思的架构。它们解决的是存储问题,而非压缩问题。模型仍然从有损的内部表示生成。外部记忆只是改变了伪影积累的位置。

种子AI概念可追溯到2007年Yudkowsky的论述,想象一个从设计之初就为自我理解和递归修改而构建的AI。这需要初级智能来引导发展。今天的模型能力强大得多——但它们并非为自我修改而构建。它们被训练来预测下一个token。这不是同一套底层架构。

寡头叙事——两三个实验室将通过资本和人才集中主导AI——转移了对更根本问题的注意力。瓶颈不是资源集中,而是信息丢失。

自我改进循环可能仍然产生有用的能力。通过更好的工具、更好的评估、更好的架构获得的渐进收益是真实且有价值的。但假设这些循环会复合成指数级智能增长,就需要忽略一个数学现实:每次通过有损压缩器的迭代都会产生更小、更扁平、能力更弱的输出。

除非有人解决压缩问题,否则递归自我改进将始终停留在愿景层面,而非实现机制。

0:00