研究综合自 1 个来源

强化学习接微调：小心给模型缺陷打补丁

要点

• 强化学习会放大而非纠正微调埋下的缺陷
• SFT嵌入的有缺陷模式被RL逐层强化
• Agent系统会传播逐级放大的幻觉
• RL训练前必须审计微调阶段造成的损伤
• 商业压力正推动团队跳过关键诊断环节

参考来源 (1)

[1] 多模态模型SFT后慎接RL — 量子位 QbitAI ↗

当前AI开发领域最危险的假设，莫过于相信强化学习能修复监督微调埋下的缺陷。量子位的技术分析揭示了一个令人不安的规律：急于部署AI Agent的团队，正在用隐藏缺陷的地基搭建高楼，而业界惯用的"模型优化手册"可能正在让情况恶化。

这项发现颠覆了传统认知。业界一直将SFT和RL视为递进关系——先训练基座模型，再微调，最后强化。然而这个框架忽视了一个关键问题：当SFT在一个多模态模型中嵌入有缺陷的模式后，后续的RL训练不会纠正这些错误，反而会对其进行优化。模型变得更擅长复现微调阶段学到的东西，包括那些本应被消除的、容易产生幻觉的行为。

问题在于机制设计。SFT让模型接触精心策划的演示数据，教会它模仿这些数据中的模式。如果演示数据本身就包含隐藏的偏见、漏洞或错误，模型会照单全收。RL随后通过奖励信号来强化模型当前的行为。既然模型已经内化了有缺陷的模式，它就会更自信地执行这些模式。这里不存在"遗忘"阶段——只有对既有问题的逐层放大。

这对于Agent系统至关重要。现代AI部署将多种模型能力串联起来：视觉输入触发文本生成、工具调用决策依赖检索结果、多步骤推理链中每个环节都会放大前一个环节的错误。当作为链条底层基础的模型存在SFT诱导的缺陷时，RL并不会隔离这些缺陷，而是将其传播到每一个下游决策中。一个在测试中偶尔产生幻觉的模型，在生产环境中会系统性地产生幻觉。

量子位的分析给出了实操建议：团队在应用RL之前，应该审计并修复SFT造成的"内伤"。识别微调阶段实际教会了模型什么，而不仅仅是它应该教什么。针对源于微调数据的故障模式进行测试，而不仅仅是针对基座模型。在RL过程中，必须清晰了解哪些行为正在被强化。

行业趋势与这些建议背道而驰。商业压力推动团队快速交付Agent产品，把RL当作一个打勾练习，而非精心排序的修复步骤。"演示中有效"与"生产环境中可靠"之间的差距越来越大，正是因为团队跳过了诊断工作。SFT的缺陷悄然累积，直到以难以逆转的方式暴露出来。

当Agent系统承担起高利害决策——医疗建议、法律分析、自动驾驶——幻觉被放大的代价随之攀升。一个自信地生成似是而非内容的模型，被RL强化得越来越可靠地生成这种内容，就成了部署范围越广、风险越大的隐患。

这项研究是一记警钟，而非禁令。RL仍然是强大的工具。但如果团队把RL当作微调问题的万能解药，那他们就是在错误的前提下运作。问题不在于SFT之后是否该用RL——而在于RL将要强化的基础，是否足够稳固。