研究 综合自 1 个来源

强化学习接微调:小心给模型缺陷打补丁

要点

  • 强化学习会放大而非纠正微调埋下的缺陷
  • SFT嵌入的有缺陷模式被RL逐层强化
  • Agent系统会传播逐级放大的幻觉
  • RL训练前必须审计微调阶段造成的损伤
  • 商业压力正推动团队跳过关键诊断环节
参考来源 (1)
  1. [1] 多模态模型SFT后慎接RL — 量子位 QbitAI

当前AI开发领域最危险的假设,莫过于相信强化学习能修复监督微调埋下的缺陷。量子位的技术分析揭示了一个令人不安的规律:急于部署AI Agent的团队,正在用隐藏缺陷的地基搭建高楼,而业界惯用的"模型优化手册"可能正在让情况恶化。

这项发现颠覆了传统认知。业界一直将SFT和RL视为递进关系——先训练基座模型,再微调,最后强化。然而这个框架忽视了一个关键问题:当SFT在一个多模态模型中嵌入有缺陷的模式后,后续的RL训练不会纠正这些错误,反而会对其进行优化。模型变得更擅长复现微调阶段学到的东西,包括那些本应被消除的、容易产生幻觉的行为。

问题在于机制设计。SFT让模型接触精心策划的演示数据,教会它模仿这些数据中的模式。如果演示数据本身就包含隐藏的偏见、漏洞或错误,模型会照单全收。RL随后通过奖励信号来强化模型当前的行为。既然模型已经内化了有缺陷的模式,它就会更自信地执行这些模式。这里不存在"遗忘"阶段——只有对既有问题的逐层放大。

这对于Agent系统至关重要。现代AI部署将多种模型能力串联起来:视觉输入触发文本生成、工具调用决策依赖检索结果、多步骤推理链中每个环节都会放大前一个环节的错误。当作为链条底层基础的模型存在SFT诱导的缺陷时,RL并不会隔离这些缺陷,而是将其传播到每一个下游决策中。一个在测试中偶尔产生幻觉的模型,在生产环境中会系统性地产生幻觉。

量子位的分析给出了实操建议:团队在应用RL之前,应该审计并修复SFT造成的"内伤"。识别微调阶段实际教会了模型什么,而不仅仅是它应该教什么。针对源于微调数据的故障模式进行测试,而不仅仅是针对基座模型。在RL过程中,必须清晰了解哪些行为正在被强化。

行业趋势与这些建议背道而驰。商业压力推动团队快速交付Agent产品,把RL当作一个打勾练习,而非精心排序的修复步骤。"演示中有效"与"生产环境中可靠"之间的差距越来越大,正是因为团队跳过了诊断工作。SFT的缺陷悄然累积,直到以难以逆转的方式暴露出来。

当Agent系统承担起高利害决策——医疗建议、法律分析、自动驾驶——幻觉被放大的代价随之攀升。一个自信地生成似是而非内容的模型,被RL强化得越来越可靠地生成这种内容,就成了部署范围越广、风险越大的隐患。

这项研究是一记警钟,而非禁令。RL仍然是强大的工具。但如果团队把RL当作微调问题的万能解药,那他们就是在错误的前提下运作。问题不在于SFT之后是否该用RL——而在于RL将要强化的基础,是否足够稳固。

0:00