研究 综合自 4 个来源

苹果修正RLHF隐患:算术平均掩盖系统失灵

要点

  • RVPO惩罚奖励方差,防止安全失败被其他成功掩盖
  • 标准RLHF使用算术平均聚合,存在约束忽略漏洞
  • 苹果一周内发布四篇论文,覆盖对齐、3D和隐私研究
  • HeadsUp通过UV参数化将高斯数量与输入分辨率解耦
  • Velox使用双解码器从非结构化点云学习4D几何
  • 随着AI处理更高风险任务,这一缺陷变得尤为关键
参考来源 (4)
  1. [1] 苹果提出RVPO解决RLHF安全缺陷 — Apple Machine Learning Research
  2. [2] HeadsUp实现大规模3D高斯头部重建 — Apple Machine Learning Research
  3. [3] Velox从点云学习四维几何表示 — Apple Machine Learning Research
  4. [4] 苹果举办隐私保护机器学习研讨会 — Apple Machine Learning Research

每家AI实验室都在发布对齐研究。但真正解决核心问题的,少之又少。标准强化学习方法——通过简单算术平均聚合多个目标——存在一个漏洞,在风险最高时变得最危险。当某一奖励飙升而安全约束失效时,数学计算会掩盖失败。巨大的成功可以用数字抵消严重的失误。模型在聚合数据中看起来对齐良好;在实际部署中却会失败。苹果机器学习研究团队于5月8日发布奖励-方差策略优化(RVPO),正是为了解决这一失效模式。与其最大化奖励总和,RVPO惩罚奖励信号间的方差,将目标从“最大化总和”转向“最大化一致性”。安全失败不再消失在格式化成功背后。

这不是华丽的研究。它没有在任何排行榜上声称达到最先进水平。它解决的是一个微妙的数值不稳定性问题,如果不纠正,可能导致AI系统在训练期间看起来对齐良好,却在生产环境中对特定输入灾难性地失败。问题之所以出现,是因为现实部署需要平衡竞争目标——有用性、诚实性、无害性——而当前方法通过一个数学技巧来处理这种平衡,这个技巧掩盖了结构性弱点。

时机值得关注。在短短一周内,苹果ML研究团队发表了四篇论文:关于对齐的RVPO、关于多摄像头捕获的3D高斯头部重建的HeadsUp、关于从非结构化点云学习4D几何的Velox,以及关于其内部隐私保护机器学习研讨会的更新。光是数量就表明这是有协调的战略投资,而非机会性发表。

将这些截然不同的项目联系在一起的是一个主题,只有从整体角度才能看到:基础设施工具,而非排行榜主导。HeadsUp通过UV参数化表示将高斯数量与输入分辨率解耦,从而能够使用高分辨率视图进行更高效的训练。Velox将时空点云压缩为由用于表面和体积重建的双解码器监督的令牌。这两篇论文都推进了化身渲染、机器人和空间计算的能力——苹果已表示这些是战略重要领域——同时解决了纯粹追求排行榜者永远不会解决的工程瓶颈。

隐私研讨会强化了这一模式。苹果多年来坚持认为隐私是一项基本人权,AI进步必须在这个约束条件下进行,不是事后添加。RVPO解决的RLHF漏洞本质上是一个与隐私相关的失效模式:无法可靠审计哪些目标失败的系统。

三个月前,一个知名AI实验室的模型通过了所有可用安全基准测试。随后它表现出没有任何基准测试能捕捉到的系统性失效模式。基准测试性能与真实世界可靠性之间的差距依然巨大,部分原因是解决微妙的训练不稳定性不会获得头条新闻,而实现边际基准测试改进会产生巨大关注。

苹果的发表频率表明,这是一个比季度演示周期更长远的研究组织。RVPO解决的漏洞将随着AI系统承担更高风险交互——医疗建议、财务规划、法律咨询——而变得越来越关键。当失败是灾难性的,一致性比峰值性能更重要。算术平均的弱点在于它奖励偶尔表现出色而可靠地忽略安静失败的系统。RVPO使安静失败变得可见。这种可见性早已迟到,而且比任何排行榜排名都重要。

0:00