研究综合自 1 个来源

苹果发现VLM内部表示层泄露训练数据

要点

• 苹果研究：探测残差流可提取未在输出中出现的训练数据
• 首次系统性比较VLM不同表示层的信息保留情况
• 漏洞源于架构——输出过滤无法阻止内部表示泄露
• 研究提供了评估模型隐私保护特性的诊断框架
• 发现挑战了控制输出等于控制学习信息的假设

参考来源 (1)

[1] 苹果研究揭示视觉语言模型信息泄露风险 — Apple Machine Learning Research ↗

想象一位苹果研究员对一个视觉语言模型的内部激活状态运行标准的"探测"任务。她在模型的残差流上应用了一个简单的线性分类器——这是视觉和文本信息融合的数据高速公路。她发现的结果令人担忧：训练图像中的私密细节以模型所有者从未打算暴露的方式浮现出来。模型没有生成这些信息，它泄露了它们。

这就是苹果新论文《你的Logits知道什么？》的核心发现。这项工作代表了AI安全社区罕见一见的东西：具体证据表明，视觉语言模型不仅仅会产生幻觉——它们在架构上保留着所有者以为无法访问的信息。论文系统性地证明，对模型内部表示的探测可以提取从未出现在任何生成输出中的训练数据。

研究人员专注于他们所称的VLMs"表示层级"。随着信息流经模型的残差流，它会经过自然的瓶颈——低维投影，丰富的视觉和文本数据在此压缩成更密集的形式。苹果团队发现，这些压缩点并不会均匀地丢弃信息。某些细节以足够被简单线性分类器检测出的数量存活下来，即使同样的信息从未在模型的显式输出中浮出水面。

这很重要，因为AI安全领域在很大程度上将幻觉和泄露视为生成问题。对策集中在输出过滤、内容审核和指令微调——所有这些都是解决模型输出内容的方法，而非嵌入其中的东西。苹果的研究表明，这个框架可能根本不完整。当应用在线隐藏层上的线性探测能够提取即使经过复杂输出层面 safeguards 也成功压制的信息时，漏洞不在模型的嘴巴——而在架构的记忆中。

这种区分对行业应对方式至关重要。护栏处理症状。架构变更处理原因。如果信息在压缩后仍保留在残差流表示中，那么有效的解决方案需要重新思考VLMs如何处理和丢弃数据——而不仅仅是在生成时添加更多过滤器。

苹果的贡献不仅限于识别问题。论文提供了首个跨视觉语言模型不同表示层的信息保留系统比较。通过绘制信息和文本在压缩中存活的位置和方式，该研究建立了一种评估模型架构隐私保护特性的方法。未来的VLM设计原则上可以在部署前评估其保留敏感信息的倾向。

这些发现影响深远。隐私法规越来越多地要求组织控制模型"学到"的哪些数据。苹果的工作表明，控制输出并不等同于控制表示——模型可能遵守每一个生成策略，同时仍以仔细探测可能恢复的方式将其敏感信息编码在权重中。对于处理医疗记录、财务数据或个人图像的企业部署，这种区分具有真实的法律和伦理重量。

该研究还与更广泛的模型可解释性问题相关。理解哪些信息在压缩中存活有助于研究人员绘制模型实际表示的内容与仅生成的内容之间的对应关系。这种对应关系反过来又为构建内部状态与外部行为一致的AI系统的努力提供支持——这一目标仍然难以捉摸，但随着这些模型更深地嵌入关键基础设施而变得越来越紧迫。

苹果团队没有给出具体架构修复的处方。但他们的诊断框架清楚地指向一个结论：下一代VLM安全研究必须关注模型内部发生的事情，而不仅仅是模型外部输出的内容。