研究 综合自 3 个来源

苹果发现:基础模型自发校准语义置信度

要点

  • 基础模型无需显式训练即可展现语义校准
  • 采样方法揭示语义层面的置信度而非token级
  • 校准能力是预训练语言结构的副产物
  • 当前微调方法可能覆盖原生校准能力
  • 对安全关键AI部署具有深远影响
参考来源 (3)
  1. [1] 苹果发现基础LLM具备语义校准能力 — Apple Machine Learning Research
  2. [2] 苹果推出AutoPlay可扩展智能体训练方案 — Apple Machine Learning Research
  3. [3] SafetyPairs:用反事实图像分离安全关键特征 — Apple Machine Learning Research

训练耗时为零,但基础模型已经知道"自己不知道什么"。这是苹果机器学习研究团队最新论文的核心发现,它颠覆了关于大语言模型的一个基本假设。

学界长期认为,LLM擅长预测下一个token,但在表达真正的不确定性方面表现欠佳。开发者们依赖思维链提示、外部验证器或昂贵的微调来注入校准能力,将其视为工程问题而非固有特性。苹果研究者发现了不同的情况:基础模型已经具备有意义的语义校准——能够评估的不是单个token的置信度,而是输出的实际含义。

机制研究与发现本身同样重要。团队证实,基于采样方法能够揭示这种校准能力:当你对多个补全结果进行采样并测量其语义一致性时,基础模型表现出显著一致的置信度信号。在开放域问答任务中,模型对真正模糊的查询表达更高不确定性,对定义明确的事实表达更低不确定性——这种校准在不同采样温度和问题领域都保持稳定。

这并非玩具演示。研究团队将其与标准不确定性量化基准进行对比,发现基础模型的表现与经过显式校准训练的模型相当。这种能力的涌现似乎与产生连贯文本生成的预训练过程相关联。模型在学习语言结构的过程中,顺便学会了表达语义不确定性,而非将其作为独立目标。

这一发现的影响向外扩散。目前安全关键部署需要大量后期训练才能让人工智能的置信度信号可靠。如果基础模型已具备这种能力,现有方法可能是多余的——或者更糟的是,用校准不佳的代理覆盖了原生校准。研究表明,团队应在微调前测量基础模型的校准表现,将其作为基准而非缺陷。

当然存在局限。采样方法增加了实时应用可能无法承受的计算开销。语义校准不能保证在每个下游任务上都保持校准,尤其是远离预训练分布的任务。理论框架虽然有说服力,但仍需解答为何某些模型架构表现出更强的校准能力。

苹果的工作将问题框架从"能否让LLM表达不确定性"转变为"为何我们曾假设它们无法做到"。对这个转变的回答,将重塑开发者构建可靠人工智能系统的方式。

0:00