研究综合自 2 个来源

基准测试的完美分数为何在现实中失灵

要点

参考来源 (2)

如果一个人工智能能在影像诊断上比任何放射科医生更精准，为何它反而拖慢了医院的工作效率？

这是麻省理工学院科技评论最新分析的核心问题，答案揭示了整个领域在衡量人工智能进展方面的危机。简而言之：当前的基准测试衡量的是错误的东西。它们奖励的是合成任务表现，却系统性地忽略了真正重要的东西——人工智能在嵌入真实的人类团队和组织工作流程时是否能创造价值。

基准测试的幻象

几十年来，人工智能领域一直通过一个简单的框架来评估系统：机器能否在定义的任务上超越人类？象棋、数学题、编程基准测试、论文质量评分。这种方法产生了清晰的数字、可排序的排名和引人注目的标题。一个在放射影像任务上达到98%准确率的人工智能，看起来无疑优于任何人类专家。

但这些数字遗漏了什么。在从加州到伦敦的医院放射科，研究人员观察到基准测试永远无法捕捉的现象：工作人员需要额外时间来解读人工智能输出，配合医院特定的报告标准和国家监管要求。人工智能在基准测试上技术上击败了放射科医生。在实际应用中，它反而增加了摩擦。

这不是一个孤立的失败。这是一个结构性问题。研究人员自2022年以来一直在研究真实世界的人工智能部署——横跨英国、美国和亚洲的小型企业、医疗系统、人道主义组织和高等教育——不断发现相同的模式：基准测试表现与实际价值存在分歧。

标准化如何欺骗了所有人

当前基准测试的吸引力不难理解。它们标准化、可比较、客观。MMLU上87%的分数无论谁来测试都意味着相同的东西。这种透明度使其成为模型选择和资金决策的宝贵依据。组织信任基准测试分数胜过供应商承诺，因为数字让人感觉科学。

但这种标准化创造了一种危险的预测有效性幻觉。基准测试作为测量工具之所以成功，恰恰是因为它们隔离了变量——移除了人类协作、组织约束和长期时间线的混乱。一旦人工智能进入真实部署环境，所有被移除的变量都会汹涌回归。

人工智能几乎从来不是按照基准测试的方式来使用的。在生产环境中，它在个工作流程内运作，与同事并肩工作，受制于机构规范和监管框架。它的真实表现——或失败——只在长时间使用后才显现。当前的基准测试根本无法看到这些。

行业真正需要什么

被称为HAIC（人类-人工智能情境特定评估）的替代方案，彻底改变了测量范式。HAIC不再问"人工智能能否比人类更好地完成X任务"，而是问"人工智能在人类团队中长时间部署时能否改善结果"。

这是一个更难回答的问题。它需要纵向研究而非一次性测试。它要求在特定组织情境内进行评估，而非受控实验室环境。它衡量的是工作流程整合、用户信任、错误恢复模式以及价值涌现——这些指标难以跨组织轻松比较。

但难度并非继续衡量错误事物的理由。基准测试驱动的部署决策成本已经显而易见：组织投入财务和技术资源却收获低于预期的AI系统；基准测试从未标记的系统性风险被忽视；以及人工智能能做什么与应该在人类环境中做什么之间根本性的错位。

基准测试的幻象不会自行纠正。除非该领域构建能够捕捉真实世界泛化的评估框架——人工智能在团队、工作流程和组织中的实际运作方式——否则分数将继续看起来比现实更好。