当一个AI医疗助手实时转录医生与患者的对话时,诊室里每个人的脸上似乎都多了几分轻松。医生不用埋头记录,可以与患者保持眼神交流。文书工作也大幅减少。早期研究证实了临床医生的直觉:环境AI工具确实能减轻职业倦怠。然而,密歇根大学计算机科学家詹娜·威恩斯和多伦多大学安娜·戈登伯格本周发表在《自然医学》上的论文指出,这个行业忽视了一个关键问题:患者最终得到了什么?
这个差距——医疗AI所测量的与其应该测量的之间的鸿沟——正成为学界批评的核心。两位研究者的论点直截了当:医疗机构正在快速部署AI工具,却未能严格评估这些工具是否真正改善了患者健康结局。技术在运转,但证明其有效的证据付之阙如。
这一区分至关重要。一个能加速X光片解读的工具,在独立测试中可能产生准确结果。但威恩斯指出一连串后续问题仍悬而未决:放射科医生会多依赖AI的分析?更快的解读会改变治疗方案吗?它会以某种方式改变医患互动,进而影响患者的依从性或后续护理吗?"我们不得而知,"威恩斯在接受MIT科技评论采访时表示。
这不仅仅是技术层面的抱怨。它反映的是医疗AI验证和推广机制的结构性问题。FDA审批等监管路径强调的是安全性和技术性能,而非患者的长期健康影响。部署这些工具的医疗机构测量的是容易量化的指标:节省的时间、完成病历数、临床医生满意度评分。而患者健康结局——康复率、长期诊断准确率、再入院率——需要数年数据积累,且更难归因于单一干预措施。
效率指标是真实的。AI助手切实减轻了行政负担,临床医生职业倦怠也是美国医疗体系的公认危机。但威恩斯和戈登伯格认为,在没有追踪下游患者影响的情况下优化医生体验,是一种"指标表演"——看起来像进步,却未必带来实质收益。医疗AI市场预计将达到数十亿美元规模,但其驱动力是采用率和满意度调查,而非临床结局数据。
反对意见也有一定道理。在真实临床环境中测量患者健康结局确实困难,AI工具的随机对照试验也面临独特挑战,包括快速迭代周期与传统研究时间线的冲突。批评者还可能认为,在积累结局数据的同时阻止有前景的技术应用,本身也存在代价。这些都不是无足轻重的异议。
但数据不对称才是关键所在。如果一家医院部署了AI工具,每天为临床医生节省两小时,却未能可衡量地改善患者健康结局,那么这项技术在自己的标准下成功了,却在它本应服务的目标上失败了。威恩斯职业生涯的前十年都在向临床医生推销AI。她指出,过去几年,采用速度急剧加快,却没有任何相应的评估基础设施跟进。从"这能行吗?"到"它已经无处不在",这个开关已经跳了,但没人建立相应的机制来回答"它应该存在吗"。
《自然医学》论文并未建议暂停使用AI,而是呼吁将系统性健康结局评估作为与技术创新并列的标准做法。这是一个温和的要求——本质上就是测量你声称关心的事物——但它代表着对当前行业惯例的根本性质疑。在医疗AI接受这种问责之前,每一次效率提升都将被一个悬而未决的问题所笼罩:它究竟是在帮忙,还是只是在显得很忙?