全球企业本季度将在AI接口调用上花费约470亿美元。这个数字本身几乎毫无意义,却主导着董事会报告、投资人电话和供应商PPT——因为这是所有人唯一达成共识的指标。
里德·霍夫曼最近在“代币最大化”辩论中给出了一个审慎的判断:代币消耗可以较好地追踪采用率,但将其作为生产力指标则具有误导性,除非有更广泛的背景支撑。他是对的,且由此引出的问题比业界多数人愿意承认的更加棘手。真正的问题不在于我们测量错了对象,而在于我们根本没有在测量正确的对象。
代币追踪回答的问题很简单:我们用了多少AI?它告诉运营团队接口在线、员工在提问、代币在流动。这有一定价值——用于产能规划和采用率监控。当一家公司代币消耗持平而员工规模增长时,这值得一说。但这个指标存在上限。一旦知道AI被使用了,更精确地了解使用量不会为判断价值增加任何洞见。
生产力问题更难回答,因为它需要进行反事实推理。没有AI辅助,这位员工原本能产出多少?基准线是什么?大多数企业没有答案。他们做季度回顾、写绩效评估,却漏掉了关键变量:同一名销售本季度多签了23%的订单,但那是AI助手、优质的线索流、季节性因素还是区域划分优化的功劳?将结果归因于AI投入,在方法论上仍然混乱——这让首席财务官沮丧,却让学术研究者兴奋。
这种测量差距造成了危险的非对称性。管理层看到代币账单,默认为价值在积累。机制感觉显而易见:更多AI使用理应产出更多。但采用曲线和价值曲线并非同一形状。早期AI采用往往呈现高代币消耗、低生产力提升——组织仍在学习工作流程、改进提示词、建立制度习惯。后期采用可能反转:员工变得熟练,每任务消耗更少代币,产出更多。代币计数器对此一无所察。
真正在解决AI生产力测量问题的公司正在做令人不适的工作。他们运行对照实验、匹配团队、追踪任务耗时指标,并接受数据不会干净的现实。有些人将测量直接嵌入工作流程——要求知识工作者估算时间节省量,然后在岗位间汇总。其他人则将AI使用模式与下游结果关联,如交易速度或代码部署频率,接受相关性作为足够信号。
这些方法都无法在单一仪表板上规模化地呈现给董事会。正因如此,代币计数才持续存在。它清晰、可导出、可辩护。“本季度我们使用了23亿代币”听起来像是进步。“我们无法明确量化AI对收入增长的贡献”听起来像是等待发生的咨询合同。
霍夫曼关于背景支撑的谨慎判断是正确的框架,但仅靠背景无法弥合差距。业界需要接受不完美作为准确度的代价,建立标准化的生产力测量框架。在那之前,470亿美元的季度支出将继续漂浮在数据真空中——计数时令人印象深刻,证明时无据可依。