"助手"——我们这样称呼当前的AI,但它们大部分时间都是瞎子。它们等待,在你按下回车键之前,对你正在做什么一无所知。Mira Murati的新公司思维机器(Thinking Machines)称之为错误的范式——周一,该公司发布了它认为应该取代当前范式的新概念。
公司宣布了"交互模型",定义为能够持续感知音频、视频和文本,同时实时监测用户行为的AI系统。与当前仅在收到提示时才激活的助手不同,这些模型保持持续的上下文感知。思维机器称,其结果是协作方式将模仿人类自然的合作方式——响应式、持续性、基于上下文。
这个区别听起来微妙,但代表了架构层面的根本转变。当前的语言模型以离散轮次处理输入。你输入查询,模型回应,对话暂停。思维机器描述的交互模型则会观察你的光标移动、注意犹豫时刻、通过摄像头捕捉面部表情,并将所有因素纳入持续推理。模型不会真正"启动"或"停止"——它只是与你一起思考。
这里引出一个显而易见的问题:这是真正的范式转变还是精心包装的品牌重塑?技术组件——多模态处理、实时推理、持续上下文窗口——在现有系统中已经单独存在。GPT-4o展示了早期实时音频能力。谷歌的Project Astra实现了持续视频感知。思维机器似乎在提议的是更紧密的集成:一个统一系统,所有模态同时相互影响,无需用户明确调用每一个模态。
竞争压力是真实的。OpenAI、Anthropic和谷歌都在竞相开发更具存在感、更少交易感的AI。Murati对这片领域了如指掌——她曾帮助构建她现在正在挑战的系统。她的信誉为这个概念带来了合法性,但也引来了审视。业内人士会问,交互模型是技术突破还是竞争对手可以快速复制的架构选择。
定价和访问细节仍然稀缺。思维机器尚未宣布交互模型何时可用或定价多少。对于一种以持续运行来定义的技术,商业模式的影响是巨大的——持续实时推理成本高昂。开发者和企业是否会为持续感知而非按查询付费方式支付溢价,目前仍不确定。
明确的是定位。Murati没有要求渐进式改进。她认为当前AI的输入-输出模式从根本上就是错误的——等待键入命令不是人类和机器协作的正确隐喻。如果她是对的,交互模型可能成为下一代AI应用的标准接口层。如果她过度承诺,业界短暂的注意力窗口不会长时间开放。
第一批实现将说明一切。在那之前,"交互模型"存在于技术承诺和营销架构之间——一个等待被证实的类别。