产品综合自 1 个来源

交互模型：重新定义AI还是营销噱头？

要点

• 思维机器发布持续感知多模态的交互模型
• 模型保持实时感知，区别于等待提示的传统系统
• 技术组件在现有AI中已独立存在
• 定价和可用性尚未公布
• 竞争对手已在追求类似实时AI能力
• 前CTO Murati凭信誉背书但面临差异化质疑

参考来源 (1)

[1] 前OpenAI CTO新公司发布实时交互模型 — The Verge AI ↗

"助手"——我们这样称呼当前的AI，但它们大部分时间都是瞎子。它们等待，在你按下回车键之前，对你正在做什么一无所知。Mira Murati的新公司思维机器（Thinking Machines）称之为错误的范式——周一，该公司发布了它认为应该取代当前范式的新概念。

公司宣布了"交互模型"，定义为能够持续感知音频、视频和文本，同时实时监测用户行为的AI系统。与当前仅在收到提示时才激活的助手不同，这些模型保持持续的上下文感知。思维机器称，其结果是协作方式将模仿人类自然的合作方式——响应式、持续性、基于上下文。

这个区别听起来微妙，但代表了架构层面的根本转变。当前的语言模型以离散轮次处理输入。你输入查询，模型回应，对话暂停。思维机器描述的交互模型则会观察你的光标移动、注意犹豫时刻、通过摄像头捕捉面部表情，并将所有因素纳入持续推理。模型不会真正"启动"或"停止"——它只是与你一起思考。

这里引出一个显而易见的问题：这是真正的范式转变还是精心包装的品牌重塑？技术组件——多模态处理、实时推理、持续上下文窗口——在现有系统中已经单独存在。GPT-4o展示了早期实时音频能力。谷歌的Project Astra实现了持续视频感知。思维机器似乎在提议的是更紧密的集成：一个统一系统，所有模态同时相互影响，无需用户明确调用每一个模态。

竞争压力是真实的。OpenAI、Anthropic和谷歌都在竞相开发更具存在感、更少交易感的AI。Murati对这片领域了如指掌——她曾帮助构建她现在正在挑战的系统。她的信誉为这个概念带来了合法性，但也引来了审视。业内人士会问，交互模型是技术突破还是竞争对手可以快速复制的架构选择。

定价和访问细节仍然稀缺。思维机器尚未宣布交互模型何时可用或定价多少。对于一种以持续运行来定义的技术，商业模式的影响是巨大的——持续实时推理成本高昂。开发者和企业是否会为持续感知而非按查询付费方式支付溢价，目前仍不确定。

明确的是定位。Murati没有要求渐进式改进。她认为当前AI的输入-输出模式从根本上就是错误的——等待键入命令不是人类和机器协作的正确隐喻。如果她是对的，交互模型可能成为下一代AI应用的标准接口层。如果她过度承诺，业界短暂的注意力窗口不会长时间开放。

第一批实现将说明一切。在那之前，"交互模型"存在于技术承诺和营销架构之间——一个等待被证实的类别。