研究 综合自 2 个来源

长上下文正成为AI新货币

要点

  • 月之暗面论文提出按上下文长度而非调用次数计费
  • KVCache从优化技术转变为经济模型
  • 持久化上下文存储开辟新变现路径
  • 研究通过基准测试证明超长上下文可行性
参考来源 (2)
  1. [1] Kimi新研究探索KVCache商业模式 — 量子位 QbitAI
  2. [2] Flash Depth Attention革新大模型架构 — 量子位 QbitAI

2024年按调用次数收费,2026年可能改为按上下文长度计费。月之暗面最新论文将KVCache——这种存储注意力中间状态的技术——从性能优化重新定义为AI服务的全新经济模型。

论文核心观点明确:上下文不是需要优化的功能,而是实际出售的产品。传统AI按每次API调用收费,无论模型处理的是五个词还是五万个词。月之暗面的研究提出了不同的方案——如果计费与所传递的上下文相关性成正比呢?

技术基础来自超长上下文能力及其背后的KVCache机制。当模型处理对话时,它会为每个token生成键值对。标准系统每次请求都重新计算这些状态。月之暗面的架构将这些状态持久化缓存,允许模型在后续交互中引用和构建先前上下文而无需重复计算。论文表明,这不仅仅是效率优化——它改变了AI提供商的商业模式。

上下文成为基础设施。当缓存状态跨会话持久化时,它们从临时计算转变为持久资产。用户返回项目时发现AI助手已加载相关上下文——不是因为被指示检索,而是系统缓存并维护了这些信息。这从根本上改变了经济等式。价值不在推理调用,而在模型因有人付费保存和重用上下文而“知道”的内容。

论文探索了这一重新定位带来的变现路径。提供商可按存储的上下文单位收费,存储时间与账单直接挂钩。企业客户可订阅基于AI需维护的上下文保留量级别的分层套餐。需要在每次回复中引用数月前文档的法律事务所,与随便提问的普通用户,应该支付不同的价格。

论文中的基准测试表明,这种方法在启用这些新经济结构的同时保持了性能。具体计算节省数据证明,模型可维持超长上下文(长达数百万token)而不产生成比例的成本增加——这正是按上下文计费所需的条件。

意义超出个别公司。如果上下文成为价值单位,整个生态系统可能围绕上下文交易市场形成。第三方可能策划并出售专业化上下文集——法律判例数据库、医学文献汇编、代码仓库历史——用户授权后输入AI系统。论文未充分探讨这一维度,但经济逻辑不可避免地指向那里。

批评者会指出重大工程挑战。持久化KVCache需要复杂基础设施并产生新的可靠性要求。有人认为这种模式让大提供商获益而牺牲小公司利益,将市场力量集中在能负担缓存基础设施的企业手中。围绕缓存上下文的安全考量也需仔细审视——敏感信息更长时间留存创造了新的攻击面。

然而这些担忧描述的是实施障碍而非根本缺陷。月之暗面的研究表明,AI经济的下一次演进可能涉及按消费的上下文而非处理的查询量收费。这改变了AI服务的构建、定价和交付方式。

0:00