研究 综合自 1 个来源

形式化状态机让小模型超越大参数

要点

  • Statewright通过形式化状态机而非提示词约束AI智能体
  • SWE-bench测试中13-20B模型超越无约束对应物
  • Haiku、Sonnet和Opus在受限工具访问下均显示改进
  • 上下文利用率在可靠性测试中优于原始上下文大小
  • Rust引擎零大模型参与处理编排逻辑
  • MCP集成支持Claude Code、Codex和Cursor
参考来源 (1)
  1. [1] Statewright用形式化状态机提升智能体可靠性 — Hacker News AI

一个初级开发者在观看他们的Claude Code设置第三次失败。模型进入了错误的目录,运行了它本不应触及的测试套件,陷入了越来越无关命令的死循环。这不是边缘案例——这是常态。AI智能体在演示中表现出色,在生产环境中却灾难频发,而行业标准反应是用更多算力解决问题。Statewright反其道而行:与其让模型更大,不如让问题更小。

创始人本·科chr an曾在英伟达和AMD担任总工程师,在硬件验证领域工作二十年。他的核心洞察是:AI智能体失败的根本原因是解决方案空间的无界性。行业的应对方式是暴力破解——通过海量参数和更长上下文来强求可靠性。

Statewright用协议执行替代提示工程。其核心是一个Rust引擎,评估状态机定义——状态、转换、守卫和工具限制——编排层完全不依赖大模型。规划状态只授予只读工具。实现状态解锁编辑工具,防止范围外的改动。测试状态仅允许测试命令执行。模型在物理上无法跳过步骤或访问阶段外的工具。这是通过确定性代码强制执行的,而非系统提示中的温和建议。

SWE-bench测试结果令科chr an本人惊讶。13-20B参数范围内的模型在多个模型家族中都表现出一致的改进,包括Haiku、Sonnet和Opus。约束后的模型以更少token实现更高成功率,减少了死循环。更关键的发现是:上下文窗口利用率比原始上下文大小更重要。在每个步骤中严格限定的工作上下文,优于模型对所有内容的无限制访问。

低于13B参数拐点,模型可以导航状态机但无法保留足够上下文来生成准确编辑。高于该拐点,约束模型持续超越预期。调优本身在测试中未产生类似的功能改进——确定性约束优于迭代训练。

Statewright通过MCP与Claude Code集成,Codex和Cursor支持正在开发中。激活工作流时,钩子自动执行守卫。模型看到5个工具而非数十个,在当前阶段接收明确指令,并在尝试超出范围操作时得到告知。

更广泛的含义是对"越大越好"行业的挑战。如果形式化约束能让13B模型匹配70B+系统的可靠性,经济账将彻底改变。更小的模型运行成本更低、推理更快,在正确约束下更值得信赖。科chr an的方法表明,AI智能体可靠性不需要下一代前沿模型,而需要开发者愿意通过明确边界而非依赖语言模型自我修正来构建。

0:00