OpenAI最新默认模型比前代产品 hallucination(幻觉)概率降低了52.5%。这一数字——在医学、法律、金融领域的内部评估中获确认——代表了该公司近期历史上最显著的事实性改进,也恰逢竞争对手一直以此为卖点猛烈营销的时机。
GPT-5.5 Instant取代GPT-5.3 Instant成为ChatGPT的基准模型。OpenAI声称,新系统在医学、法律、金融等高风险领域产生的虚构内容大幅减少。OpenAI报告称,在用户此前标记过事实错误的对话中,不准确陈述减少了37.3%。这表明该模型从真实世界的错误模式中学习,而非仅依赖合成测试。
时机很关键。过去约18个月,Perplexity和Anthropic的Claude将自己定位为更安全的研究工作流选择,利用OpenAI广为人知的"一本正经胡说八道"问题。医学专业人士、律师、金融分析师开始采用繁复的提示策略——引用核查、交叉验证、明确要求不确定性表达——仅仅是为了绕过一个无法停止虚构内容的大模型。GPT-5.5 Instant的目标是消除这些变通方案的需求。
OpenAI在发布同时发布了系统卡片,记录了安全评估和已知限制。该公司承认这些结果来自内部测试,这一细节值得注意:外部研究人员尚未复现52.5%这一数字。历史背景表明应保持一定怀疑。OpenAI曾多次修订幻觉相关指标,且"幻觉声称"的定义可以显著改变数据。
延迟未变。GPT-5.5 Instant保持了Instant系列标志性的亚秒级响应速度,意味着这一准确度提升没有伴随通常伴随更谨慎推理的速度损失。对于构建用户面向应用的开发者而言,计算方式已经改变:首次回答即可正确的大模型,消除了拖累生产系统的重试循环和验证步骤。
此次发布还包含增强的个性化控制功能,但OpenAI未详细说明这些与现有记忆功能的差异。事实性成为发布的核心,这是有意为之。在竞争对手用AI可信度问题大做广告数月后,OpenAI正在用一个关键指标夺回叙事主导权:虚构信息减少的具体百分比。
GPT-5.5 Instant现已作为ChatGPT默认模型上线,现有订阅用户无需额外付费。OpenAI尚未宣布是否将这一底层架构扩展至API,让开发者自行判断GPT-5.5的改进是否值得从当前生产环境的GPT-4o或其他模型迁移。