模型发布综合自 4 个来源

OpenAI靠事实性反超

要点

• GPT-5.5 Instant在高风险领域比前代减少52.5%幻觉
• 用户标记对话中不准确陈述减少37.3%
• 保持Instant系列低延迟特性
• Perplexity、Claude曾以OpenAI事实性短板为卖点
• 系统卡片已发布，外部尚未复现数据

参考来源 (4)

[1] OpenAI发布GPT-5.5 Instant成ChatGPT默认模型 — TechCrunch AI ↗
[2] OpenAI称GPT-5.5幻觉率降低超50% — The Verge AI ↗
[3] OpenAI发布GPT-5.5即时系统卡 — OpenAI Blog ↗
[4] OpenAI发布GPT-5.5即时版：准确性提升、幻觉减少 — OpenAI Blog ↗

OpenAI最新默认模型比前代产品 hallucination（幻觉）概率降低了52.5%。这一数字——在医学、法律、金融领域的内部评估中获确认——代表了该公司近期历史上最显著的事实性改进，也恰逢竞争对手一直以此为卖点猛烈营销的时机。

GPT-5.5 Instant取代GPT-5.3 Instant成为ChatGPT的基准模型。OpenAI声称，新系统在医学、法律、金融等高风险领域产生的虚构内容大幅减少。OpenAI报告称，在用户此前标记过事实错误的对话中，不准确陈述减少了37.3%。这表明该模型从真实世界的错误模式中学习，而非仅依赖合成测试。

时机很关键。过去约18个月，Perplexity和Anthropic的Claude将自己定位为更安全的研究工作流选择，利用OpenAI广为人知的"一本正经胡说八道"问题。医学专业人士、律师、金融分析师开始采用繁复的提示策略——引用核查、交叉验证、明确要求不确定性表达——仅仅是为了绕过一个无法停止虚构内容的大模型。GPT-5.5 Instant的目标是消除这些变通方案的需求。

OpenAI在发布同时发布了系统卡片，记录了安全评估和已知限制。该公司承认这些结果来自内部测试，这一细节值得注意：外部研究人员尚未复现52.5%这一数字。历史背景表明应保持一定怀疑。OpenAI曾多次修订幻觉相关指标，且"幻觉声称"的定义可以显著改变数据。

延迟未变。GPT-5.5 Instant保持了Instant系列标志性的亚秒级响应速度，意味着这一准确度提升没有伴随通常伴随更谨慎推理的速度损失。对于构建用户面向应用的开发者而言，计算方式已经改变：首次回答即可正确的大模型，消除了拖累生产系统的重试循环和验证步骤。

此次发布还包含增强的个性化控制功能，但OpenAI未详细说明这些与现有记忆功能的差异。事实性成为发布的核心，这是有意为之。在竞争对手用AI可信度问题大做广告数月后，OpenAI正在用一个关键指标夺回叙事主导权：虚构信息减少的具体百分比。

GPT-5.5 Instant现已作为ChatGPT默认模型上线，现有订阅用户无需额外付费。OpenAI尚未宣布是否将这一底层架构扩展至API，让开发者自行判断GPT-5.5的改进是否值得从当前生产环境的GPT-4o或其他模型迁移。