模型发布 综合自 4 个来源

Altman夸大图像2.0能力 但文字渲染确有突破

要点

  • 文字渲染是真正的商业门槛,而非整体图像质量的泛泛提升
  • Willison的找 Waldo测试:gpt-image-1失败,gpt-image-2成功
  • 思维能力让模型在生成过程中调用网络搜索验证文字
  • 英语文字现已可用于生产环境,非英语语言仍不可靠
  • Altman的GPT-3到GPT-5类比是水平方向的夸大,而非垂直真相
参考来源 (4)
  1. [1] OpenAI推出可联网的ChatGPT图像生成器 — The Verge AI
  2. [2] ChatGPT图像2.0文字生成能力获赞 — TechCrunch AI
  3. [3] OpenAI升级ChatGPT图像生成模型 — Wired AI
  4. [4] OpenAI发布ChatGPT Images 2.0,质量飞跃 — Simon Willison's Weblog

Sam Altman将图像模型迭代比作GPT-3到GPT-5的跨越,这个说法过于夸张。但他在发布会上轻描淡写的一项能力,却值得认真关注:AI生成图像中的文字渲染终于能用了——而这才是决定该工具有无商业价值的核心功能。

文字渲染一直是AI图像生成器的致命短板。面包店无法使用一个把"Happy Birthday"渲染成乱码的模型。营销团队无法部署一个标签模糊不清的工具。过去两年,AI生成图像始终停留在"玩具"阶段,根源正在于文字处理能力不足。现在这个瓶颈正在被突破。

技术博主Simon Willison采用了一个实用的测试方法:用"在图像中找到一只操作对讲机的浣熊"这样的提示词,分别测试gpt-image-1和gpt-image-2的表现。老版本生成的图像中,人类观察者根本无法定位那只浣熊——尽管它应该存在于画面中。当Willison让Claude Opus 4.7用高清视觉分析这张图像时,模型甚至产生了幻觉,指着一张指令卡片坚称动物肯定藏在某处。这张生成图像静默地失败了。

用gpt-image-2处理同一提示词,生成的图像中"AMATEUR RADIO CLUB - W6HAM"标识清晰可辨,浣熊正在设备前操作。文字渲染正确,场景准确执行,隐藏物体确实被隐藏了。

这才是有意义的基准测试。不是模型能否生成漂亮的风景或超现实的艺术——当前模型在这些任务上已经表现尚可。但商业应用场景的核心是文字。电商产品图上的价格标签、社交媒体海报上的品牌名称、信息图表中的数据标注、演示文稿上的标题——这些都无法可靠执行,因为任何尝试渲染文字的尝试都会产生乱码或缺失字母。

本次改进来自gpt-image-2引入的"思维"能力,模型在生成图像过程中可以调用网络搜索来验证拼写、检查logo设计、确认品牌字体风格。这与o1、o3在语言任务上采用的推理方法一脉相承。

多家科技媒体验证了文字渲染的突破。TechCrunch记录了生成场景中清晰可辨的标识牌。Wired确认了"显著更好"的文字输出。该模型在非英语字符处理上仍有局限——这对全球商业应用来说是重要限制——但英语文字现已足够可靠,可用于实际生产环境。

Altman的表述误导了方向。"相当于GPT-5"的说法暗示了全能力维度的水平跃升。实际改进却是垂直的:文字渲染跨越了让商业应用可行的阈值,而其他能力的提升仍属渐进式。这仍然意义重大——但这相当于一项技术从"可用"到"好用"的质变,而非在用户已习惯的功能上做边际优化。

该模型正在向ChatGPT Plus、Pro、Business及Enterprise订阅用户推送。

0:00