Sam Altman将图像模型迭代比作GPT-3到GPT-5的跨越,这个说法过于夸张。但他在发布会上轻描淡写的一项能力,却值得认真关注:AI生成图像中的文字渲染终于能用了——而这才是决定该工具有无商业价值的核心功能。
文字渲染一直是AI图像生成器的致命短板。面包店无法使用一个把"Happy Birthday"渲染成乱码的模型。营销团队无法部署一个标签模糊不清的工具。过去两年,AI生成图像始终停留在"玩具"阶段,根源正在于文字处理能力不足。现在这个瓶颈正在被突破。
技术博主Simon Willison采用了一个实用的测试方法:用"在图像中找到一只操作对讲机的浣熊"这样的提示词,分别测试gpt-image-1和gpt-image-2的表现。老版本生成的图像中,人类观察者根本无法定位那只浣熊——尽管它应该存在于画面中。当Willison让Claude Opus 4.7用高清视觉分析这张图像时,模型甚至产生了幻觉,指着一张指令卡片坚称动物肯定藏在某处。这张生成图像静默地失败了。
用gpt-image-2处理同一提示词,生成的图像中"AMATEUR RADIO CLUB - W6HAM"标识清晰可辨,浣熊正在设备前操作。文字渲染正确,场景准确执行,隐藏物体确实被隐藏了。
这才是有意义的基准测试。不是模型能否生成漂亮的风景或超现实的艺术——当前模型在这些任务上已经表现尚可。但商业应用场景的核心是文字。电商产品图上的价格标签、社交媒体海报上的品牌名称、信息图表中的数据标注、演示文稿上的标题——这些都无法可靠执行,因为任何尝试渲染文字的尝试都会产生乱码或缺失字母。
本次改进来自gpt-image-2引入的"思维"能力,模型在生成图像过程中可以调用网络搜索来验证拼写、检查logo设计、确认品牌字体风格。这与o1、o3在语言任务上采用的推理方法一脉相承。
多家科技媒体验证了文字渲染的突破。TechCrunch记录了生成场景中清晰可辨的标识牌。Wired确认了"显著更好"的文字输出。该模型在非英语字符处理上仍有局限——这对全球商业应用来说是重要限制——但英语文字现已足够可靠,可用于实际生产环境。
Altman的表述误导了方向。"相当于GPT-5"的说法暗示了全能力维度的水平跃升。实际改进却是垂直的:文字渲染跨越了让商业应用可行的阈值,而其他能力的提升仍属渐进式。这仍然意义重大——但这相当于一项技术从"可用"到"好用"的质变,而非在用户已习惯的功能上做边际优化。
该模型正在向ChatGPT Plus、Pro、Business及Enterprise订阅用户推送。