GPT 5.4 Codex通过可靠性测试
OpenAI最新模型升级标志着AI能力的重要转折点。Interconnects于2026年3月18日发布的详细评测显示,GPT 5.4 in Codex首次让OpenAI的AI代理能够真正可靠地处理多样化的复杂任务,消除了早期版本在git操作、文件管理或API调用中的频繁失败。
评测者将此称为"千刀万剐"问题——之前的版本会在关键环节突然崩溃,迫使开发者不断重启。GPT 5.4在正确性、易用性、速度和成本四个维度均有提升。评测者形容该模型"精确、冷淡但机械",与Claude更温暖、更具人格魅力的风格形成鲜明对比。
Nothing CEO预言AI代理将取代APP
与此同时,Nothing CEO裴乐做出了更激进的预判。据TechCrunch AI 3月18日报道,裴乐预测AI代理最终将完全取代传统智能手机应用,移动计算将转向理解用户意图、代表用户自动行动的系统。这是对当前APP交互范式的根本性颠覆。
AI编程的隐性风险
并非所有消息都令人振奋。在Hacker News上获得289个赞的分析指出,AI编程工具存在被开发者严重低估的风险。这篇题为《AI编程就是赌博》的文章揭示了AI生成代码如何导致技术债务、安全漏洞和不可预测行为,长期成本可能最终超过短期收益。
虚假医疗成功案例
AI可靠性争议本周多了一个警示案例。The Verge调查 debunked了一条病毒式传播的故事——声称ChatGPT帮助拯救了一只名叫Rosie的狗的癌症。悉尼TechCrunch创始人保罗·科宁厄姆在兽医束手无策后,确实用AI研究了治疗方案,但专家表示AI的实际贡献与常规兽医治疗相比微乎其微。
Kagi翻译的意外病毒传播
Kagi翻译本周意外走红——用户发现这个AI翻译工具可以执行"翻译"成"性感的撒切尔夫人"或"Z世代俚语"等非常规任务。Kagi于2024年推出该服务,承认LLM方案"偶尔会产生怪异输出"。这一发现既展示了LLM的创意潜力,也暴露了用户可利用通用AI工具获取意外输出的风险。
不确定性时代需要平衡
这些事件描绘了一幅复杂的图景:AI代理正变得真正强大,但本质上仍是不可靠的系统。前进之路需要框架来发挥AI优势,同时建立防止其失败的保障机制。无论是编程、医学研究还是创意应用,关键洞察始终如一——将AI视为强大而不可预测的工具,而非万能神谕。