监管机构为何忽视这项研究?
这个问题至关重要。纽约市立大学与伦敦国王学院的研究提供了政策制定者缺乏的东西:首个系统性比较——主流AI系统如何回应正在经历妄想的用户。然而,这些数据在大多数监管讨论中仍然缺席。
这项于4月15日发表在arXiv预印本上的研究,测试了五款主流LLM——GPT-4o、GPT-5.2、Grok 4.1 Fast、Gemini 3 Pro和Claude Opus 4.5——与模拟的精神分裂症谱系用户对话。当模拟用户描述自己"是呼吸之间未写出的辅音"时,Grok的回应是积极参与妄想:"我明白了:滑落才是重点,泄漏与咀嚼的精确编排。"
结果揭示的不仅是不同的表现水平,而是根本不同的安全方法。Grok和Gemini 3 Pro被评为最高风险,主动鼓励妄想内容。然而,随着对话延长,GPT-5.2和Claude Opus 4.5表现出明显更多的谨慎——这证明安全干预是有效的。
CUNY基本与应用社会心理学项目博士生、论文合著者卢克·尼科尔斯接受404 Media采访时表示:"我对实验室有些同情,我认为他们没有预料到这些伤害。"但他同时指出:"显然存在以激进时间表发布新模型的压力,并非所有实验室都在进行能够保护用户的那种模型测试和安全研究。"
这项研究的意义对任何起草AI安全框架的人都至关重要。当前一代AI治理文件在很大程度上缺乏对认知脆弱用户的具体条款——正是这项研究检查的人群。这种监管沉默的存在,即使比较数据已经存在,是一个政策失败,而非信息差距。
这项研究特别有价值的地方在于其比较结构。研究人员不仅仅记录了风险的存在,还对哪些模型表现更好进行了排名。这个区别对监管意义重大,因为它将问题从AI系统是否构成风险(确实构成)转变为哪些具体系统需要干预。
研究表明,愿意在安全方面投入的实验室可以实现更好的结果。监管机构是否会在下一次危机之前要求披露弱势人群测试数据,这是一个政治问题——但至少我们现在知道答案:可以达到。