预印本平台arXiv对AI生成内容提交者实施一年封禁,这个决定正确,但同时也是一种承认失败。arXiv宣布处罚那些提交虚假引用和未经编辑的AI元评论的研究人员,这一举措揭示了一个更深层的问题:AI生成内容已经大规模污染了科学文献记录——而在此类内容发表之前,几乎没有有效的检测工具。
Thomas Dietterich,arXiv计算机科学板块主席,周四在社交媒体上宣布了这一执法机制。他明确指出,如果提交内容包含"无可辩驳的证据"表明作者未对AI生成结果进行检查,将触发封禁处罚。他列举的例子颇具说明力:指向不存在论文的虚假引用、留在正文中的AI直接留言("这是200字的摘要,您需要我做修改吗?")、以及要求作者在AI提供示意性图表后自行填入真实实验数据的指令。Dietterich的结论直截了当:"如果一份提交包含无可辩驳的证据表明作者没有检查LLM生成的结果,那意味着我们无法信任论文中的任何内容。"
处罚措施包括一年的提交禁令,此后永久要求在arXiv发表前必须先在同行评审 venues发表。这传递了一个明确信号,但同时也凸显了问题的严重程度。arXiv并非主动发现AI内容;它是在对那些草率到连明显痕迹都未察觉的提交内容做出被动反应。污染的范围远超少数害群之马。研究人员正在提交未经理本审查的AI输出,而证据有时就嵌入在文档中——作为对作者的AI指令。
批评者会认为这一禁令过于简单粗暴。合法使用AI的研究人员利用它改善写作、检查语法,甚至生成初稿——这些活动本身并无问题。对AI辅助工作的一刀切禁止误伤了真正的问题。然而,执行仍然模糊不清。"无可辩驳的证据"需要的是审稿人能够发现的明显痕迹。微妙的情况——看似合理但实际上是捏造的研究、微妙有偏的文献综述——仍然会通过审查。
更深层的担忧在于这一禁令所揭示的关于同行评审本身的脆弱性。arXiv对被禁研究人员永久要求经过同行评审,暗示传统期刊的把关能力可以捕获预印本平台无法识别的问题。但虚假引用和AI痕迹也出现在了经过同行评审的文献中。污染不是预印本问题,而是一个系统性危机。提交的庞大数量压垮了期刊和会议的评审人员,使得AI内容能够堂而皇之地隐藏在众目睽睽之下。
arXiv所采取的措施是必要的。它划定了一条红线并建立了后果。但真正的问题是潜在的危机:研究人员在机构能够适应防御之前,就以AI生成作品淹没了学术基础设施。这一禁令争取了时间,但没有解决问题。