Meta将Llama定位为闭源AI系统的"开放"替代品——但周二提起的诉讼揭示,该公司所谓"开放"的背后,是从未获得授权的盗版书籍。麦克米兰、麦格劳-希尔、爱思唯尔、阿歇特、克engage五大出版商与作家斯科特·杜罗联合起诉Meta,指控其在训练Llama模型时使用了从LibGen、Anna's Archive和Sci-Hub窃取的版权作品。原告称Meta"反复复制"了他们的书籍和期刊文章,且未经许可。
这些出版商代理律师措辞严厉:这不是一起边缘侵权案件,而是一场有组织、成规模的知识产权窃取。作家斯科特·杜罗(《致命弱点》作者)作为个人原告加入诉讼,为这场官司增添了超越企业资产负债表的人情面孔。
此案 stakes远非个案胜负。整个AI行业都在等待法院对"转换性使用"的界定——训练AI模型使用版权文本是否构成合理使用,这一法律灰色地带被所有主要AI公司利用。Meta很可能援引合理使用抗辩,就像Stable Diffusion在其版权纠纷中的立场一样。但出版商的诉状特别针对"明知故犯"这一要素:Meta并非偶然接触盗版数据,而是直接从一个已大规模侵犯版权的平台获取材料。
这至关重要,因为它改变了法律论证的框架。当一家公司故意使用明知侵权的材料时,合理使用辩护便更难立足。出版商主张,Meta对数据来源的选择本身就是故意侵权的证据——这一主张可能让Meta面临远超任何版权费的法定损害赔偿。
此案结果将决定AI公司是否必须为其"训练原料"付费,还是法院将继续允许它们免费获取人类知识。如果出版商胜诉,每家使用未授权数据训练AI的公司都将面临类似风险。如果Meta胜诉,则整个行业都将获得使用盗版数据的合法性。