政策综合自 1 个来源

五大出版巨头起诉Meta：开源大模型背后的版权窃取

要点

• 五大出版巨头联名作案：麦克米兰、麦格劳-希尔、爱思唯尔、阿歇特、克engage
• Llama模型涉嫌从LibGen、Anna's Archive等盗版站抓取图书
• 出版商定性为史上最大规模版权侵权
• 关键争议：Meta是否明知数据来源侵权仍故意使用
• 判决结果将成AI训练数据授权先例

参考来源 (1)

[1] 五家出版商起诉Meta用盗版书籍训练AI — The Verge AI ↗

Meta将Llama定位为闭源AI系统的"开放"替代品——但周二提起的诉讼揭示，该公司所谓"开放"的背后，是从未获得授权的盗版书籍。麦克米兰、麦格劳-希尔、爱思唯尔、阿歇特、克engage五大出版商与作家斯科特·杜罗联合起诉Meta，指控其在训练Llama模型时使用了从LibGen、Anna's Archive和Sci-Hub窃取的版权作品。原告称Meta"反复复制"了他们的书籍和期刊文章，且未经许可。

这些出版商代理律师措辞严厉：这不是一起边缘侵权案件，而是一场有组织、成规模的知识产权窃取。作家斯科特·杜罗（《致命弱点》作者）作为个人原告加入诉讼，为这场官司增添了超越企业资产负债表的人情面孔。

此案 stakes远非个案胜负。整个AI行业都在等待法院对"转换性使用"的界定——训练AI模型使用版权文本是否构成合理使用，这一法律灰色地带被所有主要AI公司利用。Meta很可能援引合理使用抗辩，就像Stable Diffusion在其版权纠纷中的立场一样。但出版商的诉状特别针对"明知故犯"这一要素：Meta并非偶然接触盗版数据，而是直接从一个已大规模侵犯版权的平台获取材料。

这至关重要，因为它改变了法律论证的框架。当一家公司故意使用明知侵权的材料时，合理使用辩护便更难立足。出版商主张，Meta对数据来源的选择本身就是故意侵权的证据——这一主张可能让Meta面临远超任何版权费的法定损害赔偿。

此案结果将决定AI公司是否必须为其"训练原料"付费，还是法院将继续允许它们免费获取人类知识。如果出版商胜诉，每家使用未授权数据训练AI的公司都将面临类似风险。如果Meta胜诉，则整个行业都将获得使用盗版数据的合法性。