安全综合自 1 个来源

4TB语音数据泄露揭开AI训练背后的人力供应链

要点

参考来源 (1)

上周，一个暗网论坛出现了一则出售信息：4TB的语音录音，附带着4万人的声音标签和索引，准备好再次出售。窃取数据的并非攻破堡垒的黑客，而是趁机闯入一扇本不该敞开的门的机会主义者。

这起发生在AI招聘平台Mercor的泄露事件，暴露了整个行业不愿面对的现实：那些为AI系统提供训练服务的人类工作者，本身就是一条脆弱的供应链。这些承包商——有些人每项任务的报酬低至15美元——录制语音、标注数据、评估AI输出。他们的工作至关重要，但他们的数据安全却被视为可有可无。

这4TB的失窃数据不仅仅是存储空间的问题。语音样本是生物特征标识符——独特、不可撤销、不可替代。与密码泄露不同，声纹无法重置。这些承包商的生物识别信息如今面临终身被用于语音钓鱼、身份欺诈和社交工程攻击的风险。

Mercor尚未披露漏洞存在了多久、使用了何种加密措施，或是否曾告知承包商其语音数据正在被存储。该公司的沉默比任何新闻稿都更有分量。在AI行业，从承包商处收集数据通常发生在服务条款中，这些条款往往模糊到大多数工作者根本不知道自己的生物特征信息正在被永久保存。

这不是一家公司失败的故事，而是整个行业的故事——一个将人力劳动作为基础设施却将其数字副产品视为可抛弃资产的行业。当公司设计AI系统时，他们会进行全面的红队测试来识别模型弱点。但当他们雇用承包商时，却很少对保护这些使模型成为可能的人类工作者给予同等的重视。

受此次泄露影响的承包商现在陷入两难困境。他们无法撤销已录制的语音，无法要求删除那些他们可能根本不知道存在过的数据库。他们为AI系统做出贡献，这些系统承诺提高效率和自动化——而他们自己的人身脆弱性却无人保护。

更广泛的AI行业面临着一场不断推迟的清算。随着欧盟《AI法案》等监管框架开始要求训练数据来源的透明度，那些将人类承包商视为隐形基础设施的公司将发现自己的做法正受到审查。Mercor泄露事件可能正是迫使这个问题浮出水面的事件：如果AI公司无法保护构建它们的人类，为什么还有人要信任它们创造的系统？

4TB的语音数据仍在流通中。那些生物识别标识符正在被出售的承包商尚未收到关于哪些数据被盗、如何被使用、或他们有何追索权的明确答复。那扇敞开的门依然敞开着。而接下来会发生什么，有4万个理由值得关注。