人工智能

泄露的电子邮件显示Meta为AI训练下载了数TB的盗版电子书

字号+作者:cnBeta.COM 来源:cnBeta 2025-02-08 17:15 评论(创建话题) 收藏成功收藏本文

今年1月,一项诉讼指控Meta在盗版电子书和文章数据集上训练其人工智能模型。在图书作者提起的版权诉讼案中,这些未公开的电子邮件提供了不利于Meta的新证'...

今年1月,一项诉讼指控Meta在盗版电子书和文章数据集上训练其人工智能模型。在图书作者提起的版权诉讼案中,这些未公开的电子邮件提供了不利于Meta的新证据。这些作者指控Meta在盗版书籍上非法训练其人工智能模型,现在泄露的通信进一步证实了这一指控。jrs品论天涯网

jrs品论天涯网

邮件显示,Meta公司承认下载了一个有争议的大型数据集LibGen,其中包括数千万本盗版书籍。根据作者提交的法庭文件,Meta通过Anna'sArchive网站从多个影子图书馆下载了至少81.7TB的数据,其中包括来自Z-Library和LibGen的至少35.7TB的数据。此外,该公司此前还从LibGen下载了80.6TB的数据。jrs品论天涯网

作者形容Meta公司的非法转录计划规模惊人,并指出"规模较小的数据盗版行为--仅为Meta盗版版权作品数量的0.008%--都导致法官将该行为移交美国检察官办公室进行刑事调查"。jrs品论天涯网

邮件显示,Meta公司员工也意识到其行为的法律风险。2023年4月,Meta公司的研究工程师尼古拉-巴什利科夫写道:"用公司的笔记本电脑下BT感觉不妥。"jrs品论天涯网

到2023年9月,巴什科夫加大了抗议力度,并咨询了法律团队。他写道:"使用Torrents意味着对文件进行'播种',即对外共享内容。这在法律上是不允许的,"他写道。jrs品论天涯网

尽管有这些警告,但作者认为,Meta公司决定隐藏其播种活动,编辑设置以便尽可能减少播种。据称,该公司还试图通过将数据集下载到非Meta服务器来避免任何人能够从Meta服务器"追溯播种者/下载者"的风险。jrs品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]