复制版权图片并创建AI训练数据集是否侵权?
复制版权图片并创建AI训练数据集是否侵权?对德国法院文本和数据挖掘案的解读
作者 | 谢南希 Laura
编辑 | 布鲁斯
目前,“版权法如何评价生成式AI在模型训练阶段对于版权作品的使用方式”仍然是一个待决问题,这导致AI技术和产业发展在法律层面面临不确定性。随着生成式AI引发的侵权诉讼案件数量持续增加,已有个别法院发表意见。例如,2023年9月,美国特拉华州联邦法院提出了“允许AI训练版权材料是否符合公共利益”这一核心问题,在判例法基础上澄清了合理使用的认定标准,严格区分事实和法律问题,并将争议的事实问题交由陪审团决定。【1】又如,2024年2月,美国加州北区法院明确了美国版权法项下直接侵权和间接侵权的证明标准,原告需证明被告存在复制行为,并证明AI生成内容与版权作品存在实质性相似。【2】
除了AI公司在AI模型训练阶段存在对版权作品的使用之外,现实中还存在更上游的主体复制版权作品以创建AI训练数据集的情况。针对这一行为,2024年9月,德国汉堡法院一审驳回了摄影师起诉非营利机构LAION e.V.未经授权将其摄影作品用于制作LAION数据集的侵权主张,认定创建数据集的复制行为构成德国《版权法》第60d条项下的“出于科研目的的文本和数据挖掘”,因此,可豁免其侵权责任。【3】该判决一经公布便引来了广泛讨论和争议,一方面由于LAION数据集在AI行业被广泛应用于训练视觉模型,如Stable Diffusion模型;另一方面,该判决首次在AI场景中对德国《版权法》项下第44a条“临时复制”、第44b条“通用文本和数据挖掘”和第60d条“出于科研目的的文本和数据挖掘”这三个条款的适用进行了具体分析。以上条款是对欧盟法下相关合理使用条款的本地法转化,对于实务中如何解读欧盟法下的合理使用条款在AI领域的适用提供了参考。目前,原告已提起上诉。【4】本文拟结合行业情况对该案进行解读和评议。
一、事实情况
原告Robert Kneschke是一名摄影师,也是案涉照片的版权人,他将案涉照片许可给了一家图片代理网站。图片代理网站的线上条款载明:“用户不得:... 出于任何目的,使用自动化程序、小应用程序、机器人或类似方式访问网站或任何内容,包括,仅举例说明,内容、编入索引、抓取或缓存网站的任何内容。”
被告LAION e.V.是一个非营利性质的研究机构,在未取得原告同意的情况下,复制并下载了案涉图片,创建了LAION数据集,免费对外提供。数据集包含了超链接,链接到互联网公开的图片或图片文件及相关信息,包含图片描述,数据集包含58.5亿图片-文本配对,可用于训练生成式AI。数据集的创建过程如下:
•使用来自美国某网站的已有数据集(包含URLs、不同图片内容对应的文本描述);
•被告从图片中提取出URLs,并从图片存储的不同地点下载这些图片;
•被告使用软件检查图片,看图片内容的已有描述是否实际匹配图片上的内容,然后把不匹配的图片筛出去;
•对于剩下的图片,对图片及元数据进行抓取、下载、分析,然后提取出元数据以及URL、图片描述,创建成一个新的数据集。
二、双方观点
(一)原告观点
原告主张,被告在分析照片过程中未经授权复制照片的行为侵犯了版权,请求法院命令被告停止侵权,赔偿25万欧元,或判处6个月监禁,并禁止继续使用相关照片来创建AI训练数据集。
•关于照片版权,原告认为自己是照片作者;图片代理网站有权提供、并在其网站上展示案涉照片,还有权对外许可。
•关于侵权,原告认为,被告复制照片的行为侵犯了原告在德国《版权法》第16条项下享有的权利。而且,被告的行为不适用《版权法》第44a、44b和60d规定的豁免条款。具体而言:
本案涉及德国《版权法》项下三个条款,分别是第44a条“临时复制”、第44b条“通用文本和数据挖掘”和第60d条“出于科研目的的文本和数据挖掘”,这些条款均位于德国《版权法》第六部分“对版权的限制:法律允许的使用行为”。其中,临时复制条款和文本数据挖掘条属于第一子部分“法律允许的使用行为”,出于科研目的的文本和数据挖掘条款属于第四子部分“为了教育、科学和机构目的法律允许的使用行为”。这些条款的具体规定如下:
•根据德国《版权法》第44a条“临时复制”,满足以下要件的临时复制行为是被允许的:第一,临时复制是短暂的或偶然的;第二,临时复制是技术流程中不可分割且必不可少的组成部分;第三,临时复制的唯一目的是为了“通过媒介实现第三方之间的网络传输”或“实现对作品或其他受保护主题的合法使用,并且不具有独立的经济意义”。
•根据德国《版权法》第44b条“文本和数据挖掘”,文本和数据挖掘是指对单一或几个数字或数字化作品进行自动化分析,以收集信息,尤其是关于模式、趋势和相关性的信息。为了开展文本和数据挖掘,法律允许复制合法可及的作品,当复制件不再是开展文本和数据挖掘所必需,应删除复制件。只有在权利人没有作出权利保留的情况下,才可以开展文本和数据挖掘。权利保留以机器可读的形式作出才有效。
•根据德国《版权法》第60d条“出于科研目的的文本和数据挖掘”,法律允许出于科研目的根据以下条款的规定开展文本和数据挖掘。研究机构有权制作复制件。研究机构包括大学、研究组织、以及其他非商业主体,不包括与私营公司合作项目中私营公司具备决定性影响且对于科研成果享有优先获取权的研究机构。
德国《版权法》的上述三个条款,分别对应欧盟法下《关于信息社会协调版权及相关权利某些方面的指令》第5条及《单一数字市场版权指令》第4条、第3条。这些条款的具体规定如下:
•《关于信息社会协调版权及相关权利某些方面的指令》第5条“例外和限制”规定了“三步检验法”,即临时复制、出于教育或科研目的的使用、出于批评或评论目的的引用等例外和限制性规定仅应在部分特殊情况下适用,即不得与作品的正常利用相冲突,不会不合理地损害权利人的合法权益。
•《单一数字市场版权指令》第4条“文本和数据挖掘的例外或限制”要求,成员国应规定出于文本和数据挖掘对合法获取的作品或其他内容进行复制与提取的行为不构成侵权。而且,出于文本和数据挖掘为目的复制和提取的作品或其他内容可保留到必要时为止,但前提是权利人没有以适当方式对上述作品或其他内容的使用作出保留,例如采取机器可读的方式。
•《单一数字市场版权指令》第3条“科学研究目的的文本和数据挖掘”要求,成员国应规定研究组织和文化遗产机构为科学研究目的,对合法获取的作品或其他内容进行的文本和数据挖掘不构成侵权。
第一,第44a条规定的豁免不适用,因为独立下载照片的行为不构成临时复制。
第二,第44b条规定的“文本和数据挖掘”豁免也不适用,因为出于AI训练的目的聚合数据不构成第44b条项下的文本或数据挖掘。不论是欧盟立法者,还是德国立法者,在制定欧盟《单一数字市场版权指令》第4条或德国《版权法》第44b条时,都没有考虑到这种使用行为。第44b条规定的“文本和数据挖掘”仅适用于数据背后隐藏的信息,并不包括智力创造的内容。但是,”AI网络爬取”是出于训练目的而抓取作品的知识内容,最终是为了创造出相同或类似的竞品。
•另外,从AI对版权人的影响,原告认为,“在生成式AI场景下、出于训练目的而大规模地合并版权作品”损害了版权作品的正常使用,因为这种行为为很多场景下替换掉作者提供了条件。根据欧盟《单一数字市场版权指令》第7.2条和《版权和信息社会指令》第5.5条,应排除豁免条款的适用。
•不论如何,复制都是不允许的,因为原告作者授权的照片机构已经在网站上根据《版权法》第44b(3)条在声明中作出了保留,这一保留符合《版权法》规定的机器可读要求。
第三,被告不能援引《版权法》第60d条规定的“出于科研目的的文本和数据挖掘”豁免,因为被告不满足相关条件。(1)被告的目的在于“促进研究”,而不是“研究”本身,而且不清楚收集整合的行为是否构成研究。(2)被告可以基于训练数据创建自己的AI模型。(3)被告号称为有兴趣的研究者相关方公开提供训练数据集,但被告自己的声明显示特定第三方使用了数据集,并且这些第三方都是商业公司。(4)被告与AI商业公司存在紧密联系,例如,被告和特定公司存在合作,特定公司为被告创建数据集提供资金,并通过其员工发布被告招聘信息。
(二)被告观点
作为抗辩,被告认为下载并复制图片、创建数据集的行为落入《版权法》第44a条、第44b条、第60d条规定的豁免情形。被告的观点包括但不限于:
•被告的行为应适用《版权法》第44a条项下的豁免,因为被告并没有永久性地存储图片,而是在短期内对图片进行分析后立即予以自动化删除,而且删除后不可恢复。
•被告的行为还应适用《版权法》第44b条项下的豁免,因为将图片文件和提取的元数据用于AI训练使用,属于立法者所规定的文本和数据挖掘的一种主要应用。而且,不会永久存储下载的图像,也不会创建与原作平行的数字档案。
•无论何种情况下,被告的行为应适用《版权法》第60d条项下的豁免。因为被告是一个由研究者组成的非营利协会,致力于研发自我学习的AI算法,基于此目的,被告免费提供数据集和模型,并基于训练数据创建并测试自己的AI模型;被告的工作也算“研究”,因为创建数据集并在互联网上公开提供的行为本身就有助于获取AI训练方面的知识,供其他研究者参考,而且被告还发表了一篇关于案涉数据集的科研文章。被告确实从外部公司处获得了算力资源,但没有从与外部公司获取资金支持,也没有进一步的合作,而且,外部公司对于研究成果也不想有优先获取权,外部公司对被告不具备决定性的影响力。
三、法院意见
法院认为,被告复制案涉照片的行为损害了原告对版权作品的使用权,但是,被告有权复制下载案涉照片,因为这一行为落入了德国《版权法》第60d条规定的“出于科研目的的文本和数据挖掘”,可以予以豁免。
(一)临时复制的认定标准
关于《版权法》第44a条“临时复制”条款,法院结合判例指出,德国法允许的临时复制行为必须具有不稳定性(volatile)和从属性(ancillary)。不稳定性是指临时复制必须是暂时的,是技术运行流程所必需的一部分,而且在实现相关功能后必须以自动化方式立即删除,删除过程不涉及人类参与。从属性是指临时复制行为不独立于技术流程,也不具备单独的其他目的。
在该案中,法院指出,被告虽然在复制后进行了删除,但删除行为并不是独立于用户的,而是被告故意在分析过程中设置了一个删除程序。而且,案涉图片是定向下载的,服务于后续的分析目的,这意味着下载行为本身不只是分析流程所附带的一个程序,而是有意识地在分析流程的上游所主动采取并管控的一个获取过程。因此,法院认定,被告的复制行为不构成临时复制。
(二)创建数据集行为合法性的评估标准
关于《版权法》第44b条“文本和数据挖掘”条款,法院认为被告能否援引该条款似乎存疑,因为被告的下载行为确实是出于文本和数据挖掘的目的,但本案中有一些证据显示版权人作出了有效的权利保留。
1、创建数据集时无法预见后续的训练和生成情况,因此,应区分创建数据集阶段、训练阶段和生成阶段,不应将训练和生成情况作为评估创建数据集行为合法性的标准
法院指出,根据《版权法》第44b条,文本和数据挖掘是指对单一或大量数字或数字化的作品进行自动化分析,以获取信息,尤其是模式、趋势和相关性。关于AI训练是否构成文本和数据挖掘的问题,法院认为没有必要讨论,因为在德国《版权法》条文评注等文献中已经讨论过了。
法院指出,应严格区分创建AI训练数据集的行为(“第一步”)、使用数据集训练AI神经网络的行为(“第二步”)、以及为了生成新的图片内容而使用AI的行为(“第三步”)。法院认为。虽然在第一步创建数据集的时候已经确定了用于AI训练的目标,但在整合数据阶段,无法预见到第二步训练阶段是否成功,也无法预见到第三步应用阶段AI会生成何种具体内容。法院认为,对于AI此类快速发展的新技术,在创建数据集的时候是无法预见到后续具体应用的,因此,在法律层面会存在不确定性,因此,不应怀着“在创建数据图时预见到未来AI生成内容”的想法,并将其作为标准来评估创建数据集这一行为本身的合法性。
2、“创建数据集是用于AI训练、AI将与人类竞争”的可能性无法排除,单凭这一情况不足以证明创建数据行为损害了版权作品的正常使用,也不应据此来解释文本和数据挖掘条款及立法者的本意
关于欧盟《单一数字市场版权指令》中文本和数据挖掘条款背后的立法目的,法院在解读时提出必须考虑2019年制定该条款时AI领域的技术发展——当时不怎么考虑数据挖掘涉及的类型和范围,而是更多考虑AI神经网络在训练后的性能。此外,法院注意到,欧盟《人工智能法案》的立法者曾明确表示,出于训练AI神经网络的目的而构建数据集的行为也需遵守GDPR第4条,并且通用AI模型提供者应制定策略,识别权利人根据《单一数字市场版权指令》第4条规定作出的权利保留并遵守,德国立法者也持相同立场。
法院还在“三步检验法”的框架下分析了被告复制照片、创建数据集的行为。“三步检验法”源自欧盟《关于信息社会协调版权及相关权利某些方面的指令》第5条“例外与限制”第5款的规定:例外和限制条款仅应在部分特殊情况下适用,即不得与作品的正常利用相冲突,不会不合理地损害权利人的合法权益。法院认为本案已经满足了“三步检验法”规定的要件。关于是否与作品的正常利用相冲突、是否不合理损害权利人合法权益的问题,法院指出:
•被告的复制行为与版权法相关的部分仅限于分析图片与此前图片描述之间是否匹配,以及后续纳入数据集的行为。原告所称的损害作品正常利用的可能性并不明显。虽然创建的数据集后续确实可能用于训练AI,且AI生成内容可能与人类作品展开竞争,但单凭这一情况并不足以证明创建数据集行为本身损害了版权作品的正常利用。因为无法预见未来的技术发展,在此情况下,无法在法律层面区分哪些是法律允许的使用行为,哪些不是。
•考虑到技术发展现状,“通过文本和数据挖掘获取的知识可以训练AI,然后AI会与作者竞争”这一可能性永远无法被排除,如果延续这种思路,最终会得出“应完全废除文本和数据挖掘条款”的结论。但是,推翻这一例外条款的解释思路很明显不符合立法本意,因此,不宜据此进行解释。
3、认定权利人作出的权利保留是否满足“机器可读”要件需考虑技术发展情况
法院认为,图片代理网站作出的权利保留是有效的,原告可以援引。理由如下:
•原告作为版权人已经将原始照片的使用权许可给了图片代理网址,因此图片代理网址有权作出权利保留,原告很有可能也可以援引图片代理网站作出的权利保留。
•图片代理网址作出的权利保留覆盖了网站上的所有图片作品,已经足够明确,满足了相关法律要求。
•一些证据显示,图片代理网址作出的权利保留满足了“机器可读”要件。法院倾向于认为,以“自然语言”形式呈现的权利保留满足了“机器可读”的要求,但需要具体达到什么样的条件才能构成“机器可读”取决于技术的发展情况。
法院强调,欧盟《单一数字市场版权指令》第4(3)条旨在平衡文本和数据挖掘涉及到的两方主体的利益,开展文本和数据挖掘的主体希望能尽可能简单且合法安全地进行操作,而权利人希望尽可能简单且有效地保护其权利。如何理解这一平衡?法院指出,《单一数字市场版权指令》序言明确要求权利保留的声明应“以适宜的方式”作出,并没有要求“以尽可能简单的方式”作出。据此,法院认为,不能一方面允许AI模型提供者研发更强大的文本理解和生成AI模型,另一方面又不要求模型提供者识别权利人作出的权利保留。
法院指出,原告未能举证证明在实施复制行为时其是否具备能自动记录权利保留内容的技术,以及技术的充分程度,而且,有迹象显示被告已经具备了相关技术,因为被告在创建数据集、分析对比图片内容和图片描述时使用的软件能够记录图片描述的内容。而且,还有迹象显示被告拥有的系统能自动记录自然语言形式的权利保留。
(三)出于科研目的的文本和数据挖掘条款的判断标准
关于“科研”的认定,法院认为应广义地理解,科研不只包括与获取知识直接相关的工作步骤,还包括获取知识之前的海量数据采集工作。在本案中,法院认为创建数据集是后续训练AI系统的基础,创建数据集虽然并不与获取知识相关,但却是后续使用数据集、获取知识的基础工作。被告将数据集公开免费给AI神经网络领域的研究者足以证明创建数据集的行为构成科研。法院还认为外部商业公司也在使用被告创建的数据集这一情况不影响上述结论,因为商业公司开展的研究也是研究。
关于“研究是否具备商业目的”的判断,法院明确,这取决于研究活动的具体性质,与机构及其资金情况没有关系。法官认为,被告将数据集公开免费提供这一事实本身证明被告不具有商业目的。法院还指出,原告未能举证证明被告创建商业数据集是为了自己自己的商业利益;数据集后续可能被外部商业公司使用的情况与被告活动的性质也不具有相关性;被告的会员也为外部公司工作的事实不足以将外部公司的活动归因于被告。
关于外部私营公司对被告的影响,法院认为,如果外部私营公司具备决定性的影响力,且对于被告的科研成果享有优先获取权,则不能适用德国《版权法》第60d(2)条的豁免。但原告负有举证责任,在本案中,原告提出的以下情况缺乏事实支撑:一是被告协会中两个会员在其他公司任职并不能证明其他公司对被告的研究工作享有决定性的影响力;二是原告也没有主张被告曾为外部私营公司提供优先获取数据集的权限。
四、解读与评议
区别于已有的生成式AI相关侵权诉讼案件,本案事实情况具有一定特殊性。本案中,法院仅针对“制作数据集”的行为进行了认定,明确将“使用数据集训练AI模型”、“使用训练后的AI模型生成新内容”的行为排除在本案探讨的范围之外。因此,本案判决并没有真正回答“AI模型训练是否构成合理使用”的关键问题,对当前AI公司面临的侵权诉讼及行业合规的指导意义有限。针对这份判决的批评意见还包括:将数据集对外发布、传播的行为也扩大解释到“文本和数据挖掘”的范畴内;将“通用文本和数据挖掘”条款中权利人保留声明的门槛降得过低,只要在线上协议中包含泛泛的限制条款即可,这样会实际上让该条合理使用无从适用,等等。即便如此,在如何看待AI对人类作者的影响、如何平衡版权人和AI公司的利益、如何解释和适用版权的限制性条款等方面,德国法院的整体裁判思路和具体认定标准具有一定借鉴意义。
第一,对于“创建的数据集可能会用于AI训练、训练后的AI可能与人类竞争”的观点,德国法院在“三步检验法”框架下作出了正面回应,拒绝单凭这种可能性来判断“创建数据集是否损害了版权作品的正常利用”的问题,并指出这种可能性永远都在,不能据此来解释文本和数据挖掘条款。德国法院明确指出了法律在技术发展背景下的不确定性,反对不符合立法本意的解读。德国法院这种审慎的态度体现了非法律中心主义的立场,选择将法律置于其嵌入的“社会语境”【5】进行解释,拒绝脱离技术情况来解释法律,“AI将与人类竞争,最终取代人类”的可能性是在一段时间内将长期需要探讨、应对的社会学、经济学甚至是哲学议题,并非版权法能够或者需要去规制的问题,“由于AI技术进步导致的人类创作者被取代”也不能等同于版权法意义上的“对原作品的潜在市场产生实质性替代”。
第二,对于AI模型涉及到的创建数据集、模型训练和内容生成三个阶段,德国法院倾向于区别看待、独立评价,不以后续的训练和生成情况作为评价前端创建数据集行为合法性的标准,因为创建数据集的主体无法预见到后续的情况。这也符合当前AI行业的实践发展,数据集发布者、模型开发者、应用服务提供者等角色可能都是由不同经营者承担、由不同的专业团队参与的。同样的数据集可能被用于训练各种不同技术原理、不用垂类的模型。同理,同样的模型也会被应用于截然不同的使用场景中,有的可能用于生成新内容,有的可能只是用于识别、优化信息。区分不同的行为阶段,以“可预见性”为标准、对特定主体的行为进行单独考察这一思路本质上是承认个体局限性、尊重技术实践的一个体现,对于AI产业链上不同主体法律责任的认定具有参考价值。区分不同的行为阶段、以主体的可预见性为限、避免施加超过主体可预见范围的责任可能是一个比较适宜的归责原理。
第三,关于AI场景下版权人和复制者之间的利益平衡,德国法院回归到欧盟《单一数字市场版权指令》中文本和数据挖掘条款的制度设计和立法背景,结合欧盟《人工智能法》的相关条款,指出平衡的关键在于版权人和复制者/通用AI模型提供者是否做到了自己应该做的动作,即版权人是否以机器可读的形式作出了有效的权利保留,复制者是否具备记录权利保留的相应技术,或通用AI模型提供者是否履行了利用最新技术、识别权利保留的义务。欧盟的这种立法设计似乎更强调版权人和复制者的行为、识别权利保留的技术情况,明显区别于美国版权法中合理使用原则以“转换性”为核心的四要素判断,美国法更强调复制行为本身所带来的创新性。我国版权法下的合理使用条款列举的情形有限,在此情况下,三步检验法在AI场景下如何适用有待观察。
脚注和参考资料
脚注
1. Thomson Reuters Enterprise Center GMBH and West Publishing Corp., v. Ross Intelligence Inc., Memorandum Opinion, Sep. 25, 2023, Case No. 1:20-cv-613-SB; 谢南希:《AI训练版权材料是否构成合理使用?美国法院观点及对我国的借鉴》,载“网络法实务圈”微信公众号2023年11月8日,https://mp.weixin.qq.com/s/a2pt1VEMXGPuBLU3LDIp0g。
2. Paul Tremblay, et al., v. OpenAI, Inc., et al., Order Granting in Part and Denying in Part the Motions to Dismiss, Feb. 12, 2024, Case Nos. 23-cv-03223-AMO, 23-cv-03416-AMO.
3. Robert Kneschke v. LAION e.V., Verdict (original in German), Sep. 27, 2024, Hamberg District Court. Case No. 310 O 227/23. Original version of the verdict available at: https://openjur.de/u/2495651.html. English version of the verdict available at: https://www.itm.nrw/wp-content/uploads/2024/09/2495651-en.pdf. 本文事实情况、双方观点和法院意见部分正文来自判决原文,脚注省略。
4. Robert Kneschke, LinkedIn Post dated Nov. 7, 2024, available at: https://www.linkedin.com/posts/robertkneschke_berufung-eingelegt-bei-meiner-klage-gegen-activity-7259564122407686145-0ZTZ/?utm_source=share&utm_medium=member_desktop.
5. 宋亚辉:《迈向自主法学知识体系的比较法研究范式——以2003-2022年的比较法论文为样本》,载《法学研究》2024年第1期。
参考材料
1. Act on Copyright and Related Rights (Urheberrechtsgesetz – UrhG).
2. Directive 2001/29/EC of the European Parliament and of the Council of 22 May 2001 on the harmonisation of certain aspects of copyright and related rights in the information society.
(本文仅代表作者观点,不代表知产力立场)
封面来源 | Pexels