第九届三知论坛实录 | 专题二:人工智能数据训练中的著作权问题
整理/编辑 | Tammie
2024年11月7日至8日,第九届三知论坛在风景如画的浙江省嘉兴市海盐县成功举办。本届三知论坛由中国法学会知识产权法学研究会指导,浙江省高级人民法院知识产权审判庭、知产力、知产宝主办,嘉兴市中级人民法院承办,嘉兴市南湖区人民法院、海盐县人民法院共同协办。本届论坛以“人工智能发展与知识产权保护”为主题,来自司法机关、高等院校、研究机构与创新企业的代表围绕人工智能生成物的客体性质及权利归属、人工智能数据训练中的著作权问题、人工智能生成物的知识产权侵权责任等主题进行分享,精彩内容吸引了来自全国各地数百名知识产权从业者参会。
▲专题二由上海知识产权法院党组成员、副院长刘军华主持,中国法学会知识产权法学研究会副会长,中国社会科学院知识产权中心主任、教授管育鹰,广东省高级人民法院知识产权审判庭副庭长欧丽华,湖北省高级人民法院知识产权审判庭三级高级法官冯雅婧,淘天集团法务总监张波作为主讲人,围绕主题并结合实践中的经验心得进行分享。
管育鹰:AI训练使用版权内容合理使用的构成要件
中国法学会知识产权法学研究会副会长,中国社会科学院知识产权中心主任、教授管育鹰以AI训练使用版权内容合理使用的构成要件为题进行分享:
1.AI相关立法
(1)公法治理规范
通过对现有公法治理规范的梳理,我们发现诸如数据安全法、网络安全法等法规,均从公共治理的角度出发,提出AI技术的发展应当尊重在先权利,尤其是尊重知识产权合法权益,说明AI技术发展在全球认知中,技术发展受到鼓励的同时也要遵守已有规则。
关于尊重IP等私权的原则落地,例如新制定的治理规范所规定的AIGC标识义务,目前违反管理规范仅有罚款、关停等处罚,未涉及民事法律关系,因此对于AIGC是否IP客体、若是其权属、AI训练及AIGC相关的侵权行为及例外等判定,仍需回归到私法领域进行考量。
(2)私法治理规范
目前的争议问题是前端AI喂料训练使用是否适用《著作权法》第二十四条“权利的限制”(合理使用侵权例外)。由于AI利用作品的方式是一种新的利用方式,是将作品等内容分解为数据根据算法重新整合成新的或模仿原作的AIGC,这种数据挖掘与以往的作品使用方式不同,不适用现有的著作权法规定,需要新的立法来规范。
关于前端将作品作数据投喂训练AI,从域外经验来看,欧盟2019年《数字单一市场版权指令》关于学术研究要求非常严格,美国司法实践中有“转换性使用”,日本是“非欣赏性使用”,即并非为了版权内容的欣赏而是为了进行数据挖掘和情报分析,属于合理使用。这些域外做法给我们提供一些思考。AI训练需要用到大量受保护的作品,目前并没有一个普遍适用的“合理使用”标准来突破版权限制;一对一谈判困难的现状下,通过集体管理组织、市场化磨合等方式来解决较现实,通过立法来解决可能会更加缓慢。
2.结果论:AIGC用途——非欣赏性/非竞争性
(1)控制后端
后端“吐料”相较于前端“喂料”更容易控制,在投喂前端的过程中,虽然理论上应事先获得版权人的许可,但实际情况是数据已被擅自使用,而版权人无法有效监控其使用状况。实践中,真正引起纠纷的是后端的“欣赏性”使用;本身未经授权使用数据进行训练于法无据,再将由此产生的生成物推向内容市场与版权人形成了竞争关系,当然容易引起纷争。
(2)前端立法合理使用
实践中并无因学术和研究等公益使用引起版权人不满引发纠纷的事例。因此,理论上可以对前端合理使用增加立法规定并释明适用规则,即合理使用不延及与在先版权内容构成实质性相似的AIGC及其后续传播利用:仅限于①以非欣赏性/非竞争性目的而复制;②以数据挖掘方式使用;③AI生成物的非欣赏性/非竞争性用途。
欧丽华:宽进严出:人工智能训练数据著作权问题的司法应对
广东省高级人民法院知识产权审判庭副庭长欧丽华围绕人工智能数据训练中的著作权问题分析、主要裁判路径的选择与权衡、数据训练著作权侵权问题的司法应对三个维度的思考进行分享:
1.人工智能数据训练中的著作权问题分析
探讨人工智能训练数据的著作权问题前,有必要对其使用作品的流程进行技术画像,看在哪个环节,可能产生著作权问题。在产品运行层面,人工智能生成内容的产生需要经历数据收集、数据投喂、机器学习、内容输出四个阶段,然而前三个阶段通常处于黑箱阶段,除非落实信息披露制度,否则权利人很难知道是否使用了其作品。目前司法实践中较少单独直接起诉输入端的数据投喂构成著作权侵权的,多数是起诉输出端生成物侵犯复制权、改编权、汇编权、传播权等,请求法院判令侵权者删除训练数据以停止输出端的著作权侵权。这实质上包含两方面问题:一是输入端的数据投喂本身是否构成著作权侵权;二是删除输入端已经投喂的训练数据是否为制止输出端生成物侵权所必需的措施。这两方面问题均牵涉广泛,对输入端的数据投喂本身是否构成著作权侵权,目前争议也较大。
2.主要裁判路径的选择与权衡
关于数据训练阶段的复制,或者临时复制是否侵权,在裁判中可能存在三种考量:
(1)严进——将训练数据认定为侵权行为
严进这一思路虽然充分考量了权利人的利益,但严格遵照“谁主张谁举证”规则原告要胜诉并非易事。目前人工智能发展似乎并未遵循该路径。此路径也对人工智能发展必须获取的高质量数据带来困难,一是从公共领域获取作品的时效性差,无法使人工智能得到有效训练;二是海量作品的权利人极为分散,找到作品权利人授权困难且成本高昂。著作权集体管理、版权池的构建或需成本也难以有效解决产业需求。
(2)绝对宽进——将训练数据认定为非侵权行为
将训练数据认定为非侵权行为的考虑一是训练数据阶段的“临时复制”尚未被纳入我国著作权法中复制权的规制范围;二是训练数据属于“非作品性使用”,既可能未利用独创性表达部分,也并非将其作为作品来传播或再现,单个作品在整个数据集中的价值几乎为零;三是数据训练身并不违法,著作权法并未规定“阅读权”和学习权。有研究者提出生成式人工智能应用对著作权人并没有造成整体激励的削弱,只是导致了激励行为的结构性调整,不需要将著作权保护延伸到数据训练来补偿,从权利范围直接排除保护的方案,总体上优于“先进后出”的合理使用方案。但全然否定数据训练行为的可责性,放任输入端的复制行为,是否能够在输出端妥善地实现对权利人的保护?
(3)相对宽进——附条件地允许训练数据
目前较多域外国家通过“合理使用”有条件地允许数据训练,如欧盟附条件的“文本与数据挖掘”侵权例外,日本“非享受性使用”等法定不侵权情形。我国2020年修订的《著作权法》对合理使用作了两个“不得”的规定,结合相关司法政策,为司法裁判者预留了“合理使用”的裁量空间。版权信息披露制度是对作者精神权利的承认和尊重,也可为著作、财产利益的实现提供便利。我国、美、英国、欧盟都有相关规定。我国网络安全标准化技术委员会《生成式人工智能服务安全基本要求》第5.2条倡议服务商提供商“公开语料中涉及知识产权部分的摘要信息;在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。”
3.数据训练著作权侵权问题的司法应对
从著作权法诞生之初,就与技术发展息息相关。人工智能领域的问题复杂且多维,给我们带来的不仅是挑战,也是机遇和使命。人工智能正在快速发展中,过早采取过于严格或一刀切的监管措施,未必真的有利于产业和版权保护的双向奔赴。有关讨论并未超出著作权法的基本理论和分析框架,未脱离现行的法律制度。我们应当建立人工智能案件的相应审理机制,个案具体情况具体分析,对案件的具体场景和基本事实作细致分析,不强求得出适用于所有案件的规则。通过个案的处理,充分融合国家人工智能产业发展政策,遵循司法政策,平衡权利人的利益与AI技术和产业发展的利益,为制度建构提供司法实践维度的参考。
冯雅婧:人工智能训练数据合理使用制度的司法适用考量
湖北省高级人民法院知识产权审判庭冯雅婧主要围绕数据知识产权保护、人工智能产业数据版权之困引入合理使用制度、合理使用制度司法适用困境以及合理使用制度司法适用考量因素四个方面展开探讨:
1.数据知识产权保护
人工智能的构成要素包括算力、算法和数据。算力知识产权保护主要涉及发明专利和技术秘密等;算法知识产权保护主要涉及程序算法的专利保护和程序文件的版权保护。最有争议的是数据知识产权保护,《关于构建更加完善的要素市场化配置体制机制的意见》提出数据成为土地、劳动力、资本、技术之后的第五大生产要素。2023年财政部也将数据知识产权入表,数据知识产权保护在人工智能法治领域非常重要。
2.人工智能产业数据版权之困引入合理使用制度
为什么人工智能技术的发展会伴随着较高的著作权侵权风险呢?因为支撑AI大模型研发的关键在于海量且高质量的数据,而知识产权的规则是先授权后使用,《生成式人工智能服务管理办法》第七条提出,即使是训练也必须使用合法来源的数据和基础模型。
通过调研发现目前人工智能企业的困惑是数据高安全与高质量不可兼得,许多人工智能企业的数据来源以公开网络数据为主,私有数据为辅,但公开网络数据的数据因数据权属多样化、数据来源广泛化、数据类别复杂化,以及数据溯源的极高成本等因素,导致著作权侵权风险较大,而一些安全的途径又很难获取高质量的数据。
3.合理使用制度司法适用困境
我国的合理使用制度遵循三步检验法,美国采取四要素法,具有较大的解释弹性。美国“转换性使用”的优点是符合数字环境下人工智能快速发展现状,有效解决了人工智能背负的侵权“原罪”,平衡了人工智能产业发展与著作权保护的需求,满足了人工智能促进人类进步的公共利益属性。但转换性使用也并非完美,美国法官也开始限制转换性使用。
我国法官能否在人工智能著作权侵权案件中借鉴转换性使用?转换性使用并非我国著作权法规定的合理使用类型,与之相似的是著作权法第二十四条第二项适当引用,但适当引用必须以介绍、评论作品或者说明问题为前提条件,人工智能数据训练很难直接引用这个条款。转换性使用是否与我国遵循的“三步检验法”适配?法官的扩大解释,会不会致使转换性使用吞噬版权?会不会影响法律的稳定性、可预见性?
4.合理使用制度司法适用考量因素
我国著作权法第二十四条是相对封闭式的列举,如何突破?从最高院的相应政策和观点来看,合理使用制度总体呈开放趋势。关于转换性使用,个人建议批判性吸收,可以将其作为是否认定构成侵权的司法考量因素之一,但不作为不侵权的唯一因素。
司法实践中围绕三步检验法检验合理使用制度可以考量以下因素:
(1)是否具备合理使用制度所要求的特殊目的与合理性
回到立法目的,著作权旨在促进社会主义文化和科学事业的发展与繁荣,人工智能数据训练主要以产业利益为推手,数据训练商通常是互联网企业等商业主体,但同样具备很强的公共利益性。在公共利益与产业利益交叉融合的情况下,公共利益通过产业发展为媒介间接得到满足,社会公众无疑是人工智能技术发展的受益方。在这种情况下,合理使用制度便具有了适用空间。著作权人既是合理使用制度的容忍方,也是合理使用制度的受益方,相当于从立法目的的解释来扩大合理使用范围。
(2)人工智能数据训练行为有无影响作品正常使用
数据训练行为本质是在输入端技术性复制大量作品,学习作品风格和生成规律,这种情形下原始作品被碎片化,重组化,数据训练行为属于非表达性使用原始作品,并不影响原始作品的正常使用。
(3)人工智能数据训练行为有无损害著作权人的合法权益
如果以学习大众表达为目的,例如美国作者学会对欧盟AI提起诉讼,合理使用制度具有适用空间,但若以模仿个别作品为目的,如前段时间的AI孙燕姿,这种数据训练具有指向性侵权目的,极有可能损害著作权人的合法利益,合理使用就不再是合法的抗辩理由。
(4)著作权人有无选择采取保护措施
如果著作权人主动对其作品采取了保护措施,建议尊重著作权人的选择权,而不是通过合理使用制度强制破坏著作权人设置的保护措施。
(5)主观是否存在侵权恶意
当人工智能技术开发者已经采取了必要的技术措施避免模型被应用于侵权时(比如采取了合规手段防止数据被非法访问、篡改或泄露等),可以在一定程度上证明其主观上无侵权恶意。
总体来说,人工智能著作权侵权案件存在主体多样化(技术开发者、技术使用者、技术经理人等);行为复杂化(输入、输出等)。目前争议较多,应当采用个案分析方法,具体问题具体分析。
张波:生成式人工智能作品保护法律问题——以商品海报生成式AI生成物为视角
淘天集团法务总监张波通过商品海报生成式AI生成物的视角,分享对生成式人工智能作品保护法律问题的思考。
目前,在电商场景中大量应用AI技术以节省人力和物力,以AI技术生成商品海报为例,整个过程可概括为“图生款,款又生成图”。首先,AI生款环节,商家上传原始素材图,结合自身需求对颜色、风格、材质和版型等方面进行细微调整及创意修改,经过反复组合调整最终精修成款式图。下一步,利用款式图结合商家审美,选择数字人模特穿上衣服进行摆拍,并根据衣服风格挑选合适背景,最终生成商品海报用于商品详情页展示,通过AI技术实现了成本节约和优化。
在此过程中,可以从两个方面思考确认生成物权益:若生成物具有独创性,构成作品应考虑著作权法保护;若生成物不具有绝对独创性,但为商家劳动成果,并可为商家获取竞争优势的生成物可以从《反不正当竞争法》中的竞争利益的角度保护。
首先,商品海报具有天然的权利,从激励理论和劳动力理论来看,著作权和竞争性权益都应具有可保护的权益;第二,从工具论角度来看,平台提供的AI是工具,实际上最终决定作品的内容的是商家;第三,从权利义务对等的角度来看,承担侵权责任的前提是享有相应权利;此外,从与用户协议的约定来看,用户享有商品海报生成物的著作权,商家或者用户在素材输入、风格版型、模特数字人等方面体现了审美理念和独创性智力投入。
用户在创作商品海报后发生侵权,用户和平台分别采用何种方式进行维权?从用户角度来看,单个商品数据,商家既可以以著作权,也可以以竞争性权益来主张权利,从平台角度看,商品数据集合或不特定商品数据,平台可以竞争性权益来主张。
电商领域后续还会有大量AI工具进行研发,AI工具在电商领域的应用已经非常广泛,提升生产力,获得竞争优势,对于新事物,希望司法给予更多肯定和宽容。
圆桌讨论
▲圆桌对话环节,由重庆市高级人民法院知识产权审判庭庭长曹柯主持,上海市高级人民法院知识产权审判庭副庭长徐俊,北京市石景山区人民法院行政庭(知识产权庭)副庭长易珍春,北京阳光知识产权调解中心调解员、中国政法大学无形资产研究中心研究员苏志甫,宁德时代首席知识产权官孙明岩作为对话嘉宾进行观点分享与交流。
上海市高级人民法院知识产权审判庭副庭长徐俊通过以下三个方面分享相关思考:首先是回到原点。知识产权制度是社会契约,而不是简单的天赋人权,讨论人工智能产业的一系列法律问题应回到知识产权制度的初衷和原点,即激励人们创造更多的智力成果。因此,在人工智能语境下,对人工智能生成物的保护是否与社会契约目的相符合的评判及讨论应回到知识产权制度的初衷。
其次是关切当下。所有的讨论都应当基于当下人工智能产业实践发展,无论是作品权利归属、作品定性还是数据训练以及平台责任,都需要了解人工智能产业实际业态。关于数据训练,可以看成一种生产过程性的中间使用,与人类通过大脑分析、学习、收获和体会相似,人工智能也通过数据训练进行学习。另一方面,数据训练和生成作品是两个阶段。人工智能在数据训练过程中并未直接生成作品,并且实践中看不到数据训练过程,能看到的是人工智能生成物,那么如何从证据角度判断人工智能进行哪些数据训练呢?人工智能产业实践有属于自己的产业形态,我们应该关注当下问题,关注人工智能产业实践的发展。
最后是展望未来。面对技术与法律碰撞产生的问题,如何协调好两者的关系,平衡版权人利益、人工智能产业利益以及社会大众的公共利益是一个重要课题。一方面,我们不应该放弃既有的法律模式,许多当前产生的问题在既有的法律规范和模式中都能找到答案。通过既有法律规范进行调整是最节省经济成本的方法。另一方面,人工智能的创新给传统法律制度带来了冲击,更多地需要通过新的立法解决,然而立法过程是各方利益博弈的过程。基于对当前产业实践的分析可以发现,人工智能作品创作过程与既有作品创作过程相比具有诸多差异。与其过早下结论,不如让市场推动发展。我们期待人工智能产业的蓬勃发展,这不仅是未来产业,也是人类的未来。
北京市石景山区人民法院行政庭(知识产权庭)副庭长易珍春认为现阶段人工智能只能融合人类的智力成果,并不能创造新的事物。以毛主席诗词中的山舞银河、原驰蜡象为例,用户输入关键词后呈现的是一座大蛇盘绕的山,有蜡象的草原,表明人工智能在意境方面是对现有的人类创作进行杂糅。
因此,确保人工智能产业健康发展和保护创作者利益需要回归保护人的创作,目前有三种解决路径:第一种是常规的侵权思路,用于解决纠纷。第二种是合理使用的例外情形;第三种是法定许可,在案件具体分析中,很容易出现裁判尺度不统一或冲突。集体管理组织若能有效实施法定许可制度,将有效缓解并摆脱人工智能训练使用数据时的原罪,既能避免各方纠纷,同时也能避免损害版权人的合法权益。然而,集体管理组织在实施中可能面临多重挑战,即使用费设定过高会增加AI训练的成本投入,而使用费过低则可能遭到版权人的拒绝。此外,版权人退出时还面临一个棘手的问题,由于机器已将学习过的数据融入其他内容,目前让机器彻底删除这些数据需耗费更多时间重新训练。从这些角度来看,法定许可制度可能各条路线都会面临困难,需要避免制度落空。
人工智能时代已到来,法律需适应科技发展,对知识产权法官而言是迫切的现实,也是需不断学习适应的过程。法官对新类型、新技术案件应保持谨慎态度,不可冒进,避免因判决造成颠覆性认知或阻碍行业发展。
北京阳光知识产权调解中心调解员、中国政法大学无形资产研究中心研究员苏志甫从以下三个角度分享了对商业化场景下数据训练行为整体分析的思考:首先,在商业化场景中,数据训练行为并非孤立存在,是人工智能模型的一个阶段。它与前期的数据收集与处理、后期的模型输出呈现紧密相连。因此,数据训练行为合法性的判断需要全面考虑,不同阶段的行为可能会影响个案中对数据训练行为的定性。
其次,在产业界,大家都在寻求一个平衡各方利益并且符合产业长期发展的规则。实际上,无论是在国内还是国外,关于在数据训练中获得权利的许可正处于形成过程中或者已经形成,一些前沿的大中小企业已经接受了授权许可机制,与众多新闻媒体和移动平台达成合作。这也表明,授权许可机制已经成为业界的一种趋势。
第三,在规则适用时应当关注产业发展的痛点。其中,AI训练对数据质量和数量的要求决定了单一主体的数据来源难以满足训练需求,因此,以方便的路径和合理的费用获得数据是AI产业发展中比较关注的问题。此外,当前众多经济实力较弱的AI企业可能无法承担高昂的许可证费用。因此,在未来的制度构建中需要考虑如何以相对合理且可承受的资金成本获取数据。再者,考虑是否存在数据授权市场失灵的情况,在市场失灵时,我们如何合理运用制度来发挥作用?这些问题可能不仅仅依赖于著作权法来解决,还需要结合其他方法。
综上所述,在超越个案层面讨论问题时,这些都是我们需要深入考虑的问题。最后,对于现阶段构建新规则或对既有规则进行重大调整而言,目前的案例素材远远不够。
宁德时代首席知识产权官孙明岩基于制造业背景,从AI在中国制造业的应用角度进行分享:新能源行业是中国新质生产力的代表,其核心竞争力是创新,中国企业在制造领域实现了许多创新和技术变革,使得新能源行业的制造变得更加复杂且具有全球竞争力。宁德时代公司自成立以来的13年间,乘着中国新能源转型的东风实现跨越性发展并快速跻身世界500强企业。
中国新能源行业包括其他制造企业在过去几十年积累了海量的生产数据,然而目前生产制造的数据并未制作成一个数据集,其中一个原因可能是当前的知识产权保护体系未能跟上中国制造业日新月异的发展变化,比如普通的生产数据无法界定为商业秘密而得不到有效的保护。此外,数据只有在转化为大数据后才能发挥其最大价值,但目前中国的生产制造企业大多仅限于内部使用自己的数据,缺乏流通。如果数据成为信息孤岛,其价值便会大幅降低。
企业不愿意分享数据一个很重要的原因在于他们认为自己的利益无法得到保护,在数据方面可以参考专利的立法宗旨,即通过公开信息来换取保护。那么,数据领域是否也可以通过新的数据知识产权立法实现数据各方利益的最佳均衡,并推动整个行业的发展呢?因此,中国制造业的核心竞争力有望通过立法和实践来实现。
相关阅读
· 第九届三知论坛实录 | 专题一:人工智能生成物的客体性质及权利归属
(本文仅代表发言嘉宾观点,不代表知产力立场)