AI生成图片可版权性问题探究(一)——从“可控制性结果”角度分析
作者 | 郑莉 皮民柱 北京高文律师事务所
编辑 | 布鲁斯
2023年11月27日,北京互联网法院针对AI生成图片著作权侵权纠纷一案,作出一审判决。[1]在本案中,原告李某通过Bilibili软件中视频的网址链接和分享的文章,下载了AI软件Stable Diffusion以及名称为AsianFacemix-pruned-fix.safetensors和lora-hanfugirl.v1-5.safetensors的模型包,并将模型包安装至Stable Diffusion软件之中,原告通过输入复制某论坛中用户分享的正向提示词和反向提示词的内容和修改迭代步数、高度、提示词引导系数、随机数种子以及修改提示词等方式,生成了本案的涉案作品。经当庭勘验,该软件可以通过变更提示词和参数的输入,其生成的图片结果不同。
(涉案的不同图片)
法院经审理认为,在本案中原告使用AI软件生成的图片构成著作权法意义上的美术作品,原告享有其著作权。并主要围绕以下两个方面展开分析:
(一)人工智能软件Stable Diffusion生成的图片是否构成《著作权法》意义上的作品
本案法院认为,在本案中判断生成图片是否构成美术作品,要看该图片是否具有独创性、是否属于智力成果。
首先,法院认为原告在在涉案图片的创作过程中进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等等。涉案图片体现了原告的智力投入,故涉案图片具备了“智力成果”要件。
其次,在独创性方面,法院认为,原告在利用Stable Diffusion软件模型生成图片过程来看,一方面,虽然原告虽然没有动笔也没有全面地告知Stable Diffusion模型怎样去画出具体的线条和色彩,但是原告对于人物及其呈现方式等画面元素通过提示词进行了设计,对于画面布局构图等通过参数进行了设置,体现了原告的选择和安排。另一方面,原告通过输入提示词、设置相关参数并通过不断调整修正提示词和参数的方法最终获得了涉案图片,这一调整修正过程亦体现了原告的审美选择和个性判断。上述图片的生成过程中体现出了原告的个性化表达。所以涉案图片具备“独创性”要件。
在该判决中,法院特别提到:
“现阶段,生成式人工智能模型不具备自由意志,不是法律上的主体,因此,人们利用人工智能模型生成图片时,不存在两个主体之间确定谁为创作者的问题,本质上,仍然是人利用工具进行创作,即整个创作过程中进行智力投入的是人而非人工智能模型……人工智能生成图片,只要能体现出人的独创性智力投入,就应当被认定为作品,受到著作权法保护。”
综合上述理由,法院将该图片认定为作品。
(二)原告是否享有该美术作品的著作权
法院认定,首先,涉案Stable Diffusion人工智能模型的设计者在其提供的许可证中表示“不主张对输出内容的权利”,可以认定设计者亦对输出内容不主张相关权利。其次,涉案人工智能模型设计者既没有创作涉案图片的意愿,也没有预先设定后续生成内容,其并未参与到涉案图片的生成过程中,于本案而言,其仅是创作工具的生产者。故涉案人工智能模型设计者亦不是本案涉案图片的作者。
本案的原告作为人工智能模型的使用者,其是直接根据需要对涉案人工智能模型进行相关设置,并最终选定涉案图片的人,涉案图片是基于原告的智力投入直接产生,且体现出了原告的个性化表达,故原告是涉案图片的作者,享有涉案图片的著作权。
在本案中,法院关于涉案图片构成《著作权法》意义上的作品的理由及认为原告作为人工智能模型的使用者通过一系列所谓的必要操作就可以取得涉案图片的著作权,进而享有著作权人的合法权利的结论笔者实难赞同。笔者将通过分析AI生成图片的技术模式为基础,在作品结果的“可控制性”角度分析AI生成图片的可版权性问题。
一、AI生成图片的技术模式简析
通常来说,AI生成图片涉及到两个方面:一是生成类似于真实图片一般的数据,二是解析人类的生成指令并给出相应的结果。在生成图片数据方面,最初一个重要的模型是GAN(Generative Adversarial Networks)。GAN包含生成器和判别器两个部分。生成器从随机的k维向量出发,用采样网络合成大很多的n维数据,判别器就负责判断合成出来的图片是真是假。在判别器高强度的不断训练下,生成器会不断改进生成的结果,直到制作出符合要求的、判别器无法分辨真假的作品。但是GAN一个重要的特征在于在面临重大特征网络时稳定性不足。因此在当今的AI生成领域,扩散模型(Diffusion Model)得到了广泛运用。扩散模型生成图片的方式为先逐步叠加符合状态分布的噪声,最后得到看上去全是噪声的马尔科夫链模型,再使用U-net模型逐步去除噪声、试图还原图片,这即是生成数据的过程。在对文本的理解方面,CLIP模型(Contrastive Language-Image Pre-Training)通过利用海量的数据在广阔和文本和图片之间建立联系,通过这种联系指导模型生成最终的图片。[2]以上就是AI生成图片的全流程。
二、美国司法实践对于AI生成图片版权的否认——
AI用户对最终生成之图片缺乏可控制性
1884年的Burrow-Giles Lithographic Co. v. Sarony[3]一案中,借助照相机生成的照片之可版权性问题便引发了激烈的争议。在此起案件中,美国最高法院指出,是否采用机械创作并不影响版权的认定,获得版权法保护的标准在于某项表达是否属于“作者的独创的思想概念”之范畴。(We entertain no doubt that the constitution is broad enough to cover an act authorizing copyright of photographs, so far as they are representatives of original intellectual conceptions of the author.)鉴于作者的思想(对轮廓、光影等的选择)在照片的摄制中得到了可见的表达(the ideas in the mind of the author are given visible expression)。本案中,美国最高法院认为作者对于借助相机进行摄影形成的照片对于最终作品的呈现具有显著的控制力,是实质性展现并创造作品的人。(‘author’ involves originating, making, producing, as the inventive or master mind;the author is the man who really represents, creates, or gives effect to the idea, fancy, or imagination)
在今年8月美国华盛顿哥伦比亚特区联邦地方法院判决的Thaler v. Perlmutter[4]一案中,作为被告的美国国家版权局重申了版权法仅限定于“作者的独创的思想概念”范畴的观点,拒绝给予Thaler利用AI而生成的图片(A Recent Entrance to Paradise)(图一)的版权。法院在裁判中赞同了美国国家版权局的观点。即:虽然版权法的边界会随着时代的发展而不断拓展,但是人类的创造性才是版权保护的核心必要条件。
图一(A Recent Entrance to Paradise)
Burrow-Giles Lithographic Co. v. Sarony一案至今仍然影响着美国在AI可版权方面的实践。美国国家版权局在对Zarya of the Dawn一案的[5]版权审查回复信件中也同样阐明,一个向AI生成模型提供关键词的人既未从事实质创作(actually form)新图片,也不是在图片背后的掌控的头脑。AI软件以视觉噪音(noise)技术开始作品的生成,用户的指令虽然能够影响最终的结果,但提示词并不会指向特定的结果。可以说,用户的提示词仅仅是对AI生成作品的引导,用户对最终生成图片的结果缺乏显著的控制(sufficient control),亦即相关图片的生成并非作者对脑海中图像特定化努力的结果,AI在图片的生成中仍有相当大的随机生成的空间。
笔者赞同上述判决和回信中阐述的观点,人类的创造性才是版权保护的核心必要条件,而对作品可控制性是决定作品是否有创造性的决定性因素。在AI画作的创作中,AI 用户相关的提示词起到的作用更接近于建议,最终画作的输出是AI通过文本和图片之间的对应关系指导模型输出对应图片的结果,用户并没有通过亲身的实践将这些提示词进行有形的表达,或者说最终的呈现更多归功于AI算法的运作,并非作者对具体画面的细节进行选择安排的“可控制的结果”,因而难以获得版权的保护。
三、结果的“可控制性”与“思想-表达二分法”的连接——
AI生成图片为何不符合著作权法的作品标准
《与贸易有关的知识产权协定》第9条第2款指出:
“版权的保护仅延伸至表达方式,而不延伸至思想、程序、操作方法或数学概念本身。”
《美国版权法》第102条(b)款规定:
“在任何情形之下,对原创作品的版权保护都不延及作品中的一切属于想法、程序、过程、系统、操作方法、概念、原理及发现的部分,不论作者在作品中是以何种方式加以描述、表达、展示或显现。”[6]
我国《著作权法》第3条第1款规定:
“本法所称的作品,是指……能以一定形式表现的智力成果……”
足以看出,在著作权领域中,法律的保护仅涵盖表达,而不延及思想。我国《著作权法实施条例》第4条第8项规定:
“美术作品,是指绘画、书法、雕塑等以线条、色彩或者其他方式构成的有审美意义的平面或者立体的造型艺术作品。”
从法律条文中不难发现,美术作品中表达的成分在于其“线条、色彩等方式构成的有审美意义的平面或立体的造型”。
全国人大法工委主编的《中华人民共和国著作权法导读与释义》也指出:
“本法所称的作品必须是自己创作的,而不是从别人的作品中抄袭来的。所谓创作,是指文学、艺术和科学作品的创造,即作者通过对政治、经济、文化和其他社会生活进行观察、体验、研究、分析,并对社会生活的素材加以选择、提炼、加工,运用自己的构思、技巧,塑造出艺术形象或表述科学技术的创造性劳动。”
上述国际条约、法律文本和全国人大法工委的解释均说明,著作权保护的对象仅局限于表达,而不延伸至思想。这样做的理由在于,表达是特定化的产物,对特定表达的授予一定期限的著作权权利并不会干涉社会的自由,因为人思维的差异使得世界上很难出现完全相同的表达。而思想却不全然如此,在近似的思想下,可以有多样化的表达选择,如果授权某些人“垄断”某种思想,则必然有损于社会的创作自由。正如德国学者莱布尼茨所说:“世界上没有两片完全相同的树叶,也没有两片完全不同的树叶。”这其中树叶间相似的地方在于思想,不相似的地方则是表达。
无论是美国最高法院“表达须来自作者独创的思想概念”之标准,还是美国国家版权局强调的“对作品具有显著的控制”这一判断思路,二者共同指向的是著作权法中关于“思想”与“表达”间如何区分与连结的问题。所谓“表达须来自作者独创的思想概念”,就是作者对作品细节设计和整体布局的选择和安排在最终的作品上得到呈现;所谓“对作品具有显著的控制”,就是作者应当对最终作品的整体效果、细节设计、各部分之间的逻辑安排、特定要素的选择与布置等作出了周密而严谨的设定。二者所强调的“可控制性”,其实质便在于“表达的特定性”,这种对特定性的要求的本质就是为了在保护著作权和维护公共利益之间寻找到恰当的平衡。
具体到在本案而言,虽然本案原告刘某设定的提示词和相关参数最终会影响图片的生成。但是,在图片生成的过程中,原告既没有动笔描摹画面,也没有全面地告知Stable Diffusion模型怎样去画出具体的线条和色彩,其通过输入提示词和参数获取图片行为,仅仅说明其在最终图片的生成中起到了一个引导者的作用,缺失了“对社会生活的素材加以选择、提炼、加工”的努力。在图片生成的结果上,不论刘某对于关键词进行了多么精细的选取,对相关参数进行了何其巧妙的设定,我们都必须承认,AI使用者对于关键词和参数的设定仅仅是一种思想层面的创意,最终定型化表达的生成都是人工智能基于算法生成的结果,并非来自于使用者的实质性贡献。正如笔者在原理部分所揭示的那样,AI生成图片是基于在文本和图片之间建立联系的算法模型,最终图片的生成涉及到训练数据的广泛性与质量、扩散模型对画面的处理等算法内在的处理等因素。在采用不同算法、不同模型的情况下,可能最终生成的结果都不尽相同。所以,图片最终呈现出来的是来源于人工智能的内部算法,而非原告刘某将自己的思想外化为特定化的表达的努力。
所以,笔者认为,在本案中原告刘某使用AI软件生成图片,其对AI软件可出现的结果不具有有效的控制的情况,说明其努力仍然停留在思想的层面,并不足以使其得到著作权法保护。
结 语
人工智能在不断地发展及演进,虽然在现今AI生成图片的可版权性还存在诸多争议和可讨论的空间,但我们并不知道未来的人工智能体会不会像人类一样产生真正的意向性与创作意图。如果真的有一天 “强人工智能”真的会出现,那么会意味着著作权的修改或者新的法律制度的建立。
注释
[1] 参见北京互联网法院(2023)京0491民初11279号民事判决书。
[2]参见周艺超:《【白话科普】10分钟从零看懂AI绘画原理》,网址https://zhuanlan.zhihu.com/p/620953778
[3]Burrow-Giles Lithographic Company v. Sarony, 111 U.S. 53, 61 (1884).
[4]Thaler v. Perlmutter, D.D.C. (2023).
[5]United States Copyright Office, Registration # VAu001480196.
[6] 原文为In no case does copyright protection for an original work of authorship extend to any idea, procedure, process, system, method of operation, concept, principle, or discovery, regardless of the form in which it is described, explained, illustrated, or embodied in such work.
(本文仅代表作者观点,不代表知产力立场)
封面来源 | Pexels
插图 | 作者提供(仅用于说明事实)