人工智能生成内容的“非作品”属性探讨——兼评北京互联网法院“AI文生图第一案”

2024-02-08 19:50:00
在当前法律和技术框架下,“AI文生图第一案”中的人工智能生成内容不具有著作权意义上的“作品”属性。

图片

作者 | 安筱琼 姜润  北京高文律师事务所

编辑 | 布鲁斯

2023年12月27日,北京互联网法院在其微信公众号上以《“AI文生图”著作权案一审生效》为题,发布了其刚刚审结的一起与人工智能生成图片相关的侵害作品署名权和信息网络传播权纠纷案件(简称“AI文生图第一案”或“该案”),案号为(2023)京0491民初11279号。在该案中,法院首次明确了使用者利用人工智能(AI)生成的图片具有“作品”属性,使用者具有“创作者”身份。

这一裁判结论,在国内著作权理论界和实务界引发了广泛的、热烈的讨论,不同的专家、学者或律师们等专业人员的观点各异,可谓仁者见仁、智者见智。该案作为我国“AI文生图第一案”必将对我国乃至世界人工智能生成内容领域的技术发展和法律研究产生深远影响。

笔者对该案判决中的部分观点和结论持赞同意见,但对该案判决关于“作品”属性及“作者”身份的核心裁判结论持反对意见,故撰写本文,尝试从人工智能的技术本质、法律逻辑、法经济学等不同角度对该案的法律焦点问题进行分析,进而得出在当前法律和技术框架下,该案中的人工智能生成内容不具有著作权意义上的“作品”属性的判断,同时建议司法机关应当对类似人工智能生成内容的保护采取谨慎和谦抑的态度,并使裁判规则具有明确的代表性和可预期性。

一、AI文生图第一案介绍

(一)案情简介

原告通过某网站、某用户、某视频下方的网盘链接自由选取、公开下载Stable Diffusion相关的两个模型,整合后通过在Stable Diffusion输入正反两方面提示词的方式生成了涉案图片。具体方法:原告下载Stable Diffusion相关模型,随后在正向提示词与反向提示词中分别输入数十个提示词,设置迭代步数、图片高度、提示词引导系数以及随机数种子,生成第一张图片;之后原告通过修改其中一个模型的权重、修改随机种子、增加正向提示词内容等方式又分别对应生成了第二张、第三张、第四张图片,其中第四张图片为涉案图片。之后原告将涉案图片发布在小红书平台。被告在百家号上发布文章配图使用了涉案图片。原告认为被告的行为侵犯了原告的署名权和信息网络传播权,被告辩称不确定原告是否享有涉案图片的著作权。由此,我国备受关注的“AI文生图第一案”拉开帷幕。

(二)法院生效裁判要点

北京互联网法院经审理后认为,涉案图片符合作“作品”定义,属于“作品”,原告是涉案图片的作者,享有涉案图片的著作权。

法院认为,审查原告主张著作权的客体(即涉案图片)是否构成作品,需要考虑如下要件:1.是否属于文学、艺术和科学领域内;2.是否具有独创性;3.是否具有一定的表现形式;4.是否属于智力成果。

法院根据上述构成要件,对该案事实进行了如下评价:

第一,从涉案图片的外观上来看,其与通常人们见到的照片、绘画无异,显然“属于艺术领域”,具有“一定的表现形式”,即满足要件1和要件3。

第二,涉案图片系原告利用生成式人工智能技术生成的。从原告构思涉案图片起,到最终选定涉案图片止,原告进行了一定的智力投入,比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等。涉案图片体现了原告的智力投入,具备“智力成果”要件,即满足要件4。

第三,从涉案图片本身来看,体现出了与在先作品存在可以识别的差异性。从涉案图片生成过程来看,一方面,原告对于人物及其呈现方式等画面元素通过提示词进行了设计,对于画面布局构图等通过参数进行了设置,体现了原告的选择和安排。另一方面,原告通过输入提示词、设置相关参数,获得了第一张图片后,继续增加提示词、修改参数,不断调整修正,最终获得涉案图片,这一调整修正过程体现了原告的审美选择和个性判断。在无相反证据的情况下,可以认定涉案图片由原告独立完成,体现出了原告的个性化表达,因此涉案图片具备“独创性”要件,即满足要件2。

综上,法院判定涉案图片属于作品。法院进一步认为,涉案图片是以线条、色彩构成的有审美意义的平面造型艺术作品,属于美术作品,应当受到著作权法的保护。原告是涉案图片的作者,享有涉案图片的著作权,被告的行为对原告构成侵权,并承担赔礼道歉、赔偿500元经济损失的法律责任。

二、人工智能生成内容的“非作品”属性探讨

笔者认为,法院的上述论证不够准确。在笔者看来,“AI文生图第一案”中的人工智能生成内容并不具有“作品”属性,不构成作品,原告也不享有涉案图片的著作权。

《著作权法》第三条规定:

“本法所称的作品,是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。”

《著作权法》第十一条第二款规定:

“创作作品的自然人是作者。”

根据常识,《著作权法》第三条关于“作品”的定义和第十一条第二款关于“作者”的定义,都是典型的“主系表”结构,提取句子主干后得出的核心内容是“作品是智力成果”和“作者是自然人”,这是作品和作者的法律本质定性。而作品与作者的关系密不可分、相辅相成——作品来源于自然人作者[1]的创作,自然人作者的具体创作行为表现为自然人的智力投入,自然人创作行为产出的结果是智力成果。故,笔者认为,我们在判断一项成果是否属于著作权法意义上的作品时,首先应当考查该成果是否属于“自然人作者”通过“自身智力投入”所产出的 “智力成果”。如回答“是”,则有必要进一步考查是否满足《著作权法》第三条所规定的“文学、艺术和科学领域”“独创性”“以一定形式表现”等要件;如回答“否”,则无需再进一步考查其他要件,就可以直接否定该成果在著作权法意义上的“作品”属性。

(一)人工智能模型及其设计者不具有“作者”身份

在“AI文生图第一案”中,法院认为,虽然涉案图片是涉案人工智能模型所“画”,但是该模型无法成为涉案图片的作者。…本案继续坚持著作权法只保护“自然人创作”的观点,而人工智能模型不具备自由意志,不是法律上的主体,不能成为我国著作权法上的“作者”。此外,法院还认为,人工智能模型设计者…并未参与到涉案图片的生成过程中,于本案而言,其仅是创作工具的生产者。…设计者的智力投入…体现“创作工具”的生产上,而不是涉案图片上,故涉案人工智能模型设计者不是涉案图片的作者。

对上述论点,笔者高度认同。在新一代生成式人工智能技术快速变革和发展的今天,越来越多的人们利用生成式人工智能模型进行创作,从而使得创作效率大幅提高,这是技术进步带给人类的便捷和好处,值得肯定和鼓励;但在鼓励的同时,我们也应当清醒地认识到人们利用人工智能模型生成图片本质上仍然是人利用工具进行创作。故人工智能模型的智能水平无论多高,无论是否超越人类智力,都不可能成为著作权法意义上的“作者”。而人工智能模型的设计者,其智力投入并未体现在涉案图片上,所以也不能成为涉案图片的作者。

既然如此,那么到底哪些主体才能成为人工智能生成内容的作者?笔者认为并无统一结论,仍需结合使用者在人工智能生成过程中是否付出了创造性的“智力投入”,以及人工智能生成内容是否可以构成著作权法意义上的“作品”等问题,进行个案的综合分析和判断。

(二)人工智能生成内容不具有“作品”属性

如前所述,在该案中,法院在审查涉案图片是否构成作品时,提到了4项构成要件,并在逐一评价分析后认为涉案图片体现了原告的智力投入,故具备“智力成果”要件。

对此论点,笔者持反对意见。笔者认为,在现有的技术条件和人工智能模型的功能之下,“AI文生图第一案”中的原告即使用者仅仅通过自由选取人工智能模型、自主决定输入哪些提示词、自由设置或修正哪些参数、最终选定哪张图片等行为所产出的人工智能生成内容,尚不足以构成“自然人作者”通过“自身智力投入”所产出的“智力成果”,故涉案图片不具有著作权法意义上的“作品”属性,原告即使用者也并非“创作者”身份,不应通过著作权法“作品”和“作者”规则予以保护,试析之。

1、从人工智能的底层技术角度分析

(1)人工智能不等于人类智力

由于不同语言翻译问题,国内AI领域关于“智能”和“智力”的中英翻译存在一定混乱和不精准,给相关公众造成了极大误解。准确地讲,英文单词intelligence应该翻译为“智能”,其准确词语意思是智慧和能力,以及经高科技处理、具有人的某些智慧和能力。而英文单词intellect应该翻译为“智力”,(尤指高等的)思维逻辑领悟力,其准确词语意思是指人认识、理解客观事物并运用知识、经验等解决问题的能力,包括记忆、观察、想象、思考、判断等[2]。显然,人工智能强调的是经高科技处理过的计算机所拥有的模拟人类智慧和能力的机器智慧和计算能力,其突出的是算法、算力;而人类智力强调的是自然人人格所特有的抽象的思维能力和创造能力,二者不是同一个领域的等同概念,不能互换。如果不了解这一点,会给后续的理解造成混乱。

(2)人工智能模型与人类智力的本质不同

人工智能模型是根据算法和数据建立的虚拟的计算机系统,其本质是基于数学、算力、模型、算法构成的物理系统,其核心是“算法”和“算力”。当输入人工智能模型的数据量足够庞大时,计算机通过算法输出的结果一定会超越人类智力所能反应或感知的那个“有限”的范围,例如:某工智能语言模型里有7500亿条语言数据,计算速度每秒上亿次,这样的算力是人类智力根本无法比拟甚至无法想象的。从这个角度上看,人工智能貌似是“无限”的,而人类智力是“有限”的,但这其实是一种误解,这是因为人工智能既为计算机“算法”,就是物理学上的机械存在,无论其数据量或生产的内容能否完全为人类智力所反应或感知,但理论上都可以通过一定的数学方法和计算规则计算得出最大的范围和限度,所以正确的理解是人工智能是确定“有限”的,只不过由于数量级太大,超出了人类目前的认知尝试,才被误以为是“无限”的。但人类智力则不同,它是产生于人类大脑的、基于生物学基础的不可完全探知的神经系统,来源于上亿的神经细胞和不计其数的神经连接。虽然人类目前无法理解人类大脑的精准的运行机理,但可以肯定的是,我们不能简单地将其与人工智能模型中所谓的“神经网络”相提并论。人之所以为人,其本质是人类大脑所拥有的具有无限想象能力、创造能力的生物学系统上的人类智力。虽然人脑和人类智力在数据、算力、算法等方面不如电脑以及人工智能,但二者的本质不在同一个层面上。

(3)人工智能模型的工具性输出结果,与照相机、智能手机不同

我们知道,摄影师借助照相机、智能手机等现代工具进行创作时,照相机、智能手机等工具都仅仅起到“通道”的作用,它们不会在发挥“通道”作用的过程中对原物进行任何改变,换句话说,人类使用照相机、智能手机等工具创作之后所形成的具象表达,与人类的智力投入内容基本一致,符合“自然人作者 + 自身智力投入 = 智力成果”的等式,故应该对摄影成果进行“作品”保护。

而人工智能则不同,其本身是计算机通过规则和算法对训练数据进行计算、学习后所形成的超大数量级的新数据,其输出结果也因为“语义信息和图片像素的对应和匹配”关系而具有了一定的概率性和多样性。虽然从计算机的底层逻辑上看,这种“概率性和多样性”是一定的数学方法和计算规则下的必然产物,是确定的,但当“数量级”足够庞大和复杂的时候,这种所谓的“确定性”也已超越了人类智力所能直接感知、识别、匹配、转化、生成和预期的范围了。故从某种程度上讲,我们也可以认为人工智能模型已不再单纯地扮演工具性的“通道”角色,而是在一定程度上“脱离”了使用者“人类智力”的控制,并对其进行了一定程度的“加工”,因此也才有了人工智能的输出结果不符合使用者的具象表达的预期而不被满意、不被选择的现实性。所以,人工智能虽然本质上仍是工具,但由于其特殊性的存在,还是不应比照照相机、智能手机等“通道”性工具来确立人工智能生成内容的法律保护路径。

2、从法律及逻辑角度分析

(1)从著作权法的立法意图分析

著作权法所保护的是“具象的表达”,而不是“非具象的思想”。表达来源于思想,又脱离于思想而独立存在。传统画家在创作画作的时候,会事先在脑海中进行构思(非具象的思想),并对画布上最终呈现的画面效果形成基本的轮廓和样貌(具象的表达)。但在人工智能环境下,大模型训练使用的数据越多,人工智能输出结果的不确定性和多样性就越大,使用者对输出结果也就越难以预期。即便能够预期,也只能说其仅仅是思想层面的预期,而非具象的表达层面的预期。例如:在“AI文生图第一案”中,Stable Diffusion模型输出的第一张、第二张、第三张图片,均超越了原告的具象的预期,均未达到原告满意,也未被原告选定。因此无论使用者输入的提示词或设置的参数是多是少、使用者是否进行了调整或修正,都不足以将这些简单的人类劳动作为著作权法意义上的创造性的智力投入进行保护。否则,但凡有人的思想的参与,或者退一步讲,有一定程度的人类智力的投入但又未形成具象的表达时,就要对其进行著作权法保护的话,则完全撼动了著作权法保护“具象表达”的立法意图。

(2)从涉案图片权利来源的合法性和真实性分析

虽然法院已经明确将人工智能模型及其设计者排除在涉案图片的“作者”身份之外并判定原告是涉案图片的著作权人,但法院并未进一步从根源上探究原告关于涉案图片的权利来源——即Stable Diffusion模型输出的基础图片(即第一张图片)的合法性问题,例如:基础图片的著作权来自哪里?是否存在上游著作权人或原始著作权人?是否取得了上游或原始著作权人的合法许可?是否侵犯他人的肖像权或隐私权?如果这些问题没有同步解决的话,那么原告通过对基础图片进行调整或修正后所得到的涉案图片的著作权也就存在权利链条上的瑕疵。借鉴刑法“毒树之果”理论,如果Stable Diffusion模型的设计者在训练该模型时所使用的大量数据被认定为侵权或非法,那么原告通过使用Stable Diffusion模型所生成的涉案图片也同样应当经受合法性的拷问。[3]

此外,笔者注意到,该案主审法官在“法官说法”中提到“人工智能模型不具备自由意志,不是法律上的主体,不能成为我国著作权法上的‘作者’;本案继续认定,一般情况下利用AI生成图片的权益归属于利用人工智能软件的人”——这是否意味着,在法院看来,在人工智能模型不能成为著作权法主体的情况下,著作权法必须要为人工智能输出的基础图片(即第一张图片)及随后生成的第二张、第三张、第四张图片等找到一个著作权法上的“作者”?笔者认为,当然不是,也不能这样推论,因为即便按照最传统的著作权法理论,也不可能对所有的人类劳动成果进行著作权法意义上的保护,更何况是面对人工智能生成内容这一新兴事物。

(3)从著作权法的确权思路和逻辑冲突分析

德国著名哲学家莱布尼茨在谈到“相异律”时提到,世界上没有完全相同的两片树叶。同理,即便是同一个画家,在最为接近的时间内,也不可能创作出两幅一模一样的画作,所以按照传统著作权法的确权思路,法律应当对画家的这两次创作行为所产生的两幅画作分别确权,产生两个著作权。此外,传统画家在创作画作的时候,只要画家能够将画作以一定的形式表现出来,即便画家对画作效果并不满意,也不妨碍该画作本身构成作品,以及对画家进行确权。但在生成式人工智能模型中,上述确权思路受到严重挑战。

第一,在人工智能模型训练数据不增不减、相对静止和封闭的状态下,相同的人(包括原告)在不同的时间输入相同的提示词、设置相同的参数后所出现的输出结果,在理论上是存在完全相同的可能性的。在此情况下,世界上出现了“完全相同的两片树叶”,但本质仍为同一生成内容,只能进行一次确权,产生一个著作权,这就与传统的两次确权形成了冲突。

第二,不同的人在输入相同的提示词、设置相同的参数后出现相同的输出结果,法律应该为谁确权?是按照时间顺序先后确权,还是共同享有著作权?

第三,更为复杂的是,在使用者利用人工智能模型进行非具象的思想构思后,人工智能输出结果并不是使用者所预期的具象的表达时,使用者在继续进行多次的调整或修正后,最终选定自己最满意的那个输出结果,但是在整个输入、输出、调整/修正、再输入、再输出、再调整/修正……过程中,对于每一个步骤、每一次调整或修正的过程性输出结果,尤其是对于那些因用者不满意而被放弃的过程性输出结果,又该怎么确权呢?最为极端的情况是,如果使用者对所有输出结果均不满意时,是全部不予确权还是全部予以确权?而对于使用者而言,为了更好地保护这些生成内容,他是否要花费成本对每一个操作步骤进行留痕存证?

在“AI文生图第一案”中,法院仅对原告最为满意并选定的第四张图片进行了确权,并未提及第一张、第二张、第三张图片该如何处理。但无论如何处理,如果要求裁判者围绕着“使用者是否满意某一输出结果、是否最终选定某一输出结果”来决定是否要对输出结果进行司法确权的话,也过于随意和不可预测,司法权威将不复存在。

综上,如果裁判者不能一揽子解决这些连带的逻辑性矛盾的话,就不能想当然地将使用者输入几百、上千,乃至上万、上亿次的正向提示词、反向提示词等简单劳动认定为人在人工智能生成的过程中进行了创造性的智力投入,并对这些输出结果进行著作权法意义上的“作品”保护,否则不但不会鼓励使用者的创作热情,反而会给整个社会带来不可预估的权属混乱。

3、从法经济学角度分析

法律服务于社会生活,必然需要考虑经济成本问题。可以预见的是,随着AI技术越来越进步,未来将有越来越多的人类参与AI创作,也会有越来越多的人工智能生成内容产生并存于世间。如果都以“AI文生图第一案”这样简单的确权要件,诸如:使用者输入的提示词是多是少、设置的参数是否复杂、使用者是否满意或最终选定等作为裁判和考量的因素,那么对未来数以千亿、万亿甚至无法预估的数量级的人工智能生成内容的司法确权成本将会变得相当高昂,由此引发的侵权评估、侵权判赔等经济成本也同样不可估量。因此,从法经济学角度上看,司法不宜将著作权法意义上的“作品”认定和确权门槛设置得过于宽松。

4、从法律的稳定性和规则的可预期性分析

法律具有天然的滞后性,一是因为社会生活无时无刻不在发展变化之中,立法者在立法当时不可能预知到未来的一切变化;二是为了保护法律的稳定性以及法律后果的可预见性,立法不可能朝令夕改、反复无常。立法的滞后性尚且如此,司法更甚。当传统的著作权法理论与新兴的科学技术的发展不相匹配的时候,在著作权法关于“作品”的保护规则能否应用于人工智能生成内容这一问题上仍有大量疑惑未解,且有众多逻辑推论不通顺的情况下,作为解决纠纷的最后一道防线,司法更应稳居幕后采取谦抑、被动的裁判方式,而不是“冲锋在前”。

在笔者看来,“AI文生图第一案”具有相当的特殊性和不可复制性,导致该案判决本身也不具有代表性或可预期性。该案判决书中提到原告在使用Stable Diffusion模型输入20余个正向提示词(Prompt)和130余个反向提示词(Negative Prompt)后生成了基础图片(即第一张图片),“其中,反向提示词中的‘((3d,render,cg,painting,drawing,cartoon,anime,comic:1.2))’系其(原告)自行编辑外,其余所有的反向提示词均系其(原告)直接复制于某论坛中用户分享的提示词内容。”一方面,根据常识,一般情况下,人工智能模型使用者如果事先没有对最终的作品轮廓形成大概的认知时,不可能一次性想到并输入如此之多的提示词。另一方面,由于人工数据模型的数据量足够庞大,其输出结果往往也是根据概率统计,多样性和不确定性极高,很少是唯一结果。因此,该案原告的操作过程很有可能是先形成“具象的表达”,然后倒推“非具象的思想”,即原告很有可能是根据输出结果来逆向倒推要输入的正、反提示词。即使不是通过结果逆向倒推过程,130个反向提示词中也有120多个词是直接复制于某论坛中用户分享的,原告自身在参与人工智能正向生成的过程中所付出的人类劳动是否构成著作权法“作品”意义上的“智力投入”和“智力成果”,仍然存在很大疑问。因此,该案的案情极为特殊,无法在一般意义上对未来社会形成充分的代表性和可预期性。

三、人工智能生成内容的法律定性的未来发展

哲学辩证法告诉我们,世界并非一成不变,任何事物都处于发展之中,所以我们也应该用动态、发展的眼光看待人工智能生成内容的法律定性和保护问题。

当前,人工智能技术发展日新月异,对人类社会和生活造成了极大的影响,甚至在某种程度上造成了恐慌或者崇拜。有的人认为,人工智能会提高人类工作效率和生活水平,应当大力支持。也有的人认为,人工智能随着发展可能会完全替代人类甚至会消灭人类,应当严格限制或法律约束。这些看法都是片面的、不合逻辑的,没有从整体、历史、动态发展的角度去看待人工智能。人工智能本质上还是技术,是基于数学、算法、算力等科学知识产生的新工具。技术最终都是服务于人类的,工具也不能替代人类,明白了这一点,就不必对人工智能的发展抱有不切实际的幻想或者不必要的恐惧。

新技术必然带来新的社会问题,产生新的需要保护的利益或者权利。虽然法律相对于新技术的发展常常处于滞后的状态,但利益和权利的保护仍然应当在法律稳定的框架内进行。故,笔者认为,人工智能生成内容的法律定性和保护规则应当由立法机关根据技术或社会的发展立法整体解决,而不宜由司法机关在某一个案中单独解决。而在此之前,如果司法机关为了应对个案解决争议,也至少应当采取谨慎和谦抑的态度,确立具有明确代表性和可预期性的裁判规则。

当然,如果未来人工智能技术已经发展到足以让人类在参与创作的过程中表现出明显的“智力投入”并产出“智力成果”,我们完全可以考虑对其直接适用著作权法关于“作品”和“作者”的保护规则,否则要么创设新法,要么对其适用反不正当竞争法进行规制,更为妥当。

注释

[1] 法人或非法人组织作者仅为法律拟制的作者,并非严格意义上可以进行“智力投入”的作者,在此不予探讨。

[2] “智能”和“智力”的准确词语意思,均来源于商务印书馆2016年第7版《现代汉语词典》第1692页。

[3] 笔者注意到一则新闻报道:近期,美国最具影响力的媒体之一《纽约时报》在纽约南区法院向OpenAI及其投资人微软公司提起侵犯版权诉讼,指控二者未经许可使用其数百万篇文章以训练人工智能模型,而这些聊天机器人现在与该新闻机构形成竞争,成为可靠的信息来源。诉讼未明确提出具体的经济要求,但称被告应对与"非法复制和使用《纽约时报》独特有价值的作品"相关的"数十亿美元的法定和实际损害"负责,还要求被告销毁使用《纽约时报》版权材料的所有AI模型和训练数据。有业内人士分析称,该案有可能是Open AI面临的有史以来的最棘手AI版权诉讼,其最终裁判结果可能成为人工智能发展与版权保护的分水岭,不仅将对美国人工智能的发展产生重要的影响,而且将对我国探索人工智能的保护规则产生积极价值。

相关链接

(本文仅代表作者观点,不代表知产力立场)

封面来源 | Unsplash

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区

    下一篇

    关于处理器芯片设计如何进行法律保护的思考——从L公司与X公司关于N指令集的侵权纠纷谈起

    2024-02-07 16:00:00