孙磊:AI数字音乐版权保护与产业发展

孙磊   2018-12-19 21:38:27
本文以AI产生的数字音乐为出发点,以不同AI作品背后的产生原理为基础,阐述AI数字音乐的版权保护问题及对现有音乐产业的影响。

作者 | 孙磊  北京市第一中级人民法院


(本文系知产力获得独家首发的稿件,转载须征得作者本人同意,并在显要位置注明文章来源。)


(本文7557字,阅读约需15分钟)

 

AI产生的作品归属问题,在一段时间内被各国学者广泛讨论,其中涉及“人机伦理”、“著作权法修法”、授权体系的重建等问题。实际上AI在知识产权领域的作为非常之多,如美国学者Ellie Mertens在文章《How AI affects trade mark prosecution and litigation》中就提出了通过AI来解决近似商标(主要是近似图形商标)的检索和判断工作,甚至可以在商标诉讼中扮演重要的辅助角色——当然,目前业界更在意的不是AI对于人类的“辅助”,而是“替代”。需要注意的是,学者们在进行上述讨论的前提都建立在“AI所形成的构成版权法意义上的作品”,而对于此点却鲜有人分析阐述。本文以AI产生的数字音乐为出发点,以不同AI作品背后的产生原理为基础,阐述AI数字音乐的版权保护问题及对现有音乐产业的影响。

 

一、机器人作为作曲家的原理

 

(一)技术层面

 

索尼Flow Machines负责人曾表示:只有音乐家才可以创作独一无二的音乐。

 

有关机器意识的一个著名思想实验是“中文房间”,由美国哲学家约翰 希尔勒在1980年提出。实验过程大致是这样:假设你被锁在一个房间里,房间外的人通过门缝给你递中文纸条,你不懂也不会说中文,但你房间中有书告诉你如何用正确的中文符号回应。因此你写下相应的中文传递回去,但你还是不知道你在读什么和写什么中文。而房间外的人也并不知道你的无知,他们会认为一个说着流利中文的人在和他们进行有意义的对话。

 

而这就是希尔勒对有意识机器的隐喻性辩论,他认为机器就是房间中的抄写员,它们只能操纵符号,却不能理解符号。

 

这可以用来比喻Magenta和MachineFlows所创作的音乐。Douglas Eck和FrançoisPachet对机器意识的见解是相似的:他们并不相信机器具有意识。Eck认为“我们用的只是技术而已。所有的艺术创作都需要技术,而技术可以让我们更有创意。正如没有环境的支持,我们的大脑不会那么聪明。例如,没有笔和纸,大多数人不能做大位数的除法。

 

Pachet的观点是相似的,他认为FlowMachines可以自己创作“完美”的歌曲,但只有音乐家才可以创作出独一无二的音乐。“创作音乐很容易,”他谈到,“但只有艺术家才可以创作出伟大的作品。”至少目前为止,机器还是无法理解谱曲的目的和意义。真正伟大的音乐来自与对沟通的强烈渴望,在这一点上,人类还是有着一席之地。“兴奋感”引领着人类不断探索,而这对于机器来说仍然陌生。简单来说,你可以教机器做糖,但无法教它想要吃糖。当然,Pachet也指出,机器有时也会创作出令人惊叹的音乐,“有时候它会把几行吉他旋律映射到一首新歌上,而且效果很好。”然而,他也谈到,对于人类来说,为什么喜欢某些歌而不喜欢另一些歌是连自己都解释不清的,喜欢的冲动来自于人们的潜意识。这就是为什么Pachet目前并不相信计算机意识的原因,尽管机器已经可以创作音乐,似乎触及到了人类行为的最前沿,但他并不觉得有一个灵魂潜伏在代码之中。

 

对他来说,音乐AI和数字合成器类似,音乐AI是一种新型的工具,我们只需要知道如何使用它。[1]

 

音乐行业顾问马克·马里根(Mark Mulligan)表示,这种AI音乐是关于“音质”而不是音乐质量的。他说:“只要这首音乐作品能够找到平衡点,就有足够的和弦配合,间杂适当的创新和休止符,那就足够好了。”

 

可以看出,虽然歌曲并不相同,但人类对于“音乐美”的审美标准是趋同的,否则音乐就变为了“噪音”,近而无论是流行音乐或是古典音乐,在表达特定情绪时的旋律有固定的用法。而AI则是通过使用者限定的“情绪”和“特定场景”,从数据库中进行选择、组合、校正,再经由使用者的修正。但旋律的选择相比于“线条”、“文字”更加抽象,因为音乐本身是“不可视的”,它更多是情绪层面和神经反射。我们可以发现AI小说或者AI诗歌中明显的文字错误或者逻辑错误,也可以发现AI美术作品中明显与预设创作主题不符合的线条,但我们无法精确地说明。所以AI的作用更加明显,人的作用更小。涉及AI在“制作”音乐时是否有创作意图,即它是否知道自己要创作歌曲、创作什么歌曲、如何创作歌曲,从技术原理来讲,恰好因为音乐旋律的含混性,所以可以认为存在创作意图。

 

(二)AI画家、AI诗人与AI作曲家的区别


很多学者细化在宏观层面去讨论“机器到底是不是作者”,最后得出结论——这个问题本质上还是要回归所在国的法律规定,否则一切的分析其实都是“空中楼阁”:既然以现行法律的逻辑进行分析,最后的结论必然逃不出现行法律的结论。

 

应该看到,虽然都是称为“AI”,但应该认识到每个不同的应用场景,其人工智能背后的算法和逻辑不同,导致产生的“作品”的方法也不尽相同,近而,由于“创作”的原理不同,也决定了机器是否属于“作者”的结论不尽相同。


1、AI画家

 

(1)线稿上色

 

AI画家解放人力的第一个应用场景是“线稿上色”。一个完整的漫画制作过程,包括脚本、分镜、线稿、上色、排版、加台词等等,在流程中,为线稿上色有专门的绘画师负责。实际上,在线稿中已经用数字标出了所需要的色号。所以,AI画家本质上只是根据线稿中所标注的色号,进行像素级的“映射”。虽然从某种层面上讲,在上色中也会有自动创作的成分,但总体而言,这种AI画家仅仅做了两件事:根据人的标准找到对应的色号;按照经过深度学习的绘图技法,以像素为单位进行填充的过程。所以,使用AI进行线稿上色,并无“独创性”产生,故也无从去讨论“谁是作者”。

 

(2)文字——图画

 

微软研究实验室正在开发的新型人工智能技术能够从字幕式的文本描述中截取单个的词语生成图像。网站 arXiv.org 上发表的一篇研究报告称,根据行业标准测试的结果,这项技术产生的图像质量与之前的文本到图像生成技术相比,提高了将近三倍。

 

研究人员简单地称之为绘图机器人,该技术可以生成从普通的田园风光(如放牧家畜)到荒谬无意义的(如浮动的双层巴士)所有图像。每幅图像都包含了文字描述中没有提及的细节,表明该人工智能技术拥有一种人造的想象力。

 

微软绘图机器人的核心是一种被称为“生成对抗网络”(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个从文本描述生成图像,另一个称为鉴别器,使用文本描述来判断生成图像的真实性。发生器试图通过假照片骗过鉴别器,同时鉴别器进行判断。二者一同作用,将发生器不断完美……。对图像进行仔细检查后,几乎总能发现瑕疵,例如蓝鸟喙,而不是黑色的,水果和基因突变的香蕉长在一起。这些缺陷清楚地表明,是电脑而不是人类创造了这些图像。[2]

 

要进入DeepDream的大脑,首先要输入照片或者其它图片。神经网络从图片中寻找相似的模式,然后用同一张图片重复这样的程序。谷歌最初公布项目时曾解释说:“DeepDream会创建一个反馈循环:如果云看起来有点像鸟,网络就会让它更像一只鸟。下一次,网络识别鸟的能力将会增强,直到一只细节高度丰富的鸟出现。”……如果你将自己的照片输入神经网络,它会从你的脸上找到一些线条与狗相似,结果就是它将脸上的那一部分转变化成狗。谷歌DeepMind AI实验室实习生Steven Hansen说:“看起来好像神经网络出现了幻觉,它无论看什么都会看到狗。”如果你将随机噪音图片输入网络,它可能会生成一棵树、一座塔、或者整个城市的塔。用相同的噪音图片输入,它可能会寻找到猪或者蜗牛的模糊图像,从而将两者结合生成全新的物种图像。


从以上资料可以看出,所谓的AI绘图实际上是由两个步骤组成:第一步是使用者属于文字描述,机器根据文字描述在大数据中检索符合的图片,第二步是校核,根据图片的特征,继续进行再检索、强化高识别度的部分,继续强化外形——即前文所说的,让狗更像狗,但可能会出现在第一步判定时就失败:“使用者描述的根本不是狗”。这点是与AI线稿上色完全不同,因为文字描述本身既有不确定性,所谓“一千人就有一千个哈姆雷特”,所以就出现不同版本改编《西游记》的电影,但不同电影里的孙悟空造型并不一致。由于文字本身的模糊性,其一方面,导致了文学作品特有的“文字留白”(即留给读者的遐想空间),另一方面也说明了文字——其他作品进行改编时的非精确性,不仅是机器。

 

同理,由于文字描述——美术作品的转换过程本身即存在了极大的“独创性”空间,近而AI机器人似乎是有创作空间的。然而,又会出现一个问题:机器是否有创作意图。当然应该说明,这里所称的“创作意图”并非指“机器是否有自己在进行创作的”的意图,而是指“机器是否有意识知道自己所创作的是什么”。而答案无论是与非,又都会引发新的问题——如果用户通过发出“文字描述”的方式向机器下达“绘画”的命令,机器产生的结果有两种:

 

第一种,机器产生的美术作品与使用者的“想法”一致(因为“与文字描述一致”其实是不可能做到的),那么机器存在“创作意图”,而使用者因为只使用了“一只,黄色的,猫,趴在树上”的文字输入,所以使用者对于机器产生的美术作品是不存在“创作意图”的,因为使用者对美术作品中每个像素点或者每个线条都并没有具体的“意图”。而作为机器的开发者,其享有机器的所有权(代码的软件著作权),但并完全没有参与这幅画的创作(其只是为机器的深度学习建立了庞大的影像数据库),故对于每个特定的画作亦不存在“创作意图”,就此,AI美术作品在现行法律成为了“孤儿作品”,只能通过法律拟制的形式将“作品”的权利归属于使用者或者机器开发者中的一方。而机器本身,如果其可以在相同的文字描述下,有意绘制不同的美术作品,那么说明其绘制过程存在“选择、创作”的空间;但如果其每次的创作存在随机性,其也难以再次创作出与前作一模一样的美术作品,那么就说明其无创作意图。

 

第二种,机器产生的美术作品与使用者“想法”不一致,即如上文中所说“…如果你将自己的照片输入神经网络,它会从你的脸上找到一些线条与狗相似,结果就是它将脸上的那一部分转变化成狗。看起来好像神经网络出现了幻觉,它无论看什么都会看到狗。”那么,无论是使用者、机器或者机器开发者,三方都没有创作意图,该美术作品便成为了一个“美好的误会”。

 

2、AI诗人

 

2018年5月份,微软AI以“小冰”的名义,出版了第一本AI诗集。小冰师从于1920年以来519位中国现代诗人,经过对几千首诗10000次的“学习”,获得了现代诗的创造力,而人类如果要把这些诗读10000遍,则需要大约100年。目前小冰的诗歌创作还离不开编辑的修正。比如,在《它常把我的海水洗甜》这首诗中,会出现“有燃(悠然)从风雪的街心随着流漫”这样对用词的调整。要创作出真正的好诗,绝非满足语法要求下的词序排列或者鹦鹉学舌式的泛滥抒情那么简单。诗人廖伟棠就一针见血地指出,“小冰成功地学会了新诗的糟粕,写的都是滥调”。

 

2017年,美国科罗拉多州的工程师Zack Thoutt通过人工智能技术,来续写权力游戏的第六部小说作品,他所采用的RNN(循环神经网络)特别适合于完成这样的任务,因为该神经网络对序列性数据的处理能力很好,“当你用文字来训练RNN模型,你需要给每个特殊的词(如人名、地名等)指定一个ID,然后将这些ID的序列输入进RNN神经网络中,让他学习这些文字的规律。”Thoutt说,他运用的LSTM,与其他机器学习算法相比,能够记忆更长期的信息,其本质上仍然属于RNN,但在处理文字性数据方面尤其好,因为其本身的设计就是为了在序列中记忆有用信息。

 

为了训练这一神经网络,Thoutt将权力游戏前5部作品共5376页文字信息作为训练数据输入模型中,Thoutt说,这部世界观庞大的作品大约有3.2万个特殊的需要标注为ID的词汇,这也让训练工作变得复杂而繁重。

 

但他也表示,实际上对于深度神经网络来说,5部作品的文字量也是非常小的训练数据集,一个更加理想的数据集的规模大约需要是目前数据量的100倍。

 

数据集的有限实际上也造成了模型最终输出结果并不十分理想,实际上,在神经网络写出的第六部作品中,在之前情节中已经死亡的人,又重新出现。他也表示,目前他并没有任何能够在这方面改善结果的办法,“也许这需要更加复杂的神经网络结构,或许需要多个神经网络来不断跟踪不同的故事线的进展。”[3]

 

那么AI作家使用的“RNN(循环神经网络)”的技术原理是什么呢?我们当前时刻的输出是由记忆和当前时刻的输出决定的,就像你现在大四,你的知识是由大四学到的知识(当前输入)和大三以及大三以前学到的东西的(记忆)的结合,RNN在这点上也类似,神经网络最擅长做的就是通过一系列参数把很多内容整合到一起,然后学习这个参数,因此就定义了RNN的基础……假设你大四快毕业了,要参加考研,请问你参加考研是不是先记住你学过的内容然后去考研,还是直接带几本书去参加考研呢?很显然嘛,那RNN的想法就是预测的时候带着当前时刻的记忆去预测。[4]

 

以上我们可以看出,AI作家和AI画家、AI音乐家的深度学习技术原理并不相同:AI画家是根据文字信息指令在图片库上检索,再核对强化、最终形成的线条其实都存在于图片库之中,只是组合;而AI作家是根据大量的相关文学作品的文字学习,对特殊名词进行ID标注,形成记忆,通过使用者进行文字引导后,按照之前的学习记忆,进行“文字预测”。这种文字预测相比于AI画家的“检索-核对-强化”,拥有更多的创作空间。

 

最终,我们需要明确:机器的创作意图到底指的是什么?如果把机器的创作意图与使用者发出的限定条件(或者使用者真实的相貌)划等号,那么最终判断者还是交给了使用者(人);如果把机器的创作意图限定为机器的自主判断过程(即便这个判断与人的设定目标是相反的),那么产生的就是美术作品,然而使用者和机器开发者对此都不享有权利,因为结果并不是他们想要的。如此,法律问题又回到了“人——机伦理”问题了,因为按照阿西莫定律第二条“:A ROBOT MUST OBEY ORDERS GIVEN IT BY HUMAN BEINGS EXCEPT WHERE SUCHORDERS WOULD CONFLICT WITH THE FIRST LAW(机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外)”。

 

(三)AI音箱、音乐播放器中的AI模式

 

目前民用AI产品中有AI音箱和音乐播放器中的AI模式。

 

1、AI音箱

 

AI音箱主要是把目前的AI语音识别与传统的音箱介质结合在一起,小米的AI音箱则主要为了实现以音箱控制整个小米系列的家用电器,从商业目的上看还是为了引导用户逐步购买全套的小米家用电器。而腾讯的AI主要是与微信进行绑定,实现用语音控制微信。所以我们会发现,目前的AI音箱主要的目的是为了形成自家产品的闭环,“AI”似乎只成为了噱头。

 

2、音乐播放器中的AI模式

 

WeChat Image_20181223213658.png


 

实际上,数字音乐播放器中的AI模式就是通过用户日常的分析习惯,通过算法判断,推送类似的歌单。这种模式与今日头条通过算法推送用户经常阅读的新闻一样。这样的坏处在于,令新歌手、新歌曲在用户面前展示的机会越来越难,最终只能选择购买优先推荐服务。

 

AI模式下产生的歌单可以理解为汇编作品,那么就会出现法律问题:如果A音乐播放器产生的智能歌单与B播放器产生的歌单一致,那么如何认定抄袭?应该认为,算法本身是“思想”,那么如果A、B播放器使用的算法原理一样,是否必然会产生同样的结果呢?(前提是两者的用户为同一人),应该认为算法的结果是有随机性的,如果完全一致是不正常的。那么,该“汇编作品”的作者应该属于谁呢?如果通过法律拟制把作者认定为软件开发者,那么无法解释使用者在其中处于何种地位,如果作者归属与使用者,那么由于算法导致结果随机性,使用者并无实际的“收集”行为,故法律拟制的做法依然无法解释“创作意图”。

 

二、AI改编原作

 

 “如果一个应用程序允许你改变一首歌,直到你甚至听辨不出原来的歌曲,那这是否意味着新歌曲的诞生?”Mahdavi说。“如果你修改的东西改变到一个你无法识别的地步,那这就会变成你的吗?那么你如何衡量它不再属于原来的呢?”AI音乐在带来新音乐创作的同时也会带来诸如版权之争的麻烦。

 

首先,Flow Machine 能够创作出和某个歌手风格很像的歌曲。上文已经论述AI音乐家的算法原理,这种“风格很像”的歌曲实际上就是把该歌手的所有歌曲打碎、特点进行ID标注,再重新组合。所以机器开发者已经意识到其中的版权问题,所以目前的AI音乐家主要“作品”都是古典音乐,主要原因即是用来训练AI的古典音乐数据库不涉及版权问题,因为版权都过期了。

 

那么,假使AI音乐家如果使用在版权期内的流行音乐进行深入学习,并创作类似“周杰伦”风格的歌曲,那么法律问题会如何呢?前文所言,AI音乐相比于AI画家、AI作家,“创作意图”方面会更强,通过法律拟制将作者归属于软件开发者将会更加顺畅,而通过拟制将作者归属于使用者就将显得不妥——因为与“使用office软件来写作”不同,AI音乐软件的使用者除了发出有限的指令,其并未有过多的“创作行为”。那么,既然作者是软件开发者,那么侵权诉讼的被告就成为了软件开发者。

 

目前司法实践中判断歌曲抄袭的标准是看相似或实质性相似的音乐小节数量,所以如果在算法中加入防止小节相似的限定条件,即可回避版权侵权的风险。

 

那么再进一步分析,歌曲作者是否可以提起不正当竞争的诉讼呢?从结果上看,这种模仿的歌曲虽然可以做到版权侵权的规避,但必然会挤占歌手新曲的数字音乐市场份额,而AI音乐家的“创作”速度要比歌手快的多,更会出现抢占市场的情况。那么最后只能出现一种结果:歌手在发行数字音乐时,必须强制购买者点击用户协议,约定禁止任何商业类和AI分析类的使用,以限制机器开发者把自己的歌曲纳入机器学习的内容。如此,机器学习资源的枯竭必将导致AI音乐产业的限制。

 

三、新商业模式的应用

 

AI音乐家的最终落地应用,不应该是模仿现有歌手或者取代歌手,而应该是选择与现有音乐行业并行的商业模式。

 

(一)线上教育

 

WeChat Image_20181223213732.png


 

目前的音乐教育,还是完全依赖于线下的教育,这样就会受到教学地点、教学老师、教学时间的限制,而目前针对K12人群的英语线上教育,还是依靠人来教学,只不过通过网络传输方式解决了地点的问题,但时间和老师问题依然存在。而AI音乐家可以通过APP软件的方式,实现“无场地、时间、老师”限制的教育模式。

 

(二)对于传统唱片公司集约型的模式的撼动——小型公司的市场切入

 

1、独立唱片、数字发行

 

在排除模仿其他歌手的模式下,AI音乐人可以独立数字音乐的模式突破目前的传统唱片公司的壁垒,当然前提是证照资质齐全。因为没有实际的词曲作者、歌手,所有权利集约化,更加便利于二次授权及二次开发利用。

 

2、“唱吧”类APP的第二次春天

 

之前火过的“唱吧”APP,主打的是“翻唱社交”,但会出现极大的版权风险,即便进行版权采购,成本和难度也很大。但引入AI音乐家,主打歌曲创作社交,便利的操作模式可以使任何没有音乐基础的用户“创作”出作品,如果再引入微信等外环分享,实现内外部的社交,不但可以免去版权风险和采购成本,同时以用户协议约定歌曲的归属,也可以短时间内增加AI机器的学习资源,再反哺APP,实现正循环。

 

我们可以看出,AI数字音乐并不会当然与现有音乐产业形成竞争关系,实际上,其优势也不在于此,通过不断开拓新的商业模式,可以形成新的蓝海产业。由此,我们必须要分类别解决前文提出的“创作意图”难题。通过法律拟制将作者权利归属给某一方其实很容易,但如何解决法律与算法原理之间的逻辑问题是必须考虑的。可以预想的是,一切法律问题,本质上都要首先解决“人机伦理问题”。

 

[1]《谷歌、索尼的专家揭秘AI+音乐项目:AI会取代音乐家吗?》2017.07.18 11:39:27来源: 搜狐媒体平台作者:搜狐媒体平台,作者茗君;36氪经授权发布http://www.techweb.com.cn/news/2017-07-18/2558850.shtml

[2] https://www.leiphone.com/news/201801/actKCWzkdPrs25dp.html

[3] http://tech.qq.com/a/20170906/074791.htm

[4] https://blog.csdn.net/qq_39422642/article/details/78676567

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区
    孙磊
    特邀作者

    致力于网络游戏知识产权法律研究,从2015年开始撰写相关文章,在《电子知识产权》、《中国版权》、《中国知识产权》等期刊发表网络游戏知识产权法律文章多篇,涉及游戏版权(包括游戏界面,游戏类电认定,游戏直播),游戏商标及游戏专利等方面,累积相关文字40万字。

    下一篇

    本文,将从法律沿革和司法案例的角度解析《行为保全规定》的几个重要条款。

    2018-12-18 20:34:13