推荐算法技术原理与算法推荐的著作权法界定

2022-08-29 18:45:00
在著作权法上的澄清与界定,是进一步认定算法推荐平台是否构成间接侵权之核心问题——“应知”的前提,也是研究算法推荐平台责任的逻辑起点。

为解决信息过载问题,主流互联网内容平台多已采用推荐算法技术,其主要类型包括协同过滤算法、基于内容的推荐算法和基于相似度的推荐算法等。在各种推荐算法的技术原理的基础上,认定算法推荐平台责任,需首先对有关推荐算法技术和算法推荐行为在著作权法上如何界定的几个基本问题作出定性,具体包括:

其一,算法推荐行为不属于信息网络传播权意义上的“提供行为”,没有讨论算法推荐平台是否构成直接侵权的空间;第二,算法推荐不是最高院《信息网络传播权司法解释》意义上的“推荐”;第三,推荐算法是技术,具有中立性,算法推荐是行为,带有价值观和目的性,评价采用推荐算法的平台是否构成侵权需要放到具体被诉行为中去审查,且应当给予其适用避风港规则的空间;最后,推荐算法作为一把“双刃剑”,扩大传播、鼓励创作的同时,也会迅速、精准的扩大侵权内容的传播。

这几个方面在著作权法上的澄清与界定,是进一步认定算法推荐平台是否构成间接侵权之核心问题——“应知”的前提,也是研究算法推荐平台责任的逻辑起点。

作者 | 曹宇广  北京天驰君泰律师事务所合伙人

编辑 | 墨客

引   言

断物识人,从“人找信息”到“信息找人”,推荐算法技术实现了大数据时代互联网内容平台跨越式的变革,给平台带来流量红利的同时,也迅速扩大了侵权内容的网络传播范围。

司法实践中,仅提供网络接入、网络传输、信息存储、信息定位等服务的企业,在没有过错的情况下,依据《民法典》、《信息网络传播权保护条例》和最高院《信息网络传播权司法解释》的相关规定,可以提出技术中立抗辩而驶入免责的避风港;但采用推荐算法技术的内容平台,推荐了侵权作品的情况下,如何认定平台责任,目前尚无较多可参考的生效司法判例,在屈指可数的判例中,其中爱奇艺诉字节跳动“延禧攻略”一案的审理和一审判决[1],引发了学术界、法律实务界和产业界的高度关注。尽管推荐算法目前在主流大数据内容平台已基本实现了覆盖,但在法律行业内,对其实现逻辑的了解上,远不及人们对已久经拷问的信息存储平台或搜索链接平台来的深入,对与算法推荐有关的多方面问题,在著作权法上如何界定,学术讨论与实务讨论也仅是刚刚开始,无论持有何种认识,都不失为有益尝试,必将为未来算法推荐平台责任认定的法律实务提供参考和借鉴。

一、主流内容平台常见推荐算法的技术原理概述

目前主流内容平台的常见推荐算法主要包括,协同过滤、基于内容的推荐、相似性推荐等。此外,还有一种常见应用于电商购物平台的关联规则推荐算法,在此不再赘述。

(一)协同过滤

(Collaborative Filtering)

协同过滤算法是推荐算法中的经典算法之一,其基本逻辑是根据用户的历史行为数据挖掘用户的兴趣,找到趣味相投或有共同历史行为数据的用户群体,向用户推荐兴趣相同或相似的物品。实际上就是“猜你喜欢”和“选择了该物品的人也喜欢”。其主要步骤为[2]:

第一步,找到用户A的兴趣爱好{item1,item2};

第二步,找到与用户A具有相同兴趣爱好的用户群{B,C};

第三步,群体{B,C}除了喜欢{item1,item2},还喜欢{item3,item4}(即“协同”之意义所在);

第四步,下一次将{item3,item4}推荐给用户A,完成推荐。

(二)基于内容的推荐

(Content-based Recommendation)

基于内容的推荐算法,基本逻辑是通过挖掘用户历史行为数据中感兴趣的物品,抽象此类物品的内容共性,向该用户推荐具有内容共性的其他物品。其步骤为:[3]

第一步,找到用户A历史感兴趣的物品集合;

第二步,找到该物品集合的具化内容;

第三步,抽象具化内容的共性内容;

第四步,由这些共性内容查找其他物品实施推荐。

(三)相似性推荐

(Similarity Recommendation)

相似性推荐算法,与上述协同过滤、基于内容的推荐最大的不同在于,协同过滤和基于内容的推荐都要针对用户挖掘历史行为数据,是针对老用户的,都属于个性化推荐;而相似性推荐不是个性化推荐,其要解决问题的基本逻辑是,当系统面对新注册用户时,没有历史行为数据可挖掘,在用户点击了某一物品(user-item_X)时,将与该物品最相似(距离最近)的user-item集合推荐给他/她。对于新用户A,没有A的历史行为数据,在A点击了物品itemX的情况下,将与itemX最相似的item集合推荐给新用户A。问题转化为如何用一种方法计算物品之间的相似度。[4]

由此,相似性推荐算法的核心是如何评价两个物品的相似度,或如何评价两个用户是否趣味相投;若转化为数学思想来解决相似度计算问题,实际情况要复杂的多,维度的权重设计甚至需要通过机器学习进行训练,用来实现的数学方法会涉及到欧几里得距离(Euclidean Distance)、余弦相似度(Cosine similarity)等。

经过对上述主要推荐算法技术原理的了解,如果推荐的物品是作品,可以得出以下结论:

第一,推荐算法不涉及将作品置于信息网络的上传环节,但确实将作品精准呈现到了用户面前;

第二,推荐算法对作品的处理并未触及作品实际内容,只针对作品数据的属性标签进行识别、匹配、推荐;

第三,推荐算法向用户推荐作品是经计算后自动完成的,无需人工干预(实务中是否存在人工干预推荐结果的情况在所不论);

第四,算法向用户推荐作品的效率远远高于人工推荐。

二、在著作权上该如何界定算法推荐行为?

作为算法推荐平台责任研究的逻辑起点,当平台利用算法向用户推荐了涉嫌侵权的作品时,讨论平台在何种情况下要承担侵权责任之前,有必要首先解决算法推荐行为本身在著作权法上到底该如何定性的几个问题,主要包括:

其一,算法推荐行为是否构成信息网络传播权意义上的“提供作品”行为?

其二,算法推荐是否属于最高院《信息网络传播权司法解释》所称的“推荐”?

第三,推荐算法技术是否具有中立性,算法推荐行为是否具有中立性,以及是否有适用避风港规则的空间?

第四,算法推荐对作品传播产生了值得著作权法关注的何种影响?

(一)算法推荐作品与信网权意义上的“提供作品”

算法推荐作品行为,在法律上是否属于信网权意义上的“提供行为”,本质就是算法推荐平台的法律身份到底是单纯的ISP还是ICP,最终落脚点也就是算法推荐平台如果构成侵权,是直接侵权还是间接侵权。但算法推荐是否构成信网权意义上的“提供作品”,实务中这并非一个有很大争议的话题,仅学术讨论中确有涉及,并有观点提出,利用算法向用户推荐作品的平台属于ICP,是直接侵权。

算法推荐作品不属于信息网络传播权(简称“信网权”)意义上的“提供作品”。信网权意义上的“提供行为”,其关键一步是将作品置于信息网络中的行为,但在平台进行算法推荐之前,侵权作品已经存在于平台网络中了,已经处于可供公众选定的时间或地点获得作品的状态之中了,信网权意义上的“提供”行为已经圆满完成,将作品置于信息网络中的行为主体并非平台,而是上传侵权作品的用户;虽然平台利用算法将沧海一粟般的侵权作品精确匹配后推荐给了用户,但无论如何平台并未参与上传用户“提供”侵权作品的过程中。

但,值得进一步思考的是,既然是平台用算法“推荐”作品,可否说平台的“算法推荐”是上传用户“提供”侵权作品行为的延伸呢?或者说,把“提供”的行为视作一个整体,“上传”侵权作品只是前一阶段的提供行为,仅仅让公众获得作品有了可能性;而算法推荐作品是后一阶段的行为,推荐才最终导致公众获得作品成为现实?进一步讲,算法推荐行为与公众获得作品的后果,两者之间存在侵权法上的因果关系。由此,将算法推荐作品的行为,定性为与上传用户共同实施的“提供作品”行为的一部分,平台与上传用户实施了共同的直接侵权。再或者,将平台利用算法推荐侵权作品的行为,单独视为“提供”作品,单独认定为直接侵权。

上述观点在情理上不能不说有其闭环逻辑,但著作权法上,难言成立。

第一,如前所述,在信网权范围内“提供”作品的行为已经由上传作品的用户完成,所谓“延伸”是人为认定,缺乏依据;

其次,专有权利控制的是特定行为,不是任何行为,信网权也不例外;信网权控制的“提供”作品行为,有其确定的内涵和外延[5],其仅指通过有线或无线方式,将作品置于信息网络中,使公众可以在选定时间或地点获得该作品的特定行为,这并不能将算法推荐也纳入到“提供作品”的特定行为范畴内;

第三,即便是最高院《信息网络传播权司法解释》规定的以设置榜单、目录、索引、描述性段落、内容简介等方式进行的“推荐”(人工推荐),也只是用来评价是否构成间接侵权的情形,并不是认定是否成立直接侵权的考量因素,更何况算法推荐和人工推荐还存在着差异;

第四,被诉行为是否落入信网权的控制,不取决于公众是否实际获得了作品,所谓“前一阶段”的用户上传作品导致存在获得作品可能性,这已足以认定构成直接侵权,公众是否实际获得了作品,从来不是判定是否侵犯信网权的考量因素;

第五,直接侵权与间接侵权的一个重要区别,就是直接侵权行为是受专有权利控制的行为,而如果被诉行为并不属于受专有权利控制的行为范畴,只有可能去考虑是否成立间接侵权;算法推荐行为既然不属于信网权这一专有权利控制的行为范畴,则只能讨论其是否构成“帮助”、“教唆”等间接侵权,并无讨论是否构成直接侵权的空间。故此,算法推荐作品的行为本身,无论是共同的直接侵权还是单独的直接侵权,都不能成立。

那么,司法实践中,算法推荐的内容平台是否绝对不可能构成直接侵权?现实情况是复杂的,平台企业基于运营的考虑,可能会存在签约的PGC用户,当PGC用户将涉嫌侵权的作品上传平台后,平台算法自动匹配并实施作品推荐,在此情况下,平台与PGC因“签约”而被认定存在意思联络,进而认定构成分工合作共同实施直接侵权行为也是完全有可能的,但需要明确的是,这一直接侵权的认定是基于“分工合作”导致的,而与是否推荐无关。这一假想场景现实存在的可能性还是很大的。虽然目前尚无算法推荐平台构成著作权直接侵权的判例,但司法实践上,有首先排除这种可能性的必要。在爱奇艺诉字节跳动的“延禧攻略”一案中,一审法院即首先审查了被告与上传用户是否存在分工合作的情况,一审法院认定“......从主观方面,亦缺乏证据证明对于用户所直接实施的侵权行为,该公司与用户之间存在相应的意思联络。用户对涉案侵权短视频的上传、发布,与字节公司对其进行的信息流推荐,尽管在客观上存在一定的关联,但二者属于各自独立进行决定和予以实施的行为,并不构成分工合作共同侵害延剧的信息网络传播权。”[6]值得注意的是,算法推荐平台与PGC等用户存在分工合作的合同、协议的情况,已经超越了单纯作为网络服务提供者(ISP)的平台身份,其即便是通过算法推荐作品而非人工推荐,也因其依然属于分工合作共同提供作品从而认定其构成直接侵权,并不为过。

(二)算法推荐与人工推荐

最高院《信息网络传播权司法解释》第九条第(三)项规定了认定平台是否构成应知可以综合考虑的因素之一,即网络服务提供者是否主动对作品、表演、录音录像制品进行了推荐;针对热播影视等作品,该司法解释第十条规定了以设置榜单、目录、索引、描述性段落、内容简介等方式进行推荐,可以直接认定为平台应知。

算法推荐是否属于上述司法解释规定的“推荐”?如果是,则司法实践中大概率会直接认定平台构成“应知”,这也为判定平台承担间接侵权责任直接提供了主观过错上的事实依据。这一问题的界定,既要回归推荐算法的技术原理,也要探究司法解释的条款本意。

从推荐算法的技术原理看,协同过滤推荐和基于内容的推荐,虽然推荐逻辑有差异,但都是算法基于用户的历史行为数据,向特定用户被动推荐;基于相似度计算的推荐,虽然没有老用户的历史行为数据,但仍然是基于新注册用户的选择,向该用户被动推荐向量距离最近的结果;由此来看,内容平台的推荐算法技术本身的共同特点包括:其一,算法推荐行为是被动的,是依赖于用户历史行为数据或基于新用户个人兴趣选择的;其二,算法推荐结果是用户“想看到”的,也是“千人千面”的,不是面向公众的,是面向特定用户的;其三,算法推荐结果随用户兴趣的变化,推荐结果是动态更新的。传统互联网时代被称为“人找信息”的时代,算法推荐下的互联网时代被称为“信息找人”的时代,不无道理,但从推荐算法的技术原理看,在“信息找人”的算法底层,其起点依然是要先有人(用户)找到信息(形成历史行为数据),剩下的事再交给算法。

从司法解释的条款看,最高院《信息网络传播权司法解释》将是否“推荐”列入认定应知的考量因素,最早是在2012年,虽然此前早已有了推荐算法,但彼时的推荐算法还只是互联网时代的新宠,尚未普及到主流平台,也没有在司法实践中崭露头角。不可否认,最高院《信息网络传播权司法解释》规定的“推荐”并未明确仅指“人工推荐”还是也包括“技术(算法)推荐”,但从其条款本意来看,可以归纳以下几点:其一,第九条第(三)项的“推荐”,明确强调的是网络服务提供者的“主动”推荐,第十条针对热播影视等作品列举的推荐方式包括设置榜单、设置目录、设置索引、设置描述性段落、设置内容简介等,此“推荐”也是平台主动而为的,是基于平台自己对内容的主观认知进行的推荐,并不依赖于用户,推荐之前用户也没有参与的可能性,均应理解为是平台的“人工推荐”;第二,此推荐的结果,不一定是用户“想看到”的,但一定是所有用户都能看到的,是面向公众的,其中对热播影视等作品的推荐,更是要求“公众可以在其网页上直接以下载、浏览或者其他方式获得”;第三,此推荐的结果,何时更新、如何更新,不取决于用户,完全由平台自主决定,相对于用户来讲是静态的。

实际上,关于算法推荐是否等同于人工推荐的界定问题,看一看司法判例即可验证,如果算法推荐属于最高院《信息网络传播权司法解释》规定的“人工推荐”,在爱奇艺诉字节跳动的“延禧攻略”一案中,一审法院直接据此认定被告构成“应知”便罢了,无需大费周章、舍近求远去评述被告的信息管理能力、注意义务有多高以及采取的必要措施的有效性再认定应知。

故此,相对于算法推荐而言,最高院《信息网络传播权司法解释》规定的“推荐”属于人工推荐,两者存在较大差异,不宜以本质上无差异为由等同对待,不能以算法是平台的算法,是受平台控制的,就对算法推荐进行“有罪推定”。如果说,我们都处于被“投喂”的时代,算法推荐之下,“你想看到的,都是别人想让你看到的”;而人工推荐之下,“你能看到的,都是别人想让你看到的”。

(三)推荐算法与技术中立

从严谨的语义角度来看,“推荐算法”和“算法推荐”所表达的语义是不一样的。当我们说推荐算法时,实际说的是一种能够实现推荐功能的算法技术;而当我们说算法推荐时,实际说的是利用数学算法实施的一种推荐行为。云何咬文嚼字进行区分,其意义在于:到底技术是中立的还是行为是中立的。

显然,行为是带有人的价值观和目的而实施的,特别是作为理性经济人的企业行为,行为中立难言成立;而对待技术本身,我们则不宜持有好与坏的分别心,技术本身的中立性不可否认,技术向善、算法向善是人类社会赋予技术正能量价值观以后所追求的,并非技术所固有的。所以,我们说推荐算法技术是中立的,没有问题;而不能说算法推荐行为是中立的。预测即干预,推荐即应知,不符合技术中立的原则;技术中立即行为免责,同样也不符合过错责任的侵权法归责原则。不能从一个极端走向另一个极端。

评价采用推荐算法的平台在某一案件中是否构成侵权,需要放到具体被诉行为中去审查,审查算法的实现逻辑,审查算法具体做了什么、怎么做到的,与算法平台能够做到什么、应该做到什么去对比,得出是否有过错、是否应知以及是否构成侵权,这样的裁判思路是客观、公正的。

推荐算法技术,与网络接入技术、网络传输技术、信息存储技术、信息定位技术,原理、服务各不相同,但本质上都是作为网络服务提供者的一项技术,虽然“推荐”一词,在外观上来看,总给人一种涉嫌侵权的“瓜田李下”之虞,但著作权法应该给予其和其他网络技术一样的同等待遇,不宜歧视对待。

美国DMCA所采纳的避风港规则,是技术中立抗辩在著作权法上的经典适用,后于2006年被我国《信息网络传播权保护条例》所吸收,司法实务中在涉及信息存储空间、搜索链接等技术场景下,适用避风港规则认定被告是否侵权还是免责已没有争议,但涉及算法推荐行为的案件是否适用避风港规则仍存争议。

我国《信息网络传播权保护条例》第二十条至第二十三条规定的避风港规则的技术场景是封闭体系,甚至没有一个“等”字用来扩大解释适用范围的机会,这使得技术迭代、发展后,条例对出现的新类型的“网络服务”并不友好,在行政法规层面找不到适用避风港的依据。

而最高院《信息网络传播权司法解释》对能适用避风港的网络服务类型做了开放性的规定,其中第四条后半段规定,网络服务提供者能够证明其仅提供自动接入、自动传输、信息存储空间、搜索、链接、文件分享技术等网络服务,主张其不构成共同侵权行为的,人民法院应予支持,司法解释列举网络服务类型的同时用“等”字兜底,以应对技术发展带来的新类型的网络服务;第六条规定,网络服务提供者能够证明其仅提供网络服务,且无过错的,人民法院不应认定为构成侵权,该条款也未明确限定网络服务的类型,据此理解,同样也应当包括技术发展后新类型的网络服务,比如推荐算法技术。

事实上,推荐算法技术既然同样仅仅是一种网络服务,则著作权法应当给予其适用避风港规则的空间,至于平台能否基于该规则的抗辩而免责,则是法院根据双方提供的平台是否具有过错的证据进一步审查的问题。

(四)算法推荐对内容传播也是一把“双刃剑”

大数据时代,无论是电商平台还是内容平台加载的海量数据,都超过了个人或系统所能接受、处理或有效利用的范围,以抖音平台为例,据说其每天上传的视频量就有6000万条之多[7],如何让1/6000万的视频有效呈现给想要观看该视频的用户,绝不是人力所能做到的,需要一种“以物识人”的算法来实现,推荐算法的一个主要功能就是解决此类信息过载(Information Overload)问题。不能不说,解决问题的同时,推荐算法也有效扩大了作品的传播范围和精准度,反过来也会激励创作,这正符合著作权法的立法本意,在这一点上,应该给推荐算法为作品创作和传播作出的贡献点赞。

但推荐算法本身不具有内容识别功能,无法识别内容是否侵权、是否淫秽、是否危害国家安全和公共利益等内容,这需要其他技术来解决。目前主流的推荐算法仍然是一个“笨小孩”,其只能根据用户的历史行为数据或偏好,作出低阶判断是否进行推荐,当面对连专业法律人都可能有不同判断结果的是否侵权问题时,即便是下一代采用深度学习技术的推荐算法,也难以作出判断。所以,如果算法推荐的是涉嫌侵权的作品内容,相比于没有采取推荐算法的平台,推荐算法同样会迅速、精准的扩大侵权内容的传播,这也正是推荐算法技术遭到权利人控诉的原因所在:经过算法推荐,侵权内容的点击量、浏览量得以迅速提升,扩大了侵权传播范围,算法推荐即便不构成直接侵权,也不能对损害结果的扩大置身事外,更何况平台还从扩大的损害结果中获得了流量收益。这一指控在情理上不无道理,但认定算法推荐平台在何种情况下构成侵权并承担责任,仍应坚守侵权法自有的认定标准和规则,必须要查明平台有何种注意义务及是否违反该注意义务,这也是著作权法对权利保护与产业发展、技术创新作出平衡的必然要求。

结   语

上述推荐算法相关问题在著作权法上的界定,为著作权法提出了更值得去关注的问题——算法推荐平台的“应知”认定,具体包括:其一,算法推荐平台对存在的涉嫌侵权内容应持有何种注意义务?是否要求平台负有过滤义务?其法理基础何在?其二,司法实务中,如何判断算法推荐平台是否尽到了这种注意义务?第三,为尽到这种注意义务,算法推荐平台需采取哪些必要措施?最后,平台要如何开展算法推荐版权合规与治理工作?

只有对这些问题进一步深入研究,才有可能厘清算法推荐平台的责任边界,帮助算法推荐平台识别、防控版权风险,真正做到“算法向善”。

注释:

[1]参见北京爱奇艺科技有限公司与北京字节跳动科技有限公司侵害作品信息网络传播权纠纷一审民事判决书,案号:(2018)京0108民初49421号

[2]参见https://mp.weixin.qq.com/s/eJZDqoM6Fz6KeD4MEjVFYQ,1分钟了解协同过滤,pm都懂了

[3]参见https://mp.weixin.qq.com/s/aFRMSpqLDMtUIrAOYnbfWA,1分钟了解基于内容的推荐,pm又懂了

[4] 参见https://mp.weixin.qq.com/s/KROc9G_kAs8_vquKQKJIFw,1分钟了解相似性推荐

[5] 《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》(2020修正)第三条第二款规定,通过上传到网络服务器、设置共享文件或者利用文件分享软件等方式,将作品、表演、录音录像制品置于信息网络中,使公众能够在个人选定的时间和地点以下载、浏览或者其他方式获得的,人民法院应当认定其实施了前款规定的提供行为。

[6] 同注释[1]

[7] 参见https://new.qq.com/rain/a/20211229A07B9400,抖音每天上传的视频量是6000万条,算法推荐的核心逻辑

(图片来源 | 网络)

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
评论区

    下一篇

    对“终端产品”用户不容易看到的“中间产品”的设计特征不予考虑,并以此宣告“中间产品”的专利权无效值得商榷。

    2022-08-27 08:05:00