公开数据的网络爬取,企业该如何“取之有道,用之有度”?
作者 | 黄伟兰 北京市永新智财律师事务所
编辑 | 布鲁斯
在当前数字信息时代,数据成为了最重要的生产要素之一,被喻为新时代的“石油”。全球各大公司之间的竞争,逐渐演变为对“数据”的争夺。在获取数据的各种手段中,通过网络爬虫技术对公开数据进行爬取[1],是一种经济、便捷、高效的方式,被各大企业广泛使用。但是目前我国法律对公开数据的定义、权属、保护方式并未有明确、统一的规定,如何合法地爬取、使用公开数据,还没有清晰的标准。虽然如此,通过分析目前相关司法政策和判例,作者认为还是能够梳理、归纳出一些比较通行的合规要点,以期为企业提供一些借鉴、指引。
PART/ 01
一、什么是公开数据?
根据是否对外开放,数据可以分为公开数据和非公开数据。从字面上来看,公开数据是指处于公开状态能够为公众获取的数据,非公开数据是指不对公众公开的数据,但是“公开”与“非公开”以什么作为标准进行区分,并不明确。
在“鹰击”系统不正当竞争案件[2]和“超级星饭团”不正当竞争案件[3]中,北京市海淀区人民法院、北京知识产权法院均认为“对于原告微梦公司未设定访问权限的数据,应属其在微博平台中向公众公开的数据,例如,用户在未登录状态下即可查看的新浪微博,系博主本身未限制他人浏览且北京微梦公司未通过登录规则等措施限制非用户浏览的数据,即为微博平台中的公开数据”、“对于微梦公司通过登录规则或其他措施设置了访问权限的数据,则应属微博平台中的非公开数据,例如,微梦公司主张的需用户登录后才可查看的,或在微博产品任何前端均不再展示故用户登录后亦不可查看的新浪微博,均属于微博平台中的非公开数据”。这两个判决对“公开数据”的认定,关键在于数据被抓取方是否设定了访问权限,这里的权限包括是否需要用户登录等。由此可见,是否属于“公开数据”,取决于是否需要登录才能查看。无需登录即可查看的内容,可以被认定属于“公开数据”。除此之外的情形,包括登录之后才能查看以及登录之后在用户前端也无法查看的内容,属于“非公开数据”。根据这个判断标准,我们常见的公开数据,包括平台上的用户信息,用户对商品、服务、商户的评价信息以及用户在平台上发布的内容等。
目前司法判例对“公开数据”的认定,还是比较保守。从某种角度来看,任何用户注册登录后,都可以查看的内容,实质上也是一种对外公开的数据。因为这种数据被置于一种对外开放的空间,任何用户只要想看,就可以登录查看。现实中,网络平台为了维护自己的商业利益、防止他人爬取,往往会要求用户登录之后,才能查看相关内容,而这些内容与那些不需要登录就能查看的内容本身没有实质区别。目前的认定标准,一定程度上阻碍了数据的流通,不利于商业的创新发展。随着商业和司法实践的发展,将来对“公开数据”可能会有新的认知, 逐渐扩大“公开数据”的内涵。
另外,需要区分公开数据与政务数据。根据《数据安全法》、《政务信息资源共享管理暂行办法》的相关规定,政务数据(也称“政务信息”)是指政府部门及法律法规授权具有管理公共事务职能的机构和组织在依法履职过程中收集和产生的各类数据。政务数据以共享为原则,不共享为例外。政务数据中对外公开共享的内容,属于公开数据。这部分是公开数据中很重要的组成部分。
PART/ 02
二、公开数据是否可以被抓取?
目前司法判例认为,公开数据可以被合法收集、使用,应当允许通过合法的网络爬虫对公开数据进行爬取。
在前述“鹰击”系统不正当竞争案件和“超级星饭团”不正当竞争案件中,北京市海淀区人民法院、北京知识产权法院论述公开数据可以被抓取的原因为:
1. 基于网络环境中数据的可集成、可交互之特点,平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据,否则将可能阻碍以公益研究或其他有益用途为目的的数据运用,有违互联网互联互通之精神;
2. 无论是通过用户个人浏览或网络爬虫等技术手段获取数据,只要其遵守通用的技术规则,则其行为本质均相同,网络平台在无合理理由的情形下,不应对通过用户浏览和网络爬虫等自动化程序获取此类公开数据的行为进行区别性对待。
虽然目前司法判例允许对公开数据的爬取,但这并不意味着对公开数据可以随意爬取、使用。由于公开数据往往涉及多方利益,且实际商业中网络抓取的手段和使用方式多种多样,企业对这类数据的抓取使用,还是有很多需要注意的地方。判断抓取某些公开数据并进行使用的行为是否合法、正当,需要从抓取+使用方式两个层面进行分析,这亦是在先诸多判例所采用的方式。如果抓取行为不合法,法院会倾向认为不论使用方式如何,都构成侵权。如果抓取行为合法,但是使用方式不当,构成对被抓取数据产品的实质性替代等,严重损害他人合法权益,不利于促进技术、产品创新发展,依然构成侵权。
对此,下文将从数据抓取行为和数据使用方式两个层面分别分析。
PART/ 03
三、如何进行合法的公开数据抓取?
(一)涉及个人信息的公开数据,需获得个人的授权、同意
在我国现行法律框架下,个人信息权益属于人身权。通常,在个人信息与数据权益发生冲突的时候,法院倾向优先保护个人信息权益。根据《个人信息保护法》的相关规定,处理个人信息除了几种除外的情形,原则上需要获得个人的同意,涉及敏感个人信息,还需获得单独同意。因此,如果抓取的数据涉及个人信息,应当获得个人的授权同意,否则很可能会被认定抓取行为不正当,从而构成侵权。
在微博诉脉脉案[4]中,北京知识产权法院明确认定:网络平台提供方可以对在用户同意的前提下基于自身经营活动收集并进行商业性使用的用户数据信息主张权益。互联网中第三方应用通过开放平台,例如OpenAPI模式,获取用户信息时应坚持“用户授权+平台授权+用户授权”的三重授权原则,第三方应用未经用户同意且未经开放平台授权,获取并使用平台用户信息的行为,构成不正当竞争行为。
特别的,如果被抓取的个人信息来自国家机关依职权制作的文书和公开实施的职权行为等信息来源所发布的信息,则可以无需再取得该个人的同意。但是如果个人要求删除、修改相关信息,这种情况下,数据抓取方有义务进行相应操作。在伊某诉启信宝公开裁判文书案[5]中,苏州市中级人民法院认定:涉案文书已在互联网上合法公开,启信宝的运营方贝尔塔公司基于公开的渠道收集后在其合法经营范围内向客户提供、公开相关法律文书,属于对已合法公开信息的合理使用,贝尔塔公司的最初转载公开行为,不构成侵权。在伊某联系贝尔塔公司要求删除文书之后,贝尔塔公司拒绝删除涉案文书,则构成对伊某个人信息的非法公开使用。从价值衡量来看,个人信息主体对信息传播控制的人格权益显然高于已合法公开个人信息流通所产生的潜在财产权益,个人信息主体对其个人信息传播控制的权利,并不因个人信息已合法公开而被当然剥夺。
(二)遵守被抓取方Robots协议中限制规定
Robots协议是否可以限制他人抓取,根据数据使用场景的不同,适用不同的规则。在搜索引擎行业,由于其所提供的信息关乎网络互联、互通、共享、开放,消费者信息获取的便捷性、全面性和完整性,具有一定的公益属性,故搜索引擎行业设置Robots协议应以允许抓取为原则,有公认合理的正当理由限制抓取为例外。但是,在非搜索引擎应用场景下,经营者无义务将自己网站的数据信息开放给他人的爬虫软件,有权通过爬虫协议设置抓取限制。因为这种应用场景下,抓取他人的网站数据,往往会应用于抓取方自身的App应用软件中,并非为了更好地传播网络信息,实现互联互通的目的。同时,即使对部分企业进行了限定,其他网络经营者仍然可以进行抓取,客观上不会从实质上影响信息共享、流通[6]。
在“字节跳动公司与微梦创科公司案”[7]中,北京知识产权法院认定,在非搜索引擎应用场景下,通过robots协议对网络机器人进行限制并不当然违背互联网行业的商业道德,微梦创科公司设置针对字节跳动公司限制抓取的爬虫协议认定不构成不正当竞争,经营者无义务将自己网站的数据信息开放给非搜索引擎应用场景下的爬虫软件,应当允许网站经营者通过爬虫协议设置抓取限制,这是网站经营者按自主意愿进行经营决策的体现。
因此,企业在非搜索引擎应用场景下抓取公开数据的过程中,应当遵守被抓取方Robots协议中的限制规定。如果违反了相关限制规定,抓取行为很可能会被认定构成违法。
(三)不得采取非法手段、妨碍被抓取方的正常运行
在数据抓取的行为方式中,企业不得通过非法手段实施,比如突破、绕过被抓取方的技术保护措施。在“鹰击”系统不正当竞争案件中,北京知识产权法院认定,蚁坊公司抓取微博平台公开数据行为正当的要件之一为其抓取数据的手段系合法正当。但因蚁坊公司不能证明其系通过正常途径抓取微博平台公开数据,故即便鹰击系统中存在该部分数据,亦不能证明其该项行为正当。也即虽然微博平台上的公开数据可以抓取,但是因为蚁坊公司的抓取手段不合法,仍然构成侵权。
另外,数据抓取不得妨碍被抓取方正常运行。否则,如果因为网络爬虫软件频繁、重复抓取,导致被抓取网站负载过重,甚至妨碍了网站的正常运行,将会增加侵权风险。
PART/ 04
四、对被抓取数据的使用,有哪些限定?
(一)应当有利于技术、经营模式的创新,不能是对被抓取方的实质性替代
在先司法判例允许对公开数据的合法抓取,目的是希望这类数据的自由流动,能够鼓励、促进商业创新、技术发展,为消费者带来更丰富、更先进、更低廉的产品、服务,从而提升整个社会的福利。但同时被抓取方对这些公开数据的收集、整理,投入了资金、人力,仍有值得法律保护的地方。为了平衡创新发展和权利保护,抓取方对所抓取数据的使用方式,应当有所限定,不能是对被抓取数据进行替代性或同质化的利用,没有任何技术、经营模式的实质创新。如果仅仅是对被抓取方的实质性替代,利用被抓取方的数据直接与被抓取方进行竞争,会被认定不符合诚信经营的基本商业道德。
在大众点评诉百度案[8]、爱帮网不正当竞争[9]案和企业名搜索网案[10]中,法院认为,如果抓取方对被抓取方数据的使用,已达到了网络用户无需进入被抓取方网站即可获得足够信息的程度,事实上构成对被抓取方市场的替代,属于搭便车和不劳而获。且数据抓取方对于创新和促进市场竞争没有任何积极意义,其欲实现的积极效果与给被抓取方所造成的损失并不符合利益平衡的原则。
对技术、经营模式创新的判定,需要结合具体情况,比较复杂,目前司法判例对认定构成创新的条件较为严苛,多数案件中法院均认为抓取平台的创新性不足,或者创新性不足以获得保护。
(二)尽量确保信息的准确性
在数据的使用过程中,应尽量确保信息的准确性。否则如果因信息整理、汇总、更新的不准确而导致数据相关主体的声誉、名誉受到贬损等负面影响,也可能涉嫌相关侵权风险。
在“浙江蚂蚁公司诉企查查”商业诋毁及不正当竞争案件[11]中,企查查的经营主体在全国企业信用公示系统上抓取了关于浙江蚂蚁公司的“企业清算信息”,并在“企查查”上发布,但并未说明该信息系历史信息,造成用户误认为系新变动信息,给浙江蚂蚁公司造成了负面影响。法院认为,企查查构成对公共开放数据的不当使用,未能尽到必要的注意义务,导致浙江蚂蚁公司的声誉受到贬损,构成不正当竞争。该案明确公共数据使用者未能尽到必要的注意义务,导致法人或自然人等原始数据主体合法利益受损的,应承担相应法律责任。
PART/ 05
五、总 结
企业对公开数据的使用,需要从数据抓取手段和数据使用方式两个层面进行合规把控。在数据抓取手段上,涉及个人信息的公开数据,须获得个人的授权和同意,遵守被抓取方Robots协议中的限制规定,并不得采取非法手段,妨碍被抓取方的正常运行。在数据使用方面,应当有利于技术、经营模式的创新,不能是对被抓取方的实质性替代,同时应尽量确保信息的准确性,避免对相关数据主体的声誉、名誉造成负面影响。
注释、参考资料
1. 本文认为,数据领域的“爬取”和“抓取”的含义相同。相较而言,“爬取”从字面上更能反应其“爬虫”技术的特性。考虑到我们通常习惯使用“抓取”表述获取网络数据的方式,因此部分表述使用“抓取”。
2. 参见:北京知识产权法院(2019)京73民终3789号判决书
3. 参见:北京市海淀区人民法院(2017)京0108民初24512号判决书
4. 参见:北京知识产权法院(2016)京73民终588号判决书
5. 参见:苏州市中级人民法院(2019)苏05民终4745号判决书
6. 参见曹丽萍:《爬虫协议作为商业道德评判行为正当性的考量维度——评北京字节跳动科技有限公司与北京微梦创科网络技术有限公司不正当竞争纠纷案》,《法律适用》2023年第5期
7. 参见:北京知识产权法院(2021)京民终281号判决书
8. 参见:上海知识产权法院(2016)沪73民终242号判决书
9. 参见:北京市第一中级人民法院(2011)一中民终字第7512号判决书
10. 参见:浙江省杭州市滨江区人民法院(2019)浙0108民初5049号判决书
11. 参见:杭州市中级人民法院(2020)浙01民终4847号案件中判决书
(本文仅代表作者观点,不代表知产力立场)
封面来源 | Unsplash