三知论坛实录 | 专题二：数据抓取行为的正当性边界

2022-02-24 18:10:00

2022年1月，第六届三知论坛于浙江嘉兴举办，论坛以“数据权益知识产权保护”为主题，探讨企业数据权益的保护路径、数据抓取行为的正当性边界、数据权益的竞争法保护以及企业在数据权益保护方面遇到的问题及建议，以期有效制止数据侵权行为，使数据要素发挥出最大的生产效能。

640?wx_fmt=jpeg

知产力新媒体平台特对论坛嘉宾发言作了编辑整理，本期将继续分享第二个专题——“数据抓取行为的正当性边界”。

上期回顾：

三知论坛实录 | 专题一：企业数据权益的保护路径

数据抓取行为的正当性边界

本次专题的主题是“数据抓取行为的正当性边界”，由嘉兴市中级人民法院知识产权审判庭庭长徐瑾担任主持人，咪咕版权和维权系统技术负责人苏贇、对外经济贸易大学数字经济与法律创新研究中心主任许可、北京市海淀区人民法院刑事审判庭副庭长覃波作为主讲人分别作主题演讲。同时，清华大学法学院教授崔国斌和江苏省高级人民法院知识产权审判庭法官刘莉将作为与谈人参与到本次专题的探讨中来。

徐瑾表示，数据抓取类案件是企业数据权益保护中最为典型常见的案件类型，这类案件的审理难点就在于对数据抓取使用行为是否具有正当性作出判断，但对于正当性标准的认识还没有真正的共识，这充分体现了这一专题的理论和实务研讨价值。

主讲嘉宾精彩发言

首先是咪咕版权和维权系统技术负责人苏贇以“数据抓取技术和应用场景”为主题进行分享。苏贇讲到，互联网的蓬勃发展使得各种应用场景及用户的行为都在互联网留下了许多痕迹，形成了海量的数据。如何利用好这些数据并发挥其最大价值，成为各个企业机构必须要面对的问题。苏贇结合企业实践介绍了爬虫的应用场景，爬虫一般用于采集企业内部或外部的数据，然后在梳理、清洗和转换后形成标准化的数据，通过对数据的分析和挖掘得到商业价值。爬虫具有一些优点，比如高效采集的同时还能形成结构化的数据方便后续应用。但也存在一些缺点，比如爬虫需要长期的维护，同时一些网站也会对爬虫进行一些限制。

接下来，苏贇介绍了爬虫的概念和分类。所谓“爬虫”指的是按照一定的规则自动抓取互联网信息的程序或脚本。根据爬取对象的不同，爬虫可以分为搜索引擎或者大型服务网站采集数据的通用爬虫、针对某一专题内容进行抓取的有针对性的爬虫、抓取某些网站更新状态的爬虫、或者需要用户提交一些关键信息进行深度抓取的爬虫等等类型。而按照搜索策略的不同又包括按照广度优先、最佳优先和深度优先等搜索策略运转的爬虫。总之，根据不同的应用场景，可以要求爬虫实现不同的功能。

而针对爬虫在版权保护方面运用，苏贇介绍到，他们有一套利用网页爬虫技术的版权监测系统，其运作流程为，先设置检测时间和范围，然后系统根据不同的监测任务进行采集，经过系统的数据采集和对比来判断是否侵权，如果存在民事侵权现象则会再去做一个数据的取证，然后经过人工复审进入到线下维权的环节。在这个过程中，爬虫抓取的内容一般都不是目标网站受法律保护的内容，同时也会注意不涉及对隐私信息和个人信息的侵犯，因此在咪咕版权监测系统中只是使用技术手段来代替人工进行监测，对爬虫的利用是符合法律规定的。通过在数据抓取方面的探索，结合自身在版权保护领域的一些业务需求，咪咕版权监测系统形成了集采集监测、对比取证和维权的一整套完整的解决方案。

随后，对外经济贸易大学数字经济与法律创新研究中心主任许可以“数字爬取：从界权到权衡”为主题，针对具体的数据使用场景下如何确定合法性边界问题进行了分享。许可认为赋权在数据爬取领域可能会存在着一些困难，所以我们可以尝试改变思路，从初始的权利界定转向具体场景下的权益权衡。对于数据爬取来说，界权可能没有办法解决我们面临的问题，一是界权的成本过高，对于一些公开性的数据来说，划定数据权利的范围比较困难。二是即使能够进行数据边界的划分，我们也不知道数据权利的具体内容是什么。第三，即使能够确定权利内容我们也无法回答在权利排序中何方更应当受到保护，这很难在确权的层面解决。

许可又指出，如果回过头看美国的立法经验，作为世界上网络法的发源地，美国数据爬取的相关司法实践已经积累了大量的经验。在发展过程中，美国之前特别强调界权的经营，只要经营者能够明确自己权利的边界，无论是通过事前措施还是事后措施，那么对于爬取方来说，就有了一个雷池之界。然而最近几年大量司法案例则显示出美国更多地转向了一种利益衡量的思路。对于数据来说，流动才是网络的底层逻辑，数据的流动、二次利用、多次利用恰恰是数据价值发挥的路径，而数据爬取恰恰是数据流动的重要方式。这个领域中，对于公开数据来说，数据爬取恰恰是在互联网中被广泛使用的基础性工具，正因如此，我们既然认可数据爬取是一种权益的话，爬取方和被爬取方的权益都需要得到保护，由此便转到了权益权衡的思路上来。这可能就要回到法经济学特别遵循的一些规则，典型的就是当年科斯在社会成本问题一文中提出来的思考方法。

科斯指出，我们要从道德观上的判断转向社会福利的判断，造成损害的一方未必要承担责任，如果损害行为使社会获得了更高的价值，那么对于社会来说往往是应当鼓励的。所以在科斯的社会成本问题中提出一个非常重要的观念叫做损害的相互性，这种损害的相互性让我们跳脱出传统上认定爬取先天就是有害的这种思路，回到权衡的思路上来。也就是说在具体场景下到底是允许爬取方损害被爬取方，还是允许被爬取方损害爬取方，我们可以通过一种权衡的方法来解决。

然而许可也强调，如果没有一个法律方法的保证，权衡也有可能成为一个和稀泥式的黑箱，这里一个非常重要的研究就是回到法经济学中的科斯定律，如果损害是小于获益的，我们认为这么一种行为就是正当的，反过来会认为是不正当的，这也是所谓的两害相权取其轻的基本原理。因此在特定的情境下，我们可以先确定可能损害的权益，再确定可能被实现的权益，最后确定被实现的权益和被损害的权益之间的大小关系。

那么如何将这种抽象的规则运用到具体的个案中？许可指出在具体的复杂场景中，我们没有办法直接从法律规则中得到结论，这就必须要动用自由裁量权，而保证自由裁量权正当行使的重要因素，就在于要保证论证过程的公开和充分，保证决策过程的透明性，使双方可以在此过程中得到很好的辩论。

最后，许可又再次强调，在相关部门的立法工作中，大部分人都会首先想到界定产权，提出就算是要运用科斯定理，也必须有清楚界定的产权作为市场交易的前提。然而这种思路却忽略了，当交易成本足够低的情况下，产权界定是没有那么重要的。对于法律来说，与其我们要制定一个标准或制度来判断权属归谁，不如去降低交易成本，也就是说我们的立法目标可以从将数据的排他性转向数据治理，这个过程中数据归属的重要性就让位于数据流通的重要性，我们应当建立一套数据流通规则，而不是先建立一套数据权属的规则。数据爬取恰恰可以说是基于单方发起的数据流通规则，对这种规则的研究，对于我们未来的数据法律，包括未来的数据流通支付，都有重大的理论研究价值。

接下来，北京市海淀区人民法院刑事审判庭副庭长覃波结合自己多年参与刑事审判的实践经验，以“涉数据权益知识产权刑事保护问题及思考”为主题向大家做分享。覃波指出，从近些年其所在法院审理的涉及数字权益的知识产权刑事案件来看，基本集中在两个罪名上，一个是侵犯著作权案件，一个是侵犯商业秘密案件。数据权益真正落实到知识产权角度保护的比例还是比较小的，反而一些数据权益相关案件更集中在涉及计算机信息系统的罪名中。虽然现在涉及数字权益保护的现实需求是很强烈的，但相对而言真正落实到司法层面的比例则是寥寥无几。

随后，覃波结合自己在司法实践中的体会，谈到了一些司法实践中的具体问题。首先是权属认定的问题。在刑事案件中也同样涉及权属认定的问题，这也常常是困扰刑事审判的重大问题。事实上，在审判过程中，如果权属认定的问题不解决，也会影响整体的案件处理，甚至跟民事审判出现冲突。

第二是改变先刑后民的传统观念问题。在许多知识产权刑事案件中，可能民事问题不解决，刑事问题也很难处理，所以反而应该先把民事问题先解决才能解决刑事责任认定的问题，因此现实中三审合一的必要性确实很大。但是实践中三审合一却没能实际地推行，重要的还是审判权授权的问题。刑事案件中是否能进行民事权属的判定、裁定，现在的授权并不明确，这也是三审合一模式改革一直没法推进的最大障碍，这个问题不能解决，真正的三审合一可能还是停留在比较肤浅的层面。

第三是作品数量的认定和商业秘密贡献率认定的问题。现在电子书是通过链接爬取的，传播数量很难计算，按照传统认定作品数量的方式不能满足现在电子书、电子作品著作权的保护。所以应当结合现代的电子数据、电子作品在网上传播的形式和特征，针对它的数量和情节做专门性的规定，从而更加符合现实司法的需求。对于侵犯商业秘密来说，在刑事案件中并没有从贡献率认定损失或获利的规则，但是贡献率的规定对于评定犯罪行为的危害和后果来说，有一定的参考价值，对于某些案件评价犯罪情节和危害后果来说，可以借鉴。

第四是违法所得认定问题。在实践中，真正用违法所得角度定罪的少之又少。因为违法所得的取证范围、规则标准并不明确，合法成本和犯罪成本很难区分，对于刑事犯罪中认定违法犯罪成本来说，目前法律规定还并不健全，所以导致在实践中真正通过违法所得来定案的案件少之又少。在覃波看来，或许可以尝试借鉴根据权利人因被侵权造成的销售量减少的总数乘以权利人每件产品的合理利润来确定，对于侵犯著作权案件来说，也许可以尝试借鉴这样的一个规则，更有利于打击犯罪。

第五是一些程序问题。覃波认为，实质性的三审合一还必须有审判知识产权刑事案件民事审判权的权责，其中最好入手也最应该着手的试点，应该从刑事附带民事问题入手。按照传统的司法解释，附带民事更多地是将人身或者财产等有形损害纳入刑事附带民事判决，对于侵犯知识产权造成的损失和伤害可能并没有在这个解释范围内，所以现在很多法院也没有真正把知识产权刑事犯罪的民事赔偿问题纳入刑事附带民事犯罪来处理。在这种情况下，被告人的违法所得被没收，但是被害单位的损失并没有得到弥补，如果作为附带民事来解决的话，就可以先解决民事赔偿问题，再解决没收违法所得问题，如果没有附带民事，这个问题就很难解决。当然知识产权的民事赔偿要比一般的民事赔偿复杂的多，还需要建立相应的赔偿规则。

与谈嘉宾精彩发言

主讲人主题演讲结束后，与谈人分别发表了自己的意见。清华大学法学院教授崔国斌首先谈到数据产权保护的基本思路：如果数据条目本身或数据选择与编排构成作品，可以按照著作权法获得保护；如果不构成作品，但未公开，则多数数据集合可以按照商业秘密来保护；此外，数据条目的内容还可以从个人信息、隐私、肖像等途径来寻求保护。从这种思路来看，剩下的问题其实并不是很多。在数据的产权问题上，其实国内法几乎没有什么空白。现在要做的更多是一些原则条款要细化的问题。这应该是知识产权界一贯的共识。但是很多兄弟学科的学者不这么认为，一直使用比较空泛的“数据产权”这样的概念，试图在整体上重新制定统一的规则。这一思路过于简单，和现有的复杂的法律体系脱节，反而会误导我们的决策者，以为自己可以在白纸上任意挥洒。崔国斌强调，数据集合产权问题在现有法律框架下答案已经比较清楚，剩下的有限空白可以讨论，但是多数情形已经不是一个很突出的问题。

崔国斌表示，数据爬取必须在现有的法律框架下来讨论，不能简单地想象一个数据产权的框架，然后在该产权框架下讨论数据爬取行为的合法性。现有的关于数据利用的法律框架非常复杂，讨论数据爬取是否合法也不能简化成一个数据产权或者知识产权保护的问题。这是一种单向度的思路。权利人采取技术措施限制公众获得网络数据的原因其实非常多，保护商业秘密，保护版权，保护个人信息，保护国家秘密，等等。这些都是非常重要的利益。我们不能摆脱这样复杂的权利或利益结构来讨论数据抓取的问题。我们判断一个网络爬虫到底能不能绕过技术措施，爬取数据的时候，单纯从想象的数据产权的角度考虑是不行的，必须分别考虑上述各种可能的权益，再看绕过技术措施是否被允许。这个世界很复杂，不能轻易地简化，每个领域都要有专门的学者把它说清楚，而不能通过创造一个统一的数据产权概念就把这些复杂性都忽略掉。这是行不通的。

现在数据网络、人工智能、算法这些领域的很多研究，其实都存在同样的问题，就是轻易忽略过往部门法的复杂分工，脱离部门法的背景抽象地或综合地讨论算法管制或者数据产权问题，然后提出各种统一、综合的权衡方案。这并不是合理的思路。在具体的数据爬取类个案当中，我们将各种权益搁在一起，然后综合来权衡得出数据爬取能不能做的结论的可能性很少，多数情况下其实是一对一的权衡，看在特定权益保护的框架下，数据爬取行为是否应该被允许。只有通过每一项权益保护框架下的审查时，数据爬取行为才被允许。我们没有办法消除这一复杂性，而应该在每个部门法的框架下努力回答数据爬取行为的合法性问题。这也是我们每个部门法都必须要做的事情。在这一意义上，我并不支持统一的综合权衡思路。

最后，崔国斌还提醒要注意数据产权保护问题跟其他的一些破坏计算机系统行为之间的区别。我们现有的很多讨论把破坏计算机系统的行为跟数据产权侵权行为混起来。其实，很多时候案件争议的焦点不在于所涉数据本身能不能得到保护，而在于行为人以何种方式获得数据或访问计算机系统。比如，有时候你每月一次访问别人的计算机服务器并下载所有数据，并不违法；如果你每隔几秒就访问别人服务器并下载数据，使之不厌其烦，则可能被认为是在破坏计算机系统稳定性。后一类数据爬取行为所产生的争议，其实与数据产权保护并无关系。我们要区分数据产权保护问题跟计算机系统滥用的问题，不然很多讨论就容易被扭曲。

最后江苏省高级人民法院知识产权审判庭法官刘莉也发表了自己的看法。刘莉认为在具体分析数据抓取行为这个问题的时候，实际上数据保护和数据流通这两个价值需要做一个平衡，在这样的一个价值导向的基础之下，就有了三个小问题。第一个问题是平台能不能基于它的经营过程当中所搜集的数据来主张权利。刘莉认为，很多数据其实并不是企业所创造的，只是企业对它从用户中获取的数据做了一些排列和汇集的工作，所以在司法实践中要根据个案的需要考虑数据的内容、属性以及数据拥有者对数据利益形成的贡献度等因素确定数据利益的归属和权利的边界。一般而言，平台在取得用户同意的前提之下基于自身的经营活动正当收集和整理数据资源，在数据资源形成的过程中投入人力、物力、财力等劳动，那么经过深度地开发和系统整合形成的那些独立于网络用户信息、原始网络数据之外，能够为网络的经营者带来可观的商业利益和市场竞争优势的数据，平台实际上是可以基于他在经营过程当中作为搜集数据的权利主体来主张权益。

第二个问题是平台获得数据内容的过程本身是否正当。刘莉认为，如果平台使用的数据是通过搜索引擎自然抓取并且遵守了相关的通用技术规则，同时各方对于通过这些公开技术手段来获得数据本身也没有什么异议，我们可以认为获得数据的过程是正当的。反过来说，如果通过合法途径没有办法获取，必须通过非法的技术措施等手段，这种情况下我们可能认为是不正当的。所以实际上对于数据流通来说，根据互联网互联互通的精神，所有平台经营者应当是在一定程度上容忍他人合法收集和利用平台中已经公开的数据。同时，数据具有合法性的关键还是在于数据本身具有合法来源，也就是是否经过授权和许可，特别是一些涉及到用户个人身份信息的原始数据，这实际上是一个基本的规则。

第三个问题是平台对于所获数据内容本身的使用是否正当。刘莉认为，如果平台的使用者没有不当地损害其他主体的利益，也没有违反这种公认的商业道德等原则，那么可以认定这个使用行为是正当的，反之则认为是不正当的。

当然对于数据抓取行为的正当性边界问题确实有待探索，需要进一步的明晰和完善。

（图片来源 | 网络）

该文观点仅代表作者本人，知产力平台仅提供信息存储空间服务。

三知论坛实录 | 专题二：数据抓取行为的正当性边界

下一篇