特稿 | 网络爬虫涉及侵犯公民个人信息罪之风险探析

2021-12-18 08:05:28

本文分析了网络爬虫引发侵犯公民个人信息罪之刑事风险产生的具体原因、存在的争议，并提出风险防范思路。

作者 | 邹雯张翰雄己任律师事务所

编辑 | 布鲁斯

【摘要】

探析网络爬虫的刑事风险可从网络爬虫技术的自身特性、数据所处互联网环境的复杂性、入罪依据的多元性以及法律规范的模糊性等多重维度来考量。本文对网络爬虫引发侵犯公民个人信息罪之刑事风险产生的具体原因、存在的争议进行分析，并提出了相应的风险防范思路。

网络爬虫是一种高度自动化获取并存储网络数据的互联网技术，得到了广泛应用。关于如何有效防范网络爬虫的刑事风险，合规实施网络爬虫技术，也引发了法律和技术界的关注和广泛讨论。本文结合法律规定、最新个案和相关实践，对网络数据爬取涉及侵犯公民个人信息罪的刑事风险进行分析，并提出相应的防范思路。

一、侵犯公民个人信息罪的构成要件和定罪量刑标准概述

根据《刑法》及其相关司法解释，并结合个人信息保护相关法律法规、部门规章、相关国家标准和司法实践，在数据获取和使用情景下，构成侵犯公民个人信息罪的核心构成要件有四：

其一，窃取、非法获取或提供、出售给他人的信息属于“公民个人信息”，即“能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况”的数据信息；

其二，行为必须“违反国家有关规定”，包括法律、行政法规、部门规章；

其三，“提供给他人”中的“提供”，既包括向特定人提供，也包括通过信息网络或者其他途径发布；

其四，获取公民个人信息的行为属于“窃取或者以其他非法方法获取”，其中“其他非法方法获取”包括违反法律、行政法规、部门规章的购买、收受、交换、收集等行为。

关于侵犯公民个人信息罪的定罪量刑标准，《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》（法释〔2017〕10号，以下简称“2017年司法解释”）第五条、第六条对此进行了详细规定，此处不再赘述。

二、网络爬虫涉侵犯公民个人信息罪之风险分析

实施网络爬虫技术涉及侵犯公民个人信息罪的风险，主要源自以下四个方面。

其一，网络爬虫技术自身所具有的技术特性和能力，以及为了实施网络爬虫技术而使用的其他技术手段，使数据爬取行为的获罪风险较高。

从数量和速度上看，网络爬虫可以在短时间内获取大量数据，使得在数量规模上容易达到入罪标准。实践中，多数利用爬虫技术，非法获取公民个人信息，构成侵犯公民个人信息罪的案例，涉案个人信息条数都极高，往往达到十余万、数十万乃至百万级别。

从技术手段上看，虽然爬虫技术一般是中性的，但为了实现爬虫而实施的其他技术手段则可能是具有侵入性的，在特定场景下会直接影响数据获取行为的定性。由于网络爬虫具有短时间、大批量获取数据的能力，而获取数据实际上就是向存储数据的服务器发送数据请求，并接收服务器响应的数据的过程，因此服务器为了节省流量和保护对数据的控制，往往会采取反爬措施，致使数据爬取失败。此时，为了成功爬取数据，网络爬虫程序的编写和运行者往往会采取具有侵入性的、能够绕过或突破服务器反爬措施的技术手段，继续获取数据。由此，获取个人信息数据行为的手段可能具有非法性，同时还会影响司法对于“个人信息是否属于个人自行公开或者被合法公开”的判断，最终容易导致爬取行为构成犯罪。

例如，最高检《检察机关办理侵犯公民个人信息案件指引》在有关“窃取或以其他非法方法获取公民个人信息的证据审查”的规定中，将侵入信息网络、数据库时的IP地址、MAC地址、侵入工具、侵入痕迹等作为主要的证据类型。

又如，在《人民法院报》2018年6月21日刊登的《公民个人信息刑法保护的例外》一文中[1]，二审深圳中院将案件发回重审的主要理由在于，虽然企业公开信息中的自然人信息不受刑法保护，但是如果被告人获取自然人信息所使用的软件功能存在非法侵入、窃取功能，则表明行为人收集的自然人姓名及联系方式可能是窃取得来。在被告人辩称软件只能获取公开信息的情况下，相关事实不清，因而撤销原判，发回重审。

同时，数个判例也认定采取侵入手段实施爬取的行为构成“非法获取公民个人信息”。例如，利用钓鱼链接获取电商平台商家账号进入商家后台获取数据[2]、在电商平台页面植入url获取用户cookie进而获取个人信息数据[3]、使用黑客软件侵入邮局内部系统获取个人信息数据[4]、利用网站漏洞进入网站后台爬取数据等[5]。

事实上，网络爬虫、反爬虫和反反爬虫，其实是互联网行业中非常普遍的“技术攻防”行为，而这种技术层面上的普遍性无疑也暗含着实施网络爬虫触犯公民个人信息罪的较大风险。在涉及网络爬虫的非法获取计算机信息系统数据罪案例中，许多案例中数据获取的非法性，都在于爬取数据时使用了各种对抗反爬取措施的技术手段，最终被认定为构成绕过或突破计算机安全保护措施的行为。考虑到各大网站平台对个人信息保护的程度和方式都在不断提高和丰富，以个人信息为目标的数据爬取，很可能经常必须采取具有侵入性质的技术手段，从而导致涉嫌侵犯公民个人信息罪的风险随之提升。

其二，个人信息数据和网络安全法律规范众多，导致对于不同场景下的数据爬取行为和使用行为是否具有刑事违法性不易判断，增加了对数据爬取和使用行为的刑事风险进行控制的难度。

无论是爬取公民个人信息，还是使用爬取的公民个人信息，构成刑事犯罪的前提都必须是“违反国家有关规定”，即2017年《司法解释》第二条所明确的“法律、行政法规、部门规章有关公民个人信息保护的规定”。然而，无论是“法律、行政法规、部门规章”的范围，还是“有关个人信息保护”的范围，都比较宽泛，客观上为入罪提供了更多依据，同时也增加了识别和防范刑事风险的难度。

例如，关于爬取公开个人信息的问题，根据《个人信息保护法》第十三条、第二十七条和《民法典》第一千零三十六条均规定，合理处理个人自行公开的或者其他已经合法公开的信息，除非个人明确拒绝或侵害个人重大利益，否则无需取得个人同意，也不承担民事责任。因而爬取公开个人信息的行为似乎更不应认为具有刑事不法性，实践中也有检察机关据此建议公安撤案的报道[6]。但是，《网络安全法》第二十七条又同时规定，“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动”。同时，《个人信息保护法》第六条第二款也规定，“收集个人信息，应当限于实现处理目的的最小范围，不得过度收集个人信息”。那么，虽然爬取的是公开个人信息，但如果使用了具有侵入性的手段，或者数量过大、目的具有不正当性，是否一定不构成刑事犯罪，可能依然存在讨论的空间。

此外，相关法律法规自身条文规定的模糊性，进一步增加了防范刑事风险的难度。例如，如何判断前述《民法典》和《个人信息保护法》规定中的“合理处理”和“侵害个人重大利益”、“对个人利益有重大影响”，目前缺乏明确依据。此外《个人信息保护法》第六条还规定了处理个人信息数据应当具有“明确、合理的目的”，收集个人信息“应当限于实现处理目的的最小范围”。这些规定都对爬取和使用个人信息数据的行为定性有直接影响，可以成为入罪的重要依据，但具体衡量标准却仍然欠明确。这无疑也会使防范爬取数据刑事风险的难度加大，同时导致爬取和使用数据行为的刑事风险提高。

其三，在复杂的网络环境下，个人信息数据在不同的范围、以不同的形态和方式传输、存储和展示，使不同场景下的数据爬取和爬取后的使用行为的定性问题高度复杂，进而导致防范数据爬取行为风险的难度进一步提升。

在复杂的互联网环境中，信息数据的自身形态、传输方式、存储方式，在不同场景中可能存在较大差异。例如，在浏览器、手机APP等广义上的“用户端”的页面上展示出来的个人信息，一般是以文字、图片、音视频等可视、可读状态存在的。但在用户端页面的网页源代码、APP软件后台，以及各种API数据接口中以数据形态存在的个人信息，虽然最终是公开展示的，但用户难以实际接触，即便实际接触也不可读，只有专业技术人员方可浏览、理解和使用（如使用抓包软件或其他网络测试工具等）。另外，有些个人信息是只有取得相应权限，或在特定环境中才能查看或获取的，例如有些个人信息数据仅可在局域网查看或获取，有些则需要在企事业单位的内网环境中才能查看或获取，有些个人信息存储于网盘或者云文档中，通过链接或提取密码供特定或不特定主体在不同时效内查看和获取，有些权限高的用户可以查看和获取数据，而有些权限低的用户只能查看不能获取。这些诸多复杂情景，都使得对爬取个人信息行为的定性难度和争议程度大大提高。

从一些公开生效判决中，可以发现，在一些特定场景下，法院对于个人信息的公开场合、公开状态、行为人浏览和获取数据的权限等问题的认识可能存在差异，导致案件结论迥异。

例如，对于公司员工爬取在公司内网上存储的个人信息的行为，不同法院则持有不同观点。在余某某侵犯公民个人信息罪一案中[7]，法院认定，在公司不提供全员通讯录，员工不可能一目了然地获取数据，且获取数据时相关员工个人均不知情的情况下，员工利用自己的账号权限，违背公司内部有关规章制度，爬取公司内网上的大量员工个人信息，构成“窃取个人信息”的犯罪行为。而在李某侵犯公民个人信息罪一案中[8]，案件情况基本相同，法院作出的认定却与前案不同。法院认为，利用员工账号自身权限爬取公司内网上的客户信息并不构成“窃取”或“非法获取”，并明确认定“被告人作为公司员工，利用账号、密码登录公司系统，通过自动化软件收集公民个人信息的行为不具有非法性，并未违反国家有关规定”。

关于前述案例，在第一案中法院将违反公司内部有关制度，以及公司员工在个人信息被爬取时不知情，作为违法性的主要依据。虽然《民法典》第一千零三十五条规定，处理个人信息不应违反“双方约定”，但公司内部管理制度究竟是否属于“双方约定”存在疑问。同时，公司内网上的员工个人信息很有可能是员工主动公开或合法公开的，且员工必然知道数据具有被查看和获取的可能性，对此并未明确表示拒绝。此外，公司内部员工纯粹的获取行为，也不能断言必然侵害员工个人利益。而在第二案中，客户信息往往是公司在特定交易中获取的信息，对于客户信息的处理应当限于合理范围。即使客户本人以明示或者默示方式允许公司在内网中展示个人信息。参考最高检的指导性案例[9]，被告人作为公司员工是否必然有权以爬取方式获取客户信息，也存在讨论的空间。有观点认为，对于公司内网数据爬取的行为，可以依据《网络安全法》第二十条有关保护数据泄露的义务的规定，主张爬取行为影响公司履行相关义务[10]。但是影响公司履行法律义务，是否属于直接违反“有关个人信息保护的”法律、法规、规章的行为，可能还会存在不同意见。

可见，在公司内网等特殊互联网环境下，公民个人信息数据的来源和授权范围、数据的存在状态、数据访问和获取的途径与权限、对个人信息数据施加的管理和保护程度、爬取者的身份，以及爬取的具体技术手段，可能都会不同程度地影响行为的刑法定性。这些因素的共同作用，使这类案件呈现出比较明显的“场景化”特征，也使不同案件之间的可参照性相对较弱，客观上加大了防范刑事风险的难度。

其四，个人信息“可识别性”认定标准的模糊性，以及对个人信息“重识别”的诸多实现可能性，提升了防范刑事风险的难度。

作为侵犯公民个人信息罪的犯罪客体，公民个人信息的基本认定标准无疑是“可识别性”，也即“能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息”。但看似明确的定义，在实际应用时依然存在许多模糊空间。

常见的问题是，当具体案件中涉及的公民个人信息并不具有单独的可识别性，仅在与其他信息结合的情况下具有可识别性时，是否依然可以认定为侵犯公民个人信息罪所规定的“公民个人信息”?有观点认为，可以通过关联性的强弱、信息的重要性，以及行为人的主观目的来进行判断[11]。笔者虽然认同这一观点，但结合“去标识化”技术的实际情况，这一标准可能难以覆盖到全部情形。

根据《信息安全技术个人信息去标识化指南GB/T 37964-2019》，很多手段都可以实现“去标识化”的效果，但“去标识化”事实上只是改变了“标识化”的程度，而不能像“匿名化”一样彻底消除个人信息的可识别性。例如，加密技术作为一种“去标识化”手段，只是改变了个人信息的可读性，并不会去除个人信息数据中任何具有标识作用的部分或者内容。因而如果获取数据的一方掌握了解密方式，那么即便是处于加密状态的个人信息数据亦可能具有极强的可识别性。又如，屏蔽、删除、假名化、模糊化个人信息数据中的一些内容，也能起到“去标识化”的作用，但结合其他信息数据，依然可以恢复个人信息数据的“可识别性”，也即实现“重识别”。因此，除非直接实现彻底的“匿名化”，否则任何一种“去标识化”技术都难以彻底消除个人信息的“可识别性”，因而任何形式的“去标识化”技术都并不能完全消除刑事风险。

同时，对于大规模处理涉及具体个人信息数据的主体而言，即便某次爬取或者使用的是“去标识化”程度较高的个人信息数据，但如果与通过爬取或者以其他方式获取的数据相结合，如实施数据融合、碰撞等，或者采取解密等技术手段处理爬取的个人信息数据，则依然有可能使原先“可识别性”较低的信息数据完全或部分恢复“可识别性”，进而依然落入《刑法》的规制范围。

可见，在未彻底“匿名化”的情况下，个人信息数据本身“去标识化”的程度，“去标识化”的技术特征，以及行为人自身实现“重标识”技术能力或技术可能性，都可能会影响涉案数据是否构成公民个人信息的认定结论。而当认定结论存在较高不确定性时，防范刑事风险的难度也必然随即提升。

三、防范数据爬取行为的侵犯公民个人信息罪刑事风险的思路

基于以上分析，笔者认为，针对数据爬取和使用爬取的数据的场景，防范侵犯公民个人信息罪的刑事风险，可以从以下几个思路展开：

首先，在实施数据爬取前，应当尽可能确认不会爬取到个人信息数据，尤其是非向不特定公众公开的，真人不可见的，或纯数据格式的个人信息数据。同时应当避免从性质敏感的途径爬取与个人信息有关的数据，包括各类政府机关，学校医院等具有公共服务性质的单位，以及直接竞争对手的网站或互联网服务等。

其次，爬取可能构成个人信息的数据时，应尽可能确认爬取的环境处于不特定网络用户可自由进入和访问的公开网络环境。应当避免采取具有侵入性的技术手段，绕过或者突破被爬取方的反爬取措施获取数据。特别是当被爬取方升级反爬取措施时，应当避免采取更高程度的侵入性技术手段。

再次，通过爬虫获取可能或确实包含个人信息的数据时，应尽可能识别是否存在具有完全识别性或者部分识别性的个人信息，对其实施匿名化或者较高程度的去标识化处理，同时在处理和使用数据时，尽可能采取阅后即删的缓存等方式，应当避免长期或者永久性存储。

最后，在利用数据开展经营活动时，避免以外界可感知的方式使用数据，尤其避免直接使用爬取的数据或利用爬取的数据牟利或获取商业机会，如直接贩卖、交换，或提供付费API数据接口服务等。

注释：

[1] 吴心斌、温锦资：《公民个人信息刑法保护的例外》，《人民法院报》2018年6月21日。链接：http://rmfyb.chinacourt.org/paper/images/2018-06/21/07/2018062107_pdf.pdf

[2] （2019）京0115刑初570号谢某某等侵犯公民个人信息一审刑事判决书

[3] （2014）杭余刑初字第1231号黄某某、翁某某非法获取计算机信息系统数据、非法控制计算机信息系统罪一审刑事判决书

[4] （2016）内0402刑初396号肖某、周某、李某某、王某某、宋某某侵犯公民个人信息一审刑事判决书

[5] （2016）沪0101刑初196号张某某、姚某某非法获取公民个人信息一审刑事判决书

[6] 卢志坚、白翼轩、田竞：《出卖公开的企业信息牟利：检察机关认定行为人不构成犯罪》，《检察日报》2021年1月20日，第1版。

[7] （2017）浙0110刑初737号余某某侵犯公民个人信息罪一审刑事判决书

[8] （2019）京0112刑初62号李某侵犯公民个人信息一审刑事判决书

[9] 参见最高检第九批指导性案例“卫梦龙、龚旭、薛东东非法获取计算机信息系统数据案”（检例第36号）

[10] 刘艳红：《网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角》，《政治与法律》2019年第11期。

[11] 喻海松：《侵犯公民个人信息罪司法适用探微》，《中国应用法学》2017年第4期。

（图片来源 | 网络）

该文观点仅代表作者本人，知产力平台仅提供信息存储空间服务。

特稿 | 网络爬虫涉及侵犯公民个人信息罪之风险探析

下一篇