![你知道网络爬虫有哪些安全合规风险吗? 你知道网络爬虫有哪些安全合规风险吗?]()
网络爬虫(简称“爬虫”)源自Spider(或Crawler、robots)等的意译,是一种按照一定规则自动抓取网络上信息的程序或者脚本。在网络数字化时代的当下,网络爬虫已成为收集数据的常用手段,可以让企业或个人实现对互联网海量信息的快速采集。但是网络爬虫也会引发一系列的安全合规风险,爬虫在使用的过程中务必严守合规底线,安全审慎使用。
网络爬虫本质上一种自动化程序,按照一定规则自动抓取网络上的信息,从纯技术角度来看,爬虫技术本身是中立的。在(2021)最高法知民终1687号案中,最高法认为:即使爬虫技术曾被用于违法活动,但并不等于该项技术本身具有违法性。
对爬虫的不当使用会导致一系列的安全合规风险,可归纳总结为三类:爬虫行为是否合规、爬取的数据是否合规、爬取数据后使用是否合规。
一是因未对程序请求速率进行控制,导致被爬网站无法正常运行,这种情况可能违反《刑法》第二百八十六条,构成破坏计算机信息系统罪。《刑法》第二百八十六条 违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。也可能构成违反《网络数据安全管理条例》第十八条,网络数据处理者使用自动化工具访问、收集网络数据,应当评估对网络服务带来的影响,不得非法侵入他人网络,不得干扰网络服务正常运行。
二是未经数据主体授权同意,可能违反《数据安全法》第三十二条 任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据;违反《网络安全法》第四十一条 网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;违反《个人信息保护法》第五条和第六条 “处理个人信息应当遵循合法、正当、必要和诚信原则”,并“应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式”。
三是不遵守robots协议或故意绕开网站的防爬虫机制。爬虫协议(robots协议)是网站所有者在置于网站根目录下的文本文件robots.txt中记录哪些网页内容不应被抓取,哪些网页内容可以抓取,以提示拟对该网站进行爬取的爬虫程序,是对网络爬虫程序基于行业规范的一种前置约束, 本身不存在禁止或阻碍爬取数据的功能。
一是非法爬取商密数据,如果绕过技术限制爬取商密数据,可能存在违反《刑法》第二百一十九条构成侵犯商业密秘罪,具体内容“保密义务或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密的”。
二是非法爬取个人数据,可能会违法《个人信息保护法》,构成侵犯公民个人信息罪;
一是爬取的数据在使用过程中,对被爬取方构成了实质性的市场替代,可能构成违反《反不正当竞争法》第十二条第二款:“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
二是网站经营过程中,无论是网站自己上传的文章、图片或者是网站用户上传的内容,都有存在著作权保护的可能性,因此随意爬取上述受著作权保护的内容并加以使用,有可能侵犯著作权甚至涉嫌“侵犯著作权罪”,《刑法》第二百一十七条“未经著作权人许可,复制发行、通过信息网络向公众传播其文字作品、音乐、美术、视听作品、计算机软件及法律、行政法规规定的其他作品的”。
三是对爬取的个人信息进行非法买卖,对个人信息实施的出售、非法提供行为可能构成侵犯公民个人信息罪,《刑法》第二百五十三条之一“违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金”。
安全合规要求
|
具体内容 |
爬取行为方面 |
遵守被爬取方的 Robots 协议、反爬声明等内容 |
不能绕开、突破被爬取方设置的反爬措施 |
不能造成被爬取方网站的运行异常 |
爬取数据方面 |
严格控制数据爬取的范围,不超范围爬取采集 |
不得未经授权爬取对方的商业秘密的信息 |
不得在未经个人信息主体同意的情况下爬取公民个人信息 |
数据使用方面 |
不能利用爬取的数据实施不正当竞争行为 |
不能爬取、使用存在著作权的视频、音乐、文章等内容 |
不能对爬取的个人信息实施出售、非法提供等行为 |
原文始发于微信公众号(安全有术):你知道网络爬虫有哪些安全合规风险吗?
评论