Skip to content

数据爬虫的罪与罚

推荐阅读

汇总

专业人士意见

制度/法规

禁区

请确保没有违反以下禁区。

关于爬虫

robots 协议

互联网搜索引擎服务自律公约

第七条 遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。

机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。

网络机器人(Web robots也叫网络游客、爬虫程序、蜘蛛程序),是自动爬行网络的程序。搜索引擎利用这些程序索引网站内容,垃圾邮件发送者使用网络机器人扫描获取电子邮件地址,网络机器人还有很多其他用途。

第八条 互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

至于robots协议是否构成网站运营者与爬虫控制者之间有约束力的合同,目前尚未看到有关于此的司法认定。

娜娜别惹铁拳

  • 请勿 招惹 以下的任何计算机信息系统!

Details

千万别惹那群 撅起屁股让美国佬捅白帽测试一下就送进套房 的家伙。我没有说是谁吧自己猜。

—— 乌云和++250的教训历历在目。

案例:

非法获取计算机信息系统数据罪

txt
直到今天,并没有司法解释去区别什么是符合”避开或者突破计算机信息系统安全保护措施“的行为。
txt
"你是犯了什么事进来的?"强奸犯问我。
"写了个爬虫程序。"我回答。
"判了多久?"
"三年。"

强奸犯哈哈大笑:"巧了,我也是三年!"
杀人犯从旁边探出头:"我也是三年!"
贪污犯插嘴:"真巧,我也是三年!"

我困惑地问:"你们犯的事都不一样,怎么刑期都一样?"

这时候老狱警慢悠悠地说:"因为监狱的床铺是按三年一个批次采购的,刑期必须配合政府采购计划。"

强奸犯拍拍我肩膀:"同志,这说明你的爬虫和我们强奸杀人一样危害社会啊!"
杀人犯补充:"不对,应该说我们的强奸杀人跟你写爬虫一样危害轻微。"

老狱警点头:"准确地说,是监狱的仓储管理系统只能处理三年这个数字,改判其他年限会导致系统崩溃。"

请勿使用 麻瓜们所认为 的 ”具有(?)避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权……“ 的技术。

  • 请勿绕过 麻瓜们所认为保护措施
关于js逆向

负面案例

正面舆论
Emmm....

如果你非得使用js逆向,那么请将其解耦到命令行参数中,而不是硬编码在 crawler 脚本内(不要写在公共代码库中)。

破坏计算机信息系统罪

罪の口袋

ps: 请问一下,对方后端但凡 logger.debug(request.header) 属不属于”爬虫程序增加了处理的数据“。

案例:

https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China/tree/master?tab=readme-ov-file#爬虫禁区4目标网站因爬虫宕机造成严重后果

侵犯公民个人信息罪

    • 《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》所称“身份认证信息”,是指用于确认用户在计算机信息系统上操作权限的数据,包括账号、口令、密码、数字证书等
《民法典》第一千零三十六条规定

第一千零三十六条 处理个人信息,有下列情形之一的,行为人不承担民事责任:

(一)在该自然人或者其监护人同意的范围内合理实施的行为;

(二)合理处理该自然人自行公开的或者其他已经合法公开的信息,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外;

(三)为维护公共利益或者该自然人合法权益,合理实施的其他行为。

”未经被收集者同意,将合法收集的公民个人信息向他人提供“ 也可能构成犯罪

依据《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第三条:

第三条 向特定人提供公民个人信息,以及通过信息网络或者其他途径发布公民个人信息的,应当认定为刑法第二百五十三条之一规定的“提供公民个人信息”。

未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条之一规定的“提供公民个人信息”,但是经过处理无法识别特定个人且不能复原的除外

下文节选自 《刑法规制爬取数据行为的误区与正解》

本站发表时间:[2022-12-15] 来源:人民法院报 作者:陈峰

……

(二)数据状态影响犯罪成立

按照法秩序统一规则,数据公开能够起到阻却刑事违法的效能。民法典第一千零三十六条将合法公开作为处理个人信息的免责事由,既然公开可以阻却民事违法,那它当然可以阻却刑事违法。同时,自行公开数据意味着数据权利人作出了允许他人访问、获取数据的承诺。按照“被害人承诺”理论,公开数据会导致刑法保护法益阙如,刑法介入必要性丧失。归言之,“公开”能够成为爬取数据行为构罪的违法阻却事由。此处的“公开”是指信息内容的公开,而非承载信息内容的数据代码的公开。试图以数据代码未公开否定信息公开的违法阻却功能的裁判思路并不值得提倡。因为数据的真正价值在于信息内容而非代码,数据信息内容的公开才会使数据价值受到真正折损,而且司法解释对非法获取计算机信息系统数据罪的罪量标准设置也是以信息内容为基准的。

虽然刑法规制爬取数据行为具有严苛条件,但并不意味着刑法无用武之地:当爬取的数据是公民个人信息时,爬取数据行为可能构成侵犯公民个人信息罪;当爬取的数据是具有著作权的数据或商业秘密时,该行为可能构成侵犯著作权罪或侵犯商业秘密罪;当网络爬虫中嵌入能够突破计算机信息系统安全保护措施的技术并爬取足量数据时,则该行为可能构成非法获取计算机信息系统数据罪;当网络爬虫的爬取速率造成网络堵塞甚至瘫痪时,该行为则可能构成破坏计算机信息系统罪。

(作者系西南政法大学博士研究生、重庆市第二中级人民法院法官助理)

案例:

提供侵入、非法控制计算机信息系统程序、工具罪

    • 因为”第三方可能被黑灰产用于侵入“的话,你也就符合了正在提供用于侵入的平台或程序。
    • 尤其是打码平台。

案例:

侵犯著作权罪或侵犯商业秘密罪

案例: