最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[产业] ​使用爬虫爬取数据的合规法律要点

[复制链接]
跳转到指定楼层
楼主
发表于 2019-10-29 20:29:15 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2019-10-29 20:30 编辑

作者:张春杰律师 来源:网络法律实务

大数据时代,众多的网站/APP将都其掌握的大量用户信息等数据视为核心竞争资源。
近年来,因争夺数据引发的纠纷屡见报端,如淘宝、微信屏蔽百度搜索,顺丰宣布关闭对菜鸟的数据接口,新浪与今日头条关于微博内容爬取的争议等。获取数据的方式,除了向用户收集、从第三方共享、受让外,还有一种使用爬虫爬取数据的方式。几乎每一家互联网公司都养着一只“蜘蛛侠”,百度蜘蛛叫Baiduspider,谷歌蜘蛛叫googlebot,360蜘蛛叫360Spider,这些蜘蛛每天都迅速地活跃在互联网上,不停地抓取互联网内容。网络爬虫如何爬取信息数据才是合法的?爬取数据时如何做到合规?本文将就这些问题进行逐一梳理。下图为本文内容的思维导图:
一、合法爬取
1.1 抓取背后的爬虫技术违法吗?爬虫作为一种计算机技术决定了它的中立性,爬虫本身在法律上并不被禁止,如果爬虫采集的是公开的数据则是可以的。当然操作不当,就可能涉及违法甚至是犯罪的风险。公开指的是对大众公开,对所有人公开的信息,并不是特定人群才能看到的信息。1.2 非商业网站的爬取如果爬取对象是提供公开查询服务的网站,如中国政府网、最高人民法院裁判文书网等,是可以抓取的。1.3 商业网站的爬取如果爬取对象是各类商业服务网站,这类网站没有设置反爬声明,也没有采取反爬技术措施的,则也是可以爬取的。1.4 有权爬取的注意事项如果一个商业服务网站或app既未设置反爬技术措施,也未公开反爬声明,也并不意味着可以随意抓取其相关数据。具体合规做法参见第六部分。
二、非法爬取
哪些情况下使用爬虫爬取数据是非法的呢?2.1 网站设置了反爬声明当网站声明了robots协议——即网络爬虫排除标准时,数据爬取方应当对robots.txt中所记载的禁止爬取范围进行规避,若不遵守该协议,则可能面临侵权纠纷或反不正当竞争之诉,需要赔偿商业损失。2.2 网站采取了反爬技术措施的如果被爬取的网站已经采取了一定的反爬技术措施,无论该技术是否高级有效,违反网站意愿,强行突破其反爬措施,都是非法的。2.3 网站非公开信息数据如果爬取的对方公司“内网”或后台内部数据,采集非公开的信息,则是违法的。2.4 网站受法律保护的信息或数据如对方网站合法收集的个人敏感信息、对方公司受到法律保护的特定类型的数据或信息等。2.5 其他非法情形如爬虫干扰了被访问网站的正常运营、侵犯商业秘密、构成不正当竞争的情形等,具体可以参见本文第六部分。
三、犯罪爬取
我国已有法律对网络爬虫进行规制主要集中在刑法有关计算机信息系统犯罪的相关条文第285条、第286条上。刑法规范的是对目标网站造成严重影响并具有社会危害性的数据抓取行为。3.1 非法侵入计算机信息系统罪、非法控制计算机信息系统罪比遵守反爬协议更重要的是,爬虫绝不能有绕过或突破被爬取方反爬技术的功能。根据我国最高法司法解释,专门用于侵入、非法控制计算机信息系统的程序、工具指的是:(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。如果爬虫具备绕过或突破对方反爬技术措施的功能,则极易被认定为侵入计算机信息系统的程序;如果在数据抓取过程中实施了非法控制行为,可能构成非法控制计算机信息系统罪。案例:元光公司“车来了”app为避免公交信息延迟、获取精准数据,破解了谷米公司的酷米客APP加密系统,并利用爬虫技术爬取了酷米客APP内实时数据。最终元光公司多名高管被依法追究刑事责任。3.2 非法获取计算机信息系统数据罪若行为人违反刑法的相关规定,通过网络爬虫访问收集一般网站所存储、处理或传输的数据,可能构成刑法中的非法获取计算机信息系统数据罪。(1)破解了对方服务器的防抓措施的案例:2017年,秀淘破解了今日头条服务器的防抓措施,使后者损失技术服务费两万元。最终法庭判决,涉事者因为触犯非法获取计算机信息系统数据罪,这是国内首起“爬虫入刑”案。(2)采用技术手段抓取被他人服务器中存储的视频数据,情节严重的,构成非法获取计算机信息系统数据罪。案例:上海晟品网络科技有限公司、侯明强等非法获取计算机信息系统数据罪案【北京海淀区人民法院(2017)京0108刑初2384号】(3)破解对方公司的防抓取措施,实施视频数据抓取行为案例:2019年初,北京市海淀区人民法院审结了一起利用“爬虫”技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用“爬虫”技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。最终海淀区法院以非法获取计算机信息系统数据罪分别判处被告单位罚金20万元,判处被告人张某等四人有期徒刑九个月至一年不等的刑罚及3万元至5万元不等的罚金。(4)2014年,“WIFI上网精灵”因为模拟“WIFI万能钥匙”软件用户,获取对方软件数据库内WIFI热点密码并进行解密保存,被上海市杨浦区人民检察院以非法获取计算机信息系统数据罪指控。3.3 破坏计算机信息系统罪如果使用网络爬虫频繁访问目标数据服务器,造成对目标网站的功能干扰,导致其访问流量增大、系统响应变缓,影响正常运营的,也可能构成破坏计算机信息系统罪。
四、相关法律法规及规定
4.1《中华人民共和国刑法》第二百八十五条 违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。第二百八十六条 违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,依照前款的规定处罚。故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的,依照第一款的规定处罚。单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照第一款的规定处罚。4.2 《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第二条具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。4.3 《数据安全管理办法(征求意见稿)》第十六条网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。4.4 《反不正当竞争法》第九条经营者不得实施下列侵犯商业秘密的行为:(一)以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密;(二)披露、使用或者允许他人使用以前项手段获取的权利人的商业秘密;(三)违反保密义务或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密;(四)教唆、引诱、帮助他人违反保密义务或者违反权利人有关保守商业秘密的要求,获取、披露、使用或者允许他人使用权利人的商业秘密。经营者以外的其他自然人、法人和非法人组织实施前款所列违法行为的,视为侵犯商业秘密。
五、反爬取措施
5.1 设置反爬声明可设置完善的Robots协议,并在用户协议中明确“为用户提供的是正常的访问服务,禁止用户实施以商业为目的的数据爬取行为”。5.2 采取反爬技术措施通过IP封锁、验证码、需要登录才能获得信息、访问频率、定时换样式/数据格式等技术保护措施,设置反爬虫防护墙。5.3 设置版权信息等对于不希望被爬取的内容,企业可增加相应的技术保护措施,准备合理的理由(如商业密码、著作权等)等方法。5.4 及时监控,积极维权如发现自身数据被爬取,及时通过民事诉讼、行政举报投诉、刑事等手段进行维权。
六、合法爬取的合规注意事项
6.1 区别数据性质首先要识别数据性质,是公开数据、半公开数据还是内部系统数据,只能爬取公开数据。6.2 选取可以抓取的网站如果网站或app既未设置反爬技术措施,也未公开反爬声明,是可以爬取的。6.3 遵守反爬虫协议如果目标网站有反爬虫协议,应严格遵守网站设置的 robots协议。案例:百度诉奇虎360案,法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告公司在推出搜索引擎的伊始阶段没有遵守原告网站的Robots协议,其行为不当,应承担相应的不利后果。6.4 爬虫行为不应妨碍网站的正常运行《数据安全管理办法(征求意见稿)》明确,自动化访问收集流量超过网站日均流量三分之一,即构成严重影响网站运行。购买火车票的网站12306、最高人民法院裁判文书网网站就经常因为第三方爬虫爬取数据而严重影响网站的正常运行。因此在使用爬虫时,需要优化自己的代码,避免干扰被访问网站的正常运行。6.5 抓取内容的限制策略在设置抓取策略时,应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据,或者针对某些特定网站批量抓取其中的用户生成内容;在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。对于内部系统数据,严格禁止侵入。6.6 防止不正当竞争对于双方商业模式相同或近似、获取对方的信息会对对方造成直接损害的,应重点予以防范。案例:1:大众点评诉百度不正当竞争案--应遵循诚实信用的原则和公认的商业道德2015年,“大众点评网”运营公司汉涛公司因百度未经许可,使用爬虫技术从汉涛公司运营的“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品,以“不正当竞争”为由将百度告上法庭。法院审理后,最终认定搜索引擎抓取涉案信息虽未违反Robots协议,但这并不意味着它可以任意使用这些信息,应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和方式。百度公司的行为损害了汉涛公司的利益,构成不正当竞争,需停止以不正当的方式使用点评信息。案例2:大众点评诉爱帮网案件--防止实质性替代“大众点评网”运营公司汉涛公司将竞争对手爱帮聚信(北京)科技有限公司诉至法院,认为爱帮公司经营的爱帮网通过大量复制大众点评网站内容,获取不当的浏览量和竞争优势,索赔人民币900万元。法院认为爱帮网的行为事实上造成爱帮网向网络用户提供的涉案点评内容对大众点评网的相应内容的市场替代,从而让原网站失去用户访问的价值,对汉涛公司的利益产生实质性损害。    案例3:酷米客诉车来了案实时公交查询 APP"酷米客",因后台大量信息数据遭盗取,而将同类产品"车来了"告上法庭,该案也被称为全国首宗"爬虫"软件案。深圳法院审理后认为,双方在提供实时公交信息查询软件的服务领域存在竞争关系。元光公司利用网络爬虫技术大量获取并且无偿使用谷米公司"酷米客"软件的实时公交信息数据的行为,实为一种"不劳而获""食人而肥"的行为。被告具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为自己谋取竞争优势的主观故意,违反了诚实信用原则,扰乱竞争秩序,构成不正当竞争行为,应当承担侵权责任。6.7 防止伤害对方实质性商业利益对于可爬取数据,如果系对方的核心化、批量式主营业务商业数据,应尽量避免以爬虫方式搜集,以免伤害到其实质性商业利益。(1)禁止商业比价的形成例如比价软件直接将各个平台的同类商品信息进行抓取并分析,实际上损害到一些电商公司的实质性商业利益。(2)以搜索链接的方式伤害对方实质性商业利益案例:视畅信息公司与央视网知识产权侵权案以搜索链接的方式传播开幕式节目,是建立在傍附本属原告市场资源的基础之上。被告在无需付出交易成本或付出交易成本甚微的条件下,即可凭借向公众提供与原告实时转播之开幕式节目相同的感官体验,获得与原告视频服务内容一致的竞争优势。被告行为已实质性地利用了原告享有权益的市场资源,打破原有的交易秩序,挤占原告的交易机会,并损害其竞争权益。
法律并不禁止技术创新与成果共享,但应以充分尊重他人合法权益为前提与边界。任何以技术名义损害他人商业利益的行为是无法获得法律的认同及肯定的。
对于使用网络爬虫这一技术的利用行为应注意做到合法合规,以免承担法律责任。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-14 20:19

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表