168大数据

标题: 爬虫采集的合规性与大数据处理的合规性 [打印本页]

作者: 168主编    时间: 2019-11-4 19:03
标题: 爬虫采集的合规性与大数据处理的合规性
作者:曾剑平
来源:互联网大数据处理技术与应用公众号


本公众号的推送以互联网大数据技术为主,涉及大数据采集、存储、分析挖掘的模型算法、隐私等技术问题,其特色为原创性、技术性

爬虫的合规性最近引起了广泛关注,包括人工智能、大数据在内的任何技术,其发展应用都会出现一些需要注意的合规性问题。各种网文都有所偏颇,作为大数据挖掘和安全的研究人员有必要写些观点、做些评论。

首先需要明确的概念是爬虫的合规性大数据的合规性。大数据技术包括了大数据采集、挖掘、存储、展示、共享、发布等许多环节,因此大数据的合规性包含这些环节的合规性,例如一些信息可不可以存在本地、可不可以分享给其他人等,爬虫只是进行Web数据采集。因此爬虫的合规性是大数据合规性中的一部分,但是目前网上关于爬虫的合规性,大都是看反了,把大数据挖掘、存储、共享中的合规性都归为爬虫的合规性,这种观点是错误的。

接下来,本文摘取了国家相关法律规范中可能与爬虫大数据采集合规性有关的条款,并做些分析,但只代表个人观点,不足之处请留言讨论。与爬虫大数据采集的相关规范和法律条款主要出现在《中华人民共和国网络安全法》、《个人信息安全规范》中。(这些条款也有助于大家关注自己的个人信息应该被他人怎么使用)

1、《中华人民共和国网络安全法》(实施日期2017年6月1日)
该法律涉及到关键信息基础设施的运营者、网络运营者、网络产品或者服务的提供者、个人和组织、和国家网信部门。其中,网络爬虫主要是对应于网络产品或者服务的提供者,为了更严格地审视爬虫合规性,我把网络运营者的相关条款也摘录出来。

第二十二条 网络产品、服务应当符合相关国家标准的强制性要求。网络产品、服务的提供者不得设置恶意程序;发现其网络产品、服务存在安全缺陷、漏洞等风险时,应当立即采取补救措施,按照规定及时告知用户并向有关主管部门报告。网络产品、服务的提供者应当为其产品、服务持续提供安全维护;在规定或者当事人约定的期限内,不得终止提供安全维护。网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;涉及用户个人信息的,还应当遵守本法和有关法律、行政法规关于个人信息保护的规定。


第二十七条 任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。


第四十一条 网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。
网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。

第四十二条 网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。

第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。

2、《个人信息安全规范》(《信息安全技术个人信息安全规范》),2018年5月1日实施。
本标准针对个人信息面临的安全问题,规范个人信息控制者在收集、保存、使用、共享、转让、公开披露等信息处理环节中的相关行为,旨在遏制个人信息非法收集、滥用、泄漏等乱象,最大程度地保障个人的合法权益和社会公共利益。

第七十六条
个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
同时该规范又给出一些个人信息的详细例子。
关于个人信息收集的合规性
5.2 收集个人信息的最小化要求
5.3 收集个人信息时的授权同意
5.4 征得授权同意的例外
以下情形中,个人信息控制者收集、使用个人信息无需征得个人信息主体的授权同意:

关于个人信息保存的合规性(隐私保护):
6.1 个人信息保存时间最小化
6.2 去标识化处理
10.2 开展个人信息安全影响评估
个人信息安全影响评估:匿名化或去标识化处理后的数据集重新识别出个人信息主体的风险;

关于个人信息的大数据挖掘使用的合规性
对所收集的个人信息进行加工处理而产生的信息,能够单独或与其他信息结合识别自然人个人身份,或者反映自然人个人活动情况的,应将其认定为个人信息。对其处理应遵循收集个人信息时获得的授权同意范围;
使用个人信息时,不得超出与收集个人信息时所声称的目的具有直接或合理关联的范围。

同时,需要注意的是,《信息安全技术 个人信息安全规范》于2019年6月公开向社会征求意见,正准备进行一些完善补充,应及时关注相关正规发布。

综上,我们可以看出在对于公开信息的采集并没有限制,但是在采集个人信息时有很多限制,在个人信息挖掘、存储和共享时也有不少限制。在设计爬虫大数据采集挖掘系统之前建议阅读,方案设计时要对合规性、采集性能进行适当的平衡,不能为了提高采集性能而忽视合规性。欢迎继续关注,将继续介绍如何编写合规爬虫等具体问题。

转载需注明:来源互联网大数据处理技术与应用公众号。






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2