最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[头条] 爬虫:对不起,数据的锅我不背

[复制链接]
跳转到指定楼层
楼主
发表于 2019-11-4 19:15:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:赵永川
来源:互联网架构师养成计划公众号

信用圈的朋友们都知道,最近接连几家搞信用数据的公司连续被强力监管。我们回顾一下事件发生的顺序:

9月6日,摩羯科技打头炮扑街,CEO周江翔被调查;
同日,新颜科技扑街,CEO黄向前被调查;
9月11日,公信宝(杭州存信数据科技)扑街
9月12日,天翼征信(中国电信控股子公司)被传出扑街
9月19日,杭州 信用管家 扑街……

相信随着时间的推移,会有越来越多的数据信用公司出现在公众视野,大家也终于发现了所有的数据被哪些商业公司掌握。

无一例外,这些商业公司都声称自己的数据是使用互联网爬虫技术爬过来的,或者是经过用户授权采集的。其实这个理由想想就觉得好笑。互联网那点儿公开的数据有多少,他们心知肚明,你是怎么获取用户在各个电商、社交、支付平台的交易、通讯、支付、消费数据心理没点儿*数吗?

笔者在这里,就是要揭露所谓的“爬虫”爬来的数据的真相,让这些商业公司企图通过“爬虫”当白手套,“洗白”黑产数据的过程做一个介绍。

一、用消费者(借贷者)急于成交的心理,超范围采集数据。

在大部分P2P或者现金贷平台,为了做风控,在用户注册或者借款的时候都要求用户勾选“同意”相关的数据采集规则,这里面有两种做法。

第①种是比较合规的平台,明确告知用户采集的范围(哪些属性和字段),并告知使用的方式、保存的方式。但是对于这类协议,又臭又长,用户根本没耐心看,也往往看不懂(充满了晦涩的法律词汇,不说人话),所以就点了同意。

第②种,挂羊头卖狗肉,说的是采集A,其实是去采集B。因为往往用户同意之后,就需要用户自己拿手机去扫描二维码或者是把短信验证码发给这些平台,平台拿到这些东西后就好比拿到了宝藏库的门钥匙,进去之后想拿什么就拿什么,客户完全没有办法控制。

二、利用黑产数据

这个也是目前信用数据公司最用力遮掩的部分。其实大家都知道,光靠用户同意和授权采集,加上互联网公开的数据,是没有办法对用户的信用体系做出完整的评估和画像的,必须从以下几个维度同时采集数据,比如网络电商的订单、某支付软件的信用分、银行信用卡的使用情况、真实的学历信息、社交情况(身边的人的上述购买、支付、信用卡等经济情况)、所在的地理位置(是不是集中在诈骗爆发的区域)、手机号使用的时间长短、年龄、甚至身体健康状况、住房状况、出行状况(是否有车)。

这些数据不可能只从1-2家电商平台和移动通信平台获得。所以必须要使用部分非法获得的数据(这也是为什么这次这么多家数据信用平台被查的主要原因)。所以为了避免使用不合法数据产生的法律后果,这些平台不得不以“爬虫”的名义洗白这些非法数据,让数据源合法化,来保证自己不被监管。

当然,这里面也不乏一些技术实力比较雄厚的公司,真的有办法突破上述平台的防卫机制,能将数据从平台扒下来(不过这么做也是非法的,因为没经过用户和平台双方授权的采集数据是违法行为)。

最害怕的是数据信用平台和电商、P2P、现金贷等互联网应用平台双方达成一致,通过互换数据形成某种互动机制,从而抵消双方的一些费用,这其实是一起把消费者(客户)的利益直接坑了。

三、霸道直接收集客户手机数据

之前的“养卡”行业就是利用了这一点。因为大部分的P2P、现金贷平台在客户注册或者“借款”的时机都会强制要求读取客户的“通讯录”、“电话沟通记录”和“短信记录”,如果不同意,就直接退出,不让客户继续使用。因此很多黑产看中了这个机会,开始蓄意制造一些假象,在购买新手机号之后,伪造很多假的联系人、假的通话记录、假的短信记录,在“养卡”半年之后,利用该张卡对金融平台进行骗贷活动。但是在大部分的情况下,善意客户的信息就直接被平台收走了。金融平台拿到这些数据之后,如果和数据信用平台进行数据交换,则损害了用户的利益。

四、无处不在的oAuth授权登录

oAuth本来是一种善意的技术,就是让用户不用注册某个平台A的情况下,使用平台B的账户登录。比如大家经常看到某些应用平台,可以使用微信、QQ或者微博的账号直接登录,就是这种技术。这种技术目前也被滥用。本来oAuth的使用,是限定获取数据的字段,并且必须取得用户的授权。但是大部分的网站使用微信登录(微信做的还算好),上来就是获取微信昵称、头像、微信号和性别。基本上把微信可以做的数据都拿光了。还更有厉害的,oAuth认证之后强制用户再绑定一遍手机,不绑定不让用,那这意味着直接可以把微信号和用户的姓名、手机都对应了起来,所有数据都全了。

以上总总手段和措施,试问哪个数据信用公司敢直接承认?所以,这个锅也只能甩给爬虫了。可怜的爬虫,表示,我很无辜。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-2 15:12

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表