马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
作者:赵永川 来源:互联网架构师养成计划公众号
信用圈的朋友们都知道,最近接连几家搞信用数据的公司连续被强力监管。我们回顾一下事件发生的顺序:
9月6日,摩羯科技打头炮扑街,CEO周江翔被调查;
同日,新颜科技扑街,CEO黄向前被调查; 9月11日,公信宝(杭州存信数据科技)扑街 9月12日,天翼征信(中国电信控股子公司)被传出扑街 9月19日,杭州 信用管家 扑街……
相信随着时间的推移,会有越来越多的数据信用公司出现在公众视野,大家也终于发现了所有的数据被哪些商业公司掌握。
无一例外,这些商业公司都声称自己的数据是使用互联网爬虫技术爬过来的,或者是经过用户授权采集的。其实这个理由想想就觉得好笑。互联网那点儿公开的数据有多少,他们心知肚明,你是怎么获取用户在各个电商、社交、支付平台的交易、通讯、支付、消费数据心理没点儿*数吗?
笔者在这里,就是要揭露所谓的“爬虫”爬来的数据的真相,让这些商业公司企图通过“爬虫”当白手套,“洗白”黑产数据的过程做一个介绍。 利
一、用消费者(借贷者)急于成交的心理,超范围采集数据。
在大部分P2P或者现金贷平台,为了做风控,在用户注册或者借款的时候都要求用户勾选“同意”相关的数据采集规则,这里面有两种做法。
第①种是比较合规的平台,明确告知用户采集的范围(哪些属性和字段),并告知使用的方式、保存的方式。但是对于这类协议,又臭又长,用户根本没耐心看,也往往看不懂(充满了晦涩的法律词汇,不说人话),所以就点了同意。
第②种,挂羊头卖狗肉,说的是采集A,其实是去采集B。因为往往用户同意之后,就需要用户自己拿手机去扫描二维码或者是把短信验证码发给这些平台,平台拿到这些东西后就好比拿到了宝藏库的门钥匙,进去之后想拿什么就拿什么,客户完全没有办法控制。
二、利用黑产数据
这个也是目前信用数据公司最用力遮掩的部分。其实大家都知道,光靠用户同意和授权采集,加上互联网公开的数据,是没有办法对用户的信用体系做出完整的评估和画像的,必须从以下几个维度同时采集数据,比如网络电商的订单、某支付软件的信用分、银行信用卡的使用情况、真实的学历信息、社交情况(身边的人的上述购买、支付、信用卡等经济情况)、所在的地理位置(是不是集中在诈骗爆发的区域)、手机号使用的时间长短、年龄、甚至身体健康状况、住房状况、出行状况(是否有车)。
这些数据不可能只从1-2家电商平台和移动通信平台获得。所以必须要使用部分非法获得的数据(这也是为什么这次这么多家数据信用平台被查的主要原因)。所以为了避免使用不合法数据产生的法律后果,这些平台不得不以“爬虫”的名义洗白这些非法数据,让数据源合法化,来保证自己不被监管。
当然,这里面也不乏一些技术实力比较雄厚的公司,真的有办法突破上述平台的防卫机制,能将数据从平台扒下来(不过这么做也是非法的,因为没经过用户和平台双方授权的采集数据是违法行为)。
最害怕的是数据信用平台和电商、P2P、现金贷等互联网应用平台双方达成一致,通过互换数据形成某种互动机制,从而抵消双方的一些费用,这其实是一起把消费者(客户)的利益直接坑了。
三、霸道直接收集客户手机数据
之前的“养卡”行业就是利用了这一点。因为大部分的P2P、现金贷平台在客户注册或者“借款”的时机都会强制要求读取客户的“通讯录”、“电话沟通记录”和“短信记录”,如果不同意,就直接退出,不让客户继续使用。因此很多黑产看中了这个机会,开始蓄意制造一些假象,在购买新手机号之后,伪造很多假的联系人、假的通话记录、假的短信记录,在“养卡”半年之后,利用该张卡对金融平台进行骗贷活动。但是在大部分的情况下,善意客户的信息就直接被平台收走了。金融平台拿到这些数据之后,如果和数据信用平台进行数据交换,则损害了用户的利益。
四、无处不在的oAuth授权登录
oAuth本来是一种善意的技术,就是让用户不用注册某个平台A的情况下,使用平台B的账户登录。比如大家经常看到某些应用平台,可以使用微信、QQ或者微博的账号直接登录,就是这种技术。这种技术目前也被滥用。本来oAuth的使用,是限定获取数据的字段,并且必须取得用户的授权。但是大部分的网站使用微信登录(微信做的还算好),上来就是获取微信昵称、头像、微信号和性别。基本上把微信可以做的数据都拿光了。还更有厉害的,oAuth认证之后强制用户再绑定一遍手机,不绑定不让用,那这意味着直接可以把微信号和用户的姓名、手机都对应了起来,所有数据都全了。
以上总总手段和措施,试问哪个数据信用公司敢直接承认?所以,这个锅也只能甩给爬虫了。可怜的爬虫,表示,我很无辜。
|