最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Smartbi数据挖掘示例--异常诊断

[复制链接]
跳转到指定楼层
楼主
发表于 2015-8-11 19:52:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
该案例介绍是聚类算法的另外一种灵活运用。采用的是聚类的思想对异常对象进行判断,主要思想是这样的:首先,我们使用聚类算法将对象(每条记录为一个对象)分成两类,其次,计算每一个对象到类中心的距离,距离类中小较远的点即为异常点。工作流如下:

1、商业目标

业务理解:该案例所用的数据是一份关于农业补贴的数据,如下:




表1:数据视图
其中,农业补贴数据包括住户姓名、所在区域、拥有田地的大小、降雨量、田地质量水平、田地收入、主要农作物、申请补贴的类型和申请补贴的金额。
业务目标:分析哪些住户领用补贴存在异常,并输出可疑的名单。
数据挖掘目标:建立异常检测模型,输出可疑名单。

注:该案例是一个典型的以业务驱动为核心的数据挖掘项目。此案例从业务入手,探索分析思路,比如,从领用次数来看,正常情况下每户都会一次领用全部补贴,因此如果领用次数在2次以上的住户即可认为存在可疑。其次,每家的田地收入主要有两方面来源,一个是农作物收入,一个是农业补贴收入。因此,如果田地收入明显超出预计田地收入,则很可能是过多的领用农业补贴。另外,判断领用是否可疑的更直接的办法是直接判断申请的补贴金额是否过多。最后,我们采用聚类算法判断异常。根据以上四个思路展开以下分析。
2、领用次数异常分析


第一步,使用平面文件节点或者CSV导入节点读取农业补贴数据。


第二步,使用计数节点统计每个住户领用的次数。由于


第三步,使用行过滤节点筛选出领用次数大于1的名单。节点配置如下:


过滤后的结果如下:


第四步,使用列重命名节点将count重命名为领用次数。配置如下:


第五步,使用交互表格节点输出领用次数异常名单:


表2:可疑名单13、田地收入异常分析


分析田地收入是否存在异常的核心就是估计每个住户的预计田地收入,计算实际田地收入与预计田地收入的差异。
如何计算预计田地收入呢?如果有明确的规则可以直接计算出每个住户的田地收入,则可以直接与实际值对比,但是由于田地收入所受影响因素较多,比如降雨量、土地质量、种植的农作物等,所以很难计算出准确的预计值。不过,我们可以估计一个值,这里是通过强相关的原理,计算一个与预计田地收入强相关的变量,以此变量作为预计田地收入。而这里强相关的变量可疑使用使用田地收入的主要影响因素相乘(降雨量、田地质量、田地大小)得到。

操作如下:
第一步,使用基于规则行过滤节点去除已经排除的两个住户。节点配置如下:





第二步,使用Java代码段(简单)节点生成预期收入字段。节点配置如下:


第三步,使用散点图节点验证预计收入和实际田地收入的相关性。如下图中所示,两个变量之间呈强正相关性,这验证了我们计算预计收入方法的合理性:


图1:预计收入和实际田地收入相关性分析
第四步,使用Java代码段(简单)节点生成偏移字段,计算实际田地收入和预计收入的差异。节点配置如下:


第五步,使用直方图看偏移的分布趋势,直方图配置如下:


从执行结果可以看出,偏移字段有少数分布在尾部,这些即是偏移较大的对象,也就是可疑对象,如下图所示:


第六步,输出可疑名单。
首先,使用行过滤节点筛选出偏移大于20的记录。配置如下:


其次,使用交互表格节点查看可疑名单。如下:


第七步,分析偏移的分布,及与申请类型的相关性。
在这里,我们使用直方图节点可视化发现,节点配置如下所示:


由执行后的结果可见,申请类型为B的偏移都在20以内(如下图所示),这说明这类申请类型应该不存在欺诈,由此可以再从业务中印证是否这种申请类型的规定没有漏洞,本身就无漏洞可钻,如果确实是,我们就没有必要再分析这种申请类型。


图2:偏移直方图分布4、申请金额异常分析


分析申请金额是否存在异常的核心就是估计每个住户的预计申请金额,计算实际申请金额与预计申请金额的差异。
如何计算预计申请金额呢?这里我们不能重复使用上一节使用的方法,因为这里我们没有合适的与申请金额强相关的变量。因此,我们采用了另外一个办法,就是使用预测模型,根据输入变量预测每个住户的申请金额,以模型预测值作为申请金额的估计值。
另外,在上一节中分析得出了以下结论:如图2所示,申请类型B不易进行欺诈。因此,我们接下来可以放弃对申请类型B的分析。
操作如下:
第一步,使用行过滤节点和名义值行过滤节点过滤申请类型为B的住户。节点配置如下:


第二步,使用列过滤节点过滤不适合参与建模的字段。节点配置如下:


第三步,使用线性回归算法建立以申请金额为目标的预测模型。节点配置如下:




第四步,使用数值评估节点评估训练模型的准确性。评估结果如下:


第五步,使用Java代码段(简单)节点派生申请金额差异字段。节点配置如下:


第六步,可视化分析。
首先,使用直方图节点可视化发现,节点配置如下所示:


结果展示如下:


第七步,生成可疑名单。
首先,使用行过滤节点筛选出申请金额差异大于20的住户。节点配置如下:


其次,使用交互表格节点查询可疑名单,如下所示:


表4:可疑名单35、聚类法异常分析


第一步,使用计算距离矩阵节点计算距离矩阵。节点配置如下:


第二步,计算类中心。
首先,使用列过滤节点过滤掉其余变量,仅保留表示距离矩阵的Distance字段。


其次,使用K-Mediods算法计算类中小。配置如下:


执行后,右击聚类节点,选择查看"中心和大小",弹出如下窗口:


即两个类中心分别是id812和id805。


第三步,使用距离矩阵对提取节点计算类中心到每条记录的距离,节点配置如下:


第四步,生成到类中心id805的最远记录名单。
首先,使用行过滤节点仅保留类中心id805。节点配置如下:


其次,使用排序节点对distance字段进行降序排列,配置如下:


然后,再次使用行过滤节点筛选距离大于600000的记录,节点配置如下:

第五步,同理生成到类中心id812的最远记录名单。


第六步,生成可疑名单4。
首先,使用追加节点(默认配置)将两个类中的可疑对象合并到一起。
其次,使用交互表格节点查询可疑名单,并定义为可疑名单4。如下图所示:

6、小结

以上我们用了四种方法去发现异常,得到了四个可疑名单。而这四个名单中重复度越高的对象,可疑性越大。另外,我们最终输出的可疑名单,应该以上四个名单的并集。还有一点要注意的是,我们做异常分析,诊断的是可疑人员,而不是欺诈分子。我们通过数据挖掘的技术只是将搜索的范围尽可能缩小了,降低了搜索的难度,这只是完成了抓欺诈分子的第一步,接下来要从更多的方面去求证,判断名单中的人是不是存在欺诈。


本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599862



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-16 08:40

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表