最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

必看 | 深入浅出解读大数据挖掘

[复制链接]
跳转到指定楼层
楼主
发表于 2017-11-22 17:44:27 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
导读
随着时代的发展,人类产生的数据成倍增长,数据的开放性应用和数据可挖掘价值越来越高。在大数据精准营销、大数据洞察等一系列热词背后,正是数据挖掘、分析技术发挥着重要的作用。数据挖掘技术不仅成为当今政务部门提升治理能力的重要手段,也成为各行各业提升核心竞争力的关键。

什么是数据挖掘

数据挖掘是从大量的不完全的有噪声的模糊的随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。


可以看出,数据挖掘是一个过程结果的称谓,即主要目标是从数据中挖取隐藏的信息。它是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。

数据挖掘与商业智能的关系

举个简单点的例子:

  • 通过统计购买某产品的人大多数来自北京,则北京是该产品的主要消费者居住的城市,这就是用的商业智能技术。
  • 要从100000人中找出100个购买某产品概率比较大的客户,则可以通过利用统计方法建立数学模型找到这群人,而这就要用数据挖掘技术。


也就是说:

  • 商业智能就是目标明确的创建统计分析报表,根据统计结果,提供商业决策支持,输入的是数据,输出的是信息
  • 数据挖掘则是透过数据的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察或预测未知事项,输入的是数据,输出的是知识


数据挖掘能解决哪些问题

根据数据挖掘的应用方向,常见的数据挖掘能解决的问题体现在下面几个方面。

1. 分类与回归

分类根据样本数据中标记的类别对原数据进行分类总结,进而也可以预测未来数据的归类。
回归是确定一种或多种变量间相互依赖关系的一种统计分析方法。

分类与回归本质上解决的都是预测问题,不同的是分类适用于离散型目标变量的预测,而回归适用于连续型目标变量的预测。下面这些问题可以用分类和回归技术来解决:

  • 如何将信用卡申请人分为低、中、高风险群?
  • 如何预测银行可以安全地贷给贷款人的贷款量?
  • 如何有效预测房地产开发中存在的风险?
  • 如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务?
  • 如何预测具有某些特征的顾客是否会购买一台新的计算机?
  • 使用3G通信网络的手机用户哪些有可能转换到 4G通信网络?
  • 如何预测一位顾客在一次销售期间将花多少钱?
  • 如何预测病人应当接受三种具体治疗方案的哪一种?


下图是一个基于决策树预测银行客户是否存在贷款风险的示例:

2. 聚类

聚类是在预先不知道欲划分类的情况下,根据数据相似度原则进行数据归类的方法。

中国有句古话是“物以类聚,人以群分”,其实已经蕴含了聚类算法的基本思想。聚类能解决如下方面的问题:

  • 谁是银行信用卡的黄金客户?
  • 谁喜欢打国际长途,在什么时间,打到那里?
  • 如何对用户 WAP 上网行为进行分析,通过客户分群,进行精确营销?
  • 对住宅区进行聚类,确定自动提款机 ATM 的安放位置。
  • 如何通过一些特定的症状归纳某类特定的疾病?


例如下图,找到共性的数据,然后聚类显示:

3. 关联规则

关联规则在一个数据集中找出各个物品或者商品之间的关系,也被称为购物篮分析。

关联规则描述的是在一个事物中物品间同时出现的规律的知识模式,可以应用到很多实际业务中:

  • 哪些商品是已经购买商品 A 的人最有可能购买的?
  • 商业销售上,如何通过交叉销售,以得到更大的收入?
  • 保险方面,如何分析索赔要求,发现潜在的欺诈行为?
  • 银行方面,如何分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务?
  • 哪些制造零件和设备设置与故障事件关联?
  • 哪些病人和药物属性与结果关联?


下图是某商场购物蓝推荐结果示例:

4. 时间序列预测

通过已有的时间序列数据进行类推,以预测下一段时间的趋势。

时间序列预测是在与时间相关的历史数据中,找到数据随时间变动的规律。你可以用来解决如下问题:

  • 下个月的商品销量、销售额或库存量是多少?
  • 明天广州市的最高用电负荷是多少?


下图是某公司红酒销量的预测图:


5. 关系网络分析

关系网络分析用来探索社会行动者及其间的关系,例如:社会关系、亲属关系、角色关系、行为关系、流动关系、地理空间关系等等。

关系网络分析也叫社会网络分析。通过社会网络分析,可以探索和发现行动者之间隐藏的关系。常见的关系有:

  • 亲属关系:父母、子女、夫妻关系等。
  • 正式关系(权威关系):正式角色也是关系性的,如老板/职员、教师/学生、医生/病人关系等。
  • 个人之间的评价关系:喜欢、信任、尊重等。
  • 行为上的互动关系:行动者之间的自然交往,如谈话、参加会议、拜访、提建议等。
  • 隶属关系:如参加一项协会、属于某些俱乐部等。
  • 物质资本的传递:商业往来、物资交流。
  • 非物质资源的转换关系:行动者之间的交往、信息的交换等。
  • 空间关联:城市之间的关系,迁入和迁出。
  • 职位的升迁,地位的流动。


下面是对《悲惨世界》一书中人物的关系网络分析的一个示例:




来源: 亿信华辰


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 11:33

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表