马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
下面以一个汽车销售的案例来介绍聚类分析在市场细分中的应用。
1、商业目标
业务理解:数据名称《汽车销售.csv》。该案例所用的数据是一份关于汽车的数据,该数据文件包含销售值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从 edmunds.com 和制造商处获得。定价为美国本土售价。如下:
表1:数据视图
业务目标:对市场进行准确定位,为汽车的设计和市场份额预测提供参考。
数据挖掘目标:通过聚类的方式对现有的车型进行分类。
2、数据准备
通过数据探索对数据的质量和字段的分布进行了解,并排除有问题的行或者列优化数据质量。
第一步,我们使用统计节点审核数据的质量,从审核结果中我们发现存在缺失的数据,如下图所示:
第二步,对缺失的数据进行处理,我们选择使用缺失填充节点删除这些记录。配置如下:
3、建模
我们选择层次聚类进行分析,尝试根据各种汽车的销售量、价格、引擎、马力、轴距、车宽、车长、制动、排量、油耗等指标对其分类。
因为层次聚类不能自动确定分类数量,因此需要我们以自定义的方式规定最后聚类的类别数。层次聚类节点配置如下(默认配置):
可以使用交互表或者右击层次聚类节点查看聚类的结果,如下图所示:
再使用饼图查看每个类的大小。饼图配置如下:
结果如下:
从图中可见,分成的三个类样本数差异太大,cluster_0和cluster_1包含的样本数都只有1,这样的分类是没有意义的,因此需要重新分类。我们尝试在层次聚类节点的配置中指定新的聚类方法:完全。新的聚类样本数分布如下:
cluster_0、 cluster_1、cluster_2的样本数分别为:50、9、93。
执行后输出树状/冰柱图,可以从上往下看,一开始是一大类,往下走就分成了两类,越往下分的类越多,最后细分到每一个记录是一类,如下所示:
我们可以再使用条形图查看每类的销售量、平均价格,如下图所示:
每类总销量分布图
每类平均销量分布图
每类平均价格分布图
我们再看一下每类的销售额分布情况。首先,我们需要使用Java代码段(简单)节点派生销售额字段,配置如下:
再使用饼图查看销售额分布情况,cluster_0、 cluster_1、cluster_2的市场份额分别为:32.39%、0.53%和67.08%,如下图所示:
4、小结通过这个案例,大家可以发现聚类分析确实很简单。进行聚类计算后,主要通过图形化探索的方式评估聚类合理性,以及在确定聚类后,分析每类的特征。 本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599852
|