168大数据

标题: 可视化探索是数据挖掘的基本功 [打印本页]

作者: bdhhs    时间: 2015-9-8 18:10
标题: 可视化探索是数据挖掘的基本功

在大数据时代下,有人把数据比喻为蕴藏能量的地下石油。但你知道石油的平均采收率指标么?你知道你所拥有的数据,其中的“地质储量“有多大么?你知道自己的”挖掘“方法能够实现的”开采量“么?通过这个一个形象的指标类比,我们可以知道,大数据的“大”需要你去理解和探索,而得到“有用”价值,需要掌握合适的挖掘方法!


数据挖掘作为大数据分析的核心技术,是指从大量数据中揭示出隐含的、先前未知的、有潜在价值的信息的反复过程。它主要采用人工智能、机器学习、模式识别、统计学等技术,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。


小白我不是这个领域的专家,但我很清楚“可视化探索”数据价值并不是一件很难的工作,很适合每个小白进入数据挖掘这个金领圈!当然掌握可视化只是我“野心”的第一步,呵呵!工欲善其事,必先利其器,我在互联网调研的结果是,专门做可视化的软件(Tableau等),基本找不到能用的版本,而且都没有数据挖掘的算法;而专门做数据挖掘的软件(SPSS等),有可视化和数据挖掘算法,但就是太丑了,不好操作;而SASRPython这些编程工具,学习和应用效率就更低了。最后锁定了一个国产软件,叫Smartbi的(主要看到有免费版,让小白我心动了一下),下载安装很容易,尤其可视化部分用了百度Echarts,简直令人欣喜!


下面是软件自带一些例子里的可视化效果,尤其“可视化探索”节点下有“交互视图”,可以在界面上随意选择X轴、Y轴和颜色字段,跟Tableau一样好操作。



专家诊病示例中的交互条形图(看见“动态重计算”没?)






专家诊病模型中的网络图(用来看相关性也不错嘛)





异常检测示例中的散点图(相关性很明显:有地就有钱?)




异常检测示例中的直方图(阀值很明显)






媒体分级示例中的饼图(去掉最大的cluster2,重新分析占比)






微博分析示例中的树状图(小白我看不懂,求解)





统计功能示例中的交互箱线图(以后可以分析股票喽)





文本挖掘示例中的词云(啥时候的数据,怎么大连这么火)




微博分析示例中的账号转发关系(全是互相捧场的)





时间序列示例中的线型图(应该是用来预测的吧)





产品销售的地图分析(看到“值域漫游”了没?)


这个数据挖掘软件里的可视化功能不如Tableau里多,里面还有个叫“提升图”的,没看到示例,不知道是什么东西,但基本上能覆盖我的需求了。最需要赞的是,个人免费版本里,还有很多数据处理的功能,这样以后对Excel的处理,也能顺手搞定(虽然现在还看不懂每个的意思)。以及这么多还看不懂的东东(貌似很牛的样子)!





工具算是找到了,我可以继续坚持自己的 “大道至简”观点,不是把模型、算法一直挂在嘴边的才是牛人,能够用图形把问题说清楚的,才能站在沟通的制高点上,毕竟一图解千言,专业的分析报告不是人人能看懂的!








欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2