最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

浅谈大数据建模

[复制链接]
跳转到指定楼层
楼主
发表于 2018-10-26 10:55:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2018-10-26 11:06 编辑

前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。

一.数据准备

二.执行探索性数据分析

三.建立初始模型

四.模型迭代构建

数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数据量大就好么?不是的,宁可要一小堆有潜质的矿石,我也不会去要山一样的土堆。在你数据量尽可能大的同时,一定要注意你的数据质量。数据质量一般体现在数据的时间维度,和数据粒度上。时间维度当然是越长越好,我们拿计算降雨量来看,如果你要预测一个地区未来一年的降雨量,你拿今年一年的数据去预测明年的数据,肯定没有我拿该地区过去一百年到现在的数据来预测明年降雨量客观。关于数据的粒度,很多人都会认为,数据"全"就是粒度小,或者是粒度细,我对此抱有不同看法。我认为数据粒度体现在数据的划分上,我们对现有数据的划分情况,方可体现数据的粒度,假如我们可以得到的数据量,和维度上是一样的,一个数据划分比较详细有很多数据关联,另一个划分很粗糙,那么结果不言而喻。

执行探索性数据分析:我们对数据划分,本身就是分析数据的一种体现,这个步骤可以让你理解数据,获得数据之间的关系,以及我们对于数据的直觉。当然我们对于数据的理解,和对于数据的直觉是简历在相关知识上的,如果你对现有数据一窍不通,你怎么去进行探索性数据分析呢?数据可视化,我认为是进行数据分析的关键。人脑无法与计算机相比,我们需要可视化的界面来展示数据,这样有利于我们对数据进行分析,像来自SAS,IBM,SAP或者QlikeTech和Tableau的可视化产品,它们已经商业化了。对于数据探索是永远不会停止的,我认为图形化数据是一个很好的方式,但是你可能会有更好,更适合你的方式。有一篇关于数据分析的文章,我记忆尤新的一句话,我也非常赞同作者的看法,那就是:要知道何时停止探索。要探讨这句话的意思,小编真的是停不下来,要知道何时停止探索,就是要明确你数据探索的标准,没有标准你怎么能在茫茫数据大海中捞针呢?

建立初始模型:这是一个至关重要的步骤,不管是否你对数据有深刻的研究,都不能跳过的一步。引用一下爱迪生的那句话“我并未失败,我刚刚发现了10000种不成功的方式”。除非你建立初始模型,否则你无法准确评价模型的潜在影响。决策树不失为一个好办法,实践是检验真理的唯一标准。

模型迭代构建:这应该是建模时间最长的一个阶段,也可以说没有时间终点的一个阶段。每一次的迭代都是一次实践的反馈,你要建立的模型是要经历不同的场景的,是一个“有故事”的模型,故事越多越好。通常是没有一个具体的评判标准来评判,你是否还有更好的建模,但是实际情况是,我们业务或者需求会有一个强制的时间窗口。就比如说,下个月客户就要你的清单,那么,你要做的就是在有限的时间里,不断地去迭代你的模型。
---------------------
作者:膨胀小宇宙
来源:CSDN
原文:https://blog.csdn.net/adgjlm111/article/details/72869981

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 23:37

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表