最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

闲聊4年大数据经历

[复制链接]
跳转到指定楼层
楼主
发表于 2017-10-29 14:40:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
0x00 前言周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。
0x01 大数据
“什么是大数据?”
这个问题其实挺难回答的,因为随着技术和时代的变化,一些名词总是被赋予不同的概念,大数据也是,在居士的认知历程中,大数据的概念在某个时期有很广的含义,然后过了一段时间之后,就被划分出来了一些,然后又被划分出来一些,不知道以后还会是什么样子。
居士在这里聊一下自己对于大数据不同阶段的认识。
2013年初2013年初,刚接触大数据的概念,当时最火的一本书是《大数据时代》,现在在京东还可以买到。居士就是从这本书入门的,那个时候自己在看各种书和文章的时候,能获取到的知识就是大数据是一个范围很广的概念,它包括数据挖掘、机器学习、大规模数据处理、数据分析、据可视化、分布式系统等一系列的内容,总之凡是和数据相关的名词都属于大数据,和数据相关的技术也都数据大数据。
身边一下子多了好多都是搞大数据的,所有的公司也都是在搞大数据的。
2014年到2015年2013年初的时候,居士深度接触了大数据的相关技术,诸如hadoopSpark、Kafka,然后逐渐明白了大数据原来有数据挖掘、数据分析、大数据开发和数据可视化这一堆方向。
那个时候读研,负责大三学弟学妹们的《大数据导论》课程的助教工作,在实验室负责100左右的大数据集群,装装Hadoop、Spark,搞些数据集,布置布置大数据的实验作业,教教同学们装环境和写程序。
那个时候居士的工作中心主要放在了大数据运维和开发上,就是这份经历,基本奠定了后续工作的主旋律。
2016年初然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一大部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。身边很多小伙伴都开始说要转行做数据挖掘了。那个时候感觉,大数据就像是正在消退的云计算的概念一样。
在那个时候,自己对大数据的理解分为三部分:
  • 大数据运维:集群安装和维护
  • 大数据开发(ETL方向):数据流开发,比如数据清洗,实时数据处理
  • 大数据开发(系统方向):数据系统开发,比如报表系统,推荐系统
2016年中在这个阶段,居士接触了数据仓库这一概念,然后感觉对大数据的理解一下打开了不少。
先随便聊一下数据仓库,概念就不聊了,只谈一下大致的理解,数据仓库代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。比如元数据管理、维度建模、OLAP分析、ETL。
我们所谓的大数据更多的是一种数据量级的增大和工具的上的更新,因此很多的开源大数据组件可以划分到数据仓库的ETL中。
我们换一个角度理解,数据量的爆发,其实也更新了数据仓库的概念,数据仓库建模和管理数据的理论可能变化不大,但是其使用的技术,会从原来的技术架构更多地转向现有的开源体系。
2017年2017年,工作的中心转移到了数据仓库的建设上了,这个阶段一方面加深了地数据仓库和大数据的理解,另一方面,由于处理的数据量有了几十倍上百倍的增长,因此对大数据有了更深入的认识。
以前处理的数据规模很小,一天可能只有百万级的数据入库,随便搞搞也没啥毛病,感觉大数据也就那样,搭搭集群就没什么了。
然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就大了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。
这个阶段,居士才是真正认识到了大数据的魅力,也更深入地理解了大数据存在的意义和解决的问题。
Now大数据!大数据!其实是离不开数据二字,但是总体来讲,自己之前对数据的认知是不太够的,更多是在关注技术的提升上。换句话讲,自己是在做技术,这些技术处理的是数据,而不能算是自己是在做数据的。大规模数据的处理是一个非常大的课题,但是这一点更偏向于是搞技术的。
我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。居士认为大数据中对数据的理解,除了对数据的分布、价值等理解外,应该更多地加入对数据的组织和管理,比如数据质量的保证、元数据的管理、数据血缘的分析、数据模型的设计等等。
0xFF 总结嗯,写了不少的东西,比较偏向于个人的理解,并不能算是正确的。 而且只是现阶段的理解,相信,随着时间的变化,自己的理解甚至是大众普遍的认知应该也会有变化。


作者:dantezhao个人主页:http://dantezhao.com
链接:http://www.jianshu.com/p/24e3a77ff7af
來源:简书


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-1 12:48

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表