最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

如何成为一个优秀的数据从业者?

[复制链接]
发表于 2018-5-23 20:36:51 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:朱松岭
数据是原油,数据是生产资料,数据和技术驱动,人类正从IT时代走向DT时代,随着数据的战略性日渐得到认可,越来越多的公司、机构和组织,尤其是互联网公司,纷纷搭建了自己的数据平台。不管是基于开源技术自研、自建还是购买成熟的商业解决方案,不管是在私有的数据中心还是在公有云端,不管是自建团队还是服务外包,一个个数据平台纷纷被搭建,这些数据平台不但物理上承载了所有的数据资产,也成为数据开发工程师、数据分析师、算法工程师、业务分析人员和其他相关数据人员日常的工作平台和环境,可以说数据平台是一个公司、机构或组织内“看”数据和“用数据”的关键基础设施,已经像水电煤一样不可或缺,正是它们的存在才使得数据变现成为可能。
数据从产生到进入数据平台中被消费和使用,包含四大主要过程:数据产生、数据采集和传输、数据存储和管理以及数据应用,每个过程都需要很多相关数据技术支撑。了解这些关键环节和过程以及支撑它们的关键技术,对一个数据从业者来说,是基本的素养要求。
数据相关从业者和角色
大数据时代,数据已经变为生产资料,但是数据真正从生产资料变成生产力变现必须借助专业数据人员的帮助。
下面结合数据流程图介绍数据相关的主要从业者和角色。

数据平台开发、运维工程师
数据的埋点、采集传输、存储处理,乃至后续的分析、挖掘、数据服务等都离不开专业平台和工具的支持。而这些正是数据平台开发工程师和数据平台运维工程师的职责。
640.webp.jpg

数据平台开发工程师以及数据平台运维工程师负责开发并运维专门的埋点工具、专门的数据同步工具、离线计算平台(如hadoop、Hive等)、流计算平台(如Storm、Spark、Flink等)、数据存储工具和平台(如HBase、MySQL、Redis等),乃至分析师使用的数据分析平台和算法工程师使用的机器学习平台等。这些专业性的支撑平台是构建数据平台的基础设施,也直接关系着最终公司数据平台的成败、成本、效率和稳定性。
Hadoop、Hive、Spark、HBase、Kafka以及近一两年的Flink、Beam等,诸多开源数据框架的出现让人眼花缭乱,但本书主要面对的是数据开发工程师。数据开发工程师应该了解这些技术,知道其后台原理和适用场合,然后合理利用这些技术,达到构建数据平台的目的。
大数据和云计算是相辅相成和自然的一体选择,随着企业越来越多的系统运行在云上,企业的各种数据也都存储于云上,基于云计算的大数据平台工具也自然而然地快速得到发展。主流的国内外云计算公司(如阿里云、亚马逊、微软、Google等)都提供了云端的数据处理平台和工具。随着企业IT系统的上云,笔者认为未来云端的数据平台和工具将成为主流。

数据开发、运维工程师
数据开发、运维工程师是本书主要面对的对象,也是一般企业里构建数据平台的中坚力量。
数据开发工程师需要和产品经理、数据分析师沟通确定埋点需求,并具体对接前端开发工程师和后端开发工程师确定数据接口,从而将数据分析需求落地。
数据开发工程师需要根据离线数据、实时数据、近线数据的时效性要求,选择恰当的离线和实时数据同步工具来采集与同步数据。
数据开发工程师需要对采集和同步来的原始数据进行加工处理、合理数据建模并写入数据仓库中。
数据开发工程师需要设计开发实时流处理任务,提供实时数据指标并提供在线数据服务。
数据开发工程师必须严格保证数据加工的质量和数据的口径,确保下游看到的数据是高质量和一致的。
数据开发工程师也通常是数据咨询的集中点,数据是否能够拿得到?数据在哪里?数据口径如何?数据质量如何?
数据开发工程师向下对接数据平台工程师,向上对接数据分析工程师、算法工程师和业务人员,是使用数据的窗口和中枢。
数据开发工程师也是公司数据资产的管理者,保证数据被合理分级、组织、使用、安全保存和稳定可靠。

数据分析工程师
数据分析工程师是企业和公司“看”数据的主要窗口。随着数据化运营思想以及数据驱动产品开发的日益深入,数据分析工程师在一个公司或项目中的地位越来越重要。
数据分析工程师需要将公司的业务运营报表化,并抽取出关键运营指标给公司和部门管理人员做决策参考,以监控日常公司和部门的运营情况。
数据分析工程师也需要给产品的优化提供数据支持,并用数据验证产品经理的产品改进效果。
数据分析工程师是业务和数据的桥梁,数据分析工程师不但要了解数据,而且必须非常熟悉业务。此外,数据分析工程师还必须具有很强的表达能力和总结能力,能将关于业务的洞察以恰当的方式清晰明了地传递给决策人员、业务人员和产品人员,供决策和运营分析使用。
数据分析工程师也是数据开发工程师最为紧密的合作伙伴之一。

算法工程师
算法工程师使一个公司和企业应用数据的能力不局限在“看”和分析上,而是能够直接变现应用在生产系统和产品上。
比如Google的PageRank算法,正是有了PageRank算法的发明,才使得网页重要性排名变成可以工程化的现实,也才奠定了Google搜索引擎和Google公司的成功基础。
这样的例子还有很多,比如淘宝的“千人千面”个性化推荐系统,其中的推荐算法大大提高了用户的转化率,直接提高了整个网站的GMV,也直接带来了经济效益,目前推荐系统已经成为绝大多数电子商务网站的标配,而这都离不开后台算法工程师的直接贡献。
并不是每个算法工程师都要发明算法,但他们需要熟悉常见的各种算法并了解其适用场合,需要查阅文献和论文,时刻关注业界进展,并将它们应用在业务实践中。
算法工程师必须具有一定的编程和工程能力,能够将构建的算法用代码实现,并在数据集上测试验证,然后根据效果进行相应的算法调整、参数调优等,如此反复,这就构成了算法工程师日常的主要工作。

业务人员
一个公司和部门的分析师人数是有限的,固定每日运行的报表也是有局限性的,业务人员经常发现自己的数据分析需求处于分析师排期甚至无法支持的境地,这个问题的最终解决方法是业务人员自己具备数据分析的能力。
随着自助式数据分析工具的日益成熟,人人都可以成为数据分析师!
从数据平台的角度来讲,数据平台团队应该提供自助式数据分析工具,赋能给每个业务接口人或者业务分析人员,因为业务团队才是最了解自己业务的,如果有了自助式分析工具的帮助并具备了一定的数据分析能力,对于业务人员来说,无疑是如虎添翼的。
——文章摘自《离线和实时大数据开发实战》

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 15:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表