最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

8年京东大数据架构师推荐的大数据新手学习路线

[复制链接]
跳转到指定楼层
楼主
发表于 2019-4-22 19:37:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一、我们先要了解大数据的工作方向
01.大数据工程师
02.数据分析师
03.大数据科学家
04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)
二、大数据工程师的技能要求
必须技能10条:
01.Java高级(虚拟机、并发)
02.Linux 基本操作
03.hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )
04.HBase(JavaAPI操作+Phoenix )
05.Hive(Hql基本操作和原理理解)
06.Kafka
07.Storm
08.Scala需要
09.Python
10.Spark (Core+sparksql+Spark streaming )
高阶技能6条:
1.机器学习算法以及mahout库加MLlib
2.R语言
3.Lambda 架构
4.Kappa架构
5.Kylin
6.Aluxio
三、大数据的学习技术点
Hadoop核心
(1) 分布式存储基石:HDFS
HDFS简介 入门演示 构成及工作原理解析:数据块,NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示
(2) 分布式计算基础:MapReduce
MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优
(3) Hadoop集群资源管家:YARN
YARN基本架构 资源调度过程 调度算法 YARN上的计算框架
离线计算
(1) 离线日志收集利器:Flume
Flume简介 核心组件介绍 Flume实例:日志收集、适宜场景、常见问题
(2) 离线批处理必备工具:Hive
Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍 视图 函数(内置,窗口,自定义函数) 表的分区、分桶和抽样 优化
(3) 速度更快的Hive:Impala
Impala在大数据架构中的角色 架构 数据处理过程 一般使用步骤:创建表,分区表,查询等 常用查询演示:统计,连接等、Impala与Hive的比较 常用配置与最佳使用建议(查错,调优等)
(4) 更快更强更好用的MR:Spark
Scala&Spark简介 基础 Spark编程(计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引)Spark SQL和DataFrame 实例:使用Spark SQL统计页面PV和UV
实时计算
(1) 流数据集成神器:Kafka
Kafka简介 构成及工作原理解析 4组核心API 生态圈 代码演示:生产并消费行为日志
(2) 实时计算引擎:Spark Streaming
Spark Streaming简介 工作原理解剖 编写Streaming程序的一般过程 如何部署Streaming程序? 如何监控Streaming程序? 性能调优
(3) 海量数据高速存取数据库:HBase
HBase简介 架构及基本组件 HBase Table设计 HBase基本操作 访问HBase的几种方式
大数据ETL
(1) ETL神器:Sqoop,Kettle
数据同步ETL介绍 Kettle常用组件介绍 、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战
(2) 任务调度双星:Oozie,Azkaban
ETL与计算任务的统一管理和调度简介 Crontab调度的方案 自研调度系统的方案 开源系统Oozie和Azkaban 方案总结与经验分享
大数据应用与数据挖掘
(1) 大数据全文检索引擎:Elasticsearch
全文检索基础知识,ES安装及初级介绍,ES深入理解,使用经验介绍
(2) 数据仓库搭建
为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践 知名互联网公司大数据平台架构简介
(3) 数据可视化
什么是数据可视化,数据可视化常用工具与必备技能介,Tableau和ECharts实操讲解 ECharts介绍,知名互金公司可视化经验介绍
(4) 算法介绍
介绍数据挖掘,机器学习,深度学习的区别,R语言和python的介绍,逻辑回归算法的介绍与应用,以及主要的推荐算法介绍
四、学习资源推荐:
01.Apache 官网
02.Stackoverflow04.github
03.Cloudra官网
04.Databrick官网
05.过往的记忆(技术博客)
06.CSDN,51CTO,bi168

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-27 00:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表