大数据架构师从0到1如何炼成

发表于 2019-9-28 07:19:20

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

一/ 大数据架构师知识图谱

1，大数据是什么

2，大数据当前面临的挑战

3，大数据架构和业务

4，如何进行数据获取

5，数据流处理

6，交互式分析

7，批处理技术

8，机器学习和数据挖掘

9，资源管理和价值数据提取

10，存储

11，大数据云化

大数据架构师所具备的能力具体如下:

一、大数据通用处理平台

二、分布式存储

HDFS

三、资源调度

Yarn

Mesos

四、机器学习工具

Mahout

Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)

五、数据分析/数据仓库(SQL类)

Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana

六、消息队列

Kafka(纯日志类，大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ

七、流式计算

Storm/JStorm
Spark Streaming
Flink

八、日志收集

Scribe

Flume

九、编程语言

Java
Python(推荐)
R
Ruby
Scala

十、数据分析挖掘

MATLAB

SPSS

SAS

十一、数据可视化

R
D3.js
ECharts
Excle
Python

十二、机器学习

机器学习基础

聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络

机器学习工具

Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)

十三、算法

一致性

paxos
raft
gossip

数据结构

栈，队列，链表
散列表
二叉树，红黑树，B树
图

常用算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,最大子数组

4.最长公共子序列

5.最小生成树

最短路径

6.矩阵的存储和运算

十四、云计算

云服务

SaaS

PaaS
IaaS
Openstack
Docker

随着互联网几何级数数据量的增长

以 Hadoop 为首的大数据平台来替换传统数据仓库平台

分布式计算平台比传统构建在商业数据库平台上的数据仓库的优势：
2.1 分布式计算：通过将数据计算分配到离数据最近的存储节点上，使得并行计算成为可能。
2.2 分布式存储：将大份数据，拆解为小份数据并分散存储到不同的存储节点，提供分布式计算的前提条件
2.3 数据路由：分区分库分表等分布式存储操作之后，记录这些结构信息，并做高可用管理，提供给应用程序的是路由功能。使得应用系统进来的查询请求得以分配到合理的数据节点上计算。

而这一切在 Oracle, sql server, mysql, postgresql 上是很难快速得以部署的。小规模 5-10 台还能接受，100台以上集群，管理难度和成本会急剧加速。
我认为构建在商业数据库平台上的数据仓库其实没有必要重新推翻，用 Hadoop 来重新做一遍，这一点和作者想法不一致。
a) 数据仓库完全可以做为数据源再丢到分布式系统中做计算
b) 分布式系统作为数据仓库的计算引擎，提供算力即可。
c) 分布式系统将聚合数据/快速计算能力回流给数据仓库
e) 根据需求再将其他主题相关建模以及计算，构建到新的分布式系统中

大数据架构适合通信及互联网等运营商的业务需求，也有一些有价值的看法，例如对未来大数据技术的技术方向的思考。

1，大数据的本质———

大数据是问题的解决方案、一系列技术的集合

2，大数据面临的实时性挑战———

2.1 时间越久的数据，价值越低

2.2 趋势是使用流系统的比例越来越高，流处理(流分析)应用将会成为默认应用

3，批处理是追求吞吐量的，流处理是追求实时性的。趋势是将批处理和流处理技术做融合（统一），流行的批处理框架有3个———

3.1 Google开源的Dataflow

3.2 德国的Flink

3.3 Spark 2.X版的spark streaming

4，资源管理和调度———

4.1 目前流行的资源调度框架是yarn，他的RM直接将资源分配给某个Task，这是任务级别的调度(也就是小颗粒调度)