最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据架构师 从0到1如何炼成

[复制链接]
跳转到指定楼层
楼主
发表于 2019-9-28 07:19:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一/ 大数据架构师知识图谱
1,大数据是什么
2,大数据当前面临的挑战
3,大数据架构和业务
4,如何进行数据获取
5,数据流处理
6,交互式分析
7,批处理技术
8,机器学习和数据挖掘
9,资源管理和价值数据提取
10,存储
  11,大数据云化


大数据架构师所具备的能力具体如下:
一、大数据通用处理平台
二、分布式存储
HDFS
三、资源调度
Yarn
Mesos
四、机器学习工具
           Mahout
  • Spark Mlib
  • TensorFlow (Google 系)
  • Amazon Machine Learning
  • DMTK (微软分布式机器学习工具)


五、数据分析/数据仓库(SQL类)
  • Pig
  • Hive
  • kylin
  • Spark SQL,
  • Spark DataFrame
  • Impala
  • Phoenix
  • ELK
  • ElasticSearch
  • Logstash
  • Kibana


六、消息队列
  • Kafka(纯日志类,大吞吐量)
  • RocketMQ
  • ZeroMQ
  • ActiveMQ
  • RabbitMQ


七、流式计算
  • Storm/JStorm
  • Spark Streaming
  • Flink


八、日志收集
        Scribe
        Flume
九、编程语言
  • Java
  • Python(推荐)
  • R
  • Ruby
  • Scala


十、数据分析挖掘
        MATLAB
        SPSS
        SAS
十一、数据可视化
  • R
  • D3.js
  • ECharts
  • Excle
  • Python


十二、机器学习
        机器学习基础
  • 聚类
  • 时间序列
  • 推荐系统
  • 回归分析
  • 文本挖掘
  • 决策树
  • 支持向量机
  • 贝叶斯分类
  • 神经网络


        机器学习工具
  • Mahout
  • Spark Mlib
  • TensorFlow (Google 系)
  • Amazon Machine Learning
  • DMTK (微软分布式机器学习工具)


十三、算法
一致性
  • paxos
  • raft
  • gossip


        数据结构
  • 栈,队列,链表
  • 散列表
  • 二叉树,红黑树,B树


常用算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子数组
4.最长公共子序列
5.最小生成树
最短路径
6.矩阵的存储和运算
十四、云计算
云服务
       SaaS
  • PaaS
  • IaaS
  • Openstack
  • Docker



随着互联网几何级数数据量的增长

以 Hadoop 为首的大数据平台来替换传统数据仓库平台

分布式计算平台比传统构建在商业数据库平台上的数据仓库的优势:
2.1 分布式计算:通过将数据计算分配到离数据最近的存储节点上,使得并行计算成为可能。
2.2 分布式存储:将大份数据,拆解为小份数据并分散存储到不同的存储节点,提供分布式计算的前提条件
2.3 数据路由:分区分库分表等分布式存储操作之后,记录这些结构信息,并做高可用管理,提供给应用程序的是路由功能。使得应用系统进来的查询请求得以分配到合理的数据节点上计算。

而这一切在 Oracle, sql server, mysql, postgresql 上是很难快速得以部署的。小规模 5-10 台还能接受,100台以上集群,管理难度和成本会急剧加速。
我认为构建在商业数据库平台上的数据仓库其实没有必要重新推翻,用 Hadoop 来重新做一遍,这一点和作者想法不一致。
a) 数据仓库完全可以做为数据源再丢到分布式系统中做计算
b) 分布式系统作为数据仓库的计算引擎,提供算力即可。
c) 分布式系统将聚合数据/快速计算能力回流给数据仓库
e) 根据需求再将其他主题相关建模以及计算,构建到新的分布式系统中



大数据架构适合通信及互联网等运营商的业务需求,也有一些有价值的看法,例如对未来大数据技术的技术方向的思考。
1,大数据的本质———
    大数据是问题的解决方案、一系列技术的集合
2,大数据面临的实时性挑战———
    2.1 时间越久的数据,价值越低
    2.2 趋势是使用流系统的比例越来越高,流处理(流分析)应用将会成为默认应用
3,批处理是追求吞吐量的,流处理是追求实时性的。趋势是将批处理和流处理技术做融合(统一),流行的批处理框架有3个———
    3.1 Google开源的Dataflow
    3.2 德国的Flink
    3.3 Spark 2.X版的spark streaming
4,资源管理和调度———
    4.1 目前流行的资源调度框架是yarn,他的RM直接将资源分配给某个Task,这是任务级别的调度(也就是小颗粒调度)
    4.2 未来会聚焦于应用本身的特点来做资源的智能管理和分配,以实现资源利用的高效率
5,大数据作为云服务的两种模式———
    5.1 集群模式:直接使用集群、简化运维(购买的集群已预装客户所需的组件,例如hadoop,hive,spark,hbase,zookeeper等等)。目前我们的AI部门购买的是这一类大数据云服务(金山云KMR)
    5.2 服务模式:用户无需关心集群创建和运维,用户只需提交应用到集群上,按照任务消耗的计算时间付费,例如AWS开源的Lambada就是一种服务模式的大数据云服务。

缺点。

思维导图整理如下:


作者:JamesXu9527
来源:SAP微顾问和大数据
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-18 17:00

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表