最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[基础] Cloudera Hadoop培训:CDH集群搭建、spark开发、hive使用

[复制链接]
发表于 2018-1-16 14:58:47 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
北京3月17-20日Cloudera Administrator Training for Apache hadoop(CCA131)  
深圳3月17-20 Cloudera Administrator Training for Apache Hadoop(CCA131)
上海3月24-27日Cloudera Developer training for Spark and Hadoop(CCA-175)
上海4月12-15日Cloudera Administrator Training for Apache Hadoop(CCA131)  
上海4月19-22日Cloudera Developer training for Spark and Hadoop(CCA-175)
每门课课时:28h/4天
Q1438118790
Cloudera Developer Training for Spark and Hadoop(CCA-175)课程介绍
Hadoop 及生态系统介绍
•  Apache Hadoop 概述 •  数据存储和摄取 •  数据处理 •  数据分析和探索 •  其他生态系统工具 •  练习环境及分析应用场景介绍
Apache Hadoop 文件存储
•  传统大规模系统的问题 •  HDFS 体系结构 •  使用 HDFS •  Apache Hadoop 文件格式
Apache Hadoop 机群上的数据处理
•  YARN 体系结构 •  使用 YARN
使用 Apache Sqoop 导入关系数据
•  Sqoop 简介 •  数据导入 •  导入的文件选项 •  数据导出
Apache Spark 基础
•  什么是 Apache Spark •  使用 Spark Shell •  RDDs( 可恢复的分布式数据集) •  Spark 里的函数式编程
Spark RDD
•  创建 RDD •  其他一般性 RDD 操作
使用键值对 RDD
•  键值对 RDD •  MapReduce •  其他键值对 RDD 操作
编写和运行 Apache Spark 应用
•  Spark 应用对比 Spark Shell •  创建 SparkContext •  创建 Spark 应用(Scala 和 Java) •  运行 Spark 应用 •  Spark 应用 WebUI
配置 Apache Spark 应用
•  配置 Spark 属性 •  运行日志
Apache Spark 的并行处理
•  回顾:机群环境里的 Spark •  RDD 分区 •  基于文件 RDD 的分区 •  HDFS 和本地化数据 •  执行并行操作 •  执行阶段及任务
Spark 持久化
•  RDD 演变族谱 •  RDD 持久化简介 •  分布式持久化
Apache Spark 数据处理的常见模式
•  常见 Spark 应用案例 •  迭代式算法 •  机器学习 •  例子:K - Means
DataFrames 和 Spark SQL
•  Apache Spark SQL 和 SQL Context •  创建 DataFrames •  变更及查询 DataFrames •  保存 DataFrames •  DataFrames 和 RDD •  Spark SQL 对比 Impala 和Hive-on-Spark •  Spark 2.x 版本上的 Apache Spark SQL
Apache Kafka
•  什么是 Apache Kafka •  Apache Kafka 概述 •  如何扩展 Apache Kafka •  Apache Kafka 机群架构 •  Apache Kafka 命令行工具
使用 Apache Flume 采集实时数据
•  什么是 Apache Flume •  Flume 基本体系结构 •  Flume 源 •  Flume 槽 •  Flume 通道 •  Flume 配置
集成 Apache Flume 和 Apache Kafka
•  概要 •  应用案例 •  配置
Apache Spark Streaming:DStreams 介绍
•  Apache Spark Streaming 概述 •  例子:Streaming 访问计数 •  DStreams •  开发 Streaming 应用
Apache Spark Streaming:批处理
•  批处理操作 •  时间分片 •  状态操作 •  滑动窗口操作
Apache Spark Streaming:数据源
•  Streaming 数据源概述 •  Apache Flume 和Apache Kafka 数据源 •  例子:使用 Direct 模式连接 Kafka • 数据源

Cloudera Administrator Training for Apache Hadoop(CCA131)  课程介绍
Apache Hadoop 介绍:
Hadoop 动机、基本概念、Hadoop 核心部件
Hadoop 机群安装:   
机群管理方案、Cloudera Manager 特性、Cloudera manager 安装、Hadoop (CDH) 安装
Hadoop 分布式文件系统 (HDFS):   
HDFS 特性、读写文件、NameNode 内存考虑、HDFS 安全简介、HDFS Web UI、使用 HDFS Shell
YARN 上的 MapReduce 和 Spark:   
计算平台在 Hadoop 里扮演的角色、YARN:机群资源管理器、MapReduce 概念、Apache Spark 概念、Yarn 上的计算平台、YARN Web UI 及 Shell、YARN 应用运行日志
Hadoop 配置及服务运行日志:   
Cloudera Manager 配置管理机制、定位配置参数及进行配置变更、管理角色实例及添加服务、配置 HDFS 服务务、配置 Hadoop 服务运行日志、配置 YARN 服务
向 HDFS 导入数据:   
使用 Flume 从外部数据源实时导入数据、使用 Sqoop 从关系数据库导入数据、REST 接口、导入数据的最佳实践
Hadoop 机群规划:   
规划考虑因素、硬件选择、虚拟化选项、网络因素、节点配置
Hive,Impala 及 Pig 的安装及配置:   
Hive、Impala、Pig
Hadoop 客户端及 Hue:   
什么是 Hadoop 客户端、安装及配置 Hadoop 客户端、安装及配置 Hue、使用 Hue 进行身份验证及授权
机群高级配置:   
高级配置参数、Hadoop 端口配置、HDFS 机柜感知配置、HDFS 高可靠性配置
Hadoop 安全:   
Hadoop 安全的重要性、Hadoop 安全性概念、Kerberos 简介、使用 Kerberos 保护 Hadoop 机群、其他安全特性
资源管理:   
使用静态服务池配置 Linux cgroup、公平调度器、配置动态资源池、YARN 内存及 CPU 设置、Impala 查询调度
机群维护:   
检查 HDFS 状态、机群间复制数据、添加/移除机群节点、机群数据负载平衡、目录快照、机群升级
机群监控及排错:   
Cloudera Manager 监控特性、监控 Hadoop 机群、Hadoop 机群排错、常见配置不当问题

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 10:05

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表