大数据开源框架技术扫盲

发表于 2021-1-6 12:34:44

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。

系统平台（hadoop、CDH、HDP）
监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）
文件系统（HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio）
资源调度（YARN、Mesos、）
协调框架（ZooKeeper 、Etcd、Consul）
数据存储（HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo 、Redis 、Ignite、Arrow 、Geode、CouchDB、Kudu、CarbonData）
数据处理（MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron）
查询分析（Hive、SparkSQL、Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix）
数据收集（Flume、Filebeat、Logstash、Chukwa ）
数据交换（Sqoop 、Kettle、DataX 、NiFi）
消息系统（Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ）
任务调度（Azkaban、Oozie、Airflow）
数据治理（Ranger 、Sentry、Atlas）
可视化（Kibana 、D3.js、ECharts）
数据挖掘（Mahout 、MADlib 、Spark ML、TensorFlow、Keras）
云平台（Amazon S3、GCP、Microsoft Azure）

系统平台

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

帐号		自动登录	找回密码
密码			立即注册

[综合] 大数据开源框架技术扫盲

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1