168大数据

标题: ClickHouse应用架构VS典型的大数据架构 [打印本页]

作者: 168主编 时间: 2021-6-21 19:35
标题: ClickHouse应用架构VS典型的大数据架构

ClickHouse应用架构VS典型的大数据架构

官方网站：https://clickhouse.tech/docs/en/introduction/distinctive_features/

一、企业大数据平台架构

企业的大数据平台是基于数据仓库建设，经典的大数据架构经典的大数据架构基本都是基于Hadoop生态的，基本的架构及技术的选型都是围绕大数据产生，采集，合理组织，有效使用整个流程来的，大概可以简单分为6步

第一步：数据源

第二步：数据同步，采集

第三步：消费队列缓冲，解耦，发布订阅

第四步：实时逻辑计算

第五步：离线数据仓库分层建模

第六步：数据应用

关于大数据平台的构建，不仅仅是将以上的流程串联起来，更多的是将组件工具化；工具平台化；平台服务化；平台产品化。这里不是讲大数据平台建设的，这里给出一个大数据业界的简单架构，有兴趣的朋友可以加我，一起探讨如何构建优秀的企业级大数据平台

经典大数据平台架构图（简单版）：

大数据数据仓库架构图（简单版）：

二、Clickhouse企业大数据应用架构

关于Clickhouse的使用架构，大概可以分为三种：

第一种：单独使用

第二种：结合大数据架构使用

结合大数据使用第一种架构

结合大数据使用第二种架构

在企业的使用中，Clickhouse大多是结合大数据平台来做的，因为使用Clickhouse做OLAP，数据源基本都是来自Hive离线仓库或者消息队列，基本的使用就是

一：实时流式处理：通过flink或者Spark消费消息队列数据，做实时逻辑计算，结果写入Clickhouse，提供实时的数据查询

二：离线数据处理：通过对Hive数仓中的数据进行预聚合，或者字段平铺，然后使用waterdrop或者clickhouse-client命令行导入Clickhouse，提供OLAP数据查询分析

实战经验总结：

因为Clickhouse在大数据级别的多表的join性能有不佳，建议能在Hive中做数据预聚合的，提前在hive做预聚合，能提前在导入或者导入过程做字段平铺的做字段平铺，避免在Clickhouse中做字段解析离线的数据导入Clickhouse为了提升导入的性能，如果使用的是Clickhouse-client，可以考虑多进程并发写入，提高导入效率；也可以使用简单配置易用的waterdrop进行Clickhouse数据导入

三、Clickhouse大数据架构和典型的大数据架构区别和整合

Clickhouse大数据处理架构

Clickhouse与大数据平台整合处理大数据的架构

四、Clickhouse和一些常用的OLAP的对比分析

欢迎光临 168大数据 (http://www.bi168.cn/)