最具影响力的数字化技术在线社区

168主编 发表于 2021-6-21 19:35:37

ClickHouse应用架构VS典型的大数据架构

ClickHouse应用架构VS典型的大数据架构官方网站:https://clickhouse.tech/docs/en/introduction/distinctive_features/一、企业大数据平台架构企业的大数据平台是基于数据仓库建设,经典的大数据架构经典的大数据架构基本都是基于Hadoop生态的,基本的架构及技术的选型都是围绕大数据产生,采集,合理组织,有效使用整个流程来的,大概可以简单分为6步第一步:数据源第二步:数据同步,采集第三步:消费队列缓冲,解耦,发布订阅第四步:实时逻辑计算第五步:离线数据仓库分层建模第六步:数据应用关于大数据平台的构建,不仅仅是将以上的流程串联起来,更多的是将组件工具化;工具平台化;平台服务化;平台产品化。这里不是讲大数据平台建设的,这里给出一个大数据业界的简单架构,有兴趣的朋友可以加我,一起探讨如何构建优秀的企业级大数据平台经典大数据平台架构图(简单版):https://pic3.zhimg.com/80/v2-1efd9768c91c517cd5547b9def68b282_720w.jpg大数据数据仓库架构图(简单版):https://pic2.zhimg.com/80/v2-c2efa2e44244b9ae5e5421ba0946efc1_720w.jpg二、Clickhouse企业大数据应用架构关于Clickhouse的使用架构,大概可以分为三种:第一种:单独使用https://pic3.zhimg.com/80/v2-5b84e3670b808378d05816dbfbd5aa3a_720w.jpg第二种:结合大数据架构使用结合大数据使用第一种架构https://pic2.zhimg.com/80/v2-cc3c082d02686911f4148eb3b77f3a95_720w.jpg结合大数据使用第二种架构https://pic4.zhimg.com/80/v2-c18e33e3c76c10af45bba60b6074dd57_720w.jpg在企业的使用中,Clickhouse大多是结合大数据平台来做的,因为使用Clickhouse做OLAP,数据源基本都是来自Hive离线仓库或者消息队列,基本的使用就是一:实时流式处理:通过flink或者Spark消费消息队列数据,做实时逻辑计算,结果写入Clickhouse,提供实时的数据查询二:离线数据处理:通过对Hive数仓中的数据进行预聚合,或者字段平铺,然后使用waterdrop或者clickhouse-client命令行导入Clickhouse,提供OLAP数据查询分析实战经验总结:因为Clickhouse在大数据级别的多表的join性能有不佳,建议能在Hive中做数据预聚合的,提前在hive做预聚合,能提前在导入或者导入过程做字段平铺的做字段平铺,避免在Clickhouse中做字段解析离线的数据导入Clickhouse为了提升导入的性能,如果使用的是Clickhouse-client,可以考虑多进程并发写入,提高导入效率;也可以使用简单配置易用的waterdrop进行Clickhouse数据导入
三、Clickhouse大数据架构和典型的大数据架构区别和整合Clickhouse大数据处理架构https://pic3.zhimg.com/80/v2-544f49d503149a6054204df03231687a_720w.jpgClickhouse与大数据平台整合处理大数据的架构https://pic2.zhimg.com/80/v2-2f7a769e50b74d995be56204432130c9_720w.jpg四、Clickhouse和一些常用的OLAP的对比分析https://pic3.zhimg.com/80/v2-031cf982d30b69aaf4f6c083b8784db2_720w.jpg
页: [1]
查看完整版本: ClickHouse应用架构VS典型的大数据架构