最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

实时数仓模型设计

[复制链接]
跳转到指定楼层
楼主
发表于 2021-6-20 21:03:43 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2021-6-20 21:07 编辑

本文参考了部分互联网公司的实时数仓模型,结合目前所掌握的数仓建设的知识,简单介绍一下如何建设一个实时数仓。
一、实时数仓建设的背景
随着互联网的发展,越来越多的业务指标需要实时查看,以便于更好的进行业务分析,尤其在举行活动的时候,能够更好的把握活动的各项指标趋势,从而更好的调整策略,达到活动的目标。
二、技术选型
与flink实时处理最密不可分的就是kafka,其次flink实时数据存储还有mysql、hbase、es、Druid等还有部分公司内部开发的数据存储。作为刚开始的公司构建实时数仓,选用市面上开源的数据库就足够可以使用了。
三、数据仓库的建设
1、实时数仓的层级
在离线数仓中,大部分都会分为数据源、数据明细层、数据汇总层、面向业务层。而在实时数仓中,数据源和面向业务层直接配置成一种可实时传输数据的数据存储就好,不做过多处理,因为实时中间处理层越多,数据准确性也会越低,这边实时数仓主要内容是在数据明细层和数据汇总层。
2、实时数仓各层级的技术选型
数据源:直接配置为kafka实时消息传输;
数据明细层:一般也会选择kafka作为数据存储,如果是这层做成大宽表的话,可以选择druid,或者hbase
数据汇总层:对数据进行高度汇总后的数据,这层一般也会选择kafka作为数据存储,这样需要保证各层级的数据通过kafka能够产生依赖。
应用层:应用层根据不同的业务类型选用不同的数据存储,如果结果需要能够快速搜索,可以选用es,如果结果需要进行多维数据统计分析,可以选用druid,如果结果数据量不是很大的话,最好选用mysql,相对来说,mysql的稳定性要好一点。
维度存储:维度如果是稳定并且数据量不大的情况下可以选择mysql,但是如果维度经常变动或者字段经常增加的话,最好选用hbase进行存储。
3、实时数仓的模型设计
作者:afansdie
链接:https://www.jianshu.com/p/d4b342141c3b
来源:简书
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-17 19:42

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表