最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[综合] 实时计算数据架构的演变

[复制链接]
跳转到指定楼层
楼主
发表于 2019-10-23 21:36:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
01
传统数据基础架构
传统单体数据架构最大的特点便是集中式数据存储,大多数分为计算层和存储层。
存储层,主要是负责存储企业各种系统产生的数据,如 Web 业务系统、订单系统、CRM 系统,ERP 系统、监控系统,数据比如系统的订单交易量,网站的活跃用户数,每个用户的交易额。
所有的操作均需要借助于同一套数据库实现。
单体架构初期效率很高,但是随着时间的推移,业务越来越多,上线迭代很快。
但随着后期业务越来越多,系统逐渐变的臃肿。数据库变成了唯一准确的数据源,每个应用都需要访问数据库来获取对应的数据,如果数据库发生改变或者出现问题,整个业务系统都会受到影响。

02微服务架构
微服务将系统拆分成不同的独立服务模块,每个模块有自己独立的数据库,不同的业务之间互相不干扰,微服务架构解决了业务系统拓展性的问题,但是随之也带来了新的问题。
业务数据过于分散在不同的系统中,很难将数据集中化管理。
对于企业内部数据仓库,数据挖掘之类的应用,需要把各个业务系统数据库数据抽取到数据仓库之中,在数据仓库中进行数据的抽取、转换、加载(ETL),从而构建不同的数据集市应用,提供给业务系统用。

03大数据数据架构
起初,数据是构建在关系型数据库之上,但随着企业数据量的暴增,关系型数据库已经无法支撑起大规模数据集的存储和分析,于是基于hadoop构建企业级大数据平台便成为了共识。
后来,离线的高延迟渐渐的无法满足企业需求,例如一些时间要求比较高的应用,实时报表统计,需要非常低的延时展示结果。为此业界提出一套lambda架构方案来处理不同类型的数据。

包含了批量计算的 Batch Layer和实时计算的 Speed Layer,通过在一套平台中,将批计算和流计算结合在一起。
lambda 架构是构建大数据应用程序的一种很有效的解决方案,但还不是最完美的方案
04有状态流式架构
数据产生的本质,其实是一条条真实存在的事件,而前面讲的不同的架构所用到的技术,如hadoop,Spark,多少都在一定程度上违背了这种本质,需要在一定延时的情况下对业务数据进行处理。
而有状态的流计算架构,基于实时的流式数据,维护所有计算过程的状态,所谓状态就是计算过程中产生的所有中间计算结果,每次计算新的数据进入到流式系统中都是基于中间状态结果的基础上进行计算,最终产生正确的统计结果。

这种架构好处是,不需要从原始数据重新从外部存储中拿出来,从而进行全量计算;另外用户也无需协调各种批量计算工具,从数据仓库中获取统计结果,然后再落地存储,这些操作全部都可以基于流式操作来完成

原文发布于微信公众号 - kk大数据(kkbigdata)


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-6 23:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表