最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[综合] 存算分离的大数据架构演进

[复制链接]
发表于 2021-10-23 16:58:39 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

伴随5G、AI等技术的发展,数据量迎来爆发式增长,这一形势下,传统大数据存算一体架构,面临不小冲击,企业也从原先的数据管理走向数据运营,面临着成本高、存不下;效率低、流不动;自动化差、管不好三大挑战。

计算存算分离是大数据架构演进的必然趋势,也是应对行业用户数据痛点的一大利器。计算和存储是两套独立的集群,把存储从原来的系统中剥离出来形成独立的存储集群。一方面,可以按需投资,要多少计算买多少计算,要多少存储买多少存储,避免浪费,提高分析效率。另一方面,可以通过企业级的存储基座替代原来的原生大数据存储基座,好处是可以把企业级存储的先进技术带入到大数据里面来,如高可靠、高利用率、多协议融合等,更好地释放数据的价值。

hadoop1.0时代,计算和存储高度融合,仅能处理单一的MapReduce分析业务

Hadoop2.0时代,计算层与数据开始解耦,通过Yarn实现了独立的资源管理,并开始支持Spark等更多的计算引擎

而如今的Hadoop3.0时代,计算存储已分开演进,通过Hadoop EC来支持冷数据的存储,同时引入外置存储(如S3),增强其存储底座能力,逐步向数据湖架构演进,而计算正向轻量化和容器化方向发展。

大数据系统超融合架构

什么是超融合

l 超融合中“超”对应英文“Hyper”,特指虚拟化,对应虚拟化计算架构,如KVM、XEN、Hyper-V等。超融合这一概念最早源自Nutanix等存储厂商将Google/Facebook等互联网厂商采用的计算存储融合架构用于虚拟化环境,为企业客户提供一种基于X86硬件平台的计算存储融合产品或解决方案。

l 超融合中 “融合”是指计算和存储部署在同一个节点上,同时提供计算和存储能力。融合一般可以分为物理融合和超融合两种,物理融合系统中,计算和存储仍然可以是两个独立的组件,没有直接的相互依赖关系,共享主机的物理资源。超融合与物理融合不同在于,重点以虚拟化计算为中心,计算和存储紧密相关,存储由控制器虚拟机(Controller VM,CVM)而非物理机来控制,并将分散的存储资源形成统一的存储池,用于创建用户的应用虚拟机。出于性能考虑,超融合架构通常都需要将主机物理设备透传(Pass Through)给控制器虚机CVM

超融合架构

系统通过软件定义实现计算、存储、网络融合,实现以虚拟化为中心的软件定义数据中心的技术架构。判断一套系统是否采用了超融合架构,主要基于以下几点

l 完全软件定义

独立于硬件,采用商业通用标准硬件平台(如X86),完全采用软件实现计算、存储、网络等功能。

l 完全虚拟化

以虚拟化计算为中心,计算、存储、网络均由虚拟化引擎统一管理和调度,软件定义存储由虚拟机控制器CVM进行管理。

l 完全分布式

横向扩展的分布式系统,计算、存储、网络按需进行动态扩展,系统不存在单点故障,采用分布式存储。

超融合架构的优缺点

计算存储超融合的一体化平台,替代了传统的服务器加集中式存储的架构,使得整个架构更清晰,简化了IT系统的设计复杂度。

超融合架构的最大特点就是易于扩展、最小部署、按需扩容。但超融合平台中计算能力、存储性能和容量是同步扩容的,无法满足现实中对单项能力的独立扩展。

超融合架构的集群达到一定规模后,系统架构复杂性会非线性增加,集群管理变的更加困难,硬件故障和自修复发生的概率也会大大增加。因此, 超融合架构一般不建议构建大集群,如果业务允许,尽量构建多个适当规模的较小集群。

将物理设备透传给控制虚机,增加了部署配置管理的复杂性。计算和存储对硬件平台的要求都不同,融合后也会一定程度上增加兼容性验证的复杂性;超融合架构下,管理、计算、存储、高可用通常都需要配置独立的虚拟网络,网络配置也会更加复杂;共享物理资源的分配、隔离、调度,这也是额外增加的复杂性;如果出现故障,问题的跟踪调试和分析诊断也变得更加困难。

超融合架构下的存储逻辑单元已经拥有了很多过去高级存储才具备的功能,但是在数据保护,复制,容灾,高可用,这些关系到数据存储层面的需求是超融合厂商不会花精力去关注也无法关注的。

大数据系统分离式架构

优点

避免计算与存储争抢物理资源(CPU/内存/网络),出现因某一方资源需求骤升导致的另一方资源枯竭,从而影响性能,并在整个基础架构中产生涟漪效应

适用场景

从应对数据规模的角度看,中小规模下超融合架构优势明显,大规模分布式存储与计算采用分离式架构优势更大。

从应对数据服务的角度看,分离式架构适用于解决由于数据量大而存不下的问题,以及对数据进行低延迟的访问。


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-28 17:51

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表