最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

SAP数据中台解决方案(三)

[复制链接]
发表于 2019-11-1 12:08:08 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2019-11-1 12:10 编辑

在上一回中【SAP数据中台解决方案(二)】,我们已经看到了作者对于整体数据中台的解决方案,其中有不少都可以用SAP的现有成熟产品予以实现,那么究竟为什么要选择这些产品,这些产品本身具有哪些特点呢?本章我们将会就“SAP建议的数据中台解决方案”中的明星软件产品SAP HANA的特点进行简要阐述。

作者:Martin Xie
来源:售前情报站
支撑数据中台的技术中台SAP HANA
现在越来越多的客户正在将他们自己的SAP应用系统,这包括ERP和BW等,逐步迁移到SAP的内存计算平台HANA上来。SAP HANA自2010年一经推出就风靡全球,不仅仅是因为它是基于内存的数据库平台,更因为SAP拥有的列式存储、压缩专利技术,大大的加快了数据的存取速度,从而突破了数据库的I/O瓶颈,打破了原有数据库市场格局,掀起了新一轮的内存计算革命。

我们知道,传统的SAP应用都是三层架构,即数据库服务器、应用服务器、客户端,所有的数据加工处理过程都是在应用服务器完成。这就需要首先将数据从磁盘取出,加载到内存,然后再在应用服务器进行运算,运算完之后的结果再从内存存储到磁盘中去。这样的处理过程显著的增加了系统的I/O,因此只要出现大面积的数据交互,我们就会发现系统会遭遇I/O瓶颈。SAP HANA通过内存计算、列式存储等技术手段,达到了压缩存储空间、降低系统I/O、提升数据处理速度的目的。

1.jpg

SAP HANA有很多优良的特性,而其中最被大家津津乐道的两个显著特点是数据压缩与数据访问加速。其中数据压缩的原理来自于SAP HANA的列式存储与压缩,如下图所示:

2.png
通过将传统行式数据库的存储,转换为列式存储,结合数据字典的压缩,我们就可以轻松的实现几倍、几十倍、几百上千倍的数据压缩。比如2000行交易数据中的“性别”字段,传统数据库需要存储2000个“男”或者“女”字样,而在SAP HANA中则只需要存储比如“1000X0”和“1000X1”,这样的压缩率是显而易见的。通过前期客户的实际情况来看,ERP系统迁移到HANA的数据压缩率在4-5倍,而BW迁移到HANA的数据压缩率在5-10倍之间。

SAP HANA的另外一个显著特点就是超快的处理速度,下面我们来看一下SAP HANA性能提升的原理,如下图所示:

3.png

例子中我们列举了1000万行数据,我们需要查询的问题是“在俄亥俄州多少男性购买了保险?”在传统数据库场景下,我们需要执行1000万行的数据搜索,每行假设字节长度为800 Bytes,则需要执行200万次I/O。而在SAP HANA中,由于HANA采用了列式存储,我们只需要对“州”“性别”“是否购买保险”三个列进行读取操作,而不是所有列都需要读取;同时由于系统本身存储的不是原始值,而是类似索引一样压缩过后的值,因此在使用更大的Page值的时候,只需要60个逻辑I/O即可完成之前200万个I/O才能完成的工作,从而达到加速的目的。通过前期客户的实际情况来看,迁移到HANA平台之后,系统性能提升在20~100倍之间的场景居多,当然也有几倍的,也有几千倍的应用场景。

从上述内容我们可以看到,作为内存数据库来说,SAP HANA已经超级强大了,我们在此处就不再赘述。我们要说的是SAP HANA不仅仅是一个内存计算数据库,它本身更是一个强大的、全方位的数据服务和创新平台。

4.png

基于数据库服务之上,SAP HANA还提供了一系列的应用服务、数据处理服务、集成和数据质量服务。其中应用服务包括Web服务器、Java脚本、图像建模器、应用生命周期管理、Fiori的用户体验等。数据处理服务包括空间信息处理、地理信息处理、预测性分析服务、文本分析服务、流数据分析服务等。集成和数据质量服务包括数据质量管理、hadoop&Spark数据集成、数据ETL及实时复制、远程数据同步等。

为了实现基于人工智能的机器学习应用,依托于SAP HANA底层的预测性分析库PAL中内置的丰富算法,我们就可以执行机器学习场景的预测性分析。比如我们需要分析一系列的时间序列指标,判断一个设备是否需要进行预防性维修,就属于比较典型的预测性分析应用。同时通过R-Script与R引擎集成,或者与Google的TensorFlow集成,以实现时下流行的各种实时数据处理。

5.jpg

为了适应大数据时代的分布式部署需求,SAP HANA采用了Share Nothing的设计理念,在大规模数据并发处理时,将数据分布到各个节点,分布式并行处理,以获得良好的线性扩展能力和大规模的集群部署能力。

6.png

下面我们来看一看一个普遍接受的IT技术架构-Lambda架构。Lambda架构由Storm的作者Nathan Marz提出。旨在设计出一个能满足实时大数据系统关键特性的架构,它具有高容错、低延时和可扩展等特性。该架构整合离线计算和实时计算,主要思想就是将大数据系统构建为多个层次:批处理层、实时处理层、服务层。如下图所示:

7.jpg

通过利用SAP HANA强大的实时计算能力和分布式部署架构,使得业界提出的Lambda实时大数据架构轻松实现。在Lambda架构下,数据首先实时的进入到SAP HANA中,对于需要汇总后产生价值的结果数据可以继续进一步的存储到HANA的内存存储中,对于暂时不需要的明细数据,可以通过SDA回写到HDFS去,这部分数据在需要的时候,通过Spark SQL引擎连接HANA Vora,同HANA内存中的数据一起转到HANA计算引擎中进行计算处理。比如Hadoop中大量的历史数据同HANA中现有的主数据结合起来的用户行为分析应用,就是一个比较典型的例子。

SAP HANA应用案例举例

案例一:Intel

Intel每年制造数亿个芯片,每个芯片都有超过10亿多的晶体管需要测试,这意味着万亿级别的测试记录需要分析处理。Intel工程师和SAP数据专家一起成功设计并实施如何利用SAP HANA及Vora大数据软件,进行芯片制造的大规模计算,得到了极度高效的响应能力。

8.png

技术指标:

ü SAP HANA® 数据库可实现近乎3倍的数据压缩(加载51TB未压缩的数据)。
ü 预测性分析决策树CART可使18亿行数据在88秒内做好分析准备(轴心)。
ü 可使用 100 个平行文件在14分钟48秒内将大约530GB的未压缩数据(或 60.4 亿行)加载到动态分层,并且平均仅占用14%的CPU。
ü 数据生命周期管理器可在2.5个小时内将4.29亿行数据从热存储层迁移到温存储层。
ü 温存储层最多可存储6,690亿行(可扩展存储的动态分层功能),热存储层则最多可存储700亿行。

业务收益:

ü 减少多个数据跃点,提高整体运营效率。
ü 为业务用户提供灵活、精细的报告,支持他们快速运行复杂的查询。
ü 通过将数据放到热存储层和温存储层,提供经济高效、可扩展的未来增长策略。
ü 通过加快上市速度,提高客户满意度。

案例二:某汽车厂商

某汽车厂商希望通过对于质量问题数据的积累,进一步根据预警模型分析结果可以结合车主车辆的行驶里程、使用时间、行驶区域,来帮助预判新投诉问题是否属于接近典型质量问题的状态。同时根据预警模型分析结果追溯车辆原生产的批次和时间,以查找同批次的车辆售后服务情况,提前采取行动以降低潜在的质量投诉。

通过基于SAP HANA的文本分析方法,包括汽车专业术语、语义分析、文本挖掘在内的技术,实现对经销商文本数据的在线分析形成文本分析结果集,之后通过结果集进行数据建模。如下图所示:

9.png

其中在文本分析阶段,主要使用了SAP HANA的“文本分析”功能。在预处理阶段,首先进行文本语言处理和基于字典和规则的行业术语词典定义,在文本分析阶段通过SAP HANA的文本分析引擎实现文本搜索和文本挖掘,并将得到的结果存储到SAP HANA数据表中。如下图所示:

10.jpg

得到文本结果集之后,需要通过聚类分析等手段对结果集进行建模处理,处理得到的结果最终以各种不同的形式展示给最终的用户,从而为某个车系车型的不同批次制定不同的售后服务策略。

11.jpg

通过SAP HANA的应用,不仅可以收集、整理、分析质量问题的发生实际情况,还能够利用相关高级功能,实现文本分析、聚类分析,从而为该汽车厂商提供差别化的售后服务,达到降低售后成本、预防风险的目的。

通过本章的内容阅读之后,您是不是觉得SAP的HANA平台无比强大了呢?那么针对传统结构化数据的数据仓库应用,SAP又将会有什么样的超强解决方案呢,欲知详情如何,且听下回分解。


作者介绍
谢爱华  Martin Xie
SAP方案架构部资深系统架构师/认证PMP
SAP方案架构部资深系统架构师/认证PMP,从事SAP行业超过17年,先后从事特大型企业IT战略规划、超大型信息系统蓝图设计与落地实现、业务流程梳理与重组。现担任SAP售前部门系统架构师,负责SAP绩效管控与商务分析产品的方案架构。
SAP ERPHANA大数据平台、数据仓库BW、商务智能BI、集团管控BPC等产品有深入的研究,著有专著《SAP商务智能实用开发与高级功能详解》。
楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 18:31

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表