168大数据

标题: sap hana面试题必会问题 [打印本页]

作者: 168主编    时间: 2018-11-1 11:00
标题: sap hana面试题必会问题
sap hana常问的面试题总结:


1,sap hana是内存数据库,是可以取到实时数据的。支持列和行两种计算,并且可以根据需求互相转换,这个不是hana独有的技术,但是hana做的很好,以往的数据库是行存储的,一张有有很多字段,但是我们也想就需要两三个字段,我们的有效数据利用率就很低,但是列存储的时候就可以需要那两个字段就读取那两个字段,提高效率。
        比如一个表有100个字段,有时我们就需要5个字段信息,但是是行存储的,就要把这条数据全部加载到内存,再取我们需要的5个字段,这就有95%的数据是不需要的,5%的有效数据,造成资源的浪费。
2,高压缩比20:1 比如:20个g的数据,通过hana的高压缩可以就占用1个g。
3,内存和硬盘的运行速度是1000:1,这个是硬件的提升。
4,数据的分割,可以把数据分割到各个server上,负载均衡。
5,普通数据库读取数据,是从硬盘读入内存,有io开销,很浪费资源,但是hana是内存数据库,不需要从硬盘读入到内存中,没有了io,提高了速度
6,在hana中使用slt服务器,slt服务器一直在来回的复制数据。
7,在bw中我们使用cube,使用星形结构,用空间换时间,但是hana的性能很好了,不需要这些,在bw7.3的sp5补丁后可以做bw on hana 但是不用cube了。
8,不使用聚集了,在bw中经常使用聚集来出报表,但是这样会浪费大量内存,hana是靠内存收费的,所以也就不用聚集了
9,联想现在在测试阶段,已经有大约100t的数据,现在拿出大约20t数据做开发测试,正在逐步的向hana转移
10,农夫山泉原来一个计算运输的表,要跑25个小时能计算完,现在只需要57秒。
11,hana是根据内存大小来收费的,今年联想签了个5tb内存的大单,原来是512gb的,据说是全球第2大单。
12,



一般的处理机制是从前段展示层下达一个看报表的命令,发到中间的application层,application层去解析,根据需求去DB数据库层取数据,数据拿到application层,再做数据的处理,同时再回写给数据库,再把报表返回到前段展示层。
Hana是这样,前段展示下命令,发到application层,application就解析下,发到DB数据库层,数据的处理全在DB层中处理,再把报表结果返回到application层,再传到前段展示层。
        Hana这种处理方式,会比原来的速度提高很多倍,因为,数据库中处理数据会比application层快很多,不需要把大量数据提取到application层,网速的限制,拷贝数据的时间限制都制约了速度,同时处理完了又把数据回写到数据库,又浪费很多速度和资源,再有内存中的速度是硬盘的1000倍,没有了io的开销,都大大提高的速度。


SAP HANA studio: Information Modeler
数据
 Attributes – 描述性数据(类比于SAP BW术语中的‚Characteristics‛
– Calculated Attributes  
 Measures – 数量化并经过计算的数据(类比于SAP BW的‚key figures‛
– Calculated Measures & Restricted Measures
Views
 Attribute Views – 即维度(dimensions)
 Analytic Views – 即信息立方体(cubes)
 Calculation Views –类似BW中带有服务概念的‚virtual provider‛






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2