168大数据

标题: Smartbi和Excel数据透视表比较-美国金融机构客户投诉数据 [打印本页]

作者: bdhh    时间: 2015-5-15 19:51
标题: Smartbi和Excel数据透视表比较-美国金融机构客户投诉数据

作为数据分析师,想必你能够熟练的使用Excel数据透视表:自由组合行列字段、对数据进行多层次汇总、排序筛选、数据作图等等。而且,当原始数据发生更改时,可以立刻更新数据透视表。





       但当你拿到一个几十万行的Excel文件,该怎么办呢?Excel毕竟只是桌面应用,处理的数据量有限,2003版只能处理6.5万行数据,2007/2010/2013支持100万行,但在实际应用中,当数据量变大后,Excel 的性能剧降,打开文件可能就需要几分钟。

      大数据时代,Smartbi为数据分析师提供了新的武器,它内置了列存储数据库infobright,这是TB级别的数据库,支持亿、十亿条数据,用它来处理几十万行数据,自然不是问题。在前端操作界面上,Smartbi xQuery自助分析模块提供了浏览器版的数据透视表,操作方法和Excel类似。





     下面以美国金融机构投诉数据分析为例,比较一下两个软件。数据来源于消费者金融保护局(Consumer Financial Protection Bureau),数据量37万条,数据时间跨越2011年12月至2015年4月。数据项目有投诉编号、投诉产品、子产品、问题、州、投诉时间、投诉公司等。





1.打开数据的速度

Excel文件大小约45M,在一台高配置电脑(四代酷睿I5+8G+SSD),Excel 2010打开文件约需30秒时间。

Smartbi需要先将Excel文件导入系统,首次导入步骤需要花费3-4分钟,但之后使用数据均无需任何时间。




2.界面比较

Excel数据透视表和smartbi的界面很接近,不同点在于Excel采用了目录型的结构,Smartbi采用了表格模式。当层次结构多时,Excel目录结构不太好,但可以通过设置布局调整为表格模式。






3.重计算速度

Excel在添加、删除维度后,重新计算的过程略显迟滞,Smartbi相对较快。30万行数据的差距不大,相信在更大数据量下,Smartbi的优势会更明显。

4.添加计算字段

原始数据只有日期字段,分析时需要按年度、月度进行汇总,所以需要添加计算字段,Excel在原始数据中插入两列,分别用Year()、Month()函数获取。






Smartbi可以新建计算字段,同样用函数提取年份、月份。







5.排序比较

Excel的排序功能较为隐蔽,尤其涉及多级排序时,需要多次选择排序字段。





Smartbi提供了分级排序功能,分析多层次数据时很方便。





6.数据筛选

Excel采用下拉框的方式来选择筛选项,对于小数据非常方便,但如果选择项目很多时略显难用。筛选项的数量上限是1万个。





Smartbi采用了对话框来选择筛选项,较适合大数据量,筛选项的数量没有上限。





7.交叉表

Excel交叉表的默认界面不会折行显示列标签,会把列撑的很宽,不太好看。当然你可以调整列宽,但操作上显的复杂。





Smartbi的默认行宽是固定的,数据会折行显示,界面更加友好。




总结:

Excel数据透视表确实强大,但当它碰到大数据的时候,就会发现它也有不爽之处:性能问题、界面细节问题、排序问题等等。Smartbi通过前端界面及后端存储方面的创新,对于大数据的分析显然更具优势。

现在你可以在线体验Smartbi的创新功能(demo.smartbi.com.cn),也可以下载试用(www.smartbi.com.cn/download)。








欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2