最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

BI基本架构和ETL断想

[复制链接]
跳转到指定楼层
楼主
发表于 2014-8-13 19:40:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Business Intelligence(BI) = Data Warehouse(DW) + OLAP + Data Mining(DM)
    商业智能=数据仓库+联机分析+数据挖掘
    做BI的目的是帮助用户进行决策分析,从多维的角度来分析现状,给决策者做出正确的决策提供可靠的数据基础与背景,为企业的发展做出正确的导向。然而在国 内做BI确走入了一个误区,通常客户拿BI当报表系统来用,这有点大才小用的感觉,还有就是各个公司水平不同,常常有个别公司拿着拿着非BI系统来欺骗客 户给BI蒙上了一层不好的印象,总的来说近两年BI在国内的发展还是比较顺利的,有越来越多的企业和机关来开始做自己的BI系统,比如银行、税务、保险等 行业。

BI通常的架构或基本架构是:
    源数据->ODS->DW->OLAP->前端。
    常用源数据类型:关系数据库、文本数据等。
ODS :操作数据存储(Operation Data Storage)主要用途是将多个数据源的数据集成到一个临时缓冲区中供数据仓库使用。一般情况下ODS的数据不会保留很长时间根据需要1个月或3个月, 如果客户有查询要求的话那么ODS可能需要一直保留,通常情况下不用备份。ODS一个好处是在数据仓库与源数据之间做了一个缓冲减轻了源系统压力,我们在用需要操作用户源系统。比如:我们从源数据向数据仓库中加载事实表数据时,这时候我们需要进行聚合操作,如果没有ODS层,那么所有聚合操作的压力是在源系统完成的,这就会给客户源系统带来很大的压力,这是在项目实施过程中经常遇到的一个问题。

DW:数据仓库(Data Warehouse)简单说就是存储事实表和维表数据的数据库而已。
定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
    数据仓库一般采用业界主流的关系数据库,如Oracle、DB2、SQL Server等。
维表:存储描述事实表中数据特性的表,它存储用户分析数据的角度,它给OLAP提供旋转、切片的数据基础。
事实表:存储经过一定聚集的历史数据,是星型架构或雪花型架构的中心。每个数据仓库含有一个或多个事实表。
事实表包括索引和数据两部分,索引部分就是描述事实表数据特征的维表的外键,数据就是事实表中要存放的数据,也就是我们通常说的度量值的来源。

    OLAP:联机分析处理(On-Line Analytical Process)工具有Essbase,Microsoft analysis等。
OLAP的基本思想是使企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。使用OLAP工具我们可以将维表和事实表做相应的连接,然后做聚合操作保存成cube从而达到多角度分析数据的目的。
    前端展示工具:前端展示工具是辅助用户来多角度,自定义展现报表形式的工具,是对OLAP工具的一个不错,通常OLAP工具只能做简单的数据展示,上钻、下钻等。前端展示工具可以根据用户需求展现曲线图、柄形图等,通过展示工具我们可以做一些个性化设置,权限控制等等,常用工具BO,Brio,cognos,BI Office,值得一提的是BI Office是国内一家BI公司的产品,可以是国内前端展示工具的代表。

ETL讨论:

    开发过程中工作量最大的部分也是最难控制部分就是ETL,几乎ETL要占整个系统的40%的工作量。
ETL常用工具:Data Stage、Informatic、Microsoft DTS等。

做ETL工作原则:
1、要对源数据有充分了解,这需要业务系统工程师配合。不只要了解所用到源系统表、字段的意义,还要对数据的质量进行验证。
2、跟客户确认脏数据的处理方式(丢弃还是默认其它),这会直接影响到最后报表的误差率。
3、确认数据存放时长,只有了解数据存放时长,才可以更好的进行事实表的存储方式(比如分区方式等)
4、及时验证数据的准确性,当我们做了一定的历史数据抽取后要及时跟客户验证数据的准确性,否则等系统上线后发现数据不正确,此时悔之晚矣。
5、确定调度方式,调度不同会影响数据抽取完成时间,比如1周的数据安排在1天调度完成跟分成7次调度的响应时间是完全不同,这要根据应用确定。
6、流程监控与故障处理,这是必不可少的,我们监控ETL的允许情况,还有任何程序都不能保证永不出错,所以我们需要做确保故障出现后能够弥补。

以上就是在做BI过程中的一些体会,希望对大家有所帮助,有什么不对的地方请大家指出,希望和大家多多交流。
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-1 03:39

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表