最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

运用大数据技术集成数据仓库架构

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-13 15:43:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分析

    设计下一代数据仓库平台,需要确定整个数据元素集的分析处理需求并对其划分类别。因为我们可以在数据发现层次上创建分析,虽然这个层次主要受到业务消费者的关注和驱动,与企业应用的实际情况不符合,但是我们一样可以在从数据仓库获得数据之后再创建分析。

    图1显示了下一代数据仓库平台的分析处理过程。数据集成层是关键架构集成层,是我语义、报表和分析技术的组合,它基于语义知识框架,是下一代分析和商业智能的基础。本章后面将介绍这个框架。

   
    图1 下一代数据仓库平台的分析处理过程

    数据架构的最终确定是最耗费时间的任务,但是一旦完成,它就可以为物理部署提供坚实的基础。物理部署将使用到前面介绍的技术,其中包括大数据和RDBMS系统。

    物理组件的集成与架构

    下一代数据仓库将部署在异质基础架构和能够把传统的结构化数据和大数据一起整合到一个可扩展运行环境的架构上。有几种方法可以部署物理架构,但是每一种方法都有各自的优点和不足。

    下一代数据仓库平台的物理架构将会面对的主要挑战包括数据加载、可用性、数据容量、存储性能、可扩展性、数据的多样变化查询要求、运营成本和环境维护。下面将逐一介绍这些挑战。

    数据加载

    由于没有明确的格式、元数据或模式,大数据的加载过程只是直接查询数据并将它存储为文件。如果要处理系统的数据源,同时又要处理超大数据或微批处理数据,那么这个任务可能会非常复杂。在这种情况中,可以用一个经过配置和优化的设备来处理这些极端情况,而不要用某一个专业部署。这种方法的缺点是需要定制架构配置,但是它仍然是可管理的。

    平台数据的持续处理可能会在一段时间里产生资源争夺问题。这种情况常见于大文档、视频或图像。如果这个需求对架构来说很重要,那么就适合使用一个软设备,这样在配置和安装过程就可以避免这个问题。

    大型环境的MapReduce配置和优化可能很有难度,但是设备架构会提供一些参考架构安装步骤,帮助我们简化这个过程。

    数据可用性

    数据可用性一直是所有涉及处理和转换最终用户数据的系统的难题,大数据也不例外。hadoop或NoSQL的优点是能够降低这个风险,同时使数据在获取之后马上就可用于分析。不足是需要快速加载数据,因为没有任何预转换步骤。

    数据可用性取决于SerDe或Avro层次的元数据特殊性。如果在获取数据时对它们执行了足够详细的分类,那么它们就可以马上用于分析。

    由于大数据层次的数据不存在更新,所以处理包含更新的新数据将产生重复数据,我们必须处理这些重复数据,才能减小它们对于可用性的影响。

    数据容量

    数据的内在特性决定了大数据容量很容易失去控制。在每个数据获取周期中都一定要特别注意数据的增长。

    数据停留需求各不相同,它主要取决于数据的性质、新近程度及其与业务的关系:

    合规性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法规可能会影响数据安全性和存储。如果计划要使用这些数据类型,那么一定正确规划。

    法律授权:有一些事务数据集不能在线存储,法院要求使用这些数据来发现集体诉讼的意图。大数据基础架构可以作为这种数据类型的存储引擎,但是数据授权一定要符合一些需求和额外的安全要求。这种数据容量可能会影响整体性能,而且如果在大数据平台上处理这些数据集,那么设备配置可以给管理员提供一些工具和方法,帮助他们将基础架构划分到不同的区域,为数据标记不同的区域标签,从而减小对于风险和性能的影响。

    数据探索和挖掘是一个非常普通的活动,它是在各个组织中实现大数据抓取的一个动因,它也会在数据处理之后产生大规模数据集。这些数据集需要保存在大数据系统,然后定期清理和删除中间数据集。这是各种组织经常忽略的一个领域,而且可能在一段时间之后对性能产生严重影响。

    存储性能

    在创建大数据系统时,磁盘性能是一个重要考虑因素,设备模型可以更多地关注存储类型和分层架构。对于存储基础架构的长期规划和增长管理而言,它可以作为一个起步工具。

    如果在大数据处理中计划组合使用内存、SSD和传统存储架构,那么不同层次数据的维持和交换都会花费大量的处理时间和处理周期。我们需要特别注意这个领域,设备架构专门为这种复杂存储需求提供了一种参考。

    运营成本

    计算一个数据仓库及其大数据平台的运营开支是一项复杂的任务,运营成本包含基础架构的初始采购费用、实现架构的劳力成本及持续维护所需要的基础架构和劳力成本,包括获取外部咨询和聘请专家的费用。


楼主热帖

本帖被以下淘专辑推荐:

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖1 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-4 19:19

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表