最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

怎么搞个大数据平台?

[复制链接]
跳转到指定楼层
楼主
发表于 2016-1-26 10:28:07 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。
解决问题时需要哪些技能呢?
直觉和数据分析能力。
当你去处理还没发生的事件,即便是很大数据量的分析,也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更可信,因为它排除了决策人的偏好、品味和经验,客观对待问题。
毫无疑问数据很重要,但不断增长的数据使得数据处理越来越难。我们需要的不仅仅是数据,还有技术。大数据科技存储了大量的数据,搜索出有意义的可视化数据,通过预测数据为应用程序进行内部业务处理。为让大家更为清楚地了解大数据平台技术,本文把不同的平台技术分类成三方面:“存储系统”、“处理系统”和“分析方法”,并且描述相关的产品和技术。
存储系统方面
Parallel DBMS
NoSQL
这两个系统都用外扩方法存储大数据。
Parallel DBMS
目前的RDBMS技术适用于所有单系统邻域,专业的架构类系统让处理OLAP,文本,串流,和高纬度数据变得更出色。同时随着环境的变化,RDBMS对此也在OLTP处理领域做出了相应的改变。
NoSQL
NoSQL,是一个新存储系统的总括,为了简化碎片简易定义的数据模型而出现。它是分布的基础,并使得在一个分布复制环境或者约束隔离下的要求没那么严格。
VoltDB
VoltDB系统是由适合高性能的OLTP环境的格式组成,通过水平分割表数据建立高速率的OLTP系统。
图1展示了要求仅在一个分区内操作的某个任务连续地在相应的分区内被执行,并且需要在多个分区处理的某一任务被协调者处理。如果有很多操作需要在几个分区处理,行和大小不宜过大。
SAP HANA
SAP HANA是SAP公司的一个基于记忆的存储系统。它的特点是组织一个系统最佳化的分析任务,比如OLAP。如果所有数据在系统内存内,那么重中之重是突破内存和CPU缓存之间的瓶颈。为了最小化缓存缺失,处理带有时间的连续数据是更有利的,这意味着分析许多OLAP时列结构表可能更有利。
面向列的表有很多优势,典型实例是一个高数据压缩率和处理速度。如果一个相同的数据域,与完全整合在一起的数据块相比,几个数据域对数据压缩更好。下面的图展示了行结构和列结构方法的简明对比。
Vertica
Vertica是OLAP专业的数据库,它通过列方法在磁盘上存储数据。不共享方式的MPP结构包含一个最佳化写入的存储,写入更快,在压缩的形式下读入存储,并且管理双侧数据流元组移动。下面的图3帮助理解Vertica结构:
Greenplum
Greenplum是一个非共享MPP结构的数据库,基于PostgreSQL产生。保存的数据可以选择行或列方式。数据存储在服务器段,并且由日志传输的方式测试段单位复制使得其可用。
1.一个由SMP结构主机运行的查询执行计划和聚集的结构,而由MPP结构在S-BLADE节点处理查询来执行。
2.每个S-BLADE是通过一种被称作FPGA特殊的数据处理器(现场可编程门阵列)和磁盘连接而成。
3.每个S-BLADE和主机使用IP地址连接到网络。
与其他系统不同,FPGA对数据进行压缩过滤、记录或柱;在事务处理方面,它具有过滤或转换功能。在处理大数据的时候,它遵循的是在执行位于数据操作的数据时尽可能减少不必要数据的原则。
处理方面
并行处理的关键点是各个击破,即数据被分割在独立的类型,之后并行地处理它。就像矩阵乘法,它可以分割和运行每个运算。大数据处理的意思是把一个问题分割成几个小操作,并且将他们整合成一个单一的结果。但如果有操作依赖,那么不可能最好地使用并行操作,在保存和处理数据时很有必要考虑这些因素。
多核处理
被广泛熟知的处理大数据的技术是一个分布式数据多核处理的过程框架,比如Apache hadoop.
通过多核处理方法的数据有以下特征:
通过使用内置硬盘,而非特殊存储方式。
当很多电脑参与处理,一般情况下假设会有系统错误和硬件错误,而非例外。
通过简化抽象的Maps和Reduce的基本操作,你可以解决很多复杂的问题。即使是不熟悉平行程序的程序员也能轻松执行数据的并行处理。
通过使用大量计算机来实现高流通量。
下图展示了map-reduce方法的实现流程。存储在HDFS的数据被分给一个可行的工作者和一个表达值类型,并将结果存放在本来磁盘。数据服从减少过程,并生成一个结果文件。
Dryad
Dryad是一个图形框架,它能通过形成程序之间的数据通道加工并行数据。开发者用Map或者reduce 框架的就可以直接写Map和Reduce函数,而如果用Dryad,他们需要做图来处理相应的数据。如下图7描述了数据处理在Dryad和UNIX’s 通道的比较。
Dryad使DAG类型的数据流成为可能。尽管并行数据运算框架为处理大数据提供了足够的函数,但没有经验的开发者或数据分析员以及未成年人在用系统进入的时候仍会遇到障碍。因此,我们需要一种方法通过更高的标准抽象概念来帮助数据处理更简便。
Apache Pig
Apache Pig 提供一个更高标准的数据过程结构,允许通过结合处理大数据。它支持Pig Latin语言,有如下特征:
1.提供高标准结构,比如一个关系,包,和元组,包括int, long,和两个基本类型。
2.提供关系运算,比如FILTER, FOREACH, GROUP, JOIN, LOAD 和STORE。
3.你也可以指定自定义用户功能。
一个通过Pig Latin指明的数据处理程序,转换成逻辑执行计划,接着再转换成Map-Reduce 执行计划。下图显示Pig运算过程。
Apache Pig 是一个访问方式,使大数据处理程序在编程语言中成为可能,叫C或者Java。另外一个类似的访问方式是Google’s Sawzall.
一些技术帮助说明了数据处理,比如SQL,在编程语言中没有说明数据处理过程。典型的例子比如Apache Hive, Google Tenzing和微软的SCOPE.
Apache Hive
为了支持来自用户的扩张,它允许用户用标量值,集合体以及表格水平阐明功能。
分析方面
GNU R
GNU R 是软件环境,包含了专供统计分析和制图以及程序包的程序语言。它确保了一个平滑的矢量和矩阵数据过程从而优化语言上的统计核算。
在过去,R是使用单一CPU将数据放入电脑记忆中进行分析,但由于增加的数据要处理,它已经有了很多的发展。有些典型的例子如下:
利用多核的DoSMP 程序包;
Bigmemory package: 存储数据的共享存储器。它只存储关键的内存值并将其存在磁盘中;
雪包:它使R程序在计算机簇环境中执行成为可能。
如下图示范雪包如何在簇环境中处理数据的,这是一个典型的分类和攻克方法。
Map-Reduce运算已经越来越普通,我们可以看到技术,比如RHIPE, RHadoop包和Ricardo, 那里MR运算和R都是集合形式。还有rhive 包,它结合了如Apache Hive这样高标准数据处理技术。
Apache Mahout 应用于扩大数据分析运算。不仅Apache Hadoop,它也可以在多样环境中执行。它也通过存储数学库和Java 手机的方式提供有效包,比如向量矩阵或者其他NoSQL数据库作为数据资源的功能。
以上我们通过对大数据的存储、处理以及分析三个方面来了解大数据平台技术,我们希望大数据最终在处理技术上发挥自身作用,而将数据和技术要素结合起来则可以获得显著的结果。
参与人员:策划-徐睿艺、樊茜茜;编译-蔡志玉 ;编辑-连颖静 ;
推广-申洪浩、程杰超、周宇琪、李华芳
转载声明:欢迎转载,请您在转载时保留署名和引用信息。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-28 06:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表