BDTC PPT集萃（二）：Facebook、LinkedIn等分享的大数据架构

发表于 2014-10-13 15:41:20

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

从2008年60人规模的“hadoop in China”技术沙龙，到当下数千人规模的行业技术盛宴，七届BDTC（大数据技术大会）完整地见证了中国大数据技术与应用的变革，忠实地描绘了大数据领域内的技术热点，沉淀了无数极具价值的行业实战经验。同时，2014年12月12至14日，第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点，分享行业实战经验。

为了更好地洞悉行业发展趋势，了解企业技术挑战，在BDTC 2014召开前夕，我们将带大家一起对历届大会沉淀的知识进行挖掘，分享各IT巨头在大数据领域的探索之路。

大数据为企业的发展带来巨大商机的同时，也对大数据的架构提出了严峻的挑战，这里将为大家送上历届中国大数据技术大会PPT精粹的大数据架构与系统篇（下）。

以下为历届中国大数据技术大会PPT精粹的大数据的架构与系统篇（二）：

Apache Tez Committer Bikas Saha：下一代Hadoop

PPT下载——2013年第七届BDTC

Bikas Saha介绍，YARN的架构虽然看上去与Hadoop 1.x非常类似，但是逻辑上两者却存在着很大的不同。相对于Hadoop 1.x，YARN的优势主要体现在以下几方面：增加了新的应用和服务、增强了集群的利用率、规模更大、实验的灵活性、共享服务等，并对各个方面进行了详细的展开说明；同时，他还分享了YARN愿景的规划，通过YARN可以把所有的数据储存在一个地方，并且用不同的方式进行交互，同时提供性能预测。比如Windows或其他操作系统可以对系统内不同的资源进行分配和管理，YARN也能够进行这种集中管理。

Hortonworks技术Leader Gunther Hagleitner：Apache Hive&Stinger

PPT下载——2013年第七届BDTC

Gunther Hagleitner首先描绘了Stinger诞生的背景，希望通过社区推动下一带Hive的发展，将Hive的查询速度提升100倍，不仅能够支持交互查询的功能，同时能够提升其可扩展性；接下来，Gunther详细介绍了插入、更新、删除操作，对于Hive而言，所加入的一些相关内容就是实事的交易，客户的表格可能每个小时都要进行更新或删除。每次更新都会存储一个新文件，并记录所有的变化。当查询的时候，会出现一系列交易的列表，他们会把这些这些文件进行整合。最后，Gunther也谈到了Tez。Gunther表示Tez替代了MapReduce。使用Tez后，Tez可以针对不同的任务MapReduce任务进行提交。

Hadoop PMC Sze, Tsz-Wo (Nicholas)：HDFS在Hadoop 2.0中的创新

PPT下载——2013年第七届BDTC

Nicholas介绍了如何通过Multiple Namenode Federation解决Namenod的单点问题，Multiple Namenode Federation有多个Namenode，而且每一个Namenode都是独立的。对于HA的2.0版，包括支持热备（热备的NameNode会在内存中维持数据结构），支持手动或自动的失效备援。在自动失效备援情况下，能够激活NameNode选择机制以及采用ZooKeeper侦测失效；周期性的NameNode健康检查；重放缓存。他还介绍道在没有文件系统快照前，删除文件是不能够恢复的，也不能在某时间点恢复，更不能周期性的恢复。

Facebook数据基础构架团队软件工程师董思颖：Facebook开发HDFS和HBase新进展

PPT下载——2012年第六届BDTC

董思颖详细介绍了Facebook的NameNode和DataNode之间如何来实现数据增量，他以“人口普查-出生报告-死亡报告”来形象地描绘二者之间“完全报告+增量”的过程。而针对困扰业内的“如何实现NameNode不停机升级”这一问题，提供了Facebook的实现方法。在Facebook看来，HDFS和HBase是一个非常重要的基础设施，可以被用在各种不同的产品上，对于两者的使用，Facebook从数据库到实时随机读写再到实时连续读写都有很多更新，这个更新成长的过程很漫长，但是Facebook持续进行各种改进，来帮助HDFC成为一个更通用、更稳定的数据平台。

LinkedIn Hadoop核心团队俞晨杰：LinkedIn大数据应用和Azkaban

PPT下载 ——2013年第七届BDTC

俞晨杰首先介绍了LinkedIn在Hadoop平台上的大数据应用，包括其数据产品和推荐平台等；然后介绍了其工作流调度平台Azkaban，详细说明了他们如何设计Azkaban来满足大数据产品及工程师设计的要求。俞晨杰表示，Azkaban最大的特色是非常强调可视化，这对于提高公司生产力是十分关键的。另外，他还提出，Azkaban的另外一个特色是支持各种各样的大数据平台，有非常好的兼容性，包括支持Hadoop 0.20、1.x和2.x；兼容Hadoop多种配置，如Hadoop security；支持Pig、Hive等SQL引擎的新旧版本兼容；最后还支持一些非Hadoop平台，如Teradata。

阿里数据平台事业部海量数据技术专家罗李：构建一个跨机房的Hadoop集群

PPT下载 ——2013年第七届BDTC

罗李介绍了阿里巴巴Hadoop集群——云梯的现状，以及产生跨机房部署的背景。阿里从2008年开始搭建Hadoop集群，于2009年上线。这之后，集群的代码一直是公司自己维护。随着之后规模逐渐增加，需要面对跨机房的Hadoop部署问题和扩展性等问题。他表示，存储利用率超过80%是非常危险的信号，尤其是有一些机器数据非常满，甚至有两三千台达到了98%，这是非常危险的。计算利用率接近100%，实现跨机房部署，困难其实非常多，包括不支持NameNode扩展，带宽如何解决，数据应该怎么去分布，最后怎么样把这个机房90%的数据进行迁移，这个数据量达到50多个P，迁移会非常慢。

腾讯高级工程师赵伟：HIVE在腾讯分布式数据仓库实践

PPT下载 ——2012年第六届BDTC

腾讯高级工程师赵伟介绍了公司的TDW核心架构，HIVE，MapReduce，HDFS及PostgreSQL构成。他分享了最核心的HIVE模块在TDW中的实践经验；HIVE是一个在Hadoop上构建数据仓库的软件，它支持通过类SQL的HQL语言对结构化数据进行操作。最初的时候，HIVE的功能仍然存在着一定的限制，使用门槛过高、定位困难、性能不高，也不够稳定。根据这些不足，TWD对HIVE进行了大量的定制和优化：功能扩充、易用性提升、性能优化和稳定性优化。这些实践工作使得HIVE的功能、效率、性能和稳定性有了显著提高。接下来腾讯还需做进一步的努力来提升HIVE。

VMware产品线经理董波：VMware助力企业应用Hadoop三阶段

PPT下载 ——2012年第六届BDTC

董波认为Hadoop在企业内部的使用可以分为三个阶段：试点POC是第一阶段，从业务线开始，使用1-2个用例验证Hadoop价值，典型应用一般在20个节点以下；Hadoop生产应用是第二阶段，可以为部门服务，更多使用用例，核心Hadoop和其他相关软件，几十个到数百个节点的典型规模；大数据生产应用是第三个阶段，可以为许多部门服务，经常支持一部分关键任务流程，与其他大数据局服务整合。如MPP DB，NoSQL等。而在这三个阶段中，VMware的虚拟化都能有所助力，让Hadoop更加简单、弹性和高可用。

智明星通CTO穆黎森：基于Drill的实时游戏数据分析系统

PPT下载——2013年第七届BDTC

穆黎森介绍了Xingcloud作为一个数据分析平台需要从数据挖掘出一些结论，包括今天有多少人登陆，收入是多少，即针对这些问题建立模型，即用一张表就可以描述出，谁在什么时候做了什么事情，而这些问题都可以转化成SQL语言执行。接下来策划或运营人员根据这些结论了解运营情况之后，就能深入的挖掘DAU背后的信息。在此引入了用户的概念，并且一个用户是有属性的，根据属性值可以有效的解决问题。穆黎森在演讲中透露称，Xingcloud目前每天大约有20亿次插入/更新、200K+聚合数据，查询响应时间平均大约在10秒，而对于他们的Drill，目前也已经加入了分布式，与此同时存储引擎上加入了写入接口等。

中国移动研究院云计算研究员郭磊涛：HBase Coprocessor优化与实验

PPT下载——2012年第六届BDTC

郭磊涛介绍HBase是在Hadoop之上的非关系型、面向列存储的开源分布式结构化数据存储系统。HBase的数据完全在HDFS上，而且结构域HDFS非常类似，包括三层索引结构：MetaTable、RootTable和Zookeeper file。郭磊涛还用实例详解了HBase Coprocessor通过Observer和Endpoint两种方式的实现过程，在应用开发中会遇到region分布错乱、客户端网络瓶颈以及CP不稳定等问题，通过Region数据本地化，CP的本地汇集等方式能够很好地提高其效率和优化配置等。

2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会协办，中科院计算所与CSDN共同承办的第八届中国大数据技术大会（Big Data Technology Conference 2014，BDTC 2014）将在北京新云南皇冠假日酒店隆重举办。本届大会将围绕“大数据基础建设”、“大数据生态系统”、“大数据核心技术”、”大数据应用之互联网技术实践”、”大数据应用之传统企业技术实践”等议题展开，近百位专家将亲临现场，分享他们的技术实战。

帐号		自动登录	找回密码
密码			立即注册

BDTC PPT集萃（二）：Facebook、LinkedIn等分享的大数据架构

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1