【视频】杨伟锋：大数据技术在海量的应用与挑战

发表于 2015-6-4 12:47:03

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由乔帮主于 2015-6-4 12:49 编辑

中小企业应该如何应用大数据技术？海量大数据平台设计上有何特点？

5月29日，海量大数据研习社第十次活动既海量大数据技术沙龙首次活动在天津智慧山纳吧开讲。来自海量的研发技术总监杨伟锋从企业实际应用的角度来讲解大数据技术。

海量大数据平台设计背后的故事

海量成立于1999年，在2009年，整理公司积累的数据以及相关研究技术，搭建了海量大数据平台。平台以语义结构化引擎(Semantic引擎--对文本数据提取关键词、摘要、分类、对整体数据聚类算法）、行为结构化引擎(Behavior引擎)、形式结构化引擎(Form引擎--将非结构化数据进行结构化）为核心动力，以大数据技术、智能计算技术为基础，从海量的互联网信息中，与合作伙伴一起为用户加工和挖掘有价值的知识和情报。

【海量大数据平台业务架构】

海量大数据平台业务架构定义为数据采集-存储-挖掘，在平台1.0设计之初，以轮循的方式处理数据，随着业务的推动和数据量的增长，发现实时数据在处理过程有延时，批处理数据方式效率不高，关联数据的存储和分析存在问题；

为了解决此问题，在平台2.0升级架构中，全面引入Hbase/hadoop，将所有的应用情景都放在Hbase/Hadoop上。后期使用中发现，Hbase/Hadoop确实能解决批处理问题，效率大幅度提升，但Hbase/Hadoop集群的稳定性难以控制，且集群在维护时需暂停一部分业务，对实时业务有较大影响。

于是在后期平台设计中，加入分布式的消息中间件(MetaQ)，功能简单，稳定高效，解决原有轮循方式的数据延时问题。实时系统原来的轮循模式改为发布订阅模式；并采用解耦流式数据处理和批数据处理模式，当集群出现问题时，流式数据挖掘的业务不会受任何影响，且也保证了数据的安全性。