168大数据

标题: 【视频】杨伟锋:大数据技术在海量的应用与挑战 [打印本页]

作者: 乔帮主    时间: 2015-6-4 12:47
标题: 【视频】杨伟锋:大数据技术在海量的应用与挑战
本帖最后由 乔帮主 于 2015-6-4 12:49 编辑

中小企业应该如何应用大数据技术?海量大数据平台设计上有何特点?
5月29日,海量大数据研习社第十次活动既海量大数据技术沙龙首次活动在天津智慧山纳吧开讲。来自海量的研发技术总监杨伟锋从企业实际应用的角度来讲解大数据技术。

海量大数据平台设计背后的故事

海量成立于1999年,在2009年,整理公司积累的数据以及相关研究技术,搭建了海量大数据平台。平台以语义结构化引擎(Semantic引擎--对文本数据提取关键词、摘要、分类、对整体数据聚类算法)、行为结构化引擎(Behavior引擎)、形式结构化引擎(Form引擎--将非结构化数据进行结构化)为核心动力,以大数据技术、智能计算技术为基础,从海量的互联网信息中,与合作伙伴一起为用户加工和挖掘有价值的知识和情报。
【海量大数据平台业务架构】

海量大数据平台业务架构定义为数据采集-存储-挖掘,在平台1.0设计之初,以轮循的方式处理数据,随着业务的推动和数据量的增长,发现实时数据在处理过程有延时,批处理数据方式效率不高,关联数据的存储和分析存在问题;

为了解决此问题,在平台2.0升级架构中,全面引入Hbase/Hadoop,将所有的应用情景都放在Hbase/Hadoop上。后期使用中发现,Hbase/Hadoop确实能解决批处理问题,效率大幅度提升,但Hbase/Hadoop集群的稳定性难以控制,且集群在维护时需暂停一部分业务,对实时业务有较大影响。

于是在后期平台设计中,加入分布式的消息中间件(MetaQ),功能简单,稳定高效,解决原有轮循方式的数据延时问题。实时系统原来的轮循模式改为发布订阅模式;并采用解耦流式数据处理和批数据处理模式,当集群出现问题时,流式数据挖掘的业务不会受任何影响,且也保证了数据的安全性。
【海量平台2.0设计第二版设计示例】

杨伟锋建议,在选用开源系统的时候一定要针对业务应用情景选取对应的,不要盲目的认为一个系统就能搞定所有的问题。除此之外,他还介绍了Hadoop、Spark等大数据开源软件的优缺点,以及海量大数据平台的主要应用等内容。

给中小企业应用大数据的中肯建议
对于没有财力、物力、没有技术团队(开发、运营、运维)、没有数据的中小企业,他建议从两个方面来解决应用大数据技术带来的问题:

1 转变思维
以数据说话,重视数据,决策依赖于真实的数据 利用数据创造商业价值,要从意识上开始重视数据。


2 打造自己的“小”大数据系统
分析自己的业务需求 ,以业务驱动技术
要有选择性使用开源工具和技术,不要闭门造车,学会借力
不要走大而全的通用性平台路线
找一个快速体现价值的业务点,快速迭代验证

演讲完整视频
http://static.video.qq.com/TPout.swf?vid=u0155mmub6v&auto=0




[groupid=284]Hadoop中国[/groupid]




欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2