最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【视频】杨伟锋:大数据技术在海量的应用与挑战

[复制链接]
跳转到指定楼层
楼主
发表于 2015-6-4 12:47:03 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 乔帮主 于 2015-6-4 12:49 编辑

中小企业应该如何应用大数据技术?海量大数据平台设计上有何特点?
5月29日,海量大数据研习社第十次活动既海量大数据技术沙龙首次活动在天津智慧山纳吧开讲。来自海量的研发技术总监杨伟锋从企业实际应用的角度来讲解大数据技术。

海量大数据平台设计背后的故事

海量成立于1999年,在2009年,整理公司积累的数据以及相关研究技术,搭建了海量大数据平台。平台以语义结构化引擎(Semantic引擎--对文本数据提取关键词、摘要、分类、对整体数据聚类算法)、行为结构化引擎(Behavior引擎)、形式结构化引擎(Form引擎--将非结构化数据进行结构化)为核心动力,以大数据技术、智能计算技术为基础,从海量的互联网信息中,与合作伙伴一起为用户加工和挖掘有价值的知识和情报。
【海量大数据平台业务架构】

海量大数据平台业务架构定义为数据采集-存储-挖掘,在平台1.0设计之初,以轮循的方式处理数据,随着业务的推动和数据量的增长,发现实时数据在处理过程有延时,批处理数据方式效率不高,关联数据的存储和分析存在问题;

为了解决此问题,在平台2.0升级架构中,全面引入Hbase/hadoop,将所有的应用情景都放在Hbase/Hadoop上。后期使用中发现,Hbase/Hadoop确实能解决批处理问题,效率大幅度提升,但Hbase/Hadoop集群的稳定性难以控制,且集群在维护时需暂停一部分业务,对实时业务有较大影响。

于是在后期平台设计中,加入分布式的消息中间件(MetaQ),功能简单,稳定高效,解决原有轮循方式的数据延时问题。实时系统原来的轮循模式改为发布订阅模式;并采用解耦流式数据处理和批数据处理模式,当集群出现问题时,流式数据挖掘的业务不会受任何影响,且也保证了数据的安全性。
【海量平台2.0设计第二版设计示例】

杨伟锋建议,在选用开源系统的时候一定要针对业务应用情景选取对应的,不要盲目的认为一个系统就能搞定所有的问题。除此之外,他还介绍了Hadoop、Spark等大数据开源软件的优缺点,以及海量大数据平台的主要应用等内容。

给中小企业应用大数据的中肯建议
对于没有财力、物力、没有技术团队(开发、运营、运维)、没有数据的中小企业,他建议从两个方面来解决应用大数据技术带来的问题:

1 转变思维
以数据说话,重视数据,决策依赖于真实的数据 利用数据创造商业价值,要从意识上开始重视数据。


2 打造自己的“小”大数据系统
分析自己的业务需求 ,以业务驱动技术
要有选择性使用开源工具和技术,不要闭门造车,学会借力
不要走大而全的通用性平台路线
找一个快速体现价值的业务点,快速迭代验证

演讲完整视频




来自群组: Hadoop中国
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 01:09

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表