最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Pinot:LinkedIn的实时数据分析系统

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-14 09:14:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Pinot是一个适用于Web的实时数据分析系统,由LinkedIn设计开发,现在已经成为LinkedIn的分布式实时数据分析基础设施,支撑着LinkedIn内外30多个分析产品。LinkedIn的各种数据跟踪功能都是在Pinot的基础上实现的,如最近哪些用户查看了特定用户的资料,哪些用户在关注某个公司等。
据GigaOM报道,在LinkedIn还是一家初创企业的时候,其工程团队分成了若干不同的组,每个组使用的数据存储系统差别很大,如将Oracle的关系型数据库用于查询,而将Voldemort用于键值存储。但随着LinkedIn的日益发展以及用户数据的增多,这些不同的系统变得难以扩展。
Praveen Neppalli Naga是LinkedIn的一名项目经理。他告诉GigaOM,为了解决上述问题,他与其团队开始构建一个集中式系统。该系统既要能够整合LinkedIn的所有数据,又要能够简化以它为基础的数据密集型产品的构建过程。为了集中管理LinkedIn的数据,他们选用hadoop基础架构模型作为Pinot的基础,并根据需要做了修改。然后,他们就可以编写Hadoop脚本,检索建有索引的用户数据。
由于LinkedIn的数据维度众多,Pinot需要能够支持多种类型的索引。例如,一个人就读的大学是一个不会变化数据点,而他拥有的技能类型会发生变化,因此它们的索引方式应该不同。下面是Pinot的系统架构图:
另外,为了能够快速准确的响应用户请求,LinkedIn工程团队还必须找到一种方法,既能保证与请求相关的最新数据随时可用,又能保证老数据的可用性,同时,老数据又不会混入新数据妨碍用户的查询。为了实现这个目标,他们借助Apache Kafka实现了实时数据索引过程。
据Naga说,经过了大约两年的开发,Pinot现在成了LinkedIn事实上的数据分析平台。他们正在评估将其开源,并围绕它建立一个开发社区,以推动它进一步发展。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-3 00:47

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表