马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。 为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考。本资源类型主要包括:大数据框架、论文等实用资源集合。 资源列表: 关系数据库管理系统(RDBMS)
框架
分布式编程
分布式文件系统
文件数据模型
Key -Map 数据模型
键-值数据模型
图形数据模型
NewSQL数据库
列式数据库
时间序列数据库
类SQL处理
数据摄取
服务编程
调度
机器学习
基准测试
安全性
系统部署
应用程序
搜索引擎与框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式数据库
商业智能
数据可视化
物联网和传感器
文章
论文
视频
关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key Map 数据模型 注意:业内存在一些术语混乱,有两个不同的东西都叫做“列式数据库”。这里列出的有一些是围绕“key-map”数据模型而建的分布式、持续型数据库,其中所有的数据都有(可能综合了)键,并与映射中的键-值对相关联。在一些系统中,多个这样的值映射可以与键相关联,并且这些映射被称为“列族”(具有映射值的键被称为“列”)。 另一组也可称为“列式数据库”的技术因其存储数据的方式而有别于前一组,它在磁盘上或在存储器中——而不是以传统方式,即所有既定键的键值都相邻着、逐行存储。这些系统也彼此相邻来存储所有列值,但是要得到给定列的所有值却不需要以前那么繁复的工作。 前一组在这里被称为“key map数据模型”,这两者和Key-value 数据模型之间的界限是相当模糊的。后者对数据模型有更多的存储格式,可在列式数据库中列出。若想了解更多关于这两种模型的区分,可阅读Daniel Abadi的博客:Distinguishing two major types of Column Stores。 键-值数据模型 图形数据模型 NewSQL数据库 列式数据库 注意:请在键-值数据模型 阅读相关注释。 时间序列数据库 类SQL处理 数据摄取 服务编程 调度 机器学习 基准测试 安全性 系统部署 应用程序 搜索引擎与框架 MySQL的分支和演化 PostgreSQL的分支和演化 Memcached的分支和演化 嵌入式数据库 Actian PSQL:Pervasive Software公司开发的ACID兼容的DBMS,在应用程序中嵌入了优化;
BerkeleyDB:为键/值数据提供一个高性能的嵌入式数据库的一个软件库;
HanoiDB:Erlang LSM BTree存储;
LevelDB:谷歌写的一个快速键-值存储库,它提供了从字符串键到字符串值的有序映射;
LMDB:Symas开发的超快、超紧凑的键-值嵌入的式数据存储;
RocksDB:基于性LevelDB,用于快速存储的嵌入式持续性键-值存储。
商业智能 数据可视化 物联网和传感器 TempoIQ:基于云的传感器分析;
2lemetry:物联网平台;
Pubnub:数据流网络;
ThingWorx:ThingWorx 是让企业快速创建和运行互联应用程序平台;
IFTTT:IFTTT 是一个被称为 “网络自动化神器” 的创新型互联网服务,它的全称是 If this then that,意思是“如果这样,那么就那样”;
Evrythng:Evrythng则是一款真正意义上的大众物联网平台,使得身边的很多产品变得智能化。
文章推荐 论文 2015 - 2016 2013 - 2014 2014 - Stanford - Mining of Massive Datasets.(海量数据集挖掘)
2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. (Presto: 稀疏矩阵的分布式机器学习和图像处理)
2013 - AMPLab - MLbase: A Distributed Machine-learning System. (MLbase:分布式机器学习系统)
2013 - AMPLab - Shark: SQL and Rich Analytics at Scale. (Shark: 大规模的SQL 和丰富的分析)
2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark. (GraphX:基于Spark的弹性分布式图计算系统)
2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. (HyperLogLog实践:一个艺术形态的基数估算算法)
2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.(云端大数据的可扩展性渐进分析)
2013 - Metamarkets - Druid: A Real-time Analytical Data Store. (Druid:实时分析数据存储)
2013 - Google - Online, Asynchronous Schema Change in F1.(F1中在线、异步模式的转变)
2013 - Google - F1: A Distributed SQL Database That Scales. (F1: 分布式SQL数据库)
2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.(MillWheel: 互联网规模下的容错流处理)
2013 - Facebook - Scuba: Diving into Data at Facebook. (Scuba: 深入Facebook的数据世界)
2013 - Facebook - Unicorn: A System for Searching the Social Graph. (Unicorn: 一种搜索社交图的系统)
2013 - Facebook - Scaling Memcache at Facebook. (Facebook 对 Memcache 伸缩性的增强)
2011 - 2012 2012 - Twitter - The Unified Logging Infrastructure for Data Analytics at Twitter. (Twitter数据分析的统一日志基础结构)
2012 - AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. (Blink及其完成:超大规模数据的交互式查询)
2012 - AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. (Spark上 Hadoop数据的快速交互式分析)
2012 - AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. (Shark:使用粗粒度的分布式内存快速数据分析)
2012 - Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. (Paxos的复制状态机——高性能数据存储的基础)
2012 - Microsoft –Paxos Made Parallel. (Paxos算法实现并行)
2012 - AMPLab – BlinkDB:BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.(超大规模数据中有限误差与有界响应时间的查询)
2012 - Google –Processing a trillion cells per mouse click.(每次点击处理一兆个单元格)
2012 - Google –Spanner: Google’s Globally-Distributed Database.(Spanner:谷歌的全球分布式数据库)
2011 - AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.(Scarlett:应对MapReduce集群中的偏向性内容)
2011 - AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.(Mesos:数据中心中细粒度资源共享的平台)
2011 - Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.(Megastore:为交互式服务提供可扩展,高度可用的存储)
2001 - 2010 2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.(探究Haystack中的细微之处: Facebook图片存储)
2010 - AMPLab - Spark: Cluster Computing with Working Sets.(Spark:工作组上的集群计算)
2010 - Google - Storage Architecture and Challenges.(存储架构与挑战)
2010 - Google - Pregel: A System for Large-Scale Graph Processing.(Pregel: 一种大型图形处理系统)
2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Notifications base of Percolator and Caffeine.(使用基于Percolator 和 Caffeine平台分布式事务和通知的大规模增量处理)
2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.(Dremel: Web规模数据集的交互分析)
2010 - Yahoo - S4: Distributed Stream Computing Platform.(S4:分布式流计算平台)
2009 - HadoopDB:An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.(混合MapReduce和DBMS技术用于分析工作负载的的架构)
2008 - AMPLab - Chukwa: A large-scale monitoring system.(Chukwa: 大型监控系统)
2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.(Dynamo: 亚马逊的高可用的关键价值存储)
2006 - Google - The Chubby lock service for loosely-coupled distributed systems.(面向松散耦合的分布式系统的锁服务)
2006 - Google - Bigtable: A Distributed Storage System for Structured Data.(Bigtable: 结构化数据的分布式存储系统)
2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.(MapReduce: 大型集群上简化数据处理)
2003 - Google - The Google File System.(谷歌文件系统)
视频 数据可视化 【编译自:https://github.com/onurakpolat/awesome-bigdata,译者:刘崇鑫 校对:王殿进,来源于云栖社区】
|