大数据，你不可不读的十三本书

发表于 2015-7-4 14:45:49

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

出处：微信公众号_StuQ

大数据已经成为这个时代的标志，如何理解和运用大数据，也是我们这个时代的重中之重。今天，小编从“实战”和“拓展”两个方向，为各位推荐几本书，希望能够有助于你在大数据方面的学习。

实战篇

《集体智慧编程》

作者：[美]TOBY SEGARAN

翻译：莫映 / 王开福

本书由StuQ/InfoQ大数据专家交流群倾力推荐。本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。

全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。

本书是Web开发者、架构师、应用工程师等的绝佳选择。

《数据挖掘导论》

作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar

翻译：范明 / 范宏建

本书全面介绍了数据挖掘，涵盖了五个主题：数据、分类、关联分析、聚类和异常检测。除异常检测外，每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术，而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时，还能够了解更多重要的高级主题。

《hadoop The Definitive Guide》

作者： [美] Tom White

本书是学习Hadoop的权威指南，是您纵情享用数据之美的得力助手。作为处理海量数据集的理想工具，Apache Hadoop架构是MapReduce算法的一种开源应用，是Google(谷歌)开创其帝国的重要基石。本书内容丰富，展示了如何使用Hadoop构建可靠、可伸缩的分布式系统，程序员可从中探索如何分析海量数据集，管理员可以了解如何建立与运行Hadoop集群。

本书完全通过案例学习来展示如何用Hadoop解决特殊问题，如果您拥有海量数据，无论是GB级还是PB级，Hadoop都是完美的选择。本书是这方面最全面的参考。

《大数据技术丛书·Hadoop技术内幕》

作者：蔡斌，陈湘平，董西城

全球首部Hadoop YARN专著，资深Hadoop技术专家根据最新版本撰写，ChinaHadoop和51CTO等专业技术社区联袂推荐！

从应用角度系统讲解YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架，以及多个类YARN的开源资源管理系统。

从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理，以及各种计算框架的实现细节。

从源代码角度深入分析MapReduce的设计理念，以及RPC框架、客户端、JobTracker、TaskTracker和Task等运行时环境的架构设计与实现原理。

深入探讨Hadoop性能优化、多用户作业调度器、安全机制、下一代MapReduce框架等高级主题。

《机器学习实战》

作者：Peter Harrington

翻译：李锐/李鹏/曲亚东/王斌

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。

本书第一部分主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

《大规模分布式存储系统》

作者：杨传辉

《大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实战方面，首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程，然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。

《大规模分布式存储系统：原理解析与架构实战》内容分为四个部分：基础篇——分布式存储系统的基础知识，包含单机存储系统的知识，如数据模型、事务与并发控制、故障恢复、存储引擎、压缩/解压缩等；分布式系统的数据分布、复制、一致性、容错、可扩展性等。范型篇——介绍谷歌、亚马逊、微软、阿里巴巴等著名互联网公司的大规模分布式存储系统架构，涉及分布式文件系统、分布式键值系统、分布式表格系统以及分布式数据库技术等。实践篇——以阿里巴巴的分布式数据库OceanBase为例，详细介绍分布式数据库内部实现，以及实践过程中的经验。专题篇——介绍分布式系统的主要应用：云存储和大数据，这些是近年来的热门领域，本书介绍了云存储平台、技术与安全，以及大数据的概念、流式计算、实时分析等。

拓展篇

《大数据时代》

作者：[英]维克托·迈尔-舍恩伯格，[英]肯尼思·库克耶

翻译：盛杨燕，周涛

不用说了，肯定是这本书。读完这本书，要求你形成大数据的概念，即知道这么几点：

1、绝不是有很多数据就叫大数据；

2、大数据是一种数据分析方式，与传统数据分析方式有着本质上的不同；

3、大数据的特点是“关注相关性，不关注因果”，这是大数据最核心的东西，一定要真正理解，并牢牢记住，不然你就很容易被别人忽悠；

4、大数据采用的是统计的方法；

5、大数据主要是结合人工智能进行机器的自动数据挖掘；

6、大数据主要是用来作预测的。而不是象一般的数据分析，只是分析出历史情况和现状，未来还是要靠人去预测，大数据则是直接告诉你未来的结果。

《失控》

作者：[美]凯文·凯利

翻译：东西文库

为什么是这本书呢？学完初级阶段要记住的几件事还没忘吧？对，用统计的方法，而不是因果的方法，预测未来。

在对预测机制进行剖析的时候，法默最喜欢用这个例子来进行说明：「来，接着！」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗？」，他问道。「通过预测。」

用f=ma（公式）来预测，或者说线性预测，就是通过因果推理来进行预测，即根据球的质量、加速度等等因素，找出这个球为什么会从那个地方飞到这个地方的原因；

而“归纳”即是“统计”的意思，或者说是较粗略的统计，归纳是不问原因的，接住这个球就完了，管它是什么原因。

你想成为大数据高手，你想用统计的方法来对某些东西进行预测？好了，现在你来告诉我，还有什么理由不去好好读这本书？

《爆发》

作者： [美] 艾伯特-拉斯洛·巴拉巴西

翻译：马慧

本书是一本超越《黑天鹅》的惊世之作。如果说塔勒布认为人类行为是随机的，都是小概率事件，是不可以预测的；那么全球复杂网络权威Barabasi则认为，人类行为93%是可以预测的。

Barabasi的研究是在人类生活数字化的大数据时代基础上进行的，移动电话、网络以及电子邮件使人类行为变得更加容易量化，将我们的社会变成了一个巨大的数据库。他认为，人类正处在一个聚合点上，在这里数据、科学以及技术都联合起来共同对抗那个最大的谜题——我们的未来。

在本书中，Barabasi揭开人类行为背后隐藏的模式“爆发”，提出人类日常行为模式不是随机的，而是具有“爆发性”的。爆发揭开了人类行为中令人惊讶的深层次的秩序，使得人类变得比预期中更容易预测得多。

爆发模式的揭示，其影响力将与20世纪初期的物理学或者基因革命的影响力不相上下。

《数学之美》
作者：吴军

几年前，“数学之美”系列文章原刊载于谷歌黑板报，获得上百万次点击，得到读者高度评价。读者说，读了“数学之美”，才发现大学时学的数学知识，比如马尔可夫链、矩阵计算，甚至余弦函数原来都如此亲切，并且栩栩如生，才发现自然语言和信息处理这么有趣。

今年，作者吴军博士几乎把所有文章都重写了一遍，为的是把高深的数学原理讲得更加通俗易懂，让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简，如何用数学去解决工程问题，如何跳出固有思维不断去思考创新。

《复杂性》

作者：[美]尼古拉斯·雷舍尔翻译：吴彤

你接触到了一件事，“复杂性”，知道了事情复杂到一定程度，就不可能用寻找因果的方法去进行预测。那么到底什么是复杂性，它的本质和原理是什么？想成为大数据高手，你不能对此一无所知，因为你将一辈子与复杂甚至是极其复杂的事情打交道。推荐这本书还有个原因。大家都知道大数据是研究数据的相关性，即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究，感觉已经研究得差不多了，但又觉得要解决所有的问题还有不小的距离，这时就感到很迷茫，不知下一步的研究该往何方去，有种路越走越窄的感觉，又有一种达到顶峰的幻觉，直到看到这本书中的一句话：“可以考虑它们的关系，再考虑这些关系中的关系，如此下去。”

大家千万不要小看这句话中的“如此下去”几个字，他指明了一个无穷叠代，即 “关系的关系的……关系”，而智能将在这里涌现，解决复杂性问题预测的关键很可能就在这里，这句话打开了一个非常广阔的前景，将象宇宙一样没有穷尽。

《量子物理史话》

作者：曹天元

你一定有疑问，“这本书就能让我改变世界观？”那么我们就来看看书中说些什么吧：量子世界的本质是“随机性”。传统观念中的严格因果关系在量子世界是不存在的，必须以一种统计性的解释来取而代之，波函数ψ就是一种统计，它的平方代表了粒子在某处出现的概率。当我们说“电子出现在x处”时，我们并不知道这个事件的“原因”是什么，它是一个完全随机的过程，没有因果关系。

因果性必须死，因为物理学需要生！

停止争论吧，上帝真的掷骰子！随机性是世界的基石，当电子出现在这里时，它是一个随机的过程，并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。——摘自《量子物理史话》

“统计规律则把微观上的无法无天抹平成为宏观上的井井有条”，这句话实际上就是表明，统计方法可以使极其复杂的随机事件成为可预测。我认为，社会、市场、股票等等与量子世界有着很多相似之处。由于量子理论实际上是从最本质上去研究我们存在于其中的这个世界，因此正如书中的一句话：“这个世界的本质：它本就是统计性的！

《统计自然语言处理基础》

作者：[美]Christopher D. Manning[德]hinrich Schutze

翻译：苑春法李庆中王昀李伟曹德芳等

你可能有一个疑问，为什么是“语言”，这有两个原因：

第一，在计算机专业，数据并不仅仅是指数字，文字、图片、声音、视频等都叫数据；

第二，语言比数字难很多，如果你能处理语言，那处理纯数字就容易很多。

你可能还有一个疑问，统计自然语言处理与一般的自然语言处理有什么本质不同之处？

统计自然语言处理是更接近自然的自然语言处理方式（绕口令？），也就是说更接近我们人的处理方式，甚至可以说就是人或自然的处理方式，只是人的大脑处理方式更复杂而已，但本质是一样的。

读完了这本书，不代表你就成为大数据高手了，实际上它只是为你打下基础知识，真正掌握大数据的方法，需要你在这个基础上去探索或者说悟出来。