清华大数据"应用•创新"讲座第二讲《数据为王和机器智能的时代》

发表于 2014-12-21 22:14:28

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由乔帮主于 2014-12-21 22:18 编辑

本次讲座是清华大数据产业联合会"应用•创新"系列讲座的第二讲，主讲人为吴军博士。

PPT下载地址在文章最下面。

演讲人：

吴军博士是自然语言处理与搜索专家，原腾讯搜索业务副总裁。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。吴军于2002年入职谷歌，在2010年加盟腾讯并担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。

演讲题目：

《数据为王和机器智能的时代》

演讲提纲：

-大数据的本质与特点

-机器智能

-大数据对未来世界的影响

演讲全文：

吴军：谢谢韩老师，最后一排能听到我说话的举一下手好吗？谢谢为这次活动付出劳动的会务人员。这是今天讲座的副标题，刚说大数据又说机器智能。这两者有什么关系？

2%的人又是怎么回事呢？先讲下最近几年硅谷看到世界上的投资也好，在大公司（Google或Facebook）内部也好已经开展的创新的大趋势。大家已经看到了云计算+移动互联网+大数据这是正在进行时。

今天先讲大数据再讲机器智能。大家可能已经注意到了，Google已经买了大量的机器人公司，机器人是机器智能的一部分，也是我今天要讲的，但是今天为什么要重提机器智能呢？

不谈人工智能，而谈机器智能

以前说人工智能，现在说机器智能，两者有什么差别呢？以前基本上是没做成。大数据和机器智能有什么关系？这是最重要的。大数据不光是有大量的数据，光有数据没用，不是目的，大数据的目的最终要让计算机变得非常聪明，并且最终将改变整个世界。因此，大数据是个手段，通过这个手段，我们可以达到机器智能的目的。

第三个新技术热点是，在有了一（机器智能）和二（大数据）之后，在未来，IT行业将改变生物医疗，并且撬动更大的一个行业。这些是怎么样的呢？今天因为时间关系我重点讲前两点，第三个会大概提一下。然后大家可以通过这些内容理解到大数据的作用。下面我们来看看这张ppt，这两个画的想表达的意思是什么呢？

这是剑齿虎，如果在座的各位谁曾经和它博斗过，请将身体剩余的部分给我看看。大家笑了，这怎么可能，剑齿虎的牙那么长，四肢折磨发达。当然，对古生物史有了解的朋友会马上指出，剑齿虎生活在几十万年前，早就灭绝了，我们不可能和它博斗。那么我说你和它的近亲美洲豹和美洲狮搏斗过也可以。你会说这怎么可能？力量不够啊。

上面的图是我们的祖先—现代智人。事实上在我们的祖先走出非洲的时候遇到的许多大型哺乳动物都已经灭绝了。现代智人非常引以为傲的是我们的大脑非常聪明，而不是我们强壮的四肢，要有思维有思考。那么人类整个文明过程就是不断发明工具来延伸我们的各种器官和四肢，来走得更远，飞得更高。

“电脑”的起源

一直有个梦想是是否可以延伸我们的脑力。那么1946之后人类的第一台电子计算机诞生了，延伸是为计算火炮的轨迹。后来战争结束，这台计算机没有用于轨道的计算而是用于了氢弹的设计。当然它也曾经演示算了算火炮的弹道轨道，当算完后炮弹还没有落地。所以有个英国将军蒙巴赫说这个东西真够快，就像通了电的脑子，也就叫了电脑。

机器人长什么样？

既然有了电脑，机器有了脑子是否有思维？这是提的第一个问题，第二个是它能否超越人？在当时许多机器的东西已经超越人了，比如蒸汽机。所以根据人的想象中就创造出无数作品的机器人。亚洲想象的比较人性化，是阿童木这样的，美国就是钢铁战士这样的。但现实生活中真实的机器人确是另一个样子，这是一个扫地的机器人，另一个叫好奇号或好奇者。

是美国航天局发射到月球的机器人，是核动力的。这些形象和我们想象中的不太一样，它们能做到我们做不到的事情。

在过去40年里，计算机的能力是不断增加，而且是以指数的形式增长，这是摩尔定律。可以基本得到这个结论，在过去40多年里，世界IT的发展以及由IT导致全球经济的增长基本上最核心是摩尔定律。横轴是时间点，纵轴是半导体，可以看到半导体芯片的性能是指数增长的。

那么接下来有个问题，就是说计算机一方面不能像人一样思考，另一方面过去很多年智能的问题其实也已经可以解决，会比人更好。举个例子机器翻译，法国人对法语很自豪，你用英文问路，他不爱理你。今天如果学三个月法语去法国，是件很困难的事情。这件事本身不太容易，我有个朋友去法国，带上了Google语言识别，可以翻译为法语朗读，这样法国人会很乐意帮助你，机器算的快好像没有智能，但是另一方面又能解决智能问题。因此引出一个很深的思考，计算机的智能是否需要和我们人的相同？如果不相同计算速度到一定程度是能否超过人？

我们小时候，父母或者老师给我们讲过的印度国际象棋的故事。棋盘上64格，第一格放1颗，第二格放2颗，第三格放4颗，第四格放8颗……这个增长的速度是很快的。当到了20个格子时，就增长得非常快，超出想象。机器智能的可能性就是这样的，今天的智能水平未必很高，但是由于计算机的速度和容量是指数增长的,比以前会拉开很大的差距。未来真正强大的计算机是什么样的？他的脑子可能是数据中心后这几千万台甚至上百万台的服务器。这样强大的服务器加上强大的算法是今天要讲的。

什么是机器智能

什么是机器智能，用计算机老祖宗阿兰•图灵的说法描述其定义叫做图灵测试。假设在一面墙的后面有一个计算机和人，然后问他们一个问题，给出答案后判断不出是人的还是机器的时候，就说计算机有了和人一样的智能。这里给出了几个时间点。66年、70年到2000年，2000年以后机器智能发展的三个阶段。第一个阶段就是就是我们有时还在说的人工智能阶段。当时，从50年代开始，大家开始考虑计算机智能的问题，机器怎么样有智能呢？那就是学人吧。我们有推理有逻辑有判断和学习。第二和第三阶段稍后再讲，但是这条路肯定走不下去。如果大家学过人工智能这门课程，可能多少会有些印象，在书中会讲到这些故事，比如猴子能像人类一样把大大狭小的箱子落起来够到高处的香蕉，这些玩具式的东西能够解决很简单的问题，经过几十年研究解决不了大问题的原因是什么呢？

66年的时候一个有名的计算机科学家叫做马文•明斯基。他在68年的时候获得图灵奖，66年时就用一个很简单的例子，来说明了这个问题。大师就是和一般人不一样，常常能用简单的方法来解决复杂的问题。他说过两句话，”The pen was in the box.”。这句话好理解，第二句是”The box was in the pen.”。这就没法理解了。盒子怎么能挤到钢笔里去。

当然，Pen还有个解释就是围小孩子的围栏。围栏当然比盒子大了。但接下来就有一个问题了。他想很难在句子中判断pen到底是什么，而且in这个词很难知道是一个小东西放在一个大东西里。那么我们怎么判断呢？我们不是通过文字和语法来判断的，而是广泛的知识，World Knowledge，或者叫Universal Knowledge，关于世界的知识，这是从生活中得到的，不是语法分析得到的。因为他的名气，所以后来给美国自然基金会写了这样一篇报道后，大大减少了对人工智能的支持。中国80年代刚开始恢复科研，依旧有支持这个项目。但是美国已经基本停掉了。这是第一个时间点。

第二个大家看了可能以为我是标题党，从水门事件到莱文斯基，这是我在霍普金斯大学的导师Jelinek在2000年的一个非常大的国际会议中的题目。描述了两个时间点，表示机器智能的进步，一个是1972年的水门事件、二是2000年莫尼卡·莱文斯基事件的时间。图片中的这个人就是Jelinek，在机器智能这个领域，他对人类的贡献非常大。

1972年，Jelinek离开康奈尔大学，到IBM做学术休假。当时IBM想做一件事：让机器有智能，这件事就交给了Jelinek。他和他的下属们就在想，什么能够证明机器有智能？一旦它能够识别我们的voice或者把一种语言翻译成另一种语言，再或者能回答问题，就说明计算机多少有了智能。贾里尼克（Frederek Jelinek）是学通信出身非计算机科学，对人工智能一窍不通。但也无须搞懂，他完全从一个新的方面思考这个问题。他把语言识别看做一个通信问题，通信有一个信源和一个信道，信源编码，信道编码，只需解码即可知传递的内容。他认为语音识别也一样，假设脑子是一个信源，编出语言通过声道空气传播出来，这一套和通信一样，然后只需解码。可以通信的解码算法，还需要大量数据，所以这叫做数据驱动的方法。这个方法取得了非常了不起的成果。在Jelinek之前做语音识别的人只识别了二、三百个英文单词，而且错误率在百分之三十。百分之三十的概念相当于一本书每行十个字就错了三个字，那么这样就很难理解。但是Jelinek用统计模型和数据驱动方法可识别近两万个单词，而且错误率降到百分之十，百分之十对理解内容影响不大。

第二个，他手下有一个叫Peter Brown这个人后来发了大财，去了一个最好的对冲基金文艺复兴。Brown认为这套方法也可以用在机器翻译，以英语到法语，并且做了实验，发了论文。但由于数据量不足，结果不是很好。所以可以看到两点，我们有时解决问题要突破传统思维的限制，以及数据的重要性，接下来主要讲数据的重要性。

2005年美国标准化局对全世界所有翻译系统进行了评测的结果，一边是从中文到英文，一边是从阿拉伯文到英文，因为这两种语言与英语差异较大。这里有些数字大家可以看到，百分之三十，百分之五十这些数字是什么意思呢？在学术中他叫BLEU score，就是讲机器与人翻译的结果进行对比看相似程度，这一数据不可能达到百分之八十或百分之九十，因为人和人翻译相同率也只有百分之五十。图中有三个公司系统本质是一回事，一个是Google，一个是南加州大学，一个是德国亚琛工学院，因为这三个系统都是一个人所写的，这个人叫Franz Och，也是全世界做机器翻译最好的一个专家。他最早在德国亚琛工学院读书，做了当时世界上最好的中英翻译系统，虽然他并不懂中文。毕业后他到南加州大学教书，又把这个系统重新写了一遍。03年Google就想做机器翻译，因为以前没有基础，就请全世界最好的人来，请了Och。在2004年4月28日，Franz Och加入了Google，这一天同时是Google宣布IPO的日子，Google告诉他，这一天来，股价还比较低。Och在Google只呆了一天，又赶回大学了。

是数据，让你领先对手10年！

当时Franz Och学校的事情还没有忙完，请了两个月假回学校把事情忙完，把学生的考试卷看完，6月份才回来。这个测试在第二年四五月份，时间不够，他只是把所有的代码重写了一遍，没有做任何优化。那么，评估结果一出，大家都很惊讶。大家不要看他只和第二差五个百分点，在学术界提高五个百分点，大概要八到十年。那么他是如何做到这点的呢？NIST参加评测一定是要讲一讲是如何做到的，他的方法讲出来大家恍然大悟，因为他用了别人一万倍的数据，所以可以看到数据的重要性。

大数据

刚才讲过，决定过去四十年经济发展的是摩尔定律，未来二十年真正改变经济发展的是大数据，所以这又回到了这个系列的主题——大数据。我几个小时前被几个朋友绑架到了一个中关村的咖啡屋，去讨论什么是大数据。一些人的理解都还很有局限性，把大数据和大量的数据混为一谈。大数据一定是大量的数据，但反过来却是不一定的。还有一些人说结构化，这些都是表面这层的关系。大数据有什么特征呢？有两个，比较实和一个相对比较虚的特征，虚的特征也很重要，要在一定的维度上。如何理解这个特征，举一个例子：百度知道，在大概一年前发布了一个并不引人注目的报告，关于调查的。什么意思呢？用百度知道里面的问题（大概几千万已经被回答的问题，来调查全国各地饮食习惯），像在西北地区，大家问什么东西能吃，在广东，大家问“什么东西不能吃？”说除了四条腿的桌子椅子不能吃，其他都可以吃。这就是经济发展的差异。但是有好多数据不公布，如果再接着公布一点，因为有一个历史的数据，随着时间的变化，可以发现人们生活水平的改善。你再看手机上网的习惯，用的什么浏览器，什么操作系统，你就知道他有钱没钱，知道他是富人还是穷人等等等等，你可以揭密好多东西，这是大数据，是好多维度混合在一起的。好多事情做起来都很easy，大数据相比调查问卷更能真实反映实际情况。大数据有一点叫完备性。

在对美国2012年进行的预测，盖勒普做了一些预测，有些对有些不对，到了2012年出了一个无名小子叫Silver，就用大数据预测了这件事，就是将所有可能在网上找到的数据搜集来。

这是他预测的结果，红色是共和党，颜色深浅代表优势的明显度，蓝色代表民主党，他把五十个州全部预测正确了。这在美国选举中从没有出现过，所以这件事大家觉得非常可怕、震惊。这就是完备性的可怕之处。

还有重要一条，大数据在某种程度上催生一些新的思维和做事方法，大家想中文翻译大数据很简单，就是“大”“数据”，英文中为什么用big data，不用large data，big和large到底有什么区别？严格来讲有非常细微的差别，large指相对具体一些，讲的是数量多，big抽象一些，big data从某种程度上不是指量大而是抽象的概况，是指思维的方法和做事情的方法。过去在生物制药时很多时候，尤其清华工科的学生，都要讲究因果关系，先找到症状的原因，可能是一种细菌，然后针对这制作一种药，然后进行小白鼠实验，再临床试验看看是否有效，这是一种思维方式。那么大数据是什么呢？比如斯坦福研究医院发现有一种治疗心脏病的药，对胃病可能管用，至于什么原因也无从知道，然后他们不用小白鼠做实验，直接临床试验，这个成本大概一亿美元，三年时间。因为他们已经知道这些药物性，不用从果蝇到白鼠实验，从而节省大量时间金钱。最后一点很关键，Google内部做事情的一个例子。大数据近几年的比较和我刚到Google的时候，那时候Google中日韩的搜索跟英文一样，连个分词都没有，经常是连一个搜索结果都找不到。因此我重新设计了一套算法，原来准确率有百分之五十到百分之七十，过两天有百分之七十五到百分之八十，每一点提升都涨得很快，但到了一定程度就基本走不动了，就像所说的机器翻译十年增长五个百分点，这谁受得了？但从05、06年以后，搜索积累了大量数据就不一样了，比如搜到了三十多条信息，就可以分析用户为什么点了某一条结果，借此提高搜索性能。再过到07、08年的时候数据量更大，有时甚至你不知道原因时就已经知道结果了，这时你就有一个思维方式的改变，由于大数据多维度看问题，就从多个方面保障了结果，这也是大数据的本质。

以后要是有人问我大量的数据是不是大数据，不一定，得看一看。比如我的好友跟我说过，一个基因解码下来的数据一个PB这样的规模，比百度知道的数据量大多了，但这不是大数据，因为数据没有多样性，一个样本得不到太多的统计规律。

我们正在经历一个从摩尔定律为王到大数据为王的时代。在过去的40年里，如果你相信了摩尔定律，那么一定会不断地发展，智能化会不断地进步。在座的企业家已经得益了。你如果不相信你可能会错失了好多机会。

今后大数据为王，如果相信这样就会有20年的发展。那未来所有的公司都是大数据公司。孙正义前阵子有句话，说“以后所有的产业要么数字化，要么不存在”。这就是为什么今天看好拥有大数据公司的原因。说了这么多，对传统行业，不是IT公司不是BAT，跟这个有什么关系？那我就举3个例子。

第一是风力发电机，是中国一家风力发电机的公司叫金风公司，在世界占有率第二大的公司，但是也没挣多少钱，原因是也不知道自己的公司买到哪里去了，卖给谁去了。后来上装了传感器，将这些东西都给连回来了。大数据的全面性是当所有的风车全部连上传感器转的时候，全世界的风能他就都能知道。而且不管经手何人，这些数据都是有的。还有就是关于这些风车的叶片到了时间是需要保修更换的，至于多少时间以前是根据概算，花费成本。现在经过传感器的测量机器劳损度方式，就可以节省费用。这就是大数据的思维方式。那么在这个方式下他的业务就和以前不同了。

再讲一个PRADA时装的大数据方法。以前到精品店也好，服装店也好，货架上摆了各式衣服，为何有前有后？到底怎么摆可以卖得好？这是谁也不知道的？衣服做出来没卖好，是摆得不好，还是衣服做得不好，这其实也没人知道。PRADA就做了一个非常简单的事情，就是在衣服上会粘一些墨水，墨水里有个芯片，在试衣间有个传感器，当把衣服拿到试衣间试穿的时候，就能统计出试了多少次，试了多长时间。如果这个衣服总有人拿去试，看来这件衣服给人的第一感觉还不错啊。试了没有买就会有原因，通过这个可以提升销售。

第三个例子就是美国第二大的百货连锁店—塔吉特Target。从以前的打印发票改为现在的邮寄发票，这样知道了用户信息。后来他们雇了一个学统计学的硕士，让他来分析这些数据，从中发现了很多很有趣的事情，如孕妇在不同的时间阶段买东西是有些规律可循的。通过这些规律来给人们发优惠券，后来有一天经理接到个很愤怒父亲的电话，说“我的女儿才15岁，你们就给寄送关于孕妇婴儿的东西”。经理认为是搞错了，赶紧道歉安抚。过了一段时间，做了电话回访询问是否满意处理方式，父亲开始道歉，说真是对不起，我的女儿真是怀孕了。今天大家不断地从淘宝买东西，将来淘宝会比自己更知道自己需要什么。

现在讲下大数据的关键技术，第一是大数据的收集，跟以前不一样的，是无意识的。收集的数据也是非结构化的，不会像调查问卷一样。再有一个就是无意识收集为何很重要，你看Google好多行为是商业行为，不在表面在背后做什么事。花了30亿美元买了个公司 ——NEST，就像是天上装了个WIFI可以控制你家的空调，可以省电的。用这个行为来无意识地收集各种数据，为什么要强调无意识呢，因为有意识的时候往往很不真实。6月份的时候我和做自媒体的罗振宇聊天。他以前是在电视台，电视台是怎么了解收视率呢，是做问卷调查。后来有个机顶盒就可以直接收集数据，发现以前的所谓的高大上的或者是名嘴的节目的收视率都是被明显提高了，这是人们有意识地写些著名的节目来美化自己。但是这个无意识的才是有真实性，只有真实性的大数据才有意义。

怎么收集到真实的数据？数据存储也是一个问题，大家不要觉得摩尔定律，今天所有的东西都变得很便宜，可以储存。当大数据起来的时候，大家都是有意识的去收集，所以量一定是很大的。如何表示，是个问题。举个例子，基因的例子，一个人的基因和人类的基因。大数据是杂乱无章的，理清数据是很重要的。在巨大的数据中怎么查数据？不能逐个扫一遍的，是受不了的。Google里面的最好的工程师Jeff Dean，是美国工程院院士，也是Google云计算中大部分工具的主要的发明人和创造者。他现在的挑战就是如何能够表示好医疗数据，这是很大的问题。如何使用和挖掘这些杂乱无章的数据是他的挑战。Google在今天为止在公司已经达成了大数据的思维，40%以上的工程师天天的工作就是挖掘数据，看看里面可以找到的规律性，来改进产品。改进产品的思路是有方法再做实验，现在是可能先知道实验结果，然后去找方法，改进产品。

当然大数据也带来了隐患，安全性、隐私性。今天就不一一讲解了。尤其是大数据在进行交换和共享的时候，这些问题会变的非常严重。再回到机器智能的话题，他们是什么关系呢？

机器智能的3个支撑点是分别是摩尔定律，他要保证我们计算机的速度在不断的增加，是指数增加，很可怕的，可能以后会超过人的智能。第二个是大数据，因为我们的思维方式已经改变了这个数据量。当然，我们要解决智能问题，计算机算得快，加上我们的数据，建立一个桥梁，使得计算机可以解决智能问题，这个桥梁就是数学模型。

这里面有个工具，在《数学之美》中会有讲，叫Google大脑。Google大脑深度学习听起来吓唬人，其实就是人工神经网络，就是有个很简单的有向图，模式分类等做得很好，有自己的算法。为什么Google来用这个而不是更先进的？原因是它的稳定性，在过去30多年里关于它的算法没有什么提高，很稳定，还有一个通用性，各种问题都能表述，当然对某些特定智能问题的效率不是最高的，但是没关系。前面讲过摩尔定律，计算机的速度会提高来弥补这个的不足。通用性有个很大的好处。有了Google大脑以后有个什么结果呢？Google又做了个事情，他现在可在上百万台的计算机上做神经网络，现在有成千上万个节点。可以做很大的智能问题。好处是前面讲的语音识别和机器翻译的事情，数据量没有增加，方法也没改，深度学习就是从新把数学模型训练一遍然后语音识别的错误率就从百分之7点几降到百分之5左右，改进了百分之2。这要是计算机专家和电机工程专家来做恐怕需要3-4年的时间。在机器翻译上结果基本和这个吻合。那说能不能举个例子，以前没有大数据和机器智能现在有大数据和机器智能能解决的，这就是一开始提问的问题。这就是我在2012年回到Google我的上司辛格跟我说，你也来公司这么多年了，我也不布置你什么任务，你自己挑的一个事情来做，但是最好能够领先微软5年。然后我就想什么事情呢？我得有这个优势才能去做这个事情啊，后来选择了用计算机回答复杂的问题。

那时计算机已经可以回答简单的问题。但是对于“天为什么是蓝色的”等问题计算机是没有办法回答的。我们就接下来花了2年时间和十几个科学家，和不到20个工程师这么些人在一起，在很大程度上解决了这个问题。大家可以花点时间读一下这个问题的答案。

这个答案给出后已经跟人的回答差不多了，已经无法判断是人回答的还是机器回答的了。奥秘在哪？是因为我们有其他人没有的东西。机器智能本就是大数据的应用，其实在百度上问个问题，将广告删除，留十条自然搜索的结果，打开后发现基本上是可以知道问题答案的。也就是说答案已经在这些数据中的，这就是大数据的完备性。但是今天任何一种搜索引擎，问他任何问题，不按我说的做，光看几条摘要只有百分之20~百分之30的能知道答案，这其实就是机器和人的差异，机器不会读懂这些答案，无法合成答案，但是答案一定是在那些搜索结果里的。所以我们做这个问题的做法是不一样的，这个答案就在搜索结果中，搜索结果可能是完备的，里面有零星的答案，把零星给拼成完整的答案是一个完全不同的思维方式。这个是由于大数据最终导致的机器智能，跟人的回答是差不多的。那我们再讲两个好理解的例子好吧。

这边是一个自动驾驶的汽车，司机的座位上是没有人的，这是Google做的一个自动驾驶汽车的原型。在2004年的时候，有些经济学家，已经发现了由于摩尔定律的作用使得计算机能够干越来越多人干的事情，就在说，未来的事情还有什么是计算机干不了呢？就想到了开车，因为开车要肢体躯干和感官的配合，还有就是同年美国政府举办了无人汽车拉力赛，第一名是卡内基梅隆大学的一辆车，跑了不到20公里就跑完了，剩下的车还没有这个距离。第一名的车当时时速是每小时5英里，比大家走路快点比自行车慢很多。就这样，大家认为这个还真是代替不了人的。到了2010年的时候，纽约时报就报道了Google研究出来无人驾驶的汽车，当时在各种公路上跑了11万英里，18万公里。还能平行泊车。只出了一个交通事故，还是后面人开的车把它撞了。为什么短短6年会有这么大的飞跃？Google很聪明，先是把那个卡内基梅隆大学的最好的人先招来，所以说一定要找合适的人做合适的事情。这是Google街景项目的延伸，Google无人驾驶汽车走过的路都是认识的，都是Google扫过的。GPS能做到分米级精确，现在北斗的导航应该可以做到厘米量级。没有去过的地方它是开不了的，跟卡内基梅隆大学的设计不一样，那个就是个瞎跑的，自己找路。而Google的这辆车是通过扫街数据的完备性设计的，知道怎么开，路况全熟。当然到了2010年到2014年又做了很多改进，比如各种各样的传感器有十几个，每秒钟要扫几十次的数据输送，要是出现个停止的牌子知道马上停下，天上掉下什么异物知道躲避等。

这是500辆上街的车的样子。没有方向盘和油门刹车，后来美国公路局要求加个制动。这在某种程度上是个机器人了，本质上是大数据的应用。

那么再举几个例子，这是我投资的两个公司，时代周刊对他们的报道。

这个是智能浇水的机器人。在你家后院先走走看看，采集数据，然后怎么浇水，湿度多少等问题，就开始浇水，还可以与天气预报关联，明天要下雨了，今天就不用浇了，可以省89%的水量。后来发现有人hack了这个机器人，把它重新编程变成个洗车的机器人，自己调节好方向洗车。

这是个无人机。跟其他无人机不同的是，操作无人机的全是机器人，可以帮助换电池等等。人要做的事情就是定义要它干什么事情，比如每天去苹果上空照下新总部，6架直升机每天飞7次，在办公室就可以把正在建设的远程工地的进展一清二楚，这就是未来的时代。未来的时代是机器的时代还是人的时代？

工人将被替代

前阵子习主席也提出工业4.0。

这是现有富士康工人，看起来很辛苦的，每天重复劳动，郭台铭说未来的富士康不会用你们的血汗钱了，我会用几十万个机器人，也就是说以后卖血卖汗也没人要了。当然，很多人会说，这和我没关系，我要从事高大上的职业。

高学历职业也受到威胁

我们来讲美国最高大上的职业——放射科医生，也就是能够看片子的专家。放射科医生是怎么练成的？美国本科是没有医学院的，只有在大学毕业才可以读医学院。并且在经历过很长的流程，至少是4年本科，4年医学院，2-4年住院医，2-3年专科训练（Fellow），然后才可以任职。但是，第一份工作是年薪三十万美元，斯坦福硕士毕业到Google是年薪十万美元。这是一个高大上的职业，但现在有一些识别癌细胞的软件，做得足够好，可以取代放射科医生，而且有个很大的好处就是稳定性，不受情绪化影响。

2012年Google做了一个科技竞赛，有一个十八岁的女生做了一个东西。乳腺癌要做一个穿刺活检的系统，也许是良性也许是恶性，扎一针也许没扎对，但不能总扎，因此她做了一个系统，根据两百万例病例做了自动识别系统，准确率都在百分之九十八以上，这个东西比任何一个专家都好了，这就是大数据的重要性。

美国另一个高大上的职业——律师。最好的律师一千多美元每小时，当然他们都为企业服务，他们的助手的收入都是三百美元每小时。

给几个数字好了，第一个是一个亿，这是Google与另一个公司Viacom，美国第三大传媒公司，CBS的母公司，说Google的YouTube侵权，要赔十个亿，因此开始打官司举证。后来Google发现盗版视频都是CBS的人自己上传的，因此打赢了这场官司，但花费了一亿美元。第二个是一千六百万美元，是苹果和三星的官司，到现在也没有明确的结果，苹果的专利费出得太多了，向三星提出象征性地承担一点，这一点是一千六百万美元。第三个是若干亿，这是苹果和三星到现在为止所花费的专利官司的钱，三亿、五亿不清楚。这就是美国律师的收入情况。最后是十万，是一个小公司打官司，美国是判例型，打官司需要研究以前的相似案例，需要看上百万份的文件。有个小公司花了一万多美元，买了一个自然语言处理软件来读这些文件，花了十万美元打赢了这场官司。一共处理了二百多万份的文件，所以何必用1000美元1小时找律师花几亿美元去打官司？这是未来世界，这才是真正的机器智能。

未来的世界制造这些智能机器的人不是很多，大概百分之二。机器人不会控制人，而是百分之二的人在控制百分之九十八的人。

可以举一个简单的例子。有多少人用腾讯微信，从早起到睡觉前都挂在上面？多少人用淘宝？微信有多少人，淘宝有多少人？它们还不够智能，当它们足够智能的时候，也可以想象世界是什么样子。最后讲几个问题，现在大家有个选择，要么成为2%的人，要么成为98%的人，大数据有全面性完备性会产生一个什么结果呢？

那么我来举个例子。

放个酒吧的图是什么意思？这是有个创业者来找我要钱，他原来的公司卖掉了，后来重新做了个项目。很有意思，他把第一个公司卖了之后，走访了美国120多家酒吧，发现大概28%的酒是被偷喝掉的，被酒保给朋友或者自己偷喝掉。他做了一件不是很复杂的事情，就是在酒瓶子下放了个特殊的芯片，然后把酒架子改装，以至于每次把酒瓶放回酒架后就能知道倒了多少，每一笔记得清清楚楚。连上互联网之后，老板回家用pad就可以知道每一笔交易，清清楚楚。这就是大数据完备性的可怕之处，也就是大数据思维的运用，这在以前是不可能知道的。

对比互联网的思维，这根本不是产生几亿几十亿上百亿的GDP的事，是整个行业重新做的事。雷军老讲互联网思维，电子商务在干什么？你以为是把实体店的东西搬到网上就是电子商务？没那么简单，是零售业的习惯全部被改写的，包括我们现在的双十一双十二。将习惯全改后就是互联网思维带来的结果。那么什么是大数据的思维？它改变了整个生态系统。我再举个例子，GE的冰箱。

我举的例子基本上都是真实的例子。即使是GE的冰箱也是赚不了多少钱的，20~30美元，在美国。而且也是海尔做的，要不然赚得更少。现在很多冰箱有个取水器，里面有个过滤头，3个月左右换一次。以前GE不知道用户什么时候该换，换了没有。现在运用大数据，将传感器连网，GE就知道哪个滤芯该换了，到时候会提醒。不到两年的时间，换滤芯的利润比冰箱的利润还高。这是一个什么情况呢？大家都知道商业模式，商学院都知道。大电器成为换过滤头的平台了，整个的生态链变了。

最后举个例子，还回到这2%的人的世界，这是“占领华尔街”的照片。

占领华尔街运动，他们反对2%的人，为什么呢？因为他们富有。但是2%的人是谁？不知道。那要做什么？不知道。就是要反对。在一个社会里，这些人的前景是灰暗的，很没有希望。哪怕把2%的人的财富分给他们，他们也没有希望。所以大数据的重要性要上升的这个高度，要么我们要成为这2%的人，要么咱们就去做反对2%的人。那么当一个技术趋势形成的时候，想阻拦想反对根本没有用，大家不要以为科技的进步会造福每个人，不是的。当然用手机方便了，生活水平好不好不知道，在美国都知道科技引领社会发展，好像没有人反对这个提法，好吧，让我们看下引领完的结果是什么？

这是美国十几年工资水平的变化，不是上升，是下降，现在还在降哦。也就是在互联网泡沫的时候2000年达到最高点。蓝色的是大学刚毕业的人的工资，红色的是有5年工作经验的人的工资，扣除通货膨胀是一直在下降的。

但是另一点，硅谷的房价却是一直在上涨，硅谷的房子卖给三种人。第一种是中国大陆拿现金去买的人，占30％，旧金山的房子也一样。第二种呢，是帮助苹果三星打官司的律师，还有专科医生等。第三种人是比较早期的两家公司的雇员，Google和Facebook。为什么是这样子？因为房价已经涨到这么多。那么支撑房价的原因是？除了中国的钱以外，还有Google，Facebook这些明星公司的财富增长得更快，也就是说其他人没有这么快。

最后还有一点时间讲一下大数据对医疗的影响，一年前Google成立一个小公司叫Calico。

请了一个人来当CEO，这个人是基因泰克公司的原CEO，叫亚瑟·莱文森（Arthur D. Levinson），基因泰克是全球最大的生物制药公司，制作抗癌药的，市值1000亿美元，后来由瑞士的罗氏卖掉的，亚瑟·莱文森今天依旧是基因泰克和苹果董事会的主席。Google为什么成功呢？因为做任何一件事都把最好的人找来。亚瑟·莱文森的一些讲座我会去听，他讲了几个新的概念，为什么要加入Google，为什么要用IT的技术来做医疗？比如说癌症很烦恼治不好，为什么不存在一种有效的如青霉素一样的抗癌药呢？原因是癌细胞是变的，是身体的一个正常细胞，不小心复制错了就成为癌细胞，就要生产抗癌药将它杀死，但是一旦细胞复制错了就不按照规律复制了，就变成各种各样了。以前会听过癌症药开始控制的很好，后来不行了，原因是细胞变异了。那么这些年就要改变对治疗的认识，就是说细胞变了，药也跟着变了就可以了。但这样得有两个前提条件，第一是，你得有个专门的团队跟踪治疗，第二得是要花10亿美元。当然这样也不是没有意义，只是很少有人能治得起。现在如果用大数据将这些都收集起来，希望能够揭破基因来做这件事情，几年之后，他的估计是成本可以降到5000美元。顺便问大家一句，如果癌症被攻克了，你们认为人的生命可以延长多少年？（答：20年，15年）。认为可以超过50年的举手，还是不少的；认为超过20~50年的举手？认为10~20年的？5~10年的？不到5年的？

亚瑟·莱文森讲是3.5年，因为大多数的人不是死于癌症，而是衰老问题。如果我们活的足够长，我们无一例外都是老年痴呆，将来马路上全是白痴。那他来Google是解决什么问题呢？就是靠大数据解决衰老问题。

再讲个机器人和医疗，这是约翰·霍普金斯大学的一个教授罗素泰勒（Ross Taylar），他在从IBM的时候就开始做这个事情，做了一辈子就是做医疗机器人的，在约翰·霍普金斯大学就做了18年，是第一个可以做手术的机器人。

从这些例子可以看出从IT到医学的关系。那么今天谁是大数据的公司？

当然我们可以说现有的互联网公司都是。现在很多大的互联网公司和医学公司都是了，那么其实把触角伸向每个用户的公司都是大数据公司，包括你和我。为什么雷军天天在这弄这些那些，他就在往这个方向转。在这个时代我们每个人都有机会。

今天的讲座到此结束，谢谢大家。

本次讲座是清华大数据产业联合会" 应用•创新"系列讲座的第二讲，主讲人为吴军博士。

PPT下载地址：

链接: http://pan.baidu.com/s/1kTJvKZt 密码: bbcl

帐号		自动登录	找回密码
密码			立即注册

清华大数据"应用•创新"讲座第二讲《数据为王和机器智能的时代》

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1