最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[DA] 【重磅】联合会"应用•创新"讲座第一讲:刘政的大数据分析

[复制链接]
跳转到指定楼层
楼主
发表于 2014-11-30 12:39:53 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 乔帮主 于 2014-11-30 17:02 编辑

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势、清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产、学、研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢。会议由联合会秘书长王霞主持。

到场的嘉宾有:
清华大学杨斌副校长,清华大学数据科学研究院执行副院长、清华大数据产业联合会会长韩亦舜、中国建设银行总行信息中心刘静芳总经理、国家统计局中国统计信息服务中心大数据研究实验室江青主任、微软亚洲工程院院长刘震博士、SAS中国研究中心刘政总经理、清华大学相关院系领导、友邻机构中关村大数据产业联盟、中关村大数据产业联盟赵国栋秘书长、发起人和发起单位代表,产业界代表,清华大数据相关专业教师和学生代表。
杨斌副校长对联合会给予厚望,回顾了清华做大数据、发展大数据相关的学术研究、应用以及和产业互动的16字指导方针:

社科突破
就像大数据现在对我们社会的方方面面、行行业业一样,人文学科、社会科学也会随着大数据这样一个工具、平台和思维体系的语录,对于他们研究范式和研究成果产生出非常强的催化作用。所以我们首先提的叫“社科突破”。这里面还有另外一个潜台词,清华的文科从1970年代开始复建之后,很多时候跟其他院校相比,还是处于追赶的态势中。我们心里暗暗的想,也许随着大数据的研究或者新的范式的引入,也是可能实现某种弯道超车。

商科优势
清华的管理学科中,清华在国内的各个高校中有它的优势。这一次我们在筹建研究院的过程中就发现,非常强劲的对于大数据的应用需求来自于跟商业、商科有关的很多产业和领域。

工科整合
清华的工科方方面面都包括,从大数据的角度来讲,每个院都有自己的长处,但是能不能整合起来。

业界联盟
这是最后4个字,我们韩亦舜执行院长完成了他上任的第一件事。在我们筹建这个研究院,在筹建的过程中,我本人在主要的推动,发现很重要的研究力量,甚至是生产力的先进性,此刻并不在高校当中,而在业界当中。今天我们也请来了业界中咨询服务、平台服务的,但是还有很多是在具体的大数据应用的实践中。这一部分凝结着这一块非常强的研究力量和已经达到的应用水平。

4月21号学校正式讨论最后决定成立这个研究院的时候,陈吉宁校长又加了另外八个字——“全校整合”“问题导向”。

未来,联合会将通过【BI168大数据社区】和自媒体平台【数据派】和【大数据文摘】传播大数据科普知识、开展行业大数据专题活动、定期组织大数据从业者交流研讨会。同时,也欢迎社会各界有识之士加入清华大数据产业联合会,相关信息会在【BI168社区】、【数据派】和【大数据文摘】发布。
本次讲座是清华大数据产业联合会"应用创新"系列讲座的第一讲.回复“清华大数据产业联合会”可获得完整版PPT。

演讲嘉宾:SAS中国研究中心总经理刘政博士
演讲主题:大数据分析
演讲提纲:
--数据分析简史与技术
--大数据时代
--大数据分析案例

演讲全文:

先给大家介绍一下数据分析简史与技术。二次世界大战的时候,美国与英国招聘了一些人负责以有效的方式调配资源给各个战场和军事单位。后来发生了棱镜事件,如果我们对美国,或者是发达国家对数据的关注,我们觉得这是一个非常理解的事情。但是棱镜事件出了以后,非常多的人觉得这是很惊讶的事情。

到了六十年代,有些计算机可以用来解决一些问题了。当时美国农业部有一些农业数据需要做分析。受美国健康研究所的委托,委托了美国南方八所大学开发一个统计分析的软件包。这八所大学获得了政府的领地,建立了一个大学。后来这个软件包就成了sas公司的产品,变成了他的名字。那段时间美国每年都会开一个数据分析大会。76年的时候,参与的人员已经有三百多人。76年的时候,sas成立了。当时所有的计算机程序是用的打孔卡。30万行代码,要装入150个箱子里,需要很多深搬。现在一个盘就可以放下了。

79年的时候,软件基本上还是运行在IBM大型机上。80年代出现了图形显示软件,包括剂量经济学和时间经济序列软件。我记得清华大学的一个钟教授在sas的一个会议上说,他所以使用sas,是因为sas上有图形显。后来出现了PC。sas同样把这些数据分析的软件开发成支持PC。后来通过PC对大型机上的数据进行分析。

再后来出现了互联网,互联网出现以后,也要求这个软件能够支持互联网的一些工作。随着世界市场需求驱动,公司的软件发展,当时有欧洲的巴塞尔协议,9.11以后美国出现《爱国者法案》,关于信息安全方面的一个法案。根据这些法案和协议,我们开发出很多行业上的解决方案。这些解决方案都是基于我们对数据的分析来进行的。

在过去几年里,大家都有这种感觉,无论你是到银行处理一些事情,无论你是到电信公司做一些事情,还是你去超级市场购买一些东西的时候,你会发现所有的数据都会留下来。包括你的手机一旦开通以后,你的数据天天都会在移动的服务器端里留下痕迹。电子商务的发展,我们发现数据量越来越大。过去我们分析数据都是几十兆,如果达到G已经是非常大了。我知道很多当年留学美国的留学生也是使用sas软件进行数据分析,那个时候他们的感觉就是,今天晚上运行一个程序,回家睡一觉,第二天了再看结果,有的当数据量比较大的时候,需要一两天才能分析出来。到了数据量越来越大的时候,到了TB级的时候,传统数据分析的方法和技术已经不能满足人们的需要了。基本上就是宕机,运行不下去。
我们采用一些新的技术帮助解决数据量大的问题。这三项技术目前是比较普遍采用的技术。第一,网格计算,网格计算其实就是分布式计算,我们把要处理的数据放在不同的机器上运行,运行完了以后把结果合并起来。第二,数据分析,数据量大的时候,数据有一个传输的过程,这个过程非常慢,影响到我们传输的速度。现在我们想了一个办法,我们把各数据分析的模型放在数据库里面。我只要给这个发指令就可以了。可以调用这些数据模型进行分析。这样就节省了数据传输的时间。第三,内存分析技术。我们可以把数据放在内存里,我们在处理的时候,直接在内存里做了分析工作。这些数据可以放在本地,也可以放在云上,可以放在单个机器上,也可以放在多个机器上。我们把这三项技术结合起来以后,我们就可以处理解决数据量大的问题。现在我们做测试,十余行的数据我们在几秒钟就可以得到解决,比过去快的非常多,几乎可以达到实时处理。
大家都知道hadoop产品,它是一个分布式的文件存储系统,而且可以进行分布式计算。最开始的时候我们用没有采用内存分布数据,大家无法忍受,现在有一个替代品,就是Spark。Hadoop里存储的都是非结构化的数据。我们要处理结构化的数据,和非结构化的数据,我们把这两个数据的分析结合起来,才能够得到比较信任的分析的结果。这就是在大数据时代我们对于数据分析采取的一种方法。

这是陈毅新教授在中关村大数据产业联盟搞的一百分的共享中提供的一个内容,我把这个内容做了一个总结,除了刚才谈到的技术方法解决数据量的大以外,我们也可以通过模型的方式解决数据量大的问题。当数据比较少的时候,我们通过拟合的方法,可以拟合出来一条直线。当数据量足够大的时候,我们有大数据的时候,我们会发现这个地方并不是一个直线行为。我们用一个直线来代表数据趋势的话,就不是很准确。我们有直方图的话,我们就可以非常好的对大数据进行一个描述。当数据量大的时候,我们不用动模型,或者我们可以做简单的模型,就可以得到这个结果。这样我们可以简化我们过去数据处理的方式。

另外一种方式也可以通过降维的方式,我们觉得现在的纬度有的可以达到上万,前一段宜信的副总说他们有大概几十万,纬度非常高。但是有的时候有一些是没有必要的。结构化数据我们过去的方法可以处理,没有问题。但是对于非结构化的数据,像文本性数据,我们过去的方法就不适应。我们都要采用文本分析的技术。


我们可以从分析自然语言关健词的密度开始,其实也是把非结构化的数据变成结构化的数据,然后再做分析。比如说情感分析、数据的文本挖掘方面的一些东西。最后我们可以做一些组织性的工作,就是分类。对于分类可以做本体学的方式,就是相关联的分类,还有一种分类是可以有复制性的分类。可以通过文本分析的方法对非结构化的数据做分析。这个数据我们可以看到文本分析的流程,获取数据,做一些形态分析,做分析法,最主要的还是做分类和情感分析,最后是图片的报告。对文本的处理我们现在可以用文本分析的方法来做,但是对于图象、对于音频、视频的分析,目前还是遇到比较大的困难。虽然我们可以通过语音识别的方法把音频的文本变成一个文字性的东西,但是它里面所表达的情感还是比较难处理的。我们现在把很大的希望寄托在机器学习和深度学习上。我们希望通过这种技术能够对文本音频和视频有识别。但是这个识别跟我们做具体的分析还是有区别的。如果我们能够达到识别,离分析也不是太远了。当然差距还是比较大的。
百度请的首席科学家安吴恩达他说他在Google做的研究,目前也就是识别一只猫的水平。但是真正达到智能化还可能需要时间。

再来看一下数据的展示,过去我们分析结构化数据,可以通过条形、饼图、柱状图就可以非常好的把分析结果展现给大家。但是在非结构化的数据时代,大数据时代,还是比较复杂的。想比较好的展示还是需要更加高等的可视化技术。这边是一个美国人口的分布图。

从这个图非常直观的可以看到在纽约、波士顿、华盛顿地区有最密集的美国人口。芝加哥地区人口有分布,中部人口是比较稀少的。这个图一目了然了解一个美国人口的分布。

现在大家都在谈大数据和云计算,将来这两项技术一定会结合在一起,他们的结合肯定会改变网络的架构。
现在我们在做软件开发的时候,很少开发一个软件,然后把他安装在单个机器上。现在完全是浏览器化的软件,就是为了将来我们的软件是能够运行在云上。我们的数据也是在云上,而且我们可以在全球任何地方做工作。实现全球办公,我在家里也可以,我无需租办公室。这种方式可以让我们每个人变得平等。现在银行很有钱,他们买什么硬件、买什么软件都买得起。但是我们个人想要用这些资源的话,我们用不起。但是一旦所有东西都在云上以后,那就是租赁。每个人都可以租一份自己使用的资源。使用的硬件资源、使用的软件资源,都可以在云上租到。
这是一个数据分析的进化图,下面是数据源、数据存储形式的变化,过去是在大型机和PC上存储的普通的文件。后来有了关系数据库,又有了ERP系统、CM五系统,又出了数据仓库,现在有了Hadoop分布式的系统。今天我们的数据都在云上了。这是数据源的演变。

数据处理技术从过去的单线程的过程变成了多线程。摩尔定律已经有点过时了。但是最关键的还是英特尔的工艺做的极限了。所以开始创造多核、多CPU,通过这种方式来提高运算速度。在这个时候我们开始把计算技术使用多线程的技术,使用分布式计算。这是数据处理的演变。
刚才讲了大数据技术发展的简史,让我们看到大数据不是今天才蹦出来的,他是有一个非常渊源的历史,在西方国家,在很早的时候就用这种技术来解决他们很多的业务问题。这是对大数据的定义,大家在其他很多讲座中都可以看到,我们在做数据分析的时候肯定是找一些相关联的数据。你要分析一个旅游方面的数据,跟旅游没有关系的数据就不需要。他有一个信息过载。信息过载并不是说这些信息没有用。这些信息的存在就有它的合理性。不能说这些过载数据没有用。其实它在做其他分析的时候,这些数据还是有用的。
巴非特从来都是投资在传统行业,比如说他买麦当劳、买可口可乐,他从来不投资技术行业。90年代末互联网泡沫破灭的时候,巴非特一点伤害都没有,因为他没有投资这个。
但是最近他花了一百亿买了英特尔和IBM,他说你要小心懂得数学公式和模型的极客。他指的就是中间这个人,中间这个人叫詹姆斯·塞曼,他是美国纽约州立大学数学系的主任,他跟陈省身教授有一个数学发明的共识。他后来去华尔街做高频交易。他从来不拥有股票,我一开盘买入股票,通过模型计算、通过快速的计算机进行交易。今天闭市之前,所有股票卖出,他年收益率达到30%,但是巴非特年收益率只达到20%。
过去二十年的时候,发现了三次主要推动经济的引擎,一个是信息高速公路,后来是互联网时代,还有今天的大数据。大数据出现以后,美国把它升级为国家战略。但是有一点事情大家不知道。从2000年开始,美国政府就有一年一度的数据分析大会。到今年第14次。美国政府要建一个五数字政府,大数据是它的核心,这样就可以减少纸张的使用。我们国内的纸张使用是非常浪费的。即使付电话费的手续,就要打很多页的纸。提高工作效率、正确决策。
什么是大数据时代?有几个标志:一个是数据成为生产资料,政治经济学里面的生产要素谈到生产资料、资本、人力。决策是由过去的基本是定性的决策,过去是几个领导在一块开会,做一个决策。将来会有定量分析的东西,通过数据分析得到一些结果。但是定量分析获得的结果,不是做决策的决定性东西,他是辅助性的东西,所以将来决策是既要考虑定量的东西,也要有定性的经验判断。第三,智能化,大数据可以让物联网变成现实。前几年我们搞物联网,几乎没有落地的,根本落地不了,没有大数据分析,物联网就是没有用的东西。物联网到底是谁买单?没有人买单。第四,智能机器,一个机器能够识别猫,就是通过数据训练模型,让这个模型有了智能。将来的智能机器,智能机器不一定仅仅是机器人。很多东西都有智能化。很大程度上它的智能的高低依赖于大数据分析。数据分析成为科学研究第四范式。
这边是大数据分析在不同行业的应用。这里是大数据时代十个发展的趋势。前面我们已经讲了一些了,比如说数据分析会对非结构化的数据进行一些分析肯定会有一些进展。大数据对其他学科的影响,它是科学研究第四范式。同时,使得物联网和机械自动化变成可能。现在有些企业在做数据资产的买卖。法律条款的更新,关于对隐私的侵犯。关于社会治理手段。国家治理现代化可以使用大数据的分析。大数据会改变人的思维方式,分析可以变得平民化,这个平民化如何来实现呢?就是可视化技术。可视化技术现在几乎可以变成一种傻瓜式的技术。你选择需要分析的数据,往下一拉,他会变得平民化。我们会有一些新的生活方式,物联网、智能机器、云计算和互联网和大数据结合在一起变成了我们新的生活方式。军队的变革,我们从冷兵器到火器到机械化到电子化到信息化,我们现在的信息化程度不比美国差,各种军工武器虽然没有美国多,但是各方面也都有。关于它的自动化决策方面,通过我们对数据的分析能够快速做出决策,这是需要我们对数据分析做进一步的工作。这对军队有一定的影响。会成为政治和军事手段的延伸。
互联网很多的文章你也不知道谁发出来的,其实这些东西可能都是对我们的网民的影响。某某大领导在国外存了多少亿,其实可能就是通过这些方式来影响,他可以在网上制造一些突发事件,可以影响政局、时局。可以通过很多特定的软件数据分析手段,可以对一个国家对公民的思维取向进行了解。
软件其实处于一个变革时代。刚才讲到云计算,软件和数据将来都会上到云上。过去我们开发的很多软件都过时了,我们需要开发的是一种能够运行在云上的软件。其实对中国软件开发者来说是一个非常好的赶超的机会。但是中国现在对缺的并不是软件的技术,而是软件存在的生态。这个软件由企业买,企业买了这个软件以后,这家公司有了钱,才会去更新他的软件。这样软件公司才能生产出来能够跟世界上其他公司竞争的软件。如果我们国内的公司全部都是自己开发、自己使用的软件,中国的软件永远起不来。这就是我们软件生态的问题。国外一开始就有这个生态。国外不是什么都做,他需要的东西到国外去买。国外公司一开始并不是比中国公司聪明,他是有了钱才可以更新版本,经过十年、二十年不断更新版本,他的软件变成了世界一流的软件,但是我们中国现在没有。我们中国宁肯去买很多外国的软件,这个钱都给外国公司了,我们自己的公司没有钱。
大数据时代是继互联网之后又一次IT产业革命。美国87家大数据企业,超过10亿美元,中国是22家,在全球排在第二位。日本在八十年代失去了这个机会。互联网产业的发展是对于整个国家行业都有影响,不是仅仅影响在一个互联网行业。日本的落后还是有一些原因在里面。我们希望在大数据时代中国能够出现几个世界级的大数据公司。那样的话,就对中国整体经济的发展一定会带来非常大的帮助。

美国友四千亿的互联网规模,中国只有两千亿。我对这个数据还是比较怀疑的,因为互联网经济和工业时代经济不一样,工业时代经济几个人创造的GDP可以超过很多人创造的GDP。但是互联网时代的创造,一个人创造的GDP就是一个人的GDP,马云一个人在中国干,他不需要跟国外其他人合作。
中国面临的挑战:技术领域的挑战,没有关键数据分析软件。第二,数据安全对国家的威胁。
数据分析的职业是一个有较高难度的职业,是一个各学科综合的职业,要求有比较好的数学统计方面的知识、计算机技能、业务知识、多年经验的积累,对数据经验的敏感度和感知是优秀的分析师必须具备的素质。别看你是数学系毕业的,别看你是学统计的。但是你对数据的认知差的话,你不是一个好的分析师,你分析出来的很多东西都没有用。

接下来给大家介绍一个大数据的案例。数据分析的生命周期,一开始有数据发现,建模,建模以后开始实施运行,然后还有检验,检验不好模型再做耿继、升级。数据分析也不是出一些报表那么简单,他还有一定的难度,有一定的级别。
我们可以分成八个级别,前面四个级别我们通常认为它是一种BI的分析方法,并没有涉及比较深的推测和回忆,只是把数据进行归纳、计算,得到一些结果,把这些结果展示出来。
在后面四个阶段,我们把它叫做高等分析,我们会用到统计分析、数据挖掘、剂经济学的分析。我们会建立一些数学模型进行预测。同时,我们也可以做一些优化,我们可以用运筹学的方法做一些优化分析。有些人觉得优化比较抽象,我们在学微积分的时候,学会了求最大值、最小值。优化可以看成是求最大值和最小值,比如说求成本最低、利益最大化。但是这些优化是属于多变量的。有多种因素影响到你的成本,多种因素影响到你的收益,所以并不是那么简单的东西。
数据分析都用在哪些方面,有一个调研统计,数据分析用的最多的地方就是为了考虑客户关系,如何留住客户。第二,银行使用。第三,反欺诈。后面也有零售业、电信行业、虚拟评分,虚拟评分现在在信用卡方面、P2P、信用评估方面用的比较多。这边的图是sas在不同领域里销售的分布。sas因为有全球数据分析里面最全的产品线,几乎各个专业都会涉及到。所以我们从这个图就可以看到,在各个行业里面使用数据分析的比例,最多还是银行业,然后是政府、服务业、保险、生命科学。美国政府用数据分析的领域非常多。
这里总结了我们在不同领域里我们都做哪些分析。在市场领域方面,我们可能会有客户的反应模型,你做调研,客户对你是如何反应的,说服模型、客户维系模型、购物篮分析、客户推荐体系、客户细分。风险管理方面,有信誉风险、市场风险、运营风险、欺诈探测。政府方面,避税、社保欺诈、洗钱、恐怖袭击探测。9.11以后美国说他们粉碎了50起恐怖袭击案。波士顿袭击案第二天美国就能锁定嫌疑犯,他们的警务系统、公共安全系统还是非常健全的。英国的警察系统也是有非常全的数据库。互联网,网站分析、社交媒体分析、多元分析。
这是sas的客户智能体系,它包括的整个模块都是和我们刚才看到的客户分析有关。第一个可以看到客户细分。第二,交叉销售,交叉销售就是我们在电子商务平台买东西的时候,大家根据你买的东西再给你推荐,你买了A,他给你推荐B。如果你哪天说我有一个朋友生小孩了,买一个尿布去看小孩,你会发现随后几个月你经常会收到关于尿布、甚至关于女性产品的推荐,让你非常烦,这个系统有时候也是很讨厌的。客户流失预测。
这是我们经常见到的BI的系统。数据,经过ETL,经过仓库里面,这些数据做挖掘,做绩效评估,仪表盘,最后这些东西可以达到我们使用的地方。

金融服务的解决方案就是我们刚才谈到的三个风险,这个风险里面还有一些细节性的东西,比如说运营风险,包括的GRC,GRC现在也是很火的东西,公司治理、风险防范、规则一致性的问题。另外就是欺诈的问题,这里包括了比较详细,市场风险都关注于哪些东西,市场值、情景分析、压力测试、信誉风险我们关注哪些东西,操作风险、全面风险。
反欺诈是属于全球性的问题,不光是中国这边社保欺诈发生的比较多,美国、加拿大社保欺诈也是非常多的。我们很多移民去了美国、加拿大以后,他们都把钱不存银行,放在家里,买个房子,买辆车,加拿大政府规定,如果银行帐户里面低于两千块钱,就可以申请社会保障,但是你可以有一套房子、一个车。很多人有非常多的钱,但是他就是要申请社保。美国2011年政府损失1150亿美元,在欺诈方面。这是一个混合的模型,首先可以建立一些规则,发现一些行为,这些行为如果跟规则不一致,我们就认为他有欺诈的嫌疑。但是现在很多人非常狡猾,他知道你都设立了哪些规则,他通过其他方式进行欺诈。还有一种是过去的欺诈都是属于机会性欺诈,我在申请某些东西的时候,发现了有欺诈机会的时候,就开始欺诈。但是现在是属于一种预谋式,我就是要欺诈。他的技术也比较尖端,都是一些做技术的人做的欺诈。
关于建立规则、对于异常侦测,你在不同的系统里填报的数据不一致,我们可以把两个系统的数据进行对比,有一个人在申请小孩的牛奶金,同时又在申请失业补助,这两个就是一个矛盾的地方。在国外你只有收过税的人才可以申请小孩的牛奶补助。如果你没有工作,你不能申请小孩补助。这两个一对照,就会发现欺诈。通过社会网络里面一些数据进行对比分析,可以发现有欺诈行为。我们把这个叫做混合型的方法,每一种方法都做一下,看看是不是能够过。
关于反洗钱的架构,有数据在数据库里面,通过ETL放在数据仓库里面。我们通过一些场景判断你的行为,还有一些风险因素给你加分,把这两个结合在一起,我就知道你的洗钱的风险有多大。比如说有一个帐户不断的收到全国各地的钱,他的数量有一定的比例。这就是一个场景。这个帐户是一个新开的帐户,我们就想这个人开这个帐户做什么,他有一个风险因素,把风险因子加到这个情景上面,最后看他评估的分数。
统一的金融犯罪核心组件,可以看到信用卡、借助卡欺诈、支付欺诈、网银欺诈。
美国现在在做一个全国性的全申报的社保数据库,现在有16个州参与了,24个州准备参与,另外10个没有反应。他们通过数据分析发现,5%的申请社会福利的人花费了60%的钱。中国也有一些人经常跑医院,有事没事经常跑医院。10个死的人里面有7个人是慢性病,医保基金20%到47%左右的钱都浪费掉了,没有用在真正的地方。
这是我总结的sas在通讯领域的应用。这边是所有国际上的厂家,这边是使用sas的产品,包括数据挖掘的产品,客户智能的产品。中间是他用这些sas产品解决的哪些业务问题。大家最关注的还是关于客户的维系方面,他们所有用的这些方法很多都是在考虑如何让客户满意。看客户是不是要流失,如何想办法制止流失。中国电信也在做这件事情,每到流量快用完的时候,他就会告诉你,我给你50兆的流量让你使用,你现在交多少钱,我可以保证你用多长时间。都是保证留住客户的方法。
大数据和数据分析带给我们非常多的好处,对我们非常有帮助。但是大数据也不是完美的,他是有陷井的。很多人都听过Google做流感分析,他分析的跟实际的数据差了两倍。前一段百度做了《黄金时代》电影的预测,他说会火,其实这个电影根本不会火。即使这么有实力的公司做数据分析,有时候也是不靠谱的。在统计分析领域里面还有辛普森悖论和安斯库姆四重奏。数据的真实性,分析方法的正确性,分析结果的适用性。做数据分析要给公司带来利益。能够让你的投资有回报的。
最后,大数据其实并不是对传统数据分析方法的代替,他只是一种补充,非结构化数据分析还要依赖于传统的方法。对于大数据分析,数据、软件、平台要协调一致。你要有这样一个软件,你的平台就不能是一个简单的平台。你的平台一定要有足够多的数据,有足够的内存。
过去几年我们一直在中国推行sas免费的项目,左边这个模块,我们给大学里所包括的模块,这些模块用于开设数据分析的课程足够了。比如说统计分析的模块,运筹学、计量经济学和时间序列、矩阵语言、不需要分析的client,还有数据挖掘,对于大学里的教学、老师用来做科研都是免费的。这个是全球人都可以上这个网站免费下载的sas软件,这个软件只包括统计分析的部分,但是它是免费的,而且可以在你的个人机器上使用,而且不需要网络。
现在我们在中国这些大学都获得了sas这个软件,在人民大学和上海财经大学,他们全校师生都可以使用。其他大学都是特别的一些系、院来使用。这是我在上海财经大学的一个捐赠仪式。我想在这里宣布,sas也会支持我们清华大学数据研究院,我们会给数据研究院一个sas免费软件,供师生来使用。这是我的一个报告。sas在过去38年里,一直处于数据分析的定县的领域,希望今后能够跟大家合作,谢谢大家!



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-25 13:13

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表