最具影响力的数字化技术在线社区

51管天下 发表于 2014-9-19 21:12:41

一天学会统计百万级数据——百度搜索词SPSS分析

接着昨天的话题,SPSS是个好软件,为什么学,先说点直观的,因为可以处理大数据,EXCEL目前可以直接支持104.9万条数据,这是峰值,其实大家常用的电脑,处理50万条数据的时候,系统就已经很卡了,大家有没有经历过,EXCEL 计算一个简单函数,计算机显示CPU100%的情况,那个时候,电脑无法动弹,我只好去倒杯水,回来,还是计算中,于是再去趟卫生间,回来,还是计算中……20多分钟,计算完毕……后来,处理30万条以上的数据,我基本就不再用EXCEL。 记得腾讯的某个职级标准有过对数据处理能力的要求,譬如一年级新手,能处理万级数据,二年级处理10万级数据,到了三年级,处理100万级数据,这就不是EXCEL可以搞定的,虽然不是每个产品经理都会进行数据计算挖掘,但对自己有较高要求的,还是学习下如何分析数据吧,至少,当你做了个百万级用户的产品,你可以轻松计算。 开发同学这时候很很不屑,百万级算啥,确实不算啥,但对于产品同学来说,能做百万级产品,还能自己进行数据分析、用户挖掘,真的不容易,尤其是创业团队或小公司,没有专业的数据挖掘同学帮忙,很多事情,是需要自己做的。 有志于做百万级用户的产品经理、产品运营、用户研究工程师们,好好往下看,不算安装,1个小时,你就可以计算百万级数据,当然只是简单的计算,例如求和、平均数、标准差、峰度系数、偏度系数。 百度搜索关键词分析的案例 安装
使用任何软件必经的一步,就不说了,如何找SPSS软件,用百度吧,我目前用的是SPSS19.0和20.0版本。 数据输入 SPSS和EXCEL不同的是,EXCEL只有一个界面视图,数据变量名称一般放在首行。SPSS有两个视图,区分【数据视图】和【变量视图】,如下图所示: http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0NbmqJNiaRuuRBOT6sIl8jS4PgOA/0
一个完整的SPSS数据结构包含:变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量标准、数据的显示(显示宽度、列宽度、对齐方式)、角色。 这些定义,不啰嗦,自己去百度,网上说的很清楚。 http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0NbmqFuBmoAXVicWGfxiaUDMG79lw/0 数据描述统计 下面进行这些搜索词的描述统计,也就是计算前面说的:求和、平均数、标准差、峰度系数、偏度系数。 1.      首先,从菜单选择命令,【分析——描述统计——描述】 http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0Nbmq5pHT7wibqN1k1xqMgajibicSw/0
2.      选择需要计算的变量,这里就是【搜索次数】。 http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0Nbmqayt4nVaMiaRIFXtNnekOpJA/0
3.      选择统计选项,点击【选项】按钮,进入下面页面,勾选:均值、合计、标准差、最小值、最大值、峰度、偏度等等。选择完毕,点击【继续】。 http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0Nbmqz9CLniaib8PpLROagmK26yJA/0
统计结果解读 SPSS的计算速度,绝对秒杀EXCEL,这个案例的数据是20万条,看下统计结果:
http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0NbmqBSiaWMibwnvw8tUwjKIbiaqUQ/0
结果表格过长,分两张图截屏。 http://mmsns.qpic.cn/mmsns/590trKQxfjVpkia7ciaIh2CJyLI2C0Nbmqc7RVaMY77ZuunJ1F21a5Og/0
统计指标:搜索次数 统计量:202888,也就是有20.2万条搜索词条; 全距:3292149,也就是最大值减去最小值; 极小值:1 极大值:3,292,150 和:14,811,041,也就是搜索次数合计是1481万次; 均值:73,平均每个词被搜索73次。 后面的标准差、偏度、峰度,以后再和大家分享。 好了,看完这篇文章,你就会做100万条数据的求和、求平均数,数据案例来源百度搜索风云榜,部分虚构。大家也可以经常去看百度搜索风云榜,了解搜索热点变化,这也是我2006年创业期间,曾经合作过的一个产品。 PS. 不少同事订阅了我的公众平台,目前打算开课讲EXCEL(这个我在腾讯已经讲过几轮),SPSS也计划做个通用素质课程,有兴趣的,可以回复下,看看几个人想学。公司之外的朋友们,如果想交流,我或许可以用YY的远程教育方式,进行开课分享。
如果有人问分享否收费,那么只好说,想多了,当然,以前也有邀请我去公司讲课的,这需要专门准备,付给课酬,我也心安理得。
发布于2013年5月15日8点55分。 ====================================我是BLUES,一个简单、真诚、热心的人,做过销售、市场、用户研究、数据分析、产品运营……对产品体验有着极致的追求,喜欢读书、电影、旅行、做美食,欢迎收听我的公众平台,欢迎交流。 如果觉得分享内容还不错,就推荐到你的朋友圈吧,让更多人一起交流和分享。公众平台帐号是:bluemidou,谐音兰米豆,我们家儿子的名字。

胚根 发表于 2014-10-4 12:10:28

共建大数据论坛
页: [1]
查看完整版本: 一天学会统计百万级数据——百度搜索词SPSS分析