最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

一天学会统计百万级数据——百度搜索词SPSS分析

[复制链接]
发表于 2014-9-19 21:12:41 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
接着昨天的话题,SPSS是个好软件,为什么学,先说点直观的,因为可以处理大数据,EXCEL目前可以直接支持104.9万条数据,这是峰值,其实大家常用的电脑,处理50万条数据的时候,系统就已经很卡了,大家有没有经历过,EXCEL 计算一个简单函数,计算机显示CPU100%的情况,那个时候,电脑无法动弹,我只好去倒杯水,回来,还是计算中,于是再去趟卫生间,回来,还是计算中……20多分钟,计算完毕……后来,处理30万条以上的数据,我基本就不再用EXCEL。
记得腾讯的某个职级标准有过对数据处理能力的要求,譬如一年级新手,能处理万级数据,二年级处理10万级数据,到了三年级,处理100万级数据,这就不是EXCEL可以搞定的,虽然不是每个产品经理都会进行数据计算挖掘,但对自己有较高要求的,还是学习下如何分析数据吧,至少,当你做了个百万级用户的产品,你可以轻松计算。
开发同学这时候很很不屑,百万级算啥,确实不算啥,但对于产品同学来说,能做百万级产品,还能自己进行数据分析、用户挖掘,真的不容易,尤其是创业团队或小公司,没有专业的数据挖掘同学帮忙,很多事情,是需要自己做的。
有志于做百万级用户的产品经理、产品运营、用户研究工程师们,好好往下看,不算安装,1个小时,你就可以计算百万级数据,当然只是简单的计算,例如求和、平均数、标准差、峰度系数、偏度系数。
百度搜索关键词分析的案例
安装

使用任何软件必经的一步,就不说了,如何找SPSS软件,用百度吧,我目前用的是SPSS19.0和20.0版本。
数据输入
SPSS和EXCEL不同的是,EXCEL只有一个界面视图,数据变量名称一般放在首行。SPSS有两个视图,区分【数据视图】和【变量视图】,如下图所示:

一个完整的SPSS数据结构包含:
变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量标准、数据的显示(显示宽度、列宽度、对齐方式)、角色。
这些定义,不啰嗦,自己去百度,网上说的很清楚。
数据描述统计
下面进行这些搜索词的描述统计,也就是计算前面说的:求和、平均数、标准差、峰度系数、偏度系数。
1.      首先,从菜单选择命令,【分析——描述统计——描述】

2.      选择需要计算的变量,这里就是【搜索次数】。

3.      选择统计选项,点击【选项】按钮,进入下面页面,勾选:均值、合计、标准差、最小值、最大值、峰度、偏度等等。选择完毕,点击【继续】。

  
统计结果解读
SPSS的计算速度,绝对秒杀EXCEL,这个案例的数据是20万条,看下统计结果:


结果表格过长,分两张图截屏。

统计指标:搜索次数
统计量:202888,也就是有20.2万条搜索词条;
全距:3292149,也就是最大值减去最小值;
极小值:1
极大值:3,292,150
和:14,811,041,也就是搜索次数合计是1481万次;
均值:73,平均每个词被搜索73次。
后面的标准差、偏度、峰度,以后再和大家分享。
好了,看完这篇文章,你就会做100万条数据的求和、求平均数,数据案例来源百度搜索风云榜,部分虚构。大家也可以经常去看百度搜索风云榜,了解搜索热点变化,这也是我2006年创业期间,曾经合作过的一个产品。
PS. 不少同事订阅了我的公众平台,目前打算开课讲EXCEL(这个我在腾讯已经讲过几轮),SPSS也计划做个通用素质课程,有兴趣的,可以回复下,看看几个人想学。公司之外的朋友们,如果想交流,我或许可以用YY的远程教育方式,进行开课分享。

如果有人问分享否收费,那么只好说,想多了,当然,以前也有邀请我去公司讲课的,这需要专门准备,付给课酬,我也心安理得。

发布于2013年5月15日8点55分。
====================================
我是BLUES,一个简单、真诚、热心的人,做过销售、市场、用户研究、数据分析、产品运营……对产品体验有着极致的追求,喜欢读书、电影、旅行、做美食,欢迎收听我的公众平台,欢迎交流。
如果觉得分享内容还不错,就推荐到你的朋友圈吧,让更多人一起交流和分享。
公众平台帐号是:bluemidou,谐音兰米豆,我们家儿子的名字。


楼主热帖
发表于 2014-10-4 12:10:28 | 显示全部楼层
共建大数据论坛
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 15:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表