最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据分析师谢佳标:处理缺失数据的三种方法

[复制链接]
跳转到指定楼层
楼主
发表于 2015-10-21 16:33:15 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

“每天一个数据分析师”栏目将会持续访问数据分析行业的从业者,与大家分享他们与数据之间的故事。在这里,你可以看到他们的成长道路,分享他们的经验,吸取他们的教训,也可以感受他们的喜怒哀乐。“每天一个数据分析师”很荣幸在第五期采访到谢佳标老师。


本专栏内容来自微信公众号“每天一个数据分析师”。

人物档案[size=1em][size=1em]
谢佳标,梅州人,今年33岁,毕业于华南师范大学,目前在一家上市游戏公司任职高级数据分析师。

DA:您是如何入行的?

佳标:我是数据与应用数学专业出身,数学、统计学基础比较扎实,又钟情于数据,毕业后便从事与数据分析相关的咨询行业工作。在咨询行业任职期间锻炼了我对数据的洞察力和解读能力,使自己的数据分析技能得到迅速提升。后来随着数据挖掘越来越火,我便不断钻研算法模型和专业统计分析工具,慢慢实现了从数据分析向数据挖掘角色的转变。所以,可以说兴趣是最好的老师,如果你热爱某个行业,就会在工作中努力自我提升,不断实现蜕变。

DA:您的工作经历,目前的工作职责(做哪块),工作中曾做过的数据分析实例,以及您的职业规划?

佳标我从事数据挖掘建模工作已有8年,曾经从事过咨询、电商、电购、电力、游戏等行业,了解不同领域的数据特点。有丰富的利用R语言进行数据挖掘实战经验,部分研究成果曾获得国家专利,同时也是公司R语言和数据分析培训的内部讲师。(注:佳标老师是第七届中国R语言大会<广州会场>、第八届中国R语言大会<广州会场、武汉会场>的演讲嘉宾,以及WOT2015年大数据技术峰会的邀请嘉宾。)

目前就职的公司里我主要从事数据分析的研究,及利用R语言进行大数据的挖掘和可视化工作。我曾做过一个数据挖掘技术在游戏领域研究方面应用的项目,起因是游戏公司很多系统目前只能查看汇总数据和统计图表,不能看到明细,运营对统计数据有疑问时只能找后端同事导出相应的明细进行查看,费时费力,且不熟悉数据统计人员的统计原理和数据传输质量问题,也会影响数据统计结果。所以我和同事做了个项目研究利用玩家的历史游戏数据进行数据挖掘分析,并搭建了游戏玩家分析平台,运营同事可以直接在此数据分析平台上进行玩家明细数据查询,并统计玩家核心数据。

(注:以下所有图片应保密要求做了模糊处理)

数据缺失值可视化展示:



玩家明细数据查询模块展示:



此界面提供不同平台玩家的查询功能。

用户分群统计模块展示:



不同平台用户性别柱状图展示:



付费用户金子塔模块展示:



决策树模型展示:



转化率P控制图展示:



我很喜欢从事数据挖掘相关领域的研究,所以我的职业目标是致力于大数据挖掘和可视化,希望将数据价值实现最大化,真正实现大数据大价值。

DA:刚才听您分享您做过的项目,解决的问题不简单,能否再给我们讲一个您在工作中遇到的印象更为深刻的困难及其成因?

佳标工作中遇到的印象深刻的困难主要是做数据分析时数据缺失严重,不能满足正常的分析需求。造成数据缺失严重的背景成因在于我们公司主要是做休闲游戏,没有强制要求玩家填写用户信息,所以玩家的基础属性数据是几乎缺失的。

在收集真实数据的过程中,数据缺失是非常常见的现象,而且影响重大,缺失值的处理可以说是数据预处理中的重中之重。一般而言,数据缺失主要是由以下几个原因造成的:
1) 在数据收集阶段,某些记录或字段丢失;
2) 调查访问中,被访问者拒绝透露相关信息,导致数据的无效性;
3) 由于机械原因,导致数据存储的失败。

DA:这个问题最终是如何解决的呢?能否向广大同行分享一下思路?

佳标在有缺失数据的情况下进行的数据分析是不靠谱的,并且有些统计方法对数据质量要求很高,不允许数据有遗漏,这就要求我们在数据预处理过程中考虑缺失值的问题。基本上,缺失数据处理的流程是,首先判断其模式是否随机,然后找出缺失的原因,最后对缺失值进行处理。

数据缺失的弥补可以通过多种途径完善。第一种是在游戏中嵌入问卷调查,设置好各种需要采集的基础属性字段信息让玩家在登录游戏时填写,通过用户自己填写的方式进行数据收集。第二种方式是通过合作方的形式收集用户基础信息。但这两种方法收集的样本量是有限的,相对于我们上亿的用户量来讲属于小样本。所以我们通过数据挖掘技术进行用户基础属性的预测工作。将已知属性的用户当作是研究对象,并利用处理数据不平衡技术(利用R语言的DMwR包中的SMOTE函数进行失衡数据处理),研究不同性别、年龄等玩家在游戏中的行为情况,通过明显的行为特征来进行属性预测,从而实现数据缺失的弥补工作,也为接下来的数据分析工作的顺利进行做好准备。

具体而言,处理缺失数据主要有三种方法。

1) 删除缺失样本:过滤掉缺失样本时最简单的方式,其前提是缺失数据的比例较少,而且缺失数据是随机出现的,这样删除缺失数据后对分析结果影响不大。R中可以使用cmplete.cases( )指令选取完整的记录,有缺失值的行则删去不要。

2) 替换缺失值:缺失值不一定要完全剔除,最常见的是通过赋值来解决,用变量均值或中位数来替代缺失值,这样的优点在于不会减少样本信息,处理起来简单,但缺点在于缺失数据不是随机出现时会产生偏差。

3) 多重插补法:是用于填补复杂数据缺失值的一种方法,该方法通过变量间关系来预测缺失数据,利用蒙特卡罗随机模拟方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理。

DA:谢谢分享。请问您对希望从事数据分析行业的职场人有哪些建议?

佳标我的建议是可以选择一款目前比较流行的开源软件:R、Rattle、Python、RapidMiner、Weka等,通过工具的使用提升自己的分析能力。

另外建议大家在学数据分析时,一定要坚持学以致用,把自己学到的数据分析知识应用到实际工作中,这样才能让学到的知识更加牢固。

DA:请问您如何看待数据分析师行业的就业前景及未来发展?

佳标:随着从IT到DT时代的到来,数据越来越被企业重视,如何从数据中发现价值,从而跑赢竞争对手已经成为每个企业高管必须考虑的问题。所以数据分析师行业的就业前景良好,数据分析师(数据科学家)将成为未来十年最抢手的职位。

DA:请您推荐一些平时在网络上学习专业知识的平台吧。

佳标:经管之家、统计之都、excelhome论坛、中国统计网、炼数成金等网站都是学习数据分析不错的地方。或者加入一些专业的QQ群或关注与数据有关的公众号,了解数据分析的动态和前沿技术。

DA:谢谢您对我们的支持,您平时工作之余都做些什么呢?有什么特长爱好呢?

佳标:工作之余主要逛逛与数据分析相关的论坛,关注一些前沿技术,看看书充实自己。爱好的话我比较喜欢玩休闲游戏、下中国象棋等。

DA:最后,方便留下您的联系方式以便交流吗?(建议大家直接在后台提问,我们会统一整理并反馈给被访者,这样彼此都能节约时间提高效率。)

佳标:QQ:398580551

DA:谢谢您。今天的采访到此结束,我们再会。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-11 10:18

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表