最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据分析中会常犯哪些错误,如何解决?

[复制链接]
跳转到指定楼层
楼主
发表于 2017-5-24 20:32:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
错把相关性当成因果性 correlation vs. causation
    经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了。这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活、学习、工作中,时不时的就会有人犯这样的错误。
    举个栗子
    数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。
    根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。
    幸存者偏差 survivorship bias
    数据分析中看到的样本是“幸存了某些经历”才被观察到的,进而导致结论不正确。
    比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。
    再比如 uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星 半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。
    样本跟整体存在着本质的不同
    以知乎为例,会有种错觉人人年薪百万,985/211起,各种gfsbfm,天朝收入水平直逼湾区码工。然而一方面这是幸存者偏差,知乎大v们的发声更容易被看到(看,幸存者偏差也是阴魂不散)。另一方面,不要小瞧知乎跟天朝网民的差别,以及天朝网民跟天朝老百姓的差别–样本跟整体的差别。
    类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。
    过于追逐统计上的显著性 statistical significance
统计101告诉我们,要比较两组数是否不同,最基本的一点可以看它们的区别是不是统计上显著。比如 linkedin 又要改版了(我为什么要说又呢),有两个版本 a 和 b. 灰度测试发现,跟现有版本比起来,a 的日活比现有版本高20%,但是统计不显著。而 b 的日活跟现有版本虽然只高了3%,但是统计显著。于是 pm 拿出统计101翻到第二页说,来,咱们把统计显著的版本 b 上线吧。苦逼的数据科学家 ds 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 a 的数据吧(具体分析略过一万字)。
    很显然,这个例子也是我瞎扯的。

    不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化
    在趋势图中,为了说明增长趋势多明显,把y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把y轴从0开始看的话,会显得基本没有差距。
    (一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)
    数据分析提供的结果和建议不具有可行性
    twitter通过分析文本数据发现。。。
    算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。
    不做数据分析
    别笑,据以前的校内后来的人人现在不知道叫什么的 pm 说,这是真的。(开个玩笑,人人的同仁要是介意的话我删掉)
   最后的大招:如何解释 p-value
    具体我就不讲了, 讲错了我明天还怎么面对老板和同事啊。
   

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-26 06:04

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表