最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据的应用统计之殇

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-13 14:10:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
今年,统计对大数据是非常重要的这一观念充斥着大众媒体。这里有几个例子,首先是Lazer等人在科学杂志上发表的文章,使得这一观念迅速蔓延。
·        谷歌流感的教训:大数据分析的陷阱
·        大数据,我们犯了一个大错误?
·        谷歌流感趋势:大数据的限制
·        八个(不,九个!)大数据的问题
所有这些文章涉及的问题都是统计人员思考了很长时间的问题:抽样总体,干扰因素,多重检验,偏置和过拟合。在大数据的热潮中,这些想法都被忽略或没有给予足够的重视。
原因之一是,当你真正花时间做一个正确的分析,仔细注意数据变化的所有来源,你将发现这几乎是一个定律:如果你只是把你的数据塞到机器学习的算法中,并报告任何出来的结果,你将会得到比你原本应该得到的更少的结果。
新闻报道中最好的例子是谷歌流感趋势。谷歌流感趋势最初是作为一种机器学习算法,用来预测基于谷歌搜索关键词的流感病例的数量。尽管基础的数据管理和机器学习算法是正确的,但由于对数据收集和建模过程中的不确定性的理解不足渐渐导致极不准确的预测。如果是一位统计学家,他会仔细考虑采样过程,确定影响空间发展趋势的时间序列因素,研究为什么搜索词具有预测性,并试图了解谷歌流感趋势可行的可能原因是什么。
正如我们所看到的,统计专业知识的缺乏导致了基因组学和经济学研究上的一些经典错误案例。第一种情况,由AnilPotti领导的一队科学家设计了一个预测化疗反应的算法,该方案在科学界和大众媒体上均受到广泛好评。不幸的是,研究人员没有正确地考虑数据集变化的所有来源,用了错误的统计方法,忽略了主要的数据完整性问题。这篇文章的主要作者和编辑都缺乏必要的统计专业知识,从而导致严重的后果,并取消了临床试验。
同样,两位经济学家Reinhart和 Rogoff发表了一篇文章,声称GDP增长因为政府债务高而变慢。后来人们发现,在他们用于分析的Excel表格中有错误。但更重要的是,他们在回归模型中使用的权重被质疑为是不切实际的,并导致与作者公开拥护的观点截然不同的结论。失败的主要原因是对数据分析的假设缺少了灵敏度分析,而这是任何训练有素的应用统计学家都会做的事。
迄今为止,在主要的公共大数据领域中,统计思维也表现的非常缺乏。下面是一些例子:
·        白宫大数据合作伙伴研讨会- 0/19是统计学家
·        国家科学院大数据研讨会-2/13发言者是统计学家
·        摩尔基金会数据科学平台- 0/3董事有统计背景,1/25在OSTP(科技政策局)关于这个平台的发言者是统计学家
·        提议成立NIHBD2K的组织- 0/18参与者是统计学家
·        白宫大数据部署- 0/4思想领袖是统计学家,0/n参与者是统计学家。
(译者注:NIH BD2K是美国国立卫生研究院在2013年启动的大数据创新计划)
还有一个例子是来自加州大学校友杂志的一个荒唐的表格,这是我在Terry Speed的令人惊异的演讲中找到的。(马上通过链接去看一下他的讲话,就能直接看到问题所在)它显示了对曾经在一系列科学学科中发展了重要的专业知识的应用统计学者的最基本的不尊重。
(译者注:上图来自加州大学伯克利分校(UC Berkeley)的校友杂志,显示的是该校几乎所有的学科在数据科学领域的贡献,唯有统计学是一片空白)
所有这一些导出了两个问题:
1.    鉴于统计思考的重要性,为什么统计学家在这些重大举措中没有发挥主动性?
2.    当思考大数据时代时,哪些统计理念是我们已经弄明白的?
大数据文摘翻译
翻译:Lindabi
校对:孙强
作者:Jeff Leek


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-21 13:44

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表