最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

分享 :如何成为一位数据科学家

[复制链接]
跳转到指定楼层
楼主
发表于 2016-11-23 16:11:24 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本文观点来自对《如何成为一位数据科学家——大数据时代的统计学思考》(Rachel Schutt, Cathy O’Neil)的阅读。

文中并没有给出数据科学家的定义,但是给出了其应具有的技能:统计学、线性代数、编程技能、数据预处理、数据再加工、数据建模、可视化和有效沟通。而该篇文章只对统计学进行了介绍。

统计推断
“数据就是现实世界运转留下来的痕迹。而这些痕迹会被如何展示出来,则取决于我们采用什么样的数据收集和样本采集方法”。作为数据科学家,其任务是将现实世界转化为抽象数据,然后从抽象数据中发现知识,再将该知识应用于现实世界。这个过程可能不是一次性的,更可能是迭代的。

因为未必一次发现的知识就是完全正确的。可能还要将该知识在现实世界中再进行验证,然后根据验证结果再进行一轮现实世界——数据抽象——现实世界的过程。这一从现实世界到数据,再从数据到现实世界的流程就是统计推断的领域。这门学科关注从过程产生的数据中提取信息,包含流程、方法和理论。

由于整个过程中人(数据科学家)的存在,因此这并不是像人们想的那样是客观的,而是明显主观的。例如可以选择不同的过程,以及通过不同的方式采集得到不同的数据。

总体和样本
这个比较好理解,总体就是全部的观察对象,样本就是总体中的选取的一个子集。但这涉及到如何选取这个子集,即采样方法的问题。如果采样方法存在偏差,那么通过对样本的研究得出的结论也是有偏差的。

这里,作者提到了大数据。即如果有能力对所有数据进行分析,还需要进行采样分析吗?作者也并没有直接回答这个问题,而是指出即使在谷歌,数据科学家和统计学家都在用到采样来处理大数据。而且是否采样也取决于个人想实际解决的问题。

我的理解是,大数据技术(hadoopSpark等)提供了更有力量的一个手段来帮助人们进行更全面的分析,但它也有相应的代价,包括人力成本、计算成本和时间成本。就像杀鸡是否要用牛刀一样,不同问题还是适合用不同的工具来解决。因此采样统计仍然是解决问题的一个可选手段。

偏差
这里举了个有趣的例子,微软研究院的Kate Crawford女士提到,如果对飓风桑迪前后对推特数据进行分析,会得到如下结论:人们在飓风来临前在购物,飓风过后在聚会。这里的购物可不是为了应对飓风而大采购。好像这个结论告诉大家飓风对人们没什么影响。但实际上,由于分析的样本就不对,结论自然不对。推特的重度用户是纽约人,他们的确是完全不受飓风影响的,但那些受飓风影响的人们却不怎么发推特。这就是采样导致的偏差的一个例子。

新的数据类型
由于互联网的快速发展,要分析的数据类型也从原来简单的数据(数字、分类变量和二进制变量)发展为更加丰富的数据类型,包括:
  • 文字:电子邮件、微博、网站上的文章等;
  • 记录:用户数据、带有时间戳的事件记录和JSON格式的日志文件;
  • 地理位置信息数据;
  • 网络:这里应该指的是例如朋友关联、人际关系等事物之间连接关系构成的网络或图;
  • 多媒体信息:包括图片、音频和视频等。


这些新数据类型的出现使得数据科学家在选择数据时应更谨慎,并且需要研究不同类型的分析方法。

作者还给出了其对“大数据”的理解:大数据是大是相对的,20世纪70年代的大数据概念和现在的大数据概念是不一样的。当用一台机器无法处理时,就可以称为“大数据”。

另外,作者并不认同库克耶和迈尔-舍恩伯格的文章“The Rise of Big Data”中的观点:接受数据中存在杂乱噪声;重视结论,放弃探究产生结果的原因。他们提出这观点的原因是,认为总体就是全部,有了全部,就能够得出正确的结论。但本文作者认为总体并不等于全部。因为总体其实也取决于数据科学家的判断,一旦判断出错,认为是全体研究对象产生了这些数据,但实际上只是部分研究对象产生的,就会发生错误。正如同上述的通过推特用户研究飓风影响的例子。也正因为此,作者提出“数据是不客观的”。

建模
作为一名数据科学家,建模是不可避免的研究数据的手段。通过建模找出数据的规律,并采用模型表示这些规律,以及用于在现实世界中进行进一步验证。模型有很多表达方式,在不同的学科和领域有不同的形式,比如建筑学中用蓝图和三维立体模型,分子生物学中用连接氨基酸的三维图像表示蛋白质结构,数据科学家用函数来描述数据的规律。

那么等于一堆看起来杂乱无章的数据,应该怎么建模呢?应该怎么选择模型呢?作者认为模型的选择一半是艺术,一半是科学。无非还是需要依靠假设、从最简单模型起步、探索性分析、反复尝试以及模型复杂度(建模代价)与模型准确率之间的权衡等方式。接着作者对建模时用到的最基本的概率分布进行了介绍。这些就是概率书本上的一些经典概率分布,这里直接引用了原文中的图:


另外,要避免建模过程中出现过拟合问题。所谓过拟合,也就是模型对于样本数据特别符合,但对于样本之外的数据却并不能准确描述。也就是说建立的模型失去了其普适性,往往是因为对于样本数据过于调优所致。

数据科学的工作流程
这里也直接引用原文中的图:


该流程中的几个活动从字面上都比较能直观地理解其含义。但可以看到几个特点:

活动之间有迭代。从探索性数据分析可能会回到收集原始数据,再进行一次迭代。因为探索性分析就有可能出现分析错误,所以需要再次进行从头开始。

活动不是按照固定步骤进行。没有固定的流程,有些活动是可以跳过的。例如清理数据后,可以选择机器学习算法训练模型,然后再进行沟通、可视化和报告,也可以清理数据结束就进入到沟通、可视化和报告。还有就是机器学习之后可以进入到构建数据产品。其实这些活动往往取决于此次数据分析的目的,有时候可以跳过某些活动,有时候这些活动可以并行执行。

模型结果要反馈回现实世界。就是图中的虚线箭头。因为一次分析往往只是对采样样本进行研究得到模型,但是否能够适用于更广大的未采样样本,还需要进一步验证。另外,得到了数据模型,往往是需要依据该模型进行决策,调整系统,然后将调整的系统再次在现实世界中运行,看是否能够达到调整预期。例如,根据对网站用户行为的建模,调整了推荐系统的推荐策略,实施后是否真的提升了网站的产品销售量,就需要进一步验证研究了。

数据科学家在数据科学工作流程中的角色
这里也引用了原文中的图:


其实,大家要注意,这张图只是举例这几个环节需要数据科学家做哪些活动,但并不是说数据科学家仅仅参与这几个环节,其实很容易想到他们肯定还要参与所有后续活动,如探索性数据分析、机器学习、沟通和构建数据产品等。

以上,就是基于原文对数据科学家的一个简单介绍。原文对几个观点的质疑还是比较中肯。例如对2008年《Wired》杂志主编Chris Anderson在杂志上发表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所认为的,数据即信息,有了数据就不需要哦行了,了解相关性就够了。并且说以海量数据为例,“谷歌根本没有使用模型”。显然上述说法明显是有问题的。还有就是对库克耶和迈尔-舍恩伯格提的“N=全部”观点的质疑。因此意见领袖由于不是该行业的专家,因此只是向广大群众介绍了相关概念和问题,但其说法并不一定准确。因此要对意见领袖的话保持自己一定的判断。

参考文献
1. 如何成为一位数据科学家——大数据时代的统计学思考, Rachel Schutt, Cathy O’Neil
作者:Glory Zhang;转自:中国统计网;

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-28 08:25

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表