最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

性感之外,数据科学家需要的三大核心技能

[复制链接]
跳转到指定楼层
楼主
发表于 2014-8-6 09:46:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

Data Scientist需要深刻理解需求和问题所在,然后对数据进行处理,采取合理的量化分析寻求答案,所推荐的答案,也必须是backed by data evidence。Warald认为,以下三类技能是很重要的:

《一》Data Hacking

要有独立从各种各样的地方把数据化为己用的能力。可能会用到的:

  • SQL:用来存储和查询structured数据
  • Programming:比如用Python for parsing/scraping data。如果既会一门scripting language,又会一门compiled/object oriented language,会是优势。主要是用来处理unstructured数据
  • hadoop/parallel processing:你处理的数据可能太大(比如超市过去半年的购物记录、信用卡公司两年内的刷卡记录)无法一次性装入内存,而你需要对数据进行快速的分析,这就需要MapReduce等技术。
  • 这其中,SQL和Programming是最基本的,你必须会用sql查询数据、会快速写程序分析数据。当然,你的编程技术也不需要达到软件工程师的水平,因为你写的code大多数只是一次性的、不会被复用,而且也只会被你或者个同事使用,并非放在网上让无数人点击,因此对程序质量要求不高。

要想更深入的分析问题,你可能还会用到:

  • Exploratory analysis skills,可以使用python、R、matlab等各种工具,IT公司用SAS和SPSS相对较少,尽管有些job ads/descriptions里提到了,当然也不是完全不可以。但是如果你只会SAS,那么选择无疑要少很多。
  • Optimization、Simulation:有些职位需要研究顾客需求变化,调整产品或者服务价格,来帮助公司最大化盈利
  • Machine Learning、Data Mining:比如有人用数据挖掘技术,发现很多人在超市里买尿布的同时,也买了啤酒 – 现在还没理解为啥,但是也许尿布和啤酒应该放一起卖;另外比如手机广告的精准投放。
  • Modeling:你需要理解不同的统计模型有什么应用范围、有什么限制和特长,我在第一部分里提到的descriptive、predictive、prescriptive三个场景也是浅显的例子
《二》Problem Solving:

你不光要理解what users say they want,你还需要真正的理解what they actually mean、转化定义出一个可以用数据解决的问题,然后选择正确的分析工具,量化分析和解决问题。

《三》Communication

数据科学家会跟公司的很多不同部门的人打交道,会比码农跟更有机会见到高层或者是 business领域的人。如果你希望接触像市场营销这样的部门,希望跟上级领导多多打交道,那你需要有较强的交流能力。你需要知道区分什么是问题本质、什么是技术细节,要有能力给上层领导讲high level的分析和推荐,有能力给同事讲解和defend你的技术细节,也就是”见什么人说什么话”,这不是说要你油滑,而是说要知道什么时候需要隐藏技术细节,而只展现跟听众最相关的信息。

你很可能要经常做presentation,需要很强的visualization的能力,熟悉Edward Tufte和Nathan Yau的东西,会很有帮助。另外,也许你很喜欢高深的方法,觉得你懂你NB,但是一切的解决方案,都要从产生business revenue的角度来考虑是否合理。

你也可能需要跟software development team合作,需要讲清楚需要他们实现什么、需要告诉他们什么地方需要改进。

至于你所从事行业的domain knowledge ,懂最好,不懂也不必强求,某知名公司的VP 曾经跟我说,他这个行业的特有知识,3个月内可以学会,但是数据分析能力,可不是三个月就能学出来的,并且不同行业背后的数据分析能力是普适的。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-3 02:42

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表