最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

如何学习数据科学

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-9 09:54:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会议交流和工作实践。

一、入门
1)自学(2 - 4个月)

自学是起步的关键。两年前,我和几个同事组成了一个研究小组,讨论统计202课程的学习材料。这让我感觉很兴奋,并由此开始数据分析的学习研究。研究小组有5名成员,但最后只有2个人选择去更深入地研究这个领域(数据科学并不适合每一个人)。

  • 学习基本的统计知识:统计202课程是非常合适的入门资料
  • 学习一种统计工具:作为一个菜鸟,我用了3个月的时间埋头学习R语言,R学起来非常有趣。(为什么要学习R?)
  • 解决一些好玩的小问题:好奇心是数据科学的关键。如果你对国家的经济问题,犯罪统计,体育成绩等感兴趣的话,去收集数据并开始回答你的问题吧。
  • 学习Unix工具:我选择了O'Reilly出版的数据之魅作为学习材料。
  • 学习SQL和脚本语言:我了解的有Java,Ruby和SQL。 Python也在我的名单上。



有很多的培训材料可以在网上找到:

  • 统计202
  • 加州理工学院的数据科学课程
  • Coursera:数据科学,机器学习,数据分析,数据分析计算
  • 加州大学伯克利分校 - 数据科学
  • 骑士新闻中心的课程:资讯图像和数据可视化
  • 统计101:Udacity(统计入门),可汗学院,卡耐基梅隆大学的统计课程
  • Learn R


2)课堂训练(9 - 12个月)

如果你想认真提高这项技能,那就选择一门课程,严肃的对待它。斯坦福大学提供了很优秀的课程。

  • 数据挖掘分析STATS202
  • 线性和非线性优化MS&E211
  • 挖掘海量数据集CS246
  • 现代应用统计:STATS315A
  • 统计方法的金融应用STATS240P
  • 现代应用统计:数据挖掘STATS315B


二、聚焦
1)集中所有精力

  • 当我迷上了数据科学时,我发现只花20%的时间是不够的,这需要花100%的时间,所以我会去发现并解决工作中出现的所有和数据相关的问题(大数据分析,医疗保健,零售分析,优化问题)。


2)着手有趣的问题

  • 把学习目标和个人兴趣放在一起。解决有趣的问题,同时学习新的技术是很有用的。例如我对零售,医疗保健和体育数据分析很有兴趣。


3)加速学习:

  • 教学相长:我会给同事和朋友教一些R语言和数据挖掘的入门知识。这使我在这方面的知识更为扎实,也使得周围的人对这个主题更有兴趣。这对我来说也是一种回馈开源社区的方式。博客写作也是另一种学习和贡献的方式。
  • 关注业内领袖:网络中有很多厉害的数据科学家,关注这些人可以得到很好的启发。例如: DJ Patil, Hillary Mason,Jeff Hammerbacher, Carla Gentry, Monica Rogati, Cathy O'Neil。
  • 阅读有趣的博客:http://datascience101.wordpress.comhttp://columbiadatascience.com/bloghttp://www.r-bloggers.comhttp://www.datawrangling.com,http:// flowingdata.com(Quora的最好的的数据博客列表)
  • 定期参加聚会:本地的数据科学/ R聚会,这一领域的发展非常迅速,我至少每隔一年去那里。看看有什么好玩的新东西。
  • 了解大数据技术:MapReduce / hadoop,云计算。我尽量不使用任何商业技术供应商,现在回想起来,这是一个很好的决定。


4)了解业务领域知识
我很幸运,有机会接触到内部和外部的数据科学家,他们帮助我理解他们处理数据问题的方法。我从他们身上学到的“假设驱动的数据分析”,而不是“盲目加蛮力数据分析”的重要性。重点是理解的业务领域问题,然后再尝试从数据中提取有意义的见解。这使我了解一些运营,零售,旅游及物流收入管理和医疗行业。 “纽约时报”近日发表文章,强调有必要为直觉。

3、有用的数据科学读物
  • 数据挖掘导论
  • 果壳中的R
  • 数据之魅
  • 可视化之美
  • 查看更多的数据科学的书籍:O'Reilly,Manning


4、对我感觉没多大用的东西
  • 学习多个统计工具:一年前,我开始有一些SAS编程的工作要求,我学了一个月左右的SAS,但没什么效果。主要的原因是学习惯性,而且我喜欢用R.我真的没有需要去学习另一种统计工具。R虽然不是完美的,但将R和其他我熟悉的软件工具结合,我可以解决所有数据的科学问题。因此,我的建议是,如果你已经知道了SAS,STATA,MATLAB,SPSS,STATISTICA,非常好,坚持下去。但是,如果你正在学习一种新的统计工具,那就选择R吧。
  • 公开课程:我试图用Coursera来自定进度学习,但对我来说,这不是有效的。我需要有压力,有学分的正式课程。
  • 过多的学习量:需要注意工作与生活的平衡。今年早些时候,我试图同时学习多门困难的课程,我很快就意识到这么干没什么好处。


from:博客数据科学与R语言


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-15 14:10

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表