最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

一文读懂数据科学家:需要哪些素质、类型与工作流程

[复制链接]
跳转到指定楼层
楼主
发表于 2019-6-18 21:59:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本文来自微信公众号“摇曳的光明”(ID:genuine-stupidity),作者 王建强(Jay Wang)。原题目《数据驱动的决策辅助和产品智能化》


首先介绍一下我的职业发展经历哈。我中文名字是王建强(Jay Wang),美国排名前15的统计系的博士,之后在湾区工作过8年,大家可以在领英、脉脉上搜到我。湾区的第一段工作经历在惠普研究院,做零售业的需求预测和产品线优化方面的决策智能。2013-2015年在twitter总部广告组,负责广告点击率预测和排序算法。2015-2018年历任stitch fix, 一家已上市的推荐电商公司,推荐算法负责人及snapchat 滤镜广告技术负责人。
今天我会结合我在数据科学中探索的心得体会,跟大家聊聊数据科学的话题。分享的对象是互联网公司的工程师、产品经理、运营同学和所有对数据科学感兴趣的读者。
数据科学家需要哪些方面的素质?
数据科学家是当前无论硅谷还是国内都很稀缺、炙手可热的职业,优秀的数据科学家更是寥寥。数据科学家这个职位,对专业和综合素质都要求很高,需要“一专多能”,就是常说的T形人才。
数据科学家要有基于数据指导业务和分析预测的能力。具体来说,需要具备的素质有:大数据平台实战经验、理解企业业务、懂数学软件和编程、掌握分析的理念、熟悉算法跟编程。所以数据科学是对业务思维能力、数学建模能力和工程开发能力要求都很高的行业。
但成为好的数据科学家并不限定教育背景或从事的领域。我共事过的优秀的数据科学家来自截然不同的领域,在成为数据科学家以前,他们有人在金融业做证券分析,有人研究流行病的传播,有人搜寻宇宙中超新星的爆发,有人从事脑神经科学的研究,林林总总。
恰恰是来自不同专业领域的经验给数据科学这个行业带来了不一样的风景。流行病传播的模型被用到twitter, facebook 等社交网络来研究爆款内容的传播,脑神经科学的理论在人工智能领域广泛运用。我stitch fix前同事有些物理的Ph.D.从普林斯顿的高等研究院(就是爱因斯坦、冯·诺伊曼、奥本海默等大神工作过的地方)过来。他们之前从宇宙射线的数据中搜寻超新星,而现在却在研究女装的动态库存。
但行业顶尖的数据科学家无一不是业务思辨、建模和动手能力都非常扎实的。要成为优秀的数据科学家,其一需要系统的量化科学的训练,在网络发展到今天,大家可以找到丰富的免费学习资料。其二要培养“大胆假设、数据求证”的思维框架,而且要刻意练习用这套思维框架解释生活和工作中的问题。
数据科学家可以分成哪些类型?
数据科学家可划分为Analytics和MachineLearning两类,但是也有很多人兼顾两个角色,在工作中相互转换,就是戴两顶帽子(wearing two hats)。前一类通过AB测试、深度分析等指导产品决策,而后一类搭建智能决策的产品,提升效率。
Analytics大多是问题导向,如购物平台上用户在工作时间和下班后消费习惯的差异。最初可以针对用户总体进行分析,然后在结果的基础上做更细化的分析。可把用户按照城市、地理位置、用户使用的客户端来分类细化。整个过程是交互式的,就是不断提出新问题,通过分析解决问题,然后再提出新的问题,最终目的是做决策辅助。
MachineLearning主要是指标驱动,如提高广告平台上用户的转化率。转化率就是从用户点击广告到生成转化(如用户访问广告商网站和下载APP)的比率。通过应用预测模型或对当前系统调参来提升指标,最终生成智能化的产品。
数据科学的一般工作流程是什么?
下图是基本的数据科学流程:
开始先搜集原始数据(企业的CRM数据、交易记录等),还有网站点击流或用户APP内行为的埋点日志。
之后,对原始数据进行预处理,也叫数据清洗。原始数据会有很多冗余、变量缺失以及错误。基于清洗过的数据,可以做一些探索性分析和机器学习建模。
在探索性分析方面,尿片和啤酒是很经典的案例。很多分析师会对商品信息进行归类以及监督商品的相关度。一般情况,大多数的商品相关度都很低,约在0.1左右,啤酒跟尿片的相关度是0.3左右。针对这个奇怪的现象,分析师们做了分析,发现很多父亲晚上去超市给婴儿买尿片的同时也会买啤酒来自己喝。这样一来,超市摆放商品时可以把相关度比较高的商品放在一起,方便顾客挑选。所以对数据科学来讲,通过数据分析、建模可以得到一些可以让人信服的信息,便于做决策辅助。
另外就是数据产品,分为分析型和智能化产品。
分析类数据产品。如现在了解当前北京实时交通状况,可以爬取网上数据,针对这些数据做一些可视化和交互式分析。这样数据产品可以展现数据和定时更新数据内容,就是一个分析型数据产品。
智能化数据产品。如基于机器学习实现的搜索引擎,广告推荐系统等,自动搜集数据并基于数据决策的系统。
工作中有趣的故事?
这里介绍些以前在stitch fix工作中的例子。stitch fix是哈佛商学院毕业生Katrina Lake 于2011年为解决都市白领女性购物痛点创办的服装电商公司,国内有很多stitch fix 的效仿者,连唯品会也推出了类似stitch fix的唯你搭产品。
用户在stitch fix注册时,需要填写详细的个人风格问卷。问卷涉及购买衣服时考虑的款式、颜色、价位、尺寸、版型等。Stitch Fix收到用户风格问卷后,结合算法和造型师的建议进行推荐,按月寄给用户五件搭配好的的衣服。用户选择喜欢的留下来,不喜欢免费退回。
在stitch fix我们做过些很有趣的数据案例。其中之一是算法应该给造型师推荐多少候选集:我们在A/B测试不同的桶中给造型师分别展示250,200,150,100,50件衣服。得到的结果是转化率随着候选集减少反而提升了!这个结果大大提升了我们对算法的信心,也从侧面验证了算法从数据中得到规律的价值,而造型师偏离算法排序结果可能导致结果变差。
其二是推荐转化率为什么周一周二最高,之后逐渐下降?这个问题曾经一直困扰我们。分析转化率的波动,我们一般会从库存质量,造型师水准和用户分层来研究。发现的一个有趣的结果是周末有大量衣服退回到仓库,库存的深度跟广度增加,可供平台选择的增加了,算法和人工的组合也就能产出更优的推荐了。
结语
今天跟大家分享了数据科学家“术”的方面,包括数据科学家的素质、工作流程和内容。以后有机会跟大家分享数据科学团队建设方面的话题,包括
1.如何把数据科学家从初级培养到资深?
2.数据科学团队如何搭建?
3.公司如何营造数据驱动的氛围?
分享的对象是初创互联网公司或有志于技术转型的传统公司的核心管理层,以及跟数据科学家密切配合或希望在该领域升级进阶的同学。
大家有兴趣还可以搜索关注我的微信公众号以及知识星球“摇曳的光明”。
(这篇文章原发在晓音的“我敬佩的产品人”系列)

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 20:28

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表