最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据分析师的特质:做一只期待错误、会沟通的狐狸

[复制链接]
跳转到指定楼层
楼主
发表于 2017-10-19 21:20:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-10-19 21:21 编辑

就像建数据分析模型时,有许多参数可以针对不同的情境做微调,以达到最好的模型分析结果一样,RS实验所认为,人的性格/个性也有许多不一样的地方,并且有最适合作为数据分析师的那一种组合:就是做一只期待犯错、会沟通的狐狸(写在前面:RS实验所之所以能够描述这些特质,不是因为我们已经具有并精通它们,更多的是从经验和观察中累积并归纳,就像好的篮球教练不一定要打一手好球一样)




1. Be like a fox 一只狐狸


一件事情的发生,无论是这几天上海的暴雨 ,或是各地区的地震,甚或是选出特朗普的美国总统选举,到底有没有办法用数学模型描述并预测尚未发生的结果?无论是透过监督或是非监督的模型,数据分析师最终都会面临这个问题。而这个问题其实早就被广泛且深刻的讨论:最近RS来到德州的Austin,参观了当地博物馆Harry Ransom Humanities Research Center珍藏的谷登堡四十二行圣经(世上仅存21套)。


因着这本著作,开启了西方的书本印刷历史,知识与文字逐渐脱离贵族和特权人士的掌握,成为更加大众化的资产;而数百年后打字机与计算机的发明,更加速了文字与数据的产生与传播速度。但数据分析和圣经的关系,更有趣的在于圣经学者对于自由意识和预定论的理解。简而言之:究竟人类有没有自由意识、可以决定自己的行为并为之负责,还是一切都早有定向,我们只是上帝棋盘上的一个棋子?
从数据分析的角度看过去:我们分析数据的背后,是否存在一个理论,可以捕捉它们的过去并预测未来?还是一切都只是机率,宇宙在几乎不可能中诞生、其中的一切都仅是随机的结果?


我喜欢《信号与噪声:大数据时代预测的科学与艺术》一书的作者在书中将分析师分为两种的方式:一类是狐狸,它们像是采集者,不断收集情报、对事物有高的容忍态度,并具有良好的自我批判能力;另一类是刺猬,相信几个简单且解释力强的理论、不容易改变自己的想法并充满自信。而我的标题已经告诉你了我的喜好:我们是一群又饿又蠢的狐狸。

2. Detail-Oriented 对细节的敏锐与处理错误的能力


为什么要注意细节?RS大胆的把热力学中的熵(Entropy)和非线性系统中的混沌理论(Chaos Theory)放在料理机中混在一起,出来的结论可能是这样:无论在什么地方,混沌无可避免,而且小错误会被逐渐放大,包含你正在分析的数据:可能是导入数据的时候数据库正在更新、left join 写成right join、建模型的时候数据导入小数点后面全部被省略了等等。往往数据分析是一环扣一环,所以就算一开始数据彼此间是线性关系的,到后来无论有没有模型的需求,错误都可能被某个程度上的放大并影响你的报告或是预测结果,最后转化成失去同事客户的信任。

既然错误容易发生且有严重后果,Quality Check(QC)就变得十分重要,特别是针对细节的敏感:魔鬼肯定藏在细节中。但比这更重要的,RS认为是对错误可能存在的心理预期:在Tableau会议中,Netflix的一位高管分享他们的数据分析处理流程,有可能是一个小的技术性错误,就导致最终的异常结果。从这边她得出的结论不是需要预防错误的发生,而是期待错误的发生。期望非常重要,如果你预期你拿到的数据总是完美的,那你可能常常不开心,但如果你预期数据的不完美、甚是存在错误,则你可以在每次发现错误时,以更好的心态处理问题,有效解决问题。

3. Talk to people 与人沟通


爱(AI)很火,但到底哪天我们会被机器人取代、或被天网(Skynet)摧毁,RS认为还有点言之过早。其中一个原因是人类太复杂:我们不仅是所有记忆的集合体,身上带着基因与过去的经验,我们更富有学习和情感能力,能相对快速的适应新的环境,这是现阶段电脑或是人工智能无法与人类相比的重要原因。

常坐在键盘后面码代码的我们,和人互动的方式却越来越不「智能」:朋友圈点个赞、微博转发、买个农药皮肤、淘宝剁剁手,我们不仅逐渐失去很多低技能(low tech),更可惜的是失去和另外那些「复杂、丰富」的人类互动的机会。这次Tableau会议,有机会从银幕前走到幕后,看到一个个工程师、分析师,讨论并分享他们设计、构思Tableau不同功能、函数背后的逻辑思维,和一个个来自世界各地不同产业的使用者,讨论并分享我们使用的心得:利用Mapquest设计更厉害的地图、使用LOD来处理不同维度的数据等。在丰富中激荡出更多丰富的内容,让我们看到盲点,追究理论的根源,更随心所欲的使用各种不同的工具与理论。这对RS实验所来说,是相当宝贵的经验。

来源:RS实验所

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-9 01:00

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表