马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 168主编 于 2017-10-19 21:21 编辑
就像建数据分析模型时,有许多参数可以针对不同的情境做微调,以达到最好的模型分析结果一样,RS实验所认为,人的性格/个性也有许多不一样的地方,并且有最适合作为数据分析师的那一种组合:就是做一只期待犯错、会沟通的狐狸(写在前面:RS实验所之所以能够描述这些特质,不是因为我们已经具有并精通它们,更多的是从经验和观察中累积并归纳,就像好的篮球教练不一定要打一手好球一样)
1. Be like a fox 一只狐狸
一件事情的发生,无论是这几天上海的暴雨 ,或是各地区的地震,甚或是选出特朗普的美国总统选举,到底有没有办法用数学模型描述并预测尚未发生的结果?无论是透过监督或是非监督的模型,数据分析师最终都会面临这个问题。而这个问题其实早就被广泛且深刻的讨论:最近RS来到德州的Austin,参观了当地博物馆Harry Ransom Humanities Research Center珍藏的谷登堡四十二行圣经(世上仅存21套)。
因着这本著作,开启了西方的书本印刷历史,知识与文字逐渐脱离贵族和特权人士的掌握,成为更加大众化的资产;而数百年后打字机与计算机的发明,更加速了文字与数据的产生与传播速度。但数据分析和圣经的关系,更有趣的在于圣经学者对于自由意识和预定论的理解。简而言之:究竟人类有没有自由意识、可以决定自己的行为并为之负责,还是一切都早有定向,我们只是上帝棋盘上的一个棋子?
从数据分析的角度看过去:我们分析数据的背后,是否存在一个理论,可以捕捉它们的过去并预测未来?还是一切都只是机率,宇宙在几乎不可能中诞生、其中的一切都仅是随机的结果?
我喜欢《信号与噪声:大数据时代预测的科学与艺术》一书的作者在书中将分析师分为两种的方式:一类是狐狸,它们像是采集者,不断收集情报、对事物有高的容忍态度,并具有良好的自我批判能力;另一类是刺猬,相信几个简单且解释力强的理论、不容易改变自己的想法并充满自信。而我的标题已经告诉你了我的喜好:我们是一群又饿又蠢的狐狸。
2. Detail-Oriented 对细节的敏锐与处理错误的能力
为什么要注意细节?RS大胆的把热力学中的熵(Entropy)和非线性系统中的混沌理论(Chaos Theory)放在料理机中混在一起,出来的结论可能是这样:无论在什么地方,混沌无可避免,而且小错误会被逐渐放大,包含你正在分析的数据:可能是导入数据的时候数据库正在更新、left join 写成right join、建模型的时候数据导入小数点后面全部被省略了等等。往往数据分析是一环扣一环,所以就算一开始数据彼此间是线性关系的,到后来无论有没有模型的需求,错误都可能被某个程度上的放大并影响你的报告或是预测结果,最后转化成失去同事客户的信任。
既然错误容易发生且有严重后果,Quality Check(QC)就变得十分重要,特别是针对细节的敏感:魔鬼肯定藏在细节中。但比这更重要的,RS认为是对错误可能存在的心理预期:在Tableau会议中,Netflix的一位高管分享他们的数据分析处理流程,有可能是一个小的技术性错误,就导致最终的异常结果。从这边她得出的结论不是需要预防错误的发生,而是期待错误的发生。期望非常重要,如果你预期你拿到的数据总是完美的,那你可能常常不开心,但如果你预期数据的不完美、甚是存在错误,则你可以在每次发现错误时,以更好的心态处理问题,有效解决问题。
3. Talk to people 与人沟通
爱(AI)很火,但到底哪天我们会被机器人取代、或被天网(Skynet)摧毁,RS认为还有点言之过早。其中一个原因是人类太复杂:我们不仅是所有记忆的集合体,身上带着基因与过去的经验,我们更富有学习和情感能力,能相对快速的适应新的环境,这是现阶段电脑或是人工智能无法与人类相比的重要原因。
但常坐在键盘后面码代码的我们,和人互动的方式却越来越不「智能」:朋友圈点个赞、微博转发、买个农药皮肤、淘宝剁剁手,我们不仅逐渐失去很多低技能(low tech),更可惜的是失去和另外那些「复杂、丰富」的人类互动的机会。这次Tableau会议,有机会从银幕前走到幕后,看到一个个工程师、分析师,讨论并分享他们设计、构思Tableau不同功能、函数背后的逻辑思维,和一个个来自世界各地不同产业的使用者,讨论并分享我们使用的心得:利用Mapquest设计更厉害的地图、使用LOD来处理不同维度的数据等。在丰富中激荡出更多丰富的内容,让我们看到盲点,追究理论的根源,更随心所欲的使用各种不同的工具与理论。这对RS实验所来说,是相当宝贵的经验。
来源:RS实验所
|