最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

高考落榜,浪叫兽从零起一年成数据科学家,还屡登数据大赛TOP榜单

[复制链接]
跳转到指定楼层
楼主
发表于 2017-10-16 10:15:19 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据江湖名声显赫的“浪叫兽”,27岁超龄高中生,单挑博士,一年完成数据算法比赛大满贯:屡获“KDD CUP 2017”第三名,“携程云海-未来出行”第一名,“2016 CCF BDCI 用电行为分析大赛”第二名,“智慧中国杯,助学金分配”第三名,“IBM马拉松-聊天机器人”优胜奖等。


浪里白条叫兽称王,
数据竞赛猛放光芒;
BD&AI竞赛深似海,
浪叫兽一声破晓光。



在这一年中,我从单身到完婚,
再到有宝宝,我是极满足的。



我是智浪淘沙,在大数据竞赛的圈子里,大家更喜欢称呼我为“浪叫兽”。

1 .
零基础的浪叫兽

小时候的我真的是平淡无奇,从小学到高中一直是成绩中下容易被老师遗忘的孩子。但那个时候,我对自己的“聪明”无缘由的自信,虽然后来发现,我更大的优势也许在于对这份自信的坚守。高考失利后,2008年在北京某某培训机构学了两年的Linux运维,这算是我开始接触计算机。

2010年培训结束之后去了深圳,2012年回到长沙,这期间做过销售,做过电脑维修,也干过个体,个中辛酸无需多言。2015年机缘巧合下进入国家电网系统内的一家单位,做网络运维,说简单点就是网管,这是我进入社会以来第一次感受到踏实。

2 .
涉足大数据分析

说来有点伤心,涉足数据分析的圈子缘起2万元的投资失利。

我那时接触了当时很潮流的名词:股票投资,在学了假的波浪理论,假的缠论,假的量能理论,亏尽了好不容易积攒的2万元之后,萌生了新的想法,希望通过爬虫抓取股票的新闻,来分析新闻可能对股票产生的某些信号。

2016年4月在爬虫群里遇到了我Python的第一个老师——大鱼,我亲切的喊他为鱼神。几个星期的学习下来,从Python爬虫,数据入库,到用js的网页方法展示股票数据,很简单就完成了,顺带还学了flask 和echart。

在数据分析上,我找回了小时候那份不安分的自信。

3.
“浪叫兽”的来源

由于需要对数据进行处理,我加入到了pandas库学习群。在牛叫兽的耐心指导之下,很快融会贯通。因为总是噼里啪啦提一堆问题,短短的一个月,我就在pandas群里获得了叫兽的称呼(叫兽是当时群里一种积分排名,发言越多越活跃的就被标记为叫兽)。

我喜欢被人那么叫,因为这在群里是活跃的人才能取得的头衔,在我看来我是多么的热爱学习才能获得这样的头衔啊。


浪叫兽的名字不是因为这片海

4.
人生中的第一场大数据比赛

我很羡慕牛叫兽的工资待遇,1.2万左右,在上海可能不高,但是对于在长沙待遇只有4000的我来说,却显得遥不可及。所以当牛叫兽说他想学机器学习的时候,我随即和他一起入坑。当初下载过一份黄博的机器学习笔记,从他的群里,拉来了20多个朋友建了个新群,我机器学习的生涯就这样开始了。

大概一个月左右,群里的mat说群主你这么好学,不如去玩玩比赛吧!然后他就抛了个网址,于是我遇到了人生中的第一场大数据比赛——携程赛。

想起来觉得当时很逗比,没有使用过sklearn,xgboost,lgb,各种算法也只通过一个月中看的概率图模型,统计方法,数学建模算法大全了解了一些皮毛。要知道,在参赛的前一个月,我和牛叫兽,chengxu,Silence,在我们自己的小群里交流的都还只是一些算法的简单理解,还有hadoop,pySpark,sql之类的。

Silence曾经玩过滴滴的比赛,好像排名还很靠前,说是一起玩比赛带带我,我还挺欣慰,但他要考英语证书,便没时间指导我。我就厚脸皮的在携程赛的群里,不惧他人的嘲笑,用最简单的散点图,和柱状图,表述我的理解和分析。李老师,钢的弦,世超,就是在那时认识的。

依稀记得当时yesboy(曾荣获“猜你喜欢”比赛冠军),说他使用xgboost算法,在携程赛中获得了前5,而那时对我来说,xgboost还是一个陌生的名词。就像第一次听说股票投资一样,我花了一天的功夫,就安装好了git,mingw,编译、安装、测试xgboost,其实无非就是在网上多搜索了一些文档,哪里有旁人说的那么难。安装完成xgboost,他不过是一个冰冷的库,接下来该怎么办?

当时黄博群里有一个人,人称海淀吴彦祖,据说是玩kaggle的,这人一定很牛啊!想来xgboost对他来说肯定也很容易。果不其然,他耐心地指导我,告诉我如何调参数。可我却呆住了,一脸懵逼的问不下去,因为我甚至不知道什么是参数。然后他说了一句话,让我在整个比赛生涯中都持续思考,他说:”这一切都是套路。”

5.
渐渐上手 渐渐上瘾

Silence考证结束后,我们和世超,李老师(五个月就拿下了天池数据科学家的大牛)mat,纳蓝,钢的弦,组了个携程赛的小交流群,大家对我这个新人都很照顾,一起交流学习倒也畅快。而正当此时,破特曼,以0.17的bug成绩霸了携程赛的榜,心有不甘啊,为啥人家能拿到这么高的分,我却不能?

于是便找到了海淀吴彦祖,嚷嚷着xgboost的简单使用我已经会了,快教教我其它的,并萌生了想和大牛组队的想法,可惜的是,大牛都是抱团打仗的。海淀吴彦祖和破特曼居然是队友(在我后面的经历中,这个组合一直好强)!最后,携程赛钢的弦和yesboy进了前五,世超也挤进了排行榜前十,至于我,倒还没什么拿得出手的成绩。

携程赛完了,比赛的热情却没有熄灭。在我们那个吵闹的群里,他们说今日头条赛是yin叔和老王的约战赛。我想,牛X了!这两个人是谁?竟然能约战?简直和华山论剑一样,那就去凑凑热闹。下载了数据,忙活一阵排名却始终在100多名,总还没找到数据挖掘的关键。机缘巧合下,mat带我加入了一个大数据交流群,在那里看到了老王开源的规则代码,也在交流的过程中,认识了苍老师,yin叔,又收获了一群有意思的朋友。

我当时还看不懂R,而牛叫兽已经完成了hadoop的学习,并开始涉足R。下载了老王的规则代码后,便急忙喊牛叫兽帮忙翻译代码,等再提交了答案,发现居然嗖的一下就跑到了前30。当时瞬间觉得老王厉害啊,简单的两三句代码居然能让我突破那么多,顿生仰慕,不过那时海淀吴彦祖和破特曼的组合都已经前十了,我和他们的差距还需要更多的时间追赶。

竞赛圈子说大很大,我从来不知道数据挖掘能有这样多的高手,当身边都是研究生,甚至博士生时。我坚信,我和他们一起真诚交流,就能有所收获。我要做的就是和携程赛时一样,敢于交流我的想法,敢于真诚的去探讨。尽管在这之后知道了交叉验证,网格搜索调参,还有多模型融合,也并没有让我的今日头条排名继续靠前,但知落,东哥等等小伙伴的共同激励尤为宝贵。

6.
挑战大牛 感受受宠若惊

在群友发布的信息下,知道了DataFountain在举办CCF大数据竞赛。因为在电网系统下的公司工作,一个是想借由此次比赛获得经验,二是想通过用心地参与,尝试转型数据挖掘岗位。便报名参加大赛11道赛题中国家电网的用电异常行为分析赛题。


觉得当时的红领带有点可爱

刚刚开始玩,发现第一名在排行榜遥遥领先,很快在DataFountain技术交流群里也认识了这位可乐,一个新大牛kaggle master ,心里非常崇拜。当时我还在30名左右,在和群里的小伙伴交流的过程中,渐渐学会了简单的特征工程。

命运总是在你贪婪的想依靠他人的时候给你打击,事实上,破特曼、海淀吴彦祖和可乐因为能很好的合作,组成了队友。出于一种想挑战强悍的情怀,在群里我大喊了一句“谁和我一起干掉破特曼?”就是想成绩接近这几个高手,甚至和他们拼个高下。

随后拉上小水,老王,苍老师,mat,钢的弦交流分析赛题和数据挖掘技术,短短的几天时间里在他们的帮助下又学到很多新知识,而且机缘巧合的情况下还从某位群友给的思路中学会了稍微高级一点的特征工程,并由此设计了可以生成高纬度特征的特征轮。我、mat,钢的弦,再加上两位非常热爱数据挖掘的小伙伴,组队“隐马尔科夫联盟”,杀进了复赛,在这之后是拼命地一遍遍阅读学习书籍和浏览博客,一遍遍向金老师,还有我电网系统的一位朋友兼对手的探索,最后受邀答辩,获得了用电行为分析赛的第二名。不过,真正的实力总能压制着我,破特曼他们收获了该赛题的第一名,并且在线上的分数远超我们,虽是没有追上他们,倒也很欣慰。

在CCF赛答辩的盛会上,见到了很多人,其中有中科院院士,以及各种机器学习,人工智能,数据挖掘的领军人物。也和破特曼、吴彦祖面基成功,交流甚快!一轮答辩后,国网信通产业集团的领导,很亲切的给了我们参赛成员名片,说欢迎各位人才加入国网信通产业集团。那时我是激动的,不过深知我这点能力还远远不够进入那里工作,一个比赛排名并不能说明个人能力,或许只是我个人运气好而已吧,所以当时并没有立即跟进想法,去转型到电网大数据研发类工作岗位。通过这次比赛,不仅仅为了工作,也真正感受到了数据挖掘的魅力,如何对数据的处理,并通过掌握数据的规律,推动各种行业的发展,让数据成为行业的肥料,促使其茁壮成长,感谢DataFountain。

可能出于内心虚荣的膨胀,我写了篇文章讲我在这次CCF大赛中的经历,没想到引来我身边很多亲戚朋友无数的赞赏,甚至因此直接获得了湖南一家本地企业的邀请,从事大数据技术的研发和建设,并开出了2万一个月的待遇。不过我内心还是很自卑的,一个是我无法接受如此好的待遇,那让我惶恐。二是我自知不足,对金融行业并不了解,三是如果我带领团队,给企业带了损失,我也无力承担。出于这些想法,我还是委婉的拒绝了这份offer。但我很开心,要知道,那么多年,我几乎已经快忘了受宠若惊的滋味。

7.
大数据竞赛冠军

对数据挖掘岗位的追求,让我没办法停下继续参赛的脚步,通过近半年的学习和努力,终于大致了解了海淀吴彦祖曾说的套路。在另一个助学金的比赛中,我准备用我在CCF BDCI大赛中所学的数据清洗+特征轮+多模型+参数调优的数据挖掘套路玩助学金比赛,直接用上用电分析赛中所总结的特征轮思路,仅仅加上简单的模型,很快就获得了助学金排行榜的第二名,激动得喊上前期交流的赤子之心,钢的弦,mat,还有我当初学pandas一起的伙伴chengxu,组队“贝叶斯部落”,正值过年,通过融合技术,在过年之前拿下了助学金第一名的排行榜。

但在年后,我们很快的再次被破特曼、不思蜀组的BUG队超越,而此时他们也在另外两场比赛取得了极好的成绩。那已经逼近我的上限了,眼看第一的位置就这样拱手相让了,突然我队友赤子之心爆发了,直接用了他的单模型+特征,霸了助学金第一,以超出第二名非常高的成绩,在助学金更换数据之前,霸榜了一个月之久。在换数据之后,可能是因为之前并没用针对我们的最佳方案设计融合框架,最后和三剑客并列第二,憾别第一。

8.
大数据竞赛是个神奇的圈儿

大赛刚答辩完,由yin叔喊话,我们和神经网络keras群群主莫言、老王,以及在比赛中收割了三个比赛的两个第一,一个第二的BUG队等总计15人组了饭局。yin叔是在国企工作的老职工,不论是在答辩会场,还是在平时的群里交流,yin叔都是以兴趣为导向的玩着竞赛,让人敬佩。莫言和他的室友,研究生还未毕业,就已收获了腾讯和大疆的正式offer,对神经网络有很深刻的认知。老王呢,是个很可爱的博士,平易近人,已经在老牌外企获得非常自由的工作。我的队友赤子之心,在部队的他,是因为对数学的追求,才来玩大数据比赛的,未曾想过第一次参加比赛就获得如此好的成绩。当然还有很多在校和在职,还有和我一样刚要入职的朋友,至于BUG队,破特曼你们在我的故事里应该已经很熟悉了。大家把酒交谈,那是一种极其享受的,所谓志同道合的一次畅怀。


这里有你的熟人么?

9.
大数据科学家

在CCF BDCI赛后,在DataFountain和国家电网组织的研讨会上,由于突出的表现和对数据的直觉,让参会的专家和国网信通产业集团的领导对我颇多赞赏。于是我便抓住机遇,向领导请求进入信通产业集团旗下做大数据挖掘工作。从北京的研讨会归来,很快的制作了一份个人简历,立即发给信通产业集团的领导,没想到领导二话不说立即将我的简历发送给了旗下的一个公司,随后没过多久就和HR取得了联系。

后来接到了一通来自国网信通产业集团下项目经理的电话,说有个项目在我现在所在的城市启动,项目是整套的大数据搭建+挖掘,不仅接触从各个系统汇总的业务数据,也涉及相关设备的采购。对我来说是,这是非常难得的机会。信通产业集团的知遇之恩,再加上一直在电力系统旗下的产业工作,我个人对电力系统颇有好感,我相信在这个岗位上,我将收获一段非常丰富的人生经历。自此从2016年的4月份开始入门Python,到2017年的3月份的经历,让我真正进入了潮气蓬勃的大数据行业。

10.
我还是个新人

一路走来,感触颇多,一直以来都是在职玩比赛,其实很多时候,说实话,很累。不过在比赛过程中,不论是遇到大牛的关照,还是遇到比我更牛的“新人”,置身在他们中间,我的人生被他们带动着往前发展,也在这一年中,我从单身到完婚,再到有宝宝,我是极满足的。



也是在比赛最激烈的时候,我知道自己要做爸爸了

我时常想起儿时那股子无缘由的、后来又瞬间破碎的自信,而我现在,已经可以平静的说,我又拾起来了。努力的人很多,我只是运气好而已,虽然是运气,我还是想说那是努力得来的。永远不能磨灭一个人想努力的心态,去追赶自己想要的生活,不需要很好,至少能说是平凡的一生。

这,就是浪叫兽的,微不足道的故事了。从零基础到大数据科学家的故事,从月薪4000到月薪XX万的故事。

来自:软件定义世界(SDX)
本文经软件定义世界(SDX)授权168大数据发布。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 18:37

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表