最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

“平台化”算法组是在舍近求远,而且并不可行

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-22 14:13:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这一篇文章其实由来已久,但是一直不知道如何下笔写起,就一直耽搁到现在,直到看到同事的这篇文章:
先说观点:算法组应该平台化。在商业公司里算法工程师应该怎么定位,怎么创造价值,怎么成长,我一直挺困惑的,我想肯定有很多同学也有类似的烦恼。经常被贴上“高冷而无用”、“黑盒子”等标签,自己心里也很着急,价值无法衡量,需求稳定目标比较切合的应用(比如FM)可遇不可求,结果可能长期处于一个尴尬的地位,即便有新的想法也无法轻易落地,长此以往很容易和行业的最高水平拉开差距。
最近的感触来自于当前的工作,我目前并不是一个all-in算法的工作状态,需要做一些开发的工作,我很怀念豆瓣整套开发->测试->部署一条龙的基础设施,code实现Github Flow,CI联动,dae无痛部署,数据库、cache、消息队列等基础设施服务化,这种强有力的支持让开发团队两三个迭代就能抡出一个新产品,有意思的是,我被这样的效率提升所震撼,却是在离开豆瓣以后发生的。用初中政治课的口径,这应该叫“解放生产力”了吧。我想这就是一个团队价值的体现。
算法工作是否也能做到平台化呢?我个人觉得是有希望的,事实上,拿豆瓣举例,DPark和doubanm已经为算法工程师的工作提供了很大的便利,但我觉得还远远不够,如果能围绕现有的工具建立一整套解决方案,分析、建模、计算、离线/在线评测、调优形成闭环,那算法工作也将迎来生产力的解放,那时ML/DM/Recsys as a Service也将不再触不可及。便利的实验环境,对算法工程师自身的成长,也提供了强有力的支持。一直以来,除去自身定位的问题,算法团队背景大都偏重学术,我想,缺少教授这样的顶级架构师,也是这幅愿景难以实现的重要原因。
在文章中,很直接地指出了太多公司算法组的问题,并且提出解决方案:算法组“平台化”。在阐述具体观点前,我也先表示:算法组“平台化”是在舍近求远,而且并不可行。
最近由于工作缘故,频繁跑于不同的公司间,也与十几人的小公司,大公司的数据部门做了很多交流,在交流中,大家的问题无外乎如此,“我想利用数据做点事儿,不知道怎么做”, “我们招来大数据的人不知道怎么用” “我们数据部门很边缘化”。我一般都会默默地听他们说完,然后抛出一句,你们数据部为公司多赚了多少钱? 这句话秒杀了所有的人,没有几乎。
最近在帮一个独立创业的朋友提供个纯义务的咨询服务。我先问了朋友最终的产品目标和发展方向,然后问他最近一个月/半个月的计划,他说“我要把我的代码框架重新写一下”,我把身体向前倾,更靠近些他,问为什么。他说代码结构太难看了。我说,你不像是个老板,像是个技术。他说,那你反对我重写代码么? 我说,不是,我是要你想清楚你重写代码的目的是什么?比如能为我现在重写能为接下来三个月剩下15个人天,那么就相当于省下了多少钱。
同理,我是反对算法“平台化”么?不是,我是想问,算法平台化究竟可以省下多少钱?还是花费多少钱?然后呢?然后可以为公司产生什么业务价值?还是仍然只是一个技术Hacker的玩物?
几个月前,我因为工作环境的不适萌生了换工作的想法,一朋友问我为什么,我说公司最重视的是销售,我们互联网部门不受重视。他似乎像看个小学生一样看着我说,任何成熟的公司都这样吧。 几个月后,我换了部门,从更高层地角度去审视公司的发展。我更愿意修改一下这句话,任何成熟的公司都会重视离最终的“盈利”目标更近的部门。
太多同事都在抨击OKR,但是在我看来,OKR反而是最能解决太多公司数据部门窘境的唯一法宝。看看大多数的公司数据部门都做了什么吧?“用xxx模型把新闻的点击率提高了0.05%”, “用xxx模型提高了用户体验” “用xxx模型新增了xxx功能” ,这些在老板看来真的会在意么?只会觉得,哦,这个部门的人做了事情,只此而已。那么,老大,你不妨想想,如果你是老板,我凭什么给你加人手啊?你们就是一纯粹花钱的部门好不好!
那就看看我想看到的邮件是什么吧?
每个资源的开发的价值,由原来的 xx (元), 增加到 xx(元), 每个增加 xx (元),增幅 xxx%
30天内发出委托的资源总开发价值增加XX万,总增加业绩预计为XX万。
那这位同事做出这份数据模型的工作是什么呢?RBM?不是。LDA?不是。那好歹也是个逻辑回归吧?也不是。其实就是用Excel做了点统计而已。可是我觉得这足够了。
那解决大多数算法组窘境的到底是什么?我觉得最直接的方法就是放下技术身板,先把那些需要“平台化”的技术抛掉,脚踏实地地找到公司业务的痛点,挖掘公司的收益盲区,用最简单的模型去为公司创造业务价值。
最后我想说,对于国内95%的数据部门来说,还远远没有到拼平台,拼模型的地步,国内的数据团队还处在数据的最初级阶段:不知道数据到底能怎么用。在前东家,我往往愿意把Data Scientist这个title作为笑谈,但是现在回想起来,也许太多公司需要的其实就是这样的职位,深入业务,用SQL提取数据,用SPSS甚至Excel这样的软件挖掘数据的业务价值,找到业务的增长点。这远远比那些高大上的模型好用得多。
那有人问我,那我学那些统计模型就没有意义了么?我觉得,任何技术都是为了业务价值服务的,那些复杂模型有意义,只是你首先该做的是,让你们的业务发展到需要用复杂模型的地步,这才是你最大价值的体现。顺路带一句,前几天有人还有人问我,我想做一个技术Hacker,但是我学了xxx语言我学了xxx框架,但是用不上,问我怎么办。 我说,那就先用你觉得的很low的技术把你们的业务发展到这些技术已经撑不住的地步,这才是真正的Hacker。
作者:飞林沙


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 18:45

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表