最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据的价值——岂止于大

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-21 22:30:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
主讲人:单艺 猎聘网首席数据官

单艺:毕业于清华大学和美国亚利桑那大学,曾就职于美国Altera公司和雅虎公司,研发了数项先进的商业数据挖掘、自然语言处理和搜索引擎技术;回国后曾任空中网悟空搜索副总裁、奥美旗下ITOP公司CTO,之后共同创办了毕肯互动(北京)科技有限公司。目前担任猎聘网首席数据官职务。

以下为单艺演讲全文:

猎聘同道精英汇,就是把同行们聚到一起来,大家共同交流的活动。今天我来做开场演讲,主题是“大数据的价值,岂止于大”,这个是有原因的。最近我跟我们猎聘团队到地方政府谈一个项目,地方政府派出一个专家小组与我们见面,当时问到:“你们谈大数据,是不是就是大,但是它不准确?”当时把我愣住了,因为我觉得大数据这个名词出来也有两三年了,那位评审专家看样子是一位教授,还问这样的问题,确实让我觉得吃惊。其实社会上对大数据的价值认知还是不足,所以我就想花十分钟的时间讲讲我的思考,希望给大家一些启发。


我们谈到大数据,是从互联网时代兴起以后,IBM的科学家总结了大数据的四个V,第一个是Volume,数量很大。从我们最早的时候,我开始学计算机时存储容量的单位是KB,然后MB,再后来GB,到现在变成了TB。

第二个是Velocity,高速。我们接受信息,接受数据的速度大大高于以前,比如像品友的沈总做DSP,每秒要响应数十万次的请求,都是很常见的情形。

第三就是Variety,多样性。就是我们的数据已经比较变得很丰富,从简单的文字数值到多媒体的各种形式,再加上最近比如像快的做的很多跟地理位置GPS数据都会收集进来,就大大比以前丰富了很多。

另外就是最后一点 Veracity,真实性。因为我们可以收集大量的数据,这里面就是数据的真实性是比以前要高很多。当然,与此同时也会有噪音,所以在这种情形下,我们有这么多数据能干什么,这是一个核心的问题,否则你就可能会像图片里面的先生茫然不知所措不知道怎么用这个数据。


我们大数据做的主要的工作其实并不是说我们只是比较数据的大小,并不是比size有多大,而是怎么用,这一点是大数据应用中需要大家去思考去挖掘的方面。


从我自己的工作经历来讲,我觉得如果我们是一个做大数据的企业或者个人,手上有很好的数据,那怎么来用,第一步是找到问题,这是最关键的,你根据你的业务、根据你真实的一些挑战,发现一个具有商业价值、具有社会意义的问题,这很重要。

因为我遇到过一些大数据从业者,他会提问说:“我觉得我的数据团队,感觉在公司里面不是那么受重视。”我觉得他们应该要去好好反思一下,因为你自己要知道,你最有价值的问题在哪里。


接下来你找到问题之后,我们要想办法把它量化,开始收集数据,就用度量的方法,各种技术手段,比较简单的是计数,也可以做一些指标。


下面我讲一个简单的例子,我们猎聘网很注重保护我们用户的信息安全和隐私,我们最近在查一件事情,是不是有一些猎头,他在恶意的下载我们的用户的简历。运营部门找到我说这个问题怎么办。第一步我们想先去分析一下,这些猎头他们在我们网站上的表现如何,我们有很多的数据,猎聘网每天会收集两千多万条用户数据,我们用户有一千七百万,在高峰时候我们可以做到五千万条,我们把数据收集以后进行评价,用一些定量的方法发现说哪些行为是属于正常范围内的,哪些是属于异常的,这里面就可以用到一些常用的统计方法,异常检验的方法。


做完这一步之后,我们就有一个比较科学的、基于数据的判断,接下来我们就可以做决策了。我们做了,比如拿到猎头的行为数据之后,我们就可以画出一条红线出来,当你达到这条红线的时候,我们会给你警告,再超过就会封你的帐户。通过这样的方式,我们是得到了一个科学的、有基于数据的保护用户隐私的方法,而不是拍脑袋。我们可以保证说我们的用户体验得到一个很好的效果。


其实你做完决策之后,我们还可以做得更深入一些。你做决策钟会看到有一些方案好,有一些方案差,但是你对好的方案仍然可以把好的做得更好,做改良和调优的事情。你做深入的分析,看哪些环节我们仍然可以把它做得更上一层楼。


优化是属于改良的,其实我们现在有好多数据可以做扩展,可以去创新、做新的产品——基于数据的产品,甚至颠覆已有的产品。比如我听说美国有一家公司,他们通过分析社交媒体上用户评论的数据,来预测各个公司的销售它的股价的情况,这个完全颠覆了以前华尔街分析师的方法。原来他们要做很多现场的调研、自己的模型去预测行情,这家公司更多是通过线上的实时数据做快速的判断,另外像比较热的P2P风险金融的控制也是一个例子。


我们在猎聘做了很多数据产品,里面有一个是我们做的相当长时间的招聘推荐,我们能够根据你的用户特征还有你的应聘的行为,给你推出合适你的职位,你不需要做什么事情,每天都可以给你推送过去,可以让用户能够很快的看到,有哪些职位会比较感兴趣。还有另外一个,是同事关系的推荐。我们猎聘有很多用户,他们其实工作之间是有交叉的,他们有可能是认识的人,我们希望把他们重新联系起来。我们做了一个模型,发现现在的数据里面已经具备了有五亿对儿的同事关系。之前我们尝试过是通过简单的类似搜索引擎的匹配方式去做,可以达到一定效果,但不是太好。现在我们研究了一个用概率模型来做、来算。就是根据公司的情况,你的行业,你们俩的交叉的时间,能够算出来你们两个或是任何两个人有多大概率以前是认识的,通过这个模型,我们把这个准确率一下子提高到了原来的五倍,同时这个计算方法是离线的,20分钟之内我们就可以把1700万关系用户全部算完。


所以我回头总结一下就是说,你要把数据用好,可以用一个框架,你第一步,先把你的问题量化,做好一个基础的工作就是度量,接下来就是进行一些评价,就是对比趋势分析,有这些你就可以做决策了,做完决策对好的方案你可以做的更好,进行局部的调优改良,再高一个层次就是创新和颠覆已有的模式,从层次的角度上来看,你往上面越走投入也越大,风险也会大,但是回报也高,所以这个时候,大家要判断一下这个事情到底值不值得做?


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-6 16:33

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表