最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据时代的精准营销——实时竞价广告上的实践

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-21 22:32:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
主讲人:沈学华 品友互动CTO

沈学华,南京大学计算机学士,美国伊利诺伊大学计算机博士。曾在谷歌硅谷总部从事搜索算法工作,包括个性化搜索和基于用户行为的搜索效果实时动态实验平台。在美国最大的行为定向数据公司Bluekai利用基于hadoop的云计算平台从事个性化广告的研发等工作。

以下为沈学华演讲全文:

非常感谢猎聘网组织和邀请这次活动。我今天主要跟大家分享一下,品友在大数据和计算广告学的一些实践,我主要分两个部分,一个部分就是品友在过去三四年,碰到的一些具体的问题,第二部分我想大家可能也在座的很多都是对大数据特别关心的,所以我会跟大家分享一下大数据的人才,在一个组织中,创业公司或者在大公司中怎么成长,怎么培养,我觉得这个是大家以前往往忽视的一个事,我今天愿意花两三页的PPT跟大家做交流。


我们首先介绍几个具体的问题,我想这几个问题,虽然是计算广告学,或者是作为品友这个公司碰到的,但是类似的问题,可能在大家各种各样的创业公司,或者各种各样的大公司在可能实践中都会碰到。首先稍微讲一下品友做的事——程序化购买。现在的互联网,大家什么都自动化了,包括广告的传送。以前比如新浪卖广告,是把一个广告位置以地推的方式,线下打电话方式卖,现在的变化是,这个广告位通过竞价的方式来进行售卖。

比如,用户访问雅虎主页,雅虎作为一个媒体,一个重要的责任就是把精彩的内容呈现给它的读者,但是作为一个媒体他也需要赚钱,而最主要的赚钱手段就是广告。广告位以前是通过打电话卖,现在是通过互联网竞价来卖。很多广告位的信息集合起来,什么样的人什么样的网页,成为一个交易平台。

中国现在有很多广告交易平台,无论在互联网还是在移动互联网这样的交易平台,比如谷歌、百度、淘宝等。这样的广告交易平台的主要目的就是,像股票交易所一样,把这些广告信息传到各个DSP,品友接收到广告信息就要做决定,这个人或者这个广告位是不是我想要的,以及我要出什么样的价格,然后把这个信息传送回去,进行一次竞价,比如品友赢了这个竞价,品友代表的背后的广告主,比如麦当劳的广告就会展现在雅虎的主页上。这样竞价的内容现在中国每天可能要发生一百亿次左右,每一次的竞价整个过程大概在100毫秒左右,在技术上,无论在系统的架构上还是数据的实时反映上都是有要求的。


其中,广告主希望我能不能知道,打了一个广告之后,这个用户有没有点击,或者用户点击之后到这个网站有没有转化?第一个问题很重要的就是点击率的预测,点击率预测这个问题其实被大家研究了十几年,在座可能没有人不知道点击率预测这个问题,但是这个经典的分类问题,以前在大数据时代以前也研究很多,典型的统计学问题。

我跟大家分享在品友DSP或者现在的环境下,CTR的预测,跟传统的比如谷歌这样的搜索公司,或者阿里巴巴或者百度有什么不一样,阿里巴巴搜索百分之八九十通过广告。我个人认为品友作为独立的DSP公司,对我们数据从事者更加有挑战。第一个挑战就是点击率预测是在一个更动态,非常有竞争性,非常复杂的环境下进行的。我为什么说更有竞争力?比如百度做竞价广告,仅仅是所有的广告主通过界面把这个数据输入好,然后百度或者谷歌进行它的工作,但是品友这个环境下,竞价是通过若干个这样的互联网竞价引擎或广告交易平台存在的。


第二个问题,其实谷歌和阿里巴巴、百度,这样做搜索广告或者做产品的广告时,都没有数据收集的问题,因为本身就有数据。作为一个大数据平台,第一步就是数据的获取。而在品友这样的DSP公司,在帮助电商公司服务的时候,第一步就是要收集电商的数据,来进行竞价,收集的时候,电商比如京东,不是品友拥有的媒体,所以就要把品友代码放在京东上,这是一个数据收集过程。我们最近跟美国公司合作,数据收集过程中碰到各种各样的问题,比如我们发现,这个美国的电商公司非常关心数据,我们在中国,要在一百毫秒里收集美国的数据和完成竞价,时延的问题是非常复杂的。

DSP和搜索的KPI是非常不一样的。谷歌、阿里巴巴这样的广告公司,它的KPI非常简单,就是CPC。而品友来讲就是非常复杂的,我们帮很多招聘公司做过广告,不仅看重CTR,往往也看重CPA,把广告的价值跟销售直接联系起来。他们还非常看重新客的获取,这都是非常有挑战的。广告原来是个市场营销的手段,现在直接跟销售挂钩了。


第三个就是互联网广告面临的问题,对DSP公司更有挑战。可能大家在做机器学习的时候,DSP公司在数据样本方面经常碰到一些独有的问题,比如正样本一个,负样本一百万个。至于它的解决方法,通常业界用的方法是Classification Methods和Evaluation Metrics,我想大家都见过,但是我想大家在做的实践中需要很多方法。我在跟美国公司比如facebook等公司交流,发现可能第一种方法用得更多,它其实不是大数据时代特有的产物,几十年了,被数据科学家这个词创造之前,统计学家经常用,这有它的道理,第一模型很简单,可扩展性非常好。在DSP公司有比较特有的东西,竞价率和赢得率,我们不是每一个曝光的机会我们都去竞价,而是有选择的竞价。


这里面碰到很多很重要的问题,就是怎么选择竞价策略,品友作为一个DSP,跟几十个广告交易平台对接,我们跟不同的公司竞价的策略都不一样。刚才提到了CTR预测问题,大家可能都听了十来年了,各种各样的比赛,组织过好几次,不知道在座有多少人听过CTR Calibration,这不是我们参加比赛能碰到的,而是在实际中碰到的。在实际中你会发现,我可能线下的数据模型做的很好,但是来到线上实践就不是像我所想象的。这个原因很复杂,有时候我的模型基于的商品是不一样的,另外就是数据模型的学习方法可能跟现实不一样,但是理论的原因并不是搞得很清楚,如果大家在理论上比较感兴趣也可以研究。在实践中可以发现Calibration非常重要,我需要一个模型,还要跟我现实中的数据实践情况的CTR进行一个校准,所以我基本上要做的事是回归问题,我要学习一个单调提升的函数,根据我这个预测的结果,对我预测的函数进行校准。这里面有一些通常的方法,比如PPT上的这个算法,实践很简单,但是做的时候一定要记住对预测的函数进行校准。


另外刚才我说的不仅在计算广告学中应用,在很多别的问题中也有类似的现象,大家可以在自己的工作比如今天有互联网金融行业的人,可以实践中看一看,可能也会发现自己的CTR Calibration线下很好,线上不一样。


做CTR预测的结果是我要出一个竞价,是基于数据和CTR的预测,还有其他方面的信息,我要出一个价,判断这个一次性曝光需要多少钱。这也是品友去年为什么组织全球RTB算法大赛的原因,就是我们发现现实中大家对CTR问题太执着了,包括我们组织大赛的时候在北京大学和美国的普林斯顿大学做了一次调查,我们发现学生往往有这种倾向,就是把RTB的竞价问题转化成CTR问题,这个问题如果这么做就失去了价值,因为CTR已经研究得非常多了。在实践过程中,市场上有些DSP用的竞价的策略有可能CTR预测算法非常复杂,但是策略很简单,就是固定出价,有一些峰值的地方就是固定出价的峰值,这个是不应该的。我们组织全球RTB算法大赛,去年总共九个月的时间,就是为了竞价算法解决实际问题,这也是对电商客户非常重要,也跟广告主的根本利益完全吻合。

这是我们取了第二个赛季的前几名的线下阶段的人的成绩,总结一句话,就是Bid More Bid Less。每次竞价出价非常低,包括美国的同行还有中国的同行都在使用这些策略,但是这些策略不见得是具有普适性的,比如品友在实际中用的不是这个策略。计算广告学是把实际投放中各个方面的问题结合起来,是一个开放式的问题,没有很好的理论的基础,需要大家的研究和实践。这些是今年全球RTB算法大赛衍生的文章,大家感兴趣可以研究一下。


最后我再讲一个最实际的问题,就是最终的转化,这个问题特别是对电商客户非常重要。其实我们谈了很多,包括CTR的预测,这是第一步,但是对CTR预测的效果好坏,是不是直接的对Conversion的关联度其实并不是很大,几乎是零。但是这是一个难题,在实践过程中,往往解决这个问题我们也会碰到两类的方法,第一是关注CTR第二是CVR做联合对比。第二个就是我在前面提到,我是去优化CPA还是优化别的,他们是相关的,比如客户关注CPA,结果往往不是最优的。另外我刚刚讲的一个问题就是优化。大家有时候收集数据时间比较短,把数据和模型整合起来做这件事。我刚刚提了四个具体的我们在实践中碰到的机器学习和计算广告学的问题,其实还有很多具有挑战性的问题,比如品友可能同时服务几千个广告主。当我比如服务麦当劳同时服务肯德基的时候,应该选择哪一个广告来展现,有一个流量利用的问题。还有当我们服务一个电商的时候,有几百万个商品,我们决定给这个人竞价,并赢得了竞价,我们该选择怎么样的商品展现给客户。还有一个很有意思的,就是做广告五六十年代,如果大家看麦迪逊上的人,就是广告创意非常重要,在大数据时代创意并不是不重要,而是把传统上的创意和我的数据结合起来,我通过数据精挑细选创意,并且把这个创意和以前的元素整合起来,这个是非常非常有效的手段。


另外在移动时代,Mobile优化非常重要,还有一些通常的是在广告业跟钱接触太近,有钱的地方怎么做风险管理。往往不是在具体实践中,一个数据人才,怎么成长的更好,更快,是非常重要的,我把过去三年怎么构建我们数据团队跟大家分享一下,希望给大家带来帮助,其实刚才前面讲的就是数据,数据人才是多种多样的,我把我的团队分为四类人才:


第一个是Data Curation数据的收集整理,因为大家虽然人工智能,这个方面的科学比如机器学习和大规模的学习的确在进步,但是很多工作是机器不能代替人类来做的,像亚马逊这样的公司也搞了Mechanic Turk 来做数据的收集整理。包括两方面,一方面是收集小数据,另外一方面就是对大数据进行评估,校验,还有对数据进行洞察,这个方面的人非常非常重要。可能这方面的人并不是非常有数学的功底,但是这方面的人也不可缺少,比如在品友推出的DAAT,需要人对数据洞察很感兴趣。

第二个方面就是Data Infrastructure 数据的架构,包括Storm, Spark, Kubernetes在中国慢慢也有一些,对数据分析不太感兴趣,但对数据架构非常感兴趣的人才。我觉得这个方面的人才也是属于非常非常重要的人才。

第三类人才就是Data Analytics数据的分析,他解决一些数据问题,而且能钻的很深,并且能把这些数据反馈的人。我们以前有一个暑期实习生,是一个在费城读书的女PHD,她一开始很好奇,我根据她的背景说你可以做一些数据分析,她实习了两三周跟我聊的时候觉得这个最适合她,一方面她喜欢了解数据背后带来的逻辑是什么,另外一方面她喜欢发现这方面的洞察,虽然她没有很深的建模能力,但是她发现这个工作跟她非常匹配,她暑期实习两三个月离开的时候,也成了我们那年暑假最优秀的人。

第四个,Data Mining数据挖掘,我的观点是这四部分人都是不可缺少的人都是非常重要,所以大家想成为一个怎样的人,不见得都要成为Data Mining,大家想成为数据方面的人,第二条很关键,就是你要知道你自己的兴趣,你对数据哪方面感兴趣。我觉得没有高低贵贱之分,都是能成为这个行业的好手。另外无论是你想对哪方面感兴趣,你要做这个,无论是在大数据时代还是以前的传统统计学习时代里面都是,如果不跟数据玩永远不可能精通下去。


我从我的实践还发现,往往数据科学家,或者数据人才,他更愿意了解,会成为这方面的专家。如果有些人,他只对模型感兴趣,对背后的业务逻辑不感兴趣,这样的人是挺浮在空中的。我们现在算法团队里面有一个明星成员,他其实原来的基础很一般,但他就是喜欢钻研具体的业务背后的商业逻辑,比如电商,他服务了很多电商客户,在服务一个一个电商的过程中,他把电商数据搞得滚瓜烂熟,往往出现一些问题,他就能很快想出是哪里出了问题,他也很快成为我们很优秀的人才。我们团队里还有一个人,他以前数据背景很弱,可能就是一个传统时代,八九十年代的DBA那种角色,经过两年很快飞跃成为优秀的数据人才,并且能带团队。最后稍微讲一下,如果大家对品友现在这个刚才讲的这些我们四方面的人都需要,如果大家感兴趣可以扫描我的微信跟HR进行沟通,谢谢大家。

来源:猎聘网同道精英汇


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-11 04:49

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表