最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

刘尚堃 京东数据驱动下的个性化推荐系统(PPT附下载)

[复制链接]
跳转到指定楼层
楼主
发表于 2015-11-21 11:19:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
刘尚堃·京东推荐搜索部技术总监
刘尚堃,京东推荐搜索部技术总监,有七年B2C行业搜索经验。目前负责搜索引擎、推荐方面的产品研发和团队管理工作。他领导团队将推荐搜索技术应用于京东各个品牌的支持当中,包括移动端的平台、以及PC端平台、以及微信平台全部的推荐业务和场景。

本文提供PPT下载,请点击左下角的“阅读原文”到36大数据网站下载。
个性化推荐简述
个性化推荐就是通过全方位的数据精准刻画用户的购买意图,然后有针对性给用户推荐用户购买意愿高的商品,为用户提供极致的产品体验,提升下单转化率,增强用户粘性。个性化推荐模型分为召回和排序两大类,刘尚堃在采访中,通过举例详细的讲解了这两大类模型。
召回模型
召回模型就是选举推荐的侯选,京东主要用到基于行为的召回模型,其分为近期和长期两种,其他还有基于偏好、基于地域等。
基于行为
基于近期行为的召回模型:例如一个用户喜欢最近浏览一些炒股类的书籍,那么就会给这个用户推荐一些他可能感兴趣的其他炒股书籍。像这样就尤其是最近发生的行为,这样的情况就叫做近期行为的相似商品推荐。例如一个用户买了一本《秘密花园》,这时候就会马上给用户推荐彩色笔。像这样的情况就叫做近期行为的商品购买搭配推荐。刘尚堃表示:“基于近期行为的在线算法是最基础最好用同时也是转化率最高的”。
长尾商品的搭配
基于中长期行为的召回模型:中长期的行为通常在半年左右,可以用浏览相似、离线购买搭配和离线的SVD。当在做搭配的时会有一些小Trick。因为京东的商品比较丰富,其中有些新商品没有用户行为。针对这样的情况,利用购物篮分析,建立产品和产品之间的关系。把这些关系应用到个性化推荐中去,提升长尾商品的搭配覆盖率。
基于偏好
基于偏好
基于偏好也就是用户画像:比如女孩又比较喜欢化妆品买衣服,那么就会根据她在京东过去的一些行为,针对兴趣爱好进行推荐。当然在推荐的时候,还要考虑到用户的购买力,敏感度等问题。如果用户特别钟爱户外用品,这就是用户的偏好。喜欢韩版衣服,这是用户的修饰的偏好。当不知道用户喜欢什么产品,也不知道什么兴趣爱好甚至偏好时,就会通过一些算法来预测你感兴趣的产品。基于大数据从海量的其他用户中挖掘最接近的一个用户,看看他喜欢什么样的东西,他的兴趣是什么,他的品牌是什么,然后再传递给用户。
基于地域:京东有很多配送地,可以把一些区域做一些建模,比如说三里屯地区扑克牌、色子买的人比较多,因为有人需要它们给女孩变魔术。还有一些别的地区,也可能有类似这样的偏向于某一种消费品。通过区域划分可以获得很多的信息,比如购买力,就拿万国城和史个庄相比,万国城的消费程度比较高,就推荐一些高价位的商品。地域模型主要还可以用在没有任何消费行为的新用户上,就拿一名从来没有在京东上购买过商品的学来说,如果他是清华大学这个区域,就推荐一些比较有难度的考研题目,或四六级书籍。如果是北京联合大学的学生,就相对应简单一些。
排序模型
当积累一定的用户和流量,有一定点击和购买之后,就需用到排序算法。
排序学习
标记:Point、pair、wise。第一步是做模型选取,因为模型有不同的特征和特性需要选取模型。第二是根据选取的模型进行标注,如果是Point标注,是选取正例和负例,如果是pair wise标注方法是,比如用ABCD四个商品,A没有任何操作,B点击了,C购买了,D没有任何操作,那么就是点击了BA,那么BA就是一个正例。CA因为是实际购买的,是正例,还有CB由于C是购买,B是点击,购买比点击更重要一些,CB也是正例,CD也是一个正例。后面的Tao是比较重要的程度。
特征计算:召回模型标记特征,在线相似、在线相关、离线相似、离线相关,基于用户画像的召回和基于地域的召回,从哪个模型召回,这是我们重要的内容。商业模型,比如某一个商品是大品牌还是小品牌等。用户特征,实际上是对用户画像的维度,用户的性别和购买力,还有用户之前点击的商品以及之前购买的商品是什么等。商品特征,,商品的销量数,价格区间等。、上下文特征,指的是用户之前和之后一系列的操作等。时间特征,什么时间点对这个商品进行了点击和购买等。地域特征、季节特征等。
离线计算和在线计算
离线计算,数据存在Data Mart,通过hadoop上面运行Map Reduce,另外大量通过Mahout和Spark,通过分布式任务调度系统将输送的结果存入HBase当中。
在线计算计算流程,通过Kafka接收消息存入HBase当中,在线计算主要基于Storm,实时消息基于Kafka是150亿+消息的处理。
未来突破点
当问及未来针对个性化推荐系统从哪个角度去突破时候,刘尚堃这样说:“个性化推荐会达到一定瓶颈是肯定的,不敢说在机器学习、推荐搜索算法上,已经达到了一个什么样的高度。因为在前面有很多巨头,包括国外也有不断地出现一些新的技术。京东推荐部门经过了几年的发展不断的趋向完美,在资深团队成长的同时还有来自新浪谷歌的科学家加入。在过去,京东关更多关注的是推荐系统怎么去带动京东的销售,怎么帮助网站提高转化率。在未来,需要更多考虑的是体验类的指标,就是怎么去提升用户体验度。”
PPT预览:

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 18:53

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表