最具影响力的数字化技术在线社区

乔帮主 发表于 2015-1-6 11:07:58

搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)

2014年12月12-14日,2014中国大数据技术大会暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店圆满落幕。在会上,搜狐移动研发部经理刘佳为大家分享了《基于全网内容的新闻客户端推荐系统》的经验,并对针对新闻客户端遇到的内容分类质量识别图文、视频、音频、游戏、数据稀疏、内容冷启动、用户冷启动、噪音处理:三俗内容等棘手问题的处理方式展开演讲。要点:搜狐移动端新闻推荐的两个特点:
[*]广告系统。广告系统,搜狐追求转化率、辅助指标ROI、用户效果。
[*]搜索系统。搜索引擎中,追求对内容理解、内容爬取、文本关键词主题提取、文本分类、主题分类、内容索引、垃圾过滤、page rank、反作弊等等。
随后,刘佳介绍新闻推荐系统中三俗内容的处理方式,他说:“推荐系统出现三俗内容,可以提高18%-20%的转化率,虽然可以暂时提高点击率,但是对用户的粘性有很大的影响。我们会通用户阅读分布、用户属性分布统计性和精细化的分类进行筛选三俗内容。整体处理后,转化率下降到15%,推荐总量提升20%,用户使用频次也有20%的提升。”搜狐新闻客户端目前内容来源:• 自媒体约17000家 10到15万/每天
• 机构媒体+搜狐集团 10到15万/每天
• 短视频 300万
• 搜狗内容50万/每天 去重后约 7万/每天
• 搜狗微信公众号 2万/每天新闻入库过程:1、内容同步、抽取(每日100万资讯内容,过滤垃圾信HTML标签、广告、页
面重复内容保留)2、基于正文内容特征生成全局ID(基于正文内容过滤重复,海明哈希。同步到各CMS生成全局ID)3、基于标题、摘要、关键词生成cluster ID (基于标题及摘要关键词生成cluster Id;决定cluster score;根据版权、合作关系、来源质量、发布时间选择代表文章)用户建模:1、与内容分类对应;2、分为长期短期两套体系;
[*]长期:用户半年阅读行为、更新周期3天
[*]短期:用户最近两天阅读行为、更新周期10秒
3、用户阅读历史详细PPT:http://www.36dsj.com/wp-content/uploads/2015/01/115.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/217.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/316.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/415.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/57.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/64.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/74.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/82.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/92.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/103.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/116.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/124.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/133.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/143.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/153.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/163.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/173.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/184.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/194.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/204.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/218.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/223.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/234.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/243.jpghttp://www.36dsj.com/wp-content/uploads/2015/01/254.jpg


Hadoop中国
页: [1]
查看完整版本: 搜狐新闻客户端的背后大数据技术原理——推荐系统(PPT)