最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

推荐系统(Recommender System)的技术基础

[复制链接]
跳转到指定楼层
楼主
发表于 2016-1-5 10:11:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:xudong0612
推荐系统是通过分析用户属性、访问日志、反馈信息等对用户可能感兴趣的项进行预测。推荐系统在web2.0时代将有非常广泛的应用。
推荐系统应用了多个领域的方法和技术,如人机对话(Human Computer Interaction)、信息检索(Information Retrieval)等。不过说到底,这些都是以数据挖掘(Data Mining)为基础的。
数据挖掘的过程由下图中所示的三个步骤组成:


数据预处理(preprocessing)
数据挖掘的对象是数据,在对数据进行分析之前,要对数据进行清洗,转换、转载(ETL)使其完整、一致。在推荐系统中,数据的预处理主要包括距离计算,采样和降维。
1.距离计算(Distance Measures)
推荐目前主要采用两种方法:基于内容的推荐和协同推荐。基于内容的推荐是根据历史信息(如评价、分享、收藏过的文档)构造用户偏好文档, 计算推荐项目与用户偏好文档的相似度, 将最相似的项目推荐给用户;协同推荐的原理是寻找用户的邻居,为其推荐邻居感兴趣的东西。发现邻居的方法就是通过计算用户间的相似度对用户进行分类,相似度的基础就是距离计算。
我们这里采取的是协同推荐,常见的两个对象间距离的计算有如下几种方法:
1)欧几里得距离
定义如下:

  其中,n为对象的属性的个数,xk、yk为第k个属性,x、y为对象。

2)闵可夫斯基距离是欧几里得距离的推广
定义如下:

  其中,r是距离的度,有时被称为Lr范数。另外,我们可以发现,当r=1时,它表示为曼哈顿距离,r=2时,表示为欧几里得距离,当r→∞时,表示为supremum距离,它对应于计算两个对象间任意维度的最大区别。

3)马氏距离

  其中,σ是x、y的协方差矩阵。

此外,还有一种常见的计算对象间相似度的方法。将项看成n维的文档矩阵,通过计算两个对象间的cos值来表示相似度。公式如下:

  其中•表示向量的点乘,||x||表示x的范数。

当对象的属性为二元变量时,即只有0,1两种状态。此时,就需要特定的方法来计算相似度。例如用M00、M01、M10、M11来表示具有两个二元变量的对象的四种状态,如果二元属性是对称的,也就是说两个状态具有相同的价值和相同的价值,那么对象间的相似度计算公式为:
简单匹配系数=(number of matched/number of attributes)=(M00+M11)/(M01+M01+M10+M11)
如果二元属性不是对称的,则计算公式为:
Jaccard系数=M11/(M01+M10+M11)
2.采样(Sampling)
数据挖掘过程中,不可能对所有的数据进行处理,往往是选择一个子集作为数据源,从所有数据中选择数据子集的过程就是采样。选择出的子集还分为训练集(training dataset)和测试集( testing dataset),训练集主要用来学习算法,测试集用来测试算法质量。
采样要求选择出的数据具有代表性,目前主要采样以下两种方法:
1)随机取样 即等概率的从数据整体中抽取数据。
2)分层取样 基于数据的特征将数据分成几部分,在每一部分再进行随机取样。
在采样过程中,一种是不重复采样,另一种是重复采样。最常用的一种方法是80/20原则的不重复随机采样。80/20是指从采样结果中取80%作为训练集,另外20%作为测试集,这种方法在超过2/3情况下是适合的。
另外,为了防止采样结果不具有代表性,一般会重复取样,对数据经过多次测试来保证准确性。
3.降维(Dimensionality Reduction)
采样得到的数据可能会有冗余、维难等问题,为了解决这些问题,就需要对数据进行降维。常用的降维方法有以下两种:
1)主成分分量分析法(Principal Compenent Analysis,PCA)
2)奇异值分解法(Singular Value Decomposit,SVD)

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 18:49

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表