最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[PPT] 百分点苏海波:用户画像的构建及应用

[复制链接]
跳转到指定楼层
楼主
发表于 2015-11-20 11:36:58 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2019-9-12 20:46 编辑

苏海波 百分点研发总监
清华电子系毕业,目前是百分点的研发总监,他擅长文本分析、机器学习、个性化推荐以及计算广告学,多篇论文发表于国内外顶尖学术会议和期刊,曾经负责微博的粉丝通广告系统。苏海波今天为我们带来了一篇深度好文:用户画像的构建及应用,赶紧来看看吧。


大家下午好,我是来自于百分点的苏海波,用户画像非常重要,它是构建上面应用的基础。百分点大家最早听说它,是一个推荐服务的提供商,但是去年开始我们已经成功转型为一个大数据解决方案的提供商,现在有很多传统企业,包括华为、长虹、TCL、银行等,这些传统企业的用户画像都是我们帮忙构建的,今天我给大家分享的内容就是关于用户画像的构建以及应用的话题。


首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是信息技术的自然延伸,意味着无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,TI系统围绕业务服务,在这个服务的过程中沉淀了很多数据,再在数据的基础上做一些分析。但是到了DT时代不一样了,数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,IT系统构建在虚拟系统上,变得更加智能,DT战略在很多公司慢慢开始应用,越来越多的公司管理层开始考虑这方面的方向。

大数据无处不在体现在几个方面,第一个就是说我们社会信息化的建设越来越发达。第二个是随着可穿戴设备的发展,人产生了越来越多的数据,接入网络当中,同时人和人之间沟通的方式也不仅仅是传统的面对面,传统理解人、与人沟通的方式发生了根本的变革,因此我们要学会从比特流中去认识人类,因此构建用户画像这件事就变得更加重要。而且现在机器也变得很智能了,所以我们还要教会机器来认识人类,这样才能在画像的基础上构建应用,譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发,因此知道用户画像对于这些应用的重要性。

在座各位很多是来自互联网公司的,我们经常会提到这些词:用户画像、标签、360度用户视图等等,有不少人甚至就是做这面的研发工作,但是这些概念让你感觉有一点似是而非,我以前也有这样的感觉,就是说没有从根本上把这些概念弄清楚,因此有必要把这些概念从根本上弄清楚,不然会有些不安。

首先看一下我们生活中的用户画像,举个例子,”身长八尺、面如冠玉、头戴纶巾”,大家会想到一个人是谁?诸葛亮是吧,这是一段文本上的描述。大家再看一下,下面这张图大家又会想到谁,希特勒。再看一下右边这幅图,这是一个球员。这个就不用说了,是美国的奥巴马。这些都是生活中的画像,都是为了描述一个人,但是它们的描述方式和角度不一样的,对不对。

但是从我们这些描述当中可以看出一些共性,主要体现在如下几个方面:

第一个是目标,目标都是为了描述人、理解人,这是用户画像最大的目标。

第二个是我们描述的方式,可以分为两种:第一种是非形式化的手段,我们前面看到的语音、文本,都是非形式化的,另外一种是形式化的手段,譬如刚才我们看到的奥巴马身份证,你可以把身份证放在读卡器上,就可以把对应的信息读取出来。

第三个就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。第四个就是用户画像标准,这个很重要,这是我们一会要讲的,为什么?比如说,我们在描述用户的过程当中要有一些共识,举个例子,我说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的的知识体系,不然用户画像这件事是没有办法达到的。最后一个是验证,就是说我们做完用户画像以后,一定要去验证。举个例子,我跟你说某个人特别不靠谱,相当于打上了一个标签,你一定会反问我为什么不靠谱,你的依据是什么,就是我们给用户生成画像之后,我们一定要给出依据和推理的过程,告诉你这个结论是怎么得到的,不然就没有可信力,对不对。

前面说了这么多,那么到底什么是用户画像呢?用户画像是对现实世界中用户的数学建模,它包括两方面:一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,因此来源于现实,高于现实。第二个是用户画像它是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的内容都是基于这个展开的。比如刚刚说的月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。

然后就是刚刚说的,用户画像是现实生活中的数学建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。另外一个方面,就是要有一套数据化、符号化、形式化的方式去描述这套知识体系,什么叫形式化?就是机器要能够理解这套知识体系,如果只有人理解的话,这个东西是没有办法使用的,所谓形式化就是这个含义。

这种方法到底存在不存在,60、70年代就已经存在了,做语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义网络非常流行,这个东西是比较复杂的,它帮助机器去理解知识体系,由于非常复杂,我就简单说一下,类似于UML这种语言,包括实体、联系、推理等等。就是说通过这套方法论,可以理解知识,甚至教会它怎么去推理,这就是前面说的本体论。这个方法是很复杂的,非常麻烦。

我们这里有一套非常朴素的方法,大家可以看一下这张图,我们在现实世界中怎么表述知识。我们最开始学习语文的时候用的是什么,是新华字典是不是,字典中大家看到的组织形式是什么,首先是词,词作为它的表现符号。另外是什么,它后面会跟着比较长的解释文本,就对应一个概念,那么就是说,这里符号与概念是相对应的。用我们现实生活中的一个例子来说,你比如说拿狗这个例子来说,狗这个词是一个符号,但是对应我们脑子中的概念是什么,”四条腿,一个能看家的、一个能汪汪叫的动物”,对不对?对应的实体就是我们现实生活中看的各种品类的狗,是吗?我希望大家可以记住这张图。

上面这张图中的模型就对应前面图中所指的概念,标签就对应前面这张图上的符号,要和大家强调的两点是:

一点是标签它是跟业务密切相关的,比如说就拿最简单的标签男女来说,在阿里内部,关于男女,这样最简单的标签,也有12个男和女,它与业务密切相关,不仅仅是指生理上的男和女,另外还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等,在这个层面来讲,对男女的标签又有了一层新的理解。这个符号是跟业务场景绑定在一起的,脱离这个业务场景,这个符号就没有明确的含义。

第二点,在这张图当中,标签是一个符号要去表达模型对不对。举一个简单的例子,比如说我这个产品,想卖给白领这个群体,白领这个词就是一个符号,可以表示一个用户群,譬如说”收入高、坐办公室”等等,所以标签就把它做了一个较好的定义。

刚刚说到了用户画像的定义、标签的定义,那么我们平时经常说的用户画像和标签,它们之间是一个什么样的关系呢?用户画像到底又有多么重要?在实际业务中他的价值是如何体现的?

请点击此处下载

请先注册会员后在进行下载

已注册会员,请先登录后下载

文件名称:用户画像的构建及应用.pdf 
下载次数:0  文件大小:2.69 MB  售价:5金钱 [记录]
下载权限: 新手上路 以上 | 请 [充值积分]

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2016-3-25 23:43:02 | 只看该作者
本帖最后由 168主编 于 2019-9-9 08:20 编辑

谢谢分享!!!谢谢分享!!!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-30 22:28

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表