面试数据产品（标签推荐方向）的思考记录

发表于 2020-3-26 19:51:03

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

前几天去参加一个产品岗位的面试，这个岗位是数据产品经理（标签体系、推荐策略）方向，以下是那天面试两小时产品思路陈述后我做的记录。因为我还是个小白，思考的不全面也存在很多错误，如果您看到我的错误恳请直言不讳，不吝指教，谢谢！

工作职责

1.负责内部数据平台的产品建设，需求梳理，迭代推进和口径梳理；

2.负责新闻客户端用户分类画像体系研究和搭建,优化内容标签和个性化推荐策略；

3.基于数据分析和数据逻辑,驱动产品和业务发展。

分析准备

通过这个jd我们可以知道需要具备哪些方面的知识。有数据埋点，数据仓库，数据指标体系设计，数据标签体系设计，用户和内容画像，信息流推荐，数据分析，数据可视化平台设计，以及产品经理的基本素养。大概需要以上这些方面的知识。

面对如此多的方面我们应该如何去准备，需要我们先了解这个岗位要做的产品的目标。这个产品是一个新闻app客户端。它有新闻，视频，广场，我这四大模块。可以浏览或者听新闻，视频，直播，fm，小说，文章，还具有社交功能。

这个岗位的主要职责是构建和优化用户和内容标签体系，同时优化个性化推荐策略。我们整理下链条:埋点设计数据采集——数据仓库数据存储——指标体系、标签体系、对象特征体系设计——涉及到的自然语言处理、数据挖掘模型、机器学习、语义理解、推荐策略等的优化——可视化平台设计——ab测试评估体系和策略的效果——运营发现问题继续迭代。

埋点设计数据采集

一般来说，数据来源有产品上埋点获得的用户数据如uv和pv；有业务系统统计的数据如交易数据；有爬虫从其他第三方平台或网站爬取的数据；有手持终端获得的数据等。

这里需要做的是在app上设计埋点方案，当下埋点一般有三种方式：代码埋点，可视化埋点，全埋点。每一种都有优缺点，代码埋点比较灵活但费人工，全埋点需要较大的存储成本但较全面。同时埋点也分为前端埋点和后端埋点，后端埋点指的是获取在app上操作之外的数据，比如通过链接下载的数量。

了解得知此app目前用的是代码埋点。在设计埋点方案时，获取的指标要明确，层级要分明独立，比如可以按照功能-页面-位置-操作的层级关系去确定。同时需要通过埋点获得的指标数据应当是为目标服务的，即目的要明确，要结合业务逻辑、运营体系去设计埋点方案。最后埋点方案应该考虑复用性，避免应后期也许变动引起方案变化高强度增加研发的工作量。

一般一个埋点方案可以包含以下题头:功能，用户行为，事件类型，事件id，key，value，描述，备注。

事件类型分为:曝光事件，点击事件，页面事件。比如做ab测试时有A和B两个活动页面，每个页面进去都有军事和历史两个分类，我们要统计两个分类的点击事件。这里为了提高复用性可以采用树状结构，即事件id是“活动按钮”，二叉树分为“页面”和“入口”，“页面”的二叉树分为“A页面”和“B页面”，“入口”的二叉树分为“历史”和“军事”，这样即使后期增减活动，也只需要增加或者删除其中一部分分支。

这里我们要明确需要统计的数据，会涉及到如何定义指标。定义指标时含义要准确，比如统计独立用户数时，是否包含访客，如果包含，因为访客没有登录，我们统计的就会是独立设备数。再比如页面访问次数，如果同一个页面刷新一次是否该统计。再比如下单金额要统计优惠前还是优惠后。如此精确就像是我们要统计的是”今天12点之后从树上掉下来的方形的黄颜色的带叶子的大苹果”。

数据仓库数据存储

我们采集的数据可能会存在数据缺失，数据冗余等问题，需要经过数据清洗，比如缺失数据要考量是否可以补，冗余数据是否可以删。因为我们要从源头保证数据质量，数据来了我们要放到数据仓库里，数据仓库会集成来自不同数据源的数据，且是面向主题的，比如根据公司业务线进行划分。

简单说一下架构：最底下是采集存储层：会有数据采集、容错、解析引擎，分成结构化、半结构化、非结构化的数据。这里还要用到集群协调，分布式存储，高并发响应。再上去是数据计算层：分ods，bds，ids，分别是原始数据，基础数据，指标数据。这里我们也要做对数据抽取，转换，加载，包括了数据清洗。再上去是数据模型层：这里有许多分析模型，算法模型，还有标签体系库。再上去是数据服务层：这里可以是可视化平台，可以包括指标数据，用户画像，标签集合，数据报表等。再上面是数据访问层：比如开放接口，数据库查询。

数据指标体系

我觉得指标是一个能够定量反映事实的标准。一般指标由维度、定义和度量单位组成。维度就像是从不同角度划分对象的定语，比如苹果从颜色维度可以分红黄绿，从形状维度可以分方圆，从体积维度可以分大中小。度量单位就是一个指标的单位，比如“元”“个”“斤”。举个例子:自营（维度）销售额（定义）万元（度量单位）。

在搭建指标体系前我们需要先了解需求，了解业务。比如你的需求方是公司的营销部门，他们需要看到会员用户的一些指标，发现会员用户的特点和现状，通过数据来指导业务，针对性的做一些营销活动或者拜访回访。

那么我们需要了解会员机制，是需要消费够一定金额，或者连续多少天下单才能成为会员，亦或是其他方式？成为会员后会不会在什么情况下失去会员身份？

再考虑能够反映会员用户情况的指标有哪些，比如会员用户比例及变化，会员用户消费情况和普通用户的比较，具体的指标需要我们和业务部门去共同商定。

对于指标体系的搭建，工作中需要根据公司业务情况分类，比如分成下单，仓储，配送，客服，营销等分类。同时在每个分类中，也应按照高优，区间，低优将指标分列。高优指标即指标数值越高越好；低优指标数值越低越好；区间的分固定和浮动，浮动的比如存储温度，在0-2摄氏度就是安全范围，过高或者过低就需要预警；固定的需要固定在一个数值。对指标按照业务线或者其他方式分类有助于按照模块构建指标体系，对指标按照高低目标分类有利于之后的可视化设计以及数值预警。

标签特征体系

那么什么是标签呢，我理解的标签是为了定义出对象的特点，用一个个标签让对象的骨肉更加清晰，从而读懂它。一般对于用户画像会从6个方面来进行，基本信息，兴趣爱好，行为特点，消费信息，社交网络，心理特征。

标签在数仓中从下到上分为数据源，事实标签，模型标签，高级标签。事实标签也可以说是指标标签，比如用户浏览时长，各时段在线用户数等。模型标签比如用户属性，兴趣爱好，内容偏好，活跃度等。高级标签比如用户分级，流失模型标签。

我们为用户或者内容打标签是为了对其分类，以便更好的了解这个集合中对象的特点，从而针对性的做精细化的运营。也可为信息流推荐打好基础。

标签体系分为结构化，半结构化，非结构化三种。结构化的标签一二三级层级和所属分明；半结构化的层级结构比较分明；非结构化的标签体系诸如广告推广时设定的关键词。标签的命名应该短小易懂，具有代表性，并且无歧义。标签的体系设计应该做到标签和标签相互独立，并且完全穷尽。同时标签粒度也要有所把握，粒度太粗无法区分用户，粒度太细集合样本较少、太过于个性同时标签体系也会太过庞大。

对于此新闻app，在首页它有几种搜索途径：有搜索框输入关键词主动搜索；有军事科技历史娱乐社会等的分类垂直搜索；有信息流个性化推荐；还有订阅形式的推送。

我认为它的标签体系可以设立为“分类——主题——关键词”的三级模式，同时关键词可能要相对独立。分类指的是“历史，军事，娱乐，社会，科技”等等这些；主题的话比如历史分古代史近代史，也分中国史外国史；关键词的话比如用户爱看的是关于历史-近代史-张学良的文章。

算法和推荐策略

当我们有了标签体系，采集到了用户的数据，我们要从这些数据中“读”出有用信息从而为用户打上标签，这里会涉及到数据挖掘，自然语言处理，语义理解，机器学习等技术。

比如一个用户看了一篇新闻发表了一个评论，我们想要了解他说了什么，提取出对我们有用的信息。这里就涉及到了分词技术，比如“如果真是计算机就好了”这句话。说几种比较简单的分词方法，比如按照字典分词，字典通常采用前缀树或者后缀树的数据结构存储，进行正向最大匹配。以上面的为例“如”后跟“果”，“如果”是一个词语，再看第三个字“如果真”不是一个词，继续向下，发现都不是一个词组，那么就在“如果”这里进行切分。“计算”是一个词，继续向下“计算机”也是一个词语，“计算机就”不是一个词语，再往下发现到最后依然组不成词组，那么在“计算机”这里切分。

以上句子存在的交集型歧义也需要解决，“如果”和“果真”都是词语，语义理解时计算机语言读懂句子用到的是“如果”而不是“果真”。这里还有一种分词方法是基于统计的分词方法，即通过大量语料积累进行机器学习，统计出一个字后面跟另一个字的概率，从而进行分词。

语义理解中还要进行情感的理解，以及逻辑推理。情感理解，举个例子，如果是在ota上定了一个旅店，住了一晚然后给出了评价，比较明显的情感评价是“环境太好了”“热水器真糟糕”，不易发现的情感如“提供了早餐”，其实我们可以看出提供早餐是用户的褒义评价，但可能一般的算法读不出来。

再比如如果网购的地址填写的是学生宿舍，那么算法也需要大量学习，进行推理，从收货地址是学生宿舍推理出用户是学生，这就像百度的知识图谱。

接下来我想聊一下用户画像的几个分类，比如基本信息，如姓名，性别，年龄，生日，星座，设备号，职业，学历，手机号，邮箱等。这类特征是可以长时间不进行更新的，比较固定。

但对于这个新闻app有个问题，比如对于社交软件，用户乐于填写个人信息，但对于新闻app，可能100人，有30个人填写了信息，另外70个人不去填写。这里我们为了给这70个用户打标签，就需要用这30个人做为样本集，进行学习。比如通过学习，了解男性用户和女性用户的特点有什么不同，比如男性用户早晨更喜欢看时事新闻，晚上喜欢看玄幻小说，女性用户早上喜欢看娱乐热点，晚上喜欢看言情小说。通过得出的这些特征，进行“标签扩散”，为那70个未填写性别信息的用户打上性别标签。

接下来我们说一下兴趣爱好和行为特征，这类标签是经常变化的，具有时期时效性。比如我们为了知道一个用户对哪类新闻感兴趣，设计了一个打分加权模型，每点一个分类的新闻就加一分，线性增长。比如用户30天点了156次军事新闻，就156分，点了45次历史文章历史就是45分，我们可以看出用户最喜欢看的是军事，其次是历史。于是我们主要给他推荐军事，其次是历史。

但这里有个问题，如果某一天开始，用户开始对娱乐新闻感兴趣了，即他目前更想看的是娱乐新闻，但因为历史数据积累军事新闻权重太高，短期内算法无法推送娱乐新闻给他，那么线性打分模型是不合适的。我想这里可以采用指数模型，比如对某个类别的兴趣权重满分是10分，前9次每次1分，第10次开始每次1乘以系数0.9的（n-9）次方，第10次就是9.9，第11次点击军事就是9.99，以此类推，让权重不断逼近10。当然我们还要通过其他特征调整权重，比如打开频率，如三天看1次军事的，还是一小时看3次军事的。这样当用户开始对新的类别感兴趣的时候，可以更快的得到推荐。

这里我们来说一下推荐算法。首先我们会把用户和新闻分别标签化。来讲一下协同，

比如甲用户喜欢军事和娱乐，乙用户喜欢科技和文学。甲乙用户标签化后相似度很高，达到了一定阈值，那么我们可以认为乙用户喜欢的分类，甲用户可能也喜欢，于是我们把科技和文学推荐给了甲用户。这是基于用户的协同。

如果甲喜欢a文章，a和b文章标签化后相似度很高，那么我们猜测甲也会喜欢b文章。

如果有甲乙丙三个用户，甲乙喜欢a文章也会喜欢b文章，丙喜欢a文章，那么我们根据“所有喜欢a文章的用户都会喜欢b文章”可以猜测丙用户也会喜欢b文章。

基于相似度的推荐涉及到一个公式，这个公式来源于搜索引擎，因为搜索引擎的查询系统要根据用户输入的关键词对抓取到的网页按照相关度进行排序，从而展现在用户面前。这个模型就是向量空间模型，余弦相似度公式。

我们给用户打上不同的标签，分配不同的权重，比如abc三个标签，权重分别是λ1λ2λ3。每个标签量化到一个坐标轴，这样我们在一个三维坐标系可以唯一确定一个向量。同时我们把众多的新闻也进行向量化，得出和用户标签向量的相似度，推荐排序按照相似度从高到底排序。就实现了推荐。

但这里也会有一些常见问题，比如如果我们标签打的很多，也就是向量维度很多，其中有一些维度就因为数据空白太多而影响准确性。比如如果“转发”是一个维度，100个用户只有5个人转发，那么在转发这个维度上只有5个人有数值，其他95个人此维度就会被置为空，如果这种维度过多，就影响相似度计算。

面对这样的情况，我认为是否可以把这样的标签不单独设置维度，而是以加权的形式加到前面维度的权重上，从而解决这个问题。

这里还有一个问题在于，比如还是在旅店，甲旅店评价标签是环境好5分，设施齐全5分，有早餐3分。乙旅店环境好5分，设施齐全5分。我们显然知道甲旅店更好一些，因为甲旅店还提供早餐，虽然不是5分满分，但多了一个服务。但是如果按照打分模型给标签分配不同的权重，因为早餐这个标签甲旅店不是5分满分，所以总评分反而没有乙旅店高。会存在这样的例子，所以甲乙旅店标签可能需要进行统一化。

最后我们来说一下地理信息，比如我的常驻地是北京，app每天给我推荐北京本地的新闻，有天我去威海旅游了，那么app本地新闻的版块应当做到灵敏反应。

再来谈一下高级标签的模型搭建，比如用户流失模型，是一天登一次，三天登一次，一周不登一次，一个月不登一次等等，划分abcd等流失级别。以及活跃度等标签。这种模型更常见的是天气预报app，里面的穿衣指数，洗车指数就通过构建模型建立。

数据指标、标签可视化

上面有谈到数据指标体系建设，按照业务线分开，按照高低优区间分开。接下来应当按照查看要求，用合适的图形绘制，比如如果是看数据的趋势可以用点线图，如果要看数据占比可以用扇形图，如果要看数据离散程度同时为数据拟合做基础，可以用散点图。我们把每个需要的指标图形绘制出来。

接下来我们需要了解业务上的目标或者我们的目的，再按照用户的业务逻辑或者分析逻辑进行组合。比如负责vip商户的部门想看上个月每个城市vip商户的销售额和毛利。我们可以用柱状图横向列出各城市的销售额和毛利，上面用扇形图集合分布展示，比如用扇形图的面积代表销售额，面积越大销售额越大，用颜色深浅代表毛利的大小，颜色越深毛利越多。

如果a和b两个城市扇形图面积差不多大，但是a城颜色更深，那么我们需要进一步分析a城毛利高的原因，从而指导b城盈利。于是我们下钻到下层页面，下层页面可以具体显示ab两城米面粮油四个品类的毛利，我们举例简单点，比如通过对照，发现米面粮ab两城毛利差不多，油这个品类a明显高于b，那么业务人员可以定位到是那个品类的问题，再从也许场景去找到根本原因。

关于指标和标签我认为应该根据实际情况组合或者分开设计。比如可以把报表，图形，运营工具，标签画像，接口分开。

当我们的原型图设计好后可以找需求方确认，并邀请研发，业务一起开评审会，确认没问题后开发测试上线。

从本质上来说做产品的过程都是发现问题——分析问题——给出方案——落实方案——评估迭代。但数据产品经理和其他产品经理还是有些区别的，比如一般的产品可能更注重交互，页面美观度，用户感知等。但数据产品更注重逻辑。再比如普通产品如果有问题或者bug如果不是特别紧急可以放在下一版本解决，但是数据产品一旦有问题，需要立刻解决从而保证数据准确性。但无论如何我们都要考虑，用户是谁，他们有什么特点，产品价值有多大，目前的满足程度。同时考虑成本与收益的关系，比如考虑人力成本，资源成本，沉没成本，用户成本等。

当产品开发后，我们可以先为部分用户开放权限进行内测，比如跑一周的数据如果没有问题再进行公测。同时这里应该也要做好用户权限的设计管控，可以把用户岗位职级——系统模块角色——具体模块三者联系起来，让不同部门不同职级不同职责的用户看到不同的内容。

如果有数据质疑需要排查。可以分为三步:对口径，查代码，导明细。比如一个业务人员说在业务系统看到a指标的数值和bi系统上的不一样。那么我们首先要确定数据源和指标口径统计方式是否相同。一般第一步可以解决绝大多数的问题，如果第一步不行，我们可以叫两个系统的研发对代码，看是否代码有问题，是否用的不是一个数据表。如果第二步依然不行，我们可以导出两个系统指标的明细数据进行核查。

AB测试评估体系和策略的效果

我们设计好了标签体系，为用户进行了画像，还做了新闻推荐，那么我们的标签打的如何呢？需要进行评估，评估的话就涉及到了量化的指标。

比如我们在一批同质同标签用户中，给其中一部分推送他们喜爱的新闻。我们来看他们的点击次数和浏览时长是否相对另一组用户要大。如果大可能我们的标签体系就建设的不错。

如果一个用户我们判定他喜爱娱乐-国内-xx明星，我们推送了这个明星的另一篇报道给他。他点进去没怎么看就出来了，这一定是我们标签打错了吗？

我认为不一定，可能他前面看的文章和推荐文章内容相似，也可能前面看的文章内容篇幅高度文笔都高于后一篇。那么如果我们推荐一篇和他看过的文章内容不同，质量相当的他感兴趣的明星的文章，他依然点进去就出来，会是什么原因呢？我认为可能会是观点相反，比如第一篇文章是褒奖此明星的，推荐的是抨击该明星的，所以用户跳出。

这里我认为文章应该有分级机制，比如分一类二类三类，我从面试官处了解到公司确实有。我继续问比如同一篇文章是否只有一个通用级别，还是说它是军事一类，同时属于历史三类文章。面试官说是通用的，还没有细分。

同时这里也会有个问题，就是没有作者喜欢自己的文章被分级，而是喜欢让更多的用户看到。

还有目前在内容标签体系中也会存在内容交叉的问题，比如军事下面的历史和历史下面的军事，这也是需要解决的问题。

同时关于内容标签体系的建立，我认为像我开始说到的，关键词提取和标签体系分开。结构化标签和非结构化标签合作。

提取文中能代表本文内容的关键词，这里我来说一下搜索引擎中的一个tf-idf加权技术，这个技术说的是，如果一个词语再本文中出现的越多，在其他文章中出现的越少，则这个词语具有很好的代表性。tf是这个词语在本文中出现的频率，比如分词后本文有100个词，产品经理出现了5次，则5/100得到的0.05就是词频。

我认为内容标签关键词体系的设计，除了产品，算法，同时也需要运营支持，采用机器+人工的方式。

运营分析

在运营中我们可能需要通过分析来发现问题。比如可以通过指标逻辑，比如看到销售额暴跌，影响销售额的子指标是下单商户数和客单价，然后再分析这俩指标，按照指标逻辑看看哪里出了问题。

也可以按照aarrr模型（获取，激活，留存，支付，分享）或者漏斗模型（访问，抵达，浏览，咨询，收藏，下单，支付）或者用户操作路径等模型一个个环节分析。

还可以按照业务场景分析，比如采购，运送，仓储，分拣，配送，售后等环节一步步分析。

再比如有个问题，说一家商场中每天的总营业额都差不多，某一天其中一家商店的营业额骤降，商场总得营业额还是差不多。那么我们首先应该了解这个商店往日占到商场总营业额的比例，如果比例较高，则表示可能客户流失到其他商店，所以导致商场营业额不变而此商店骤降。

如果此商店比例较小，不对商场有什么影响。那么我们考虑内外部因素，外部因素比如受到某个事件影响。内部因素可从客户体验流程分析，比如商店是否装修，服务是否降低，货品是否过期或缺失，价格是否升高等等。

问题都需要在运营中发现，用户的增长也需要运营去针对性的做精细化运营。

以上是此次面试两小时产品思路陈述的内容。

作者：小诺

来源：产研小白

帐号		自动登录	找回密码
密码			立即注册

面试数据产品（标签推荐方向）的思考记录

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1