小米用户画像的演进及应用解读

168主编 发表于 2019-9-13 09:27:48

摘至小米大数据总监司马云瑞在2017年 11月4日中科院计算所举行大数据系统与应用研讨会上的分享主题。原文地址：https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q , 小米公司经过7年的发展，积累了海量的日志和用户行为数据。基于全生态、多维度的数据资产，构建了丰富的用户画像体系，在业务运营、广告、互联网金融、新零售等各个领域发挥了重要作用。用户画像简而言之，用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。如果你经常购买一些玩偶玩具，那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”，甚至还可以判断出你孩子大概的年龄，贴上“有5-10岁的孩子”这样更为具体的标签，而这些所有给你贴的标签统在一起，就成了你的用户画像，因此，也可以说用户画像就是判断一个人是什么样的人。小米大数据团队在公司内部主要承担三项职能：
[*]一是数据平台，基于公司海量数据构建数据仓库，提供OLAP(Online Analytical Processing)，BI(Business Intelligence)等平台能力，支持业务部门数据需求；
[*]二是数据建设，其中最重要的是用户画像的建设，帮助多维度的描绘用户，实现精细化运营；
[*]三是数据驱动业务增长，也即数据应用，通过数据发现业务痛点，解决行业难题，颠覆行业模式。
司马云瑞主要分享了用户画像，及其如何应用，驱动业务增长，产生价值。首先是小米的数据来源。小米不仅是一家为人熟知的手机公司，小米还拥有丰富的智能硬件产品，小米电视、小米路由及众多生态链产品。除了在硬件上的广布局，小米还具备成熟的互联网业务，如云服务、互娱、小米金融、商业广告等。同时小米自带电商属性，有小米商城、全网电商、小米之家等线上线下渠道。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127162606300-1635239422.png
下图右边展示了2016年4月小米内部云的数据统计情况，如每天新增850亿条的数据记录，2.3万个计算作业，当时数据规模为10PB等, 左侧由于隐私问题暂时保密，但可预见照片、视频需要的存储量是巨大的。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127163002128-109187932.png
如下图小米日活过千万的APP就有21个，浏览器的日均搜索量超过1亿次，小米电视、语音助手等每日语音输出高达300万次，拥有这些丰富的全生态用户数据，小米在自然语言处理、语音模型等方面具有天然优势，这些数据的优势，也是小米AI的优势
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127163258019-696250544.png
用户画像1.0——基于统计的用户标签据司马云瑞介绍，小米大数据已经对接、服务了64个公司内部的业务组，主要通过两种方式：
[*]建设公司基础、重要的数据点，构建数据工场，收拢数据，并在此基础上构建用户画像。小米的用户画像包含人口属性、兴趣标签、时空大数据等，业务可以直接使用；
[*]构建数据应用团队，与业务方一起用数据解决业务难题，例如帮助新零售解决智能选址、供应链优化的问题，帮金融解决风控、反欺诈、征信问题，帮公司内部各个业务解决运营问题等。
小米大数据团队的使命是：“融汇全景数据，赋能核心业务”，从数据的收集，处理，画像的构建，到帮助业务提高，都是在践行这一口号。这样避免了数据孤岛，也实现了业务数据的互联互通。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127163848425-1459337432.png
这是小米用户画像的雏形，包含基础用户属性，如年龄性别、学历职业、地域语言、账号真实性、米粉指数以及兴趣属性等等。利用多维度数据的优势来描绘用户的属性，比如通过用户在多看阅读的历史记录，可以判断用户的阅读兴趣。
据介绍，用户画像1.0主要基于两项基本的技术：预测和统计规则。某些事实属性小米有Label，于是直接采用机器学习的方法，结合用户的行为数据预测，例如性别年龄。此外，大部分属性标签则基于统计规则生成，例如用户喜欢打游戏，或者经常飞行出差，小米大数据团队会通过一些规则统计用户的行为，并为这些用户打上竞技游戏、商务差旅等标签。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127164355769-73582266.png
这里是用户性别属性的生成流程，是有监督学习。这里以性别预测为例：
[*]一方面，小米有大量的帐号/手环/支付/VIP数据，这些数据都有用户的性别，可以作为训练样本。
[*]另一方面，小米有大量的用户行为数据，包含APP/浏览器/购物等数据，利用这些数据作为特征，可以训练性别模型。
针对不同的需求，例如追求准确率或者召回率，团队生成了不同的数据版本。模型本身也经过了多轮迭代，从最初的逻辑回归，到XGBoost，到现在的DNN.还以性别预测为例，随着数据积累的越来越多，预测效果也越来越好。而且随着数据的增多，一些DNN模型也得以利用，这也使得预测效果越来越好。
用户画像还可以直接为业务运营提供分析能力。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127164730831-1674552995.png
小米从诞生之日起就一直在跟黄牛斗智斗勇，我们基于用户的行为数据，帮助小米网预判用户是否可信，最终大幅降低黄牛比例。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127164912144-1791851290.png
小米大数据还帮助金融团队建立风险模型，预判信贷用户的违约风险，当前小米信贷业务的逾期率显著低于业界风险水平。具体做法是从用户的历史行为数据和关系数据中，挖掘用户标签，用户社交属性，作为特征加入到模型中去。用户画像2.0——基于行为的事实标签
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127165149940-304470149.png
服务业务的过程中，数据团队逐渐发现，画像1.0并不能解决所有的问题。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127165233909-1176768024.png
通用的兴趣标签不能满足精细化运营的需要，业务需要更精准的定制画像。用户画像2.0旨在通过四种方法解决标签不够精细、定制化的问题：
[*]支持直接基于用户行为数据，复杂组合逻辑的人群提取，方便业务同学自助灵活创建运营客群；
[*]支持基于路径分析和序列挖掘的画像分析，帮助业务深入洞察用户；
[*]定义统一的数据格式，支持业务资助扩充和接入自建的更精细的画像；
[*]升级基于算法的智能人群拓展能力，集成业务画像数据生成特征，满足个性化的人群拓展需求。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127165750003-1532440168.png
基于事实行为产生的标签效果显著，帮助部分业务实现了230%到431%的ROI提升。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170027269-272575941.png
画像2.0还支持智能扩展人群，实现了标签定向（冷启动）到反馈定向（收集用户反馈数据迭代优化模型）的闭环，在部分业务实现了200%～300%的CTR提升。用户画像2.1——用户画像与业务深度结合的外延探索
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170309925-1749509094.png
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170344300-2038095985.png
小米在新零售的布局做了很多工作，从小米网的运营效率，到线下的小米之家，画像从数据应用上提供了许多支持，新零售之于大数据，司马云瑞认为可以总结成两句话：“线上线下数据融合，追求极致效率”，不管是风控，运营，还是供应链效率，都是新零售追求的目标。
除了线上的数据，小米还有许多线下数据，例如出库，销售，POI点等，这些数据的汇聚提供了一个很大的想象空间，例如滞销分析、竞品动态、区域画像。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170558565-2003217953.png
基于用户的行为，小米大数据还在探索一款手机虚拟助手，基于场景或者规则预知用户的下一个行为，从而为用户提供非常贴心的服务。例如用户可以设置到家的时候，如果空气比较差，就打开空气净化器。使用的是业内前沿的APP2VEC来做的，这样做有几个好处，特征维度从50万降到了200维，同时从实验结果看，APP2VEC可以替代大量的人工特征工程成本。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170741300-1056048976.png
作为行为预测的一个案例，我们首先做了app打开预测，即预测用户下一个将要打开的app。首先基于所有用户打开app的序列数据，在云端训练一个模型预测下一个打开的app，将模型下发到手机客户端，客户端基于云端的模型和自己的app使用序列finetune用户自己的模型，这样可以更好的预测用户下一个将要打开哪个app。
[*]https://images2018.cnblogs.com/blog/1004194/201711/1004194-20171127170941597-212227214.png
此外，用户的行为序列可以预测用户接下来要打开的5个应用，基于这个优化手机使用体验，以及实现更多场景的行为预测。结合小米大量的行为数据和app2vec的技术，我们正在尝试把所有的action都转换成向量的形式，再借助LSTM-Attention技术，同时融合场景信息（如当前正在餐馆就餐）和个人标签（如用户兴趣）来预测用户下一个行为。参考资料
[*]https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q
[*]http://blog.csdn.net/smartcat2010/article/details/78532701

页: [1]

168大数据's Archiver

小米用户画像的演进及应用解读