最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Smartbi数据挖掘示例--微博分析

[复制链接]
跳转到指定楼层
楼主
发表于 2015-8-13 17:29:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
对社会网络分析的基本概念有所了解后,下面我们开始学习这个案例。工作流如下:

1、商业目标
业务理解:数据名称《中国最强音微博.csv》和《星跳水立方微博.csv》 。该案例所用的数据是中国最强音官方微博数据和星跳水立方官方微博数据。其中,字段包括Author、Weibo、Forward、Time_Weibo、Time_Search、Count_Reply。如下:


表1:数据视图
业务目标:寻找意见领袖,为自媒体传播提供参考,另外还要对语义进行聚类,挖掘特征相似用户群体。
数据挖掘目标:建立社会网络图,挖掘意见领袖和微博传播路径,再使用聚类算法对语义进行聚类。

2、数据准备



第一步,使用R代码段节点,借助R的编程能力利用关键字提取提及的微博用户。代码如下:
smartmining.out<- smartmining.in
library(data.table)
library(stringr)
At<-str_extract_all(smartmining.in$"Weibo","@\\b\\w*
b")
textnumber = rep(1:nrow(summary(At)),as.numeric(summary(At)[,1]))
smartmining.out<-data.frame(提及用户=unlist(At),句子=textnumber)
节点配置如下:



第二步,使用汇总节点,以句子为组,以提及用户为选项建立列表。节点配置如下:



第三步,使用Apriori节点通过关联分析算法训练规则。节点配置如下:


第四步,使用分离集合节点分离字段antecedents。节点配置如下:


第五步,为了便于理解,我们将部分字段名称改为中文。配置如下:


前项和后项
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为前项和后项 。其中,关联规则XY,存在支持度和置信度。
假设

的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
第六步,派生规则质量字段。我们定义规则质量=支持度*规则置信度,配置如下:



第七步,对前项和规则质量字段按照降序进行二重排序。配置如下:


第八步,筛选规则质量在20以上的记录。配置如下:


第九步,使用Java代码段(简单)节点派生边id字段。


以上九步处理结果如下表所示:

3、意见领袖挖掘

接下来,开始挖掘意见领袖。意见领袖是指在人际传播网络中经常为他人提供信息,同时对他人施加影响的"活跃分子",他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。
意见领袖的重要性在不同的产品、不同的目标市场上存在很大的区别。因此,在使用意见领袖时,第一步是通过调查或凭经验或逻辑来确定意见领袖在当前环境中的角色。这一步完成后,就可以利用意见领袖制定营销策略了。
(1). 广告
广告应力图激励人们做意见领袖,或使他们模仿意见领袖。激励包括设计一些活动,鼓励使用者谈论产品或品牌,或者让可能的购买者向使用者询问他们的感受。模仿意见领袖涉及找到一位众所周知的意见领袖——如为跑步器材找到乔伊娜( Florence Joyner)或卡尔·刘易斯(Carl Lewis),使他们认可某一品牌。或者在一则"生活片段"式的广告中,让一位醒目的意见领袖推荐产品,这种广告通常是"偷听到的两个人的谈话,其中一个人向另一个人提供选择品牌的建议。"
(2). 产品质量和顾客抱怨
非常明显的是,消费者会同其他消费者谈论他们有关产品、商店和服务的经历。因此,营销者提供满足或者超过消费者期望的产品是绝对重要的。当顾客的期望未能满足时,企业必须及时妥当地处理顾客抱怨。不愉快的顾客会将其不满平均告诉其他9个人。
(3). 市场调查
由于意见领袖接受、解释并向他人传播营销信息,在那些意见领袖作用明显的产品领域和群体里,市场调查的重点应放在意见领袖身上而不是"代表性"样本上。因此,产品使用实验、广告文案的预试和媒体偏好研究,都应当以可能成为意见领袖的个人为样本。使意见领袖接触企业的营销组合策略并做出良好反应是成功的关键。当然,在那些意见领袖影响小的产品领域或群体内,使用这种策略或许并非明智之举。
(4). 赠送产品样品
赠送样品,即将产品样品送给一个潜在的消费群体使用,是激发人们传播该产品信息的有效方法。在一项研究中,随机选择一群妇女,免费送给他们新速溶咖啡样品。结果发现,一周之内33 %的样品获得者与家庭以外的人谈论到这种咖啡。营销者不能随机选择样本,而应该尽量将产品送到可能成为意见领袖的人手中。克莱斯勒公司为了引入它的L H汽车—无畏(Dodge Intrepid)、统一( Chrysler Concorde)和鹰眼(Eagle Vi s i o n),向6000名可能的意见领袖提供新车,让他们免费使用一个周末。这些人包括经理和社区首脑,也包括经常提供意见但却不受瞩目的人,如理发师。随后的市场调查发现,有32 000多人驾驶或乘坐了这种汽车,而其口头赞誉则流传更广。
(5). 零售与个人推销
零售商或推销员有成千上万的机会使用意见领袖。服装店设计了"时尚意见委员会",由目标市场中可能成为服装款式意见领袖的人组成。面向青少年的商店使用的活跃分子和班级干部也是意见领袖。餐馆老板也可以向目标市场中的可能领袖做出特别邀请,或提供二兑一的赠券,以及菜谱等等。零售商或推销员可以鼓励现有顾客向潜在的新顾客传达信息。例如,一位现有的顾客带来一位朋友看车时,汽车推销员或经销商就可以为他免费地洗车或加油。不动产商可以为顾客或可以带来新顾客的其他人提供一张在豪华餐厅享用双人餐的赠券。
(6). 识别意见领袖
意见领袖可以通过社会学技术,或者关键信息的提供和自行设计的问卷来识别。如果想要知道一个产品在全国范围内的意见领袖,又当如何呢?意见领袖的辨认是不容易的,因为他们与被影响的人们十分相像。意见领袖大量地使用大众媒体,尤其是那些与其意见领域相关的媒体,由此为识别意见领袖提供了线索。例如,耐克推测《跑步者世界》的订阅者可能是散步鞋和跑鞋等产品的意见领袖。同时,由于意见领袖很合群,喜欢加入俱乐部和社团,耐克也可将当地跑步俱乐部的成员,特别是俱乐部的活跃分子作为意见领袖。某些产品领域有职业性的意见领袖。对于家禽产品,乡村推广机构一般都颇具影响力;理发师和发型师可以充当护发产品的意见领袖;药剂师则是很多保健护理品的重要意见领袖;计算机专业的学生,也自然而然地成为其他打算购买个人计算机的学生的意见领袖。


分为四步进行:


第一步,使用行过滤节点提出缺失值,保证数据质量。配置如下:





第二步,使用网络创建节点创建一个空的网络。
第三步,使用对象插入节点将特征添加到网络中。配置如下:


第四步,使用网络视图创建社会网络图。配置如下:


从网络图中可以看出,没有我们想要的意见领袖,只有一些亲密的群组。主要原因是我们本次只选择了一部分数据,因此没有呈现真实网络的全貌。

4、语义聚类

接下来要分析的是:将两个数据文件合并为一个,然后通过中文分词的办法对微博内容进行分析,并通过对每句话中出现的名词进行聚类,从而将语句进行相似性划分,即语义聚类。





进行语义聚类的过程如下:
第一步,使用追加节点将中国最强音.csv和星跳水立方.csv两个数据文件合并。配置如下:


第二步,使用中文节点对博文进行分词。
节点配置如下:


再使用列过滤节点过滤一些列,配置如下:


第三步,使用合并节点将《词性列表.csv》的数据合并到分词后的表中。配置如下:


第四步,过滤噪声词。
首先,使用创建表节点定义要保留的类别。配置如下:


然后,使用参考行过滤节点将词性为名词和自定义的记录筛选出来。配置如下:


第五步,数据转换。


首先,通过词的长度过滤噪声词。分别使用Java代码段(简单)节点计算词长度,使用行过滤节点剔除词长为1的记录。两个节点的配置分别如下:



其次,用MID表示购物篮id,生成"购物篮"。分别使用列过滤节点删除字段Auther、计数、词性、wordlen,使用字段重排节点排列字段的位置。



字段重排之后,使用旋转节点生成以MID组,分词为支点,wordpag为选项的关联矩阵。节点配置如下:




然后,优化数据质量。依次使用缺失填充节点处理缺失值,使用列重命名(正则表达式)修改字段名称,使用列过滤节点剔除MID字段。配置分别如下:




第六步,生成距离矩阵字段。这是层次聚类(距离矩阵)节点进行聚类需要的输入。
首先,使用距离矩阵计算节点计算表示距离矩阵的距离字段。配置如下:


其次,使用列过滤节点过滤其他字段,仅保留距离字段。配置如下:


第七步,使用层次聚类(距离矩阵)节点进行聚类。再使用层次聚类预测器(默认设置)查看聚类结果,使用层次聚类视图(默认设置)节点查看树状图。节点配置如下:


聚类结果和树状图分别如下:


5、小结

通过这个案例我们重点掌握了意见领袖挖掘和语义聚类的方法。但是该案例进行这里还远远没有结束,比如需要进一步优化聚类结果,还需要将聚类结果和之前的表合并,了解具体哪些语句分到了一起,还有每个语义类的特征是什么。只有深入的了解了这些问题才可以辅助决策,为营销推广提供有价值的建议。


本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599888



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-24 07:01

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表