最具影响力的数字化技术在线社区

168主编 发表于 2015-9-28 19:11:14

数据分析 揭秘草榴社区的运营现状和用户习惯

作者简介:李焕朋,非全职开发者,开源社区文化爱好者。招标行业从业人员,业余时间喜欢研究unix系统和web数据挖掘。草榴社区在今年5月份陷入关站风波,把它再一次推到风口浪尖上。然而风波过后,该怎样还是怎样,这可能印证一句话“不管你是谁,都无法抹杀本能。”本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起!  采集到的统计数据样本说明数据来源:草榴网站《达盖尔的旗帜》版块 100页内容, 时间跨度20150605至 20150907。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。 8537条主题帖的标 题、发帖时间、每条主题的回帖数量、发帖用户。(共由576个用户生产)12,8841张图片 的图床绝对链接地址 1,4568页 回复帖 13,0704条回复 的发表用户、回帖日期时间1,1250个用户 的用户名、注册时间、最后登陆时间  项目技术结构数据采集:PHP、CURL扩展结构化数据存储:MysqlHtml解析: SimpleHtmlDom中文分词: PSCWS4前端展示: BootStrap数据可视化: HighCharts  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928691442321.JPEG  从 8537条主题信息中总共提取出了 576个用户,三个月中平均每个用户发表 14.8篇主题 排名第一的用户发帖数量更是达到了 276篇。猜测一下,看来所有的网站都需要一部分活(ban)跃(yun)用(gong)户充实内容啊。 这里面真正的原创帖的比例能占到多少已经不重要了,内容才是王道!!  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928720716983.JPEG  当我码完这段js代码刷新浏览器查看结果的时候,整个人都不好了!!城会玩!城会玩啊!大家看 排名第1和第6的关键词(女友,自拍,少妇,身材,情人,老婆), 把和自己女朋友、老婆XXOO的照片分享出来真的那么好玩儿么。另外,让我们回归到小学语文课,来,请用以上关键词造句…… 你用上面的词组成的句子就是发帖者们所热衷的事情…  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928737799230.JPEG  可能只看这一张图是没有很大的代表性的,表面上只能看出 从8月份开始主题新增数量开始大步的上涨,什么原因导致的呢, 过一会在下面看到用户新增情况图的时候就会恍然大悟,对,大量 新用户的加入。  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928764467940.JPEG  这张图代表的是11250个用户账号分别是那一年注册的,可以看出2007-2010年和2011-2014年这两个时间段相对数量还是 比较平均的,50.6%的用户是在今年注册的,难道今年大范围的开放注册了。  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928780366343.JPEG  这张折线图和上面的那张基本展示的信息是类似的,分类精确到每个月。  那么问题来了,这么多东西都是存在哪里的呢?  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928824811135.JPEG  从128841个图片url中提取出来的图片网盘,ihostimg.com 毫无疑问遥遥领先,难道这是CL的副业?这之间到底有什么 千丝万缕的联系我先不瞎猜了,感兴趣的朋友可以自己想办法再去了解(不用梯子也可以访问!)。  另外,大家注意排名倒数第二的图片网盘, sinaimg,对,就是你知道的那个新浪,sinaimg是新浪旗下的开放云存储服务, 地址在这“新浪作为国内10多年领先掌握全国最先进的全分布式系统架构和存储技术之一的公司,为你的 XXOO私密照片存储提供一站式解决方案” 233333  风波之后,草榴的运营数据怎么样?  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928848256144.JPEG  理论上说,只要是网站继续正常运营下去,且无论统计哪个时间段,这个图会一直保持这个状态,统计数据的基础是11250个 账号的最后 一次的登陆时间,每次登陆都会用新的覆盖旧的,右边的顶点越高代表了用户重复登陆的次数越多,网站的运营越正常。  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928870087024.JPEG  130704条回复帖的时间段分布情况,从8月份开始互动明显越来越多。单独看意义不大,只能看到最近互动增多,但是通过与 每日主题发表数量和新增用户图放在一起看,这三个趋势是成正比的,注册用户增多导致新增主题帖增多,不断的新内容产生带动了论坛的 活跃度,从而产生了更多的互动回复内容。  http://n1.itc.cn/img8/wb/smccloud/recom/2015/09/18/144254928906872217.JPEG  这张图的数据是从13074条回帖时间统计出来的,其实这张图的最终结果和我预计的还是有挺大差距的,原本我以为用户 访问的高峰期会是晚上的9点-12点,而真实的用户在线高峰期顶点确是上午的10点,10点不是大家刚刚开始投入工作的时间么。(OMG,我发现了什么)  后记:忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图片下载下来,是不是可以作为图像识别系统识别色情图片的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?  作者email: 2705313595@qq.com  在线版地址: http://1024data.sinaapp.com


页: [1]
查看完整版本: 数据分析 揭秘草榴社区的运营现状和用户习惯