最具影响力的数字化技术在线社区

乔帮主 发表于 2014-12-21 22:37:31

微博数据的可视分析

http://mmbiz.qpic.cn/mmbiz/AwkEdm406862Q6oh2N3TQvzVymbV4zXplc1M1kHxjIUru6AyfF2dp8xYgoRNYpNlqS0Cc8F1rWI7wCl4NRRj6w/0图一
http://mmbiz.qpic.cn/mmbiz/AwkEdm406862Q6oh2N3TQvzVymbV4zXpAUETYP0Jo1N7cqkHfSCmQeZxQ8MQagWXvCPvPNqfZgqhicF3TibbicfQQ/0图二
http://mmbiz.qpic.cn/mmbiz/AwkEdm406862Q6oh2N3TQvzVymbV4zXpZrN25jzzcOkagLzAE7g6NdWCP11N880QY85dUE0LJ69y47IKj8RI3Q/0图三
http://mmbiz.qpic.cn/mmbiz/AwkEdm406862Q6oh2N3TQvzVymbV4zXpCRpzhiaorxJqPjiaiaVMPpus2grAhStkI3V5szv3ibL9QmEnzu65H3jQqg/0
图四


微博是基于用户关系的信息分享、传播、获取的平台,它内容简短,以不到140字公开的短消息,用户能够通过它交换一些小规模的信息,诸如短句、个人照片、视频链接等。它允许用户及时更新自己的个人信息并与他人交流,维护自己的人际圈。微博提供通过手机和电脑随时随地的发布途径,对社会的活动和个人的生活方式产生了重大的影响。从世界的各个角落发布的每一条微博,如同无数的社会化的传感器,记录着全球每时每刻发生的点点滴滴。微博使世界上的每一个人都成为信息源,并使之在全球传播,这使得微博所承载的信息量大大增加。从这聚集成的信息洪流中,提供了另一个隐约窥见世界全貌的途径。
微博可视化的现实需要
研究微博上的信息具有十分重要的意义。首先,微博集合了海量的新闻、事件和信息,并且每天都在更新,每天都在流传,并对现实的社会产生巨大的影响。尤其是在突发事件的信息传播上,微博更是超越了传统媒体,成为了信息快速传播的渠道。最早爆料出本·拉登死讯的并不是各大媒体,而是Twitter。
其次,微博上的信息不仅发布及时,而且也是现实社会生活的缩影。挖掘微博上的信息有利于分析现实世界的情况。东南路易斯安娜大学的助理教授Aron Culotta曾经通过追踪一些与流感有关的关键词,如“flu”“headache”等,进行流感爆发趋势的预测。他利用发布于2009年9月到2010年5月间的近5亿条信息建立起了一个预测模型。通过该模型的预测结果与美国疾病预防控制中心的统计数据惊人地相符。
虽然微博信息不一定精确,但它的时效性强,不需要花费大量的人力物力去收集信息,这大大方便研究人员进行快速分析。当然,通过微博搜集到的海量数据也是传统数据收集方法所不可比拟的。
另外,每个用户在微博上还维护这一个人际交往圈,现实生活中的好友、网络好友、新朋友、朋友的朋友……这形成了一个错综复杂的人际网络,并逐渐对其自身造成潜移默化的影响。因此,微博上的人际关系也是一个十分有趣的分析内容。
微博上的信息海量、复杂且多样,传统的数据分析方法已经很难适应这一特点。而利用可视化的工具,对微博数据进行可视化、可视分析并加以人机交互,是一个十分有力且具有广大前景的研究方向。
标签云与Wordle
标签云是一种使用广泛的可视化方法,它根据标签的热门程度来确定其字体大小,在许多网站、博客上都能见到它的身影。Wordle是一种比较流行的、将文本中关键词可视化的方法。它极具视觉美感,可以在短时间内在感官上给人冲击,吸引读者,并能让使用者轻易地抓住文本中最主要的关键词。Wordle同样是使用字体大小来表示词语的权重,通过把关键词按照一定外轮廓紧密地排列达到美观的效果。
微博转发
微博的一个重要传播特性是用户可以转发感兴趣的微博,从而形成链式的传播。一条微博可以在短时间内被成千上万的用户转发。北京大学可视化与可视分析实验室开发的WeiboEvent工具 (http://vis.pku.edu.cn/weibova/weiboevents)(图一)就是可以便捷地可视化一条微博如何被其他人转发传播。通过几种不同的可视化方法,可以分析挖掘转发随着时间变化的状况以及参与转发的重要用户。
网络和地图
网络是社交网络可视化中经常使用的一种表现形式。通常情况下,它用“点”表示人,用“线”表示人与人之间的关系。将一个复杂的社交网络用可视化的形式表现出来,可以比较直观地展示网络中的人际关系情况。再加以人机交互的手段,可以挖掘出一些深藏在数据背后的信息。
TweetWheel是Twitter上另外一个的好友关系可视化应用。它将好友排列在圆周上,互相认识的好友间都连一条曲线,便形成了这样一个美妙的圆盘,方便用户对好友间关系进行探究。如图一的好友关系好像“一盘意大利面条”,把“面条”从“盘子”里提溜出来,就是一组好友关系。
地图是一种简便、直观,也是目前非常流行的展现地理信息的可视化方式。它主要根据地理位置的不同,将不同地区的数据展示在地图上。随着移动互联网的爆炸性发展,我们可以越来越方便地获取到更加精确的地理位置信息。在这大量地理数据的背后,还有很多有意思的东西正等待着人们去挖掘发现。其中,微博上基于地理信息的可视化就有很广阔的前景。
图二所示是在大约两周时间里,中国部分地区发布带有地理标记的微博的密度图。这幅微博人口活跃度“地图”和实际的城市发布大致吻合,我们可以清楚看到城市的发布,特别是沿着一些铁路大动脉的热点。
Bits Pics是一个十分有趣的应用。作者Eric Fischer用它展示了用Twitter发消息和用Flickr发照片的用户的地理分布。地图上橙色的点表示使用Flickr发照片的用户,蓝色的点代表使用Twitter发消息的用户,而白点则表示两者均使用。
首先来看看全球的用户分布情况。我们可以看到,使用这两者的人多分布在美国和西欧地区,日本地区也有很多人在使用。我们可以很轻易地发现美国西部的人更偏爱发照片,而东部的人偏爱发微博消息,而那些比较明显的白色点大部分都是美国人口密集的大城市。在图上还隐约能看到几条横贯东西的白线,那些正是美国的高速公路。
从海量的微博数据中,提取与事件相关的地理空间信息,对社会和人们的日常生活都有着重要的意义。自然灾害、突发事件等事件的感知和应对,需要比专业测量更快速、更及时更新地地理空间数据;对日常生活中的话题、事件的地理分布的获取,又需要比专业测量更方便、低成本的方式。微博中的公众用户,就如同大量的社会化传感器,时刻发布着可能包含地理位置的各种事件的目击、描述和评论。通过提取微博中的地理空间信息,能够在一定程度上满足大众对各类事件了解的需求。北京大学发展的ThemeMap可视分析平台根据微博上大家对特定主题讨论的位置产生相应的主题地图,它结合了微博地理位置提取的自动化算法,和志愿地理信息系统的公众参与的思路,提供了对主题、事件的更好的地理位置提取和可视分析。它利用公众参与,能够更充分、准确地提取微博的地理位置,从而达到更好的可视分析效果;通过利用已有的微博数据和自动化算法,极大地降低了志愿者的参与难度和时间成本。
在2012年7月21日,北京经历了61年来最大的一场暴雨,超过200万人的生活受到了影响。在这场暴雨中,北京城中城郊的许多地点、道路产生了严重的积水,最深的淹水处有5米之深。暴雨发生之时、之后,新浪微博上爆发了许多谈论暴雨和积水的微博,其中许多谈论了积水发生的地点。图三是根据“北京&暴雨”为关键词,在暴雨发生阶段的微博产生的地图,基本反映了暴雨事件中主要严重积水地点。
图四所示的为厦门堵车地图,是作者在微博上一名厦门交警的建议下以“厦门&堵车”为关键词创建的ThemeMap主题地图。
(作者系北京大学信息学院研究员、信息科学中心副主任)

页: [1]
查看完整版本: 微博数据的可视分析