马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本文摘自清华大学数据科学研究院院长俞士纶教授于2014年12月22日,在清华大学信息楼(FIT楼)二层多功能厅做的题为"On Mining Big Data and Social Network Analysis"的学术报告。
演讲摘要: 俞士纶教授指出,不同来源的数据融合是大数据研究的“圣杯”。许多公司都有多个渠道收集客户信息,如Google就有搜索引擎、邮件系统、地图服务、Google+、YouTube等。他还举了个医药领域的例子,来说明异构数据融合的挑战,以及如何用易购信息网络来进行异构数据挖掘。 在俞士纶教授演讲的第二部分,他着重讲述了如何在不同的社交网络之间传递知识,从而更好地预测朋友关系。社交网络规模巨大,比如Facebook就有10亿多用户,每天不断有大量数据在产生,数据的类型复杂多样,而且还有很多噪声,不像传统数据库,数据都是干净的、清晰的。虽然社交网络的数据蕴含着巨大的价值,价值的挖掘却充满挑战。 现在流行的社交网络,每个都有其特点和特定的目的。一个人可能在多个社交网络中出现,每个社交网络捕获了用户的一部分行为特征,对用户有部分了解。而新出现的社交网络由于没有数据积累,对用户了解很少,因此成熟网络中的用户信息会大大帮助新社交网络成长。并且,从其他社交网络公开能够获取的信息就已经非常丰富和有用了。那么多社交网络融合的关键问题是什么呢?多社交网络融合的关键难题在于“同人”识别,也就是如何判断不同社交网络中的用户是同一个人;进而,如何在不同的社交网络中传递知识。
完整PPT下载
来自群组: Hadoop中国 |