如何玩转手机大数据？

发表于 2014-12-16 22:36:05

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

随着移动互联网的的发展，一些在传统互联网上已经被解析无数次的“观念”也在移动互联网上出现。例如，互联网的入口，在目前，移动互联网并没有一家独大的情况出现，似乎也没有这种情况出现的可能。那么，是否大家都有机会在这个领域找到自己的立足点呢。

近来，一部业内热炒的书—《爆发》，就在人们对大数据的热度将要冷却的时候，就在人们对大数据走向茫然彷徨的时候，再次点燃了公众对大数据的热情。《爆发》的作者巴拉巴西教授为大家打开了一扇从未见有过的窗户，让人们看到了另外一个世界，一个和谐、有序、美丽的世界。这个世界，是我们之前从未想过，也从不敢想的世界。这个世界，就是掩藏在表象之下，被数据所揭示的世界！

手机大数据市场—加速

在苹果亚洲大会上，令人印象最深的主题就是大数据。移动互联网虽然发展较晚，但其速度要远比互联网当年的发展要快很多。

移动互联网用户发展情况

年初的各种报告就显示，全球的移动互联网流量已经占到整个互联网流量的10%！而北美用户的互联网访问时间已经跟移动互联网访问时间接近持平；在印度，互联网的流量已经跟移动互联网持平！

全球移动互联网流量已经达到整体互联网流量的10%

印度互联网及移动互联网流量变化

Facebook，Twitters等主要应用相继证明了这点。Facebook还因此导致广告收入的下滑，因为他们没有准备好在移动互联网上如何承载品牌广告。

手机大数据的产生—移动互联网入口

移动互联网的入口自然会产生大量的数据（可以产生手机大数据的却不只是移动互联网入口，比如社会化媒体，但显然它不适合做入口）。那么什么才能算是移动互联网的入口呢？

借用DCCI的定义，所谓“移动互联网入口”就是用户接入移动互联网的第一站，通过移动网络获取信息、解决问题的第一接触点。

在传统的商业领域，只要控制了渠道，也就离成功不远，在移动互联网时代，得入口者得天下的观点也同样适用。

这也是众多互联网巨头斥巨资争夺移动互联网入口的根源。他们希望保持自己在互联网搜索、浏览器等方向上取得的入口优势，延续自身的垄断。

一般而言，目前大家一般公认的可能的移动互联网入口有：搜索、移动浏览器、移动应用商店、移动广告等。（有的还包括操作系统，但个人认为这种方法不合理，操作系统距离应用太远，无法通过其影响到具体应用或者跟应用发生关联。）

移动互联网入口

搜索

作为互联网中很主要的一个入口，搜索在移动互联网市场还没有形成规模，用户还没有形成搜索的习惯。

形成这种局面的问题主要有几个：

1、市场不成熟，用户还没养成在移动互联网做很多事情的习惯；
2、应用的碎片化，用户在做一些事情的时候，都有专用的APP，只需点击，无需搜索；
3、输入困难，使用的场景、时间、网速慢以及手机键盘本身的局限，导致了在手机上人们不愿意或者尽可能地少输入信息。

在移动互联网市场，个人倒是更看好“基于位置LBS搜索”的未来。手机之于PC，增加了一个很重要的元素就是GPS，或者说是位置信息。当搜索又增加一个条件时，使用者得到的便利将会非线性地增加。

例如：“我的车没油了，搜索加油站，可能有很多对我毫无意义的信息；而如果搜索离我最近的加油站，那就非常有用了。从某种意义上来说，基于位置的搜索，也是一种个性化的推荐。”

基于位置的搜索

对于普通搜索市场，并不是没有价值和意义。随着移动互联网市场的普及，深入，移动电商，移动支付等应用的多样化，势必会造成信息的过载，也就有了搜索的客观需求。

DCCI调研发现，移动互联网用户对移动搜索的需求也日益旺盛，而且，移动搜索是在拥有移动互联网WAP流量大占比的情况下仍保持高速增长的领域。随着WAP的逐渐淡出，手机WEB、APP的进一步成熟，这一市场将会进入加速期。

另外，移动电商的崛起，为搜索也带来了新的机会。商品信息的移动搜索，线上比价搭配线下购物都将促进商品信息移动搜索的发展。

手机浏览器

由于移动应用的“碎片化”表征，导致了手机浏览器并不像互联网浏览器那样风光。每个应用都在做自己独立的APP，而无需像互联网那样通过浏览器才能访问网站。

即便如此，手机浏览器随着市场的成熟，智能机的普及，移动网民的增加，还是在逐渐增多。根据91助手提供的数据显示，手机浏览器的周下载量很长一段时间在下降，直到今年3月才出现明显回升，并超过去年10月初的水平，周下载量接近100万，颓势逆转。随着HTML5技术的引入，手机浏览器的用户体验将有很大的提升。

移动手机浏览器下载量

自带浏览器方面，与WebKit的逐步扩张相反，MTK自带浏览器和诺基亚自带浏览器都呈下滑趋势，MTK自带浏览器从上季度的12.5%下降至8.9%，诺基亚自带浏览器从上季度的5.7%下降至5.2%。第三方浏览器方面，UC浏览器仍以30.3%的市场份额雄踞首位。QQ浏览器增幅明显，环比增长2.5%，同比增长7%。

2012Q2百度移动互联网分析报告数据显示，UC浏览器继续以30.3%的市场份额领跑众手机浏览器，其次WebKit自带浏览器、QQ浏览器旗鼓相当，市场份额分别为19.7%、19%。其它浏览器份额分布如下图所示：

2012年Q2手机浏览器市场占比

手机浏览器占比变化

从上图可以看出：

手机浏览器市场又恢复了上升势头
手机浏览器市场TOP3有进一步集中的趋势

虽然，手机浏览器的未来还是不错的，但短期内显然也无法充当移动互联网入口的角色；而且即便将来市场发展，手机浏览器的占比增大，但由于前面提到的移动互联网“碎片化”的特点，还是难以达到其在互联网PC市场中的高度。

应用商店

人们最初认为，应用商店是最可能演变成移动互联网入口的节点。因为所有的APP应用都需要通过应用商店的发布才能送达最终用户的手机上。

但是，在发展的过程中，由于准入的门槛低，鱼龙混杂。目前国内大大小小的应用商店市场要有成百上千家。现在还处于一个大浪淘沙的阶段。比较有规模的如：91助手，机锋，安致开发市场等。

但即便是这几家有些规模的应用商店市场，由于早期缺乏广告主，而应用商店市场又呈“碎片化”，让本来就僧多粥少的应用商店市场无法靠外来的广告去维持运营，只能靠帮助店内的APP做一些推广来维持运营。

让我想起葛爷的一部电影《气喘吁吁》，折腾了半天，原来是两个穷人在算计对方，都指着挣对方的钱，而无法帮对方赚钱。

开发者不得不自谋出路，自己去寻找外部无线广告投放者，从而也造就了另一个层级的机会—无线广告平台。

无线广告平台

既然地主家没有余粮，那就只能自力更生。开发者有需求，就会有“好事者”来满足需求，无线广告平台就这样诞生了。

架势、哇棒、百分通联、有米、多盟、力美，一个个前仆后继。如果说对无线广告市场贡献最大的是谁？那一定是投资方。因为对于这样一个早期市场，用户的成熟行为习惯还没有转移到手机上来，市场需要培育，需要等待。

现在的无线广告市场，表面上看是品牌广告上迟迟不进入，或者干脆不认可手机承载品牌广告的价值；但实质上，个人认为是整个市场的不成熟，网民们并没有将“变现”的行为转移到移动互联网上。尽管传统媒体的广告价值在日益下降，他们的受众人群在老龄化，广告主需要寻找新的替代品，但这一市场的成长还有待时日，尤其是移动互联网。手机上去承载品牌广告，还需要时间和机遇。如果要用一个词语来形容现在无线广告平台的经营策略，那么我想是“活着”。市场在某种程度上可以催熟，但也仅是某种程度。放下身段，面对现实，真正深入到移动互联网行业中去，去寻找移动互联网广告的必然和现今的变现方式，开源节流，等待曙光的到来，是这个细分市场中每一个玩家比较现实的做法。

对于现在的无线广告市场，各家都有自己的广告主资源，但这显然会造成本就不多的资源分散的问题，狼多肉少。开发者跟无线广告平台的合作是松散的，没有忠诚度可言，来这里就是为了赚钱，这一群体对价格的敏感最终造就了另一个层级的产生—无线广告聚合平台。

无线广告聚合平台

对于纯朴的开发者们而言，赚钱才是硬道理。集成一个广告平台一天赚100块钱，集成多个广告平台一天赚150，那他一定选择后者。这就是赚钱效应。

而这个集成多个广告平台的角色，就是无线广告聚合平台。它的最主要任务就是把移动互联网早期本就微薄的资源聚敛起来，形成一定得规模再重新分配。

赚钱效应，也直接导致了流量和资源的重新分配。

一个实际的移动互联网“入口”已经悄然形成。不能说它一定是未来成熟之后的移动互联网世界的唯一“入口”，但起码可以肯定的是，它将在未来的移动互联网世界中扮演一个很重要的角色！它的角色，甚至可以与互联网中谷歌、百度的地位相媲美。

想想，无论任何一个领域，有那家公司可以做到日PV过亿？每天仅文本格式保存的数据就超过几百个G？这是否算大数据呢？

从数据的种类上，它囊括了几乎早期至现在几乎所有类型应用，游戏、阅读、有声读物、音乐、SNS、工具等等；透过这些纷繁复杂的数据，依稀看到了掩藏在如“杂草堆”一般海量移动大数据下的真实的早期移动互联网世界。在那里，很多移动互联网市场上早期的人的行为，他们的真实想法等等。

移动广告产业链示意图

随着移动设备的功能越来越强大，移动互联网与传统互联网之间的差异愈发不容忽视。新型的技术以及数据分析方案都展现一个全新的网络模式。我们需要打破一些固有的思维，重新审视手机上的大数据。

移动互联网具有互联网的很多特征，但移动互联网作为一个新生事物，也有其自身的“不同”。

用户在互联网和移动互联网上表征的不同移动互联网的“碎片化”

互联网造就了宅男宅女，把人们拴在了电脑桌前；而移动互联网又解放了宅男宅女，把他们又重新放回了现实世界中去。

在车站等车时，拿着手机在翻阅小说；站在商圈里，拿着手机搜寻热点商家；或者是在睡觉前，拿着PAD看看有什么娱乐信息，看看喜欢的文章，既拉长了用户们覆盖的范围，也拓宽了其使用网络的时间。

无疑，相对于成熟互联网应用而言，移动互联网的应用主要还是在填补上下班、办事途中，晚上睡觉前等碎片化时间。因此，“打发时间”类应用也跻身三大类主要应用之一，而且受众面极广。

手机上的碎片化

虽然受众面广，时间占比高，但由于“碎片”的特点，目前还没有一个很好的盈利模式将其利用起来。当然，这也是一个市场发展必然要经历的过程。先让尽可能多的用户用起来吧，暂时先不要去考虑如何盈利，为时尚早。

手机阅读的使用时间

手机视频时间

可以看到，在晚上十点至十一点手机阅读和手机视频都达到了高峰，典型的睡觉前时间，从一个侧面反映了手机应用时间与互联网应用的不同。

移动互联网带来的复杂形势

移动互联网绝不仅是有线的业务延展到无线那么简单。势必会产生一些呈几何图形增长的业务，充分发挥移动互联网的特点，比如LBS，比如O2O。

移动互联网的发展使得一些本来看似不相关的东西串了起来，我隐隐有种感觉。元芳，你怎么看？

所以，移动互联网的数据处理巨绝不简单是统计分析，而是多种更为先进的算法来找到隐藏在层层迷雾下面的真相。

互联网分析与移动互联网分析上的差异

Web Analytics（网站分析）已经被各种互联网企业、电子商务企业、以及传统行业的企业网站广泛使用。而Mobile Analytics却还是一个新鲜的事物。它和Web Analytics有继承的关系，但是又有明显的区别。

（通常所说的Mobile Analytics主要指Mobile Application Analytics，也就是各种移动设备上的原生应用的数据统计分析。）

在Web Analytics中，绝大部分情况下用户是基于浏览器的cookie进行统计的。

也就是说，其实使用同一台电脑的同一个浏览器上网的两个人会被计为一个独立用户（Unique Visitor），而同时使用同一台电脑的IE和Chrome浏览器的同一个人却会被计为两个独立用户。Mobile Analytics的对象却不同，它是按照移动设备（例如手机）来统计的，绝大部分情况下每个移动设备的使用者是唯一的。所以它比Web Analytics更能精确到人，这意味着可以在此基础上提供更个性化的服务和更精准的营销。

手机上的数据分析

这还不是Mobile Analytics唯一让人着迷的地方。浏览器的Cookie很容易被清除或覆盖，但是基于设备的统计相对更为稳定和长久。这使得用户细分（Segmentation）和断代分析（Cohort Analytics）可以更加准确和实用。我们可以通过某种条件（例如当年3月份的新增用户并且使用时长超过20分钟的）筛选出一批用户，分析他们的行为模式。

Mobile Analytics和Web Analytics还有个很大的区别是，前者统计数据时，有可能是离线或者信号不好、网络不稳定的状态，导致统计数据无法立即上传。等到数据能上传时，可能已经隔了几小时到几天不等。而Web Analytics则不会出现这种情况，不能上网就无法访问网站，如果能上网站但是不能连接到统计服务器，这部分统计数据也不会被重新发送。这使得Mobile Analytics需要更复杂的数据补偿策略。

从数据量上来说，Mobile Analytics一点都不比Web Analytics少。它需要统计很多Web Analytics所没有的数据，例如设备型号、应用版本、推广渠道、甚至位置信息，同时还有很多开发者自定义的事件。而移动设备（含平板电脑）总量的增长率远远大于PC（含笔记本电脑）总量的增长率，每个移动设备上的移动应用个数的增长也非常快。所以提供公共服务的Mobile Analytics平台都是典型的大数据应用场景。

在移动互联网所覆盖的日常生活中，用户随时随地都在产生数据，数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。

手机大数据的组织与应用

手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义，但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博，每天也会产生大量的数据，但多数都是没有意义的。

手机大数据的组织与应用

手机上产生的大数据需要重新组织方能揭示出有意义的信息。

在现今的时代，大数据本身不是问题，你从各个渠道都可能获得海量的数据；我们每个人每天都要生产很大量的数据，关键的问题是如何处理、分析这些数据。数据不处理、不分析，就像Mary举的例子一样，就是一堆稻草，毫无价值。

稻草堆里寻针

数据处理、分析就是要从一大垛稻草堆里面挑出一根针。

这句话有两层含义：

无论我们从何种渠道，通过何种方式获得的数据，大量的数据是没有意义的，这其中只有少量的数据是有效地，可以从中得出一些有规律、有价值的信息的，原始数据需要清洗、整理；（这一点对于移动互联网更为明显，一般来说，几乎80%-90%的移动应用数据都是毫无价值的，只有不到10%-20%左右的数据才包含后续分析所需要的信息）
我们需要通过后续的数据挖掘的工作，从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针，而非一根稻草！这显然，不是简单通过统计就可以得出的；是比统计分析更为复杂的算法，去从简单关联过度复杂逻辑的层面。

从上一章中，我们知道手机上的大数据的来源多种多样，不同的移动互联入口、不同的应用都会导致不同数据的产生，而这些不同的数据又支撑不同的业务，并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点，下面我们根据这些特点来对大数据的组织做一个简单介绍，手机大数据的组织方式可以采用如下图的结构。

手机大数据的组织方式

从上面的结构可以看出，手机大数据的组织主要分为以下三个部分：原始数据存储层，计算层和业务数据存储层

原始数据存储层

主要存储不同入口产生的数据，而不同入口不同数据域也分开并存此时各个数据集是彼此独立，数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性，正确性。

计算层

该层的主要任务是对原始数据存储层存取的数据进行挖掘处理，并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点：① 对不同数据域进行内部分析，挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类，比如音乐、餐饮、广告等应用。

业务数据存储层

业务数据存储层主要是对计算层产出的数据进行分开存储，以为上层应用提供更明确的数据接口。

当我们对数据进行有效地存储管理后，我们就可以利用这些大数据进行一些有意义的工作，尤其是对于移动互联网业务早期无疑具有非常大的指导意义，下面我们以手机阅读为例，对手机上的大数据如何应用做一个说明。

手机上的阅读

手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一，是我们早期手机应用研究的对象。所谓“共性”和“沉淀”，就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间，但已经逐渐形成了一早一晚宝贵的“床上”连片时间，有相对比较完整时间片上呈现的行为习惯，有相对比较完整的用户在移动互联网上体现出来的偏好信息。

尽管很多报告都显示，用户在互联网与移动互联网上的表征有着巨大的差异，但我依然相信，人们在面对一段文字，一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同，那是因为应用本身使用场景的不同，解决问题的不同所导致的。并不是一个人在互联网上是一个性格，而到了移动互联网上就是另外一个人生了。

这是我们研究手机阅读上大数据的初衷。

下面，我们以一个曾经做过的手机阅读项目为例，主要从发现问题、解决问题、结果验证三个方面来为大家展开。

发现问题

通过对手机阅读数据的挖掘分析，我们发现了如下几个问题：

（1）城市与城市之间的阅读行为相似

我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据，得到了这三个城市这三个月热门前二十的数据。

下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。

	三月		四月		五月
	杭州VS深圳	杭州VS广州	杭州VS深圳	杭州VS广州	杭州VS深圳	杭州VS广州
前十	9	9	4	4	2	8
前二十	13	10	8	8	9	14

从表中，我们可以猜测，杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。

计算公式为：Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书，Count(A)表示的是城市A在某时间段内阅读过的图书的本书。

从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的，我们可以考虑用他们来作为阅读风向标的参考城市。

所以，如果考虑要做风向标分析的话，更倾向于选择广州作为杭州的阅读风向标，杭州作为深圳的风向标，杭州跟广州可以互相参考。

（2）移动阅读的“长尾”现象严重

在我们的数据统计中发现，手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的“长尾”效应，而且随着书籍的增多，这种效应更为严重！

（3）不同行为模式的用户表现相差比较大

我们通过kmeans聚类算法（一种常见的数据挖掘算法），说明各类用户之间表现的特征差异还是比较明显。

不同行为模式的用户表现相差比较大

解决方案

我们针对历史数据进行了分析，对于不同的问题，我们觉得可以采用如下方法进行解决。

（1）数据聚类推荐送

通过对用户进行聚类推送图书，我们发现有如下结果：

数据聚类推荐送

第一类：人群比例接近60%。这类人群一直有阅读推荐书的行为（平均约e^1），在6月14号当天PV量并没有提升，而在后面几天提到较明显的提升，6月20号之后似乎又回到了之前的PV水平。

第二类：人数较少，仅57人。在推荐前基本无阅读推荐书行为，而在推荐后阅读推荐书PV量较大（平均e^2），且后续也有较好的保持，可以认为被推送激发了阅读推荐书的兴趣。

第三类：人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显，但是在这个时间段之外，比较沉默，前期（6月13号前）阅读推荐书很少，后期（6月17号）阅读量有些提升，但是还是回归到比较沉默状态。

（2）个性化推送

由于手机的推送方式，目前大多数是通过流行榜来推荐，这就造成了这些被推送的书籍越流行，后面越推送他。反复的循环下去，就造成了系统长尾现象，数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。

结果验证

通过我们对数据的挖掘处理，然后用户实际应用，最后得到了如下的反馈结果：

（1） PV量的增加

首日PV比较

从实验分析中，我们得出：总的一周反馈率，实验组是对照组的1.30倍。

推荐成功用户首日推荐书籍PV总量，实验组是对照组的8.17倍；人均推荐书籍PV量，实验组是对照组的15.19倍。
推荐成功用户首日总激发PV量，实验组是对照组的9.62倍；人均全部书籍PV量，实验组是对照组的17.88倍。
推荐成功用户中，实验组的一周推荐书籍PV总量约为对照组的5.45倍；人均推荐书籍PV量，实验组是对照组的4.88倍。
推荐成功用户中，实验组的一周总激发PV量是对照组的7.01倍；人均全部书籍PV量，实验组是对照组的6.28倍。

综上所述，经过数据挖掘、分析、推荐等算法的处理，手机阅读的各项指标得到了大幅的提升，其效果已经不是百分之几十的提高，而是成倍地增加了！这就是大数据应用的魅力！

来源：虎嗅

帐号		自动登录	找回密码
密码			立即注册

如何玩转手机大数据？

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1