最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[职言] 什么工作最是“钱多事少离家近”?

[复制链接]
跳转到指定楼层
楼主
发表于 2018-5-3 08:47:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
来源:城市数据团(metrodatateam)
前几天学姐来找我:“小团啊,我想换一个工作。你用数据帮我看看什么行业好?”
我说:“好呀。学姐你对工作有什么要求呢?”
学姐说:“钱多事少离家近。”
虽然我不相信有这样好的工作,但看看总没有坏处嘛。于是我打开电脑,开始对行业一项一项进行筛选。
第一项,钱多。这个容易。根据《上海统计年鉴2017》,各行业平均年收入如下图所示:
根据上图,可将20个行业大项分为四类:
1、收入超高(20万以上):金融业;
2、收入较高(10-20万):水电气生产供应业、采矿业、信息服务业、卫生和社会工作产业、公共管理业、科研服务业;
3、收入中等(5-10万):交运仓储业、文化体育娱乐业、商务服务业、批发零售业、公共设施管理业、房地产业、制造业;
4、收入较低(5万以下):建筑业、住宿餐饮业、农林牧渔业、教育业。
显然,在“钱多”的标准下,金融、水电气生产供应、采矿、信息服务等都是不错的选择。
第二项,事少。数据论证有点麻烦,姑且跳过吧。
第三项,离家近。由于学姐不肯透露她住在哪里,我只好假设学姐住在上海各地的概率与上海人口总体分布概率相同。然后,我以人口密度最高处(市中心)为原点,绘制出各个行业企业的密度衰减曲线。
上图中,离市中心距离为0处的企业密度越高,说明该行业在市中心的密集度越高。假如学姐从事了该行业的工作,那么工作地点离学姐家近的概率也越高。(学姐明确表示:一些行业她没有进入渠道(如水电气生产和供应),另一些行业她没有能力从事(如农业、卫生),因此,图中只保留了像学姐这样的大多数普通人有一定选择空间的10个行业大类;其中,信息服务业和科研服务业进行了合并。)
根据上图,从行业密集(离家近概率)的角度,我们再次将行业分为四类:
1、行业聚集度极高(离家近概率很大):金融业、住宿餐饮业;
2、行业聚集度较高(离家近概率较大):商务服务业、房地产业、文化体育娱乐业;
3、行业聚集度一般(离家近概率一般):批发零售业、信息服务业、交运仓储业;
4、行业聚集度较低(离家近概率较低):制造业、建筑业。
我指着图说:“学姐,同时符合钱多和离家两个要求的只有金融了。次优的选择是信息科技服务业,钱多,但离市中心不算近;商务服务、文化娱乐的距离比较适中,但收入就不算太高了。”
学姐皱眉思考了片刻:“金融虽然很好,但据说加班很厉害。我可不想把美好的青春年华都奉献给工作。你再帮我看看哪些行业不加班吧。”
我叹了口气,看来“事少”的研究是逃不掉了。
怎么衡量“事少”呢?从常识来看,事少的行业应该符合以下表现中的至少一个:上班晚、下班早、工作时间短。而为了找到大家都在什么时候上下班,我不得不搬出了前几天 延华智能提供的建筑用电量数据。
(说明:这是一张“城市呼吸”图。图中白金色线条代表道路和来往人流,柱子代表建筑,红色柱子为我们的样本建筑。用电量越大的时刻,红色越深。每一天随着时间的变化,人来人往,灯亮灯灭。)
我们的建筑样本全部位于上海市黄浦区。用电数据为2017年全年、每隔15分钟记录一次的用电量。其中,我们用于研究的是办公建筑(写字楼),样本数量约100个(注:由于样本数量、抽样规则和推算方法的不完善,我们的结论与实际情况将存在一定偏差。不过,依然不失为一次有趣的尝试)。
从时间上看,写字楼用电具有明显的周期性规律:
可以看到,写字楼的三个周期规律为:
1、季节周期:用电量与气温高度相关。4-6月和9-11月的用电量相对稳定,在最热的7-8月和最冷的12-1月,用电量有显著增加。
2、节假日周期:以年为周期,春节、国庆等法定节日用电量减少;以星期为周期,周末用电量为工作日的1/2-2/3。
3、天周期:每天的零点到6点用电量处于低谷,从7点开始用电量飙升,于10点达到最高峰,其后缓慢下降,下午5点开始剧烈下降。
根据上述规律,我们制定如下研究思路:
1、基于写字楼用电量设计工作状态指标;
2、通过地址匹配找到入驻各幢写字楼的企业,并进一步计算行业结构;
3、用回归模型对各行业的工作状态进行模拟。
由于时间序列上的用电量绝对值不仅仅由工作用电决定,还受到基础用电、气温等多重因素的影响(本文最后的彩蛋有更为具体的解释),为了减少这些干扰,我们将用电量处理为相对值,并由此引申出上班时间、下班时间、工作时长的概念:
上图中:
1、相对用电量 = (当前时间分段用电量-当日分段用电量最小值) / (当日分段用电量最大值-当日分段用电量最小值)
2、上班时间为相对用电量第一次达到最高峰值70%的时刻,下班时间为相对用电量最后一次达到最高峰值70%的时刻,工作时长为下班时间与上班时间之差。
3、每幢写字楼的上下班时间和工作时长各不相同。总体水平为8:30上班,6:00下班,工作时长9.5小时(含午休)。
接下来,我们要找到每幢写字楼里都有哪些企业。我们以 启信宝提供的企业经营地址,与写字楼地址进行了匹配,从而获得了写字楼中企业的规模和行业信息。
现在,我们可以展开回归分析了。以行业结构(某行业占该写字楼中所有企业的比例)为自变量,以工作时长、上班时间、下班时间为因变量,标准化处理后进行三次回归分析,模型的平均误差在5%左右,R2介于0.7-0.8。
根据回归系数的大小,我们对各行业的工作状况进行了推算:
(注:回归系数反映的是各行业对 工作时长/上下班时间 的贡献大小和方向。本图是根据系数大小的推算结果,不能等同于 工作时长/上下班时间 的排名。)
根据上图,从“事少”的角度,我们再次将行业分类:
1、早起早归型:批发零售业、信息技术服务业、交运仓储业
2、晚起晚归型:建筑业
3、起早贪黑型:商务服务业、住宿餐饮业、房地产业
4、正常型:金融业、制造业、文化体育娱乐业
至此,我们可以从“钱多事少离家近”三个角度给出十大行业的综合排名了:
1、金融:收入超高-离家近概率很大-工作状态普通;
2、信息科技服务业:收入较高-离家近概率一般-早起早归;
3、文化体育娱乐业:收入中等-离家近概率较大-工作状态普通;
4、商务服务业:收入中等-离家近概率较大-起早贪黑;
5、房地产业:收入中等-离家近概率较大-起早贪黑;
6、交运仓储业:收入中等-离家近概率一般-早起早归;
7、批发零售业:收入中等-离家近概率一般-早起早归;
8、制造业:收入中等-离家近概率较低-工作状态普通
9、住宿餐饮业:收入较低-离家近概率很大-起早贪黑。
10、建筑业:收入较低-离家近概率较低-晚起晚归。
看着这个榜单,我恍然大悟:“居然真的有钱多事少离家近的工作呀!……唉,学姐你去哪?”
“买两本CFA教程。”
彩蛋:一年之中,何时加班最疯狂?
学姐走后,我觉得这个小研究做得还不过瘾。不妨顺便用这组数据再看一看,大家都在什么时候加班多,什么时候休假多?
个人的加班或休假行为很难在用电数据层面体现。但群体的加班或休假将使得用电发生相应变化:
1、大量员工休假→在岗员工数量减少→工作用电量减少
2、大量员工加班→夜间用电比例增加→工作用电量增加
由此可以推知,工作用电量是衡量员工工作状态的重要指标。然而,工作用电只是建筑用电的一部分。因此,需要从建筑用电量中剥离出工作用电量,再判断其数值是否处于合理区间。
一般来说,办公建筑用电可以粗略分为三个部分:基础用电、空调用电和工作用电。
  • 基础用电。办公楼正常运转的基础消耗,如通风用电、电梯用电、走廊灯光用电等。
  • 假设每日基础耗电量是一个常数,以β表示。
  • 空调暖气用电。温度偏离适宜温度越远,空调需求量越大。
  • 空调暖气用电量与气温(t)有显著相关性,空调积温指数(T)是一种常见的测算方法,T=max(thigh-27,0)+max(10-tavg,0)。该部分用电量与空调积温指数呈线性相关,假设其形式为α1T。(参考文献:chenqin《上海用电量一年降了30多亿度,其实原因很简单》。)
  • 理想状态下的工作用电。假设一年中员工数量没有大规模变动,则工作日的正常工作时间内(8-18点)、正常工作强度下为一个常数,表示为α2。
  • 设定一个虚拟变量W,工作日W=1,节假日W=0,则每日的常规工作耗电量为α2W。
由此可以构建回归方程:
e = β + α1T + α2W + ε
上式中,e表示每日总用电量,β表示基础用电,α1T表示空调用电,α2W表示理想状态下的工作用电;ε表示回归模型的残差,也就是预测用电量与实际用电量的差值,(α2W+ ε)近似代表实际的工作用电量。
若实际用电量小于预测用电量(ε<0),很可能意味着在岗员工数量较少、大量员工处于休假状态;若实际用电量大于预测用电量(ε>0),则有着员工数量增加、工作时间延长、工作强度增大等多种可能,需要进一步验证。
接下来,我们采用线性回归,求出β、 α1、α2三个参数的值(模型的平均误差为9.5%,R2为84.4%)。将参数值代入到方程中,将可以分别模拟得到每日的各项用电量及总用电量,并从而得到预测用电量与实际用电量的残差ε。如下图所示:
上图中,黑色实线表示实际用电总量,深蓝色区域表示预测基础用电量、天蓝色区域表示预测空调用电量,浅蓝色区域表示理想工作用电量,绿色区域表示超额工作用电量(实际值高于预测值,ε>0),橙色区域表示不足工作用电量(实际值低于预测值,ε<0)。(注:图中橙色和绿色区域为选择性展示,实质为A与B的交集。A:实际用电量与预测用电量的差值大于平均误差水平的日期。B:使用随机森林模型进行每天每小时用电量预测,其中全天用电量偏低(橙)/或夜间用电量比例偏高(绿)的日期;该部分方法本文中不再展开。)
由图可知,用电超额的时段(绿色),也就是大家最可能在疯狂加班的时段,可以分为两类:
1、第一类零星分布在3月、5月、6月、9月的许多周末。
2、第二类集中分布在6月中下旬、8月到9月中旬。
而用电不足的时段(橙色),则可以分为三类:
1、第一类为春节前两周、春节后一周,此类用电不足主要是因为员工数量不足;这反映出春节前提前休假、春节后推后上班,是较为普遍的做法。
2、第二类用电不足时段分布在清明节-劳动节、以及国庆节后;这两个时段是一年中不需要开空调、气候最为适宜的时节,也是旅游度假的最好时机。
3、第三类则零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……
钱多事少离家近的工作不好找,但是去美国学习零售经验的机会还是很容易的。伴随着不同时代人们消费习惯的变化和科学技术的发展,美国零售行业的业态也在不断演变。在我看来,新需求是驱动零售业态改变的根本,而科技是推动行业前进的重要工具。2016年底美国电商巨头亚马逊推出线下实体店AmazonGo,主打“JustWalkOut(拿了就走)”,顾客购物的全过程方便、快捷,不需要工作人员参与、不必排队结账,成为零售业态的一项重要创新。我认为,AmazonGo的设计理念就是“新零售”模式的一种体现。为了更加直观的了解美国的零售企业,这里有一个游学项目,可以帮到你对零售做一次更深层次的挖掘。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-21 10:10

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表