最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

PM2.5这个锅背的值吗?数据科学家建模给你论证下

[复制链接]
跳转到指定楼层
楼主
发表于 2017-2-22 10:59:35 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
空气质量究竟是不是变差了?
当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?
过去三年北京空气质量
网上众说纷纭,无图无真相。拿到2013年12月1日到2017年2月的逐日空气质量及污染物指标后,让我们plot一下:
(A)下图记录了从2013年12月到2017年2月的空气质量历史记录:每根柱子代表一个月;颜色越深,空气质量越差;绿色部分越多,空气质量越佳。

(B)再来看看PM2.5的变化趋势:
怎么样?慧眼如你,一定对近年的空气质量变化有所了解了吧(最起码,没有恶化呢)。
出门之前看实时空气质量报告已经成为常态。在报告中,通常会给出今日的空气质量等级、PM2.5浓度、PM10浓度、二氧化硫浓度等等一系列指标。但为什么我们对PM2.5而不是其他指标的关注最甚?
数字化世界,离不开算法和数据建模的支持。我们的数据科学家团队又出场了,这次用建模的方式来验证,PM2.5这个锅到底背的值不值?
下面我们将通过随机森林来对空气质量等级进行分类(所用的变量有PM2.5、PM10、CO、NO2、SO2、风速、大气相对湿度等十几个污染物和气象指标),并在这一过程中发掘对空气质量影响最大的指标。
先简单介绍下随机森林吧。
Q:为啥叫随机“森林”呢?
A:因为聚树成森林嘛:很多颗决策树打包组团,就成了森林。
Q:为啥叫“随机”森林呢?
A:这个解释起来就复杂些了,分两个方面:
①数据的随机选取:从原始的数据集中有放回抽样构造子数据集,利用子数据集来构建子决策树;森林中的每一棵决策树都会针对新数据做一次“决策”,最后通过投票表决出最终的结果。
②特征的随机选取:与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能;通过这一过程也能综合衡量不同变量的重要性。
随机森林中的一棵决策树长这个样子:
(它是怎么长出来的?请参考之前介绍决策树的文章:《每逢春节被逼婚?来看看数据科学家的相亲指南》)
那么,“随机森林,你能告诉我哪个指标对空气质量的影响最大?”
平均精度下降(MeanDecreaseAccuracy)
平均Gini下降(MeanDecreaseGini)
这两个指标通过衡量各变量对模型预测准确度和Gini系数影响的大小,来判定变量重要程度,两个指标均是越大越好。
显然,右上角的变量(PM2.5)重要程度大于左下角。
PM2.5对空气质量的影响程度(或相关程度)最大,其次是PM10和NO2(二氧化氮)。因此我们可以说,PM2.5浓度与当日空气质量等级最为相关,可能是空气污染的主要元凶。
不同预警等级下的空气质量
最后,我们来看看中央气象台发布雾霾预警(分三级:黄色预警-橙色预警-红色预警)的情况。
冬季的确是雾霾的高发期哈,每年冬天都会“凸凸”一下。这个图再次说明,虽然现在的空气质量还谈不上好转,但显然没有变得更糟。
PM2.5
Vis
发布红色预警时,PM2.5平均浓度约为正常天气的6倍······
只要发布雾霾预警(不论是黄色、橙色、红色),能见度(Vis)水平几乎都是立马“趴下”,雾蒙蒙看不清······
我们年轻的数据科学家自己都禁不住感叹:天哪,以后一定要提醒妈妈关注空气质量预警预报。
最后来个互动
你知道周几的PM2.5平均浓度最高吗?从中我们能得到什么启示?


作者:百分点张腾
168大数据经授权发布,如需转载请务必获得授权。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 13:53

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表