最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[Kylin] 全国天价小区在哪里?

[复制链接]
跳转到指定楼层
楼主
发表于 2018-11-9 10:36:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些,高房价分布在哪些城市,天价房有什么特点。
用Top-N从茫茫数据中找到天价房
本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。
于是,分析师小杜就想到了Top-N。Top-N在很多领域的分析中都很常用,简单来说,通过Top-N可以得到海量数据中符合要求的N个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的Top-N结果需要耗费很长时间。
Kyligence Enterprise作为使用预计算的OLAP引擎,引入了Top-N函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。
本例中,分析师将通过Kyligence Enterprise中Top-N函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),共计约15万条,涉及全国28个城市的34944个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。
为实现Top-N函数的预计算,分析师需在设计Cube时在“度量”步骤为UNIT_PRICE添加Top-N度量。设置后如下图所示。
图1 Top-N度量设置
全国房价最高的10个城市
首先,以城市为聚合组,来查看全国普遍房价。我们分别选取25%、50%、75%分位数来代表房价情况,对全国平米单价进行排序。使用percentile函数[1]选取UNIT_PRICE分位数,利用Top-N进行排序。以50%分位数为例,查询语句如下:
select CITY, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY order by percentile_approx(UNIT_PRICE,0.5)  desc limit 20
有Top-N预计算的Cube只需要0.38秒就可以得到结果。结果如下:
图2 全国28城市房价排行,50分位数
选取25%、50%、75%分位数来代替房价,三次计算的完整结果如下表。
表1 全国房价top10的城市
结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为6.4万元/㎡ 远超同为直辖市的天津 。总体看来,房价前十名的大多为一线城市。 但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了top10榜单。其中厦门更是以中位数4.1万元/㎡的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在50%和75%高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。
全国房价最高的10个小区
为了查找“天价小区”,接下来以小区为聚合组,选取50%分位数代表房价,利用Top-N预计算查询全国小区房价Top50。查询语句如下:
select CITY,GADERN, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY,GADERNorder by percentile_approx(UNIT_PRICE,0.5)  desc limit 50
图3 全国高价小区top50
提取前十名如下:
表2 全国房价top10的小区
图4高价小区所在城市饼图
分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40%和34%的天价小区比例,占据了第一、第二名的位置。其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。
天价小区的户型:多为别墅型
进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多,达77%;单价后25%的小区经济型住宅比例更大,达60%。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。
图5天价小区面积分布
图6 房价前75%小区面积分布
小户型也有高单价
解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于50㎡的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。
查询语句如下:
select CITY,GADERN,UNIT_PRICE from CHI_PRICE_0730 where SIZE_ROOM<50 order by UNIT_PRICE desc
表3 全国房价top20的小户型小区
图7 小户型高价小区分布
在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入top50,占比8%。可见京津地区对小户型是很青睐的。
结语:
利用Kyligence Enterprise的Top-N预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于50㎡的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单!
Kyligence Enterprise 提供了基于海量数据的 Top-N函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对Top-N预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。
参考链接:Apache Kylin的Top-N近似预计算
[1] 函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”
来源:https://kyligence.io/zh/2018/08/24/data-analysts-form-memories-country-expensive-housing-estates/

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-25 17:35

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表