168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[Kylin] 全国天价小区在哪里?

[复制链接]
发表于 7 天前 | 显示全部楼层 |阅读模式
在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些,高房价分布在哪些城市,天价房有什么特点。
用Top-N从茫茫数据中找到天价房
本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。
于是,分析师小杜就想到了Top-N。Top-N在很多领域的分析中都很常用,简单来说,通过Top-N可以得到海量数据中符合要求的N个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的Top-N结果需要耗费很长时间。
Kyligence Enterprise作为使用预计算的OLAP引擎,引入了Top-N函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。
本例中,分析师将通过Kyligence Enterprise中Top-N函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),共计约15万条,涉及全国28个城市的34944个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。
为实现Top-N函数的预计算,分析师需在设计Cube时在“度量”步骤为UNIT_PRICE添加Top-N度量。设置后如下图所示。
图1 Top-N度量设置
全国房价最高的10个城市
首先,以城市为聚合组,来查看全国普遍房价。我们分别选取25%、50%、75%分位数来代表房价情况,对全国平米单价进行排序。使用percentile函数[1]选取UNIT_PRICE分位数,利用Top-N进行排序。以50%分位数为例,查询语句如下:
select CITY, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY order by percentile_approx(UNIT_PRICE,0.5)  desc limit 20
有Top-N预计算的Cube只需要0.38秒就可以得到结果。结果如下:
图2 全国28城市房价排行,50分位数
选取25%、50%、75%分位数来代替房价,三次计算的完整结果如下表。
表1 全国房价top10的城市
结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为6.4万元/㎡ 远超同为直辖市的天津 。总体看来,房价前十名的大多为一线城市。 但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了top10榜单。其中厦门更是以中位数4.1万元/㎡的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在50%和75%高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。
全国房价最高的10个小区
为了查找“天价小区”,接下来以小区为聚合组,选取50%分位数代表房价,利用Top-N预计算查询全国小区房价Top50。查询语句如下:
select CITY,GADERN, percentile_approx(UNIT_PRICE,0.5)as UNIT_PRICE_50 from CHI_PRICE_07271 group by CITY,GADERNorder by percentile_approx(UNIT_PRICE,0.5)  desc limit 50
图3 全国高价小区top50
提取前十名如下:
表2 全国房价top10的小区
图4高价小区所在城市饼图
分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40%和34%的天价小区比例,占据了第一、第二名的位置。其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。
天价小区的户型:多为别墅型
进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多,达77%;单价后25%的小区经济型住宅比例更大,达60%。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。
图5天价小区面积分布
图6 房价前75%小区面积分布
小户型也有高单价
解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于50㎡的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。
查询语句如下:
select CITY,GADERN,UNIT_PRICE from CHI_PRICE_0730 where SIZE_ROOM<50 order by UNIT_PRICE desc
表3 全国房价top20的小户型小区
图7 小户型高价小区分布
在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入top50,占比8%。可见京津地区对小户型是很青睐的。
结语:
利用Kyligence Enterprise的Top-N预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于50㎡的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单!
Kyligence Enterprise 提供了基于海量数据的 Top-N函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对Top-N预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。
参考链接:Apache Kylin的Top-N近似预计算
[1] 函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”
来源:https://kyligence.io/zh/2018/08/24/data-analysts-form-memories-country-expensive-housing-estates/

楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注数据科学与人工智能的社区媒体与产业服务平台!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2018-11-16 22:30 , Processed in 0.106266 second(s), 19 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表