上海市统计年鉴(上海市统计年鉴几月发布)

“ 用足够多的数据逼近真相。”

摘要

数据是现代社会分析决策的重要依据。本文通过介绍互联网上公开的行业经济数据,为读者提供获取数据的途径,打开分析上海房地产市场的思路。本文将努力避免主观论述,关注数据本身的真实性与准确性,并尝试启发读者自己去发现数据中隐藏的客观规律。

写作动机

上海是一座充满魅力与机遇的城市。或许正因如此,上海居民承担着全球领先的房价收入比[2]。购房成为了代价高昂且容错率极低的决策行为。人的生活离不开衣食住行,了解上海的房屋市场对于想要在这座城市长期生活的居民来说,往往是必要而困难的。政府主导着政策规划与土地供应,二手房卖家主导着挂牌价和二手房源,企业和商人影响着新建房屋的区位和配套因素。很多人喜欢通过阅读官方公布的城市规划,以及包含各种观点的公众号文章来得到对于房屋价值的研判,而在面对众多观点的时候,人很容易感到困惑。如果能借助一些数字指标来校准,或许能帮人做出更加理性的决策。

房地产相关数据源调研

什么是与房地产相关的数据?任泽平将“金融、经济、人口”视为房产市场三要素[3]。从经济上看,中国有着稳定向好的经济环境;从供给侧来看,城市土地拍卖决定了短期未来一手房的供应上限,中介挂牌数据反映了城市二手房的供应情况变化;从需求侧来看,城市人口数量和结构的调整深刻影响着购房需求。除此之外,政府的政策和规划对于市场也具备很强的导向作用,是市场分析过程中不可忽略的参考因素。

如何获取上面提到的这些数据和信息呢?借助互联网,可以以很低的成本从政府和非官方部门采集到相当丰富的数据。统计局公布的年度统计数据(《上海统计年鉴》)较为规范地整理了历年的房地产行业数据以及人口数据,并将其公开在统计局网站[1];链家等中介平台也向所有用户免费提供了二手房挂牌交易信息,可以较为方便快捷地访问。需要强调的是,目前也有一些机构收集整理了房地产相关数据,例如易居,贝壳等服务提供商,但这些数据需要支付费用才能在受限的场景下使用。

上海市统计年鉴(上海市统计年鉴几月发布)

图3:上海链家房屋情况页面截图

上海市统计年鉴(上海市统计年鉴几月发布)

图4:上海链家小区情况页面截图

以小区相关数据和房屋相关数据为例,目前能从直接链家网站上抓取到的数据格式如下表所示:

表1. 链家网站公开小区数据格式示意

类型

备注

示例

bigint

链家小区ID

508420324553041

string

小区名称

嘉隆国际广场

string

地址

(嘉定徐行)胜辛北路1888弄, 汇源路288弄

double

坐标:纬度

31.421133

double

坐标:经度

121.209452

string

小区所属板块

上海房产网,上海小区,嘉定小区,徐行小区,嘉隆国际广场

int

建成年份

2017

string

建筑类型

塔楼/板楼/塔板结合

string

物业公司

南通市中房物业管理有限责任公司

string

物业费

暂无信息

string

房地产开发商

中房集团

int

小区建筑数量(栋)

181栋

int

住宅数量(户)

1985

string

采集时间(UTC *)

2020-12-02 23:41:33

表2. 链家网站公开住宅数据格式示意

类型

备注

举例

bigint

房屋 ID

107102945521

String

房屋名称

枫桦景苑二期 3室2厅 132.99平米

Double

挂牌售价(万元)

370

Double

成交价(万元)

362

String

小区名称

枫桦景苑二期

Bigint

小区ID

5020045663332066

string

建筑类型

板楼

string

房屋朝向

string

房屋楼层

低楼层 ( 共14层)

double

套内面积(平方米)

95.95㎡

string

户型结构

2室2厅1厨1卫

string

装修情况

简装

string

建筑结构

钢混结构

string

梯户比例

一梯两户

boolean

配备电梯

True/False

string

产权年限

date

挂牌时间

2015-04-01

string

交易权属

商品房

date

上次交易

2007-08-23

string

房屋用途

普通住宅

string

房屋年限

暂无数据

string

产权所属

string

抵押信息

无抵押

string

房本备件

已上传房本照片

string

状态

成交

string

成交时间

2020-03-20

string

数据采集时间

2020-12-02 23:41:33

int

关注人数

9

03 数据获取

良好的数据格式和数据质量是数据分析的前置依赖。从实践的角度出发,政府发布的《统计年鉴》数据格式变化多端,较难实现自动化梳理和统计,大概率需要人工介入进行增删改查。而链家的数据格式较为统一,可以用爬虫技术批量抓取并格式化存储在本地,但在后期必然涉及到数据的清理、格式化以及持续更新,这部分工作对于从事数据开发工作的本人来说自然是驾轻就熟了。本文在此提供一份可以参考的源代码,稍作修改即可使用:

链家网站爬虫:https://github.com/lanbing510/LianJiaSpider

粗略统计,在遍历上海链家域名下所有数据后,能获取到20万条以上的房屋小区数据。在完成了数据的清洗归类处理之后,数据分析将会具备非常大自由度,例如,结合《统计年鉴》数据可以得到人口、土地、房屋价格等数据的历年变动曲线,分析不同因素之间的相关性;结合链家的交易数据可以对房屋的真实价格做评估校准,分析不同区域的房屋类型分布和市场价格。

上述数据的收集整理工作已经持续了一段日子,后续将会陆续开放给各位读者,欢迎关注本公众号(data-me),及时获取相关数据。如果你有其他数据源推荐,也欢迎评论分享~

参考资料

[1]上海统计局 数据发布,http://tjj.sh.gov.cn/sjfb/index.html

[2] Cost of living, numbeo,

[3]《房地产周期》,任泽平,人民出版社,2017年

上海市统计年鉴(上海市统计年鉴几月发布)

本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如发现本站有涉嫌抄袭侵权/违法违规等内容,请联系我们举报!一经查实,本站将立刻删除。