上海市统计年鉴(上海市统计年鉴几月发布)
“ 用足够多的数据逼近真相。”
摘要
数据是现代社会分析决策的重要依据。本文通过介绍互联网上公开的行业经济数据,为读者提供获取数据的途径,打开分析上海房地产市场的思路。本文将努力避免主观论述,关注数据本身的真实性与准确性,并尝试启发读者自己去发现数据中隐藏的客观规律。
写作动机
上海是一座充满魅力与机遇的城市。或许正因如此,上海居民承担着全球领先的房价收入比[2]。购房成为了代价高昂且容错率极低的决策行为。人的生活离不开衣食住行,了解上海的房屋市场对于想要在这座城市长期生活的居民来说,往往是必要而困难的。政府主导着政策规划与土地供应,二手房卖家主导着挂牌价和二手房源,企业和商人影响着新建房屋的区位和配套因素。很多人喜欢通过阅读官方公布的城市规划,以及包含各种观点的公众号文章来得到对于房屋价值的研判,而在面对众多观点的时候,人很容易感到困惑。如果能借助一些数字指标来校准,或许能帮人做出更加理性的决策。
房地产相关数据源调研
什么是与房地产相关的数据?任泽平将“金融、经济、人口”视为房产市场三要素[3]。从经济上看,中国有着稳定向好的经济环境;从供给侧来看,城市土地拍卖决定了短期未来一手房的供应上限,中介挂牌数据反映了城市二手房的供应情况变化;从需求侧来看,城市人口数量和结构的调整深刻影响着购房需求。除此之外,政府的政策和规划对于市场也具备很强的导向作用,是市场分析过程中不可忽略的参考因素。
如何获取上面提到的这些数据和信息呢?借助互联网,可以以很低的成本从政府和非官方部门采集到相当丰富的数据。统计局公布的年度统计数据(《上海统计年鉴》)较为规范地整理了历年的房地产行业数据以及人口数据,并将其公开在统计局网站[1];链家等中介平台也向所有用户免费提供了二手房挂牌交易信息,可以较为方便快捷地访问。需要强调的是,目前也有一些机构收集整理了房地产相关数据,例如易居,贝壳等服务提供商,但这些数据需要支付费用才能在受限的场景下使用。
图3:上海链家房屋情况页面截图
图4:上海链家小区情况页面截图
以小区相关数据和房屋相关数据为例,目前能从直接链家网站上抓取到的数据格式如下表所示:
表1. 链家网站公开小区数据格式示意
类型
备注
示例
bigint
链家小区ID
508420324553041
string
小区名称
嘉隆国际广场
string
地址
(嘉定徐行)胜辛北路1888弄, 汇源路288弄
double
坐标:纬度
31.421133
double
坐标:经度
121.209452
string
小区所属板块
上海房产网,上海小区,嘉定小区,徐行小区,嘉隆国际广场
int
建成年份
2017
string
建筑类型
塔楼/板楼/塔板结合
string
物业公司
南通市中房物业管理有限责任公司
string
物业费
暂无信息
string
房地产开发商
中房集团
int
小区建筑数量(栋)
181栋
int
住宅数量(户)
1985
string
采集时间(UTC *)
2020-12-02 23:41:33
表2. 链家网站公开住宅数据格式示意
类型
备注
举例
bigint
房屋 ID
107102945521
String
房屋名称
枫桦景苑二期 3室2厅 132.99平米
Double
挂牌售价(万元)
370
Double
成交价(万元)
362
String
小区名称
枫桦景苑二期
Bigint
小区ID
5020045663332066
string
建筑类型
板楼
string
房屋朝向
南
string
房屋楼层
低楼层 ( 共14层)
double
套内面积(平方米)
95.95㎡
string
户型结构
2室2厅1厨1卫
string
装修情况
简装
string
建筑结构
钢混结构
string
梯户比例
一梯两户
boolean
配备电梯
True/False
string
产权年限
有
date
挂牌时间
2015-04-01
string
交易权属
商品房
date
上次交易
2007-08-23
string
房屋用途
普通住宅
string
房屋年限
暂无数据
string
产权所属
无
string
抵押信息
无抵押
string
房本备件
已上传房本照片
string
状态
成交
string
成交时间
2020-03-20
string
数据采集时间
2020-12-02 23:41:33
int
关注人数
9
03 数据获取
良好的数据格式和数据质量是数据分析的前置依赖。从实践的角度出发,政府发布的《统计年鉴》数据格式变化多端,较难实现自动化梳理和统计,大概率需要人工介入进行增删改查。而链家的数据格式较为统一,可以用爬虫技术批量抓取并格式化存储在本地,但在后期必然涉及到数据的清理、格式化以及持续更新,这部分工作对于从事数据开发工作的本人来说自然是驾轻就熟了。本文在此提供一份可以参考的源代码,稍作修改即可使用:
链家网站爬虫:https://github.com/lanbing510/LianJiaSpider
粗略统计,在遍历上海链家域名下所有数据后,能获取到20万条以上的房屋小区数据。在完成了数据的清洗归类处理之后,数据分析将会具备非常大自由度,例如,结合《统计年鉴》数据可以得到人口、土地、房屋价格等数据的历年变动曲线,分析不同因素之间的相关性;结合链家的交易数据可以对房屋的真实价格做评估校准,分析不同区域的房屋类型分布和市场价格。
上述数据的收集整理工作已经持续了一段日子,后续将会陆续开放给各位读者,欢迎关注本公众号(data-me),及时获取相关数据。如果你有其他数据源推荐,也欢迎评论分享~
参考资料
[1]上海统计局 数据发布,http://tjj.sh.gov.cn/sjfb/index.html
[2] Cost of living, numbeo,
[3]《房地产周期》,任泽平,人民出版社,2017年
如发现本站有涉嫌抄袭侵权/违法违规等内容,请联系我们举报!一经查实,本站将立刻删除。