​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

北京的高房价破灭了众多北漂朋友追梦的希望,大家都知道北京房价很高,但是到底有多高呢?我在链家爬取了北京市3万多条二手房信息,并进行了详细分析。

第一步:模拟爬取数据

链家的网站不是很复杂,是一个基础的静态网页,数据变换通过网页页码变换实现,各类信息都在嵌入在网页中

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果


​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

首先我按照行政区划分,组成每个行政区第一页的url,主要为了在第一页下找到住房总套数,并根据其计算出总页数(每页30套房子),由于最多网站最多显示100页数据,所以大于100页时统一取100页。

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

接着在该循环下,再构造每个行政区下的后续页数url,用bs4解析网页,爬取每套房子户型、面积、总价、单价、位置等信息

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

最后,将数据保存在表格中

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

没敢用多线程,程序总共跑了20分钟,爬下了35139条数据

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

第二步:开始数据分析

单纯的看表格看不出什么东西,下面我用pyecharts从不同的角度对房价信息进行分析

1.画个各行政区域的平均单价柱状图

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果


​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

房价最高的是西城区平均单价为112828元/平米,最低的是密云区平均单价为24570元/平米,总的均价为50673元/平米,排除远郊,要想在五环以内买房单价起码要4万以上。

2.画出面积与总价的散点图

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果


​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

最贵的一套房子位于苹果园,总面积840平米,总价7300万,看这情况应该是没有四合院在里面;

第一视觉好像80%的房子总价都超过1000万,真实情况是仅有3000多套房子总价超过1000万,剩余30000多套都在1000万以下。

3.画出户型与套数的饼状图

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

由于户型种类太多了,总共有61种,所以我只取了数量较多的前十种,结果如图

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

最多的是2室1厅,紧接着是3室1厅,看来是中小户型比较受欢迎。

4.画出地段与价格的柱状图

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果


​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

单价最高的位置是德胜门,总共有51套房源,均价为144980元/平米,其余9个位置均价都在120000元以上,貌似要么在二环内,要么在海淀,而我们南城1个也没有。

小结:总的来说,不管从那个角度分析,北京的房价都太贵了,我还是老实接着搬砖挣钱吧。


分享到:


相關文章: