博客
关于我
56平住房卖2万,新房价变白菜价?爬取全国315个城市的房价信息
阅读量:628 次
发布时间:2019-03-14

本文共 865 字,大约阅读时间需要 2 分钟。

前言

今天来使用爬虫技术,爬取全国315个城市的房价信息。

大家都知道 房价信息是非常有价值的,敏感的,对于一些人来说是投资赚钱的一种重要渠道。能够及时的获取房价涨跌信息,甚至用大数据分析市场行情,这对于投资是非常有利的

PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

 

可以免费领取源码项目实战视频PDF文件

 

所以,这种信息爬取的难度也是较大的。

我一开始使用requests库,发现反爬机制比较厉害,而且网页的数据结构容易变化。然后我用selenium 爬取,配置好参数,使用本地浏览器,依次爬取32页数据,共630条房价信息。

我贴出部分代码供参考:

def parse():    global start,end    try:        for i in range(start,end):            name = driver.find_element_by_xpath('//*[@id="px"]/tbody/tr[%s]/th[2]/a'%(i)).text            price = driver.find_element_by_xpath('//*[@id="px"]/tbody/tr[%s]/th[3]'%(i)).text            row = [name,price]            print(row)            sheet.append(row)    except:        print("到底了!")

最后的结果通过代码自动发送到QQ邮箱,效果如下:

 

共315个城市,想要获取数据的朋友可以联系我,提供实时的房价信息。

得到表格,进行数据分析,用excel,进行数据的处理,绘制成统计图:

 

我们可以看到,全国房价的前三名分别是:

深圳:北京,上海。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:弄堂里的一只汪

转载地址:http://vjioz.baihongyu.com/

你可能感兴趣的文章
Nginx下配置codeigniter框架方法
查看>>
Nginx与Tengine安装和使用以及配置健康节点检测
查看>>
Nginx中使用expires指令实现配置浏览器缓存
查看>>
Nginx中使用keepalive实现保持上游长连接实现提高吞吐量示例与测试
查看>>
Nginx中实现流量控制(限制给定时间内HTTP请求的数量)示例
查看>>
nginx中配置root和alias的区别
查看>>
nginx主要流程(未完成)
查看>>
Nginx之二:nginx.conf简单配置(参数详解)
查看>>
Nginx从入门到精通
查看>>
Nginx代理websocket配置(解决websocket异常断开连接tcp连接不断问题)
查看>>
Nginx代理初探
查看>>
nginx代理地图服务--离线部署地图服务(地图数据篇.4)
查看>>
Nginx代理外网映射
查看>>
Nginx代理模式下 log-format 获取客户端真实IP
查看>>
Nginx代理解决跨域问题(导致图片只能预览不能下载)
查看>>
Nginx代理访问提示ERR_CONTENT_LENGTH_MISMATCH
查看>>
Nginx代理配置详解
查看>>
Nginx代理静态资源(gis瓦片图片)实现非固定ip的url适配网络环境映射ip下的资源请求解决方案
查看>>
Nginx代理静态资源(gis瓦片图片)实现非固定ip的url适配网络环境映射ip下的资源请求解决方案
查看>>
nginx优化日志拒绝特定404请求写入
查看>>