动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

本实战是上图中的“独立python爬虫”的一个实例,以采集豆瓣小组讨论话题(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

2.4,安装selenium

pip install selenium2.5,PhantomJS下载

下载地址 http://phantomjs.org/download.html把下载得到的phantomjs-2.1.1-windows.zip解压到本机的某个文件夹下把解压后的文件夹中的phantomjs.exe的完整路径加文件名记录下来,用来替换下面代码的 browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe') 这一行中的两个单引号之间的内容。

3,网络爬虫的源代码

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

运行过程如下:

将上面的代码保存到douban.py中,和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中打开Windows CMD窗口,切换当前目录到存放douban.py的路径(cd \\xxxx\\xxx)运行 python douban.py

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

动态网页怎么爬?这样爬才是最适合零基础小白的!刚学两天就会了

5,总结因为信息采集规则是通过api下载下来的,所以,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,因为最影响通用性的采集规则是从外部注入的。

6,集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python即时网络爬虫GitHub源

简单吧!嘿嘿!私信小编007即可获取数十套PDF哦!


分享到:


相關文章: