小說迷，利用python一鍵下載幾千本！技术頭條網

小說迷，利用python一鍵下載幾千本！

喜歡看小說的騷年們都知道，總是有一些小說讓人耳目一新，不管是仙俠還是玄幻，前面更了幾十章就成功圈了一大波粉絲，成功攀上飆升榜，熱門榜等各種榜，扔幾個栗子出來：

新筆趣閣是本次要抓取的地址，其他滿足下文條件的網站也行，之前已經有做過簡單爬取章節的先例了，但效果不太理想，有很多不需要的成分被留下了，我們本文就爬取這個網站的上千本小說。重點在和大家一起分享一些爬蟲的思路和一些很常遇到的坑。

本文的行文脈絡：

1、先構造一個單本的小爬蟲練練手；

2、簡要分享一下安裝MongoBD數據庫時的幾個易錯問題；

3、運用Scrapy框架爬取新筆趣閣全站排行榜。

一、爬取單本小說（教程所有源碼私信小編小說即可獲取！）

爬取該網站相對來講還是很容易的，打開編輯器（推薦使用PyCharm，功能強大），首先引入模塊urllib.request(Python2.x的引入urllib和urllib2即可，待會我把2.x的也寫出來給大家看看)，給出網站URL，寫下請求，再添加請求頭（雖然這個網站不封號，但作者建議還是要養成每次都寫請求頭的習慣，萬一那天碰到像豆瓣似的網站，一不留神就把你封了）話不多說，直接上代碼：

然後再將請求發送出去，定義變量response，用read（）方法觀察，注意將符號解碼成utf-8的形式，省的亂碼：

打印一下看結果：

看到這麼一大條就對嘍，對比一下網頁源碼，發現是一致的。

這步觀察很重要，因為這就說明該網站沒有使用AJAX異步加載，否則就要開始抓包的工作了，這個我們留著分析動態網站時候再說。建議大家在沒有更好的方法時使用。之前記得確實有直接判斷的方法，然而一不小心忘記了，有知道的讀者還請發給我哦。

我們現在得到了網站的response，接下來就是對我們想要獲取的數據進行解析、提取，但等等，考慮到我們要爬取大量小說，不搞一個數據庫存儲真是太失敗了，作者推薦MongoDB數據庫，屬於NOSQL類型數據庫，以文檔存儲為主，這裡用來爬小說真是太適合不過了。

在安裝好後為方便啟動，可以添加環境變量，但這裡有個坑，你要先打開mongod(注意是mongodb，別一上來就打開mongo)，然後需要準確添加dbpath路徑，不然打開很容易就會失敗，上圖：

失敗狀態

成功狀態

添加路徑後成功連接，出現waiting for connections on port 27017，則表示數據庫連接成功，而後就不要關掉這個終端了，只有保持數據庫是連接的，才可運行MongoDB數據庫（不然報錯你都不知道自己是怎麼死的）

好了，連接好數據庫後，我們將數據庫與編輯器進行交互鏈接，位置很隱秘，在File>>Settings>>Plugins下添加組件Mongo Plugin，沒有就下載一個：

盜個圖

我們在編輯器內編寫代碼，引入Python專門用來與MongoDB交互的模塊pymongo，然後在最上面鏈接MongoDB數據庫的端口，默認是27017，我們先創建一個叫做reading的數據庫，然後在reading內新建一個叫做sheet_words的數據表，代碼如下：

我們先找一個叫做《修羅武神》的小說來練練手，個人來講，我很討厭看小說時來回的翻頁，有時候還跳出廣告，這時候我還得返回去重新翻頁，作為一名懶得不行的懶人，我想到要是把整部小說放進一個文檔裡再看不就好了麼，但要是一章一章的複製粘貼我想還是算了吧，這時候你就知道爬蟲是有多麼便捷了。好，現在我們要做的是把《修羅武神》這部小說完整的爬取下來，並在數據庫中備份。我們回到剛才停留的地方，在得到response後，我們應該選用一種方法來解析網頁，一般的方法有re,xpath,selector(css),建議新手使用xpath而不是re,一是因為re用不好很容易導致錯誤，“當你決定用正則表達式解決問題時，你有了兩個問題。”，相比較xpath才是步驟明確，十分穩妥；二是在Firefox，Chrome等瀏覽器中可以直接複製xpath路徑，大大的減少了我們的工作量，上圖：

如果你決定使用xpath之後，我們需要從lxml中引入etree模塊,然後就可以用etree中的HTML()方法來解析網頁了，從網頁>檢察元素（F12）中複製下來我們所需數據的路徑，我選擇的是小說每章的標題和內容，上圖：

路徑//div[@class="readAreaBox content"]/h1/text()

路徑/html/body/div[4]/div[2]/div[2]/div[1]/div[2]/text()

注意注意，又來一個坑，當你複製xpath時得到的是這個東東：

//div[@class="readAreaBox content"]/h1

和這個東東;

/html/body/div[4]/div[2]/div[2]/div[1]/div[2]

但你需要的是這個路徑裡的文本text，故我們需要另外添加具體文本：/text()，然後就像上面那樣啦。上代碼，查數據：

小說有點大，一共是三千五百章，等個大約4-7分鐘吧，打開文件夾《修羅武神小說》，就可以看到我們下載好的無需翻頁的一整部小說，數據庫內頁備份好了每章的鏈接，它自動從零開始排的，就是說你要看第30章就得打開序號為29的鏈接，這個調一下下載時的順序就好了，作者很懶，想要嘗試下的讀者可以自行更改。

小說文本

數據庫連接

看看，感覺還不錯吧，好的小例子講完了，接下來我們準備進入正題。

我們要像上面的例子那樣爬取整個網站，當然這裡就不再建議使用普通的編輯器來來執行了，聰明的讀者已經發現，一部小說爬了4分鐘，那麼上千本不說，單單是一組排行榜裡的100本就夠爬好一會了，這就顯示出Scripy框架的作用，用專門的Scripy框架寫工程類爬蟲絕對快速省力，是居家寫蟲的必備良藥哇。

二、爬取小說榜所有小說（教程所有源碼私信小編小說即可獲取！）

首先安裝Scrapy的所有組件，建議除pywin32以外都用pip安裝,不會的話度娘吧，很簡單的，pywin32需要下載與你所用Python版本相同的安裝文件。

Scrapy插件安裝成功

然後還是老規矩，不想每次終端運行都一點一點找路徑的話，就將根目錄添加到環境變量，然後打開終端，我們測試一下是否安裝成功：

Scrapy安裝成功

好，安裝完畢後，打開終端，新建一個Scrapy工程，這裡你可以根據索引，選擇使用Scrapy的各種功能，這裡不一一詳解了，D盤內已經出現了我們建立好的Scrapy工程文件夾：

打開文件夾，我們會看到Scrapy框架已經自動在reading文件夾中放置了我們所需的一切原材料：

打開內部reading文件夾，就可以在spiders文件夾中添加爬蟲py代碼文件了：

我們這裡定向爬小說排行榜，除了我們寫的spider文件，還要在items.py中定義我們要爬取的內容集，有點像詞典一樣，名字可以隨便取，但已有的繼承類scrapy.Item可不能改，這是Scrapy內部自定義的類，改了它可找不到，spider就用我們上面抓取單本再加一個for循環就OK了，十分簡單，一言不合就上圖：