小說免費看!python爬蟲框架scrapy 爬取縱橫網



小說免費看!python爬蟲框架scrapy 爬取縱橫網

前言

文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

作者: 風,又奈何

PS:如有需要Python學習資料的小夥伴可以加點擊下方鏈接自行獲取http://t.cn/A6Zvjdun

準備

  • python3
  • scrapy

項目創建:

cmd命令行切換到工作目錄創建scrapy項目 兩條命令 scarpy startproject與scrapy genspider 然後用pycharm打開項目

<code>D:\pythonwork>scrapy startproject zongheng
New Scrapy project 'zongheng', using template directory 'c:\users\11573\appdata\local\programs\python\python36\lib\site-packages\scrapy\templates\project', created in:
    D:\pythonwork\zongheng
​
You can start your first spider with:
    cd zongheng
    scrapy genspider example example.com
​
D:\pythonwork>cd zongheng
​
D:\pythonwork\zongheng>cd zongheng
​
D:\pythonwork\zongheng\zongheng>scrapy genspider xuezhong http://book.zongheng.com/chapter/189169/3431546.html
Created spider 'xuezhong' using template 'basic' in module:
  zongheng.spiders.xuezhong/<code>

確定內容

首先打開網頁看下我們需要爬取的內容

小說免費看!python爬蟲框架scrapy 爬取縱橫網

其實小說的話結構比較簡單 只有三大塊 卷 章節 內容

因此 items.py代碼:

小說免費看!python爬蟲框架scrapy 爬取縱橫網

內容提取spider文件編寫

還是我們先創建一個main.py文件方便我們測試代碼

小說免費看!python爬蟲框架scrapy 爬取縱橫網

然後我們可以在spider文件中先編寫

小說免費看!python爬蟲框架scrapy 爬取縱橫網

運行main.py看看有沒有輸出

發現直接整個網頁的內容都可以爬取下來,說明該網頁基本沒有反爬機制,甚至不用我們去修改user-agent那麼就直接開始吧

打開網頁 F12查看元素位置 並編寫xpath路徑 然後編寫spider文件

需要注意的是我們要對小說內容進行一定量的數據清洗,因為包含某些html標籤我們需要去除


小說免費看!python爬蟲框架scrapy 爬取縱橫網

有時候我們會發現無法進入下個鏈接,那可能是被allowed_domains過濾掉了 我們修改下就可以

唉 突然發現了到第一卷的一百多章後就要VIP了 那我們就先只弄一百多章吧 不過也可以去其他網站爬取免費的 這次我們就先爬取一百多章吧

內容保存

接下來就是內容的保存了,這次就直接保存為本地txt文件就行了

首先去settings.py文件裡開啟 ITEM_PIPELINES

然後編寫pipelines.py文件

小說免費看!python爬蟲框架scrapy 爬取縱橫網

由於選址失誤導致了我們只能爬取免費的一百多章節,尷尬,不過我們可以類比運用到其他網站爬取全文免費的書籍

怎麼樣 使用scrapy爬取是不是很方便呢

小說免費看!python爬蟲框架scrapy 爬取縱橫網

如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!


分享到:


相關文章: