Python3 爬蟲從小說網站抓取文字內容

《 》和《 》介紹了環境搭建,處理編碼問題。接下來實戰正式開始,目標是“筆趣看”網頁中的小說《一念永恆》。

先打開第一章內容看看https://www.biqukan.com/1_1094/5403177.html。

Python3 爬蟲從小說網站抓取文字內容

在網頁中查看源代碼發現有很多標籤,這就是HTML超文本標記語言,用來描述網頁內容,互聯網上的所有網頁都是用這種語言來描述的。找到我們要下載的正文內容,它被包圍在id="content" class="showtxt"的

塊中間。
Python3 爬蟲從小說網站抓取文字內容

我們再看一看《一念永恆》這篇小說的整個目錄https://www.biqukan.com/1_1094/,被包圍在 class="listmain"的

塊中間。每個目錄標題還被 包裹,


分享到:


相關文章: