Python3 爬虫从小说网站抓取文字内容

《 》和《 》介绍了环境搭建,处理编码问题。接下来实战正式开始,目标是“笔趣看”网页中的小说《一念永恒》。

先打开第一章内容看看https://www.biqukan.com/1_1094/5403177.html。

Python3 爬虫从小说网站抓取文字内容

在网页中查看源代码发现有很多标签,这就是HTML超文本标记语言,用来描述网页内容,互联网上的所有网页都是用这种语言来描述的。找到我们要下载的正文内容,它被包围在id="content" class="showtxt"的

块中间。
Python3 爬虫从小说网站抓取文字内容

我们再看一看《一念永恒》这篇小说的整个目录https://www.biqukan.com/1_1094/,被包围在 class="listmain"的

块中间。每个目录标题还被 包裹,


分享到:


相關文章: