利用Python抓取猫眼电影TOP100

利用Python抓取猫眼电影TOP100

今天我要利用request库和正则表达式抓取猫眼电影Top100榜单。

运行平台: Windows

Python版本: Python3.6

IDE: Sublime Text

其他工具:Chrome浏览器

1. 抓取单页内容

浏览器打开猫眼电影首页,点击“榜单”,然后再点击"TOP100榜",就能看到想要的了。

利用Python抓取猫眼电影TOP100

接下来通过代码来获取网页的HTML代码。

利用Python抓取猫眼电影TOP100

运行结果如下:

利用Python抓取猫眼电影TOP100

2. 正则表达式提取有用信息

在上图中,已经标注出我们将要提取的内容,下面用代码实现:

利用Python抓取猫眼电影TOP100

运行结果如下:

利用Python抓取猫眼电影TOP100

3. 保存信息

获取电影信息之后,要保存起来留用。要保存的有文本信息和电影封面。

利用Python抓取猫眼电影TOP100

下面为保存结果:

利用Python抓取猫眼电影TOP100

利用Python抓取猫眼电影TOP100

4.下载TOP100所有电影信息

通过点击标签页发现只是URL变化了:

利用Python抓取猫眼电影TOP100

修改main函数以动态改变URL:

利用Python抓取猫眼电影TOP100

到此我们已经将TOP100的电影信息和封面全部得到了。

5.多线程抓取

此次抓取的数据不算多,但是为了学习,使用多进程进行抓取,以应对以后大量的数据抓取。

利用Python抓取猫眼电影TOP100

下面为普通抓取和多进程抓取的时间对比:

利用Python抓取猫眼电影TOP100

今天的分享就到这里了,喜欢这篇文章的记得转发+评论哦!让大家看到你独特的见解哦!

另外关注小编,私信“01”可以获得更多的免费Python爬虫案例,而且都是视频哦!


分享到:


相關文章: