我用python爬取了整个斗图网站，不服来斗_科技 _ 頭條網

QQ、微信斗图总是斗不过，索性直接来爬斗图网，我有整个网站的图，不服来斗。

废话不多说，选取的网站为斗图啦，我们先简单来看一下网站的结构

网页信息

注意：很多人学Python过程中会遇到各种烦恼问题，没有人解答容易放弃。为此我建了个python学习资源群里面有最新学习资料，如果你想学python,可以关注我，后台私信我 ‘py’ 自动获取最新python教程资料！还有老司机解答哦！
从上面这张图我们可以看出，一页有多套图，这个时候我们就要想怎么把每一套图分开存放（后边具体解释）

通过分析，所有信息在页面中都可以拿到，我们就不考虑异步加载，那么要考虑的就是分页问题了，通过点击不同的页面，很容易看清楚分页规则

很容易明白分页URL的构造，图片链接都在源码中，就不做具体说明了明白了这个之后就可以去写代码抓图片了

存图片的思路

因为要把每一套图存入一个文件夹中（os模块），文件夹的命名我就以每一套图的URL的最后的几位数字命名，然后文件从文件路径分隔出最后一个字段命名,具体看下边的截图。

这些搞明白之后，接下来就是代码了（可以参考我的解析思路，只获取了30页作为测试）全部源码

<code># -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup

import os
class doutuSpider(object):
headers = {
"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"}
def get_url(self,url):
data = requests.get(url, headers=self.headers)
soup = BeautifulSoup(data.content,'lxml')
totals = soup.findAll("a", {"class": "list-group-item"})
for one in totals:
sub_url = one.get('href')
global path
path = 'J:\\\\train\\\\image'+'\\\\'+sub_url.split('/')[-1]
os.mkdir(path)
try:
self.get_img_url(sub_url)
except:
pass

def get_img_url(self,url):
data = requests.get(url,headers = self.headers)
soup = BeautifulSoup(data.content, 'lxml')
totals = soup.find_all('div',{'class':'artile_des'})
for one in totals:
img = one.find('img')
try:
sub_url = img.get('src')
except:
pass
finally:
urls = 'http:' + sub_url
try:
self.get_img(urls)
except:
pass
def get_img(self,url):
filename = url.split('/')[-1]
global path
img_path = path+'\\\\'+filename
img = requests.get(url,headers=self.headers)
try:
with open(img_path,'wb') as f:
f.write(img.content)
except:
pass
def create(self):
for count in range(1, 31):
url = 'https://www.doutula.com/article/list/?page={}'.format(count)
print '开始下载第{}页'.format(count)
self.get_url(url)
if __name__ == '__main__':

doutu = doutuSpider()
doutu.create()
复制代码/<code>

结果

总结

很多人学Python过程中会遇到各种烦恼问题，没有人解答容易放弃。为此我建了个python学习资源群里面有最新学习资料，如果你想学python,可以关注我，后台私信我 ‘py’ 自动获取最新python教程资料！还有老司机解答哦！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

相關文章:

PYTHON，帮我命名截图

Python+scrapy爬虫识别验证码（四）手绘验证码识别

用数据一窥如今最流行的编程语言—Python！

基于 Python 的新冠病毒传播仿真器！

很多推崇学 Python 入行的，如果学完 Python 找不到工作怎么办？

Python 爬取b站热门视频信息并导入Excel表格

python 函数封闭调用

Python 应该怎样学？

每天学习俩小时java、Python,前段，你还愁没工作吗？

为什么你现在必须迁移到 Python 3？

Python Excel处理数据之旅-

视频教程+案例，java、python、前端全套

Python 闲谈 15——用Python生成属于自己的头条二维码

Python 进阶之递归函数一点都不难

比PS还好用！Python 20行代码批量抠图

python pandas是如何读取excel表中的sheet的（二）

03.06 Python：40行代码教你利用Python网络爬虫批量抓取小视频

03.05 Python 配置虚拟环境，让你的软件干干净净…

初学编程：python+java视频教程两套限时馈赠给大家

02.27 人生苦短，我用 Python——Life is short, you need Python

为什么说生活处处都有“Python”

Python 核心知识体系

视频剪辑什么鬼？Python 带你高效创作短视频

我用 Python 集齐了五福

12.31 Python 2019年值得关注的变化

Python 远程开机

Numpy：Python，快叫我一声“爸爸”

Python 线性查找最优实现

Python 如何将字符串作为代码执行

12.24 Python requests作者简直是D丝逆袭

Python requests作者简直是D丝逆袭

Python：现在还不学习不行啊！

如何零基础自学 Python？

非常详细的基础讲解：Python for循环及基础用法(较长建议收藏）

Python官方最后通牒：Python 2传奇将在20年落幕，Python 3接力

让你眼前一亮的 Python 小技巧

Python 基础入门必看笔记

Python 自动化带你轻松赚钱

Python django搭建环境

python 正确四舍五入的姿势

python:教你用爬虫通过代理自动刷网页的浏览量

大数据全栈式开发语言 – Python

python-selenium登陆今日头条

09.08 Python 热门开源项目Top10

为什么连小学生都要学 Python？

02.26 Python+人工智能月入高达50K？Python 工程师薪资再创新高

小米太无耻了。

蹭热点！说说我理解的手机包装盒事件。

苹果公司正式发布iPhone SE二代手机

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

干翻华为P40系列 荣耀30也玩中

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

苹果发布新款iPhoneSE，3299元起售

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

值得收藏！三类卖家三种选品方案，总有适合你的一个……

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

马云终于要辞职了，留下的话句句触动人心

等等，明年5G手机将迎来大降价

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

为什么华为今天可以傲视群雄，在世界上立于不败之地？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

2020年最强拍照旗舰来了 华为P40系列多项业界首创 香！

今天聊一聊直播

通过直播赚钱不容易，既要豁得出去，又要端得起来

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

干翻华为P40系列荣耀30也玩中

2020年最强拍照旗舰来了华为P40系列多项业界首创香！