「微硬核」下图下到手抽筋？手把手教你用脚本解救你的手

佚名

2020-10-26 14:40:49

我们时常会在网上浏览网页的时候，看到很多美美的图片。有些时候因为喜欢想保存下来，有些时候因为网页浏览太慢，就想把图片下载到电脑上方便查看。但是，下载图片除非是网站提供了打包下载的功能。否则都是一张张点右键另存为，然后选择保存路径，才能下载下来。

好一点的情况是，一套图片几十张都在一个页面，虽然操作到手抽筋，但好歹一个页面搞定。但，有些每页一个的，就需要打开几十个页面再一个个保存。更何况，面对美美的图片，我们想的是，我！全！要！忙到手抽筋也没法把一个网站的图片全部保存下来啊。

这些图片，我！全！要！

好的，你需要的是一个自动下载图片的工具。网上其实有一些类似工具，但是其实自己写也是非常容易的。本文就是手把手教你写一个下载工具，自由下载，解放双手。

写工具用啥语言？“人生苦短，我用python”，所以当然是python了。

需要预先准备的：

https://www.python.org/downloads/release/python-375/ 下载python，一般都是windows版本的，现在基本都64位的，所以选择Windows x86-64 executable installer。安装的时候记得选择“add to path”的选项。安装完python，咱们还得装几个方便使用的库，bs4和requests。bs4就是beautifulsoup，解析html的，requests就是方便http请求的。打开powershell，执行下面的命令

pip install bs4 -i https://mirrors.aliyun.com/pypi/simple/ pip install requests -i https://mirrors.aliyun.com/pypi/simple/

为加快安装速度，咱们选用的是pip的国内镜像。 -i https://mirrors.aliyun.com/pypi/simple/就是指定阿里云的pip镜像。

接下来选择一个下载图片的网站，为避免广告导流嫌疑（虽然没啥量），我百度上随便搜了一个，中关村的图片精选页面 http://bbs.zol.com.cn/dcbbs/topic。当然实际大家自己用的肯定是自己要下载图片的页面地址。

好的，下面要开始码了，码之前我们先说说思路。总的来说，就是抓取站点页面，然后把页面html解析之后获取图片地址，再下载图片，保存到本地。难点就是，为了抓取全部页面，我们要解析html的时候，获取当前页面所有的本站地址，依次去请求处理，还得注意排除已经请求过的。

coding begin...

咱们打开自带的edle编辑器，File->New File创建一个新文件，保存为downloader.py。

先加载库

import bs4 import requests import os import logging import urllib.parse import sys

整个功能咱们划分成几个模块，功能分别如下：

请求并解析页面，获取当前页面图片地址和站内链接地址根据上一步返回的站内链接地址，判断是否重复，如果没处理过，则使用上一步的方式处理该链接请求图片地址，读取之后保存到本地

咱们要完成的第一个功能模块就是请求并解析页面的方法，因为功能简单单一，都用函数开发，不采用类。

headers = {'user-agent': 'image downloader/0.0.1'} def is_same_domain(base_url,url): base_url_parsed = urllib.parse.urlparse(base_url) url_parsed = urllib.parse.urlparse(url) return base_url_parsed.netloc == url_parsed.netloc def process_page(url): ''' 获取url下所有图片以及站内链接 ''' images = [] site_urls=[] try: page_req = requests.get(url, headers=headers) if page_req.status_code != 200: logging.error(url+' http code: '+str(page_req.status_code)) return images,site_urls page_parsed = bs4.BeautifulSoup(page_req.text, 'html.parser') images = [ img.attrs['src'] for img in page_parsed.find_all('img')] site_urls= [ a.attrs['href'] for a in page_parsed.find_all('a') if 'href' in a.attrs and is_same_domain(url,a.attrs['href'])] logging.info("processed "+url) return images,site_urls except Exception as e: logging.error(url+' '+str(e)) return images,site_urls

工具函数is_same_domain判断解析的网页地址是否和当前处理的地址是一个域名。process_page返回的是两个list，一个是当前页面所有的图片地址，第二个是当前页面所有的站内链接。图片不需要判断是否本域名，因为图片一般会用专门的服务器，或者cdn，域名不同是很正常的事情。

接下来是根据页面获取的图片地址，抓取图片保存到本地的模块。

def store_image(save_path, img_url): ''' 将地址为img_url的图片保存到save_path目录下。 ''' img_url_parsed = urllib.parse.urlparse(img_url) try: img_path = save_path+'/'+os.path.dirname(img_url_parsed.path).strip('/').replace('/','_') img_file_path = img_path + '/' + os.path.basename(img_url_parsed.path) img_req = requests.get(img_url, headers=headers) if img_req.status_code != 200: logging.error(img_url+' http code: '+str(img_req.status_code)) return False if len(img_req.content)< 100*1024: logging.warning(img_url+" too small") return True if not os.path.exists(img_path): os.makedirs(img_path) with open(img_file_path,"wb") as fp: fp.write(img_req.content) logging.info("saved "+img_url) except Exception as e: logging.error(img_url+' '+str(e))

函数store_image将图片保存到指定的路径save_path下，如果目录不存在，会自动创建，这里过滤掉了大小在100k以下的图片。这里为了简化，减少了图片的目录深度，原地址里面的路径都会转化为下划线分隔的一个目录，使得多级目录简化为一级。

再加个控制函数就大功告成了。

def site_download(url,save_path): visited_url = {} stored_img = {} to_visit = [url] while len(to_visit)>0: url = to_visit.pop() imgs,urls = process_page(url) visited_url[url]=1 for img in imgs: if img not in stored_img: stored_img[img]=1 store_image(save_path,img) for u in urls: if u not in visited_url: to_visit.append(u)

site_download接收传入的起始地址和图片保存路径，然后递归处理所有页面以及子页面，并判断是否处理过。这里简化了处理，都用map去表示是否访问过，因为一般几十万上百万的页面，应该不会占用太多内存。

加个脚本执行的入口就可以了

if __name__=="__main__": if len(sys.argv) < 3: print("usage: python downloader.py site_url img_path") sys.exit(1) site_download(sys.argv[1],sys.argv[2])

使用方法就是 python downloader.py 网站路径图片保存路径

好的，早已按捺不住了，赶紧来跑一跑吧。

日志好多

日志好多，大部分警告和错误都是无用的日志，比如https证书有问题的，网页太久失效的，以及大部分都是图片太小的。

我执行参数里面，图片保存路径是当前目录下的images目录，打开看看。

全部到碗里来了

嗯哼，全部到碗里来了。

注意一点，这种访问方式对服务器负载比较高，有些网站会封掉高频访问的ip的，所以注意在访问时可以适量sleep降低频率。

另外脚本会遍历网站有链接的所有页面，所以比较慢，慢慢等着吧。

最后，本文给出的只是一个抓取网站内容的代码框架，能完成基本工作，但是很简单，没有处理各种可能的异常，没有细致地处理页面。有兴趣的同学可以自己根据需求增加细节完善，比如sleep降频，比如根据网页内容把同一篇文章的图片聚合，比如根据网页结构只抓取其中感兴趣的区域的图片等等。

全流程，手把手，助你事业单位上岸（备考篇）

郎溪县“手把手”教贫困户开网店

高新区消防救援大队“手把手”指导派出所消防监督工作

醴陵：干部全程服务“手把手”带领贫困户找工作

【培训指导】铁西大队“手把手”指导派出所消防工作

“送教下基层”首站开启！教官现场“手把手”教学警务技能

【一线战例】网格员驻企沉一线 “手把手”指导防控

涉疫诈骗频发，你需要TA→

“点对点”服务，“手把手”帮助，计划返岗的农民工兄弟看这里！

涉疫诈骗多发！检察机关提示10点防骗建议

敲黑板!涉疫诈骗多发！检察机关提示10点防骗建议

不言苦和累 “手把手”教网上立案

03.03 "一对一"讲透彻 "手把手"教到位：马鞍山市创新举措打通惠企政策落地"最后一公里"

03.02 手把手一对一协助“五小行业”规范复工

03.02 “一对一”讲透彻“手把手”教到位我市创新举措打通惠企政策落地“最后一公里”

02.26 “手把手”“心联心”驻企联络员助推复工复产加速度

湘潭市岳塘区文旅广体局：“点对点”上岗，“手把手”指导联点企业复工复产

六盘水中院“手把手”教您微法院立案

屈原区驻企联络员：“手把手”指导“心连心”抗疫

驻企联络员：“手把手”指导“心连心”抗疫

驻企联络员：“手把手”指导 “心连心”抗疫

相關文章:

全流程，手把手，助你事业单位上岸（备考篇）

郎溪县“手把手”教贫困户开网店

高新区消防救援大队“手把手”指导派出所消防监督工作

醴陵：干部全程服务“手把手”带领贫困户找工作

【培训指导】铁西大队“手把手”指导派出所消防工作

“送教下基层”首站开启！教官现场“手把手”教学警务技能

【一线战例】网格员驻企沉一线 “手把手”指导防控

涉疫诈骗频发，你需要TA→

“点对点”服务，“手把手”帮助，计划返岗的农民工兄弟看这里！

涉疫诈骗多发！检察机关提示10点防骗建议

敲黑板!涉疫诈骗多发！检察机关提示10点防骗建议

不言苦和累 “手把手”教网上立案

03.03 "一对一"讲透彻 "手把手"教到位：马鞍山市创新举措打通惠企政策落地"最后一公里"

03.02 手把手 一对一协助“五小行业”规范复工

03.02 “一对一”讲透彻“手把手”教到位 我市创新举措打通惠企政策落地“最后一公里”

02.26 “手把手”“心联心”驻企联络员助推复工复产加速度

湘潭市岳塘区文旅广体局：“点对点”上岗，“手把手”指导联点企业复工复产

六盘水中院“手把手”教您微法院立案

屈原区驻企联络员：“手把手”指导“心连心”抗疫

驻企联络员：“手把手”指导“心连心”抗疫

驻企联络员：“手把手”指导 “心连心”抗疫

小车高速“罢工”，高速路政“手把手”教换轮胎

贵州省市场监管局“手把手”教你如何安全点外卖

青岛：公共交通实名登记咋操作？志愿者“手把手”教您

「手把手」海军带你做《清平乐 村居》吟诵教学

「战疫前线」贵阳高新区“86110”实务手册“手把手”教企业防控生产两手抓

移动微法院 法官“手把手”教您手机打官司

厦门思明“手把手”培训外卖员 守护网络订餐食品安全

海宁：242名驻企联络员“手把手”指导企业防控

11.27 今天开始携号转网，哈尔滨人有办成的吗？｜咋办？省通信管理局“手把手”教

企业“手把手”帮扶“穷朋友”

长沙县：企业“手把手”帮扶“穷朋友”

一眼识破现场200个设备隐患，实拍图片手把手教你！

第504章 你敢发誓吗？

律师手把手教你写诉状

南京消防“手把手”为您培训消防安全知识

个税专项附加扣除如何申报？“手把手”教你填表→

俗语：有钱就想看穷亲，穷时不愿见亲人，说透世间人情冷暖

泰和大队“面对面 手把手”指导派出所消防监督业务工作

连队来了个“关系兵”

面对面访妇情 手把手教本领

「钩针教程」｜从零基础手把手教你夏日钩花衣的详细完整教程！

06.16 第四百六十九章 能“手把手”贴身教你，我可是惦记很久了

湖北：这天，一位特殊的“客人”来到检察院

寒冬送温暖 扶贫暖人心

四子王旗人民检察院一院一品队伍建设彰显特色 结出丰硕果实

小说：阮诺因为夏尤眠的不信任，和夏尤眠再起争执。

小说：一场变故后男子想洗心革面，前女友不答应

小说：他提出以丹换武，不料场面太火爆，两大族长竟为此当众斗气

小说：他穿越当院长，仅用一月时间，竟让废物少年变成超级天才

小说：胡杨得罪了女人，最后女人免租还给了工作，到底发生什么

小说：走路嚣张，敌人慌张，该出手时就出手！

小说：冤家路窄，胡杨再遇苑卿白真

中山街小学原创川剧《赵一曼》获省上一等奖

洪湖一地惊四腿“怪鱼”

中国最年轻的美女科学家，放弃国外千万年薪，只为一心报效祖国

C919发动机获得出口许可证，如果未来再被限制咋办？早有替代方案

“叛逃”美国的物理学家，前半生替美国造核弹，后半生来中国养牛

看了荣耀30s的发布会，发现一个有意思的地方。

波音逆势而上，军机复产F15改型号实现首飞，专家：沙特麻烦大了

年前辞职现在找不到工作，前公司老板请我回去，要不要吃回头草？

《道德经》笔记 第一章：道可道，非常道。

自贡VS内江2019数据大PK

四川泸州市泸县发生3.0级地震

徒弟学半年的数控车床啥也不会？到底是师傅不肯教，还是徒弟太笨

“4.15”国家安全了解一下，今天安岳举行这个活动很给力！

四川耗资280亿正修建一条新铁路：设置11个站点，有你家乡吗

四川鼓励带薪休假与五一连休，你支持吗？

宜宾正打造一个生态产居新城 快来看看

盘点世界桥梁之最，“基建狂魔”似乎从来不给外国人“留面子”

世界五大奇葩民宿，第一名过夜只需1欧元，第五名网友直呼不敢住

宜宾80分钟跑拢成都！这条高速年底通车

民宿小白如何做市场调研？怎样判断民宿选址是否合理

上海职场：唐僧遇见的第一个妖怪是谁，小伙子说八个字，当场录用

新地标 | 内江即将新增这些新地标，周边还有不少新楼盘！

上海职场：西边挂着告示，是啥字？姑娘：思维转变能力很强

金融助力复工复产不等“贷”“青春抗疫复工贷”计划发放6000余万元

宅家不如写游记—泸州

来看看！这48批次样品抽检不合格

03.02 手把手一对一协助“五小行业”规范复工

03.02 “一对一”讲透彻“手把手”教到位我市创新举措打通惠企政策落地“最后一公里”

「手把手」海军带你做《清平乐村居》吟诵教学

移动微法院法官“手把手”教您手机打官司

厦门思明“手把手”培训外卖员守护网络订餐食品安全

第504章你敢发誓吗？

泰和大队“面对面手把手”指导派出所消防监督业务工作

面对面访妇情手把手教本领

06.16 第四百六十九章能“手把手”贴身教你，我可是惦记很久了

寒冬送温暖扶贫暖人心

四子王旗人民检察院一院一品队伍建设彰显特色结出丰硕果实

《道德经》笔记第一章：道可道，非常道。

宜宾正打造一个生态产居新城快来看看

宜宾学院生工学院发挥专业优势服务地方经济发展