「微硬核」下圖下到手抽筋？手把手教你用腳本解救你的手

佚名

2020-10-26 14:40:49

我們時常會在網上瀏覽網頁的時候，看到很多美美的圖片。有些時候因為喜歡想保存下來，有些時候因為網頁瀏覽太慢，就想把圖片下載到電腦上方便查看。但是，下載圖片除非是網站提供了打包下載的功能。否則都是一張張點右鍵另存為，然後選擇保存路徑，才能下載下來。

好一點的情況是，一套圖片幾十張都在一個頁面，雖然操作到手抽筋，但好歹一個頁面搞定。但，有些每頁一個的，就需要打開幾十個頁面再一個個保存。更何況，面對美美的圖片，我們想的是，我！全！要！忙到手抽筋也沒法把一個網站的圖片全部保存下來啊。

這些圖片，我！全！要！

好的，你需要的是一個自動下載圖片的工具。網上其實有一些類似工具，但是其實自己寫也是非常容易的。本文就是手把手教你寫一個下載工具，自由下載，解放雙手。

寫工具用啥語言？“人生苦短，我用python”，所以當然是python了。

需要預先準備的：

https://www.python.org/downloads/release/python-375/ 下載python，一般都是windows版本的，現在基本都64位的，所以選擇Windows x86-64 executable installer。安裝的時候記得選擇“add to path”的選項。安裝完python，咱們還得裝幾個方便使用的庫，bs4和requests。bs4就是beautifulsoup，解析html的，requests就是方便http請求的。打開powershell，執行下面的命令

pip install bs4 -i https://mirrors.aliyun.com/pypi/simple/ pip install requests -i https://mirrors.aliyun.com/pypi/simple/

為加快安裝速度，咱們選用的是pip的國內鏡像。 -i https://mirrors.aliyun.com/pypi/simple/就是指定阿里雲的pip鏡像。

接下來選擇一個下載圖片的網站，為避免廣告導流嫌疑（雖然沒啥量），我百度上隨便搜了一個，中關村的圖片精選頁面 http://bbs.zol.com.cn/dcbbs/topic。當然實際大家自己用的肯定是自己要下載圖片的頁面地址。

好的，下面要開始碼了，碼之前我們先說說思路。總的來說，就是抓取站點頁面，然後把頁面html解析之後獲取圖片地址，再下載圖片，保存到本地。難點就是，為了抓取全部頁面，我們要解析html的時候，獲取當前頁面所有的本站地址，依次去請求處理，還得注意排除已經請求過的。

coding begin...

咱們打開自帶的edle編輯器，File->New File創建一個新文件，保存為downloader.py。

先加載庫

import bs4 import requests import os import logging import urllib.parse import sys

整個功能咱們劃分成幾個模塊，功能分別如下：

請求並解析頁面，獲取當前頁面圖片地址和站內鏈接地址根據上一步返回的站內鏈接地址，判斷是否重複，如果沒處理過，則使用上一步的方式處理該鏈接請求圖片地址，讀取之後保存到本地

咱們要完成的第一個功能模塊就是請求並解析頁面的方法，因為功能簡單單一，都用函數開發，不採用類。

headers = {'user-agent': 'image downloader/0.0.1'} def is_same_domain(base_url,url): base_url_parsed = urllib.parse.urlparse(base_url) url_parsed = urllib.parse.urlparse(url) return base_url_parsed.netloc == url_parsed.netloc def process_page(url): ''' 獲取url下所有圖片以及站內鏈接 ''' images = [] site_urls=[] try: page_req = requests.get(url, headers=headers) if page_req.status_code != 200: logging.error(url+' http code: '+str(page_req.status_code)) return images,site_urls page_parsed = bs4.BeautifulSoup(page_req.text, 'html.parser') images = [ img.attrs['src'] for img in page_parsed.find_all('img')] site_urls= [ a.attrs['href'] for a in page_parsed.find_all('a') if 'href' in a.attrs and is_same_domain(url,a.attrs['href'])] logging.info("processed "+url) return images,site_urls except Exception as e: logging.error(url+' '+str(e)) return images,site_urls

工具函數is_same_domain判斷解析的網頁地址是否和當前處理的地址是一個域名。process_page返回的是兩個list，一個是當前頁面所有的圖片地址，第二個是當前頁面所有的站內鏈接。圖片不需要判斷是否本域名，因為圖片一般會用專門的服務器，或者cdn，域名不同是很正常的事情。

接下來是根據頁面獲取的圖片地址，抓取圖片保存到本地的模塊。

def store_image(save_path, img_url): ''' 將地址為img_url的圖片保存到save_path目錄下。 ''' img_url_parsed = urllib.parse.urlparse(img_url) try: img_path = save_path+'/'+os.path.dirname(img_url_parsed.path).strip('/').replace('/','_') img_file_path = img_path + '/' + os.path.basename(img_url_parsed.path) img_req = requests.get(img_url, headers=headers) if img_req.status_code != 200: logging.error(img_url+' http code: '+str(img_req.status_code)) return False if len(img_req.content)< 100*1024: logging.warning(img_url+" too small") return True if not os.path.exists(img_path): os.makedirs(img_path) with open(img_file_path,"wb") as fp: fp.write(img_req.content) logging.info("saved "+img_url) except Exception as e: logging.error(img_url+' '+str(e))

函數store_image將圖片保存到指定的路徑save_path下，如果目錄不存在，會自動創建，這裡過濾掉了大小在100k以下的圖片。這裡為了簡化，減少了圖片的目錄深度，原地址裡面的路徑都會轉化為下劃線分隔的一個目錄，使得多級目錄簡化為一級。

再加個控制函數就大功告成了。

def site_download(url,save_path): visited_url = {} stored_img = {} to_visit = [url] while len(to_visit)>0: url = to_visit.pop() imgs,urls = process_page(url) visited_url[url]=1 for img in imgs: if img not in stored_img: stored_img[img]=1 store_image(save_path,img) for u in urls: if u not in visited_url: to_visit.append(u)

site_download接收傳入的起始地址和圖片保存路徑，然後遞歸處理所有頁面以及子頁面，並判斷是否處理過。這裡簡化了處理，都用map去表示是否訪問過，因為一般幾十萬上百萬的頁面，應該不會佔用太多內存。

加個腳本執行的入口就可以了

if __name__=="__main__": if len(sys.argv) < 3: print("usage: python downloader.py site_url img_path") sys.exit(1) site_download(sys.argv[1],sys.argv[2])

使用方法就是 python downloader.py 網站路徑圖片保存路徑

好的，早已按捺不住了，趕緊來跑一跑吧。

日誌好多

日誌好多，大部分警告和錯誤都是無用的日誌，比如https證書有問題的，網頁太久失效的，以及大部分都是圖片太小的。

我執行參數裡面，圖片保存路徑是當前目錄下的images目錄，打開看看。

全部到碗裡來了

嗯哼，全部到碗裡來了。

注意一點，這種訪問方式對服務器負載比較高，有些網站會封掉高頻訪問的ip的，所以注意在訪問時可以適量sleep降低頻率。

另外腳本會遍歷網站有鏈接的所有頁面，所以比較慢，慢慢等著吧。

最後，本文給出的只是一個抓取網站內容的代碼框架，能完成基本工作，但是很簡單，沒有處理各種可能的異常，沒有細緻地處理頁面。有興趣的同學可以自己根據需求增加細節完善，比如sleep降頻，比如根據網頁內容把同一篇文章的圖片聚合，比如根據網頁結構只抓取其中感興趣的區域的圖片等等。

全流程，手把手，助你事業單位上岸（備考篇）

郎溪縣“手把手”教貧困戶開網店

高新區消防救援大隊“手把手”指導派出所消防監督工作

醴陵：幹部全程服務“手把手”帶領貧困戶找工作

【培訓指導】鐵西大隊“手把手”指導派出所消防工作

“送教下基層”首站開啟！教官現場“手把手”教學警務技能

【一線戰例】網格員駐企沉一線 “手把手”指導防控

涉疫詐騙頻發，你需要TA→

“點對點”服務，“手把手”幫助，計劃返崗的農民工兄弟看這裡！

涉疫詐騙多發！檢察機關提示10點防騙建議

敲黑板!涉疫詐騙多發！檢察機關提示10點防騙建議

不言苦和累 “手把手”教網上立案

03.03 "一對一"講透徹 "手把手"教到位：馬鞍山市創新舉措打通惠企政策落地"最後一公里"

03.02 手把手一對一協助“五小行業”規範復工

03.02 “一對一”講透徹“手把手”教到位我市創新舉措打通惠企政策落地“最後一公里”

02.26 “手把手”“心聯心”駐企聯絡員助推復工復產加速度

湘潭市嶽塘區文旅廣體局：“點對點”上崗，“手把手”指導聯點企業復工復產

六盤水中院“手把手”教您微法院立案

屈原區駐企聯絡員：“手把手”指導“心連心”抗疫

駐企聯絡員：“手把手”指導“心連心”抗疫

駐企聯絡員：“手把手”指導 “心連心”抗疫

相關文章:

全流程，手把手，助你事業單位上岸（備考篇）

郎溪縣“手把手”教貧困戶開網店

高新區消防救援大隊“手把手”指導派出所消防監督工作

醴陵：幹部全程服務“手把手”帶領貧困戶找工作

【培訓指導】鐵西大隊“手把手”指導派出所消防工作

“送教下基層”首站開啟！教官現場“手把手”教學警務技能

【一線戰例】網格員駐企沉一線 “手把手”指導防控

涉疫詐騙頻發，你需要TA→

“點對點”服務，“手把手”幫助，計劃返崗的農民工兄弟看這裡！

涉疫詐騙多發！檢察機關提示10點防騙建議

敲黑板!涉疫詐騙多發！檢察機關提示10點防騙建議

不言苦和累 “手把手”教網上立案

03.03 "一對一"講透徹 "手把手"教到位：馬鞍山市創新舉措打通惠企政策落地"最後一公里"

03.02 手把手 一對一協助“五小行業”規範復工

03.02 “一對一”講透徹“手把手”教到位 我市創新舉措打通惠企政策落地“最後一公里”

02.26 “手把手”“心聯心”駐企聯絡員助推復工復產加速度

湘潭市嶽塘區文旅廣體局：“點對點”上崗，“手把手”指導聯點企業復工復產

六盤水中院“手把手”教您微法院立案

屈原區駐企聯絡員：“手把手”指導“心連心”抗疫

駐企聯絡員：“手把手”指導“心連心”抗疫

駐企聯絡員：“手把手”指導 “心連心”抗疫

小車高速“罷工”，高速路政“手把手”教換輪胎

貴州省市場監管局“手把手”教你如何安全點外賣

青島：公共交通實名登記咋操作？志願者“手把手”教您

「手把手」海軍帶你做《清平樂 村居》吟誦教學

「戰疫前線」貴陽高新區“86110”實務手冊“手把手”教企業防控生產兩手抓

移動微法院 法官“手把手”教您手機打官司

廈門思明“手把手”培訓外賣員 守護網絡訂餐食品安全

海寧：242名駐企聯絡員“手把手”指導企業防控

11.27 今天開始攜號轉網，哈爾濱人有辦成的嗎？｜咋辦？省通信管理局“手把手”教

企業“手把手”幫扶“窮朋友”

長沙縣：企業“手把手”幫扶“窮朋友”

一眼識破現場200個設備隱患，實拍圖片手把手教你！

第504章 你敢發誓嗎？

律師手把手教你寫訴狀

南京消防“手把手”為您培訓消防安全知識

個稅專項附加扣除如何申報？“手把手”教你填表→

俗語：有錢就想看窮親，窮時不願見親人，說透世間人情冷暖

泰和大隊“面對面 手把手”指導派出所消防監督業務工作

連隊來了個“關係兵”

面對面訪婦情 手把手教本領

「鉤針教程」｜從零基礎手把手教你夏日鉤花衣的詳細完整教程！

06.16 第四百六十九章 能“手把手”貼身教你，我可是惦記很久了

湖北：這天，一位特殊的“客人”來到檢察院

寒冬送溫暖 扶貧暖人心

四子王旗人民檢察院一院一品隊伍建設彰顯特色 結出豐碩果實

小說：阮諾因為夏尤眠的不信任，和夏尤眠再起爭執。

小說：一場變故後男子想洗心革面，前女友不答應

小說：他提出以丹換武，不料場面太火爆，兩大族長竟為此當眾鬥氣

小說：他穿越當院長，僅用一月時間，竟讓廢物少年變成超級天才

小說：胡楊得罪了女人，最後女人免租還給了工作，到底發生什麼

小說：走路囂張，敵人慌張，該出手時就出手！

小說：冤家路窄，胡楊再遇苑卿白真

中山街小學原創川劇《趙一曼》獲省上一等獎

洪湖一地驚四腿“怪魚”

中國最年輕的美女科學家，放棄國外千萬年薪，只為一心報效祖國

C919發動機獲得出口許可證，如果未來再被限制咋辦？早有替代方案

“叛逃”美國的物理學家，前半生替美國造核彈，後半生來中國養牛

看了榮耀30s的發佈會，發現一個有意思的地方。

波音逆勢而上，軍機復產F15改型號實現首飛，專家：沙特麻煩大了

年前辭職現在找不到工作，前公司老闆請我回去，要不要吃回頭草？

《道德經》筆記 第一章：道可道，非常道。

自貢VS內江2019數據大PK

四川瀘州市瀘縣發生3.0級地震

徒弟學半年的數控車床啥也不會？到底是師傅不肯教，還是徒弟太笨

“4.15”國家安全瞭解一下，今天安嶽舉行這個活動很給力！

四川耗資280億正修建一條新鐵路：設置11個站點，有你家鄉嗎

四川鼓勵帶薪休假與五一連休，你支持嗎？

宜賓正打造一個生態產居新城 快來看看

盤點世界橋樑之最，“基建狂魔”似乎從來不給外國人“留面子”

世界五大奇葩民宿，第一名過夜只需1歐元，第五名網友直呼不敢住

宜賓80分鐘跑攏成都！這條高速年底通車

民宿小白如何做市場調研？怎樣判斷民宿選址是否合理

上海職場：唐僧遇見的第一個妖怪是誰，小夥子說八個字，當場錄用

新地標 | 內江即將新增這些新地標，周邊還有不少新樓盤！

上海職場：西邊掛著告示，是啥字？姑娘：思維轉變能力很強

金融助力復工復產不等“貸”“青春抗疫復工貸”計劃發放6000餘萬元

宅家不如寫遊記—瀘州

來看看！這48批次樣品抽檢不合格

03.02 手把手一對一協助“五小行業”規範復工

03.02 “一對一”講透徹“手把手”教到位我市創新舉措打通惠企政策落地“最後一公里”

「手把手」海軍帶你做《清平樂村居》吟誦教學

移動微法院法官“手把手”教您手機打官司

廈門思明“手把手”培訓外賣員守護網絡訂餐食品安全

第504章你敢發誓嗎？

泰和大隊“面對面手把手”指導派出所消防監督業務工作

面對面訪婦情手把手教本領

06.16 第四百六十九章能“手把手”貼身教你，我可是惦記很久了

寒冬送溫暖扶貧暖人心

四子王旗人民檢察院一院一品隊伍建設彰顯特色結出豐碩果實

《道德經》筆記第一章：道可道，非常道。

宜賓正打造一個生態產居新城快來看看

宜賓學院生工學院發揮專業優勢服務地方經濟發展