「實用工具」python爬蟲批量下載高清大圖

佚名

2020-12-25 18:09:35

前言

在上一篇寫文章沒高質量配圖？python爬蟲繞過限制一鍵搜索下載圖蟲創意圖片！中，我們在未登錄的情況下實現了圖蟲創意無水印高清小圖的批量下載。雖然小圖能夠在一些移動端可能展示的還行，但是放到pc端展示圖片太小效果真的是很一般！建議閱讀本文查看上一篇文章，在具體實現不做太多介紹，只講個分析思路。

當然，本文可能技術要求不是特別高，但可以當作一個下圖工具使用。

環境：python3+pycharm+requests+re+BeatifulSoup+json

在這裡插入圖片描述

這個確實也屬實有一些勉強，不少童鞋私信問我有木有下載大圖的源碼，我說可能會有，現在分享給大家。當然對於一個圖片平臺來說，高質量圖片下載可能是其核心業務，並且我看了以下，那些高質量大圖下載起來很貴！所以筆者並沒有嘗試付費下載然後查看大圖的地址，因為這個可以猜想成功率很低，並且成本比較高，退而求其次，筆者採取以下幾種方法。

對圖蟲平臺初步分析之後，得到以下觀點：

原版高質量無水印圖片下載太貴，由於沒付費下載沒有找到高質量圖的高清無水印原圖真實地址。沒有辦法(能力) 下載原版高清無水印。並且筆者也能猜測這個是一個網站的核心業務肯定也會層層設套。不會輕易獲得,所以並沒有對付費高清高質量無水印圖片窮追不捨。但是高質量展示圖在預覽時候的是可以查看帶有水印的高清圖的(帶著圖蟲創意水印)。網站有一些免費的高清大圖圖片可以獲取到。雖然這個不是精選圖，但是質量也還可以！

下載免費高清大圖

在圖蟲創意有個板塊的圖片是免費開放的。在共享圖片專欄。的圖片可以搜索下載。

https://stock.tuchong.com/topic?topicId=37 圖蟲創意url地址

找到一張圖片點進去，檢查地址你可以直接訪問得到。而有相關因素的就是一個圖片服務器域名+圖片id組成的

圖片url地址。也就是我們要批量找到這些圖片的id。

在搜索界面查看源碼，發現這個和前面的分析如出一轍，它的圖片id藏在js裡面。我們只需通過正則解析。拿到id然後拼湊url即可完成所有圖片地址，這個解析方式和上文基本完全一致，只不過是瀏覽器的URL和js的位置有相對的變化只需小量修改，然後直接爬蟲下載保存即可！而這個搜索html的url就是https://stock.tuchong.com/free/search/?term=+搜索內容。這個下載內容的實現在上一篇已經分析過。請自行查看或看下文python爬蟲代碼！這樣

下載帶水印的精選圖

好的圖片都在優選圖片專欄。然而這部分圖片我們可以免費獲取帶水印的圖片。

在登錄賬號之後點開的圖片預覽，當你點開預覽的時候是可以看得到圖片的。每張圖片對應一個唯一ID，這個地址可以獲得但是比較麻煩。我們嘗試能不能獲得一個簡單通用的url地址呢？

經過嘗試發現這個圖片的url可以在我們上面的免費高清大圖url地址共用！也就是我們可以得到這個ID通過上個url來批量獲取下載圖片！下載圖片的方法一致不需要重複造輪子。而id的獲取方法我們在下載高清小圖就已經詳細介紹過了也是一樣的。那麼分析就已經成功了，代碼將在後面給出，這樣我們可以下載帶水印的高清大圖了！ ##js的解析規則： #---- js=soup.select('script') js=js[4] pattern = re.compile(r'window.hits = (\[)(.*)(\])') va = pattern.search(str(js)).group(2)#解析js內容 #-------

在這裡插入圖片描述

當然，就配圖而言還是高質量圖的質量高很多，如果可以接受的話可以使用。唯一缺點就是圖創水印。

代碼與總結

import requests from urllib import parse from bs4 import BeautifulSoup import re import json header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Cookie': 'wluuid=66; ', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3', 'Accept-encoding': 'gzip, deflate, br', 'Accept-language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0', 'connection': 'keep-alive' , 'Host': 'stock.tuchong.com', 'Upgrade-Insecure-Requests': '1' } def mkdir(path): import os# 引入模塊 path = path.strip()# 去除首位空格 path = path.rstrip("") # 去除尾部 \ 符號 isExists = os.path.exists(path) # 判斷路徑是否存在 # 存在 True # 不存在 False if not isExists: # 判斷結果 os.makedirs(path)# 如果不存在則創建目錄 # 創建目錄操作函數 return True#print (path + ' 創建成功') else: # 如果目錄存在則不創建，並提示目錄已存在 #print(path + ' 目錄已存在') return False def downloadimage(imageid,imgname):##下載大圖和帶水印的高質量大圖 url = 'https://weiliicimg9.pstatp.com/weili/l/'+str(imageid)+'.webp' url2 = 'https://icweiliimg9.pstatp.com/weili/l/'+str(imageid)+'.webp' b=False r = requests.get(url) print(r.status_code) if(r.status_code!=200): r=requests.get(url2) with open(imgname+'.jpg', 'wb') as f: f.write(r.content) print(imgname+" 下載成功") def getText(text,free): texturl = parse.quote(text) url="https://stock.tuchong.com/"+free+"search?term="+texturl+"&use=0" print(url) req=requests.get(url,headers=header) soup=BeautifulSoup(req.text,'lxml') js=soup.select('script') path='' if not free.__eq__(''): js=js[1] path='無水印/' else: js=js[4] path='圖蟲創意/' print(js) pattern = re.compile(r'window.hits = (\[)(.*)(\])') va = pattern.search(str(js)).group(2)#解析js內容 print(va) va = va.replace('{', '{').replace('}', '},,') print(va) va = va.split(',,,') print(va) index = 1 for data in va: try: dict = json.loads(data) print(dict) imgname='img2/'+path+text+'/'+dict['title']+str(index) index+=1 mkdir('img2/'+path+text) imgid=dict['imageId'] downloadimage(imgid,imgname) except Exception as e: print(e) if __name__ == '__main__': num=input("高質量大圖帶水印輸入1，普通不帶水印輸入2:") num=int(num) free='' if num==2: free='free/' text = input('輸入關鍵詞:') getText(text,free)

這樣，整個流程就完成了，對於目錄方面，我也對圖蟲有水印的和沒水印的進行了區分，供大家使用。在使用方面，先輸入1或2(1代表有水印高質量圖，2代表共享圖)，在輸入關鍵詞即可批量下載。

在這裡插入圖片描述

最後，如果感覺可以的話歡迎點贊、轉發分享唄！

IT圈不嫌多一個朋友，筆者也希望能成為你的朋友，共同學習，共同進步！

EMUI10內測版本來了，華為mate20x實測

office2016、2019、365下載和激活，幾分鐘搞定，就是怎麼簡單

下載「火山小視頻」，查看我的更多作品

Python編程快速上手—讓繁瑣工作自動化中文高清晰完整版下載

從零學習 Linux 高清 PDF 下載

分享5個無損音樂網站，可在線檢索、播放、下載

19日下午，茂名副市長+5位區（市）長+網紅直播預售荔枝！

下載“掌上12333”APP，領紅包送10元話費

王者榮耀官方精簡版上線，安裝包大小僅197M？！

免費的抖音去水印下載視頻平臺，黑客乾貨自制！

「收藏」先看到未來，5G應用價值大盤點

手把手教你用 Python 爬取美女圖

打開新經濟的大門，2020淘寶直播新經濟報告

Jmeter 分佈式壓力測試 Nginx 性能（圖文小教程）

如何安裝勾選認證平臺安全控件，以及如何勾選認證發票

西安大唐芙蓉園（下）——西行散記（34）

【通知】關於舉辦全縣工會知識競賽活動的通知

【通知】關於舉辦全縣職工演講比賽活動的通知

python爬蟲一鍵下載無水印高清圖

百度盤不限速，速度達到10M

輕鬆解決網速限制，滿速下載你想要的資源！

亳州市渦陽人！1500萬消費券！你消費，我買單！領取方式戳進來……

拿到第一臺5G手機興奮到爆，卻用了3天找5G信號，太悲劇了

飛天茅臺搶購教程

Adjust：2020年應用趨勢報告

關於win10 2004 2020年5月更新，你需要知道的所有內容都在這裡

全國67家出版社1903冊教材免費使用！天立泰攜手中教給您送書啦

如何重裝電腦安裝Win7 系統？最簡單，最便捷的辦法，值得收藏

手腕上的私人兒童助教——360兒童手錶S1

前言

下載免費高清大圖

下載帶水印的精選圖

代碼與總結

相關文章:

EMUI10內測版本來了，華為mate20x實測

office2016、2019、365下載和激活，幾分鐘搞定，就是怎麼簡單

下載「火山小視頻」，查看我的更多作品

Python編程快速上手—讓繁瑣工作自動化 中文高清晰完整版 下載

從零學習 Linux 高清 PDF 下載

分享5個無損音樂網站，可在線檢索、播放、下載

19日下午，茂名副市長+5位區（市）長+網紅直播預售荔枝！

下載“掌上12333”APP，領紅包送10元話費

最新最牛的音樂下載神器，免費聽無損歌曲不是夢

王者榮耀官方精簡版上線，安裝包大小僅197M？！

免費的抖音去水印下載視頻平臺，黑客乾貨自制！

「收藏」 先看到未來，5G應用價值大盤點

手把手教你用 Python 爬取美女圖

打開新經濟的大門，2020淘寶直播新經濟報告

Jmeter 分佈式壓力測試 Nginx 性能（圖文小教程）

如何安裝勾選認證平臺安全控件，以及如何勾選認證發票

西安大唐芙蓉園（下）——西行散記（34）

【通知】關於舉辦全縣工會知識競賽活動的通知

【通知】關於舉辦全縣職工演講比賽活動的通知

python爬蟲一鍵下載無水印高清圖

百度盤不限速，速度達到10M

輕鬆解決網速限制，滿速下載你想要的資源！

亳州市渦陽人！1500萬消費券！你消費，我買單！領取方式戳進來……

拿到第一臺5G手機興奮到爆，卻用了3天找5G信號，太悲劇了

飛天茅臺搶購教程

Adjust：2020年應用趨勢報告

關於win10 2004 2020年5月更新，你需要知道的所有內容都在這裡

全國67家出版社1903冊教材免費使用！天立泰攜手中教給您送書啦

如何重裝電腦安裝Win7 系統？最簡單，最便捷的辦法，值得收藏

手腕上的私人兒童助教——360兒童手錶S1

111.電腦怎麼追蹤定位手機

學python從“娃娃”抓起，python基礎第2講

一次性解決你所煩惱的影視資源的所有問題

漸變彩色Hero壁紙，微軟免費Win10主題《Pride 2020 Flags》下載

用Python來實現釘釘自動打卡併發送郵件短信提醒

江蘇德龍戴南不鏽鋼項目開工

在安卓手機上玩世嘉土星SS遊戲，想玩就進來學吧

考前一週打印准考證：有些問題你需要提前注意

手機下大電影分分鐘搞定方法大全｜「最新不限速迅」「技能幹貨」

殺毒軟件和安全衛士只需其一，每日一個小技巧

51單片機玩轉物聯網基礎篇01-開發環境搭建

免費高清影視資源（二）電影電視劇下載地址和詳細步驟

DeFi@Neutrino線下活動回顧及嘉賓演講分享 PPT 下載

乾貨瀏覽器今天上線，你的手機多功能瀏覽器

乾貨影院ios端4月7號最新下載地址，蘋果用戶須知！

兩大tiktok營銷數據統計

氣哭了，剛下載了個網課，竟然是自習課，快進看了四十多分鐘的黑板。。

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

Python編程快速上手—讓繁瑣工作自動化中文高清晰完整版下載

「收藏」先看到未來，5G應用價值大盤點

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患