python爬蟲一鍵下載無水印高清圖

佚名

2020-12-16 20:34:04

文章目錄

前言分析理想狀態實際分析爬蟲實現其他注意效果與總結

前言

在我們寫文章(頭條、博客、公眾號、自媒體)的時候，常常覺得自己的文章有些老土，這很大程度是因為配圖沒有選好。

筆者也是遇到相同的情況，順便解決其中一個案例，給大家一些技術上的參考和借鑑！

並且，我們搜圖片如果去百度，會遇到兩種情況：非高清或者帶水印。這都是我們所忌諱的東西。筆者此次通過圖蟲創意抓起高清小圖，雖然不是大圖，但是在火熱的移動端閱讀上是足夠的！

分析

廢話說完了，我們開始分析怎麼樣才能獲取這樣的圖片呢。

理想狀態

我們的理想狀態就是一個網頁，我們的目標網頁，把圖片直接放到html中。我們的爬蟲可以直接解析。這種情況，就像你寫的博客，個人網站的圖片一樣，簡單嵌入。

或者就是通過後臺ajax傳輸圖片地址引用。我們不清楚是否這樣！

實際分析

但事實這種肯定會被理想破滅，因為不可能！他以圖片為核心業務，要你註冊，購買等等，怎麼可能就這麼容易的嵌入進入被你找到。

那它到底如何實現呢？我們分析一下！

首先打開網頁，檢查圖片，發現它的網頁圖片來源不唯一。有兩個主要域名ice和wel，並且後面的編號還不唯一，但是可以嘗試發現相同域名不同後綴的圖片地址結果相同！（例如icweiliimg9和icweiliimg/效果相同）。

我們發現原來這個搜索url會變化，但是這個查看網頁源代碼發現並沒有我們想要的圖片地址。那麼我們肯定知道它要麼從ajax渲染，或者就藏在js中進行混淆或者加密。我們發現這個xhr中並沒有想要的數據，並且他其實藏在js中。

其實這個可以猜想到的，因為它的url既然跟著變化那麼返回的數據肯定是有區別的。

那麼分析就到這裡，剩下就是python爬蟲的模擬和解析了。

爬蟲實現

前面說到已經知道它的數據源，我們用python編寫爬蟲需要進行模擬。經過測試發現它需要進行一些驗證，其中包過cookie的wluuid字段（只驗證存在，不驗證正確性）。

那麼我們編寫一段代碼就能拿到網頁html。但是問題來了。數據藏在js裡面啊！！！

我們只能用正則進行套了！

對於這個js，我們通過js=soup.select('script') js=js[4]即可獲取。

對於有用數據，只能正則截取。

pattern = re.compile(r'window.hits = (\[)(.*)(\])')

va = pattern.search(str(js)).group(2)#解析js內容

但是這個類似json的串用,拼接我們無法直接使用spilt分組分開，但是我們可以從}全部替換成},,那麼就三個,,,我們就可以分割而不影響其他json串內,；split之後每組都滿足json串格式，

直接轉成json取值即可！

那麼剩下拿到url直接構造url然後下載圖片即可！

其他注意

圖片下載：

下載圖片有很多圖片無名稱或者名字相同，避免這個不下載要進行編號兩個url域名需要嘗試下載其中一個成功即完成下載！

爬蟲方面

全程不需要登錄，下載為高清小圖。後續可以考慮研究登錄後的大圖分享給大家！

其他

創建圖片路徑要考慮路徑是否存在！

效果與總結

通過上述分析：編寫爬蟲：

import requests from urllib import parse from bs4 import BeautifulSoup import re import json header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Cookie': 'wluuid=66; ', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3', 'Accept-encoding': 'gzip, deflate, br', 'Accept-language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0', 'connection': 'keep-alive' , 'Host': 'stock.tuchong.com', 'Upgrade-Insecure-Requests': '1' } def mkdir(path): import os# 引入模塊 path = path.strip()# 去除首位空格 path = path.rstrip("") # 去除尾部 \ 符號 isExists = os.path.exists(path) # 判斷路徑是否存在 # 存在 True # 不存在 False if not isExists: # 判斷結果 os.makedirs(path)# 如果不存在則創建目錄 # 創建目錄操作函數 return True#print (path + ' 創建成功') else: # 如果目錄存在則不創建，並提示目錄已存在 #print(path + ' 目錄已存在') return False def downloadimage(imageid,imgname): url = 'https://weiliicimg9.pstatp.com/weili/ms/'+str(imageid)+'.webp' url2 = 'https://icweiliimg9.pstatp.com/weili/ms/'+str(imageid)+'.webp' b=False r = requests.get(url) print(r.status_code) if(r.status_code!=200): r=requests.get(url2) with open(imgname+'.jpg', 'wb') as f: f.write(r.content) print(imgname+" 下載成功") def getText(text): texturl = parse.quote(text) url="https://stock.tuchong.com/search?term="+texturl+"&use=0" req=requests.get(url,headers=header) soup=BeautifulSoup(req.text,'lxml') js=soup.select('script') js=js[4] print(js) pattern = re.compile(r'window.hits = (\[)(.*)(\])') va = pattern.search(str(js)).group(2)#解析js內容 print(va) va = va.replace('{', '{').replace('}', '},,') print(va) va = va.split(',,,') print(va) index = 1 for data in va: try: dict = json.loads(data) print(dict) imgname='img/'+text+'/'+dict['title']+str(index) index+=1 mkdir('img/'+text) imgid=dict['imageId'] downloadimage(imgid,imgname) except Exception as e: print(e) if __name__ == '__main__': getText(text=input('輸入關鍵詞:'))

測試結果：

打開文件夾：

發現nice！你只需要輸入關鍵詞即可實現自動下載，雖然是小圖，但是效果不錯！

移動端頭條、公眾號和博客效果！

不難發現，整個過程就是分析和處理字符串的邏輯難點。數據結構與算法紮實了處理問題都不難

歡迎轉發！分享！

EMUI10內測版本來了，華為mate20x實測

office2016、2019、365下載和激活，幾分鐘搞定，就是怎麼簡單

下載「火山小視頻」，查看我的更多作品

Python編程快速上手—讓繁瑣工作自動化中文高清晰完整版下載

從零學習 Linux 高清 PDF 下載

分享5個無損音樂網站，可在線檢索、播放、下載

19日下午，茂名副市長+5位區（市）長+網紅直播預售荔枝！

下載“掌上12333”APP，領紅包送10元話費

阿里媽媽聯合天貓發佈《2020年5G手機白皮書》

王者榮耀官方精簡版上線，安裝包大小僅197M？！

免費的抖音去水印下載視頻平臺，黑客乾貨自制！

「收藏」先看到未來，5G應用價值大盤點

手把手教你用 Python 爬取美女圖

打開新經濟的大門，2020淘寶直播新經濟報告

Jmeter 分佈式壓力測試 Nginx 性能（圖文小教程）

如何安裝勾選認證平臺安全控件，以及如何勾選認證發票

西安大唐芙蓉園（下）——西行散記（34）

【通知】關於舉辦全縣工會知識競賽活動的通知

【通知】關於舉辦全縣職工演講比賽活動的通知

百度盤不限速，速度達到10M

前言

分析

效果與總結

相關文章:

EMUI10內測版本來了，華為mate20x實測

office2016、2019、365下載和激活，幾分鐘搞定，就是怎麼簡單

下載「火山小視頻」，查看我的更多作品

Python編程快速上手—讓繁瑣工作自動化 中文高清晰完整版 下載

從零學習 Linux 高清 PDF 下載

分享5個無損音樂網站，可在線檢索、播放、下載

19日下午，茂名副市長+5位區（市）長+網紅直播預售荔枝！

下載“掌上12333”APP，領紅包送10元話費

阿里媽媽聯合天貓發佈《2020年5G手機白皮書》

最新最牛的音樂下載神器，免費聽無損歌曲不是夢

王者榮耀官方精簡版上線，安裝包大小僅197M？！

免費的抖音去水印下載視頻平臺，黑客乾貨自制！

「收藏」 先看到未來，5G應用價值大盤點

手把手教你用 Python 爬取美女圖

打開新經濟的大門，2020淘寶直播新經濟報告

Jmeter 分佈式壓力測試 Nginx 性能（圖文小教程）

如何安裝勾選認證平臺安全控件，以及如何勾選認證發票

西安大唐芙蓉園（下）——西行散記（34）

【通知】關於舉辦全縣工會知識競賽活動的通知

【通知】關於舉辦全縣職工演講比賽活動的通知

百度盤不限速，速度達到10M

輕鬆解決網速限制，滿速下載你想要的資源！

亳州市渦陽人！1500萬消費券！你消費，我買單！領取方式戳進來……

拿到第一臺5G手機興奮到爆，卻用了3天找5G信號，太悲劇了

飛天茅臺搶購教程

Adjust：2020年應用趨勢報告

關於win10 2004 2020年5月更新，你需要知道的所有內容都在這裡

全國67家出版社1903冊教材免費使用！天立泰攜手中教給您送書啦

如何重裝電腦安裝Win7 系統？最簡單，最便捷的辦法，值得收藏

手腕上的私人兒童助教——360兒童手錶S1

111.電腦怎麼追蹤定位手機

學python從“娃娃”抓起，python基礎第2講

一次性解決你所煩惱的影視資源的所有問題

漸變彩色Hero壁紙，微軟免費Win10主題《Pride 2020 Flags》下載

用Python來實現釘釘自動打卡併發送郵件短信提醒

江蘇德龍戴南不鏽鋼項目開工

在安卓手機上玩世嘉土星SS遊戲，想玩就進來學吧

考前一週打印准考證：有些問題你需要提前注意

手機下大電影分分鐘搞定方法大全｜「最新不限速迅」「技能幹貨」

殺毒軟件和安全衛士只需其一，每日一個小技巧

51單片機玩轉物聯網基礎篇01-開發環境搭建

免費高清影視資源（二）電影電視劇下載地址和詳細步驟

DeFi@Neutrino線下活動回顧及嘉賓演講分享 PPT 下載

乾貨瀏覽器今天上線，你的手機多功能瀏覽器

乾貨影院ios端4月7號最新下載地址，蘋果用戶須知！

兩大tiktok營銷數據統計

氣哭了，剛下載了個網課，竟然是自習課，快進看了四十多分鐘的黑板。。

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

Python編程快速上手—讓繁瑣工作自動化中文高清晰完整版下載

「收藏」先看到未來，5G應用價值大盤點

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患