爬蟲實戰：一鍵爬光指定網站所有圖片（一）

2020-03-31 06:03:41 明哥玩編程

前言：

最近自己在做圖片處理工具，最開始的初衷只是為了做一個圖片深度學習項目，做的時候缺少大量的圖片素材，手動去下載自己又是比較懶，並且操作起來非常的麻煩，於是自己寫了一個單頁面全圖片的爬蟲，等自己實現完功能之後，發現又有很多功能是可以優化的，於是在這個基礎上我又做了一下功能升級，最終出了一個爬取指定網站所有圖片的版本，我會在下面的實際過程中進行說明。本篇著重說明指定頁面的圖片抓取。

本教程最終結果已錄視頻：

項目目標：

指定某一頁面進行圖片資源進行爬取，保存到本地硬盤。

項目分析：

1、本項目我們要實現某一個指定網站的頁面URL，也就是提取href的鏈接。並將所有的內鏈創建到下一個任務當中去。

2、除了頁面中的href鏈接，我們還要讀取頁面中所有圖片元素，通過get方式進行訪問，讀取後保存。

簡單分析了一下，我們開始代碼的實現

首先完成第2項的功能，我們要將頁面圖片元素提取出來，並寫入到一個指定的文件目錄當中，根據url中的文件名進行保存處理，考慮到我們未來功能複用性，所以我單獨為單頁面文件下載實現了一個類，（當然最終實現之後，發現Python中存在一些問題，這裡我們在尾部再做解釋）

我們先定義一個類，這裡命名叫“DownloadImage.py”，因為是通過curl方式進行抓取採集圖片列表，我們要定義一個header頭屬性，以及一個保存圖片的本地的地址，定義代碼如下：

<code>headers = {
# 用戶代理
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
_downloadDir = './img/'/<code>

因為這個類我們要複用，所以單獨放到一個py文件中，方便後面進行引用。

在類的構造方法中，我們需要進行一個參數的初始化。為了下載指定頁面的圖片，那麼我們需要指定一個頁面（必要參數），為了路徑可定義化，我們考慮增加了一個可選的本地存放的路徑參數。另外，因為每個頁面其實有些圖片我們是不需要的，比如一些頁面的logo.gif，style.css中的樣式圖片我們並不需要，那我們這裡就定義了一個圖片過濾參數。

定義完之後我們需要對對象中的參數進行賦值，並初始化相關的參數。

<code>def __init__(self,url,download_path=None,filter=[]):
    self.url = url
    self.initUrl()
    self.filter =filter

    # 定義圖片下載圖徑
    if download_path:
        self.downloadPath=self._downloadDir + download_path
    else:
        self.downloadPath=self._downloadDir + self.urlParse.netloc
    self.makeDir()
    self.getImages()/<code>

首頁我們在傳入Url之後，將這個url賦給個類，方便對象中直接調用，然後我們要將url進行一個格式化，解析一次。

這個方法名就是initUrl()，方法的主用要途對過 urlparse方法，將url的域名和參數進行分離。整理成我們需要的格式。

原因是因為在http的頁面當中，我們定義圖片會有幾種格式：

1.絕對路徑，大部分網站的圖片url都是這樣，單獨配置了域名資源進行顯示

2.相對路徑，有很多網站只有一臺服務器，會把靜態資源和html文件放在一起

3.某些站點的域名證書綁定是兼容性的，所以也會有//前綴進行http和https的兼容處理。

處理完url之後，我們將圖片的過濾增加進去，方法我不再細說，處理方式是通過正則進入搜索匹配來過濾的，比如傳入['png','gif']，那麼所有的png和gif都不再被下載。

然後我們再說一下makeDir，初始化時會判斷文件下載目錄是否存在，如果不存在，則新建。

<code>def makeDir(self):
    if not os.path.exists(self.downloadPath):
        os.makedirs(self.downloadPath)/<code>

最後，我們通過curl獲取傳參的url頁面中所有的圖片地址！

<code>def getImages(self): 

    response = requests.get(self.url, headers=self.headers)
    if response.status_code == 200:
        html = et.HTML(response.text)
        images = html.xpath('//img/@src')
        if self.filter:
            match = '|'.join(self.filter)
            self.Imageurls = []
            for value in images:
                if not re.search(match,value):
                    self.Imageurls.append(value)

        else:
            self.Imageurls=images
    else:
        return None/<code>

最終類代碼如下：

<code># 抓取指定網頁所有圖片保存到本地
import requests
import os
from urllib.parse import *
from lxml import etree as et
import re
import sys
# 請求頭
class DownloadImage(object):
    headers = {
    # 用戶代理
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    _downloadDir = './img/'

    def __init__(self,url,download_path=None,filter=[]):
        self.url = url
        self.initUrl()
        self.filter =filter

        # 定義圖片下載圖徑
        if download_path:
            self.downloadPath=self._downloadDir + download_path
        else:
            self.downloadPath=self._downloadDir + self.urlParse.netloc
        self.makeDir()
        self.getImages()

    #通用圖片路徑方法格式化 

    def initUrl(self):
        self.urlParse=urlparse(self.url)

    def getImages(self):
        response = requests.get(self.url, headers=self.headers)
        if response.status_code == 200:
            html = et.HTML(response.text)
            images = html.xpath('//img/@src')
            if self.filter:
                match = '|'.join(self.filter)
                self.Imageurls = []
                for value in images:
                    if not re.search(match,value):
                        self.Imageurls.append(value)

            else:
                self.Imageurls=images
        else:
            return None

    #格式化圖片URL
    def formatImageUrls(self,url):
        imgParase = urlparse(url)
        if not imgParase.netloc:
            imgpath = "%s://%s/%s" %(self.urlParse.scheme,self.urlParse.netloc,imgParase.path)
        else:
            imgpath = urljoin(self.url,url)
        return imgpath
    # 保存圖片
    def downloadImage(self,url):
        print("download :" + url)
        arr = url.split('/')
        file_name = self.downloadPath +'/' + arr[-1]
        # file_name = self.downloadPath +'/' + arr[-2] +'/' + arr[-1]
        try:
            response = requests.get(url, headers=self.headers)
            with open(file_name, 'wb') as fp:
                for data in response.iter_content(128):
                    fp.write(data)
            self.start = self.start+1
            return file_name
        except:
            print("download error")

    def makeDir(self):
        if not os.path.exists(self.downloadPath):
            os.makedirs(self.downloadPath)

    def run(self):
        for img in self.Imageurls: 

            self.downloadImage(self.formatImageUrls(img))/<code>

相關的頭文件引用，大家可以參考python手冊，這裡不再細說。

新建一個單頁的download_image_page.py文件。

<code>import argparse
from DownloadImage import DownloadImage
def getArgv():
    parser = argparse.ArgumentParser()
    parser.add_argument('-i', '--uri', dest='Url', type=str, default='root', help='target Url')
    args= parser.parse_args()
    return args.Url

if __name__ == '__main__':
    url = getArgv()
    obj=DownloadImage(url,None)
    obj.run()/<code>

在控制檯中運行：python3 download_image_page.py -i https://www.baidu.com

可以看到執行結果。

這裡大家注意了，因為我最開始要做的是單頁面採集，最開始設計的時候並未考慮圖片的採集控制，這裡算是一個優化點。

第一階段結束，因為篇幅原因，整站部分的說明我將在下一篇中進行講解說明。當然，代碼已經上傳，感興趣的朋友可以先行clone。

代碼地址：https://gitee.com/python_play/download_image

本文是“明哥陪你學Python”系列章節之一，如果你對Python有更多興趣，或有問題，可以私信與明哥聯繫，我會陪你一起解決，其它相關章節可以從首頁中的“明哥陪你學Python”列表進行查看。

本系列教程及源碼地址：https://gitee.com/python_play/study_python

最後：如果你正在學習Python的路上，或者準備打算學習Python、明哥會陪著你陪你一起共同進步！

手打不易，有用的話，請記得關注轉發。

分享到:

閱讀更多 明哥玩編程 的文章

關鍵字: 網絡爬蟲 Safari

洛陽市直屬學校普通高中例會一組“綻放青春強國擔當洛陽青年話五四”雲團課開講了

2020年5月3日，在“洛小青工作室”釘釘群，一場別開生面的主題雲團課開講了。本期雲團課由洛陽市第十四中學團委書記陳曉慶召集、例會組各學校團委書記聯合發起，洛陽市第十五中學團委書記張改霞擔任主持人，洛陽梅森高中團委書記李藝丹擔任團課群班長。雲團課在團市委學校部部長郭兵指導下進行。

貞豐中學：開展模擬演練加強防控備開學

洛陽小學生開學，家長稱神獸歸籠，校長呼籲家校共擔教育責任

大河報·大河客戶端記者

36秒｜設立體溫檢測通道、調整班級！棗莊初中畢業生開學復課紮緊防疫“安全網”

齊魯網·閃電新聞5月6日訊

2020看中考名校丨南京航空航天大學附屬高級中學：夢想領航

前行時被絆倒的傷痛，由夢想來治癒。就算被捆綁住努力，心裡的夢一樣能掙脫束縛飛翔，就算有再大的風，也擋不住勇敢的衝動。那是夢想在雲端閃閃發亮，指引著我們勇敢飛翔。

高考總複習系列-第1節課實錄-集合與函數

本視頻為高考總複習系列：第一節課實錄主要內容為集合總複習，高中指數函數，對數函數，冪函數的複習接下來會持續更新總複習系列

《聲律啟蒙》系列微課（一）

《聲律啟蒙》由清代進士車萬育按韻編寫，內容涉及歷史典故、天文地理、花草樹木……是一部豐富學生知識的百科全書，更是一部讀起來朗朗上口，利於孩子掌握聲韻格律、學習詩文對句，習得寫作技巧的啟蒙讀物。2020年4月，教育部首次向全國中小學生髮布的閱讀指導目錄裡，將《聲律啟蒙》列入其中。

答辯老師，“您批評得是”

撰文、

仙桃八千多名高中畢業年級學子今日開學，現場是這樣子的！

期待著，盼望著終於迎來了屬於我們的開學季5月6日，湖北省高三年級統一開學同學們回到了闊別已久學校今天，全市11所高中畢業年級（含中職和技校）共8685名學子先行開學啦史上“最長寒假”正式結束高三學子踏入闊別已久的校園為復課做足準備所有高三畢業年級的學校全都開啟“滿格電”模式對校園

被世界前1%大學（uwo）認可的線上英語課程

想上世界名校，是否也在一直找尋一個合適孩子的網課？還沒拿到大學offer，是否也一直苦惱，刷不出雅思分數？即使拿到了offer，

中國大學生的英語聽說水平不如美國3歲小孩？

試問一個土生土長中國人，英語學到什麼程度，才算是高手？過了專業八級？託福雅思考高分？其實都不是，能無障礙聽懂英語國家的電視節目，才是英語高手。能做到這一點，那麼，他在國內的英語學習領域可以說是冠絕群雄，達到了獨孤求敗的境地。因為，國人學習英語的方法，註定了大家幾乎不能做到這一點。

100個戰“疫”感動瞬間成學校鮮活教材

4月下旬，我市各小學陸續復課。天元區銀海學校的學生們收到了一份特殊的教材，由孩子們自己創作的《感動生命的100個瞬間----全民抗疫戰特輯》，記錄了疫情防控阻擊戰中孩子們的所見、所思、所感。

今日，鄭州市中學全面復學中招考試信息採集同時啟動

5月6日一早，鄭州市高一高二，初一初二年級學子重返久違的校園，

久違的校園，我們回來了！鄭州市中學今日全面復學

美麗的五月如期而至，5月6日一早，伴隨著初升的朝陽，鄭州市高一高二，初一初二年級學子重返久違的校園，和提前復課的高三、初三學長學姐們一道“重啟”校園生活

李玫瑾教授：孩子的問題是成人造成的，出現問題需從大人身上解決

孩子的問題，往往是成年人造就的。孩子的每種心理和行為，和父母的行為有關，和父母的教育方式有關。真正要解決的問題，不在於孩子，而在於父母和家庭。未成年人的問題是滯後反映。青春期的問題，癥結在12歲以前，或更早。

武漢市第十四中學：一個班級一層樓，抗疫志願者上開學第一課

楚天都市報5月6日訊高三複學返校第一天，早上6點50，武漢市第十四中學校園內已經有不少學生了。他們揹著書包，互相打著招呼，不少學生說：十分想念，所以早點來。

開學復課：柘裡渡小學：分通道進教室

在高新區柘裡渡小學，學生們則在老師的引導下，分兩個通道測溫消毒後，有序進入久違的校園。【同期聲】肖敏

濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作

齊魯網·閃電新聞5月5日訊5月5日上午，濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作時強調，要始終把師生生命安全和身體健康放在第一位，精準有效抓好學校疫情防控工作，充分做好初中學校畢業年級開學復課各項準備，切實守牢校園安全底線。

阿卡索家長課堂：孩子不願意開口？在線英語創造純英文學習環境！

以下兩個場景可能家長們並不陌生：場景一：當你和孩子在逛街的途中，這時遇到了一個問路的外國人，你希望你的孩子能夠大膽、自信地去跟外國人溝通並幫助他。但是孩子卻顯得不知所措，甚至不願意開口。

長清區萬德界首小學春意盡萬物秀盛始夏萬物長夏天系列發佈

濟南市長清區萬德界首小學——界首教育春風化雨

基於SpringBoot的城院疫情防控系統的設計與實現(ssm,mysql)

【項目包含內容】

如何看待大多青年不認可《後浪》？

今天，我在朋友圈看到了很多“唱反調”的文章、評論，比如：《為什麼朋友圈裡轉發後浪的大多是領導和老闆、叔叔阿姨？》《我不是B站所謂的後浪》“中年討好新生代”“年輕人真的喜歡嗎？

創意跑紀念五四，南航學生雲端“火炬接力”

揚子晚報網5月4日訊（通訊員

視頻丨我市組織開展初中畢業年級師生血清抗體檢測

【導語】全市初中畢業年級將於5月6號正式開學。為全面做好開學復課工作，3號、4號兩天，我市組織對初中畢業年級師生、後勤服務人員及工作組成員開展血清抗體檢測。

4000英語核心詞彙學習（2）Book1Unit2 圖解+英英釋義+例句+閱讀

如何開始一段英文對話？有時候想要和英語母語者分享自己的故事，卻不知道怎麼去述說。話到嘴邊，卻找不到一個合適的詞彙。在學習英語的過程中，好比建房子，詞彙便是磚瓦。今天接著給大家分享

深圳一線名師是怎麼上課的？中考語文：人物描寫方法及作用

福田區教科院邀請、招募全區各中學語文學科組長、名師、骨幹精心設計製作考點課件+考點學習單+講練結合的微課+考點針對性練習學習包，一共製作了72箇中考語文考點學習資料包。

深圳一線名師是怎麼上課的？中考語文：議論文拓展開放題

深圳一線名師是怎麼上課的？中考語文：論證方法及其作用

深圳一線名師是怎麼上課的？中考語文：論據的辨析

深圳一線名師是怎麼上課的？中考語文：如何找論點&開頭的作用

深圳一線名師是怎麼上課的？中考語文：議論文補充論據

在tomcat如何進行斷點調試

Eclipse會為每一個tomcat部署的項目單獨建立一份配置文件。tomcat真正訪問的是tomcat部署的web項目，tomcat部署的web項目對應著工作空間項目的web目錄下的所有資源。在tomcat裡面如何進行斷點調試。

小學數學一招教你秒懂【一位數乘99得簡便算法】看誰算的快

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題的可以在留言區討論，後期會為大家帶來更多的視頻和資料！！敬請關注！！

小學數學必考【巧算題】

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題可以留言，後期會為大家帶來更多的學習視頻和資料！！敬請關注！！

【社科戰疫快報－278期】濱職馬克思主義學院系列“思政課戰疫小課堂”之“全球疫情防控中的大國擔當”

★舉旗幟

基於SSM技術的高考輔助選校系統的設計與實現(SSM,MySQL)

【項目包含內容】

webservlet註解

瀏覽器訪問servlet的簡單方法前面我們是通過web.xml的配置來訪問的，太複雜了，因為每寫一個servlet都需要在xml中寫那麼多代碼Servlet3.0:好處:支持註解配置。可以不需要web.xml了。步驟:1.創建JavaEE項目，選擇Servlet的版本3.

看外教老師怎麼帶小學員幾分鐘學會表達自己喜歡的食物

今天，要給大家介紹的外教老師是老師Angie。在這節課上，安吉老師帶著小學員幾分鐘就學會了表達自己喜歡的食物。她是如何做到的呢？我們一起來看一下吧！首先，外教老師用圖片教會孩子幾個常見的食物單詞。一邊教單詞，一邊問孩子，“Do

半年300小時聽力輸入，父與子繪本的故事他能輕鬆背出來！

大思英語小達人755期：元寶

放飛春天！東南大學手繪風箏節來啦

記者從東南大學瞭解到，五一期間，東大舉行了“春到九龍”風箏設計與放飛活動。活動採用線上預約的方式，在5月1日-5日期間分批、分時間進行，現場設有放風箏、手繪風箏、踢鍵子、跳繩等項目，來自各院系的近500名師生報名參加。

「品質白中●化雨」五四精神傳承有我—白關中學組織開展“我們的青春在白中”五四主題活動

—中國青年節—

深圳一線名師是怎麼上課的？中考語文：文言詞語解釋專題複習

濰坊錦海小學：向勞動者致敬，我有我的方式！

“民生在勤，勤則不匱”，勞動是財富的源泉，也是幸福的源泉。“夙興夜寐，灑掃庭內”，熱愛勞動是中華民族的優秀傳統，綿延至今。　　近日，濰坊錦海小學開展了“勞動最光榮”系列活動，以激發學生內心對勞動的尊重，培養勤勞的品質，爭做新時代有為青年！

深圳一線名師是怎麼上課的？中考語文：如何概括散文和小說的主題

深圳一線名師怎麼上課？中考語文閱讀《分析句子的含義和作用》

2.適用於EDIUS 8的HitFilm Ignite

在此播客中，我們介紹由FXHome推出的EDIUS

深圳一線名師課：中考語文閱讀《說明文開頭的作用和延伸拓展題》

深圳一線名師是怎麼上課的？中考《理清說明順序，篩選關鍵信息》

TED演講中英字幕：成為孩子堅定不移的支持者（視頻+演講稿）

關鍵詞（Keyword）：TED演講，潛能，支持者，相信，擁護者，演講簡介：如何把每一個孩子培養成自信、自在、努力、內心充盈的最優秀的那個自己？一個好老師能發掘出孩子的潛能，一個合格的老師，就會堅信每一個孩子都是最棒的。

Jsp+Ssm+Mysql校園二手市場交易平臺(源碼)+運行指導視頻

【功能描述】本項目是一款由jsp+ssm+mysql實現的校園二手市場交易平臺，本系統一共有三種角色