06.06 python網絡爬蟲簡明手冊1

2018-06-06 07:49:59 測試幫日記

1 網絡爬蟲是何物？

說到網絡爬蟲，然而它並不是一種爬蟲~

而是一種可以在網上任意搜索的一個腳本程序。

有人說一定要解釋網絡爬蟲到底是幹毛用的。

嘗試用了很多種解釋，最終歸納為一句話：

“你再也不必用鼠標一條一條從網頁上拷貝信息！”

一個爬蟲程序將會高效並且準確的從網上拿到你希望要到的所有信息，從而省去你的以下行

為：

while(no_dead)

{

尋找網頁;

鼠標點擊;

ctrl-c；

crtl-v；

翻頁；

}

當然網絡爬蟲的真正意義不僅如此，由於它可以自動提取網頁信息，使他成為了搜索引擎從

萬維網上下載網頁的重要利器。

下面我們來介紹一下網絡爬蟲的正經定義。

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，更經常的稱為網頁追逐者），是一種按照一定

的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自

動索引、模擬程序或者蠕蟲。

網絡爬蟲 (web Spider)，Spider是蜘蛛的意思，實際上名字是很形象的，他們把互聯網比喻

成一個蜘蛛網，那麼所謂的這個spider就在網上爬來爬去。這個網絡蜘蛛是通過網頁的鏈接

地址來尋找網頁的。

蜘蛛的主要行徑：網頁首頁—>讀取網頁內容—>找到網頁中其他的鏈接地址—>其他網頁的

首頁—>……

這樣的循環下去，直到將這個網站上所有的網頁都吃光（網頁上所有的信息全部用蜘蛛得

到）。

如果你敢把互聯網比喻成一個網站，一定會有那麼一個網絡蜘蛛能夠可以把整個互聯網的資

源全部吃光！！！

ok，那麼顯而易見，網絡爬蟲的基本操作就是抓取網頁。網頁地址就是一個叫URL的東西，

那麼我們先要簡單處理一下URL。

2 URL初步概念

我們先來介紹一下瀏覽網頁的基本過程。

比如我們在瀏覽器地址欄輸入

http://www.itcast.cn

整個過程大致會發生以下步驟：

1. 本地瀏覽器(客戶端) ——–請求——-> 傳智服務器(服務端)

2. 本地瀏覽器(客戶端)

3. 本地瀏覽器(客戶端) 進行解析文件數據並且展現。

那麼實際上瀏覽器用的是一種叫html標記的語言來進行解析的。

html標記語言：http://www.w3school.com.cn/

ok，那麼到底誰是URL呢，說了半天， http://www.itcast.cn 它！就是URL！沒錯，就

是它！

我們給瀏覽器輸入的地址，實際上就是一個url(Uniform Resource Locator) 統一資源定位符。

就是地址啦，搞學術的人非得弄的很高端。

明明是高利貸，他們非得說成p2p，明明是算命的，他們非得說成分析師~

URL的一般格式是： protocol:// hostname[:port] / path / [;parameters][?query]#fragment

基本上是由三部分組成：

1 協議(HTTP呀，FTP呀~~等等)

2 主機的IP地址(或者域名)

3 請求主機資源的具體地址（目錄，文件名等）

其中:

第一部分和第二部分用 “://” 分割

第二部分和第三部分用 “/” 分割

1://2/3 —–> http://www.itcast.cn/channel/teacher.shtml#ac

下面看幾個URL例子：

http://xianluomao.sinaapp.com/game

其中

協議http，

計算機域名xianluomao.sinaapp.com,

請求目錄game

http://help.qunar.com/list.html

其中協議http，

計算機域名help.qunar.com

文件list.html

網絡爬蟲的主要處理對象就是類似於以上的URL，爬蟲根據URL地址取得所需要的文

件內容，然後對它進一步的處理。

3 python 與 urllib2

現在迫不及待已經想要嘗試一下url和網絡爬蟲的配合關係了。說道編程我們必須採用一種編

程語言。

這裡我們選擇的是python，python的可移植性和精煉簡潔的特徵無疑是跨平臺腳本的最好語

言選擇。

我們這裡使用的是：python2.7.x 版本，就是2.7之後的版本，Python3的改動略大，

這裡不用它。

我們上一節已經介紹過，爬蟲就是把URL地址中的網絡資源讀取出來，然後處理（保存到本

地，或者打印等等）

當然我們可以通過鼠標和瀏覽器來幹這件事，但是如果落實到代碼上改如何處理之呢？

這時候就出來一個組件： urllib2 。

這個哥們是Python獲取URL的一個組件。

我們首先創建一個urllib2_test01.py ,然後輸入以下代碼

import urllib2

response = urllib2.urlopen('http://www.baidu.com')

html = response.read()

print html

Quite Easy! 最簡單的獲取一個url的信息代碼居然只需要4行！

執行寫的python代碼，

python urllib2_test.py

會看到以下結果。

e="application/opensearchdescription+xml" href="/content-search.xm

l" title="百度搜索" /><link><link><link><link>

l="dns-prefetch" href="//t2.baidu.com"/><link>

ef="//t3.baidu.com"/><link><link><link><link>

f="//b1.bdstatic.com"/>

...

實際上，如果我們在瀏覽器上打開百度主頁，右鍵選擇“查看源代碼”，你會發現，跟我們剛

才打印出來的是一模一樣。也就是說，上面的4行代碼就已經幫我們把百度的首頁的全部代

碼爬了下來。

我們來分析一下上面的這4行代碼：

首先

import urllib2

沒什麼說的，就是將urllib2組建引入進來，供給我們使用。

response = urllib2.urlopen('http://www.baidu.com')

然後調用urllib2庫中的urlopen方法，該方法接受一個url地址，然後將請求後的得到的回應封

裝到一個叫response對象中。

html = response.read()

然後調用response對象的read()方法，將請求的回應內容以字符串形式給html變量。

最後的print html就是將字符串打出來。

所以說一個基本的url請求是對應的python代碼是非常簡單的。

當然還有第二種寫法，先通過將一個url地址轉換成一個Request請求對象，再將Request請

求對象作為參數傳遞給urlopen方法。

import urllib2

req = urllib2.Request('http://www.baidu.com')

response = urllib2.urlopen(req)

my_page = response.read()

print my_page

但是這樣直接用python的urllib2給一個網站發送請求的話，確實略有些唐突了，就好比，人

家每家都有門，你以一個路人的身份直接闖進去顯然不是很禮貌，有可能對於有的網站會

拒絕你的請求。

但是如果我們用一個合法的身份去請求別人網站，顯然人家就是歡迎的。

所以我們就應該給我們的這個代碼加上一個身份，就是所謂的 User-Agent 頭。

what？這是個什麼鬼？顯然如果你不是學習前端專業的，這個東西確實對於C或者後端開發

工程師是一個頭疼的東西，不過不要緊，不是我們的東西我們只作為了解即可。

我只需要告訴你一句話，就是你用不同的瀏覽器在發送請求的時候，會有不同的 User-

Agent 頭。

瀏覽器就是世界上被允許的身份。那麼如果你不想你的爬蟲代碼成為一個路人，你需要偽裝

成一個被公認的瀏覽器。

偽裝的辦法當然就是給自己的請求加上一個對應的User-Agent頭啦。

我們編輯urllib2_test03.py

import urllib2

#我們要請求的url地址

url = "http://www.baidu.com"

#我們要偽裝的瀏覽器user-agent頭

user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Tr

ident/5.0;' #IE 9.0

#創建一個字典，使請求的headers中'User-Agent':對應我們user_agent字符串

headers = {'User-Agent':user_agent}

#新建一個請求，需要將請求中的headers變量換成我們剛才創建好的headers

req = urllib2.Request(url, headers = headers)

#請求服務器,得到回應

response = urllib2.urlopen(req)

#得到回應的內容

the_page = response.read()

#將內容打到屏幕上

print the_page

以上就是url的一個基本的操作，那麼如果你想實現一個簡單的爬蟲，這些就足以了。但是如

果你想深入去了解urllib2的其他操作，顯然這個教程滿足不了你，你可以去尋找一些其他相

關教程。

我們下一節繼續介紹有關urllib2的知識，而且最後如何得到一個精簡的小爬蟲程序！

分享到:

閱讀更多 測試幫日記 的文章

關鍵字: 標記語言電腦蠕蟲

06.新手入門vue之v-on

python 協程

Python 和 Java 基礎對比 06 —— 異常處理機制

Python 繪圖以及文件的基本操作

Python wordcloud庫介紹

python 閉包

Python 判斷列表是否已排好序

06、應用層概述

「從零單排HBase 06」你必須知道的HBase最佳實踐（建議收藏）

python：序列和元組的區別

Arxiv網絡科學論文摘要12篇(2020-03-06)

03.06 Arxiv網絡科學論文摘要12篇(2020-03-06)

Python While 循環語句介紹

03.04 Python While 循環語句介紹

03.01 Python 模塊

python 註釋

python pandas數據清洗

Python 中的bool值

python-unittest基本介紹

Python 分發包中添加額外文件

Arxiv網絡科學論文摘要5篇(2020-02-06)

01.17 Python 算法 06 --“又愛又恨”的遞歸算法

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3運算符（4）

# Python 3 # Python 3基本數據類型（3）

12.21 python lambda表達式簡單用法

python :中文大寫轉阿拉伯數字（金額）

python str和bytes的區別

Flutter 即學即用系列博客——06 超實用 Widget 集錦

Python 的四種共享傳參詳解

JS全面系列教程詳解-06

python 音頻處理

python 可變對象和不可變對象

Python 程序運行時間計時

python 字典底層實現原理

容器雲架構實踐-06

算法設計系列-06

Java虛擬機-06 堆內存分配策略

前端技術周刊 2018-08-06：ES Module

MySQL從零開始：06 數據檢索

零基礎安卓應用開發（三）18.07.06：由一個「美女」引發的事件

06：SpringBoot整合FreeMarker模板

06.17 Python 數據類型轉換

06.09 Python 異常處理

python-with語法

05.27 python-with語法

python-as語法

05.27 python-as語法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

06.06 python網絡爬蟲簡明手冊1

1 網絡爬蟲是何物？

2 URL初步概念

3 python 與 urllib2

相關文章:

06.新手入門vue之v-on

python 協程

Python 和 Java 基礎對比 06 —— 異常處理機制

Python 繪圖以及文件的基本操作

Python wordcloud庫介紹

python 閉包

Python 判斷列表是否已排好序

06、 應用層概述

「從零單排HBase 06」你必須知道的HBase最佳實踐（建議收藏）

python：序列和元組的區別

Arxiv網絡科學論文摘要12篇(2020-03-06)

03.06 Arxiv網絡科學論文摘要12篇(2020-03-06)

Python While 循環語句介紹

03.04 Python While 循環語句介紹

03.01 Python 模塊

python 註釋

python pandas數據清洗

Python 中的bool值

python-unittest基本介紹

Python 分發包中添加額外文件

Arxiv網絡科學論文摘要5篇(2020-02-06)

01.17 Python 算法 06 --“又愛又恨”的遞歸算法

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3運算符（4）

# Python 3 # Python 3基本數據類型（3）

12.21 python lambda表達式簡單用法

python :中文大寫轉阿拉伯數字（金額）

python str和bytes的區別

Flutter 即學即用系列博客——06 超實用 Widget 集錦

Python 的四種共享傳參詳解

JS全面系列教程詳解-06

python 音頻處理

python 可變對象和不可變對象

Python 程序運行時間計時

python 字典底層實現原理

容器雲架構實踐-06

算法設計系列-06

Java虛擬機-06 堆內存分配策略

前端技術周刊 2018-08-06：ES Module

MySQL從零開始：06 數據檢索

零基礎安卓應用開發（三）18.07.06：由一個「美女」引發的事件

06：SpringBoot整合FreeMarker模板

06.17 Python 數據類型轉換

06.09 Python 異常處理

python-with語法

05.27 python-with語法

python-as語法

05.27 python-as語法

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

06、應用層概述

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪

綠蘿為什麼被陽光曬會枯萎？？