爬蟲學習之HTTP協議瞭解

HTTP協議簡介

儘量使用谷歌/火狐/360極速瀏覽器

在Web應用中,服務器把網頁傳給瀏覽器,實際上就是把HTML代碼發給瀏覽器,讓瀏覽器顯示出來,而瀏覽器和服務器之間的傳輸協議就是HTTP

(1) HTML是一種定義網頁的文本

(2) HTTP是在網絡上傳輸HTML的協議,用於通信

Chrome瀏覽器提供了一套調試工具,非常適合web調試

在Chrome中下面的位置中或者ctrl+shift+i快捷鍵:

爬蟲學習之HTTP協議瞭解

打開後的界面

爬蟲學習之HTTP協議瞭解

我們打開網絡調試助手

爬蟲學習之HTTP協議瞭解

進入界面

爬蟲學習之HTTP協議瞭解

接下來我們用Chrome訪問我們本地服務

先啟動服務,此時我們就模擬了服務器

爬蟲學習之HTTP協議瞭解

然後在瀏覽器中訪問服務器,輸入以下內容,點擊回車

爬蟲學習之HTTP協議瞭解

瀏覽器會進入請求狀態

爬蟲學習之HTTP協議瞭解

我們在模擬服務器中也會提取到信息

爬蟲學習之HTTP協議瞭解

這些內容就是HTTP協議中的一部分內容

GET / HTTP/1.1

Host: 127.0.0.1:8080

Connection: keep-alive

Cache-Control: max-age=0

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8

Accept-Encoding: gzip, deflate, br

Accept-Language: zh-CN,zh;q=0.9

其中GET後面是/了,但是如果我們在瀏覽器訪問中加訪問內容的話它就會變化了,比如下面就不會是/了,這個GET就向服務器"要東西"。這就是協議中的意義,是有規定目的的。

爬蟲學習之HTTP協議瞭解

Host: 127.0.0.1:8080 這個內容就很明顯了,表示訪問到地址。

Connection: keep-alive 表示長連接,先記下。

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 表示能接收的格式。

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36 表示瀏覽器的訪問版本。這個可以練習下,用市面上常見的瀏覽器訪問下,看下瀏覽器訪問版本。

那麼我們現在知道瀏覽器向服務器訪問的格式,那麼服務器返回給瀏覽器我們該怎麼看呢?

比如我們訪問,看看返回什麼?

進入瀏覽器,先改下位置,這樣比較舒服

爬蟲學習之HTTP協議瞭解

調試工具就到下面了

爬蟲學習之HTTP協議瞭解

爬蟲學習之HTTP協議瞭解

這裡就是給瀏覽器的內容

爬蟲學習之HTTP協議瞭解

可以點擊查看內容

爬蟲學習之HTTP協議瞭解

我們來看我們訪問的百度地址後,返回的信息,這裡面很多內容需要我們慢慢掌握

爬蟲學習之HTTP協議瞭解

下面這個就是我們請求的內容

爬蟲學習之HTTP協議瞭解

這個就是響應的概要內容,就可以針對性的查詢協議內容

爬蟲學習之HTTP協議瞭解

而主要內容是在這裡:

爬蟲學習之HTTP協議瞭解

我們利用調試助手模擬服務器向瀏覽器發送信息,就可以查看到信息

爬蟲學習之HTTP協議瞭解


分享到:


相關文章: