HTTP系列(第2部分):體系結構(網絡爬蟲)

HTTP系列(第2部分):體系結構(網絡爬蟲)

網絡爬蟲通常被稱為蜘蛛,它們是爬行萬維網並索引其內容的機器人。因此,Web爬蟲是搜索引擎和許多其他網站的基本工具。

網絡爬蟲是一個完全自動化的軟件,它不需要人工交互工作。Web爬蟲的複雜性可能有很大差異,一些Web爬蟲是相當複雜的軟件(如搜索引擎使用的那些)。

Web爬網程序會佔用他們正在訪問的網站的資源。出於這個原因,公共網站有一種機制可以告訴抓取工具抓取網站的哪些部分,或者告訴他們不要抓取任何內容。您可以使用robots.txt 機器人排除標準)執行此操作。

當然,因為它只是一個標準,robots.txt無法阻止不請自來的網頁抓取工具抓取網站。一些惡意機器人包括電子郵件收集器,垃圾郵件程序和 惡意軟件。

以下是robots.txt文件的一些示例:

HTTP系列(第2部分):體系結構(網絡爬蟲)

這個告訴所有爬蟲都要留在外面

HTTP系列(第2部分):體系結構(網絡爬蟲)

而這一個只涉及這兩個特定目錄和一個文件

HTTP系列(第2部分):體系結構(網絡爬蟲)

您可以禁止使用特定的抓取工具

但鑑於萬維網的廣泛性,即使是迄今為止最強大的爬蟲也無法抓取並索引整個萬維網。這就是為什麼他們使用選擇策略來抓取其中最相關的部分。此外,WWW頻繁且動態地更改,因此爬蟲必須使用 新鮮度策略 來計算是否重新訪問網站。而且由於爬蟲可以通過過快地請求來輕鬆地使服務器負擔過重,因此存在 禮貌政策 。大多數已知的爬蟲使用20秒到3-4分鐘的間隔來輪詢服務器以避免在服務器上產生負載。

你可能聽說過神秘而邪惡的 深網暗網的消息。 但它只不過是網絡的一部分,有意不被搜索引擎索引以隱藏信息。


分享到:


相關文章: