搜索引擎爬蟲在不知道域名的情況下如何搜索到網站?

我是一隻乾貨


這個問題初看答案是不可能的,不知道域名怎麼爬呀,那我們先來分析下,搜索引擎是怎麼爬取數據的。

首先,我們講下正常的爬取。

一般,你的網站想要被搜索引擎錄入,你就會在網站跟目錄,放一個robot.txt文件,有這個文件,就相當於在飯店的一個清單,上面列出了你想要給搜索引擎錄入的一些目錄,你也可以說,哪些目錄不能檢索,搜索引擎就不會去檢索這些目錄了,文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面這個表示,Google你就另來錄入我了,其它引擎可以,並且不要去看我的bin和tmp目錄,且檢索間隔是5s

但我怎麼讓搜索引擎知道我的網址地址呢?早期,搜索引擎有提供一些入口,做為網址的錄入,站長如果想在搜索引擎上顯示自己的網站,會自己先行去錄入,這樣可以為自己的網站導入流量。現在基本上,搜索引擎會有專門的渠道獲取已經開通域名,然後統一撥測一下,就可以獲取取Robot.txt,就可以錄入網址了。

你說這世界域名千千萬,它不可能都爬一次吧,其實,這個校驗速度還是很快的,另外,別忘了,搜索引擎每天基本都要對鏈接進行維護,因為,鏈接可能存在變更和失效的情況。

當然,還有一些是通過搜索引擎的其它技術來實現的,比如在解析一個網頁時,這個網頁如果有外鏈地址的話,爬蟲會把這些URL放到URL池中,再進行深度遍歷,繼續爬取。

如果你的網站沒有域名,只有IP,那還能被錄入嗎?理論上,IPV4的最大組合是2^8^4個,再刨去10,172,198等非公用IP,總共不超過40億個,看起來很多,但對計算機來說,並不多。不過,這樣檢索非常的消耗資源,一般是不考慮的。

所以說,即使搜索引擎爬蟲不知道域名,也是可以通過窮舉法來搜索的,但其實不需要這麼麻煩,通過註冊局的數據,完全可以知道每天新增多少域名,減少多少域名,再進行遍歷一次,查找robot.txt,就比較簡單了。

當然,也還是有引擎搜索不到的。移動互聯網的App時代,就創造了這種信息孤島,他們已經不靠搜索引擎引流,所以就不在乎搜索引擎是否能搜索到他們。




一顆蘿蔔啊


這個做不到吧?我們以在國內最主要的百度爬蟲為例。你有一個新網站,你希望他來抓取你,需要先到百度站長平臺提交你的網站。這就要滿足一些要求,比如有域名,域名要完成備案。百度爬蟲通過多種維度對你的網站進行評級,來決定抓取的頻次,評級越高越會經常來抓取你的網站。所以沒有域名沒有完成備案應該是不滿足最基本的要求的。還有,那你現在只能用ip訪問網站唄,等以後有了域名,又改用域名訪問導致鏈接變化,這樣很不好會掉權重的。


AI雲


域名服務商提供的,你都知道是爬蟲了,初期就26個字母拼接域名去爬唄,通了就記錄,沒通就繼續爬,全世界最多也就幾千萬個域名,對服務器爬蟲來說小意思,週期性的爬爬就好,以後對已經爬到的域名檢驗一下就可以了!


分享到:


相關文章: