搜索引擎爬蟲在不知道域名的情況下如何搜索到網站？

2020-10-24 08:40:01 佚名

我是一隻乾貨

這個問題初看答案是不可能的，不知道域名怎麼爬呀，那我們先來分析下，搜索引擎是怎麼爬取數據的。

首先，我們講下正常的爬取。

一般，你的網站想要被搜索引擎錄入，你就會在網站跟目錄，放一個robot.txt文件，有這個文件，就相當於在飯店的一個清單，上面列出了你想要給搜索引擎錄入的一些目錄，你也可以說，哪些目錄不能檢索，搜索引擎就不會去檢索這些目錄了，文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面這個表示，Google你就另來錄入我了，其它引擎可以，並且不要去看我的bin和tmp目錄，且檢索間隔是5s

但我怎麼讓搜索引擎知道我的網址地址呢？早期，搜索引擎有提供一些入口，做為網址的錄入，站長如果想在搜索引擎上顯示自己的網站，會自己先行去錄入，這樣可以為自己的網站導入流量。現在基本上，搜索引擎會有專門的渠道獲取已經開通域名，然後統一撥測一下，就可以獲取取Robot.txt，就可以錄入網址了。

你說這世界域名千千萬，它不可能都爬一次吧，其實，這個校驗速度還是很快的，另外，別忘了，搜索引擎每天基本都要對鏈接進行維護，因為，鏈接可能存在變更和失效的情況。

當然，還有一些是通過搜索引擎的其它技術來實現的，比如在解析一個網頁時，這個網頁如果有外鏈地址的話，爬蟲會把這些URL放到URL池中，再進行深度遍歷，繼續爬取。

如果你的網站沒有域名，只有IP，那還能被錄入嗎？理論上，IPV4的最大組合是2^8^4個，再刨去10,172,198等非公用IP，總共不超過40億個，看起來很多，但對計算機來說，並不多。不過，這樣檢索非常的消耗資源，一般是不考慮的。

所以說，即使搜索引擎爬蟲不知道域名，也是可以通過窮舉法來搜索的，但其實不需要這麼麻煩，通過註冊局的數據，完全可以知道每天新增多少域名，減少多少域名，再進行遍歷一次，查找robot.txt，就比較簡單了。

當然，也還是有引擎搜索不到的。移動互聯網的App時代，就創造了這種信息孤島，他們已經不靠搜索引擎引流，所以就不在乎搜索引擎是否能搜索到他們。

一顆蘿蔔啊

這個做不到吧？我們以在國內最主要的百度爬蟲為例。你有一個新網站，你希望他來抓取你，需要先到百度站長平臺提交你的網站。這就要滿足一些要求，比如有域名，域名要完成備案。百度爬蟲通過多種維度對你的網站進行評級，來決定抓取的頻次，評級越高越會經常來抓取你的網站。所以沒有域名沒有完成備案應該是不滿足最基本的要求的。還有，那你現在只能用ip訪問網站唄，等以後有了域名，又改用域名訪問導致鏈接變化，這樣很不好會掉權重的。

AI雲

域名服務商提供的，你都知道是爬蟲了，初期就26個字母拼接域名去爬唄，通了就記錄，沒通就繼續爬，全世界最多也就幾千萬個域名，對服務器爬蟲來說小意思，週期性的爬爬就好，以後對已經爬到的域名檢驗一下就可以了！

分享到:

關鍵字: 科技域名爬蟲