禁止抓取機制robots.txt設置方法及注意事項

今天我們主要學習一下robots.txt文件的使用和設置方法。

一、認識robots.txt文件

從網站優化和網站安全的方面來說,我們的站點並不是每一個頁面都需要用戶訪問,這就好比即使再好的朋友來到了您的家裡,您也不會將家裡所有的東西都展示給朋友看。那麼怎麼控制搜索引擎蜘蛛抓取網站的範圍呢?這就是我們今天要講的主角——robots.txt文件。

robots.txt文件是搜索引擎來到網站之後訪問的第一文件,robots.txt文件中設置了搜索引擎的抓取範圍。

禁止抓取機制robots.txt設置方法及注意事項

二、robots.txt文件設置要求

1、robots.txt文件必須放置在網站根目錄;

2、robots.txt文件名必須小寫。

根據上面兩點提示我們查看到絕大部分網站的robots.txt文件,如果出現無法訪問的現象,最大可能就是網站根目錄中沒有此文件。

三、robots.txt文件規則解讀

robots.txt的書寫格式為::

常見的robots.txt指令為:

User-agent: *

Disallow: /

此指令代表禁止所有的搜索引擎抓取網站的任何部分。此指令常用於站點不想被搜索引擎收錄或者建站初期,當網站結構沒有建設完成的時候,我們是不希望搜索引擎抓取網站任何內容的。

1、User-agent:

用於指定某個搜索引擎蜘蛛,如果使用通配符*代表所有的搜索引擎蜘蛛,如:

User-agent: Baiduspider指的是指定百度蜘蛛;

User-agent: Googlebot 指的是指定谷歌蜘蛛。

2、Disallow: /

代表著禁止抓取網站的某些內容,如“/”後面沒有任何參數代表禁止抓取網站所有內容。我們來學習一下參數後面分別代表的含義:

Disallow: /admin/ 禁止抓取admin目錄下的所有內容;

Disallow: /cgi-bin/*.htm 禁止抓取/cgi-bin目錄下的所有以.htm結尾的文件;

Disallow: /*?* 禁止抓取網站中所有包含問號 (?) 的網址;

Disallow:/ab/adc.html 禁止抓取ab文件夾下面的adc.html文件;

在這裡重點強調一點,Disallow指令有一個比較特殊的地方,Disallow: /代表著禁止抓取,但是Disallow: 代表著允許抓取,如:

User-agent: *

Disallow:

此指令代表允許所有的搜索引擎抓取網站的任何內容。

3、Allow:/

該指令用於允許蜘蛛抓取某些文件。Allow:/指令後面的參數與Disallow指令相同,如:

User-agent: *

Disallow: /a/

Allow: /a/b/

該指令的含義是不允許蜘蛛抓取a目錄下的其他目錄和文件,但是可以抓取a目錄下的b目錄中的內容。

4、$通配符,代表著以某個字符結尾的URL。

User-agent: *

Disallow: /.jpg$

此指令的含義是禁止所有搜索引擎抓取所有.jpg文件。

$指令在效果上有些地方和*是相同的,$指令常見於動態網址,互聯網中應用不是特別廣泛。

Disallow: /.jpg$ 等同於 Disallow: /*.jpg

5、Sitemap:告訴蜘蛛XML網站地圖的位置,格式為:

Sitemap:http://你的域名/sitemap.xml

主流的搜索引擎都會遵守robots文件指令,但是被robots文件禁止抓取的網址還會出現在搜索引擎結果中,這就好比你雖然不告訴我發生了什麼事,但是我從別人那裡知道了你的事情一樣。只要禁止被抓取的網址在互聯網中存在導入鏈接,搜索引擎就會知道這個網址的存在,有可能被搜索引擎收錄,但是搜索結果標題下方會出現對應的提示:

由於該網站的tobots.txt文件存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的內容。


分享到:


相關文章: