限制搜尋引擎的蜘蛛抓取內容 – robots.txt

IT_man · 發表於 2014-10-8 11:56:02

本帖最後由 IT_man 於 2014-10-8 12:43 編輯

並非網站所有的url都須被搜尋引擎收錄，如後台管理。這個部分就需要透過設置告訴搜尋引擎不要去訪問那些內容。這樣做有幾個好處

(1) 避免搜尋引擎訪問過多沒必要的內容，浪費頻寬以及增加網站服務器的負載

(2) 對搜尋引擎比較友好，因為你已經告訴他這些不需要去爬取

(3) 對網站的 SEO 也有好處，雖然沒有直接的好處，但對搜尋引擎爬取內容友好的網站相對的也能獲得搜尋引擎比較好的重視

Robots.txt怎麼寫？首先是User-agent，指出Robots.txt語句所涉及到的搜索引擎。其次是Disallow/Allow，指出對於User- agent中所涉及的搜索引擎，需要禁止或允許收錄的URL，可以是絕對路徑，也可以是相對路徑。User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/除此之外，透過Meta Robots對單獨每個網頁進行設置，也可以達到禁止搜索引擎的效果，詳細操作Meta Robots相關文件有教。

當您的網站草創時期，內容仍在加強時，暫時不希望蜘蛛抓取所有url,可寫成 :

<font size="3">#User-agent: * 此行註解
1 W; Y. S5 @# j$ D7 J
Disallow: * 所有url皆不允許</font>( z4 t! i' d( F2 W: _$ W

複製代碼

透過分析Google的robots.txt變化来預測Google將要推出何種服務。有興趣的讀者可以看一下Google的robots.txt文件，注意到前幾行就有"Disallow: /search"，而結尾新加上了"Disallow: /base/s2"。現在來做個測試，按照規則它所隱藏的地址是http://www.Google.com/base/s2，打開之後發現Google給出了一個錯誤提示，如下圖:

		自動登錄	找回密碼
密碼			立即註冊

[站長加油站] 限制搜尋引擎的蜘蛛抓取內容 – robots.txt

瀏覽過的版塊