一般說來,在網(wǎng)站建設中,總是希望搜索引擎的機器人能夠盡可能地在網(wǎng)站內爬行,收錄網(wǎng)站盡可能多的頁面,要實現(xiàn)這一點,需要在網(wǎng)頁設計與制作時盡可能照顧搜索引擎Spider,避免或減少使用圖片、Flash、JavaScript等。但是,對大多數(shù)網(wǎng)站而言,往往也存在著部分私密性數(shù)據(jù)不想公諸于眾,比如網(wǎng)站的后臺程序部分,比如存放于Internet網(wǎng)站服務器上的企業(yè)內部信息頁面等,對這部分不希望被搜索引擎收錄的內容,應如何控制搜索引擎Spider對其的爬行與索引呢?
Matt Cutts近日提供了一個控制Googlebot索引網(wǎng)頁的說明,盡管他所言只是針對Google,但適用于大多數(shù)搜索引擎,簡要歸納如下:
在網(wǎng)站/目錄級別,推薦使用 .htaccess文件來對網(wǎng)站的私密部分加以密碼保護,這是最安全的作法,目前各搜索引擎的Spider對密碼保護的內容都是無能為力的。同時,.htaccess也可將初級的入侵者拒之門外。不過,.htaccess文件只在Unix/Linux下起作用,國內流行的Windows 平臺服務器則無法使用這一功能。
*