一般說來,在網(wǎng)站建設(shè)中,總是希望搜索引擎的機器人能夠盡可能地在網(wǎng)站內(nèi)爬行,收錄網(wǎng)站盡可能多的頁面,要實現(xiàn)這一點,需要在網(wǎng)頁設(shè)計與制作時盡可能照顧搜索引擎Spider,避免或減少使用圖片、Flash、JavaScript等。但是,對大多數(shù)網(wǎng)站而言,往往也存在著部分私密性數(shù)據(jù)不想公諸于眾,比如網(wǎng)站的后臺程序部分,比如存放于Internet網(wǎng)站服務(wù)器上的企業(yè)內(nèi)部信息頁面等,對這部分不希望被搜索引擎收錄的內(nèi)容,應(yīng)如何控制搜索引擎Spider對其的爬行與索引呢?
Matt Cutts近日提供了一個控制Googlebot索引網(wǎng)頁的說明,盡管他所言只是針對Google,但適用于大多數(shù)搜索引擎,簡要歸納如下:
在網(wǎng)站/目錄級別,推薦使用 .htaccess文件來對網(wǎng)站的私密部分加以密碼保護,這是最安全的作法,目前各搜索引擎的Spider對密碼保護的內(nèi)容都是無能為力的。同時,.htaccess也可將初級的入侵者拒之門外。不過,.htaccess文件只在Unix/Linux下起作用,國內(nèi)流行的Windows 平臺服務(wù)器則無法使用這一功能。