淺談被忽略的SEO利器robots.txt_SEO優(yōu)化教程
推薦:怎么樣通過SEO提高網(wǎng)站訪問量眾所周知互聯(lián)網(wǎng)讓信息扁平化,讓B2C成為了整個(gè)商業(yè)社會(huì)不可逆轉(zhuǎn)的歷史趨勢。在此之前,B2C電子商務(wù)曾是互聯(lián)網(wǎng)領(lǐng)域熱門的話題,眾多實(shí)力有限的中小企業(yè)禁不住互聯(lián)網(wǎng)低成本營銷的誘惑,紛紛上馬B2C,借助互聯(lián)網(wǎng)拓展業(yè)務(wù)、樹立品牌,但效果且并不是那么盡如人意
竹影清風(fēng)做網(wǎng)站也有些年頭了,應(yīng)各位站長朋友的要求今天跟各位分享一點(diǎn)我的點(diǎn)滴經(jīng)驗(yàn)。今天的話題重點(diǎn)是robots.txt。各位站長朋友可能比較少關(guān)注robots.txt,但善用robots.txt絕對(duì)對(duì)你的網(wǎng)站是有百益而無一害的。
聲明:此文僅適合新手,老鳥請(qǐng)優(yōu)雅地飄過。
話題一:robots.txt是什么?
這里引用Baidu作出的回答,robots.txt是一個(gè)必須放在根目錄底下的純文本文件,文件名必須全部是小寫的字母即“robots.txt”,在這個(gè)文件中聲明該網(wǎng)站中不想被robot訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。
話題二:robots.txt具體如何使用?
作用1:SEO中引導(dǎo)搜索蜘蛛抓取網(wǎng)站地圖,更好地收錄網(wǎng)站頁面。
現(xiàn)在Google\ Yahoo等國外搜索引擎都已支持在robots.txt文件里指明sitemap文件的鏈接,在蜘蛛訪問robots.txt時(shí)告知你網(wǎng)站地圖所在的位置,以利于蜘蛛更好地收錄你網(wǎng)站的頁面。使用語法是sitemap: http://www.##.com/sitemap.xml(Google)或者是sitemap: http://www.##.com/sitemap.txt(Yahoo)。其中地圖文件你可以使用網(wǎng)站地圖制作軟件生成,或者你自己編寫程序生成。
作用2:禁止所有搜索蜘蛛抓取你網(wǎng)站的所有內(nèi)容或者是指定目錄。在建站實(shí)戰(zhàn)中有這么幾種常見的具體情況:
第一種情況是禁止所有搜索蜘蛛抓取你網(wǎng)站的任何內(nèi)容。
假如我的網(wǎng)站剛傳到服務(wù)器上或者虛擬主機(jī)上調(diào)試,但是由于網(wǎng)站頁面標(biāo)題或者是關(guān)鍵詞等還沒有優(yōu)化好,外面又有了網(wǎng)站的外鏈了,但是還不想讓搜索引擎收錄時(shí),就可以禁止所有搜索引擎來收錄你的任何頁面。
在這里我舉一個(gè)反面的例子,06我建了某個(gè)網(wǎng)站,使用了織夢的內(nèi)容管理程序,第一次套用了一個(gè)模板,加了些內(nèi)容就興奮地向各搜索引擎提交了,第二天就被搜索引擎收錄了,再過了幾天也放出了幾百篇內(nèi)容,但是后來我又找了一套更漂亮清新的模板,改了下又重新生成了所有頁面,如此地改動(dòng)了好幾次。由于各搜索的蜘蛛都是母的,網(wǎng)站頁面經(jīng)常改動(dòng),特別是title等重要屬性的改動(dòng)讓她很沒有安全感,對(duì)網(wǎng)站產(chǎn)生了嚴(yán)重的不信任,結(jié)果我的網(wǎng)站頁面過了一兩個(gè)月才恢復(fù)過來。所以各位站長在網(wǎng)站上線對(duì)搜索開放之前一定要找準(zhǔn)了網(wǎng)站定位,并且在優(yōu)化好了以后再向搜索引擎開放不遲。
又例如你的網(wǎng)站僅是你跟你戀人的戀愛家園,僅僅是你們自娛自樂的,而不想被抓取的,又例如你的網(wǎng)站是公司內(nèi)部用的網(wǎng)站,是全隱秘的內(nèi)容,不需要對(duì)任何蜘蛛抓取的,又或者任何其他的具體情況要禁止任何搜索引擎抓取的。
禁止所有搜索引擎收錄網(wǎng)站任何頁面的語法為:
User-agent: *
Disallow: /
第二種情況是需要禁止所有搜索引擎抓取網(wǎng)站特定的一些目錄。
(1)網(wǎng)站某些目錄是程序目錄,完全沒有被抓取的必要,為了提高服務(wù)器性能,避免搜索抓取時(shí)消耗服務(wù)器資源,可以禁止所有搜索引擎抓取這些目錄。(2)網(wǎng)站部分目錄是一些會(huì)員信息或者是其實(shí)敏感,私密性的內(nèi)容,禁止搜索引擎抓取的。(3)某些目錄下的內(nèi)容全是采集未作任何修改的內(nèi)容,這部分內(nèi)容僅是為了豐富內(nèi)容,但是并不想被搜索引擎收錄,這時(shí)就需要禁止搜索引擎抓取。(例如我以前做的一個(gè)網(wǎng)站,一部分是全原創(chuàng)的內(nèi)容,用以被搜索抓取的。一部分內(nèi)容是全采集而來僅為豐富網(wǎng)站內(nèi)容,提高用戶體驗(yàn)的,但是又不想讓搜索引擎收錄認(rèn)為是垃圾信息而給網(wǎng)站降權(quán),那么這部分目錄我就要屏蔽搜索蜘蛛�。┑鹊绕渌闆r!
禁止所有搜索引擎抓取特定目錄或者特定頁面的語法例子為:
User-agent: *
Disallow: /plus/count.php
Disallow: /include
Disallow: /news/old
大家有興趣的話,可以到竹影清風(fēng)新上線的dianzhu2.com去查看下我的robots.txt,里面有一些具體的例子說明。
作用3:禁止某蜘蛛抓取你網(wǎng)站的所有內(nèi)容。
這里有這么幾種情況,(1)你曾嚴(yán)重被baidu降權(quán)過、鄙視過、羞辱過,又或者你是反百度聯(lián)盟的成員,從而要跟它決裂的,要禁止它抓取你網(wǎng)站的任何內(nèi)容。(2)你的網(wǎng)站已經(jīng)NB得跟淘寶似的了,要全面禁止百度收錄你的頁面。大家可以查看下淘寶的robots.txt,淘寶因商業(yè)利益等因素已將baidu屏蔽掉,但是由于baiduspider是母的,見馬云帥得跟個(gè)ET似的,還是厚著臉皮收錄了淘寶1060篇左右的內(nèi)容。大家可以在百度搜索欄里輸入site:(taobao.com)驗(yàn)證下。(3)其他任何想禁止某搜索引擎收錄你網(wǎng)站所有內(nèi)容的情況。
禁止某指定搜索引擎抓取你網(wǎng)站任何內(nèi)容的語法為:
User-agent: baiduspider
Disallow: /
作用4:僅允許指定的搜索蜘蛛抓取你網(wǎng)站的內(nèi)容。
由于我們網(wǎng)站的流量主要來自幾大主要的搜索引擎,你不想國外的或者是國內(nèi)的其他搜索蜘蛛、流氓蜘蛛 來服務(wù)器抓取你網(wǎng)站內(nèi)容,從而消耗服務(wù)器資源,那這個(gè)時(shí)候,這個(gè)語法就起作用了。
僅允許指定的搜索蜘蛛抓取你網(wǎng)站的內(nèi)容的語法為:
User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
其中User-agent: baiduspider Disallow: 可以將你允許的幾大搜索蜘蛛都列出來。在此特別需要提醒的是,必須正確書寫robots.txt,以免給網(wǎng)站帶來不必要的傷害。百度的蜘蛛:baiduspiderGoogle的蜘蛛: Googlebot騰訊Soso:SosospiderYahoo的蜘蛛:Yahoo SlurpMsn的蜘蛛:Msnbot
作用5:禁止所有搜索引擎抓取你網(wǎng)站全部或者特定目錄下的特定類型文件。
禁止所有搜索引擎僅允許抓取網(wǎng)頁,禁止抓取任何圖片。其語法為:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
如果是僅禁止特定的搜索引擎,那么按照上面介紹的方法,將通配符*改為特定的蜘蛛名稱就可以了。
作用6:禁止搜索引擎在搜索結(jié)果中顯示網(wǎng)頁快照,而只對(duì)網(wǎng)頁建立索引。
其使用方法為:
百度支持通過設(shè)置網(wǎng)頁的meta,防止搜索引擎顯示網(wǎng)站的快照。方法如下:
要防止所有搜索引擎顯示您網(wǎng)站的快照,請(qǐng)將此元標(biāo)記置入網(wǎng)頁的 <HEAD> 部分:<meta name="robots" content="noarchive">要允許其他搜索引擎顯示快照,但僅防止百度顯示,請(qǐng)使用以下標(biāo)記:<meta name="Baiduspider" content="noarchive">注:此標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,百度會(huì)繼續(xù)為網(wǎng)頁建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。如果是Google的話,就是<META NAME="googlebot" CONTENT="index,follow,noarchive">
最后的說明:有些朋友可能啟用了站長日志功能,以分析蜘蛛爬取和用戶訪問情況,蜘蛛來尋找robots.txt文件時(shí),如果尋找不到,服務(wù)器也將在日志中記錄一條404錯(cuò)誤,為了減少log文件,去除無用信息,所以建議你在網(wǎng)站根目錄下添加robots.txt,即使是空的robots文件也好。
其他更多的用法,有待于各位結(jié)合實(shí)戰(zhàn)慢慢總結(jié)。
分享:淺談百度搜索引擎與網(wǎng)站優(yōu)化細(xì)節(jié)的關(guān)聯(lián)百度中文搜索引擎,對(duì)網(wǎng)民來說再簡單不過的網(wǎng)站,但背后卻是一套非常復(fù)雜運(yùn)算,每天響應(yīng)網(wǎng)民上億次的搜索,24小時(shí)始終服務(wù)著我們。今天咱不談百度搜索引擎的排名算法。就聊一聊百度在用戶體驗(yàn)細(xì)節(jié)方面是如何的認(rèn)真。我堅(jiān)信用戶體驗(yàn)細(xì)節(jié)對(duì)于站長來說非常的重
- B2B網(wǎng)站SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)分享
- 淺析如何提高SEO優(yōu)化團(tuán)隊(duì)效率
- 谷歌如何評(píng)價(jià)一篇博文是否是軟文
- 盧松松:Bing與Google搜索排名因素研究
- 盧松松:給谷歌的蜂鳥算法潑瓢冷水
- 提高移動(dòng)站在百度質(zhì)量度等級(jí)的詳細(xì)說明
- 谷歌推出網(wǎng)站人工干預(yù)通知
- 優(yōu)化技巧:如何設(shè)置自定義503錯(cuò)誤頁面?
- 解讀SEO元素周期表
- 網(wǎng)站SEO最高境界之從 “人性化” 出發(fā)
- 社會(huì)化媒體營銷是如何對(duì)企業(yè)產(chǎn)生相應(yīng)影響
- 小站長們?cè)撊绾蚊鎸?duì)新一輪的百度算法調(diào)整
- 相關(guān)鏈接:
- 教程說明:
SEO優(yōu)化教程-淺談被忽略的SEO利器robots.txt
。