優(yōu)化思路:搜索引擎算法之復(fù)制網(wǎng)頁(yè)_SEO優(yōu)化教程
推薦:關(guān)于搜索引擎工作原理全文搜索引擎在搜索引擎分類(lèi)部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。定期搜索搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,
搜索引擎判定復(fù)制網(wǎng)頁(yè)一般都基于這么一個(gè)思想:
為每個(gè)網(wǎng)頁(yè)計(jì)算出一組信息指紋(Fingerprint),若兩個(gè)網(wǎng)頁(yè)有一定數(shù)量相同的信息指紋,則認(rèn)為這兩個(gè)網(wǎng)頁(yè)的內(nèi)容重疊性很高,也就是說(shuō)兩個(gè)網(wǎng)頁(yè)是內(nèi)容復(fù)制的。
很多搜索引擎判定內(nèi)容復(fù)制的方法都不太一樣,主要是以下兩點(diǎn)的不同:
1、計(jì)算信息指紋(Fingerprint)的算法;
2、判定信息指紋的相似程度的參數(shù)。
在描述具體的算法前,先說(shuō)清楚兩點(diǎn):
1、什么是信息指紋?
信息指紋就是把網(wǎng)頁(yè)里面正文信息,提取一定的信息,可以是要害字、詞、句子或者段落及其在網(wǎng)頁(yè)里面的權(quán)重等,對(duì)它進(jìn)行加密,如MD5加密,從而形成的一個(gè)字符串。信息指紋如同人的指紋,只要內(nèi)容不相同,信息指紋就不一樣。
2、算法提取的信息不是針對(duì)整張網(wǎng)頁(yè)
而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等信息(這些稱(chēng)之為網(wǎng)頁(yè)的“噪音”)過(guò)濾掉后剩下的文本。
分段簽名算法
這種算法是按照一定的規(guī)則把網(wǎng)頁(yè)切成N段,對(duì)每一段進(jìn)行簽名,形成每一段的信息指紋。假如這N個(gè)信息指紋里面有M個(gè)相同時(shí)(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
這種算法對(duì)于小規(guī)模的判定復(fù)制網(wǎng)頁(yè)是很好的一種算法,但是對(duì)于像google這樣海量的搜索引擎來(lái)說(shuō),算法的復(fù)雜度相當(dāng)高。
基于要害詞的復(fù)制網(wǎng)頁(yè)算法
像google這類(lèi)搜索引擎,他在抓取網(wǎng)頁(yè)的時(shí)候都會(huì)記下以下網(wǎng)頁(yè)信息:
1、網(wǎng)頁(yè)中出現(xiàn)的要害詞(中文分詞技術(shù))以及每個(gè)要害詞的權(quán)重(要害詞密度)。
2、提取meta descrīption或者每個(gè)網(wǎng)頁(yè)的512個(gè)字節(jié)的有效文字。
關(guān)于第2點(diǎn),baidu和google有所不同,google是提取你的meta descrīption,假如沒(méi)有查詢(xún)要害字相關(guān)的512個(gè)字節(jié),而百度是直接提取后者。這一點(diǎn)大家使用過(guò)的都有所體會(huì)。
在以下算法描述中,我們約定幾個(gè)信息指紋變量:
Pi表示第i個(gè)網(wǎng)頁(yè);
該網(wǎng)頁(yè)權(quán)重最高的N個(gè)要害詞構(gòu)成集合Ti={t1,t2,...tn},其對(duì)應(yīng)的權(quán)重為Wi={w1,w2,...wi}
摘要信息用Des(Pi)表示,前n個(gè)要害詞拼成的字符串用Con(Ti)表示,對(duì)這n個(gè)要害詞排序后形成的字符串用Sort(Ti)表示。
以上信息指紋都用MD5函數(shù)進(jìn)行加密。
基于要害詞的復(fù)制網(wǎng)頁(yè)算法有以下5種:
1、MD5(Des(Pi))=MD5(Des(Pj)),就是說(shuō)摘要信息完全一樣,i和j兩個(gè)網(wǎng)頁(yè)就認(rèn)為是復(fù)制網(wǎng)頁(yè)。
2、MD5(Con(Ti))=MD5(Con(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)要害詞及其權(quán)重的排序一樣,就認(rèn)為是復(fù)制網(wǎng)頁(yè)。
3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)要害詞一樣,權(quán)重可以不一樣,也認(rèn)為是復(fù)制網(wǎng)頁(yè)。
4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
關(guān)于第4和第5的那個(gè)闕值a,主要是因?yàn)榍耙粋(gè)判定條件下,還是會(huì)有很多網(wǎng)頁(yè)被誤傷,搜索引擎開(kāi)發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié),防止誤傷。
這個(gè)是北大天網(wǎng)搜索引擎的去重算法(可以參考:《搜索引擎--原理、技術(shù)與系統(tǒng)》一書(shū)),以上5種算法運(yùn)行的時(shí)候,算法的效果取決于N,就是要害詞數(shù)目的選取。當(dāng)然啦,選的數(shù)量越多,判定就會(huì)越精確,但是誰(shuí)知而來(lái)的計(jì)算速度也會(huì)減慢下來(lái)。所以必須考慮一個(gè)計(jì)算速度和去重準(zhǔn)確率的平衡。據(jù)天網(wǎng)試驗(yàn)結(jié)果,10個(gè)左右要害詞最恰當(dāng)。
分享:搜索引擎優(yōu)化中的細(xì)節(jié)問(wèn)題在搜索引擎優(yōu)化時(shí),越是簡(jiǎn)單的頁(yè)面,越要重視細(xì)節(jié)的優(yōu)化,因?yàn)轫?yè)面簡(jiǎn)單,可調(diào)整的結(jié)構(gòu)、欄目等比較少,所以做好細(xì)節(jié)就越發(fā)顯得重要了。而這些細(xì)節(jié),包括了首頁(yè)
- B2B網(wǎng)站SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)分享
- 淺析如何提高SEO優(yōu)化團(tuán)隊(duì)效率
- 谷歌如何評(píng)價(jià)一篇博文是否是軟文
- 盧松松:Bing與Google搜索排名因素研究
- 盧松松:給谷歌的蜂鳥(niǎo)算法潑瓢冷水
- 提高移動(dòng)站在百度質(zhì)量度等級(jí)的詳細(xì)說(shuō)明
- 谷歌推出網(wǎng)站人工干預(yù)通知
- 優(yōu)化技巧:如何設(shè)置自定義503錯(cuò)誤頁(yè)面?
- 解讀SEO元素周期表
- 網(wǎng)站SEO最高境界之從 “人性化” 出發(fā)
- 社會(huì)化媒體營(yíng)銷(xiāo)是如何對(duì)企業(yè)產(chǎn)生相應(yīng)影響
- 小站長(zhǎng)們?cè)撊绾蚊鎸?duì)新一輪的百度算法調(diào)整
SEO優(yōu)化教程Rss訂閱網(wǎng)站運(yùn)營(yíng)教程搜索
SEO優(yōu)化教程推薦
- 外部鏈接是什么意思
- 網(wǎng)站收錄正常唯排名全無(wú),站長(zhǎng)要怎么辦?
- 淺析地方旅游網(wǎng)站被懲罰后該如何分析與解決
- T-Mobile延遲發(fā)布三星Galaxy S4:4月29日推出
- 關(guān)于百度站長(zhǎng)平臺(tái)《外鏈判斷》的戰(zhàn)略剖析
- seoer們可以從seo排行榜中學(xué)習(xí)網(wǎng)站優(yōu)化
- 揭秘對(duì)SEO在2010年的8個(gè)預(yù)測(cè)
- 搜索優(yōu)化:網(wǎng)站優(yōu)化要確保3個(gè)基本原則
- 百度外鏈?zhǔn)珍浻謩h除,做好三項(xiàng)檢查
- 搜索、引擎、優(yōu)化、營(yíng)銷(xiāo)(點(diǎn)位思考)
- 相關(guān)鏈接:
- 教程說(shuō)明:
SEO優(yōu)化教程-優(yōu)化思路:搜索引擎算法之復(fù)制網(wǎng)頁(yè)
。