解析搜索引擎系統(tǒng)之網(wǎng)頁凈化與元數(shù)據(jù)提取_SEO優(yōu)化教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

推薦：謹記做站先要搞好人脈
新房子已經(jīng)交付一段時間了，一直沒有時間去看，昨晚興起，抽出空來，去感受一下未來的新窩。途經(jīng)該小區(qū)門口的小賣部時，竟然看到人頭攢動，還不時爆發(fā)出不約而同的笑聲。我之所以用竟然看到這個詞來描述當(dāng)時的驚訝，是因為小區(qū)房子新交付不久，理論上講基本

搜索引擎系統(tǒng)預(yù)處理：網(wǎng)頁凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,
網(wǎng)頁凈化與消重是大規(guī)模搜索引擎系統(tǒng)預(yù)處理環(huán)節(jié)的重要組成部分。

網(wǎng)頁凈化（noise reduction）：識別和清除網(wǎng)頁內(nèi)的噪聲內(nèi)容（如廣告、版權(quán)信息等），并提取網(wǎng)頁主題以及與主題相關(guān)的內(nèi)容。

網(wǎng)頁消重（replicas or near—replicas detection）：去除所搜集網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁。

在主題搜索領(lǐng)域，大量的廣告、導(dǎo)航條等噪聲內(nèi)容會導(dǎo)致主題漂移（topicdrift）。這說明傳統(tǒng)的主題搜索算法中以網(wǎng)頁為粒度構(gòu)造的web圖不夠準(zhǔn)確，必須深入到網(wǎng)頁內(nèi)部將處理單元的粒度縮小，才能提高內(nèi)容分析的準(zhǔn)確性。在（Chakrabarti et al. 2001）中提出了一套解決方法，首先講網(wǎng)頁表示為一顆DOM數(shù)結(jié)構(gòu)并找到與主題一致性較高的子樹，然后對這些子樹做特別的處理，從而提高主題的提煉的效果。

在web信息檢索領(lǐng)域，檢索結(jié)果的相關(guān)性和檢索的速度是評價一個web檢索系統(tǒng)的兩個指標(biāo)。如果不去除原始網(wǎng)頁中的噪聲內(nèi)容，檢索系統(tǒng)必然對噪聲內(nèi)容也建立索引，從而導(dǎo)致僅僅因為查詢詞在某張網(wǎng)頁的噪聲內(nèi)容中出現(xiàn)，而把該網(wǎng)頁作為結(jié)果返回，而網(wǎng)頁的主題內(nèi)容可能和這個查詢詞完全無關(guān)�？梢钥闯觯肼晝�(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大，而且還會導(dǎo)致了檢索系統(tǒng)準(zhǔn)確性的下降。針對這個問題（Lin et al. 2002）中提出了一個去除網(wǎng)頁中噪聲內(nèi)容的方法，該方法首先依據(jù)標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹，從而依據(jù)標(biāo)簽將網(wǎng)頁規(guī)劃為相互嵌套的內(nèi)容塊；然后對于使用同一個模塊做出的網(wǎng)頁集。找出在該網(wǎng)頁中多次出現(xiàn)的內(nèi)容，作為沉余內(nèi)容，而在該網(wǎng)頁集中出現(xiàn)次數(shù)較少的內(nèi)容快就是有效信息塊。實驗證明該方法是有效的，但該方法必須局限于同一個模版的網(wǎng)頁集，而web上的網(wǎng)頁模版不計其數(shù)，該方法顯然不夠通用。

在網(wǎng)頁分類領(lǐng)域，由于噪聲內(nèi)容與主題無關(guān)，訓(xùn)練集中的噪聲內(nèi)容會導(dǎo)致各個類別的特征不夠明顯，而待分類網(wǎng)頁中的噪聲內(nèi)容則會導(dǎo)致改網(wǎng)頁類別不明顯，因而影響了網(wǎng)頁自動分類的效果。（Yang 1995，Li et al. 2002）中提出了通過去掉網(wǎng)頁中的噪聲內(nèi)容來提高網(wǎng)頁分類質(zhì)量的方法。

在網(wǎng)頁信息提取領(lǐng)域，自動識別漠視的方法必須要從整個網(wǎng)頁中提取模式，而不是只針對主題內(nèi)容提取。因此，在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪聲信息對信息提取的干擾，提高信息提取的準(zhǔn)確性，而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化，提高信息提取的效率。

噪聲內(nèi)容對基于網(wǎng)頁的研究工作室普遍而嚴重的，雖然各個領(lǐng)域采用的方法各不相同，但處理的目的都是為了去除網(wǎng)頁的噪聲內(nèi)容，得到真正的主題內(nèi)容。

隨著web上的研究與應(yīng)用的發(fā)展，單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求，網(wǎng)頁元數(shù)據(jù)得到越來越多的廣泛使用。在web檢索領(lǐng)域，單純依賴關(guān)鍵詞匹配的檢索手段過于單一。內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用，不僅使用戶可以從不同的角度進行查詢，而且也使得查詢的準(zhǔn)確性得到提高。而主題搜索、個性化信息服務(wù)以及數(shù)字圖書館也都強烈的依賴資源的元數(shù)據(jù)信息。因此，準(zhǔn)確且高效的提取必要的元數(shù)據(jù)是web上各個研究領(lǐng)域面臨的重要問題。

在元數(shù)據(jù)和主題內(nèi)容的提取方法上，可以從信息提取領(lǐng)域的研究成果（特別是從HTML網(wǎng)頁中提取語義信息）中得到很多啟發(fā)。針對從HTML網(wǎng)頁中提取語義信息，早期的方法是：針對某一類具體網(wǎng)頁，人工提取該類的網(wǎng)頁中的內(nèi)容組織模式。然后，信息提取系統(tǒng)根據(jù)該模式從屬于該類的網(wǎng)頁中提取相應(yīng)的內(nèi)容（Hammer et al. 1997，Ashish et al. 1997）。對元數(shù)據(jù)和主題內(nèi)容的提取可以采用同樣的辦法，但這些方法有一個共同的局限性，那就是需要人工提取內(nèi)容組織模式，這對于內(nèi)容組織繁多的web來說顯然是不適用的。因此，在（Wemble et al. 1999）中提出了5條啟發(fā)式的規(guī)則，綜合利用這5條規(guī)則系統(tǒng)可以自動地發(fā)現(xiàn)網(wǎng)頁中各個主題信息塊（chunk）的邊界。（Yang et al. 2001）提出了一種基于視覺相似性來自動分析網(wǎng)頁語義結(jié)構(gòu)的方法，該方法首先比較HTML網(wǎng)頁內(nèi)容的視覺相似性，然后使用一個模式發(fā)現(xiàn)算法來確定這些視覺相似性的內(nèi)容最有可能的組織模式，最后按照該模式將內(nèi)容重新組合。

HTML_DocView模型：

包括：網(wǎng)頁識別、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈接屬于網(wǎng)頁的內(nèi)容數(shù)據(jù)，而其他6項則屬于網(wǎng)頁的元數(shù)據(jù)。

網(wǎng)頁類型：根據(jù)網(wǎng)頁內(nèi)容的表現(xiàn)形式進行劃分，一般劃分為三類，既主題網(wǎng)頁（topic）、Hub網(wǎng)頁（hub）、圖片網(wǎng)頁（pic）。

內(nèi)容類別：是搜索引擎系統(tǒng)預(yù)處理：網(wǎng)頁凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,從語義上對網(wǎng)頁的內(nèi)容進行分類，它是計算機獲取網(wǎng)頁語義信息的一個直接手段。

分享：怎樣分析以及選擇網(wǎng)站的關(guān)鍵詞
關(guān)于一個網(wǎng)站的關(guān)鍵詞選擇問題，一直以來對于一個營銷型網(wǎng)站建設(shè)尤為重要，選擇一個好的關(guān)鍵字，不但可以提升流量，提高搜索量，更是一個企業(yè)以及一個門戶的關(guān)鍵點，關(guān)鍵字、關(guān)鍵字，關(guān)鍵就關(guān)鍵在如何去分析一個網(wǎng)站的關(guān)鍵點，只要找到網(wǎng)站的關(guān)鍵點，也可以

來源：模板無憂/所屬分類：SEO優(yōu)化教程/更新時間：2009-12-07

[收藏][報錯][返回列表]

相關(guān)SEO優(yōu)化教程：

SEO優(yōu)化教程Rss訂閱網(wǎng)站運營教程搜索

SEO優(yōu)化教程推薦

猜你也喜歡看這些

相關(guān)鏈接：
復(fù)制本頁鏈接| 搜索解析搜索引擎系統(tǒng)之網(wǎng)頁凈化與元數(shù)據(jù)提取
教程說明：
SEO優(yōu)化教程-解析搜索引擎系統(tǒng)之網(wǎng)頁凈化與元數(shù)據(jù)提取。

日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

解析搜索引擎系統(tǒng)之網(wǎng)頁凈化與元數(shù)據(jù)提取_SEO優(yōu)化教程

SEO優(yōu)化教程Rss訂閱網(wǎng)站運營教程搜索

SEO優(yōu)化教程推薦

猜你也喜歡看這些