日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

解析搜索引擎系統(tǒng)之網(wǎng)頁凈化與元數(shù)據(jù)提取_SEO優(yōu)化教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:謹記做站先要搞好人脈
新房子已經(jīng)交付一段時間了,一直沒有時間去看,昨晚興起,抽出空來,去感受一下未來的新窩。途經(jīng)該小區(qū)門口的小賣部時,竟然看到人頭攢動,還不時爆發(fā)出不約而同的笑聲。我之所以用竟然看到這個詞來描述當(dāng)時的驚訝,是因為小區(qū)房子新交付不久,理論上講基本

搜索引擎系統(tǒng)預(yù)處理:網(wǎng)頁凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,
網(wǎng)頁凈化與消重是大規(guī)模搜索引擎系統(tǒng)預(yù)處理環(huán)節(jié)的重要組成部分。

網(wǎng)頁凈化(noise reduction):識別和清除網(wǎng)頁內(nèi)的噪聲內(nèi)容(如廣告、版權(quán)信息等),并提取網(wǎng)頁 主題以及與主題相關(guān)的內(nèi)容。

網(wǎng)頁消重 (replicas or near—replicas detection):去除所搜集網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁。

在主題搜索領(lǐng)域,大量的廣告、導(dǎo)航條等噪聲內(nèi)容會導(dǎo)致主題漂移(topicdrift)。這說明傳統(tǒng)的主題搜索算法中以網(wǎng)頁為粒度構(gòu)造的web圖不夠準(zhǔn)確,必須深入到網(wǎng)頁內(nèi)部將處理單元的粒度縮小,才能提高內(nèi)容分析的準(zhǔn)確性。在(Chakrabarti et al. 2001)中提出了一套解決方法,首先講網(wǎng)頁表示為一顆DOM數(shù)結(jié)構(gòu)并找到與主題一致性較高的子樹,然后對這些子樹做特別的處理,從而提高主題的提煉的效果。

在web信息檢索領(lǐng)域,檢索結(jié)果的相關(guān)性和檢索的速度是評價一個web檢索系統(tǒng)的兩個指標(biāo)。如果不去除原始網(wǎng)頁中的噪聲內(nèi)容,檢索系統(tǒng)必然對噪聲內(nèi)容也建立索引,從而導(dǎo)致僅僅因為查詢詞在某張網(wǎng)頁的噪聲內(nèi)容中出現(xiàn),而把該網(wǎng)頁作為結(jié)果返回,而網(wǎng)頁的主題內(nèi)容可能和這個查詢詞完全無關(guān)�?梢钥闯觯肼晝�(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大,而且還會導(dǎo)致了檢索系統(tǒng)準(zhǔn)確性的下降。針對這個問題(Lin et al. 2002)中提出了一個去除網(wǎng)頁中噪聲內(nèi)容的方法,該方法首先依據(jù)標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,從而依據(jù)標(biāo)簽將網(wǎng)頁規(guī)劃為相互嵌套的內(nèi)容塊;然后對于使用同一個模塊做出的網(wǎng)頁集。找出在該網(wǎng)頁中多次出現(xiàn)的內(nèi)容,作為沉余內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)次數(shù)較少的內(nèi)容快就是有效信息塊。實驗證明該方法是有效的,但該方法必須局限于同一個模版的網(wǎng)頁集,而web上的網(wǎng)頁模版不計其數(shù),該方法顯然不夠通用。

在網(wǎng)頁分類領(lǐng)域,由于噪聲內(nèi)容與主題無關(guān),訓(xùn)練集中的噪聲內(nèi)容會導(dǎo)致各個類別的特征不夠明顯,而待分類網(wǎng)頁中的噪聲內(nèi)容則會導(dǎo)致改網(wǎng)頁類別不明顯,因而影響了網(wǎng)頁自動分類的效果。(Yang 1995,Li et al. 2002)中提出了通過去掉網(wǎng)頁中的噪聲內(nèi)容來提高網(wǎng)頁分類質(zhì)量的方法。

在網(wǎng)頁信息提取領(lǐng)域,自動識別漠視的方法必須要從整個網(wǎng)頁中提取模式,而不是只針對主題內(nèi)容提取。因此,在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪聲信息對信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化,提高信息提取的效率。

噪聲內(nèi)容對基于網(wǎng)頁的研究工作室普遍而嚴重的,雖然各個領(lǐng)域采用的方法各不相同,但處理的目的都是為了去除網(wǎng)頁的噪聲內(nèi)容,得到真正的主題內(nèi)容。

隨著web上的研究與應(yīng)用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越多的廣泛使用。在web檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一。內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進行查詢,而且也使得查詢的準(zhǔn)確性得到提高。而主題搜索、個性化信息服務(wù)以及數(shù)字圖書館也都強烈的依賴資源的元數(shù)據(jù)信息。因此,準(zhǔn)確且高效的提取必要的元數(shù)據(jù)是web上各個研究領(lǐng)域面臨的重要問題。

在元數(shù)據(jù)和主題內(nèi)容的提取方法上,可以從信息提取領(lǐng)域的研究成果(特別是從HTML網(wǎng)頁中提取語義信息)中得到很多啟發(fā)。針對從HTML網(wǎng)頁中提取語義信息,早期的方法是:針對某一類具體網(wǎng)頁,人工提取該類的網(wǎng)頁中的內(nèi)容組織模式。然后,信息提取系統(tǒng)根據(jù)該模式從屬于該類的網(wǎng)頁中提取相應(yīng)的內(nèi)容(Hammer et al. 1997,Ashish et al. 1997)。對元數(shù)據(jù)和主題內(nèi)容的提取可以采用同樣的辦法,但這些方法有一個共同的局限性,那就是需要人工提取內(nèi)容組織模式,這對于內(nèi)容組織繁多的web來說顯然是不適用的。因此,在(Wemble et al. 1999)中提出了5條啟發(fā)式的規(guī)則,綜合利用這5條規(guī)則系統(tǒng)可以自動地發(fā)現(xiàn)網(wǎng)頁中各個主題信息塊(chunk)的邊界。(Yang et al. 2001)提出了一種基于視覺相似性來自動分析網(wǎng)頁語義結(jié)構(gòu)的方法,該方法首先比較HTML網(wǎng)頁內(nèi)容的視覺相似性,然后使用一個模式發(fā)現(xiàn)算法來確定這些視覺相似性的內(nèi)容最有可能的組織模式,最后按照該模式將內(nèi)容重新組合。

HTML_DocView模型:

包括:網(wǎng)頁識別、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈接屬于網(wǎng)頁的內(nèi)容數(shù)據(jù),而其他6項則屬于網(wǎng)頁的元數(shù)據(jù)。

網(wǎng)頁類型:根據(jù)網(wǎng)頁內(nèi)容的表現(xiàn)形式進行劃分,一般劃分為三類,既 主題網(wǎng)頁(topic)、Hub網(wǎng)頁(hub)、圖片網(wǎng)頁(pic)。

內(nèi)容類別:是搜索引擎系統(tǒng)預(yù)處理:網(wǎng)頁凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,從語義上對網(wǎng)頁的內(nèi)容進行分類,它是計算機獲取網(wǎng)頁語義信息的一個直接手段。

分享:怎樣分析以及選擇網(wǎng)站的關(guān)鍵詞
關(guān)于一個網(wǎng)站的關(guān)鍵詞選擇問題,一直以來對于一個營銷型網(wǎng)站建設(shè)尤為重要,選擇一個好的關(guān)鍵字,不但可以提升流量,提高搜索量,更是一個企業(yè)以及一個門戶的關(guān)鍵點,關(guān)鍵字、關(guān)鍵字,關(guān)鍵就關(guān)鍵在如何去分析一個網(wǎng)站的關(guān)鍵點,只要找到網(wǎng)站的關(guān)鍵點,也可以

來源:模板無憂//所屬分類:SEO優(yōu)化教程/更新時間:2009-12-07
相關(guān)SEO優(yōu)化教程