新聞資訊
運(yùn)營推廣
淺談搜索引擎如何確定網(wǎng)頁的相關(guān)性
2016-05-13 14:21:14
摘要:搜索引擎判斷一個頁面的價(jià)值主要通過兩方面來考慮:權(quán)威性和相關(guān)性。權(quán)威性主要體現(xiàn)在網(wǎng)頁被推薦的次數(shù),也就是我們平常經(jīng)常說的反向鏈接;相關(guān)性則更多體現(xiàn)在一個網(wǎng)頁的內(nèi)容本身。
淺談搜索引擎如何確定網(wǎng)頁的相關(guān)性

搜索引擎判斷一個頁面的價(jià)值主要通過兩方面來考慮:權(quán)威性和相關(guān)性。權(quán)威性主要體現(xiàn)在網(wǎng)頁被推薦的次數(shù),也就是我們平常經(jīng)常說的反向鏈 接;相關(guān)性則更多體現(xiàn)在一個網(wǎng)頁的內(nèi)容本身。搜索引擎本身就是一個非常復(fù)雜的系統(tǒng),我們可以簡單的把搜索引擎理解為一臺機(jī)器,搜索引擎最擅長的就是計(jì)算。 同樣的,網(wǎng)頁的相關(guān)性也是通過一系列計(jì)算得出來的,其主要的通過TF-IDF計(jì)算模型得到。

基于這個模型有兩個約定的條件:

1.一個詞預(yù)測主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。

2.停止詞的權(quán)重為零。

缺點(diǎn)是:查詢的數(shù)據(jù)非常不準(zhǔn)確,只能查詢到非常少量的數(shù)據(jù),可供分析。

方法二:通過國外工具查詢競爭對手外鏈

通過這兩個條件,我們可以發(fā)現(xiàn),一個詞蘊(yùn)含的信息越多,這個詞的價(jià)值也就越大。從詞性來說,名詞的價(jià)值是最高的,而那些形容詞、嘆詞、副詞的價(jià)值相對來說就低了很多。因此,搜索引擎在計(jì)算網(wǎng)頁相關(guān)性的時(shí)候會把名詞賦予更高的權(quán)重,其他詞賦予更低的權(quán)重。

比如在一篇介紹"搜索引擎的原理"的網(wǎng)頁中有1000個詞,"搜索引擎"這個詞出現(xiàn)了3次,"的"出現(xiàn)了20次,"原理"出現(xiàn)了10 次。由于"搜索引擎"這個詞的預(yù)測主題能力是最強(qiáng)的,在這里假設(shè)其權(quán)重為0.005;"的"作為停止詞的權(quán)重為0;"原理"在很多網(wǎng)頁都出現(xiàn),其預(yù)測主題 的能力相對較弱,其權(quán)重假設(shè)為0.00015。因此,在這篇文章中,"搜索引擎"的權(quán)重為:0.005*3=0.015,"的"權(quán)重為:0;"原理"權(quán)重 為:10*0.0005=0.0015。

除了這種假設(shè)外,我們還可以從整個互聯(lián)網(wǎng)的頁面本身考慮。我們假設(shè)整個中文的網(wǎng)頁文檔總數(shù)量D有10億個,"搜索引擎"D(1) 出現(xiàn)在200萬個文檔中;"的"D(2)出現(xiàn)在10億個文檔中,"原理"D(3)出現(xiàn)在5億個文檔中。一個關(guān)鍵詞在越多頁面出現(xiàn),其價(jià)值就越低。在這里, 搜索引擎一般用IDF(逆文本頻率指數(shù))計(jì)算各個詞匯的權(quán)重,IDF=(D/Dw)

"搜索引擎"的IDF(D1)=LOG(500)=6.2;"的"的IDF(D2)=LOG(1)=0;"原理"的IDF=LOG(2)=0.7。這個結(jié)果再與詞頻相乘就能得到某一個網(wǎng)頁的關(guān)于某個關(guān)鍵詞的相關(guān)性,在這里就不再多說了。

搜索引擎不是人,一切的排名或者展現(xiàn)都是其計(jì)算的結(jié)果,網(wǎng)站的相關(guān)與否,我們一眼就能看透,而搜索引擎卻需要通過大量的迭代計(jì)算才能得到這個結(jié)果,我們SEOER能做的就是盡量挖掘搜索引擎技術(shù)原理,從而能搜索引擎處獲得更多的免費(fèi)流量。

USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請免費(fèi)產(chǎn)品試用服務(wù)
立即申請