搜索引擎判斷一個(gè)頁面的價(jià)值主要通過兩方面來考慮:權(quán)威性和相關(guān)性。權(quán)威性主要體現(xiàn)在網(wǎng)頁被推薦的次數(shù),也就是我們平常經(jīng)常說的反向鏈 接;相關(guān)性則更多體現(xiàn)在一個(gè)網(wǎng)頁的內(nèi)容本身。搜索引擎本身就是一個(gè)非常復(fù)雜的系統(tǒng),我們可以簡單的把搜索引擎理解為一臺(tái)機(jī)器,搜索引擎最擅長的就是計(jì)算。 同樣的,網(wǎng)頁的相關(guān)性也是通過一系列計(jì)算得出來的,其主要的通過TF-IDF計(jì)算模型得到。
基于這個(gè)模型有兩個(gè)約定的條件:
1.一個(gè)詞預(yù)測主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。
2.停止詞的權(quán)重為零。
缺點(diǎn)是:查詢的數(shù)據(jù)非常不準(zhǔn)確,只能查詢到非常少量的數(shù)據(jù),可供分析。
方法二:通過國外工具查詢競爭對(duì)手外鏈
通過這兩個(gè)條件,我們可以發(fā)現(xiàn),一個(gè)詞蘊(yùn)含的信息越多,這個(gè)詞的價(jià)值也就越大。從詞性來說,名詞的價(jià)值是最高的,而那些形容詞、嘆詞、副詞的價(jià)值相對(duì)來說就低了很多。因此,搜索引擎在計(jì)算網(wǎng)頁相關(guān)性的時(shí)候會(huì)把名詞賦予更高的權(quán)重,其他詞賦予更低的權(quán)重。
比如在一篇介紹"搜索引擎的原理"的網(wǎng)頁中有1000個(gè)詞,"搜索引擎"這個(gè)詞出現(xiàn)了3次,"的"出現(xiàn)了20次,"原理"出現(xiàn)了10 次。由于"搜索引擎"這個(gè)詞的預(yù)測主題能力是最強(qiáng)的,在這里假設(shè)其權(quán)重為0.005;"的"作為停止詞的權(quán)重為0;"原理"在很多網(wǎng)頁都出現(xiàn),其預(yù)測主題 的能力相對(duì)較弱,其權(quán)重假設(shè)為0.00015。因此,在這篇文章中,"搜索引擎"的權(quán)重為:0.005*3=0.015,"的"權(quán)重為:0;"原理"權(quán)重 為:10*0.0005=0.0015。
除了這種假設(shè)外,我們還可以從整個(gè)互聯(lián)網(wǎng)的頁面本身考慮。我們假設(shè)整個(gè)中文的網(wǎng)頁文檔總數(shù)量D有10億個(gè),"搜索引擎"D(1) 出現(xiàn)在200萬個(gè)文檔中;"的"D(2)出現(xiàn)在10億個(gè)文檔中,"原理"D(3)出現(xiàn)在5億個(gè)文檔中。一個(gè)關(guān)鍵詞在越多頁面出現(xiàn),其價(jià)值就越低。在這里, 搜索引擎一般用IDF(逆文本頻率指數(shù))計(jì)算各個(gè)詞匯的權(quán)重,IDF=(D/Dw)
"搜索引擎"的IDF(D1)=LOG(500)=6.2;"的"的IDF(D2)=LOG(1)=0;"原理"的IDF=LOG(2)=0.7。這個(gè)結(jié)果再與詞頻相乘就能得到某一個(gè)網(wǎng)頁的關(guān)于某個(gè)關(guān)鍵詞的相關(guān)性,在這里就不再多說了。
搜索引擎不是人,一切的排名或者展現(xiàn)都是其計(jì)算的結(jié)果,網(wǎng)站的相關(guān)與否,我們一眼就能看透,而搜索引擎卻需要通過大量的迭代計(jì)算才能得到這個(gè)結(jié)果,我們SEOER能做的就是盡量挖掘搜索引擎技術(shù)原理,從而能搜索引擎處獲得更多的免費(fèi)流量。