- 相關(guān)推薦
基于層次分析法的網(wǎng)頁(yè)排序技術(shù)論文
1概要
經(jīng)過(guò)多年的探索發(fā)展,向量空間模型、語(yǔ)言模型、布爾模型、鏈接分析算法、相關(guān)性排序模型等都曾或正被應(yīng)用到搜索引擎中。目前用得比較多的排序算法是在鏈接分析算法的基礎(chǔ)上加入更多的排序因素:關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的位置、點(diǎn)擊次數(shù)和網(wǎng)頁(yè)被引用次數(shù)等。這些方法最大的不足是不同用戶(hù)搜索得到的網(wǎng)頁(yè)結(jié)果排序是一樣。
2層次分析法
2.1層次分析法原理
層次分析法(AHP),其主要思想是通過(guò)對(duì)復(fù)雜系統(tǒng)的有關(guān)要素及其相互關(guān)系進(jìn)行分析,將其簡(jiǎn)化為有序的遞階層次結(jié)構(gòu),使這些要素歸類(lèi)到不同的層次,形成一個(gè)多層次的分析結(jié)構(gòu)模型,最終把系統(tǒng)分析轉(zhuǎn)化為確定最低層( 決策方案) 相對(duì)于最高層( 總目標(biāo)) 的相對(duì)重要性權(quán)值的問(wèn)題。
AHP 使用時(shí)先將問(wèn)題中的因素劃分到不同層次中,利用一致矩陣法確定各層次因素間的權(quán)重,經(jīng)過(guò)歸一化得出由同層次因素對(duì)于上一層次某因素的相對(duì)重要性的權(quán)值所組成的矩陣。然后計(jì)算某層次所有因素對(duì)最高層相對(duì)重要性的權(quán)值。兩次相對(duì)重要性權(quán)值計(jì)算都需進(jìn)行一致性檢驗(yàn)。
AHP 實(shí)現(xiàn)網(wǎng)頁(yè)排序的原理是以網(wǎng)頁(yè)和搜索關(guān)鍵詞之間的相關(guān)度為最高層,點(diǎn)擊次數(shù)、詞頻、詞位置、引用次數(shù)、瀏覽時(shí)間和用戶(hù)個(gè)人信息作為中間層,搜索的結(jié)果網(wǎng)頁(yè)為最底層。通過(guò)結(jié)合搜索和層次分析法排序完成搜索任務(wù)。
2.2基于層次分析的網(wǎng)頁(yè)排序
首先對(duì)用戶(hù)提交的關(guān)鍵詞進(jìn)行同義詞查詢(xún),基于關(guān)鍵詞及其同義詞進(jìn)行擴(kuò)展查詢(xún),查詢(xún)返回關(guān)鍵詞在頁(yè)面中的位置、瀏覽平均時(shí)間、點(diǎn)擊率、被引用次數(shù)等信息,然后對(duì)返回的結(jié)果頁(yè)面結(jié)合AHP 分析得出相關(guān)性排序網(wǎng)頁(yè),最終向用戶(hù)反饋排序結(jié)果。
假設(shè)用戶(hù)提交關(guān)鍵詞后得到5 個(gè)頁(yè)面, 為得到的頁(yè)面創(chuàng)建SearchedPage 實(shí)例。該實(shí)例有以下字段:id( 頁(yè)面在DB 中的編號(hào)),relevance( 關(guān)鍵詞與頁(yè)面的相關(guān)程度),hitWeight( 頁(yè)面被點(diǎn)擊次數(shù)權(quán)重,/100),refWeight( 頁(yè)面被引用次數(shù)權(quán)重),posWeight( 關(guān)鍵詞位置權(quán)重,根據(jù)關(guān)鍵詞第一次出現(xiàn)的位置判斷,標(biāo)題部分取20,正文按每10% 減1,正文前10% 取10),freWeight( 關(guān)鍵詞頻率權(quán)重,*100),readTWeight( 頁(yè)面平均瀏覽時(shí)間權(quán)重,*100),cusWeight( 用戶(hù)個(gè)性化相關(guān)權(quán)重, 頁(yè)面類(lèi)別與用戶(hù)愛(ài)好匹配取3,否則取1),synWeight( 詞義距離權(quán)值,取值0-5,直接匹配取0)。假設(shè)這5個(gè)頁(yè)面:(hitWeight,refWeight,posWeight,freWeight,readTWeight,cusWeight,synWeight)
5 個(gè)頁(yè)面取值分別為:P1(9.6,24,20,0.93,2.7,1,1),P2(3.1,7,9,0.2,1.76,1,1),P3(8.2,13,10,0.98,0.84,3,1),P4(9.7,8,10,1.15,0.79,1,0),P5(5.4,36,20,0.81,0.8,3,2)。利用AHP 求解relevance。
根據(jù)中間層因素對(duì)relevance 取值的影響程度,建立比較矩陣T,其中t12 = 1/3 表示作者認(rèn)為關(guān)鍵詞在頁(yè)面中的位置比其出現(xiàn)頻率更重要。
通過(guò)計(jì)算,得比較矩陣T 的最大特征根λ = 7.3,相應(yīng)特征變量為W=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,一致性檢驗(yàn)指標(biāo)CI = (λ- n)/(n - 1) = 0.05,n = 7。查表知隨機(jī)一致性指標(biāo)為RI=1.32,一致性比率CR=CI/RI=0.038<0.1,通過(guò)一致性檢驗(yàn)。
根據(jù)SearchedPage 屬性值,構(gòu)建P1 到P5 實(shí)例對(duì)freWeight 等指標(biāo)的判斷矩陣。
因?yàn)槠邢蓿?本文不列出K2—K10,只給出K2—K10 比較矩陣的最大特征值λi(i=1,2,3,??,7) 與對(duì)應(yīng)的特征向量Wi(i=1,2,3,??,7)。
λ1=10.04 W1=(0.14,0.05,0.16,0.14,0.12)
λ2=10.86 W2=(0.13,0.02,0.08,0.10,0.17)
λ3=10.09 W3=(0.17,0.03,0.14,0.17,0.11)
λ4=10.11 W4=(0.19,0.07,0.07,0.05,0.04)
λ5=10.12 W5=(0.12,0.03,0.08,0.04,0.25)
λ6=10.01 W6=(0.03,0.04,0.19,0.03,0.18)
λ7=10.29 W7=(0.11,0.03,0.12,0.13,0.07)
算出K1—K10 最大特征值、特征向量對(duì)應(yīng)的CI、CR 知通過(guò)一致性檢驗(yàn),層次總排序一致性比率:CR=(t1CI1+t2CI2+L+a7CI7)/(a1RI1+a2RI2+L+a7RI7), 其中:(t1,t2,t3,t4,t5,t6,t7)T=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,算得CR = 0.032,CR<0.1 通過(guò)檢驗(yàn)。
因此,通過(guò)同義詞和個(gè)性化搜索后得到SearchedPage 的5 個(gè)實(shí)例P1、P2、P3、P4、P5 排序?yàn)镻1、P5、P3、P4、P2。
3結(jié)語(yǔ)
基于層次分析的搜索排序技術(shù)可以較好的解決傳統(tǒng)的同義詞擴(kuò)展方式又會(huì)帶來(lái)更多的查詢(xún)結(jié)果難以合理排序的問(wèn)題,并有利于提高搜索的精確率和覆蓋率。
【基于層次分析法的網(wǎng)頁(yè)排序技術(shù)論文】相關(guān)文章:
基于EXCEL的層次分析法模型設(shè)計(jì)10-08
基于層次分析法的企業(yè)管理系統(tǒng)柔性的評(píng)價(jià)10-06
基于層次分析法的計(jì)算機(jī)網(wǎng)絡(luò)教學(xué)可靠性研究論文10-08
基于聚類(lèi)分析法的云南金融競(jìng)爭(zhēng)力研究論文10-08
基于灰色關(guān)聯(lián)度分析法的期刊論文被引用率分析論文10-08
基于SVM的重復(fù)網(wǎng)頁(yè)檢測(cè)算法分析論文10-11
模糊層次分析法在計(jì)算機(jī)網(wǎng)絡(luò)安全評(píng)價(jià)中的運(yùn)用論文10-09