freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web超鏈分析算法研究(編輯修改稿)

2024-10-22 13:56 本頁面
 

【文章內(nèi)容簡介】 Compilation)算法,對原始的HITS做了改進,賦予網(wǎng)頁集對應(yīng)的連結(jié)矩陣初值時結(jié)合了鏈接的錨(anchor)文本,適應(yīng)了不同的鏈接具有不同的權(quán)值的情況。 ARC算法與HITS的不同主要有以下3點:1. 由根集S擴展為T時,HITS只擴展與根集中網(wǎng)頁鏈接路徑長度為1的網(wǎng)頁,也就是只擴展直接與S相鄰的網(wǎng)頁,而ARC中把擴展的鏈接長度增加到2,擴展后的網(wǎng)頁集稱為增集(Augment Set)。2. HITS算法中,每個鏈接對應(yīng)的矩陣值設(shè)為1,實際上每個鏈接的重要性是不同的,ARC算法考慮了鏈接周圍的文本來確定鏈接的重要性??紤]鏈接p-q,p中有若干鏈接標(biāo)記,文本1a href=”q”錨文本/a文本2,設(shè)查詢項t在文本1,錨文本,文本2,出現(xiàn)的次數(shù)為n(t),則w(p,q)=1+n(t)。文本1和文本2的長度經(jīng)過試驗設(shè)為50字節(jié)[10]。構(gòu)造矩陣W,如果有網(wǎng)頁i-j ,Wi,j=w(i,j),否則Wi,j=0,H值設(shè)為1,Z為W的轉(zhuǎn)置矩陣,迭代執(zhí)行下面3個的操作:(1)A=WH (2)H=ZA (3)規(guī)范化A,H3. ARC算法的目標(biāo)是找到前15個最重要的網(wǎng)頁,只需要A/H的前15個值相對大小保持穩(wěn)定即可,不需要A/H整個收斂,這樣2中迭代次數(shù)很小就能滿足,[10]中指出迭代5次就可以,所以ARC算法有很高的計算效率,開銷主要是在擴展根集上。2.2.3.3 Hub平均( Hub-Averaging-Kleinberg)算法 Allan Borodin等在[11]指出了一種現(xiàn)象,設(shè)有M+1個Hub網(wǎng)頁,M+1個權(quán)威網(wǎng)頁,前M個Hub指向第一個權(quán)威網(wǎng)頁,第M+1個Hub網(wǎng)頁指向了所有M+1個權(quán)威網(wǎng)頁。顯然根據(jù)HITS算法,第一個權(quán)威網(wǎng)頁最重要,有最高的Authority值,這是我們希望的。但是,根據(jù)HITS,第M+1個Hub網(wǎng)頁有最高的Hub值,事實上,第M+1個Hub網(wǎng)頁既指向了權(quán)威值很高的第一個權(quán)威網(wǎng)頁,同時也指向了其它權(quán)威值不高的網(wǎng)頁,它的Hub值不應(yīng)該比前M個網(wǎng)頁的Hub值高。因此,Allan Borodin修改了HITS的O操作:O操作: ,n是(v,u)的個數(shù) 調(diào)整以后,僅指向權(quán)威值高的網(wǎng)頁的Hub值比既指向權(quán)威值高又指向權(quán)威值低的網(wǎng)頁的Hub值高,此算法稱為Hub平均(Hub-Averaging-Kleinberg)算法。2.2.3.4 閾值(Threshhold—Kleinberg)算法Allan Borodin等在[11]中同時提出了3種閾值控制的算法,分別是Hub閾值算法,Authority閾值算法,以及結(jié)合2者的全閾值算法。 計算網(wǎng)頁p的Authority時候,不考慮指向它的所有網(wǎng)頁Hub值對它的貢獻,只考慮Hub值超過平均值的網(wǎng)頁的貢獻,這就是Hub閾值方法。 Authority閾值算法和Hub閾值方法類似,不考慮所有p指向的網(wǎng)頁的Authority對p的Hub值貢獻,只計算前K個權(quán)威網(wǎng)頁對它Hub值的貢獻,這是基于算法的目標(biāo)是查找最重要的K個權(quán)威網(wǎng)頁的前提。 同時使用Authority閾值算法和Hub閾值方法的算法,就是全閾值算法。2.3 SALSA算法 PageRank算法是基于用戶隨機的向前瀏覽網(wǎng)頁的直覺知識,HITS算法考慮的是Authoritive網(wǎng)頁和Hub網(wǎng)頁之間的加強關(guān)系。實際應(yīng)用中,用戶大多數(shù)情況下是向前瀏覽網(wǎng)頁,但是很多時候也會回退瀏覽網(wǎng)頁?;谏鲜鲋庇X知識,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for LinkStructure Analysis)算法[8],考慮了用戶回退瀏覽網(wǎng)頁的情況,保留了PageRank的隨機漫游和HITS中把網(wǎng)頁分為Authoritive和Hub的思想,取消了Authoritive和Hub之間的相互加強關(guān)系。 具體算法如下:1. 和HITS算法的第一步一樣,得到根集并且擴展為網(wǎng)頁集合T,并除去孤立節(jié)點。2. 從集合T構(gòu)造無向圖G’=(Vh,Va,E)Vh = { sh | s∈C and outdegree(s) 0 } ( G’的Hub邊). Va = { sa | s∈C and indegree(s) 0 } (G’的Authority邊). E= { (sh , ra) |s-r in T} 這就定義了2條鏈,Authority鏈和Hub鏈。3. 定義2條馬爾可夫鏈的變化矩陣,也是隨機矩陣,分別是Hub矩陣H,Authority矩陣A。 4. 求出矩陣H,A的主特征向量,就是對應(yīng)的馬爾可夫鏈的靜態(tài)分布。5. A中值大的對應(yīng)的網(wǎng)頁就是所要找的重要網(wǎng)頁。SALSA算法沒有HITS中相互加強的迭代過程,計算量遠小于HITS。SALSA算法只考慮直接相鄰的網(wǎng)頁對自身A/H的影響,而HITS是計算整個網(wǎng)頁集合T對自身AH的影響。實際應(yīng)用中,SALSA在擴展根集時忽略了很多無關(guān)的鏈接,比如1. 同一站點內(nèi)的鏈接,因為這些鏈接大多只起導(dǎo)航作用。2. CGI 腳本鏈接。3. 廣告和贊助商鏈接。試驗結(jié)果表明,對于單主題查詢java,SALSA有比HITS更精確的結(jié)果,對于多主題查詢abortion,HITS的結(jié)果集中于主題的某個方面,而SALSA算法的結(jié)果覆蓋了多個方面,也就是說,對于TKC現(xiàn)象,SALSA算法比HITS算法有更高的健壯性。2.3.1 BFS(Backword Forward Step)算法 SALSA算法計算網(wǎng)頁的Authority值時,只考慮網(wǎng)頁在直接相鄰網(wǎng)頁集中的受歡迎程度,忽略其它網(wǎng)頁對它的影響。HITS算法考慮的是整個圖的結(jié)構(gòu),特別的,經(jīng)過n步以后,網(wǎng)頁i的Authority的權(quán)重是,為離開網(wǎng)頁i的的路徑的數(shù)目,也就是說網(wǎng)頁ji,對i的權(quán)值貢獻等于從i到j(luò)的路徑的數(shù)量。如果從i到j(luò)包含有一個回路,那么j對i的貢獻將會呈指數(shù)級增加,這并不是算法所希望的,因為回路可能不是與查詢相關(guān)的。 因此,Allan Borodin等[11]提出了BFS(Backward Forward Step)算法,既是SALSA的擴展情況,也是HITS的限制情況?;舅枷胧?,SALSA只考慮直接相鄰網(wǎng)頁的影響,BFS擴展到考慮路徑長度為n的相鄰網(wǎng)頁的影響。在BFS中,被指定表示能通過路徑到達i的結(jié)點的集合,這樣j對i的貢獻依賴就與j到i的距離。BFS采用指數(shù)級降低權(quán)值的方式,結(jié)點i的權(quán)值計算公式如下:=|B(i)|+ |BF(i)| +|BFB(i)|+……+|| 算法從結(jié)點i開始,第一步向后訪問,然后繼續(xù)向前或者向后訪問鄰居,每一步遇到新的結(jié)點加入權(quán)值計算,結(jié)點只有在第一次被訪問時加入進去計算。2.4 PHITS D.Cohn and H.Chang提出了計算Hub和Authority的統(tǒng)計算法PHITS(Probabilistic analogue of the HITS)[12]。他們提出了一個概率模型,在這個模型里面一個潛在的因子或者主題z影響了文檔d到文檔c的一個鏈接,他們進一步假定,給定因子z,文檔c的條件分布P(c|z)存在,并且給定文檔d,因子z的條件分布P(z|d)也存在。 dz c P(d) P(z|d) P(c|z),其中根據(jù)這些條
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1