【正文】
實(shí)質(zhì)在于, PageRank 算法基于 原始 的 只有 1 和 0 的 Page Graph,而 BLPR 算法基于 上面提到的 GP。所以在 BLPR 中, WP 的定義為: 即 PW XZ? 。 即 fp(b)可以理解為是用戶在瀏覽 page p 的時候,關(guān)注 block b 的可能性。每個 block包含的文本長度越大, 離 頁面中心點(diǎn)越近,則越重要。 Zij 可以理解成是用戶從 block i 鏈接到page j 的概率。 然后定義兩個矩陣, blocktopage 矩陣 Z 和pagetoblock 矩陣 X。 P 為所有網(wǎng)頁的集合, P = {p1, p2, …, pk}, k 為網(wǎng)頁總數(shù)。 Block Level PageRank 算法 在 VIPS 算法的分塊基礎(chǔ)上,微軟 2022 年的論文 Blocklevel Link Analysis[5]中提出了 Block Level PageRank(BLPR)算法。在 Linux 編程環(huán)境下,可以利用的只有 Mozilla( Firefox)瀏覽器 的開源代碼。因為 HTML 語言本身并沒有包含足夠的視覺信息,所以網(wǎng)頁真正顯示出來的效果因瀏覽器,因操作系統(tǒng),甚至因硬件而異。 第二步利用每個可視標(biāo)簽 塊 的絕對 位置 和相對位置信息 , 檢測出它們之間的所有的分割條,包括水平和垂直方向。因此如果充分的使用 Web 頁面的視覺 信息 , 模擬人眼識別語義塊的過程, 并結(jié)合 DOM 樹 結(jié)構(gòu)分析進(jìn)行 頁面 分塊,則可以 達(dá)到更好的效果。反之,兩個在語義上有關(guān)系的結(jié)點(diǎn)卻可能分布在 DOM 樹的不同之處。首先, HTML語言版本眾多,一直沒有有效統(tǒng)一,而且其語法規(guī)范很松散,一些不符合 HTML規(guī)則的網(wǎng)頁也能被完全識別,所以網(wǎng)頁編寫者在制作網(wǎng)頁時相對隨意,導(dǎo)致 Web上的很多網(wǎng)頁都沒有完全遵循 W3C 規(guī)范;其次, IE、 Firefox 等瀏覽器各自 為政,對 HTML 標(biāo)簽的識別不盡相同, IE 甚至還特別為 Office 軟件設(shè)計了特別的 html標(biāo)簽 以輔助顯示,這些都增加了基于規(guī)則分塊的復(fù)雜性。 合并 SiteLevel 和 PageLevel 的方法也一直有人嘗試。 賓夕法尼亞州立大學(xué) 2022 年的論文 [2]就是其中的典型。 SiteLevel 的算法顧名思義,就是分析 一個網(wǎng)站或者網(wǎng)頁集內(nèi)部的所有網(wǎng)頁,從中提取反復(fù)出現(xiàn)的 模式 , 而一般來說,在多個網(wǎng)頁里重復(fù)出現(xiàn)的模式(可理解為 DomTree 子樹) 就是導(dǎo)航欄、廣告等噪音信息了,單個網(wǎng)頁中減去這些信息,剩下的就是主題信息內(nèi)容。其中,基于語義信息對網(wǎng)頁分塊是最簡便 , 也最基礎(chǔ)的一種方法。比如類似于新聞人物追蹤和歷史新聞檢索等應(yīng)用,出于節(jié)約存儲空間,提高檢索精度,方便更新等目的,可以直接存儲和操作網(wǎng)頁中的主題內(nèi)容語義塊,而舍棄網(wǎng)頁中其他與系統(tǒng)需求無關(guān)的語義塊。 因為目前 大部分的 Web 頁面都是針對 PC 機(jī) 設(shè)計的, 要求有相對較大的屏幕。 基于網(wǎng)頁分塊的 Web 頁面的語義 信息 提取在很多方面都有應(yīng)用。 解決這個問題的辦法其實(shí)有兩種思路。 首先是因為 Web頁面中信息量的分布非常不均勻,有主題內(nèi)容,也有廣告,導(dǎo)航欄,版權(quán)信息,裝飾信息,以及在大量網(wǎng)頁中重復(fù)出現(xiàn)的部分,它們自身的信息含量千差萬別。 的意義就在于 網(wǎng)絡(luò)內(nèi)容的提供方從商人和專業(yè)人員轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)上的每一個普通用戶,從而幾何級數(shù)地增長了 Web 的信息量。 關(guān)鍵詞: 網(wǎng)頁分塊 信息提取 SEWM 評測 PageRank i Abstract This paper has been based on the DomTree and heuristic rules of the Web information extraction method, by classifying all the Html tags in line with W3C standards, and by analyzing semantic information contained in the Html tags one by one, it refines the rules set and achieves a bottomup page block algorithm without information missing. On this basis, with the probability distribution of data getting from statistical methods, this paper realizes two algorithms of information block recognition, one is text similarity parison and the other is Bayes posterior probability estimates, and the final result es from their intersection, which improves the accuracy of information theme block recognition. These algorithms have been integrated into the page pretreatment module of TianWang search engine platform, and in SEWM 2022 meeting, using these algorithms, we anized two Chinese Web Information Retrieval Evaluation Project, Which two are themebased Web page identification and block extraction of the information theme content. In this method, based on TianWang file system and the MapReduce puting platform, this paper reports the distributed blocklevel PageRank algorithm, named QuarkRank algorithm here. The actual test showed that these algorithms are good at adaptability and scalability, and reach a very high precision and recall. Keywords: WebPage Blocking, SEWM, Information Extraction, Evaluation , PageRank ii 目錄 第 1 章 序言 .................................................................................................... 3 第 2 章 相關(guān)研究工作 .................................................................................... 5 基于語義的網(wǎng)頁信息提取算法 ....................................................... 5 基于視覺的網(wǎng)頁分塊算法 ............................................................... 6 Block Level PageRank 算法 ............................................................. 8 Block Level Web Graph ............................................................... 8 Block Level PageRank ............................................................... 10 第 3 章 天 網(wǎng)搜索引擎 Quark 模塊 .............................................................. 11 網(wǎng)頁分塊算法 ................................................................................. 13 網(wǎng)頁主題內(nèi)容提取 ......................................................................... 16 算法效果演示 ................................................................................. 18 第 4 章 SEWM2022 中文 Web 信息檢索評測 ........................................... 23 評測任務(wù)介紹 ................................................................................. 23 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) ................................................................ 23 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù) ............................................................ 24 評測格式 ......................................................................................... 25 評測結(jié)果 ......................................................................................... 25 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評測結(jié)果 ................................................ 26 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù)評測結(jié)果 ............................................ 28 評測綜述 ......................................................................................... 31 第 5 章 網(wǎng)頁分塊的分布式應(yīng)用 .................................................................. 32 QuarkRank ....................................................................................... 32 其他應(yīng)用 ......................................................................................... 34 第 6 章 總結(jié)與展望 ...................................................................................... 35 總結(jié) ................................................................................................. 35 展望 ................................................................................................. 36 第 1 章 序言 信息時代,非 Web 無以制勝。 i 本科生畢業(yè)論文 題目 : (中文 ) 大 規(guī) 模 網(wǎng) 頁 模 塊 識 別 與 信 息 提 取 系 統(tǒng) 設(shè) 計 與 實(shí) 現(xiàn) (英文 ) Design and Implementation of Large Scale Web Template Detection and Information Extraction System 姓 名: 朱 磊 學(xué) 號: 00448174 院 系: 計算機(jī)系 專