【正文】
等標(biāo)簽可能做了特 殊處理,在他們的工作報告中沒有提及。鑒于我們標(biāo)記的樣本集中也可能存在少量的誤標(biāo)的情況,其召回率應(yīng)該也達(dá)到了 90%。 綜合所有隊(duì)伍提取和使用的特征信息,大致有如下幾類: URL 相關(guān)的特征信息 包括 URL 中數(shù)字的個數(shù) 、 URL 的深度 以及 URL 的后綴 。 評測結(jié)果如下: 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評測結(jié)果較好的隊(duì)伍是華南理工一隊(duì)和大連理工, 分別代表了網(wǎng)頁整體性判斷和網(wǎng)頁分塊判斷兩種主要的實(shí)現(xiàn)方法。 結(jié)果的格式如下: DocumentNumber StartPosition Length 三元組 其中 DocumentNumber 是網(wǎng)頁的編號, StartPosition 是某段正文內(nèi)容在原網(wǎng)頁文檔中的開始位置(網(wǎng)頁的起始位置從 0 開始計(jì)算), Length 是該段正文內(nèi)容的長度。 噪音信息 定義 : a. 與網(wǎng)頁主旨內(nèi)容不相關(guān)的信息 b. 由網(wǎng)站提供的內(nèi)容模板信息 c. 廣告信息 d. 腳本程序信息 相關(guān)鏈接定義: 指向與本網(wǎng)頁相關(guān)網(wǎng)頁的鏈接,如新聞網(wǎng)頁下方的相關(guān)新聞鏈接。 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) 主題型網(wǎng)頁是指通過文字描述了一件或多件事物,具有一定主題的網(wǎng)頁。圖片下方是程序生成的文字內(nèi)容,共 628 個字符。在處理這種類型的新聞網(wǎng)頁時,算法的效率很高,但事實(shí)上, Quark 模塊還可以處理更復(fù)雜的網(wǎng)頁類型。 網(wǎng)頁塊為非主題內(nèi)容塊的概率: p_isNoise = 1 p_isContent。 該塊中標(biāo)點(diǎn)符號總數(shù)大于 4 的 概率 p1_punctuation = 該塊中非 錨接文本 的長度大于 200 的概率 p1_size = 該塊中鏈接數(shù)量大于 20 的概率 p1_linkNum = 。 若文本相似度大于一個閾值,則該網(wǎng)頁塊也判定為主題內(nèi)容塊。 網(wǎng)頁 主題 內(nèi)容提取 算法主體 在 QuarkAnalyzer 類中。 2 取 當(dāng)前節(jié)點(diǎn) 隊(duì)列 的第一個節(jié)點(diǎn) 。 由于它們的存在與否不改變網(wǎng)頁布局,所以不影響網(wǎng)頁分塊。 我詳細(xì)分析了 W3C 制定的 格式規(guī)范,將所有規(guī)范的 Html 標(biāo)簽根據(jù) QuarkRecognizer 算法的需要分類,完整地列出了所有對網(wǎng)頁分塊起重要作用的標(biāo)簽,而不是像所有已有論文那樣僅僅象征性地列舉出幾個 html 標(biāo)簽。 左下方灰色的部分 為 Quark 模塊依賴的外部類 接口,包括中文切詞類ChineseTokenizer,以及圖中沒有的編碼轉(zhuǎn)換類 CodeConvert 等等。 這個類是整個 Quark 模塊最核心的類,目前功能只是初步實(shí)現(xiàn),還有很大的改進(jìn)空間,將來也可以根據(jù)功能將其分割成多個類。 因此Quark 模塊必須能獨(dú)立于搜索引擎代碼之外單獨(dú)編譯運(yùn)行,并且方便他人調(diào)用這部分代碼。 從上面的介紹中可以看出,天網(wǎng)搜索引擎 Quark 模塊有兩個比較重要的特點(diǎn): 可擴(kuò)展性。 p 向量的值以馬爾科夫鏈的形式循環(huán)計(jì)算下去,直到算法收斂。 WP(α, β)可以理解為是從 page α 開始,以 page α 中包含的各語義塊為媒介,? ?iPjf b l o c k j p a g e iijbX ??? ??? 如 果 屬 于 0 否 則? ?P p a g e p b l o c k bf b l o c k bb ?? 中 的 大 小的 中 心 點(diǎn) 到 頁 面 中 心 點(diǎn) 的 距 離? ?Pbpf1b???? ? ? ? ? ?Pbf Z , , W b b P????? ? ? ? ?? ? ??跳轉(zhuǎn)到 page β 的概率。 改進(jìn)后的 X 定義如下: 其中 f 函數(shù)給 page i 中的每一個 block j 賦予一個重要度權(quán)值。在上述兩個矩陣的基礎(chǔ)之上,可以構(gòu)建兩個 web 圖模型,即網(wǎng)頁圖 GP (VP,EP, WP) 和語義塊圖 GB (VB, EB, WB)。 之前的大多數(shù)鏈接分析算法都是以一個 Web 頁面為 Web 圖中的一個節(jié)點(diǎn),而 BLPR 算法以 網(wǎng)頁中的語義塊為原子節(jié)點(diǎn),從鏈接結(jié)構(gòu)和頁面結(jié)構(gòu)中提取出 PagetoBlock, BlocktoPage 關(guān)系矩陣,構(gòu)建出新的 Web語義圖,并以此計(jì)算 PageRank。 為了得到網(wǎng)頁的完整視覺信息,必須完全下載該網(wǎng)頁所鏈 接的 CSS 文件,JavaScript 文件,圖片文件等等,然后調(diào)用瀏覽器內(nèi)核代碼渲染這些網(wǎng)頁文件,最后從瀏覽器內(nèi)核代碼的接口中得到每個 HTML 標(biāo)簽的視覺信息。 微軟亞洲研究院在其 2022 年的論文 VIPS: A vision based page segmentation algorithm[4]里首次提出了基于視覺的網(wǎng)頁分塊算法 VIPS(Visionbased page segmentation)。在實(shí)際編程中,就必須得借助一些 HTML 規(guī)范工具如 tidy 等來修正 DOM 樹結(jié)構(gòu)的錯誤,但個別中文網(wǎng)頁仍然存在無法修正的情況。 這篇論文 提出 簡化塊與塊之間的層次結(jié)構(gòu),直接提取一些原子塊( Atomic Block) ,諸如以 list, table, link, object, frame, form 等為根節(jié)點(diǎn)的 html 子樹,來完成 分塊工作。所謂語義信息, 通常 包括 網(wǎng)頁中包含的 HTML 標(biāo)簽 信息, HTML DOM 樹的結(jié)構(gòu)信息,文字內(nèi)容信息, 超鏈接信息, 以及其他通過統(tǒng)計(jì)或?qū)W習(xí)而得到的全局信息等等 ,也可以理解成 為 除了網(wǎng)頁中的視覺信息之外的所有可以得到的信息。而 移動設(shè)備通常屏幕較小,計(jì)算能力有限, 無法直接訪問這些頁面。第一 種 就是從信息的產(chǎn)生方那兒就不再提供網(wǎng)頁式的信息,而改為直接提供網(wǎng)頁塊或者文字段式 的信息。 然而信息量的增大,隨著而來的就是存儲成本的增大和信息提取難度的增大,如何有效的獲取和整合 Web 信息成為大家面對的共同課題。 上述算法已 集成到天網(wǎng)搜索引擎平臺的 網(wǎng)頁預(yù)處理模塊中,并且在 SEWM 2022 會議中,以這套算法為框架,組 織了主題型網(wǎng)頁識別和網(wǎng)頁主題內(nèi)容信息塊提取兩個中文 Web 信息檢索評測項(xiàng)目。 經(jīng)濟(jì)、政治、學(xué)習(xí)、工作、生活、娛樂等等各個層面都在 Web 網(wǎng)絡(luò)中激蕩起伏,深刻地影響著人類的未來。 其次還因?yàn)楝F(xiàn)在很多 Web 頁面是動態(tài)更新的,比如博客頁面或者論壇討論帖,它們的更新是以一個一個網(wǎng)頁塊的形式進(jìn)行的,更新時頁面上大部分內(nèi)容并沒有變化,如果仍然以整個頁面為處理單位,則不可避免地存在效率損失和定義的混淆。還可以憑此改進(jìn)搜索引擎的索引模塊和檢索模塊的效率,比如改進(jìn) TF/IDF 和 PageRank 的算法 (詳見第五章) 。 第六章是對本文的總結(jié)和工作展望。 PageLevel 的算法在處理大型網(wǎng)站的網(wǎng)頁時效率常常不如 SiteLevel,但優(yōu)勢在于靈活,不受網(wǎng)頁類型限制。所以它是典型的先 SiteLevel,后PageLevel 的方法。 而基于視覺的網(wǎng)頁分塊算法就彌補(bǔ)了這個不足。 VIPS 算法的優(yōu)點(diǎn)十分明顯,它充分利用了網(wǎng)頁的視覺信息和結(jié)構(gòu)信息,相對于傳統(tǒng)的基于規(guī)則的分塊算法來說,大大提高了分塊的精確度。 我們實(shí)驗(yàn)室的毛先領(lǐng)師兄曾經(jīng) 研究 Mozilla 代碼,完成了這項(xiàng)艱苦的工作,但實(shí)驗(yàn)表明,提取一個網(wǎng)頁的視覺信息所需時間超過 1 秒鐘,不能滿足搜索引擎等常規(guī)應(yīng)用的使用要求。對每個語義塊來說,只有一個網(wǎng)頁包含它, bi ∈ pj 意味著語義塊 i 包含于網(wǎng)頁 j。上面的公式分配給 page i 中的每一個block 以相同的權(quán)值,顯然是過于簡化了,不能區(qū)分 block 的重要程度。然而在 BLPR 算法中, Page Graph需要體現(xiàn)出不同的語義塊的重要程度的不同。 ε為適配參數(shù), 以 1ε 的概率,用戶在當(dāng)前頁面中隨機(jī)選擇一個超鏈接,跳轉(zhuǎn)到 該鏈接指向的 頁面;以 ε 的概率,用戶 從所有網(wǎng)頁中隨機(jī)選擇一個 URL并跳轉(zhuǎn)。同時 在天網(wǎng)搜索引擎平臺中,基于功能擴(kuò)展和實(shí)驗(yàn)室內(nèi)部其他相關(guān)研究的需要,必須將對原始網(wǎng)頁的處理部分單獨(dú)出來,從而方便模塊復(fù)用,統(tǒng)一代碼管理,減少重復(fù)勞動。 而正由于 Quark 模塊的可擴(kuò)展性要求,所以它的代碼的可閱讀性也十分重要,在編寫的過程中,我盡量 注意了這一點(diǎn) ,遵守了我們統(tǒng)一的代碼規(guī)范 。 QuarkRecognizer 類 肩負(fù)網(wǎng)頁分塊的重任,從網(wǎng)頁中識別出所有語義塊。 QuarkHtmlBuilder類 是 演示類, 用來查看 Quark模塊各步驟的實(shí)現(xiàn)效果。 綜合各篇論文里提到的分塊方法, 我設(shè)計(jì)實(shí)現(xiàn)了 QuarkRecognizer 算法。 排版標(biāo)簽( Layout Tag,簡稱為 L 型標(biāo)簽): 這種標(biāo)簽 能影響到網(wǎng)頁的顯示效果,改變文字布局。所以我添加了定制標(biāo)簽,由用戶指定,它可以是普通的標(biāo)簽如“ TITLE”等,也可以是正則表達(dá)式,凡是其內(nèi)部文字滿足該正則表達(dá)式的 S 型、 B 型和 L 型標(biāo)簽,都將被單獨(dú)提取為網(wǎng)頁塊。 7 如果遇到 D 型或 A 型節(jié)點(diǎn),則將其內(nèi)部文字長度信息向父節(jié)點(diǎn)傳遞,然后將父節(jié)點(diǎn)加入當(dāng)前節(jié)點(diǎn)隊(duì)列,回到 2。 對兩個 token 流分別排序。 _________________________________________________________________ 其中 Bayes 方法的各先驗(yàn)概率事先用手工標(biāo)記的樣本網(wǎng)頁計(jì)算得到,結(jié)果如下: 在該網(wǎng)頁塊為主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p1_costomizedTag = 。 該塊中標(biāo)點(diǎn)符號總數(shù)大于 4 的概率 p2_punctuation = 該塊中非錨接文本的長度大于 200 的概率 p2_size = 該塊中鏈接數(shù)量大于 20 的概率 p2_linkNum = 。 Submit后的效果圖見后面的第五幅圖。圖中紅色的部分為 QuarkAnalyzer識別的正文內(nèi)容,綠色部分為其識別的相關(guān)鏈接,其余紫色部分為噪音內(nèi)容。本屆評測采用的數(shù)據(jù)集是 CWT70th。 論壇、博客網(wǎng)頁屬于主題型網(wǎng)頁,但沒有主貼,只包括無意義回復(fù)語句的網(wǎng)頁屬于非主題型網(wǎng)頁。 任務(wù)評測 根據(jù)準(zhǔn)確度、召回率和 MacroF1 三個指標(biāo),它們的定義如下: M a c r o Pr e c is io n ? 在 某 個 網(wǎng) 頁 中 正 確 提 取 的 內(nèi) 容 信 息 長 度在 某 個 網(wǎng) 頁 中 提 取 的 內(nèi) 容 信 息 總 長 度M a c r o R e c a l l ?? 主 題 型 網(wǎng) 頁 判 斷 正 確 的 個 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁 的 總 數(shù) 目M a c r o R e c a l l ?? 在 某 個 網(wǎng) 頁 中 正 確 提 取 的 內(nèi) 容 信 息 長 度在 某 個 網(wǎng) 頁 中 人 工 標(biāo) 注 的 內(nèi) 容 信 息 總 長 度M a c r o Pr e c is io n ?? 主 題 型 網(wǎng) 頁 判 斷 正 確 的 個 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁 的 總 數(shù) 目M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 評測格式 評測要求參加評測單位以一定的格式提交,每個評測任務(wù)接受參加者 的一到二組檢索結(jié)果。利用該 227 個網(wǎng)頁,評測各組參賽數(shù)據(jù)。若含有主題塊,則為主題型網(wǎng)頁 。所以本任務(wù)的評測就依據(jù)這 104 個標(biāo)記過的主題型網(wǎng)頁,樣本量偏少。后者由于過于簡單,實(shí)際評測效果不如前者。這個方法的局限一是不能處理含有多個內(nèi)容信息塊的網(wǎng)頁,而是不能處理所有網(wǎng)頁,比如表格型網(wǎng)頁需要單獨(dú)處理。 對內(nèi)容信息塊的定義不夠清晰。 第 5 章 網(wǎng)頁分塊的 分布式 應(yīng)用 在前面提到的網(wǎng)頁分塊算法的基礎(chǔ)之上,我嘗試了 基于網(wǎng)頁分塊的PageRank 算法,與相關(guān)研究里提到的 BLPR 算法不同的是,我的這項(xiàng)工作是在我們實(shí)驗(yàn)室自己開發(fā) 的天網(wǎng)文件系統(tǒng) [8]( TFS)和分布式計(jì)算平臺( MapReduce)上實(shí)現(xiàn)的。 Reducer 加成得到新一輪的 PageRank 值。 同時, 200GB 的原始網(wǎng)頁文件 作為輸入文件,而輸出則是一個列有所有 URL 的 PageRank 值的文件,輸入與輸出文件都存儲在天網(wǎng)文件系統(tǒng)中,以 最大 64MB 的 數(shù)據(jù)塊的形式存在于整個機(jī)群中。又比如相關(guān)鏈接算不算內(nèi)容信息塊,在這次評測中是不算的,以后可以考慮將相關(guān)鏈接的提取也列為評測項(xiàng)目。 其他特殊方法 四川大學(xué)的算法比較特殊,他們認(rèn)為內(nèi)容信息塊在長度上相對孤立,所以使用了基于偏差的孤立點(diǎn)檢測算法,以塊的大小作為屬性,檢測孤立點(diǎn),得到的孤立點(diǎn)即內(nèi)容塊。 在噪音過濾,網(wǎng)頁分塊的基礎(chǔ)上,大連理工采用了基于規(guī)則和基于 Bayes的