【正文】
等標(biāo)簽可能做了特 殊處理,在他們的工作報(bào)告中沒有提及。鑒于我們標(biāo)記的樣本集中也可能存在少量的誤標(biāo)的情況,其召回率應(yīng)該也達(dá)到了 90%。 綜合所有隊(duì)伍提取和使用的特征信息,大致有如下幾類: URL 相關(guān)的特征信息 包括 URL 中數(shù)字的個(gè)數(shù) 、 URL 的深度 以及 URL 的后綴 。 評(píng)測結(jié)果如下: 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評(píng)測結(jié)果較好的隊(duì)伍是華南理工一隊(duì)和大連理工, 分別代表了網(wǎng)頁整體性判斷和網(wǎng)頁分塊判斷兩種主要的實(shí)現(xiàn)方法。 結(jié)果的格式如下: DocumentNumber StartPosition Length 三元組 其中 DocumentNumber 是網(wǎng)頁的編號(hào), StartPosition 是某段正文內(nèi)容在原網(wǎng)頁文檔中的開始位置(網(wǎng)頁的起始位置從 0 開始計(jì)算), Length 是該段正文內(nèi)容的長度。 噪音信息 定義 : a. 與網(wǎng)頁主旨內(nèi)容不相關(guān)的信息 b. 由網(wǎng)站提供的內(nèi)容模板信息 c. 廣告信息 d. 腳本程序信息 相關(guān)鏈接定義: 指向與本網(wǎng)頁相關(guān)網(wǎng)頁的鏈接,如新聞網(wǎng)頁下方的相關(guān)新聞鏈接。 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) 主題型網(wǎng)頁是指通過文字描述了一件或多件事物,具有一定主題的網(wǎng)頁。圖片下方是程序生成的文字內(nèi)容,共 628 個(gè)字符。在處理這種類型的新聞網(wǎng)頁時(shí),算法的效率很高,但事實(shí)上, Quark 模塊還可以處理更復(fù)雜的網(wǎng)頁類型。 網(wǎng)頁塊為非主題內(nèi)容塊的概率: p_isNoise = 1 p_isContent。 該塊中標(biāo)點(diǎn)符號(hào)總數(shù)大于 4 的 概率 p1_punctuation = 該塊中非 錨接文本 的長度大于 200 的概率 p1_size = 該塊中鏈接數(shù)量大于 20 的概率 p1_linkNum = 。 若文本相似度大于一個(gè)閾值,則該網(wǎng)頁塊也判定為主題內(nèi)容塊。 網(wǎng)頁 主題 內(nèi)容提取 算法主體 在 QuarkAnalyzer 類中。 2 取 當(dāng)前節(jié)點(diǎn) 隊(duì)列 的第一個(gè)節(jié)點(diǎn) 。 由于它們的存在與否不改變網(wǎng)頁布局,所以不影響網(wǎng)頁分塊。 我詳細(xì)分析了 W3C 制定的 格式規(guī)范,將所有規(guī)范的 Html 標(biāo)簽根據(jù) QuarkRecognizer 算法的需要分類,完整地列出了所有對網(wǎng)頁分塊起重要作用的標(biāo)簽,而不是像所有已有論文那樣僅僅象征性地列舉出幾個(gè) html 標(biāo)簽。 左下方灰色的部分 為 Quark 模塊依賴的外部類 接口,包括中文切詞類ChineseTokenizer,以及圖中沒有的編碼轉(zhuǎn)換類 CodeConvert 等等。 這個(gè)類是整個(gè) Quark 模塊最核心的類,目前功能只是初步實(shí)現(xiàn),還有很大的改進(jìn)空間,將來也可以根據(jù)功能將其分割成多個(gè)類。 因此Quark 模塊必須能獨(dú)立于搜索引擎代碼之外單獨(dú)編譯運(yùn)行,并且方便他人調(diào)用這部分代碼。 從上面的介紹中可以看出,天網(wǎng)搜索引擎 Quark 模塊有兩個(gè)比較重要的特點(diǎn): 可擴(kuò)展性。 p 向量的值以馬爾科夫鏈的形式循環(huán)計(jì)算下去,直到算法收斂。 WP(α, β)可以理解為是從 page α 開始,以 page α 中包含的各語義塊為媒介,? ?iPjf b l o c k j p a g e iijbX ??? ??? 如 果 屬 于 0 否 則? ?P p a g e p b l o c k bf b l o c k bb ?? 中 的 大 小的 中 心 點(diǎn) 到 頁 面 中 心 點(diǎn) 的 距 離? ?Pbpf1b???? ? ? ? ? ?Pbf Z , , W b b P????? ? ? ? ?? ? ??跳轉(zhuǎn)到 page β 的概率。 改進(jìn)后的 X 定義如下: 其中 f 函數(shù)給 page i 中的每一個(gè) block j 賦予一個(gè)重要度權(quán)值。在上述兩個(gè)矩陣的基礎(chǔ)之上,可以構(gòu)建兩個(gè) web 圖模型,即網(wǎng)頁圖 GP (VP,EP, WP) 和語義塊圖 GB (VB, EB, WB)。 之前的大多數(shù)鏈接分析算法都是以一個(gè) Web 頁面為 Web 圖中的一個(gè)節(jié)點(diǎn),而 BLPR 算法以 網(wǎng)頁中的語義塊為原子節(jié)點(diǎn),從鏈接結(jié)構(gòu)和頁面結(jié)構(gòu)中提取出 PagetoBlock, BlocktoPage 關(guān)系矩陣,構(gòu)建出新的 Web語義圖,并以此計(jì)算 PageRank。 為了得到網(wǎng)頁的完整視覺信息,必須完全下載該網(wǎng)頁所鏈 接的 CSS 文件,JavaScript 文件,圖片文件等等,然后調(diào)用瀏覽器內(nèi)核代碼渲染這些網(wǎng)頁文件,最后從瀏覽器內(nèi)核代碼的接口中得到每個(gè) HTML 標(biāo)簽的視覺信息。 微軟亞洲研究院在其 2022 年的論文 VIPS: A vision based page segmentation algorithm[4]里首次提出了基于視覺的網(wǎng)頁分塊算法 VIPS(Visionbased page segmentation)。在實(shí)際編程中,就必須得借助一些 HTML 規(guī)范工具如 tidy 等來修正 DOM 樹結(jié)構(gòu)的錯(cuò)誤,但個(gè)別中文網(wǎng)頁仍然存在無法修正的情況。 這篇論文 提出 簡化塊與塊之間的層次結(jié)構(gòu),直接提取一些原子塊( Atomic Block) ,諸如以 list, table, link, object, frame, form 等為根節(jié)點(diǎn)的 html 子樹,來完成 分塊工作。所謂語義信息, 通常 包括 網(wǎng)頁中包含的 HTML 標(biāo)簽 信息, HTML DOM 樹的結(jié)構(gòu)信息,文字內(nèi)容信息, 超鏈接信息, 以及其他通過統(tǒng)計(jì)或?qū)W習(xí)而得到的全局信息等等 ,也可以理解成 為 除了網(wǎng)頁中的視覺信息之外的所有可以得到的信息。而 移動(dòng)設(shè)備通常屏幕較小,計(jì)算能力有限, 無法直接訪問這些頁面。第一 種 就是從信息的產(chǎn)生方那兒就不再提供網(wǎng)頁式的信息,而改為直接提供網(wǎng)頁塊或者文字段式 的信息。 然而信息量的增大,隨著而來的就是存儲(chǔ)成本的增大和信息提取難度的增大,如何有效的獲取和整合 Web 信息成為大家面對的共同課題。 上述算法已 集成到天網(wǎng)搜索引擎平臺(tái)的 網(wǎng)頁預(yù)處理模塊中,并且在 SEWM 2022 會(huì)議中,以這套算法為框架,組 織了主題型網(wǎng)頁識(shí)別和網(wǎng)頁主題內(nèi)容信息塊提取兩個(gè)中文 Web 信息檢索評(píng)測項(xiàng)目。 經(jīng)濟(jì)、政治、學(xué)習(xí)、工作、生活、娛樂等等各個(gè)層面都在 Web 網(wǎng)絡(luò)中激蕩起伏,深刻地影響著人類的未來。 其次還因?yàn)楝F(xiàn)在很多 Web 頁面是動(dòng)態(tài)更新的,比如博客頁面或者論壇討論帖,它們的更新是以一個(gè)一個(gè)網(wǎng)頁塊的形式進(jìn)行的,更新時(shí)頁面上大部分內(nèi)容并沒有變化,如果仍然以整個(gè)頁面為處理單位,則不可避免地存在效率損失和定義的混淆。還可以憑此改進(jìn)搜索引擎的索引模塊和檢索模塊的效率,比如改進(jìn) TF/IDF 和 PageRank 的算法 (詳見第五章) 。 第六章是對本文的總結(jié)和工作展望。 PageLevel 的算法在處理大型網(wǎng)站的網(wǎng)頁時(shí)效率常常不如 SiteLevel,但優(yōu)勢在于靈活,不受網(wǎng)頁類型限制。所以它是典型的先 SiteLevel,后PageLevel 的方法。 而基于視覺的網(wǎng)頁分塊算法就彌補(bǔ)了這個(gè)不足。 VIPS 算法的優(yōu)點(diǎn)十分明顯,它充分利用了網(wǎng)頁的視覺信息和結(jié)構(gòu)信息,相對于傳統(tǒng)的基于規(guī)則的分塊算法來說,大大提高了分塊的精確度。 我們實(shí)驗(yàn)室的毛先領(lǐng)師兄曾經(jīng) 研究 Mozilla 代碼,完成了這項(xiàng)艱苦的工作,但實(shí)驗(yàn)表明,提取一個(gè)網(wǎng)頁的視覺信息所需時(shí)間超過 1 秒鐘,不能滿足搜索引擎等常規(guī)應(yīng)用的使用要求。對每個(gè)語義塊來說,只有一個(gè)網(wǎng)頁包含它, bi ∈ pj 意味著語義塊 i 包含于網(wǎng)頁 j。上面的公式分配給 page i 中的每一個(gè)block 以相同的權(quán)值,顯然是過于簡化了,不能區(qū)分 block 的重要程度。然而在 BLPR 算法中, Page Graph需要體現(xiàn)出不同的語義塊的重要程度的不同。 ε為適配參數(shù), 以 1ε 的概率,用戶在當(dāng)前頁面中隨機(jī)選擇一個(gè)超鏈接,跳轉(zhuǎn)到 該鏈接指向的 頁面;以 ε 的概率,用戶 從所有網(wǎng)頁中隨機(jī)選擇一個(gè) URL并跳轉(zhuǎn)。同時(shí) 在天網(wǎng)搜索引擎平臺(tái)中,基于功能擴(kuò)展和實(shí)驗(yàn)室內(nèi)部其他相關(guān)研究的需要,必須將對原始網(wǎng)頁的處理部分單獨(dú)出來,從而方便模塊復(fù)用,統(tǒng)一代碼管理,減少重復(fù)勞動(dòng)。 而正由于 Quark 模塊的可擴(kuò)展性要求,所以它的代碼的可閱讀性也十分重要,在編寫的過程中,我盡量 注意了這一點(diǎn) ,遵守了我們統(tǒng)一的代碼規(guī)范 。 QuarkRecognizer 類 肩負(fù)網(wǎng)頁分塊的重任,從網(wǎng)頁中識(shí)別出所有語義塊。 QuarkHtmlBuilder類 是 演示類, 用來查看 Quark模塊各步驟的實(shí)現(xiàn)效果。 綜合各篇論文里提到的分塊方法, 我設(shè)計(jì)實(shí)現(xiàn)了 QuarkRecognizer 算法。 排版標(biāo)簽( Layout Tag,簡稱為 L 型標(biāo)簽): 這種標(biāo)簽 能影響到網(wǎng)頁的顯示效果,改變文字布局。所以我添加了定制標(biāo)簽,由用戶指定,它可以是普通的標(biāo)簽如“ TITLE”等,也可以是正則表達(dá)式,凡是其內(nèi)部文字滿足該正則表達(dá)式的 S 型、 B 型和 L 型標(biāo)簽,都將被單獨(dú)提取為網(wǎng)頁塊。 7 如果遇到 D 型或 A 型節(jié)點(diǎn),則將其內(nèi)部文字長度信息向父節(jié)點(diǎn)傳遞,然后將父節(jié)點(diǎn)加入當(dāng)前節(jié)點(diǎn)隊(duì)列,回到 2。 對兩個(gè) token 流分別排序。 _________________________________________________________________ 其中 Bayes 方法的各先驗(yàn)概率事先用手工標(biāo)記的樣本網(wǎng)頁計(jì)算得到,結(jié)果如下: 在該網(wǎng)頁塊為主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p1_costomizedTag = 。 該塊中標(biāo)點(diǎn)符號(hào)總數(shù)大于 4 的概率 p2_punctuation = 該塊中非錨接文本的長度大于 200 的概率 p2_size = 該塊中鏈接數(shù)量大于 20 的概率 p2_linkNum = 。 Submit后的效果圖見后面的第五幅圖。圖中紅色的部分為 QuarkAnalyzer識(shí)別的正文內(nèi)容,綠色部分為其識(shí)別的相關(guān)鏈接,其余紫色部分為噪音內(nèi)容。本屆評(píng)測采用的數(shù)據(jù)集是 CWT70th。 論壇、博客網(wǎng)頁屬于主題型網(wǎng)頁,但沒有主貼,只包括無意義回復(fù)語句的網(wǎng)頁屬于非主題型網(wǎng)頁。 任務(wù)評(píng)測 根據(jù)準(zhǔn)確度、召回率和 MacroF1 三個(gè)指標(biāo),它們的定義如下: M a c r o Pr e c is io n ? 在 某 個(gè) 網(wǎng) 頁 中 正 確 提 取 的 內(nèi) 容 信 息 長 度在 某 個(gè) 網(wǎng) 頁 中 提 取 的 內(nèi) 容 信 息 總 長 度M a c r o R e c a l l ?? 主 題 型 網(wǎng) 頁 判 斷 正 確 的 個(gè) 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁 的 總 數(shù) 目M a c r o R e c a l l ?? 在 某 個(gè) 網(wǎng) 頁 中 正 確 提 取 的 內(nèi) 容 信 息 長 度在 某 個(gè) 網(wǎng) 頁 中 人 工 標(biāo) 注 的 內(nèi) 容 信 息 總 長 度M a c r o Pr e c is io n ?? 主 題 型 網(wǎng) 頁 判 斷 正 確 的 個(gè) 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁 的 總 數(shù) 目M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 評(píng)測格式 評(píng)測要求參加評(píng)測單位以一定的格式提交,每個(gè)評(píng)測任務(wù)接受參加者 的一到二組檢索結(jié)果。利用該 227 個(gè)網(wǎng)頁,評(píng)測各組參賽數(shù)據(jù)。若含有主題塊,則為主題型網(wǎng)頁 。所以本任務(wù)的評(píng)測就依據(jù)這 104 個(gè)標(biāo)記過的主題型網(wǎng)頁,樣本量偏少。后者由于過于簡單,實(shí)際評(píng)測效果不如前者。這個(gè)方法的局限一是不能處理含有多個(gè)內(nèi)容信息塊的網(wǎng)頁,而是不能處理所有網(wǎng)頁,比如表格型網(wǎng)頁需要單獨(dú)處理。 對內(nèi)容信息塊的定義不夠清晰。 第 5 章 網(wǎng)頁分塊的 分布式 應(yīng)用 在前面提到的網(wǎng)頁分塊算法的基礎(chǔ)之上,我嘗試了 基于網(wǎng)頁分塊的PageRank 算法,與相關(guān)研究里提到的 BLPR 算法不同的是,我的這項(xiàng)工作是在我們實(shí)驗(yàn)室自己開發(fā) 的天網(wǎng)文件系統(tǒng) [8]( TFS)和分布式計(jì)算平臺(tái)( MapReduce)上實(shí)現(xiàn)的。 Reducer 加成得到新一輪的 PageRank 值。 同時(shí), 200GB 的原始網(wǎng)頁文件 作為輸入文件,而輸出則是一個(gè)列有所有 URL 的 PageRank 值的文件,輸入與輸出文件都存儲(chǔ)在天網(wǎng)文件系統(tǒng)中,以 最大 64MB 的 數(shù)據(jù)塊的形式存在于整個(gè)機(jī)群中。又比如相關(guān)鏈接算不算內(nèi)容信息塊,在這次評(píng)測中是不算的,以后可以考慮將相關(guān)鏈接的提取也列為評(píng)測項(xiàng)目。 其他特殊方法 四川大學(xué)的算法比較特殊,他們認(rèn)為內(nèi)容信息塊在長度上相對孤立,所以使用了基于偏差的孤立點(diǎn)檢測算法,以塊的大小作為屬性,檢測孤立點(diǎn),得到的孤立點(diǎn)即內(nèi)容塊。 在噪音過濾,網(wǎng)頁分塊的基礎(chǔ)上,大連理工采用了基于規(guī)則和基于 Bayes的