freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設(shè)計與實現(xiàn)(留存版)

2025-08-02 17:03上一頁面

下一頁面
  

【正文】 ...................................................................... 3 第 2 章 相關(guān)研究工作 .................................................................................... 5 基于語義的網(wǎng)頁信息提取算法 ....................................................... 5 基于視覺的網(wǎng)頁分塊算法 ............................................................... 6 Block Level PageRank 算法 ............................................................. 8 Block Level Web Graph ............................................................... 8 Block Level PageRank ............................................................... 10 第 3 章 天網(wǎng)搜索引擎 Quark 模塊 .............................................................. 11 網(wǎng)頁分塊算法 ................................................................................. 13 網(wǎng)頁主題內(nèi)容提取 ......................................................................... 16 算法效果演示 ................................................................................. 18 第 4 章 SEWM2021 中文 Web 信息檢索評測 ........................................... 23 評測任務(wù)介紹 ................................................................................. 23 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) ................................................................ 23 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù) ............................................................ 24 評測格式 ......................................................................................... 25 評測結(jié)果 ......................................................................................... 25 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評測結(jié)果 ................................................ 26 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù)評測結(jié)果 ............................................ 28 評測綜述 ......................................................................................... 31 第 5 章 網(wǎng)頁分塊的分布式應(yīng)用 .................................................................. 32 QuarkRank....................................................................................... 32 其他應(yīng)用 ......................................................................................... 34 第 6 章 總結(jié)與展望 ...................................................................................... 35 總結(jié) ................................................................................................. 35 展望 ................................................................................................. 36 第 1 章 序言 信息時代,非 Web 無以制勝。但是把整個頁面作為最基本的信息處理單位有一些不合理之處。 除此之外, Web 頁面的語義分塊還可能對常規(guī)搜索引擎之外的其他信息檢索系統(tǒng)有幫助。 在分塊之后,它也只是簡單計算了文字長度等幾個變量來決定主題信息塊。 DOC 的值越大,則表明 該 塊內(nèi)部的內(nèi)容之間的聯(lián)系越緊密 ,反之越松散。 Block Level Web Graph 首先定義 兩個集合 P 和 B。在 BLPR 的實現(xiàn)中函數(shù) f 的定義如下: 其中 β 為正規(guī)化因子,使得對每個 page, fp(b)的總和為 1。因為它的計算基于網(wǎng)頁中各語義塊的重要程度,噪音塊、廣告塊中的超鏈接指向的網(wǎng)頁的重要性顯然不如導(dǎo)航塊、正文塊中的超鏈接所指向的網(wǎng)頁,所以前者會被分配到較少的 PageRank 值, 而后者則被分配到較多的 PageRank 值。 該模塊的類結(jié)構(gòu)圖 如下 : 圖中右下及中間 藍色的部分為 Quark模塊 的核心功能類,包括 QuarkTree、QuarkElement、 QuarkRecognizer、 QuarkAnalyzer 等四個類。 網(wǎng)頁分塊算法 算法 主體在 QuarkRecognizer 類中。由于它們一般不單獨出現(xiàn),對網(wǎng)頁布局的影響體現(xiàn)在了其屬主標(biāo)簽中,所以 在 QuarkRecognizer 算法中也不予考慮。 QuarkAnalyzer 算法的核心偽碼如下: _________________________________________________________________ 第一步, 基于文本相似度的 方法 : 首先,把所有網(wǎng)頁塊中,文本長度最大的那個網(wǎng)頁塊判定為主題內(nèi)容塊。 在該網(wǎng)頁塊為非主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p2_costomizedTag = 。 從圖中可以看出 ,紅色、綠色、紫色的網(wǎng)頁塊 間雜排列,就像地圖一樣,每一種顏色表示一個被識別出的網(wǎng)頁塊。 下面是對主題型網(wǎng)頁的一個補充定義: 僅由圖片, flash,網(wǎng)絡(luò)視頻等構(gòu)成主題塊的網(wǎng)頁,除非亦包括獨立成段的文字性描述信息,否則不屬于主題型網(wǎng)頁。 大連理工大學(xué)信息檢索實驗室 DLUT1 DLUT2 四川大學(xué)計算機學(xué)院 數(shù)據(jù)庫與知識工程研究所 SCU1 SCU2 華南理工大學(xué)廣東省計算機網(wǎng)絡(luò)重點實驗室 一隊 SCUT1 SCUT2 華南理工大學(xué)廣東省計算機網(wǎng)絡(luò)重點實驗室二隊 SCUT3 SCUT4 山東大學(xué)信息檢索實驗室 SDU1 SDU2 人民大學(xué)信息學(xué)院 RUC 北京大學(xué)網(wǎng)絡(luò)實驗室 PKU M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 主題 型網(wǎng)頁發(fā)現(xiàn)任務(wù) 評測結(jié)果 在數(shù)據(jù)集 CWT70th 中的所有 71502 個網(wǎng)頁中,有 71281 個不重復(fù) URL。 其他特征信息 包括 網(wǎng)頁文本內(nèi)容中標(biāo)點符號的個數(shù) 、正文的文字長度、 特殊標(biāo)簽 (如p, br,h1) 是否出現(xiàn) ,以及包含特殊關(guān)鍵詞與否。 網(wǎng)頁整體性判斷 華南理工一隊,二隊采用了整體性判斷方法。以后我們應(yīng)該制作更精良和更具有代表性的樣本網(wǎng)頁集。 Reducer 的輸出格式: ( URL, 新一輪的 PageRank 值 , Quark 編號 , Quark 權(quán)值 , 該 Quark的出鏈列表 ) Writer:將 reducer 的輸出存入 output 文件中,并替換掉 input 文件。比如論壇或者博客的回帖該不該算作主題型應(yīng)該明確規(guī)定,以后可以考慮將這種類型的網(wǎng)站單獨作為評測項目,比如分別提取主貼與回帖(提問與解答)的內(nèi)容。而山東大學(xué)提到根據(jù) table, div, td, p等容器標(biāo)簽對網(wǎng)頁分塊,再根據(jù)某種規(guī)則對某些網(wǎng)頁塊進行合 并 的改進型算法,但不知是否最終實現(xiàn)。其中判斷各個網(wǎng)頁塊的類型是綜合基于規(guī)則和基于概率的方法,同時針對本次任務(wù)的網(wǎng)頁特性做了優(yōu)化。具體要求如下: 主題型網(wǎng)頁發(fā)現(xiàn):提交一個純文本文件,包含所有找到的主題 網(wǎng)頁,每個網(wǎng)頁的編號占一行。文檔集數(shù)據(jù)格式參見 [7]。 第一幅圖:這是從新浪網(wǎng)上保存的一個新聞網(wǎng)頁。 該塊中包含 常見噪音詞并且文本長度小于 100 的概率 p1_noise = 。 8 當(dāng)前節(jié)點隊列為空時,遍歷結(jié)束 ,算法終止。 如果一顆 html 子樹中包含多個 L 型標(biāo)簽,則該子樹單獨成塊的可能性增加。目前 可以查看 網(wǎng)頁分塊的效果,也可以查看主題信息提取的效果。 獨立性。 所以 U 為 n n 的 轉(zhuǎn)換矩陣 ,它滿足對所有的 i, j, Uij = 1/n。在BLPR 算法中,采用了一個簡單的 block 重要度區(qū)分的公式,即用 block 的文字多少和離整個頁面中心點位置的遠近來計算 block的重要度。 其次, VIPS 算法雖能改進 分塊精確度,但算法相對比較復(fù)雜,迭代輪數(shù)較多,而基于規(guī)則的分塊算法卻只用較少的迭代輪數(shù)。它的原理來自于用戶的實際觀察體驗,即用戶并不 關(guān)心 Web 頁面的內(nèi)部結(jié)構(gòu) ,而是 使用一些視覺因素,比如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等等 來識別出頁面中的語義塊 。它只利用單個頁面內(nèi)部的信息, 當(dāng)然也 可能會用到一些全局信息 。 We b 頁面的語義分塊另外一個 重要 用途 在于 移動終端訪問互聯(lián)網(wǎng),比如手機和 IPod 等。而 Web 網(wǎng)絡(luò)的靈魂,就是流動在其中的無窮無盡的信息。 的意義就在于 網(wǎng)絡(luò)內(nèi)容的提供方從商人和專業(yè)人員轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)上的每一個普通用戶,從而幾何級數(shù)地增長了 Web 的信息量。 因為目前 大部分的 Web 頁面都是針對 PC 機 設(shè)計的, 要求有相對較大的屏幕。 賓夕法尼亞州立大學(xué) 2021 年的論文 [2]就是其中的典型。因此如果充分的使用 Web 頁面的視覺 信息 , 模擬人眼識別語義塊的過程, 并結(jié)合 DOM 樹 結(jié)構(gòu)分析進行 頁面 分塊,則可以 達到更好的效果。 Block Level PageRank 算法 在 VIPS 算法的分塊基礎(chǔ)上,微軟 2021 年的論文 Blocklevel Link Analysis[5]中提出了 Block Level PageRank(BLPR)算法。每個 block包含的文本長度越大, 離 頁面中心點越近,則越重要。 而 M也是 n n 的轉(zhuǎn)換矩陣,它是由上面提到的 WP權(quán)值矩陣對每一行做歸一化,令每一行的權(quán)值之和為 1 得到的。 在我們實驗室內(nèi)部,除了搜索引擎之外,還有 Web 數(shù)據(jù)挖掘, Mapreduce應(yīng)用等相關(guān)工作也可能需要使用對單個網(wǎng)頁的處理和數(shù)據(jù)提取程序。 最上面黃色的部分為 Quark 模塊的應(yīng)用類 ,包括 QuarkRank、QuarkDuplicate、 QuarkClassification 等 ,它們都是利用分好的網(wǎng)頁塊實現(xiàn)的一些算法,比如基于 Quark 的 PageRank 算法,基于 Quark 的網(wǎng)頁消重算法,以及基于 Quark 的網(wǎng)頁分類算法。 包括: P, UL, OL, DL, DIR, LI, DT, BLOCKQUOTE, ADDRESS, BR, HR, COL, COLGROU
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1