freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識(shí)別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(已修改)

2025-01-28 15:13 本頁面
 

【正文】 i 本科生畢業(yè)論文 題目 : (中文 ) 大 規(guī) 模 網(wǎng) 頁 模 塊 識(shí) 別 與 信 息 提 取 系 統(tǒng) 設(shè) 計(jì) 與 實(shí) 現(xiàn) (英文 ) Design and Implementation of Large Scale Web Template Detection and Information Extraction System 姓 名: 朱 磊 學(xué) 號(hào): 00448174 院 系: 計(jì)算機(jī)系 專 業(yè): 搜索引擎與 互聯(lián)網(wǎng)信息 挖掘 指導(dǎo)教師: 閆宏飛 二〇二二年二月八日 ii 摘要 本文 在 已有的基于 DomTree 和啟發(fā)式規(guī)則的網(wǎng)頁信息提取算法 的基礎(chǔ)上,通過 為所有符合 W3C 規(guī)范的 Html 標(biāo)簽分類, 逐個(gè)分析各 Html 標(biāo)簽所包含的語義信息, 細(xì)化規(guī)則設(shè)置,實(shí)現(xiàn)了一種自底向上的 無信息遺漏的網(wǎng)頁分塊算法,并在此基礎(chǔ)上,利用統(tǒng)計(jì)方法得到詳細(xì)的概率分布數(shù)據(jù),實(shí)現(xiàn)了文本相似度比較和Bayes 后驗(yàn)概率估計(jì)兩種網(wǎng)頁主題內(nèi)容信息塊識(shí)別算法,并將其求交,提高了主題內(nèi)容信息塊的識(shí)別精確度 。 上述算法已 集成到天網(wǎng)搜索引擎平臺(tái)的 網(wǎng)頁預(yù)處理模塊中,并且在 SEWM 2022 會(huì)議中,以這套算法為框架,組 織了主題型網(wǎng)頁識(shí)別和網(wǎng)頁主題內(nèi)容信息塊提取兩個(gè)中文 Web 信息檢索評(píng)測項(xiàng)目。 在 這套算法的 基礎(chǔ)上,基于天網(wǎng)文件系統(tǒng) 與 MapReduce 計(jì)算平臺(tái) ,實(shí)現(xiàn)了分布式 的 網(wǎng)頁塊級(jí)別 PageRank 算法,命名為 QuarkRank 算法 。 實(shí)際檢驗(yàn)表明,該套算法具有 很好的適應(yīng)性與可擴(kuò)展性,并達(dá)到了很高的精度和召回率。 關(guān)鍵詞: 網(wǎng)頁分塊 信息提取 SEWM 評(píng)測 PageRank i Abstract This paper has been based on the DomTree and heuristic rules of the Web information extraction method, by classifying all the Html tags in line with W3C standards, and by analyzing semantic information contained in the Html tags one by one, it refines the rules set and achieves a bottomup page block algorithm without information missing. On this basis, with the probability distribution of data getting from statistical methods, this paper realizes two algorithms of information block recognition, one is text similarity parison and the other is Bayes posterior probability estimates, and the final result es from their intersection, which improves the accuracy of information theme block recognition. These algorithms have been integrated into the page pretreatment module of TianWang search engine platform, and in SEWM 2022 meeting, using these algorithms, we anized two Chinese Web Information Retrieval Evaluation Project, Which two are themebased Web page identification and block extraction of the information theme content. In this method, based on TianWang file system and the MapReduce puting platform, this paper reports the distributed blocklevel PageRank algorithm, named QuarkRank algorithm here. The actual test showed that these algorithms are good at adaptability and scalability, and reach a very high precision and recall. Keywords: WebPage Blocking, SEWM, Information Extraction, Evaluation , PageRank ii 目錄 第 1 章 序言 .................................................................................................... 3 第 2 章 相關(guān)研究工作 .................................................................................... 5 基于語義的網(wǎng)頁信息提取算法 ....................................................... 5 基于視覺的網(wǎng)頁分塊算法 ............................................................... 6 Block Level PageRank 算法 ............................................................. 8 Block Level Web Graph ............................................................... 8 Block Level PageRank ............................................................... 10 第 3 章 天 網(wǎng)搜索引擎 Quark 模塊 .............................................................. 11 網(wǎng)頁分塊算法 ................................................................................. 13 網(wǎng)頁主題內(nèi)容提取 ......................................................................... 16 算法效果演示 ................................................................................. 18 第 4 章 SEWM2022 中文 Web 信息檢索評(píng)測 ........................................... 23 評(píng)測任務(wù)介紹 ................................................................................. 23 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) ................................................................ 23 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù) ............................................................ 24 評(píng)測格式 ......................................................................................... 25 評(píng)測結(jié)果 ......................................................................................... 25 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評(píng)測結(jié)果 ................................................ 26 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù)評(píng)測結(jié)果 ............................................ 28 評(píng)測綜述 ......................................................................................... 31 第 5 章 網(wǎng)頁分塊的分布式應(yīng)用 .................................................................. 32 QuarkRank ....................................................................................... 32 其他應(yīng)用 ......................................................................................... 34 第 6 章 總結(jié)與展望 ...................................................................................... 35 總結(jié) ................................................................................................. 35 展望 ................................................................................................. 36 第 1 章 序言 信息時(shí)代,非 Web 無以制勝?;ヂ?lián)網(wǎng)的高速發(fā)展,改變了我們的生活方式,打破了我們的時(shí)空界限,重塑著我們的社會(huì)形 態(tài)。 經(jīng)濟(jì)、政治、學(xué)習(xí)、工作、生活、娛樂等等各個(gè)層面都在 Web 網(wǎng)絡(luò)中激蕩起伏,深刻地影響著人類的未來。而 Web 網(wǎng)絡(luò)的靈魂,就是流動(dòng)在其中的無窮無盡的信息。 的意義就在于 網(wǎng)絡(luò)內(nèi)容的提供方從商人和專業(yè)人員轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)上的每一個(gè)普通用戶,從而幾何級(jí)數(shù)地增長了 Web 的信息量。 然而信息量的增大,隨著而來的就是存儲(chǔ)成本的增大和信息提取難度的增大,如何有效的獲取和整合 Web 信息成為大家面對(duì)的共同課題。 傳統(tǒng)意義上, 整個(gè) Web 網(wǎng)絡(luò)就是由無數(shù)的 Web 頁面而構(gòu)成, 它們是網(wǎng)絡(luò)信息存儲(chǔ)和提取的基本單位, 獲取了這些 Web 頁 面就相當(dāng)于獲取了 Web 信息內(nèi)容。但是把整個(gè)頁面作為最基本的信息處理單位有一些不合理之處。 首先是因?yàn)?Web頁面中信息量的分布非常不均勻,有主題內(nèi)容,也有廣告,導(dǎo)航欄,版權(quán)信息,裝飾信息,以及在大量網(wǎng)頁中重復(fù)出現(xiàn)的部分,它們自身的信息含量千差萬別。當(dāng)網(wǎng)頁瀏覽者剛打開一個(gè)新頁面的時(shí)候,如果之前沒有瀏覽過類似頁面,就會(huì)目不暇接,眼花繚亂,有無所適從的感覺,必須仔細(xì)探尋一番才能定位到這個(gè)頁面的要害;如果之前瀏覽過類似頁面,比如常上這個(gè)網(wǎng)站,那么通常瀏覽者就已經(jīng)訓(xùn)練出一種直覺或者說是條件反射,他會(huì) 立刻定位到他所想要瀏覽 的部分,從而忽略掉頁面中的其他部分。 其次還因?yàn)楝F(xiàn)在很多 Web 頁面是動(dòng)態(tài)更新的,比如博客頁面或者論壇討論帖,它們的更新是以一個(gè)一個(gè)網(wǎng)頁塊的形式進(jìn)行的,更新時(shí)頁面上大部分內(nèi)容并沒有變化,如果仍然以整個(gè)頁面為處理單位,則不可避免地存在效率損失和定義的混淆。 這 些情況 促使我們反思以整個(gè)頁面為基本信息單元的做法不僅不盡合理,一定程度上甚至已經(jīng)損害了網(wǎng)絡(luò)瀏覽者的用戶體驗(yàn) ,妨礙了網(wǎng)絡(luò)信息提取的效率 。 解決這個(gè)問題的辦法其實(shí)有兩種思路。第一 種 就是從信息的產(chǎn)生方那兒就不再提供網(wǎng)頁式的信息,而改為直接提供網(wǎng)頁塊或者文字段式 的信息。最常見的例子 就是 RSS(聚合內(nèi)容, Really Simple Syndication) ,博客或者新聞 的 提供方省去了瀏覽者 訪問網(wǎng)站查看更新的麻煩,直接將精簡后的網(wǎng)頁塊或者文字段發(fā)送給RSS 的訂閱方 。第二種則更為 普適,就是細(xì)分網(wǎng)頁中的信息單元,也就是給網(wǎng)頁分塊,在
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1