freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁(yè)模塊識(shí)別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-免費(fèi)閱讀

  

【正文】 下面是主控程序的核心部分偽碼: _________________________________________________________________ ALGORITHM QuarkRank (TwRawPage Cwt200G) INPUT : 天網(wǎng)原始數(shù)據(jù) BEGIN 預(yù)處理: 將 Cwt200G 處理成 ( URL, 初始 PageRank 值 , Quark 編號(hào) , Quark 權(quán)值,該 Quark 的出鏈列表 ) 格式,存到 input 文件中。以后我們應(yīng)該制作更精良和更具有代表性的樣本網(wǎng)頁(yè)集。 對(duì)主題型網(wǎng)頁(yè)的定義不夠清晰。 網(wǎng)頁(yè)整體性判斷 華南理工一隊(duì),二隊(duì)采用了整體性判斷方法。同樣,各隊(duì)的實(shí)現(xiàn)方法可大致分為網(wǎng)頁(yè)整體性判斷和網(wǎng)頁(yè)分塊判斷兩種。 其他特征信息 包括 網(wǎng)頁(yè)文本內(nèi)容中標(biāo)點(diǎn)符號(hào)的個(gè)數(shù) 、正文的文字長(zhǎng)度、 特殊標(biāo)簽 (如p, br,h1) 是否出現(xiàn) ,以及包含特殊關(guān)鍵詞與否。 華南理工一隊(duì)也屬于整體性判斷方法,但只使用了分類器方法;山東大學(xué)隊(duì)則只使用了較簡(jiǎn)單的啟發(fā)式規(guī)則。 大連理工大學(xué)信息檢索實(shí)驗(yàn)室 DLUT1 DLUT2 四川大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)庫(kù)與知識(shí)工程研究所 SCU1 SCU2 華南理工大學(xué)廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室 一隊(duì) SCUT1 SCUT2 華南理工大學(xué)廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室二隊(duì) SCUT3 SCUT4 山東大學(xué)信 息檢索實(shí)驗(yàn)室 SDU1 SDU2 人民大學(xué)信息學(xué)院 RUC 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室 PKU M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 主題型網(wǎng)頁(yè)發(fā)現(xiàn)任務(wù) 評(píng)測(cè)結(jié)果 在數(shù)據(jù)集 CWT70th 中的所有 71502 個(gè)網(wǎng)頁(yè)中,有 71281 個(gè)不重復(fù) URL。 一個(gè)網(wǎng)頁(yè)中的內(nèi)容信息不一定只有一塊,可能有多塊,甚至可能是零散分布的文字段。 下面是對(duì)主題型網(wǎng)頁(yè)的一個(gè)補(bǔ)充定義: 僅由圖片, flash,網(wǎng)絡(luò)視頻等構(gòu)成主題塊的網(wǎng)頁(yè),除非亦包括獨(dú)立成段的文字性描述信息,否則不屬于主題型網(wǎng)頁(yè)。 第 4 章 SEWM2022 中文 Web 信息檢索評(píng)測(cè) 評(píng)測(cè)任務(wù)介紹 SEWM 中文 Web 信息檢索評(píng)測(cè) [6]是由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室主辦的中文 Web檢索評(píng)測(cè)項(xiàng)目,自 2022 年起,在 SEWM 會(huì)議中已連續(xù)舉辦了五屆,今年( 2022年)是第五屆。 從圖中可以看出 ,紅色、綠色、紫色的網(wǎng)頁(yè)塊 間雜排列,就像地圖一樣,每一種顏色表示一個(gè)被識(shí)別出的網(wǎng)頁(yè)塊。 限于篇幅,這里就不再詳細(xì)介紹算法的細(xì)節(jié),但是附有幾張對(duì)照?qǐng)D片,以利說(shuō)明。 在該網(wǎng)頁(yè)塊為非主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p2_costomizedTag = 。若該后驗(yàn)概率大于 ,則判定該網(wǎng)頁(yè)塊為主題內(nèi)容塊,否則反之。 QuarkAnalyzer 算法的核心偽碼如下: _________________________________________________________________ 第一步, 基于文本相似度的 方法 : 首先,把所有網(wǎng)頁(yè)塊中,文本長(zhǎng)度最大的那個(gè)網(wǎng)頁(yè)塊判定為主題內(nèi)容塊。 4 如果遇到 C 型節(jié)點(diǎn),則立即將 此節(jié)點(diǎn)加入網(wǎng)頁(yè)塊池。由于它們一般不單獨(dú)出現(xiàn),對(duì)網(wǎng)頁(yè)布局的影響體現(xiàn)在了其屬主標(biāo)簽中,所以 在 QuarkRecognizer 算法中也不予考慮。 包括: HEAD, SCRIPT, STYLE, OBJECT, FIELDSET, FRAMESET, IFRAME 大標(biāo)簽( Big Tag, 簡(jiǎn)稱為 B 型標(biāo)簽): 這種標(biāo)簽 通常都代表一個(gè)網(wǎng)頁(yè)塊,只不過(guò)有時(shí)其內(nèi)部?jī)?nèi)容過(guò)少,需要跟其他節(jié)點(diǎn)合并成一個(gè)網(wǎng)頁(yè)塊,或者在特殊情況下其內(nèi)部沒(méi)有可見(jiàn)字符。 網(wǎng)頁(yè)分塊算法 算法 主體在 QuarkRecognizer 類中。 QuarkEvaluation 類 是評(píng)測(cè)類 ,用來(lái)評(píng)測(cè) Quark 核心類的實(shí)現(xiàn)效果。 該模塊的類結(jié)構(gòu)圖 如下 : 圖中右下及中間 藍(lán)色的部分為 Quark模塊 的核心功能類,包括 QuarkTree、QuarkElement、 QuarkRecognizer、 QuarkAnalyzer 等四個(gè)類。而基于對(duì)原始網(wǎng)頁(yè)數(shù)據(jù)集中處理的原則,為了應(yīng)對(duì)下游模塊可能提取的新的數(shù)據(jù)訪問(wèn)需求, Quark 模塊必須具備良好的可擴(kuò)展性 ,并且提供盡量多的各種類型的數(shù)據(jù)訪問(wèn)接口。因?yàn)樗挠?jì)算基于 網(wǎng)頁(yè)中各語(yǔ)義塊的重要程度,噪音塊、廣告塊中的超鏈接指向的網(wǎng)頁(yè)的重要性顯然不如導(dǎo)航塊、正文塊中的超鏈接所指向的網(wǎng)頁(yè),所以前者會(huì)被分配到較少的 PageRank 值,而后者則被分配到較多的 PageRank 值。 WB(a,b)可以理解為 用戶從 block a 開始,以包含 block b 的 page β 為媒介,跳轉(zhuǎn)到 block b 的概率。在 BLPR 的實(shí)現(xiàn)中函數(shù) f 的定義如下: 其中 β 為正規(guī)化因子,使得對(duì)每個(gè) page, fp(b)的總和為 1。 BlocktoPage 矩陣 塊頁(yè)( blocktopage)矩陣 Z 的維數(shù)為 n k,定義如下: si 是 block i 所鏈接的網(wǎng)頁(yè)總數(shù)。 Block Level Web Graph 首先定義 兩個(gè)集合 P 和 B。網(wǎng)絡(luò)上看到的一些 VIPS 算法實(shí)現(xiàn)都是調(diào)用了 IE COM 接口,而微軟自身的實(shí)現(xiàn)是利用單獨(dú)優(yōu)化后的 IE 內(nèi)核,他們都是基于 Windows 編程環(huán)境。 DOC 的值越大,則表明 該 塊內(nèi)部的內(nèi)容之間的聯(lián)系越緊密 ,反之越松散。比如,即使 DOM 樹中兩個(gè)結(jié)點(diǎn)具有同一個(gè)父結(jié)點(diǎn),那么這兩個(gè)結(jié)點(diǎn)在語(yǔ)義上也不一定就是有聯(lián)系 的 。 在分塊之后,它也只是簡(jiǎn)單計(jì)算了文字長(zhǎng)度等幾個(gè)變量來(lái)決定主題信息塊??偟膩?lái)說(shuō),網(wǎng)頁(yè)信息提取算法可以分為兩類,一類屬于網(wǎng)站級(jí)別( SiteLevel),一類屬于網(wǎng)頁(yè)級(jí)別( PageLevel),當(dāng)然也有將兩類方法結(jié)合使用的算法。 除此之外, Web 頁(yè)面的語(yǔ)義分塊還可能對(duì)常規(guī)搜索引擎之外的其他信息檢索系統(tǒng)有幫助。第二種則更為 普適,就是細(xì)分網(wǎng)頁(yè)中的信息單元,也就是給網(wǎng)頁(yè)分塊,在網(wǎng)頁(yè)分塊的基礎(chǔ)上存儲(chǔ)和提取 Web 頁(yè)面的語(yǔ)義信息。但是把整個(gè)頁(yè)面作為最基本的信息處理單位有一些不合理之處。 實(shí)際檢驗(yàn)表明,該套算法具有 很好的適應(yīng)性與可擴(kuò)展性,并達(dá)到了很高的精度和召回率。 關(guān)鍵詞: 網(wǎng)頁(yè)分塊 信息提取 SEWM 評(píng)測(cè) PageRank i Abstract This paper has been based on the DomTree and heuristic rules of the Web information extraction method, by classifying all the Html tags in line with W3C standards, and by analyzing semantic information contained in the Html tags one by one, it refines the rules set and achieves a bottomup page block algorithm without information missing. On this basis, with the probability distribution of data getting from statistical methods, this paper realizes two algorithms of information block recognition, one is text similarity parison and the other is Bayes posterior probability estimates, and the final result es from their intersection, which improves the accuracy of information theme block recognition. These algorithms have been integrated into the page pretreatment module of TianWang search engine platform, and in SEWM 2022 meeting, using these algorithms, we anized two Chinese Web Information Retrieval Evaluation Project, Which two are themebased Web page identification and block extraction of the information theme content. In this method, based on TianWang file system and the MapReduce puting platform, this paper reports the distributed blocklevel PageRank algorithm, named QuarkRank algorithm here. The actual test showed that these algorithms are good at adaptability and scalability, and reach a very high precision and recall. Keywords: WebPage Blocking, SEWM, Information Extraction, Evaluation , PageRank ii 目錄 第 1 章 序言 .................................................................................................... 3 第 2 章 相關(guān)研究工作 .................................................................................... 5 基于語(yǔ)義的網(wǎng)頁(yè)信息提取算法 ....................................................... 5 基于視覺(jué)的網(wǎng)頁(yè)分塊算法 ............................................................... 6 Block Level PageRank 算法 ............................................................. 8 Block Level Web Graph ............................................................... 8 Block Level PageRank ............................................................... 10 第 3 章 天 網(wǎng)搜索引擎 Quark 模塊 .............................................................. 11 網(wǎng)頁(yè)分塊算法 ................................................................................. 13 網(wǎng)頁(yè)主題內(nèi)容提取 ......................................................................... 16 算法效果演示 ................................................................................. 18 第 4 章 SEWM2022 中文 Web 信息檢索評(píng)測(cè) ........................................... 23 評(píng)測(cè)任務(wù)介紹 ...........................
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1