freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)-免費(fèi)閱讀

2025-02-09 15:13 上一頁面

下一頁面
  

【正文】 下面是主控程序的核心部分偽碼: _________________________________________________________________ ALGORITHM QuarkRank (TwRawPage Cwt200G) INPUT : 天網(wǎng)原始數(shù)據(jù) BEGIN 預(yù)處理: 將 Cwt200G 處理成 ( URL, 初始 PageRank 值 , Quark 編號 , Quark 權(quán)值,該 Quark 的出鏈列表 ) 格式,存到 input 文件中。以后我們應(yīng)該制作更精良和更具有代表性的樣本網(wǎng)頁集。 對主題型網(wǎng)頁的定義不夠清晰。 網(wǎng)頁整體性判斷 華南理工一隊(duì),二隊(duì)采用了整體性判斷方法。同樣,各隊(duì)的實(shí)現(xiàn)方法可大致分為網(wǎng)頁整體性判斷和網(wǎng)頁分塊判斷兩種。 其他特征信息 包括 網(wǎng)頁文本內(nèi)容中標(biāo)點(diǎn)符號的個數(shù) 、正文的文字長度、 特殊標(biāo)簽 (如p, br,h1) 是否出現(xiàn) ,以及包含特殊關(guān)鍵詞與否。 華南理工一隊(duì)也屬于整體性判斷方法,但只使用了分類器方法;山東大學(xué)隊(duì)則只使用了較簡單的啟發(fā)式規(guī)則。 大連理工大學(xué)信息檢索實(shí)驗(yàn)室 DLUT1 DLUT2 四川大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)庫與知識工程研究所 SCU1 SCU2 華南理工大學(xué)廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室 一隊(duì) SCUT1 SCUT2 華南理工大學(xué)廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室二隊(duì) SCUT3 SCUT4 山東大學(xué)信 息檢索實(shí)驗(yàn)室 SDU1 SDU2 人民大學(xué)信息學(xué)院 RUC 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室 PKU M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) 評測結(jié)果 在數(shù)據(jù)集 CWT70th 中的所有 71502 個網(wǎng)頁中,有 71281 個不重復(fù) URL。 一個網(wǎng)頁中的內(nèi)容信息不一定只有一塊,可能有多塊,甚至可能是零散分布的文字段。 下面是對主題型網(wǎng)頁的一個補(bǔ)充定義: 僅由圖片, flash,網(wǎng)絡(luò)視頻等構(gòu)成主題塊的網(wǎng)頁,除非亦包括獨(dú)立成段的文字性描述信息,否則不屬于主題型網(wǎng)頁。 第 4 章 SEWM2022 中文 Web 信息檢索評測 評測任務(wù)介紹 SEWM 中文 Web 信息檢索評測 [6]是由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室主辦的中文 Web檢索評測項(xiàng)目,自 2022 年起,在 SEWM 會議中已連續(xù)舉辦了五屆,今年( 2022年)是第五屆。 從圖中可以看出 ,紅色、綠色、紫色的網(wǎng)頁塊 間雜排列,就像地圖一樣,每一種顏色表示一個被識別出的網(wǎng)頁塊。 限于篇幅,這里就不再詳細(xì)介紹算法的細(xì)節(jié),但是附有幾張對照圖片,以利說明。 在該網(wǎng)頁塊為非主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p2_costomizedTag = 。若該后驗(yàn)概率大于 ,則判定該網(wǎng)頁塊為主題內(nèi)容塊,否則反之。 QuarkAnalyzer 算法的核心偽碼如下: _________________________________________________________________ 第一步, 基于文本相似度的 方法 : 首先,把所有網(wǎng)頁塊中,文本長度最大的那個網(wǎng)頁塊判定為主題內(nèi)容塊。 4 如果遇到 C 型節(jié)點(diǎn),則立即將 此節(jié)點(diǎn)加入網(wǎng)頁塊池。由于它們一般不單獨(dú)出現(xiàn),對網(wǎng)頁布局的影響體現(xiàn)在了其屬主標(biāo)簽中,所以 在 QuarkRecognizer 算法中也不予考慮。 包括: HEAD, SCRIPT, STYLE, OBJECT, FIELDSET, FRAMESET, IFRAME 大標(biāo)簽( Big Tag, 簡稱為 B 型標(biāo)簽): 這種標(biāo)簽 通常都代表一個網(wǎng)頁塊,只不過有時其內(nèi)部內(nèi)容過少,需要跟其他節(jié)點(diǎn)合并成一個網(wǎng)頁塊,或者在特殊情況下其內(nèi)部沒有可見字符。 網(wǎng)頁分塊算法 算法 主體在 QuarkRecognizer 類中。 QuarkEvaluation 類 是評測類 ,用來評測 Quark 核心類的實(shí)現(xiàn)效果。 該模塊的類結(jié)構(gòu)圖 如下 : 圖中右下及中間 藍(lán)色的部分為 Quark模塊 的核心功能類,包括 QuarkTree、QuarkElement、 QuarkRecognizer、 QuarkAnalyzer 等四個類。而基于對原始網(wǎng)頁數(shù)據(jù)集中處理的原則,為了應(yīng)對下游模塊可能提取的新的數(shù)據(jù)訪問需求, Quark 模塊必須具備良好的可擴(kuò)展性 ,并且提供盡量多的各種類型的數(shù)據(jù)訪問接口。因?yàn)樗挠?jì)算基于 網(wǎng)頁中各語義塊的重要程度,噪音塊、廣告塊中的超鏈接指向的網(wǎng)頁的重要性顯然不如導(dǎo)航塊、正文塊中的超鏈接所指向的網(wǎng)頁,所以前者會被分配到較少的 PageRank 值,而后者則被分配到較多的 PageRank 值。 WB(a,b)可以理解為 用戶從 block a 開始,以包含 block b 的 page β 為媒介,跳轉(zhuǎn)到 block b 的概率。在 BLPR 的實(shí)現(xiàn)中函數(shù) f 的定義如下: 其中 β 為正規(guī)化因子,使得對每個 page, fp(b)的總和為 1。 BlocktoPage 矩陣 塊頁( blocktopage)矩陣 Z 的維數(shù)為 n k,定義如下: si 是 block i 所鏈接的網(wǎng)頁總數(shù)。 Block Level Web Graph 首先定義 兩個集合 P 和 B。網(wǎng)絡(luò)上看到的一些 VIPS 算法實(shí)現(xiàn)都是調(diào)用了 IE COM 接口,而微軟自身的實(shí)現(xiàn)是利用單獨(dú)優(yōu)化后的 IE 內(nèi)核,他們都是基于 Windows 編程環(huán)境。 DOC 的值越大,則表明 該 塊內(nèi)部的內(nèi)容之間的聯(lián)系越緊密 ,反之越松散。比如,即使 DOM 樹中兩個結(jié)點(diǎn)具有同一個父結(jié)點(diǎn),那么這兩個結(jié)點(diǎn)在語義上也不一定就是有聯(lián)系 的 。 在分塊之后,它也只是簡單計(jì)算了文字長度等幾個變量來決定主題信息塊??偟膩碚f,網(wǎng)頁信息提取算法可以分為兩類,一類屬于網(wǎng)站級別( SiteLevel),一類屬于網(wǎng)頁級別( PageLevel),當(dāng)然也有將兩類方法結(jié)合使用的算法。 除此之外, Web 頁面的語義分塊還可能對常規(guī)搜索引擎之外的其他信息檢索系統(tǒng)有幫助。第二種則更為 普適,就是細(xì)分網(wǎng)頁中的信息單元,也就是給網(wǎng)頁分塊,在網(wǎng)頁分塊的基礎(chǔ)上存儲和提取 Web 頁面的語義信息。但是把整個頁面作為最基本的信息處理單位有一些不合理之處。 實(shí)際檢驗(yàn)表明,該套算法具有 很好的適應(yīng)性與可擴(kuò)展性,并達(dá)到了很高的精度和召回率。 關(guān)鍵詞: 網(wǎng)頁分塊 信息提取 SEWM 評測 PageRank i Abstract This paper has been based on the DomTree and heuristic rules of the Web information extraction method, by classifying all the Html tags in line with W3C standards, and by analyzing semantic information contained in the Html tags one by one, it refines the rules set and achieves a bottomup page block algorithm without information missing. On this basis, with the probability distribution of data getting from statistical methods, this paper realizes two algorithms of information block recognition, one is text similarity parison and the other is Bayes posterior probability estimates, and the final result es from their intersection, which improves the accuracy of information theme block recognition. These algorithms have been integrated into the page pretreatment module of TianWang search engine platform, and in SEWM 2022 meeting, using these algorithms, we anized two Chinese Web Information Retrieval Evaluation Project, Which two are themebased Web page identification and block extraction of the information theme content. In this method, based on TianWang file system and the MapReduce puting platform, this paper reports the distributed blocklevel PageRank algorithm, named QuarkRank algorithm here. The actual test showed that these algorithms are good at adaptability and scalability, and reach a very high precision and recall. Keywords: WebPage Blocking, SEWM, Information Extraction, Evaluation , PageRank ii 目錄 第 1 章 序言 .................................................................................................... 3 第 2 章 相關(guān)研究工作 .................................................................................... 5 基于語義的網(wǎng)頁信息提取算法 ....................................................... 5 基于視覺的網(wǎng)頁分塊算法 ............................................................... 6 Block Level PageRank 算法 ............................................................. 8 Block Level Web Graph ............................................................... 8 Block Level PageRank ............................................................... 10 第 3 章 天 網(wǎng)搜索引擎 Quark 模塊 .............................................................. 11 網(wǎng)頁分塊算法 ................................................................................. 13 網(wǎng)頁主題內(nèi)容提取 ......................................................................... 16 算法效果演示 ................................................................................. 18 第 4 章 SEWM2022 中文 Web 信息檢索評測 ........................................... 23 評測任務(wù)介紹 ...........................
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1