freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(留存版)

2025-03-02 15:13上一頁面

下一頁面
  

【正文】 相關(guān)鏈接定義: 指向與本網(wǎng)頁相關(guān)網(wǎng)頁的鏈接,如新聞網(wǎng)頁下方的相關(guān)新聞鏈接。 評測結(jié)果如下: 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評測結(jié)果較好的隊(duì)伍是華南理工一隊(duì)和大連理工, 分別代表了網(wǎng)頁整體性判斷和網(wǎng)頁分塊判斷兩種主要的實(shí)現(xiàn)方法。鑒于我們標(biāo)記的樣本集中也可能存在少量的誤標(biāo)的情況,其召回率應(yīng)該也達(dá)到了 90%。 這個(gè)算法的缺點(diǎn)在于只以內(nèi)容長度作為衡量標(biāo)準(zhǔn),特征過少。 由于 QuarkRank 是一個(gè)多輪迭代,直到收斂的算法,所以也要進(jìn)行多輪MapReduce。 在網(wǎng)頁主題信息提取方面,大連理工隊(duì)的方法效果比較明顯,所以我從中吸收了他們的長處,在原有的文本相似度 方法 的基礎(chǔ)上,增加了 Bayes方法,并自己定義和計(jì)算了 7 條先驗(yàn)概率, 然后讓兩個(gè)方法的結(jié)果求教,實(shí)驗(yàn)數(shù)據(jù)顯示, 改進(jìn)后的天網(wǎng) Quark 模塊的評測結(jié)果大大提高,達(dá)到了大連理工隊(duì)的水平。其中有效文本信息的判斷是依靠每個(gè)節(jié)點(diǎn)的文本長度。 因?yàn)楦鹘M提交的結(jié)果只針對第一項(xiàng)任務(wù)中發(fā)現(xiàn)的主題型網(wǎng)頁找出內(nèi)容信息塊,而我們標(biāo)記的 303 個(gè)網(wǎng)頁并沒有被各組一致判定為主題型網(wǎng)頁,只有其中的104 個(gè)網(wǎng)頁被各組一致判定為主題型并提取了內(nèi)容信息塊(其中華南理工二隊(duì)沒有根據(jù)他們第一項(xiàng)任務(wù)里找出的所有主題型網(wǎng)頁來完成第二項(xiàng)任務(wù),一 定程度上影響了各組的重合度)。為了消除對主題型網(wǎng)頁認(rèn)定上的分歧,在 300 個(gè) URL 中去除了部分混合型以及不易判別類型的網(wǎng)頁 ,共得到 227 個(gè)確定類型的網(wǎng)頁,其中包括 138 個(gè)主題型網(wǎng)頁, 89個(gè)非主題型網(wǎng)頁,主題型網(wǎng)頁數(shù)目 /非主題型網(wǎng)頁數(shù)目 = ,經(jīng)驗(yàn)證,大致符合原網(wǎng)頁集中的類型分布。 錯誤網(wǎng)頁,空網(wǎng)頁,垃圾網(wǎng)頁, Spam 網(wǎng)頁等屬于非主題型網(wǎng)頁。 第三幅圖:這是網(wǎng)頁正文提取之后的示意圖。 該塊中每 10 個(gè)字符中的標(biāo)點(diǎn)符號數(shù)大于 的概率 p2_punctuationScale = 。文本相似度的計(jì)算如下: 將兩個(gè)網(wǎng)頁塊分別切詞, 去除停用詞后, 存儲成 token 流。比如我們實(shí)驗(yàn)室的WebDigest 小組在進(jìn)行新聞網(wǎng)頁的數(shù)據(jù)挖掘的工作中, 需要使用到網(wǎng)頁分塊,但是他們特別需要提取該新聞網(wǎng)頁的發(fā)布日期和時(shí)間,而 這部分內(nèi)容通常是在新聞標(biāo)題 與新聞?wù)闹g的一小行文字,正常的網(wǎng)頁分塊程序并不會將其單獨(dú)提取成一個(gè)網(wǎng)頁塊。 并且由于大多數(shù)論文的著重點(diǎn)在于分塊后的內(nèi)容提取上,所以對分塊算法本身著墨不多。 QuarkElement 類指代一個(gè) Quark,即每個(gè) Quark 自身就是一個(gè)QuarkElement 類的對象。 ? ? ? ? ? ?B a ,b Z a , X b , a ,bWB? ? ? ? ?( 1 ) ) TU M p p?? ? ? ? ?第 3 章 天網(wǎng) 搜索引擎 Quark 模塊 搜索引擎 系統(tǒng) 一般包括 網(wǎng)頁的抓取、預(yù)處理、存儲、索引、檢索等幾個(gè)部分,其中預(yù)處理部分 的作用是 分析、 處理原始網(wǎng)頁數(shù)據(jù)如去除網(wǎng)頁噪音,消除重復(fù)網(wǎng)頁,計(jì)算 PageRank,中文切詞 等 等,并為后繼模塊提供統(tǒng)一的數(shù)據(jù)訪問接口,規(guī)范數(shù)據(jù)管理,避免重復(fù)計(jì)算。 Page Graph 傳統(tǒng)的 PageRank 算法中 Page Graph 的權(quán)值 矩陣計(jì)算十分簡單,如果從 page i 到 page j 有鏈接的話,則 WP(i,j)為 1,反之為 0。 B 為所有語義塊的集合, B = {b1, b2, …, bn} , n 為語義塊總數(shù)。最后基于這些分割條, 利用更多的諸如顏色等視覺信息,重新構(gòu)建 Web 頁面的語義結(jié)構(gòu) 。 WWW2022 的論文Pagelevel template detection via isotonic smoothing[3]先利用 一個(gè) SiteLevel 噪音模板提取器來構(gòu)建訓(xùn)練集, 然后對所有頁面構(gòu)建 DOM 樹,為各節(jié)點(diǎn)提取分類特征,比如 各節(jié)點(diǎn)的文本向量, 各 節(jié)點(diǎn)中鏈接的平均字?jǐn)?shù) , 各 節(jié)點(diǎn)中鏈接文字所占比例等 ,最后 利用以上訓(xùn)練集對測試集中每一個(gè) DOM 樹節(jié)點(diǎn)打分, 經(jīng)過等壓平滑之后,判定每個(gè) DOM 樹節(jié)點(diǎn)的類型。 在這篇論文中, 第 二章介紹了本文的相關(guān)研究工作,包括常見的網(wǎng)頁分塊和信息提取算法、基于視覺的網(wǎng)頁分塊算法,以及網(wǎng)頁分塊的一個(gè)應(yīng)用 Block Level PageRank 算法 ; 第三章 介紹了我實(shí)現(xiàn)的網(wǎng)頁分塊和主題信息提取算法 —— Quark算法;第四章介紹了 Quark 算法在 SEWM2022 中文 Web 信息檢索評測項(xiàng)目中的實(shí)際檢驗(yàn);第五章介紹了在 Quark 算法基礎(chǔ)上實(shí)現(xiàn)的一個(gè)分布式 QuarkRank 程序。當(dāng)網(wǎng)頁瀏覽者剛打開一個(gè)新頁面的時(shí)候,如果之前沒有瀏覽過類似頁面,就會目不暇接,眼花繚亂,有無所適從的感覺,必須仔細(xì)探尋一番才能定位到這個(gè)頁面的要害;如果之前瀏覽過類似頁面,比如常上這個(gè)網(wǎng)站,那么通常瀏覽者就已經(jīng)訓(xùn)練出一種直覺或者說是條件反射,他會 立刻定位到他所想要瀏覽 的部分,從而忽略掉頁面中的其他部分。 在 這套算法的 基礎(chǔ)上,基于天網(wǎng)文件系統(tǒng) 與 MapReduce 計(jì)算平臺 ,實(shí)現(xiàn)了分布式 的 網(wǎng)頁塊級別 PageRank 算法,命名為 QuarkRank 算法 。最常見的例子 就是 RSS(聚合內(nèi)容, Really Simple Syndication) ,博客或者新聞 的 提供方省去了瀏覽者 訪問網(wǎng)站查看更新的麻煩,直接將精簡后的網(wǎng)頁塊或者文字段發(fā)送給RSS 的訂閱方 。 通 ?;谡Z義的網(wǎng)頁分塊算法是和后續(xù)的網(wǎng)頁主題內(nèi)容提取結(jié)合在一起的,也就是在網(wǎng)頁分塊的過程中,同時(shí)完成了主題內(nèi)容提取的工 作,并且主要的注意點(diǎn)是在主題內(nèi)容提取上,因此分塊算法就比較簡單,甚至不顯式地分塊, 在此我們統(tǒng)稱它們?yōu)榫W(wǎng)頁信息提取算法。而且 DOM 樹最早引入是為了在瀏覽器中進(jìn)行布局顯示而不是進(jìn)行 Web 頁面的語義結(jié)構(gòu)描述。 整個(gè)步驟不僅耗時(shí),而且十分依賴于瀏覽器內(nèi)核代碼。對這兩個(gè)圖來說, V 是節(jié)點(diǎn)集合(節(jié)點(diǎn)分別是網(wǎng)頁和語義塊), E 是連接兩個(gè)節(jié)點(diǎn)的邊的集合,而 W 是邊的權(quán)值矩陣。 Block Graph WB 的定義為: 即 BW ZX? 。 因?yàn)樗阉饕媸且粋€(gè)比較龐大的系統(tǒng), 并且一直在不停的有新算法,新需求的加入,所以對數(shù)據(jù)的要求也會一直變化。 中上部 綠色的部分為 Quark 模塊的評測和演示類,包括 QuarkEvaluation和 QuarkHtmlBuilder 兩個(gè)類。 分類后的詳細(xì) html 標(biāo)簽 清單如下: 超級 標(biāo)簽 ( Super Tag, 簡稱為 S 型標(biāo)簽) : 這種標(biāo)簽 可以被直接認(rèn)定是一個(gè)網(wǎng)頁塊的根標(biāo)簽 ,在 算法過程中一旦遇到這種標(biāo)簽,就可以直接將其加入 網(wǎng)頁 塊池。 3 如果遇到 S 型節(jié)點(diǎn),則立即將此節(jié)點(diǎn)加入網(wǎng)頁塊池。 第二步,基于 Bayes 的方法: 根據(jù)下面列出的 7 項(xiàng)先驗(yàn)概率 和該網(wǎng)頁塊相對應(yīng)的這 7 項(xiàng)特性的( 0, 1)值,利用 Bayes 概率的計(jì)算公式,計(jì)算出每個(gè)網(wǎng)頁塊是 不是 主題內(nèi)容塊的后驗(yàn)概率。 算法效果演示 為了檢驗(yàn)上述算法的效果,除了下一章會提到的評測程序外, 還可以用QuarkHtmlBuilder 類所編寫的演示程序以及自搭的 Apache 服務(wù)器上的 python 腳本來查看網(wǎng)頁分塊后和主題信息提取后的效果。兩部分內(nèi)容大致相等,說明網(wǎng)頁主題內(nèi)容提取成功。 補(bǔ)充定義: 新聞網(wǎng)頁的內(nèi)容信息應(yīng)包括出現(xiàn)在頁面里的標(biāo)題,時(shí)間,通訊社,記者名等信息。 網(wǎng)頁整體性判斷方法 以華南理工一隊(duì)的方法最為典型,綜合使用了啟發(fā)式規(guī)則和分類器方法: TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC 第一 步先根據(jù)主題型網(wǎng)頁的重要特征,基于啟發(fā)式規(guī)則判斷; 第二步提取更詳細(xì)的特征信息,用 SVM 分類; 第三步還基于信息塊提取的結(jié)果反饋,進(jìn)一步篩選出主題型網(wǎng)頁。 評測結(jié)果如下: 網(wǎng)頁內(nèi)容信息塊發(fā)現(xiàn)任務(wù) 評測結(jié)果較好的隊(duì)伍是大連理工 隊(duì)和我的 Quark模塊。 下圖是各組結(jié)果的直觀顯示: 評測綜述 本次評測從設(shè)計(jì)上和數(shù)據(jù)上還有很多缺憾: 數(shù)據(jù)集的抓取不夠有代表性,集中在幾個(gè)網(wǎng)站,同 種類型網(wǎng)頁過多,新聞類網(wǎng)頁也過多,一定程度上降低了內(nèi)容提取的難度。 所以除了實(shí)現(xiàn) MapReduce 工作類之外,還得自 己編寫 一個(gè) 主控程序中,控制 和 調(diào)用了多輪 MapReduce 任務(wù) ,并決定迭代何時(shí)終止 。 而 Quark 模塊從本次評測中得到的教育是: 各隊(duì)都沒有一個(gè)詳細(xì),可操作性強(qiáng)的 網(wǎng)頁分塊算法,這一點(diǎn)上, Quark模塊做的比較好。 華南理工一隊(duì)的方法是由葉子節(jié)點(diǎn)開始,向上尋找包含所有有效文本信息的最近節(jié)點(diǎn)。 下圖是各組結(jié)果的 MacroF1 值大小的直觀顯示: 網(wǎng)頁 內(nèi)容信息 發(fā)現(xiàn)任務(wù) 評測結(jié)果 我們事先人工標(biāo)記了 71281 個(gè)網(wǎng)頁中的 303 個(gè)主題型網(wǎng)頁,標(biāo)記方法為給html 的 tag 標(biāo)簽添加 quark 屬性,如: div quark=”content” 正文內(nèi)容 /div a quark=”rel_link” href=”” 相關(guān)鏈接 /a div quark=”noise” 噪音內(nèi)容 /div 其中標(biāo)記為 quark=”content”的就是內(nèi)容信息塊; 標(biāo)記為 quark=”rel_link”的 是相關(guān)鏈接; 而標(biāo)記為 quark=”noise”的 則是噪音內(nèi)容。 在這 71281 個(gè)網(wǎng)頁中,隨機(jī)抽取了 300 個(gè) URL,人工判斷其類型。 某些導(dǎo)航型網(wǎng)頁,如同類軟件下載網(wǎng)頁中,雖然對每個(gè)鏈接都使用了適量文字來介紹,從而文字比例比較高,但也應(yīng)該算作非主題型網(wǎng)頁。圖中沒有顏色,依舊是藍(lán)色的鏈接色的部分是新浪網(wǎng)動態(tài)生成的內(nèi)容,在 html 源代碼中并不存在,所以沒有被標(biāo)上字體顏色。 該塊中包含常見噪音詞并且文本長度小于 100 的概率 p1_noise = 。 然后 用其余網(wǎng)頁塊 逐個(gè) 與最大的網(wǎng)頁塊比較文本相似度。 包括: FRAME, INPUT, ISINDEX, LEGEND, LINK, MAP, META, OPTION, OPTGROUP, PARAM, TD, TH, TR, TBODY, TITLE 定制標(biāo)簽( Customized Tag,簡稱為 C 型標(biāo)簽): 因?yàn)椴煌膽?yīng)用中,對網(wǎng)頁分塊會有些不同的要求。 參見在第二章相關(guān)研究里提到的,除了基于視覺的算法之外,大部分基于語義的算法都是利用 html 標(biāo)簽 及其包含的文字信息 的特性 來給網(wǎng)頁 分塊的。 QuarkTree 類 的作用 有兩個(gè),一個(gè)是 以原始網(wǎng)頁為輸入, 建立 Html 的Dom Tree;另一個(gè)是存儲 分好的網(wǎng)頁塊 (在我們的系統(tǒng)中,每一個(gè)網(wǎng)頁塊就叫做一個(gè) Quark) 并記錄 Quark 與 Quark 之間的組織架構(gòu)。也就是說,網(wǎng)頁中的無關(guān)信息區(qū)域在 PageRank 的計(jì)算過程中起的作用相對較小 , 所以 BLPR 的效果要優(yōu)于單純的 PageRank。 即 fp(b)可以理解為是用戶在瀏覽 page p 的時(shí)候,關(guān)注 block b 的可能性。 P 為所有網(wǎng)頁的集合, P = {p1, p2, …, pk}, k 為網(wǎng)頁總數(shù)。 第二步利用每個(gè)可視標(biāo)簽 塊 的絕對 位置 和相對位置信息 , 檢測出它們之間的所有的分割條,包括水平和垂直方向。 合并 SiteLevel 和 PageLevel 的方法也一直有人嘗試。比如類似于新聞人物追蹤和歷史新聞檢索等應(yīng)用,出于節(jié)約存儲空間,提高檢索精度,方便更新等目的,可以直接存儲和操作網(wǎng)頁中的主題內(nèi)容語義塊,而舍棄網(wǎng)頁中其他與系統(tǒng)需求無關(guān)的語義塊。 首先是因?yàn)?Web頁面中信息量的分布非常不均勻,有主題內(nèi)容,也有廣告,導(dǎo)航欄,版權(quán)信息,裝飾信息,以及在大量網(wǎng)頁中重復(fù)出現(xiàn)的部分,它們自身的信息含量千差萬別。 實(shí)際檢驗(yàn)表明,該套算法具有 很好的適應(yīng)性與可擴(kuò)展性,并達(dá)到了很高的精度和召回率。第二種則更為 普適,就是細(xì)分網(wǎng)頁中的信息單元,也就是給網(wǎng)頁分塊,在網(wǎng)頁分塊的基礎(chǔ)上存儲和提取 Web 頁面的語義信息。總的來說,網(wǎng)頁信息提取算法可以分為兩類,一類屬于網(wǎng)站級別( SiteLevel),一類屬于網(wǎng)頁級別( PageLevel),當(dāng)然也有將兩類方法結(jié)合使用的算法。比如,即使 DOM 樹中兩個(gè)結(jié)點(diǎn)具有同一個(gè)父結(jié)點(diǎn),那么這兩個(gè)結(jié)點(diǎn)在語義上也不一定就是有聯(lián)系 的 。網(wǎng)絡(luò)上看到的一些 VIPS 算法實(shí)現(xiàn)都是調(diào)用了 IE COM 接口,而微軟自身的實(shí)現(xiàn)是利用單獨(dú)優(yōu)化后的 IE 內(nèi)核,他們都是基于 Windows 編程環(huán)境。 BlocktoPage 矩陣 塊頁( blocktopage)矩陣 Z 的維數(shù)為 n k,定
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1