freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設(shè)計與實現(xiàn)(存儲版)

2025-02-15 15:13上一頁面

下一頁面
  

【正文】 ...................................................... 23 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù) ................................................................ 23 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù) ............................................................ 24 評測格式 ......................................................................................... 25 評測結(jié)果 ......................................................................................... 25 主題型網(wǎng)頁發(fā)現(xiàn)任務(wù)評測結(jié)果 ................................................ 26 網(wǎng)頁內(nèi)容信息發(fā)現(xiàn)任務(wù)評測結(jié)果 ............................................ 28 評測綜述 ......................................................................................... 31 第 5 章 網(wǎng)頁分塊的分布式應(yīng)用 .................................................................. 32 QuarkRank ....................................................................................... 32 其他應(yīng)用 ......................................................................................... 34 第 6 章 總結(jié)與展望 ...................................................................................... 35 總結(jié) ................................................................................................. 35 展望 ................................................................................................. 36 第 1 章 序言 信息時代,非 Web 無以制勝。 首先是因為 Web頁面中信息量的分布非常不均勻,有主題內(nèi)容,也有廣告,導(dǎo)航欄,版權(quán)信息,裝飾信息,以及在大量網(wǎng)頁中重復(fù)出現(xiàn)的部分,它們自身的信息含量千差萬別。 基于網(wǎng)頁分塊的 Web 頁面的語義 信息 提取在很多方面都有應(yīng)用。比如類似于新聞人物追蹤和歷史新聞檢索等應(yīng)用,出于節(jié)約存儲空間,提高檢索精度,方便更新等目的,可以直接存儲和操作網(wǎng)頁中的主題內(nèi)容語義塊,而舍棄網(wǎng)頁中其他與系統(tǒng)需求無關(guān)的語義塊。 SiteLevel 的算法顧名思義,就是分析 一個網(wǎng)站或者網(wǎng)頁集內(nèi)部的所有網(wǎng)頁,從中提取反復(fù)出現(xiàn)的 模式 , 而一般來說,在多個網(wǎng)頁里重復(fù)出現(xiàn)的模式(可理解為 DomTree 子樹) 就是導(dǎo)航欄、廣告等噪音信息了,單個網(wǎng)頁中減去這些信息,剩下的就是主題信息內(nèi)容。 合并 SiteLevel 和 PageLevel 的方法也一直有人嘗試。反之,兩個在語義上有關(guān)系的結(jié)點卻可能分布在 DOM 樹的不同之處。 第二步利用每個可視標簽 塊 的絕對 位置 和相對位置信息 , 檢測出它們之間的所有的分割條,包括水平和垂直方向。在 Linux 編程環(huán)境下,可以利用的只有 Mozilla( Firefox)瀏覽器 的開源代碼。 P 為所有網(wǎng)頁的集合, P = {p1, p2, …, pk}, k 為網(wǎng)頁總數(shù)。 Zij 可以理解成是用戶從 block i 鏈接到page j 的概率。 即 fp(b)可以理解為是用戶在瀏覽 page p 的時候,關(guān)注 block b 的可能性。 Block Level PageRank Block Level PageRank 跟 PageRank 區(qū)別的實質(zhì)在于, PageRank 算法基于 原始 的 只有 1 和 0 的 Page Graph,而 BLPR 算法基于 上面提到的 GP。也就是說,網(wǎng)頁中的無關(guān)信息區(qū)域在 PageRank 的計算過程中起的作用相對較小 , 所以 BLPR 的效果要優(yōu)于單純的 PageRank。 同時由于實驗室人員的不固定性,代碼的維護十分重要。 QuarkTree 類 的作用 有兩個,一個是 以原始網(wǎng)頁為輸入, 建立 Html 的Dom Tree;另一個是存儲 分好的網(wǎng)頁塊 (在我們的系統(tǒng)中,每一個網(wǎng)頁塊就叫做一個 Quark) 并記錄 Quark 與 Quark 之間的組織架構(gòu)。當前實現(xiàn)的是對網(wǎng)頁正文信息提取的評測,評測需要接受人工標記的網(wǎng)頁或網(wǎng)頁集為輸入。 參見在第二章相關(guān)研究里提到的,除了基于視覺的算法之外,大部分基于語義的算法都是利用 html 標簽 及其包含的文字信息 的特性 來給網(wǎng)頁 分塊的。 所以在算法過程中, 遇到這種標簽,就判斷其單獨作為一個網(wǎng)頁塊的條件是否已經(jīng)成熟,如成熟,則將其加入網(wǎng)頁塊池。 包括: FRAME, INPUT, ISINDEX, LEGEND, LINK, MAP, META, OPTION, OPTGROUP, PARAM, TD, TH, TR, TBODY, TITLE 定制標簽( Customized Tag,簡稱為 C 型標簽): 因為不同的應(yīng)用中,對網(wǎng)頁分塊會有些不同的要求。 5 如果遇到 B 型節(jié)點,則判斷 該節(jié)點內(nèi)部的文字長度是否已超過閾值,或者該節(jié)點內(nèi)部的 L 型節(jié)點比例是否超過閾值,如果滿足上述兩個條件之一,則將此節(jié)點加入網(wǎng)頁塊池 ;否則將其內(nèi)部文字長度信息和自身信息向父節(jié)點傳遞,然后將父節(jié)點加入當前節(jié)點隊列,回到 2。 然后 用其余網(wǎng)頁塊 逐個 與最大的網(wǎng)頁塊比較文本相似度。 第三步,求交。 該塊中包含常見噪音詞并且文本長度小于 100 的概率 p1_noise = 。 第一幅圖: 這是 用 python 腳本寫的一個在瀏覽器上查看網(wǎng)頁主題內(nèi)容提取效果的demo, 可以選擇用 PageModel 的算法(即 Quark 模塊 ) ,也可以選擇用 SiteModel的算法,點擊 submit 按鈕,就可以出現(xiàn)手工標記的主題內(nèi)容,和程序判斷的主題內(nèi)容的對比畫面。圖中沒有顏色,依舊是藍色的鏈接色的部分是新浪網(wǎng)動態(tài)生成的內(nèi)容,在 html 源代碼中并不存在,所以沒有被標上字體顏色。其目標在于為中文信息檢索領(lǐng)域的研究人員提供一個標準的評測平臺,希望在國內(nèi)外各個研究小組的共同參與下建立并完善以中文為主的網(wǎng)頁測試集 CWT(Chinese Web Test collection),解決支持中文 WEB 研究的基礎(chǔ)設(shè)施建設(shè)和應(yīng)用中的基本方法與關(guān)鍵技術(shù),一起推動中文 Web 信息檢索技術(shù)的發(fā)展。 某些導(dǎo)航型網(wǎng)頁,如同類軟件下載網(wǎng)頁中,雖然對每個鏈接都使用了適量文字來介紹,從而文字比例比較高,但也應(yīng)該算作非主題型網(wǎng)頁。 無意義的論壇回帖(如 ”頂 ”等)不屬于內(nèi)容信息,但有一定內(nèi)容的論壇回帖屬于內(nèi)容信息。 在這 71281 個網(wǎng)頁中,隨機抽取了 300 個 URL,人工判斷其類型。 網(wǎng)頁分塊判斷方法 以大連理工隊的方法最為典型,在網(wǎng)頁分塊的基礎(chǔ)上,判斷各個網(wǎng)頁塊的類型。 下圖是各組結(jié)果的 MacroF1 值大小的直觀顯示: 網(wǎng)頁 內(nèi)容信息 發(fā)現(xiàn)任務(wù) 評測結(jié)果 我們事先人工標記了 71281 個網(wǎng)頁中的 303 個主題型網(wǎng)頁,標記方法為給html 的 tag 標簽添加 quark 屬性,如: div quark=”content” 正文內(nèi)容 /div a quark=”rel_link” href=”” 相關(guān)鏈接 /a div quark=”noise” 噪音內(nèi)容 /div 其中標記為 quark=”content”的就是內(nèi)容信息塊; 標記為 quark=”rel_link”的 是相關(guān)鏈接; 而標記為 quark=”noise”的 則是噪音內(nèi)容。 網(wǎng)頁分塊判斷 其余 各隊的分塊方法都比較簡單。 華南理工一隊的方法是由葉子節(jié)點開始,向上尋找包含所有有效文本信息的最近節(jié)點。比如有的新聞網(wǎng)頁由一幅大圖片和少量文字構(gòu)成主題塊,在現(xiàn)有的單純依靠文字的評測機制下傾向于認為不是主題塊,但事實上應(yīng)該算是主題塊,而這種網(wǎng)頁也應(yīng)該算是主題型網(wǎng)頁。 而 Quark 模塊從本次評測中得到的教育是: 各隊都沒有一個詳細,可操作性強的 網(wǎng)頁分塊算法,這一點上, Quark模塊做的比較好。 Mapper: Mapper 的輸入格式: ( URL, 當前 PageRank 值 , Quark 編號 , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) Mapper 的輸出格式有兩種: 第一種: ( URL, Quark 編號 , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) 第二種: foreach url in 該 url 的出鏈列表 : 輸出 ( url, value) , 其中 value 為根 據(jù)該 url 所在的 Quark 的權(quán)值而計算出的當前 URL 的 PageRank 的分配值。 所以除了實現(xiàn) MapReduce 工作類之外,還得自 己編寫 一個 主控程序中,控制 和 調(diào)用了多輪 MapReduce 任務(wù) ,并決定迭代何時終止 。而且在評測過程中發(fā)現(xiàn),已標記的 303 個網(wǎng)頁,由于標記人員工作不夠細致,質(zhì)量不高,部分存在將噪音內(nèi)容也標記為主題內(nèi)容的情況。 下圖是各組結(jié)果的直觀顯示: 評測綜述 本次評測從設(shè)計上和數(shù)據(jù)上還有很多缺憾: 數(shù)據(jù)集的抓取不夠有代表性,集中在幾個網(wǎng)站,同 種類型網(wǎng)頁過多,新聞類網(wǎng)頁也過多,一定程度上降低了內(nèi)容提取的難度。 TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC PKU 6 在網(wǎng)頁分塊的基礎(chǔ)上,山東大學(xué)提 取文字數(shù)最多的網(wǎng)頁塊作為網(wǎng)頁內(nèi)容信息塊 ,這一方法的缺點是不能處理含有多個內(nèi)容信息塊的網(wǎng)頁。 評測結(jié)果如下: 網(wǎng)頁內(nèi)容信息塊發(fā)現(xiàn)任務(wù) 評測結(jié)果較好的隊伍是大連理工 隊和我的 Quark模塊。 鏈接相關(guān)的特征信息 包括鏈接數(shù)、 鏈接文字與非鏈接文字比 、 鏈接標簽占網(wǎng)頁的所有標簽的比率 、 鏈接文本內(nèi)容占全文內(nèi)容的比率 、 非鏈接文字的長度 等等。 網(wǎng)頁整體性判斷方法 以華南理工一隊的方法最為典型,綜合使用了啟發(fā)式規(guī)則和分類器方法: TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC 第一 步先根據(jù)主題型網(wǎng)頁的重要特征,基于啟發(fā)式規(guī)則判斷; 第二步提取更詳細的特征信息,用 SVM 分類; 第三步還基于信息塊提取的結(jié)果反饋,進一步篩選出主題型網(wǎng)頁。 一個網(wǎng)頁可以有多個正文內(nèi)容段, 因此可以有類似下面的情況: CWTquark08010300000001 200 300 // 該網(wǎng)頁中的 第一段正文 內(nèi)容 CWTquark08010300000001 450 500 // 該網(wǎng)頁中的 第 二段正文內(nèi)容 評測結(jié)果 本次評測任務(wù)最終共有七支參賽隊伍,提交了 12 組結(jié)果。 補充定義: 新聞網(wǎng)頁的內(nèi)容信息應(yīng)包括出現(xiàn)在頁面里的標題,時間,通訊社,記者名等信息。如一張具體的新聞網(wǎng)頁就是典型的主題型網(wǎng)頁。兩部分內(nèi)容大致相等,說明網(wǎng)頁主題內(nèi)容提取成功。 第二幅圖:這是網(wǎng)頁分塊之后的示意圖 。 算法效果演示 為了檢驗上述算法的效果,除了下一章會提到的評測程序外, 還可以用QuarkHtmlBuilder 類所編寫的演示程序以及自搭的 Apache 服務(wù)器上的 python 腳本來查看
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1