freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識(shí)別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(文件)

2025-02-03 15:13 上一頁面

下一頁面
 

【正文】 第一 步先根據(jù)主題型網(wǎng)頁的重要特征,基于啟發(fā)式規(guī)則判斷; 第二步提取更詳細(xì)的特征信息,用 SVM 分類; 第三步還基于信息塊提取的結(jié)果反饋,進(jìn)一步篩選出主題型網(wǎng)頁。若含有主題塊,則為主題型網(wǎng)頁 。 鏈接相關(guān)的特征信息 包括鏈接數(shù)、 鏈接文字與非鏈接文字比 、 鏈接標(biāo)簽占網(wǎng)頁的所有標(biāo)簽的比率 、 鏈接文本內(nèi)容占全文內(nèi)容的比率 、 非鏈接文字的長度 等等。所以本任務(wù)的評(píng)測(cè)就依據(jù)這 104 個(gè)標(biāo)記過的主題型網(wǎng)頁,樣本量偏少。 評(píng)測(cè)結(jié)果如下: 網(wǎng)頁內(nèi)容信息塊發(fā)現(xiàn)任務(wù) 評(píng)測(cè)結(jié)果較好的隊(duì)伍是大連理工 隊(duì)和我的 Quark模塊。后者由于過于簡單,實(shí)際評(píng)測(cè)效果不如前者。 TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC PKU 6 在網(wǎng)頁分塊的基礎(chǔ)上,山東大學(xué)提 取文字?jǐn)?shù)最多的網(wǎng)頁塊作為網(wǎng)頁內(nèi)容信息塊 ,這一方法的缺點(diǎn)是不能處理含有多個(gè)內(nèi)容信息塊的網(wǎng)頁。這個(gè)方法的局限一是不能處理含有多個(gè)內(nèi)容信息塊的網(wǎng)頁,而是不能處理所有網(wǎng)頁,比如表格型網(wǎng)頁需要單獨(dú)處理。 下圖是各組結(jié)果的直觀顯示: 評(píng)測(cè)綜述 本次評(píng)測(cè)從設(shè)計(jì)上和數(shù)據(jù)上還有很多缺憾: 數(shù)據(jù)集的抓取不夠有代表性,集中在幾個(gè)網(wǎng)站,同 種類型網(wǎng)頁過多,新聞?lì)惥W(wǎng)頁也過多,一定程度上降低了內(nèi)容提取的難度。 對(duì)內(nèi)容信息塊的定義不夠清晰。而且在評(píng)測(cè)過程中發(fā)現(xiàn),已標(biāo)記的 303 個(gè)網(wǎng)頁,由于標(biāo)記人員工作不夠細(xì)致,質(zhì)量不高,部分存在將噪音內(nèi)容也標(biāo)記為主題內(nèi)容的情況。 第 5 章 網(wǎng)頁分塊的 分布式 應(yīng)用 在前面提到的網(wǎng)頁分塊算法的基礎(chǔ)之上,我嘗試了 基于網(wǎng)頁分塊的PageRank 算法,與相關(guān)研究里提到的 BLPR 算法不同的是,我的這項(xiàng)工作是在我們實(shí)驗(yàn)室自己開發(fā) 的天網(wǎng)文件系統(tǒng) [8]( TFS)和分布式計(jì)算平臺(tái)( MapReduce)上實(shí)現(xiàn)的。 所以除了實(shí)現(xiàn) MapReduce 工作類之外,還得自 己編寫 一個(gè) 主控程序中,控制 和 調(diào)用了多輪 MapReduce 任務(wù) ,并決定迭代何時(shí)終止 。 Reducer 加成得到新一輪的 PageRank 值。 Mapper: Mapper 的輸入格式: ( URL, 當(dāng)前 PageRank 值 , Quark 編號(hào) , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) Mapper 的輸出格式有兩種: 第一種: ( URL, Quark 編號(hào) , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) 第二種: foreach url in 該 url 的出鏈列表 : 輸出 ( url, value) , 其中 value 為根 據(jù)該 url 所在的 Quark 的權(quán)值而計(jì)算出的當(dāng)前 URL 的 PageRank 的分配值。 同時(shí), 200GB 的原始網(wǎng)頁文件 作為輸入文件,而輸出則是一個(gè)列有所有 URL 的 PageRank 值的文件,輸入與輸出文件都存儲(chǔ)在天網(wǎng)文件系統(tǒng)中,以 最大 64MB 的 數(shù)據(jù)塊的形式存在于整個(gè)機(jī)群中。 而 Quark 模塊從本次評(píng)測(cè)中得到的教育是: 各隊(duì)都沒有一個(gè)詳細(xì),可操作性強(qiáng)的 網(wǎng)頁分塊算法,這一點(diǎn)上, Quark模塊做的比較好。又比如相關(guān)鏈接算不算內(nèi)容信息塊,在這次評(píng)測(cè)中是不算的,以后可以考慮將相關(guān)鏈接的提取也列為評(píng)測(cè)項(xiàng)目。比如有的新聞網(wǎng)頁由一幅大圖片和少量文字構(gòu)成主題塊,在現(xiàn)有的單純依靠文字的評(píng)測(cè)機(jī)制下傾向于認(rèn)為不是主題塊,但事實(shí)上應(yīng)該算是主題塊,而這種網(wǎng)頁也應(yīng)該算是主題型網(wǎng)頁。 其他特殊方法 四川大學(xué)的算法比較特殊,他們認(rèn)為內(nèi)容信息塊在長度上相對(duì)孤立,所以使用了基于偏差的孤立點(diǎn)檢測(cè)算法,以塊的大小作為屬性,檢測(cè)孤立點(diǎn),得到的孤立點(diǎn)即內(nèi)容塊。 華南理工一隊(duì)的方法是由葉子節(jié)點(diǎn)開始,向上尋找包含所有有效文本信息的最近節(jié)點(diǎn)。 在噪音過濾,網(wǎng)頁分塊的基礎(chǔ)上,大連理工采用了基于規(guī)則和基于 Bayes的語義分析方法,同時(shí)針對(duì)本次任務(wù)的網(wǎng)頁特性做了優(yōu)化,效果優(yōu)異。 網(wǎng)頁分塊判斷 其余 各隊(duì)的分塊方法都比較簡單。 從評(píng)測(cè)結(jié)果可以看出,大連理工提交的結(jié)果 1 評(píng)測(cè)成績十分優(yōu)異,精度 和F1 值 超過 了 90%。 下圖是各組結(jié)果的 MacroF1 值大小的直觀顯示: 網(wǎng)頁 內(nèi)容信息 發(fā)現(xiàn)任務(wù) 評(píng)測(cè)結(jié)果 我們事先人工標(biāo)記了 71281 個(gè)網(wǎng)頁中的 303 個(gè)主題型網(wǎng)頁,標(biāo)記方法為給html 的 tag 標(biāo)簽添加 quark 屬性,如: div quark=”content” 正文內(nèi)容 /div a quark=”rel_link” href=”” 相關(guān)鏈接 /a div quark=”noise” 噪音內(nèi)容 /div 其中標(biāo)記為 quark=”content”的就是內(nèi)容信息塊; 標(biāo)記為 quark=”rel_link”的 是相關(guān)鏈接; 而標(biāo)記為 quark=”noise”的 則是噪音內(nèi)容。 而四川大學(xué)的方法比較特殊,在網(wǎng)頁分塊的基礎(chǔ)上, 使用網(wǎng)頁塊分布的方差和彎曲度屬性 區(qū)分導(dǎo)航型和主題型網(wǎng)頁 ,不足在于使用規(guī)則過少,只使用了網(wǎng)頁塊的文本大小信息。 網(wǎng)頁分塊判斷方法 以大連理工隊(duì)的方法最為典型,在網(wǎng)頁分塊的基礎(chǔ)上,判斷各個(gè)網(wǎng)頁塊的類型。華南理工一隊(duì)和大連理工的分類質(zhì)量相對(duì)最佳,而人民大學(xué)和山東大學(xué)提交的三個(gè)結(jié)果,分別將 71502 個(gè)網(wǎng)頁中的 6649 5650 55111 個(gè)判斷為了主題型網(wǎng)頁,過高地估計(jì)了主題型網(wǎng)頁的比例,從而大大降低了精度,但值得一提的是,山東大學(xué)提交的結(jié)果 2 獲得了最高的召回率。 在這 71281 個(gè)網(wǎng)頁中,隨機(jī)抽取了 300 個(gè) URL,人工判斷其類型。如: CWTquark08010300000010 CWTquark08010300000019 網(wǎng)頁內(nèi)信息塊發(fā)現(xiàn):只需要把正文內(nèi)容找出來即可, 一個(gè)網(wǎng)頁可能包括多個(gè)彼此不連續(xù)的正文內(nèi)容, 正文內(nèi)容可以包括包含內(nèi)容標(biāo)簽, 也可以不包含內(nèi)容標(biāo)簽。 無意義的論壇回帖(如 ”頂 ”等)不屬于內(nèi)容信息,但有一定內(nèi)容的論壇回帖屬于內(nèi)容信息。 本項(xiàng)任務(wù)的目的在于找出主題型網(wǎng)頁 中的主題內(nèi)容信息。 某些導(dǎo)航型網(wǎng)頁,如同類軟件下載網(wǎng)頁中,雖然對(duì)每個(gè)鏈接都使用了適量文字來介紹,從而文字比例比較高,但也應(yīng)該算作非主題型網(wǎng)頁。 由于本次評(píng)測(cè)任務(wù)的設(shè)計(jì)和上文提到的天網(wǎng) Quark 模塊關(guān)系密切,評(píng)測(cè)所使用的程序就是天網(wǎng) Quark 模塊中QuarkEvaluation 類的 python 版本的代碼,同時(shí)天網(wǎng) Quark 模塊的一個(gè)稍早期版本也參加了第二個(gè)任務(wù)關(guān)于網(wǎng)頁主題內(nèi)容的評(píng)測(cè),所以也可以作為天網(wǎng) Quark模塊的一個(gè)實(shí)驗(yàn)結(jié)果,檢驗(yàn)第三章提到的算法的效率。其目標(biāo)在于為中文信息檢索領(lǐng)域的研究人員提供一個(gè)標(biāo)準(zhǔn)的評(píng)測(cè)平臺(tái),希望在國內(nèi)外各個(gè)研究小組的共同參與下建立并完善以中文為主的網(wǎng)頁測(cè)試集 CWT(Chinese Web Test collection),解決支持中文 WEB 研究的基礎(chǔ)設(shè)施建設(shè)和應(yīng)用中的基本方法與關(guān)鍵技術(shù),一起推動(dòng)中文 Web 信息檢索技術(shù)的發(fā)展。 第五幅圖:這是第一幅圖所示 Demo 的結(jié)果界面截圖,可見,圖片上方是手工標(biāo)注的文字內(nèi)容,共 720 個(gè)字符。圖中沒有顏色,依舊是藍(lán)色的鏈接色的部分是新浪網(wǎng)動(dòng)態(tài)生成的內(nèi)容,在 html 源代碼中并不存在,所以沒有被標(biāo)上字體顏色。 顯然,其主題內(nèi)容信息塊應(yīng)該是屏幕中左部的大塊文字內(nèi)容。 第一幅圖: 這是 用 python 腳本寫的一個(gè)在瀏覽器上查看網(wǎng)頁主題內(nèi)容提取效果的demo, 可以選擇用 PageModel 的算法(即 Quark 模塊 ) ,也可以選擇用 SiteModel的算法,點(diǎn)擊 submit 按鈕,就可以出現(xiàn)手工標(biāo)記的主題內(nèi)容,和程序判斷的主題內(nèi)容的對(duì)比畫面。 網(wǎng)頁塊為主題內(nèi)容塊的概率: p_isContent = 。 該塊中包含常見噪音詞并且文本長度小于 100 的概率 p1_noise = 。 該塊中每 10 個(gè)字符中的標(biāo)點(diǎn)符號(hào)數(shù)大于 的概率 p1_punctuationScale = 。 第三步,求交。 用 token 的重復(fù)數(shù)除以較小的 token 流中的 token 個(gè)數(shù),得到兩個(gè)網(wǎng)頁 塊的文本相似度。 然后 用其余網(wǎng)頁塊 逐個(gè) 與最大的網(wǎng)頁塊比較文本相似度。 END _________________________________________________________________ 網(wǎng)頁塊池中的網(wǎng)頁塊是以 QuarkElement 的格式存儲(chǔ),而 QuarkElement 類中包括原來的 html 子樹的 DomTree 結(jié)構(gòu)和其他相關(guān)信息,同時(shí)在上述遍歷的過程中,即使有的網(wǎng)頁塊從 html 結(jié)構(gòu) 上來說包含在更高層的網(wǎng)頁塊之下,但在QuarkElement 中也消除了包含關(guān)系,所有網(wǎng)頁塊都互相獨(dú)立,互不包含。 5 如果遇到 B 型節(jié)點(diǎn),則判斷 該節(jié)點(diǎn)內(nèi)部的文字長度是否已超過閾值,或者該節(jié)點(diǎn)內(nèi)部的 L 型節(jié)點(diǎn)比例是否超過閾值,如果滿足上述兩個(gè)條件之一,則將此節(jié)點(diǎn)加入網(wǎng)頁塊池 ;否則將其內(nèi)部文字長度信息和自身信息向父節(jié)點(diǎn)傳遞,然后將父節(jié)點(diǎn)加入當(dāng)前節(jié)點(diǎn)隊(duì)列,回到 2。 QuarkRecognizer 算法的核心偽碼如下: _________________________________________________________________ ALGORITHM QuarkRecognizer (DomTree tree, TagList CType) INPUT : 某單個(gè)網(wǎng)頁構(gòu)建的 DomTree,定制標(biāo)簽 (C 型 )節(jié)點(diǎn)列表 BEGIN 1 用 DomTree 的葉子節(jié)點(diǎn),也就是文字節(jié)點(diǎn) 建 立 一個(gè) 當(dāng)前 節(jié)點(diǎn) 隊(duì)列 ,開始自底向上遍歷。 包括: FRAME, INPUT, ISINDEX, LEGEND, LINK, MAP, META, OPTION, OPTGROUP, PARAM, TD, TH, TR, TBODY, TITLE 定制標(biāo)簽( Customized Tag,簡稱為 C 型標(biāo)簽): 因?yàn)椴煌膽?yīng)用中,對(duì)網(wǎng)頁分塊會(huì)有些不同的要求。 包括: P, UL, OL, DL, DIR, LI, DT, BLOCKQUOTE, ADDRESS, BR, HR, COL, COLGROUP, IMG, MENU, SELECT 顯示標(biāo)簽( Display Tag,簡稱為 D 型標(biāo)簽): 這種標(biāo)簽 數(shù)量最多,都是對(duì)文字的顯示方式做微幅的調(diào)整,如改變 字體、顏色、粗細(xì)等等。 所以在算法過程中, 遇到這種標(biāo)簽,就判斷其單獨(dú)作為一個(gè)網(wǎng)頁塊的條件是否已經(jīng)成熟,如成熟,則將其加入網(wǎng)頁塊池。 所謂實(shí)用性強(qiáng)是指適合在實(shí)際系統(tǒng)中使用,效率高,定義完整。 參見在第二章相關(guān)研究里提到的,除了基于視覺的算法之外,大部分基于語義的算法都是利用 html 標(biāo)簽 及其包含的文字信息 的特性 來給網(wǎng)頁 分塊的。 最上面黃色的部分為 Quark 模塊的應(yīng)用類 ,包括 QuarkRank、QuarkDuplicate、 QuarkClassification 等 ,它們都是利用分好的網(wǎng)頁塊實(shí)現(xiàn)的一些算法,比如基于 Quark 的 PageRank 算法 ,基于 Quark 的網(wǎng)頁消重算法,以及基于 Quark 的網(wǎng)頁分類算法。當(dāng)前實(shí)現(xiàn)的是對(duì)網(wǎng)頁正文信息提取的評(píng)測(cè),評(píng)測(cè)需要接受人工標(biāo)記的網(wǎng)頁或網(wǎng)頁集為輸入。 QuarkAnalyzer 類 依賴于 QuarkRecognizer 類 , 它在分好的塊的基礎(chǔ)上,判斷各個(gè)塊的類型,提取正文信息。 QuarkTree 類 的作用 有兩個(gè),一個(gè)是 以原始網(wǎng)頁為輸入, 建立 Html 的Dom Tree;另一個(gè)是存儲(chǔ) 分好的網(wǎng)頁塊 (在我們的系統(tǒng)中,每一個(gè)網(wǎng)頁塊就叫做一個(gè) Quark) 并記錄 Quark 與 Quark 之間的組織架構(gòu)。 在我們實(shí)驗(yàn)室內(nèi)部,除了搜索引擎之外,還有 Web 數(shù)據(jù)挖掘, Mapreduce應(yīng)用等相關(guān)工作也可能需要使用對(duì)單個(gè)網(wǎng)頁的處理和數(shù)據(jù)提取程序。 同時(shí)由于實(shí)驗(yàn)室人員的不固定性,代碼的維護(hù)十分重要。 我的畢業(yè)設(shè)計(jì)的 主要工作,就是圍繞 Quark模塊而展開。也就是說,網(wǎng)頁中的無關(guān)信息區(qū)域在 PageRank 的計(jì)算過程中起的作用相對(duì)較小 , 所以 BLPR 的效果要優(yōu)于單純的 PageRank。 而 M也是 n n 的轉(zhuǎn)換矩陣,它是由上面提到的 WP 權(quán)值矩陣對(duì)每一行做歸一化,令每一行的權(quán)值之和為 1 得到的。 Block Level PageRank Block Level PageRank 跟 PageRank 區(qū)別的
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1