freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)論文-大規(guī)模網(wǎng)頁(yè)模塊識(shí)別與信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)(參考版)

2025-01-19 15:13本頁(yè)面
  

【正文】 Reducer 加成得到新一輪的 PageRank 值。 Mapper: Mapper 的輸入格式: ( URL, 當(dāng)前 PageRank 值 , Quark 編號(hào) , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) Mapper 的輸出格式有兩種: 第一種: ( URL, Quark 編號(hào) , Quark 權(quán)值 , 該 Quark 的出鏈列表 ) 第二種: foreach url in 該 url 的出鏈列表 : 輸出 ( url, value) , 其中 value 為根 據(jù)該 url 所在的 Quark 的權(quán)值而計(jì)算出的當(dāng)前 URL 的 PageRank 的分配值。 所以除了實(shí)現(xiàn) MapReduce 工作類之外,還得自 己編寫(xiě) 一個(gè) 主控程序中,控制 和 調(diào)用了多輪 MapReduce 任務(wù) ,并決定迭代何時(shí)終止 。 同時(shí), 200GB 的原始網(wǎng)頁(yè)文件 作為輸入文件,而輸出則是一個(gè)列有所有 URL 的 PageRank 值的文件,輸入與輸出文件都存儲(chǔ)在天網(wǎng)文件系統(tǒng)中,以 最大 64MB 的 數(shù)據(jù)塊的形式存在于整個(gè)機(jī)群中。 第 5 章 網(wǎng)頁(yè)分塊的 分布式 應(yīng)用 在前面提到的網(wǎng)頁(yè)分塊算法的基礎(chǔ)之上,我嘗試了 基于網(wǎng)頁(yè)分塊的PageRank 算法,與相關(guān)研究里提到的 BLPR 算法不同的是,我的這項(xiàng)工作是在我們實(shí)驗(yàn)室自己開(kāi)發(fā) 的天網(wǎng)文件系統(tǒng) [8]( TFS)和分布式計(jì)算平臺(tái)( MapReduce)上實(shí)現(xiàn)的。 而 Quark 模塊從本次評(píng)測(cè)中得到的教育是: 各隊(duì)都沒(méi)有一個(gè)詳細(xì),可操作性強(qiáng)的 網(wǎng)頁(yè)分塊算法,這一點(diǎn)上, Quark模塊做的比較好。而且在評(píng)測(cè)過(guò)程中發(fā)現(xiàn),已標(biāo)記的 303 個(gè)網(wǎng)頁(yè),由于標(biāo)記人員工作不夠細(xì)致,質(zhì)量不高,部分存在將噪音內(nèi)容也標(biāo)記為主題內(nèi)容的情況。又比如相關(guān)鏈接算不算內(nèi)容信息塊,在這次評(píng)測(cè)中是不算的,以后可以考慮將相關(guān)鏈接的提取也列為評(píng)測(cè)項(xiàng)目。 對(duì)內(nèi)容信息塊的定義不夠清晰。比如有的新聞網(wǎng)頁(yè)由一幅大圖片和少量文字構(gòu)成主題塊,在現(xiàn)有的單純依靠文字的評(píng)測(cè)機(jī)制下傾向于認(rèn)為不是主題塊,但事實(shí)上應(yīng)該算是主題塊,而這種網(wǎng)頁(yè)也應(yīng)該算是主題型網(wǎng)頁(yè)。 下圖是各組結(jié)果的直觀顯示: 評(píng)測(cè)綜述 本次評(píng)測(cè)從設(shè)計(jì)上和數(shù)據(jù)上還有很多缺憾: 數(shù)據(jù)集的抓取不夠有代表性,集中在幾個(gè)網(wǎng)站,同 種類型網(wǎng)頁(yè)過(guò)多,新聞?lì)惥W(wǎng)頁(yè)也過(guò)多,一定程度上降低了內(nèi)容提取的難度。 其他特殊方法 四川大學(xué)的算法比較特殊,他們認(rèn)為內(nèi)容信息塊在長(zhǎng)度上相對(duì)孤立,所以使用了基于偏差的孤立點(diǎn)檢測(cè)算法,以塊的大小作為屬性,檢測(cè)孤立點(diǎn),得到的孤立點(diǎn)即內(nèi)容塊。這個(gè)方法的局限一是不能處理含有多個(gè)內(nèi)容信息塊的網(wǎng)頁(yè),而是不能處理所有網(wǎng)頁(yè),比如表格型網(wǎng)頁(yè)需要單獨(dú)處理。 華南理工一隊(duì)的方法是由葉子節(jié)點(diǎn)開(kāi)始,向上尋找包含所有有效文本信息的最近節(jié)點(diǎn)。 TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC PKU 6 在網(wǎng)頁(yè)分塊的基礎(chǔ)上,山東大學(xué)提 取文字?jǐn)?shù)最多的網(wǎng)頁(yè)塊作為網(wǎng)頁(yè)內(nèi)容信息塊 ,這一方法的缺點(diǎn)是不能處理含有多個(gè)內(nèi)容信息塊的網(wǎng)頁(yè)。 在噪音過(guò)濾,網(wǎng)頁(yè)分塊的基礎(chǔ)上,大連理工采用了基于規(guī)則和基于 Bayes的語(yǔ)義分析方法,同時(shí)針對(duì)本次任務(wù)的網(wǎng)頁(yè)特性做了優(yōu)化,效果優(yōu)異。后者由于過(guò)于簡(jiǎn)單,實(shí)際評(píng)測(cè)效果不如前者。 網(wǎng)頁(yè)分塊判斷 其余 各隊(duì)的分塊方法都比較簡(jiǎn)單。 評(píng)測(cè)結(jié)果如下: 網(wǎng)頁(yè)內(nèi)容信息塊發(fā)現(xiàn)任務(wù) 評(píng)測(cè)結(jié)果較好的隊(duì)伍是大連理工 隊(duì)和我的 Quark模塊。 從評(píng)測(cè)結(jié)果可以看出,大連理工提交的結(jié)果 1 評(píng)測(cè)成績(jī)十分優(yōu)異,精度 和F1 值 超過(guò) 了 90%。所以本任務(wù)的評(píng)測(cè)就依據(jù)這 104 個(gè)標(biāo)記過(guò)的主題型網(wǎng)頁(yè),樣本量偏少。 下圖是各組結(jié)果的 MacroF1 值大小的直觀顯示: 網(wǎng)頁(yè) 內(nèi)容信息 發(fā)現(xiàn)任務(wù) 評(píng)測(cè)結(jié)果 我們事先人工標(biāo)記了 71281 個(gè)網(wǎng)頁(yè)中的 303 個(gè)主題型網(wǎng)頁(yè),標(biāo)記方法為給html 的 tag 標(biāo)簽添加 quark 屬性,如: div quark=”content” 正文內(nèi)容 /div a quark=”rel_link” href=”” 相關(guān)鏈接 /a div quark=”noise” 噪音內(nèi)容 /div 其中標(biāo)記為 quark=”content”的就是內(nèi)容信息塊; 標(biāo)記為 quark=”rel_link”的 是相關(guān)鏈接; 而標(biāo)記為 quark=”noise”的 則是噪音內(nèi)容。 鏈接相關(guān)的特征信息 包括鏈接數(shù)、 鏈接文字與非鏈接文字比 、 鏈接標(biāo)簽占網(wǎng)頁(yè)的所有標(biāo)簽的比率 、 鏈接文本內(nèi)容占全文內(nèi)容的比率 、 非鏈接文字的長(zhǎng)度 等等。 而四川大學(xué)的方法比較特殊,在網(wǎng)頁(yè)分塊的基礎(chǔ)上, 使用網(wǎng)頁(yè)塊分布的方差和彎曲度屬性 區(qū)分導(dǎo)航型和主題型網(wǎng)頁(yè) ,不足在于使用規(guī)則過(guò)少,只使用了網(wǎng)頁(yè)塊的文本大小信息。若含有主題塊,則為主題型網(wǎng)頁(yè) 。 網(wǎng)頁(yè)分塊判斷方法 以大連理工隊(duì)的方法最為典型,在網(wǎng)頁(yè)分塊的基礎(chǔ)上,判斷各個(gè)網(wǎng)頁(yè)塊的類型。 網(wǎng)頁(yè)整體性判斷方法 以華南理工一隊(duì)的方法最為典型,綜合使用了啟發(fā)式規(guī)則和分類器方法: TEAM MacroPrecision MacroRecall MacroF1 DLUT1 DLUT2 SCU1 SCU2 SCUT1 SCUT2 SCUT3 SCUT4 SDU1 SDU2 RUC 第一 步先根據(jù)主題型網(wǎng)頁(yè)的重要特征,基于啟發(fā)式規(guī)則判斷; 第二步提取更詳細(xì)的特征信息,用 SVM 分類; 第三步還基于信息塊提取的結(jié)果反饋,進(jìn)一步篩選出主題型網(wǎng)頁(yè)。華南理工一隊(duì)和大連理工的分類質(zhì)量相對(duì)最佳,而人民大學(xué)和山東大學(xué)提交的三個(gè)結(jié)果,分別將 71502 個(gè)網(wǎng)頁(yè)中的 6649 5650 55111 個(gè)判斷為了主題型網(wǎng)頁(yè),過(guò)高地估計(jì)了主題型網(wǎng)頁(yè)的比例,從而大大降低了精度,但值得一提的是,山東大學(xué)提交的結(jié)果 2 獲得了最高的召回率。利用該 227 個(gè)網(wǎng)頁(yè),評(píng)測(cè)各組參賽數(shù)據(jù)。 在這 71281 個(gè)網(wǎng)頁(yè)中,隨機(jī)抽取了 300 個(gè) URL,人工判斷其類型。 一個(gè)網(wǎng)頁(yè)可以有多個(gè)正文內(nèi)容段, 因此可以有類似下面的情況: CWTquark08010300000001 200 300 // 該網(wǎng)頁(yè)中的 第一段正文 內(nèi)容 CWTquark08010300000001 450 500 // 該網(wǎng)頁(yè)中的 第 二段正文內(nèi)容 評(píng)測(cè)結(jié)果 本次評(píng)測(cè)任務(wù)最終共有七支參賽隊(duì)伍,提交了 12 組結(jié)果。如: CWTquark08010300000010 CWTquark08010300000019 網(wǎng)頁(yè)內(nèi)信息塊發(fā)現(xiàn):只需要把正文內(nèi)容找出來(lái)即可, 一個(gè)網(wǎng)頁(yè)可能包括多個(gè)彼此不連續(xù)的正文內(nèi)容, 正文內(nèi)容可以包括包含內(nèi)容標(biāo)簽, 也可以不包含內(nèi)容標(biāo)簽。 任務(wù)評(píng)測(cè) 根據(jù)準(zhǔn)確度、召回率和 MacroF1 三個(gè)指標(biāo),它們的定義如下: M a c r o Pr e c is io n ? 在 某 個(gè) 網(wǎng) 頁(yè) 中 正 確 提 取 的 內(nèi) 容 信 息 長(zhǎng) 度在 某 個(gè) 網(wǎng) 頁(yè) 中 提 取 的 內(nèi) 容 信 息 總 長(zhǎng) 度M a c r o R e c a l l ?? 主 題 型 網(wǎng) 頁(yè) 判 斷 正 確 的 個(gè) 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁(yè) 的 總 數(shù) 目M a c r o R e c a l l ?? 在 某 個(gè) 網(wǎng) 頁(yè) 中 正 確 提 取 的 內(nèi) 容 信 息 長(zhǎng) 度在 某 個(gè) 網(wǎng) 頁(yè) 中 人 工 標(biāo) 注 的 內(nèi) 容 信 息 總 長(zhǎng) 度M a c r o Pr e c is io n ?? 主 題 型 網(wǎng) 頁(yè) 判 斷 正 確 的 個(gè) 數(shù)實(shí) 際 的 主 題 型 網(wǎng) 頁(yè) 的 總 數(shù) 目M a c r o Pr e c is io n M a c r o R e c a l lM a c r o F 1 M a c r o Pr e c is io n M a c r o R e c a l l?? ? ? ?2 * * 評(píng)測(cè)格式 評(píng)測(cè)要求參加評(píng)測(cè)單位以一定的格式提交,每個(gè)評(píng)測(cè)任務(wù)接受參加者 的一到二組檢索結(jié)果。 無(wú)意義的論壇回帖(如 ”頂 ”等)不屬于內(nèi)容信息,但有一定內(nèi)容的論壇回帖屬于內(nèi)容信息。 補(bǔ)充定義: 新聞網(wǎng)頁(yè)的內(nèi)容信息應(yīng)包括出現(xiàn)在頁(yè)面里的標(biāo)題,時(shí)間,通訊社,記者名等信息。 本項(xiàng)任務(wù)的目的在于找出主題型網(wǎng)頁(yè) 中的主題內(nèi)容信息。 論壇、博客網(wǎng)頁(yè)屬于主題型網(wǎng)頁(yè),但沒(méi)有主貼,只包括無(wú)意義回復(fù)語(yǔ)句的網(wǎng)頁(yè)屬于非主題型網(wǎng)頁(yè)。 某些導(dǎo)航型網(wǎng)頁(yè),如同類軟件下載網(wǎng)頁(yè)中,雖然對(duì)每個(gè)鏈接都使用了適量文字來(lái)介紹,從而文字比例比較高,但也應(yīng)該算作非主題型網(wǎng)頁(yè)。如一張具體的新聞網(wǎng)頁(yè)就是典型的主題型網(wǎng)頁(yè)。 由于本次評(píng)測(cè)任務(wù)的設(shè)計(jì)和上文提到的天網(wǎng) Quark 模塊關(guān)系密切,評(píng)測(cè)所使用的程序就是天網(wǎng) Quark 模塊中QuarkEvaluation 類的 python 版本的代碼,同時(shí)天網(wǎng) Quark 模塊的一個(gè)稍早期版本也參加了第二個(gè)任務(wù)關(guān)于網(wǎng)頁(yè)主題內(nèi)容的評(píng)測(cè),所以也可以作為天網(wǎng) Quark模塊的一個(gè)實(shí)驗(yàn)結(jié)果,檢驗(yàn)第三章提到的算法的效率。本屆評(píng)測(cè)采用的數(shù)據(jù)集是 CWT70th。其目標(biāo)在于為中文信息檢索領(lǐng)域的研究人員提供一個(gè)標(biāo)準(zhǔn)的評(píng)測(cè)平臺(tái),希望在國(guó)內(nèi)外各個(gè)研究小組的共同參與下建立并完善以中文為主的網(wǎng)頁(yè)測(cè)試集 CWT(Chinese Web Test collection),解決支持中文 WEB 研究的基礎(chǔ)設(shè)施建設(shè)和應(yīng)用中的基本方法與關(guān)鍵技術(shù),一起推動(dòng)中文 Web 信息檢索技術(shù)的發(fā)展。兩部分內(nèi)容大致相等,說(shuō)明網(wǎng)頁(yè)主題內(nèi)容提取成功。 第五幅圖:這是第一幅圖所示 Demo 的結(jié)果界面截圖,可見(jiàn),圖片上方是手工標(biāo)注的文字內(nèi)容,共 720 個(gè)字符。圖中紅色的部分為 QuarkAnalyzer識(shí)別的正文內(nèi)容,綠色部分為其識(shí)別的相關(guān)鏈接,其余紫色部分為噪音內(nèi)容。圖中沒(méi)有顏色,依舊是藍(lán)色的鏈接色的部分是新浪網(wǎng)動(dòng)態(tài)生成的內(nèi)容,在 html 源代碼中并不存在,所以沒(méi)有被標(biāo)上字體顏色。 第二幅圖:這是網(wǎng)頁(yè)分塊之后的示意圖 。 顯然,其主題內(nèi)容信息塊應(yīng)該是屏幕中左部的大塊文字內(nèi)容。 Submit后的效果圖見(jiàn)后面的第五幅圖。 第一幅圖: 這是 用 python 腳本寫(xiě)的一個(gè)在瀏覽器上查看網(wǎng)頁(yè)主題內(nèi)容提取效果的demo, 可以選擇用 PageModel 的算法(即 Quark 模塊 ) ,也可以選擇用 SiteModel的算法,點(diǎn)擊 submit 按鈕,就可以出現(xiàn)手工標(biāo)記的主題內(nèi)容,和程序判斷的主題內(nèi)容的對(duì)比畫(huà)面。 算法效果演示 為了檢驗(yàn)上述算法的效果,除了下一章會(huì)提到的評(píng)測(cè)程序外, 還可以用QuarkHtmlBuilder 類所編寫(xiě)的演示程序以及自搭的 Apache 服務(wù)器上的 python 腳本來(lái)查看網(wǎng)頁(yè)分塊后和主題信息提取后的效果。 網(wǎng)頁(yè)塊為主題內(nèi)容塊的概率: p_isContent = 。 該塊中標(biāo)點(diǎn)符號(hào)總數(shù)大于 4 的概率 p2_punctuation = 該塊中非錨接文本的長(zhǎng)度大于 200 的概率 p2_size = 該塊中鏈接數(shù)量大于 20 的概率 p2_linkNum = 。 該塊中包含常見(jiàn)噪音詞并且文本長(zhǎng)度小于 100 的概率 p1_noise = 。 該塊中錨接文本和非錨接文本的長(zhǎng)度之比 大于 p1_scale = 。 該塊中每 10 個(gè)字符中的標(biāo)點(diǎn)符號(hào)數(shù)大于 的概率 p1_punctuationScale = 。 _________________________________________________________________ 其中 Bayes 方法的各先驗(yàn)概率事先用手工標(biāo)記的樣本網(wǎng)頁(yè)計(jì)算得到,結(jié)果如下: 在該網(wǎng)頁(yè)塊為主題內(nèi)容塊的條件下, 該塊中包含定制標(biāo)簽的概率 p1_costomizedTag = 。 第三步,求交。 第二步,基于 Bayes 的方法: 根據(jù)下面列出的 7 項(xiàng)先驗(yàn)概率 和該網(wǎng)頁(yè)塊相對(duì)應(yīng)的這 7 項(xiàng)特性的( 0, 1)值,利用 Bayes 概率的計(jì)算公式,計(jì)算出每個(gè)網(wǎng)頁(yè)塊是 不是 主題內(nèi)容塊的后驗(yàn)概率。 用 token 的重復(fù)數(shù)除以較小的 token 流中的 token 個(gè)數(shù),得到兩個(gè)網(wǎng)頁(yè) 塊的文本相似度。 對(duì)兩個(gè) token 流分別排序。 然后 用其余網(wǎng)頁(yè)塊 逐個(gè) 與最大的網(wǎng)頁(yè)塊比較文本相似度。 采用了基于規(guī)則和基于 Bayes
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1