freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁(yè)文本對(duì)象抽取實(shí)現(xiàn)技術(shù)本科畢業(yè)論文-資料下載頁(yè)

2025-07-09 13:33本頁(yè)面

【導(dǎo)讀】互聯(lián)網(wǎng)中蘊(yùn)含著大量的關(guān)于現(xiàn)實(shí)世界對(duì)象的結(jié)構(gòu)化信息。為了能應(yīng)對(duì)信息爆炸帶來(lái)。需要一些自動(dòng)化的技術(shù)幫助人們?cè)诤A啃畔⒅醒杆僬业阶约赫嬲枰男畔ⅰ1緦?duì)象抽取實(shí)現(xiàn)技術(shù)正是解決這個(gè)問(wèn)題的一種方法?;贖TML特征和機(jī)器學(xué)習(xí)的博客正文抽取算法。在該算法中,研究了博客網(wǎng)頁(yè)的特。算法的優(yōu)點(diǎn)以及可以改進(jìn)的地方。擎Geeseek的系統(tǒng)結(jié)構(gòu)和界面演示。該系統(tǒng)屬于新型的垂直搜索引擎,能夠?qū)Σ┛秃筒N倪M(jìn)行快速有效的搜索。據(jù)了解,Geeseek也是目前國(guó)內(nèi)高校中第一個(gè)博客搜索引擎。導(dǎo)下進(jìn)行的研究工作及取得的成果。含我為獲得及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過(guò)的材料。明并表示了謝意。以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉?jī)?nèi)容。其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)。的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法。律后果由本人承擔(dān)。本人授權(quán)大學(xué)可以將本學(xué)位論文的全部或部分。涉密論文按學(xué)校規(guī)定處理。

  

【正文】 gTag: Strong標(biāo)簽的個(gè) 數(shù); _numberOfPTag: P標(biāo)簽的個(gè)數(shù); _numberOfBRTag: BR標(biāo)簽的個(gè)數(shù)。 人工標(biāo)記 從這步開(kāi)始,需要采用一個(gè)工具 —— WEKA。 WEKA的全名是懷卡托智能分析環(huán)境( Waikato Environment for Knowledge Analysis)。同時(shí) weka也是新西蘭的一種鳥(niǎo)名,而WEKA的主要開(kāi)發(fā)者來(lái)自新西蘭。 WEKA作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類(lèi),回歸、聚類(lèi)、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。 它的數(shù)據(jù)文件是以 arff為后綴名的。 [15] 以上 一 步驟中的博文為例,訓(xùn)練數(shù)據(jù)在 WEKA中的顯示如圖 : 說(shuō)明:第一次項(xiàng) NO代表塊的編號(hào),第二項(xiàng)到第十一項(xiàng)表示 Features中的十條特征。最后一項(xiàng)的 ArticleType是一個(gè)二值,YES代表該塊是正文塊, NO代表該塊不是正文塊。 圖 WEKA數(shù)據(jù)顯示實(shí)示例圖 統(tǒng)計(jì)訓(xùn)練 把 每一個(gè)博文網(wǎng)頁(yè)進(jìn)行分塊和人工標(biāo)記后, 再 將每一個(gè) 網(wǎng)頁(yè)對(duì)應(yīng)的 arff文件整合在一起,形成訓(xùn)練數(shù)據(jù)集。接下來(lái),采用 10折交叉驗(yàn)證( 10fold cross validation)來(lái)選擇和評(píng)估模型 。 可以 看到 “J48”算法交叉驗(yàn)證的結(jié)果之一為 “ Correctly Classified Instances 湖南大學(xué)畢業(yè)論文 第 23 頁(yè) 湖南大學(xué)軟件學(xué)院 10238 %” 。 圖 訓(xùn)練博客數(shù)據(jù)集示意圖 獲取決策樹(shù) 在上一步的訓(xùn)練過(guò)程中, 右鍵點(diǎn)擊 “Results list”剛才出現(xiàn)的那一項(xiàng),彈出菜單中選擇 “Visualize tree”,新窗口里可以看到圖形模式的決策樹(shù) , [15] 如圖 : 湖南大學(xué)畢業(yè)論文 第 24 頁(yè) 湖南大學(xué)軟件學(xué)院 圖 博文統(tǒng)計(jì)訓(xùn)練后獲得的決策樹(shù)示意圖 在獲得決策樹(shù)后,將其編碼實(shí) 現(xiàn),就可以對(duì)經(jīng)過(guò)分塊預(yù)處理后的博文頁(yè)面進(jìn)行文章正文的抽取。 算法 的 測(cè)試 和評(píng)估 繼續(xù)使用 WEKA工具對(duì)該抽取實(shí)現(xiàn)方法進(jìn)行測(cè)試。在測(cè)試中,使用 10238條數(shù)據(jù)進(jìn)行訓(xùn)練, 8190條數(shù)據(jù) 進(jìn)行測(cè)試 , 采用總精確度 [16]來(lái)評(píng)價(jià)算法性能,定義如下: 總精確度 = 機(jī)器正確標(biāo)記的單詞數(shù) 所有測(cè)試的單詞數(shù) 100% ( ) 根據(jù)公式( ), 得到的 總精確度 為 %。如圖 : 湖南大學(xué)畢業(yè)論文 第 25 頁(yè) 湖南大學(xué)軟件學(xué)院 圖 抽取功能測(cè)試結(jié)果圖 博客正文抽取 算法 的 意義和思考 博客正文抽取最大的意義在于提高搜索的精度。中文搜索引擎經(jīng)常會(huì)返回大量的無(wú)關(guān)項(xiàng)或者不含具體信息的間接項(xiàng) , 產(chǎn)生這類(lèi)問(wèn)題的一個(gè)原因是網(wǎng)頁(yè)中存在著大量與主題無(wú)關(guān)的文字。這些為輔助網(wǎng)站組織而增加的文字定義為“噪聲”,它們通常聚集成塊 ,且獨(dú)立于主題內(nèi)容 , 僅僅起向?qū)У淖饔?,例如加超鏈接目錄或者具有搜索功能的表單。通過(guò)對(duì)博客正文 進(jìn)行 抽取后,僅對(duì)正文中的內(nèi)容進(jìn)行分詞、索引,這樣可以將檢索的匹配定格在主題內(nèi)容之中,而大大的減少了網(wǎng)頁(yè)“噪聲”對(duì)檢索的干擾,從而提高檢索 的效率和精度。 另外,通過(guò)對(duì)博客正文抽取的研究,我們對(duì)博客的網(wǎng)頁(yè)結(jié)構(gòu)有了很深入的了解。以此為基礎(chǔ),運(yùn)用發(fā)散思維,可以進(jìn)一步開(kāi)展其他方面的研究,例如對(duì)文章評(píng)論進(jìn)行抽取、統(tǒng)計(jì)博主的活躍程度等等。 該算法充分地抓住博客網(wǎng)頁(yè)的特定結(jié)構(gòu)特征,利用網(wǎng)頁(yè)的 HTML標(biāo)簽特征,研究出 湖南大學(xué)畢業(yè)論文 第 26 頁(yè) 湖南大學(xué)軟件學(xué)院 了一種新的網(wǎng)頁(yè)分塊算法 —— 利用 DIV標(biāo)記的布局特性進(jìn)行解析 。 該分塊算法的實(shí)現(xiàn)相對(duì)而言比較簡(jiǎn)單,而且分塊的效果很好。 另外, 采用專(zhuān)門(mén)的統(tǒng)計(jì)工具 WEKA對(duì)大量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)訓(xùn)練而獲得決策樹(shù),這樣所得到的模型和算法的準(zhǔn)確率有保障 。 所 以, 從整體上來(lái)看, 該 算 法的實(shí)現(xiàn) 并不復(fù)雜;從效果上來(lái)看, 對(duì)博客正文抽取的準(zhǔn) 確 率也比較高。 當(dāng)然,因?yàn)榧夹g(shù)能力和資源條件的限制, 抽取 系統(tǒng)中還存在很多可以改進(jìn)的地方。分塊算法和訓(xùn)練過(guò)程目前只針對(duì)于一些著名的門(mén)戶(hù)網(wǎng)站博客網(wǎng)頁(yè)適用,例如網(wǎng)易、新浪、百度、搜狐等,所以博客正文抽取的實(shí)現(xiàn)有一定的局限性。所抽取到的僅僅是正文的文本,并不包含字體種類(lèi)、大小等格式信息以及正文 中 的圖片信息。 這些都是以后可以進(jìn)行拓展和改進(jìn)的地方。 湖南大學(xué)畢業(yè)論文 第 27 頁(yè) 湖南大學(xué)軟件學(xué)院 4. 基于博客正文抽取的 Geeseek 搜索引擎 本章主要介紹 基于博客正文抽取算法的實(shí)例 —— Geeseek博客 搜索引擎的主 要情況,并對(duì)其系統(tǒng)界面進(jìn)行展示。 Geeseek 系統(tǒng)介紹 Geeseek是一個(gè)智能搜索引擎系統(tǒng)。 所謂智能的搜索就是讓計(jì)算機(jī)變得更聰明,一個(gè)例子是查找 “去首都的火車(chē) ”,智能的搜索引擎應(yīng)該理解在中國(guó), “首都 ”就是 “北京 ”。當(dāng)然,目前的搜索引擎利用統(tǒng)計(jì)學(xué)的方法將這兩個(gè)詞理解為同義詞,解決了基本的同義詞理解問(wèn)題。 然而 , 用戶(hù) 仍然需要打開(kāi)一個(gè)一個(gè)的網(wǎng)頁(yè)查找去北京的火車(chē)車(chē)次,為了解決這個(gè)問(wèn)題,產(chǎn)生了火車(chē)車(chē)次查詢(xún)的垂直搜索引擎,這種搜索引擎將所有火車(chē)車(chē)次信息錄制在數(shù)據(jù)庫(kù)中,為用戶(hù)提供單一的火車(chē)車(chē)次搜索,效果 非常好 。 但是 ,如果不是查找火車(chē)車(chē)次, 而 需要查找 近幾天 去北京的飛機(jī)航班信息 、 天氣 情況或者是 北京的美食呢?為了 迅速而有效地查詢(xún)到 一個(gè)好的結(jié)果,可能需要查找飛機(jī)航班信息 、天氣以及特色美食 的垂直搜索引擎 ?,F(xiàn)在的實(shí)際情況就是如此,網(wǎng)絡(luò)上有 很多針對(duì)某個(gè)特定領(lǐng)域的 垂直搜索引擎 。 目前 Geeseek項(xiàng)目 正針對(duì)于博客領(lǐng)域的搜索,但 至今所做的工作基本沒(méi)有脫離現(xiàn)階段已有搜索引擎的模式。這樣做的原因有兩方面,一是本身的技術(shù)力量還不夠強(qiáng)大到開(kāi)發(fā)新一代搜索引擎的地步;另一方面,雖然重復(fù)現(xiàn)有的搜索引擎功能,但并不意味 著 抄襲現(xiàn)有的技術(shù),實(shí)際上很多 技術(shù)并沒(méi)有被搜索引擎公司發(fā)布 。 在重復(fù)同一功能時(shí)仍然可以使用很有創(chuàng)意的方法,正所謂 “ 條條道路通羅馬 ” 。 [17] Geeseek博客搜索系統(tǒng)的結(jié)構(gòu)如圖 : 湖南大學(xué)畢業(yè)論文 第 28 頁(yè) 湖南大學(xué)軟件學(xué)院 圖 Geeseek 系統(tǒng)結(jié)構(gòu)示意圖 博客正文抽取模塊 本節(jié)主要介紹 Geeseek中博客正文抽取模塊的實(shí)現(xiàn)情況。 博客正文抽取模塊簡(jiǎn)介 在 Geeseek中,博客正文抽取模塊的實(shí)現(xiàn)主要在 WrapperInducer項(xiàng)目中。WrapperInducer是在 Microsoft Visual Studio 20xx環(huán)境下,運(yùn)用 C語(yǔ)言 開(kāi)發(fā) 的一個(gè)類(lèi)庫(kù)。它主要運(yùn)用了 Microsoft的 MSHTML組件技術(shù)以及中科院的 NICTCLAS分詞系統(tǒng)來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)分塊和正文抽取。 WrapperInducer項(xiàng)目 位于 Geeseek中的 Indexer模塊 內(nèi) , Indexer的結(jié)構(gòu)如圖 : Geeseek Crawler Indexer Searcher 提供抓取到的網(wǎng)頁(yè)數(shù)據(jù) 提供索引及抽取后的博客正文 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng),抓取博客網(wǎng)頁(yè) 實(shí)現(xiàn)索引、網(wǎng)頁(yè)分塊、博客正文抽取功能 實(shí)現(xiàn)排序以及整個(gè)系統(tǒng)的查詢(xún)界面 湖南大學(xué)畢業(yè)論文 第 29 頁(yè) 湖南大學(xué)軟件學(xué)院 圖 Indexer 結(jié)構(gòu)示意圖 博客正文抽取模塊主要包括四個(gè)部分: 網(wǎng)頁(yè)分塊 —— 對(duì) Geeseek爬蟲(chóng)抓取 到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分塊處理; 特征統(tǒng)計(jì) —— 對(duì)每一個(gè)網(wǎng)頁(yè)分塊進(jìn)行 HTML特征統(tǒng)計(jì),為博客正文的判斷提供前提準(zhǔn)備; 決策樹(shù)的實(shí)現(xiàn) —— 運(yùn)用 WEKA工具對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)訓(xùn)練之后得到?jīng)Q策樹(shù),將此決策樹(shù)編碼實(shí)現(xiàn); 博客正文判斷 —— 以每一個(gè)分塊的特征集為依據(jù),根據(jù)決策樹(shù)來(lái)判斷該分塊是否屬于博客正文。 博客正文抽取模塊的主要數(shù)據(jù)類(lèi) Block類(lèi) —— 用于表示網(wǎng)頁(yè)分塊的類(lèi),它的類(lèi)定義如表 : 表 網(wǎng)頁(yè)分塊 Block 類(lèi)定義表 字段名 類(lèi)型 備注 TextOfBlock string 分塊 的文本信息 features Features 分塊的特征信息 Features類(lèi) —— 用于描述分塊特征集的類(lèi) , 它的類(lèi)定義 如表 : 表 網(wǎng)頁(yè)分塊特征 Features 類(lèi)定義表 字段名 類(lèi)型 備注 PositionOfBlock int 網(wǎng)頁(yè)分塊的第一個(gè)標(biāo)簽在文章中的位置 NumberOfPageTag int 整個(gè)網(wǎng)頁(yè)中的所有標(biāo)簽數(shù) Indexer WrapperInducer NICTCLAS Indexcore 包裝器,實(shí)現(xiàn)網(wǎng)頁(yè)分塊、決策樹(shù)以及底層的抽取功能 中科院分詞系統(tǒng),用于分詞處理 索引器,分詞后實(shí)現(xiàn)倒排索引 湖南大學(xué)畢業(yè)論文 第 30 頁(yè) 湖南大學(xué)軟件學(xué)院 NumberOfAllTag int 網(wǎng)頁(yè)分塊的所有標(biāo)簽數(shù) NumberOfImgTag int 網(wǎng)頁(yè)分塊中的 Img標(biāo)簽數(shù) NumberOfATag int 網(wǎng)頁(yè)分塊中的 A標(biāo)簽數(shù) NumberOfStrongTag int 網(wǎng)頁(yè)分塊中的 Strong標(biāo)簽數(shù) NumberOfTextTag int 網(wǎng)頁(yè)分塊中的 Text標(biāo)簽數(shù) LengthOfText int 網(wǎng)頁(yè)分塊中的 Text標(biāo)簽的文本長(zhǎng)度之和 NumberOfDIVTag int 網(wǎng)頁(yè)分塊中的 DIV標(biāo)簽數(shù) NumberOfPTag int 網(wǎng)頁(yè)分塊中的 P標(biāo)簽數(shù) NumberOfBRTag int 網(wǎng)頁(yè)分塊中的 BR標(biāo)簽數(shù) 博客正文抽取模塊的實(shí)現(xiàn)思路 博客正文抽取模塊中有三個(gè)很重 要的方法: GetArticleBlocks()—— 以頁(yè)面 page類(lèi)為輸入,獲得所有正文分塊的文本信息,并以字符串類(lèi)型返回; ComputeFeatures()—— 以 Mocrosoft的 MSHTML組件中的 IHTMLDOMNode類(lèi)實(shí)例 blockBeginNode為輸入,即從分塊的第一個(gè)結(jié)點(diǎn)起統(tǒng)計(jì)這個(gè)分塊的特征信息集( Features類(lèi))以及文本信息( TextofBlock),返回包含這兩種信息的 Block類(lèi)。 GetNextNode()—— 以某個(gè)結(jié)點(diǎn)為輸入,按照頁(yè)面源文件中的 HTML標(biāo)簽順序來(lái)返回下一個(gè)結(jié)點(diǎn)。 該 模塊的實(shí)現(xiàn)思路 具體 如下: GetArticleBlocks(page) { tempNode = page的根節(jié)點(diǎn) 。 blockBeginNode=NULL。 strArticleBlock = “”。 blockList = NULL。 numberOfPageTag = 0。 while ( (tempNode = GetNextNode(tempNode)) !=NULL) { numberOfPageTag++。 if (tempNode結(jié)點(diǎn)是 DIV標(biāo)記 ) blockBeginNode = tempNode。 湖南大學(xué)畢業(yè)論文 第 31 頁(yè) 湖南大學(xué)軟件學(xué)院 if(tempNode結(jié)點(diǎn)是 text類(lèi)型結(jié)點(diǎn)并且文本長(zhǎng)度不為 0) { if (blockBeginNode !=NULL) { tempBlock = ComputeFeatures(blockBeginNode)。 (tempBlock)。 blockBeginNode=NULL。 } } } 對(duì)于 blockList中的每一個(gè) block。 { Block的 Features屬性類(lèi)中 NumberOfPageTag = NumberOfPageTag。 } 對(duì)于 blockList中的每一個(gè) block。 if (block通過(guò)決策樹(shù)判斷 為正文塊 ) { strArticleBlock += block中的文本 。 } 返回 strArticleBlock。 } ComputeFeatures(blockBeginNode) { tempNode = blockBeginNode。 tempBlock = NULL。 while( (tempNode= GetNextNode(tempNode))!=NULL且 tempNode不為 DIV標(biāo)簽 ) { tempBlock的 Features屬性類(lèi)中 NumberOfAllTag++。 if (tempNode是 P、 BR、 Img、 A、 Strong標(biāo)記 ) 湖南大學(xué)畢業(yè)論文 第 32 頁(yè)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1