freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取實(shí)現(xiàn)技術(shù)本科畢業(yè)論文(存儲版)

2025-08-28 13:33上一頁面

下一頁面
  

【正文】 年 月 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。廣義上信息抽取技術(shù)的抽取對象并不局限于文本 , 其他形式存在的信息也可以作為信息抽取的對象 , 而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。該系統(tǒng)采用了期望驅(qū)動( topdown,腳本)與數(shù)據(jù)驅(qū)動( bottomup,輸入文本)相結(jié)合的處理方法。網(wǎng)絡(luò)搜索引擎的發(fā)明在一定程度上緩解了這種窘境,通過網(wǎng)絡(luò)搜索引擎服務(wù)商對信息的收集和篩選,人們能夠方便地獲得某些所需信息。由于采用的技術(shù)不同,信息檢索系統(tǒng)通常是領(lǐng)域無關(guān)的,而信息抽取系統(tǒng)則是領(lǐng)域相關(guān)的,只能抽取系統(tǒng)預(yù)先設(shè)定好的有限種類的事實(shí)信息。如今,新型的搜索引擎把研究單元定格在了對象級別。在 MUC6和MUC7上 , 增加 了中文系統(tǒng)的評測項(xiàng)目,國立臺灣大學(xué) ( National Taiwan University)和新加坡肯特崗數(shù)字實(shí)驗(yàn)室參加了 MUC7中文命名實(shí)體識別任務(wù)的評測 , 測試了中文命名實(shí)體 ( 人名、地名、時間、事件等名詞性短語 ) 的識別,取得了與英文命名實(shí)體識別 湖南大學(xué)畢業(yè)論文 第 4 頁 湖南大學(xué)軟件學(xué)院 系統(tǒng)相近的性能。兩種算法都選擇命名實(shí)體左右兩個詞為特征詞 , 并得出結(jié)論 : 信息抽取系統(tǒng)若需要追求抽取的高性能 , 則選擇 SVM算法 ; 若需要追求高的學(xué)習(xí)效率 , 則選擇 Winnow算法。至今,已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn),比較著名的有: Cymfony公司、 Bhasha公司、 Linguamatics公司、Revsolutions公司等。 首先, 闡述了信息抽取理論的發(fā) 展歷史,發(fā)展現(xiàn)狀。 而 Web 網(wǎng)頁的內(nèi)容描述是針對互聯(lián)網(wǎng)用戶瀏覽而進(jìn)行的相關(guān)格式定義設(shè)計(jì),并沒有為計(jì)算機(jī)本身閱讀和理解這些網(wǎng)頁內(nèi)容提供任何特殊的說明與注釋。從互聯(lián)網(wǎng)資源中抽取數(shù)據(jù)的傳統(tǒng)方法就是編寫特定的程序,這種程序被稱為 湖南大學(xué)畢業(yè)論文 第 8 頁 湖南大學(xué)軟件學(xué)院 “ Wrapper”。 EC 樹的葉節(jié)點(diǎn)用以描述用戶感興趣的相關(guān)數(shù)據(jù);EC 樹的內(nèi)部節(jié)點(diǎn)用以描述由多個項(xiàng)目組成的列表。步驟是設(shè)計(jì)構(gòu)造描述特定內(nèi)容的本體模型 ( Ontology Model) ,并由此產(chǎn)生一個數(shù)據(jù)庫模式以及產(chǎn)生有關(guān)常量 、 關(guān)鍵字的匹配規(guī)則。接下來,以美國勞動部的 繼續(xù)教育系統(tǒng)中 的 課程抽取問題為例,介紹信息抽取的五個主要的子步驟(如圖 、圖 ): 圖 課程抽取系統(tǒng)中的示例文章 [7] 分塊,即找到文本片段開始和結(jié)束的邊界。例如,一些課程的描述可能包括好幾段文字,而其他的可能就只有一段。例如,課程開設(shè)時間的表達(dá)形式多種多樣, 如 “23pm”、 “3pm4:30pm”、 “15001630”等,如果要考察各門課程的開設(shè)是否重現(xiàn)了重疊情況時,就會發(fā)現(xiàn)很難對時間做出比較,此時就需要對時間轉(zhuǎn)化成統(tǒng)一的形式。 無論挖掘的目的是什么,都可以把 Web文本挖掘的一般處理過程用圖 。頁面內(nèi)容全部取自數(shù)據(jù)庫 ) 。 博客搜索的 概況 博客,即 Blog或 Weblog,這一詞源于“ WebLog(網(wǎng)絡(luò)日志 )”的縮寫,是一種網(wǎng)絡(luò)個人信息的發(fā)布形 式 。因此,在博客搜索之中, 對博客正文的檢索也是最重要的內(nèi)容。 博文網(wǎng)頁 —— 即博客中某篇文章所在的頁面,這里一般會出現(xiàn)文章標(biāo)題、更新時間、文章正文以及相關(guān)評論等信息。用驗(yàn)證集來驗(yàn)證所得分類器或者回歸的錯誤碼率。 [11] 在中文搜索引擎的查詢結(jié)果里仍然普遍存在著大量的無關(guān)項(xiàng)和不含具體信息的間接項(xiàng) , 使用戶不得不浪費(fèi)大量的時間在結(jié)果列表中尋找相關(guān)信息。為此, 出現(xiàn) 了“塊”的概念。標(biāo)記經(jīng)常成對出現(xiàn) , 分別為開始標(biāo)記和結(jié)束標(biāo)記。 隨著互聯(lián)網(wǎng)的深入發(fā)展 , 網(wǎng)頁格式越來越復(fù)雜 , 共同特征越來越少。所以 , 在處理門戶網(wǎng)站中的網(wǎng)頁時 , 這種思想是比較可取的 。 WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。 算法 的 測試 和評估 繼續(xù)使用 WEKA工具對該抽取實(shí)現(xiàn)方法進(jìn)行測試。 該算法充分地抓住博客網(wǎng)頁的特定結(jié)構(gòu)特征,利用網(wǎng)頁的 HTML標(biāo)簽特征,研究出 湖南大學(xué)畢業(yè)論文 第 26 頁 湖南大學(xué)軟件學(xué)院 了一種新的網(wǎng)頁分塊算法 —— 利用 DIV標(biāo)記的布局特性進(jìn)行解析 。 湖南大學(xué)畢業(yè)論文 第 27 頁 湖南大學(xué)軟件學(xué)院 4. 基于博客正文抽取的 Geeseek 搜索引擎 本章主要介紹 基于博客正文抽取算法的實(shí)例 —— Geeseek博客 搜索引擎的主 要情況,并對其系統(tǒng)界面進(jìn)行展示。這樣做的原因有兩方面,一是本身的技術(shù)力量還不夠強(qiáng)大到開發(fā)新一代搜索引擎的地步;另一方面,雖然重復(fù)現(xiàn)有的搜索引擎功能,但并不意味 著 抄襲現(xiàn)有的技術(shù),實(shí)際上很多 技術(shù)并沒有被搜索引擎公司發(fā)布 。 GetNextNode()—— 以某個結(jié)點(diǎn)為輸入,按照頁面源文件中的 HTML標(biāo)簽順序來返回下一個結(jié)點(diǎn)。 湖南大學(xué)畢業(yè)論文 第 31 頁 湖南大學(xué)軟件學(xué)院 if(tempNode結(jié)點(diǎn)是 text類型結(jié)點(diǎn)并且文本長度不為 0) { if (blockBeginNode !=NULL) { tempBlock = ComputeFeatures(blockBeginNode)。 } ComputeFeatures(blockBeginNode) { tempNode = blockBeginNode。 if (block通過決策樹判斷 為正文塊 ) { strArticleBlock += block中的文本 。 while ( (tempNode = GetNextNode(tempNode)) !=NULL) { numberOfPageTag++。 WrapperInducer項(xiàng)目 位于 Geeseek中的 Indexer模塊 內(nèi) , Indexer的結(jié)構(gòu)如圖 : Geeseek Crawler Indexer Searcher 提供抓取到的網(wǎng)頁數(shù)據(jù) 提供索引及抽取后的博客正文 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲,抓取博客網(wǎng)頁 實(shí)現(xiàn)索引、網(wǎng)頁分塊、博客正文抽取功能 實(shí)現(xiàn)排序以及整個系統(tǒng)的查詢界面 湖南大學(xué)畢業(yè)論文 第 29 頁 湖南大學(xué)軟件學(xué)院 圖 Indexer 結(jié)構(gòu)示意圖 博客正文抽取模塊主要包括四個部分: 網(wǎng)頁分塊 —— 對 Geeseek爬蟲抓取 到的網(wǎng)頁數(shù)據(jù)進(jìn)行分塊處理; 特征統(tǒng)計(jì) —— 對每一個網(wǎng)頁分塊進(jìn)行 HTML特征統(tǒng)計(jì),為博客正文的判斷提供前提準(zhǔn)備; 決策樹的實(shí)現(xiàn) —— 運(yùn)用 WEKA工具對數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)訓(xùn)練之后得到?jīng)Q策樹,將此決策樹編碼實(shí)現(xiàn); 博客正文判斷 —— 以每一個分塊的特征集為依據(jù),根據(jù)決策樹來判斷該分塊是否屬于博客正文?,F(xiàn)在的實(shí)際情況就是如此,網(wǎng)絡(luò)上有 很多針對某個特定領(lǐng)域的 垂直搜索引擎 。所抽取到的僅僅是正文的文本,并不包含字體種類、大小等格式信息以及正文 中 的圖片信息。 另外,通過對博客正文抽取的研究,我們對博客的網(wǎng)頁結(jié)構(gòu)有了很深入的了解。 可以 看到 “J48”算法交叉驗(yàn)證的結(jié)果之一為 “ Correctly Classified Instances 湖南大學(xué)畢業(yè)論文 第 23 頁 湖南大學(xué)軟件學(xué)院 10238 %” 。 WEKA的全名是懷卡托智能分析環(huán)境( Waikato Environment for Knowledge Analysis)。文獻(xiàn) [ 14 ]就利用標(biāo)記“ table”來對頁面進(jìn)行解析 , 把頁面分割成不同的塊。為了更清楚的描述 Web文檔各個區(qū)域 (由標(biāo)記劃分的 ) 之間的關(guān)系以及各個區(qū)域所含的文本量 ,常 使用頁面分析樹來描述 Web 文檔。 多數(shù) Web文檔都是把標(biāo)記和文本按照 HTML的定義聯(lián)在一起的。商用搜索引擎普遍采用站點(diǎn)聚類技術(shù) , 把出現(xiàn)在同一個站點(diǎn)上的結(jié)果項(xiàng)合并 , 雖然可以隱藏大部分的間接項(xiàng) , 但會耗費(fèi)用戶的查詢時間。 分塊 基于內(nèi)容的文本檢索、過濾和分類、聚類等技術(shù)取得了巨大的進(jìn)展 , 信 息檢索和Web挖掘的研究正朝著精細(xì)化、多樣化的方向發(fā)展 , 人們在對文字內(nèi)容進(jìn)行處理的基礎(chǔ)上 , 試圖充分利用 Web中蘊(yùn)含的其他信息 , 進(jìn)一步提高傳統(tǒng)的信息檢索和 Web挖掘的效果。 過度擬合 ( overfitting) 指統(tǒng)計(jì)學(xué)中為了建立近乎完美的具有非常多參數(shù)的統(tǒng)計(jì)模型,而讓模型 非常復(fù)雜,以致模型的預(yù)測性能反而下降。 分類 分類的主要任務(wù)是根據(jù)頁面內(nèi)容的不同,將網(wǎng)絡(luò)爬蟲抓取到的頁面分成四個類別: 博客網(wǎng)頁 —— 即博客的首頁。 目前已初具規(guī)模的博客搜索引擎,包括:中客 (搜索引擎 ( 八方 (Teclmorati( BlogStreet(DayPop( Feedster(BlogPulse( BlogWise(BlogHop( [9] 博客作為一個重要的 信息傳播和資源共享的平臺, 它的核心部分在于博客正文。見圖 。在整個過程中需要用戶干預(yù)的地方只是最后的數(shù)據(jù)結(jié)構(gòu)的語義分析部分。網(wǎng)頁與傳統(tǒng)的自由文本相比有許多特點(diǎn),即數(shù)據(jù)量大、更新快、變化快、形式多樣,還包括超鏈接且跨平臺和網(wǎng)站共享,處理自由文本的信息抽取技術(shù)不太適用于對網(wǎng)頁的信息抽取。實(shí)現(xiàn)了關(guān)系抽取的商業(yè)產(chǎn)品往往比僅僅實(shí)現(xiàn)了分類和分塊的要有價值得多。通常,分塊和分類是采用有限狀態(tài)機(jī)而結(jié)合在一起實(shí)現(xiàn)的。來決定如何構(gòu)造數(shù)據(jù)庫中的有關(guān)記錄內(nèi)容。通過記錄識別獲得記錄相對應(yīng)的信息塊格式。如內(nèi)容經(jīng)常是以層次結(jié)構(gòu)方式來組織的,頁面中的項(xiàng)目以及項(xiàng)目之間的關(guān)系具有明確的模式。信息抽取流程如圖 。用戶需要從多個信息數(shù)據(jù)源 ( 通常為各網(wǎng)站中的有關(guān)信息網(wǎng)頁 ) 中同時獲得所需要的信息,并能將它們有效地整合在一起。 [4] 課題研究方法 本文 針對 博客領(lǐng)域,以傳統(tǒng)的信息抽取思想為基礎(chǔ),對博客網(wǎng)頁進(jìn)行分塊處理,并結(jié)合機(jī)器學(xué)習(xí)和統(tǒng)計(jì)訓(xùn)練的方法獲得決策樹,從而 實(shí)現(xiàn) 對博客中的文章正文進(jìn)行 抽取的功能。在研究方面,主要側(cè)重于以下幾方面:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文 本處理能力、 WEB信息抽?。?Wrapper)以及對時間信息的處理等等。這些系統(tǒng)在中文命名實(shí)體的自動識別方面取得了一些成績。 國內(nèi) 研究現(xiàn)狀 國內(nèi)對中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實(shí)體識別方面,遵照 MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。很多時候, 用戶 得到的信息往往不是事先所期望的,或者信息非常雜亂而零散。信息檢索系統(tǒng)通常利用統(tǒng)計(jì)及關(guān)鍵詞匹配等技術(shù),把文本看成詞的集合( bags of words),不需要對文本進(jìn)行深入分析理解;而信息抽取往往要借助自然語言處 理技術(shù),通過對文本中的句子以及篇章進(jìn)行分析處理后才能完成。根據(jù)這一趨勢,信息抽取系統(tǒng)可以分成四類:人工構(gòu)造的抽取系統(tǒng)、基于指導(dǎo)的抽取系統(tǒng)、半指導(dǎo)的抽取系統(tǒng)以及非指導(dǎo)的抽取系統(tǒng)。由他的學(xué)生 Gerald De Jong設(shè)計(jì)實(shí)現(xiàn)的 FRUMP系統(tǒng)是根據(jù)故事腳本理論建立的一個信息抽取系統(tǒng)。 信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實(shí)等信息 , 形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù)庫 , 供用戶查詢和使用的過程。對本文的研究做出重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。該系統(tǒng)屬于新型的垂直搜索引擎,能夠?qū)Σ┛秃筒┪倪M(jìn)行快速有效的搜索。為了能 應(yīng)對信息爆炸帶來的嚴(yán)重挑戰(zhàn) ,抽取、集成網(wǎng)頁上各式各樣的 文本 對象信息,進(jìn)行對象級別的搜索, 迫切需要一些自動化的技術(shù)幫助人們在海量信息中迅速找到自己真正需要的信息。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。本人授權(quán) 大學(xué)可以將 本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。廣義上信息抽取的過程如圖 。這種方法被后來的許多信息抽取系統(tǒng)采用。 這樣就出現(xiàn)了 一項(xiàng) 與信息抽取密切相關(guān)的研究 —— 信息檢索 ( Information Retrieval, IR) 技術(shù)。 雖然信息抽取與信息檢索有區(qū)別 , 但兩種技術(shù)是互補(bǔ)的?;ヂ?lián)網(wǎng)快速增長的海量資源使得人們對于搜索引擎的查詢結(jié)果有了更高的要求,鑒于 PageRank的成功,如何基于文本信息 抽取的方法,結(jié)合 HTML網(wǎng)頁不同于純文本的各種特征進(jìn)行網(wǎng)頁信息(包括文本、圖片、音頻和視頻等)的分析和抽取,以改進(jìn)網(wǎng)絡(luò)搜索引擎,成為互聯(lián)網(wǎng)信息檢索研究者關(guān)注的重要問題。當(dāng)然這只是對中文信息提取作了比較初步的工作,并不能真正進(jìn)行中文信息提取。 [1] 國外
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1