正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取實現(xiàn)技術本科畢業(yè)論文(已修改)

2025-07-29 13:33 本頁面

　

【正文】湖南大學畢業(yè)論文第 I 頁湖南大學軟件學院互聯(lián)網(wǎng)網(wǎng)頁文本對象抽取實現(xiàn)技術摘要互聯(lián)網(wǎng)中蘊含著大量的關于現(xiàn)實世界對象的結(jié)構(gòu)化信息。為了能應對信息爆炸帶來的嚴重挑戰(zhàn) ，抽取、集成網(wǎng)頁上各式各樣的文本對象信息，進行對象級別的搜索，迫切需要一些自動化的技術幫助人們在海量信息中迅速找到自己真正需要的信息。網(wǎng)頁文本對象抽取實現(xiàn)技術正是解決這個問題的一種方法。本文以傳統(tǒng)的信息抽取理論和方法為基礎，針對目前熱門的博客領域，提出了一種基于 HTML 特征和機器學習的博客正文抽取算法。在該算法中，研究了博客網(wǎng)頁的特征，提出了一種基于 HTML 標簽特征的網(wǎng)頁分塊算法，使用決策樹算法對博客數(shù)據(jù)集進行統(tǒng)計訓練，采用專門的統(tǒng)計工具 WEKA 對該算法進行了測試和評估，并總結(jié)出該算法的優(yōu)點以及可以改進的地方。最后，展示了基于該博客正文抽取算法的博客搜索引擎 Geeseek 的系統(tǒng)結(jié)構(gòu)和界面演示。該系統(tǒng)屬于新型的垂直搜索引擎，能夠?qū)Σ┛秃筒┪倪M行快速有效的搜索。據(jù)了解， Geeseek 也是目前國內(nèi)高校中第一個博客搜索引擎。關鍵詞：互聯(lián)網(wǎng) ，信息爆炸，信息抽取，博客， HTML，機器學習，決策樹，搜索引擎， Geeseek 湖南大學畢業(yè)論文第 II 頁湖南大學軟件學院 Implementation of text object extraction for Inter web pages Author: Zhang Hui Tutor: Lin Ya ping Abstract Nowadays, there is a large number of semistructural information which represents objects in the real world on the Inter. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the objectlevel searching, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem. Based on the traditional theory of Information Extraction and aiming at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface presentation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the newstyle vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effectively. So far as we know, Geeseek is the first blog Search Engine in all the colleges in China. Key words: Inter, information explosion, Information Extraction, blog, HTML, machine learning, Search Engine, decision tree , Geeseek 畢業(yè)設計（論文）原創(chuàng)性聲明和使用授權說明湖南大學畢業(yè)論文第 III 頁湖南大學軟件學院原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設計（論文），是我個人在指導教師的指導下進行的研究工作及取得的成果。盡我所知，除文中特別加以標注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得及其它教育機構(gòu)的學位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體，均已在文中作了明確的說明并表示了謝意。作者簽名：日期：指導教師簽名：日期：使用授權說明本人完全了解大學關于收集、保存、使用畢業(yè)設計（論文）的規(guī)定，即：按照學校要求提交畢業(yè)設計（論文）的印刷本和電子版本；學校有權保存畢業(yè)設計（論文）的印刷本和電子版，并提供目錄檢索與閱覽服務；學?？梢圆捎糜坝　⒖s印、數(shù)字化或其它復制手段保存論文；在不以贏利為目的前提下，學?？梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名：日期：湖南大學畢業(yè)論文第 IV 頁湖南大學軟件學院學位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導師的指導下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體，均已在文中以明確方式標明。本人完全意識到本聲明的法律后果由本人承擔。作者簽名：日期：年月日學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定，同意學校保留并向國家有關部門或機構(gòu)送交論文的復印件和電子版，允許論文被查閱和借閱。本人授權大學可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索，可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。涉密論文按學校規(guī)定處理。作者簽名：日期：年月日導師簽名：日期：年月日湖南大學畢業(yè)論文第 V 頁湖南大學軟件學院目錄 1. 緒論 ....................................................................................................................................... 1 課題背景及目的 .............................................................................................................. 1 國內(nèi)外研究狀況 .............................................................................................................. 3 國內(nèi)研究現(xiàn)狀 ........................................................................................................... 3 國外研究現(xiàn)狀 ........................................................................................................... 4 課題研究方法 .................................................................................................................. 5 論文構(gòu)成及研究內(nèi)容 ...................................................................................................... 5 2. Web 信息抽取及網(wǎng)頁文本對象抽取概述 ............................................................................ 7 Web 信息抽取的概念 ....................................................................................................... 7 Web 信息抽取的方法 ....................................................................................................... 8 Web 信息抽取的典型流程 ............................................................................................... 9 網(wǎng)頁文本對象抽取的理論和方法 ................................................................................. 11 3. 博客正文信息抽取系統(tǒng)的設計 ......................................................................................... 14 博客搜索的概況 ............................................................................................................ 14 博客正文抽取的過程 .................................................................................................... 15 分類 ......................................................................................................................... 15 分塊 ......................................................................................................................... 18 統(tǒng)計訓練，獲取決策樹 ..........

點擊復制文檔內(nèi)容

研究報告相關推薦

互聯(lián)網(wǎng)網(wǎng)上政務服務平臺建設方案-資料下載頁

【總結(jié)】精選資料互聯(lián)網(wǎng)+網(wǎng)上政務服務平臺建設方案互聯(lián)網(wǎng)+網(wǎng)上政務服務平臺建設方案（此文檔為 word格式,下載后您可任意修改編輯?。┛尚薷木庉嫽ヂ?lián)網(wǎng)+網(wǎng)上政務服務平臺建設方案

2025-05-04 12:11

國際互聯(lián)網(wǎng)網(wǎng)站建設合同一-資料下載頁

【總結(jié)】國際互聯(lián)網(wǎng)網(wǎng)站建設合同（一）國際互聯(lián)網(wǎng)網(wǎng)站建設合同（一）甲方（委托方）：_____________________乙方（受托方）：_____________________ 甲方為樹立...

2025-12-07 22:27

運營商互聯(lián)網(wǎng)網(wǎng)間結(jié)算-資料下載頁

【總結(jié)】運營商互聯(lián)網(wǎng)網(wǎng)間結(jié)算一、網(wǎng)間結(jié)算費用：《互聯(lián)網(wǎng)交換中心網(wǎng)間結(jié)算辦法(信部電[2007]557號)》結(jié)算費用(元/月)=1000(元/Mbps?月)×結(jié)算速率(Mbps)，單向結(jié)算，中國移動用戶訪問中國電信、中國聯(lián)通?IDC?網(wǎng)站或中國電信、中國聯(lián)通用戶訪問中國移動?IDC機房站點，均由中國移動向其他兩家電信

2025-06-24 18:18

互聯(lián)網(wǎng)網(wǎng)絡安全應急預案-資料下載頁

【總結(jié)】第一篇：互聯(lián)網(wǎng)網(wǎng)絡安全應急預案二〇一四年度保德分公司互聯(lián)網(wǎng)網(wǎng)絡安全應急預案保德電信分公司二〇一四年六月為確保中國電信保德分公司重要時期的網(wǎng)絡暢通與信息安全，特制定有關預案如下： 1．忻州...

2025-10-08 13:04

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設計與實現(xiàn)-資料下載頁

【總結(jié)】i本科生畢業(yè)論文題目：(中文)大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設計與實現(xiàn)(英文)DesignandImplementationofLargeScaleWebTemplateDetectionandInformationExtractionSystem

2026-01-07 15:13

互聯(lián)網(wǎng)環(huán)境下的校園網(wǎng)站設計畢業(yè)論文-資料下載頁

【總結(jié)】目錄互聯(lián)網(wǎng)環(huán)境下的校園網(wǎng)站設計畢業(yè)論文第一章緒論在Internet飛速發(fā)展的今天，電子數(shù)字計算機是20世紀重大科技發(fā)明之一，而互聯(lián)網(wǎng)成為人們快速獲取、發(fā)布和傳遞信息的重要渠道，它在人們政治、經(jīng)濟、生活等各個方面發(fā)揮著重要的作用。Internet上發(fā)布信息主要是通過網(wǎng)站來實現(xiàn)的，獲取信息也是要在Internet“海洋”中按照一定的檢索方式將所需要的信息從網(wǎng)站上下載下來。因此網(wǎng)站建設在

2025-06-28 00:31

中國互聯(lián)網(wǎng)網(wǎng)絡安全報告-資料下載頁

【總結(jié)】中國互聯(lián)網(wǎng)網(wǎng)絡安全報告(2023年上半年)?來源于:國家計算機網(wǎng)絡應急技術處理協(xié)調(diào)中心(英文簡稱CNCERT/CC或CNCERT)?網(wǎng)絡安全總體狀況分析?網(wǎng)頁篡改事件?木馬和僵尸網(wǎng)絡?安全漏洞?網(wǎng)絡仿冒事件情況分析?惡意代碼捕獲及分析情況?網(wǎng)絡安全形勢嚴峻的原因一

2025-03-13 18:11

本科畢業(yè)論文-大規(guī)模網(wǎng)頁模塊識別與信息提取系統(tǒng)設計與實現(xiàn)-資料下載頁

2025-06-03 17:03

互聯(lián)網(wǎng)金融對商業(yè)銀行的影響畢業(yè)論文-資料下載頁

【總結(jié)】互聯(lián)網(wǎng)金融對商業(yè)銀行的影響畢業(yè)論文目錄...............................................................1.......................................................1........................................

2025-06-27 22:30

“互聯(lián)網(wǎng)”下藝術品市場的發(fā)展畢業(yè)論文-資料下載頁

【總結(jié)】大學畢業(yè)論文（設計）本科畢業(yè)論文（設計）題目：“互聯(lián)網(wǎng)+”下藝術品市場的發(fā)展目錄目錄 2摘要 1關鍵詞 1第一章緒論 1第一節(jié)研究意義和價值 1

2025-06-26 01:55

某市公眾計算機互聯(lián)網(wǎng)擴容工程畢業(yè)論文-資料下載頁

【總結(jié)】長沙市公眾計算機互聯(lián)網(wǎng)（ChinaNET-CS）擴容工程應標書第1頁共38頁某市公眾計算機互聯(lián)網(wǎng)擴容工程畢業(yè)論文目錄.............................................................

2025-07-27 12:03

網(wǎng)頁游戲與移動互聯(lián)網(wǎng)(ok)-資料下載頁

【總結(jié)】網(wǎng)頁游戲與移動互聯(lián)網(wǎng)付長冬博士北京郵電大學1網(wǎng)頁游戲特點?網(wǎng)頁游戲又稱WebGame，興起于德國。?網(wǎng)頁游戲（webgame）由來已久，早在網(wǎng)絡游戲的雛形MUD時代就已經(jīng)存在。但因為界面簡陋，玩法簡單，一直得不到很好的發(fā)展。?近年來隨著以?，F(xiàn)在人們可以利用網(wǎng)頁實現(xiàn)文檔管理（writely,googledocs

2025-10-09 19:23