freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)網(wǎng)頁(yè)文本對(duì)象抽取實(shí)現(xiàn)技術(shù)本科畢業(yè)論文(已修改)

2025-07-29 13:33 本頁(yè)面
 

【正文】 湖南大學(xué)畢業(yè)論文 第 I 頁(yè) 湖南大學(xué)軟件學(xué)院 互聯(lián)網(wǎng)網(wǎng)頁(yè)文本對(duì)象抽取實(shí)現(xiàn)技術(shù) 摘 要 互聯(lián)網(wǎng)中蘊(yùn)含著大量的關(guān)于現(xiàn)實(shí)世界對(duì)象的結(jié)構(gòu)化信息 。為了能 應(yīng)對(duì)信息爆炸帶來(lái)的嚴(yán)重挑戰(zhàn) ,抽取、集成網(wǎng)頁(yè)上各式各樣的 文本 對(duì)象信息,進(jìn)行對(duì)象級(jí)別的搜索, 迫切需要一些自動(dòng)化的技術(shù)幫助人們?cè)诤A啃畔⒅醒杆僬业阶约赫嬲枰男畔ⅰ? 網(wǎng)頁(yè)文本對(duì)象抽取實(shí)現(xiàn)技術(shù)正是解決這個(gè)問(wèn)題的一種方法。 本文以傳統(tǒng)的信息抽取理論和方法為基礎(chǔ), 針對(duì)目前熱門的博客領(lǐng)域, 提出了一種基于 HTML 特征和機(jī)器學(xué)習(xí)的博客正文抽取算法。在該算法中,研究了博客網(wǎng)頁(yè)的特征,提出了一種基于 HTML 標(biāo)簽特征的 網(wǎng)頁(yè) 分塊算法 ,使用決策樹算法對(duì)博客數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)訓(xùn)練,采用專門的統(tǒng)計(jì)工具 WEKA 對(duì) 該 算法進(jìn)行了測(cè)試和評(píng)估 ,并總結(jié)出該算法的優(yōu)點(diǎn)以及可以改進(jìn)的地方 。最后, 展示了基于該博客正文抽取算法的博客搜索引擎 Geeseek 的系統(tǒng)結(jié)構(gòu)和界面演示 。該系統(tǒng)屬于新型的垂直搜索引擎,能夠?qū)Σ┛秃筒┪倪M(jìn)行快速有效的搜索。 據(jù)了解, Geeseek 也 是目前國(guó)內(nèi)高校中第一個(gè)博客搜索引擎。 關(guān)鍵詞: 互聯(lián)網(wǎng) , 信息爆炸, 信息抽取 , 博客 , HTML,機(jī)器學(xué)習(xí),決策樹, 搜索引擎 , Geeseek 湖南大學(xué)畢業(yè)論文 第 II 頁(yè) 湖南大學(xué)軟件學(xué)院 Implementation of text object extraction for Inter web pages Author: Zhang Hui Tutor: Lin Ya ping Abstract Nowadays, there is a large number of semistructural information which represents objects in the real world on the Inter. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the objectlevel searching, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem. Based on the traditional theory of Information Extraction and aiming at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface presentation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the newstyle vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effectively. So far as we know, Geeseek is the first blog Search Engine in all the colleges in China. Key words: Inter, information explosion, Information Extraction, blog, HTML, machine learning, Search Engine, decision tree , Geeseek 畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說(shuō)明 湖南大學(xué)畢業(yè)論文 第 III 頁(yè) 湖南大學(xué)軟件學(xué)院 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過(guò)的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過(guò)的材料。對(duì)本研究提供過(guò)幫助和做出過(guò)貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說(shuō)明并表示了謝意。 作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日 期: 使用授權(quán)說(shuō)明 本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)校可以采用影印、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)校可以公布論文的部分或全部?jī)?nèi)容。 作者簽名: 日 期: 湖南大學(xué)畢業(yè)論文 第 IV 頁(yè) 湖南大學(xué)軟件學(xué)院 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交 的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。 作者簽名: 日期: 年 月 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán) 大學(xué)可以將 本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。 涉密論文按學(xué)校規(guī)定處理。 作者簽名: 日期: 年 月 日 導(dǎo)師簽名: 日期: 年 月 日 湖南大學(xué)畢業(yè)論文 第 V 頁(yè) 湖南大學(xué)軟件學(xué)院 目 錄 1. 緒論 ....................................................................................................................................... 1 課題背景及目的 .............................................................................................................. 1 國(guó)內(nèi)外研究狀況 .............................................................................................................. 3 國(guó)內(nèi)研究現(xiàn)狀 ........................................................................................................... 3 國(guó)外研究 現(xiàn)狀 ........................................................................................................... 4 課題研究方法 .................................................................................................................. 5 論文構(gòu)成及研究?jī)?nèi)容 ...................................................................................................... 5 2. Web 信息抽取及網(wǎng)頁(yè)文本對(duì)象抽取概述 ............................................................................ 7 Web 信息抽取的概念 ....................................................................................................... 7 Web 信息抽取的方法 ....................................................................................................... 8 Web 信息抽取的典型流程 ............................................................................................... 9 網(wǎng)頁(yè)文本對(duì)象抽取的理論和方法 ................................................................................. 11 3. 博客正文信息抽取系統(tǒng)的設(shè)計(jì) ......................................................................................... 14 博客搜索的概況 ............................................................................................................ 14 博客正文抽取的過(guò)程 .................................................................................................... 15 分類 ......................................................................................................................... 15 分塊 ......................................................................................................................... 18 統(tǒng)計(jì)訓(xùn)練,獲取決策樹 ..........
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1