freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文(已修改)

2025-07-09 22:31 本頁面
 

【正文】 畢業(yè)論文互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)摘 要互聯(lián)網(wǎng)信息檢索系統(tǒng)(搜索引擎)是專門提供信息檢索服務(wù)的平臺(tái),它將互聯(lián)網(wǎng)上大量的網(wǎng)頁數(shù)據(jù)采集到服務(wù)器,經(jīng)過處理形成的信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,實(shí)現(xiàn)對(duì)用戶提出的各種信息檢索作出響應(yīng)。本系統(tǒng)使用Microsoft Visual Studio 2005為主要開發(fā)工具,以Windows Server 2003操作系統(tǒng)為運(yùn)行環(huán)境,主要實(shí)現(xiàn)了網(wǎng)頁數(shù)據(jù)的抓取,網(wǎng)頁數(shù)據(jù)存儲(chǔ),數(shù)據(jù)的索引,數(shù)據(jù)的檢索,日志管理等功能。本文對(duì)互聯(lián)網(wǎng)信息檢索統(tǒng)中幾個(gè)關(guān)鍵技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了研究。從理論上對(duì)這些關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的討論。文章從下面幾個(gè)方面進(jìn)行了討論:首先,本文介紹搜索引擎的市場(chǎng)需求和研究狀態(tài)。這一部分闡述了搜索引擎豐富的歷史背景和客觀的用戶需求,自身的特點(diǎn),以及人們對(duì)搜索引擎的關(guān)注程度。其次,本文討論了搜索引擎中基本結(jié)構(gòu)、實(shí)現(xiàn)的理論基礎(chǔ)和實(shí)現(xiàn)方法。這一部分研究了搜索引擎的關(guān)鍵技術(shù),將中文分詞技術(shù)、數(shù)據(jù)采集技術(shù)和數(shù)據(jù)索引技術(shù)有機(jī)的結(jié)合起來。最后。關(guān)鍵詞 搜索引擎;;數(shù)據(jù)存儲(chǔ);信息檢索I ABSTRACTInternet information retrieval system (search engine) is designed to provide a platform for information retrieval will collect a lot of pages data on the Internet to the server,and processed form of the information database and index to achieve the user to respond to the various information retrieval. The system uses Microsoft Visual Studio 2005 as the main development tool, to run Windows Server 2003 operating system environment, the main achievement of the web crawl data, web data storage, data indexing, data retrieval, logging management and other functions.In this paper, several Internet information retrieval system design and implementation of key technologies were studied. Theory on these key technologies are discussed in detail, and pleted the Internet information retrieval system based on realization. The article discussed the following aspects:First of all, the article describes the search engine market demand and research part discusses the search engine rich historical background and objective of the user requirements, its own characteristics, as well as people paid more attention to search engine.Secondly, the article discusses the basic structure of search engines, to achieve the theoretical basis and implementation methods. This part of the search engine39。s key technology, Chinese word segmentation, data acquisition and data indexing technology bine organic, and fulltext search engine on analysis and research.Finally, a detailed description of an Internetbased Information Retrieval System Design and Implementation.Keywords Search Engine。Data Storage。Information Retrieval51畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對(duì)本研究提供過幫助和做出過貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說明并表示了謝意。作 者 簽 名:       日  期:        指導(dǎo)教師簽名:        日  期:        使用授權(quán)說明本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)校可以采用影印、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)校可以公布論文的部分或全部?jī)?nèi)容。作者簽名:        日  期:         目 錄1 緒論 1 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場(chǎng)需求 1 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動(dòng)向 2 搜索引擎技術(shù)現(xiàn)狀 2 搜索引擎技術(shù)發(fā)展方向 4 研究目的和研究?jī)?nèi)容 6 文章內(nèi)容安排 62 搜索引擎技術(shù) 8 搜索引擎體系結(jié)構(gòu) 8 Crawler 8 Indexer 10 Searcher 11 搜索引擎的性能指標(biāo) 12 中文分詞算法 13 基于字符串匹配的分詞方法 13 基于理解的分詞方法 16 基于統(tǒng)計(jì)的分詞方法 16 實(shí)際系統(tǒng)研究 17 Google的整體結(jié)構(gòu) 17 Google的工作過程 173 20 20 21 系統(tǒng)結(jié)構(gòu)組織 21 索引文件分析 23 數(shù)據(jù)流分析 25 274 系統(tǒng)設(shè)計(jì) 30 系統(tǒng)特點(diǎn) 30 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì) 30 配置管理模塊 30 數(shù)據(jù)抓取模塊 31 數(shù)據(jù)索引模塊 31 數(shù)據(jù)檢索模塊 31 日志管理模塊 31 系統(tǒng)處理流程設(shè)計(jì) 32 數(shù)據(jù)抓取處理流程 32 數(shù)據(jù)索引處理流程 33 數(shù)據(jù)檢索處理流程 345 系統(tǒng)實(shí)現(xiàn) 36 多線程網(wǎng)頁數(shù)據(jù)抓取 36 數(shù)據(jù)抓取主界面設(shè)計(jì) 36 多線程的實(shí)現(xiàn) 37 網(wǎng)頁文件下載 39 HTML文檔的掃描與分析 41 數(shù)據(jù)的索引 42 數(shù)據(jù)索引主界面設(shè)計(jì) 42 索引網(wǎng)頁數(shù)據(jù) 43 數(shù)據(jù)的檢索 45 數(shù)據(jù)檢索主界面設(shè)計(jì) 45 檢索索引數(shù)據(jù) 456 系統(tǒng)測(cè)試 47 測(cè)試基礎(chǔ) 47 測(cè)試內(nèi)容 47 模塊測(cè)試 47 集成測(cè)試 48結(jié)束語 50致 謝 51參考文獻(xiàn) 52互聯(lián)網(wǎng)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)1 緒論隨著互聯(lián)網(wǎng)(Internet)的出現(xiàn)和普及,人們的信息來源得到了極大的豐富,互聯(lián)網(wǎng)成為了人們獲取信息的主要來源之一。在Internet信息不斷增長(zhǎng)的情況下,如何快速準(zhǔn)確的獲取所需信息成為研究熱點(diǎn)之一。搜索引擎技術(shù)(Search Engine)就是在這種需求背景下發(fā)展起來的。傳統(tǒng)的信息檢索技術(shù)是從一定規(guī)模的文檔庫中獲取用戶需求的信息,其核心是重要文本信息的索引和檢索。在信息量不大的情況下,傳統(tǒng)的信息檢索能夠滿足需求。當(dāng)面對(duì)Internet上分散存儲(chǔ),動(dòng)態(tài)變化的海量數(shù)據(jù)時(shí),傳統(tǒng)的信息檢索技術(shù)就無法讓用戶快速找到所需要的信息了。搜索引擎技術(shù)作為傳統(tǒng)IR(Information Retrieval)技術(shù)在Internet上的擴(kuò)展,涉及到Web數(shù)據(jù)的采集,中文分詞技術(shù),倒排索引,海量數(shù)據(jù)存儲(chǔ),用戶行為分析等關(guān)鍵技術(shù)。從功能上講,搜索引擎重要由信息的采集,索引和查詢?nèi)糠纸M成。搜索引擎首先通過信息采集器(Crawler,又名網(wǎng)絡(luò)蜘蛛)從Internet中采集網(wǎng)頁數(shù)據(jù),然后通過索引器(Indexer)對(duì)采集的數(shù)據(jù)進(jìn)行分析,并創(chuàng)建索引。檢索器(Searcher)負(fù)責(zé)接受用戶查詢的請(qǐng)求,一般采用Web形式,通過索引找到相關(guān)信息的網(wǎng)頁數(shù)據(jù),返回給用戶。為了滿足系統(tǒng)的穩(wěn)定性、可靠性及縮短系統(tǒng)開發(fā)周期,本系統(tǒng)采用Microsoft Studio Visual 2005作為開發(fā)平臺(tái),以PC機(jī)和Windows Server 2003為測(cè)試環(huán)境。 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場(chǎng)需求隨著信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)得到了飛速的發(fā)展,成為人們學(xué)習(xí)、工作、生活中的最重要的知識(shí)和信息來源。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計(jì)數(shù)據(jù),但根據(jù)CNNIC第23次報(bào)道,中國(guó)當(dāng)前擁有的網(wǎng)頁數(shù)己經(jīng)超過160億。Internet上的信息資源隨著Internet的發(fā)展而呈現(xiàn)出以下特點(diǎn):(1) 信息量大而且分散(2) 自治性強(qiáng)(3) 信息資源多種多樣(4) 不一致和不完整性為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網(wǎng)站:第一類是目錄系統(tǒng),其典型代表是Yahoo!。它通過有專業(yè)知識(shí)的網(wǎng)頁編輯人員對(duì)網(wǎng)上的網(wǎng)頁進(jìn)行精選,建立一個(gè)索引目錄,來給用戶提供服務(wù)。這類通過手工維護(hù)得很好的系統(tǒng)的優(yōu)點(diǎn)是提供的網(wǎng)頁準(zhǔn)確率高,可以有效的覆蓋熱門的主題,但它們的缺點(diǎn)是過于主觀,而且需要高昂的代價(jià)來建立和維護(hù),更新改進(jìn)的慢,同時(shí)不可能覆蓋所有的主題。第二類是搜索引擎,搜索引擎通過程序自動(dòng)地從網(wǎng)上搜集和分析網(wǎng)頁,建立索引,為用戶提供服務(wù)。這類自動(dòng)更新的搜索引擎優(yōu)點(diǎn)是涵蓋的網(wǎng)頁數(shù)量巨大,同時(shí)擁有基于關(guān)鍵字的全文索引,它為所有網(wǎng)上沖浪的用戶提供了一個(gè)入口,用戶可以從搜索引擎出發(fā)到達(dá)自己想去的網(wǎng)上任何一個(gè)地方。搜索引擎對(duì)用戶是這樣的重要,自然成為了用戶上網(wǎng)的常用服務(wù),根據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)是:電子郵箱(%)、搜索引擎(%)、軟件上傳或下載服務(wù)(%)、信息查詢(%)。 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動(dòng)向 搜索引擎技術(shù)現(xiàn)狀由于搜索引擎巨大的商業(yè)價(jià)值和學(xué)術(shù)研究?jī)r(jià)值,各大公司都在投巨資進(jìn)行搜索引擎的研制開發(fā),不斷地涌現(xiàn)出新的具有不同特色的搜索引擎產(chǎn)品。同時(shí),各大科研機(jī)構(gòu)和大學(xué)紛紛展開對(duì)搜索引擎技術(shù)相關(guān)領(lǐng)域的學(xué)術(shù)研究。作為IR領(lǐng)域中最重要的會(huì)議之一,TREC(Text REtrieval Conference)從1999年11月的第8屆開始增加Web Track競(jìng)賽項(xiàng)目,考察Web文檔與其它類型文檔在性質(zhì)上的不同之處,測(cè)試在大規(guī)模的Web文檔集上進(jìn)行信息檢索的算法性能。在IEEE主辦的國(guó)際萬維網(wǎng)會(huì)議(International World Wide Web Conference)和ACM主辦的人機(jī)交互會(huì)議(Computer Human Interaction,CHI)等重要學(xué)術(shù)會(huì)議上,發(fā)表了越來越多的關(guān)于搜索引擎技術(shù)研究的文章。搜索引擎己經(jīng)成為信息檢索領(lǐng)域中最活躍的研究方向。Stanford大學(xué)在其DLI項(xiàng)目中開發(fā)了Google搜索引擎,在Web高效搜索、大規(guī)模索引、文檔的相關(guān)度評(píng)價(jià)等方面作了深入的研究,提出了一種基于鏈接的網(wǎng)頁排名算法(PageRank算法)來計(jì)算網(wǎng)頁的排名,并同時(shí)利用錨文本(Anchors)信息進(jìn)行網(wǎng)頁相關(guān)度評(píng)價(jià)。IBM Almaden研究中心研制了Clever系統(tǒng),提出了類似于PageRank的HITS算法,主要不同是將網(wǎng)頁分為Authority和Hub兩類,并就HITS算法在相關(guān)度評(píng)價(jià)、網(wǎng)頁分類、主題搜索等方面的作用進(jìn)行了研究。NEC美國(guó)研究所開發(fā)了一個(gè)專門用于搜索學(xué)術(shù)文章的Research Index。其目的是建立一個(gè)網(wǎng)上圖書館,只收集科技人員廣泛使用的PDF和Postscript文件,用“PDF”,“ Postscript”等檢索項(xiàng)組成查詢送往其他著名的搜索引擎,對(duì)返回的結(jié)果進(jìn)行信息提取(主題、摘要、作者、引用文獻(xiàn)等),組成了一個(gè)27萬篇文獻(xiàn)的索引庫,供科技人員查詢?,F(xiàn)在,NEC開始致力于下一代元搜索引擎Inquirus的開發(fā)。國(guó)內(nèi)先后有北京大學(xué)、清華大學(xué)、華南理工大學(xué)、國(guó)家智能研究中心等高校和研究單位對(duì)搜索引擎技術(shù)進(jìn)行了研究,開發(fā)出了幾個(gè)實(shí)用的系統(tǒng)。清華大學(xué)開發(fā)的“網(wǎng)絡(luò)指南針”,利用智能、高效的網(wǎng)絡(luò)搜索算法收集網(wǎng)頁,自動(dòng)識(shí)別和轉(zhuǎn)換常見的中文編碼,向用戶提供中文、英文、拼音、英漢翻譯、BIG5碼等多種輸入查詢服務(wù),并提供普通分類、學(xué)科分類、圖書分類查詢,共計(jì)3900多個(gè)分類目錄,收集的網(wǎng)頁超過20萬頁。北大的“天網(wǎng)”中英文搜索引擎,在系統(tǒng)規(guī)模及系統(tǒng)性能方面達(dá)到了國(guó)外中型搜索引擎系統(tǒng)的技術(shù)水平,目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6億之多,并正在以平均每月一千萬頁文檔的數(shù)量擴(kuò)大著規(guī)模。天網(wǎng)搜索的中文文檔數(shù)量超過4億,其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源。在
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1