正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實現(xiàn)本科畢業(yè)論文-wenkub.com

2025-06-24 22:31 本頁面

　　

【正文】其中老師認真負責(zé)的工作態(tài)度，嚴謹?shù)闹螌W(xué)精神和深厚的理論水平都使我受益匪淺。開發(fā)的過程其實就是一個學(xué)習(xí)和實踐的過程。但是由于畢業(yè)設(shè)計時間較短，個人的水平有限，所以該系統(tǒng)還有許多不盡如人意的地方，比如在性能方面，數(shù)據(jù)的采集速度還有待提高。但經(jīng)過本軟件的開發(fā)，對其用到的技術(shù)有了更深層次的掌握，如搜索引擎的基本原理，搜索引擎的相關(guān)算法。網(wǎng)頁超鏈接獲取模塊測試表測試用例預(yù)期測試結(jié)果實際測試結(jié)果測試結(jié)論網(wǎng)頁A：htmla href=baidu/aa href=Google/aa href=Bing/a/html正確網(wǎng)頁B：htmla href=SINA/aa href=/a正確集成測試單個模塊能正常，組裝后不一定能正常工作，所以在各模塊測試的基礎(chǔ)上，將所有模塊按照設(shè)計要求組裝成一個完整的系統(tǒng)進行測試。需求分析、概要設(shè)計、詳細設(shè)計以及程序編碼等各階段所得到的文檔，包括需求規(guī)格說明、概要設(shè)計規(guī)格說明、詳細設(shè)計規(guī)格說明以及源程序，都應(yīng)成為軟件測試的對象。最終目的是建立一個可靠性高的軟件系統(tǒng)。圖55 數(shù)據(jù)檢索結(jié)果界面6 系統(tǒng)測試測試是軟件質(zhì)量保證的關(guān)鍵階段，是在軟件投入運行前，對軟件的需求分析、設(shè)計、實現(xiàn)編碼進行最終審查。 ()。 myrow[2] = (url).ToString()。 i++) { Document doc = (i)。 (url)。if (h != null){ DataRow myrow。IndexSearcher Search = new IndexSearcher(Index_Path)。首先獲取索引文件路徑以及要檢索的關(guān)鍵詞；然后通過QueryParser對象對關(guān)鍵詞進行分析，利用Search()方法在索引文件中進行查找；最后將匹配的數(shù)據(jù)添加到DataTable中進行數(shù)據(jù)綁定，返回給客戶端。 } catch { (IndexFail: + dr[Url].ToString())。 (new Field(content, dr[Content].ToString(), , ))。基本流程圖如圖53所示。 }} 數(shù)據(jù)的索引數(shù)據(jù)索引主界面設(shè)計數(shù)據(jù)索引界面主要提供對索引文件參數(shù)的設(shè)置，包括索引文件保存的路徑，索引線程停頓時間，已經(jīng)存在索引文件時進行相應(yīng)處理的設(shè)置等。 if ( == 2) return [1].Value。(2) 解析HTML中除HTML標(biāo)簽以外的數(shù)據(jù)，提取其中的關(guān)鍵內(nèi)容，將數(shù)據(jù)提交到數(shù)據(jù)庫中，以供數(shù)據(jù)索引時使用。 }} HTML文檔的掃描與分析HTML格式的文檔由兩部分組成：文件頭和文件體。 } catch (IOException e) { (下載錯誤: + () + | + ())。 } (下載成功: + ())。 return。 try { HttpWebRequest request = (HttpWebRequest)(url)。利用GetResponseStream()方法將要下載的文件轉(zhuǎn)化為網(wǎng)絡(luò)流，最終通過HTTP協(xié)議傳遞到本地，生成文件。 } ()。 } } } ()。 if (!(url)) { (url, )。 } (1000)。然后依次分配給每一個空閑的線程進行數(shù)據(jù)的下載。 threads[i].Name = 線程 + (i + 1).ToString()。 i 。實現(xiàn)的主要方法如下：private Thread[] threads。 ()。圖51 網(wǎng)頁抓取界面多線程的實現(xiàn) 。多線程網(wǎng)頁數(shù)據(jù)抓取要想使網(wǎng)絡(luò)蜘蛛在有限的硬件環(huán)境下盡可能地提高下載速度。用戶首先在網(wǎng)站上輸入要檢索的關(guān)鍵詞，將其傳到服務(wù)器；服務(wù)器對關(guān)鍵詞進行中文詞法分析，在索引數(shù)據(jù)庫中進行查找，最終將檢索結(jié)果返回給用戶?？臻e線程從待解析的URL隊列中獲取URL，同步進行網(wǎng)頁數(shù)據(jù)的解析和下載工作。日志管理模塊在提供了安全機制的同時也增加了磁盤讀取的次數(shù)，對系統(tǒng)的性能產(chǎn)生一定影響。日志管理模塊在對數(shù)據(jù)抓取、保存、索引、更新時可能發(fā)生各種各樣的問題，造成數(shù)據(jù)的丟失甚至損壞。以Web的形式將符合條件的數(shù)據(jù)反饋給用戶。實現(xiàn)搜索引擎中的Indexer模塊。由于互聯(lián)網(wǎng)上的數(shù)據(jù)多是以HTML文件的形式保存的，所以在對互聯(lián)網(wǎng)數(shù)據(jù)進行采集時，需要對HTML進行解析，獲取網(wǎng)頁中的核心內(nèi)容，去除掉無用的HTML標(biāo)簽，然后將采集的數(shù)據(jù)保存到數(shù)據(jù)庫中。通過對配置文件的管理，可以很方便有效的對系統(tǒng)進行管理。從功能上劃分，系統(tǒng)主要由五個核心模塊構(gòu)成。。多線程進行數(shù)據(jù)的采集，網(wǎng)頁文件的下載。使用C正則表達式解析HTML，獲取HTML中核心數(shù)據(jù)。4 系統(tǒng)設(shè)計系統(tǒng)特點通過對搜索引擎的學(xué)習(xí)和分析，針對于搜索引擎的特點，設(shè)計了一個簡易的搜索引擎，實現(xiàn)對互聯(lián)網(wǎng)數(shù)據(jù)的采集，索引數(shù)據(jù)的生成，數(shù)據(jù)檢索等功能。 (Succeed!)。 } ()。 (new Field(tablename, News, , ))。 } SqlCommand cmd=new SqlCommand (select * from News,conn)。 string Index_Path = ProgressStartPath + \\Index + \\。這個過程十分簡單，以下便是一個示例程序：//將元數(shù)據(jù)生成索引數(shù)據(jù)的方法private IndexWriter CreateNewsIndex(){ string ConString = server=GAO。當(dāng)然，(尤其是對非英文的語言檢索)。(2) 按照被索引的文件的格式來提供相應(yīng)的文本分析邏輯，這里是指除了開詞法分析之外的部分，比如HTML文件，通常需要把其中的內(nèi)容按照所屬于域分門別類加入索引，這就需要我們自己定義實現(xiàn)處理HTML文件的HTMLDocument類。，而是一個全文檢索引擎的架構(gòu)，它中包含的大量抽象類、接口、文檔類型、評分邏輯等需要根據(jù)具體應(yīng)用來定義實現(xiàn)。字節(jié)流則是對文件抽象的直接操作的體現(xiàn)，通過固定長度的字節(jié)()流的處理，將文件操作解脫出來，也做到了與平臺文件系統(tǒng)的無關(guān)性?，F(xiàn)在將圖中的涉及到的流的類型及各個邏輯對應(yīng)系統(tǒng)的相關(guān)部分的關(guān)系說明一下。在此基礎(chǔ)上。首先，對詞典文件中的關(guān)鍵詞進行壓縮，關(guān)鍵詞壓縮為前綴長度，后綴，例如：當(dāng)前詞為“科學(xué)史”，上一個詞為“科學(xué)”，那么“科學(xué)史”壓縮為2，語。這是一種數(shù)據(jù)庫之外的處理方法，其有其優(yōu)點(格式平臺獨立、速度快)，也有其缺點(獨立性帶來的共享訪問接口問題等等)，具體如何衡量兩種方法之間的利弊，這里就不進行討論了。此外，標(biāo)準(zhǔn)化因子文件和被刪除文檔文件則提供了一些程序內(nèi)部的輔助設(shè)施(標(biāo)準(zhǔn)化因子用在評分排序機制中，被刪除文檔是一種偽刪除手段)。這兩個集合中所含有的文件在圖中均有表明。此外還有三個文件，分別用來保存所有的段的記錄、保存已刪除文件的記錄和控制讀寫的同步，它們分別是segment，deletable和lock文件，都是沒有擴展名。項是最小的索引概念單位，它直接代表了一個字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息。因此，下面將結(jié)合分析和文件格式的定義規(guī)范。在高度的面向?qū)ο罄碚摰闹蜗?，易于擴展。然后通過Search模塊，最后返回給用戶相關(guān)信息，完成查詢工作。需要對文本內(nèi)容建立索引，而對索引維護也可以通過該接口訪問索引，更新索引信息，優(yōu)化索引。Analysis(解析)模塊為搜索Search(模塊)和Index(索引)模塊提供了相同的解析過程(交互協(xié)議相同)。從圖中可以了解到，分別是：Corpus(語料庫)、Analysis(解析)、Index(索引)、Storage(存儲)、Search(搜索)。首先是定義了一個與平臺無關(guān)的索引文件格式，其次通過抽象將系統(tǒng)的核心組成部分設(shè)計為抽象類，具體的平臺實現(xiàn)部分設(shè)計為抽象類的實現(xiàn)，此外與具體平臺相關(guān)的部分比如文件存儲也封裝為類，經(jīng)過層層的面向?qū)ο笫降奶幚恚罱K達成了一個低耦合高效率，方便開發(fā)的檢索引擎系統(tǒng)。圖31 Lucene在應(yīng)用程序中的使用情況。為開發(fā)人員提供了一個開放源代碼的全文檢索引擎工具包。查詢請求查詢過程首先是通過Web服務(wù)器接收用戶的查詢請求，利用詞典將檢索請求轉(zhuǎn)化成相應(yīng)的wordID。同時，URL Resolve還產(chǎn)生由docID對組成的結(jié)構(gòu)，用于計算文檔的頁面等級(Page Rank)。Indexer把hits數(shù)據(jù)分配到一組稱為barrels的結(jié)構(gòu)中，產(chǎn)生了以docID部分排序后的順排索引(forward index)。Indexer首先通過Store Server獲取Crawler抓取的網(wǎng)頁數(shù)據(jù)，將數(shù)據(jù)解壓縮后并對其進行分析。Google中使用了Store Server模塊專門負責(zé)網(wǎng)頁數(shù)據(jù)的存儲，并且在存儲時使用了壓縮算法進行數(shù)據(jù)壓縮，以減少數(shù)據(jù)量。信息采集：Google中信息采集是由分布式的Crawler完成。 Google的整體結(jié)構(gòu)Google的整體結(jié)構(gòu)如圖27所示。這種方法只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息。這種分詞方法需要使用大量的語言知識和信息。基于理解的分詞方法這種分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。但這種精度還遠遠不能滿足實際的需要。還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。實現(xiàn)流程如圖25所示。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。主觀上，從互聯(lián)網(wǎng)用戶使用搜索引擎的行為模式分析，提高用戶點擊率高和瀏覽時間長的網(wǎng)頁頁面的優(yōu)先度排序。影響一個搜索引擎系統(tǒng)性能和精度有很多因素，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進行相關(guān)度反饋的機制。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系統(tǒng)(搜索引擎)的查全率；精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。同時在體系結(jié)構(gòu)上還有很多技術(shù)可以用來提升速度。檢索結(jié)果的數(shù)量給排重帶來資源上的開銷及速度上的影響。通過Indexer獲取與查詢關(guān)鍵字匹配的網(wǎng)頁數(shù)據(jù)，經(jīng)過排序后返回給用戶。同時索引還必須有對Word，Excel等文件格式進行分析的功能。(3) 索引壓縮索引也存在數(shù)據(jù)壓縮的問題。索引的存儲一般采用分布式策略，檢索的數(shù)據(jù)分布在不同的服務(wù)器上。這種倒排文件的方法幾乎被當(dāng)前所有的商用IR系統(tǒng)所采用。頁面數(shù)據(jù)可以用一系列關(guān)鍵詞來表示，從檢索目的來說，這些關(guān)鍵詞描述了頁面的內(nèi)容。(3) 更新策略每經(jīng)過一段時間，Crawler對以抓取的數(shù)據(jù)經(jīng)行更新，保證索引網(wǎng)頁是最新的。因此可以采取有向圖的遍歷算法(深度優(yōu)先或者廣度優(yōu)先算法)來對WWW進行遍歷。WWW網(wǎng)頁存儲初始化抓取網(wǎng)頁獲取URL提取URL待訪問的URL已訪問的URL Crawler工作原理圖Crawler首先從待訪問URL隊列中獲取URL，根據(jù)URL從Web中抓取網(wǎng)頁數(shù)據(jù)；然后對網(wǎng)頁進行分析，從中提取出所有的URL鏈接，并把它們加入到待訪問URL隊列中，同時將已訪問URL移至已訪問URL隊列中。搜索引擎典型體系結(jié)構(gòu)如圖21所示。文章內(nèi)容安排本文主要研究了搜索引擎實現(xiàn)中所涉及到的相關(guān)技術(shù)。但一般的研究機構(gòu)不可能擁有和商業(yè)搜索引擎一樣規(guī)模的計算機資源，因此需要一種對資源要求低、體系開放的搜索引擎來作為各種新技術(shù)的平臺。隨著技術(shù)的不斷發(fā)展進步，搜索引擎將會在信息檢索中發(fā)揮更大的作用。(8) 桌面型搜索用戶不用打開瀏覽器，而是直接通過只要通過它就能完全實現(xiàn)搜索過程，更甚者它可以同時搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。就以上面的例子來講，如果用關(guān)鍵詞查詢，多半人會用“virus”這個詞來檢索，結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息，而用“how can kill virus of puter?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。如Google有專用于回答問題的Google Answer，微軟有AnswerBot等。(4) 實現(xiàn)交叉語言的檢索搜索引擎對多種語言的數(shù)據(jù)庫進行交叉語言信息檢索，返回能夠回答用戶問題的所有語言的文檔。b)將用戶提問轉(zhuǎn)化為系統(tǒng)己知的問題，然后對已知問題進行解答，以求降低對自然語言理解技術(shù)的依賴性。(3) 提高檢索的有效性解決查詢結(jié)果過多的現(xiàn)象目前有以下幾種方法：a)構(gòu)建基于內(nèi)容的搜索引擎。通過智能代理技術(shù)對用戶的查詢計劃、意圖、興趣方向進行推理，自動進行信息搜集過濾，將用戶感興趣的信息返回給用戶。據(jù)研究統(tǒng)計，目前Internet上搜索引擎已達數(shù)千種之多。Web檢索支持中英文混合查詢、布爾查詢、結(jié)構(gòu)屬性查詢、

點擊復(fù)制文檔內(nèi)容

數(shù)學(xué)相關(guān)推薦

背包問題的算法研究與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】華中師范大學(xué)漢口分校本科畢業(yè)論文0-1背包問題的算法研究與實現(xiàn)院系：信息科學(xué)技術(shù)學(xué)院專業(yè)：計算機科學(xué)與技術(shù)年級：2022級學(xué)生：劉念學(xué)號：2022911032指導(dǎo)老師：賓云峰、楊健華中師范大學(xué)漢

2025-06-25 19:21

圖像分割算法的研究與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】成績數(shù)字圖像處理期末考試題目圖像分割算法研究與實現(xiàn)專業(yè)班級11通信工程一班III畢業(yè)論文（設(shè)計）誠信聲明本人聲明：所呈交的畢業(yè)論文（設(shè)計）是在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果，論文中引用他人的文獻、數(shù)據(jù)、圖表、資料均已作明確標(biāo)注，論文中的結(jié)論和成果為本人獨立完成，真實可靠，不包含他人成

2025-06-28 17:41

數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題　　目：　　數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)　　　　　　　畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也

2025-06-28 15:19

汽車租賃系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】XX科技大學(xué)畢業(yè)設(shè)計（論文）題目汽車租賃系統(tǒng)的設(shè)計與實現(xiàn)作者學(xué)院專業(yè)學(xué)號指導(dǎo)教師科技大學(xué)畢業(yè)設(shè)計（論文）任務(wù)書1設(shè)計（論文）題目及專題：汽車租賃系統(tǒng)的設(shè)計與實現(xiàn)

2025-06-25 05:46

本科畢業(yè)論文-數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】安徽大學(xué)本科畢業(yè)論文題目：數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)學(xué)生姓名：學(xué)號：院（系）：計算機科學(xué)與技術(shù)專業(yè)：計算機科學(xué)與技術(shù)入學(xué)時間：2021年9月導(dǎo)師

2025-06-02 23:08

汽車租賃系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

2025-08-17 11:24

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題　　目：　網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)　　　畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得

2025-06-23 06:31

網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題目：網(wǎng)絡(luò)投票系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或

2025-08-17 21:30

教務(wù)管理系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】xxxx大學(xué)xx學(xué)院本科畢業(yè)論文本科生畢業(yè)論文題目教務(wù)管理系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝

2025-08-17 13:48

本科畢業(yè)論文-數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】安徽大學(xué)本科畢業(yè)論文題目：數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)學(xué)生姓名：學(xué)號：院（系）：計算機科學(xué)與技術(shù)專業(yè)：計算機科學(xué)與技術(shù)入學(xué)時間：2022年9月導(dǎo)師

2025-01-16 17:53

數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題目：數(shù)字校園系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別

2025-08-19 13:24

倉庫管理系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】課程設(shè)計說明書題目：倉庫管理系統(tǒng)的設(shè)計與實現(xiàn)燕山大學(xué)課程設(shè)計（論文）任務(wù)書院（系）：理學(xué)院教學(xué)單位：信息學(xué)院學(xué)號學(xué)生姓名被牛頂專業(yè)（班級）12級信息一

2025-08-18 16:58

網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】科技大學(xué)畢業(yè)設(shè)計（論文）題目網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)作者學(xué)院專業(yè)學(xué)號指導(dǎo)教師科技大學(xué)畢業(yè)設(shè)計（論文）任務(wù)書1設(shè)計（論文）題目及專題：網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)2學(xué)生設(shè)計（論文）時間：自2012年12月5日開始至2013年6月6日止3

2025-06-28 20:42

本科畢業(yè)論文-樓宇智能系統(tǒng)設(shè)計與實現(xiàn)-資料下載頁

【總結(jié)】成都工業(yè)學(xué)院成教院畢業(yè)論文（設(shè)計）（樓宇智能系統(tǒng)）成都工業(yè)學(xué)院成教院畢業(yè)設(shè)計（論文）論文題目：樓宇智能系統(tǒng)設(shè)計與實現(xiàn)教學(xué)點：重慶科創(chuàng)職業(yè)學(xué)院指導(dǎo)老師：

2025-01-12 05:35