【正文】
文件快速搜索引擎 院 系 北方軟件學(xué)院 專 業(yè) 計算機(jī)科學(xué)與技術(shù) 班 號 4233302 學(xué) 號 202127333207 姓 名 胡啟良 指導(dǎo)教師 張 恒 沈陽航空工業(yè)學(xué)院 2021 年 6 月 沈陽航空工業(yè)學(xué)院學(xué)士學(xué)位論文 摘 要 II 摘 要 眾所周知,我們生活在信息大爆炸時代,每天的信息量太大了,足以將所有人湮沒。在如此龐雜的新鮮信息與 海 量信息面前,人們?nèi)绾握业竭m時有用或急需的信息,搜 索引擎如此應(yīng)運(yùn)而生。 本文主要論述了使用倒排文件的方法建立一個文件快速搜索引擎。詳細(xì)闡述了整個應(yīng)用系統(tǒng)的設(shè)計思路,及畢業(yè)設(shè)計課題的選題意義。給出了研究開發(fā)的過程,以及對設(shè)計思路和實現(xiàn)細(xì)節(jié)的考慮,并對各部分周期進(jìn)行了詳盡的分析和描述,最終達(dá)成一個完整的設(shè)計方案。 系統(tǒng)開發(fā)工具為 Visual C++, 平臺為 WINDOWS XP Professional。 關(guān)鍵字 :倒排文件,搜索引擎 沈陽航空工業(yè)學(xué)院學(xué)士學(xué)位論文 Abstract III Abstract As everyone knows, we live in an era of information explosion, the daily volume of information is too great, to be all lost. In the case of fresh information and stock information utilized before, people need to find timely and useful information, which can search it. Search engines such came into being. This article discusses the use of the main methods of creating a document would platoon rapid document search engines. Detailed design of the entire application system, the selection of subjects and topics from design significance. Given the research and development process, and to consider the details of the design and realization of ideas and the cycle of a detailed analysis and description, the ultimate goal of a plete design. VC++ tools for system development, the platform for Windows XP Professional. Key words: opposing platoon documents, the search engine 沈陽航空工業(yè)學(xué)院學(xué)士學(xué)位論文 第二章 關(guān)鍵問題分析 IV 目 錄 摘 要 ............................................................... Ⅰ Abstract............................................................ Ⅱ 目 錄 ............................................................... Ⅲ 第一章 引 言 ......................................................... 1 本課題的研究背景 ............................................. 1 索引文件構(gòu)成 ............................................ 1 索引文件的存儲 .......................................... 2 索引文件的操作 .......................................... 3 利用查找表建立多級索引 .................................. 3 設(shè)計目標(biāo) ..................................................... 4 第二章 關(guān)鍵問題分析 .................................................. 5 索引算法分析 ................................................. 5 散列文件的組織方式 ...................................... 5 多關(guān)鍵字文件 ............................................ 6 多重表文件 .............................................. 7 倒排文件 ................................................ 7 查找算法分析 ................................................ 10 順 序查找 ............................................... 10 二分查找 ............................................... 11 分塊查找 ............................................... 15 第三章 系統(tǒng)設(shè)計 ..................................................... 17 程序的總體框架 .............................................. 17 索引建立模塊分析 ............................................ 18 程序總體模塊圖 .............................................. 19 第四章 詳細(xì)設(shè)計 ..................................................... 20 深入剖析倒排文件索引算法 .................................... 20 查詢的實現(xiàn) ................................................... 23 界面設(shè)計 ..................................................... 25 第五章 系統(tǒng)性能分析及測試 .......................................... 30 沈陽航空工業(yè)學(xué)院學(xué)士學(xué)位論文 第二章 關(guān)鍵問題分析 V 系統(tǒng)性能分析 ................................................. 30 系統(tǒng)穩(wěn)定性分析 ......................................... 30 系統(tǒng)安全性分析 ......................................... 30 系統(tǒng)實用性分析 ......................................... 30 系統(tǒng)測試 ..................................................... 31 測試環(huán)境 ............................................... 31 測 試數(shù)據(jù)的建立 ......................................... 31 第六章 結(jié)論與展望 ................................................... 32 結(jié)論 ........................................................ 32 展望 ........................................................ 32 致 謝 .............................................................. 33 參考文獻(xiàn) ............................................................ 34 沈陽航空工業(yè)學(xué)院學(xué)士學(xué)位論文 第二章 關(guān)鍵問題分析 1 第一章 引 言 本課題的研究背景 社會發(fā)展到今天,已經(jīng)進(jìn)入了計算機(jī)的時代。 在 各行各業(yè)的發(fā)展 中 ,只要是涉及到信息管理范圍的 領(lǐng)域 ,都需要由計算機(jī)來完成。原因當(dāng)然很簡單,因為計算機(jī)處理速度快,可靠性高,而且易于維護(hù)。 人們對計算機(jī)如此依賴,主要是因為近年來計算機(jī)硬件的發(fā)展水平飛速增加。對硬件方面了解的人都知道,計算機(jī)硬件的發(fā)展基本上是一年 乘 一個 倍 數(shù) 的增長 , 但是 這 種發(fā)展勢頭 會一直這樣 持續(xù) 嗎?答案是肯定的,不。因為任何事物都是有極限的。計算機(jī)也一樣。 CPU 的運(yùn)算速度現(xiàn)在來講基本上已經(jīng)快到極限了,但人們對它的速度要求還遠(yuǎn)遠(yuǎn)不僅如此。這就出現(xiàn)了一個問題,既然硬件 無 法提高,而人的要求又無法滿足,那應(yīng)該怎么辦呢?辦法是有的 , 運(yùn)用好的算法,可以節(jié)約硬件資源,提高運(yùn)算效率 , 一個很優(yōu)秀的算法可以大大提升這些。 文件內(nèi)容查找是目前人們經(jīng)常做的操作,很多軟件都提供了文件內(nèi)容查找的功能,如: Offcie 辦公軟件、記事本、瀏覽器軟件、寫字板軟件等。但是這些軟件本身所帶的查找功能多數(shù)是基于模 式匹配(逐個字符比較)的方式制作的,當(dāng)處理大規(guī)模文件時查詢效率很低。 在這樣的背景下,我們提出了本課題,希望通過本題的研究,開發(fā)出一種文件內(nèi)容快速查找工具,從而提高查找效率。 如果要提高查找