freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的全文搜索引擎設(shè)計(jì)-預(yù)覽頁

2025-07-16 19:21 上一頁面

下一頁面
 

【正文】 索系統(tǒng)相繼產(chǎn)生了,搜索引擎成為人們上網(wǎng)找尋信息的重要手段,搜索引擎的產(chǎn)生,使得人們能夠快速的從互聯(lián)網(wǎng)找到與自己需求相關(guān)的網(wǎng)頁鏈接。同時,網(wǎng)絡(luò)信息的膨脹速度呈指數(shù)急速增長,各種各樣的網(wǎng)站都需要為其加入檢索功能,以滿足用戶的需要。另外,如大家比較熟悉的百度,相繼開發(fā)的百度百科、百度知道、百度貼吧、百度文庫等一系列的社區(qū)功能,也吸引了大量用戶。提供關(guān)鍵詞檢索是通過主要由Crawler、Spider、Worm、Robot等計(jì)算機(jī)軟件程序不停地、盡可能廣的在互聯(lián)網(wǎng)上漫游,搜索到網(wǎng)頁,然后自動給網(wǎng)頁上的某些或全部字符做上索引,形成目標(biāo)摘要格式文件以及網(wǎng)絡(luò)可訪問的數(shù)據(jù)庫,供人們檢索網(wǎng)絡(luò)信息的檢索工具。從最開始的人工目錄分類,到關(guān)鍵詞檢索,全文檢索,搜索引擎的發(fā)展。除了各大搜索引擎大佬,還有眾多的搜索引擎活躍在互聯(lián)網(wǎng)舞臺上。到現(xiàn)在,B/S結(jié)構(gòu)的應(yīng)用已經(jīng)占據(jù)了軟件開發(fā)中的大半江山,從大一學(xué)C++,到QT“退伍”,再到學(xué)習(xí)Java Web開發(fā),通過幾年的努力,基本掌握了Web開發(fā)技術(shù)。它具有以下特點(diǎn):支持桌面文件搜索,格式包括txt、doc、xls和ppt。隨著網(wǎng)頁類型的多元化,現(xiàn)如今,單純的靜態(tài)網(wǎng)頁已經(jīng)不能滿足用戶的需求。因此,在一個采用JSP技術(shù)的項(xiàng)目中,服務(wù)器的選擇也是必須的。Tomcat是一個小型的輕量級應(yīng)用服務(wù)器,運(yùn)行時占用系統(tǒng)資源少、擴(kuò)展性好、支持負(fù)載平衡與郵件服務(wù)器等開發(fā)應(yīng)用系統(tǒng)中的常用功能,并且不斷改進(jìn)和改善。 Ajax簡介Ajax是一種Web應(yīng)用客戶端技術(shù),它結(jié)合了JavaScript、CSS、HTML、XMLHttpRequest對象和文檔對象模型(DOM)等多種技術(shù)。在Ajax技術(shù)中,當(dāng)提交表單時,數(shù)據(jù)首先被轉(zhuǎn)交給Ajax引擎的中間層,然后由中間層負(fù)責(zé)發(fā)送給服務(wù)器端程序,處理完成后,再將相應(yīng)發(fā)回給Ajax引擎的中間層,并通過Ajax引擎的中間層將數(shù)據(jù)返回給客戶端界面顯示出來。Lucene結(jié)構(gòu)和源碼組織結(jié)構(gòu)如圖21:圖21 Lucene結(jié)構(gòu)和源碼組織結(jié)構(gòu)Lucene的核心工包括7個子包,每個包完成特定的功能。Lucene用Document邏輯文件和Field域來組織各種數(shù)據(jù)源。(1)創(chuàng)建一個Document代表我們要索引的文檔。我們知道,一篇文檔有多種信息,如題目,作者,修改時間,內(nèi)容等,不同類型的信息用不同的Field來表示。如果這一部分的性能無法達(dá)到用戶要求,那么軟件就沒有太大的意義。IndexReader將磁盤上的索引信息讀入到內(nèi)存,INDEX_DIR就是索引文件存放的位置。創(chuàng)建QueryParser用來對查詢語句進(jìn)行語法分析。IK對于搜索引擎而言,其體系結(jié)構(gòu)是指為搜索引擎運(yùn)行而設(shè)置的軟硬件系統(tǒng),以及軟硬件系統(tǒng)之間相互聯(lián)系的總和。全文搜索引擎最具代表性的如Google,國內(nèi)的有百度,搜搜等。網(wǎng)絡(luò)信息日新月異的變更,人們總是期望挑出最新的信息,人工的組織連接分類既不能在覆蓋度上滿足用戶搜索需求,也使得互聯(lián)網(wǎng)的信息與現(xiàn)實(shí)信息之間存在一定時間差。 搜索引擎主要模塊功能介紹圖32 搜索引擎基本組成 如圖32所示,搜索器(Crawler)、索引器(Indexer)、檢索器 (Searcher)和用戶接口(Ul)等四個部分組成了一個完整的的搜索引擎程序,頁面存儲器 (Repository)和存儲桶 (Barrel)兩部分組成存儲設(shè)備。目前有搜集信息的策略: 深度優(yōu)先算法是搜索引擎發(fā)展早期廣泛采取的一種信息收集策略,這種算法的優(yōu)點(diǎn)就是能夠盡可能多的遍歷到互聯(lián)網(wǎng)上的所有信息。 搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。跟新頻率相對比較高的,幾個小時到幾天不等周期的,例如大家的博客,空間,以及學(xué)校公共主頁等。搜索引擎的索引實(shí)際上就是一種單詞文檔數(shù)據(jù)結(jié)構(gòu)。 如表31。 檢索器(Searcher) 檢索器的功能是根據(jù)用戶的查詢,對將要輸出的結(jié)果進(jìn)行排序?,F(xiàn)如今的商用搜索引擎更能夠根據(jù)的用戶的搜索習(xí)慣給出相應(yīng)的排序結(jié)果,獲得更好的用戶體驗(yàn)。用戶接口的設(shè)計(jì)直接關(guān)系到用戶的切身感受,是用戶心理、地方習(xí)慣、行業(yè)傳統(tǒng)的一個具體體現(xiàn),良好的界面設(shè)計(jì)往往能夠?yàn)槟銕砀嗟挠脩簟?16。 顯示查詢所用的時間216。當(dāng)前的搜索引擎只能抓取、捕捉一小部分的網(wǎng)頁,這就是所謂的“visible”或“indexable”。所以,未來搜索引擎的高速發(fā)展將持續(xù)保持。 經(jīng)濟(jì)可行性分析 如前文所述,搜索引擎已經(jīng)成為了人們生活的一部分,現(xiàn)如今,通過互聯(lián)網(wǎng)上網(wǎng)的人,幾乎沒有不用到搜索引擎的。索引建立是本系統(tǒng)的核心,良好的索引子系統(tǒng)創(chuàng)建直接關(guān)系到搜索結(jié)果內(nèi)容排序和搜索時間的多少。根據(jù)上章的功能設(shè)計(jì),不難給出合理的數(shù)據(jù)庫設(shè)計(jì)。以下是數(shù)據(jù)庫中所有表的信息。表53 搜索歷史表(search_his)列名數(shù)據(jù)類型允許空IDintkeyWordnvarchar(50)√SearchTimedatetime表54 搜索歷史表(Users)列名數(shù)據(jù)類型允許空IDintLoginIDnvarchar(50)√Pwdnvarchar(50)√ 實(shí)現(xiàn)環(huán)境配置本系統(tǒng)的設(shè)計(jì)借助了開源的Lucene程序庫,為了能夠很好的實(shí)現(xiàn)中文分詞,還導(dǎo)入了IKAnalyzer包。Lucene能夠?yàn)槲谋绢愋偷臄?shù)據(jù)建立索引,所以你只要能把你要索引的數(shù)據(jù)格式轉(zhuǎn)化的文本的,Lucene就能對你的文檔進(jìn)行索引和搜索。最后將請求送到后臺,并返回搜索到的信息并顯示在前臺頁面:圖64 數(shù)據(jù)庫搜索效果圖 后臺數(shù)據(jù)編輯實(shí)現(xiàn)管理員可以點(diǎn)擊頁面的“后臺登錄”鏈接到管理員登錄頁面,用戶在登錄頁面輸入賬號和密碼即可登錄系統(tǒng),登錄后用戶可以看到目前系統(tǒng)所有數(shù)據(jù),同時也可以修改或者刪除任何一條數(shù)據(jù)可以通過標(biāo)題來搜索自己想看的數(shù)據(jù),也可以通過添加按鈕來添加新的數(shù)據(jù):圖65 后臺數(shù)據(jù)編輯效果圖 第7章 系統(tǒng)測試 測試重要性系統(tǒng)開發(fā)過程中,測試時一項(xiàng)必不可少的工作,測試幾乎伴隨著整個開發(fā)的生命周期。單元測試是在軟件開發(fā)過程中要進(jìn)行的最低級別的測試活動,單元測試由開發(fā)者自己完成,意在測試該單元是否按期望值完成單元功能。 圖73 測試用例結(jié)果圖 結(jié) 論通過測試,此次設(shè)計(jì)實(shí)現(xiàn)了搜索引擎的基本功能,能夠從海量的數(shù)據(jù)中找到與查詢相關(guān)的內(nèi)容。到此,本次設(shè)計(jì)的任務(wù)基本完成。老師嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和對學(xué)生的用之不盡的耐心,對于我都是很好的榜樣。感謝他們給我的各方面的關(guān)心和
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1