正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文(文件)

2025-08-02 18:41 上一頁面

下一頁面

　

【正文】 .................................... 40 5 全文搜索引擎系統(tǒng)設(shè)計與實現(xiàn) ................................................. 41 系統(tǒng)功能圖 ..................................................................... 41 系統(tǒng)實體設(shè)計 ................................................................... 42 實體 ...................................................................... 42 實體的屬性 ................................................................. 42 實體間的聯(lián)系 ............................................................... 43 系統(tǒng)實現(xiàn) ...................................................................... 43 系統(tǒng)需要的環(huán)境 ............................................................. 43 系統(tǒng)中 Nutch的配置 ......................................................... 44 對整個網(wǎng)絡(luò)進行抓取 ......................................................... 45 Solr 安裝配置和使用 ........................................................ 48 給 Solr 添加 mmseg4j ..................................................... 49 客戶端應(yīng)用程序的實現(xiàn) ....................................................... 50 小結(jié) .......................................................................... 57 6 全文搜索引擎系統(tǒng)評價 ...................................................... 58 系統(tǒng)特色 ...................................................................... 58 系統(tǒng)存在的不足和解決方案 ....................................................... 58 系統(tǒng)存在的不足 ............................................................. 58 改進措施 ................................................................... 59 畢業(yè)設(shè)計心得與收獲 ......................................................... 59 7 結(jié)束語 .................................................................. 60 致謝 ..................................................................... 61 參考文獻 .................................................................. 62 江漢大學(xué)本科畢業(yè)論文（設(shè)計） 1 1 緒論課題背景及介紹隨著互聯(lián)網(wǎng)的快速發(fā)展，越來越豐富的信息呈現(xiàn)在用戶面前，但同時伴隨的問題是用戶越來越難以獲得其最需要的信息。 Nutch 致力于讓每個人能很容易 , 同時花費很少就可以配置世界一流的 Web搜索引擎。本文闡述了一個全文搜索引擎的原理及其設(shè)計和實現(xiàn)過程。同意省級優(yōu)秀學(xué)位論文評選機構(gòu)將本學(xué)位論文通過影印、縮印、掃描等方式進行保存、摘編或匯編；同意本論文被編入有關(guān)數(shù)據(jù)庫進行檢索和查閱。江漢大學(xué)本科畢業(yè)論文（設(shè)計） I 全文搜索引擎的設(shè)計與實現(xiàn) 作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。本學(xué)位論文內(nèi)容不涉及國家機密。該系統(tǒng)采用 B/S 模式的Java Web 平臺架構(gòu)實現(xiàn)，采用 Nutch 相關(guān)框架，包括 Nutch， Solr， Hadoop,以及 Nutch的基礎(chǔ) 框架 Lucene 對全網(wǎng)信息的采集和檢索。目前國內(nèi)有很多大公司，比如百度、雅虎，都在使用 Nutch 相關(guān)框架。為了解決此問題，出現(xiàn)了網(wǎng)絡(luò)搜索引擎。國外具代表性的全文檢索搜索引擎有 Google、 Yahoo、 Bing等，國內(nèi)著名的有百度、中搜等。課題研究目的及應(yīng)用針對搜索引擎廣闊的應(yīng)用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀，根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計一種基于 Inter 的全文搜索引擎模型，它從互聯(lián)網(wǎng)上獲取網(wǎng)頁，建立索引數(shù)據(jù)庫，并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率，從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。查詢處理器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進行文檔與查詢的相關(guān)度評價，對將要輸出的結(jié)果進行排序，并實現(xiàn)某種用戶相關(guān)性反饋機制。江漢大學(xué)本科畢業(yè)論文（設(shè)計） 3 2 搜索引擎相關(guān)理論研究 Web 搜索引擎原理和結(jié)構(gòu) 全文搜索引擎是一款網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng) ，論文中全部以搜索引擎稱。自頂向下的方法描述搜索引擎執(zhí)行過程： 1．用戶通過瀏覽器提交查詢的詞或者短語 P，搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L； 2. 上述過程涉及到兩個問題，如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來，根據(jù)什么而排序？用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 p1,p2 ? pn 并被剔除停用詞 ( 的、了、啊等字 )，根據(jù)系統(tǒng)維護的一個倒排索引可以查詢某個詞 pi 在哪些網(wǎng)頁中出現(xiàn)過，匹配那些 p1,p2 ? pn 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果，更進一步，返回的初始網(wǎng)頁集通過計算與查詢詞的相關(guān)度從而得到網(wǎng)頁排名，即 Page Rank，按照網(wǎng)頁的排名順序即可得到最終的網(wǎng)頁列表； 3. 假設(shè)分詞器和網(wǎng)頁排名的計算公式都是既定的，那么倒排索引以及原始網(wǎng)頁集江漢大學(xué)本科畢業(yè)論文（設(shè)計） 4 從何而來？原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中，可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的，而倒排索引，即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的，后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進行分詞后，得到的網(wǎng)頁到詞組的映射表，將正排索引倒置即可得到倒排索引； 4. 網(wǎng)頁的分析具體做什么呢？由于爬蟲收集來的原始網(wǎng)頁中包含很多信息，比如 html 表單以及一些垃圾信息比如廣告，網(wǎng)頁分析去除這些信息，并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。網(wǎng)頁收集全文檢索是工作在某個數(shù)據(jù)集合上的程序，他需要事先由頁面抓取程序，在全網(wǎng)中抓取海量網(wǎng)頁，這個抓取程序也叫網(wǎng)絡(luò)爬蟲或 Spider。下圖表示了這個過程：圖 23 Spider 工作流程爬蟲的抓取策略爬蟲的工作策略一般分為累積式抓?。?cumulative crawling）和增量式抓?。?incremental crawing）兩種。與累積式抓取不同，增量式抓取是指在具有一定量規(guī)模的網(wǎng)頁集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式選取已有集合中的過時頁面進行抓取，以保證所抓取的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。鏈接數(shù)據(jù)庫的建立初始 URL 的建立有兩種方式：超鏈接和站長提交。接著會判斷 URL 在抓取數(shù)據(jù)庫中是否存在，如果存在，刪除舊的，更新新的。預(yù)處理模塊的整體結(jié)構(gòu)如下：圖 24 預(yù) 處理模塊的整體結(jié)構(gòu) 通過爬蟲的收集，保存下來的網(wǎng)頁信息具有較好的信息存儲格式，但是還是有一個缺點，就是不能按照網(wǎng)頁 URL 直接定位到所指向的網(wǎng)頁。在索引數(shù)據(jù)之前，首先必須將數(shù)據(jù)轉(zhuǎn)換成純文本字符流。在對數(shù)據(jù)進行索引錢，還必須進行預(yù)處理，對數(shù)據(jù)進行分析是之更加適合被索引。將分析后的數(shù)據(jù)寫入索引。中文分詞主要有三種方法：第一種基于字符串匹配，第二種基于語義理解，第三種基于統(tǒng)計。常用的幾種機械分詞方法如下：正向減字最大匹配法（由左到右的方向）；逆向減字最大匹配法（由右到左的方向）；最少切分（使每一句中切出的詞數(shù)最?。?；雙向最大減字匹配法（進行由左到右、由右到左兩次掃描）；采用其中的正向最大匹配法。您也許有疑問，如何獲得分詞字典或者是停用詞字典。而如果遇到歧義詞組，可以通過字典中附帶的詞頻來決定哪種分詞的結(jié)果更好。一個單詞的水平反向索引（或者完全反向索引）又包含每個單詞在一個文檔中的位置。對相同的文字，得到后面這些完全反向索引，有文檔數(shù)量和當(dāng)前查詢的單詞結(jié)果組成的的成對數(shù)據(jù) 。但是這個短語檢索的連續(xù)的條件僅僅在文檔 1得到。一般認(rèn)為，對于普通網(wǎng)絡(luò)用戶來說，最自然的方式就是 “ 要什么就輸入什么 ” 。在其他一些情況下，用戶可能關(guān)心的是間接的信息，例如“江漢大學(xué)錄取分?jǐn)?shù)線”， 450 分應(yīng)該是他需要的，但不可能包含在這個短語中。一般地，用 q0 表示用戶提交的原始查詢，例如，q0 =“ 網(wǎng)絡(luò)與分布式系統(tǒng)實驗室 ” 。最后形成一個用于參加匹配的查詢詞表， q = {t1, t2, ?, tm} ，在本例中就是 q = {網(wǎng)絡(luò)，分布式，系統(tǒng)，實驗室 }。結(jié)果排序就目前的技術(shù)情況看，列表是最常見的形式（但人們也在探求新的形式，如 Vivisimo 引擎將結(jié)果頁面以類別的形式呈現(xiàn)）。不同需求的用戶可能輸入同一個查詢，同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。因為，當(dāng) 通過前述關(guān)鍵詞的提取過程，形成一篇文檔的關(guān)鍵詞集合， p = {t1, t2, ?, tn} 的時候，很容易同時得到每一個 ti 在該文檔中出現(xiàn)的次數(shù)，即詞頻，而倒排文件中每個倒排表的長度則對應(yīng)著一個詞所涉及的文檔的篇數(shù)，即文檔頻率。文檔摘要搜索引擎給出的結(jié)果是一個有序的條目列表，每一個條目有三個基本的元素：標(biāo)題，網(wǎng)址和摘要。一是網(wǎng)頁的寫作通常不規(guī)范，文字比較隨意，因此從語言理解的角度難以做好；二是復(fù)雜的語言理解算法耗時太多，不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁信息的需求。顯然，這種方式對查詢子系統(tǒng)來說是最輕松的，不需要做另外的處理工作。因此，有了 “ 動態(tài)摘要 ” 方式，即在響應(yīng)查詢的時候，根據(jù)查詢詞在文檔中的位置，提取出周圍的文字來，在顯示時將查詢詞標(biāo)亮。以 web 搜索引擎為主要介紹對象。它并不是一個完整的應(yīng)用程序，而是一組代碼庫，并提供了方便實現(xiàn)搜索引擎的 API。 Lucene 如何對索引進行搜索第一步：用戶輸入查詢語句。最基本的有比如： AND, OR, NOT 等。由于查詢語句有語法，因而也要進行語法分析，語法分析及語言處理。如果發(fā)現(xiàn) 查詢語句不滿足語法規(guī)則，則會報錯。第四步：根據(jù)得到的文檔和查詢語句的相關(guān) 性，對結(jié) 果進行排序。 private String[] s = {, , , , , , }。 private Directory directory = null。 } catch (Exception e) { ()。 Document doc = null。 (new Field(id, ids[i], , ))。 (doc)。 } catch (Exception e) { ()。表 32 查詢服務(wù) public void query(){ IndexReader reader = null。 } catch (Exception e) { ()。 } } } 江漢大學(xué)本科畢業(yè)論文（設(shè)計） 19

點擊復(fù)制文檔內(nèi)容

研究報告相關(guān)推薦

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

【摘要】基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)摘要Lucene是一個開源的用于制作搜索引擎的框架。目前第二代搜索引擎的設(shè)計思路為利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)源，結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引，利用索引從海量的數(shù)據(jù)源中得到搜索結(jié)果，對搜索的結(jié)

2024-11-07 08:40

ftp搜索引擎設(shè)計-資料下載頁

【摘要】西華大學(xué)畢業(yè)設(shè)計說明書摘要隨著信息的快速速增長，讓搜索引擎成了人們查找信息的首要工具。如今在中文搜索引擎領(lǐng)域，國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。能形成現(xiàn)在這樣的局面，是有一個重要的原因：英文和中文兩種語言自身的書寫方式不相同，其中在計算機涉及的技術(shù)就是中文分詞技術(shù)。本設(shè)計的主要目的是利用爬蟲獲取的網(wǎng)頁，將網(wǎng)頁的內(nèi)容按照

2024-12-07 10:16

搜索引擎優(yōu)化畢業(yè)論文外文翻譯-其他專業(yè)-資料下載頁

【摘要】外文資料翻譯-英文原文中文3780字英文原文出處：Nursel,Yal??n,Utku,K?se.Whatissearchengineoptimization:SEO?[J].Procedia-SocialandBehavioralSciences,2021,(9):487-49Whatissea

2025-01-19 11:44

搜索引擎設(shè)計學(xué)士學(xué)位論文-資料下載頁

【摘要】沈陽理工大學(xué)學(xué)士學(xué)位論文摘要隨著互聯(lián)網(wǎng)的迅速發(fā)展，網(wǎng)絡(luò)規(guī)模不斷擴大，信息儲量急劇增長，搜索引擎技術(shù)越來越得到廣泛地使用。本文通過對各種通用搜索引擎的關(guān)鍵技術(shù)進行研究，完成了對通用WEB搜索引擎的設(shè)計與實現(xiàn)。搜索引擎系統(tǒng)包括3個功能模塊：網(wǎng)頁獲取模塊，數(shù)據(jù)存儲模塊和檢索模塊。本人在課題組中主要承擔(dān)工作有：系統(tǒng)整體設(shè)計、數(shù)據(jù)庫的設(shè)計實現(xiàn)以及中文分詞系統(tǒng)的設(shè)計實現(xiàn)。本系統(tǒng)的整體設(shè)計

2025-06-28 15:16

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-資料下載頁

【摘要】畢業(yè)設(shè)計(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息

2024-12-01 17:12

搜索引擎設(shè)計學(xué)士學(xué)位論文-資料下載頁

【摘要】沈陽理工大學(xué)學(xué)士學(xué)位論文I摘要隨著互聯(lián)網(wǎng)的迅速發(fā)展，網(wǎng)絡(luò)規(guī)模不斷擴大，信息儲量急劇增長，搜索引擎技術(shù)越來越得到廣泛地使用。本文通過對各種通用搜索引擎的關(guān)鍵技術(shù)進行研究，完成了對通用WEB搜索引擎的設(shè)計與實現(xiàn)。搜索引擎系統(tǒng)包括3個功能模塊：網(wǎng)頁獲取模塊，數(shù)據(jù)存儲模塊和檢索模塊。本人在課題組中主要承擔(dān)工作有：系統(tǒng)整體設(shè)計、數(shù)據(jù)庫的設(shè)計實

2025-07-08 04:14

一個小型搜索引擎的設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計論文-資料下載頁

【摘要】畢業(yè)設(shè)計(論文)一個小型搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：一個小型搜索引擎的設(shè)計與實現(xiàn)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普及，搜索引擎在中國異軍突起，并日益滲透到人們的日常生活中，在互聯(lián)網(wǎng)普及之前，人們查閱資料首先想到的是擁有大量書籍的資料的圖書館。但是今天很多人都

2025-08-06 06:27

4搜索引擎營銷實訓(xùn)搜索引擎營銷概論-資料下載頁

【摘要】互聯(lián)網(wǎng)營銷實訓(xùn)課程搜索引擎營銷概論課程大綱講次課程內(nèi)容教學(xué)方式第一講互聯(lián)網(wǎng)營銷概論理論教學(xué)第二講第三講搜索引擎營銷概論理論教學(xué)第四講第五講搜索引擎營銷實戰(zhàn)——基礎(chǔ)訓(xùn)練實操形式第六講搜索引擎營銷方案設(shè)計理論教學(xué)及案例分析第七講第八講搜索引擎營銷實戰(zhàn)——進階

2025-01-01 01:21

搜索引擎的發(fā)展與分類-資料下載頁

【摘要】搜索引擎的發(fā)展與分類單位：寧夏賀蘭縣逸揮基金回民中學(xué)授課：王華搜索引擎的發(fā)展與分類【教學(xué)目標(biāo)】知識與技能：1、通過嘗試與分析，了解英特網(wǎng)信息檢索工具的類型與特點；知道搜索引擎、元搜索引擎（有稱集成搜索引擎）等因特網(wǎng)信息檢索工具的產(chǎn)生背景、原理與發(fā)展趨勢。2、能夠根據(jù)實際需求選擇恰當(dāng)?shù)姆绞椒椒?，利用因特網(wǎng)獲取所需信息、

2025-06-25 07:18

jstaaa搜索引擎-資料下載頁

【摘要】·中文搜索引擎·知識搜索引擎·實時搜索引擎new·新聞搜索引擎·視頻搜索引擎·地圖搜索引擎·音樂搜索引擎·手機搜索引擎·購物搜索引擎·圖片搜索引擎·生活搜索引擎·旅游搜索引擎

2025-08-04 10:15

搜索引擎的使用-資料下載頁

【摘要】第4章搜索引擎的使用目標(biāo)與任務(wù)?了解搜索引擎概念與分類。?熟悉搜索引擎語法規(guī)則，能快速準(zhǔn)確查找所需內(nèi)容。?了解常用中文搜索引擎特性。搜索引擎概念與分類目標(biāo)與任務(wù)了解搜索引擎概念與分類。搜索引擎概念搜索引擎分類搜索引擎

2024-10-09 15:40

搜索引擎的使用-資料下載頁

【摘要】師絨俠1、直接訪問網(wǎng)頁2、使用搜索引擎3、查詢在線數(shù)據(jù)庫（1）什么是搜索引擎？（2）搜索引擎的工作原理是什么？（3）搜索引擎的分為幾類，各有什么特點？搜索器索引器檢索器搜索引擎的工作原理，(l)首先搜索引擎派出網(wǎng)頁搜索工具如spider(蜘蛛)在Inter上搜索信息，并把信息帶回搜

2025-07-25 08:23

網(wǎng)絡(luò)營銷中的搜索引擎優(yōu)化研究畢業(yè)論文-資料下載頁

【摘要】江西科技學(xué)院本科生畢業(yè)設(shè)計（論文）密級：學(xué)號：本科生畢業(yè)設(shè)計（論文）網(wǎng)絡(luò)營銷中的搜索引擎優(yōu)化研究學(xué)院：信息工程學(xué)院專業(yè)：

2025-08-19 00:16

搜索引擎教案-資料下載頁

【摘要】案例名稱因特網(wǎng)信息的查找——搜索技巧科目信息技術(shù)教學(xué)對象高中一年級（上學(xué)期）課時一課時一、教材內(nèi)容分析掌握一定的搜索技巧，使學(xué)生能夠更快更準(zhǔn)確的搜索到需要的信息。二、教學(xué)目標(biāo)（知識，技能，情感態(tài)度、價值觀）1．知識與技能讓學(xué)生探索并理解基本的搜索技巧。2．過程與方法了解信息來源的一般分類，學(xué)會根據(jù)需求選擇信息來源，掌握信息獲取的

2025-08-05 07:04

dxaaaa搜索引擎-資料下載頁

【摘要】GOOGLE簡介Google（）是一個搜索引擎，由兩個斯坦福大學(xué)博士生于1998年9月發(fā)明，GoogleInc.于1999年創(chuàng)立。2022年7月份，Google替代Inktomi成為Yahoo公司的搜索引擎，同年9月份，Google成為中國網(wǎng)易公司的搜索引擎。GOOGLE支持多達132種語言，包括簡體中文和繁體中文；GOOGLE速

2025-08-04 09:32