正文內容

全文搜索引擎的設計與實現-畢業(yè)論文-在線瀏覽

2024-08-08 13:40本頁面

　　

【正文】 .........395 全文搜索引擎系統(tǒng)設計與實現 ............................................................40 系統(tǒng)功能圖 .........................................................................40 系統(tǒng)實體設計 .......................................................................40 實體 ...........................................................................40 實體的屬性 .....................................................................41 實體間的聯系 ...................................................................42 系統(tǒng)實現 ...........................................................................42 系統(tǒng)需要的環(huán)境 .................................................................42 系統(tǒng)中 Nutch 的配置 .............................................................43 對整個網絡進行抓取 .............................................................44 Solr 安裝配置和使用 ...........................................................47 給 Solr 添加 mmseg4j ........................................................48 客戶端應用程序的實現 ...........................................................49 小結 ...............................................................................566 全文搜索引擎系統(tǒng)評價 ..................................................................57 系統(tǒng)特色 ...........................................................................57 系統(tǒng)存在的不足和解決方案 ...........................................................57 系統(tǒng)存在的不足 .................................................................57 改進措施 .......................................................................58 畢業(yè)設計心得與收獲 .............................................................587 結束語 ................................................................................59致謝 ....................................................................................60參考文獻 ................................................................................61 江漢大學本科畢業(yè)論文（設計）11 緒論課題背景及介紹隨著互聯網的快速發(fā)展，越來越豐富的信息呈現在用戶面前，但同時伴隨的問題是用戶越來越難以獲得其最需要的信息。網絡搜索引擎中以基于 WWW 的搜索引擎應用范圍最為廣泛。全文搜索引擎是目前最為普及的應用，通過從互聯網上提取各個網站的信息(以網頁文字為主)建立數據庫，用戶查詢的時候便在數據庫中檢索與用戶查詢條件相匹配的記錄，最終將匹配的那些記錄，按一定的排列順序顯示給用戶。目前網絡中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。該課題要求設計一個 Web 應用程序，學習搜索引擎的基本原理和設計方法，應用開源的全文搜索引擎 Lucene 框架和 Lucene的子項目 Nutch 實現一個全文搜索引擎。課題研究范圍一般來說搜索引擎都由：用戶接口，搜索器，索引生成器和查詢處理器 4 個部分組成。主要的目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時的信息。江漢大學本科畢業(yè)論文（設計）2搜索器用于 WWW 的遍歷和網頁的下載。索引生成器對搜索器收集到的網頁和相關的描述信息經索引組織后存儲在索引庫中。小結本章內容主要介紹了課題背景，課題目的，及課題的研究方法與內容這些方面。下面將具體介紹全文搜索引擎的相關理論，使讀者全文搜索引擎的基本技術有所了解，為后續(xù)章節(jié)的閱讀打下基礎。最基本的搜索引擎應該包含三個模塊：網頁搜集，預處理，查詢服務。搜索引擎三段式工作流程三者的關系如圖 21：圖 21 搜索引擎三段式工作流程在介紹搜索引擎的整體結構之前，現在借鑒《計算機網絡——自頂向下的方法描述因特網特色》一書的敘事方法，從普通用戶使用搜索引擎的角度來介紹搜索引擎的具體工作流程。搜索引擎整體結構圖 22 搜索引擎整體結構爬蟲從 Inter 中爬取眾多的網頁作為原始網頁庫存儲于本地，然后網頁分析器抽取網頁中的主題內容交給分詞器進行分詞，得到的結果用索引器建立正排和倒排索引，這樣就得到了索引數據庫，用戶查詢時，在通過分詞器切割輸入的查詢詞組并通過檢索器在索引數據庫中進行查詢，得到的結果返回給用戶。有了上述的對與搜索引擎的整體了解，下面對搜索引擎的各個模塊進行說明。只有事先抓取了足夠多的網頁數據，并處理之，才能對大量的用戶查詢提供及時的響應。綜上，Spider 收集網頁的過程如下：從初始 URL 集合獲得目標網頁地址，通過網絡連接接收網頁數據，將獲得的網頁數據添加到網頁庫中并且分析該網頁中的其他 URL 鏈接，放入未訪問 URL 集合中用于網頁收集。江漢大學本科畢業(yè)論文（設計）6累積式抓取是指從某一個時間點開始，通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網頁。但由于 Web 數據的動態(tài)特性，集合中的網頁的抓取時間點是不同的，頁面被更新的情況也不同，因此累積式抓取到的網頁集合事實上并無法與真實環(huán)境中的網絡數據保持一致。進行增量式抓取的前提是，系統(tǒng)已經抓取了足夠數量的網絡頁面，并具有這項頁面被抓取的時間信息。累積式抓取一般用戶數據集合的整體建立或大規(guī)模更新階段；而增量式抓取則主要針對數據集合的日常維護和及時更新。超鏈接：爬蟲會根據種子地址（可能是最先提交給爬蟲的 URL 集合）抓取頁面。鏈接數據庫的更新鏈接的注入：抓取程序會根據預先提供的 URL 集合進行標準化，根據設定的正則檢驗來過濾 URL，將這些符合標準的 URL 放入到 map 中，并在構造 map 過程中給 URL 初始化得分，分數可以影響 URL 對應主機的搜索排序和采集優(yōu)先級。如果不存在，將該 URL 的狀態(tài)標記為未采集過。江漢大學本科畢業(yè)論文（設計）7 網頁預處理網頁預處理的主要目標是將原始網頁通過一步步的數據處理變成可方便搜索的數據形式。所以，需要先建立網頁的索引，如此通過索引，這樣可以很方便的從原始網頁庫中獲得某個 URL 對應的頁面信息。建立索引頁面庫索引的主要過程：江漢大學本科畢業(yè)論文（設計）8圖 25 索引的主要過程索引過程可分為三個主要的操作階段：將數據轉換成文本分析文本將分析過的文本保存到數據庫中轉換成文本。但是，在現實世界中，信息多以富媒體文檔格式呈現：PDF,WORD,EXCEL,HTML,XML 等。分析文本。分析數據時，現將文本數據切分成一些大塊或者詞匯單元，然后對它們執(zhí)行一些可選的操作，例如：在索引之前將這些詞匯單元轉換成小寫，使得搜索對大小寫不敏感；具有代表性的是要從輸入中去掉一些使用很頻繁但卻沒有實際意義的詞，比如英文文本中的一些停用詞（a、an、the、in、on 等）。這一處理過程稱為分析。對輸入數據分析處理完成后，就可以將結果寫入索引文件中。江漢大學本科畢業(yè)論文（設計）9 分詞中文分詞是指將一個漢字序列切分成一個一個單獨的詞，從而達到計算機可以自動識別的效果。由于第二和第三種的實現需要大量的數據來支持，一般采用的是基于字符串匹配的方法。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可以分為最大（最長）匹配和最?。ㄗ疃蹋┢ヅ?。算法描述如下：輸入值為一個中文語句 S，以及最大匹配詞 n取 S 中前 n 個字，根據詞典對其進行匹配，若匹配成功，轉 3，否則轉 2；n = n – 1：如果 n 為 1，轉 3；否則轉 1；將 S 中的前 n 個字作為分詞結果的一部分，S 除去前 n 個字，若 S 為空，轉 4；否則，轉 1；算法結束。還有需要注意的是對于停用詞的過濾，停用詞即漢語中“的，了，和，么”等字詞，在搜索引擎中是忽略的，所以對于分詞后的結果，需要在用停用詞列表進行一下停用詞過濾。停用詞字典比較好辦，由于中文停用詞數量有限，可以從網上獲得停用詞列表，從而自己建一個停用詞字典；然而對于分詞字典，雖然網上有許多知名的漢字分詞軟件，但是很少有分詞的字典提供。江漢大學本科畢業(yè)論文（設計）10分詞的結果對于搜索的精準性有著至關重要的影響，好的分詞策略經常是由若干個簡單算法拼接而成的，所以您也可以試著實現雙向最大減字匹配法來提高分詞的準確率。倒排索引倒排索引（英語：Inverted index），也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。有兩種不同的反向索引形式：一條記錄的水平反向索引（或者反向檔案索引）包含每個引用單詞的文檔的列表。后者的形式提供了更多的兼容性（比如短語搜索），但是需要更多的時間和空間來創(chuàng)建。圖 26 正向索引江漢大學本科畢業(yè)論文（設計）11圖 27 倒排索引以英文為例，下面是要被索引的文本：it is what it iswhat is itit is a banana這樣就能得到下面的反向文件索引： a: {2} banana: {2} is: {0, 1, 2} it: {0, 1, 2} what: {0, 1}檢索的條件what, is 和 it 將對應這個集合：。同樣，文檔數量和當前查詢的單詞結果都從零開始。a: {(2, 2)}banana: {(2, 3)}is: {(0, 1), (0, 4), (1, 1), (2, 1)} 江漢大學本科畢業(yè)論文（設計）12it: {(0, 0), (0, 3), (1, 2), (2, 0)} what: {(0, 2), (1, 0)}如果執(zhí)行短語搜索what is it 將得到這個短語的全部單詞各自的結果所在文檔為文檔 0 和文檔 1。查詢服務查詢服務的整體結構如下：圖 28 查詢服務的整體結構在網頁預處理后，每個元素至少包含如下幾個方面：原始網頁文檔URL 和標題編號所含的重要關鍵詞的集合（以及他們在文檔中出現的位置信息）其他一些指標（例如重要程度，分類代碼等）而系統(tǒng)關鍵詞總體的集合和文檔的編號一起構成了一個倒排文件結構，使得一旦得到一個關鍵詞輸入，系統(tǒng)能迅速給出相關文檔編號的集合輸出。考慮到各種用戶的不同背景和不江漢大學本科畢業(yè)論文（設計）13同的信息需求不可能有一種普適的方式。但這是一種相當模糊的說法。這是三種相當不同的需求。盡管如此，用一個次或短語來間接表達信息需求，希望網頁中含有該詞或該短語中的詞，依然是主流的搜索引擎查詢模式。這樣，一般來講，系統(tǒng)面對的是查詢短語。它首先需要被“切詞”（segment）或稱“分詞”，即把它分成一個詞的序列。然后需要刪除那些沒有查詢意

點擊復制文檔內容

外語相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

全文搜索引擎的設計與實現-畢業(yè)論文-在線瀏覽

站內全文搜索引擎的設計與實現-在線瀏覽

全文搜索引擎的設計與實現-外文翻譯-在線瀏覽

基于internet的全文搜索引擎的模型設計畢業(yè)論文-在線瀏覽

基于web搜索引擎的設計與實現本科畢業(yè)論文-在線瀏覽

基于nutch的新聞主題搜索引擎的設計與實現畢業(yè)論文-在線瀏覽

基于nutch的新聞主題搜索引擎的設計與實現畢業(yè)論文-在線瀏覽

聚焦搜索引擎的設計與開發(fā)查詢系統(tǒng)設計與實現畢業(yè)論文-在線瀏覽

元搜索引擎的設計與實現-在線瀏覽

全文搜索引擎技術的研究和實現-在線瀏覽

基于網絡爬蟲的搜索引擎設計與實現—畢業(yè)設計論文-在線瀏覽

全文搜索引擎的設計與實現-外文翻譯-其他專業(yè)-在線瀏覽

基于lucene的全文搜索引擎設計-在線瀏覽

基于lucene的全文搜索引擎設計-在線瀏覽

java面向主題的搜索引擎畢業(yè)論文-在線瀏覽

畢業(yè)論文基于lucene的桌面搜索引擎-在線瀏覽

全文搜索引擎的設計與實現-畢業(yè)論文(文件)

全文搜索引擎的設計與實現-畢業(yè)論文-全文預覽

全文搜索引擎的設計與實現-畢業(yè)論文-預覽頁

全文搜索引擎的設計與實現-畢業(yè)論文-免費閱讀

全文搜索引擎的設計與實現-畢業(yè)論文(存儲版)