freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文(文件)

2025-08-02 18:41 上一頁面

下一頁面
 

【正文】 .................................... 40 5 全文搜索引擎系統(tǒng)設(shè)計與實現(xiàn) ................................................. 41 系統(tǒng)功能圖 ..................................................................... 41 系統(tǒng)實體設(shè)計 ................................................................... 42 實體 ...................................................................... 42 實體的屬性 ................................................................. 42 實體間的聯(lián)系 ............................................................... 43 系統(tǒng)實現(xiàn) ...................................................................... 43 系統(tǒng)需要的環(huán)境 ............................................................. 43 系統(tǒng)中 Nutch的配置 ......................................................... 44 對整個網(wǎng)絡(luò)進行抓取 ......................................................... 45 Solr 安裝配置和使用 ........................................................ 48 給 Solr 添加 mmseg4j ..................................................... 49 客戶端應(yīng)用程序的實現(xiàn) ....................................................... 50 小結(jié) .......................................................................... 57 6 全文搜索引擎系統(tǒng)評價 ...................................................... 58 系統(tǒng)特色 ...................................................................... 58 系統(tǒng)存在的不足和解決方案 ....................................................... 58 系統(tǒng)存在的不足 ............................................................. 58 改進措施 ................................................................... 59 畢業(yè)設(shè)計心得與收獲 ......................................................... 59 7 結(jié)束語 .................................................................. 60 致謝 ..................................................................... 61 參考文獻 .................................................................. 62 江 漢大學(xué)本科畢業(yè)論文(設(shè)計) 1 1 緒論 課題背景及介紹 隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越豐富的信息呈現(xiàn)在用戶面前,但同時伴隨的問題是用戶越來越難以獲得其最需要的信息。 Nutch 致力于讓每個人能很容易 , 同時花費很少就可以配置世界一流的 Web搜索引擎 。 本文闡述了一個全文 搜索引擎 的原理及其設(shè)計 和實現(xiàn)過程。同意省級優(yōu)秀學(xué)位論文評選機構(gòu)將本學(xué)位論文通過影印、縮印、掃描等方式進行保存、摘編或匯編;同意本論文被編入有關(guān)數(shù)據(jù)庫進行檢索和查閱。 江 漢大學(xué)本科畢業(yè)論文(設(shè)計) I 全文搜索引擎的 設(shè)計 與 實現(xiàn) 作者聲明 本人鄭重聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。 本學(xué)位論文內(nèi)容不涉及國家機密。該系統(tǒng)采用 B/S 模式的Java Web 平臺架構(gòu)實現(xiàn),采用 Nutch 相關(guān)框架,包括 Nutch, Solr, Hadoop,以及 Nutch的基礎(chǔ) 框架 Lucene 對全網(wǎng)信息的采集和檢索。 目前國內(nèi)有很多大公司,比如百度 、雅虎 ,都在使用 Nutch 相關(guān)框架 。為了解決此問題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。國外具代表性的全文檢索搜索引擎有 Google、 Yahoo、 Bing等 ,國內(nèi)著名的有百度、中搜等。 課題研究目的及應(yīng)用 針對搜索引擎廣闊的應(yīng)用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁,建立索引數(shù)據(jù)庫,并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。 查詢 處理器的功能 是根據(jù)用戶的查詢在索引庫中快速檢出 文檔,進行文檔與查詢的相關(guān)度評價, 對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。 江 漢大學(xué)本科畢業(yè)論文(設(shè)計) 3 2 搜索 引擎 相關(guān)理論 研究 Web 搜索引擎 原理和結(jié)構(gòu) 全文 搜索 引擎 是一款網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng) ,論文中全部以搜索引擎稱 。 自頂向下的方法描述搜索引擎執(zhí)行過程: 1. 用戶通過瀏覽器提 交查詢的詞或者短語 P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L; 2. 上述過程涉及到兩個問題,如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,根據(jù)什么而排序?用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 p1,p2 ? pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護的一個倒排索引可以查詢某個詞 pi 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 p1,p2 ? pn 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,更進一步,返回的初始網(wǎng)頁集通過計算與查詢詞的相關(guān)度從而得到網(wǎng)頁排名,即 Page Rank,按照網(wǎng)頁的 排名順序即可得到最終的網(wǎng)頁列表; 3. 假設(shè)分詞器和網(wǎng)頁排名的計算公式都是既定的,那么倒排索引以及原始網(wǎng)頁集 江 漢大學(xué)本科畢業(yè)論文(設(shè)計) 4 從何而來?原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引; 4. 網(wǎng)頁的分析具體做什么呢?由于爬蟲收集來的原始網(wǎng)頁中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁分析去除這些信息 ,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。 網(wǎng)頁 收集 全文檢索 是工作在某個數(shù)據(jù)集合上的程序,他需要事先由頁面抓取程序,在全網(wǎng)中抓取海量網(wǎng)頁,這個抓取程序也叫網(wǎng)絡(luò)爬蟲或 Spider。下圖表示了這個過程: 圖 23 Spider 工作流程 爬蟲的抓取策略 爬蟲的工作策略一般分為累積式抓?。?cumulative crawling)和增量式抓?。?incremental crawing)兩種。 與累積式抓取不同,增量式抓取是指在具有一定量規(guī)模的網(wǎng)頁集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過時頁面進行抓取,以保證所抓取的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。 鏈接數(shù)據(jù)庫的建立 初始 URL 的建立有兩種方式:超鏈接和站長提交。接著會判斷 URL 在抓取數(shù)據(jù)庫中是否存在,如果存在,刪除舊的,更新新的。 預(yù)處理模塊的整體結(jié)構(gòu)如下: 圖 24 預(yù) 處理模塊的整體結(jié)構(gòu) 通過 爬蟲 的收集,保存下來的網(wǎng)頁信息具有較好的信息存儲格式,但是還是有一個缺點 ,就是不能按照網(wǎng)頁 URL 直接定 位到所指向的網(wǎng)頁。 在索引 數(shù)據(jù)之前,首先必須將數(shù)據(jù)轉(zhuǎn)換成純文本字符流。 在對數(shù)據(jù)進行索引錢,還必須進行預(yù)處理,對數(shù)據(jù)進行分析是之更加適合被索引。將分析后的數(shù)據(jù)寫入索引 。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語義理解,第三種 基于統(tǒng)計。常用的幾種機械分詞方法如下: 正向減字最大匹配法(由左到右的方向); 逆向減字最大匹配法(由右到左的方向); 最少切分 (使每一句中切出的詞數(shù)最?。?; 雙向最大減字匹配法(進行由左到右、由右到左兩次掃描); 采用其中的正向最大匹配法。 您也許有疑問,如何獲得分詞字典或者是停用詞字典。而如果遇到歧義詞組,可以通過字典中附帶的詞頻來決定哪種分詞的結(jié)果更好。 一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。 對相同的文字, 得到后面這些完全反向索引,有 文檔 數(shù)量和當(dāng)前查詢的單詞結(jié)果組成的的成對 數(shù)據(jù) 。但是這個短語檢索的連續(xù)的條件僅僅在文檔 1得到。 一般認(rèn)為,對于普通網(wǎng)絡(luò)用戶來說,最自然的方式就是 “ 要什么就輸入什么 ” 。在其他一些情況下,用戶可能關(guān)心 的是間接的信息,例如“江漢大學(xué)錄取分?jǐn)?shù)線”, 450 分應(yīng)該是他需要的,但不可能包含在這個短語中。一般地,用 q0 表示用戶提交的原始查詢,例如,q0 =“ 網(wǎng)絡(luò)與分布式系統(tǒng)實驗室 ” 。最后形成一個用于參加匹配的查詢詞表, q = {t1, t2, ?, tm} ,在本例中就是 q = {網(wǎng)絡(luò),分布式,系統(tǒng),實驗室 }。 結(jié)果排序 就目前的技術(shù)情況看,列表是最常見的形式(但人們也在探求新的形式,如 Vivisimo 引擎將結(jié)果頁面以類別的形式呈現(xiàn))。不同需求的用戶可能輸入同一個查詢,同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。因為,當(dāng) 通過前述關(guān)鍵詞的提取過程,形成一篇文檔的關(guān)鍵 詞集合, p = {t1, t2, ?, tn} 的時候,很容易同時得到每一個 ti 在該文檔中出現(xiàn)的次數(shù),即詞頻,而倒排文件中每個倒排表的長度則對應(yīng)著一個詞所涉及的文檔的篇數(shù),即文檔頻率。 文檔摘要 搜索引擎給出的結(jié)果是一個有序的條目列表,每一個條目有三個基本的元素:標(biāo)題,網(wǎng)址和摘要。一是網(wǎng)頁的寫作通常不規(guī)范,文字比較隨意,因此從語言理解的角度難以做好;二是復(fù)雜的語言理解算法耗時太多,不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁信息的需求。顯然,這種方式對查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。因此, 有了 “ 動態(tài)摘要 ” 方式,即在響應(yīng)查詢的時候,根據(jù)查詢詞在文檔中的位置,提取出周圍的文字來,在顯示時將查詢詞標(biāo)亮。 以 web 搜索引擎為主要介紹對象。它并不是一個完整的應(yīng)用程序,而是一組代碼庫,并提供了方便實現(xiàn)搜索引擎的 API。 Lucene 如何 對 索引 進 行搜索 第一步:用 戶輸 入查 詢語 句。最基本的有比如: AND, OR, NOT 等。 由于查 詢語 句有 語 法,因而也要 進 行 語 法分析, 語 法分析及 語 言 處 理。 如果 發(fā)現(xiàn) 查 詢語 句不 滿 足 語 法 規(guī)則 , 則會報錯 。 第四步:根據(jù)得到的文 檔 和查 詢語 句的相 關(guān) 性, 對結(jié) 果 進 行排序。 private String[] s = {, , , , , , }。 private Directory directory = null。 } catch (Exception e) { ()。 Document doc = null。 (new Field(id, ids[i], , ))。 (doc)。 } catch (Exception e) { ()。 表 32 查詢服務(wù) public void query(){ IndexReader reader = null。 } catch (Exception e) { ()。 } } } 江 漢大學(xué)本科畢業(yè)論文(設(shè)計) 19
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1