正文內(nèi)容

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)(參考版)

2024-11-21 21:52本頁面

　　

【正文】 Heritrix。Computer Knowledge and Technology。202003 [22] ZHAO Xile,CHEN Guang(Collage of Computer and Information Technology,Henan Normal University,XinXiang 453007,China)。RESEARCH ON FRAMEWORK SUPPORTING WEB SEARCH ENGINE[J]。199907 [21] ZHANG WeiFeng。English Search Engine on Inter[J]。 Pattern Recognition, 23 Shanghai Jiaotong University。 Zhang Huihui。Journal of Hebei Vacation Technical Teachers University(Social Sciences Edition Quarterly)。202010 [19] Zhang Chunying(Library of Handan Finance and Economics School, Handan, 056000)。An Interactive Net Search Engine for Chinese Text and Its Selflearn ing Ability[J]。Shanxi Electric Power。 Application. 202011 [16] Wang Juanqin. Studies on Information Retrieval Model in Network Envirnment[J]. INFORMATION SCIENCE. 199903 [17]HAN Bin yun (Shanxi Electric Power Research Institute,Taiyuan,Shanxi 030001,China)。 22 參考文獻 [1] 羅剛 .《自己動手寫搜索引擎》 . 電子工業(yè)出版社， 2020121. [2] 劉奕群 .《搜索引擎基礎(chǔ)技術(shù)》 . 清華大學(xué)出版社， 202071. [3] 邱哲，符滔滔 .《開發(fā)自己的搜索引擎 —— +Heritrix 第二版》人民郵電出版社 . 202011 [4] [美 ]格拉波內(nèi)， [美 ]庫辛著，趙利通譯 .《搜索引擎優(yōu)化（第二版）》清華大學(xué)出版社 , 2020111. [5] 吳眾欣，沈家立 .《 Lucene分析與應(yīng)用》 . 機械工業(yè)出版社， 202091. [6] 袁津生，李群，蔡岳 .《搜索引擎原理與實踐》 . 北京郵電大學(xué)出版社， 2020. [7] 徐寶文，張衛(wèi)豐 .《搜索引擎與信息獲取技術(shù)》 . 清華大學(xué)出版社， 2020. [8]蔡棟第二代搜索引擎模式探析 [期刊論文 ] 情報理論與實踐 2020(03) [9]周春知識搜索引擎及教學(xué)應(yīng)用 [期刊論文 ] 中國教育技術(shù)裝備 2020(35) [10]李國成網(wǎng)絡(luò)搜索引擎的現(xiàn)狀及發(fā)展探析 [期刊論文 ] 企業(yè)科技與發(fā)展 2020(8) [11]李村合新一代中文智能搜索引擎尤里卡研究 [期刊論文 ] 情報科學(xué) 2020(1) [12]魏春生 .邊香玉網(wǎng)絡(luò)搜索引擎功能、使用技巧與檢索策略 [期刊論文 ] 吉林省經(jīng)濟管理干部學(xué)院學(xué)報 2020(4) [13]李村合因特網(wǎng)多元搜索引擎 SearchX2020 的研究 [期刊論文 ] 情報學(xué)報 2020(4) [14] MA Hongwei. Discussion on the Technical Tactics and Developing Trends of Search Engine[J]. Sci/tech Information Development amp。感謝所有關(guān)心、支持、幫助過我的良師益友。在我撰寫論文的過程中，老師傾注了大量的心血和汗水，無論是在論文的選題、構(gòu)思和資料的收集方面，還是在論文的研究方法以及成文定稿方面，我都得到了耿老師悉心細(xì)致的教誨和無私的幫助，特別是他廣博的學(xué)識、深厚的學(xué)術(shù)素養(yǎng)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和一絲不茍的工作作風(fēng)使我終生受益，在此表示真誠地感謝和深深的謝意。本項目可以幫助您更好更快地查找到您所需要的圖書信息。所謂網(wǎng)絡(luò)爬蟲，顧名思義它可以方便快捷地從互聯(lián)網(wǎng)上爬取你所想要的相關(guān)信息。 Lucene作為一個開源的全完檢索引擎工具包，它不但是一個完整的全文檢索引擎，而且是一個全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎。在上述代碼中為了使用 Spring中定義的各種 bean，使用了名為 spring 的對象 creator,它帶有名為 beanName 的參數(shù)，其值應(yīng)該被指定為文件中定義的 bean 的 ID 值，即本項目中的 SearchServiceImpl 類的實例。（二） ?xml version= encoding=UTF8? 20 !DOCTYPE dwr PUBLIC //GetAhead Limited//DTD Direct Web Remoting dwr allow create creator=spring javascript=searchService param name=beanName value=searchService / /create convert converter=bean match= /convert convert converter=bean match= /convert convert converter=bean match= /convert /allow /dwr 由于對 service 對象的調(diào)用是使用 DWR 在頁面中完成的。當(dāng)然在使用 DWR框架時要對其進行配置。這種文件用記事本打開后可以看到它的內(nèi)容。它包含兩個主要的部分 :允許 JavaScript 從 WEB服務(wù)器上一個遵循了 AJAX原則的 Servlet中獲取數(shù)據(jù) .另外一方面一個 JavaScript 庫可以幫助網(wǎng)站開發(fā)人員輕松地利用獲取的數(shù)據(jù)來動態(tài)改變網(wǎng)頁的內(nèi)容 . DWR采取了一個類似 AJAX的新方法來動態(tài)生成基于 JAVA 類的 JavaScript 代碼 .這樣 WEB 開發(fā)人員就可以在 JavaScript 里使用 Java代碼就像它們是瀏覽器的本地代碼 (客戶端代碼 )一樣。如同域?qū)ο笠粯?，它包含了一對字符串元素：與域中的域名 (name)和域值 (value)相對應(yīng)。如果用戶要訪問的文檔不再這個緩存中， Hits就會再次執(zhí)行查詢。每次用戶要取出文檔時， Hits都會 18 先訪問這個緩存。在 Hits對象內(nèi)部保持了一個緩存。 RegexQuery:由第三方提供的 Query對象，是基于正則表達式的檢索方式。 WildcardQuery 使用非常簡單，首先設(shè)定一個帶通配符的字符串，再包裝成 Term對象，然后將其做為 WildcardQuery 的構(gòu)造函數(shù)的參數(shù)傳入。 FuzzyQuery 模糊搜索：可以幫助用戶進行單字的模糊查找。 PhraseQuery 短語搜索：通過 PhraseQuery 可以很方便的幫助進行上述的短語查找功能。這種范圍可以是時間、日期、數(shù)字大小等。 BooleanQuery 布爾查詢：由多個子句和子句間的布爾邏輯所組成的查詢。//取出索引中 ID號為 i的文檔 Query rewrite (Query query) throws IOException。//返回索引中最大可能具有的 Document 的數(shù)量（再加 1） TopDocs search(Weight weight,Filter filter,int n) throws IOException。 int[] docFreqs(Term[] terms) throws IOExcption。//關(guān)閉 Searcher,同時也關(guān)閉了 IndexReader int docFreq(Term term) throws IOException。在 IndexSearcher 接口中定義了如下的主要方法： void search(Weight weight,Filter filter,HitCollector results) throws IOException。這個類是連接索引的重要手段，并提供了一些 search方法。 Document的 add方法將定義的Field 加入到 Document 中去，最后使用 IndexWriter 的 addDocument 方法將 Document 寫入索引。并且它只占用了很少的存儲空間。每個類都使用了一個第三方的工具來提取文本，以便之后分詞和建立索引使用。所以在建立索引之前需要進行數(shù)據(jù)內(nèi)容的抽取。處理后是以文本文件格式存儲的，以便之后分詞和建立索引使用。繼承 HTMLParser 的基類 Extractor，來實現(xiàn)對鏡像文件中 HTML 文件的解析。包含了，封裝了底層的訪問節(jié)點的方法，以樹型結(jié)構(gòu)返回所有節(jié)點。 HTMLParser提供了提取文本信息的 API，使搜索引擎開發(fā)者擺脫了繁瑣的正則匹配過程，只需要通過這些 API，就可以很方便的提取特定文本，大大提高工作效率。 HTMLParser Libaries提供了一系列訪問本地和網(wǎng)絡(luò) HTML 資源的 API。圖。如下圖所示：圖替換 FrontierScheduler 選項（ 4）更改 JOB中的參數(shù)，在 setting中設(shè)置 headers參數(shù)，設(shè)置 useragent 中的網(wǎng)址以及 from中的郵件地址。（ 2）在瀏覽器中輸入 admin:admin,登錄管理界面。在定義好了 FrontierSchedular后就可以在運行中使用了，現(xiàn)在我們就可以利用已經(jīng)獲取的抓取列表 15 進行抓取試驗。 “ ”是針對 robots 策略時發(fā)出的 URL 所包含的字符串，因此也應(yīng)當(dāng)讓其加入到 Frontier中。 (1) (2)(3).jpg (4) (5)dns: 其中“ ”是圖書詳細(xì)信息頁面的 URL 前綴，因此必須讓其通過約束，以使得圖書的詳細(xì)信息得以保存。針對抓取新書城網(wǎng)（）的圖書信息，編寫專門的代碼。這種擴展實際上就是加入一種 URL選擇策略，將那些不需要的 URL過濾掉，以保證所抓取的信息為有用的信息。因此，需要擴展Heritrix，以實現(xiàn)無關(guān)頁面過濾的功能?？梢酝瓿蓪︽溄拥奶崛?，內(nèi)容的抽取等功能。此時，在 Heritrix 的后臺已經(jīng)對服務(wù)的 8080 端口進行了監(jiān)聽，在瀏覽器中訪問 :8080，就可以打開 Heritrix的 WebUI了。 Heritrix 的啟動方式有多種，這里選擇的是最常用的 WebUI 方式啟動。但是由于需要遍歷所有的圖書鏈接以實現(xiàn)網(wǎng)絡(luò)爬蟲的爬取，我需要編寫 java小程序來抽取鏈接。必要的時候我們甚至要編寫一些 java 小程序生成這些路徑。因為我們要把包含圖書分類的頁面作為爬取源，所以我們要盡量選擇包含所有圖書分類的頁面，如果有固然好，但是實際操作中你會發(fā)現(xiàn)有的網(wǎng)站的圖書分類并不會在一個頁面中顯示出來。首先我們要選擇幾個包含很多圖書信息的網(wǎng)站，并以這些網(wǎng)站來作為 Heritrix 網(wǎng)絡(luò)爬蟲爬取信息的鏈接源。 setDirectories 方法，為其注入所要處理的圖書詳細(xì)信息文件所在的目錄，然后調(diào)用process 方法開始處理圖書信息。具體的操作步驟如下： BookJDBC 類和 BookIndexer 類，來對具體的圖書信息進行處理。首先它要可以從文本文檔中提取出需要的內(nèi)容，來構(gòu)建 Book對象；然后調(diào)用 BookJDBC，向數(shù)據(jù)庫中寫入 Book相關(guān)信息。除此之外項目中的 BookIndexer類中還提供了 optimize（）方法和 close（）方法，分別用來對索引進行優(yōu)化和關(guān)閉索引。 addBook方法，以 Book類型的對象和一個 ID值為參數(shù)，調(diào)用

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)(參考版)

【摘要】濱江學(xué)院畢業(yè)論文(設(shè)計)題目基于Lucene的圖書搜索引擎的設(shè)計與實現(xiàn)院系計算機系專業(yè)軟件工程學(xué)生姓名學(xué)號指導(dǎo)教師

2024-11-21 21:52

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)外文文獻(參考版)

【摘要】濱江學(xué)院畢業(yè)論文（設(shè)計）外文翻譯題目基于Lucene的圖書搜索引擎學(xué)生姓名學(xué)號院系濱江學(xué)院計算機系專業(yè)軟件工程指導(dǎo)教師

2024-11-20 20:22

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)(參考版)

【摘要】基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)摘要Lucene是一個開源的用于制作搜索引擎的框架。目前第二代搜索引擎的設(shè)計思路為利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)源，結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引，利用索引從海量的數(shù)據(jù)源中得到搜索結(jié)果，對搜索的結(jié)

2024-11-11 08:40

基于lucene的全文搜索引擎設(shè)計(參考版)

【摘要】畢業(yè)設(shè)計基于Lucene的全文搜索引擎設(shè)計學(xué)生承諾書本人鄭重承諾：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。

2024-12-08 01:01

基于lucene的全文搜索引擎設(shè)計(參考版)

2025-08-10 15:00

基于lucene的站內(nèi)搜索引擎的設(shè)計實現(xiàn)論文(參考版)

【摘要】畢業(yè)論文第I頁基于LUCENE的站內(nèi)搜索引擎的設(shè)計與實現(xiàn)摘要LUCENE[1]是apache軟件基金會jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，LUCENE

2024-11-14 15:58

基于lucene的全文搜索引擎設(shè)計(參考版)

【摘要】基于Lucene的搜索引擎作者姓名:王旭專業(yè)班級:2010050704指導(dǎo)教師:涂德志摘要從1994年至今，萬維網(wǎng)經(jīng)過了二十年的飛速發(fā)展，當(dāng)前的萬維網(wǎng)數(shù)據(jù)規(guī)模到底有多大無從估量。隨著網(wǎng)絡(luò)信息資源的急劇增長，現(xiàn)如今，信息已經(jīng)不再是一種稀缺的資源，我們的注意力反而變得稀缺了。人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中，抽取出潛在的、有價值的信息，使之有效地在管理和決策中發(fā)

2025-06-25 19:21

基于lucene與heritrix的搜索引擎構(gòu)建(參考版)

【摘要】大連民族學(xué)院本科畢業(yè)設(shè)計（論文）基于Lucene與Heritrix的搜索引擎構(gòu)建學(xué)院（系）：計算機科學(xué)與工程專業(yè)：軟件工程學(xué)生

2025-05-17 13:13

基于java的搜索引擎的設(shè)計與實現(xiàn)(參考版)

【摘要】摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機器人、索引引擎、Web服務(wù)器三個方面進行詳細(xì)的說明。為了更加深刻的理解這種技術(shù)，本人還親自實現(xiàn)了一個自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進行解析、搜索

2025-06-26 07:09

it計算機]基于lucene的桌面搜索引擎(參考版)

【摘要】基于Lucene的桌面全文搜索引擎研究1目錄目錄........................................................................................................................................1摘要.............

2024-11-21 23:14

畢業(yè)論文基于lucene的桌面搜索引擎(參考版)

【摘要】畢業(yè)論文題目：基于Lucene的桌面搜索引擎學(xué)院：管理科學(xué)與工程學(xué)院專業(yè)：信息管理與信息系統(tǒng)

2025-06-05 21:17

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文(參考版)

【摘要】畢業(yè)設(shè)計(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息

2024-12-05 17:12

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文(參考版)

【摘要】1基于Lucene與Heritrix的搜索引擎構(gòu)建畢業(yè)論文摘要...............IAbstract..............II第1章緒論.......1課題的背景及意義................................................................................

2025-06-30 17:38