正文內(nèi)容

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)(編輯修改稿)

2024-12-23 21:52 本頁面

　

【文章內(nèi)容簡介】 2020年初， IA 的目的是開發(fā) 一個特殊的爬蟲，對網(wǎng)上的資源進行歸檔，建立網(wǎng)絡(luò)數(shù)字圖書館，在過去的 6 年里，IA 已經(jīng)建立了 400TB 的數(shù)據(jù)。 Heritrix 主要有三大部件：范圍部件，邊界部件，處理器鏈。范圍部件：主要按照規(guī)則決定將哪個 URI 入隊。邊界部件：跟蹤哪個預定的 URI 將被收集，和已經(jīng)被收集的 URI，選擇下一個 URI，剔除已經(jīng)處理過的 URI。處理器鏈：包含若干處理器獲取 URI，分析結(jié)果，將它們傳回給邊界部件。 Heritrix 包含以下關(guān)鍵特性：。 2。從一個提供的種子進行爬，收集站點內(nèi)的精確 URI，和精確主機。 3。主要是用廣度優(yōu)先算法進行處理。 7 4。主要部件都是高效的可擴展的 5。良好的配置，包括： a?？稍O(shè)置輸出日志，歸檔文件和臨時文件的位置 b。可設(shè)置下載的最大字節(jié)，最大數(shù)量的下載文檔，和最大的下載時間。 c。可設(shè)置工作線程數(shù)量。 d?？稍O(shè)置所利用的帶寬的上界。 e。可在設(shè)置之后一定時間重新選擇。 f。包含一些可設(shè)置的過濾機制，表達方式， URI 路徑深度選擇等等。 Heritrix 的局限： 1。單實例的爬蟲，之間不能進行合作。 2。在有限的機器資源的情況下，卻要復雜的操作。 3。只有官方支持，僅僅在 Linux 上進行了測試。 4。每個爬蟲是單獨進行工作的，沒有對更新進行修訂。 5。在硬件和系統(tǒng)失敗時，恢復能力很差。 3 系統(tǒng)設(shè)計系統(tǒng)實現(xiàn)流程圖設(shè) 計人員選擇圖書信息來源網(wǎng) 站及網(wǎng) 頁相關(guān) 網(wǎng) 站內(nèi) 容和網(wǎng)頁分析定向下載相關(guān) 網(wǎng) 站的圖書網(wǎng) 頁內(nèi) 容網(wǎng) 頁內(nèi) 容提取和正則表達式分析建立網(wǎng) 頁內(nèi) 容索引設(shè) 計前臺頁面提供搜索檢索用戶圖系統(tǒng)實現(xiàn)流程圖 8 系統(tǒng)順序圖圖系統(tǒng)順序圖 9 系統(tǒng)狀態(tài)圖圖體統(tǒng)狀態(tài)圖數(shù)據(jù)庫設(shè)計數(shù)據(jù)庫建立圖書信息數(shù)據(jù)庫只需完成對于讀書相關(guān)信息的存儲，所以比較簡單，只需建立 bookInfo 表，如下表：表數(shù)據(jù)庫設(shè)計表列名數(shù)據(jù)類型允許空是否主鍵 id int 非主鍵 name varchar(50) 非 type varchar(50) content varchar(MAX) url varchar(50) imageurl varchar(50) updatetime varchar(64) 10 數(shù)據(jù)庫連接開始J D B C 建立數(shù)據(jù) 庫連接是否完成信息添加關(guān) 閉數(shù) 據(jù) 庫連接向數(shù) 據(jù) 庫添加產(chǎn) 品信息結(jié) 束是否圖數(shù)據(jù)庫表結(jié)構(gòu)圖一、裝入 JDBC 驅(qū)動程序 DriverManager 類管理各種數(shù)據(jù)庫驅(qū)動程序，建立新的數(shù)據(jù)庫連接，以便將 Java 應(yīng)用程序能夠使用正確的 JDBC 驅(qū)動程序。 DriverManager 類包含一系列 Driver 類，它們通過調(diào)用方法對自己進行了注冊。所有 Driver 類都必須包含有一個靜態(tài)方法，利用這個靜態(tài)方法可以創(chuàng)建該類的實例，然后在加載該實例時向 DriverManager 類進行注冊。這樣，用戶正常情況下將不會直接調(diào)用，而是在加載驅(qū)動程序時由驅(qū)動程序自動調(diào)用。可以通過調(diào)用方法 ()，這種方法可以顯式地加載驅(qū)動程序類。如： //裝載并注冊 SQL Server Driver (“”)。 (new ())。二、建立連接建立連接需要使用 DriverManager 類的靜態(tài)方法 getConnection(String url,String username,String password)來建立數(shù)據(jù)庫的連接對象。其中的三個參數(shù)， url 表示連接數(shù)據(jù)庫的 JDBC URL， username 表示連接數(shù)據(jù)庫的用戶名， password 表示連接數(shù)據(jù)庫的密碼。如： //建立 SQL Server Driver 數(shù)據(jù)庫連接 String url = “ jdbc:microsoft: 。DatabaseName=test”。 String username = “sa”。 String password = “123456”。 Connection conn = null。 try{ 11 conn = (url,username,password)。 }catch(Exception e){ ()。 } JBDC URL 的一般格式為： jdbc:drivertype//parameters drivertype 表示驅(qū)動程序的類型， parameters 通常用來設(shè)定數(shù)據(jù)庫服務(wù)器的 IP 地址、端口號以及數(shù)據(jù)庫名稱。三、執(zhí)行 SQL 語句與數(shù)據(jù)庫建立連接之后，就可以向所連接的數(shù)據(jù)庫發(fā)送 SQL 語句。 JDBC 提供了 3 個類，它們由Connection 來創(chuàng)建這些類的對象。這 3 個對象分別是 Statement 對象， PreparedStatement 對象，以及CallableStatement 對象。它們都可以作為執(zhí)行 SQL 語句的容器。每一個都專用于發(fā)送特定類型的 SQL 語句。 1) Statement 對象用語執(zhí)行不帶參數(shù)的簡單 SQL 語句，由方法 createStatement 所創(chuàng)建。 2） PreparedStatement 對象用語執(zhí)行帶參數(shù)或不帶參數(shù)的預編譯 SQL 語句，由 PreparedStatement 創(chuàng)建。 PreparedStatement 接口繼承自 Statement 接口，其功能更加的強大。在 PreparedStatement 對象所使用的 SQL語句中，包含了經(jīng)過預編譯的 SQL 語句，因此可以獲得更高的執(zhí)行效率，同時使用起來也更加的方便。在PreparedStatement 對象所使用的 SQL 語句中，可以包含多個用 ”?”代表的字段，同時也可以是哦那個setXXXX()的方法來設(shè)置該字段的內(nèi)容，從而增強了程序的動態(tài)性。 3） CallableStatement 對象用于執(zhí)行對數(shù)據(jù)庫存儲過程的調(diào)用，由方法 prepareCall 所創(chuàng)建。 CallableStatement用于執(zhí)行 SQL 存儲過程 —— 一組通過名稱來調(diào)用（就像函數(shù)的調(diào)用那樣）的 SQL 語句。四、檢索結(jié)果 SQL 語句發(fā)送以后，返回的結(jié)果通常存放在一個 ResultSET 類的對象中，可將 ResultSet 對象看做一個表，這個表中包含由 SQL 返回的列名和相應(yīng)的值， ResultSet 對象中維持了一個指向當前的指針，通過一系列的 getXXXX()方法，可以檢索當前行的各個列，并顯示出來。五、關(guān)閉連接在對象使用完畢后，應(yīng)當使用 close（）方法解除與數(shù)據(jù)庫的連接，并關(guān)閉數(shù)據(jù)庫。關(guān)閉數(shù)據(jù)庫的語句為： ()。索引建立 Lucene的索引過程從 IndexWriter 的 addDocument 方法開始。在 Lucene 的 API 中， IndexWriter 的主要職責是向索引中加入文檔，它提供了建立索引的只要外部借口，但是它的具體實現(xiàn)，也就是索引的寫入過程是由 DocumentWriter來完成的。因此，在整個 Lucene中，最繁瑣的對數(shù)據(jù)源分詞、計算出現(xiàn)頻率和位置，以及寫索引過程，實際上是發(fā)生在 DocumentWriter 中的。在 DocumentWriter中完成了向索引的一些情況進行判斷，并作進一步的合并索引等操作。其基本流程步驟如下： JE分詞的 MMAnalyzer 的實例，用于對文本進行中文分詞和文本分隔處理。 12 ，將前面所處理的詞庫進行加載，相關(guān)的文件存儲位置通過項目中的配置管理類實例 PropertyConfiguration 得到。 addBook方法，以 Book類型的對象和一個 ID值為參數(shù)，調(diào)用方法處理，生成 Lucene的 Document文檔對象。 IndexWriter 的 addDocument 方法，加入索引中，完成索引的創(chuàng)建和追加。除此之外項目中的 BookIndexer類中還提供了 optimize（）方法和 close（）方法，分別用來對索引進行優(yōu)化和關(guān)閉索引。索引創(chuàng)建的程序流程圖如圖：開始創(chuàng) 建 J E 分詞的M M A n a l y z e r創(chuàng) 建文件讀取F i l e R e a d e r 并與分詞器關(guān) 聯(lián)創(chuàng) 建索引寫入對象 I n d e x W r i t e r是否完成信息添加關(guān) 閉所有對象連接結(jié) 束創(chuàng) 建圖書D o c u m e n t 文檔索引對象添加文檔到索引文件是否圖索引創(chuàng)建流程圖圖書信息綜合處理項目中需要建立一個類，把數(shù)據(jù)庫操作、索引操作都集中起來。首先它要可以從文本文檔中提取出需要的內(nèi)容，來構(gòu)建 Book對象；然后調(diào)用 BookJDBC，向數(shù)據(jù)庫中寫入 Book相關(guān)信息。另外，再調(diào)用 BookIndexer,把 Book對象加入到索引中。具體的操作步驟如下： BookJDBC 類和 BookIndexer 類，來對具體的圖書信息進行處理。，并生成一個 BookTextFileProcessor 的實例后，需要調(diào)用其 initialize 方法來初始化 BookJDBC 類的實例和 BookIndexer 的實例。 setDirectories 方法，為其注入所要處理的圖書詳細信息文件所在的目錄，然后調(diào)用process 方法開始處理圖書信息。程序的流程圖如下頁圖： 13 開始向索引中添加B o o k 對象信息存入數(shù) 據(jù) 庫生成圖書信息摘要生成一個B o o k 對象是否完成信息添加優(yōu) 化索引結(jié) 束是否遍歷目錄讀取圖書屬性信息圖數(shù)據(jù)庫、索引綜合處理流程圖 4 系統(tǒng)實現(xiàn) 使用 Heritrix 抓取目標網(wǎng)站選擇目標網(wǎng)站選擇目標網(wǎng)站看似是一個很簡單的過程，但是實際操作起來你就會發(fā)現(xiàn)其實不然。首先我們要選擇幾個包含很多圖書信息的網(wǎng)站，并以這些網(wǎng)站來作為 Heritrix 網(wǎng)絡(luò)爬蟲爬取信息的鏈接源。在選定了網(wǎng)站之后就要對這些網(wǎng)站的網(wǎng)頁進行分析。因為我們要把包含圖書分類的頁面作為爬取源，所以我們要盡量選擇包含所有圖書分類的頁面，如果有固然好，但是實際操作中你會發(fā)現(xiàn)有的網(wǎng)站的圖書分類并不會在一個頁面中顯示出來。這就要求我們對網(wǎng)站頁面源代碼進行仔細分析，找出目錄的路徑以供 Heritrix 進行爬去。必要的時候我們甚至要編寫一些 java 小程序生成這些路徑。在本項目中我選用新書城網(wǎng)（）做為搜索源。但是由于需要遍歷所有的圖書鏈接以實現(xiàn)網(wǎng)絡(luò)爬蟲的爬取，我需要編寫 java小程序來抽取鏈接。配置 Heritrix、開始抓取在做好以上的準備工作之后，開始啟動 Heritrix進行任務(wù)的抓取。 Heritrix 的啟動方式有多種，這里選擇的是最常用的 WebUI 方式啟動。在 MyEclipse 配置好 Heritrix，運行這個類。此時，在 Heritrix 的后臺已經(jīng)對服務(wù)的 8080 端口進行了監(jiān)聽，在瀏覽器中訪問 :8080，就可以打開 Heritrix的 WebUI了。如下圖： 14 圖 WebUI 界面下面要做的就是根據(jù)新書城網(wǎng)（）的網(wǎng)頁特點，開發(fā)定制的下載擴展處理模塊?？梢酝瓿蓪︽溄拥奶崛?，內(nèi)容的抽取等功能。定制的網(wǎng)絡(luò)爬蟲要求不保存其他無關(guān)頁面。因此，需要擴展Heritrix，以實現(xiàn)無關(guān)頁面過濾的

點擊復制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

全文搜索引擎的設(shè)計與實現(xiàn)-外文翻譯-資料下載頁

【總結(jié)】江漢大學畢業(yè)論文（設(shè)計）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計姓名XXXX

2025-01-18 14:15

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】本科畢業(yè)設(shè)計題目：基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)系別：專業(yè)：計算機科學與技術(shù)班級：學號：

2025-11-14 16:36

基于java技術(shù)搜索引擎的研究及實現(xiàn)-資料下載頁

【總結(jié)】基于JAVA技術(shù)的搜索引擎的研究與實現(xiàn)網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機器人、索引引擎、Web服務(wù)器三個方面進行詳細的說明。為了更加深刻的理解這種技術(shù)，本人還親自實現(xiàn)了一個自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進行

2025-06-19 17:35

jsp基于產(chǎn)品的搜索引擎-資料下載頁

【總結(jié)】基于的搜索引擎第1頁共34頁目錄目錄.................................................................................................................................1摘要....................

2025-11-05 04:00

基于php的圖片搜索引擎-資料下載頁

【總結(jié)】i簡易圖片采集器以及搜索引擎的實現(xiàn)摘要：因特網(wǎng)上的信息浩瀚萬千，而且毫無秩序，所有的信息像汪洋上的一個個小島，網(wǎng)頁鏈接是這些小島之間縱橫交錯的橋梁，而搜索引擎，則為用戶繪制一幅一目了然的信息地圖，供用戶隨時查閱。搜索引擎指自動的從因特網(wǎng)上搜集信息，經(jīng)過一定整理后，提供給用戶進行查詢的系統(tǒng)。它利用稱為網(wǎng)絡(luò)蜘蛛的自動搜索機器人程序來搜集信息；通

2025-11-03 15:13

搜索引擎課件介紹學習搜索引擎的人必看的-資料下載頁

【總結(jié)】WBIACourseProjectIntroductionPengBoNov12,2022What’sCourseProject??WBIA課程學習的一個環(huán)節(jié)?通過實現(xiàn)實際系統(tǒng)或者實驗，驗證解決一個問題的想法?Problem/Goal?與課程內(nèi)容相關(guān)(與Web信息處理技術(shù)相關(guān)的問題)?研究性題目、應(yīng)用型題目均可

2025-08-04 16:52

全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學本科畢業(yè)論文（設(shè)計）I全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文目錄1緒論...................................................................................1課題背景及介紹.....................................

2025-06-28 12:48

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

【總結(jié)】江漢大學本科畢業(yè)論文（設(shè)計）I作者聲明本人鄭重聲明：所呈交的學位論文是本人在導師的指導下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學位論文的規(guī)定，同意學校保留并向有關(guān)學位論文管理機構(gòu)送交論文的復印件和電子版。同意省級優(yōu)秀學位

2025-06-28 13:40

基于nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】山東大學本科畢業(yè)論文畢業(yè)論文(設(shè)計)論文（設(shè)計）題目:基于Nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)姓名學號學院專業(yè)

2025-07-01 14:32

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-資料下載頁

2025-08-18 16:43

基于web搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-資料下載頁

【總結(jié)】本科畢業(yè)論文（設(shè)計、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計與實現(xiàn)DesignandImplementationofWeb-basedsearchengine2摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細介紹了基于英特網(wǎng)的搜索引擎的系

2025-06-23 21:36

基于nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

【總結(jié)】山東大學本科畢業(yè)論文畢業(yè)論文(設(shè)計)論文（設(shè)計）題目:基于Nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)姓名學號學院專業(yè) 年級指

2025-06-27 22:53

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)論文作者姓名：申請學位專業(yè)：申請學位類別：指導教師姓名（職稱）：論文提交日期：基于Ajax+Lucene構(gòu)建搜索引擎的設(shè)計與實現(xiàn)摘要通過搜索引擎從互聯(lián)網(wǎng)上獲取有用信息已經(jīng)成為人們生活的重要組成部分，Lucene是構(gòu)建搜索引擎的其

2025-08-24 11:23

畢業(yè)論文搜索引擎的研究與實現(xiàn)-資料下載頁

【總結(jié)】奧搜科技有限公司——搜索引擎的研究與實現(xiàn)開發(fā)時間：2022年4月目錄目錄....................................................................................................................................................1

2025-06-19 17:55

搜索引擎的發(fā)展與分類-資料下載頁

【總結(jié)】搜索引擎的發(fā)展與分類單位：寧夏賀蘭縣逸揮基金回民中學授課：王華搜索引擎的發(fā)展與分類【教學目標】知識與技能：1、通過嘗試與分析，了解英特網(wǎng)信息檢索工具的類型與特點；知道搜索引擎、元搜索引擎（有稱集成搜索引擎）等因特網(wǎng)信息檢索工具的產(chǎn)生背景、原理與發(fā)展趨勢。2、能夠根據(jù)實際需求選擇恰當?shù)姆绞椒椒ǎ靡蛱鼐W(wǎng)獲取所需信息、

2025-06-25 07:18