【正文】
組合的過程。 Lucene 的原理分析 全文檢索的實(shí)現(xiàn)機(jī)制 Lucene 的 API 接口設(shè)計(jì)的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫(kù)的表 ==記錄==字段 ,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫(kù)等都可以比較方便的映射到 Lucene 的存儲(chǔ)結(jié)構(gòu)和接口中。 本人在編程中運(yùn)用了 JavaTM 技術(shù),主要涉及到了 和 io 兩個(gè)包。 public boolean getRemoveQuery() { return true。 18 new HTMLParse().start()。 } // 當(dāng)發(fā)現(xiàn)其他連接時(shí)調(diào)用這個(gè)方法。 } // 發(fā)現(xiàn)內(nèi)部連接時(shí)調(diào)用, url 表示程序發(fā)現(xiàn)的 URL,若返回 true 則加入作業(yè)中,否則不加入。 Searcher _searcher = new Searcher()。 import 。 網(wǎng)絡(luò)機(jī)器人的代碼分析 程序結(jié)構(gòu)圖如下: 圖 3 網(wǎng)絡(luò)機(jī)器人 程 序結(jié)構(gòu)圖 程序代碼實(shí)現(xiàn)如下: package news。如果用多線程技術(shù)可以讓這些網(wǎng)頁(yè)的等待時(shí)間合在一起,不用互相影響,這就可以極大的改進(jìn)程序性能。 優(yōu)化程序的通常方法是確定瓶頸并改進(jìn) 它 。 } 如何提高程序性能 Inter 中擁有海量的 Web 頁(yè)面,如果開發(fā)出高效的 Spider 程序是非常重要的。 public void processPage(HTTP page)。通過提供對(duì)每個(gè)事件的處理程序,可以創(chuàng)建各種 Spider 程序。以及如何對(duì)這個(gè)程序進(jìn)行擴(kuò)展。 13 圖 1 隊(duì)列的變化過程 以上的圖表示了隊(duì)列的變化過程,在這個(gè)過程中,當(dāng)一個(gè) URL 被加入到等待隊(duì)列中時(shí) Spider 程序就會(huì)開始運(yùn)行。新發(fā)現(xiàn)的 URL也被加入到這個(gè)隊(duì)列中。 12 HTMLPage 構(gòu)造函數(shù) : 構(gòu)造對(duì)象并指定用于通訊的 HTTP 對(duì)象 Public HTMLPage(HTTP ) GetForms 方法 : 獲取最后一次調(diào)用 Open 方法檢索到的表單清單 Public Vector getForms() GetHTTP 方法 : 獲取發(fā)送給構(gòu)造函數(shù)的 HTTP 對(duì)象 Public HTTP getHTTP() GetImage 方法 : 獲取指定頁(yè)面的圖片清單 Public Vector getImage() GetLinks 方法 : 獲取指定頁(yè)面的連接清單 Public Vector getLinks() Open 方法 :打開一個(gè)頁(yè)面并讀入該頁(yè)面,若指定了回調(diào)對(duì)象則給出所有該對(duì)象數(shù)據(jù) Public void open(String url, a) Spider 程序結(jié)構(gòu) 網(wǎng)絡(luò)機(jī)器人必須從一個(gè)網(wǎng)頁(yè)遷移到另一個(gè)網(wǎng)頁(yè),所以必須找到 該頁(yè)面上的超連接。 我們?cè)谶M(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽,只需要對(duì)其中幾種重要的進(jìn)行解析即可。 Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上,而 HTTP又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上,它同時(shí)也是一種 Socket 協(xié)議。例如搜索巨頭 Google 公司,就利用網(wǎng)絡(luò)機(jī)器人程序來遍歷 Web 站點(diǎn),以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫(kù)。 11 第三章 網(wǎng)絡(luò)機(jī)器人 什么是網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人又稱為 Spider 程序,是一種專業(yè)的 Bot 程序。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。 Web 服務(wù)器 客戶一般通過瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供 Web 服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行連接。 索引與搜索 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過 SQL直接查詢信息速度將會(huì)難以忍受。 圖 1 搜索引擎 的 系統(tǒng)結(jié)構(gòu) 搜索引擎的構(gòu)成 網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛” (Spider),是一個(gè)功能很強(qiáng)的 WEB掃描程序。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性搜索功能的設(shè)置和用戶檢索界面的友好性上 ,查全率和查準(zhǔn)率都比較高。 在這個(gè)方面有兩個(gè)主要的發(fā)展方向:其一,純凈搜索引擎。其二,非 信息的搜索。其三,去掉結(jié)果中的附加信息。自然語言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。 搜索引擎經(jīng)過幾年的發(fā)展和摸索,越來越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。 第三代搜索引擎年代的劃分和主要特性至今沒有統(tǒng)一的認(rèn)識(shí),不過至少可以肯定的是:第三代搜索引擎是對(duì)第二代搜索引擎在搜索技術(shù)上的改進(jìn),主要增加了互動(dòng)性和個(gè)性化等高級(jí)的技術(shù),為用戶使用搜 索引擎獲取信息獲得更好的體驗(yàn)。這類搜索引擎一般都索引少于 1, 000, 000 個(gè)網(wǎng)頁(yè),極少 重新搜集網(wǎng)頁(yè)并去刷新索引。在沒有搜索引擎的時(shí)代,用戶希望尋找某方面的信息,就必須通過各種途徑或者是網(wǎng)站之間的連接尋找,可以這樣說,脫離 了 搜索引擎的網(wǎng)站,就像是信息海洋中的一個(gè)一個(gè)孤島 ,用戶必將面臨巨大的搜索成本,同時(shí)必須付出大量的時(shí)間和精力。 用戶接口設(shè)計(jì) .................................. 錯(cuò)誤 !未定義書簽。 LUCENE與 SPIDER的結(jié)合 .......................... 錯(cuò)誤 !未定義書簽。 LUCENE的原理分析 .............................. 錯(cuò)誤 !未定義書簽。 網(wǎng)絡(luò)機(jī)器人的代碼分析 ........................ 錯(cuò)誤 !未定義書簽。 Network robot。 關(guān)鍵詞:搜索引擎 。 本科畢業(yè)論文(設(shè)計(jì)、創(chuàng)作) 題目: 基于 Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) Design and Implementation of Webbased search engine 學(xué)生姓名: 楊衛(wèi)中 學(xué)號(hào): 0802115 所在院系: 信息與通信技術(shù)系 專業(yè): 電子信息工程 入學(xué)時(shí)間: 2020 年 9 月 導(dǎo)師姓名: 雷迎科 職稱 /學(xué)位: 博士 導(dǎo)師所在單位: 信息與 通信技術(shù)系 完成時(shí)間: 2020 年 5 月 安徽三聯(lián)學(xué)院教務(wù)處 制 2 摘 要 網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。在次基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一種快捷高效的新聞搜索引擎,該搜索引擎是從指定的 Web 頁(yè)面中按照超連接進(jìn)行解析、搜索,并把搜索到的 每條新聞進(jìn)行索引后加入數(shù)據(jù)庫(kù) ,然后通過 Web 服務(wù)器接受客戶端請(qǐng)求后從索引數(shù)據(jù)庫(kù)中搜索出所匹配的新聞。Web 服務(wù)器 Abstact The work resources are very rich, but how effective search information is a difficult thing. Build a search engine is the best way to solve the problem. This paper first introduced the Inter search engine based on the structure of the system, and then from the work robots, indexing engine, the Web server of the three aspects of the detailed instructions. Based on the time designed and realized a quick and efficient news search engine, the search engine from the Web page in accordance with specified in the connection for analytical, search, and the search to every news indexing of add to the database. Then through the Web server accept client requests from database search index after the news of the match. Keywords: search engine。 如何提高程序性能 .......................... 錯(cuò)誤 !未定義書簽。 5 什么是 LUCENE全文檢索 .......................... 錯(cuò)誤 !未定義書簽。 中文切分詞機(jī)制 ........................... 錯(cuò)誤 !未定義書簽。 什么是基于 TOMCAT的 WEB服務(wù)器 .................. 錯(cuò)誤 !未定義書簽。 在 TOMCAT上部署項(xiàng)目 ........................................... 30 小結(jié) ......................................................... 30 第 六 章 項(xiàng)目總結(jié)以及未來工作展望 ................................... 31 項(xiàng)目總結(jié) .....................................................