正文內容

基于lucene的全文搜索引擎設計(編輯修改稿)

2025-01-09 01:01 本頁面

　

【文章內容簡介】 URIs have been discovered）（ 2）正在被處理的 URI（ URIs are being processed (fetched)）（ 3）已經處理的 URI（ URIs have been processed） TeoThread(處理線程 )： Heritrix 是多線程的，每一個 URI 被一個 ToeThread 處理。 Processor(處理器 )： 11 圖 8 處理器的整個結構圖許多 Processor 組成一個處理鏈（ processor chains）中 ,每一個處理鏈對 URI 進行一系列的處理。 (1)Prefetch processing chain(預處理鏈 )：主要根據 robot 協(xié)議， DNS 以及下載范圍控制信息判斷當前 URI 是否應當處理。 (2)Fetch processing chain（抓取處理鏈）：從遠程服務器獲取數據 (3) Extractor processing chain（抽取處理鏈）：從網頁中抽取新的 URI (4)Write/index processing chain（寫處理鏈）：負責把數據寫入本地磁盤 (5)Postprocessing chain（后置處理鏈）：由 CrawlStateUpdater ， LinksScoper ，FrontierScheduler 構成。網頁分析與提取模塊在提取網頁數據的時候，是使用 Java 庫 —— HtmlParser 來提取網頁信息的。 HtmlParser采用了經典的 Composite 模式，通過 RemarkNode、 TextNode、 TagNode、 AbstractNode和 Tag 來描述 HTML 頁面各元素。 12 圖 9 htmlparser 對 html頁面處理的數據結構索引建立模塊使用 Lucene 建立索引，主要使用到 Document， Field， IndexWriter 等幾個類和接口。 Document 在 Lucene 中代表一種邏輯文件。 Lucene 本身無法對物理文件建立索引，而只能識別并處理 Document 類型的文件。在某些時候可以將每個 Document 與一個物理文件進行對應，用一個 Document 來代替一個文件，然而更多時候， Document 和物理文件沒有關系，它是作為一種數據源的集合，向 Lucene 提供原始的要索引的內容。 Lucene從 Document 取出相關的數據源，并根據屬性配置進行相應的處理。圖 10 Document 與多個文件的數據源在 Lucene 中，數據源是由一個被稱為 Field 的類來表示的。通常情況下可以直接通過Document 文件名文件名文件名文件名物理文件物理文件物理文件物理文件 13 Field 的構造函數來創(chuàng) 建一個 Field 類型的對象。這個 Field 類型主要是用來標識當前的數據源的各種屬性，存儲來自數據源的數據內容。 Lucene 在對每個 Field 進行處理時，會充分考慮到數據源的各種屬性，以此做出不同的處理。圖 11 Document 與 Field 的關系在用戶構建完 Document 并為其加入合適的 Field 后，就需要 Lucene 來為其建立索引了。在 Lucene 中， IndexWriter 主要作用是對索引進行創(chuàng)建，加入 Document，合并各種索引斷，以及控制與索引相關的各方面，它是 Lucene 的索引的主要操作者。初始化一個分析器對象，作為參數傳入 W r i t e r傳入建立索引的路徑，即用戶希望建索引建立的位置為該目錄上寫鎖用戶希望把索引目錄下原來的內容刪去嗎？創(chuàng) 建新的 s e g m e n t s 文件，并寫入版本號，修改次數等信息讀取原來的 s e g m e n t s 文件，讀出版本號，段信息等W r i t e r 對象初始化完畢YN 圖 12 IndexWriter 的初始化過程 Lucene Document Field Field Field 14 Web 搜索模塊 Lucene 里面與搜索相關的 API 多數都被包含在包中。其中，最重要的是 IndexSearcher 類。 IndexSearcher 在執(zhí)行其任何操作前，必須獲得一個索引目錄。搜索代碼如下： //初始化一個 IndexSearcher IndexSearcher searcher = new IndexSearcher( //構建一個 Term對象 Term term = new Term(bookname,女 )。 //構建一個 Query對象 Query query = new TermQuery(term)。 //檢索 Hits hits = (query)。 //顯示查詢結果 for(int i = 0。i()。i++){ ((i))。 } 在上面的代碼中還涉及到兩個類： Query 類和 Hits 類。 Query 便是一個查找請求。此處使用 TermQuery 類對其進行初始化，它表示查找“ bookname”域中，包含“女”這個關鍵字的文檔。 Hits 表示查找結果。通過它可以訪問檢索到的 Document。當用戶進去搜索主頁，并進行搜索的時候，時序圖如下： 15 圖 13 搜索時序圖 ProductsDao：實體 Products 的數據庫操作接口，負責將數據信息寫入，修改，刪除，查找。 SearchDao：索引的操作接口，負責根據關鍵字從索引中搜索出對象 Product 的 Id。 SearchService：整個 Web 服務的接口，負責調用 ProductDao 和 SearchDao。 4 詳細設計 Web 爬蟲的配置和擴展作為一個優(yōu)秀的網頁抓取軟件， Heritrix 的優(yōu)點在于可以自定義 Heritrix 的抓取任務和擴展它的功能使之能夠適合我們要展開的抓取任務。所以我們要通過擴展FrontierScheduler 來抓取特定的內容。 FrontierScheduler 是一個 PostProcessor，它的作用是將在 Extractor 中所分析得出的鏈接加入到 Frontier 中，以待繼續(xù)處理。擴展FrontierScheduler 需要繼承這個類，并且重寫 schedule 這個方法。 public class FrontierSchedulerForYouMoblie extends FrontierScheduler { private static final long serialVersionUID = 8835919182532315927L。 @SuppressWarnings(unused) 16 private static Logger LOGGER = Logger .getLogger(())。 // 構造函數 public FrontierSchedulerForYouMoblie(String name) { super(name)。 } protected void schedule(CandidateURI caUri) { // 取得 URL的字符串 String url = ()。 try { // URL選擇策略 if (() != 1 || () != 1 || () != 1 || (dns:) != 1) { getController().getFrontier().schedule(caUri)。 } else { return。 } } catch (Exception e) { ()。 } finally { } } } 以上代碼就是我們擴展的 FrontierScheduler 使得 Heritrix 只能抓取站點。對于以外的內容是不會被抓取下來的。當擴展完畢的時候，還要在 Heritrix 的模塊配置文件添加聲明自定義配置 |FrontierSchedulerForYouMoblie 網頁的分析與數據提取對于本檢索系統(tǒng)，主要是將手機產品信息做為數據信息提供給使用者搜索，并返回相關產品信息。所以當我們要對抓取下來的網頁進行分析提取數據的時候主要是手機的相關信息。比如：手機的圖片，手機的參數還有就是產品的連接。根據頁面信息設計了兩個類用于從頁面中提取我們需要的信息。 17 圖 14 網頁信息提取類圖如上圖所示， Extractor 是一個抽象類，里面有一個抽象方法 extract。對于不同的網頁結構我們需要提取不同的數據，就需要不同的實現方式。所以類 ExtractYouMobile繼承 Extractor 并實現抽象方法，實現對網頁信息的提取。 18 開始結束定義標題節(jié)點過濾器使用解析器迭代遍歷節(jié) 點是否找到相應節(jié) 點N將節(jié) 點內容寫入文件Y 圖 15 標題節(jié)點內容提取流程圖 public void extract() { BufferedWriter bw = null。 //定義三個過濾器 NodeFilter title_filter = new AndFilter(new TagNameFilter(div), new HasAttributeFilter(class, mo_tit))。 NodeFilter attribute_filter = new AndFilter(new TagNameFilter(p), new HasChildFilter(new AndFilter(new TagNameFilter(span), new HasAttributeFilter(class, gn_sp1 blue1))))。 NodeFilter img_filter = new AndFilter(new TagNameFilter(span), new HasChildFilter(new TagNameFilter(img)))。 // 提取標題信息 try { // Parser 根據過濾器返回所有滿足過濾條件的節(jié)點 // 迭代逐漸查找 NodeList nodeList = ().parse(title_filter)。 NodeIterator it = ()。 StringBuffer title = new StringBuffer()。 while (()) { Node node = (Node) ()。 String[] names = ().split( )。 for (int i = 0。 i 。 i++) (names[i]).append()。 (new Date().getTime())。 // 創(chuàng)建要生成的文件 bw = new BufferedWriter(new FileWriter(new File(this .getOutputPath() 19 + title + .txt)))。 // 獲取當前提取頁的完整 URL 地址 int startPos = ().indexOf(mirror) + 6。 String url_seg = ().substring(startPos)。 url_seg = (\\\\, /)。 String url = :/ + url_seg。 // 寫入當前提取頁的完整 URL 地址 (url + NEWLINE)。//產品地址 (names[0] + NEWLINE)。//品牌 (names[1] + NEWLINE)。//型號 } // 重置 Parser ().reset()。 Parser attNameParser = null。 Parser attValueParser = null。 //定義兩個過濾器，屬性過濾器和值過濾器 NodeFilter attributeName_filter = new AndFilter(new TagNameFilter( span), new

點擊復制文檔內容

研究報告相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于lucene的全文搜索引擎設計(編輯修改稿)

全文搜索引擎的設計與實現-外文翻譯-資料下載頁

基于java的搜索引擎的設計與實現-資料下載頁

4搜索引擎營銷實訓搜索引擎營銷概論-資料下載頁

jstaaa搜索引擎-資料下載頁

全文搜索引擎技術的研究和實現-資料下載頁

搜索引擎的使用-資料下載頁

搜索引擎的使用-資料下載頁

全文搜索引擎的設計與實現畢業(yè)論文-資料下載頁

全文搜索引擎的設計與實現-畢業(yè)論文-資料下載頁

搜索引擎教案-資料下載頁

dxaaaa搜索引擎-資料下載頁

搜索引擎營銷-資料下載頁

全文搜索引擎的設計與實現-畢業(yè)論文-資料下載頁

基于java語言的搜索引擎開發(fā)論文-資料下載頁

搜索引擎外文翻譯-資料下載頁

基于lucene的全文搜索引擎設計-資料下載頁

基于lucene的全文搜索引擎設計(參考版)

基于lucene的全文搜索引擎設計-文庫吧資料

基于lucene的全文搜索引擎設計-展示頁

基于lucene的全文搜索引擎設計-在線瀏覽