freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎-文庫吧資料

2024-11-22 04:00本頁面
  

【正文】 結(jié)果集。 沒有匹配程度的控制:比 如有記錄中 出現(xiàn)5詞和出現(xiàn) 1次的,結(jié)果是一樣的。 匹配效果 通過詞元 (term)進(jìn)行匹配,通過語言分析接口的實現(xiàn),可以實現(xiàn)對中文等非英語的支持。 可以通過一下表格對比一下數(shù)據(jù)庫的模糊查詢: Lucene全文索引引擎 數(shù)據(jù)庫 索引 將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一一建立反向索引 對 于 LIKE查詢來說,數(shù)據(jù)傳統(tǒng)的索引是根本用不上的。 由此可以看出模糊查詢相對數(shù)據(jù)庫的精確查詢是一個非常不確定的問題,這也是大部分?jǐn)?shù)據(jù)庫對全文檢索支持有限的原因。所以建立一個高效檢索系統(tǒng)的關(guān)鍵是建立一個類似于科技索引一樣的反向索引機(jī)制,將數(shù)據(jù)源(比如多篇文章)排序順序存儲的同時,有另外一個排好序的關(guān)鍵詞列表,用于存儲關(guān)鍵詞 ==文章映射關(guān)系,利用這樣的映射關(guān)系索引: [關(guān)鍵詞 ==出現(xiàn)關(guān)鍵詞的文章編號,出現(xiàn)次數(shù)(甚至包括位置:起始偏移量,結(jié)束偏移量),出現(xiàn)頻率 ],檢索過程就是把 模糊查詢變成多個可以利用索引的精確查詢的邏輯組合的過程 。 基于的搜索引擎 第 18 頁 共 34 頁 由于數(shù)據(jù)庫索引不是為全文索引設(shè)計的,因此, 使用 like %keyword%時,數(shù)據(jù)庫索引是不起作用的 ,在使用 like查詢時,搜索過程又變成類似于一頁頁翻書的遍歷過程了,所以對于含有模糊 查詢的數(shù)據(jù)庫服務(wù)來說, LIKE對性能的危害是極大的。而數(shù)據(jù)庫索引能夠大大提高查詢的速度原理也是一樣,想像一下通過書后面的索引查找的速度要比一頁一頁地翻內(nèi)容高多少倍 ?? 而索引之所以效率高,另外一個原因是它是排好序的。 總體上看:可以先把 Lucene 當(dāng)成一個支持全文索引的數(shù)據(jù)庫系統(tǒng) 。它 是一個用 Java 寫的全文索引引擎工具包,可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索 引 /檢索功能。此外還用了第三方開發(fā)包 Bot(由 Jeff Heaton 提供的開發(fā)包)。在最后還結(jié)合具體代碼進(jìn)行了詳細(xì)說明。 } 基于的搜索引擎 第 16 頁 共 34 頁 // 當(dāng) Spider程序沒有剩余的工作時調(diào)用這個方法。如果隊列中的字符串應(yīng)當(dāng)刪除,方法返回真。 } // 用 來請求一個被處理的網(wǎng)頁。 public void processPage(HTTP ) { (掃描網(wǎng)頁: + ())。其 他連接指的是非 HTML網(wǎng)頁,可能是 Email或者 FTP public boolean foundOtherLink(String url) { return false。 public boolean foundExternalLink(String url) { return false。 public boolean foundInternalLink(String url) { return false。 ()。 Spider _spider 基于的搜索引擎 第 15 頁 共 34 頁 = new Spider(_searcher, new HTTPSocket(), 100, wl)。 /** * 構(gòu)造一個 Bot程序 */ public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。 import 。 import 。 import 。如果把他們放在內(nèi)存中將會是性能下降,所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的消基于的搜索引擎 第 14 頁 共 34 頁 耗。 數(shù)據(jù)庫技術(shù) 當(dāng) Spider 程序訪問一個大型 Web 站點時,必須使用一種有效的方法來存儲站點隊列。當(dāng)程序等待響應(yīng)的時候其他任務(wù)不能執(zhí)行,這就影 響了程序的效率。瓶頸是一個程序中最慢的部分,他限制了其他任務(wù)的運行。它是在一個程序的內(nèi)部進(jìn)行分工合作。下面就來介紹下幾種提高性能的技術(shù): Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。 public void SpiderComplete()。 public void pletePage(HTTP page,boolean error)。 public boolean foundOtherLink(String url)。下面是他的接口聲明: public interface IspiderReportable{ public boolean foundInternalLink(String url)。接口定義了 Spider 向他的控制者發(fā)送的幾個事件。 流程圖如下所示: 發(fā)現(xiàn) URL 等待隊列 運行隊列 完成隊列 錯誤隊列 完成 URL 基于的搜索引擎 第 12 頁 共 34 頁 把 URL 加入等待隊列 Spider 程序工作完成 等待隊列中是否有 URL? 否 下載從等待隊列中得到的網(wǎng)頁,并將他送入運行隊列中。 如何構(gòu)造 Spider 程序 在構(gòu)造 Spider 程序之 前我們先了解下程序的各個部分是如何共同工作的。只要等待隊列中有一個網(wǎng)頁或 Spider 程序正在處理一個網(wǎng)頁,程序就會繼續(xù)他的工作。該隊列中的 URL 不能被移入其它隊列中 在同一時間 URL 只能在一個隊列中,我們把它稱為 URL 的狀態(tài)。新發(fā)現(xiàn)的 URL 也被加入到這個隊列中 處理隊列 當(dāng) Spider 程序開始處理時,他們被送到這個隊列中 錯誤隊列 如果在解析網(wǎng)頁時出錯, URL 將被送到這里。 雖然這里只描述了一個隊列,但在實際編程中用到了四個隊列,他們每個隊列都保存著同一處理狀態(tài)的 URL。 非遞歸結(jié)構(gòu) 這種方法使用隊列的數(shù)據(jù)結(jié)構(gòu),當(dāng) Spider 程序 發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。 基于的搜索引擎 第 11 頁 共 34 頁 遞歸結(jié)構(gòu) 遞歸是在一個方法中調(diào)用自己本身的程序設(shè)計技術(shù)。 HTMLPage構(gòu)造函數(shù) 構(gòu)造對象并指定用于通訊的 HTTP對象 Public HTMLPage(HTTP ) GetForms方法 獲取最后一次調(diào)用 Open方法檢索到的表單清單 Public Vector getForms() GetHTTP方法 獲取發(fā)送給構(gòu)造函數(shù)的 HTTP對象 Public HTTP getHTTP() GetImage方法 獲取指定頁面的圖片清單 Public Vector getImage() GetLinks方法 獲取指定頁面的連接清單 Public Vector getLinks() Open方法 打開一個頁面并讀入該頁面,若指定了回調(diào)對象則給出所有該對象數(shù)據(jù) Public void open(String url, a) Spider 程序結(jié)構(gòu) 網(wǎng)絡(luò)機(jī)器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁,所以必須找到該頁面上的超連接。 Bot 包中的 HTMLPage 類用來從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。 表格標(biāo)簽 表格 是 HTML 的構(gòu)成 部分,通常用來格式化存放、顯示數(shù)據(jù)。 表單標(biāo)簽 表單 是 Web 頁面中 可以輸入數(shù)據(jù)的單元。 基于的搜索引擎 第 10 頁 共 34 頁 圖像映射標(biāo)簽 圖像映射是另一種非常重要的標(biāo)簽。 超連接標(biāo)簽 超連接定義了 WWW 通過 Inter 鏈接文檔 的功能。在解決如何解析之前,先來介紹下 HTML中 的幾種數(shù)據(jù)。所以網(wǎng)絡(luò)機(jī)器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。 Inter 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。 網(wǎng)絡(luò)機(jī)器人還可以通過掃描 Web 站點的主頁來得到這個站點的文件清單和層次機(jī)構(gòu)。 基于因特網(wǎng)的搜索引擎是 Spider 的最早應(yīng)用。用于查找大量的Web 頁面。在接下來的幾章里將會就本人的設(shè)計進(jìn)行詳細(xì)的分析。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率的,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來保障。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。客戶在瀏覽器中輸入查詢條件, Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。 用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進(jìn)行分級排列并且返回給用戶。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。 為了保證網(wǎng)絡(luò)機(jī)器人 遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。它可以在掃描 WEB 頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。 基于的搜索引擎 第 7 頁 共 34 頁 第二章 搜索引擎的結(jié)構(gòu) 搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從 索引數(shù)據(jù)中查找信息返回給用戶。著名的因特網(wǎng)搜索引擎包括 First Search、 Google、 HotBot 等。每臺微機(jī)運行多個爬蟲程序搜集網(wǎng)頁的峰值速度是每秒 100個網(wǎng)頁,平均速度是每秒 個網(wǎng)頁,一天可以搜集超過 4, 000, 000 網(wǎng)頁 搜索引擎一詞在國內(nèi)外因特網(wǎng)領(lǐng)域被廣泛 使用,然而他的含義卻不盡相同。 Altavista 搜索引擎聲稱他們每天大概要承受 20,000, 000 次查詢。 大約在 1996 年出現(xiàn)的第二代搜索引擎系統(tǒng)大多采用分布式方案(多個微型計算機(jī)協(xié)同工作)來提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量,它們一般都保持一個大約 50, 000, 000 網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應(yīng) 10, 000, 000 次用戶檢索請求。在實現(xiàn)技術(shù)上也基本沿用較為成熟的 IR( Information Retrieval)、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當(dāng)于利用一些已有技術(shù)實現(xiàn)的一個 WWW上的應(yīng)用。這類搜索引擎一般都索引少于 1, 000, 000個網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。 搜索引擎技術(shù)伴隨著 WWW 的發(fā)展是引人注目的。 requests from the web server, it soon searchs the right project form the index engine. In the chapter of introducing search engine, it is not only elaborate the core technology, but also bine with the modern code,pictures included, easy to understand. 基于的搜索引擎 第 5 頁 共 34 頁 第一章 引言 面對浩瀚的網(wǎng)絡(luò)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口,毫不夸張的說,所有的用戶都可以從搜索出發(fā)到達(dá)自己想去的網(wǎng)上任何一個地方。 本人在介紹搜索引擎的章節(jié)中除了詳細(xì)的闡述技術(shù)核心外還結(jié)合了 搜索引
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1