正文內(nèi)容

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-文庫吧資料

2025-06-29 21:36本頁面

　　

【正文】單詞。可定制性通過不同的語言分析接口實現(xiàn)，可以方便的定制出符合應用需要的索引規(guī)則（包括對中文的支持）沒有接口或接口復雜，無法定制結(jié)論高負載的模糊查詢應用，需要負責的模糊查詢的規(guī)則，索引的資料量比較大使用率低，模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少中文切分詞機制對于中文來說，全文索引首先還要解決一個語言分析的問題，對于英文來說，語句中單詞之間是天然通過空格分開的，但亞洲語言的中日韓文語句中的字是一個字挨一個，所以，首先要把語句中按“詞”進行索引的話，這個詞如何切分出來就是一個很大的問題。結(jié)果輸出通過特別的算法，將最匹配度最高的頭 100條結(jié)果輸出，結(jié)果集返回所有的結(jié)果集，在匹配條目非常多的時候（比如上萬條）需要大22是緩沖式的小批量讀取的。使用：like %% 會把herlands也匹配出來，多個關鍵詞的模糊匹配：使用 like %%%：就不能匹配詞序顛倒的 ..匹配度有匹配度算法，將匹配程度（相似度）比較高的結(jié)果排在前面。數(shù)據(jù)需要逐個便利記錄進行 GREP式的模糊匹配，比有索引的搜索速度要有多個數(shù)量級的下降。Lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制，并提供了擴展接口，以方便針對不同應用的定制。從而大大提高了多關鍵詞查詢的效率，所以，全文檢索問題歸結(jié)到最后是一個排序問題。如果是需要對多個關鍵詞進行模糊匹配：like%keyword1% and like %keyword2% ...其效率也就可想而知了?？傮w上看：可以先把 Lucene當成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。它是一個用 Java寫的全文索引引擎工具包，可以方便的嵌入到各種應用中實現(xiàn)針對應用的全文索引/檢索功能。此外還用了第三方開發(fā)包 Bot。在最后還結(jié)合具體代碼進行了詳細說明。 }// 當 Spider程序沒有剩余的工作時調(diào)用這個方法。如果隊列中的字符串應當刪除，方法返回真。 }// 用來請求一個被處理的網(wǎng)頁。 public void processPage(HTTP ) { (掃描網(wǎng)頁： + ())。其他連接指的是非 HTML網(wǎng)頁，可能是 Email或者 FTP public boolean foundOtherLink(String url) { return false。 public boolean foundExternalLink(String url) { return false。 public boolean foundInternalLink(String url) { return false。 ()。 Spider _spider = new Spider(_searcher, new HTTPSocket(), 100, wl)。/** * 構(gòu)造一個 Bot程序 */18public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。import 。import 。/** * 新聞搜索引擎* 計算機 99630 沈晨 * 版本 */import 。如果把他們放在內(nèi)存中17將會是性能下降，所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的消耗。數(shù)據(jù)庫技術當 Spider程序訪問一個大型 Web站點時，必須使用一種有效的方法來存儲站點隊列。當程序等待響應的時候其他任務不能執(zhí)行，這就影響了程序的效率。瓶頸是一個程序中最慢的部分，它限制了其他任務的運行。它是在一個程序的內(nèi)部進行分工合作。下面就來介紹下幾種提高性能的技術：Java的多線程技術線程是通過程序的一條執(zhí)行路線。public void SpiderComplete()。public void pletePage(HTTP page,boolean error)。public boolean foundOtherLink(String url)。下面是他的接口聲明：public interface IspiderReportable{public boolean foundInternalLink(String url)。接口定義了 Spider向他的控制者發(fā)送的幾個事件。流程圖如下所示：14把 URL 加入等待隊列Spider 程序工作完成等待隊列中是否有 URL？否下載從等待隊列中得到的網(wǎng)頁，并將他送入運行隊列中。如何構(gòu)造 Spider 程序在構(gòu)造 Spider程序之前我們先了解下程序的各個部分是如何共同工作的。只要等待隊列中有一個網(wǎng)頁或 Spider程序正在處理一個網(wǎng)頁，程序就會繼續(xù)他的工作。該隊列中的 URL不能被移入其它隊列中在同一時間 URL只能在一個隊列中，我們把它稱為 URL的狀態(tài)。處理隊列: 當 Spider程序開始處理時，他們被送到這個隊列中錯誤隊列: 如果在解析網(wǎng)頁時出錯，URL 將被送到這里。等待隊列:在這個隊列中，URL 等待被 Spider程序處理。程序首先解析網(wǎng)頁的 HTML代碼，查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn) Spider程序。下面給出該類幾種重要的方法。文本：除了腳本和標簽之外的所有數(shù)據(jù)注釋：程序員留下的說明文字，對用戶是不可見的簡單標簽：由單個表示的 HTML標簽開始標簽和結(jié)束標簽：用來控制所包含的 HTML代碼我們在具體解析這些 HTMl標簽有兩種方法：通過 JavaTM中的 Swing類來解析或者通過 Bot包中的 HTMLPage類來解析，本人在實際編程中采用后者。在解決如何解析之前，先來介紹下 HTML中的幾種數(shù)據(jù)。所以網(wǎng)絡機器人本質(zhì)上是一種基于 Socket的網(wǎng)絡程序。網(wǎng)絡機器人的結(jié)構(gòu)分析 Inter是建立在很多相關協(xié)議基礎上的，而更復雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。網(wǎng)絡機器人還可以通過掃描 Web站點的主頁來得到這個站點的文件清單和層次機構(gòu)?；谝蛱鼐W(wǎng)的搜索引擎是 Spider的最早應用。用于查找大量的 Web頁面。在接下來的幾章里將會就本人的設計進行詳細的分析。好的搜索引擎應該是具有較快的反應速度和高召回率、準確率，當然這些都需要搜索引擎技術指標來保障。這些指標決定了搜索引擎的技術指標?？蛻粼跒g覽器中輸入查詢條件，Web 服務器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。WWW文檔網(wǎng)絡機器人程序建立 Lucene 索引從數(shù)據(jù)庫中搜索信息Tomcat 服務器Lucene 索引數(shù)據(jù)庫WWW 瀏覽器WWW 瀏覽器JSP網(wǎng)絡機器人程序10 用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶。為了提高檢索效率，需要建立索引，按照倒排文件的格式存放。為了保證網(wǎng)絡機器人遍歷信息的廣度和深度需要設定一些重要的鏈接并制定相關的掃描策略。它可以在掃描 WEB頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。一般的搜索引擎由網(wǎng)絡機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。9第二章搜索引擎的結(jié)構(gòu) 系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請求，按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。元搜索引擎(metasearch enging)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索，并將檢索結(jié)果集中統(tǒng)一處理，以統(tǒng)一的格式提供給用戶，因此有搜索引擎之上的搜索引擎之稱。這類搜索引擎沒有自己的信息采集系統(tǒng)，利用別人現(xiàn)有的索引數(shù)據(jù)庫，主要關注檢索的理念、技術和機制等。搜索引擎還提供了例如包括聲音、圖像等等多媒體信息的檢索。搜索引擎提供了例如 ftp等非信息的搜索。垂直主題的搜索引擎8以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地，比如象股票、天氣、新聞等類的搜索引擎，具有很高的針對性，用戶對查詢結(jié)果的滿意度較高。有調(diào)查指出，過多的附加信息加重了用戶的信息負擔，為了去掉這些過多的附加信息，可以采用用戶定制、內(nèi)容過濾等檢索技術。其二，使用大眾訪問性，就是將訪問數(shù)量（也可以叫做點擊數(shù)量）算作網(wǎng)頁評分的因素之一，這樣想，而這樣的網(wǎng)站很多時候都是用戶想找的，這樣能夠提高搜索引擎的準確率。就以上面的例子來講，如果用關鍵詞查詢，多半人會用“virus”這個詞來檢索，結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息，而用“how can kill virus of puter?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后，或直接給出提問的答案，或引導用戶從幾個可選擇的問題中進行再選擇。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個方面：為了提高搜索引擎對用戶檢索提問的理解，就必須有一個好的檢索提問語言，為了克服關鍵詞檢索和目錄查詢的缺點，現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢?，F(xiàn)在，網(wǎng)絡上有很多著名的搜索引擎，百度，google 等等，百度從 2022年誕

點擊復制文檔內(nèi)容

環(huán)評公示相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-文庫吧資料

全文搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-文庫吧資料

全文搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-文庫吧資料

全文搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧資料

全文搜索引擎的設計與實現(xiàn)-畢業(yè)論文-文庫吧資料

全文搜索引擎的設計與實現(xiàn)-畢業(yè)論文-文庫吧資料

畢業(yè)論文搜索引擎的研究與實現(xiàn)-文庫吧資料

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧資料

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧資料

基于網(wǎng)絡爬蟲的搜索引擎設計與實現(xiàn)—畢業(yè)設計論文-文庫吧資料

畢業(yè)論文基于lucene的桌面搜索引擎-文庫吧資料

基于文本web圖片搜索引擎的研究論文-文庫吧資料

基于java的搜索引擎的設計與實現(xiàn)-文庫吧資料

基于internet的全文搜索引擎的模型設計畢業(yè)論文-文庫吧資料

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-文庫吧資料

基于lucene的站內(nèi)搜索引擎的設計實現(xiàn)論文-文庫吧資料

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文(已修改)

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文(編輯修改稿)

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-wenkub.com

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文(已改無錯字)

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-資料下載頁