正文內(nèi)容

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

2024-11-03 17:54本頁面

　　

【正文】的大，百度的日點擊率我無法在找到確切的數(shù)字，但是我們可以計算一下，截至 2020 年底，中國網(wǎng)民規(guī)模達到億人，每個網(wǎng)民上網(wǎng)點擊百度的次數(shù)應(yīng)該不少于十次吧，像我們要在百度上找資料的網(wǎng)名點擊率百次不止，所以百度的日點擊率是多么驚人。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個方面：為了提高搜索引擎對用戶檢索提問的理解，就必須有一個好的檢索提問語言，為了克服關(guān)鍵詞檢索和目錄查詢的缺點，現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后，或直接給出提問的答案，或引導(dǎo)用戶從幾個可選擇的問題中進行再選擇。就以上面的例子來講，如果用關(guān)鍵詞查詢，多半人會用“ virus”這個詞來檢索，結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息，而用“ how can kill virus of puter?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。其二，使用大眾訪問性，就是將訪問數(shù)量（也可以叫做點擊數(shù)量）算作網(wǎng)頁評分的因素之一，這樣想這樣的網(wǎng)站的分數(shù)會很高，而這樣的網(wǎng)站很多時候都是用戶想找的，這樣能夠提高搜索引擎的準(zhǔn)確率。有調(diào)查指出，過多的附加信息加重了用戶的信息負擔(dān)，為了去掉這些過多的附加信息，可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。垂直主題的搜索引擎以 8 其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地，比如象股票、天氣、新聞等類的搜索引擎，具有很高的針對性，用戶對查詢結(jié)果的滿意度較高。搜索引擎提供了例如 ftp 等非信息的搜索。搜索引擎還提供了例如包括聲音、圖像等等多媒體信息的檢索。這類搜索引擎沒有自己的信息采集系統(tǒng)，利用別人現(xiàn)有的索引數(shù)據(jù)庫，主要關(guān)注檢索的理念、技術(shù)和機制等。元搜索引擎 (metasearch enging)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索，并將檢索結(jié)果集中統(tǒng)一處理，以統(tǒng)一的格式提供給用戶，因此有搜索引擎之上的搜索引擎之稱。 9 第二章搜索引擎的結(jié)構(gòu) 系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請求，按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。它可以在掃描 WEB 頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。為了保證網(wǎng)絡(luò)機器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。為了提高檢索效率，需要建立索引，按照倒排文件的格式存放。 WWW 文檔網(wǎng)絡(luò)機器人程序建立 Lucene 索引從數(shù)據(jù)庫中搜索信息 Tomcat 服務(wù)器 Lucene 索引數(shù)據(jù)庫 WWW 瀏覽器 WWW 瀏覽器 JSP 網(wǎng)絡(luò)機器人程序 10 用戶輸入搜索條件后搜索程序?qū)?通過索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶?？蛻粼跒g覽器中輸入查詢條件， Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率，當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來保障。在接下來的幾章里將會就本人的設(shè)計進行詳細的分析。用于查找大量的 Web頁面。基于因特網(wǎng)的搜索引擎是 Spider 的最早應(yīng)用。網(wǎng)絡(luò)機器人還可以通過掃描 Web站點的主頁來得到這個站點的文件清單和層次機構(gòu) 。網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析 Inter 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的，而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。所以網(wǎng)絡(luò)機器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。在解決如何解析之前，先來介紹下 HTML 中的幾種數(shù)據(jù)。文本：除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注釋：程序員留下的說明文字，對用戶是不可見的簡單標(biāo)簽：由單個表示的 HTML 標(biāo)簽開始標(biāo)簽和結(jié)束標(biāo)簽：用來控制所包含的 HTML 代碼我們在具體解析這些 HTMl 標(biāo)簽有兩種方法：通過 JavaTM 中的 Swing 類來解析或者通過 Bot 包中的 HTMLPage 類來解析，本人在實際編程中采用后者。下面給出該類幾種重要的方法。程序首先解析網(wǎng)頁的 HTML 代碼，查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn) Spider 程序。等待隊列 :在這個隊列中， URL 等待被 Spider 程序處理。處理隊列 : 當(dāng) Spider 程序開始處理時，他們被送到這個隊列中錯誤隊列 : 如果在解析網(wǎng)頁時出錯， URL 將被送到這里。該隊列中的 URL 不能被移入其它隊列中在同一時間 URL 只能在一個隊列中，我們把它稱為 URL 的狀態(tài)。只要等待隊列中有一個網(wǎng)頁或 Spider 程序正在處理一個網(wǎng)頁，程序就會繼續(xù)他的工作。如何構(gòu)造 Spider 程序在構(gòu)造 Spider 程序之前我們先了解下程序的各個部分是如何共同工作的。流程圖如下所示：發(fā)現(xiàn) URL 等待隊列運行隊列完成隊列錯誤隊列完成 URL 14 圖 2 Spider 程序流程圖把 URL 加入等待隊列 Spider 程序工作完成等待隊列中是否有 URL？否下載從等待隊列中得到的網(wǎng)頁，并將他送入運行隊列中。接口定義了 Spider 向他的控制者發(fā)送的幾個事件。下面是他的接口聲明： public interface IspiderReportable{ public boolean foundInternalLink(String url)。 public boolean foundOtherLink(String url)。 public void pletePage(HTTP page,boolean error)。 public void SpiderComplete()。下面就來介紹下幾種提高性能的技術(shù)： Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。它是在一個程序的內(nèi)部進行分工合作。瓶頸是一個程序中最慢的部分，它限制了其他任務(wù)的運行。當(dāng)程序等待響應(yīng)的時候其他任務(wù)不能執(zhí)行，這就影響了程序的效率。數(shù)據(jù)庫技術(shù) 當(dāng) Spider 程序訪問一個大型 Web 站點時，必須使用一種有效的方法來存儲站點隊列。如果把他們放在內(nèi)存中 16 將會是性能下降，所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的消耗。 /** * 新聞搜索引擎 * 計算機 99630 沈晨 * 版本 */ import 。 import 。 import 。 /** * 構(gòu)造一個 Bot程序 */ 17 public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。 Spider _spider = new Spider(_searcher, new HTTPSocket(), 100, wl)。 ()。 public boolean foundInternalLink(String url) { return false。 public boolean foundExternalLink(String url) { return false。其他連接指的是非 HTML 網(wǎng)頁，可能是Email 或者 FTP public boolean foundOtherLink(String url) { return false。 public void processPage(HTTP ) { (掃描網(wǎng)頁： + ())。 } // 用來請求一個被處理的網(wǎng)頁。如果隊列中的字符串應(yīng)當(dāng)刪除，方法返回真。 } // 當(dāng) Spider 程序沒有剩余的工作時調(diào)用這個方法。在最后還結(jié)合具體代碼進行了詳細說明。此外還用了第三方開發(fā)包 Bot。它是一個用 Java 寫的全文索引引擎工具包，可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引 /檢索功能。總體上看：可以先把 Lucene 當(dāng)成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。如果是需要對多個關(guān)鍵詞進行模糊匹配： like%keyword1% and like %keyword2% ...其效率也就可想而知了。從而大大提高了多關(guān)鍵詞查詢的效率，所以，全文檢索問題歸結(jié)到最后是一個排序問題。 Lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制，并提供了擴展接口，以方便針對不同應(yīng)用的定制。數(shù)據(jù)需要逐個便利記錄進行 GREP 式的模糊匹配，比有索引的搜索速度要有多個數(shù)量級的下降。使用： like %% 會把herlands 也匹配出來，多個關(guān)鍵詞的模糊匹配：使用 like %%%：就不能匹配詞序顛倒的 .. 匹配度有匹配度算法，將匹配程度（相似度）比較高的結(jié)果排在前面。結(jié)果輸出通過特別的算法，將最匹配度最高的頭 100 條結(jié)果輸出，結(jié)果集返回所有的結(jié)果集，在匹配條目非常多的時候（比如上萬條）需要大 21 是緩沖式的小批量讀取的。可定制性通過不同的語言分析接口實現(xiàn)，可以方便的定制出符合應(yīng)用需要的索引規(guī)則（包括對中文的支持）沒有接口或接口復(fù)雜，無法定制結(jié)論高負載的模糊查詢應(yīng)用，需要負責(zé)的模糊查詢的規(guī)則，索引的資料量比較大使用率低，模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少中文切分詞機制對于中文來說，全文索引首先還要解決一個語言分析的問題，對于英文來說，語句中單詞之間是天然通過空格分開的，但亞洲語言的中日韓文語句中的字是一個字

點擊復(fù)制文檔內(nèi)容

高考資料相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-在線瀏覽

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文-在線瀏覽

全文搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-在線瀏覽

畢業(yè)論文基于lucene的桌面搜索引擎-在線瀏覽

基于文本web圖片搜索引擎的研究論文-在線瀏覽

基于java的搜索引擎的設(shè)計與實現(xiàn)-在線瀏覽

基于internet的全文搜索引擎的模型設(shè)計畢業(yè)論文-在線瀏覽

基于lucene與heritrix的搜索引擎構(gòu)建畢業(yè)論文-在線瀏覽

基于lucene的站內(nèi)搜索引擎的設(shè)計實現(xiàn)論文-在線瀏覽

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文-在線瀏覽

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)-在線瀏覽

web圖片搜索引擎設(shè)計-在線瀏覽

web圖片搜索引擎設(shè)計-在線瀏覽

聚焦搜索引擎的設(shè)計與開發(fā)查詢系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

元搜索引擎的設(shè)計與實現(xiàn)-在線瀏覽

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(專業(yè)版)

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(留存版)

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-文庫吧

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-wenkub