freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

2024-11-03 17:54本頁面
  

【正文】 的 大,百度的日點擊率我無法在找到確切的數(shù)字,但是我們可以計算一下, 截至 2020 年底,中國網(wǎng)民規(guī)模達到 億人,每個網(wǎng)民上網(wǎng)點擊百度的次數(shù)應(yīng)該不少于十次吧,像我們要在百度上找資料的網(wǎng)名點擊率百次不止,所以百度的日點擊率是多么驚人。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個方面: 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個可選擇的問題中進行再選擇。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“ virus”這個詞來檢索,結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“ how can kill virus of puter?”,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。其二,使用大眾訪問性,就是將訪問數(shù)量(也可以叫做點擊數(shù)量)算作網(wǎng)頁評分的因素之一,這樣想 這樣的網(wǎng)站的分數(shù)會很高,而這樣的網(wǎng)站很多時候都是用戶想找的,這樣能 夠提高搜索引擎的準(zhǔn)確率。 有調(diào)查指出,過多的附加信息加重了用戶的信息負擔(dān),為了去掉這些過多的附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。垂直主題的搜索引擎以 8 其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如象股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿意度較高。搜索引擎提供了例如 ftp 等非 信息的搜索。搜索引擎還提供 了例如包括聲音、圖像等等多媒體信息的檢索。 這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫,主要關(guān)注檢索的理念、技術(shù)和機制等。元搜索引擎 (metasearch enging)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。 9 第二章 搜索引擎的結(jié)構(gòu) 系統(tǒng)概述 搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。它可以 在掃描 WEB 頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。 為了保證網(wǎng)絡(luò)機器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。 WWW 文檔 網(wǎng)絡(luò)機器人程序 建立 Lucene 索引 從數(shù)據(jù)庫中搜索信息 Tomcat 服務(wù)器 Lucene 索引數(shù)據(jù)庫 WWW 瀏覽器 WWW 瀏覽器 JSP 網(wǎng)絡(luò)機器人程序 10 用戶輸入搜索條件后搜索程序?qū)?通過索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶??蛻粼跒g覽器中輸入查詢條件, Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速 度和高召回率、準(zhǔn)確率,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來保障。在接下來的幾章里 將會就本人的設(shè)計進行詳細的分析。用于查找大量的 Web頁面。 基于因特網(wǎng)的搜索引擎是 Spider 的最早應(yīng)用。 網(wǎng)絡(luò)機器人還可以通過掃描 Web站點的主頁來得到這個站點的文件清單和層次機構(gòu) 。 網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析 Inter 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。所以網(wǎng)絡(luò)機器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。在解決如何解析之前,先來介紹下 HTML 中 的幾種數(shù)據(jù)。 文本:除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注釋:程序員留下的說明文字,對用戶是不可見的 簡單標(biāo)簽:由單個表示的 HTML 標(biāo)簽 開始標(biāo)簽和結(jié)束標(biāo)簽:用來控制所包含的 HTML 代碼 我們在具體解析這些 HTMl 標(biāo)簽有兩種方法:通過 JavaTM 中的 Swing 類來解析或者 通過 Bot 包中的 HTMLPage 類來解析 ,本人在實際編程中采用后者。下面給出該類幾種重要的方法。程序首先解析網(wǎng)頁的 HTML 代碼,查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn) Spider 程序。 等待隊列 :在這個隊列中, URL 等待被 Spider 程序處理。 處理隊列 : 當(dāng) Spider 程序開始處理時,他們被送到這個隊列中 錯誤隊列 : 如果在解析網(wǎng)頁時出錯, URL 將被送到這里。該隊列中的 URL 不能被移入其它隊列中 在同一時間 URL 只能在一個隊列中,我們把它稱為 URL 的狀態(tài)。只要等待隊列中有一個網(wǎng)頁或 Spider 程序正在處理一個網(wǎng)頁,程序就會繼續(xù)他的工作。 如何構(gòu)造 Spider 程序 在構(gòu)造 Spider 程序之前我們先了解下程序的各個部分是如何共同工作的。 流程圖如下所示: 發(fā)現(xiàn) URL 等待隊列 運行隊列 完成隊列 錯誤隊列 完成 URL 14 圖 2 Spider 程序流程圖 把 URL 加入等待隊列 Spider 程序工作完成 等待隊列中是否有 URL? 否 下載從等待隊列中得到的網(wǎng)頁,并將他送入運行隊列中。接口定義了 Spider 向他的控制者發(fā)送的幾個事件。下面是他的接口聲明: public interface IspiderReportable{ public boolean foundInternalLink(String url)。 public boolean foundOtherLink(String url)。 public void pletePage(HTTP page,boolean error)。 public void SpiderComplete()。下面就來介紹下幾種提高性能的技術(shù): Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。它是在一個程序的內(nèi)部進行分工合作。瓶頸是一個程序中最慢的部分, 它 限制了其他任務(wù)的運行。當(dāng)程序等待響應(yīng)的時候其他任務(wù)不能執(zhí)行,這就影響了程序的效率。 數(shù)據(jù)庫技術(shù) 當(dāng) Spider 程序訪問一個大型 Web 站點時,必須使用一種有效的方法來存儲站點隊列。如果把他們放在內(nèi)存中 16 將會是性能下降,所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的消耗。 /** * 新聞搜索引擎 * 計算機 99630 沈晨 * 版本 */ import 。 import 。 import 。 /** * 構(gòu)造一個 Bot程序 */ 17 public class Searcher implements ISpiderReportable { public static void main(String[] args) throws Exception { IWorkloadStorable wl = new SpiderInternalWorkload()。 Spider _spider = new Spider(_searcher, new HTTPSocket(), 100, wl)。 ()。 public boolean foundInternalLink(String url) { return false。 public boolean foundExternalLink(String url) { return false。其他連接指的是非 HTML 網(wǎng)頁,可能是Email 或者 FTP public boolean foundOtherLink(String url) { return false。 public void processPage(HTTP ) { (掃描網(wǎng)頁: + ())。 } // 用來請求一個被處理的網(wǎng)頁。如果隊列中的字符串應(yīng)當(dāng)刪除,方法返回真。 } // 當(dāng) Spider 程序沒有剩余的工作時調(diào)用這個方法。在最后還結(jié)合具體代碼進行 了詳細說明。此外還用了第三方開發(fā)包 Bot。它是一個用 Java 寫的全文 索引 引擎工具包,可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引 /檢索功能。 總體上看:可以先把 Lucene 當(dāng)成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。如果是需要對多個關(guān)鍵詞進行模糊匹配: like%keyword1% and like %keyword2% ...其效率也就可想而知了。從而大大提高了多關(guān)鍵詞查詢的效率,所以,全文檢索問題歸結(jié)到最后是一個排序問題。 Lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制,并提供了擴展接口,以方便針對不同應(yīng)用的定制。數(shù)據(jù)需要逐個便利記錄進行 GREP 式的模糊匹配,比有索引的搜索速度要有多個數(shù)量級的下降。 使用: like %% 會把herlands 也匹配出來, 多個關(guān)鍵詞的模糊匹配:使用 like %%%:就不能匹配詞序顛倒的 .. 匹配 度 有匹配度算法,將匹配程度(相似度)比較高的結(jié)果排在前面。 結(jié)果輸出 通過特別的算法,將最匹配度最高的頭 100 條結(jié)果輸出,結(jié)果集返回所有的結(jié)果集,在匹配條目非常多的時候(比如上萬條)需要大 21 是緩沖式的小批量讀取的。 可定制性 通過不同的語言分析接口實現(xiàn),可以方便的定制出符合應(yīng)用需要的索引規(guī)則(包括對中文的支持) 沒有接口或接口復(fù)雜,無法定制 結(jié)論 高負載的模糊查詢應(yīng)用,需要負責(zé)的模糊查詢的規(guī)則,索 引的資料量比較大 使用率低,模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少 中文切分詞機制 對于中文來說,全文索引首先還要解決一個語言分析的問題,對于英文來說,語句中單詞之間是天然通過空格分開的,但亞洲語言的中日韓文語句中的字是一個字
點擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1