正文內容

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧

2025-07-28 17:54 本頁面

【正文】年。這類搜索引擎一般都索引少于 1， 000， 000 個網頁，極少重新搜集網頁并去刷新索引。而且其檢索速度非常慢，一般都要等待 10秒甚至更長的時間。第二代搜索出現(xiàn)在 1996 年。這類搜索引擎系統(tǒng)大多采用分布式方案（多個微型計算機協(xié)同工作）來提高數(shù)據(jù)規(guī)模、響應速度和用戶數(shù)量，它們一般都保持一個大約50,000,000 網頁的索引數(shù)據(jù)庫，每天能夠響應 10,000,000 次用戶檢索請求。第三代搜索引擎年代的劃分和主要特性至今沒有統(tǒng)一的認識，不過至少可以肯定的是：第三代搜索引擎是對第二代搜索引擎在搜索技術上的改進，主要增加了互動性和個性化等高級的技術，為用戶使用搜索引擎獲取信息獲得更好的體驗。至于互動性的評價標準是什么，以及第三代搜索引擎到底比第二代搜索引擎增加了多少價值 ——尤其是為企業(yè)利用搜索引擎開展網絡營銷增加了哪些價值，目前并沒有非常令人信服的研究結論。這也就是目前所謂的第三代搜索引擎并沒有表現(xiàn)出太多優(yōu)勢的原因之 7 一。現(xiàn)在，網絡上有很多著名的搜索引擎，百度， google 等等，百度從 2020 年誕生到現(xiàn)在成為全球最大的中文搜索引擎，可想而知，發(fā)展的速度是多么的快，人們對搜索引擎的的需求是多么的大，百度的日點擊率我無法在找到確切的數(shù)字，但是我們可以計算一下，截至 2020 年底，中國網民規(guī)模達到億人，每個網民上網點擊百度的次數(shù)應該不少于十次吧，像我們要在百度上找資料的網名點擊率百次不止，所以百度的日點擊率是多么驚人。搜索引擎經過幾年的發(fā)展和摸索，越來越貼近人們的需求，搜索引擎的技術也得到了很大的發(fā)展。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個方面：為了提高搜索引擎對用戶檢索提問的理解，就必須有一個好的檢索提問語言，為了克服關鍵詞檢索和目錄查詢的缺點，現(xiàn)在已經出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句，比如“ how can kill virus of puter?”。搜索引擎在對提問進行結構和內容的分析之后，或直接給出提問的答案，或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優(yōu)勢在于，一是使網絡交流更加人性化，二是使查詢變得更加方便、直接、有效。就以上面的例子來講，如果用關鍵詞查詢，多半人會用“ virus”這個詞來檢索，結果中必然會包括各類病毒的介紹、病毒是怎樣產生的等等許多無效信息，而用“ how can kill virus of puter?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。的結果進行處理對檢索的結果處理，有以下幾個方向：其一，使用鏈接評價，就是將網頁的鏈接數(shù)量算作網頁評分因素之一，這樣搜索的結果就更加的能夠滿足用戶的要求，在這個方面 google（）的“鏈接評價體系”已經做出了相當出色的成績。其二，使用大眾訪問性，就是將訪問數(shù)量（也可以叫做點擊數(shù)量）算作網頁評分的因素之一，這樣想這樣的網站的分數(shù)會很高，而這樣的網站很多時候都是用戶想找的，這樣能夠提高搜索引擎的準確率。其三，去掉結果中的附加信息。有調查指出，過多的附加信息加重了用戶的信息負擔，為了去掉這些過多的附加信息，可以采用用戶定制、內容過濾等檢索技術。，提高針對性在這個方面現(xiàn)在的發(fā)展的方向是：其一，垂直主題搜索。垂直主題的搜索引擎以 8 其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地，比如象股票、天氣、新聞等類的搜索引擎，具有很高的針對性，用戶對查詢結果的滿意度較高。其二，非信息的搜索。搜索引擎提供了例如 ftp 等非信息的搜索。其三，多媒體搜索。搜索引擎還提供了例如包括聲音、圖像等等多媒體信息的檢索。在這個方面有兩個主要的發(fā)展方向：其一，純凈搜索引擎。這類搜索引擎沒有自己的信息采集系統(tǒng)，利用別人現(xiàn)有的索引數(shù)據(jù)庫，主要關注檢索的理念、技術和機制等。其二，元搜索引擎。元搜索引擎 (metasearch enging)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索，并將檢索結果集中統(tǒng)一處理，以統(tǒng)一的格式提供給用戶，因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性搜索功能的設置和用戶檢索界面的友好性上，查全率和查準率都比較高。 9 第二章搜索引擎的結構系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請求，按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。為了保證用戶查找信息的精度和新鮮度，搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網絡機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。圖 1 搜索引擎的系統(tǒng)結構搜索引擎的構成網絡機器人網絡機器人也稱為“網絡蜘蛛” (Spider)，是一個功能很強的 WEB掃描程序。它可以在掃描 WEB 頁面的同時檢索其內的超鏈接并加入掃描隊列等待以后掃描。因為WEB 中廣泛使用超鏈接，所以一個 Spider 程序理論上可以訪問整個 WEB 頁面。為了保證網絡機器人遍歷信息的廣度和深度需要設定一些重要的鏈接并制定相關的掃描策略。索引與搜索網絡機器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中，如果通過 SQL直接查詢信息速度將會難以忍受。為了提高檢索效率，需要建立索引，按照倒排文件的格式存放。如果索引不及時更新的話，這樣用戶用搜索引擎也不能檢索到。 WWW 文檔網絡機器人程序建立 Lucene 索引從數(shù)據(jù)庫中搜索信息 Tomcat 服務器 Lucene 索引數(shù)據(jù)庫 WWW 瀏覽器 WWW 瀏覽器 JSP 網絡機器人程序 10 用戶輸入搜索條件后搜索程序將通過索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶。 Web 服務器客戶一般通過瀏覽器進行查詢，這就需要系統(tǒng)提供 Web 服務器并且與索引數(shù)據(jù)庫進行連接?？蛻粼跒g覽器中輸入查詢條件， Web 服務器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。搜索引擎的主要指標及分析搜索引擎的主要指標有響應時間、召回率、準確率、相關度等。這些指標決定了搜索引擎的技術指標。搜索引擎的技術指標決定了搜索引擎的評價指標。好的搜索引擎應該是具有較快的反應速度和高召回率、準確率，當然這些都需要搜索引擎技術指標來保障。召回率：一次搜索結果中符合用戶要求的數(shù)目與用戶查詢相關信息的總數(shù)之比準確率：一次搜索結果中符合用戶要求的數(shù)目與該次搜索結果總數(shù)之比相關度：用戶查詢與搜索結果之間相似度的一種度量精確度：對搜索結果的排序分級能力和對垃圾網頁的抗干擾能力小結以上是對于基于因特網的搜索引擎的結構和性能指標進行了分析，本人在這些研究的基礎上利用 JavaTM 技術和一些 Open Source 工具實現(xiàn)了一個簡單的搜索引擎 —— 新聞搜索引擎。在接下來的幾章里將會就本人的設計進行詳細的分析。 11 第三章網絡機器人什么是網絡機器人網絡機器人又稱為 Spider 程序，是一種專業(yè)的 Bot 程序。用于查找大量的 Web頁面。它從一個簡單的 Web頁面上開始執(zhí)行，然后通過其超鏈接訪問其他頁面，如此反復 ,理論上可以掃描互聯(lián)網上的所有頁面。基于因特網的搜索引擎是 Spider 的最早應用。例如搜索巨頭 Google 公司，就利用網絡機器人程序來遍歷 Web 站點，以創(chuàng)建并維護這些大型數(shù)據(jù)庫。網絡機器人還可以通過掃描 Web站點的主頁來得到這個站點的文件清單和層次機構。還可以掃描出中斷的超鏈接和拼寫錯誤等。網絡機器人的結構分析 Inter 是建立在很多相關協(xié)議基礎上的，而更復雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。 Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎上，而 HTTP又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上，它同時也是一種 Socket 協(xié)議。所以網絡機器人本質上是一種基于 Socket 的網絡程序。如何解析 HTML 因為 Web 中的信息都是建立在 HTML 協(xié)議之上的，所以網絡機器人在檢索網頁時的第一個問題就是如何解析 HTML。在解決如何解析之前，先來介紹下 HTML 中的幾種數(shù)據(jù)。我們在進行解析的時候不用關心所有的標簽，只需要對其中幾種重要的進行解析即可。文本：除了腳本和標簽之外的所有數(shù)據(jù) 注釋：程序員留下的說明文字，對用戶是不可見的簡單標簽：由單個表示的 HTML 標簽開始標簽和結束標簽：用來控制所包含的 HTML 代碼我們在具體解析這些 HTMl 標簽有兩種方法：通過 JavaTM 中的 Swing 類來解析或者通過 Bot 包中的 HTMLPage 類來解析，本人在實際編程中采用后者。 Bot 包中的 HTMLPage 類用來從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。下面給出該類幾種重要的方法。 12 HTMLPage 構造函數(shù) ：構造對象并指定用于通訊的 HTTP 對象 Public HTMLPage(HTTP ) GetForms 方法：獲取最后一次調用 Open 方法檢索到的表單清單 Public Vector getForms() GetHTTP 方法：獲取發(fā)送給構造函數(shù)的 HTTP 對象 Public HTTP getHTTP() GetImage 方法：獲取指定頁面的圖片清單 Public Vector getImage() GetLinks 方法：獲取指定頁面的連接清單 Public Vector getLinks() Open 方法 :打開一個頁面并讀入該頁面，若指定了回調對象則給出所有該對象數(shù)據(jù) Public void open(String url, a) Sp

點擊復制文檔內容

高考資料相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧

站內全文搜索引擎的設計與實現(xiàn)-資料下載頁

基于lucene的全文搜索引擎設計-資料下載頁

基于lucene的全文搜索引擎設計-資料下載頁

java面向主題的搜索引擎畢業(yè)論文-資料下載頁

畢業(yè)設計-一個小型搜索引擎的設計與實現(xiàn)-論文-資料下載頁

全文搜索引擎的設計與實現(xiàn)-外文翻譯-資料下載頁

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

基于ajaxlucene構建搜索引擎的設計和實現(xiàn)—免費畢業(yè)設計論文-資料下載頁

基于網絡爬蟲的搜索引擎設計與實現(xiàn)—計算機畢業(yè)設計-資料下載頁

基于java語言的搜索引擎開發(fā)論文-資料下載頁

基于java技術搜索引擎的研究及實現(xiàn)-資料下載頁

關于seo搜索引擎優(yōu)化的實施畢業(yè)論文-資料下載頁

基于lucene的圖書搜索引擎的設計與實現(xiàn)外文文獻-資料下載頁

jsp基于產品的搜索引擎-資料下載頁

一個java搜索引擎的實現(xiàn)論文-資料下載頁

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文(專業(yè)版)

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文(留存版)

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文-文庫吧

基于web搜索引擎的設計與實現(xiàn)畢業(yè)論文-wenkub