freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計與實現(xiàn)本科畢業(yè)論文-wenkub

2022-09-07 15:00:40 本頁面
 

【正文】 準確率,當然這些都需要搜索引擎技術(shù)指標來保障??蛻粼跒g覽器中輸入查詢條件, Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。它可以在掃描 WEB 頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。 9 第二章 搜索引擎的結(jié)構(gòu) 系統(tǒng)概述 搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。 這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫,主要關(guān)注檢索的理念、技術(shù)和機制等。搜索引擎 提供了例如 ftp 等非 信息的搜索。 有調(diào)查指出,過多的附加信息加重了用戶的信息負擔,為了去掉這些過多的附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“ virus”這個詞來檢索,結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“ how can kill virus of puter?” ,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個方面: 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然 語言智能答詢。至于互動性的評價標準是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少價值 ——尤其是為企業(yè)利用搜索引擎開展網(wǎng)絡(luò)營銷增加了哪些價值,目前并沒有非常令人信服的研究結(jié)論。而且其檢索速度非常慢,一般都要等待 10秒甚至更長的時間。 搜索引擎的出現(xiàn)改變了上述的現(xiàn)象,它通過程序的自動搜尋并建立索引,將這些信息孤島聯(lián)系起來,形成了一張巨大的信息網(wǎng),并且運用分布式計算的巨大力量,能夠讓用戶從海量數(shù)據(jù)中摒除垃圾信息,獲取想要的知識。 客戶端設(shè)計 ................................ 錯誤 !未定義書簽。 小結(jié) .......................................... 錯誤 !未定義書簽。 全文檢索的實現(xiàn)機制 ........................ 錯誤 !未定義書簽。 小結(jié) .......................................... 錯誤 !未定義書簽。 Indexing engine。網(wǎng)絡(luò)機器人 。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機器人、索引引擎、 Web 服務(wù)器三個方面進行詳細的說明。索引引擎 。 Web server 4 目 錄 摘要 ............................................................... 2 目錄 ............................................................... 4 第一章 緒論 ....................................................... 6 搜索引擎出現(xiàn)的背景及意義 ...................................... 6 搜索引擎的發(fā)展歷史及趨勢 ...................................... 6 第二章 搜索引擎的結(jié)構(gòu) .............................................. 9 系統(tǒng)概述 ...................................................... 9 搜索引擎的構(gòu)成 ................................................ 9 網(wǎng)絡(luò)機器人 ................................................ 9 索引與搜索 ................................................ 9 Web 服務(wù)器 ............................................... 10 搜索引擎的主要指標及分析 ..................................... 10 小結(jié) ......................................................... 10 第三章 網(wǎng)絡(luò)機器人 ................................................. 11 什么是網(wǎng)絡(luò)機器人 ............................................. 11 網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析 ......................................... 11 如何解析 HTML ............................................ 11 Spider 程序結(jié)構(gòu) .......................................... 12 如何構(gòu)造 Spider 程序 ....................... 錯誤 !未定義書簽。 第四章 基于 LUCENE 的索引與搜索 ..................... 錯誤 !未定義書簽。 Lucene 的索引效率 ......................... 錯誤 !未定義書簽。 第五章 基于 TOMCAT 的 WEB服務(wù)器 ..................... 錯誤 !未定義書簽。 服務(wù)端設(shè)計 ................................ 錯誤 !未定義書簽。搜索引擎不僅僅是節(jié)省了用戶的時間,通過挖掉搜尋成本這座墻,它讓許許多多的不可能成為可能。 第二代搜索出現(xiàn)在 1996 年。這也就是目前所謂的第三代搜索引擎并沒有表現(xiàn)出太多優(yōu)勢的原因之 7 一。用戶可以輸入簡單的疑問句,比如“ how can kill virus of puter?”。 對檢索的結(jié)果處理,有以下幾個方向:其一,使用鏈接評價,就是將網(wǎng)頁的鏈接數(shù)量算作網(wǎng)頁評分因素之一,這樣搜索的結(jié)果就更加的能夠滿足用戶的要求,在這個方面 google( )的“鏈接評價體系”已經(jīng)做出了相當出色的成績。 ,提高針對性 在這個方面現(xiàn)在的發(fā)展的方向是:其一,垂直主題搜索。其三,多媒體搜索。其二,元搜索引擎。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。因為WEB 中廣泛使用超鏈接,所以一個 Spider 程序理論上可以訪問整個 WEB 頁面。如果索引不及時更新的話, 這樣用戶用搜索引擎也不能檢索到。 搜索引擎的主要指標及分析 搜索引擎的主要指標有響應(yīng)時間、召回率、準確率、相關(guān)度等。 召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比 準確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比 相關(guān)度:用戶查詢與搜索結(jié)果之間相似度的一種度量 精確度:對搜索結(jié)果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力 小結(jié) 以上是對于基于因特網(wǎng)的搜索引擎的結(jié)構(gòu)和性能指標進行了分析,本人在這些研究的基礎(chǔ)上利用 JavaTM 技術(shù)和一些 Open Source 工具實現(xiàn)了一個簡單的搜索引擎 —— 新聞搜索引擎。它從一個簡單的 Web頁面上開始執(zhí)行,然后通過其超鏈接訪問其他頁面,如此反復 ,理論上可以掃描互聯(lián)網(wǎng)上的所有頁面。還可以掃描出中斷的超鏈接和拼寫錯誤等。 如何解析 HTML 因為 Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機器人在檢索網(wǎng)頁時的第一個問題就是如何解析 HTML。 Bot 包中的 HTMLPage 類用來從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。 雖然這里只描述了一個隊列,但在實際編程中用到了四個隊列,他們每個隊列都保存著同一處理狀態(tài)的 URL。該隊 列中的 URL 不能被移入其他隊列中 完成隊列 : 如果解析網(wǎng)頁沒有出錯, URL 將被送到這里。當?shù)却犃袨榭詹⑶耶斍皼]有任何網(wǎng)頁時, Spider程序 就會停止它的工作。 是 這個網(wǎng)頁包含其他超級連接嗎? 將這一網(wǎng)頁送入完成隊列并繼續(xù) 查看網(wǎng)頁上的下一個超連接 是否為指向Web 的連接? 報告其他類型連接 連接是否與網(wǎng)頁所在主機不同且只處理本地連接? 報告 外部連接 報告網(wǎng)頁連接 將連接加入等候隊列 否 是 否 是 否 是 15 Ispider Reportable 接口 5 這是一個必須實現(xiàn)的接口,可以通過回調(diào)函數(shù)接受 Spider 所遇到的頁面。 public boolean foundExternalLink(String url)。 public boolean getRemoveQuery()。多線程是一個程序同時運行多個任務(wù)的能力。據(jù)個例子說明:一個 Spider 程序需要下載十個頁面,要完成這一任務(wù),程序必須向服務(wù)器發(fā)出請求然后接受這些網(wǎng)頁。這些隊列管理 Spider 程序必須維護大型網(wǎng)頁的列表。 import 。 import 。 (100)。 } // 發(fā)現(xiàn)外部連接時調(diào)用, url 表示程序所發(fā)現(xiàn)的 URL,若返回 true 則把加入作業(yè)中,否則不加入。 } // 用于處理網(wǎng)頁,這是 Spider 程序要完成的實際工作。 public void pletePage(HTTP , boolean error) { } // 由 Spider 程序調(diào)用以確定查詢字符串 是否應(yīng)刪除。 public void spiderComplete() { } } 小結(jié) 在本章中,首先介紹了網(wǎng)絡(luò)機器人的基本概
點擊復制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1