freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-wenkub

2022-09-11 17:54:30 本頁面
 

【正文】 引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。它可以 在掃描 WEB 頁面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。 9 第二章 搜索引擎的結(jié)構(gòu) 系統(tǒng)概述 搜索引擎是根據(jù)用戶的查詢請(qǐng)求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。 這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫,主要關(guān)注檢索的理念、技術(shù)和機(jī)制等。搜索引擎提供了例如 ftp 等非 信息的搜索。 有調(diào)查指出,過多的附加信息加重了用戶的信息負(fù)擔(dān),為了去掉這些過多的附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會(huì)用“ virus”這個(gè)詞來檢索,結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“ how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。搜索引擎在將來的的發(fā)展趨勢大概有以下幾個(gè)方面: 為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。至于互動(dòng)性的評(píng)價(jià)標(biāo)準(zhǔn)是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少價(jià)值 ——尤其是為企業(yè)利用搜索引擎開展網(wǎng)絡(luò)營銷增加了哪些價(jià)值,目前并沒有非常令人信服的研究結(jié)論。而且其檢索速度非常慢,一般都要等待 10秒甚至更長的時(shí)間。 搜索引擎的出現(xiàn)改變了上述的現(xiàn)象,它通過程序的自動(dòng)搜尋并建立索引,將這些信息孤島聯(lián)系起來,形成了一張巨大的信息網(wǎng),并且運(yùn)用分布式計(jì)算的巨大力量,能夠讓用戶從海量數(shù)據(jù)中摒除垃圾信息,獲取想要的知識(shí)。 客戶端設(shè)計(jì) ................................ 錯(cuò)誤 !未定義書簽。 小結(jié) .......................................... 錯(cuò)誤 !未定義書簽。 全文檢索的實(shí)現(xiàn)機(jī)制 ........................ 錯(cuò)誤 !未定義書簽。 小結(jié) .......................................... 錯(cuò)誤 !未定義書簽。 Indexing engine。網(wǎng)絡(luò)機(jī)器人 。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、 Web 服務(wù)器三個(gè)方面進(jìn)行詳細(xì)的說明。索引引擎 。 Web server 4 目 錄 摘要 ............................................................... 2 目錄 ............................................................... 4 第一章 緒論 ....................................................... 6 搜索引擎出現(xiàn)的背景及意義 ...................................... 6 搜索引擎的發(fā)展歷史及趨勢 ...................................... 6 第二章 搜索引擎的結(jié)構(gòu) .............................................. 9 系統(tǒng)概述 ...................................................... 9 搜索引擎的構(gòu)成 ................................................ 9 網(wǎng)絡(luò)機(jī)器人 ................................................ 9 索引與搜索 ................................................ 9 Web 服務(wù)器 ............................................... 10 搜索引擎的主要指標(biāo)及分析 ..................................... 10 小結(jié) ......................................................... 10 第三章 網(wǎng)絡(luò)機(jī)器人 ................................................. 11 什么是網(wǎng)絡(luò)機(jī)器人 ............................................. 11 網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析 ......................................... 11 如何解析 HTML ............................................ 11 Spider 程序結(jié)構(gòu) .......................................... 12 如何構(gòu)造 Spider 程序 ....................... 錯(cuò)誤 !未定義書簽。 第四章 基于 LUCENE 的索引與搜索 ..................... 錯(cuò)誤 !未定義書簽。 Lucene 的索引效率 ......................... 錯(cuò)誤 !未定義書簽。 第五章 基于 TOMCAT 的 WEB服務(wù)器 ..................... 錯(cuò)誤 !未定義書簽。 服務(wù)端設(shè)計(jì) ................................ 錯(cuò)誤 !未定義書簽。搜索引擎不僅僅是節(jié)省了用戶的時(shí)間,通過挖掉搜尋成本這座墻,它讓許許多多的不可能成為可能。 第二代搜索出現(xiàn)在 1996 年。這也就是目前所謂的第三代搜索引擎并沒有表現(xiàn)出太多優(yōu)勢的原因之 7 一。用戶可以輸入簡單的疑問句,比如“ how can kill virus of puter?”。 的結(jié)果進(jìn)行處理 對(duì)檢索的結(jié)果處理,有以下幾個(gè)方向:其一,使用鏈接評(píng)價(jià),就是將網(wǎng)頁的鏈接數(shù)量算作網(wǎng)頁評(píng)分因素之一,這樣搜索的結(jié)果就更加的能夠滿足用戶的要求,在這個(gè)方面 google( )的“鏈接評(píng)價(jià)體系”已經(jīng)做出了相當(dāng)出色的成績。 ,提高針對(duì)性 在這個(gè)方面現(xiàn)在的發(fā)展的方向是:其一,垂直主題搜索。其三,多媒體搜索。其二,元搜索引擎。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫。因?yàn)閃EB 中廣泛使用超鏈接,所以一個(gè) Spider 程序理論上可以訪問整個(gè) WEB 頁面。如果索引不及時(shí) 更 新的話, 這樣 用戶用搜索引擎也不能檢索到。 搜索引擎的主要指標(biāo)及分析 搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。 召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比 準(zhǔn)確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比 相關(guān)度:用戶查詢與搜索結(jié)果之間相似度的一種度量 精確度:對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁的抗干擾能力 小結(jié) 以上 是 對(duì) 于 基于因特網(wǎng)的搜索引擎 的 結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用 JavaTM 技術(shù)和一些 Open Source 工具實(shí)現(xiàn)了一個(gè)簡單的搜索引擎 —— 新聞搜索引擎。它從一個(gè)簡單的 Web頁面上開始執(zhí)行,然后通過其超鏈接訪問其他頁面,如此反復(fù) ,理論上可以掃描互聯(lián)網(wǎng)上的所有頁面。還可以掃描出中斷的超鏈接和拼寫錯(cuò)誤等。 如何解析 HTML 因?yàn)?Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁時(shí)的第一個(gè)問題就是如何解析 HTML。 Bot 包中的 HTMLPage 類用來從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。 雖然這里只描述了一個(gè)隊(duì)列,但在實(shí)際編程中用到了四個(gè)隊(duì)列,他們每個(gè)隊(duì)列都保存著同一處理狀態(tài)的 URL。該隊(duì)列中的 URL 不能被移入其他隊(duì)列中 完成隊(duì)列 : 如果解析網(wǎng)頁沒有出錯(cuò), URL將被送到這里。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒有任何網(wǎng)頁時(shí), Spider程序就會(huì)停止它的工作。 是 這個(gè)網(wǎng)頁包含其他超級(jí)連接嗎? 將這一網(wǎng)頁送入完成隊(duì)列并繼續(xù) 查看網(wǎng)頁上的下一個(gè)超連接 是否為指向Web 的連接? 報(bào)告其他類型連接 連接是否與 網(wǎng)頁所在主機(jī)不同且只處理本地連接? 報(bào)告外部連接 報(bào)告網(wǎng)頁連接 將連接加入等候隊(duì)列 否 是 否 是 否 是 15 Ispider Reportable 接口 5 這是一個(gè)必須實(shí)現(xiàn)的接口,可以通過回調(diào)函數(shù)接受 Spider 所遇到的頁面。 public boolean foundExternalLink(String url)。 public boolean getRemoveQuery()。多線程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的能力。據(jù)個(gè)例子說明:一個(gè) Spider 程序需要下載十個(gè)頁面,要完成這 一任務(wù),程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁。這些隊(duì)列管理 Spider 程序必須維護(hù)大型網(wǎng)頁的列表。 import 。 import 。 (100)。 } // 發(fā)現(xiàn)外部連接時(shí)調(diào)用, url 表示程序所發(fā)現(xiàn)的 URL,若返回 true 則把加入作業(yè)中,否則不加入。 } // 用于處理網(wǎng)頁,這是 Spider 程序要完成的實(shí)際工作。 public void pletePage(HTTP , boolean error) { } // 由 Spider 程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 public void spiderComplete() { } } 小結(jié) 在本章中,首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念,然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。 19 第四章 基于 Lucene 的索引與搜索 什么是 Lucene
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1