freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-在線(xiàn)瀏覽

2025-08-10 21:36本頁(yè)面
  

【正文】 the news of the match.Keywords: search engine。 Indexing engine。在沒(méi)有搜索引擎的時(shí)代,用戶(hù)希望尋找某方面的信息,就必須通過(guò)各種途徑或者是網(wǎng)站之間的連接尋找,可以這樣說(shuō),脫離了搜索引擎的網(wǎng)站,就像是信息海洋中的一個(gè)一個(gè)孤島,用戶(hù)必將面臨巨大的搜索成本,同時(shí)必須付出大量的時(shí)間和精力。搜索引擎不僅僅是節(jié)省了用戶(hù)的時(shí)間,通過(guò)挖掉搜尋成本這座墻,它讓許許多多的不可能成為可能。這類(lèi)搜索引擎一般都索引少于 1,000,000 個(gè)網(wǎng)頁(yè),極少重新搜集網(wǎng)頁(yè)并去刷新索引。 第二代搜索出現(xiàn)在 1996年。 第三代搜索引擎年代的劃分和主要特性至今沒(méi)有統(tǒng)一的認(rèn)識(shí),不過(guò)至少可以肯定的是:第三代搜索引擎是對(duì)第二代搜索引擎在搜索技術(shù)上的改進(jìn),主要增加了互動(dòng)性和個(gè)性化等高級(jí)的技術(shù),為用戶(hù)使用搜索引擎獲取信息獲得更好的體驗(yàn)。這也就是目前所謂的第三代搜索引擎并沒(méi)有表現(xiàn)出太多優(yōu)7勢(shì)的原因之一。搜索引擎經(jīng)過(guò)幾年的發(fā)展和摸索,越來(lái)越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。用戶(hù)可以輸入簡(jiǎn)單的疑問(wèn)句,比如“how can kill virus of puter?”。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢(xún)變得更加方便、直接、有效。對(duì)檢索的結(jié)果處理,有以下幾個(gè)方向:其一,使用鏈接評(píng)價(jià),就是將網(wǎng)頁(yè)的鏈接數(shù)量算作網(wǎng)頁(yè)評(píng)分因素之一,這樣搜索的結(jié)果就更加的能夠滿(mǎn)足用戶(hù)的要求,在這個(gè)方面 google()的“鏈接評(píng)價(jià)體系”已經(jīng)做出了相當(dāng)出色的成績(jī)。其三,去掉結(jié)果中的附加信息。,提高針對(duì)性在這個(gè)方面現(xiàn)在的發(fā)展的方向是:其一,垂直主題搜索。其二,非 信息的搜索。其三,多媒體搜索。在這個(gè)方面有兩個(gè)主要的發(fā)展方向:其一,純凈搜索引擎。其二,元搜索引擎。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性搜索功能的設(shè)置和用戶(hù)檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。為了保證用戶(hù)查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù)。圖 1 搜索引擎的系統(tǒng)結(jié)構(gòu) 搜索引擎的構(gòu)成 網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人也稱(chēng)為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個(gè)功能很強(qiáng)的 WEB掃描程序。因?yàn)?WEB中廣泛使用超鏈接,所以一個(gè) Spider程序理論上可以訪(fǎng)問(wèn)整個(gè) WEB頁(yè)面。 索引與搜索 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò) SQL直接查詢(xún)信息速度將會(huì)難以忍受。如果索引不及時(shí)更新的話(huà),這樣用戶(hù)用搜索引擎也不能檢索到。 Web 服務(wù)器 客戶(hù)一般通過(guò)瀏覽器進(jìn)行查詢(xún),這就需要系統(tǒng)提供 Web服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行連接。 搜索引擎的主要指標(biāo)及分析搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。召回率:一次搜索結(jié)果中符合用戶(hù)要求的數(shù)目與用戶(hù)查詢(xún)相關(guān)信息的總數(shù)之比準(zhǔn)確率:一次搜索結(jié)果中符合用戶(hù)要求的數(shù)目與該次搜索結(jié)果總數(shù)之比相關(guān)度:用戶(hù)查詢(xún)與搜索結(jié)果之間相似度的一種度量精確度:對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力 小結(jié) 以上是對(duì)于基于因特網(wǎng)的搜索引擎的結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用 JavaTM技術(shù)和一些 Open Source工具實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的搜索引擎——新聞搜索引擎。11第三章 網(wǎng)絡(luò)機(jī)器人 什么是網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人又稱(chēng)為 Spider程序,是一種專(zhuān)業(yè)的 Bot程序。它從一個(gè)簡(jiǎn)單的 Web頁(yè)面上開(kāi)始執(zhí)行,然后通過(guò)其超鏈接訪(fǎng)問(wèn)其他頁(yè)面,如此反復(fù),理論上可以?huà)呙杌ヂ?lián)網(wǎng)上的所有頁(yè)面。例如搜索巨頭 Google公司,就利用網(wǎng)絡(luò)機(jī)器人程序來(lái)遍歷 Web站點(diǎn),以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫(kù)。還可以?huà)呙璩鲋袛嗟某溄雍推磳?xiě)錯(cuò)誤等。Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上,而HTTP又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上,它同時(shí)也是一種 Socket協(xié)議。 如何解析 HTML因?yàn)?Web中的信息都是建立在 HTML協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁(yè)時(shí)的第一個(gè)問(wèn)題就是如何解析 HTML。我們?cè)谶M(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽,只需要對(duì)其中幾種重要的進(jìn)行解析即可。Bot包中的 HTMLPage類(lèi)用來(lái)從指定 URL中讀取數(shù)據(jù)并檢索出有用的信息。12HTMLPage構(gòu)造函數(shù):構(gòu)造對(duì)象并指定用于通訊的 HTTP對(duì)象Public HTMLPage(HTTP )GetForms方法:獲取最后一次調(diào)用 Open方法檢索到的表單清單Public Vector getForms()GetHTTP方法:獲取發(fā)送給構(gòu)造函數(shù)的 HTTP對(duì)象Public HTTP getHTTP()GetImage方法:獲取指定頁(yè)面的圖片清單Public Vector getImage()GetLinks方法:獲取指定頁(yè)面的連接清單Public Vector getLinks()Open方法:打開(kāi)一個(gè)頁(yè)面并讀入該頁(yè)面,若指定了回調(diào)對(duì)象則給出所有該對(duì)象數(shù)據(jù)Public void open(String url, a) Spider 程序結(jié)構(gòu)網(wǎng)絡(luò)機(jī)器人必須從一個(gè)網(wǎng)頁(yè)遷移到另一個(gè)網(wǎng)頁(yè),所以必須找到該頁(yè)面上的超連接。雖然這里只描述了一個(gè)隊(duì)列,但在實(shí)際編程中用到了四個(gè)隊(duì)列,他們每個(gè)隊(duì)列都保存著同一處理狀態(tài)的 URL。新發(fā)現(xiàn)的 URL也被加入到這個(gè)隊(duì)列中。該隊(duì)列中的 URL不能被移入其他隊(duì)列中完成隊(duì)列: 如果解析網(wǎng)頁(yè)沒(méi)有出錯(cuò),URL 將被送到這里。13發(fā)現(xiàn) URL 等待隊(duì)列 運(yùn)行隊(duì)列完成隊(duì)列錯(cuò)誤隊(duì)列完成 URL圖 1 隊(duì)列的變化過(guò)程以上的圖表示了隊(duì)列的變化過(guò)程,在這個(gè)過(guò)程中,當(dāng)一個(gè) URL被加入到等待隊(duì)列中時(shí) Spider程序就會(huì)開(kāi)始運(yùn)行。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒(méi)有任何網(wǎng)頁(yè)時(shí),Spider程序就會(huì)停止它的工作。以及如何對(duì)這個(gè)程序進(jìn)行擴(kuò)展。是這個(gè)網(wǎng)頁(yè)包含其他超級(jí)連接嗎?將這一網(wǎng)頁(yè)送入完成隊(duì)列并繼續(xù)查看網(wǎng)頁(yè)上的下一個(gè)超連接是否為指向Web 的連接?報(bào)告其他類(lèi)型連接連接是否與網(wǎng)頁(yè)所在主機(jī)不同且只處理本地連接?報(bào)告外部連接報(bào)告網(wǎng)頁(yè)連接將連接加入等候隊(duì)列否是否是否是15圖 2 Spider 程序流程圖16Ispider Reportable接口 5這是一個(gè)必須實(shí)現(xiàn)的接口,可以通過(guò)回調(diào)函數(shù)接受 Spider所遇到的頁(yè)面。通過(guò)提供對(duì)每個(gè)事件的處理程序,可以創(chuàng)建各種 Spider程序。public boolean foundExternalLink(String url)。public void processPage(HTTP page)。public boolean getRemoveQuery()。} 如何提高程序性能Inter中擁有海量的 Web頁(yè)面,如果開(kāi)發(fā)出高效的 Spider程序是非常重要的。多線(xiàn)程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的能力。優(yōu)化程序的通常方法是確定瓶頸并改進(jìn)它。據(jù)個(gè)例子說(shuō)明:一個(gè) Spider程序需要下載十個(gè)頁(yè)面,要完成這一任務(wù),程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁(yè)。如果用多線(xiàn)程技術(shù)可以讓這些網(wǎng)頁(yè)的等待時(shí)間合在一起,不用互相影響,這就可以極大的改進(jìn)程序性能。這些隊(duì)列管理 Spider程序必須維護(hù)大型網(wǎng)頁(yè)的列表。 網(wǎng)絡(luò)機(jī)器人的代碼分析程序結(jié)構(gòu)圖如下: 圖 3 網(wǎng)絡(luò)機(jī)器人程序結(jié)構(gòu)圖程序代碼實(shí)現(xiàn)如下:package news。import 。import 。import 。 Searcher _searcher = new Searcher()。 (100)。 }// 發(fā)現(xiàn)內(nèi)部連接時(shí)調(diào)用,url 表示程序發(fā)現(xiàn)的 URL,若返回 true則加入作業(yè)中,否則不加入。 }// 發(fā)現(xiàn)外部連接時(shí)調(diào)用,url 表示程序所發(fā)現(xiàn)的 URL,若返回 true則把加入作業(yè)中,否則不加入。 }// 當(dāng)發(fā)現(xiàn)其他連接時(shí)調(diào)用這個(gè)方法。 }// 用于處理網(wǎng)頁(yè),這是 Spider程序要完成的實(shí)際工作。19 new HTMLParse().start()。 public void pletePage(HTTP , boolean error) { }// 由 Spider程序調(diào)用以確定查詢(xún)字符串是否應(yīng)刪除。 public boolean getRemoveQuery() { return true。 public void spiderComplete() { }} 小結(jié)在本章中,首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念,然后具體分析了 Spider程序的結(jié)構(gòu)和功能。本人在編程中運(yùn)用了 JavaTM技術(shù),主要涉及到了 和 io兩個(gè)包。20第四章 基于 Lucene 的索引與搜索 什么是 Lucene 全文檢索Lucene是 Jakarta Apache的開(kāi)源項(xiàng)目。 Lucene 的原理分析 全文檢索的實(shí)現(xiàn)機(jī)制Lucene的 API接口設(shè)計(jì)的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫(kù)的表==記錄==字段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫(kù)等都可以比較方便的映射到 Lucene的存儲(chǔ)結(jié)構(gòu)和接口中。索引數(shù)據(jù)源:doc(field1,field2...) doc(field1,fiel
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1