freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java語(yǔ)言的搜索引擎開(kāi)發(fā)論文-展示頁(yè)

2024-11-29 21:54本頁(yè)面
  

【正文】 引 進(jìn)行 精確查詢的邏輯組合過(guò)程 。Lucene 最核心的特征是通過(guò)特殊的索引結(jié)構(gòu)實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制,并提供了擴(kuò)展接口 ,以方便針對(duì)不同應(yīng)用的定制。 Lucene 是 Jakarta Apache 的開(kāi)源項(xiàng)目。 Lucene 全文索引的起源 Lucene 的貢獻(xiàn)者 Doug Cutting 是一位資深 的 全文索 引 /檢索專家,曾經(jīng)是 VTwin 搜索引擎 (Apple 的 Copland 操作系統(tǒng)的成就之一 )的主要開(kāi)發(fā)者,后在 Excite 擔(dān)任高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師,目前從事于一些 INTERNET 底層架構(gòu)的研究。如果索引不及時(shí) 更 新的話,用戶用搜索引擎也不能檢索到 。 Lucene 全文索引 技術(shù) 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò) SQL 直接查詢信息速度將會(huì)難以忍受。 ( 5) 當(dāng)前 url 是否為欄目項(xiàng),并且該欄目的級(jí)別在我們欲找級(jí)別內(nèi)。 ( 4) 判斷 待 處理隊(duì)列是否空,空則程序結(jié)束。 ( 3) 分析當(dāng) 前頁(yè)面,提取內(nèi)容,寫(xiě)入頁(yè)面庫(kù);提取頁(yè)面中的所有超鏈接,將未遇到的鏈接放入 待 處理對(duì)列。 ( 2) 在當(dāng)前頁(yè)面中,找到導(dǎo)航欄,并把其中的項(xiàng)目作為網(wǎng)站的欄目,欄目級(jí)別初始時(shí)為 0,向下遞增(目前可準(zhǔn) 確 確定 0、 1 兩級(jí)欄目,基本正確的確定 0、 3 三級(jí)欄目)。(目前成功運(yùn)行的蜘蛛只記錄了一個(gè)父親,這種實(shí)現(xiàn)方式有待討論)。每個(gè)頁(yè)面最多有三個(gè)父親節(jié)點(diǎn),所以可記錄三個(gè) father。 所以,我們?cè)趦煞N 方式中動(dòng)態(tài)變化,從而達(dá)到效率和通用性的統(tǒng)一。這種方法的 優(yōu)點(diǎn) 是快速,邏輯簡(jiǎn)單。 f) 在 一 網(wǎng) 頁(yè)中,根網(wǎng)站組織目錄層次相關(guān)的導(dǎo)航欄只有一個(gè),從而在網(wǎng)頁(yè)中,只需找到一個(gè)導(dǎo)航欄即可。 ? 基于 table標(biāo)簽定位導(dǎo)航欄。這種方法的 優(yōu)點(diǎn) 是通用性好,能方便的適應(yīng)多種網(wǎng)站風(fēng)格。在加上不同風(fēng)格 下,導(dǎo)航欄所處位置不同,所以如何準(zhǔn)確的確定導(dǎo)航欄對(duì)應(yīng)的 html 源文件,從而進(jìn)一步分析是問(wèn)題的關(guān)鍵。所以,根據(jù)導(dǎo)航欄 的 層次,我們可以提取出網(wǎng)站的層次目錄信息。 機(jī)器人搜索引擎實(shí)現(xiàn)方案 ( 1) 網(wǎng)站目錄信息的提取 為了方便用戶瀏覽,網(wǎng)頁(yè)中一般都設(shè)有導(dǎo)航欄,導(dǎo)航欄 是 按層次組織 的 。由于當(dāng)前搜索引擎是平坦( flat)的返回結(jié)果集,結(jié)果集一般很大, 所以 用戶往往不會(huì)看到后面的結(jié)果。由于專門(mén)用于檢索信息的 “機(jī)器人 ”程序 像 蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去 ,以實(shí)現(xiàn)對(duì)目標(biāo)信息的檢索。從國(guó)外搜索引擎的發(fā)展趨勢(shì)來(lái)看,將人工發(fā)現(xiàn)信息并依靠編目員的知識(shí)分類與機(jī)器人搜索引擎二 者融合,優(yōu)缺互補(bǔ),以便提高智能化程度和準(zhǔn)確度 。比如最近風(fēng)頭正勁的 Google,其數(shù)據(jù)庫(kù)中存放的網(wǎng)頁(yè)已達(dá) 30 億之巨! 機(jī)器人搜索引擎, 是一種 全文搜索引擎 , 是由一種叫 “蜘蛛 ”的計(jì)算機(jī)程序在網(wǎng)絡(luò)中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在互聯(lián)網(wǎng)中發(fā)現(xiàn)、加工、整理信息,并為用戶提供檢索服務(wù)。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。當(dāng)時(shí)Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎 。到 1993 年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負(fù)盛名。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn) 的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的 “蜘蛛 ”程序工作原理作了些改進(jìn)。與 Wanderer 相對(duì)應(yīng), Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。 2. 網(wǎng)絡(luò)搜索引擎相關(guān)技術(shù) 機(jī)器人 技術(shù) 機(jī)器人搜索引擎 的起 源 世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的 “機(jī)器人 ”程序是 Matthew Gray 開(kāi)發(fā)的World wide Web Wanderer?,F(xiàn)有的這些網(wǎng)絡(luò)搜索 引擎存在一些不足,比如: 大多數(shù)中文搜索引擎的查詢方式較為單一 、 采用的 開(kāi)發(fā)技術(shù)比較落后 等。因此,目前的搜索引擎系統(tǒng)都非常關(guān)心精度。因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率, 它用于 衡量檢索系統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率, 用于 衡量檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。 設(shè)計(jì) 搜索引擎 是為了 在非常短的時(shí)間內(nèi)搜索全面并且準(zhǔn)確的信息。網(wǎng)絡(luò)搜索引擎的使用為人們的網(wǎng)絡(luò)生活帶來(lái)了無(wú)比的便捷和方便,為網(wǎng)絡(luò)信息的爆炸式發(fā)展提供了條件。 公用數(shù)據(jù)庫(kù)的飛速發(fā)展為用戶查詢各種信息提供 了可能。 Search engine。 關(guān)鍵詞: JAVA;搜索引擎;機(jī)器人 Development of Search Engines Based on Java Language Abstract: With the development and universality of puter and work technology, how to search the prehensive and accurate information from mass work data in a short time which bee a serious problem that many people pay attention to. Therefore, it is important to develop work search engine and study it 39。該搜索引擎 能根據(jù)輸入的關(guān)鍵字查詢所需要網(wǎng)頁(yè)連接,能較好地完成一般的搜索任務(wù)。因此,網(wǎng)絡(luò)搜索引擎的開(kāi)發(fā)及相關(guān)技術(shù)的研究有著重要的意義。 1 基 于 JAVA 語(yǔ)言的搜索引擎開(kāi)發(fā) 摘 要 :隨著 計(jì)算機(jī)和網(wǎng)絡(luò) 技術(shù)的發(fā)展 與 普及, 如何 在 較 短的時(shí)間內(nèi) 從 海量的網(wǎng)絡(luò)數(shù)據(jù)中 搜索全面且準(zhǔn)確的信息 成為人們 越來(lái)越關(guān)注 的問(wèn)題。搜索引擎的出現(xiàn)為人們?cè)诰W(wǎng)絡(luò)中查找信息提供了極大的方便。 本畢業(yè)設(shè)計(jì)利用 JAVA語(yǔ)言開(kāi)發(fā)了一個(gè) 基于機(jī)器人和全文索引技術(shù)的網(wǎng)絡(luò)搜索引擎 。 本文在介紹 網(wǎng)絡(luò)搜索引擎開(kāi)發(fā)相關(guān)技術(shù) 的基礎(chǔ)上, 詳細(xì)闡述了本次畢業(yè)設(shè)計(jì)所完成的基于機(jī)器人和全文索 引技術(shù)的搜索引擎 的 開(kāi)發(fā) 過(guò)程。s technology. This paper develops a work search engine with JAVA which based on robot and full text index technology. Using this system, you can search the website which you want, when you entered the keywords. Also, it can fulfill the duty of search. According to the introduction of the development technology of work search engine, this paper carries on a detailed description to the development and process of search engine which based on robot and full text index technology. Key Words: JAVA。 Robot 2 1. 引言 隨著社會(huì)的不斷進(jìn)步和 信息科學(xué) 技術(shù)的迅速發(fā)展, 網(wǎng)絡(luò)上的信息資源越來(lái)越多, 信息更新速度也日益提高。 網(wǎng)絡(luò)搜索引擎也應(yīng)運(yùn)而生。正因?yàn)槿绱耍W(wǎng)絡(luò)編程語(yǔ)言以及網(wǎng)絡(luò)搜索引擎開(kāi)發(fā)技術(shù)得以快速地發(fā)展。傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù) ——召回率和精度同樣可以衡量一個(gè)搜索引擎的性能。對(duì) 于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低;精度高時(shí),召回率低。對(duì)于網(wǎng)民來(lái)說(shuō),互聯(lián)網(wǎng)上的信息不是不夠,而是 “過(guò)剩 ”,如何精確查找到信息是大家所關(guān)心的問(wèn)題。 目前,國(guó)內(nèi)外比較有名的網(wǎng)絡(luò)搜索引擎主要有: 搜狐( 、 天網(wǎng)( 、 新浪( 、 悠游( ) 、 搜 索 客 ( ) 、 茉 莉 之 窗( 和 蕃薯藤( : //) 等等。近 年 來(lái)國(guó)內(nèi)外出現(xiàn)了一批開(kāi)發(fā) 搜索引擎 的新技術(shù),如 機(jī)器人技術(shù) 、 中文文本的過(guò)濾信息分流機(jī)制 、 分詞技術(shù)與 XML 技術(shù)的有機(jī)結(jié)合 等。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)發(fā)展為檢索網(wǎng)站域名。 ALIWEB 不使用 “機(jī)器人 ”程序,而是靠網(wǎng)站主動(dòng)提交信息來(lái) 3 建立自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開(kāi)始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。然而 JumpStation和 WWW Worm只是以搜索工具在數(shù)據(jù)庫(kù)中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無(wú)信息關(guān)聯(lián)度可言。 最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。同年 4 月,斯坦福( Stanford)大學(xué)的兩名博士生, David Filo 和美籍華人楊致遠(yuǎn)( Gerry Yang)共同創(chuàng)辦了超級(jí)目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1