freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java語(yǔ)言的搜索引擎開(kāi)發(fā)論文-wenkub

2022-11-28 21:54:12 本頁(yè)面
 

【正文】 更新速度也日益提高。 本文在介紹 網(wǎng)絡(luò)搜索引擎開(kāi)發(fā)相關(guān)技術(shù) 的基礎(chǔ)上, 詳細(xì)闡述了本次畢業(yè)設(shè)計(jì)所完成的基于機(jī)器人和全文索 引技術(shù)的搜索引擎 的 開(kāi)發(fā) 過(guò)程。搜索引擎的出現(xiàn)為人們?cè)诰W(wǎng)絡(luò)中查找信息提供了極大的方便。因此,網(wǎng)絡(luò)搜索引擎的開(kāi)發(fā)及相關(guān)技術(shù)的研究有著重要的意義。 關(guān)鍵詞: JAVA;搜索引擎;機(jī)器人 Development of Search Engines Based on Java Language Abstract: With the development and universality of puter and work technology, how to search the prehensive and accurate information from mass work data in a short time which bee a serious problem that many people pay attention to. Therefore, it is important to develop work search engine and study it 39。 公用數(shù)據(jù)庫(kù)的飛速發(fā)展為用戶查詢各種信息提供 了可能。 設(shè)計(jì) 搜索引擎 是為了 在非常短的時(shí)間內(nèi)搜索全面并且準(zhǔn)確的信息。因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。現(xiàn)有的這些網(wǎng)絡(luò)搜索 引擎存在一些不足,比如: 大多數(shù)中文搜索引擎的查詢方式較為單一 、 采用的 開(kāi)發(fā)技術(shù)比較落后 等。與 Wanderer 相對(duì)應(yīng), Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。到 1993 年底,一些基于此原理的搜索引擎開(kāi)始紛紛涌現(xiàn),其中以 JumpStation、 The World Wide Web Worm( Goto 的前身,也就是今天 Overture),和 RepositoryBased Software Engineering (RBSE) spider 最負(fù)盛名。當(dāng)時(shí)Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。比如最近風(fēng)頭正勁的 Google,其數(shù)據(jù)庫(kù)中存放的網(wǎng)頁(yè)已達(dá) 30 億之巨! 機(jī)器人搜索引擎, 是一種 全文搜索引擎 , 是由一種叫 “蜘蛛 ”的計(jì)算機(jī)程序在網(wǎng)絡(luò)中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在互聯(lián)網(wǎng)中發(fā)現(xiàn)、加工、整理信息,并為用戶提供檢索服務(wù)。由于專門(mén)用于檢索信息的 “機(jī)器人 ”程序 像 蜘蛛一樣在網(wǎng)絡(luò)間爬來(lái)爬去 ,以實(shí)現(xiàn)對(duì)目標(biāo)信息的檢索。 機(jī)器人搜索引擎實(shí)現(xiàn)方案 ( 1) 網(wǎng)站目錄信息的提取 為了方便用戶瀏覽,網(wǎng)頁(yè)中一般都設(shè)有導(dǎo)航欄,導(dǎo)航欄 是 按層次組織 的 。在加上不同風(fēng)格 下,導(dǎo)航欄所處位置不同,所以如何準(zhǔn)確的確定導(dǎo)航欄對(duì)應(yīng)的 html 源文件,從而進(jìn)一步分析是問(wèn)題的關(guān)鍵。 ? 基于 table標(biāo)簽定位導(dǎo)航欄。這種方法的 優(yōu)點(diǎn) 是快速,邏輯簡(jiǎn)單。每個(gè)頁(yè)面最多有三個(gè)父親節(jié)點(diǎn),所以可記錄三個(gè) father。 ( 2) 在當(dāng)前頁(yè)面中,找到導(dǎo)航欄,并把其中的項(xiàng)目作為網(wǎng)站的欄目,欄目級(jí)別初始時(shí)為 0,向下遞增(目前可準(zhǔn) 確 確定 0、 1 兩級(jí)欄目,基本正確的確定 0、 3 三級(jí)欄目)。 ( 4) 判斷 待 處理隊(duì)列是否空,空則程序結(jié)束。 Lucene 全文索引 技術(shù) 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò) SQL 直接查詢信息速度將會(huì)難以忍受。 Lucene 全文索引的起源 Lucene 的貢獻(xiàn)者 Doug Cutting 是一位資深 的 全文索 引 /檢索專家,曾經(jīng)是 VTwin 搜索引擎 (Apple 的 Copland 操作系統(tǒng)的成就之一 )的主要開(kāi)發(fā)者,后在 Excite 擔(dān)任高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師,目前從事于一些 INTERNET 底層架構(gòu)的研究。Lucene 最核心的特征是通過(guò)特殊的索引結(jié)構(gòu)實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制,并提供了擴(kuò)展接口 ,以方便針對(duì)不同應(yīng)用的定制。 在運(yùn)行時(shí), 不是維護(hù)一個(gè)索引文件,而是在擴(kuò)展索引的時(shí)候不斷創(chuàng)建新的索引文件,然后定期的把這些新的小索引文件合并到原先的大索引中(針對(duì)不同的更新策略,批次的大小可以調(diào)整),這樣在不影響檢索的效率的前提下,提高了索引的效率。 索引內(nèi)容抓取 Lucene 的文檔是由多個(gè)字段組成的,甚至可以控制那些字段需要進(jìn)行索引,那些字段不需要索引,近一步索引的字段也分為需要分詞和不需要分詞的類型: 需要進(jìn)行分詞的索引,比如:標(biāo)題,文章內(nèi) 容字段 不需要進(jìn)行分詞的索引,比如:作者/日期字段 缺乏通用性,往往將文檔整個(gè)索引了 語(yǔ)言分析 通過(guò)語(yǔ)言分析器的不同擴(kuò)展實(shí)現(xiàn): 可以過(guò)濾掉不需要的詞: an the of 等, 西文語(yǔ)法分析:將 jumps jumped jumper 都?xì)w結(jié)成 jump 進(jìn)行索引 /檢索 非英文支持:對(duì)亞洲語(yǔ)言,阿了伯語(yǔ)言的索引支持 缺乏通用接口實(shí)現(xiàn) 查詢分析 通過(guò)查詢分析接口的實(shí)現(xiàn),可以定制自己的查詢語(yǔ)法規(guī)則: 比如: 多個(gè)關(guān)鍵詞之間的 + and or關(guān)系等 并發(fā)訪問(wèn) 能夠支持多用戶的使用 Lucene 的使用 lucene 的組成結(jié)構(gòu):對(duì)于外部應(yīng)用來(lái)說(shuō)索引模塊 (index)和檢索模塊 (search)是主要的外部應(yīng)用入口 。 Lucene 輸入輸出接口 雖然 lucene 沒(méi)有定義一個(gè)確定的輸入文檔格式,但越來(lái)越多的人想到使用一個(gè)標(biāo)準(zhǔn)的中間格式作為 Lucene 的數(shù)據(jù)導(dǎo)入接口,然后 將 其他數(shù)據(jù),比如 PDF 只需要通過(guò)解析器轉(zhuǎn)換成標(biāo)準(zhǔn)的中間格式就可以進(jìn)行數(shù)據(jù)索引了。這個(gè)批次的間隔越大,文件的寫(xiě)入次數(shù)越少,但占用內(nèi)存會(huì)很多。 搜索過(guò)程優(yōu)化 Lucene 面向全文檢索的優(yōu)化在于首次索引檢索后,并不把所有的記錄( Document)具體內(nèi)容讀取出來(lái),而只將所有結(jié)果中匹配度最高的頭 100 條結(jié)果( TopDocs)的 ID放到結(jié)果集緩存中并返回,這里可以比 較一下數(shù)據(jù)庫(kù)檢索:如果是一個(gè) 10,000 條的數(shù)據(jù)庫(kù)檢索結(jié)果集,數(shù)據(jù)庫(kù)是一定要把所有記錄內(nèi)容都取得以后再開(kāi)始返回給應(yīng)用結(jié)果集的。所以如果構(gòu)造一個(gè) Searcher去查 1- 120 條結(jié)果, Searcher 其實(shí)是進(jìn)行了 2 次搜索過(guò) 程:頭 100 條取完后,緩存結(jié)果用完, Searcher 重新檢索 , 再構(gòu)造一個(gè) 200 條的結(jié)果緩存,依此類推, 400 條緩存,800 條緩存。 10 3. 開(kāi)發(fā) 環(huán)境 信息技術(shù)的不斷發(fā)展,特別 是互聯(lián)網(wǎng)應(yīng)用的迅速普及,深入到了人們生活的各個(gè)方面,改變了人們 的 生活方式和思維方式,方便了全球信息資源共享。今天,搜索引擎已成為人們?cè)诰W(wǎng)絡(luò)信息海洋中自如沖浪必不可少的利器。 Java 是一種簡(jiǎn)單的,面 向 對(duì)象的,分布式的,解釋的,健 壯的 , 安全的,結(jié)構(gòu)的中立的,可移植的,性能很優(yōu)異的多線程的,動(dòng)態(tài)的語(yǔ)言。 Java 引進(jìn)虛擬機(jī)原理,并運(yùn)行于虛擬機(jī),實(shí)現(xiàn) 于 不同平臺(tái)的 Java 接口之間。 Java 舍棄了 C++的指針對(duì)存儲(chǔ)器地址的直接操作,程序運(yùn)行時(shí),內(nèi)存由操作 系統(tǒng)分配,這樣可以避免病毒通過(guò)指針侵入系統(tǒng)。程序員只需把主要精力用在類和接口的設(shè)計(jì)和應(yīng)用上。 ( 4) 分布式 Java 建立在擴(kuò)展 TCP/IP 網(wǎng)絡(luò)平臺(tái)上。類型檢查幫助檢查出許多開(kāi)發(fā)早期出現(xiàn)的錯(cuò)誤。 Java 提供: Null指針檢測(cè)、數(shù)組邊界檢測(cè)、異常出口、 Byte code 校驗(yàn)。一般來(lái)說(shuō), Java API 的非 I/O 部分對(duì)于運(yùn)行 Java 的所有平臺(tái)是相同的,而 I/O 部分則僅在通用 Java 環(huán)境中實(shí)現(xiàn) , 是整個(gè) Java 的核心,包括了 Java 運(yùn)行環(huán)境( Java Runtime Envirnment), 很多 Java 工具和 Java 基礎(chǔ)的類庫(kù) ()。其中 IBM的 JDK 包含的 JVM( Java Virtual Machine)運(yùn)行效率要比 Sun JDK 包含的 JVM 高出許多。 12 ● Javac: Java 編譯器,將 Java 源代碼轉(zhuǎn)換成字節(jié)碼。 ● Jdb: Java 調(diào)試器,可以逐行執(zhí)行程序,設(shè)置斷點(diǎn)和檢查變量。 Tomcat 的源代碼被提供給 Jakarta 項(xiàng)目,在 Open Source 的模型下進(jìn)行進(jìn)一步的開(kāi)發(fā)。實(shí)際上 tomcat 部分是 apache 服務(wù)器的擴(kuò)展,但它是獨(dú)立運(yùn)行的,所以當(dāng)你運(yùn)行 tomcat 時(shí),它實(shí)際上作為一個(gè)與 apache 獨(dú)立的進(jìn)程單獨(dú)運(yùn)行的。 代碼實(shí)現(xiàn) MAIN 函數(shù)設(shè)計(jì) 而其中程序的入口 MAIN 函數(shù)所在的類路徑為: . Searcher,該部分的代碼如下: ( 1)引入了搜索引擎所需要的類包,以此構(gòu)造一個(gè)機(jī)器人程序。 import 。 import 。 import 。 import 。 import 。 //設(shè)置日志文件的輸出路徑 (./)。 if ( != 0) { //構(gòu)建一個(gè)搜索工作任務(wù)存儲(chǔ)隊(duì)列 IWorkloadStorable wl = new SpiderInternalWorkload()。 } else { (, Command Console is not Paramters!)。 // try { // (url,null)。 */ public boolean foundExternalLink(String url) { // HTTP _=new HTTPSocket()。 } /** 當(dāng)發(fā)現(xiàn)其他
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1