freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java語(yǔ)言的搜索引擎開發(fā)論文(完整版)

  

【正文】 過 的 鏈接,在網(wǎng)頁(yè)庫(kù)中,以當(dāng)前頁(yè)面 url 更新其該鏈接對(duì)應(yīng)項(xiàng)的 father。 ( 2) 頁(yè)面所屬目錄層次的確定 在分析頁(yè)面新鏈接時(shí),把本頁(yè) url 作 為這些新鏈接的父親,在頁(yè)面庫(kù)中記錄下來。缺點(diǎn)是處理量較大,且涉及數(shù)據(jù)庫(kù)操作過多。采用上面的方法,能很好的解決這個(gè)問題,提高搜索 4 引擎的服務(wù)質(zhì)量和滿意度。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語(yǔ)。其設(shè)想是,既然所有網(wǎng)頁(yè)都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。 目前,國(guó)內(nèi)外比較有名的網(wǎng)絡(luò)搜索引擎主要有: 搜狐( 、 天網(wǎng)( 、 新浪( 、 悠游( ) 、 搜 索 客 ( ) 、 茉 莉 之 窗( 和 蕃薯藤( : //) 等等。正因?yàn)槿绱耍W(wǎng)絡(luò)編程語(yǔ)言以及網(wǎng)絡(luò)搜索引擎開發(fā)技術(shù)得以快速地發(fā)展。 本文在介紹 網(wǎng)絡(luò)搜索引擎開發(fā)相關(guān)技術(shù) 的基礎(chǔ)上, 詳細(xì)闡述了本次畢業(yè)設(shè)計(jì)所完成的基于機(jī)器人和全文索 引技術(shù)的搜索引擎 的 開發(fā) 過程。因此,網(wǎng)絡(luò)搜索引擎的開發(fā)及相關(guān)技術(shù)的研究有著重要的意義。 公用數(shù)據(jù)庫(kù)的飛速發(fā)展為用戶查詢各種信息提供 了可能。因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。與 Wanderer 相對(duì)應(yīng), Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。當(dāng)時(shí)Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。由于專門用于檢索信息的 “機(jī)器人 ”程序 像 蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去 ,以實(shí)現(xiàn)對(duì)目標(biāo)信息的檢索。在加上不同風(fēng)格 下,導(dǎo)航欄所處位置不同,所以如何準(zhǔn)確的確定導(dǎo)航欄對(duì)應(yīng)的 html 源文件,從而進(jìn)一步分析是問題的關(guān)鍵。這種方法的 優(yōu)點(diǎn) 是快速,邏輯簡(jiǎn)單。 ( 2) 在當(dāng)前頁(yè)面中,找到導(dǎo)航欄,并把其中的項(xiàng)目作為網(wǎng)站的欄目,欄目級(jí)別初始時(shí)為 0,向下遞增(目前可準(zhǔn) 確 確定 0、 1 兩級(jí)欄目,基本正確的確定 0、 3 三級(jí)欄目)。 Lucene 全文索引 技術(shù) 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過 SQL 直接查詢信息速度將會(huì)難以忍受。Lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制,并提供了擴(kuò)展接口 ,以方便針對(duì)不同應(yīng)用的定制。 索引內(nèi)容抓取 Lucene 的文檔是由多個(gè)字段組成的,甚至可以控制那些字段需要進(jìn)行索引,那些字段不需要索引,近一步索引的字段也分為需要分詞和不需要分詞的類型: 需要進(jìn)行分詞的索引,比如:標(biāo)題,文章內(nèi) 容字段 不需要進(jìn)行分詞的索引,比如:作者/日期字段 缺乏通用性,往往將文檔整個(gè)索引了 語(yǔ)言分析 通過語(yǔ)言分析器的不同擴(kuò)展實(shí)現(xiàn): 可以過濾掉不需要的詞: an the of 等, 西文語(yǔ)法分析:將 jumps jumped jumper 都?xì)w結(jié)成 jump 進(jìn)行索引 /檢索 非英文支持:對(duì)亞洲語(yǔ)言,阿了伯語(yǔ)言的索引支持 缺乏通用接口實(shí)現(xiàn) 查詢分析 通過查詢分析接口的實(shí)現(xiàn),可以定制自己的查詢語(yǔ)法規(guī)則: 比如: 多個(gè)關(guān)鍵詞之間的 + and or關(guān)系等 并發(fā)訪問 能夠支持多用戶的使用 Lucene 的使用 lucene 的組成結(jié)構(gòu):對(duì)于外部應(yīng)用來說索引模塊 (index)和檢索模塊 (search)是主要的外部應(yīng)用入口 。這個(gè)批次的間隔越大,文件的寫入次數(shù)越少,但占用內(nèi)存會(huì)很多。所以如果構(gòu)造一個(gè) Searcher去查 1- 120 條結(jié)果, Searcher 其實(shí)是進(jìn)行了 2 次搜索過 程:頭 100 條取完后,緩存結(jié)果用完, Searcher 重新檢索 , 再構(gòu)造一個(gè) 200 條的結(jié)果緩存,依此類推, 400 條緩存,800 條緩存。今天,搜索引擎已成為人們?cè)诰W(wǎng)絡(luò)信息海洋中自如沖浪必不可少的利器。 Java 引進(jìn)虛擬機(jī)原理,并運(yùn)行于虛擬機(jī),實(shí)現(xiàn) 于 不同平臺(tái)的 Java 接口之間。程序員只需把主要精力用在類和接口的設(shè)計(jì)和應(yīng)用上。類型檢查幫助檢查出許多開發(fā)早期出現(xiàn)的錯(cuò)誤。一般來說, Java API 的非 I/O 部分對(duì)于運(yùn)行 Java 的所有平臺(tái)是相同的,而 I/O 部分則僅在通用 Java 環(huán)境中實(shí)現(xiàn) , 是整個(gè) Java 的核心,包括了 Java 運(yùn)行環(huán)境( Java Runtime Envirnment), 很多 Java 工具和 Java 基礎(chǔ)的類庫(kù) ()。 12 ● Javac: Java 編譯器,將 Java 源代碼轉(zhuǎn)換成字節(jié)碼。 Tomcat 的源代碼被提供給 Jakarta 項(xiàng)目,在 Open Source 的模型下進(jìn)行進(jìn)一步的開發(fā)。 代碼實(shí)現(xiàn) MAIN 函數(shù)設(shè)計(jì) 而其中程序的入口 MAIN 函數(shù)所在的類路徑為: . Searcher,該部分的代碼如下: ( 1)引入了搜索引擎所需要的類包,以此構(gòu)造一個(gè)機(jī)器人程序。 import 。 import 。 //設(shè)置日志文件的輸出路徑 (./)。 } else { (, Command Console is not Paramters!)。 */ public boolean foundExternalLink(String url) { // HTTP _=new HTTPSocket()。 16 } /** * 用來請(qǐng)求一個(gè)被處理的網(wǎng)頁(yè)。 try { close()。該部分的代碼如下: (1) 引入相應(yīng)的類包: package 。 public HTMLParser(HTTP ) { _ = 。 //得到連接對(duì)象的顯示內(nèi)容 (a href=abc/a) String _title = input(().trim())。 } } index 文件的生成 最后的核心部分完成的功能是當(dāng)全部鏈接索引工作任務(wù)完成后,調(diào)用 Searcher 的close()方法完成釋放資源并生成 index 文件。 import 。 ((url, url))。 使用 JDK 是必須注意環(huán)境變量設(shè)置 的 問題。 此時(shí)可以看到一個(gè)界面,如圖 所示: 23 圖 搜索引擎主界面 只要在輸入框中輸 入“ d”,點(diǎn)擊 搜索 按鈕,就可看到如下圖 所示: 圖 使用舉例圖 至此,本課題所設(shè)計(jì)的網(wǎng)絡(luò)搜索引擎就可以使用了,并能實(shí)現(xiàn)預(yù)想的功能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要一部分。 搜索引擎的 “智能 ” 有待提高。 25 致謝 本文是在老師精心指導(dǎo)和大力支持下完成的。 參考文獻(xiàn) [1] 陳華 ,羅昶 ,王建勇 ,段暉 ,薛明 .基于 Web 的百萬級(jí) FTP 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)應(yīng)用 ,2020,(9) [2] 雷鳴 ,劉建國(guó) ,王建勇 ,陳葆玨 .一種基于詞典的搜索引擎系統(tǒng)動(dòng)態(tài)更新模型 [J].計(jì)算機(jī)研究與發(fā)展 ,2020,(10). [3] 陳華 ,羅昶 ,王建勇 ,段暉 ,薛明 .基于 Web 的百 萬級(jí) FTP 搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)應(yīng)用 ,2020,(9). [4] 雷鳴 ,劉建國(guó) ,王建勇 ,陳葆玨 .一種基于詞典的搜索引擎系統(tǒng)動(dòng)態(tài)更新模型 [J].計(jì)算機(jī)研究與發(fā)展 ,2020,(10). [5] 黃素珍 .并行多元搜索引擎的研究與設(shè)計(jì) [D].廣西大學(xué) ,2020. [6] 徐建華 .網(wǎng)絡(luò)搜索引擎原理、特性分析及未來發(fā)展趨勢(shì) [J]. 圖書情報(bào)工作 , 2020,( 8)。她淵博的知識(shí)、開闊的視野和敏銳的思維給了我深深的啟迪。 搜索引擎應(yīng)更好地支持動(dòng)態(tài)網(wǎng)頁(yè),許多蜘蛛軟件不敢去碰動(dòng)態(tài)網(wǎng)頁(yè),怕被變 化無窮的動(dòng)態(tài)系統(tǒng)黑洞吸進(jìn)去出不來。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò)花費(fèi) 的 時(shí)間 是非常龐大的,這就是不能實(shí)時(shí)搜索的原因。隨著 Inter 的強(qiáng)勢(shì)發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。 Step3:編譯 源代碼,形成 .class 文件。 (url, null)。 import 。 import 。 } 18 // ()。 //測(cè)試打開 HTTP 鏈接 ,得到頁(yè)面信息 ((), null)。 import 。 } } /** 優(yōu)化并且清理資源 * throws */ public static void close() throws Exception { ()。 } /** * 由 Spider 程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 // processPage(_)。 */ public boolean foundInternalLink(String url) { // (內(nèi)部連接: +url)。 (true)。 import 。 import 。 import 。 tomcat就是 webserver,可以作為上面說的服務(wù)器端的服務(wù)軟件,用于接收來自客戶端的請(qǐng)求,并做出相應(yīng)的 處理,然后再返回結(jié)果到客戶端。 ● appletviewer: 小程序?yàn)g覽器,一種執(zhí)行 HTML 文件上的 Java 小程序的 Java 瀏覽器。 不論什么 Java 應(yīng)用服務(wù)器實(shí)質(zhì)都是內(nèi)置了某個(gè)版本的 JDK。 Java 還實(shí)現(xiàn)了真數(shù)組,避免了覆蓋數(shù)據(jù)的可能。在 Java 中,類的繼承關(guān)系是單一的非多重的,一個(gè)子類只有一個(gè)父類,子類的父類又有一個(gè)父
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1