freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java語言的搜索引擎開發(fā)論文(完整版)

2025-01-04 21:54上一頁面

下一頁面
  

【正文】 過 的 鏈接,在網(wǎng)頁庫中,以當(dāng)前頁面 url 更新其該鏈接對應(yīng)項的 father。 ( 2) 頁面所屬目錄層次的確定 在分析頁面新鏈接時,把本頁 url 作 為這些新鏈接的父親,在頁面庫中記錄下來。缺點是處理量較大,且涉及數(shù)據(jù)庫操作過多。采用上面的方法,能很好的解決這個問題,提高搜索 4 引擎的服務(wù)質(zhì)量和滿意度。目前,互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家,其檢索的信息量也與從前不可同日而語。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。 目前,國內(nèi)外比較有名的網(wǎng)絡(luò)搜索引擎主要有: 搜狐( 、 天網(wǎng)( 、 新浪( 、 悠游( ) 、 搜 索 客 ( ) 、 茉 莉 之 窗( 和 蕃薯藤( : //) 等等。正因為如此,網(wǎng)絡(luò)編程語言以及網(wǎng)絡(luò)搜索引擎開發(fā)技術(shù)得以快速地發(fā)展。 本文在介紹 網(wǎng)絡(luò)搜索引擎開發(fā)相關(guān)技術(shù) 的基礎(chǔ)上, 詳細(xì)闡述了本次畢業(yè)設(shè)計所完成的基于機(jī)器人和全文索 引技術(shù)的搜索引擎 的 開發(fā) 過程。因此,網(wǎng)絡(luò)搜索引擎的開發(fā)及相關(guān)技術(shù)的研究有著重要的意義。 公用數(shù)據(jù)庫的飛速發(fā)展為用戶查詢各種信息提供 了可能。因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的 WEB網(wǎng)頁,所以召回率很難計算。與 Wanderer 相對應(yīng), Martin Koster 于 1993 年 10 月創(chuàng)建了 ALIWEB,它是 Archie 的 HTTP 版本。當(dāng)時Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的 Lycos。由于專門用于檢索信息的 “機(jī)器人 ”程序 像 蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去 ,以實現(xiàn)對目標(biāo)信息的檢索。在加上不同風(fēng)格 下,導(dǎo)航欄所處位置不同,所以如何準(zhǔn)確的確定導(dǎo)航欄對應(yīng)的 html 源文件,從而進(jìn)一步分析是問題的關(guān)鍵。這種方法的 優(yōu)點 是快速,邏輯簡單。 ( 2) 在當(dāng)前頁面中,找到導(dǎo)航欄,并把其中的項目作為網(wǎng)站的欄目,欄目級別初始時為 0,向下遞增(目前可準(zhǔn) 確 確定 0、 1 兩級欄目,基本正確的確定 0、 3 三級欄目)。 Lucene 全文索引 技術(shù) 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中,如果通過 SQL 直接查詢信息速度將會難以忍受。Lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機(jī)制,并提供了擴(kuò)展接口 ,以方便針對不同應(yīng)用的定制。 索引內(nèi)容抓取 Lucene 的文檔是由多個字段組成的,甚至可以控制那些字段需要進(jìn)行索引,那些字段不需要索引,近一步索引的字段也分為需要分詞和不需要分詞的類型: 需要進(jìn)行分詞的索引,比如:標(biāo)題,文章內(nèi) 容字段 不需要進(jìn)行分詞的索引,比如:作者/日期字段 缺乏通用性,往往將文檔整個索引了 語言分析 通過語言分析器的不同擴(kuò)展實現(xiàn): 可以過濾掉不需要的詞: an the of 等, 西文語法分析:將 jumps jumped jumper 都?xì)w結(jié)成 jump 進(jìn)行索引 /檢索 非英文支持:對亞洲語言,阿了伯語言的索引支持 缺乏通用接口實現(xiàn) 查詢分析 通過查詢分析接口的實現(xiàn),可以定制自己的查詢語法規(guī)則: 比如: 多個關(guān)鍵詞之間的 + and or關(guān)系等 并發(fā)訪問 能夠支持多用戶的使用 Lucene 的使用 lucene 的組成結(jié)構(gòu):對于外部應(yīng)用來說索引模塊 (index)和檢索模塊 (search)是主要的外部應(yīng)用入口 。這個批次的間隔越大,文件的寫入次數(shù)越少,但占用內(nèi)存會很多。所以如果構(gòu)造一個 Searcher去查 1- 120 條結(jié)果, Searcher 其實是進(jìn)行了 2 次搜索過 程:頭 100 條取完后,緩存結(jié)果用完, Searcher 重新檢索 , 再構(gòu)造一個 200 條的結(jié)果緩存,依此類推, 400 條緩存,800 條緩存。今天,搜索引擎已成為人們在網(wǎng)絡(luò)信息海洋中自如沖浪必不可少的利器。 Java 引進(jìn)虛擬機(jī)原理,并運(yùn)行于虛擬機(jī),實現(xiàn) 于 不同平臺的 Java 接口之間。程序員只需把主要精力用在類和接口的設(shè)計和應(yīng)用上。類型檢查幫助檢查出許多開發(fā)早期出現(xiàn)的錯誤。一般來說, Java API 的非 I/O 部分對于運(yùn)行 Java 的所有平臺是相同的,而 I/O 部分則僅在通用 Java 環(huán)境中實現(xiàn) , 是整個 Java 的核心,包括了 Java 運(yùn)行環(huán)境( Java Runtime Envirnment), 很多 Java 工具和 Java 基礎(chǔ)的類庫 ()。 12 ● Javac: Java 編譯器,將 Java 源代碼轉(zhuǎn)換成字節(jié)碼。 Tomcat 的源代碼被提供給 Jakarta 項目,在 Open Source 的模型下進(jìn)行進(jìn)一步的開發(fā)。 代碼實現(xiàn) MAIN 函數(shù)設(shè)計 而其中程序的入口 MAIN 函數(shù)所在的類路徑為: . Searcher,該部分的代碼如下: ( 1)引入了搜索引擎所需要的類包,以此構(gòu)造一個機(jī)器人程序。 import 。 import 。 //設(shè)置日志文件的輸出路徑 (./)。 } else { (, Command Console is not Paramters!)。 */ public boolean foundExternalLink(String url) { // HTTP _=new HTTPSocket()。 16 } /** * 用來請求一個被處理的網(wǎng)頁。 try { close()。該部分的代碼如下: (1) 引入相應(yīng)的類包: package 。 public HTMLParser(HTTP ) { _ = 。 //得到連接對象的顯示內(nèi)容 (a href=abc/a) String _title = input(().trim())。 } } index 文件的生成 最后的核心部分完成的功能是當(dāng)全部鏈接索引工作任務(wù)完成后,調(diào)用 Searcher 的close()方法完成釋放資源并生成 index 文件。 import 。 ((url, url))。 使用 JDK 是必須注意環(huán)境變量設(shè)置 的 問題。 此時可以看到一個界面,如圖 所示: 23 圖 搜索引擎主界面 只要在輸入框中輸 入“ d”,點擊 搜索 按鈕,就可看到如下圖 所示: 圖 使用舉例圖 至此,本課題所設(shè)計的網(wǎng)絡(luò)搜索引擎就可以使用了,并能實現(xiàn)預(yù)想的功能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要一部分。 搜索引擎的 “智能 ” 有待提高。 25 致謝 本文是在老師精心指導(dǎo)和大力支持下完成的。 參考文獻(xiàn) [1] 陳華 ,羅昶 ,王建勇 ,段暉 ,薛明 .基于 Web 的百萬級 FTP 搜索引擎的設(shè)計與實現(xiàn) [J].計算機(jī)應(yīng)用 ,2020,(9) [2] 雷鳴 ,劉建國 ,王建勇 ,陳葆玨 .一種基于詞典的搜索引擎系統(tǒng)動態(tài)更新模型 [J].計算機(jī)研究與發(fā)展 ,2020,(10). [3] 陳華 ,羅昶 ,王建勇 ,段暉 ,薛明 .基于 Web 的百 萬級 FTP 搜索引擎的設(shè)計與實現(xiàn) [J].計算機(jī)應(yīng)用 ,2020,(9). [4] 雷鳴 ,劉建國 ,王建勇 ,陳葆玨 .一種基于詞典的搜索引擎系統(tǒng)動態(tài)更新模型 [J].計算機(jī)研究與發(fā)展 ,2020,(10). [5] 黃素珍 .并行多元搜索引擎的研究與設(shè)計 [D].廣西大學(xué) ,2020. [6] 徐建華 .網(wǎng)絡(luò)搜索引擎原理、特性分析及未來發(fā)展趨勢 [J]. 圖書情報工作 , 2020,( 8)。她淵博的知識、開闊的視野和敏銳的思維給了我深深的啟迪。 搜索引擎應(yīng)更好地支持動態(tài)網(wǎng)頁,許多蜘蛛軟件不敢去碰動態(tài)網(wǎng)頁,怕被變 化無窮的動態(tài)系統(tǒng)黑洞吸進(jìn)去出不來。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò)花費(fèi) 的 時間 是非常龐大的,這就是不能實時搜索的原因。隨著 Inter 的強(qiáng)勢發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。 Step3:編譯 源代碼,形成 .class 文件。 (url, null)。 import 。 import 。 } 18 // ()。 //測試打開 HTTP 鏈接 ,得到頁面信息 ((), null)。 import 。 } } /** 優(yōu)化并且清理資源 * throws */ public static void close() throws Exception { ()。 } /** * 由 Spider 程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 // processPage(_)。 */ public boolean foundInternalLink(String url) { // (內(nèi)部連接: +url)。 (true)。 import 。 import 。 import 。 tomcat就是 webserver,可以作為上面說的服務(wù)器端的服務(wù)軟件,用于接收來自客戶端的請求,并做出相應(yīng)的 處理,然后再返回結(jié)果到客戶端。 ● appletviewer: 小程序瀏覽器,一種執(zhí)行 HTML 文件上的 Java 小程序的 Java 瀏覽器。 不論什么 Java 應(yīng)用服務(wù)器實質(zhì)都是內(nèi)置了某個版本的 JDK。 Java 還實現(xiàn)了真數(shù)組,避免了覆蓋數(shù)據(jù)的可能。在 Java 中,類的繼承關(guān)系是單一的非多重的,一個子類只有一個父類,子類的父類又有一個父
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1