freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

互聯(lián)網信息檢索系統(tǒng)的研究與實現(xiàn)本科畢業(yè)論文(存儲版)

2025-07-27 22:31上一頁面

下一頁面
  

【正文】 網頁數(shù)據(jù)存儲網頁文件存儲索引數(shù)據(jù)管理中文分詞數(shù)據(jù)檢索與顯示系統(tǒng)日志信息管理日志管理模塊Html文件的解析圖41 EarthSearch系統(tǒng)結構圖 系統(tǒng)處理流程設計 數(shù)據(jù)抓取處理流程使用多線程進行網頁數(shù)據(jù)的采集,首先對入口URL的HTML進行解析,從中獲取HTML所有URL地址,添加到待解析的URL隊列中,將HTML中核心數(shù)據(jù)保存到數(shù)據(jù)庫,并將文件下載到服務器。由于本系統(tǒng)的功能和模塊較多實現(xiàn)較復雜,本章選擇了有代表性的幾個功能的實現(xiàn)方法進行介紹,主要包括如下幾個方面:(1) 多線程網頁數(shù)據(jù)抓取;(2) HTML文檔的掃描與分析;(3) 數(shù)據(jù)的索引;(4) 數(shù)據(jù)的檢索。thread = new Thread(fun)。 for (int i = 0。 }首先設定一個網頁爬行入口點,通過解析HTML,將文檔中所有的URL添加到待訪問URL的哈希表中。 lock (manager) { while (true) { if ( != 0) { url = (Uri)()。 if (!(url)) (url, )。 StreamReader reader = null。 while ((line = ()) != null) { buffer += line + \r\n。 if (response != null) ()。private string GetTitle(string html){ Match m = (html,(?m)title[^]*(?title(?:\w|\W)*?)/title[^]*。暫存到SqlDataReader中,最后將SqlDataReader作為參數(shù)傳入添加索引項到索引文件的函數(shù)中,生成索引文件。 ()。Hits h = null。 (content)。 myrow[1] = (content).ToString()。數(shù)據(jù)檢索效果如圖55所示。 測試內容軟件并不僅僅是程序測試,軟件測試應貫穿于整個軟件生命周期中。 結束語本人在開發(fā)過程中學習到了很多軟件知識,同時也認識到自己知識的匱乏,比如對很多關鍵技術只停留在理論層次,沒有經過實踐,沒能真正懂得其中的精華,走了很多彎路,查閱了很多資料。在這段時間里,本人對C語言的掌握和Visual Stuido的使用有了較大的提高,在編程思想方面也有了進一步的提高。他無論在理論上還是在實踐中,都給與我很大的幫助,使我得到不少的提高,這對于我以后的工作和學習都有一種巨大。每次多線程采集數(shù)據(jù)時,系統(tǒng)內存的使用量都很大,對硬件的要求很高。本系統(tǒng)采用黑盒測試方法及自頂向下測試方法,從主模塊開始,沿程序的控制路徑逐步向下,挨個進行各個功能的測試,比如在數(shù)據(jù)檢索中輸入一個關鍵字,則在顯示檢索數(shù)據(jù)結果界面中就能看到所檢索的詳細信息,表明此系統(tǒng)沒有毛病,滿足用戶的要求。(2) 測試方法系統(tǒng)的測試方法分為靜態(tài)測試和動態(tài)測試兩種。}else{ (Hits為空)。 myrow = ()。 DataTable mytab = new DataTable()。代碼實現(xiàn)如下:string Index_Path = (Index)。 (doc)。索引參數(shù)配置界面如圖52所示。HTML數(shù)據(jù)格式是一種特殊的XML數(shù)據(jù)進行展現(xiàn)的, ,可以方便的實現(xiàn)獲取節(jié)點的屬性,值等,再加上C強大的正則表達式的支持,可以準確的完成對HTML進行解析的工作。 } finally { if (reader != null) ()。 } string buffer = , line。具體代碼如下:private void Download(Uri url){ WebResponse response = null。 Download(url)。 waitTimes++。 (worker)。public void Start(){ timer = new HighResolutionTimer()。其中的核心線程類是Thread。數(shù)據(jù)索引執(zhí)行過程如圖44所示??梢圆皇褂迷撃K以提高系統(tǒng)性能。實現(xiàn)搜索引擎中的Searcher模塊。從而實現(xiàn)數(shù)據(jù)抓取的高效性。包括:配置管理模塊,數(shù)據(jù)抓取模塊,數(shù)據(jù)索引模塊,數(shù)據(jù)檢索模塊,日志管理模塊。系統(tǒng)命名為EarthSearch。 ()。 SqlDataReader dr = ()。uid=sa。(3) 具體搜索邏輯的設計,,也通過QueryParser提供強大的查詢語言。查詢語句對象流則是僅僅在查詢語句解析時用到的概念,它對查詢語句抽象,通過類的繼承結構反映查詢語句的結構,將之傳送到查找邏輯來進行查找的操作。這部分的分析,也是進行重寫的基礎。索引數(shù)據(jù)存儲方面,、出現(xiàn)頻率、出現(xiàn)位置分別作為詞典文件(Term Dictionary)、頻率文件(frequencies)、位置文件(positions)保存。由于索引信息是靜態(tài)存儲的,域集合與項集合中的文件組采用了一種類似的存儲方法:一個小型的索引文件,運行時載入內存;一個對應于索引文件的實際信息文件,可以按照索引中指示的偏移量隨機訪問;索引文件與信息文件在記錄的排列順序上存在隱式的對應關系,即索引文件中按照“索引項索引項2…”排列,則信息文件則也按照“信息項信息項2…”排列。域是一個關聯(lián)的元組,由一個域名和一個域值組成,域名是一個字符串,域值是一個項,比如將“標題”和實際標題的項組成的域。,而不是做為一個單獨的索引服務器存在。Storage(存儲)模塊也提供了2種保存索引方式,一種將索引信息存放在內存中,一種針對索引信息存放在物理磁盤中。每一模塊從邏輯上又可以再劃分為2部分:交互協(xié)議部分與具體實現(xiàn)部分。它的功能與Lucene一樣,都是用來提供一組API,讓開發(fā)人員能快速開發(fā)自己的搜索引擎。通過檢索倒排索引獲取匹配關鍵字的網頁集合。Indexer同時分析了網頁中所有的鏈接,并將鏈接文本(Anchor Text)、URL等重要信息存入稱為Anchors的結構中。每個網頁都有一個獨一無二的docID,在Google早期設計中,docID被定義為32位的整數(shù),也即意味著最多能保存40億個網頁數(shù)據(jù),Google現(xiàn)在的數(shù)據(jù)量已經達到了80億,如此規(guī)模的數(shù)據(jù)量也是Google設計者始料未及的。因為效率的緣故Google使用C和C++實現(xiàn)大部分模塊。定義兩個字的互現(xiàn)信息,計算兩個漢字X、Y的相鄰共現(xiàn)概率。其基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。 基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。提高搜索引擎精度的關鍵是研究最優(yōu)的頁面優(yōu)先度算法,提供具有較高用戶相關度的網頁頁面優(yōu)先度排序。如:Cache,負載均衡等。Searcher中存在的問題:(1) 檢索結果的排序由于搜索引擎返回結果非常多,檢索結果是否按用戶預期的順序排列是評價搜索引擎的重要指標之一。索引壓縮是通過對具體索引格式的研究實現(xiàn)壓縮。Indexer負責對Crawler采集的數(shù)據(jù)生成索引數(shù)據(jù),基本結構如圖23所示。(4) 壓縮算法網頁抓取后,通過一定的壓縮機制保存到本地,從而減少存儲容量,同時也減少各服務器之間的網絡通信開銷。不斷重復上面的過程,所有采集到的網頁保存到頁面存儲中進行下一步處理。具體內容安排如下:第二章:介紹了搜索引擎總體結構,各組成部分實現(xiàn)功能及關鍵技術,相關算法,并對Google的體系結構進行分析;第三章:,分析其組織架構,索引數(shù)據(jù)格式等,對源碼分析,二次開發(fā)應用;第四章:,在本文論述的理論思想基礎上,最終實現(xiàn)設計目標;第五章:介紹互聯(lián)網信息檢索系統(tǒng)的具體實現(xiàn),核心技術的解決方法。 研究目的和研究內容互聯(lián)網的快速發(fā)展,對搜索引擎提出了更高的要求。(6) 多媒體數(shù)據(jù)搜索網絡資源豐富多彩,具有很多類型的信息,用戶需要的信息也不完全是網頁的形式,從用戶的角度來看,必然要求搜索引擎能夠覆蓋更多的網絡資源。若配上機器翻譯,就可使返回結果以用戶熟悉的語言顯示?;趦热莸乃阉鞑皇歉鶕?jù)字形,而是試圖理解用戶的請求,同時根據(jù)文檔的內容選出符合用戶要求的文檔。然而,隨著多元化信息的增長,統(tǒng)一的用戶入口己經不能滿足用戶的更深入的查詢需求,搜索引擎將向智能化、個性化、精確化、專業(yè)化、交叉語言檢索、多媒體檢索等適應不同用戶需求的方向發(fā)展。天網搜索的中文文檔數(shù)量超過4億,其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源。Stanford大學在其DLI項目中開發(fā)了Google搜索引擎,在Web高效搜索、大規(guī)模索引、文檔的相關度評價等方面作了深入的研究,提出了一種基于鏈接的網頁排名算法(PageRank算法)來計算網頁的排名,并同時利用錨文本(Anchors)信息進行網頁相關度評價。第二類是搜索引擎,搜索引擎通過程序自動地從網上搜集和分析網頁,建立索引,為用戶提供服務。搜索引擎首先通過信息采集器(Crawler,又名網絡蜘蛛)從Internet中采集網頁數(shù)據(jù),然后通過索引器(Indexer)對采集的數(shù)據(jù)進行分析,并創(chuàng)建索引。作者簽名:        日  期:         目 錄1 緒論 1 互聯(lián)網信息檢索系統(tǒng)的市場需求 1 搜索引擎技術現(xiàn)狀及發(fā)展動向 2 搜索引擎技術現(xiàn)狀 2 搜索引擎技術發(fā)展方向 4 研究目的和研究內容 6 文章內容安排 62 搜索引擎技術 8 搜索引擎體系結構 8 Crawler 8 Indexer 10 Searcher 11 搜索引擎的性能指標 12 中文分詞算法 13 基于字符串匹配的分詞方法 13 基于理解的分詞方法 16 基于統(tǒng)計的分詞方法 16 實際系統(tǒng)研究 17 Google的整體結構 17 Google的工作過程 173 20 20 21 系統(tǒng)結構組織 21 索引文件分析 23 數(shù)據(jù)流分析 25 274 系統(tǒng)設計 30 系統(tǒng)特點 30 系統(tǒng)總體結構設計 30 配置管理模塊 30 數(shù)據(jù)抓取模塊 31 數(shù)據(jù)索引模塊 31 數(shù)據(jù)檢索模塊 31 日志管理模塊 31 系統(tǒng)處理流程設計 32 數(shù)據(jù)抓取處理流程 32 數(shù)據(jù)索引處理流程 33 數(shù)據(jù)檢索處理流程 345 系統(tǒng)實現(xiàn) 36 多線程網頁數(shù)據(jù)抓取 36 數(shù)據(jù)抓取主界面設計 36 多線程的實現(xiàn) 37 網頁文件下載 39 HTML文檔的掃描與分析 41 數(shù)據(jù)的索引 42 數(shù)據(jù)索引主界面設計 42 索引網頁數(shù)據(jù) 43 數(shù)據(jù)的檢索 45 數(shù)據(jù)檢索主界面設計 45 檢索索引數(shù)據(jù) 456 系統(tǒng)測試 47 測試基礎 47 測試內容 47 模塊測試 47 集成測試 48結束語 50致 謝 51參考文獻 52互聯(lián)網信息檢索系統(tǒng)的設計與實現(xiàn)1 緒論隨著互聯(lián)網(Internet)的出現(xiàn)和普及,人們的信息來源得到了極大的豐富,互聯(lián)網成為了人們獲取信息的主要來源之一。最后。畢業(yè)論文互聯(lián)網信息檢索系統(tǒng)的研究與實現(xiàn)摘 要互聯(lián)網信息檢索系統(tǒng)(搜索引擎)是專門提供信息檢索服務的平臺,它將互聯(lián)網上大量的網頁數(shù)據(jù)采集到服務器,經過處理形成的信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,實現(xiàn)對用戶提出的各種信息檢索作出響應。這一部分研究了搜索引擎的關鍵技術,將中文分詞技術、數(shù)據(jù)采集技術和數(shù)據(jù)索引技術有機的結合起來。作 者 簽 名:       日  期:        指導教師簽名:        日  期:        使用授權說明本人完全了解 大學關于收集、保存、使用畢業(yè)設計(論文)的規(guī)定,即:按照學校要求提交畢業(yè)設計(論文)的印刷本和電子版本;學校有權保存畢業(yè)設計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務;學??梢圆捎糜坝 ⒖s印、數(shù)字化或其它復制手段保存論文;在不以贏利為目的前提下,學??梢怨颊撐牡牟糠只蛉績热?。從功能上講,搜索引擎重要由信息的采集,索引和查詢三部分組成。這類通過手工維護得很好的系統(tǒng)的優(yōu)點是提供的網頁準確率高,可以有效的覆蓋熱門的主題,但它們的缺點是過于主觀,而且需要高昂的代價來建立和維護,更新改進的慢,同時不可能覆蓋所有的主題。搜索引擎己經成為信息檢索領域中最活躍的研究方向。北大的“天網”中英文搜索引擎,在系統(tǒng)規(guī)模及系統(tǒng)性能方面達到了國外中型搜索引擎系統(tǒng)的技術水平,目前天網搜索引擎維護的文檔數(shù)量達到 6億之多,并正在以平均每月一千萬頁文檔的數(shù)量擴大著規(guī)
點擊復制文檔內容
數(shù)學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1