freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文(存儲(chǔ)版)

  

【正文】 網(wǎng)頁(yè)數(shù)據(jù)存儲(chǔ)網(wǎng)頁(yè)文件存儲(chǔ)索引數(shù)據(jù)管理中文分詞數(shù)據(jù)檢索與顯示系統(tǒng)日志信息管理日志管理模塊Html文件的解析圖41 EarthSearch系統(tǒng)結(jié)構(gòu)圖 系統(tǒng)處理流程設(shè)計(jì) 數(shù)據(jù)抓取處理流程使用多線程進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)的采集,首先對(duì)入口URL的HTML進(jìn)行解析,從中獲取HTML所有URL地址,添加到待解析的URL隊(duì)列中,將HTML中核心數(shù)據(jù)保存到數(shù)據(jù)庫(kù),并將文件下載到服務(wù)器。由于本系統(tǒng)的功能和模塊較多實(shí)現(xiàn)較復(fù)雜,本章選擇了有代表性的幾個(gè)功能的實(shí)現(xiàn)方法進(jìn)行介紹,主要包括如下幾個(gè)方面:(1) 多線程網(wǎng)頁(yè)數(shù)據(jù)抓??;(2) HTML文檔的掃描與分析;(3) 數(shù)據(jù)的索引;(4) 數(shù)據(jù)的檢索。thread = new Thread(fun)。 for (int i = 0。 }首先設(shè)定一個(gè)網(wǎng)頁(yè)爬行入口點(diǎn),通過(guò)解析HTML,將文檔中所有的URL添加到待訪問(wèn)URL的哈希表中。 lock (manager) { while (true) { if ( != 0) { url = (Uri)()。 if (!(url)) (url, )。 StreamReader reader = null。 while ((line = ()) != null) { buffer += line + \r\n。 if (response != null) ()。private string GetTitle(string html){ Match m = (html,(?m)title[^]*(?title(?:\w|\W)*?)/title[^]*。暫存到SqlDataReader中,最后將SqlDataReader作為參數(shù)傳入添加索引項(xiàng)到索引文件的函數(shù)中,生成索引文件。 ()。Hits h = null。 (content)。 myrow[1] = (content).ToString()。數(shù)據(jù)檢索效果如圖55所示。 測(cè)試內(nèi)容軟件并不僅僅是程序測(cè)試,軟件測(cè)試應(yīng)貫穿于整個(gè)軟件生命周期中。 結(jié)束語(yǔ)本人在開(kāi)發(fā)過(guò)程中學(xué)習(xí)到了很多軟件知識(shí),同時(shí)也認(rèn)識(shí)到自己知識(shí)的匱乏,比如對(duì)很多關(guān)鍵技術(shù)只停留在理論層次,沒(méi)有經(jīng)過(guò)實(shí)踐,沒(méi)能真正懂得其中的精華,走了很多彎路,查閱了很多資料。在這段時(shí)間里,本人對(duì)C語(yǔ)言的掌握和Visual Stuido的使用有了較大的提高,在編程思想方面也有了進(jìn)一步的提高。他無(wú)論在理論上還是在實(shí)踐中,都給與我很大的幫助,使我得到不少的提高,這對(duì)于我以后的工作和學(xué)習(xí)都有一種巨大。每次多線程采集數(shù)據(jù)時(shí),系統(tǒng)內(nèi)存的使用量都很大,對(duì)硬件的要求很高。本系統(tǒng)采用黑盒測(cè)試方法及自頂向下測(cè)試方法,從主模塊開(kāi)始,沿程序的控制路徑逐步向下,挨個(gè)進(jìn)行各個(gè)功能的測(cè)試,比如在數(shù)據(jù)檢索中輸入一個(gè)關(guān)鍵字,則在顯示檢索數(shù)據(jù)結(jié)果界面中就能看到所檢索的詳細(xì)信息,表明此系統(tǒng)沒(méi)有毛病,滿(mǎn)足用戶(hù)的要求。(2) 測(cè)試方法系統(tǒng)的測(cè)試方法分為靜態(tài)測(cè)試和動(dòng)態(tài)測(cè)試兩種。}else{ (Hits為空)。 myrow = ()。 DataTable mytab = new DataTable()。代碼實(shí)現(xiàn)如下:string Index_Path = (Index)。 (doc)。索引參數(shù)配置界面如圖52所示。HTML數(shù)據(jù)格式是一種特殊的XML數(shù)據(jù)進(jìn)行展現(xiàn)的, ,可以方便的實(shí)現(xiàn)獲取節(jié)點(diǎn)的屬性,值等,再加上C強(qiáng)大的正則表達(dá)式的支持,可以準(zhǔn)確的完成對(duì)HTML進(jìn)行解析的工作。 } finally { if (reader != null) ()。 } string buffer = , line。具體代碼如下:private void Download(Uri url){ WebResponse response = null。 Download(url)。 waitTimes++。 (worker)。public void Start(){ timer = new HighResolutionTimer()。其中的核心線程類(lèi)是Thread。數(shù)據(jù)索引執(zhí)行過(guò)程如圖44所示。可以不使用該模塊以提高系統(tǒng)性能。實(shí)現(xiàn)搜索引擎中的Searcher模塊。從而實(shí)現(xiàn)數(shù)據(jù)抓取的高效性。包括:配置管理模塊,數(shù)據(jù)抓取模塊,數(shù)據(jù)索引模塊,數(shù)據(jù)檢索模塊,日志管理模塊。系統(tǒng)命名為EarthSearch。 ()。 SqlDataReader dr = ()。uid=sa。(3) 具體搜索邏輯的設(shè)計(jì),,也通過(guò)QueryParser提供強(qiáng)大的查詢(xún)語(yǔ)言。查詢(xún)語(yǔ)句對(duì)象流則是僅僅在查詢(xún)語(yǔ)句解析時(shí)用到的概念,它對(duì)查詢(xún)語(yǔ)句抽象,通過(guò)類(lèi)的繼承結(jié)構(gòu)反映查詢(xún)語(yǔ)句的結(jié)構(gòu),將之傳送到查找邏輯來(lái)進(jìn)行查找的操作。這部分的分析,也是進(jìn)行重寫(xiě)的基礎(chǔ)。索引數(shù)據(jù)存儲(chǔ)方面,、出現(xiàn)頻率、出現(xiàn)位置分別作為詞典文件(Term Dictionary)、頻率文件(frequencies)、位置文件(positions)保存。由于索引信息是靜態(tài)存儲(chǔ)的,域集合與項(xiàng)集合中的文件組采用了一種類(lèi)似的存儲(chǔ)方法:一個(gè)小型的索引文件,運(yùn)行時(shí)載入內(nèi)存;一個(gè)對(duì)應(yīng)于索引文件的實(shí)際信息文件,可以按照索引中指示的偏移量隨機(jī)訪問(wèn);索引文件與信息文件在記錄的排列順序上存在隱式的對(duì)應(yīng)關(guān)系,即索引文件中按照“索引項(xiàng)索引項(xiàng)2…”排列,則信息文件則也按照“信息項(xiàng)信息項(xiàng)2…”排列。域是一個(gè)關(guān)聯(lián)的元組,由一個(gè)域名和一個(gè)域值組成,域名是一個(gè)字符串,域值是一個(gè)項(xiàng),比如將“標(biāo)題”和實(shí)際標(biāo)題的項(xiàng)組成的域。,而不是做為一個(gè)單獨(dú)的索引服務(wù)器存在。Storage(存儲(chǔ))模塊也提供了2種保存索引方式,一種將索引信息存放在內(nèi)存中,一種針對(duì)索引信息存放在物理磁盤(pán)中。每一模塊從邏輯上又可以再劃分為2部分:交互協(xié)議部分與具體實(shí)現(xiàn)部分。它的功能與Lucene一樣,都是用來(lái)提供一組API,讓開(kāi)發(fā)人員能快速開(kāi)發(fā)自己的搜索引擎。通過(guò)檢索倒排索引獲取匹配關(guān)鍵字的網(wǎng)頁(yè)集合。Indexer同時(shí)分析了網(wǎng)頁(yè)中所有的鏈接,并將鏈接文本(Anchor Text)、URL等重要信息存入稱(chēng)為Anchors的結(jié)構(gòu)中。每個(gè)網(wǎng)頁(yè)都有一個(gè)獨(dú)一無(wú)二的docID,在Google早期設(shè)計(jì)中,docID被定義為32位的整數(shù),也即意味著最多能保存40億個(gè)網(wǎng)頁(yè)數(shù)據(jù),Google現(xiàn)在的數(shù)據(jù)量已經(jīng)達(dá)到了80億,如此規(guī)模的數(shù)據(jù)量也是Google設(shè)計(jì)者始料未及的。因?yàn)樾实木壒蔊oogle使用C和C++實(shí)現(xiàn)大部分模塊。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率。其基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。 基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。提高搜索引擎精度的關(guān)鍵是研究最優(yōu)的頁(yè)面優(yōu)先度算法,提供具有較高用戶(hù)相關(guān)度的網(wǎng)頁(yè)頁(yè)面優(yōu)先度排序。如:Cache,負(fù)載均衡等。Searcher中存在的問(wèn)題:(1) 檢索結(jié)果的排序由于搜索引擎返回結(jié)果非常多,檢索結(jié)果是否按用戶(hù)預(yù)期的順序排列是評(píng)價(jià)搜索引擎的重要指標(biāo)之一。索引壓縮是通過(guò)對(duì)具體索引格式的研究實(shí)現(xiàn)壓縮。Indexer負(fù)責(zé)對(duì)Crawler采集的數(shù)據(jù)生成索引數(shù)據(jù),基本結(jié)構(gòu)如圖23所示。(4) 壓縮算法網(wǎng)頁(yè)抓取后,通過(guò)一定的壓縮機(jī)制保存到本地,從而減少存儲(chǔ)容量,同時(shí)也減少各服務(wù)器之間的網(wǎng)絡(luò)通信開(kāi)銷(xiāo)。不斷重復(fù)上面的過(guò)程,所有采集到的網(wǎng)頁(yè)保存到頁(yè)面存儲(chǔ)中進(jìn)行下一步處理。具體內(nèi)容安排如下:第二章:介紹了搜索引擎總體結(jié)構(gòu),各組成部分實(shí)現(xiàn)功能及關(guān)鍵技術(shù),相關(guān)算法,并對(duì)Google的體系結(jié)構(gòu)進(jìn)行分析;第三章:,分析其組織架構(gòu),索引數(shù)據(jù)格式等,對(duì)源碼分析,二次開(kāi)發(fā)應(yīng)用;第四章:,在本文論述的理論思想基礎(chǔ)上,最終實(shí)現(xiàn)設(shè)計(jì)目標(biāo);第五章:介紹互聯(lián)網(wǎng)信息檢索系統(tǒng)的具體實(shí)現(xiàn),核心技術(shù)的解決方法。 研究目的和研究?jī)?nèi)容互聯(lián)網(wǎng)的快速發(fā)展,對(duì)搜索引擎提出了更高的要求。(6) 多媒體數(shù)據(jù)搜索網(wǎng)絡(luò)資源豐富多彩,具有很多類(lèi)型的信息,用戶(hù)需要的信息也不完全是網(wǎng)頁(yè)的形式,從用戶(hù)的角度來(lái)看,必然要求搜索引擎能夠覆蓋更多的網(wǎng)絡(luò)資源。若配上機(jī)器翻譯,就可使返回結(jié)果以用戶(hù)熟悉的語(yǔ)言顯示?;趦?nèi)容的搜索不是根據(jù)字形,而是試圖理解用戶(hù)的請(qǐng)求,同時(shí)根據(jù)文檔的內(nèi)容選出符合用戶(hù)要求的文檔。然而,隨著多元化信息的增長(zhǎng),統(tǒng)一的用戶(hù)入口己經(jīng)不能滿(mǎn)足用戶(hù)的更深入的查詢(xún)需求,搜索引擎將向智能化、個(gè)性化、精確化、專(zhuān)業(yè)化、交叉語(yǔ)言檢索、多媒體檢索等適應(yīng)不同用戶(hù)需求的方向發(fā)展。天網(wǎng)搜索的中文文檔數(shù)量超過(guò)4億,其中包括html、txt、pdf、doc、ps、ppt等多種類(lèi)型的文檔和資源。Stanford大學(xué)在其DLI項(xiàng)目中開(kāi)發(fā)了Google搜索引擎,在Web高效搜索、大規(guī)模索引、文檔的相關(guān)度評(píng)價(jià)等方面作了深入的研究,提出了一種基于鏈接的網(wǎng)頁(yè)排名算法(PageRank算法)來(lái)計(jì)算網(wǎng)頁(yè)的排名,并同時(shí)利用錨文本(Anchors)信息進(jìn)行網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)。第二類(lèi)是搜索引擎,搜索引擎通過(guò)程序自動(dòng)地從網(wǎng)上搜集和分析網(wǎng)頁(yè),建立索引,為用戶(hù)提供服務(wù)。搜索引擎首先通過(guò)信息采集器(Crawler,又名網(wǎng)絡(luò)蜘蛛)從Internet中采集網(wǎng)頁(yè)數(shù)據(jù),然后通過(guò)索引器(Indexer)對(duì)采集的數(shù)據(jù)進(jìn)行分析,并創(chuàng)建索引。作者簽名:        日  期:         目 錄1 緒論 1 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場(chǎng)需求 1 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動(dòng)向 2 搜索引擎技術(shù)現(xiàn)狀 2 搜索引擎技術(shù)發(fā)展方向 4 研究目的和研究?jī)?nèi)容 6 文章內(nèi)容安排 62 搜索引擎技術(shù) 8 搜索引擎體系結(jié)構(gòu) 8 Crawler 8 Indexer 10 Searcher 11 搜索引擎的性能指標(biāo) 12 中文分詞算法 13 基于字符串匹配的分詞方法 13 基于理解的分詞方法 16 基于統(tǒng)計(jì)的分詞方法 16 實(shí)際系統(tǒng)研究 17 Google的整體結(jié)構(gòu) 17 Google的工作過(guò)程 173 20 20 21 系統(tǒng)結(jié)構(gòu)組織 21 索引文件分析 23 數(shù)據(jù)流分析 25 274 系統(tǒng)設(shè)計(jì) 30 系統(tǒng)特點(diǎn) 30 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì) 30 配置管理模塊 30 數(shù)據(jù)抓取模塊 31 數(shù)據(jù)索引模塊 31 數(shù)據(jù)檢索模塊 31 日志管理模塊 31 系統(tǒng)處理流程設(shè)計(jì) 32 數(shù)據(jù)抓取處理流程 32 數(shù)據(jù)索引處理流程 33 數(shù)據(jù)檢索處理流程 345 系統(tǒng)實(shí)現(xiàn) 36 多線程網(wǎng)頁(yè)數(shù)據(jù)抓取 36 數(shù)據(jù)抓取主界面設(shè)計(jì) 36 多線程的實(shí)現(xiàn) 37 網(wǎng)頁(yè)文件下載 39 HTML文檔的掃描與分析 41 數(shù)據(jù)的索引 42 數(shù)據(jù)索引主界面設(shè)計(jì) 42 索引網(wǎng)頁(yè)數(shù)據(jù) 43 數(shù)據(jù)的檢索 45 數(shù)據(jù)檢索主界面設(shè)計(jì) 45 檢索索引數(shù)據(jù) 456 系統(tǒng)測(cè)試 47 測(cè)試基礎(chǔ) 47 測(cè)試內(nèi)容 47 模塊測(cè)試 47 集成測(cè)試 48結(jié)束語(yǔ) 50致 謝 51參考文獻(xiàn) 52互聯(lián)網(wǎng)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)1 緒論隨著互聯(lián)網(wǎng)(Internet)的出現(xiàn)和普及,人們的信息來(lái)源得到了極大的豐富,互聯(lián)網(wǎng)成為了人們獲取信息的主要來(lái)源之一。最后。畢業(yè)論文互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)摘 要互聯(lián)網(wǎng)信息檢索系統(tǒng)(搜索引擎)是專(zhuān)門(mén)提供信息檢索服務(wù)的平臺(tái),它將互聯(lián)網(wǎng)上大量的網(wǎng)頁(yè)數(shù)據(jù)采集到服務(wù)器,經(jīng)過(guò)處理形成的信息數(shù)據(jù)庫(kù)和索引數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)用戶(hù)提出的各種信息檢索作出響應(yīng)。這一部分研究了搜索引擎的關(guān)鍵技術(shù),將中文分詞技術(shù)、數(shù)據(jù)采集技術(shù)和數(shù)據(jù)索引技術(shù)有機(jī)的結(jié)合起來(lái)。作 者 簽 名:       日  期:        指導(dǎo)教師簽名:        日  期:        使用授權(quán)說(shuō)明本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝 ⒖s印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉?jī)?nèi)容。從功能上講,搜索引擎重要由信息的采集,索引和查詢(xún)?nèi)糠纸M成。這類(lèi)通過(guò)手工維護(hù)得很好的系統(tǒng)的優(yōu)點(diǎn)是提供的網(wǎng)頁(yè)準(zhǔn)確率高,可以有效的覆蓋熱門(mén)的主題,但它們的缺點(diǎn)是過(guò)于主觀,而且需要高昂的代價(jià)來(lái)建立和維護(hù),更新改進(jìn)的慢,同時(shí)不可能覆蓋所有的主題。搜索引擎己經(jīng)成為信息檢索領(lǐng)域中最活躍的研究方向。北大的“天網(wǎng)”中英文搜索引擎,在系統(tǒng)規(guī)模及系統(tǒng)性能方面達(dá)到了國(guó)外中型搜索引擎系統(tǒng)的技術(shù)水平,目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6億之多,并正在以平均每月一千萬(wàn)頁(yè)文檔的數(shù)量擴(kuò)大著規(guī)
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1