freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文(留存版)

2025-08-11 22:31上一頁面

下一頁面
  

【正文】 、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。 中文分詞算法眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。搜索引擎需要在其中作出權(quán)衡。Google存儲索引的服務(wù)器大概有1000多臺。由于Web信息具有的分布性,非結(jié)構(gòu)化,不穩(wěn)定性等特點(diǎn),Crawler存在以下的關(guān)鍵問題:(1) 多線程抓取時的任務(wù)調(diào)度問題搜索引擎會產(chǎn)生多個Crawler同時對網(wǎng)頁進(jìn)行抓取,這里需要一個好的分布式算法,使得既不重復(fù)抓取網(wǎng)頁,又不漏掉重要的站點(diǎn)。本文在深入分析網(wǎng)頁獲取、索引生成、級別系統(tǒng)、索引檢索等搜索引擎核心技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)互聯(lián)網(wǎng)信息檢索系統(tǒng)。用戶可以輸入簡單的疑問句,比如“how can kill virus of puter?”。這其中也包含了對服務(wù)多項(xiàng)化、個性化,結(jié)果精確化,交叉語言檢索等方面的功能?,F(xiàn)在,NEC開始致力于下一代元搜索引擎Inquirus的開發(fā)。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計(jì)數(shù)據(jù),但根據(jù)CNNIC第23次報道,中國當(dāng)前擁有的網(wǎng)頁數(shù)己經(jīng)超過160億。Information Retrieval51畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。從理論上對這些關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的討論。傳統(tǒng)的信息檢索技術(shù)是從一定規(guī)模的文檔庫中獲取用戶需求的信息,其核心是重要文本信息的索引和檢索。 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動向 搜索引擎技術(shù)現(xiàn)狀由于搜索引擎巨大的商業(yè)價值和學(xué)術(shù)研究價值,各大公司都在投巨資進(jìn)行搜索引擎的研制開發(fā),不斷地涌現(xiàn)出新的具有不同特色的搜索引擎產(chǎn)品。Web檢索支持中英文混合查詢、布爾查詢、結(jié)構(gòu)屬性查詢、模糊查詢等多種查詢方式。b)將用戶提問轉(zhuǎn)化為系統(tǒng)己知的問題,然后對已知問題進(jìn)行解答,以求降低對自然語言理解技術(shù)的依賴性。(8) 桌面型搜索用戶不用打開瀏覽器,而是直接通過只要通過它就能完全實(shí)現(xiàn)搜索過程,更甚者它可以同時搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。搜索引擎典型體系結(jié)構(gòu)如圖21所示。頁面數(shù)據(jù)可以用一系列關(guān)鍵詞來表示,從檢索目的來說,這些關(guān)鍵詞描述了頁面的內(nèi)容。同時索引還必須有對Word,Excel等文件格式進(jìn)行分析的功能。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。實(shí)現(xiàn)流程如圖25所示。這種分詞方法需要使用大量的語言知識和信息。信息采集:Google中信息采集是由分布式的Crawler完成。同時,URL Resolve還產(chǎn)生由docID對組成的結(jié)構(gòu),用于計(jì)算文檔的頁面等級(Page Rank)。首先是定義了一個與平臺無關(guān)的索引文件格式,其次通過抽象將系統(tǒng)的核心組成部分設(shè)計(jì)為抽象類,具體的平臺實(shí)現(xiàn)部分設(shè)計(jì)為抽象類的實(shí)現(xiàn),此外與具體平臺相關(guān)的部分比如文件存儲也封裝為類,經(jīng)過層層的面向?qū)ο笫降奶幚?,最終達(dá)成了一個低耦合高效率,方便開發(fā)的檢索引擎系統(tǒng)。然后通過Search模塊,最后返回給用戶相關(guān)信息,完成查詢工作。此外還有三個文件,分別用來保存所有的段的記錄、保存已刪除文件的記錄和控制讀寫的同步,它們分別是segment,deletable和lock文件,都是沒有擴(kuò)展名。首先,對詞典文件中的關(guān)鍵詞進(jìn)行壓縮,關(guān)鍵詞壓縮為前綴長度,后綴,例如:當(dāng)前詞為“科學(xué)史”,上一個詞為“科學(xué)”,那么“科學(xué)史”壓縮為2,語。,而是一個全文檢索引擎的架構(gòu),它中包含的大量抽象類、接口、文檔類型、評分邏輯等需要根據(jù)具體應(yīng)用來定義實(shí)現(xiàn)。 string Index_Path = ProgressStartPath + \\Index + \\。 (Succeed!)。 。實(shí)現(xiàn)搜索引擎中的Indexer模塊??臻e線程從待解析的URL隊(duì)列中獲取URL,同步進(jìn)行網(wǎng)頁數(shù)據(jù)的解析和下載工作。 ()。然后依次分配給每一個空閑的線程進(jìn)行數(shù)據(jù)的下載。 } ()。 } (下載成功: + ())。 if ( == 2) return [1].Value。 } catch { (IndexFail: + dr[Url].ToString())。 (url)。圖55 數(shù)據(jù)檢索結(jié)果界面 6 系統(tǒng)測試測試是軟件質(zhì)量保證的關(guān)鍵階段,是在軟件投入運(yùn)行前,對軟件的需求分析、設(shè)計(jì)、實(shí)現(xiàn)編碼進(jìn)行最終審查。但經(jīng)過本軟件的開發(fā),對其用到的技術(shù)有了更深層次的掌握,如搜索引擎的基本原理,搜索引擎的相關(guān)算法。其中老師認(rèn)真負(fù)責(zé)的工作態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和深厚的理論水平都使我受益匪淺。 網(wǎng)頁超鏈接獲取模塊測試表測試用例預(yù)期測試結(jié)果實(shí)際測試結(jié)果測試結(jié)論網(wǎng)頁A:htmla href=baidu/aa href=Google/aa href=Bing/a/html正確網(wǎng)頁B:htmla href=SINA/aa href=/a正確 集成測試單個模塊能正常,組裝后不一定能正常工作,所以在各模塊測試的基礎(chǔ)上,將所有模塊按照設(shè)計(jì)要求組裝成一個完整的系統(tǒng)進(jìn)行測試。 ()。if (h != null){ DataRow myrow。 (new Field(content, dr[Content].ToString(), , ))。(2) 解析HTML中除HTML標(biāo)簽以外的數(shù)據(jù),提取其中的關(guān)鍵內(nèi)容,將數(shù)據(jù)提交到數(shù)據(jù)庫中,以供數(shù)據(jù)索引時使用。 return。 } } } ()。 threads[i].Name = 線程 + (i + 1).ToString()。圖51 網(wǎng)頁抓取界面 多線程的實(shí)現(xiàn) 。日志管理模塊在提供了安全機(jī)制的同時也增加了磁盤讀取的次數(shù),對系統(tǒng)的性能產(chǎn)生一定影響。由于互聯(lián)網(wǎng)上的數(shù)據(jù)多是以HTML文件的形式保存的,所以在對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集時,需要對HTML進(jìn)行解析,獲取網(wǎng)頁中的核心內(nèi)容,去除掉無用的HTML標(biāo)簽,然后將采集的數(shù)據(jù)保存到數(shù)據(jù)庫中。 多線程進(jìn)行數(shù)據(jù)的采集,網(wǎng)頁文件的下載。 } ()。這個過程十分簡單,以下便是一個示例程序://將元數(shù)據(jù)生成索引數(shù)據(jù)的方法private IndexWriter CreateNewsIndex(){ string ConString = server=GAO。字節(jié)流則是對文件抽象的直接操作的體現(xiàn),通過固定長度的字節(jié)()流的處理,將文件操作解脫出來,也做到了與平臺文件系統(tǒng)的無關(guān)性。這是一種數(shù)據(jù)庫之外的處理方法,其有其優(yōu)點(diǎn)(格式平臺獨(dú)立、速度快),也有其缺點(diǎn)(獨(dú)立性帶來的共享訪問接口問題等等),具體如何衡量兩種方法之間的利弊,這里就不進(jìn)行討論了。項(xiàng)是最小的索引概念單位,它直接代表了一個字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息。需要對文本內(nèi)容建立索引,而對索引維護(hù)也可以通過該接口訪問索引,更新索引信息,優(yōu)化索引。圖31 Lucene在應(yīng)用程序中的使用情況。Indexer把hits數(shù)據(jù)分配到一組稱為barrels的結(jié)構(gòu)中,產(chǎn)生了以docID部分排序后的順排索引(forward index)。 Google的整體結(jié)構(gòu)Google的整體結(jié)構(gòu)如圖27所示。 基于理解的分詞方法這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。同時在體系結(jié)構(gòu)上還有很多技術(shù)可以用來提升速度。(3) 索引壓縮索引也存在數(shù)據(jù)壓縮的問題。(3) 更新策略每經(jīng)過一段時間,Crawler對以抓取的數(shù)據(jù)經(jīng)行更新,保證索引網(wǎng)頁是最新的。 文章內(nèi)容安排本文主要研究了搜索引擎實(shí)現(xiàn)中所涉及到的相關(guān)技術(shù)。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“virus”這個詞來檢索,結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“how can kill virus of puter?”,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。(3) 提高檢索的有效性解決查詢結(jié)果過多的現(xiàn)象目前有以下幾種方法:a)構(gòu)建基于內(nèi)容的搜索引擎。北大的“天網(wǎng)”中英文搜索引擎,在系統(tǒng)規(guī)模及系統(tǒng)性能方面達(dá)到了國外中型搜索引擎系統(tǒng)的技術(shù)水平,目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6億之多,并正在以平均每月一千萬頁文檔的數(shù)量擴(kuò)大著規(guī)模。這類通過手工維護(hù)得很好的系統(tǒng)的優(yōu)點(diǎn)是提供的網(wǎng)頁準(zhǔn)確率高,可以有效的覆蓋熱門的主題,但它們的缺點(diǎn)是過于主觀,而且需要高昂的代價來建立和維護(hù),更新改進(jìn)的慢,同時不可能覆蓋所有的主題。作 者 簽 名:       日  期:        指導(dǎo)教師簽名:        日  期:        使用授權(quán)說明本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝 ⒖s印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。畢業(yè)論文互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)摘 要互聯(lián)網(wǎng)信息檢索系統(tǒng)(搜索引擎)是專門提供信息檢索服務(wù)的平臺,它將互聯(lián)網(wǎng)上大量的網(wǎng)頁數(shù)據(jù)采集到服務(wù)器,經(jīng)過處理形成的信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,實(shí)現(xiàn)對用戶提出的各種信息檢索作出響應(yīng)。作者簽名:        日  期:         目 錄1 緒論 1 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場需求 1 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動向 2 搜索引擎技術(shù)現(xiàn)狀 2 搜索引擎技術(shù)發(fā)展方向 4 研究目的和研究內(nèi)容 6 文章內(nèi)容安排 62 搜索引擎技術(shù) 8 搜索引擎體系結(jié)構(gòu) 8 Crawler 8 Indexer 10 Searcher 11 搜索引擎的性能指標(biāo) 12 中文分詞算法 13 基于字符串匹配的分詞方法 13 基于理解的分詞方法 16 基于統(tǒng)計(jì)的分詞方法 16 實(shí)際系統(tǒng)研究 17 Google的整體結(jié)構(gòu) 17 Google的工作過程 173 20 20 21 系統(tǒng)結(jié)構(gòu)組織 21 索引文件分析 23 數(shù)據(jù)流分析 25 274 系統(tǒng)設(shè)計(jì) 30 系統(tǒng)特點(diǎn) 30 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì) 30 配置管理模塊 30 數(shù)據(jù)抓取模塊 31 數(shù)據(jù)索引模塊 31 數(shù)據(jù)檢索模塊 31 日志管理模塊 31 系統(tǒng)處理流程設(shè)計(jì) 32 數(shù)據(jù)抓取處理流程 32 數(shù)據(jù)索引處理流程 33 數(shù)據(jù)檢索處理流程 345 系統(tǒng)實(shí)現(xiàn) 36 多線程網(wǎng)頁數(shù)據(jù)抓取 36 數(shù)據(jù)抓取主界面設(shè)計(jì) 36 多線程的實(shí)現(xiàn) 37 網(wǎng)頁文件下載 39 HTML文檔的掃描與分析 41 數(shù)據(jù)的索引 42 數(shù)據(jù)索引主界面設(shè)計(jì) 42 索引網(wǎng)頁數(shù)據(jù) 43 數(shù)據(jù)的檢索 45 數(shù)據(jù)檢索主界面設(shè)計(jì) 45 檢索索引數(shù)據(jù) 456 系統(tǒng)測試 47 測試基礎(chǔ) 47 測試內(nèi)容 47 模塊測試 47 集成測試 48結(jié)束語 50致 謝 51參考文獻(xiàn) 52互聯(lián)網(wǎng)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)1 緒論隨著互聯(lián)網(wǎng)(Internet)的出現(xiàn)和普及,人們的信息來源得到了極大的豐富,互聯(lián)網(wǎng)成為了人們獲取信息的主要來源之一。第二類是搜索引擎,搜索引擎通過程序自動地從網(wǎng)上搜集和分析網(wǎng)頁,建立索引,為用戶提供服務(wù)。天網(wǎng)搜索的中文文檔數(shù)量超過4億,其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源?;趦?nèi)容的搜索不是根據(jù)字形,而是試圖理解用戶的請求,同時根據(jù)文檔的內(nèi)容選出符合用戶要求的文檔。(6) 多媒體數(shù)據(jù)搜索網(wǎng)絡(luò)資源豐富多彩,具有很多類型的信息,用戶需要的信息也不完全是網(wǎng)頁的形式,從用戶的角度來看,必然要求搜索引擎能夠覆蓋更多的網(wǎng)絡(luò)資源。具體內(nèi)容安排如下:第二章:介紹了搜索引擎總體結(jié)構(gòu),各組成部分實(shí)現(xiàn)功能及關(guān)鍵技術(shù),相關(guān)算法,并對Google的體系結(jié)構(gòu)進(jìn)行分析;第三章:,分析其組織架構(gòu),索引數(shù)據(jù)格式等,對源碼分析,二次開發(fā)應(yīng)用;第四章:,在本文論述的理論思想基礎(chǔ)上,最終實(shí)現(xiàn)設(shè)計(jì)目標(biāo);第五章:介紹互聯(lián)網(wǎng)信息檢索系統(tǒng)的具體實(shí)現(xiàn),核心技術(shù)的解決方法。(4) 壓縮算法網(wǎng)頁抓取后,通過一定的壓縮機(jī)制保存到本地,從而減少存儲容量,同時也減少各服務(wù)器之間的網(wǎng)絡(luò)通信開銷。索引壓縮是通過對具體索引格式的研究實(shí)現(xiàn)壓縮。如:Cache,負(fù)載均衡等。 基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。其基本思想是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。因?yàn)樾实木壒蔊oogle使用C和C++實(shí)現(xiàn)
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1