freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-wenkub.com

2025-06-24 22:31 本頁面
   

【正文】 其中老師認(rèn)真負(fù)責(zé)的工作態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和深厚的理論水平都使我受益匪淺。開發(fā)的過程其實(shí)就是一個學(xué)習(xí)和實(shí)踐的過程。但是由于畢業(yè)設(shè)計時間較短,個人的水平有限,所以該系統(tǒng)還有許多不盡如人意的地方,比如在性能方面,數(shù)據(jù)的采集速度還有待提高。但經(jīng)過本軟件的開發(fā),對其用到的技術(shù)有了更深層次的掌握,如搜索引擎的基本原理,搜索引擎的相關(guān)算法。 網(wǎng)頁超鏈接獲取模塊測試表測試用例預(yù)期測試結(jié)果實(shí)際測試結(jié)果測試結(jié)論網(wǎng)頁A:htmla href=baidu/aa href=Google/aa href=Bing/a/html正確網(wǎng)頁B:htmla href=SINA/aa href=/a正確 集成測試單個模塊能正常,組裝后不一定能正常工作,所以在各模塊測試的基礎(chǔ)上,將所有模塊按照設(shè)計要求組裝成一個完整的系統(tǒng)進(jìn)行測試。需求分析、概要設(shè)計、詳細(xì)設(shè)計以及程序編碼等各階段所得到的文檔,包括需求規(guī)格說明、概要設(shè)計規(guī)格說明、詳細(xì)設(shè)計規(guī)格說明以及源程序,都應(yīng)成為軟件測試的對象。最終目的是建立一個可靠性高的軟件系統(tǒng)。圖55 數(shù)據(jù)檢索結(jié)果界面 6 系統(tǒng)測試測試是軟件質(zhì)量保證的關(guān)鍵階段,是在軟件投入運(yùn)行前,對軟件的需求分析、設(shè)計、實(shí)現(xiàn)編碼進(jìn)行最終審查。 ()。 myrow[2] = (url).ToString()。 i++) { Document doc = (i)。 (url)。if (h != null){ DataRow myrow。IndexSearcher Search = new IndexSearcher(Index_Path)。首先獲取索引文件路徑以及要檢索的關(guān)鍵詞;然后通過QueryParser對象對關(guān)鍵詞進(jìn)行分析,利用Search()方法在索引文件中進(jìn)行查找;最后將匹配的數(shù)據(jù)添加到DataTable中進(jìn)行數(shù)據(jù)綁定,返回給客戶端。 } catch { (IndexFail: + dr[Url].ToString())。 (new Field(content, dr[Content].ToString(), , ))?;玖鞒虉D如圖53所示。 }} 數(shù)據(jù)的索引 數(shù)據(jù)索引主界面設(shè)計數(shù)據(jù)索引界面主要提供對索引文件參數(shù)的設(shè)置,包括索引文件保存的路徑,索引線程停頓時間,已經(jīng)存在索引文件時進(jìn)行相應(yīng)處理的設(shè)置等。 if ( == 2) return [1].Value。(2) 解析HTML中除HTML標(biāo)簽以外的數(shù)據(jù),提取其中的關(guān)鍵內(nèi)容,將數(shù)據(jù)提交到數(shù)據(jù)庫中,以供數(shù)據(jù)索引時使用。 }} HTML文檔的掃描與分析HTML格式的文檔由兩部分組成:文件頭和文件體。 } catch (IOException e) { (下載錯誤: + () + | + ())。 } (下載成功: + ())。 return。 try { HttpWebRequest request = (HttpWebRequest)(url)。利用GetResponseStream()方法將要下載的文件轉(zhuǎn)化為網(wǎng)絡(luò)流,最終通過HTTP協(xié)議傳遞到本地,生成文件。 } ()。 } } } ()。 if (!(url)) { (url, )。 } (1000)。然后依次分配給每一個空閑的線程進(jìn)行數(shù)據(jù)的下載。 threads[i].Name = 線程 + (i + 1).ToString()。 i 。實(shí)現(xiàn)的主要方法如下:private Thread[] threads。 ()。圖51 網(wǎng)頁抓取界面 多線程的實(shí)現(xiàn) 。 多線程網(wǎng)頁數(shù)據(jù)抓取要想使網(wǎng)絡(luò)蜘蛛在有限的硬件環(huán)境下盡可能地提高下載速度。用戶首先在網(wǎng)站上輸入要檢索的關(guān)鍵詞,將其傳到服務(wù)器;服務(wù)器對關(guān)鍵詞進(jìn)行中文詞法分析,在索引數(shù)據(jù)庫中進(jìn)行查找,最終將檢索結(jié)果返回給用戶??臻e線程從待解析的URL隊列中獲取URL,同步進(jìn)行網(wǎng)頁數(shù)據(jù)的解析和下載工作。日志管理模塊在提供了安全機(jī)制的同時也增加了磁盤讀取的次數(shù),對系統(tǒng)的性能產(chǎn)生一定影響。 日志管理模塊在對數(shù)據(jù)抓取、保存、索引、更新時可能發(fā)生各種各樣的問題,造成數(shù)據(jù)的丟失甚至損壞。以Web的形式將符合條件的數(shù)據(jù)反饋給用戶。實(shí)現(xiàn)搜索引擎中的Indexer模塊。由于互聯(lián)網(wǎng)上的數(shù)據(jù)多是以HTML文件的形式保存的,所以在對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集時,需要對HTML進(jìn)行解析,獲取網(wǎng)頁中的核心內(nèi)容,去除掉無用的HTML標(biāo)簽,然后將采集的數(shù)據(jù)保存到數(shù)據(jù)庫中。通過對配置文件的管理,可以很方便有效的對系統(tǒng)進(jìn)行管理。從功能上劃分,系統(tǒng)主要由五個核心模塊構(gòu)成。 。 多線程進(jìn)行數(shù)據(jù)的采集,網(wǎng)頁文件的下載。 使用C正則表達(dá)式解析HTML,獲取HTML中核心數(shù)據(jù)。 4 系統(tǒng)設(shè)計 系統(tǒng)特點(diǎn)通過對搜索引擎的學(xué)習(xí)和分析,針對于搜索引擎的特點(diǎn),設(shè)計了一個簡易的搜索引擎,實(shí)現(xiàn)對互聯(lián)網(wǎng)數(shù)據(jù)的采集,索引數(shù)據(jù)的生成,數(shù)據(jù)檢索等功能。 (Succeed!)。 } ()。 (new Field(tablename, News, , ))。 } SqlCommand cmd=new SqlCommand (select * from News,conn)。 string Index_Path = ProgressStartPath + \\Index + \\。這個過程十分簡單,以下便是一個示例程序://將元數(shù)據(jù)生成索引數(shù)據(jù)的方法private IndexWriter CreateNewsIndex(){ string ConString = server=GAO。當(dāng)然,(尤其是對非英文的語言檢索)。(2) 按照被索引的文件的格式來提供相應(yīng)的文本分析邏輯,這里是指除了開詞法分析之外的部分,比如HTML文件,通常需要把其中的內(nèi)容按照所屬于域分門別類加入索引,這就需要我們自己定義實(shí)現(xiàn)處理HTML文件的HTMLDocument類。,而是一個全文檢索引擎的架構(gòu),它中包含的大量抽象類、接口、文檔類型、評分邏輯等需要根據(jù)具體應(yīng)用來定義實(shí)現(xiàn)。字節(jié)流則是對文件抽象的直接操作的體現(xiàn),通過固定長度的字節(jié)()流的處理,將文件操作解脫出來,也做到了與平臺文件系統(tǒng)的無關(guān)性?,F(xiàn)在將圖中的涉及到的流的類型及各個邏輯對應(yīng)系統(tǒng)的相關(guān)部分的關(guān)系說明一下。在此基礎(chǔ)上。首先,對詞典文件中的關(guān)鍵詞進(jìn)行壓縮,關(guān)鍵詞壓縮為前綴長度,后綴,例如:當(dāng)前詞為“科學(xué)史”,上一個詞為“科學(xué)”,那么“科學(xué)史”壓縮為2,語。這是一種數(shù)據(jù)庫之外的處理方法,其有其優(yōu)點(diǎn)(格式平臺獨(dú)立、速度快),也有其缺點(diǎn)(獨(dú)立性帶來的共享訪問接口問題等等),具體如何衡量兩種方法之間的利弊,這里就不進(jìn)行討論了。此外,標(biāo)準(zhǔn)化因子文件和被刪除文檔文件則提供了一些程序內(nèi)部的輔助設(shè)施(標(biāo)準(zhǔn)化因子用在評分排序機(jī)制中,被刪除文檔是一種偽刪除手段)。這兩個集合中所含有的文件在圖中均有表明。此外還有三個文件,分別用來保存所有的段的記錄、保存已刪除文件的記錄和控制讀寫的同步,它們分別是segment,deletable和lock文件,都是沒有擴(kuò)展名。項是最小的索引概念單位,它直接代表了一個字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息。因此,下面將結(jié)合分析和文件格式的定義規(guī)范。在高度的面向?qū)ο罄碚摰闹蜗拢子跀U(kuò)展。然后通過Search模塊,最后返回給用戶相關(guān)信息,完成查詢工作。需要對文本內(nèi)容建立索引,而對索引維護(hù)也可以通過該接口訪問索引,更新索引信息,優(yōu)化索引。Analysis(解析)模塊為搜索Search(模塊)和Index(索引)模塊提供了相同的解析過程(交互協(xié)議相同)。從圖中可以了解到,分別是:Corpus(語料庫)、Analysis(解析)、Index(索引)、Storage(存儲)、Search(搜索)。首先是定義了一個與平臺無關(guān)的索引文件格式,其次通過抽象將系統(tǒng)的核心組成部分設(shè)計為抽象類,具體的平臺實(shí)現(xiàn)部分設(shè)計為抽象類的實(shí)現(xiàn),此外與具體平臺相關(guān)的部分比如文件存儲也封裝為類,經(jīng)過層層的面向?qū)ο笫降奶幚?,最終達(dá)成了一個低耦合高效率,方便開發(fā)的檢索引擎系統(tǒng)。圖31 Lucene在應(yīng)用程序中的使用情況。為開發(fā)人員提供了一個開放源代碼的全文檢索引擎工具包。查詢請求查詢過程首先是通過Web服務(wù)器接收用戶的查詢請求,利用詞典將檢索請求轉(zhuǎn)化成相應(yīng)的wordID。同時,URL Resolve還產(chǎn)生由docID對組成的結(jié)構(gòu),用于計算文檔的頁面等級(Page Rank)。Indexer把hits數(shù)據(jù)分配到一組稱為barrels的結(jié)構(gòu)中,產(chǎn)生了以docID部分排序后的順排索引(forward index)。Indexer首先通過Store Server獲取Crawler抓取的網(wǎng)頁數(shù)據(jù),將數(shù)據(jù)解壓縮后并對其進(jìn)行分析。Google中使用了Store Server模塊專門負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的存儲,并且在存儲時使用了壓縮算法進(jìn)行數(shù)據(jù)壓縮,以減少數(shù)據(jù)量。信息采集:Google中信息采集是由分布式的Crawler完成。 Google的整體結(jié)構(gòu)Google的整體結(jié)構(gòu)如圖27所示。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。這種分詞方法需要使用大量的語言知識和信息。 基于理解的分詞方法這種分詞方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。實(shí)現(xiàn)流程如圖25所示。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。主觀上,從互聯(lián)網(wǎng)用戶使用搜索引擎的行為模式分析,提高用戶點(diǎn)擊率高和瀏覽時間長的網(wǎng)頁頁面的優(yōu)先度排序。影響一個搜索引擎系統(tǒng)性能和精度有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。同時在體系結(jié)構(gòu)上還有很多技術(shù)可以用來提升速度。檢索結(jié)果的數(shù)量給排重帶來資源上的開銷及速度上的影響。通過Indexer獲取與查詢關(guān)鍵字匹配的網(wǎng)頁數(shù)據(jù),經(jīng)過排序后返回給用戶。同時索引還必須有對Word,Excel等文件格式進(jìn)行分析的功能。(3) 索引壓縮索引也存在數(shù)據(jù)壓縮的問題。索引的存儲一般采用分布式策略,檢索的數(shù)據(jù)分布在不同的服務(wù)器上。這種倒排文件的方法幾乎被當(dāng)前所有的商用IR系統(tǒng)所采用。頁面數(shù)據(jù)可以用一系列關(guān)鍵詞來表示,從檢索目的來說,這些關(guān)鍵詞描述了頁面的內(nèi)容。(3) 更新策略每經(jīng)過一段時間,Crawler對以抓取的數(shù)據(jù)經(jīng)行更新,保證索引網(wǎng)頁是最新的。因此可以采取有向圖的遍歷算法(深度優(yōu)先或者廣度優(yōu)先算法)來對WWW進(jìn)行遍歷。WWW網(wǎng)頁存儲初始化抓取網(wǎng)頁獲取URL提取URL待訪問的URL已訪問的URL Crawler工作原理圖Crawler首先從待訪問URL隊列中獲取URL,根據(jù)URL從Web中抓取網(wǎng)頁數(shù)據(jù);然后對網(wǎng)頁進(jìn)行分析,從中提取出所有的URL鏈接,并把它們加入到待訪問URL隊列中,同時將已訪問URL移至已訪問URL隊列中。搜索引擎典型體系結(jié)構(gòu)如圖21所示。 文章內(nèi)容安排本文主要研究了搜索引擎實(shí)現(xiàn)中所涉及到的相關(guān)技術(shù)。但一般的研究機(jī)構(gòu)不可能擁有和商業(yè)搜索引擎一樣規(guī)模的計算機(jī)資源,因此需要一種對資源要求低、體系開放的搜索引擎來作為各種新技術(shù)的平臺。隨著技術(shù)的不斷發(fā)展進(jìn)步,搜索引擎將會在信息檢索中發(fā)揮更大的作用。(8) 桌面型搜索用戶不用打開瀏覽器,而是直接通過只要通過它就能完全實(shí)現(xiàn)搜索過程,更甚者它可以同時搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“virus”這個詞來檢索,結(jié)果中必然會包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“how can kill virus of puter?”,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。如Google有專用于回答問題的Google Answer,微軟有AnswerBot等。(4) 實(shí)現(xiàn)交叉語言的檢索搜索引擎對多種語言的數(shù)據(jù)庫進(jìn)行交叉語言信息檢索,返回能夠回答用戶問題的所有語言的文檔。b)將用戶提問轉(zhuǎn)化為系統(tǒng)己知的問題,然后對已知問題進(jìn)行解答,以求降低對自然語言理解技術(shù)的依賴性。(3) 提高檢索的有效性解決查詢結(jié)果過多的現(xiàn)象目前有以下幾種方法:a)構(gòu)建基于內(nèi)容的搜索引擎。通過智能代理技術(shù)對用戶的查詢計劃、意圖、興趣方向進(jìn)行推理,自動進(jìn)行信息搜集過濾,將用戶感興趣的信息返回給用戶。據(jù)研究統(tǒng)計,目前Internet上搜索引擎已達(dá)數(shù)千種之多。Web檢索支持中英文混合查詢、布爾查詢、結(jié)構(gòu)屬性查詢、
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1