freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-文庫吧在線文庫

2025-07-30 22:31上一頁面

下一頁面
  

【正文】 模。據(jù)研究統(tǒng)計(jì),目前Internet上搜索引擎已達(dá)數(shù)千種之多。(3) 提高檢索的有效性解決查詢結(jié)果過多的現(xiàn)象目前有以下幾種方法:a)構(gòu)建基于內(nèi)容的搜索引擎。(4) 實(shí)現(xiàn)交叉語言的檢索搜索引擎對(duì)多種語言的數(shù)據(jù)庫進(jìn)行交叉語言信息檢索,返回能夠回答用戶問題的所有語言的文檔。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會(huì)用“virus”這個(gè)詞來檢索,結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無效信息,而用“how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。隨著技術(shù)的不斷發(fā)展進(jìn)步,搜索引擎將會(huì)在信息檢索中發(fā)揮更大的作用。 文章內(nèi)容安排本文主要研究了搜索引擎實(shí)現(xiàn)中所涉及到的相關(guān)技術(shù)。WWW網(wǎng)頁存儲(chǔ)初始化抓取網(wǎng)頁獲取URL提取URL待訪問的URL已訪問的URL Crawler工作原理圖Crawler首先從待訪問URL隊(duì)列中獲取URL,根據(jù)URL從Web中抓取網(wǎng)頁數(shù)據(jù);然后對(duì)網(wǎng)頁進(jìn)行分析,從中提取出所有的URL鏈接,并把它們加入到待訪問URL隊(duì)列中,同時(shí)將已訪問URL移至已訪問URL隊(duì)列中。(3) 更新策略每經(jīng)過一段時(shí)間,Crawler對(duì)以抓取的數(shù)據(jù)經(jīng)行更新,保證索引網(wǎng)頁是最新的。這種倒排文件的方法幾乎被當(dāng)前所有的商用IR系統(tǒng)所采用。(3) 索引壓縮索引也存在數(shù)據(jù)壓縮的問題。通過Indexer獲取與查詢關(guān)鍵字匹配的網(wǎng)頁數(shù)據(jù),經(jīng)過排序后返回給用戶。同時(shí)在體系結(jié)構(gòu)上還有很多技術(shù)可以用來提升速度。影響一個(gè)搜索引擎系統(tǒng)性能和精度有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。 基于理解的分詞方法這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。 Google的整體結(jié)構(gòu)Google的整體結(jié)構(gòu)如圖27所示。Google中使用了Store Server模塊專門負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的存儲(chǔ),并且在存儲(chǔ)時(shí)使用了壓縮算法進(jìn)行數(shù)據(jù)壓縮,以減少數(shù)據(jù)量。Indexer把hits數(shù)據(jù)分配到一組稱為barrels的結(jié)構(gòu)中,產(chǎn)生了以docID部分排序后的順排索引(forward index)。查詢請(qǐng)求查詢過程首先是通過Web服務(wù)器接收用戶的查詢請(qǐng)求,利用詞典將檢索請(qǐng)求轉(zhuǎn)化成相應(yīng)的wordID。圖31 Lucene在應(yīng)用程序中的使用情況。從圖中可以了解到,分別是:Corpus(語料庫)、Analysis(解析)、Index(索引)、Storage(存儲(chǔ))、Search(搜索)。需要對(duì)文本內(nèi)容建立索引,而對(duì)索引維護(hù)也可以通過該接口訪問索引,更新索引信息,優(yōu)化索引。在高度的面向?qū)ο罄碚摰闹蜗拢子跀U(kuò)展。項(xiàng)是最小的索引概念單位,它直接代表了一個(gè)字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息。這兩個(gè)集合中所含有的文件在圖中均有表明。這是一種數(shù)據(jù)庫之外的處理方法,其有其優(yōu)點(diǎn)(格式平臺(tái)獨(dú)立、速度快),也有其缺點(diǎn)(獨(dú)立性帶來的共享訪問接口問題等等),具體如何衡量兩種方法之間的利弊,這里就不進(jìn)行討論了。在此基礎(chǔ)上。字節(jié)流則是對(duì)文件抽象的直接操作的體現(xiàn),通過固定長度的字節(jié)()流的處理,將文件操作解脫出來,也做到了與平臺(tái)文件系統(tǒng)的無關(guān)性。(2) 按照被索引的文件的格式來提供相應(yīng)的文本分析邏輯,這里是指除了開詞法分析之外的部分,比如HTML文件,通常需要把其中的內(nèi)容按照所屬于域分門別類加入索引,這就需要我們自己定義實(shí)現(xiàn)處理HTML文件的HTMLDocument類。這個(gè)過程十分簡單,以下便是一個(gè)示例程序://將元數(shù)據(jù)生成索引數(shù)據(jù)的方法private IndexWriter CreateNewsIndex(){ string ConString = server=GAO。 } SqlCommand cmd=new SqlCommand (select * from News,conn)。 } ()。 4 系統(tǒng)設(shè)計(jì) 系統(tǒng)特點(diǎn)通過對(duì)搜索引擎的學(xué)習(xí)和分析,針對(duì)于搜索引擎的特點(diǎn),設(shè)計(jì)了一個(gè)簡易的搜索引擎,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的采集,索引數(shù)據(jù)的生成,數(shù)據(jù)檢索等功能。 多線程進(jìn)行數(shù)據(jù)的采集,網(wǎng)頁文件的下載。從功能上劃分,系統(tǒng)主要由五個(gè)核心模塊構(gòu)成。由于互聯(lián)網(wǎng)上的數(shù)據(jù)多是以HTML文件的形式保存的,所以在對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集時(shí),需要對(duì)HTML進(jìn)行解析,獲取網(wǎng)頁中的核心內(nèi)容,去除掉無用的HTML標(biāo)簽,然后將采集的數(shù)據(jù)保存到數(shù)據(jù)庫中。以Web的形式將符合條件的數(shù)據(jù)反饋給用戶。日志管理模塊在提供了安全機(jī)制的同時(shí)也增加了磁盤讀取的次數(shù),對(duì)系統(tǒng)的性能產(chǎn)生一定影響。用戶首先在網(wǎng)站上輸入要檢索的關(guān)鍵詞,將其傳到服務(wù)器;服務(wù)器對(duì)關(guān)鍵詞進(jìn)行中文詞法分析,在索引數(shù)據(jù)庫中進(jìn)行查找,最終將檢索結(jié)果返回給用戶。圖51 網(wǎng)頁抓取界面 多線程的實(shí)現(xiàn) 。實(shí)現(xiàn)的主要方法如下:private Thread[] threads。 threads[i].Name = 線程 + (i + 1).ToString()。 } (1000)。 } } } ()。利用GetResponseStream()方法將要下載的文件轉(zhuǎn)化為網(wǎng)絡(luò)流,最終通過HTTP協(xié)議傳遞到本地,生成文件。 return。 } catch (IOException e) { (下載錯(cuò)誤: + () + | + ())。(2) 解析HTML中除HTML標(biāo)簽以外的數(shù)據(jù),提取其中的關(guān)鍵內(nèi)容,將數(shù)據(jù)提交到數(shù)據(jù)庫中,以供數(shù)據(jù)索引時(shí)使用。 }} 數(shù)據(jù)的索引 數(shù)據(jù)索引主界面設(shè)計(jì)數(shù)據(jù)索引界面主要提供對(duì)索引文件參數(shù)的設(shè)置,包括索引文件保存的路徑,索引線程停頓時(shí)間,已經(jīng)存在索引文件時(shí)進(jìn)行相應(yīng)處理的設(shè)置等。 (new Field(content, dr[Content].ToString(), , ))。首先獲取索引文件路徑以及要檢索的關(guān)鍵詞;然后通過QueryParser對(duì)象對(duì)關(guān)鍵詞進(jìn)行分析,利用Search()方法在索引文件中進(jìn)行查找;最后將匹配的數(shù)據(jù)添加到DataTable中進(jìn)行數(shù)據(jù)綁定,返回給客戶端。if (h != null){ DataRow myrow。 i++) { Document doc = (i)。 ()。最終目的是建立一個(gè)可靠性高的軟件系統(tǒng)。 網(wǎng)頁超鏈接獲取模塊測(cè)試表測(cè)試用例預(yù)期測(cè)試結(jié)果實(shí)際測(cè)試結(jié)果測(cè)試結(jié)論網(wǎng)頁A:htmla href=baidu/aa href=Google/aa href=Bing/a/html正確網(wǎng)頁B:htmla href=SINA/aa href=/a正確 集成測(cè)試單個(gè)模塊能正常,組裝后不一定能正常工作,所以在各模塊測(cè)試的基礎(chǔ)上,將所有模塊按照設(shè)計(jì)要求組裝成一個(gè)完整的系統(tǒng)進(jìn)行測(cè)試。但是由于畢業(yè)設(shè)計(jì)時(shí)間較短,個(gè)人的水平有限,所以該系統(tǒng)還有許多不盡如人意的地方,比如在性能方面,數(shù)據(jù)的采集速度還有待提高。其中老師認(rèn)真負(fù)責(zé)的工作態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和深厚的理論水平都使我受益匪淺。開發(fā)的過程其實(shí)就是一個(gè)學(xué)習(xí)和實(shí)踐的過程。但經(jīng)過本軟件的開發(fā),對(duì)其用到的技術(shù)有了更深層次的掌握,如搜索引擎的基本原理,搜索引擎的相關(guān)算法。需求分析、概要設(shè)計(jì)、詳細(xì)設(shè)計(jì)以及程序編碼等各階段所得到的文檔,包括需求規(guī)格說明、概要設(shè)計(jì)規(guī)格說明、詳細(xì)設(shè)計(jì)規(guī)格說明以及源程序,都應(yīng)成為軟件測(cè)試的對(duì)象。圖55 數(shù)據(jù)檢索結(jié)果界面 6 系統(tǒng)測(cè)試測(cè)試是軟件質(zhì)量保證的關(guān)鍵階段,是在軟件投入運(yùn)行前,對(duì)軟件的需求分析、設(shè)計(jì)、實(shí)現(xiàn)編碼進(jìn)行最終審查。 myrow[2] = (url).ToString()。 (url)。IndexSearcher Search = new IndexSearcher(Index_Path)。 } catch { (IndexFail: + dr[Url].ToString())?;玖鞒虉D如圖53所示。 if ( == 2) return [1].Value。 }} HTML文檔的掃描與分析HTML格式的文檔由兩部分組成:文件頭和文件體。 } (下載成功: + ())。 try { HttpWebRequest request = (HttpWebRequest)(url)。 } ()。 if (!(url)) { (url, )。然后依次分配給每一個(gè)空閑的線程進(jìn)行數(shù)據(jù)的下載。 i 。 ()。 多線程網(wǎng)頁數(shù)據(jù)抓取要想使網(wǎng)絡(luò)蜘蛛在有限的硬件環(huán)境下盡可能地提高下載速度??臻e線程從待解析的URL隊(duì)列中獲取URL,同步進(jìn)行網(wǎng)頁數(shù)據(jù)的解析和下載工作。 日志管理模塊在對(duì)數(shù)據(jù)抓取、保存、索引、更新時(shí)可能發(fā)生各種各樣的問題,造成數(shù)據(jù)的丟失甚至損壞。實(shí)現(xiàn)搜索引擎中的Indexer模塊。通過對(duì)配置文件的管理,可以很方便有效的對(duì)系統(tǒng)進(jìn)行管理。 。 使用C正則表達(dá)式解析HTML,獲取HTML中核心數(shù)據(jù)。 (Succeed!)。 (new Field(tablename, News, , ))。 string Index_Path = ProgressStartPath + \\Index + \\。當(dāng)然,(尤其是對(duì)非英文的語言檢索)。,而是一個(gè)全文檢索引擎的架構(gòu),它中包含的大量抽象類、接口、文檔類型、評(píng)分邏輯等需要根據(jù)具體應(yīng)用來定義實(shí)現(xiàn)。現(xiàn)在將圖中的涉及到的流的類型及各個(gè)邏輯對(duì)應(yīng)系統(tǒng)的相關(guān)部分的關(guān)系說明一下。首先,對(duì)詞典文件中的關(guān)鍵詞進(jìn)行壓縮,關(guān)鍵詞壓縮為前綴長度,后綴,例如:當(dāng)前詞為“科學(xué)史”,上一個(gè)詞為“科學(xué)”,那么“科學(xué)史”壓縮為2,語。此外,標(biāo)準(zhǔn)化因子文件和被刪除文檔文件則提供了一些程序內(nèi)部的輔助設(shè)施(標(biāo)準(zhǔn)化因子用在評(píng)分排序機(jī)制中,被刪除文檔是一種偽刪除手段)。此外還有三個(gè)文件,分別用來保存所有的段的記錄、保存已刪除文件的記錄和控制讀寫的同步,它們分別是segment,deletable和lock文件,都是沒有擴(kuò)展名。因此,下面將結(jié)合分析和文件格式的定義規(guī)范。然后通過Search模塊,最后返回給用戶相關(guān)信息,完成查詢工作。Analysis(解析)模塊為搜索Search(模塊)和Index(索引)模塊提供了相同的解析過程(交互協(xié)議相同)。首先是定義了一個(gè)與平臺(tái)無關(guān)的索引文件格式,其次通過抽象將系統(tǒng)的核心組成部分設(shè)計(jì)為抽象類,具體的平臺(tái)實(shí)現(xiàn)部分設(shè)計(jì)為抽象類的實(shí)現(xiàn),此外與具體平臺(tái)相關(guān)的部分比如文件存儲(chǔ)也封裝為類,經(jīng)過層層的面向?qū)ο笫降奶幚?,最終達(dá)成了一個(gè)低耦合高效率,方便開發(fā)的檢索引擎系統(tǒng)。為開發(fā)人員提供了一個(gè)開放源代碼的全文檢索引擎工具包。同時(shí),URL Resolve還產(chǎn)生由docID對(duì)組成的結(jié)構(gòu),用于計(jì)算文檔的頁面等級(jí)(Page Rank)。Indexer首先通過Store Server獲取Crawler抓取的網(wǎng)頁數(shù)據(jù),將數(shù)據(jù)解壓縮后并對(duì)其進(jìn)行分析。信息采集:Google中信息采集是由分布式的Crawler完成。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。這種分詞方法需要使用大量的語言知識(shí)和信息。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)現(xiàn)流程如圖25所示。主觀上,從互聯(lián)網(wǎng)用戶使用搜索引擎的行為模式分析,提高用戶點(diǎn)擊率高和瀏覽時(shí)間長的網(wǎng)頁頁面的優(yōu)先度排序。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。檢索結(jié)果的數(shù)量給排重帶來資源上的開銷及速度上的影響。同時(shí)索引還必須有對(duì)Word,Excel等文件格式進(jìn)行分析的功能。索引的存儲(chǔ)一般采用分布式策略,檢索的數(shù)據(jù)分布在不同的服務(wù)器上。頁面數(shù)據(jù)可以用一系列關(guān)鍵詞來表示,從檢索目的來說,這些關(guān)鍵詞描述了頁面的內(nèi)容。因此可以采取有向圖的遍歷算法(深度優(yōu)先或者廣度優(yōu)先算法)來對(duì)WWW進(jìn)行遍歷。搜索引擎典型體系結(jié)構(gòu)如圖21所示。但一般的研究機(jī)構(gòu)不可能擁有和商業(yè)搜索引擎一樣規(guī)模的計(jì)算機(jī)資源,因此需要一種對(duì)資源要求低、體系開放的搜索引擎來作為各種新技術(shù)的平臺(tái)。(8) 桌面型搜索用戶不用打開瀏覽器,而是直接通過只要通過它就能完全實(shí)現(xiàn)搜索過程,更甚者它可以同時(shí)搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。如Google有專用于回答問題的Google Answer,微軟有AnswerBot等。b)將用戶提問轉(zhuǎn)化為系統(tǒng)己知的問題,然后對(duì)已知問題進(jìn)行解答,以求降低對(duì)自然語言理解技術(shù)的依賴性。通過智能代理技術(shù)對(duì)用戶的查詢計(jì)劃、意圖、興趣方向進(jìn)行推理,自動(dòng)進(jìn)行信息搜集過濾,將用戶感興趣的信息返回給用戶。Web檢索支持中英文混合查詢、布爾查詢、結(jié)構(gòu)屬性查
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1