freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-預(yù)覽頁(yè)

 

【正文】 ,經(jīng)過(guò)處理形成的信息數(shù)據(jù)庫(kù)和索引數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)用戶提出的各種信息檢索作出響應(yīng)。從理論上對(duì)這些關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的討論,并完成了基于 互聯(lián)網(wǎng)信息檢索系統(tǒng)的實(shí)現(xiàn)。這一部分研究了 搜索引擎 的關(guān)鍵技術(shù),將 中文分詞技術(shù) 、 數(shù)據(jù)采集技術(shù)和數(shù)據(jù)索引技術(shù) 有機(jī)的結(jié)合起來(lái) ,并 對(duì)全文檢索引擎 進(jìn)行分析和研究。Data Storage。 作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日 期: 使用授權(quán)說(shuō)明 本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝?、 II 縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉?jī)?nèi)容。 傳統(tǒng)的信息檢索技術(shù)是從一定規(guī)模的文檔庫(kù) 中獲取用戶需求的信息,其核心是重要文本信息的索引和檢索。從功能上講,搜索引擎重要由信息的采集,索引和查詢(xún)?nèi)糠纸M成。 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場(chǎng)需求 隨著信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)得到了飛速的發(fā)展,成為人們學(xué)習(xí)、工作、生活中的最重要的知識(shí)和信息來(lái)源。這類(lèi)通過(guò)手工維護(hù)得很好的系統(tǒng)的優(yōu)點(diǎn)是提供的網(wǎng)頁(yè)準(zhǔn)確率高,可以有效的覆蓋熱門(mén)的主題,但它們的缺點(diǎn)是過(guò)于主觀,而且需要高昂的代價(jià)來(lái)建立和維護(hù),更新改進(jìn)的慢,同時(shí)不可能覆蓋所有的主題。 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動(dòng)向 搜索引擎技術(shù)現(xiàn)狀 由于搜索引擎巨大的商業(yè)價(jià)值和學(xué)術(shù)研究?jī)r(jià)值,各大公司都在投巨資進(jìn)行搜索引擎的研制開(kāi)發(fā),不斷地涌現(xiàn)出新的具有不同特色的搜索引擎產(chǎn)品。搜索引擎己經(jīng)成 為信息檢索領(lǐng)域中最活躍的研究方向。其目的是建立一個(gè)網(wǎng)上圖書(shū)館,只收集科技人員廣泛使用的 PDF和 Postscript 文件,用“ PDF”,“ Postscript”等檢索項(xiàng)組成查詢(xún)送往其他著名的搜索引擎,對(duì)返回的結(jié)果進(jìn)行信息提取 (主題、摘要、作者、引用文獻(xiàn)等 ),組成了一個(gè) 27 萬(wàn)篇文獻(xiàn)的索引庫(kù),供科技人員查詢(xún)。 北大的“天網(wǎng)”中英文搜索引擎,在系統(tǒng)規(guī)模及系統(tǒng)性能方面達(dá)到了國(guó)外中型搜索引擎系統(tǒng)的技術(shù)水平, 目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6 億之多,并正在以平均每月一千萬(wàn)頁(yè)文檔的數(shù)量擴(kuò)大著規(guī)模。 Web 檢索支持中英文混合查詢(xún)、布爾查詢(xún)、結(jié)構(gòu)屬性查詢(xún)、模糊 4 查詢(xún)等多種查詢(xún)方式。據(jù)研究統(tǒng)計(jì),目前 Inter 上搜索 引擎已達(dá)數(shù)千種之多。通過(guò)智能代理技術(shù)對(duì)用戶的查詢(xún)計(jì)劃、意圖、興趣方向進(jìn)行推理,自動(dòng)進(jìn)行信息搜集過(guò)濾,將用戶感興趣的信息返回給用戶。 (3) 提高檢索的有效性 解決查詢(xún)結(jié)果過(guò)多的現(xiàn)象目前有以下幾種方法: a)構(gòu)建基于內(nèi)容的搜索引擎。 b)將用戶提問(wèn)轉(zhuǎn)化為系統(tǒng)己知的問(wèn)題,然后對(duì)已知問(wèn)題進(jìn)行解答,以求降低對(duì)自然語(yǔ)言理解技術(shù)的依賴(lài)性。 (4) 實(shí)現(xiàn)交叉語(yǔ)言的檢索 搜索引擎對(duì)多種語(yǔ)言的數(shù)據(jù)庫(kù)進(jìn)行交叉語(yǔ)言信息檢索,返回能夠回 5 答用戶問(wèn)題的所有語(yǔ)言的文檔。如 Google 有專(zhuān)用于回答問(wèn)題的 Google Answer,微軟有 AnswerBot 等。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢(xún),多半人會(huì)用“ virus”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類(lèi)病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息,而用“ how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。 (8) 桌面型搜索 用戶不用打開(kāi)瀏覽器,而是直接通過(guò)只要通過(guò)它就能完全實(shí)現(xiàn)搜索過(guò)程,更甚者它可以同時(shí)搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。隨著技術(shù)的不斷發(fā)展進(jìn)步,搜索引擎 6 將會(huì)在信息檢索中發(fā)揮更大的作用。但一般的研究機(jī)構(gòu)不可能擁有和商業(yè)搜索引擎一樣規(guī)模的計(jì)算機(jī)資源,因此需要一種對(duì)資源要求低、體系開(kāi)放的搜索引擎來(lái)作為各種新技術(shù)的平臺(tái)。 文章內(nèi)容安排 本文主要研究了搜索引擎實(shí)現(xiàn)中所涉及到的相關(guān)技術(shù),最終實(shí)現(xiàn)一個(gè)基于 .NET 平臺(tái)下的互聯(lián)網(wǎng)信息檢索系統(tǒng)。 搜索引擎典型體系結(jié)構(gòu)如圖 21 所示。 圖 Crawler 工作原理圖 Crawler 首先從待訪問(wèn) URL 隊(duì)列中獲取 URL,根據(jù) URL 從 Web 中抓取網(wǎng)頁(yè)數(shù)據(jù);然后對(duì)網(wǎng)頁(yè)進(jìn)行分析,從中提取出所有的 URL 鏈接,并把它們加入到待訪問(wèn) URL 隊(duì)列中,同時(shí)將已訪問(wèn) URL 移至已訪問(wèn)URL 隊(duì)列中。因此可以采取有向圖的遍歷算 法 (深度優(yōu)先或者廣度優(yōu)先算法 )來(lái)對(duì)WWW 進(jìn)行遍歷。 (3) 更新策略 每經(jīng)過(guò)一段時(shí)間, Crawler 對(duì)以抓取的數(shù)據(jù)經(jīng)行更新,保證索引 網(wǎng)頁(yè)是最新的。 頁(yè)面數(shù)據(jù)可以用一系列關(guān)鍵詞來(lái)表示,從檢索目的來(lái)說(shuō),這些關(guān)鍵詞描述了頁(yè)面的內(nèi)容。這種倒排文件的方法幾乎被當(dāng)前所有的商用 IR 系統(tǒng)所采用。索引的存儲(chǔ)一般采用分布式策略,檢索的數(shù)據(jù)分布在不同的服務(wù)器上。 (3) 索引壓縮 索引也存在數(shù)據(jù)壓縮的問(wèn)題。同時(shí)索引還必須有對(duì) Word, Excel 等文件格式進(jìn)行分析的功能。通過(guò) Indexer 獲取與查詢(xún)關(guān)鍵字匹配的網(wǎng)頁(yè)數(shù)據(jù),經(jīng)過(guò)排序后返回給用戶。檢索結(jié)果的數(shù)量給排重帶來(lái)資源上的開(kāi)銷(xiāo)及速度上的影響。同時(shí)在體系結(jié)構(gòu)上還有很多技術(shù)可以用來(lái)提升速度。 召回率是檢索出的相關(guān)文檔數(shù)和 文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng) (搜索引擎 )的查全率;精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng) (搜索引擎 )的查準(zhǔn)率。 影響一個(gè)搜索引擎系統(tǒng)性能和精度有很多因素,最主要的是信息檢索模型,包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶查詢(xún)相關(guān)性的匹配策略、查詢(xún) 結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。主觀上,從互聯(lián)網(wǎng)用戶使用搜索引擎的行為模式分析,提高用戶點(diǎn)擊率高和瀏覽時(shí)間長(zhǎng)的網(wǎng)頁(yè)頁(yè)面的優(yōu)先度排序。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱(chēng)為切詞。 實(shí)現(xiàn)流程如圖 25 所示。 還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法S 是否為單字 S2=S2+S+”/” S1=S1S 是 是 是 否 否 否 帶切分字符 S1,輸出字符 S2 最大詞長(zhǎng) MaxLen S1 是否為空 輸出 S2 最大詞長(zhǎng) MaxLen 從 S1 右側(cè)開(kāi)始,取出候選字符串 S, S 的長(zhǎng)度不大于 MaxLan 查看字典,判斷S 是否在字典中 將 S 最左邊一個(gè)字去掉 最大詞長(zhǎng) MaxLen 開(kāi)始 結(jié)束 15 和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。 基于理解的分詞方法 這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。 Google 的整體結(jié)構(gòu) Google 的整體結(jié)構(gòu)如圖 27 所示。 信息采集: Google 中信息采集是由分布式的 Crawler 完成。 Google 中使用了 Store Server 模塊專(zhuān)門(mén)負(fù)責(zé)網(wǎng)頁(yè)數(shù)據(jù)的存儲(chǔ),并且在存儲(chǔ)時(shí)使用了壓縮算法進(jìn)行數(shù)據(jù)壓縮,以減少數(shù)據(jù)量。 Indexer 首先通過(guò) Store Server 獲取 Crawler 抓取的網(wǎng)頁(yè)數(shù)據(jù),將數(shù)據(jù)解壓縮后并對(duì)其進(jìn)行分析。 Indexer 把 hits數(shù)據(jù)分配到一組稱(chēng)為 barrels 的結(jié)構(gòu)中,產(chǎn)生了以 docID 部分排序后的順排索引 (forward index)。同時(shí), URL Resolve 還產(chǎn)生由 docID 對(duì)組成的結(jié)構(gòu),用于計(jì)算文檔的頁(yè)面等級(jí) (Page Rank)。 查詢(xún)請(qǐng)求 查詢(xún)過(guò)程首先是通過(guò) Web 服務(wù)器接收用戶的查詢(xún)請(qǐng)求,利用詞典將檢索請(qǐng)求轉(zhuǎn)化成相應(yīng)的 wordID。為開(kāi)發(fā)人員提供了一個(gè)開(kāi)放源代碼的全文檢索引擎工具包。 圖 31 Lucene 在應(yīng)用程序中的使用情況 是 Lucene 在 .NET 平臺(tái)上的移植版本。首先是定義了一個(gè)與平臺(tái)無(wú)關(guān)的索引文件格式,其次通過(guò)抽象將系統(tǒng)的核心組成部分設(shè)計(jì)為抽象類(lèi),具體的平臺(tái)實(shí)現(xiàn)部分設(shè)計(jì)為抽象類(lèi)的實(shí)現(xiàn),此外與具體平臺(tái)相關(guān)的部分比如文件存儲(chǔ)也封裝為類(lèi),經(jīng)過(guò)層層的面向?qū)ο笫降奶幚?,最終達(dá)成了一個(gè)低耦合高效率,方便開(kāi)發(fā)的檢索引擎系統(tǒng)。 從圖中可以了解到, 一共分為 5 個(gè)模塊,分別是:Corpus(語(yǔ)料庫(kù) )、 Analysis(解析 )、 Index(索引 )、 Storage(存儲(chǔ) )、 Search(搜索 )。 Analysis(解析 )模塊為搜索 Search(模塊 )和 Index(索引 )模塊提供了相同的解析過(guò)程 (交互協(xié)議相同 )。使用 創(chuàng)建索引時(shí),需要對(duì)文本內(nèi)容建立索引,而對(duì)索引維護(hù)也可以通過(guò)該接口訪問(wèn)索引,更新索引信息,優(yōu)化索引。用戶輸入的內(nèi)容都通過(guò)該模塊進(jìn)入到 的內(nèi)部,然后通過(guò) Search 模塊,最后返回給用戶相關(guān)信息,完成查詢(xún)工作。在高度的面向?qū)ο罄碚摰闹蜗?,使? 的實(shí)現(xiàn)容易理解,易于擴(kuò)展。因此,下面將結(jié)合分析和文件格式的定義規(guī)范,對(duì) 索引文件進(jìn)行分析和說(shuō)明。 索引(index)由若干段 (segment)組成,每一段由若干的文檔 (document)組成,每一個(gè)文檔由若干的域 (field)組成,每一個(gè)域由若干的項(xiàng) (term)組成。 從概念上映射到結(jié)構(gòu)中,索引被處理為一個(gè)目錄 (文件夾 ),其中含 23 有的所有文件即為其內(nèi)容,這些文件按照所屬的段不同分組存放,同組的文件擁有相同的文件名,不同的擴(kuò)展名。 表 索引文件功能表 索引文件 索引文件含義 .f(n) 規(guī)格化文件 .fdt 包含各個(gè)域數(shù)據(jù)( field 的特性)信息 .fdx 它是指向 .fdt 文件的指針。而域集合 24 與項(xiàng)集合之間則通過(guò)域的在域記錄文件 (比如 )中所記錄的域記錄號(hào)維持對(duì)應(yīng)關(guān)系。 以上所闡述的,就是 所采用的索引文件格式。其中詞典文件不僅保存有每個(gè)關(guān)鍵詞,還保留了指向頻率文件和位置文件的指針,通過(guò)指針可以找到該關(guān)鍵字的頻率信息和位置信息。例如:當(dāng)前文檔序列號(hào)是 17983,上一文章號(hào)是 17970,在不壓縮的情況下,要用 3 個(gè)字節(jié)才能保存,壓縮后只需保存 13,使用一個(gè)字節(jié)就可以了。 系統(tǒng)中的主要的數(shù)據(jù)流以及它們之間的關(guān)系,如圖 34所示。文本流表示了對(duì)于索引目標(biāo)和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實(shí)際的實(shí)現(xiàn)中, 中的文件流采用了 UCS2 作為編碼,以達(dá)到適應(yīng)多種語(yǔ)言文字的處理的目的。 被索引文件 語(yǔ)義分析邏輯 索引構(gòu)建邏輯 索引文件 查詢(xún)語(yǔ)句 索引查找邏輯 評(píng)分排序邏輯 查詢(xún)結(jié) 果 文件流 文件流 文件流 Token 流 Token 流 字節(jié)流 字節(jié)流 26 基于 的應(yīng)用開(kāi)發(fā) 通過(guò)以上的系統(tǒng)結(jié)構(gòu)分析和數(shù)據(jù)流分析,已經(jīng)了解了 的系統(tǒng)的結(jié)構(gòu)特征。 圖 35 自定義擴(kuò)展功能 對(duì)其開(kāi)發(fā)的關(guān)鍵工作如下: (1) 由于 默認(rèn)的實(shí)現(xiàn)了英文和德文的簡(jiǎn)單詞法分析邏輯(按照空格進(jìn)行分詞,并去除了常用的語(yǔ)法詞,如英文中的 is, are 等等 )。在實(shí)際應(yīng)用中,要按用戶自定義功能 … . 用戶自定義功能 27 的查詢(xún)語(yǔ)句解析器的語(yǔ)法,設(shè)計(jì)具體的搜索器,包括默認(rèn)域的指定,搜索域的接收,索引庫(kù)位置的接收,以及多個(gè)查詢(xún)通過(guò)布爾操作符連接起來(lái)形成復(fù)雜的查詢(xún)語(yǔ)句的功能。比如改進(jìn)其索引的效率,設(shè)置權(quán)重,操作索引庫(kù),改進(jìn)其返回結(jié)果時(shí)候的緩沖機(jī)制等等,都是加強(qiáng) 系統(tǒng)的地方。uid=sa。 IndexWriter writer = null。 SqlDataReader dr = ()。 (new Field(title, dr[Title].ToString(), , ))。 ()。 } catch (Exception ex) { ()。 29 4 系統(tǒng)設(shè)計(jì) 系統(tǒng)特點(diǎn) 通過(guò)對(duì)搜索引擎的學(xué)習(xí)和分析,針對(duì)于搜索引擎的特點(diǎn),設(shè)計(jì)了一個(gè)簡(jiǎn)易的搜索引擎,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的采集,索引數(shù)據(jù)的生成,數(shù)據(jù)檢索等功能。 使用 C正則表達(dá)式解析 HTML,獲取 HTML 中核心數(shù)據(jù)。 多線程進(jìn)行數(shù)據(jù)的采集,網(wǎng)頁(yè)文件的下載。 使用 通過(guò)索引文件對(duì)數(shù)據(jù)進(jìn)行檢索。 從功能上劃分,系統(tǒng)主要由五個(gè)核心模塊構(gòu)成。 通過(guò)對(duì)配置文件的管理,可以很方便有效的對(duì)系統(tǒng)進(jìn)行管理。 由于互聯(lián)網(wǎng)上的數(shù)據(jù)多是以 HTML 文件的形式保存的,所以在對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集時(shí),需要對(duì) HTML 進(jìn)行解析,獲取網(wǎng)頁(yè)中的核心內(nèi)容,去除掉無(wú)用的 HTML 標(biāo)簽,然后將采集的數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中。實(shí)現(xiàn)搜索引擎中的 Indexer 模塊。以 Web 的形式將符合條件的數(shù)據(jù)反饋給用戶。 日志管理模塊
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1