freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文(存儲版)

2025-10-11 20:56上一頁面

下一頁面
  

【正文】 息是靜態(tài)存儲的,域集合與項(xiàng)集合中的文件組采用了一種類似的存儲方法:一個(gè)小型的索引 文件,運(yùn)行時(shí)載入內(nèi)存;一個(gè)對應(yīng)于索引文件的實(shí)際信息文件,可以按照索引中指示的偏移量隨機(jī)訪問;索引文件與信息文件在記錄的排列順序上存在隱式的對應(yīng)關(guān)系,即索引文件中按照“索引項(xiàng) 索引項(xiàng) 2… ”排列,則信息文件則也按照“信息項(xiàng) 信息項(xiàng) 2… ”排列。文檔是提取了某個(gè)文件中的所有信息之后的結(jié)果,這些組成了段,或者稱為一個(gè)子索引,子索引可以組合 為索引,也可以合并為一個(gè)新的包含了所有合并項(xiàng)內(nèi)部元素的子索引,可以清楚的看出, 的索引結(jié)構(gòu)在概念上即為傳統(tǒng)的倒排索引結(jié)構(gòu)。 索引文件分析 在 的 web 站點(diǎn)中,有關(guān)于 的文件格式的規(guī)范,其規(guī)定了 的文件格式采取的存儲單位、組織結(jié)構(gòu) 、命名規(guī)范等等內(nèi)容,但是它僅僅是一個(gè)規(guī)范說明,并沒有從實(shí)現(xiàn)者的角度來衡量這個(gè)規(guī)范的實(shí)現(xiàn)。 Search(搜索 )模塊是用戶和 交互的一個(gè)窗口。語料庫 為 Analysis 模塊提供了訪問協(xié)議, Analysis 通過該協(xié)議得到料庫的內(nèi)容。 系統(tǒng)結(jié)構(gòu)分析 系統(tǒng)結(jié)構(gòu)組織 作為一個(gè)優(yōu)秀的全文檢索引擎,其系統(tǒng)結(jié)構(gòu)具有強(qiáng)烈 的面向?qū)ο蟮奶匦浴? 19 3 的分析研究 介紹 Apache Lucene 是一個(gè)高性能 (highperformance)的全能的全文檢索(fullfeatured text search engine)的搜索引擎框架庫,由 Java 編寫。鏈接文本 被放入順排索引中,并與鏈接文本所指向的 docID 建立關(guān)聯(lián)。 數(shù)據(jù)索引 數(shù)據(jù)索引由 Indexer 模塊, URL Resolver 模塊和 Sorter 模塊共同完成。 Google 的工作過程 Google 工作流程可以分為信息采集,數(shù)據(jù)索引,查詢請求三個(gè)方面進(jìn)行分析: 當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行 判斷,即它模擬了人對句子的理解過程。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹配的錯(cuò)誤率為 1/245。 常用的幾種機(jī)械分詞方法如下: (1) 正向最大匹配法 (由左到右的方向 ) 首先將待拆分的字符串從左向右進(jìn)行分詞,然后將分詞與機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功??陀^上,從網(wǎng)頁頁面本身的信息和鏈接情況分析,提高信息量大、鏈接度高的網(wǎng)頁頁面的優(yōu)先度排序 。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)一召回率 (recall)和精度 (pricision)衡量一個(gè)搜索引擎的性能。 (2) 排序結(jié)果排重 排重可以提高結(jié)果數(shù)據(jù)的質(zhì)量。 (5) 多語言,多格式支持 網(wǎng)頁數(shù)據(jù)具有多種編碼格式,通過 Unicode,索引支持多種編碼查詢。 Indexer 中存在的問題: (1) 索引存儲 一般來講,數(shù)據(jù)量和索引量的比例接近 1:1。要實(shí)現(xiàn)對采集頁面的快速訪問,必須通過某種索引機(jī)制來完成??梢詫?WWW 作為一個(gè)有向圖來處理,將每一個(gè)頁面看作圖中的一個(gè)節(jié)點(diǎn),將頁面中的超鏈接看做圖中的有向邊。 7 2 搜索引擎技術(shù) 搜索引擎體系結(jié)構(gòu) 典型的搜索引擎結(jié)構(gòu)一般由以下三個(gè)模塊組成:信息采集模塊(Crawler),索引模塊 (Indexer),查詢模塊 (Searcher)。搜索引擎是這些技術(shù)的基礎(chǔ)和平 臺,它決定著這些技術(shù)的開發(fā)和應(yīng)用。 (7) 專業(yè)化搜索 主題搜索引擎是為了專門收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區(qū)的信息而建立,非常實(shí)用,如有商務(wù)查詢、企業(yè)查詢、人名查詢、電子郵件地址查詢和招聘信息查詢等。 (5) 提供對自然語言檢索的支持 為了提高搜索引擎對用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。中文搜索引擎中當(dāng)前比較成熟的解決方案是依靠語義網(wǎng)絡(luò)、漢語 分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶需求。搜索引擎的智能化體現(xiàn)在兩方面:一是對搜索請求的理解,二是對網(wǎng)頁內(nèi)容的分析。 華南理工大學(xué)的“木棉”搜索引擎,分 Web 檢索和 FTP 檢索兩大部分。 NEC 美國研究所開發(fā)了一個(gè)專門用于搜索學(xué)術(shù)文章的 Research Index。搜索引 擎對用戶是這樣的重要,自然成為了用戶上網(wǎng)的常用服務(wù),根據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)是:電子郵箱 (%)、搜索引擎 (%)、軟件上傳或下載服務(wù) (%)、信息查詢 (%)。 為了滿足系統(tǒng)的穩(wěn)定性、可靠性及縮短系統(tǒng)開發(fā)周期,本系統(tǒng)采用Microsoft Studio Visual 2020 作為開發(fā)平臺,以 PC 機(jī)和 Windows Server 2020 為測試環(huán)境,借助 實(shí)現(xiàn)了互聯(lián)網(wǎng)信息檢索的基本功能。搜索引擎技術(shù) (Search Engine)就是在這種需求背景下發(fā)展起來的。s key technology, Chinese word segmentation, data acquisition and data indexing technology bine anic, and fulltext search engine on analysis and research. Finally, a detailed description of an Interbased Information Retrieval System Design and Implementation. Keywords Search Engine。 本文對互聯(lián)網(wǎng)信息檢索統(tǒng)中幾個(gè)關(guān)鍵 技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了研究。這一部分闡述了搜索引擎豐富的歷史背景和客觀的用戶需求,自身的特點(diǎn),以及人們對搜索引擎的關(guān)注程度。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。當(dāng)面對 Inter 上分散存儲,動態(tài)變化的海量數(shù)據(jù)時(shí),傳統(tǒng)的信息檢索技術(shù)就無法讓用戶快速找到所需要的信息了。 Inter 上的信息資源隨著 Inter 的發(fā)展而呈現(xiàn)出以下特點(diǎn): 2 (1) 信息量大而且分散 (2) 自治性強(qiáng) (3) 信息資源多種多樣 (4) 不一致和不完整性 為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網(wǎng)站: 第一類是目錄系統(tǒng),其典型代表是 Yahoo!。 作為 IR 領(lǐng)域中最重要的 會議之一, TREC(Text REtrieval Conference)從 1999 年 11 月的第 8 屆開始增加 Web Track 競賽項(xiàng)目,考察 Web 文檔與其它類型文檔在性質(zhì)上的不同之處,測試在大規(guī)模的 Web 文檔集上進(jìn)行信息檢索的算法性能。 國內(nèi)先后有北京大學(xué)、清華大學(xué)、華南理工大學(xué)、國家智能研究中心等高校和研究單位對搜索引 擎技術(shù)進(jìn)行了研究,開發(fā)出了幾個(gè)實(shí)用的系統(tǒng)。目前系統(tǒng)收集約 50 萬網(wǎng)頁。 (2) 個(gè)性化搜索 個(gè)性化搜索引擎的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。d)進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。搜索引擎在對提問進(jìn)行結(jié)構(gòu)和內(nèi)容 的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。搜索引擎脫離瀏覽器是一個(gè)發(fā)展趨勢, Google、 Yahoo 等己經(jīng)推出桌面型搜索軟件,而微軟在 2020 年也同樣有了自己的桌面搜索軟件。該系統(tǒng)在微軟 .NET 平臺進(jìn)行開發(fā),使用 C進(jìn)行代碼的編寫。 Crawler 日志分析器 控制器 原始數(shù)據(jù)庫 索引數(shù)據(jù)庫 Indexer Searcher 用戶接口 用戶 日志數(shù)據(jù)庫 8 Crawler Crawler 負(fù)責(zé)頁面信息的采集,它的工作實(shí)現(xiàn)基于以下設(shè)想:既然所有網(wǎng)頁都可能鏈接到其他網(wǎng)站,那么從一個(gè)網(wǎng)站開始,跟蹤所有網(wǎng)頁上的所有鏈接,就有可能檢索整個(gè)互聯(lián)網(wǎng)。 (2) 網(wǎng)頁評估 在抓取網(wǎng)頁時(shí)存在一定的取舍,一般只會抓 20%左右的網(wǎng)頁。反過來,如果按關(guān)鍵詞建立到頁面的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)頁面。 (2) 索引更新 頁面數(shù)據(jù)更新時(shí),索引數(shù)據(jù)必須相應(yīng)的更新。 Searcher 基本結(jié)構(gòu)如圖 24 所示。 (3) 檢索結(jié)果的相似性分析 主要用在類似網(wǎng)頁功能中,需要在索引結(jié)構(gòu)中提供支持。對于搜索引擎系統(tǒng)來講,因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的 Web 網(wǎng)頁,所以召回率很難計(jì)算。例如,英文句子“ I am a student” ,用中文則為:“我是一個(gè)學(xué)生”。 S 是否為單字 S2=S2+S+”/” S1=S1S 是 是 是 否 否 否 帶切分字符 S1,輸出字符 S2 最大詞長 MaxLen S1 是否為空 輸出 S2 最大詞長 MaxLen 從 S1 左側(cè)開始,取出候選字符串 S, S 的長度不大于 MaxLan 查看字典,判斷S 是否在字典中 將 S 最右邊一個(gè)字去掉 最大詞長 MaxLen 開始 結(jié)束 14 實(shí)現(xiàn)流程如圖 26 所示。 一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來 進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。 基于統(tǒng)計(jì)的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典 (常用詞詞典 )進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來, 既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。 URL Server 向 Crawler 提供待抓取的 URL 列表。 Hits 中記錄了關(guān)鍵字、關(guān)鍵字在文檔中的出現(xiàn)位置 和字體大小、大小寫等信息。同時(shí),將生成的關(guān)鍵字列表與先前由 18 Indexer 產(chǎn)生的關(guān)鍵字表結(jié)合生成新的詞典 (lexicon)提供給 Searcher 使用。方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或是以此為基礎(chǔ)建立起完整的全文檢索引擎。 圖 32 系統(tǒng)的結(jié)構(gòu)組織 圖 各個(gè)模塊是使用符合 MDA 規(guī)則的,方便用戶選擇有效的接口,也為用戶定制自己所需的各個(gè)模塊提供高可擴(kuò)展性。 Index(索引 )模塊提供 2 種訪問協(xié)議。首先,引入了對索引文件的操作的封裝,其次完成了索引核心的抽象,在索引核心的基礎(chǔ)上開始設(shè)計(jì)對外的接口。下面介紹 索引文件的概念組成和結(jié)構(gòu)組成。每個(gè)段包含一組文件,它們的文件擴(kuò)展名不同,但是文件 名均稱為記錄在文件segments 中段的名字。此外,標(biāo)準(zhǔn)化因子文件和被刪除文檔文件則提供了一些程序內(nèi)部的輔助設(shè)施 (標(biāo)準(zhǔn)化因子用在評分排序機(jī)制中,被刪除文檔是一種偽刪除手段 )。首先,對詞典文件中的關(guān)鍵詞進(jìn)行壓縮,關(guān)鍵詞壓縮為 前綴長度,后綴 ,例如:當(dāng)前詞為“科學(xué)史”,上一個(gè)詞為“科學(xué)”,那么“科學(xué)史”壓縮為 2,語 ?,F(xiàn)在將圖中的涉及到的流的類型及各個(gè)邏輯對應(yīng)系統(tǒng)的相關(guān)部分的關(guān)系說明一下。 不是一個(gè)完整的全文檢索引擎,而是一個(gè)全 文檢索引擎的架構(gòu),它中包含的大量抽象類、接口、文檔類型、評分邏輯等需要根據(jù)具體應(yīng)用來定義實(shí)現(xiàn)。 當(dāng)然,上面所示的僅僅只是對于 的基本開發(fā)過程,它將 由不完備的變成完備的 (尤其是對非英文的語言檢索 )。database=News。 28 while (()) { Document doc = new Document()。 ()。 系統(tǒng)使用 C語言進(jìn)行開發(fā),運(yùn)行在 .NET Framework 下,主要支持Windows 操作系統(tǒng),同時(shí)也可以移植到其他平臺。 使用 對抓取的數(shù)據(jù)進(jìn)行索引文件的創(chuàng)建。各模塊在實(shí)現(xiàn)上具有高度可隔離性。在數(shù)據(jù)庫操作方面, 也提供了很好的支持,這里使用 Microsoft SQL 2020 對數(shù)據(jù)進(jìn)行保存,當(dāng)然也可以使用 Oracle 等數(shù)據(jù)庫。 通過 Web 的形式向用戶提供檢索的功能,接收用戶的查詢請求。最終生成 deletable 文件、 segment文件和數(shù)據(jù)索引文件。 30 數(shù)據(jù)抓取模塊 數(shù)據(jù)抓取模塊主要提供對 Inter 網(wǎng)頁數(shù)據(jù)的采集,數(shù)據(jù)的保存,網(wǎng)頁文件的下載。 使用 Log4 實(shí)現(xiàn)日志功能模 塊。 使用 Microsoft SQL 2020 對采集的網(wǎng)頁數(shù)據(jù)進(jìn)行保存。 } 當(dāng)然。 (doc)。 if ( == ) { ()。如果系統(tǒng)也使用 C語言開發(fā),那么 系統(tǒng)能夠方便的潛入到整個(gè)系統(tǒng)中,作為一個(gè) API 集來調(diào)用。 (2) 按照被索引的文件的格式來提供相應(yīng)的文本分析邏輯,這里是指除了開詞法分析之外的部分,比如 HTML 文
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1