freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實現(xiàn)本科畢業(yè)論文-免費閱讀

2025-07-21 22:31 上一頁面

下一頁面
  

【正文】 最后,敬請老師和同學(xué)們多多批評指正。通過多線程的方式,提高了數(shù)據(jù)抓取的速度。(1) 中文分詞模塊測試通過對中文算法的測試,基本上實現(xiàn)了預(yù)期的效果。以下將詳細介紹本系統(tǒng)的測試過程。 ()。 for (int i = 0。Query query = (KeyWord)。數(shù)據(jù)檢索主界面如圖54所示。 (new Field(title, dr[Title].ToString(), , ))。 if ( == 0) { return 。文件體(BODY)是HTML文檔的主要部分,描述的是在瀏覽器中顯示的內(nèi)容。 } catch (WebException e) { (下載錯誤: + () + | + ())。 stream = ()。 } } End()。 break。 if (waitTimes == 10) { (Name)。 = this。至于如何使用多線程來下載,各個版本的網(wǎng)絡(luò)蜘蛛不盡相同。 數(shù)據(jù)抓取主界面設(shè)計由于網(wǎng)頁數(shù)據(jù)抓取程序需要通過配置文件進行參數(shù)的初始化,所以在數(shù)據(jù)抓取界面上應(yīng)對下載文件保存路徑,抓取入口,線程數(shù)等進行相應(yīng)的設(shè)置。初始化線程池開啟空閑線程獲取入口URL地址網(wǎng)頁獲取網(wǎng)頁分析獲取網(wǎng)頁中所有超鏈接,同時存儲網(wǎng)頁數(shù)據(jù)添加到待解析的超鏈接隊列中添加到已解析的超鏈接隊列中判斷是否已解析?是否開始停止啟動功能選擇結(jié)束圖42 網(wǎng)頁數(shù)據(jù)抓取流程圖 數(shù)據(jù)索引處理流程;,對document對象進行索引數(shù)據(jù)的寫入,保存在內(nèi)存中;最后輸出內(nèi)存數(shù)據(jù)生成索引文件數(shù)據(jù)索引執(zhí)行過程如圖43所示。日志管理模塊采用Log4net進行日志的操作。最終生成deletable文件、segment文件和數(shù)據(jù)索引文件。 數(shù)據(jù)抓取模塊數(shù)據(jù)抓取模塊主要提供對Internet網(wǎng)頁數(shù)據(jù)的采集,數(shù)據(jù)的保存,網(wǎng)頁文件的下載。 使用Log4net實現(xiàn)日志功能模塊。 使用Microsoft SQL 2005對采集的網(wǎng)頁數(shù)據(jù)進行保存。 } return writer。 (new Field(indexcontent, dr[Title].ToString() + dr[Content].ToString(), , ))。 try { SqlConnection conn = new SqlConnection(ConString)。,之后就可以考慮其上的應(yīng)用程序開發(fā)。用戶自定義功能….用戶自定義功能圖35 自定義擴展功能對其開發(fā)的關(guān)鍵工作如下:(1) (按照空格進行分詞,并去除了常用的語法詞,如英文中的is,are等等)。文本流表示了對于索引目標和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實際的實現(xiàn)中,以達到適應(yīng)多種語言文字的處理的目的。例如:當前文檔序列號是17983,上一文章號是17970,在不壓縮的情況下,要用3個字節(jié)才能保存,壓縮后只需保存13,使用一個字節(jié)就可以了。以上所闡述的。 索引文件功能表索引文件索引文件含義.f(n)規(guī)格化文件.fdt包含各個域數(shù)據(jù)(field的特性)信息.fdx。 圖33 。首先,引入了對索引文件的操作的封裝,其次完成了索引核心的抽象,在索引核心的基礎(chǔ)上開始設(shè)計對外的接口。Index(索引)模塊提供2種訪問協(xié)議。圖32 各個模塊是使用符合MDA規(guī)則的,方便用戶選擇有效的接口,也為用戶定制自己所需的各個模塊提供高可擴展性。方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或是以此為基礎(chǔ)建立起完整的全文檢索引擎。同時,將生成的關(guān)鍵字列表與先前由Indexer產(chǎn)生的關(guān)鍵字表結(jié)合生成新的詞典(lexicon)提供給Searcher使用。Hits中記錄了關(guān)鍵字、關(guān)鍵字在文檔中的出現(xiàn)位置和字體大小、大小寫等信息。URL Server向Crawler提供待抓取的URL列表。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。實現(xiàn)流程如圖26所示。例如,英文句子“I am a student”,用中文則為:“我是一個學(xué)生”。對于搜索引擎系統(tǒng)來講,因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的Web網(wǎng)頁,所以召回率很難計算。(3) 檢索結(jié)果的相似性分析主要用在類似網(wǎng)頁功能中,需要在索引結(jié)構(gòu)中提供支持。Searcher基本結(jié)構(gòu)如圖24所示。(2) 索引更新頁面數(shù)據(jù)更新時,索引數(shù)據(jù)必須相應(yīng)的更新。反過來,如果按關(guān)鍵詞建立到頁面的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)頁面。(2) 網(wǎng)頁評估在抓取網(wǎng)頁時存在一定的取舍,一般只會抓20%左右的網(wǎng)頁。 CrawlerCrawler負責(zé)頁面信息的采集,它的工作實現(xiàn)基于以下設(shè)想:既然所有網(wǎng)頁都可能鏈接到其他網(wǎng)站,那么從一個網(wǎng)站開始,跟蹤所有網(wǎng)頁上的所有鏈接,就有可能檢索整個互聯(lián)網(wǎng)。使用C進行代碼的編寫。搜索引擎脫離瀏覽器是一個發(fā)展趨勢,Google、 Yahoo等己經(jīng)推出桌面型搜索軟件,而微軟在2005年也同樣有了自己的桌面搜索軟件。搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個可選擇的問題中進行再選擇。d)進行站點類聚或內(nèi)容類聚,減少信息的總量。(2) 個性化搜索個性化搜索引擎的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。目前系統(tǒng)收集約50萬網(wǎng)頁。國內(nèi)先后有北京大學(xué)、清華大學(xué)、華南理工大學(xué)、國家智能研究中心等高校和研究單位對搜索引擎技術(shù)進行了研究,開發(fā)出了幾個實用的系統(tǒng)。作為IR領(lǐng)域中最重要的會議之一,TREC(Text REtrieval Conference)從1999年11月的第8屆開始增加Web Track競賽項目,考察Web文檔與其它類型文檔在性質(zhì)上的不同之處,測試在大規(guī)模的Web文檔集上進行信息檢索的算法性能。Internet上的信息資源隨著Internet的發(fā)展而呈現(xiàn)出以下特點:(1) 信息量大而且分散(2) 自治性強(3) 信息資源多種多樣(4) 不一致和不完整性為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網(wǎng)站:第一類是目錄系統(tǒng),其典型代表是Yahoo!。當面對Internet上分散存儲,動態(tài)變化的海量數(shù)據(jù)時,傳統(tǒng)的信息檢索技術(shù)就無法讓用戶快速找到所需要的信息了。盡我所知,除文中特別加以標注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。這一部分闡述了搜索引擎豐富的歷史背景和客觀的用戶需求,自身的特點,以及人們對搜索引擎的關(guān)注程度。本文對互聯(lián)網(wǎng)信息檢索統(tǒng)中幾個關(guān)鍵技術(shù)的設(shè)計和實現(xiàn)進行了研究。s key technology, Chinese word segmentation, data acquisition and data indexing technology bine organic, and fulltext search engine on analysis and research.Finally, a detailed description of an Internetbased Information Retrieval System Design and Implementation.Keywords Search Engine。搜索引擎技術(shù)(Search Engine)就是在這種需求背景下發(fā)展起來的。為了滿足系統(tǒng)的穩(wěn)定性、可靠性及縮短系統(tǒng)開發(fā)周期,本系統(tǒng)采用Microsoft Studio Visual 2005作為開發(fā)平臺,以PC機和Windows Server 2003為測試環(huán)境。搜索引擎對用戶是這樣的重要,自然成為了用戶上網(wǎng)的常用服務(wù),根據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)是:電子郵箱(%)、搜索引擎(%)、軟件上傳或下載服務(wù)(%)、信息查詢(%)。NEC美國研究所開發(fā)了一個專門用于搜索學(xué)術(shù)文章的Research Index。華南理工大學(xué)的“木棉”搜索引擎,分Web檢索和FTP檢索兩大部分。搜索引擎的智能化體現(xiàn)在兩方面:一是對搜索請求的理解,二是對網(wǎng)頁內(nèi)容的分析。中文搜索引擎中當前比較成熟的解決方案是依靠語義網(wǎng)絡(luò)、漢語分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶需求。(5) 提供對自然語言檢索的支持為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。(7) 專業(yè)化搜索主題搜索引擎是為了專門收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區(qū)的信息而建立,非常實用,如有商務(wù)查詢、企業(yè)查詢、人名查詢、電子郵件地址查詢和招聘信息查詢等。搜索引擎是這些技術(shù)的基礎(chǔ)和平臺,它決定著這些技術(shù)的開發(fā)和應(yīng)用。 2 搜索引擎技術(shù) 搜索引擎體系結(jié)構(gòu)典型的搜索引擎結(jié)構(gòu)一般由以下三個模塊組成:信息采集模塊(Crawler),索引模塊(Indexer),查詢模塊(Searcher)??梢詫WW作為一個有向圖來處理,將每一個頁面看作圖中的一個節(jié)點,將頁面中的超鏈接看做圖中的有向邊。要實現(xiàn)對采集頁面的快速訪問,必須通過某種索引機制來完成。Indexer中存在的問題:(1) 索引存儲一般來講,數(shù)據(jù)量和索引量的比例接近1:1。(5) 多語言,多格式支持網(wǎng)頁數(shù)據(jù)具有多種編碼格式,通過Unicode,索引支持多種編碼查詢。(2) 排序結(jié)果排重排重可以提高結(jié)果數(shù)據(jù)的質(zhì)量。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)一召回率(recall)和精度(pricision)衡量一個搜索引擎的性能。客觀上,從網(wǎng)頁頁面本身的信息和鏈接情況分析,提高信息量大、鏈接度高的網(wǎng)頁頁面的優(yōu)先度排序。常用的幾種機械分詞方法如下:(1) 正向最大匹配法(由左到右的方向)首先將待拆分的字符串從左向右進行分詞,然后將分詞與機器字典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。 Google的工作過程Google工作流程可以分為信息采集,數(shù)據(jù)索引,查詢請求三個方面進行分析:數(shù)據(jù)索引數(shù)據(jù)索引由Indexer模塊,URL Resolver模塊和Sorter模塊共同完成。鏈接文本被放入順排索引中,并與鏈接文本所指向的docID建立關(guān)聯(lián)。 3 Apache Lucene是一個高性能(highperformance)的全能的全文檢索(fullfeatured text search engine)的搜索引擎框架庫,由Java編寫。 系統(tǒng)結(jié)構(gòu)組織,其系統(tǒng)結(jié)構(gòu)具有強烈的面向?qū)ο蟮奶匦?。語料庫為Analysis模塊提供了訪問協(xié)議,Analysis通過該協(xié)議得到料庫的內(nèi)容。Search(搜索)。 索引文件分析,、組織結(jié)構(gòu)、命名規(guī)范等等內(nèi)容,但是它僅僅是一個規(guī)范說明,并沒有從實現(xiàn)者的角度來衡量這個規(guī)范的實現(xiàn)。從概念上映射到結(jié)構(gòu)中,索引被處理為一個目錄(文件夾),其中含有的所有文件即為其內(nèi)容,這些文件按照所屬的段不同分組存放,同組的文件擁有相同的文件名,不同的擴展名。這樣,域集合和項集合不僅僅聯(lián)系起來,而且其中的文件之間也互相聯(lián)系起來。為了減小索引文件的大小。被索引文件語義分析邏輯索引構(gòu)建邏輯索引文件查詢語句索引查找邏輯評分排序邏輯查詢結(jié)果文件流文件流文件流Token流Token流字節(jié)流字節(jié)流圖33 。在此基礎(chǔ)上,緊接著還可以在全文檢索引擎的基礎(chǔ)上構(gòu)建各種應(yīng)用系統(tǒng)。這些都要符合查詢解析器的要求。database=News。 while (()) { Document doc = new Document()。 ()。系統(tǒng)在實現(xiàn)上具有以下特點: 配置管理模塊配置管理模塊主要提供了對系統(tǒng)配置文件的操作,對配置文件進行添加,修改,刪除等功能。 數(shù)據(jù)索引模塊數(shù)據(jù)索引模塊主要提供對數(shù)據(jù)抓取模塊的數(shù)據(jù)進行索引,生成索引文件,為數(shù)據(jù)檢索模塊提供檢索數(shù)據(jù)。首先進行中文分詞,將接收到的用戶請求信息分割成若干個關(guān)鍵詞,最終進行高亮、分頁處理反饋給用戶。網(wǎng)頁抓取配置管理互聯(lián)網(wǎng)信息檢索系統(tǒng)配置管理模塊數(shù)據(jù)抓取模塊數(shù)據(jù)索引模塊數(shù)據(jù)檢索模塊數(shù)據(jù)索引配置管理
點擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1