freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-免費(fèi)閱讀

  

【正文】 最后,敬請(qǐng)老師和同學(xué)們多多批評(píng)指正。通過多線程的方式,提高了數(shù)據(jù)抓取的速度。(1) 中文分詞模塊測(cè)試通過對(duì)中文算法的測(cè)試,基本上實(shí)現(xiàn)了預(yù)期的效果。以下將詳細(xì)介紹本系統(tǒng)的測(cè)試過程。 ()。 for (int i = 0。Query query = (KeyWord)。數(shù)據(jù)檢索主界面如圖54所示。 (new Field(title, dr[Title].ToString(), , ))。 if ( == 0) { return 。文件體(BODY)是HTML文檔的主要部分,描述的是在瀏覽器中顯示的內(nèi)容。 } catch (WebException e) { (下載錯(cuò)誤: + () + | + ())。 stream = ()。 } } End()。 break。 if (waitTimes == 10) { (Name)。 = this。至于如何使用多線程來下載,各個(gè)版本的網(wǎng)絡(luò)蜘蛛不盡相同。 數(shù)據(jù)抓取主界面設(shè)計(jì)由于網(wǎng)頁(yè)數(shù)據(jù)抓取程序需要通過配置文件進(jìn)行參數(shù)的初始化,所以在數(shù)據(jù)抓取界面上應(yīng)對(duì)下載文件保存路徑,抓取入口,線程數(shù)等進(jìn)行相應(yīng)的設(shè)置。初始化線程池開啟空閑線程獲取入口URL地址網(wǎng)頁(yè)獲取網(wǎng)頁(yè)分析獲取網(wǎng)頁(yè)中所有超鏈接,同時(shí)存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)添加到待解析的超鏈接隊(duì)列中添加到已解析的超鏈接隊(duì)列中判斷是否已解析?是否開始停止啟動(dòng)功能選擇結(jié)束圖42 網(wǎng)頁(yè)數(shù)據(jù)抓取流程圖 數(shù)據(jù)索引處理流程;,對(duì)document對(duì)象進(jìn)行索引數(shù)據(jù)的寫入,保存在內(nèi)存中;最后輸出內(nèi)存數(shù)據(jù)生成索引文件數(shù)據(jù)索引執(zhí)行過程如圖43所示。日志管理模塊采用Log4net進(jìn)行日志的操作。最終生成deletable文件、segment文件和數(shù)據(jù)索引文件。 數(shù)據(jù)抓取模塊數(shù)據(jù)抓取模塊主要提供對(duì)Internet網(wǎng)頁(yè)數(shù)據(jù)的采集,數(shù)據(jù)的保存,網(wǎng)頁(yè)文件的下載。 使用Log4net實(shí)現(xiàn)日志功能模塊。 使用Microsoft SQL 2005對(duì)采集的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行保存。 } return writer。 (new Field(indexcontent, dr[Title].ToString() + dr[Content].ToString(), , ))。 try { SqlConnection conn = new SqlConnection(ConString)。,之后就可以考慮其上的應(yīng)用程序開發(fā)。用戶自定義功能….用戶自定義功能圖35 自定義擴(kuò)展功能對(duì)其開發(fā)的關(guān)鍵工作如下:(1) (按照空格進(jìn)行分詞,并去除了常用的語(yǔ)法詞,如英文中的is,are等等)。文本流表示了對(duì)于索引目標(biāo)和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實(shí)際的實(shí)現(xiàn)中,以達(dá)到適應(yīng)多種語(yǔ)言文字的處理的目的。例如:當(dāng)前文檔序列號(hào)是17983,上一文章號(hào)是17970,在不壓縮的情況下,要用3個(gè)字節(jié)才能保存,壓縮后只需保存13,使用一個(gè)字節(jié)就可以了。以上所闡述的。 索引文件功能表索引文件索引文件含義.f(n)規(guī)格化文件.fdt包含各個(gè)域數(shù)據(jù)(field的特性)信息.fdx。 圖33 。首先,引入了對(duì)索引文件的操作的封裝,其次完成了索引核心的抽象,在索引核心的基礎(chǔ)上開始設(shè)計(jì)對(duì)外的接口。Index(索引)模塊提供2種訪問協(xié)議。圖32 各個(gè)模塊是使用符合MDA規(guī)則的,方便用戶選擇有效的接口,也為用戶定制自己所需的各個(gè)模塊提供高可擴(kuò)展性。方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或是以此為基礎(chǔ)建立起完整的全文檢索引擎。同時(shí),將生成的關(guān)鍵字列表與先前由Indexer產(chǎn)生的關(guān)鍵字表結(jié)合生成新的詞典(lexicon)提供給Searcher使用。Hits中記錄了關(guān)鍵字、關(guān)鍵字在文檔中的出現(xiàn)位置和字體大小、大小寫等信息。URL Server向Crawler提供待抓取的URL列表。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。實(shí)現(xiàn)流程如圖26所示。例如,英文句子“I am a student”,用中文則為:“我是一個(gè)學(xué)生”。對(duì)于搜索引擎系統(tǒng)來講,因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的Web網(wǎng)頁(yè),所以召回率很難計(jì)算。(3) 檢索結(jié)果的相似性分析主要用在類似網(wǎng)頁(yè)功能中,需要在索引結(jié)構(gòu)中提供支持。Searcher基本結(jié)構(gòu)如圖24所示。(2) 索引更新頁(yè)面數(shù)據(jù)更新時(shí),索引數(shù)據(jù)必須相應(yīng)的更新。反過來,如果按關(guān)鍵詞建立到頁(yè)面的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)頁(yè)面。(2) 網(wǎng)頁(yè)評(píng)估在抓取網(wǎng)頁(yè)時(shí)存在一定的取舍,一般只會(huì)抓20%左右的網(wǎng)頁(yè)。 CrawlerCrawler負(fù)責(zé)頁(yè)面信息的采集,它的工作實(shí)現(xiàn)基于以下設(shè)想:既然所有網(wǎng)頁(yè)都可能鏈接到其他網(wǎng)站,那么從一個(gè)網(wǎng)站開始,跟蹤所有網(wǎng)頁(yè)上的所有鏈接,就有可能檢索整個(gè)互聯(lián)網(wǎng)。使用C進(jìn)行代碼的編寫。搜索引擎脫離瀏覽器是一個(gè)發(fā)展趨勢(shì),Google、 Yahoo等己經(jīng)推出桌面型搜索軟件,而微軟在2005年也同樣有了自己的桌面搜索軟件。搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。d)進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。(2) 個(gè)性化搜索個(gè)性化搜索引擎的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。目前系統(tǒng)收集約50萬網(wǎng)頁(yè)。國(guó)內(nèi)先后有北京大學(xué)、清華大學(xué)、華南理工大學(xué)、國(guó)家智能研究中心等高校和研究單位對(duì)搜索引擎技術(shù)進(jìn)行了研究,開發(fā)出了幾個(gè)實(shí)用的系統(tǒng)。作為IR領(lǐng)域中最重要的會(huì)議之一,TREC(Text REtrieval Conference)從1999年11月的第8屆開始增加Web Track競(jìng)賽項(xiàng)目,考察Web文檔與其它類型文檔在性質(zhì)上的不同之處,測(cè)試在大規(guī)模的Web文檔集上進(jìn)行信息檢索的算法性能。Internet上的信息資源隨著Internet的發(fā)展而呈現(xiàn)出以下特點(diǎn):(1) 信息量大而且分散(2) 自治性強(qiáng)(3) 信息資源多種多樣(4) 不一致和不完整性為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網(wǎng)站:第一類是目錄系統(tǒng),其典型代表是Yahoo!。當(dāng)面對(duì)Internet上分散存儲(chǔ),動(dòng)態(tài)變化的海量數(shù)據(jù)時(shí),傳統(tǒng)的信息檢索技術(shù)就無法讓用戶快速找到所需要的信息了。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。這一部分闡述了搜索引擎豐富的歷史背景和客觀的用戶需求,自身的特點(diǎn),以及人們對(duì)搜索引擎的關(guān)注程度。本文對(duì)互聯(lián)網(wǎng)信息檢索統(tǒng)中幾個(gè)關(guān)鍵技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了研究。s key technology, Chinese word segmentation, data acquisition and data indexing technology bine organic, and fulltext search engine on analysis and research.Finally, a detailed description of an Internetbased Information Retrieval System Design and Implementation.Keywords Search Engine。搜索引擎技術(shù)(Search Engine)就是在這種需求背景下發(fā)展起來的。為了滿足系統(tǒng)的穩(wěn)定性、可靠性及縮短系統(tǒng)開發(fā)周期,本系統(tǒng)采用Microsoft Studio Visual 2005作為開發(fā)平臺(tái),以PC機(jī)和Windows Server 2003為測(cè)試環(huán)境。搜索引擎對(duì)用戶是這樣的重要,自然成為了用戶上網(wǎng)的常用服務(wù),根據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)是:電子郵箱(%)、搜索引擎(%)、軟件上傳或下載服務(wù)(%)、信息查詢(%)。NEC美國(guó)研究所開發(fā)了一個(gè)專門用于搜索學(xué)術(shù)文章的Research Index。華南理工大學(xué)的“木棉”搜索引擎,分Web檢索和FTP檢索兩大部分。搜索引擎的智能化體現(xiàn)在兩方面:一是對(duì)搜索請(qǐng)求的理解,二是對(duì)網(wǎng)頁(yè)內(nèi)容的分析。中文搜索引擎中當(dāng)前比較成熟的解決方案是依靠語(yǔ)義網(wǎng)絡(luò)、漢語(yǔ)分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶需求。(5) 提供對(duì)自然語(yǔ)言檢索的支持為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。(7) 專業(yè)化搜索主題搜索引擎是為了專門收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區(qū)的信息而建立,非常實(shí)用,如有商務(wù)查詢、企業(yè)查詢、人名查詢、電子郵件地址查詢和招聘信息查詢等。搜索引擎是這些技術(shù)的基礎(chǔ)和平臺(tái),它決定著這些技術(shù)的開發(fā)和應(yīng)用。 2 搜索引擎技術(shù) 搜索引擎體系結(jié)構(gòu)典型的搜索引擎結(jié)構(gòu)一般由以下三個(gè)模塊組成:信息采集模塊(Crawler),索引模塊(Indexer),查詢模塊(Searcher)??梢詫WW作為一個(gè)有向圖來處理,將每一個(gè)頁(yè)面看作圖中的一個(gè)節(jié)點(diǎn),將頁(yè)面中的超鏈接看做圖中的有向邊。要實(shí)現(xiàn)對(duì)采集頁(yè)面的快速訪問,必須通過某種索引機(jī)制來完成。Indexer中存在的問題:(1) 索引存儲(chǔ)一般來講,數(shù)據(jù)量和索引量的比例接近1:1。(5) 多語(yǔ)言,多格式支持網(wǎng)頁(yè)數(shù)據(jù)具有多種編碼格式,通過Unicode,索引支持多種編碼查詢。(2) 排序結(jié)果排重排重可以提高結(jié)果數(shù)據(jù)的質(zhì)量。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)一召回率(recall)和精度(pricision)衡量一個(gè)搜索引擎的性能??陀^上,從網(wǎng)頁(yè)頁(yè)面本身的信息和鏈接情況分析,提高信息量大、鏈接度高的網(wǎng)頁(yè)頁(yè)面的優(yōu)先度排序。常用的幾種機(jī)械分詞方法如下:(1) 正向最大匹配法(由左到右的方向)首先將待拆分的字符串從左向右進(jìn)行分詞,然后將分詞與機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。 Google的工作過程Google工作流程可以分為信息采集,數(shù)據(jù)索引,查詢請(qǐng)求三個(gè)方面進(jìn)行分析:數(shù)據(jù)索引數(shù)據(jù)索引由Indexer模塊,URL Resolver模塊和Sorter模塊共同完成。鏈接文本被放入順排索引中,并與鏈接文本所指向的docID建立關(guān)聯(lián)。 3 Apache Lucene是一個(gè)高性能(highperformance)的全能的全文檢索(fullfeatured text search engine)的搜索引擎框架庫(kù),由Java編寫。 系統(tǒng)結(jié)構(gòu)組織,其系統(tǒng)結(jié)構(gòu)具有強(qiáng)烈的面向?qū)ο蟮奶匦?。語(yǔ)料庫(kù)為Analysis模塊提供了訪問協(xié)議,Analysis通過該協(xié)議得到料庫(kù)的內(nèi)容。Search(搜索)。 索引文件分析,、組織結(jié)構(gòu)、命名規(guī)范等等內(nèi)容,但是它僅僅是一個(gè)規(guī)范說明,并沒有從實(shí)現(xiàn)者的角度來衡量這個(gè)規(guī)范的實(shí)現(xiàn)。從概念上映射到結(jié)構(gòu)中,索引被處理為一個(gè)目錄(文件夾),其中含有的所有文件即為其內(nèi)容,這些文件按照所屬的段不同分組存放,同組的文件擁有相同的文件名,不同的擴(kuò)展名。這樣,域集合和項(xiàng)集合不僅僅聯(lián)系起來,而且其中的文件之間也互相聯(lián)系起來。為了減小索引文件的大小。被索引文件語(yǔ)義分析邏輯索引構(gòu)建邏輯索引文件查詢語(yǔ)句索引查找邏輯評(píng)分排序邏輯查詢結(jié)果文件流文件流文件流Token流Token流字節(jié)流字節(jié)流圖33 。在此基礎(chǔ)上,緊接著還可以在全文檢索引擎的基礎(chǔ)上構(gòu)建各種應(yīng)用系統(tǒng)。這些都要符合查詢解析器的要求。database=News。 while (()) { Document doc = new Document()。 ()。系統(tǒng)在實(shí)現(xiàn)上具有以下特點(diǎn): 配置管理模塊配置管理模塊主要提供了對(duì)系統(tǒng)配置文件的操作,對(duì)配置文件進(jìn)行添加,修改,刪除等功能。 數(shù)據(jù)索引模塊數(shù)據(jù)索引模塊主要提供對(duì)數(shù)據(jù)抓取模塊的數(shù)據(jù)進(jìn)行索引,生成索引文件,為數(shù)據(jù)檢索模塊提供檢索數(shù)據(jù)。首先進(jìn)行中文分詞,將接收到的用戶請(qǐng)求信息分割成若干個(gè)關(guān)鍵詞,最終進(jìn)行高亮、分頁(yè)處理反饋給用戶。網(wǎng)頁(yè)抓取配置管理互聯(lián)網(wǎng)信息檢索系統(tǒng)配置管理模塊數(shù)據(jù)抓取模塊數(shù)據(jù)索引模塊數(shù)據(jù)檢索模塊數(shù)據(jù)索引配置管理
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1