freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-全文預(yù)覽

  

【正文】 輯評(píng)分排序邏輯查詢結(jié)果文件流文件流文件流Token流Token流字節(jié)流字節(jié)流圖33 。 數(shù)據(jù)流分析。為了減小索引文件的大小?;旧隙?,它是一個(gè)倒排索引,比如使用索引/信息文件的方式,從文件安排的形式上提高查找的效率。這樣,域集合和項(xiàng)集合不僅僅聯(lián)系起來(lái),而且其中的文件之間也互相聯(lián)系起來(lái)。.fnm各個(gè)域的名字信息.frq詞元(term)的頻率信息.prxterm在文檔中的位置信息.tis包含term數(shù)據(jù)信息,指向位置文件與頻率文件的指針.tii,.tvd保存有document信息,用詞元向量(TermVector)方式保存field的信息,同它包含一個(gè)指針表,deletable包含要?jiǎng)h除的文檔信息保存了相關(guān)段的信息每個(gè)段的文件中,主要記錄了兩類的信息:域集合和項(xiàng)集合。從概念上映射到結(jié)構(gòu)中,索引被處理為一個(gè)目錄(文件夾),其中含有的所有文件即為其內(nèi)容,這些文件按照所屬的段不同分組存放,同組的文件擁有相同的文件名,不同的擴(kuò)展名。(index)由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個(gè)文檔由若干的域(field)組成,每一個(gè)域由若干的項(xiàng)(term)組成。 索引文件分析,、組織結(jié)構(gòu)、命名規(guī)范等等內(nèi)容,但是它僅僅是一個(gè)規(guī)范說(shuō)明,并沒(méi)有從實(shí)現(xiàn)者的角度來(lái)衡量這個(gè)規(guī)范的實(shí)現(xiàn)。在每個(gè)局部細(xì)節(jié)上,比如某些常用的數(shù)據(jù)結(jié)構(gòu)與算法上。Search(搜索)。一種為搜索提供訪問(wèn),另一種協(xié)議為維護(hù)索引提供服務(wù)。語(yǔ)料庫(kù)為Analysis模塊提供了訪問(wèn)協(xié)議,Analysis通過(guò)該協(xié)議得到料庫(kù)的內(nèi)容。各個(gè)模塊之間保持固定的協(xié)議,將實(shí)現(xiàn)方法隱藏起來(lái)。 系統(tǒng)結(jié)構(gòu)組織,其系統(tǒng)結(jié)構(gòu)具有強(qiáng)烈的面向?qū)ο蟮奶匦?。Lucene在應(yīng)用程序中的使用情況如圖31所示。 3 Apache Lucene是一個(gè)高性能(highperformance)的全能的全文檢索(fullfeatured text search engine)的搜索引擎框架庫(kù),由Java編寫。鏈接文本被放入順排索引中,并與鏈接文本所指向的docID建立關(guān)聯(lián)。這也是Google區(qū)別其他搜索引擎的特點(diǎn)之一,Google更多的挖掘了網(wǎng)頁(yè)中內(nèi)容信息以改善檢索排名的結(jié)果。數(shù)據(jù)索引數(shù)據(jù)索引由Indexer模塊,URL Resolver模塊和Sorter模塊共同完成。Crawler根據(jù)獲取URL列表進(jìn)行網(wǎng)頁(yè)抓取,已抓取的網(wǎng)頁(yè)被送往Store Server進(jìn)行保存。 Google的工作過(guò)程Google工作流程可以分為信息采集,數(shù)據(jù)索引,查詢請(qǐng)求三個(gè)方面進(jìn)行分析: 實(shí)際系統(tǒng)研究下面通過(guò)Google實(shí)現(xiàn)流程說(shuō)明搜索引擎的具體工作過(guò)程。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái),利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。S是否為單字S2=S2+S+”/”S1=S1S是是是否否否帶切分字符 S1,輸出字符 S2最大詞長(zhǎng) MaxLenS1是否為空輸出 S2最大詞長(zhǎng) MaxLen從S1右側(cè)開始,取出候選字符串S,S的長(zhǎng)度不大于MaxLan查看字典,判斷S是否在字典中將S最左邊一個(gè)字去掉最大詞長(zhǎng) MaxLen開始結(jié)束圖26逆向最大匹配法實(shí)現(xiàn)流程圖(3) 最少切分(使每一句中切出的詞數(shù)最小)。常用的幾種機(jī)械分詞方法如下:(1) 正向最大匹配法(由左到右的方向)首先將待拆分的字符串從左向右進(jìn)行分詞,然后將分詞與機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。客觀上,從網(wǎng)頁(yè)頁(yè)面本身的信息和鏈接情況分析,提高信息量大、鏈接度高的網(wǎng)頁(yè)頁(yè)面的優(yōu)先度排序。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)一召回率(recall)和精度(pricision)衡量一個(gè)搜索引擎的性能。(4) 檢索的速度主要依賴索引結(jié)構(gòu)的設(shè)計(jì)。(2) 排序結(jié)果排重排重可以提高結(jié)果數(shù)據(jù)的質(zhì)量。Searcher索引數(shù)據(jù)頁(yè)面數(shù)據(jù)用戶接口圖24 Searcher基本結(jié)構(gòu)圖Searcher通過(guò)某種接口方式,接收用戶查詢,對(duì)查詢進(jìn)行分詞(stemming)處理,獲取查詢關(guān)鍵字。(5) 多語(yǔ)言,多格式支持網(wǎng)頁(yè)數(shù)據(jù)具有多種編碼格式,通過(guò)Unicode,索引支持多種編碼查詢。更新策略一般采用增量索引方式。Indexer中存在的問(wèn)題:(1) 索引存儲(chǔ)一般來(lái)講,數(shù)據(jù)量和索引量的比例接近1:1。具體地,關(guān)鍵詞被存儲(chǔ)在索引文件(index file)中,對(duì)于每個(gè)關(guān)鍵詞,都有一個(gè)指針鏈表,該表中的每一個(gè)指針指向與關(guān)鍵詞相關(guān)的某個(gè)頁(yè)面,所有指針鏈表構(gòu)成置入文件(posting file)。要實(shí)現(xiàn)對(duì)采集頁(yè)面的快速訪問(wèn),必須通過(guò)某種索引機(jī)制來(lái)完成。評(píng)估算法中典型的油Google發(fā)明的PgaeRank。可以將WWW作為一個(gè)有向圖來(lái)處理,將每一個(gè)頁(yè)面看作圖中的一個(gè)節(jié)點(diǎn),將頁(yè)面中的超鏈接看做圖中的有向邊。Crawler工作原理如圖22所示。 2 搜索引擎技術(shù) 搜索引擎體系結(jié)構(gòu)典型的搜索引擎結(jié)構(gòu)一般由以下三個(gè)模塊組成:信息采集模塊(Crawler),索引模塊(Indexer),查詢模塊(Searcher)。采用多線程進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集并寫入數(shù)據(jù)庫(kù);、中文分詞、無(wú)用詞匯刪除、詞典等技術(shù)建立索引數(shù)據(jù);。搜索引擎是這些技術(shù)的基礎(chǔ)和平臺(tái),它決定著這些技術(shù)的開發(fā)和應(yīng)用。此外還有一些其它值得注意的技術(shù)發(fā)展,如元搜索引擎,移動(dòng)代理和XML技術(shù),語(yǔ)音檢索技術(shù)等。(7) 專業(yè)化搜索主題搜索引擎是為了專門收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區(qū)的信息而建立,非常實(shí)用,如有商務(wù)查詢、企業(yè)查詢、人名查詢、電子郵件地址查詢和招聘信息查詢等。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。(5) 提供對(duì)自然語(yǔ)言檢索的支持為了提高搜索引擎對(duì)用戶檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。e)讓用戶對(duì)返回結(jié)果進(jìn)行選擇,進(jìn)行二次查詢是一種非常有效的手段。中文搜索引擎中當(dāng)前比較成熟的解決方案是依靠語(yǔ)義網(wǎng)絡(luò)、漢語(yǔ)分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶需求。這種搜索行為分析技術(shù)是一種正在發(fā)展中的很有前途的搜索引擎人機(jī)界面技術(shù)。搜索引擎的智能化體現(xiàn)在兩方面:一是對(duì)搜索請(qǐng)求的理解,二是對(duì)網(wǎng)頁(yè)內(nèi)容的分析。 搜索引擎技術(shù)發(fā)展方向經(jīng)過(guò)了多年的發(fā)展,現(xiàn)在的搜索引擎功能越來(lái)越強(qiáng)大,提供的服務(wù)也越來(lái)越全面。華南理工大學(xué)的“木棉”搜索引擎,分Web檢索和FTP檢索兩大部分。清華大學(xué)開發(fā)的“網(wǎng)絡(luò)指南針”,利用智能、高效的網(wǎng)絡(luò)搜索算法收集網(wǎng)頁(yè),自動(dòng)識(shí)別和轉(zhuǎn)換常見的中文編碼,向用戶提供中文、英文、拼音、英漢翻譯、BIG5碼等多種輸入查詢服務(wù),并提供普通分類、學(xué)科分類、圖書分類查詢,共計(jì)3900多個(gè)分類目錄,收集的網(wǎng)頁(yè)超過(guò)20萬(wàn)頁(yè)。NEC美國(guó)研究所開發(fā)了一個(gè)專門用于搜索學(xué)術(shù)文章的Research Index。在IEEE主辦的國(guó)際萬(wàn)維網(wǎng)會(huì)議(International World Wide Web Conference)和ACM主辦的人機(jī)交互會(huì)議(Computer Human Interaction,CHI)等重要學(xué)術(shù)會(huì)議上,發(fā)表了越來(lái)越多的關(guān)于搜索引擎技術(shù)研究的文章。搜索引擎對(duì)用戶是這樣的重要,自然成為了用戶上網(wǎng)的常用服務(wù),根據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)是:電子郵箱(%)、搜索引擎(%)、軟件上傳或下載服務(wù)(%)、信息查詢(%)。它通過(guò)有專業(yè)知識(shí)的網(wǎng)頁(yè)編輯人員對(duì)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行精選,建立一個(gè)索引目錄,來(lái)給用戶提供服務(wù)。為了滿足系統(tǒng)的穩(wěn)定性、可靠性及縮短系統(tǒng)開發(fā)周期,本系統(tǒng)采用Microsoft Studio Visual 2005作為開發(fā)平臺(tái),以PC機(jī)和Windows Server 2003為測(cè)試環(huán)境。搜索引擎技術(shù)作為傳統(tǒng)IR(Information Retrieval)技術(shù)在Internet上的擴(kuò)展,涉及到Web數(shù)據(jù)的采集,中文分詞技術(shù),倒排索引,海量數(shù)據(jù)存儲(chǔ),用戶行為分析等關(guān)鍵技術(shù)。搜索引擎技術(shù)(Search Engine)就是在這種需求背景下發(fā)展起來(lái)的。對(duì)本研究提供過(guò)幫助和做出過(guò)貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說(shuō)明并表示了謝意。s key technology, Chinese word segmentation, data acquisition and data indexing technology bine organic, and fulltext search engine on analysis and research.Finally, a detailed description of an Internetbased Information Retrieval System Design and Implementation.Keywords Search Engine。其次,本文討論了搜索引擎中基本結(jié)構(gòu)、實(shí)現(xiàn)的理論基礎(chǔ)和實(shí)現(xiàn)方法。本文對(duì)互聯(lián)網(wǎng)信息檢索統(tǒng)中幾個(gè)關(guān)鍵技術(shù)的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行了研究。本系統(tǒng)使用Microsoft Visual Studio 2005為主要開發(fā)工具,以Windows Server 2003操作系統(tǒng)為運(yùn)行環(huán)境,主要實(shí)現(xiàn)了網(wǎng)頁(yè)數(shù)據(jù)的抓取,網(wǎng)頁(yè)數(shù)據(jù)存儲(chǔ),數(shù)據(jù)的索引,數(shù)據(jù)的檢索,日志管理等功能。這一部分闡述了搜索引擎豐富的歷史背景和客觀的用戶需求,自身的特點(diǎn),以及人們對(duì)搜索引擎的關(guān)注程度。關(guān)鍵詞 搜索引擎;;數(shù)據(jù)存儲(chǔ);信息檢索I ABSTRACTInternet information retrieval system (search engine) is designed to provide a platform for information retrieval will collect a lot of pages data on the Internet to the server,and processed form of the information database and index to achieve the user to respond to the various information retrieval. The system uses Microsoft Visual Studio 2005 as the main development tool, to run Windows Server 2003 operating system environment, the main achievement of the web crawl data, web data storage, data indexing, data retrieval, logging management and other functions.In this paper, several Internet information retrieval system design and implementation of key technologies were studied. Theory on these key technologies are discussed in detail, and pleted the Internet information retrieval system based on realization. The article discussed the following aspects:First of all, the article describes the search engine market demand and research part discusses the search engine rich historical background and objective of the user requirements, its own characteristics, as well as people paid more attention to search engine.Secondly, the article discusses the basic structure of search engines, to achieve the theoretical basis and implementation methods. This part of the search engine39。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過(guò)的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過(guò)的材料。在Internet信息不斷增長(zhǎng)的情況下,如何快速準(zhǔn)確的獲取所需信息成為研究熱點(diǎn)之一。當(dāng)面對(duì)Internet上分散存儲(chǔ),動(dòng)態(tài)變化的海量數(shù)據(jù)時(shí),傳統(tǒng)的信息檢索技術(shù)就無(wú)法讓用戶快速找到所需要的信息了。檢索器(Searcher)負(fù)責(zé)接受用戶查詢的請(qǐng)求,一般采用
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1