freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(存儲(chǔ)版)

  

【正文】 addb 圖 32 讀取連接數(shù)據(jù)庫(kù)信息通過(guò)截圖信息,可以發(fā)現(xiàn),剛才抓取的貓撲網(wǎng),一共獲得 URL2687 個(gè),最小分值,最大分值 ,平均分值 ,為抓取內(nèi)容的 URL2602 個(gè)。Nutch 是一個(gè)應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。了解一個(gè)大型分布式的搜索引擎如何工作是一件讓人很受益的事情。Solr 是一個(gè)開(kāi)源的全文搜索框架,通過(guò) Solr 能夠搜索 Nutch 已經(jīng)訪問(wèn)過(guò)的網(wǎng)頁(yè)。(Index where id = 1 delete ok!)。} catch (Exception e) {()。} finally {try {()。} finally {if(writer != null){try {()。}}}Lucene 索引更新是根據(jù)提供的新信息,刪除,回復(fù),修改索引的過(guò)程。表 32 查詢服務(wù)public void query(){IndexReader reader = null。(doc)。Document doc = null。private Directory directory = null。 第四步:根據(jù)得到的文檔和查詢語(yǔ)句的相關(guān)性,對(duì)結(jié)果進(jìn)行排序。 由于查詢語(yǔ)句有語(yǔ)法,因而也要進(jìn)行語(yǔ)法分析,語(yǔ)法分析及語(yǔ)言處理。 Lucene 如何對(duì)索引進(jìn)行搜索 第一步:用戶輸入查詢語(yǔ)句。以 web 搜索引擎為主要介紹對(duì)象。顯然,這種方式對(duì)查詢子系統(tǒng)來(lái)說(shuō)是最輕松的,不需要做另外的處理工作。 文檔摘要搜索引擎給出的結(jié)果是一個(gè)有序的條目列表,每一個(gè)條目有三個(gè)基本的元素:標(biāo)題,網(wǎng)址和摘要。不同需求的用戶可能輸入同一個(gè)查詢,同一個(gè)用戶在不同的時(shí)間輸入的相同的查詢可能是針對(duì)不同的信息需求。最后形成一個(gè)用于參加匹配的查詢?cè)~表,q = {t1, t2, …, tm},在本例中就是 q = {網(wǎng)絡(luò),分布式,系統(tǒng),實(shí)驗(yàn)室}。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“江漢大學(xué)錄取分?jǐn)?shù)線”,450 分應(yīng)該是他需要的,但不可能包含在這個(gè)短語(yǔ)中。但是這個(gè)短語(yǔ)檢索的連續(xù)的條件僅僅在文檔 1 得到。一個(gè)單詞的水平反向索引(或者完全反向索引)又包含每個(gè)單詞在一個(gè)文檔中的位置。您也許有疑問(wèn),如何獲得分詞字典或者是停用詞字典。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語(yǔ)義理解,第三種基于統(tǒng)計(jì)。在對(duì)數(shù)據(jù)進(jìn)行索引錢(qián),還必須進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行分析是之更加適合被索引。預(yù)處理模塊的整體結(jié)構(gòu)如下: 圖 24 預(yù)處理模塊的整體結(jié)構(gòu)通過(guò)爬蟲(chóng)的收集,保存下來(lái)的網(wǎng)頁(yè)信息具有較好的信息存儲(chǔ)格式,但是還是有一個(gè)缺點(diǎn),就是不能按照網(wǎng)頁(yè) URL 直接定位到所指向的網(wǎng)頁(yè)。 鏈接數(shù)據(jù)庫(kù)的建立初始 URL 的建立有兩種方式:超鏈接和站長(zhǎng)提交。下圖表示了這個(gè)過(guò)程:圖 23 Spider 工作流程 爬蟲(chóng)的抓取策略爬蟲(chóng)的工作策略一般分為累積式抓?。╟umulative crawling)和增量式抓取(incremental crawing)兩種。自頂向下的方法描述搜索引擎執(zhí)行過(guò)程:1.用戶通過(guò)瀏覽器提交查詢的詞或者短語(yǔ) P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁(yè)信息列表 L;2. 上述過(guò)程涉及到兩個(gè)問(wèn)題,如何匹配用戶的查詢以及網(wǎng)頁(yè)信息列表從何而來(lái),根據(jù)什么而排序?用戶的查詢 P 經(jīng)過(guò)分詞器被切割成小詞組 p1,p2 … pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護(hù)的一個(gè)倒排索引可以查詢某個(gè)詞 pi 在哪些網(wǎng)頁(yè)中出現(xiàn)過(guò),匹配那些 p1,p2 … pn 都出現(xiàn)的網(wǎng)頁(yè)集即可作為初始結(jié)果,更進(jìn)一步,返回的初始網(wǎng)頁(yè)集通過(guò)計(jì)算與查詢?cè)~的相關(guān)度從而得到網(wǎng)頁(yè)排名,即 Page 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))4Rank,按照網(wǎng)頁(yè)的排名順序即可得到最終的網(wǎng)頁(yè)列表;3. 假設(shè)分詞器和網(wǎng)頁(yè)排名的計(jì)算公式都是既定的,那么倒排索引以及原始網(wǎng)頁(yè)集從何而來(lái)?原始網(wǎng)頁(yè)集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲(chóng) spider 爬取網(wǎng)頁(yè)并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁(yè)的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁(yè)的內(nèi)容并對(duì)其內(nèi)容進(jìn)行分詞后,得到的網(wǎng)頁(yè)到詞組的映射表,將正排索引倒置即可得到倒排索引;4. 網(wǎng)頁(yè)的分析具體做什么呢?由于爬蟲(chóng)收集來(lái)的原始網(wǎng)頁(yè)中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁(yè)分析去除這些信息,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。 查詢處理器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià), 對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 課題研究目的及應(yīng)用 針對(duì)搜索引擎廣闊的應(yīng)用前景以及分析國(guó)內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計(jì)一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),并采用數(shù)據(jù)庫(kù)管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。為了解決此問(wèn)題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。該系統(tǒng)采用 B/S 模式的Java Web 平臺(tái)架構(gòu)實(shí)現(xiàn),采用 Nutch 相關(guān)框架,包括 Nutch,Solr,Hadoop,以及Nutch 的基礎(chǔ)框架 Lucene 對(duì)全網(wǎng)信息的采集和檢索。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))I作者聲明本人鄭重聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。本文闡述了一個(gè)全文搜索引擎的原理及其設(shè)計(jì)和實(shí)現(xiàn)過(guò)程。關(guān)鍵詞Nutch、Solr、Hadoop、Lucene、搜索引擎 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))IVAbstractCurrently, the requirement of customizing and the search engine maintenance is larger and larger. For dealing with such enormous work data, especially, how to store it and access our necessary information has bee so significant. However,web search engine can help us to solve this problem well.This acticle describes the principle of fulltext search engine,and the process for its design and implementation. This system adopts Java Web platform with B/S model, and also the relative frame of Nutch, including Nutch,Solr,Hadoop, and collection and inspection for whole work information based on Lucenethe foundation of Nutch. All in all, this text mainly elaborates the backgroud of relative frame, basical principle, and application for Nutch.The appearance of Nutch related framework, makes that building an personalized search engine based on Java platform to be an simple and reliable way. Nutch is mitted to make everyone configure a wordclass web search engine easily and low present, there are many big panies at home, like baidu, yahoo, are using such Nutch relative frame. Due to the fact that Nutch is opensource, reading its source code can let us have a more profound experience when realizing the search engine, and at the same time, can custojmize the needed details for realizing the seach engine deeply. At frist, this article introduces the background of research project. Then, it specifically describes the theoretical knowledge of system and the related theory of framework. Finally, it achieves the system function step by step according to the development method of software engineering.KeywordsNutch、Solr、Hadoop、Lucene、Search Engine 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))V目錄1 緒論 ...................................................................................1 課題背景及介紹 ......................................................................1 課題研究目的及應(yīng)用 ..................................................................1 課題研究范圍 ........................................................................1 小結(jié) ................................................................................22 搜索引擎相關(guān)理論研究 ...................................................................3 WEB搜索引擎原理和結(jié)構(gòu) ...............................................................3 搜索引擎三段式工作流程 ..........................................................3 搜索引擎整體結(jié)構(gòu) ................................................................4 網(wǎng)頁(yè)收集 ............................................................................5 爬蟲(chóng)的工作流程 ..................................................................5 爬蟲(chóng)的抓取策略 ..................................................................5 鏈接數(shù)據(jù)庫(kù)的建立 ................................................................6 鏈接數(shù)據(jù)庫(kù)的更新 ................................................................6 網(wǎng)頁(yè)預(yù)處理 ..........................................................................6 建立索引頁(yè)面庫(kù) ..................................................................7 分詞 ............................................................................9 倒排索引 .......................................................................10 查詢服務(wù) ...........................................................................12 查詢方式和匹配 .................................................................12 結(jié)果排序 ...................................
點(diǎn)擊復(fù)制文檔內(nèi)容
外語(yǔ)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1