freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文-文庫吧資料

2025-07-04 13:40本頁面
  

【正文】 一篇網(wǎng)頁有可能是多個不同查詢的結(jié)果。顯然,這種方式對查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。因此搜索引擎在生成摘要時要簡便許多,基本上可以歸納為兩種方式,一是靜態(tài)方式,即獨立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁內(nèi)容提取出一些文字,例如截取網(wǎng)頁正文的開頭 512 個字節(jié)(對應(yīng) 256 個漢字),或者將每一個段落的第一個句子拼起來,等等。一是網(wǎng)頁的寫作通常不規(guī)范,文字比較隨意,因此從語言理解的角度難以做好;二是復(fù)雜的語言理解算法耗時太多,不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁信息的需求。一般來講,從一篇文字中生成一個恰當?shù)恼亲匀徽Z言理解領(lǐng)域的一個重要課題,人們已經(jīng)做了多年的工作并取得了一些成果。 文檔摘要搜索引擎給出的結(jié)果是一個有序的條目列表,每一個條目有三個基本的元素:標題,網(wǎng)址和摘要。這方面最重要的成果就是前面提到過的 PageRank。因為,當通過前述關(guān)鍵詞的提取過程,形成一篇文檔的關(guān)鍵詞集合,p = {t1, t2, …, tn}的時候,很容易同時得到每一個ti 在該文檔中出現(xiàn)的次數(shù),即詞頻,而倒排文件中每個倒排表的長度則對應(yīng)著一個詞所涉及的文檔的篇數(shù),即文檔頻率。大致上講就是一篇文檔中包含的查詢(q)中的那些詞越多,則該文檔就應(yīng)該排在越前面;再精細一些的考慮則是若一個詞在越多的文檔中有出現(xiàn),則該詞用于區(qū)分文檔相關(guān)性的作用就越小。不同需求的用戶可能輸入同一個查詢,同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求?;\統(tǒng)地講,ri 和 q 的相關(guān)性(relevance)是形成這種順序的基本因素。 結(jié)果排序就目前的技術(shù)情況看,列表是最常見的形式(但人們也在探求新的形式,如Vivisimo 引擎將結(jié)果頁面以類別的形式呈現(xiàn))。有了這樣的 q,它的每一個元素都對應(yīng)倒排文件中的一個倒排表(文檔編號的集合),記作 L(ti),它們的交集即為對應(yīng)查詢的結(jié)果文檔集合,從而實現(xiàn)了查詢和文檔的匹配。最后形成一個用于參加匹配的查詢詞表,q = {t1, t2, …, tm},在本例中就是 q = {網(wǎng)絡(luò),分布式,系統(tǒng),實驗室}。如上例,則為“網(wǎng)絡(luò) 與 分布式 系統(tǒng) 實驗室”(注意,不同的分詞軟件可能得出不同的結(jié)果)。一般地,用 q0 表示用戶提交的原始查詢,例如,q0 =“網(wǎng)絡(luò)與分布式系統(tǒng)實驗室”。這不僅是因為他的確代表了大多數(shù)的情況,還因為它比較容易實現(xiàn)。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“江漢大學(xué)錄取分數(shù)線”,450 分應(yīng)該是他需要的,但不可能包含在這個短語中。例如用戶輸入“江漢大學(xué)”,可能是他想了解江漢大學(xué)目前的招生狀況,可能需要找到江漢大學(xué)教務(wù)系統(tǒng)的網(wǎng)址,可能需要了解大家對江漢大學(xué)的評價。一般認為,對于普通網(wǎng)絡(luò)用戶來說,最自然的方式就是“要什么就輸入什么”。 查詢方式和匹配查詢方式指的是系統(tǒng)允許用戶提交查詢的形式。但是這個短語檢索的連續(xù)的條件僅僅在文檔 1 得到。所以,banana: {(2, 3)} 就是說 banana在第三個文檔里 ( ),而且在第三個文檔的位置是第四個單詞(地址為 3)。對相同的文字,得到后面這些完全反向索引,有文檔數(shù)量和當前查詢的單詞結(jié)果組成的的成對數(shù)據(jù)。下面將以圖示和實例的方式分別說明正向索引和倒排索引。一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。它是文檔索引系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。而如果遇到歧義詞組,可以通過字典中附帶的詞頻來決定哪種分詞的結(jié)果更好。在程序使用過程中,分詞字典可以放入一個集合中,這樣就可以比較方便的進行比對工作。您也許有疑問,如何獲得分詞字典或者是停用詞字典。需要說明的是,在第三步的起始,n 如果不為 1,則意味著有匹配到的詞;而如果 n 為 1,默認 1 個字是應(yīng)該進入分詞結(jié)果的,所以第三步可以將前 n 個字作為一個詞而分割開來。常用的幾種機械分詞方法如下:正向減字最大匹配法(由左到右的方向);逆向減字最大匹配法(由右到左的方向);最少切分(使每一句中切出的詞數(shù)最?。浑p向最大減字匹配法(進行由左到右、由右到左兩次掃描);采用其中的正向最大匹配法?;谧址ヅ涞姆椒ㄓ纸凶鰴C械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語義理解,第三種基于統(tǒng)計。結(jié)果一般包括網(wǎng)頁標題,正文,所屬住地址,主機,內(nèi)容摘要,時間戳,當前 URL 地址等,并更具具體需要建立索引和存儲。將分析后的數(shù)據(jù)寫入索引。同樣的,也需要分析輸入的詞匯單元,一遍從詞語中去掉一些不必要的字母以找到他們的詞干。在對數(shù)據(jù)進行索引錢,還必須進行預(yù)處理,對數(shù)據(jù)進行分析是之更加適合被索引。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。在索引數(shù)據(jù)之前,首先必須將數(shù)據(jù)轉(zhuǎn)換成純文本字符流。之后,處理網(wǎng)頁數(shù)據(jù),對于一個網(wǎng)頁,首先需要提取其網(wǎng)頁正文信息,其次對正文信息進行分詞,之后再根據(jù)分詞的情況建立索引和倒排索引,這樣,網(wǎng)頁的預(yù)處理也全部完成。預(yù)處理模塊的整體結(jié)構(gòu)如下: 圖 24 預(yù)處理模塊的整體結(jié)構(gòu)通過爬蟲的收集,保存下來的網(wǎng)頁信息具有較好的信息存儲格式,但是還是有一個缺點,就是不能按照網(wǎng)頁 URL 直接定位到所指向的網(wǎng)頁。URL 生成器:從抓取回來的網(wǎng)頁中,將符合條件的 URL 提出出來,檢測 URL 是否在有效更新時間里面,并將 URL 載入相應(yīng)的任務(wù)組,計算 URL 的 hash 值,搜集 URL,直至達到規(guī)定的廣度。接著會判斷 URL 在抓取數(shù)據(jù)庫中是否存在,如果存在,刪除舊的,更新新的。站長提交:在實際運行中,爬蟲不可能抓取所有的站點,為此,網(wǎng)站站長可以向搜索引擎進行提交,要求收錄,搜索引擎經(jīng)過核查后,便將該網(wǎng)站加入到 URL 集合中,進行抓取。 鏈接數(shù)據(jù)庫的建立初始 URL 的建立有兩種方式:超鏈接和站長提交。面對實際應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中,通常既包含累積式抓取,也包括增量式抓取的策略。與累積式抓取不同,增量式抓取是指在具有一定量規(guī)模的網(wǎng)頁集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過時頁面進行抓取,以保證所抓取的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。在理想的軟硬件環(huán)境下,經(jīng)過足夠的運行時間,積累是抓取策略可以保證抓取到相當規(guī)模的網(wǎng)頁集合。下圖表示了這個過程:圖 23 Spider 工作流程 爬蟲的抓取策略爬蟲的工作策略一般分為累積式抓?。╟umulative crawling)和增量式抓?。╥ncremental crawing)兩種。 爬蟲的工作流程網(wǎng)頁收集的過程如同圖的遍歷,其中網(wǎng)頁就作為圖中的節(jié)點,而網(wǎng)頁中的超鏈接則作為圖中的邊,通過某網(wǎng)頁的超鏈接 得到其他網(wǎng)頁的地址,從而可以進一步的進行網(wǎng)頁收集;圖的遍歷分為廣度優(yōu)先和深度優(yōu)先兩種方法,網(wǎng)頁的收集過程也是如此。 網(wǎng)頁收集全文檢索是工作在某個數(shù)據(jù)集合上的程序,他需要事先由頁面抓取程序,在全網(wǎng)中抓取海量網(wǎng)頁,這個抓取程序也叫網(wǎng)絡(luò)爬蟲或 Spider。 江漢大學(xué)本科畢業(yè)論文(設(shè)計)5無論搜索引擎的規(guī)模大小,其主要結(jié)構(gòu)都是由這幾部分構(gòu)成的,并沒有大的差別,搜索引擎的好壞主要是決定于各部分的內(nèi)部實現(xiàn)。自頂向下的方法描述搜索引擎執(zhí)行過程:1.用戶通過瀏覽器提交查詢的詞或者短語 P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L;2. 上述過程涉及到兩個問題,如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,根據(jù)什么而排序?用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 p1,p2 … pn 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護的一個倒排索引可以查詢某個詞 pi 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 p1,p2 … pn 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,更進一步,返回的初始網(wǎng)頁集通過計算與查詢詞的相關(guān)度從而得到網(wǎng)頁排名,即 Page 江漢大學(xué)本科畢業(yè)論文(設(shè)計)4Rank,按照網(wǎng)頁的排名順序即可得到最終的網(wǎng)頁列表;3. 假設(shè)分詞器和網(wǎng)頁排名的計算公式都是既定的,那么倒排索引以及原始網(wǎng)頁集從何而來?原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引;4. 網(wǎng)頁的分析具體做什么呢?由于爬蟲收集來的原始網(wǎng)頁中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁分析去除這些信息,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。事實上,這三個部分是相互獨立、分別工作的,主要的關(guān)系體現(xiàn)在前一部分得到的數(shù)據(jù)結(jié)果為后一部分提供原始數(shù)據(jù)。 江漢大學(xué)本科畢業(yè)論文(設(shè)計)32 搜索引擎相關(guān)理論研究 Web 搜索引擎原理和結(jié)構(gòu)全文搜索引擎是一款網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng),論文中全部以搜索引擎稱。闡述了搜索引擎在顯示應(yīng)用中的重要性,目前全文搜索引擎的工作組成部分以及各個工作組成部分到底是什么。 查詢處理器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價, 對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。從一個起始 URL 集合開始,順著這些 URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習慣。 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。 課題研究目的及應(yīng)用 針對搜索引擎廣闊的應(yīng)用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設(shè)計一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁,建立索引數(shù)據(jù)庫,并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用。建立搜索引擎就是解決這個問題的最好方法之一。國外具代表性的全文檢索搜索引擎有 Google、 Yahoo、 Bing 等 ,國內(nèi)著名的有百度、中搜等。網(wǎng)絡(luò)搜索引擎是指對 WWW 站點資源和其它資源進行索引和檢索的一類檢索機制。為了解決此問題,出現(xiàn)了網(wǎng)絡(luò)搜索引擎。本文首先介紹了課題研究背景,然后對系統(tǒng)涉及到的理論知識,框架的相關(guān)理論做了詳細說明,最后按照軟件工程的開發(fā)方法逐步實現(xiàn)系統(tǒng)功能。目前國內(nèi)有很多大公司,比如百度、雅虎,都在使用 Nutch 相關(guān)框架。Nutch 相關(guān)框架的出現(xiàn),使得在 java 平臺上構(gòu)建個性化搜索引擎成為一件簡單又可靠的事情。該系統(tǒng)采用 B/S 模式的Java Web 平臺架構(gòu)實現(xiàn),采用 Nutch 相關(guān)框架,包括 Nutch,Solr,Hadoop,以及Nutch 的基礎(chǔ)框架 Lucene 對全網(wǎng)信息的采集和檢索。Web 搜索引擎能有很好的幫助我們解決這一問題。本學(xué)位論文內(nèi)容不涉及國家機密。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向有關(guān)學(xué)位論文管理機構(gòu)送交論文的復(fù)印件和電子版。 江漢大學(xué)本科畢業(yè)論文(設(shè)計)I作者聲明本人鄭重聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。同意省級優(yōu)秀學(xué)位論文評選機構(gòu)將本學(xué)位論文通過影印、縮印、掃描等方式進行保存、摘編或匯編;同意本論文被編入有關(guān)數(shù)據(jù)庫進行檢索和查閱。論文題目:全文搜索引擎的設(shè)計與實現(xiàn)作者單位:江漢大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院作者簽名:XXX 2022 年 5 月 20 日 江漢大學(xué)本科畢業(yè)論文(設(shè)計)II學(xué) 士 學(xué) 位 論 文論 文 題 目 全 文 搜 索 引 擎 的 設(shè) 計 與 實 現(xiàn) (英 文) Fulltext search engine design and Implementation 學(xué) 院 數(shù)學(xué)與計算機科學(xué)學(xué)院專 業(yè) 計算機科學(xué)與技術(shù) 班 級 B09082021 姓 名 XXX 學(xué) 號 202208202137 指導(dǎo)老師 YYY 2022 年 5 月 20 日 江漢大學(xué)本科畢業(yè)論文(設(shè)計)III摘要 目前定制和維護搜索引擎的需求越來越大,對于處理龐大的網(wǎng)絡(luò)數(shù)據(jù),如何有效的去存儲它并訪問到我們需要的信息,變得尤為重要。本文闡述了一個全文搜索引擎的原理及其設(shè)計和實現(xiàn)過程。文中闡述了 Nutch 相關(guān)框架的背景,基礎(chǔ)原理和應(yīng)用。Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web 搜索引擎。由于 Nutch 是開源的,閱讀其源代碼,可以讓我們對搜索引擎實現(xiàn)有更加深刻的感受,并且能夠更加深度的定制需要的搜索引擎實現(xiàn)細節(jié)。關(guān)鍵詞Nutch、Solr、Hadoop、Lucene、搜索引擎 江漢大學(xué)本科畢業(yè)論文(設(shè)計)IVAbstractCurrently, t
點擊復(fù)制文檔內(nèi)容
外語相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1