freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(專業(yè)版)

2025-08-09 12:48上一頁面

下一頁面
  

【正文】 要實現(xiàn)添加文檔索引則只需要調(diào)用搜索接口以 HTTP POST 的方式提交 XML 報文。 Solr 研究 Solr 概述Apache Solr 是一個開源的搜索服務器,Solr 使用 Java 語言開發(fā),主要基于 HTTP 和 Apache Lucene 實現(xiàn)。Nutch 是一個應用程序,可以以 Lucene 為基礎(chǔ)實現(xiàn)搜索引擎應用。Solr 是一個開源的全文搜索框架,通過 Solr 能夠搜索 Nutch 已經(jīng)訪問過的網(wǎng)頁。} catch (Exception e) {()。} finally {if(writer != null){try {()。表 32 查詢服務public void query(){IndexReader reader = null。Document doc = null。 第四步:根據(jù)得到的文檔和查詢語句的相關(guān)性,對結(jié)果進行排序。 Lucene 如何對索引進行搜索 第一步:用戶輸入查詢語句。顯然,這種方式對查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。不同需求的用戶可能輸入同一個查詢,同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“江漢大學錄取分數(shù)線”,450 分應該是他需要的,但不可能包含在這個短語中。一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。中文分詞主要有三種方法:第一種基于字符串匹配,第二種基于語義理解,第三種基于統(tǒng)計。預處理模塊的整體結(jié)構(gòu)如下: 圖 24 預處理模塊的整體結(jié)構(gòu)通過爬蟲的收集,保存下來的網(wǎng)頁信息具有較好的信息存儲格式,但是還是有一個缺點,就是不能按照網(wǎng)頁 URL 直接定位到所指向的網(wǎng)頁。下圖表示了這個過程:圖 23 Spider 工作流程 爬蟲的抓取策略爬蟲的工作策略一般分為累積式抓?。╟umulative crawling)和增量式抓?。╥ncremental crawing)兩種。 查詢處理器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價, 對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。為了解決此問題,出現(xiàn)了網(wǎng)絡搜索引擎。 江漢大學本科畢業(yè)論文(設(shè)計)2搜索器用于 WWW 的遍歷和網(wǎng)頁的下載。只有事先抓取了足夠多的網(wǎng)頁數(shù)據(jù),并處理之,才能對大量的用戶查詢提供及時的響應。如果不存在,將該 URL 的狀態(tài)標記為未采集過。對輸入數(shù)據(jù)分析處理完成后,就可以將結(jié)果寫入索引文件中。 倒排索引倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。但這是一種相當模糊的說法。給定一個查詢結(jié)果集合,R={r1, r2, …, rn},所謂列表,就是按照某種評價方式,確定出 R 中元素的一個順序,讓這些元素以這種順序呈現(xiàn)出來。據(jù)統(tǒng)計,即使是分詞這一項工作(文本理解的基礎(chǔ)),在高檔微機上每秒鐘也只能完成 10 篇左右網(wǎng)頁的處理。Lucene 是一個高效的基于 Java 的全文檢索庫。3. 語言處理同索引過程中的語言處理幾乎相同 。}}public void index(){IndexWriter writer = null。(Index Writer Close Error ~!)。(new Term(id, 1))。writer = new IndexWriter(directory, iwc)。}}}} Nutch 研究 Nutch 概述Apache Nutch 是一個用 Java 編寫的開源網(wǎng)絡爬蟲。 Nutch 是非常靈活的:他可以被很好的客戶訂制并集成到你的應用程序中,使用 Nutch 的插件機制,Nutch 可以作為一個搜索不同信息載體的搜索平臺。bin/nutch readseg dump noparse noparsetext一下是對抓取連接的一個統(tǒng)計,如圖 35: 江漢大學本科畢業(yè)論文(設(shè)計)28圖 35 抓取一個鏈接的統(tǒng)計信息4. 連接數(shù)據(jù)庫信息的讀取命令 readlinkdb,輸入 bin/nutch readlinkdb,顯示readlinkdb 命令參數(shù)選項。優(yōu)化是一個耗時較多的過程。rows=10amp。Solr 版本開始支持從數(shù)據(jù)庫(通過 JDBC)、RSS 提要、Web 頁面和文件中導入數(shù)據(jù),但是不直接支持從二進制文件格式中提取內(nèi)容,比如 MS Office、Adobe PDF 或其他專有格式。常見的應用場合是:你有數(shù)據(jù)源,需要為這些數(shù)據(jù)提供一個搜索頁面。 研究 Nutch 的原因可能有的朋友會有疑問,已經(jīng)有 google,有百度,為何還需要建立自己的搜索引擎呢?這里我列出 3 點原因: (1) 透明度:nutch 是開放源代碼的,因此任何人都可以查看他的排序算法是如何工作的。(Index Writer Close Error ~~)。}}}}public void unewdelete(){IndexReader reader = null。(maxDoc: + ())。 i++){ 江漢大學本科畢業(yè)論文(設(shè)計)18doc = new Document()。.表 41 建立索引public class IndexUtil {private String[] ids = {1, 2, 3, 4, 5, 6}。 查詢語句的語法根據(jù)全文搜索引擎的實現(xiàn)而不同。當用戶輸入某個查詢,他一般是希望摘要中能夠突出顯示和查詢直接對應的文字,希望摘要中出現(xiàn)和他關(guān)心的文字相關(guān)的句子。這樣一種思路不僅有一定直覺上的道理,而且在倒排文件數(shù)據(jù)結(jié)構(gòu)上很容易實現(xiàn)。這樣,一般來講,系統(tǒng)面對的是查詢短語。 圖 26 正向索引 江漢大學本科畢業(yè)論文(設(shè)計)11圖 27 倒排索引 以英文為例,下面是要被索引的文本:it is what it iswhat is itit is a banana這樣就能得到下面的反向文件索引: a: {2} banana: {2} is: {0, 1, 2} it: {0, 1, 2} what: {0, 1}檢索的條件what, is 和 it 將對應這個集合:。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?。 建立索引頁面庫索引的主要過程: 江漢大學本科畢業(yè)論文(設(shè)計)8圖 25 索引的主要過程索引過程可分為三個主要的操作階段:將數(shù)據(jù)轉(zhuǎn)換成文本分析文本將分析過的文本保存到數(shù)據(jù)庫中轉(zhuǎn)換成文本。但由于 Web 數(shù)據(jù)的動態(tài)特性,集合中的網(wǎng)頁的抓取時間點是不同的,頁面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡數(shù)據(jù)保持一致。下面將具體介紹全文搜索引擎的相關(guān)理論,使讀者全文搜索引擎的基本技術(shù)有所了解,為后續(xù)章節(jié)的閱讀打下基礎(chǔ)。 全文搜索引擎是目前最為普及的應用 ,通過從互聯(lián)網(wǎng)上提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主)建立數(shù)據(jù)庫,用戶查詢的時候便在數(shù)據(jù)庫中檢索與用戶查詢條件相匹配的記錄,最終將匹配的那些記錄,按一定的排列順序顯示給用戶。 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。 江漢大學本科畢業(yè)論文(設(shè)計)5無論搜索引擎的規(guī)模大小,其主要結(jié)構(gòu)都是由這幾部分構(gòu)成的,并沒有大的差別,搜索引擎的好壞主要是決定于各部分的內(nèi)部實現(xiàn)。站長提交:在實際運行中,爬蟲不可能抓取所有的站點,為此,網(wǎng)站站長可以向搜索引擎進行提交,要求收錄,搜索引擎經(jīng)過核查后,便將該網(wǎng)站加入到 URL 集合中,進行抓取。同樣的,也需要分析輸入的詞匯單元,一遍從詞語中去掉一些不必要的字母以找到他們的詞干。在程序使用過程中,分詞字典可以放入一個集合中,這樣就可以比較方便的進行比對工作。 查詢方式和匹配查詢方式指的是系統(tǒng)允許用戶提交查詢的形式。有了這樣的 q,它的每一個元素都對應倒排文件中的一個倒排表(文檔編號的集合),記作 L(ti),它們的交集即為對應查詢的結(jié)果文檔集合,從而實現(xiàn)了查詢和文檔的匹配。一般來講,從一篇文字中生成一個恰當?shù)恼亲匀徽Z言理解領(lǐng)域的一個重要課題,人們已經(jīng)做了多年的工作并取得了一些成果。其次分別用三個章節(jié)分別介紹三段式工作流程中涉及到的各個流程的主要工作,以及工作中所采用什么樣的工作策略。 如果在詞法分析中發(fā)現(xiàn)不合法的關(guān)鍵字,則會出現(xiàn)錯誤。public IndexUtil(){try {//directory = (new File(D:\\bs\\luceestdir01))。} catch (Exception e) {()。表 33 刪除、恢復、強制刪除索引public void delete(){IndexWriter writer = null。(Index Reader Close Error ~!)。} finally { 江漢大學本科畢業(yè)論文(設(shè)計)21if(writer != null){try {()。Map Reduce 是一個分布式的處理模型,最先是從 Google 實驗室提出來的。[rootbogon local] bin/nutch readsegUsage: SegmentReader (dump ... | list ... | get ...) [general options]* General options:nocontentignore content directorynofetch ignore crawl_fetch directorynogenerate ignore crawl_generate directorynoparse ignore crawl_parse directorynoparsedata ignore parse_data directory 江漢大學本科畢業(yè)論文(設(shè)計)26noparsetext ignore parse_text directory* SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output.segment_dir name of the segment directory.output name of the (nonexistent) output directory.* SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to processdir segments directory that contains multiple segments* SegmentReader get segment_dir keyValue [general options] Get a specified record from a segment, and print it on .segment_dir name of the segment directory.keyValuevalue of the key (url).Note: put doublequotes around strings with spaces.下面給出dump 參數(shù)的使用。索引完成后執(zhí)行一下優(yōu)化通常比較好。wt=standard注:多核心時為這個地址 示例中,查詢 詞“ipad”的請求被提交,要求返回 10 個結(jié)果。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 創(chuàng)建的索引 江漢大學本科畢業(yè)論文(設(shè)計)30Solr 的特性包括:1. 高級的全文搜索功能2. 專為高通量的網(wǎng)絡流量進行的優(yōu)化3. 基于開放接口(XML 和 HTTP)的標準4. 綜合的 HTML 管理界面5. 可伸縮性-能夠有效地復制到另外一個 Solr 搜索服務器6. 使用 XML 配置達到靈活性和適配性7. 可擴展的插件體系 Solr 索引 可以向 Solr 索引 servlet 傳遞四個不同的索引
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1