正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

2025-07-08 18:41本頁面

　　

【正文】進(jìn)入 segment 目錄后，使用 ls 命令圖 33 數(shù)據(jù)段文件 [rootbogon loca。 [rootbogon local] bin/nutch readseg Usage: SegmentReader (dump ... | list ... | get ...) [general options] * General options: nocontent ignore content directory nofetch ignore crawl_fetch directory nogenerate ignore crawl_generate directory noparse ignore crawl_parse directory noparsedata ignore parse_data directory noparsetext ignore parse_text directory * SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output. segment_dir name of the segment directory. output name of the (nonexistent) output directory. * SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to process dir segments directory that contains multiple segments * SegmentReader get segment_dir keyValue [general options] 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 26 Get a specified record from a segment, and print it on . segment_dir name of the segment directory. keyValue value of the key (url). Note: put doublequotes around strings with spaces. 下面給出 dump 參數(shù)的使用。輸入： [rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫信息江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 25 通過截圖信息，可以發(fā)現(xiàn)，剛才抓取的貓撲網(wǎng)，一共獲得 URL2687 個(gè)，最小分值，最大分值，平均分值，為抓取內(nèi)容的 URL2602 個(gè)。 [rootbogon local] bin/nutch crawl Usage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] [topN N] 抓取網(wǎng)站，將抓取內(nèi)容存放在目錄下，線程數(shù) 50，抓取深度為 5，抓取廣度為 50. 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 23 [rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50 solrUrl is not set, indexing will be skipped... crawl started in: rootUrlDir = urls threads = 50 depth = 5 solrUrl=null topN = 100 Injector: starting at 20xx0521 19:38:00 Injector: crawlDb: Injector: urlDir: urls Injector: Converting injected urls to crawl db entries. ? 圖 31 抓取過程江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 24 2. 數(shù)據(jù)庫查看命令 readdb, 輸入 bin/nutch readdb，顯示 readdb 命令參數(shù)選項(xiàng)。在這種情況下，最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù) 并用 Lucene API 建立索引。一個(gè)常見的問題是；我應(yīng)該使用Lucene 還是 Nutch？最簡單的回答是：如果你不需要抓取數(shù)據(jù)的話，應(yīng)該使用 Lucene。 Nutch 是一個(gè)應(yīng)用程序，可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。當(dāng)然，最簡單的就是集成 Nutch 到你的站點(diǎn)，為你的用戶提供搜索服務(wù)。江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 22 (3) 擴(kuò)展性：你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢？那就用 Nutch 寫你自己的搜索引擎吧。 Map Reduce 是一個(gè)分布式的處理模型，最先是從 Google 實(shí)驗(yàn)室提出來的。了解一個(gè)大型分布式的搜索引擎如何工作是一件讓人很受益的事情。因此 nutch 對學(xué)術(shù)搜索和政府類站點(diǎn)的搜索來說，是個(gè)好選擇，因?yàn)橐粋€(gè)公平的排序結(jié)果是非常重要的。商業(yè)的搜索引擎排序算法都是保密的，無法知道為什么搜索出來的排序結(jié)果是如何算出來的。這也消除了過去依賴于 Apache Tomcat 來運(yùn)行老的 Nutch 網(wǎng)絡(luò)應(yīng)用以及依賴于 Apache Lucene來進(jìn)行索引的麻煩。 Solr 是一個(gè)開源的全文搜索框架，通過 Solr 能夠搜索 Nutch 已經(jīng)訪問過的網(wǎng)頁。通過它，就能夠自動地找到網(wǎng)頁中的超鏈接，從而極大地減輕了維護(hù)工作的負(fù)擔(dān)，例如檢查那些已經(jīng)斷開了的鏈接，或是對所有已經(jīng)訪問過的網(wǎng)頁創(chuàng)建一個(gè)副本以便用于搜索。 (Index Writer Close Error ~~)。 } finally { if(writer != null){ try { ()。 (Index where id = 1 delete ok!)。 writer = new IndexWriter(directory, iwc)。 } } } } 表 34 強(qiáng)制合并索引 public void forceMerge(){ IndexWriter writer = null。 } catch (Exception e) { ()。 } catch (Exception e) { ()。 ()。 try { iwc = new IndexWriterConfig(, new StandardAnalyzer())。 (Index Reader Close Error ~!)。 } finally { try { ()。 //恢復(fù)所有索引 (All Index Undelte Ok~~!)。 try { reader = (directory, false)。 (Index Writer Close Error ~~)。 } finally { if(writer != null){ try { ()。 (Index where id = 1 delete ok!)。 writer = new IndexWriter(directory, iwc)。表 33 刪除、恢復(fù) 、強(qiáng)制刪除索引 public void delete(){ IndexWriter writer = null。 } } } 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 19 Lucene 索引更新是根據(jù) 提供的新信息，刪除，回復(fù)，修改索引的過程。 } catch (IOException e) { ()。 } catch (Exception e) { ()。 //通過 reader可以獲取有效的文檔數(shù)量 // (numDocs: + ())。表 32 查詢服務(wù) public void query(){ IndexReader reader = null。 } } } Lucene 查詢服務(wù)是根據(jù)通過的關(guān)鍵字，從已建立的索引中查詢符合分詞規(guī)則的信息。 } catch (Exception e) { ()。 } catch (Exception e) { ()。 (doc)。 (new Field(content, contents[i], , ))。 (new Field(id, ids[i], , ))。 i。 Document doc = null。 try { iwc = new IndexWriterConfig(, new StandardAnalyzer())。 } catch (Exception e) { ()。 public IndexUtil(){ try { //directory = (new File(D:\\bs\\luceestdir01))。 private Directory directory = null。 private int[] attachs = {2, 3, 1, 4, 5, 3}。 private String[] s = {, , , , , , }。表 41 給出了通過內(nèi)存建立文本信息索引的一個(gè)例子。第四步：根據(jù)得到的文檔和查詢語句的相關(guān) 性，對結(jié) 果進(jìn) 行排序。經(jīng)過第二步，得到一棵經(jīng)過語言處理的語法樹。如果發(fā)現(xiàn) 查詢語句不滿足語法規(guī)則，則會報(bào)錯(cuò) 。如果在詞法分析中發(fā)現(xiàn) 不合法的關(guān)鍵字，則會出現(xiàn)錯(cuò)誤。由于查詢語句有語法，因而也要進(jìn) 行語法分析，語法分析及語言處理。說明用戶想找一個(gè)包含 lucene 和 learned 然而不包括 hadoop 的文檔。最基本的有比如： AND, OR, NOT 等。不同的查詢語句有不同的語法，如 SQL 語句就有一定的語法。 Lucene 如何對索引進(jìn) 行搜索第一步：用戶輸入查詢語句。所以在了解 Lucene 之前要了解一下全文檢索。它并不是一個(gè)完整的應(yīng)用程序，而是一組代碼庫，并提供了方便實(shí)現(xiàn)搜索引擎的 API。其次分別用三個(gè)章節(jié)分別介紹三段式工作流程中涉及到的各個(gè)流程的主要工作，以及工作中所采用什么樣的工作策略。以 web 搜索引擎為主要介紹對象。為了保證查詢的效率，需要在預(yù)處理階段分江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)） 15 詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。因此，有了 “ 動態(tài)摘要 ” 方式，即在響應(yīng)查詢的時(shí)候，根據(jù)查詢詞在文檔中的位置，提取出周圍的文字來，在顯示時(shí)將查詢詞標(biāo)亮。一篇網(wǎng)頁有可能是多個(gè)不同查詢的結(jié)果。顯然，這種方式對查詢子系統(tǒng)來說是最輕松的，不需要做另外的處理工作。因此搜索引擎在生成摘要時(shí)要簡便許多，基本上可以歸納為兩種方式，一是靜態(tài)方式，即獨(dú)立于查詢，按照某種規(guī)則，事先在預(yù)處理階段從網(wǎng)頁內(nèi)容提取出一些文字，例如截取網(wǎng)頁正文的開頭 512 個(gè)字節(jié)（對應(yīng) 256 個(gè)漢字），或者將每一個(gè)段落的第一個(gè)句子拼起來，等等。一是網(wǎng)頁的寫作通常不規(guī)范，文字比較隨意，因此從語言理解的角度難以做好；二是復(fù)雜的語言理解算法耗時(shí)太多，不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁信息的需求。一般來講，從一篇文字中生成一個(gè)恰當(dāng)?shù)恼亲匀徽Z言理解領(lǐng)域的一個(gè)重要課題，人們已經(jīng)做了多年的工作并取得了一些成果。文檔摘要搜索引擎給出的結(jié)果是一個(gè)有序的條目列表，每一個(gè)條目有三個(gè)基本的元素：標(biāo)題，網(wǎng)址和摘要。這方面最重要的成果就是前面提到過的 PageRank。因?yàn)?，?dāng) 通過前述關(guān)鍵詞的提取過程，形成一篇文檔的關(guān)鍵詞集合， p = {t1, t2, ?, tn}

點(diǎn)擊復(fù)制文檔內(nèi)容

研究報(bào)告相關(guān)推薦

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并

2025-07-08 18:41

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

2025-07-01 12:38

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文目錄1緒論...................................................................................1課題背景及介紹.....................................

2025-07-01 12:48

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級優(yōu)秀學(xué)位

2025-07-01 13:40

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

2024-08-31 16:43

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

【摘要】本科畢業(yè)論文（設(shè)計(jì)、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofWeb-basedsearchengine2摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng)的搜索引擎的系

2025-06-26 21:36

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)(參考版)

【摘要】奧搜科技有限公司——搜索引擎的研究與實(shí)現(xiàn)開發(fā)時(shí)間：2022年4月目錄目錄....................................................................................................................................................1

2025-06-22 17:55

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

【摘要】本科畢業(yè)論文（設(shè)計(jì)、創(chuàng)作）題目：基于Web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)DesignandImplementationofWeb-basedsearchengine學(xué)生姓名：楊衛(wèi)中學(xué)號：0802115所在院系：信息與通信技術(shù)系專業(yè)：電子信息工程入學(xué)時(shí)間：2008

2025-06-26 21:30

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

2024-09-04 17:54

站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(參考版)

【摘要】畢業(yè)論文（設(shè)計(jì)）論文（設(shè)計(jì)）題目：站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)目錄摘要 1ABSTRACT 2第1章緒論 3課題的研究背景與意義 3研究現(xiàn)狀 4本文的工作 4第2章站內(nèi)搜索引擎相關(guān)技術(shù)介紹 6全文檢索技術(shù) 6.NET相關(guān)技術(shù) 7.NET平臺 7VisualStudio2

2025-01-16 15:35

站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(參考版)

【摘要】畢業(yè)論文（設(shè)計(jì)）論文（設(shè)計(jì)）題目：站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)目錄摘要.....................................................................................................1

2025-06-08 10:42

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯(參考版)

【摘要】江漢大學(xué)畢業(yè)論文（設(shè)計(jì)）外文翻譯原文來源TheHadoopDistributedFileSystem:ArchitectureandDesign中文譯文Hadoop分布式文件系統(tǒng)：架構(gòu)和設(shè)計(jì)姓名XXXX

2025-01-21 14:15

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文(參考版)

【摘要】-1-基于Inter的全文搜索引擎的模型設(shè)計(jì)摘要根據(jù)搜索引擎與信息獲取的原理,設(shè)計(jì)了一個(gè)基于Inter的全文搜索引擎,該模型從技術(shù)上可以適用于任何有全文搜索需求的應(yīng)用,并且由于基于Java語言設(shè)計(jì),從而特別適于跨平臺應(yīng)用。該模型還采用了數(shù)據(jù)庫管理作業(yè)和多線程技術(shù),從而使全文搜索的性能和效率得到了進(jìn)一步的提高。

2025-03-02 09:46