freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文(參考版)

2024-08-31 16:43本頁面
  

【正文】 進入 segment 目錄后,使用 ls 命令 圖 33 數(shù)據(jù)段文件 [rootbogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: done vi 圖 34 數(shù)據(jù)段 dump 后的文件信息 對 dump 后的信息仍然可以提取,輸入 bin/nutch readseg dump。 [rootbogon local] bin/nutch readseg Usage: SegmentReader (dump ... | list ... | get ...) [general options] * General options: nocontent ignore content directory nofetch ignore crawl_fetch directory nogenerate ignore crawl_generate directory noparse ignore crawl_parse directory noparsedata ignore parse_data directory noparsetext ignore parse_text directory * SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output. segment_dir name of the segment directory. output name of the (nonexistent) output directory. * SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to process dir segments directory that contains multiple segments * SegmentReader get segment_dir keyValue [general options] 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 26 Get a specified record from a segment, and print it on . segment_dir name of the segment directory. keyValue value of the key (url). Note: put doublequotes around strings with spaces. 下面給出 dump 參數(shù)的使用。 輸入: [rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫 信息 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 25 通過截圖信息, 可 以 發(fā)現(xiàn),剛才抓取的貓撲網(wǎng),一共獲得 URL2687 個,最小分值 ,最大分值 ,平均分值 ,為抓取內(nèi)容的 URL2602 個。 [rootbogon local] bin/nutch crawl Usage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] [topN N] 抓取 網(wǎng)站,將抓取內(nèi)容存 放在 目錄下,線程數(shù) 50,抓取深度為 5,抓取廣度為 50. 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 23 [rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50 solrUrl is not set, indexing will be skipped... crawl started in: rootUrlDir = urls threads = 50 depth = 5 solrUrl=null topN = 100 Injector: starting at 20200521 19:38:00 Injector: crawlDb: Injector: urlDir: urls Injector: Converting injected urls to crawl db entries. ? 圖 31 抓取過程 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 24 2. 數(shù)據(jù)庫查看命令 readdb, 輸入 bin/nutch readdb,顯示 readdb 命令參數(shù)選項。在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù) 并用 Lucene API 建立索引。一個常見的問題是;我應(yīng)該使用Lucene 還是 Nutch?最簡單的回答是:如果你不需要抓取數(shù)據(jù)的話,應(yīng)該使用 Lucene。 Nutch 是一個應(yīng)用程序,可以以 Lucene 為基礎(chǔ)實現(xiàn)搜索引擎應(yīng)用。當(dāng)然,最簡單的就是集成 Nutch 到你的站點,為你的用戶提供搜索服務(wù)。 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 22 (3) 擴展性:你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢?那就用 Nutch 寫你自己的搜索引擎吧。 Map Reduce 是一個分布式的處理模型,最先是從 Google 實驗室提出來的。了 解一個大型分布式的搜索引擎如何工作是一件讓人很受益的事情。因此 nutch 對學(xué)術(shù)搜索和政府類站點的搜索來說,是個好選擇,因為一個公平的排序結(jié)果是非常重要的。商業(yè)的搜索引擎排序算法都是保密的, 無法知道為什么搜索出來的排序結(jié)果是如何算出來的。這也消除了過去依賴于 Apache Tomcat 來運行老的 Nutch 網(wǎng)絡(luò)應(yīng)用以及依賴于 Apache Lucene來進行索引的麻煩。 Solr 是一個開源的全文搜索框架,通過 Solr 能夠搜索 Nutch 已經(jīng)訪問過的網(wǎng)頁。通過它, 就能夠自動地找到網(wǎng)頁中的超鏈接,從而極大地減輕了維護工作的負擔(dān),例如 檢查那些已經(jīng)斷開了的鏈接,或是對所有已經(jīng)訪問過的網(wǎng)頁創(chuàng)建一個副本以便用于搜索。 (Index Writer Close Error ~~)。 } finally { if(writer != null){ try { ()。 (Index where id = 1 delete ok!)。 writer = new IndexWriter(directory, iwc)。 } } } } 表 34 強制合并索引 public void forceMerge(){ IndexWriter writer = null。 } catch (Exception e) { ()。 } catch (Exception e) { ()。 ()。 try { iwc = new IndexWriterConfig(, new StandardAnalyzer())。 (Index Reader Close Error ~!)。 } finally { try { ()。 //恢復(fù)所有索引 (All Index Undelte Ok~~!)。 try { reader = (directory, false)。 (Index Writer Close Error ~~)。 } finally { if(writer != null){ try { ()。 (Index where id = 1 delete ok!)。 writer = new IndexWriter(directory, iwc)。 表 33 刪除、 恢復(fù) 、強制刪除 索引 public void delete(){ IndexWriter writer = null。 } } } 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 19 Lucene 索引更新 是根據(jù) 提供的新信息,刪除,回復(fù),修改索引的過程 。 } catch (IOException e) { ()。 } catch (Exception e) { ()。 //通過 reader可以獲取有效的文檔數(shù)量 // (numDocs: + ())。 表 32 查詢服務(wù) public void query(){ IndexReader reader = null。 } } } Lucene 查詢服務(wù)是根據(jù)通過的關(guān)鍵字,從已建立的索引中查詢符合分詞規(guī)則的信息。 } catch (Exception e) { ()。 } catch (Exception e) { ()。 (doc)。 (new Field(content, contents[i], , ))。 (new Field(id, ids[i], , ))。 i。 Document doc = null。 try { iwc = new IndexWriterConfig(, new StandardAnalyzer())。 } catch (Exception e) { ()。 public IndexUtil(){ try { //directory = (new File(D:\\bs\\luceestdir01))。 private Directory directory = null。 private int[] attachs = {2, 3, 1, 4, 5, 3}。 private String[] s = {, , , , , , }。 表 41 給出了通過內(nèi)存建立文本信息索引的一個例子。 第四步:根據(jù)得到的文 檔 和查 詢語 句的相 關(guān) 性, 對結(jié) 果 進 行排序。 經(jīng)過 第二步, 得到一棵 經(jīng)過語 言 處 理的 語 法 樹 。 如果 發(fā)現(xiàn) 查 詢語 句不 滿 足 語 法 規(guī)則 , 則會報錯 。 如果在 詞 法分析中 發(fā)現(xiàn) 不合法的 關(guān)鍵字, 則會 出 現(xiàn)錯誤 。 由于查 詢語 句有 語 法,因而也要 進 行 語 法分析, 語 法分析及 語 言 處 理。 說 明用 戶 想找一 個包含 lucene 和 learned 然而不包括 hadoop 的文 檔 。最基本的有比如: AND, OR, NOT 等。 不同的查 詢語 句有不同的語 法,如 SQL 語 句就有一定的 語 法。 Lucene 如何 對 索引 進 行搜索 第一步:用 戶輸 入查 詢語 句。所以在了解 Lucene 之前要了解一下全文檢索。它并不是一個完整的應(yīng)用程序,而是一組代碼庫,并提供了方便實現(xiàn)搜索引擎的 API。其次分別用三個章節(jié)分別介紹三段式工作流程中涉及到的各個流程的主要工作,以及工作中所采用什么樣的工作策略。 以 web 搜索引擎為主要介紹對象。為了保證查詢的效率,需要在預(yù)處理階段分 江漢大 學(xué)本科畢業(yè)論文(設(shè)計) 15 詞的時候記住每個關(guān)鍵詞在文檔中出現(xiàn)的位置。因此, 有了 “ 動態(tài)摘要 ” 方式,即在響應(yīng)查詢的時候,根據(jù)查詢詞在文檔中的位置,提取出周圍的文字來,在顯示時將查詢詞標(biāo)亮。 一篇網(wǎng)頁有可能是多個不同查詢的結(jié)果。顯然,這種方式對查詢子系統(tǒng)來說是最輕松的,不需要做另外的處理工作。因此搜索引擎在生成摘要時要簡便許多,基本上可以歸納為兩種方式,一是靜態(tài)方式,即獨立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁內(nèi)容提取出一些文字,例如截取網(wǎng)頁正文的開頭 512 個字節(jié)(對應(yīng) 256個漢字),或者將每一個段落的第一個句子拼起來,等等。一是網(wǎng)頁的寫作通常不規(guī)范,文字比較隨意,因此從語言理解的角度難以做好;二是復(fù)雜的語言理解算法耗時太多,不適應(yīng)搜索引擎要高效處理海量網(wǎng)頁信息的需求。一般來講,從一篇文字中生成一個恰當(dāng)?shù)恼亲匀徽Z言理解領(lǐng)域的一個重要課題,人
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1