freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設計與實現(xiàn)-畢業(yè)論文-全文預覽

2025-07-19 13:40 上一頁面

下一頁面
  

【正文】 引擎展現(xiàn)結(jié)果的方式呢?那就用 Nutch 寫你自己的搜索引擎吧。Nutch 是一個應用程序,可以以 Lucene 為基礎實現(xiàn)搜索引擎應用。在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用 Lucene API 建立索引。輸入:[rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫信息通過截圖信息,可以發(fā)現(xiàn),剛才抓取的貓撲網(wǎng),一共獲得 URL2687 個,最小分值,最大分值 ,平均分值 ,為抓取內(nèi)容的 URL2602 個。進入 segment 目錄后,使用 ls 命令 江漢大學本科畢業(yè)論文(設計)27圖 33 數(shù)據(jù)段文件[rootbogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: donevi 圖 34 數(shù)據(jù)段 dump 后的文件信息對 dump 后的信息仍然可以提取,輸入 bin/nutch readseg dump,顯示 readseg命令中 dump 參數(shù)選項。 Solr 研究 Solr 概述Apache Solr 是一個開源的搜索服務器,Solr 使用 Java 語言開發(fā),主要基于 HTTP 和 Apache Lucene 實現(xiàn)。更重要的是,Solr 創(chuàng)建的索引與 Lucene 搜索引擎庫完全兼容。mit 告訴 Solr,應該使上次提交以來所做的所有更改都可以搜索到。一個索引無需優(yōu)化也可以正常地運行。要實現(xiàn)添加文檔索引則只需要調(diào)用搜索接口以 HTTP POST 的方式提交 XML 報文。delete 可以通過 id 或查詢來指定。索引完成后執(zhí)行一下優(yōu)化通常比較好。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 創(chuàng)建的索引 江漢大學本科畢業(yè)論文(設計)30Solr 的特性包括:1. 高級的全文搜索功能2. 專為高通量的網(wǎng)絡流量進行的優(yōu)化3. 基于開放接口(XML 和 HTTP)的標準4. 綜合的 HTML 管理界面5. 可伸縮性-能夠有效地復制到另外一個 Solr 搜索服務器6. 使用 XML 配置達到靈活性和適配性7. 可擴展的插件體系 Solr 索引 可以向 Solr 索引 servlet 傳遞四個不同的索引請求:add/update 允許向 Solr 添加文檔或更新文檔。定制搜索的時候只需要發(fā)送 HTTP GET 請求即可,然后對 Solr 返回的信息進行重新布局,以產(chǎn)生利于用戶理解的頁面內(nèi)容布局。Usage: LinkDbReader linkdb (dump out_dir | url url)dump out_dir dump whole link db to a text file in out_dirurl urlprint information about url to 首先使用 readlinkdb 的dump 參數(shù),將 dump 后的信息放到統(tǒng)計目錄的linkdb_dump 目錄下。[rootbogon local] bin/nutch readsegUsage: SegmentReader (dump ... | list ... | get ...) [general options]* General options:nocontentignore content directorynofetch ignore crawl_fetch directorynogenerate ignore crawl_generate directorynoparse ignore crawl_parse directorynoparsedata ignore parse_data directory 江漢大學本科畢業(yè)論文(設計)26noparsetext ignore parse_text directory* SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output.segment_dir name of the segment directory.output name of the (nonexistent) output directory.* SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to processdir segments directory that contains multiple segments* SegmentReader get segment_dir keyValue [general options] Get a specified record from a segment, and print it on .segment_dir name of the segment directory.keyValuevalue of the key (url).Note: put doublequotes around strings with spaces.下面給出dump 參數(shù)的使用。[rootbogon local] bin/nutch crawlUsage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] 江漢大學本科畢業(yè)論文(設計)23[topN N]抓取 網(wǎng)站,將抓取內(nèi)容存放在 目錄下,線程數(shù) 50,抓取深度為 5,抓取廣度為 50.[rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50solrUrl is not set, indexing will be skipped...crawl started in: rootUrlDir = urlsthreads = 50depth = 5solrUrl=nulltopN = 100Injector: starting at 20220521 19:38:00Injector: crawlDb: Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.… 江漢大學本科畢業(yè)論文(設計)24圖 31 抓取過程2. 數(shù)據(jù)庫查看命令 readdb, 輸入 bin/nutch readdb,顯示 readdb 命令參數(shù)選項。一個常見的問題是;我應該使用Lucene 還是 Nutch?最簡單的回答是:如果你不需要抓取數(shù)據(jù)的話,應該使用Lucene。當然,最簡單的就是集成 Nutch 到你的站點,為你的用戶提供搜索服務。Map Reduce 是一個分布式的處理模型,最先是從 Google 實驗室提出來的。因此 nutch 對學術搜索和政府類站點的搜索來說,是個好選擇,因為一個公平的排序結(jié)果是非常重要的。這也消除了過去依賴于 Apache Tomcat 來運行老的 Nutch 網(wǎng)絡應用以及依賴于 Apache Lucene 來進行索引的麻煩。通過它,就能夠自動地找到網(wǎng)頁中的超鏈接,從而極大地減輕了維護工作的負擔,例如檢查那些已經(jīng)斷開了的鏈接,或是對所有已經(jīng)訪問過的網(wǎng)頁創(chuàng)建一個副本以便用于搜索。} finally { 江漢大學本科畢業(yè)論文(設計)21if(writer != null){try {()。writer = new IndexWriter(directory, iwc)。} catch (Exception e) {()。()。(Index Reader Close Error ~!)。 //恢復所有索引(All Index Undelte Ok~~!)。(Index Writer Close Error ~~)。(Index where id = 1 delete ok!)。表 33 刪除、恢復、強制刪除索引public void delete(){IndexWriter writer = null。} catch (IOException e) {()。 //通過reader可以獲取有效的文檔數(shù)量//(numDocs: + ())。}}}Lucene 查詢服務是根據(jù)通過的關鍵字,從已建立的索引中查詢符合分詞規(guī)則的信息。} catch (Exception e) {()。(new Field(content, contents[i], , ))。 i。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。public IndexUtil(){try {//directory = (new File(D:\\bs\\luceestdir01))。private int[] attachs = {2, 3, 1, 4, 5, 3}。表 41 給出了通過內(nèi)存建立文本信息索引的一個例子。 經(jīng)過第二步,得到一棵經(jīng)過語言處理的語法樹。 如果在詞法分析中發(fā)現(xiàn)不合法的關鍵字,則會出現(xiàn)錯誤。 說明用戶想找一個包含 lucene 和 learned 然而不包括 hadoop 的文檔。 不同的查詢語句有不同的語法,如 SQL 語句就有一定的語法。所以在了解 Lucene 之前要了解一下全文檢索。其次分別用三個章節(jié)分別介紹三段式工作流程中涉及到的各個流程的主要工作,以及工作中所采用什么樣的工作策略。為了保證查詢的效率,需要在預處理階段分詞的時候記住每個關鍵詞在文檔中出現(xiàn)的位置。一篇網(wǎng)頁有可能是多個不同查詢的結(jié)果。因此搜索引擎在生成摘要時要簡便許多,基本上可以歸納為兩種方式,一是靜態(tài)方式,即獨立于查詢,按照某種規(guī)則,事先在預處理階段從網(wǎng)頁內(nèi)容提取出一些文字,例如截取網(wǎng)頁正文的開頭 512 個字節(jié)(對應 256 個漢字),或者將每一個段落的第一個句子拼起來,等等。一般來講,從一篇文字中生成一個恰當?shù)恼亲匀徽Z言理解領域的一個重要課題,人們已經(jīng)做了多年的工作并取得了一些成果。這方面最重要的成果就是前面提到過的 PageRank。大致上講就是一篇文檔中包含的查詢(q)中的那些詞越多,則該文檔就應該排在越前面;再精細一些的考慮則是若一個詞在越多的文檔中有出現(xiàn),則該詞用于區(qū)分文檔相關性的作用就越小?;\統(tǒng)地講,ri 和 q 的相關性(relevance)是形成這種順序的基本因素。有了這樣的 q,它的每一個元素都對應倒排文件中的一個倒排表(文檔編號的集合),記作 L(ti),它們的交集即為對應查詢的結(jié)果文檔集合,從而實現(xiàn)了查詢和文檔的匹配。如上例,則為“網(wǎng)絡 與 分布式 系統(tǒng) 實驗室”(注意,不同的分詞軟件可能得出不同的結(jié)果)。這不僅是因為他的確代表了大多數(shù)的情況,還因為它比較容易實現(xiàn)。例如用戶輸入“江漢大學”,可能是他想了解江漢大學目前的招生狀況,可能需要找到江漢大學教務系統(tǒng)的網(wǎng)址,可能需要了解大家對江漢大學的評價。 查詢方式和匹配查詢方式指的是系統(tǒng)允許用戶提交查詢的形式。所以,banana: {(2, 3)} 就是說 banana在第三個文檔里 ( ),而且在第三個文檔的位置是第四個單詞(地址為 3)。下面將以圖示和實例的方式分別說明正向索引和倒排索引。它是文檔索引系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。在程序使用過程中,分詞字典可以放入一個集合中,這樣就可以比較方便的進行比對工作。需要說明的是,在第三步的起始,n 如果不為 1,則意味著有匹配到的詞;而如果 n 為 1,默認 1 個字是應該進入分詞結(jié)果的,所以第三步可以將前 n 個字作為一個詞而分割開來。基于字符串匹配的方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。結(jié)果一般包括網(wǎng)頁標題,正文,所屬住地址,主機,內(nèi)容摘要,時間戳,當前 URL 地址等,并更具具體需要建立索引和存儲。同樣的,也需要分析輸入的詞匯單元,一遍從詞語中去掉一些不必要的字母以找到他們的詞干。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。之后,處理網(wǎng)頁數(shù)據(jù),對于一個網(wǎng)頁,首先需要提取其網(wǎng)頁正文信息,其次對正文信息進行分詞,之后再根據(jù)分詞的情況建立索引和倒排索引,這樣,網(wǎng)頁的預處理也
點擊復制文檔內(nèi)容
外語相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1