正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

2025-07-01 13:40本頁面

　　

【正文】要實(shí)現(xiàn)添加文檔索引則只需要調(diào)用搜索接口以 HTTP POST 的方式提交 XML 報(bào)文。delete 可以通過 id 或查詢來指定。一個(gè)索引無需優(yōu)化也可以正常地運(yùn)行。索引完成后執(zhí)行一下優(yōu)化通常比較好。mit 告訴 Solr，應(yīng)該使上次提交以來所做的所有更改都可以搜索到。此外，很多 Lucene 工具（如 Nutch、 Luke）也可以使用 Solr 創(chuàng)建的索引江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）30Solr 的特性包括：1. 高級(jí)的全文搜索功能2. 專為高通量的網(wǎng)絡(luò)流量進(jìn)行的優(yōu)化3. 基于開放接口（XML 和 HTTP）的標(biāo)準(zhǔn)4. 綜合的 HTML 管理界面5. 可伸縮性－能夠有效地復(fù)制到另外一個(gè) Solr 搜索服務(wù)器6. 使用 XML 配置達(dá)到靈活性和適配性7. 可擴(kuò)展的插件體系 Solr 索引可以向 Solr 索引 servlet 傳遞四個(gè)不同的索引請(qǐng)求：add/update 允許向 Solr 添加文檔或更新文檔。更重要的是，Solr 創(chuàng)建的索引與 Lucene 搜索引擎庫完全兼容。定制搜索的時(shí)候只需要發(fā)送 HTTP GET 請(qǐng)求即可，然后對(duì) Solr 返回的信息進(jìn)行重新布局，以產(chǎn)生利于用戶理解的頁面內(nèi)容布局。 Solr 研究 Solr 概述Apache Solr 是一個(gè)開源的搜索服務(wù)器，Solr 使用 Java 語言開發(fā)，主要基于 HTTP 和 Apache Lucene 實(shí)現(xiàn)。Usage: LinkDbReader linkdb (dump out_dir | url url)dump out_dir dump whole link db to a text file in out_dirurl urlprint information about url to 首先使用 readlinkdb 的dump 參數(shù)，將 dump 后的信息放到統(tǒng)計(jì)目錄的linkdb_dump 目錄下。進(jìn)入 segment 目錄后，使用 ls 命令江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）27圖 33 數(shù)據(jù)段文件[rootbogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: donevi 圖 34 數(shù)據(jù)段 dump 后的文件信息對(duì) dump 后的信息仍然可以提取，輸入 bin/nutch readseg dump，顯示 readseg命令中 dump 參數(shù)選項(xiàng)。[rootbogon local] bin/nutch readsegUsage: SegmentReader (dump ... | list ... | get ...) [general options]* General options:nocontentignore content directorynofetch ignore crawl_fetch directorynogenerate ignore crawl_generate directorynoparse ignore crawl_parse directorynoparsedata ignore parse_data directory 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）26noparsetext ignore parse_text directory* SegmentReader dump segment_dir output [general options] Dumps content of a segment_dir as a text file to output.segment_dir name of the segment directory.output name of the (nonexistent) output directory.* SegmentReader list (segment_dir1 ... | dir segments) [general options] List a synopsis of segments in specified directories, or all segments in a directory segments, and print it on segment_dir1 ... list of segment directories to processdir segments directory that contains multiple segments* SegmentReader get segment_dir keyValue [general options] Get a specified record from a segment, and print it on .segment_dir name of the segment directory.keyValuevalue of the key (url).Note: put doublequotes around strings with spaces.下面給出dump 參數(shù)的使用。輸入：[rootbogon local] bin/nutch readdb 圖 32 讀取連接數(shù)據(jù)庫信息通過截圖信息，可以發(fā)現(xiàn)，剛才抓取的貓撲網(wǎng)，一共獲得 URL2687 個(gè)，最小分值，最大分值，平均分值，為抓取內(nèi)容的 URL2602 個(gè)。[rootbogon local] bin/nutch crawlUsage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）23[topN N]抓取網(wǎng)站，將抓取內(nèi)容存放在目錄下，線程數(shù) 50，抓取深度為 5，抓取廣度為 50.[rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50solrUrl is not set, indexing will be skipped...crawl started in: rootUrlDir = urlsthreads = 50depth = 5solrUrl=nulltopN = 100Injector: starting at 20220521 19:38:00Injector: crawlDb: Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.… 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）24圖 31 抓取過程2. 數(shù)據(jù)庫查看命令 readdb, 輸入 bin/nutch readdb，顯示 readdb 命令參數(shù)選項(xiàng)。在這種情況下，最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用 Lucene API 建立索引。一個(gè)常見的問題是；我應(yīng)該使用Lucene 還是 Nutch？最簡(jiǎn)單的回答是：如果你不需要抓取數(shù)據(jù)的話，應(yīng)該使用Lucene。Nutch 是一個(gè)應(yīng)用程序，可以以 Lucene 為基礎(chǔ)實(shí)現(xiàn)搜索引擎應(yīng)用。當(dāng)然，最簡(jiǎn)單的就是集成 Nutch 到你的站點(diǎn)，為你的用戶提供搜索服務(wù)。(3) 擴(kuò)展性：你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢？那就用 Nutch 寫你自己的搜索引擎吧。Map Reduce 是一個(gè)分布式的處理模型，最先是從 Google 實(shí)驗(yàn)室提出來的。了解一個(gè)大型分布式的搜索引擎如何工作是一件讓人很受益的事情。因此 nutch 對(duì)學(xué)術(shù)搜索和政府類站點(diǎn)的搜索來說，是個(gè)好選擇，因?yàn)橐粋€(gè)公平的排序結(jié)果是非常重要的。商業(yè)的搜索引擎排序算法都是保密的，無法知道為什么搜索出來的排序結(jié)果是如何算出來的。這也消除了過去依賴于 Apache Tomcat 來運(yùn)行老的 Nutch 網(wǎng)絡(luò)應(yīng)用以及依賴于 Apache Lucene 來進(jìn)行索引的麻煩。Solr 是一個(gè)開源的全文搜索框架，通過 Solr 能夠搜索 Nutch 已經(jīng)訪問過的網(wǎng)頁。通過它，就能夠自動(dòng)地找到網(wǎng)頁中的超鏈接，從而極大地減輕了維護(hù)工作的負(fù)擔(dān)，例如檢查那些已經(jīng)斷開了的鏈接，或是對(duì)所有已經(jīng)訪問過的網(wǎng)頁創(chuàng)建一個(gè)副本以便用于搜索。(Index Writer Close Error ~~)。} finally { 江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）21if(writer != null){try {()。(Index where id = 1 delete ok!)。writer = new IndexWriter(directory, iwc)。}}}}表 34 強(qiáng)制合并索引public void forceMerge(){IndexWriter writer = null。} catch (Exception e) {()。} catch (Exception e) {()。()。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。(Index Reader Close Error ~!)。} finally {try {()。 //恢復(fù)所有索引(All Index Undelte Ok~~!)。try {reader = (directory, false)。(Index Writer Close Error ~~)。} finally {if(writer != null){try {()。(Index where id = 1 delete ok!)。writer = new IndexWriter(directory, iwc)。表 33 刪除、恢復(fù)、強(qiáng)制刪除索引public void delete(){IndexWriter writer = null。}}}Lucene 索引更新是根據(jù)提供的新信息，刪除，回復(fù)，修改索引的過程。} catch (IOException e) {()。} catch (Exception e) {()。 //通過reader可以獲取有效的文檔數(shù)量//(numDocs: + ())。表 32 查詢服務(wù)public void query(){IndexReader reader = null。}}}Lucene 查詢服務(wù)是根據(jù)通過的關(guān)鍵字，從已建立的索引中查詢符合分詞規(guī)則的信息。} catch (Exception e) {()。} catch (Exception e) {()。(doc)。(new Field(content, contents[i], , ))。(new Field(id, ids[i], , ))。 i。Document doc = null。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。} catch (Exception e) {()。public IndexUtil(){try {//directory = (new File(D:\\bs\\luceestdir01))。private Directory directory = null。private int[] attachs = {2, 3, 1, 4, 5, 3}。private String[] s = {, , , , , }。表 41 給出了通過內(nèi)存建立文本信息索引的一個(gè)例子。第四步：根據(jù)得到的文檔和查詢語句的相關(guān)性，對(duì)結(jié)果進(jìn)行排序。經(jīng)過第二步，得到一棵經(jīng)過語言處理的語法樹。如果發(fā)現(xiàn)查詢語句不滿足語法規(guī)則，則會(huì)報(bào)錯(cuò)。如果在詞法分析中發(fā)現(xiàn)不合法的關(guān)鍵字，則會(huì)出現(xiàn)錯(cuò)誤。由于查詢語句有語法，因而也要進(jìn)行語法分析，語法分析及語言處理。說明用戶想找一個(gè)包含 lucene 和 learned 然而不包括 hadoop 的文檔。最基本的有比如：AND, OR, NOT 等。不同的查詢語句有不同的語法，如 SQL 語句就有一定的語法。 Lucene 如何對(duì)索引進(jìn)行搜索第一步：用戶輸入查詢語句。所以在了解 Lucene 之前要了解一下全文檢索。它并不是一個(gè)完整的應(yīng)用程序，而是一組代碼庫，并提供了方便實(shí)現(xiàn)搜索引擎的 API。其次分別用三個(gè)章節(jié)分別介紹三段式工作流程中涉及到的各個(gè)流程的主要工作，以及工作中所采用什么樣的工作策略。以 web 搜索引擎為主要介紹對(duì)象。為了保證查詢的效率，需要在預(yù)處理階段分詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。因此，有了“動(dòng)態(tài)摘要”方式，即在響應(yīng)查詢的時(shí)候，根據(jù)查詢?cè)~在文檔中的位置，提取出江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）15周圍的文字來，在顯示時(shí)將查詢?cè)~標(biāo)亮。

點(diǎn)擊復(fù)制文檔內(nèi)容

外語相關(guān)推薦

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文目錄1緒論...................................................................................1課題背景及介紹.....................................

2025-07-01 12:48

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向有關(guān)學(xué)位論文管理機(jī)構(gòu)送交論文的復(fù)印件和電子版。同意省級(jí)優(yōu)秀學(xué)位

2025-07-01 13:40

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

2024-08-31 16:43

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

【摘要】江漢大學(xué)本科畢業(yè)論文（設(shè)計(jì)）I全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)作者聲明本人鄭重聲明：所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。本人完全了解有關(guān)保障、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并

2025-07-08 18:41

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)(參考版)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(參考版)

站內(nèi)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-外文翻譯(參考版)

基于internet的全文搜索引擎的模型設(shè)計(jì)畢業(yè)論文(參考版)

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文(參考版)

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-展示頁

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-在線瀏覽

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-閱讀頁

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(文件)

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文-全文預(yù)覽