freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設計與實現(xiàn)畢業(yè)論文-全文預覽

2025-07-19 12:48 上一頁面

下一頁面
  

【正文】 37 查看鏈接數(shù)據(jù)庫 dump 后的信息一些常用的命令還包括 invertlinks,parsechecker,domainstats,webgraph 等等,這里不作介紹。Solr 版本開始支持從數(shù)據(jù)庫(通過 JDBC)、RSS 提要、Web 頁面和文件中導入數(shù)據(jù),但是不直接支持從二進制文件格式中提取內(nèi)容,比如 MS Office、Adobe PDF 或其他專有格式。直到提交后才能搜索到這些添加和更新。如果更新比較頻繁,則應該在使用率較低的時候安排優(yōu)化。按 id 刪除將刪除具有指定 id 的文檔;按查詢刪除將刪除查詢返回的所有文檔。rows=10amp。想知道更多有關(guān)各種可選查詢選項的信息,請參看下文的“搜索語法”部分。qt=standardamp。(索引接口:文:注:多核心時為這個地址 add doc field name=idTWINX20483200PRO/field field name=nameCORSAIR XMS 2GB (2 x 1GB) 184Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) Dual Channel Kit System Memory Retail/field field name=manuCorsair Microsystems Inc./field field name=catelectronics/field field name=catmemory/field field name=featuresCAS latency 2, 2336 timing, , unbuffered, heatspreader/field 江漢大學本科畢業(yè)論文(設計)31 field name=price185/field field name=popularity5/field field name=inStocktrue/field /doc doc field name=idVS1GB400C3/field field name=nameCORSAIR ValueSelect 1GB 184Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory Retail/field field name=manuCorsair Microsystems Inc./field field name=catelectronics/field field name=catmemory/field field name=price/field field name=popularity7/field field name=inStocktrue/field /doc /add Solr 搜索要實現(xiàn)搜索則只需要調(diào)用搜索接口發(fā)送 HTTP GET,示例: solramp。優(yōu)化是一個耗時較多的過程。optimize 重構(gòu) Lucene 的文件以改進搜索性能。通過對 Solr 進行適當?shù)呐渲?,某些情況下可能需要進行編碼,Solr 可以閱讀和使用構(gòu)建到其他 Lucene 應用程序中的索引。定制 Solr 索引的實現(xiàn)方法很簡單,用 POST 方法向 Solr 服務器發(fā)送一個描述所有 Field 及其內(nèi)容的 XML 文檔就可以了。bin/nutch readseg dump noparse noparsetext一下是對抓取連接的一個統(tǒng)計,如圖 35: 江漢大學本科畢業(yè)論文(設計)28圖 35 抓取一個鏈接的統(tǒng)計信息4. 連接數(shù)據(jù)庫信息的讀取命令 readlinkdb,輸入 bin/nutch readlinkdb,顯示readlinkdb 命令參數(shù)選項。3. segment 信息查看命令 readseg,輸入 bin/nutch readseg,顯示 readseg 命令參數(shù)選項。 Nutch 常用命令1. 抓取命令 crawl,輸入 bin/nutch crawl,顯示 crawl 命令參數(shù)選項。Lucene 為 Nutch 提供了文本索引和搜索的 API。 Nutch 是非常靈活的:他可以被很好的客戶訂制并集成到你的應用程序中,使用 Nutch 的插件機制,Nutch 可以作為一個搜索不同信息載體的搜索平臺。在寫 Nutch 的過程中,從學院派和工業(yè)派借鑒了很多知識:比如,Nutch 的核心部分目 江漢大學本科畢業(yè)論文(設計)22前已經(jīng)被重新用 Map Reduce 實現(xiàn)了。更進一步,一些搜索引擎允許競價排名,比如百度,這樣的索引結(jié)果并不是和站點內(nèi)容相關(guān)的。Apache Nutch 對于 Solr 已經(jīng)支持得很好,這大大簡化了 Nutch 與 Solr 的整合。}}}} Nutch 研究 Nutch 概述Apache Nutch 是一個用 Java 編寫的開源網(wǎng)絡爬蟲。} catch (Exception e) {()。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。} finally {if(writer != null){try {()。writer = new IndexWriter(directory, iwc)。} catch (IOException e) { 江漢大學本科畢業(yè)論文(設計)20()。()。} catch (Exception e) {()。(new Term(id, 1))。表 33,表 34 給出了刪除、恢復、強制刪除索引的一個例子。} finally {try {()。try {reader = (directory)。(Index Writer Close Error ~!)。}(Index Create OK~!)。(new Field(, s[i], , ))。for(int i=0。}}public void index(){IndexWriter writer = null。private IndexWriterConfig iwc = null。private String[] contents = {wel to sina aa, how are you ss88817, are you ok 496008642,what are you doing, 496008642, Have a good night, ,good morning ,ss88817}。 江漢大學本科畢業(yè)論文(設計)17 Lucene 增刪改索引的 APILucene 可對 ,網(wǎng)頁,文本資料,doc,pdf 之類的文檔進行索引建立,在建立索引的時候可為以后的排序做些處理。3. 語言處理同索引過程中的語言處理幾乎相同 。 1. 詞法分析主要用來識別單詞和關(guān)鍵字。 舉個例子,用戶輸入語句:lucene AND learned NOT hadoop。 查詢語句同我們普通的語言一樣,也是有一定語法的。Lucene 是一個高效的基于 Java 的全文檢索庫。首先,從 Web 搜索引擎原理和結(jié)構(gòu)介紹,闡述了搜索引擎三段式的工作原理,以及給出了目前主流搜索引擎實現(xiàn)的整體結(jié)構(gòu)描述。這是目前大多數(shù)搜索引擎采用的方式。但這種方式的一個最大的缺點是摘要和查詢無關(guān)。據(jù)統(tǒng)計,即使是分詞這一項工作(文本理解的基礎(chǔ)),在高檔微機上每秒鐘也只能完成 10 篇左右網(wǎng)頁的處理。其中的摘要需要從網(wǎng)頁正文中生成。然而,由于網(wǎng)頁編寫的自發(fā)性、隨意性較強,僅僅針對詞的出現(xiàn)來決定文檔的順序,在 Web 上做信息檢索表現(xiàn)出明顯的缺點,需要有其他技術(shù)的補充。為了形成一個合適的順序,在搜索引擎出現(xiàn)的早期人們采用了傳統(tǒng)信息檢索領(lǐng)域很成熟 江漢大學本科畢業(yè)論文(設計)14的基于詞匯出現(xiàn)頻度的方法。給定一個查詢結(jié)果集合,R={r1, r2, …, rn},所謂列表,就是按照某種評價方式,確定出 R 中元素的一個順序,讓這些元素以這種順序呈現(xiàn)出來。倒排文件就是用詞來作為索引的一個數(shù)據(jù)結(jié)構(gòu),顯然,q 中的詞必須是包含在倒排文件詞表中才有意義。它首先需要被“切詞”(segment)或稱“分詞”,即把它分成一個詞的序列。盡管如此,用一個次或短語來間接表達信息需求,希望網(wǎng)頁中含有該詞或該短語中的詞,依然是主流的搜索引擎查詢模式。但這是一種相當模糊的說法。 查詢服務查詢服務的整體結(jié)構(gòu)如下:圖 28 查詢服務的整體結(jié)構(gòu) 在網(wǎng)頁預處理后,每個元素至少包含如下幾個方面:原始網(wǎng)頁文檔URL 和標題編號所含的重要關(guān)鍵詞的集合(以及他們在文檔中出現(xiàn)的位置信息)其他一些指標(例如重要程度,分類代碼等)而系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號一起構(gòu)成了一個倒排文件結(jié)構(gòu),使得一旦得到一個關(guān)鍵詞輸入,系統(tǒng)能迅速給出相關(guān)文檔編號的集合輸出。 同樣,文檔數(shù)量和當前查詢的單詞結(jié)果都從零開始。后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時間和空間來創(chuàng)建。 倒排索引倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。停用詞字典比較好辦,由于中文停用詞數(shù)量有限,可以從網(wǎng)上獲得停用詞列表,從而自己建一個停用詞字典;然而對于分詞字典,雖然網(wǎng)上有許多知名的漢字分詞軟件,但是很少有分詞的字典提供。算法描述如下:輸入值為一個中文語句 S,以及最大匹配詞 n取 S 中前 n 個字,根據(jù)詞典對其進行匹配,若匹配成功,轉(zhuǎn) 3,否則轉(zhuǎn) 2;n = n – 1:如果 n 為 1,轉(zhuǎn) 3;否則轉(zhuǎn) 1;將 S 中的前 n 個字作為分詞結(jié)果的一部分,S 除去前 n 個字,若 S 為空,轉(zhuǎn) 4;否則,轉(zhuǎn) 1;算法結(jié)束。由于第二和第三種的實現(xiàn)需要大量的數(shù)據(jù)來支持,一般采用的是基于字符串匹配的方法。對輸入數(shù)據(jù)分析處理完成后,就可以將結(jié)果寫入索引文件中。分析數(shù)據(jù)時,現(xiàn)將文本數(shù)據(jù)切分成一些大塊或者詞匯單元,然后對它們執(zhí)行一些可選的操作,例如:在索引之前將這些詞匯單元轉(zhuǎn)換成小寫,使得搜索對大小寫不敏感;具有代表性的是要從輸入中去掉一些使用很頻繁但卻沒有實際意義的詞,比如英文文本中的一些停用詞(a、an、the、in、on 等)。但是,在現(xiàn)實世界中,信息多以富媒體文檔格式呈現(xiàn):PDF,WORD,EXCEL,HTML,XML 等。所以,需要先建立網(wǎng)頁的索引,如此通過索引,這樣可以很方便的從原始網(wǎng)頁庫中獲得某個 URL 對應的頁面信息。如果不存在,將該 URL 的狀態(tài)標記為未采集過。超鏈接:爬蟲會根據(jù)種子地址(可能是最先提交給爬蟲的 URL 集合)抓取頁面。進行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡頁面,并具有這項頁面被抓取的時間信息。 江漢大學本科畢業(yè)論文(設計)6累積式抓取是指從某一個時間點開始,通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。只有事先抓取了足夠多的網(wǎng)頁數(shù)據(jù),并處理之,才能對大量的用戶查詢提供及時的響應。 搜索引擎整體結(jié)構(gòu)圖 22 搜索引擎整體結(jié)構(gòu)爬蟲從 Inter 中爬取眾多的網(wǎng)頁作為原始網(wǎng)頁庫存儲于本地,然后網(wǎng)頁分析器抽取網(wǎng)頁中的主題內(nèi)容交給分詞器進行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫,用戶查詢時,在通過分詞器切割輸入的查詢詞組并通過檢索器在索引數(shù)據(jù)庫中進行查詢,得到的結(jié)果返回給用戶。最基本的搜索引擎應該包含三個模塊:網(wǎng)頁搜集,預處理,查詢服務。 小結(jié)本章內(nèi)容主要介紹了課題背景,課題目的,及課題的研究方法與內(nèi)容這些方面。 江漢大學本科畢業(yè)論文(設計)2搜索器用于 WWW 的遍歷和網(wǎng)頁的下載。 課題研究范圍一般來說搜索引擎都由:用戶接口,搜索器,索引生成器和查詢處理器 4 個部分組成。目前網(wǎng)絡中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。網(wǎng)絡搜索引擎中以基于 WWW 的搜索引擎應用范圍最為廣泛。為了解決此問題,出現(xiàn)了網(wǎng)絡搜索引擎。國外具代表性的全文檢索搜索引擎有 Google、 Yahoo、 Bing 等 ,國內(nèi)著名的有百度、中搜等。 課題研究目的及應用 針對搜索引擎廣闊的應用前景以及分析國內(nèi)外搜索引擎的發(fā)展現(xiàn)狀,根據(jù)搜索引擎系統(tǒng)的工作原理設計一種基于 Inter 的全文搜索引擎模型,它從互聯(lián)網(wǎng)上獲取網(wǎng)頁,建立索引數(shù)據(jù)庫,并采用數(shù)據(jù)庫管理作業(yè)和多線程技術(shù)以提高全文搜索的性能和效率,從技術(shù)上可以適用于任何有全文搜索需求的應用。用戶接口的設計和實現(xiàn)使用人機交互的理論和方法,以充分適應人類的思維習慣。 查詢處理器的功能是根
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1