freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-畢業(yè)論文(更新版)

2025-08-06 13:40上一頁面

下一頁面
  

【正文】 ceMerge(){IndexWriter writer = null。(Index Writer Close Error ~~)。商業(yè)的搜索引擎排序算法都是保密的,無法知道為什么搜索出來的排序結(jié)果是如何算出來的。(3) 擴(kuò)展性:你是不是不喜歡其他的搜索引擎展現(xiàn)結(jié)果的方式呢?那就用 Nutch 寫你自己的搜索引擎吧。在這種情況下,最好的方式是直接從數(shù)據(jù)庫中取出數(shù)據(jù)并用 Lucene API 建立索引。進(jìn)入 segment 目錄后,使用 ls 命令 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))27圖 33 數(shù)據(jù)段文件[rootbogon local] bin/nutch readseg dump SegmentReader: dump segment: SegmentReader: donevi 圖 34 數(shù)據(jù)段 dump 后的文件信息對 dump 后的信息仍然可以提取,輸入 bin/nutch readseg dump,顯示 readseg命令中 dump 參數(shù)選項(xiàng)。更重要的是,Solr 創(chuàng)建的索引與 Lucene 搜索引擎庫完全兼容。一個(gè)索引無需優(yōu)化也可以正常地運(yùn)行。delete 可以通過 id 或查詢來指定。此外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 創(chuàng)建的索引 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))30Solr 的特性包括:1. 高級的全文搜索功能2. 專為高通量的網(wǎng)絡(luò)流量進(jìn)行的優(yōu)化3. 基于開放接口(XML 和 HTTP)的標(biāo)準(zhǔn)4. 綜合的 HTML 管理界面5. 可伸縮性-能夠有效地復(fù)制到另外一個(gè) Solr 搜索服務(wù)器6. 使用 XML 配置達(dá)到靈活性和適配性7. 可擴(kuò)展的插件體系 Solr 索引 可以向 Solr 索引 servlet 傳遞四個(gè)不同的索引請求:add/update 允許向 Solr 添加文檔或更新文檔。Usage: LinkDbReader linkdb (dump out_dir | url url)dump out_dir dump whole link db to a text file in out_dirurl urlprint information about url to 首先使用 readlinkdb 的dump 參數(shù),將 dump 后的信息放到統(tǒng)計(jì)目錄的linkdb_dump 目錄下。[rootbogon local] bin/nutch crawlUsage: Crawl urlDir solr solrURL [dir d] [threads n] [depth i] 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))23[topN N]抓取 網(wǎng)站,將抓取內(nèi)容存放在 目錄下,線程數(shù) 50,抓取深度為 5,抓取廣度為 50.[rootbogon /] cd /install/[rootbogon local] bin/nutch crawl urls dir depth 5 topN 100 threads 50solrUrl is not set, indexing will be skipped...crawl started in: rootUrlDir = urlsthreads = 50depth = 5solrUrl=nulltopN = 100Injector: starting at 20220521 19:38:00Injector: crawlDb: Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.… 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))24圖 31 抓取過程2. 數(shù)據(jù)庫查看命令 readdb, 輸入 bin/nutch readdb,顯示 readdb 命令參數(shù)選項(xiàng)。當(dāng)然,最簡單的就是集成 Nutch 到你的站點(diǎn),為你的用戶提供搜索服務(wù)。因此 nutch 對學(xué)術(shù)搜索和政府類站點(diǎn)的搜索來說,是個(gè)好選擇,因?yàn)橐粋€(gè)公平的排序結(jié)果是非常重要的。通過它,就能夠自動地找到網(wǎng)頁中的超鏈接,從而極大地減輕了維護(hù)工作的負(fù)擔(dān),例如檢查那些已經(jīng)斷開了的鏈接,或是對所有已經(jīng)訪問過的網(wǎng)頁創(chuàng)建一個(gè)副本以便用于搜索。writer = new IndexWriter(directory, iwc)。()。 //恢復(fù)所有索引(All Index Undelte Ok~~!)。(Index where id = 1 delete ok!)。} catch (IOException e) {()。}}}Lucene 查詢服務(wù)是根據(jù)通過的關(guān)鍵字,從已建立的索引中查詢符合分詞規(guī)則的信息。(new Field(content, contents[i], , ))。try {iwc = new IndexWriterConfig(, new StandardAnalyzer())。private int[] attachs = {2, 3, 1, 4, 5, 3}。 經(jīng)過第二步,得到一棵經(jīng)過語言處理的語法樹。 說明用戶想找一個(gè)包含 lucene 和 learned 然而不包括 hadoop 的文檔。所以在了解 Lucene 之前要了解一下全文檢索。為了保證查詢的效率,需要在預(yù)處理階段分詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。因此搜索引擎在生成摘要時(shí)要簡便許多,基本上可以歸納為兩種方式,一是靜態(tài)方式,即獨(dú)立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁內(nèi)容提取出一些文字,例如截取網(wǎng)頁正文的開頭 512 個(gè)字節(jié)(對應(yīng) 256 個(gè)漢字),或者將每一個(gè)段落的第一個(gè)句子拼起來,等等。這方面最重要的成果就是前面提到過的 PageRank?;\統(tǒng)地講,ri 和 q 的相關(guān)性(relevance)是形成這種順序的基本因素。如上例,則為“網(wǎng)絡(luò) 與 分布式 系統(tǒng) 實(shí)驗(yàn)室”(注意,不同的分詞軟件可能得出不同的結(jié)果)。例如用戶輸入“江漢大學(xué)”,可能是他想了解江漢大學(xué)目前的招生狀況,可能需要找到江漢大學(xué)教務(wù)系統(tǒng)的網(wǎng)址,可能需要了解大家對江漢大學(xué)的評價(jià)。所以,banana: {(2, 3)} 就是說 banana在第三個(gè)文檔里 ( ),而且在第三個(gè)文檔的位置是第四個(gè)單詞(地址為 3)。它是文檔索引系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。需要說明的是,在第三步的起始,n 如果不為 1,則意味著有匹配到的詞;而如果 n 為 1,默認(rèn) 1 個(gè)字是應(yīng)該進(jìn)入分詞結(jié)果的,所以第三步可以將前 n 個(gè)字作為一個(gè)詞而分割開來。結(jié)果一般包括網(wǎng)頁標(biāo)題,正文,所屬住地址,主機(jī),內(nèi)容摘要,時(shí)間戳,當(dāng)前 URL 地址等,并更具具體需要建立索引和存儲。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。URL 生成器:從抓取回來的網(wǎng)頁中,將符合條件的 URL 提出出來,檢測 URL 是否在有效更新時(shí)間里面,并將 URL 載入相應(yīng)的任務(wù)組,計(jì)算 URL 的 hash 值,搜集 URL,直至達(dá)到規(guī)定的廣度。面對實(shí)際應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中,通常既包含累積式抓取,也包括增量式抓取的策略。 爬蟲的工作流程網(wǎng)頁收集的過程如同圖的遍歷,其中網(wǎng)頁就作為圖中的節(jié)點(diǎn),而網(wǎng)頁中的超鏈接則作為圖中的邊,通過某網(wǎng)頁的超鏈接 得到其他網(wǎng)頁的地址,從而可以進(jìn)一步的進(jìn)行網(wǎng)頁收集;圖的遍歷分為廣度優(yōu)先和深度優(yōu)先兩種方法,網(wǎng)頁的收集過程也是如此。事實(shí)上,這三個(gè)部分是相互獨(dú)立、分別工作的,主要的關(guān)系體現(xiàn)在前一部分得到的數(shù)據(jù)結(jié)果為后一部分提供原始數(shù)據(jù)。從一個(gè)起始 URL 集合開始,順著這些 URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。建立搜索引擎就是解決這個(gè)問題的最好方法之一。本文首先介紹了課題研究背景,然后對系統(tǒng)涉及到的理論知識,框架的相關(guān)理論做了詳細(xì)說明,最后按照軟件工程的開發(fā)方法逐步實(shí)現(xiàn)系統(tǒng)功能。Web 搜索引擎能有很好的幫助我們解決這一問題。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。文中闡述了 Nutch 相關(guān)框架的背景,基礎(chǔ)原理和應(yīng)用。網(wǎng)絡(luò)搜索引擎中以基于 WWW 的搜索引擎應(yīng)用范圍最為廣泛。 課題研究范圍一般來說搜索引擎都由:用戶接口,搜索器,索引生成器和查詢處理器 4 個(gè)部分組成。 小結(jié)本章內(nèi)容主要介紹了課題背景,課題目的,及課題的研究方法與內(nèi)容這些方面。 搜索引擎整體結(jié)構(gòu)圖 22 搜索引擎整體結(jié)構(gòu)爬蟲從 Inter 中爬取眾多的網(wǎng)頁作為原始網(wǎng)頁庫存儲于本地,然后網(wǎng)頁分析器抽取網(wǎng)頁中的主題內(nèi)容交給分詞器進(jìn)行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫,用戶查詢時(shí),在通過分詞器切割輸入的查詢詞組并通過檢索器在索引數(shù)據(jù)庫中進(jìn)行查詢,得到的結(jié)果返回給用戶。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))6累積式抓取是指從某一個(gè)時(shí)間點(diǎn)開始,通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。超鏈接:爬蟲會根據(jù)種子地址(可能是最先提交給爬蟲的 URL 集合)抓取頁面。所以,需要先建立網(wǎng)頁的索引,如此通過索引,這樣可以很方便的從原始網(wǎng)頁庫中獲得某個(gè) URL 對應(yīng)的頁面信息。分析數(shù)據(jù)時(shí),現(xiàn)將文本數(shù)據(jù)切分成一些大塊或者詞匯單元,然后對它們執(zhí)行一些可選的操作,例如:在索引之前將這些詞匯單元轉(zhuǎn)換成小寫,使得搜索對大小寫不敏感;具有代表性的是要從輸入中去掉一些使用很頻繁但卻沒有實(shí)際意義的詞,比如英文文本中的一些停用詞(a、an、the、in、on 等)。由于第二和第三種的實(shí)現(xiàn)需要大量的數(shù)據(jù)來支持,一般采用的是基于字符串匹配的方法。停用詞字典比較好辦,由于中文停用詞數(shù)量有限,可以從網(wǎng)上獲得停用詞列表,從而自己建一個(gè)停用詞字典;然而對于分詞字典,雖然網(wǎng)上有許多知名的漢字分詞軟件,但是很少有分詞的字典提供。后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時(shí)間和空間來創(chuàng)建。 查詢服務(wù)查詢服務(wù)的整體結(jié)構(gòu)如下:圖 28 查詢服務(wù)的整體結(jié)構(gòu) 在網(wǎng)頁預(yù)處理后,每個(gè)元素至少包含如下幾個(gè)方面:原始網(wǎng)頁文檔URL 和標(biāo)題編號所含的重要關(guān)鍵詞的集合(以及他們在文檔中出現(xiàn)的位置信息)其他一些指標(biāo)(例如重要程度,分類代碼等)而系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號一起構(gòu)成了一個(gè)倒排文件結(jié)構(gòu),使得一旦得到一個(gè)關(guān)鍵詞輸入,系統(tǒng)能迅速給出相關(guān)文檔編號的集合輸出。盡管如此,用一個(gè)次或短語來間接表達(dá)信息需求,希望網(wǎng)頁中含有該詞或該短語中的詞,依然是主流的搜索引擎查詢模式。倒排文件就是用詞來作為索引的一個(gè)數(shù)據(jù)結(jié)構(gòu),顯然,q 中的詞必須是包含在倒排文件詞表中才有意義。為了形成一個(gè)合適的順序,在搜索引擎出現(xiàn)的早期人們采用了傳統(tǒng)信息檢索領(lǐng)域很成熟 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))14的基于詞匯出現(xiàn)頻度的方法。其中的摘要需要從網(wǎng)頁正文中生成。但這種方式的一個(gè)最大的缺點(diǎn)是摘要和查詢無關(guān)。首先,從 Web 搜索引擎原理和結(jié)構(gòu)介紹,闡述了搜索引擎三段式的工作原理,以及給出了目前主流搜索引擎實(shí)現(xiàn)的整體結(jié)構(gòu)描述。 查詢語句同我們普通的語言一樣,也是有一定語法的。 1. 詞法分析主要用來識別單詞和關(guān)鍵字。 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))17 Lucene 增刪改索引的 APILucene 可對 ,網(wǎng)頁,文本資料,doc,pdf 之類的文檔進(jìn)行索引建立,在建立索引的時(shí)候可為以后的排序做些處理。private IndexWriterConfig iwc = null。for(int i=0。}(Index Create OK~!)。try {reader = (directory)。表 33,表 34 給出了刪除、恢復(fù)、強(qiáng)制刪除索引的一個(gè)例子。} catch (Exception e) {()。} catch (IOException e) { 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))20()。} finally {if(writer != null){try {()。} catch (Exception e) {()。Apache Nutch 對于 Solr 已經(jīng)支持得很好,這大大簡化了 Nutch 與 Solr 的整合。在寫 Nutch 的過程中,從學(xué)院派和工業(yè)派借鑒了很多知識:比如,Nutch 的核心部分目 江漢大學(xué)本科畢業(yè)論文(設(shè)計(jì))22前已經(jīng)被重新用 Map Reduce 實(shí)現(xiàn)了。Lucene 為 Nutch 提供了文本索引和搜索的 API。3. segment 信息查看命令 readseg,輸入 bin/nutch readseg,顯示 readseg 命令參數(shù)選項(xiàng)。定制 Solr 索引的實(shí)現(xiàn)方法很簡單,用 POST 方法向 Solr 服務(wù)器發(fā)送一個(gè)描述所有 Field 及其內(nèi)容的 XML 文檔就可以了。optimize 重構(gòu) Lucene 的文件以改進(jìn)搜索性能。(索引接口:文:注:多核心時(shí)為這個(gè)地址 add doc field name=idTWINX2
點(diǎn)擊復(fù)制文檔內(nèi)容
外語相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1