freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的站內(nèi)搜索引擎的設(shè)計實現(xiàn)論文-文庫吧資料

2024-11-18 15:58本頁面
  

【正文】 ,最終達成了一個低耦合高效率,容易二次開發(fā)的檢索引擎系統(tǒng)。由于字典切詞和雙字切詞的配合使用,搜索 的匹配精度在很大程度上是可以得到保證的, LUCENE 的切詞方 法,通過程序集 來實現(xiàn)。 舉例來說,對于“中華人民”這句話,單字切詞就是把這四個字一個作為一個 詞索引,搜索的時候逐字匹配,而雙字索引是把這句話依次按兩個字加以區(qū)分,分為“中華”,“華人”,“人民”這樣切詞。 中文分詞的簡單介紹 切詞 [5]對于搜索結(jié)果來說是十分重要的環(huán)節(jié),對于英文 ,只用關(guān)注空格即可實現(xiàn)切詞,而對于中文,由于中文詞匯非常豐富,詞語的組成十分不固定,所以中文切詞就變得比較困難。 這樣就可以知道 :只要 LUCENE+”蜘蛛爬蟲 ”+”網(wǎng)頁相關(guān)度排名 ”,就可以成為一個真正意義上的搜索引擎,事實上 LUCENE 的創(chuàng)始人 Doug Cutting 已經(jīng)開發(fā)了一個叫做 ”Nutch”的搜索引擎系統(tǒng)了,這個系統(tǒng)加上了“蜘蛛程序”可以對整個 Inter 的網(wǎng)頁進行搜索, Nutch 具體的 邏輯 關(guān)系圖如下: 畢業(yè)論文 第 11 頁 圖 Nutch 邏輯關(guān)系圖 真正的搜索引擎在搜索的時候就是和 LUCENE 采用一樣的原理 :在 Index 中遍歷所有的Segments 目錄。通過這種 Spider 程序,可以從一個網(wǎng)頁出發(fā),通過提取其中的 URL,在遵從 Robot Exclusion 協(xié)議的前提下,不斷地提取得到的 URL,并且下載本 URL 的資源;而索引器的主要工作則是利用下載的網(wǎng)絡(luò)資源,提取索引項,用于生成文檔庫的索引表;檢索器主要是通過理解用戶的查詢需求,在文檔庫中檢索出文檔并且進行快 速匹配,然后進行相關(guān)性排序,通過鏈接網(wǎng)頁提供給用戶檢索結(jié)果。搜索引擎結(jié)構(gòu)大致分為 : 搜索器、索引器和檢索器等幾部分組成 。 互聯(lián)網(wǎng) 搜索引擎 的研究 當今的搜索引擎大多采用集中式的搜索方式。最后,轉(zhuǎn)移到 apache 軟件基金會后,借助于 apache 軟件基金會的網(wǎng)絡(luò)平臺,程序員可以方便的和開發(fā)者、其它程序員交流,促成資源的共享,甚至直接獲得已經(jīng)編寫完備的擴充功能。在這一點上,商業(yè)軟件的靈活性遠遠不及 LUCENE。即用 Java LUCENE 生成的索引,能被 C 讀出來,反之亦然 面對已經(jīng)存在的商業(yè)全文檢索引擎, LUCENE 也具有相當?shù)膬?yōu)勢。 已經(jīng)默認實現(xiàn)了一套強大的查 詢引擎,用戶無需自己編寫代碼即使系統(tǒng)可獲得強大的查詢能力, LUCENE 的查詢實現(xiàn)中默認實現(xiàn)了布爾操作、模糊查詢( Fuzzy Search)、分組查詢等等。 優(yōu)秀的面向?qū)ο蟮南到y(tǒng)架構(gòu),使得對于 LUCENE 擴展的學習難度降低,方便擴充新功能。 在傳統(tǒng)全文檢索引擎的倒排索引的基礎(chǔ)上,實現(xiàn)了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。 LUCENE 作為一個全文檢索引擎,其具有如下突出的優(yōu)點: 索引文件格式獨立于應用平臺。 apache 軟件基金會的網(wǎng)站使用了 LUCENE 作為全文檢索的引擎, IBM 的開源軟件 eclipse 的 版本中也采用了 LUCENE 作為幫助子系統(tǒng)的全文索引引擎,相應的IBM 的商業(yè)軟件 Web Sphere 中也采用了 LUCENE。但通過后面對于LUCENE 的結(jié)構(gòu)的介紹,你會了解到由于 LUCENE 良好架構(gòu)設(shè)計,對中文的支持只需對其語言詞法分析接口進行擴展就能實現(xiàn)對中文檢索的支持。 Cocoon:基于 XML 的 web 發(fā)布框架,全文檢 索部分使用了 LUCENE 。他貢獻出的 LUCENE 的目標是為各種中小型應用程序加入全文檢索功能。 LUCENE 簡介 LUCENE 不是一個完整的全文索引應用,而是是一個用 Java 寫的全文索引引擎工具包,它可以方便的嵌入到各種應用中實現(xiàn)針對應用的全文索引 /檢索功能。 數(shù)據(jù)源 LUCENE沒有定義具體的數(shù)據(jù)源,而是一個文檔的結(jié)構(gòu),因此可以非常靈活的適應各種應用(只要前端有合適的轉(zhuǎn)換器把數(shù)據(jù)源轉(zhuǎn)換成相應結(jié)構(gòu)), 很多系統(tǒng)只針對網(wǎng)頁,缺乏其他格式文檔的靈活性。 沒有匹配程度的控制:比如有記錄中 出現(xiàn) 5次 和出現(xiàn) 1次的,結(jié)果是一樣的 結(jié)果輸出 通過特別的算法,將最匹配度最高的頭 100 條結(jié)果輸出,結(jié)果集是緩沖式的小批量讀取的。 LUCENE 最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制,并提供了擴展接口,以方便針對不同應用的定制。從而大大提高了多關(guān)鍵詞查詢的效率,所以,全文檢索問 題歸結(jié)到最后是一個排序問題。如果是需要對多個關(guān)鍵詞進行模糊匹配: like%keyword1% and like %keyword2% ...其效率也就可想而知了。對于檢索系統(tǒng)來說核心是一個排序問題。比較一下 LUCENE 和數(shù)據(jù)庫: 畢業(yè)論文 第 5 頁 表 LUCENE和數(shù)據(jù)庫 結(jié)構(gòu)的 比較 LUCENE 數(shù)據(jù)庫 索引數(shù)據(jù)源: doc(field1,field2...) doc(field1,field2...) \ indexer / | LUCENE Index| / searcher \ 結(jié)果輸出: Hits(doc(field1,field2)doc(field1...)) 索引數(shù)據(jù)源: record(field1,field2...) record(field1...,field2) \ SQL: insert/ | DB Index | / SQL: select \ 結(jié)果輸出:results(record(field1,field2..)record(field1...)) Document:一個需要進行索引的 “ 單元 ” 一個 Document由多個字段組成 Record:記錄,包含多個字段 Field:字段 Field:字段 Hits:查詢結(jié)果集,由匹配的 Document組成 RecordSet:查詢結(jié)果集,由多個 Record組成 全文檢索 ≠ like %keyword% 通常比較厚的書籍后面常常附關(guān)鍵詞索引表( 如:北京: 12, 34 頁,上海: 3,77頁 …… ),它能夠幫助讀者比較快地找到相 關(guān)內(nèi)容的頁碼。 全文檢索系統(tǒng)與數(shù)據(jù)庫比較 全文檢索的實現(xiàn)機制 : LUCENE 的 API接口設(shè)計的比較通 用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表 ==記錄 ==字段,所以很多傳統(tǒng)的應用的文件、數(shù)據(jù)庫等都可以比較方便的映射到 LUCENE 的存儲結(jié)構(gòu) /接口中。另一個方面,一個優(yōu)異的全文檢索引擎,在做到效率優(yōu)化的同時,還需要具有開放的體系結(jié)構(gòu),以方便程序員對整個系統(tǒng)進行優(yōu)化改造,或者是添加原有系統(tǒng)沒有的功能。一個全文檢索應用的優(yōu)異程度,根本上由全文檢索引擎來決定 。圖 展示了上述全文檢索系統(tǒng)的結(jié)構(gòu)與功能。功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等等功能,外圍則由各種不同應用具有的功能組成。 全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。英文等西方文字由于按照空白切分詞,因此實現(xiàn)上與按字處理類似,添加同義處理也很容易。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞 有很大分別。 全文檢索的方法主要分為按字檢索和按詞檢索兩種。 畢業(yè)論文 第 3 頁 LUCENE 全文檢索與全文檢索 簡介 全文檢索 [2]是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。 總結(jié)部分介紹整個開發(fā)過程中的體會與認識,并指出目前系統(tǒng)中的不足和改進方向。 第 2 章 介紹 全文檢索系統(tǒng)與 LUCENE 第 3 章 介紹 LUCENE 系統(tǒng)結(jié)構(gòu) 第 4 章 介紹 本系統(tǒng)的設(shè)計與實現(xiàn)。 出于網(wǎng)站的某些信息的保密性,要限制某些信息被搜索到,要考慮如何保護文件的私密性。 LUCENE 默認是不支持中文搜索的 , 所以要通過擴展其 API 使其支持中文搜索以及 實現(xiàn) 基本的中文分詞 。 本系統(tǒng)的需求 來源于 2020 世界特殊奧林匹克運動會官方網(wǎng)站 , 這是本 人在公司實習的時候做的一個項目 , 其中站內(nèi)搜索功能是官方網(wǎng)站中一個必不可少的功能之一, 這個網(wǎng)站系統(tǒng) 非常 需要 這樣 一個站內(nèi)搜索的功能, 能夠搜索 指定的官方 站內(nèi) 的動 、靜 態(tài)中(英 )文內(nèi)容, 站內(nèi)搜索成為官方網(wǎng)站中最主要的功能之一, 所以 為官方網(wǎng)站建立一個 站內(nèi)搜索 功能 成為了一個現(xiàn)實存在的需求,于是設(shè)計和開發(fā)出一個 通用的 站內(nèi)搜索引擎是一個非常具有現(xiàn)實意義的研究。s software revenue eclipse. As the IBM’s corresponding mercial software Web Sphere also uses LUCENE. LUCENE gets more and more applications with open source characteristics, excellent index structure, good system architecture. The actual requirements of this system origins from my development on “2020 Special Olympics World official website” when I practiced in the enterprise. The official website also uses the function of station search engine, I use the LUCENE to realize the search engine in .NET platform. Now for stable operation, station search make the function of the whole site bee more powerful, and to provide users with a more convenient search function. I have carefully studied and analysis search engines principle, position, data structure, and work flow, and have designed and realized a fulltext retrieval stations search engine by means of LUCENE. Finally, both to I illustrate how to improve the efficiency of LUCENE through two aspects, the increment index and the optimization index. Key Words: Full Text Retrieval, Search Engine, jakarta 畢業(yè)論文 第 III 頁 目 錄 ......................................................................................................................................... 1 課題背景 ....................................................................................................................... 1 課題目前研究情況及存在問題 ................................................................................... 2 論文組織結(jié)構(gòu) ............................................................................................................... 2 LUCENE ............................................................................................................ 3 全文檢索與全文檢索簡介 .......................................................................................
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1