freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的站內(nèi)搜索引擎的設(shè)計實現(xiàn)論文-資料下載頁

2024-11-10 15:58本頁面

【導(dǎo)讀】起完整的全文檢索引擎。響,程序員們不僅使用它構(gòu)建具體的全文檢索應(yīng)用,而且將之集成到各種系統(tǒng)軟件中去,apache軟件基金會的網(wǎng)站使用了LUCENE作為全文檢索的引擎,IBM的開源。IBM的商業(yè)軟件WebSphere中也采用了LUCENE。LUCENE以其開放源代碼的特性、優(yōu)異的索引結(jié)構(gòu)、良好的系統(tǒng)架構(gòu)獲得了越來越多的應(yīng)用。強大,為用戶提供了更為便利的搜索功能。并且通過LUCENE來設(shè)計和實現(xiàn)一個全文檢索站內(nèi)搜索引擎系統(tǒng),最后通過。增量索引和優(yōu)化索引兩個方面來說明如何提高LUCENE的高效性。

  

【正文】 而是對所有文章的內(nèi)容進行字符串匹配,這個過程將會相當(dāng)緩慢,當(dāng)文章數(shù)目很大時,時間往往是無法忍受的。 LUCENE 搜索結(jié)果 排序 LUCENE 默認按照相關(guān)度 (score)排序 ,為了能支持其他的排序方式 ,比如日期 ,我們在add Field 的時候 ,必須保證 field 被 Index 且不能被 tokenized(分詞 ),并且排序的只能是數(shù)字 ,日期 ,字符三種類型之一 LUCENE 的相關(guān)度積分公式 score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_d_t * boost_t) * coord_q_d 注解: score_d : 該文檔 d 的得分 sum_t : 所有項得分的總和 tf_q : 查詢串 q 中,某個項出項的次數(shù)的平方根 tf_d : 文檔 d 中 ,出現(xiàn)某個項的次數(shù)的平方根 numDocs : 在這個索引里,找到分數(shù)大于 0 的文檔的總數(shù) docFreq_t : 包含項 t 的文檔總數(shù) idf_t : log(numDocs/docFreq+1)+ norm_q : sqrt(sum_t((tf_q*idf_t)^2)) norm_d_t : 在文檔 d 中,與項 t 相同的域中,所有的項總數(shù)的平方根 boost_t : 項 t 的提升因子,一般為 coord_q_d : 在文檔 d 中,命中的項數(shù)量除以查詢 q 的項總數(shù) 畢業(yè)論文 第 21 頁 設(shè)計 與實現(xiàn) 系統(tǒng)需求 2020 世界特殊奧林匹克運動會官方網(wǎng)站包括了新聞、競賽、非體育項目、咨詢服務(wù)、特奧之窗、參與支持特奧六大模塊。 在點擊進去每一個模塊都會有一個站內(nèi)搜索功能。 圖 官方網(wǎng)站系統(tǒng)搜索結(jié)構(gòu)圖 畢業(yè)論文 第 22 頁 此次開發(fā)的 2020 世界官方 網(wǎng)的所需要的站內(nèi)搜索引擎是對站內(nèi)的指定的所有內(nèi)容進行搜索,網(wǎng)站中的內(nèi)容包括靜態(tài)內(nèi)容和動態(tài)內(nèi)容,靜態(tài)內(nèi)容是指一些靜態(tài)的 aspx 頁面 動態(tài)內(nèi)容是 在 SQLSERVER 數(shù)據(jù)庫里面 存儲的 ,所以搜索引擎就是對靜態(tài)頁面和數(shù)據(jù)庫建立索引, 搜索器分別對生產(chǎn)靜態(tài)和動態(tài)的索引進行聯(lián)合搜索 ,從而達到對整個網(wǎng)站 指定的 內(nèi)容的站內(nèi)搜索 。 圖 系統(tǒng)搜索結(jié)構(gòu)圖 開發(fā)環(huán)境與工具 網(wǎng)站采用 微軟 的 Microsoft +SQLSERVER2020 數(shù)據(jù)庫 平臺 進行開發(fā),考慮到系統(tǒng)的兼容性,我使用了 LUCENE 的 .NET 版本 ()對 站內(nèi)搜索引擎 進行了開發(fā) 。 數(shù)據(jù)庫的服務(wù)器的操作系統(tǒng)為 WindowsServer2020,數(shù)量為兩臺,兩臺 服務(wù)器通過集群從而達到 負載均衡 。 畢業(yè)論文 第 23 頁 圖 集群服務(wù)器示意圖 當(dāng)客戶端發(fā)起 HTTP 請求的 時候,該請求經(jīng)過 Inter 解析域名,該域名通過地址映射到實際的兩臺服務(wù)器上,兩個服務(wù)器共同來響應(yīng)客戶端的請求,當(dāng)其中的一臺服務(wù)器出現(xiàn)問題的時候另一臺服務(wù)器可以 繼續(xù)服務(wù),從而達到了網(wǎng)站的穩(wěn)定性。 畢業(yè)論文 第 24 頁 系統(tǒng)組織結(jié)構(gòu) 圖 搜索 主程序 圖 系統(tǒng)結(jié)構(gòu) 畢業(yè)論文 第 25 頁 流程實現(xiàn) 根據(jù) 網(wǎng)站中不同模塊 建立生成 動態(tài) 索引 圖 根據(jù)網(wǎng)站中不同模塊建立生成動態(tài)索引 此 界面 主要功能是為了生成動態(tài)索引,下拉框 的每個選項分別對應(yīng)于數(shù)據(jù)庫中的不同的表,以便可以對 SQLSERVER2020 數(shù)據(jù)庫中動態(tài)的數(shù)據(jù)建立索引文件,從而為搜索奠定基礎(chǔ)。 畢業(yè)論文 第 26 頁 搜索界面 圖 搜索 界面 畢業(yè)論文 第 27 頁 搜索 結(jié)果 界面 圖 搜索 結(jié)果 畢業(yè)論文 第 28 頁 LUCENE 增量索引 LUCENE 搜索與數(shù)據(jù)庫搜索最大的不同之處就是為要搜索的內(nèi)容建立了全文索引的機制 其他的一些搜索引擎 只支持批量的索引,有時數(shù)據(jù)源有一點增加也需要重建索引 ,大部分的搜索(數(shù)據(jù)庫)引擎都是用 B 樹結(jié)構(gòu)來維護索引,索引的 重建 會導(dǎo)致大量的 IO操作 ,導(dǎo)致了搜索效率的下降, 而 LUCENE 可以通過對索引的文件進行增量索引 , LUCENE 不是維護一個索引文件,而是在擴展索引的時候不斷創(chuàng)建新的索引文件,然后定期的把這些新的小索引文件合并到原先的大索引中(針對不同 的更新策略,批次的大小可以調(diào)整),這樣在不影響檢索的效率的前提下,提高了索引的效率 ,我在開發(fā)自己的搜索引擎時也用到了增量索引,使我的搜索更加準確而高效。 優(yōu)化索引 LUCENE 中提供了索引優(yōu)化的方法, ()方法可以為查詢優(yōu)化索引( index) ,優(yōu)化主要是減少 index 文件數(shù),這樣讓查詢的時候少打開文件,優(yōu)化過程中,LUCENE 會拷貝舊的 index 再合并,合并完成以后刪除舊的 index,所以在此期間,磁盤占用增加, IO 符合也會增加,在優(yōu)化完成瞬間,磁盤占用會是優(yōu)化 前的 2 倍 ,在optimize 過程中可以同時作 search。 畢業(yè)論文 第 29 頁 表 優(yōu)化索引前后對比 關(guān)鍵字 優(yōu)化索引前搜索所用時間 優(yōu)化索引后搜索所用時間 優(yōu)化前索引大小 優(yōu)化后索引大小 搜索命中關(guān)鍵字記錄 /搜索總記錄 提高搜索效率 特奧會 秒 秒 277k 139k 34/115 % 上海 秒 秒 277k 139k 54/115 % 的 秒 秒 277k 139k 64/115 40% World 秒 秒 277k 139k 63/617 % Olympics 秒 秒 277k 139k 77/617 % people 秒 秒 277k 139k 43/617 % 以上這些數(shù)據(jù) 是我從我們項目中的數(shù)據(jù)庫里面的數(shù)據(jù),從上面的表格中可以看出優(yōu)化索引前后搜索時間的變化,另外當(dāng)搜索數(shù)據(jù)量越大,優(yōu)化索引的優(yōu)勢體現(xiàn)的越明顯。另外索引文件的大小也變 小為原來的一半左右。 LUCENE 文件格式的通用性 在創(chuàng)建索引的時候根據(jù)文件的存儲位置的不同和文件的格式不同都可以建立索引并進行搜索證明了 LUCENE 具有良好的通用性,在靜態(tài)索引中通過 private void AddHtmlToDocument(string path) { Document doc = new Document()。 string html。 using(StreamReader sr = new StreamReader(path,)) { html = ()。 } int relativePathStartsAt = (\\)? : + 1。 string relativePath = (relativePathStartsAt)。 畢業(yè)論文 第 30 頁 ((text, ParseHtml(html)))。 ((url, + relativePath))。 ((title, GetTitle(html)))。 (doc)。 } 來對 Document 進行增加 Fields 域,而在動態(tài)建立索引的時候通過 public void AddHtmlToDocument(string sql, string sqlconn, string urlColumnName, string titleColumnName, string textColumenName) { SqlConnection conn = new SqlConnection(sqlconn)。 ()。 DataSet ds = new DataSet()。 SqlDataAdapter sda = new SqlDataAdapter(sql, conn)。 (ds,T)。 DataTable dt=new DataTable()。 dt = [T]。 StringBuilder html。 int icount = 。 for (int k = 0。 k icount。 k++) { html = new StringBuilder()。 Document doc = new Document()。 (ParseHtml([k][textColumenName].ToString())。 ((text, ()))。 ((url, [k][urlColumnName].ToString()))。 ((title, [k][titleColumnName].ToString()))。 (doc)。 } ()。 畢業(yè)論文 第 31 頁 sda = null。 ()。 conn = null。 } } 所以可以看出只要把要搜索的文件能夠轉(zhuǎn)化為 LUCENE 能夠識別出的格式,就可以對任何文件進行建立索引,從而進行搜索索引。 對于 私密 文件的處理 同時對于網(wǎng)站內(nèi)不可以進行搜索的私密內(nèi)容我采取了以下措施: 對于靜態(tài)文件,盡量將不能搜索的內(nèi)容和能夠搜索的內(nèi)容放到不能的文件夾中或者指定某些文件格式的文件建立索引,這樣對能夠搜索的文件夾建立索引就可以了。 對于動態(tài)文件,通過生成動態(tài)索引的后臺進行控制 ,根據(jù)不同的表或者同一個表中的不同記錄進行生成索引,從而可以控制索引文件的生成。 對于不同于以上兩種的網(wǎng)頁文件,我采用的是將網(wǎng)頁的內(nèi)容做成圖片文件,這樣就可以保護信息不被抓取到。 畢業(yè)論文 第 32 頁 總 結(jié) 通過這次對基于 LUCENE 站內(nèi)搜索引擎系統(tǒng)的設(shè)計, 解了什么是全文檢索, 對搜索引擎的原理有了一個基本的了解, 對 LUCENE 的系統(tǒng)原理和組織結(jié)構(gòu)進行了全面的了解和分析 ,并且用 LUCENE 開發(fā)了一個站內(nèi)搜索引擎。 介紹了以下內(nèi)容。 全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一 個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。 搜索引擎是由網(wǎng)絡(luò)蜘蛛爬行器 、 索引器和檢索器 三部分組成 。 對 LUCENE 本身 原理和組織結(jié)構(gòu) 進行了全面而詳細的闡述。 LUCENE 雖然不是一個真正意義上的搜索引擎,但是 LUCENE 是最能體現(xiàn)搜索引擎核心的部分, LUCENE 之所以能夠進行高效的搜索是因為 LUCENE 建立了全文索引,LUCENE 的索引的排序采用的是倒排序原 理 。還有我通過對 LUCENE 建立靜態(tài)和動態(tài)的 索引 , 對 LUCENE 可以搜索的文件格式也有了新的認識,對任何可以轉(zhuǎn)化為 LUCENE格式的任何文件能進行搜索, 同時也知道了 對索引建立 增量索引不論是從建立索引的時間減少和搜索效率的提高有很大的提高 。 LUCENE 本身還提供了對索引文件的 優(yōu)化,可以對索引文件自身進行優(yōu)化 。 同時本系統(tǒng)也存在一些缺點: 雖然對中文分詞進行了仔細的研究,但因為個人能力和時間有限,沒有對中文分詞進行開發(fā),而采用的是 LUCENE 標準的分析器,標準的分析器對于一般的中小型應(yīng)用完全可以勝任,但 對 大型應(yīng)
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1