freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的搜索引擎的研究與實現(xiàn)(文件)

2024-12-25 21:56 上一頁面

下一頁面
 

【正文】 1 第一章 緒論 研究背景 在 Inter 蓬勃發(fā)展的當下, Inter 上 的信息更加 是廣 如大海。 在理論研究的基礎(chǔ)上,本文最后利用 JAVA技術(shù)實現(xiàn)了一個新聞搜索引擎系統(tǒng)。搜索引擎的未來發(fā)展方向是個 性化 智能化的。I 貴 州 民 族 大 學 本 科 畢 業(yè) 生 論 文 基于 LUCENE的搜索引擎的研究與實現(xiàn) 張三 摘要 : 在 Inter蓬勃發(fā)展的當下, Inter 上面的信息 是廣 如大海。對于不同類型的用戶群搜索相同的內(nèi)容將得到不同的更適合用戶的搜索結(jié)果,這就是搜索引擎的個性化:而智能化則指搜索引擎具有自我學習的功能,能自動地適應用戶的查詢需求,并能對用戶進行智能分類從而為搜索引擎的個性化提供依據(jù)。該搜索引擎系統(tǒng) 的網(wǎng)絡(luò)蜘蛛部分采用了非遞歸爬行方式和 JAVA的多線程機制,實現(xiàn)對網(wǎng)頁的抓取。人們在享受Inter 所帶來的便利的同時,也面臨著一個如何在此浩瀚的內(nèi)容中精確、 快速 地找到自己所需要的信息。從最初的搜索引擎的出現(xiàn)到現(xiàn)在已有二十余年時間,搜索引擎在收集頁面的數(shù)量、速度、準確率 等 方面已得到了長足的進步,但搜索引擎的框架結(jié)構(gòu)和基本技術(shù)并沒 有實質(zhì)性的突破,未來的搜索引擎必將向著個性化和智能化的方向發(fā)展 。基于 JAVA 的 新聞搜索引擎作為一個新的研究領(lǐng)域,目前已經(jīng)有一些較好的 WAP應用出現(xiàn): 1)百度新聞搜索 ]1[ :百度新聞搜索提供兩種方式 查看新聞:關(guān)鍵字搜索、焦點新聞分類瀏覽。關(guān)鍵字搜索提供了按標題搜索和按全文搜索兩種方式 ; 最熱新聞按照頻道分類,每類 3 條。最熱新聞顯示在首頁,共 10 條,未按頻道分類。據(jù)權(quán)威機構(gòu)預測,未來 4年全球搜索市場每年將以高達 35%的增長速度快速成長,到 2020 年全球搜索市場的整體規(guī)模將達到 110億美元。根據(jù)著名手機企業(yè)諾基亞的預測,到今年年底時全球的手機用戶將超過 20 億,到 2020 年,全球手機用戶將突破 30 億。當用戶輸入關(guān)鍵字( Keyword)查詢時, 該網(wǎng)站會告訴用戶包含該關(guān)鍵字信息的所有網(wǎng)址,并提供通向該網(wǎng)站的鏈接。在實現(xiàn)技術(shù)上也基本沿用較為成熟的 IR(Information Retrieval)、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當于利用一些已有技術(shù)實現(xiàn)的一個 WWW 上的應用。第三代搜索引擎的發(fā)展有如下凡個特點: 第四代搜索引擎出現(xiàn)于 21 世紀,這一階段的搜索引擎是分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。 目前,互聯(lián)網(wǎng)上信息量和 信息的種類 在不斷增加。 百度公司 于 2020 年推出了“百度”商業(yè)搜索引擎,并一直處于國內(nèi)的領(lǐng)先地位。另一個發(fā)展方向是將自動網(wǎng)頁抓取和一定的人工分類目錄相結(jié)合,希望形成一個既有高信息覆蓋率,又有高查詢準確性的服務。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。 第二步 : 建立索引數(shù)據(jù)庫。因為之前就已經(jīng)將所有相關(guān)網(wǎng)頁針對 該關(guān)鍵詞的相關(guān)度算好,故只需按照己有的相關(guān)度數(shù)值由高到低進行 排序 ,相關(guān)度高的網(wǎng)頁排在前面,相關(guān)度低的網(wǎng)頁排在后面。基于因特網(wǎng)的搜索引擎是 Spider 的最早應用。 如何解析 HTML 因為 Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機器人在檢索網(wǎng)頁時的第一個問題就是如何解析 HTML。 簡單標簽:由單個表示的 HTML 標簽 。 圖像映射標簽:圖像映射是另一種非常重要的標簽。 表格標簽:表格 是 HTML 的構(gòu)成 部分,通常用來格式化存放、 顯示數(shù)據(jù)。 Spider 程序結(jié)構(gòu) 網(wǎng)絡(luò)機器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁,所以必須找到該頁面上的超連接。 非遞歸結(jié)構(gòu) 這種方法使用隊列的數(shù)據(jù)結(jié)構(gòu),當 Spider 程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。新發(fā)現(xiàn)的 URL 也被加入 到這個隊列中 處理隊列 :當 Spider 程序開始處理時,他們被送到這個隊列中 錯誤隊列 : 如果在解析網(wǎng)頁時出錯, URL 將被送到這里。只要等待隊列中有一個網(wǎng)頁或 Spider 程序正在處理一個網(wǎng)頁,程序就會繼續(xù)他的工作。 構(gòu)造流程圖如 圖 所示 發(fā)現(xiàn) URL 等待隊列 運行隊列 完成隊列 錯誤隊列 完成 URL 9 把 URL加入等待隊列 圖 Spider構(gòu)造流程圖 IspiderReportable 接口 這是一個必須實現(xiàn)的接口,可以通過回調(diào)函數(shù)接受 Spider 所遇到的頁面。 import 。 public void processPage(HTTP page)。 } 程序代碼實現(xiàn) : package news。 import 。 11 Searcher _searcher = new Searcher()。 } // 發(fā)現(xiàn)內(nèi)部鏈接是調(diào)用, url表示程序發(fā)現(xiàn)的 URL,若返回 true則加入作業(yè)中,否則不加入 public boolean foundInternalLink(String url) { return false。 } // 用于處理 網(wǎng)頁,這是 Spider程序要完成的實際工作 public void processPage(HTTP ) { (掃描網(wǎng)頁: + ())。如果隊列中的字符串應當 刪除,方法返回真。復雜而 多功能的搜索界面通常 是 被用戶 否定 的 ,并且很少被 用戶 使用。 LUCENE 簡介 LUCENE 并 不是一個可以直接從 Inter 上下載,安裝和運行的完整程序 。用戶或者軟件開發(fā)人員一方面可以利用 LUCENE 方便地在自己的網(wǎng)站或系統(tǒng)中添加并實現(xiàn)全文檢索的功能,另一方面也可以在LUENE 的框架基礎(chǔ)上建立一個自己的完整的全文搜索引擎系統(tǒng)。 LUCENE 的特點和優(yōu)勢 LUCENE 作為一個開源的項目,自從它出現(xiàn)之后,開源代碼社區(qū)就發(fā)生了巨大的變化,程序開發(fā)人員一方面可以用它來建立一個特定的全文搜索系統(tǒng)程序,另一方面也可以用它來構(gòu)建一個 Web應用系統(tǒng)程序。 設(shè)計了自己的文本分析接口,與文件的格式和語言獨立,索引器建立索引文件是通過接受 Token 流來完成的,用戶只要實現(xiàn)文本分析的接口就可以擴充新的文件的格式和語言。并將結(jié)果以: hits(field1,field2,?? )形式輸出 索引數(shù)據(jù)源:由數(shù)據(jù)庫索引 (或不需要索引 )檢索記錄并輸出記錄 檢 索 對象 Document: LUCENE檢索時需要索引的文檔,一個文檔由多個 field組成 Record:一個記錄由多個字段組成 最 小 單元 Field : 域 Field :字段 檢 索 結(jié) Hits:由符合關(guān)鍵字條件的 document 按相似 查詢結(jié)果 :由包含關(guān)鍵字的記錄組成,不 15 果 度排序而成 能按相似度排序 效率 將數(shù)據(jù)源中的數(shù) 據(jù) —— 建立反向索引,速度較快 對于“ like”查詢來說,數(shù)據(jù)庫傳統(tǒng)的索引時根本用不上的,而需要逐個遍歷所有記錄,所有查詢速度有多個數(shù)量級的下降 匹 配 過程 通過詞元( term)匹配,通過語言分析接口進行關(guān)鍵字拆分,能夠?qū)崿F(xiàn)對中文的完美支持 由于是模糊查詢,匹配不精確,可能查出大量無關(guān)的信息,另外,對于組合查詢,也不能靈活地變換詞序關(guān)系,因此針對兩個或多個查詢詞也無法正確匹配 相似度 有相似度算法,排序的時候相似度最高的在前面 沒有相似度算法,相似度再高也不一定排在前面。 Document 我們可以抽象的理解為數(shù)據(jù)庫,而 Field 就是該數(shù)據(jù)庫中的字段。 ●是否分詞:該數(shù)據(jù)源的數(shù)據(jù)是否要經(jīng)過分詞。 public IndexWriter (Directory d, Analyzer a, Boolean create)。我們在第一次創(chuàng)建索引時要把該值設(shè)為 true。 使用 IndexSearcher 進行搜索 IndexSearcher 類 是查詢器搜索入口 ,繼承自 Search 類 。 但 都是通過構(gòu)造 檢索器 IndexSearcher searcher = new IndexSearcher(Index_Path, new StandardAnalyzer(), true)來實現(xiàn)搜索的。 分詞器的 結(jié)構(gòu) 如 圖 圖 圖解分詞器 由于不是本文研究的重點,故 在這里 不做更多的介紹 ,有興趣朋友 可以看看。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。而本論文才建立的文本 檢索關(guān)鍵字 分詞器 檢索關(guān)鍵字 檢索關(guān)鍵字 索引 返回結(jié)果 19 用的主要是 StandardAnalyzer 的子類 ChineseAnalyzer 來 實現(xiàn)分詞 ,該類的包全路徑為import 。 核心代碼如下 : package news。 import 。 } /** * 把每條新聞加入索引中 * 新聞的 url 20 * 新聞的標題 */ void AddNews(String url, String title) throws Exception { Document _doc = new Document()。 } /** * 優(yōu)化并且清理資源 */ void close() throws Exception { ()。 /** *新聞搜索引擎 * import 。 21 import 。 ((), null)。 int n = 0。 (_herf, _title)。 } catch (Exception ex) { (ex)。 } } 23 搜索引擎的實現(xiàn) 本文的服務端采 用 的是 JAVA Servlet 技術(shù)來實現(xiàn)的。 下面是 本文 設(shè)計的新聞搜索引擎的查詢界面和搜索結(jié)果界面 。在論文研究期間,我學會了如何思考、如何分析、如何解決這些問題 , 學會了一些新知識和新理論的學習方法,這將會對我以 后的學習和工作有很大的幫助, 這也為本人在以后的軟件開發(fā)中積累了非常寶貴的經(jīng)驗。對搜索引擎進行更加深入 地 探討和研究,也是本人今后繼續(xù)努力的方向。 她的 知識、嚴謹?shù)闹螌W態(tài)度、平易近人的性格以及 耐心的教誨使我受益匪淺,也是我終身的學習榜樣。在此, 我謹向我的導師致以最誠摯的謝意 ! 其次,我要感謝那些在我漫長的求學道路上培養(yǎng)過我的各位老師,以及一起奮斗過的同學。 // 創(chuàng)建標準分析器 Analyzer analyzer = new ChineseAnalyzer()。 (headtitle搜索結(jié)果 /title/head)。 method=39。 color=39。 name=39。 + input type=39。 value=39。 Hits hits = (query)。 start ()。 i++) { Document doc = (i)。 + replace((title), qc) + /abr)。 } 。 } 28
點擊復制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1