freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的搜索引擎的研究與實(shí)現(xiàn)(完整版)

  

【正文】 _writer = new IndexWriter(c:\\news\\index, new ChineseAnalyzer(), true)。另一方面,通過(guò)對(duì) LUCENE 的學(xué)習(xí),使用 IndexWriter 類和 IndexSearcher 類建立索引和搜索,那我們?cè)鯓硬拍馨阉鼈兘Y(jié)合在一起呢?下 面是本論文給出的核心代碼。計(jì)算機(jī)可以 很簡(jiǎn)單通過(guò)空格知道 teacher 是一個(gè)單詞,但是不能很容易 的 明白“老“ 、“師”兩個(gè)字合起來(lái)才表示一個(gè)詞。 LUCENE包括很多種不同的搜索方式 。 第一個(gè)參數(shù)表示 :需要建立索引文件的位置 第二個(gè)參數(shù)表示 :進(jìn)行索引時(shí)使用的分詞器 第三個(gè)參數(shù)表示 :是否覆蓋也創(chuàng)建的索引庫(kù) true 表示覆蓋, false 表示在已有的索引庫(kù)中創(chuàng)建,不會(huì)掩蓋以前創(chuàng)建的索引。 ●是否索引:該數(shù)據(jù)源的數(shù)據(jù)是否要在用戶檢索時(shí)被檢索。 LUCENE 與數(shù)據(jù)庫(kù)索引的比較如 圖 所示 對(duì)比項(xiàng) LUCENE檢索 數(shù)據(jù)庫(kù)檢索 索引數(shù)據(jù)源 索引數(shù)據(jù)源 :由 LUCENE提供的 Index類及其子類 檢 索 其 數(shù) 據(jù) 結(jié) 構(gòu) 可 以 表 示 為 :Document(field1,field2,?? )。LUCENE 與搜索應(yīng)用程序之間的關(guān)系 如 圖 所示 13 搜 索 應(yīng) 用 程 序 L U C E N E 圖 LUCENE與搜索應(yīng)用程序之間的關(guān)系 總之, LUCENE 是一個(gè)用 JAVA 編寫(xiě)的開(kāi)放源代碼的全文搜索引擎的工具包,它只是一個(gè)全文搜索引擎的框架,并不是一個(gè)完整的全文搜索引擎系統(tǒng),不但包括完整的索引引擎和查詢引擎,還包括文本分析引擎。 如果你想添加這樣豐富的全文搜索功能到你的網(wǎng)站上,LUCENE 是一個(gè)不錯(cuò)的選擇。 public void pletePage(HTTP , boolean error) { } // 由 Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 ()。 import 。 public boolean foundOtherLink(String url)。以及如何對(duì)這個(gè)程序進(jìn)行擴(kuò)展。 等待隊(duì)列 : 在這個(gè)隊(duì)列中, URL 等待被 Spider 程序處理。下面給出該類幾種重要的方法。他們的主要目的是使用戶能夠任意遷移到新的頁(yè)面,這正是網(wǎng)絡(luò)機(jī)器人最關(guān)心的標(biāo)簽。還可以掃描出中斷的超鏈接和拼寫(xiě)錯(cuò)誤等。在用戶輸入某個(gè)搜索關(guān)鍵詞開(kāi)始搜索之后,搜索引擎系統(tǒng)程序就在網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中進(jìn)行搜索,并且能夠把 網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中所有與該關(guān)鍵詞相關(guān)的網(wǎng)頁(yè)都找出來(lái)。為了保證 用戶查找信息的精確度 和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù)。難以滿足人們的各種信息需求,搜索引擎將向智能化、精確化、交叉語(yǔ)言檢索、多媒體檢索、專業(yè)化等適應(yīng)不同用戶需求的方向發(fā)展。 第三代搜索引擎系統(tǒng)出現(xiàn)在 1998 年到 2020 年期間 ,這一時(shí)期是搜索引擎空前繁榮的時(shí)期。 研究的目 的 及意義 隨著 Inter 的迅速發(fā)展,網(wǎng)上信息以爆炸性的速度不斷豐富和擴(kuò)展, Inter 用戶在具備獲取最大限度的信息量能力的同時(shí), 搜索引擎應(yīng)運(yùn)而生,而 面臨一個(gè)突出的問(wèn)題:在上百萬(wàn)個(gè)網(wǎng)站中,如何快速有效地找到 用戶 想要得到的信息?搜索引擎( Search Engine)正是為解決用戶的查詢問(wèn)題而出現(xiàn)的,它是 Inter 上的一個(gè)網(wǎng)站,該網(wǎng)站專門(mén)提供用戶查詢 Inter 上的信息。 據(jù) 艾瑞市場(chǎng) 最新的研究顯示,中國(guó)搜索引擎市場(chǎng)規(guī)模已達(dá)到 億元,預(yù)計(jì) 2020 年將達(dá)到 億元。 2)愛(ài)問(wèn)新聞搜索 ]2[ :愛(ài)問(wèn)新聞搜索提供兩種方式查看新聞:關(guān)鍵字搜索、最熱新聞瀏覽。搜索引擎特指互聯(lián)網(wǎng)上提供內(nèi)容查詢服務(wù)的網(wǎng)站,根據(jù)人們輸入的查詢內(nèi)容查找索引數(shù)據(jù)庫(kù) , 將找到的相關(guān)頁(yè)面的鏈接提供給用戶。 在理論研究的基礎(chǔ)上,本文最后利用 JAVA技術(shù)實(shí)現(xiàn)了一個(gè)新聞搜索引擎系統(tǒng)。I 貴 州 民 族 大 學(xué) 本 科 畢 業(yè) 生 論 文 基于 LUCENE的搜索引擎的研究與實(shí)現(xiàn) 張三 摘要 : 在 Inter蓬勃發(fā)展的當(dāng)下, Inter 上面的信息 是廣 如大海。該搜索引擎系統(tǒng) 的網(wǎng)絡(luò)蜘蛛部分采用了非遞歸爬行方式和 JAVA的多線程機(jī)制,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的抓取。從最初的搜索引擎的出現(xiàn)到現(xiàn)在已有二十余年時(shí)間,搜索引擎在收集頁(yè)面的數(shù)量、速度、準(zhǔn)確率 等 方面已得到了長(zhǎng)足的進(jìn)步,但搜索引擎的框架結(jié)構(gòu)和基本技術(shù)并沒(méi) 有實(shí)質(zhì)性的突破,未來(lái)的搜索引擎必將向著個(gè)性化和智能化的方向發(fā)展 。關(guān)鍵字搜索提供了按標(biāo)題搜索和按全文搜索兩種方式 ; 最熱新聞按照頻道分類,每類 3 條。據(jù)權(quán)威機(jī)構(gòu)預(yù)測(cè),未來(lái) 4年全球搜索市場(chǎng)每年將以高達(dá) 35%的增長(zhǎng)速度快速成長(zhǎng),到 2020 年全球搜索市場(chǎng)的整體規(guī)模將達(dá)到 110億美元。當(dāng)用戶輸入關(guān)鍵字( Keyword)查詢時(shí), 該網(wǎng)站會(huì)告訴用戶包含該關(guān)鍵字信息的所有網(wǎng)址,并提供通向該網(wǎng)站的鏈接。第三代搜索引擎的發(fā)展有如下凡個(gè)特點(diǎn): 第四代搜索引擎出現(xiàn)于 21 世紀(jì),這一階段的搜索引擎是分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。 百度公司 于 2020 年推出了“百度”商業(yè)搜索引擎,并一直處于國(guó)內(nèi)的領(lǐng)先地位。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、索引數(shù)據(jù)庫(kù)等部分組成。因?yàn)橹熬鸵呀?jīng)將所有相關(guān)網(wǎng)頁(yè)針對(duì) 該關(guān)鍵詞的相關(guān)度算好,故只需按照己有的相關(guān)度數(shù)值由高到低進(jìn)行 排序 ,相關(guān)度高的網(wǎng)頁(yè)排在前面,相關(guān)度低的網(wǎng)頁(yè)排在后面。 如何解析 HTML 因?yàn)?Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁(yè)時(shí)的第一個(gè)問(wèn)題就是如何解析 HTML。 圖像映射標(biāo)簽:圖像映射是另一種非常重要的標(biāo)簽。 Spider 程序結(jié)構(gòu) 網(wǎng)絡(luò)機(jī)器人必須從一個(gè)網(wǎng)頁(yè)遷移到另一個(gè)網(wǎng)頁(yè),所以必須找到該頁(yè)面上的超連接。新發(fā)現(xiàn)的 URL 也被加入 到這個(gè)隊(duì)列中 處理隊(duì)列 :當(dāng) Spider 程序開(kāi)始處理時(shí),他們被送到這個(gè)隊(duì)列中 錯(cuò)誤隊(duì)列 : 如果在解析網(wǎng)頁(yè)時(shí)出錯(cuò), URL 將被送到這里。 構(gòu)造流程圖如 圖 所示 發(fā)現(xiàn) URL 等待隊(duì)列 運(yùn)行隊(duì)列 完成隊(duì)列 錯(cuò)誤隊(duì)列 完成 URL 9 把 URL加入等待隊(duì)列 圖 Spider構(gòu)造流程圖 IspiderReportable 接口 這是一個(gè)必須實(shí)現(xiàn)的接口,可以通過(guò)回調(diào)函數(shù)接受 Spider 所遇到的頁(yè)面。 public void processPage(HTTP page)。 import 。 } // 發(fā)現(xiàn)內(nèi)部鏈接是調(diào)用, url表示程序發(fā)現(xiàn)的 URL,若返回 true則加入作業(yè)中,否則不加入 public boolean foundInternalLink(String url) { return false。如果隊(duì)列中的字符串應(yīng)當(dāng) 刪除,方法返回真。 LUCENE 簡(jiǎn)介 LUCENE 并 不是一個(gè)可以直接從 Inter 上下載,安裝和運(yùn)行的完整程序 。 LUCENE 的特點(diǎn)和優(yōu)勢(shì) LUCENE 作為一個(gè)開(kāi)源的項(xiàng)目,自從它出現(xiàn)之后,開(kāi)源代碼社區(qū)就發(fā)生了巨大的變化,程序開(kāi)發(fā)人員一方面可以用它來(lái)建立一個(gè)特定的全文搜索系統(tǒng)程序,另一方面也可以用它來(lái)構(gòu)建一個(gè) Web應(yīng)用系統(tǒng)程序。并將結(jié)果以: hits(field1,field2,?? )形式輸出 索引數(shù)據(jù)源:由數(shù)據(jù)庫(kù)索引 (或不需要索引 )檢索記錄并輸出記錄 檢 索 對(duì)象 Document: LUCENE檢索時(shí)需要索引的文檔,一個(gè)文檔由多個(gè) field組成 Record:一個(gè)記錄由多個(gè)字段組成 最 小 單元 Field : 域 Field :字段 檢 索 結(jié) Hits:由符合關(guān)鍵字條件的 document 按相似 查詢結(jié)果 :由包含關(guān)鍵字的記錄組成,不 15 果 度排序而成 能按相似度排序 效率 將數(shù)據(jù)源中的數(shù) 據(jù) —— 建立反向索引,速度較快 對(duì)于“ like”查詢來(lái)說(shuō),數(shù)據(jù)庫(kù)傳統(tǒng)的索引時(shí)根本用不上的,而需要逐個(gè)遍歷所有記錄,所有查詢速度有多個(gè)數(shù)量級(jí)的下降 匹 配 過(guò)程 通過(guò)詞元( term)匹配,通過(guò)語(yǔ)言分析接口進(jìn)行關(guān)鍵字拆分,能夠?qū)崿F(xiàn)對(duì)中文的完美支持 由于是模糊查詢,匹配不精確,可能查出大量無(wú)關(guān)的信息,另外,對(duì)于組合查詢,也不能靈活地變換詞序關(guān)系,因此針對(duì)兩個(gè)或多個(gè)查詢?cè)~也無(wú)法正確匹配 相似度 有相似度算法,排序的時(shí)候相似度最高的在前面 沒(méi)有相似度算法,相似度再高也不一定排在前面。 ●是否分詞:該數(shù)據(jù)源的數(shù)據(jù)是否要經(jīng)過(guò)分詞。我們?cè)诘谝淮蝿?chuàng)建索引時(shí)要把該值設(shè)為 true。 但 都是通過(guò)構(gòu)造 檢索器 IndexSearcher searcher = new IndexSearcher(Index_Path, new StandardAnalyzer(), true)來(lái)實(shí)現(xiàn)搜索的。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。 核心代碼如下 : package news。 } /** * 把每條新聞加入索引中 * 新聞的 url 20 * 新聞的標(biāo)題 */ void AddNews(String url, String title) throws Exception { Document _doc = new Document()。 /** *新聞搜索引擎 * import 。 ((), null)。 (_herf, _title)。 } } 23 搜索引擎的實(shí)現(xiàn) 本文的服務(wù)端采 用 的是 JAVA Servlet 技術(shù)來(lái)實(shí)現(xiàn)的。在論文研究期間,我學(xué)會(huì)了如何思考、如何分析、如何解決這些問(wèn)題 , 學(xué)會(huì)了一些新知識(shí)和新理論的學(xué)習(xí)方法,這將會(huì)對(duì)我以 后的學(xué)習(xí)和工作有很大的幫助, 這也為本人在以后的軟件開(kāi)發(fā)中積累了非常寶貴的經(jīng)驗(yàn)。 她的 知識(shí)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、平易近人的性格以及 耐心的教誨使我受益匪淺,也是我終身的學(xué)習(xí)榜樣。 // 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer()。 method=39。 name=39。 value=39。 start ()。 + replace((title), qc) + /abr)。 } 28 } } (/body/html)。 for (int i = start。 + /form/center)。 size=39。 + font face=39。 // Query是一個(gè)抽象類 Query query = (line, title, analyzer)。本論文是在她 的悉心指 導(dǎo)下完成的,從論文選題、研究?jī)?nèi)容、研究方法直到最后的定稿,她 都給予極大的幫助 。目前正在推出的新一代搜索引擎不但采用了中文自動(dòng)分類、自動(dòng)聚類等人工智能技術(shù),而且 還使用了區(qū)域智能識(shí)別技術(shù)和中文內(nèi)容分析技術(shù),也就是說(shuō)現(xiàn)在的搜索引擎更加注重用戶使用的個(gè)性化和智能化。最后以 HTTP 消息包的形式將搜索 結(jié)果返回到客戶
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1