freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的搜索引擎的研究與實(shí)現(xiàn)-資料下載頁(yè)

2024-12-01 21:56本頁(yè)面

【導(dǎo)讀】人們?cè)谙硎躀nter所帶來。Inter搜索引擎應(yīng)運(yùn)而生,而對(duì)搜索引擎的研究也理所當(dāng)然的成為了Inter技術(shù)中最熱門的領(lǐng)域。本文對(duì)搜索引擎的原理組成數(shù)據(jù)結(jié)構(gòu)工作流程等方面做了深入細(xì)致地研究與分析。未來發(fā)展方向是個(gè)性化智能化的。對(duì)于不同類型的用戶群搜索相同的內(nèi)容將得到不同的更適合用戶的。的查詢需求,并能對(duì)用戶進(jìn)行智能分類從而為搜索引擎的個(gè)性化提供依據(jù)。本文詳細(xì)地介紹了LUCENE. 的特點(diǎn)系統(tǒng)結(jié)構(gòu)及索引機(jī)制。LUCENE是Apache軟件基金會(huì)下的一個(gè)開源項(xiàng)目,完全支持JAVA技術(shù),適用于需要全文搜索能力的應(yīng)用程序,并具有很好的跨平臺(tái)能力。網(wǎng)絡(luò)蜘蛛部分采用了非遞歸爬行方式和JAVA的多線程機(jī)制,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的抓取。助LUCENE全文搜索引擎庫(kù)中的JAVA類庫(kù)進(jìn)行實(shí)現(xiàn)。最后采用JSP技術(shù)設(shè)計(jì)一個(gè)

  

【正文】 分詞 ,該類的包全路徑為import 。 LUCENE 與 SPIDER 的結(jié)合 建立搜索引擎 通過第二章對(duì)網(wǎng)絡(luò)機(jī)器人的介紹,我們已經(jīng)知道關(guān)于 Spider 的程序結(jié)構(gòu)和它的構(gòu)造過程。并通過實(shí)例構(gòu)造了一個(gè) IspiderReportable 接口 ,用于實(shí)現(xiàn)對(duì) URL 各種狀態(tài)的處理 。另一方面,通過對(duì) LUCENE 的學(xué)習(xí),使用 IndexWriter 類和 IndexSearcher 類建立索引和搜索,那我們?cè)鯓硬拍馨阉鼈兘Y(jié)合在一起呢?下 面是本論文給出的核心代碼。 核心代碼如下 : package news。 /** * 新聞搜索引擎 */ import 。 import 。 import 。 import 。 import 。 public class Index { IndexWriter _writer = null。 Index() throws Exception { _writer = new IndexWriter(c:\\news\\index, new ChineseAnalyzer(), true)。 } /** * 把每條新聞加入索引中 * 新聞的 url 20 * 新聞的標(biāo)題 */ void AddNews(String url, String title) throws Exception { Document _doc = new Document()。 ((title, title))。 ((url, url))。 (_doc)。 } /** * 優(yōu)化并且清理資源 */ void close() throws Exception { ()。 ()。 } } 構(gòu)造 HTML 解析類 ,用于處理要進(jìn)行建立索引的 web 頁(yè)面 。 核心代碼如下 : package news。 /** *新聞搜索引擎 * import 。 import 。 import 。 import 。 21 import 。 public class HTMLParse { HTTP _ = null。 public HTMLParse(HTTP ) { _ = 。 } /** * 對(duì) Web頁(yè)面進(jìn)行解析后建立索引 */ public void start() { try { HTMLPage _page = new HTMLPage(_)。 ((), null)。 Vector _links = ()。 Index _index = new Index()。 Iterator _it = ()。 int n = 0。 while (()) { Link _link = (Link) ()。 String _herf = input(().trim())。 String _title = input(().trim())。 (_herf, _title)。 n++。 22 } (共掃描到 + n + 條新聞 )。 ()。 } catch (Exception ex) { (ex)。 } } /** * 解決 java中的中文問題 *輸入的中文 *經(jīng)過解碼的中文 */ public static String input(String str) { String temp = null。 if (str != null) { try { temp = new String((ISO8859_1))。 } catch (Exception e) { } } return temp。 } } 23 搜索引擎的實(shí)現(xiàn) 本文的服務(wù)端采 用 的是 JAVA Servlet 技術(shù)來實(shí)現(xiàn)的。 用戶把查詢條件通過 GET 的方法從客 戶端提交給服務(wù)端,而服務(wù)端利用 TOMCAT 的 Servlet 容器接受用戶 提交的這些條件并加以分析,然后調(diào)用 LUCENE 中的類 開始搜索。最后以 HTTP 消息包的形式將搜索 結(jié)果返回到客戶端 。 核心代碼 見附錄 1。 下面是 本文 設(shè)計(jì)的新聞搜索引擎的查詢界面和搜索結(jié)果界面 。 搜索引擎的 查詢界面如 圖 所示 。 圖 搜索結(jié)果 如 圖 所示 。 圖 搜索結(jié)果 24 第四 章 總結(jié)與展望 本文總結(jié) 本文首先對(duì)搜索引擎進(jìn)行了總體概述,介紹了其產(chǎn)生、發(fā)展的過程,并對(duì)其基本結(jié)構(gòu)和工作原理進(jìn)行了研究 ; 接著研究了開源代碼 LUCENE 索引技術(shù) ; 然后在此基礎(chǔ)上結(jié)合 JAVA技術(shù)實(shí)現(xiàn)了一個(gè)新聞搜索引擎系統(tǒng)。在論文研究期間,我學(xué)會(huì)了如何思考、如何分析、如何解決這些問題 , 學(xué)會(huì)了一些新知識(shí)和新理論的學(xué)習(xí)方法,這將會(huì)對(duì)我以 后的學(xué)習(xí)和工作有很大的幫助, 這也為本人在以后的軟件開發(fā)中積累了非常寶貴的經(jīng)驗(yàn)。 研究展望 搜索引擎系統(tǒng)涉及的技術(shù)非常廣泛,具有非常豐富的內(nèi)涵,現(xiàn)在一些主流的搜索引擎不僅能夠進(jìn)行文字內(nèi)容搜索,而且還能夠?qū)?MP圖片、 Flash 等內(nèi)容進(jìn)行搜索,搜索引擎正在朝著 多元化的方向發(fā)展。目前正在推出的新一代搜索引擎不但采用了中文自動(dòng)分類、自動(dòng)聚類等人工智能技術(shù),而且 還使用了區(qū)域智能識(shí)別技術(shù)和中文內(nèi)容分析技術(shù),也就是說現(xiàn)在的搜索引擎更加注重用戶使用的個(gè)性化和智能化。由于時(shí)間的關(guān)系,本文只是對(duì)搜索引擎的基本理論和基本框架進(jìn)行了學(xué)習(xí)和研究。對(duì)搜索引擎進(jìn)行更加深入 地 探討和研究,也是本人今后繼續(xù)努力的方向。 25 成果聲明 本論文研究成果除標(biāo)明注釋的以外,該成果屬作者在指導(dǎo)老師 李四 老師的指導(dǎo)下創(chuàng)作的;該成果屬貴州民族學(xué)院所有。 致謝 從 2020 年 9 月至今,在 貴州民族學(xué)院 4 年的學(xué)習(xí)和生活即將結(jié)束,在此我要對(duì)那些關(guān)心和幫助過我的老師和同學(xué)表示誠(chéng)摯的謝意。 首先,我要感謝我的 導(dǎo)師 李四 。 她的 知識(shí)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、平易近人的性格以及 耐心的教誨使我受益匪淺,也是我終身的學(xué)習(xí)榜樣。更讓我感動(dòng)的是 她 在百忙之中還經(jīng)常抽空關(guān)注和指導(dǎo)我的生活和學(xué)習(xí)。本論文是在她 的悉心指 導(dǎo)下完成的,從論文選題、研究?jī)?nèi)容、研究方法直到最后的定稿,她 都給予極大的幫助 。正是因?yàn)樗?的幫助,我才能盡早完成本論文的編寫和收尾工作。在此, 我謹(jǐn)向我的導(dǎo)師致以最誠(chéng)摯的謝意 ! 其次,我要感謝那些在我漫長(zhǎng)的求學(xué)道路上培養(yǎng)過我的各位老師,以及一起奮斗過的同學(xué)。特別是我的幾位舍友,他們?cè)谄綍r(shí)的生活中給予我很大的幫助和鼓 勵(lì)。在本論文的完成過程中,他們也在技術(shù)上給予我很多的指導(dǎo)和支持 !忠心感謝我的家人以及所有關(guān)心我的親友們,多年來在我的求學(xué)道路中給予我始終如一的關(guān)心、幫助、支持、信心和溫暖,在此學(xué)業(yè)完成之際,向你們表示由衷的謝意和崇高的敬意 ! 最后,感謝答辯小組對(duì)本論文的考核,忠心感謝為評(píng)閱本論文而付出艱辛 勞動(dòng)的專家、教授 。 你們辛苦了 ! 26 參考文獻(xiàn) [1] [2] [3] [4] Bruce Eckel(美 ).Java 編程思想 [M]. 北京 :機(jī)械工業(yè)出版社, 2020 [5] 邱哲 .開發(fā)自己的搜索引擎: Lucene + Heritrix[M].北京 :人民郵電出版社, 2020 [6] 車東 .基于 Java的全文搜索引擎 Lucene[M]. 北京 :電子工業(yè)大學(xué) , 2020 [7] 徐寶文 ,張衛(wèi)豐 .搜索引擎與信息獲取技術(shù) [M]. 北京 :清華大學(xué)出版社 , 2020 [8] 羅旭 .主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [M]. 北京 :科學(xué) 出版社 , 2020 [9] 張思民 .Java 語(yǔ)言程序設(shè)計(jì) [M]. 北京 :清華大學(xué)出版社 ,2020 [10] 房志峰 .中文搜索引擎的分詞技術(shù)研究 [J].科學(xué)技術(shù)與工程 ,2020年 09期 [11] 李曉明 , 閆宏飛 ,王繼民 .搜索引擎:原理、技術(shù)與系統(tǒng) [M]. 北京 :科學(xué)出 版社 , 2020 [12] 佘正平 .搜索引擎的關(guān)鍵詞分析與處理 [J].情報(bào)探索 ,2020年 05期 [13] 聶哲 .基于 Web的面向主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [J].計(jì)算機(jī)工程與設(shè)計(jì) ,2020,24(2):6062. [14] 張峰 ,李慧麗 .Java Web [M]. 北京 :清華大學(xué)出版社 , 2020 附錄 1 搜索引擎實(shí)現(xiàn)的核心代碼 public void Search(String qc, PrintWriter out) throws Exception { // 從索引目錄目錄中進(jìn)行搜索 IndexSearcher _searcher = new IndexSearcher(c:\\news\\index)。 // 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer()。 // 查詢條件 String line = qc。 // Query是一個(gè)抽象類 Query query = (line, title, analyzer)。 27 (html)。 (headtitle搜索結(jié)果 /title/head)。 (body bgcolor=ffffff)。 (center + form action=39。index39。 method=39。get39。 + font face=39。華文中宋 39。 color=39。3399FF39。新聞搜索引擎 /font: + input type=39。text39。 name=39。QueryContent39。 size=39。2039。 + input type=39。submit39。 name=39。submit39。 value=39。開始搜索 39。 + /form/center)。 (p搜索關(guān)鍵字: font color=red + (title) + /font/p)。 Hits hits = (query)。 ( 總共找到 font color=red + () + /font條新聞 br)。 final int HITS_PER_PAGE = 10。 for (int start = 0。 start ()。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 for (int i = start。 i end。 i++) { Document doc = (i)。 String url = (url)。 if (url != null) { ((i + 1) + a href=39。 + url + 39。 + replace((title), qc) + /abr)。 } else { (沒有找到! )。 } 28 } } (/body/html)。 ()。 }
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1