freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的搜索引擎的研究與實(shí)現(xiàn)-文庫吧

2024-11-11 21:56 本頁面


【正文】 ............................................................... 16 LUCENE的搜索 ................................................................................................... 17 使用 INDEXSEARCHE進(jìn)行搜索 ................................................................... 17 LUCENE中 的分詞器 .................................................................................... 17 中文分詞機(jī)制 ................................................................................................... 18 什么是中文分詞 ........................................................................................ 18 IV 本文采用的中文分詞 ................................................................................ 18 LUCENE與 SPIDER的結(jié)合 .................................................................................. 19 基于 TOMCAT的 WEB的服務(wù)器設(shè)計(jì) ............................................................... 23 基于 LUCENE 的搜索引擎的實(shí)現(xiàn) ................................................................. 23 第 四 章 總結(jié)與展望 ................................................................................................... 26 本文總結(jié) ........................................................................................................... 26 研究展望 ........................................................................................................... 26 成果聲明 ..................................................................................................................... 27 致謝 ............................................................................................................................. 27 參考文獻(xiàn) ..................................................................................................................... 28 1 第一章 緒論 研究背景 在 Inter 蓬勃發(fā)展的當(dāng)下, Inter 上 的信息更加 是廣 如大海。人們在享受Inter 所帶來的便利的同時(shí),也面臨著一個(gè)如何在此浩瀚的內(nèi)容中精確、 快速 地找到自己所需要的信息。 由此 Inter 搜索引擎應(yīng)運(yùn)而生,而對搜索引擎的研究也理所當(dāng)然 地成了 Inter 技術(shù)中最熱門的領(lǐng)域。 當(dāng)人們打開瀏覽器時(shí),首先連接 到搜索引擎再根據(jù)搜索引擎的查找結(jié)果連接到相關(guān)的頁面。搜索引擎特指互聯(lián)網(wǎng)上提供內(nèi)容查詢服務(wù)的網(wǎng)站,根據(jù)人們輸入的查詢內(nèi)容查找索引數(shù)據(jù)庫 , 將找到的相關(guān)頁面的鏈接提供給用戶。從最初的搜索引擎的出現(xiàn)到現(xiàn)在已有二十余年時(shí)間,搜索引擎在收集頁面的數(shù)量、速度、準(zhǔn)確率 等 方面已得到了長足的進(jìn)步,但搜索引擎的框架結(jié)構(gòu)和基本技術(shù)并沒 有實(shí)質(zhì)性的突破,未來的搜索引擎必將向著個(gè)性化和智能化的方向發(fā)展 。對于不同類型的用戶群 , 搜索相同的內(nèi)容將得到不同的更適合用戶的搜索結(jié)果,這就是搜索引擎的個(gè)性化 。 而智能化則指搜 索引擎具有自我學(xué)習(xí)的功能,能自動地適應(yīng)用戶的查詢需求,并能對用戶進(jìn)行智能分類從而為搜索引擎的個(gè)性化提供依據(jù)。 研究現(xiàn)狀 現(xiàn)今新聞服務(wù)的競爭已經(jīng)不僅僅 是在新聞網(wǎng)站之間,搜索引擎在新聞搜索領(lǐng)域的競爭也越來越激烈?;?JAVA 的 新聞搜索引擎作為一個(gè)新的研究領(lǐng)域,目前已經(jīng)有一些較好的 WAP應(yīng)用出現(xiàn): 1)百度新聞搜索 ]1[ :百度新聞搜索提供兩種方式 查看新聞:關(guān)鍵字搜索、焦點(diǎn)新聞分類瀏覽。新聞源較多 ,內(nèi)容較豐富 ,關(guān)鍵字搜索為按全 文搜索,未提供按標(biāo)題搜索。每條新聞只能瀏覽部 分內(nèi)容,不能瀏覽全部內(nèi)容 。 2)愛問新聞搜索 ]2[ :愛問新聞搜索提供兩種方式查看新聞:關(guān)鍵字搜索、最熱新聞瀏覽。關(guān)鍵字搜索提供了按標(biāo)題搜索和按全文搜索兩種方式 ; 最熱新聞按照頻道分類,每類 3 條。 3)搜狗新聞搜索 ]3[ :搜狗新聞搜索提供兩種方式查看新聞:關(guān)鍵字搜索、最熱新聞瀏覽。關(guān)鍵字搜索提供了按標(biāo)題搜索和按全文搜索兩種方式。默認(rèn)為標(biāo)題方式。最熱新聞顯示在首頁,共 10 條,未按頻道分類。用戶使用 百度 等通用搜索引擎的方式是通過關(guān)鍵字的方式 實(shí)現(xiàn)的,是語義上的搜索, 2 返回的結(jié)果傾向于知識成果,比如文章,論文,新聞等;其不能滿足特殊領(lǐng)域、特殊人群的精準(zhǔn)化信息需求服務(wù)。 傳統(tǒng)的網(wǎng)絡(luò)搜索經(jīng)過多年的發(fā)展已經(jīng)成為一個(gè)巨大的產(chǎn)業(yè)。 據(jù) 艾瑞市場 最新的研究顯示,中國搜索引擎市場規(guī)模已達(dá)到 億元,預(yù)計(jì) 2020 年將達(dá)到 億元。據(jù)權(quán)威機(jī)構(gòu)預(yù)測,未來 4年全球搜索市場每年將以高達(dá) 35%的增長速度快速成長,到 2020 年全球搜索市場的整體規(guī)模將達(dá)到 110億美元。這里提到的市場規(guī)模主要是指互聯(lián)網(wǎng)搜索,因?yàn)橐苿铀阉饔捎谄鸩捷^晚尚未引起人們的重視,但其發(fā)展空間不容小覷,畢 竟移動終端的普及率遠(yuǎn)遠(yuǎn)超過電腦。而且,作為移動通信工具,手機(jī)只是其中的一種,還有 不少 數(shù)量的 PDA 用戶也將成為移動搜索的另一支主力軍。 與互聯(lián)網(wǎng)搜索相比,移動搜索無須上網(wǎng)設(shè)備,只要一臺普通移動終端就可以隨時(shí)隨地搜索而不受網(wǎng)絡(luò)限制,還可以通過短信方式及時(shí)互動溝通。根據(jù)著名手機(jī)企業(yè)諾基亞的預(yù)測,到今年年底時(shí)全球的手機(jī)用戶將超過 20 億,到 2020 年,全球手機(jī)用戶將突破 30 億。全球電腦用戶只有手機(jī)用戶十分之一,而這其中還有相當(dāng)一部分不能上網(wǎng)。與傳統(tǒng)的互聯(lián)網(wǎng)搜索市場競爭無比激烈的現(xiàn)狀相比,現(xiàn)在的移動搜索市場還只 不過才剛剛起步,畢竟 2020 年 8 月英國出現(xiàn)“手機(jī)搜索樂曲名”服務(wù)才算得上是移動搜索的鼻祖, 2020 年 5 月英國三家主要的移動運(yùn)營商 Orange、沃達(dá)豐以及 20O2 年 推出的被稱為 AQA 的基于短信的搜索服務(wù)才為移動搜索正名,之后搜索巨頭 Google、雅虎、百度等企業(yè)才陸續(xù)推出相應(yīng)業(yè)務(wù),但由于它們主要的精力放在傳統(tǒng)的互聯(lián)網(wǎng)搜索市場上,所以整個(gè)移動搜索市場仍處于孕育之中,有著不可限量的發(fā)展空間。 研究的目 的 及意義 隨著 Inter 的迅速發(fā)展,網(wǎng)上信息以爆炸性的速度不斷豐富和擴(kuò)展, Inter 用戶在具備獲取最大限度的信息量能力的同時(shí), 搜索引擎應(yīng)運(yùn)而生,而 面臨一個(gè)突出的問題:在上百萬個(gè)網(wǎng)站中,如何快速有效地找到 用戶 想要得到的信息?搜索引擎( Search Engine)正是為解決用戶的查詢問題而出現(xiàn)的,它是 Inter 上的一個(gè)網(wǎng)站,該網(wǎng)站專門提供用戶查詢 Inter 上的信息。當(dāng)用戶輸入關(guān)鍵字( Keyword)查詢時(shí), 該網(wǎng)站會告訴用戶包含該關(guān)鍵字信息的所有網(wǎng)址,并提供通向該網(wǎng)站的鏈接。 搜索引擎的發(fā)展分為四個(gè)階段 第一代搜索引擎出現(xiàn)于 1994 年,以集中式檢索為主要特征。這類搜索引擎一般都索 3 引少 于 一 百萬個(gè)網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。而且其檢索速度非常慢,一般都要等待 10 秒甚至更長的時(shí)間。在實(shí)現(xiàn)技術(shù)上也基本沿用較為成熟的 IR(Information Retrieval)、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當(dāng)于利用一些已有技術(shù)實(shí)現(xiàn)的一個(gè) WWW 上的應(yīng)用。 第二代搜索引擎系統(tǒng)大約出現(xiàn)在 1996 年,大多采用分布式檢索方案,即多個(gè)微型計(jì)算機(jī)協(xié)同工作來提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量。它們一般都保持一個(gè)大約 五 千萬網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應(yīng) 一 千萬次用戶檢索請求。 第三代搜索引擎系統(tǒng)出現(xiàn)在 1998 年到 2020 年期間 ,這一時(shí)期是搜索引擎空前繁榮的時(shí)期。第三代搜索引擎的發(fā)展有如下凡個(gè)特點(diǎn): 第四代搜索引擎出現(xiàn)于 21 世紀(jì),這一階段的搜索引擎是分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。由于主題搜索運(yùn)用了人工分類以及特征提取等智能化策略,因此它比面提到的前三代的搜索引擎將更加有效和準(zhǔn)確。在中國,對搜索引擎的研究起源于“中國教育科研網(wǎng)”一期工程中的子項(xiàng)目,北京大學(xué)計(jì)算機(jī)系的項(xiàng)目組在 1997年 10 月在該網(wǎng)上推出了天網(wǎng)搜索 的版本。在這之后,幾位在美國留學(xué)的華術(shù)的依賴性。 目前,互聯(lián)網(wǎng)上信息量和 信息的種類 在不斷增加。一個(gè)搜索引擎要覆蓋所有的網(wǎng)上信息查詢需求已出現(xiàn)困難,因此各種主題搜索引擎、個(gè)性化搜索引擎、問答式搜索引擎紛紛興起。并且如今的搜索引擎存在搜索速度慢、死鏈接太多、重復(fù)信息或不相關(guān)信息較多 。難以滿足人們的各種信息需求,搜索引擎將向智能化、精確化、交叉語言檢索、多媒體檢索、專業(yè)化等適應(yīng)不同用戶需求的方向發(fā)展。 百度公司 于 2020 年推出了“百度”商業(yè)搜索引擎,并一直處于國內(nèi)的領(lǐng)先地位。隨著網(wǎng)上信息 量 越來越多,單純靠人工整理網(wǎng)站目錄取得較高精度查詢結(jié)果的優(yōu)勢逐漸退化,對 Web 上的信息進(jìn)行高質(zhì)量的人工分類已經(jīng) 不太現(xiàn)實(shí)。目前有兩個(gè)發(fā)展方向。一是利用文本自動分類技術(shù),在搜索引擎上提供對每篇網(wǎng)頁的自動分類。另一個(gè)發(fā)展方向是將自動網(wǎng)頁抓取和一定的人工分類目錄相結(jié)合,希望形成一個(gè)既有高信息覆蓋率,又有高查詢準(zhǔn)確性的服務(wù)。 本文的組織結(jié)構(gòu) 本文共分為四部分:第一章是緒論,介紹本文的研究背景、研究現(xiàn)狀、目的和意義;第二章介紹對搜索引擎相關(guān)技術(shù)的研究,其中包括:搜索引擎的結(jié)構(gòu)、工作原理、網(wǎng)絡(luò)機(jī)器人、 LUCENE 的簡單介紹;第三章是基于 LUCENE 的搜索引擎設(shè)計(jì) 通過索引的建立工具類 4 IndexWriter、索引的 搜索類 IndexSearcher 建立搜索、還涉及到通過中文分詞對索引進(jìn)行分詞處理、然后通過 LUCENE 與 SPIDER 的結(jié)合建立搜索引擎、最后通過 TOMACH 服務(wù)器實(shí)現(xiàn)搜索引擎 ;第四章是對全文的總結(jié)和展望。 5 第二章 相關(guān)技術(shù)研究 搜索引擎
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1