freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)(參考版)

2024-11-21 21:52本頁面
  

【正文】 Heritrix。Computer Knowledge and Technology。202003 [22] ZHAO Xile,CHEN Guang(Collage of Computer and Information Technology,Henan Normal University,XinXiang 453007,China)。RESEARCH ON FRAMEWORK SUPPORTING WEB SEARCH ENGINE[J]。199907 [21] ZHANG WeiFeng。English Search Engine on Inter[J]。 Pattern Recognition, 23 Shanghai Jiaotong University。 Zhang Huihui。Journal of Hebei Vacation Technical Teachers University(Social Sciences Edition Quarterly)。202010 [19] Zhang Chunying(Library of Handan Finance and Economics School, Handan, 056000)。An Interactive Net Search Engine for Chinese Text and Its Selflearn ing Ability[J]。Shanxi Electric Power。 Application. 202011 [16] Wang Juanqin. Studies on Information Retrieval Model in Network Envirnment[J]. INFORMATION SCIENCE. 199903 [17]HAN Bin yun (Shanxi Electric Power Research Institute,Taiyuan,Shanxi 030001,China)。 22 參考文獻 [1] 羅剛 .《自己動手寫搜索引擎》 . 電子工業(yè)出版社, 2020121. [2] 劉奕群 .《搜索引擎基礎(chǔ)技術(shù)》 . 清華大學(xué)出版社, 202071. [3] 邱哲,符滔滔 .《開發(fā)自己的搜索引擎 —— +Heritrix 第二版》人民郵電出版社 . 202011 [4] [美 ]格拉波內(nèi), [美 ]庫辛 著,趙利通 譯 .《搜索引擎優(yōu)化(第二版)》 清華大學(xué)出版社 , 2020111. [5] 吳眾欣,沈家立 .《 Lucene分析 與應(yīng)用》 . 機械工業(yè)出版社, 202091. [6] 袁津生,李群,蔡岳 .《搜索引擎原理與實踐》 . 北京郵電大學(xué)出版社, 2020. [7] 徐寶文,張衛(wèi)豐 .《搜索引擎與信息獲取技術(shù)》 . 清華大學(xué)出版社, 2020. [8]蔡棟 第二代搜索引擎模式探析 [期刊論文 ] 情報理論與實踐 2020(03) [9]周春 知識搜索引擎及教學(xué)應(yīng)用 [期刊論文 ] 中國教育技術(shù)裝備 2020(35) [10]李國成 網(wǎng)絡(luò)搜索引擎的現(xiàn)狀及發(fā)展探析 [期刊論文 ] 企業(yè)科技與發(fā)展 2020(8) [11]李村合 新一代中文智能搜索引擎尤里卡研究 [期刊論文 ] 情報科學(xué) 2020(1) [12]魏春生 .邊香玉 網(wǎng)絡(luò)搜索引擎 功能、使用技巧與檢索策略 [期刊論文 ] 吉林省經(jīng)濟管理干部學(xué)院學(xué)報 2020(4) [13]李村合 因特網(wǎng)多元搜索引擎 SearchX2020 的研究 [期刊論文 ] 情報學(xué)報 2020(4) [14] MA Hongwei. Discussion on the Technical Tactics and Developing Trends of Search Engine[J]. Sci/tech Information Development amp。感謝所有關(guān)心、支持、幫助過我的良師益友。在我撰寫論文的過程中,老師傾注了大量的心血和汗水,無論是在論文的選題、構(gòu)思和資料的收集方面,還是在論文的研究方法以及成文定稿方面,我都得到了 耿 老師悉心細(xì)致的教誨和無私的幫助,特別是他廣博的學(xué)識、深厚的學(xué)術(shù)素養(yǎng)、嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和一絲不茍的工作作風(fēng)使我終生受益,在此表示真誠地感謝和深深的謝意 。本項目可以幫助您更好更快地查找到您所需要的圖書信息。所謂網(wǎng)絡(luò)爬蟲,顧名思義它可以方便快捷地從互聯(lián)網(wǎng)上爬取你所想要的相關(guān)信息 。 Lucene作為一個開源的全完檢索引擎工具包,它不但是一個完整的全文檢索引擎,而且是一個全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎。在上述 代碼中為了使用 Spring中定義的各種 bean,使用了名為 spring 的對象 creator,它帶有名為 beanName 的參數(shù),其值應(yīng)該被指定為 文件中定義的 bean 的 ID 值,即本項目中的 SearchServiceImpl 類的實例。 (二) ?xml version= encoding=UTF8? 20 !DOCTYPE dwr PUBLIC //GetAhead Limited//DTD Direct Web Remoting dwr allow create creator=spring javascript=searchService param name=beanName value=searchService / /create convert converter=bean match= /convert convert converter=bean match= /convert convert converter=bean match= /convert /allow /dwr 由于對 service 對象的調(diào)用是使用 DWR 在頁面中完成的。當(dāng)然在使用 DWR框架時要對其進行配置。這種文件用 記事本 打開后可以看到它的內(nèi)容。 它包含兩個主要的部分 :允許 JavaScript 從 WEB服務(wù)器 上一個遵循了 AJAX原則的 Servlet中獲取數(shù)據(jù) .另外一方面一個 JavaScript 庫可以幫助網(wǎng)站開發(fā)人員輕松地利用獲取的數(shù)據(jù)來動態(tài)改變網(wǎng)頁的 內(nèi)容 . DWR采取了一個類似 AJAX的新方法來動態(tài)生成基于 JAVA 類的 JavaScript 代碼 .這樣 WEB 開發(fā)人員就可以在 JavaScript 里使用 Java代碼就像它們是 瀏覽器 的本地代碼 (客戶端 代碼 )一樣 。如同域?qū)ο笠粯?,它包含了一對字符串元素:與域中的域名 (name)和域值 (value)相對應(yīng)。如果用戶要訪問的文檔不再這個緩存中, Hits就會再次執(zhí)行查詢。每次用戶要取出文檔時, Hits都會 18 先訪問這個緩存。 在 Hits對象內(nèi)部保持了一個緩存。 RegexQuery:由第三方提供的 Query對象,是基于正則表達式的檢索方式。 WildcardQuery 使用非常簡單,首先設(shè)定一個帶通配符的字符串,再包裝成 Term對象,然后將其做為 WildcardQuery 的構(gòu)造函數(shù)的參數(shù)傳入。 FuzzyQuery 模糊搜索:可以幫助用戶進行單字的模糊查找。 PhraseQuery 短語搜索:通過 PhraseQuery 可以很方便的幫助進行上述的短語查找功能。這種范圍可以是時間、日期、數(shù)字大小等。 BooleanQuery 布爾查詢:由多個子句和子句間的布爾邏輯所組成的查詢。//取出索引中 ID號為 i的文檔 Query rewrite (Query query) throws IOException。//返回索引中最大可能具有的 Document 的數(shù)量(再加 1) TopDocs search(Weight weight,Filter filter,int n) throws IOException。 int[] docFreqs(Term[] terms) throws IOExcption。//關(guān)閉 Searcher,同時也關(guān)閉了 IndexReader int docFreq(Term term) throws IOException。 在 IndexSearcher 接口中定義了如下的主要方法: void search(Weight weight,Filter filter,HitCollector results) throws IOException。這個類是連接索引的重要手段,并提供了一些 search方法。 Document的 add方法將定義的Field 加入到 Document 中去,最后使用 IndexWriter 的 addDocument 方法將 Document 寫入索引。并且它只占用了很少的存儲空間。每個類都使用了一個 第三方的工具來提取文本,以便之后分詞和建立索引使用。所以在建立 索引之前需要進行數(shù)據(jù)內(nèi)容的抽取。處理后是以文本文件格式存儲的,以便之后分詞和建立索引使用。繼承 HTMLParser 的基類 Extractor,來實現(xiàn)對鏡像文件中 HTML 文件的解析。 包含了 ,封裝了底層的訪問節(jié)點的方法,以樹型結(jié)構(gòu)返回所有節(jié)點。 HTMLParser提供了提取文本信息的 API,使搜索引擎開發(fā)者擺脫了繁瑣的正則匹配過程,只需要通過這些 API,就可以很方便的提取特定文本,大大提高工作效率。 HTMLParser Libaries提供了一系列訪問本地和網(wǎng)絡(luò) HTML 資源的 API。圖 。如下圖所示: 圖 替換 FrontierScheduler 選項 ( 4)更改 JOB中的參數(shù),在 setting中設(shè)置 headers參數(shù),設(shè)置 useragent 中的網(wǎng)址以及 from中的郵件地址。 ( 2)在瀏覽器中輸入 admin:admin,登錄管理界面。 在定義好了 FrontierSchedular后就可以在運行中使用了,現(xiàn)在我們就可以利用已經(jīng)獲取的抓取列表 15 進行抓取試驗。 “ ”是針對 robots 策略時發(fā)出的 URL 所包含的字符串,因此也應(yīng)當(dāng)讓其加入到 Frontier中。 (1) (2)(3).jpg (4) (5)dns: 其中“ ”是圖書詳細(xì)信息頁面的 URL 前綴,因此必須讓其通過約束,以使得圖書的詳細(xì)信息得以保存。針對抓取新書城網(wǎng)( )的圖書信息,編寫專門的代碼。這種擴展實際上就是加入一種 URL選擇策略,將那些不需要的 URL過濾掉,以保證所抓取的信息為有用的信息。因此,需要擴展Heritrix,以實現(xiàn)無關(guān)頁面過濾的功能??梢酝瓿蓪︽溄拥奶崛?,內(nèi)容的抽取等功能。此時,在 Heritrix 的后臺已經(jīng)對服務(wù)的 8080 端口進行了監(jiān)聽,在瀏覽器中訪問 :8080,就可以打開 Heritrix的 WebUI了。 Heritrix 的啟動方式有多種,這里選擇的是最常用的 WebUI 方式啟動。但是由于需要遍歷所有的圖書 鏈接以實現(xiàn)網(wǎng)絡(luò)爬蟲的爬取,我需要編寫 java小程序來抽取鏈接。必要的時候我們甚至要編寫一些 java 小程序生成這些路徑。因為我們要把包含圖書分類的頁面作為爬取源,所以我們要盡量選擇包含所有圖書分類的頁面,如果有固然好,但是實際操作中你會發(fā)現(xiàn)有的網(wǎng)站的圖書分類并不會在一個頁面中顯示出來。首先我們要選擇幾個包含很多圖書信息的網(wǎng)站,并以這 些網(wǎng)站來作為 Heritrix 網(wǎng)絡(luò)爬蟲爬取信息的鏈接源。 setDirectories 方法,為其注入所要處理的圖書詳細(xì)信息文件所在的目錄,然后調(diào)用process 方法開始處理圖書信息。具體的操作步驟如下: BookJDBC 類和 BookIndexer 類,來對具體的圖書信息進行處理。首先它要可以從文本文檔中提取出需要的內(nèi)容,來 構(gòu)建 Book對象;然后調(diào)用 BookJDBC,向數(shù)據(jù)庫中寫入 Book相關(guān)信息。 除此之外項目中的 BookIndexer類中還提供了 optimize()方法和 close()方法,分別用來對索引進行優(yōu)化和關(guān)閉索引。 addBook方法,以 Book類型的對象和一個 ID值為參數(shù),調(diào)用
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1