freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的搜索引擎的設(shè)計與實現(xiàn)(參考版)

2025-06-26 07:09本頁面
  

【正文】 同時,還要感謝所有幫助過我的老師、同學(xué)們和家人,為我在論文寫作中提供了諸多幫助和支持。文章初稿完成之后,曾老師又認真審閱、修改,對此我表示深深的敬意和由衷的感謝。首先,要感謝我的導(dǎo)師曾 怡老師。參考文獻[1] 徐寶文 張衛(wèi)豐. 搜索引擎與信息獲取技術(shù)[M]. 北京:清華大學(xué)出版社,2022,04.[2] 李曉明 閆宏飛 王繼民. 搜索引擎:原理、技術(shù)與系統(tǒng)[M]. 北京:科學(xué)出版社,2022,04.[3] 盧亮 張博文. 搜索引擎原理、實踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2022,09.[4] 羅旭. 主題搜索引擎的設(shè)計與實現(xiàn)[M]. 北京:科學(xué)出版社,2022,03.[5] 聶哲. 基于 WEB 的面向主題搜索引擎的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2022,02.[6] 佘正平. 搜索引擎的關(guān)鍵詞分析與處理[J].情報探索,2022,05.[7] 車東. 基于 Java 的全文搜索引擎 Lucene[M]. 北京:電子工業(yè)出版社,2022,05.[8] 何會民 韓東霞. 基于 Lucene 的網(wǎng)絡(luò)新聞搜索引擎研究與實現(xiàn)[J]. 商場現(xiàn)代化,2022,09.[9] 曾偉輝. 深層網(wǎng)絡(luò)爬蟲研究綜述[J]. 計算機系統(tǒng)應(yīng)用,2022,05.[10] 房志峰. 中文搜索引擎中的分詞技術(shù)研究[J]. ,09.[11] ??藸?著(美) ,陳昊鵬 譯. JAVA 編程思想[M]. 北京:機械工業(yè)出版社,2022,06.致 謝在此論文完成之際,我的大學(xué)生活即將結(jié)束。雖然在新聞搜索中并沒有應(yīng)用到搜索策略,但是對于 WWW 搜索引擎來說,搜索策略是極其重要的。介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器,使得用戶通過瀏覽器進行新聞的搜索,最后還對 Tomcat 如何部署進行了說明。所以提出了使用全文搜索引擎 Lucene 進行索引、搜索。在進行海量數(shù)據(jù)搜索時,如果使用單純的數(shù)據(jù)庫技術(shù),那將是非常痛苦的。首先介紹了網(wǎng)絡(luò)機器人的基本概念,然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種互相促進的關(guān)系:一個好的中心網(wǎng)頁必然要有超鏈接指向多個權(quán)威網(wǎng)頁;一個好的權(quán)威網(wǎng)頁反過來也必然被多個中心網(wǎng)頁所鏈接。由中心網(wǎng)頁出發(fā),輕而易舉的就會到達大量的權(quán)威網(wǎng)頁。中心網(wǎng)頁:是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。主題搜索引擎一個很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁,并為他們建立索引。其重要性和權(quán)威性主要體現(xiàn)在以下兩點:(1)從單個網(wǎng)頁來看,它的網(wǎng)頁內(nèi)容本身對于這個給定主題來說是重要的;(2)從這個網(wǎng)頁在整個互聯(lián)網(wǎng)重的地位來看,這個網(wǎng)頁是被其他網(wǎng)頁承認為權(quán)威的,這主要體現(xiàn)在跟這個主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個網(wǎng)頁。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上,對于網(wǎng)頁評分越高的網(wǎng)頁,就排的越前。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁鏈接權(quán)值。按照以上的用戶行為模型,每個網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。它們提出了一個“隨機沖浪”模型來描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。 網(wǎng)頁評級在考慮一個網(wǎng)頁被另一個網(wǎng)頁的引用時候,不是單純的將被引用網(wǎng)頁的Hit Number 加一,而是將引用網(wǎng)頁的連接數(shù)作為權(quán),同時將該引用網(wǎng)頁的重要性也考慮進來(看看上面提到的例子,Yahoo!引用的網(wǎng)頁顯然比個人網(wǎng)站引用的網(wǎng)頁重要,因為 Yahoo!本身很重要) ,就可以得到擴展后的網(wǎng)頁評分。搜索器在向主控程序獲得 URL 的時候也是按照權(quán)值由高到低的順序。 面向主題的搜索策略 導(dǎo)向詞導(dǎo)向詞就是一組關(guān)鍵詞,它們會引導(dǎo)搜索器按照一定順序搜索整個網(wǎng)絡(luò),使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關(guān)的信息。針對這種情況,我們需要一個分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。4 搜索引擎策略 簡介隨著信息多元化的增長,千篇一律的給所有用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。你在瀏覽器中訪問這個應(yīng)用的 Jsp 時,通常第一次會很慢,因為 Tomcat 要將 Jsp 轉(zhuǎn)化為Servlet 文件,然后編譯。通常這些所依賴的類也可以打包成JAR 放到 WEBINF 下的 lib 目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會有一個 WEBINF 目錄,這個目錄很重要。 在 Tomcat 上部署項目Tomcat 中的應(yīng)用程序是一個 WAR(Web Archive)文件。Tomcat 由 ApacheJakarta 子項目支持并由來自開放性源代碼 Java 社區(qū)的志愿者進行維護。Web 服務(wù)器如何工作:在 Web 頁面處理中大致可分為三個步驟,第一步,Web 瀏覽器向一個特定的服務(wù)器發(fā)出 Web 頁面請求;第二步,Web 服務(wù)器接收到 Web 頁面請求后,尋找所請求的 Web 頁面,并將所請求的 Web 頁面?zhèn)魉徒o Web 瀏覽器;第三步,Web 服務(wù)器接收到所請求的 Web 頁面,并將它顯示出來。 } catch (Exception e) { } } return temp。 } } /** * 解決 java 中的中文問題 * param str 輸入的中文 * return 經(jīng)過解碼的中文 */ public static String input(String str) { String temp = null。 ()。 n++。 String _title = input(().trim())。 while (()) { Link _link = (Link) ()。 Iterator _it = ()。 Vector _links = ()。 } /** * 對 Web 頁面進行解析后建立索引 */ public void start() { try { HTMLPage _page = new HTMLPage(_)。public class HTMLParse { HTTP _ = null。import 。import 。HTMLPage 構(gòu)造函數(shù) 構(gòu)造對象并指定用于通訊的 HTTP 對象Public HTMLPage(HTTP )GetForms 方法 獲取最后一次調(diào)用 Open 方法檢索到的表單清單Public Vector getForms()GetHTTP 方法 獲取發(fā)送給構(gòu)造函數(shù)的 HTTP 對象Public HTTP getHTTP()GetImage 方法 獲取指定頁面的圖片清單Public Vector getImage()GetLinks 方法 獲取指定頁面的連接清單Public Vector getLinks()Open 方法 打開一個頁面并讀入該頁面,若指定了回調(diào)對象則給出所有該對象數(shù)據(jù)Public void open(String url, a)代碼分析如下:package news。Bot 包中的 HTMLPage 類用來從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。表格標(biāo)簽:表格是 HTML 的構(gòu)成部分,通常用來格式化存放、顯示數(shù)據(jù)。表單標(biāo)簽:表單是 Web 頁面中可以輸入數(shù)據(jù)的單元。圖像映射標(biāo)簽:圖像映射是另一種非常重要的標(biāo)簽。超連接標(biāo)簽:超連接定義了 WWW 通過 Inter 鏈接文檔的功能。(4)開始標(biāo)簽和結(jié)束標(biāo)簽:用來控制所包含的 HTML 代碼。(2)注釋:程序員留下的說明文字,對用戶是不可見的。在解決如何解析之前,先來介紹下 HTML中的幾種數(shù)據(jù)。 }}然后構(gòu)造一個 HTML 解析類,把通過 bot 程序收集的新聞內(nèi)容進行索引。 } /** * 優(yōu)化并且清理資源 * throws */ void close() throws Exception { ()。 ((url, url))。 } /** * 把每條新聞加入索引中 * param url 新聞的 url * param title 新聞的標(biāo)題 * throws */ void AddNews(String url, String title) throws Exception { Document _doc = new Document()。public class Index { IndexWriter _writer = null。import 。import 。代碼分析如下:package news。如果不運行 tomcat 服務(wù)器是搜索不到新聞的。先進入 的安裝目錄下你所使用的 tomcat 文件夾,運行文件夾里的 ,這樣就啟動了 自帶的 tomcat 服務(wù)器。先在 C 盤新建一個 News文件夾,再在 News 下面新建一個 index 子文件夾,這一步是必需要的,因為這個文件夾是用來保存搜索到的結(jié)果。 // Query 是一個抽象類 Query query = (line, title, analyzer)。 // 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer()。Servlet 是位于 Web 服
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1