freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的搜索引擎的設(shè)計與實現(xiàn)-資料下載頁

2025-06-23 07:09本頁面
  

【正文】 m str 輸入的中文 * @return 經(jīng)過解碼的中文 */ public static String input(String str) { String temp = null。 if (str != null) { try { temp = new String((ISO8859_1))。 } catch (Exception e) { } } return temp。 }} 基于 Tomcat 的 Web 服務(wù)器Web 服務(wù)器是在網(wǎng)絡(luò)中為實現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺的服務(wù)器。Web 服務(wù)器如何工作:在 Web 頁面處理中大致可分為三個步驟,第一步,Web 瀏覽器向一個特定的服務(wù)器發(fā)出 Web 頁面請求;第二步,Web 服務(wù)器接收到 Web 頁面請求后,尋找所請求的 Web 頁面,并將所請求的 Web 頁面?zhèn)魉徒o Web 瀏覽器;第三步,Web 服務(wù)器接收到所請求的 Web 頁面,并將它顯示出來。Tomcat 是一個開放源代碼、運行 servlet 和 JSP Web 應(yīng)用軟件的基于 Java的 Web 應(yīng)用軟件容器。Tomcat 由 ApacheJakarta 子項目支持并由來自開放性源代碼 Java 社區(qū)的志愿者進行維護。Tomcat Server 是根據(jù) servlet 和 JSP 規(guī)范進行執(zhí)行的,因此我們就可以說 Tomcat Server 也實行了 ApacheJakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。 在 Tomcat 上部署項目Tomcat 中的應(yīng)用程序是一個 WAR(Web Archive)文件。WAR 是 Sun 提出的一種 Web 應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個壓縮包。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會有一個 WEBINF 目錄,這個目錄很重要。通常在 WEBINF 目錄下有一個 文件和一個 classes 目錄, 是這個應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的 Servlet 類和 Jsp 或Servlet 所依賴的其它類(如 JavaBean) 。通常這些所依賴的類也可以打包成JAR 放到 WEBINF 下的 lib 目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。在 Tomcat 中,應(yīng)用程序的部署很簡單,你只需將你的程序放到 Tomcat 的webapp 目錄下,Tomcat 會自動檢測到這個文件,并將其解壓。你在瀏覽器中訪問這個應(yīng)用的 Jsp 時,通常第一次會很慢,因為 Tomcat 要將 Jsp 轉(zhuǎn)化為Servlet 文件,然后編譯。編譯以后,訪問將會很快。4 搜索引擎策略 簡介隨著信息多元化的增長,千篇一律的給所有用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,我們需要一個分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。由于主題搜索運用了人工分類以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。 面向主題的搜索策略 導(dǎo)向詞導(dǎo)向詞就是一組關(guān)鍵詞,它們會引導(dǎo)搜索器按照一定順序搜索整個網(wǎng)絡(luò),使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關(guān)的信息。通過設(shè)置導(dǎo)向詞以及它們對應(yīng)的不同權(quán)值,所有標(biāo)題、作者、正文或超連接文本中含有某一導(dǎo)向詞的網(wǎng)頁都會被賦予較高的權(quán)值,在搜索的時候會優(yōu)先考慮。搜索器在向主控程序獲得 URL 的時候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的 URL 和它的權(quán)值的時候,主控程序會按照權(quán)值預(yù)先排序,以便下一次有序的發(fā)給搜索器。 網(wǎng)頁評級在考慮一個網(wǎng)頁被另一個網(wǎng)頁的引用時候,不是單純的將被引用網(wǎng)頁的Hit Number 加一,而是將引用網(wǎng)頁的連接數(shù)作為權(quán),同時將該引用網(wǎng)頁的重要性也考慮進來(看看上面提到的例子,Yahoo!引用的網(wǎng)頁顯然比個人網(wǎng)站引用的網(wǎng)頁重要,因為 Yahoo!本身很重要) ,就可以得到擴展后的網(wǎng)頁評分。最早提出網(wǎng)頁評分的計算方法是 Google。它們提出了一個“隨機沖浪”模型來描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。模型假設(shè)如下:(1)用戶隨機的選擇一個網(wǎng)頁作為上網(wǎng)的起始網(wǎng)頁;(2)看完這個網(wǎng)頁后,從該網(wǎng)頁內(nèi)所含的超鏈內(nèi)隨機的選擇一個頁面繼續(xù)進行瀏覽;(3)沿著超鏈前進了一定數(shù)目的網(wǎng)頁后,用戶對這個主題感到厭倦,重新隨機選擇一個網(wǎng)頁進行瀏覽,并重復(fù) 2 和 3。按照以上的用戶行為模型,每個網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。如何計算這個權(quán)值呢?PageRank 采用以下公式進行計算:?????Njiij nWldW,1,)(其中 Wj 代表第 j 個網(wǎng)頁的權(quán)值;lij 只取 0、1 值,代表從網(wǎng)頁 i 到網(wǎng)頁j 是否存在鏈接;ni 代表網(wǎng)頁 i 有多少個鏈向其它網(wǎng)頁的鏈接;d 代表“隨機沖浪”中沿著鏈接訪問網(wǎng)頁的平均次數(shù)。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁鏈接權(quán)值。該方法能夠大幅度的提高簡單檢索返回結(jié)果的質(zhì)量,同時能夠有效的防止網(wǎng)頁編寫者對搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上,對于網(wǎng)頁評分越高的網(wǎng)頁,就排的越前。 權(quán)威網(wǎng)頁和中心網(wǎng)頁權(quán)威網(wǎng)頁:顧名思義,是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁。其重要性和權(quán)威性主要體現(xiàn)在以下兩點:(1)從單個網(wǎng)頁來看,它的網(wǎng)頁內(nèi)容本身對于這個給定主題來說是重要的;(2)從這個網(wǎng)頁在整個互聯(lián)網(wǎng)重的地位來看,這個網(wǎng)頁是被其他網(wǎng)頁承認為權(quán)威的,這主要體現(xiàn)在跟這個主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個網(wǎng)頁。由此可見,權(quán)威網(wǎng)頁對于主題搜索引擎的實現(xiàn)有很重大的意義。主題搜索引擎一個很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準的找出這些可數(shù)的權(quán)威網(wǎng)頁,并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。中心網(wǎng)頁:是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。最典型中心網(wǎng)頁的一個例子是 Yahoo!,它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁,使得它兼任了很多主題的中心網(wǎng)頁。由中心網(wǎng)頁出發(fā),輕而易舉的就會到達大量的權(quán)威網(wǎng)頁。因此,它對于主題搜索引擎的實現(xiàn)也起了很大的意義。權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種互相促進的關(guān)系:一個好的中心網(wǎng)頁必然要有超鏈接指向多個權(quán)威網(wǎng)頁;一個好的權(quán)威網(wǎng)頁反過來也必然被多個中心網(wǎng)頁所鏈接。結(jié) 論以上對基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進行了分析,本人實現(xiàn)了一個簡單的搜索引擎——新聞搜索引擎。首先介紹了網(wǎng)絡(luò)機器人的基本概念,然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。在最后還結(jié)合具體代碼進行了詳細說明。在進行海量數(shù)據(jù)搜索時,如果使用單純的數(shù)據(jù)庫技術(shù),那將是非常痛苦的。速度將是極大的瓶頸。所以提出了使用全文搜索引擎 Lucene 進行索引、搜索。還結(jié)合了具體代碼說明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來實現(xiàn)新聞搜索的功能。介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器,使得用戶通過瀏覽器進行新聞的搜索,最后還對 Tomcat 如何部署進行了說明。最后介紹了面向主題的搜索策略,并作了詳細闡述。雖然在新聞搜索中并沒有應(yīng)用到搜索策略,但是對于 WWW 搜索引擎來說,搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。參考文獻[1] 徐寶文 張衛(wèi)豐. 搜索引擎與信息獲取技術(shù)[M]. 北京:清華大學(xué)出版社,2022,04.[2] 李曉明 閆宏飛 王繼民. 搜索引擎:原理、技術(shù)與系統(tǒng)[M]. 北京:科學(xué)出版社,2022,04.[3] 盧亮 張博文. 搜索引擎原理、實踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2022,09.[4] 羅旭. 主題搜索引擎的設(shè)計與實現(xiàn)[M]. 北京:科學(xué)出版社,2022,03.[5] 聶哲. 基于 WEB 的面向主題搜索引擎的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2022,02.[6] 佘正平. 搜索引擎的關(guān)鍵詞分析與處理[J].情報探索,2022,05.[7] 車東. 基于 Java 的全文搜索引擎 Lucene[M]. 北京:電子工業(yè)出版社,2022,05.[8] 何會民 韓東霞. 基于 Lucene 的網(wǎng)絡(luò)新聞搜索引擎研究與實現(xiàn)[J]. 商場現(xiàn)代化,2022,09.[9] 曾偉輝. 深層網(wǎng)絡(luò)爬蟲研究綜述[J]. 計算機系統(tǒng)應(yīng)用,2022,05.[10] 房志峰. 中文搜索引擎中的分詞技術(shù)研究[J]. ,09.[11] ??藸?著(美) ,陳昊鵬 譯. JAVA 編程思想[M]. 北京:機械工業(yè)出版社,2022,06.致 謝在此論文完成之際,我的大學(xué)生活即將結(jié)束。在這三四年的學(xué)習(xí)生活中,我不但在學(xué)業(yè)上受益匪淺,而且養(yǎng)成了嚴謹?shù)闹螌W(xué)態(tài)度。首先,要感謝我的導(dǎo)師曾 怡老師。本論文從立意選題、觀點的舍取到文章思路的梳理直至觀點的形成,曾老師都嚴格把關(guān),精心推敲,不斷從內(nèi)容和形式上豐富和完善了我的研究成果。文章初稿完成之后,曾老師又認真審閱、修改,對此我表示深深的敬意和由衷的感謝。其次,還要感謝在大學(xué)期間所有給我上過課的老師,是他們引領(lǐng)我在專業(yè)領(lǐng)域探索前行,廣博地汲取專業(yè)知識和信息。同時,還要感謝所有幫助過我的老師、同學(xué)們和家人,為我在論文寫作中提供了諸多幫助和支持。由于本人的研究水平有限,文中不足之處在所難免,懇請各位老師和同學(xué)們批
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1