freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

2025-06-23 07:09本頁(yè)面
  

【正文】 m str 輸入的中文 * @return 經(jīng)過(guò)解碼的中文 */ public static String input(String str) { String temp = null。 if (str != null) { try { temp = new String((ISO8859_1))。 } catch (Exception e) { } } return temp。 }} 基于 Tomcat 的 Web 服務(wù)器Web 服務(wù)器是在網(wǎng)絡(luò)中為實(shí)現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺(tái)的服務(wù)器。Web 服務(wù)器如何工作:在 Web 頁(yè)面處理中大致可分為三個(gè)步驟,第一步,Web 瀏覽器向一個(gè)特定的服務(wù)器發(fā)出 Web 頁(yè)面請(qǐng)求;第二步,Web 服務(wù)器接收到 Web 頁(yè)面請(qǐng)求后,尋找所請(qǐng)求的 Web 頁(yè)面,并將所請(qǐng)求的 Web 頁(yè)面?zhèn)魉徒o Web 瀏覽器;第三步,Web 服務(wù)器接收到所請(qǐng)求的 Web 頁(yè)面,并將它顯示出來(lái)。Tomcat 是一個(gè)開放源代碼、運(yùn)行 servlet 和 JSP Web 應(yīng)用軟件的基于 Java的 Web 應(yīng)用軟件容器。Tomcat 由 ApacheJakarta 子項(xiàng)目支持并由來(lái)自開放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。Tomcat Server 是根據(jù) servlet 和 JSP 規(guī)范進(jìn)行執(zhí)行的,因此我們就可以說(shuō) Tomcat Server 也實(shí)行了 ApacheJakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。 在 Tomcat 上部署項(xiàng)目Tomcat 中的應(yīng)用程序是一個(gè) WAR(Web Archive)文件。WAR 是 Sun 提出的一種 Web 應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個(gè)壓縮包。這個(gè)包中的文件按一定目錄結(jié)構(gòu)來(lái)組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會(huì)有一個(gè) WEBINF 目錄,這個(gè)目錄很重要。通常在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, 是這個(gè)應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的 Servlet 類和 Jsp 或Servlet 所依賴的其它類(如 JavaBean) 。通常這些所依賴的類也可以打包成JAR 放到 WEBINF 下的 lib 目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的程序放到 Tomcat 的webapp 目錄下,Tomcat 會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。你在瀏覽器中訪問(wèn)這個(gè)應(yīng)用的 Jsp 時(shí),通常第一次會(huì)很慢,因?yàn)?Tomcat 要將 Jsp 轉(zhuǎn)化為Servlet 文件,然后編譯。編譯以后,訪問(wèn)將會(huì)很快。4 搜索引擎策略 簡(jiǎn)介隨著信息多元化的增長(zhǎng),千篇一律的給所有用戶同一個(gè)入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時(shí),這樣的通用搜索引擎在目前的硬件條件下,要及時(shí)更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對(duì)這種情況,我們需要一個(gè)分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。由于主題搜索運(yùn)用了人工分類以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準(zhǔn)確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。 面向主題的搜索策略 導(dǎo)向詞導(dǎo)向詞就是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面得到最全面的跟某一個(gè)主題相關(guān)的信息。通過(guò)設(shè)置導(dǎo)向詞以及它們對(duì)應(yīng)的不同權(quán)值,所有標(biāo)題、作者、正文或超連接文本中含有某一導(dǎo)向詞的網(wǎng)頁(yè)都會(huì)被賦予較高的權(quán)值,在搜索的時(shí)候會(huì)優(yōu)先考慮。搜索器在向主控程序獲得 URL 的時(shí)候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的 URL 和它的權(quán)值的時(shí)候,主控程序會(huì)按照權(quán)值預(yù)先排序,以便下一次有序的發(fā)給搜索器。 網(wǎng)頁(yè)評(píng)級(jí)在考慮一個(gè)網(wǎng)頁(yè)被另一個(gè)網(wǎng)頁(yè)的引用時(shí)候,不是單純的將被引用網(wǎng)頁(yè)的Hit Number 加一,而是將引用網(wǎng)頁(yè)的連接數(shù)作為權(quán),同時(shí)將該引用網(wǎng)頁(yè)的重要性也考慮進(jìn)來(lái)(看看上面提到的例子,Yahoo!引用的網(wǎng)頁(yè)顯然比個(gè)人網(wǎng)站引用的網(wǎng)頁(yè)重要,因?yàn)?Yahoo!本身很重要) ,就可以得到擴(kuò)展后的網(wǎng)頁(yè)評(píng)分。最早提出網(wǎng)頁(yè)評(píng)分的計(jì)算方法是 Google。它們提出了一個(gè)“隨機(jī)沖浪”模型來(lái)描述網(wǎng)絡(luò)用戶對(duì)網(wǎng)頁(yè)的訪問(wèn)行為。模型假設(shè)如下:(1)用戶隨機(jī)的選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè);(2)看完這個(gè)網(wǎng)頁(yè)后,從該網(wǎng)頁(yè)內(nèi)所含的超鏈內(nèi)隨機(jī)的選擇一個(gè)頁(yè)面繼續(xù)進(jìn)行瀏覽;(3)沿著超鏈前進(jìn)了一定數(shù)目的網(wǎng)頁(yè)后,用戶對(duì)這個(gè)主題感到厭倦,重新隨機(jī)選擇一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽,并重復(fù) 2 和 3。按照以上的用戶行為模型,每個(gè)網(wǎng)頁(yè)可能被訪問(wèn)到的次數(shù)就是該網(wǎng)頁(yè)的鏈接權(quán)值。如何計(jì)算這個(gè)權(quán)值呢?PageRank 采用以下公式進(jìn)行計(jì)算:?????Njiij nWldW,1,)(其中 Wj 代表第 j 個(gè)網(wǎng)頁(yè)的權(quán)值;lij 只取 0、1 值,代表從網(wǎng)頁(yè) i 到網(wǎng)頁(yè)j 是否存在鏈接;ni 代表網(wǎng)頁(yè) i 有多少個(gè)鏈向其它網(wǎng)頁(yè)的鏈接;d 代表“隨機(jī)沖浪”中沿著鏈接訪問(wèn)網(wǎng)頁(yè)的平均次數(shù)。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁(yè)鏈接權(quán)值。該方法能夠大幅度的提高簡(jiǎn)單檢索返回結(jié)果的質(zhì)量,同時(shí)能夠有效的防止網(wǎng)頁(yè)編寫者對(duì)搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁(yè)排序上,對(duì)于網(wǎng)頁(yè)評(píng)分越高的網(wǎng)頁(yè),就排的越前。 權(quán)威網(wǎng)頁(yè)和中心網(wǎng)頁(yè)權(quán)威網(wǎng)頁(yè):顧名思義,是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁(yè)。其重要性和權(quán)威性主要體現(xiàn)在以下兩點(diǎn):(1)從單個(gè)網(wǎng)頁(yè)來(lái)看,它的網(wǎng)頁(yè)內(nèi)容本身對(duì)于這個(gè)給定主題來(lái)說(shuō)是重要的;(2)從這個(gè)網(wǎng)頁(yè)在整個(gè)互聯(lián)網(wǎng)重的地位來(lái)看,這個(gè)網(wǎng)頁(yè)是被其他網(wǎng)頁(yè)承認(rèn)為權(quán)威的,這主要體現(xiàn)在跟這個(gè)主題相關(guān)的很多網(wǎng)頁(yè)都有鏈接指向這個(gè)網(wǎng)頁(yè)。由此可見,權(quán)威網(wǎng)頁(yè)對(duì)于主題搜索引擎的實(shí)現(xiàn)有很重大的意義。主題搜索引擎一個(gè)很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無(wú)數(shù)的網(wǎng)頁(yè)之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁(yè),并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。中心網(wǎng)頁(yè):是包含很多指向權(quán)威網(wǎng)頁(yè)的超鏈接的網(wǎng)頁(yè)。最典型中心網(wǎng)頁(yè)的一個(gè)例子是 Yahoo!,它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁(yè),使得它兼任了很多主題的中心網(wǎng)頁(yè)。由中心網(wǎng)頁(yè)出發(fā),輕而易舉的就會(huì)到達(dá)大量的權(quán)威網(wǎng)頁(yè)。因此,它對(duì)于主題搜索引擎的實(shí)現(xiàn)也起了很大的意義。權(quán)威網(wǎng)頁(yè)和中心網(wǎng)頁(yè)之間是一種互相促進(jìn)的關(guān)系:一個(gè)好的中心網(wǎng)頁(yè)必然要有超鏈接指向多個(gè)權(quán)威網(wǎng)頁(yè);一個(gè)好的權(quán)威網(wǎng)頁(yè)反過(guò)來(lái)也必然被多個(gè)中心網(wǎng)頁(yè)所鏈接。結(jié) 論以上對(duì)基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的搜索引擎——新聞搜索引擎。首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念,然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。在最后還結(jié)合具體代碼進(jìn)行了詳細(xì)說(shuō)明。在進(jìn)行海量數(shù)據(jù)搜索時(shí),如果使用單純的數(shù)據(jù)庫(kù)技術(shù),那將是非常痛苦的。速度將是極大的瓶頸。所以提出了使用全文搜索引擎 Lucene 進(jìn)行索引、搜索。還結(jié)合了具體代碼說(shuō)明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來(lái)實(shí)現(xiàn)新聞搜索的功能。介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器,使得用戶通過(guò)瀏覽器進(jìn)行新聞的搜索,最后還對(duì) Tomcat 如何部署進(jìn)行了說(shuō)明。最后介紹了面向主題的搜索策略,并作了詳細(xì)闡述。雖然在新聞搜索中并沒(méi)有應(yīng)用到搜索策略,但是對(duì)于 WWW 搜索引擎來(lái)說(shuō),搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。參考文獻(xiàn)[1] 徐寶文 張衛(wèi)豐. 搜索引擎與信息獲取技術(shù)[M]. 北京:清華大學(xué)出版社,2022,04.[2] 李曉明 閆宏飛 王繼民. 搜索引擎:原理、技術(shù)與系統(tǒng)[M]. 北京:科學(xué)出版社,2022,04.[3] 盧亮 張博文. 搜索引擎原理、實(shí)踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2022,09.[4] 羅旭. 主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[M]. 北京:科學(xué)出版社,2022,03.[5] 聶哲. 基于 WEB 的面向主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,02.[6] 佘正平. 搜索引擎的關(guān)鍵詞分析與處理[J].情報(bào)探索,2022,05.[7] 車東. 基于 Java 的全文搜索引擎 Lucene[M]. 北京:電子工業(yè)出版社,2022,05.[8] 何會(huì)民 韓東霞. 基于 Lucene 的網(wǎng)絡(luò)新聞搜索引擎研究與實(shí)現(xiàn)[J]. 商場(chǎng)現(xiàn)代化,2022,09.[9] 曾偉輝. 深層網(wǎng)絡(luò)爬蟲研究綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,05.[10] 房志峰. 中文搜索引擎中的分詞技術(shù)研究[J]. ,09.[11] ??藸?著(美) ,陳昊鵬 譯. JAVA 編程思想[M]. 北京:機(jī)械工業(yè)出版社,2022,06.致 謝在此論文完成之際,我的大學(xué)生活即將結(jié)束。在這三四年的學(xué)習(xí)生活中,我不但在學(xué)業(yè)上受益匪淺,而且養(yǎng)成了嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度。首先,要感謝我的導(dǎo)師曾 怡老師。本論文從立意選題、觀點(diǎn)的舍取到文章思路的梳理直至觀點(diǎn)的形成,曾老師都嚴(yán)格把關(guān),精心推敲,不斷從內(nèi)容和形式上豐富和完善了我的研究成果。文章初稿完成之后,曾老師又認(rèn)真審閱、修改,對(duì)此我表示深深的敬意和由衷的感謝。其次,還要感謝在大學(xué)期間所有給我上過(guò)課的老師,是他們引領(lǐng)我在專業(yè)領(lǐng)域探索前行,廣博地汲取專業(yè)知識(shí)和信息。同時(shí),還要感謝所有幫助過(guò)我的老師、同學(xué)們和家人,為我在論文寫作中提供了諸多幫助和支持。由于本人的研究水平有限,文中不足之處在所難免,懇請(qǐng)各位老師和同學(xué)們批
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1