freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)-資料下載頁(yè)

2025-06-19 17:55本頁(yè)面
  

【正文】 頁(yè)面請(qǐng)求后,尋找所請(qǐng)求的 Web 頁(yè)面,并將所請(qǐng)求的 Web 頁(yè)面?zhèn)魉徒o Web 瀏覽器;第三步,Web 服務(wù)器接收到所請(qǐng)求的 Web 頁(yè)面,并將它顯示出來(lái)。Tomcat 是一個(gè)開(kāi)放源代碼、運(yùn)行 servlet 和 JSP Web 應(yīng)用軟件的基于 Java 的 Web 應(yīng)用軟件容器。Tomcat 由 ApacheJakarta 子項(xiàng)目支持并由來(lái)自開(kāi)放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。Tomcat Server 是根據(jù) servlet 和 JSP 規(guī)范進(jìn)行執(zhí)行的,因此我們就可以說(shuō)Tomcat Server 也實(shí)行了 ApacheJakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。一個(gè)良好的查詢(xún)界面非常重要,例如 Googl 就以她簡(jiǎn)潔的查詢(xún)界面而聞名。我在設(shè)計(jì)的時(shí)候也充分考慮了實(shí)用性和簡(jiǎn)潔性。查詢(xún)界面截圖如下: 搜索結(jié)果截圖如下:主要利用 JavaTM Servlet 技術(shù)實(shí)現(xiàn),用戶(hù)通過(guò) GET 方法從客戶(hù)端向服務(wù)端提交查詢(xún)條件,服務(wù)端通過(guò) Tomcat 的 Servlet 容器接受并分析提交參數(shù),再調(diào)用 lucene 的開(kāi)發(fā)包進(jìn)行搜索操作。最后把搜索的結(jié)果以 HTTP 消息包的形式發(fā)送至客戶(hù)端,從而完成一次搜索操作。服務(wù)端 Servlet 程序的結(jié)構(gòu)如下:實(shí)現(xiàn)的關(guān)鍵代碼如下:public void Search(String qc, PrintWriter out) throws Exception { // 從索引目錄創(chuàng)建索引 IndexSearcher _searcher = new IndexSearcher(c:\\news\\index)。 // 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer()。 // 查詢(xún)條件 String line = qc。 // Query是一個(gè)抽象類(lèi) Query query = (line, title, analyzer)。 (html)。 (headtitle搜索結(jié)果/title/head)。 (body bgcolor=ffffff)。 (center + form action=39。/NewsServer/results39。 method=39。get39。 + font face=39。華文中宋39。 color=39。3399FF39。新聞搜索引擎/font: + input type=39。text39。 name=39。QueryContent39。 size=39。2039。 + input type=39。submit39。 name=39。submit39。 value=39。開(kāi)始搜索39。 + /form/center )。 (p搜索關(guān)鍵字: font color=red + (title) + /font/p)。 Hits hits = (query)。 ( 總共找到font color=red + () + /font條新聞br)。 final int HITS_PER_PAGE = 10。 for (int start = 0。 start ()。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 for (int i = start。 i end。 i++) { Document doc = (i)。 String url = (url)。 if (url != null) { ( (i + 1) + a href=39。 + url + 39。 + replace((title), qc) + /abr)。} else { (沒(méi)有找到!)。} }} (/body/html)。 ()。 }。 Tomcat 上部署項(xiàng)目Tomcat 中的應(yīng)用程序是一個(gè) WAR(Web Archive)文件。WAR 是 Sun 提出的一種Web 應(yīng)用程序格式,與 JAR 類(lèi)似,也是許多文件的一個(gè)壓縮包。這個(gè)包中的文件按一定目錄結(jié)構(gòu)來(lái)組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會(huì)有一個(gè) WEBINF 目錄,這個(gè)目錄很重要。通常在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, 是這個(gè)應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的Servlet 類(lèi)和 Jsp 或 Servlet 所依賴(lài)的其它類(lèi)(如 JavaBean) 。通常這些所依賴(lài)的類(lèi)也可以打包成 JAR 放到 WEBINF 下的 lib 目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下,Tomcat 會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。你在瀏覽器中訪(fǎng)問(wèn)這個(gè)應(yīng)用的 Jsp 時(shí),通常第一次會(huì)很慢,因?yàn)?Tomcat 要將 Jsp 轉(zhuǎn)化為 Servlet 文件,然后編譯。編譯以后,訪(fǎng)問(wèn)將會(huì)很快。本章中詳細(xì)介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器,使得用戶(hù)通過(guò)瀏覽器進(jìn)行新聞的搜索,最后還對(duì) Tomcat 如何部署進(jìn)行了說(shuō)明。第六章 搜索引擎策略隨著信息多元化的增長(zhǎng),千篇一律的給所有用戶(hù)同一個(gè)入口顯然已經(jīng)不能滿(mǎn)足特定用戶(hù)更深入的查詢(xún)需求。同時(shí),這樣的通用搜索引擎在目前的硬件條件下,要及時(shí)更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對(duì)這種情況,我們需要一個(gè)分類(lèi)細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。由于主題搜索運(yùn)用了人工分類(lèi)以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準(zhǔn)確,我們將這類(lèi)完善的主題搜索引擎稱(chēng)為第四代搜索引擎。導(dǎo)向詞就是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面得到最全面的跟某一個(gè)主題相關(guān)的信息。通過(guò)設(shè)置導(dǎo)向詞以及它們對(duì)應(yīng)的不同權(quán)值,所有標(biāo)題、作者、正文或超連接文本中含有某一導(dǎo)向詞的網(wǎng)頁(yè)都會(huì)被賦予較高的權(quán)值,在搜索的時(shí)候會(huì)優(yōu)先考慮。搜索器在向主控程序獲得 URL 的時(shí)候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的 URL 和它的權(quán)值的時(shí)候,主控程序會(huì)按照權(quán)值預(yù)先排序,以便下一次有序的發(fā)給搜索器。在考慮一個(gè)網(wǎng)頁(yè)被另一個(gè)網(wǎng)頁(yè)的引用時(shí)候,不是單純的將被引用網(wǎng)頁(yè)的 Hit Number加一,而是將引用網(wǎng)頁(yè)的連接數(shù)作為權(quán),同時(shí)將該引用網(wǎng)頁(yè)的重要性也考慮進(jìn)來(lái)(看看上面提到的例子,Yahoo!引用的網(wǎng)頁(yè)顯然比個(gè)人網(wǎng)站引用的網(wǎng)頁(yè)重要,因?yàn)?Yahoo!本身很重要) ,就可以得到擴(kuò)展后的網(wǎng)頁(yè)評(píng)分。最早提出網(wǎng)頁(yè)評(píng)分的計(jì)算方法是 Google。它們提出了一個(gè)“隨機(jī)沖浪”模型來(lái)描述網(wǎng)絡(luò)用戶(hù)對(duì)網(wǎng)頁(yè)的訪(fǎng)問(wèn)行為。模型假設(shè)如下:1) 用戶(hù)隨機(jī)的選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè);2) 看完這個(gè)網(wǎng)頁(yè)后,從該網(wǎng)頁(yè)內(nèi)所含的超鏈內(nèi)隨機(jī)的選擇一個(gè)頁(yè)面繼續(xù)進(jìn)行瀏覽;3) 沿著超鏈前進(jìn)了一定數(shù)目的網(wǎng)頁(yè)后,用戶(hù)對(duì)這個(gè)主題感到厭倦,重新隨機(jī)選擇一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽,并重復(fù) 2和 3。按照以上的用戶(hù)行為模型,每個(gè)網(wǎng)頁(yè)可能被訪(fǎng)問(wèn)到的次數(shù)就是該網(wǎng)頁(yè)的鏈接權(quán)值。如何計(jì)算這個(gè)權(quán)值呢?PageRank 采用以下公式進(jìn)行計(jì)算: ?????Njiij nWldW,1,)(其中 Wj代表第 j個(gè)網(wǎng)頁(yè)的權(quán)值; lij只取 0、1 值,代表從網(wǎng)頁(yè) i到網(wǎng)頁(yè) j是否存在鏈接;n i代表網(wǎng)頁(yè) i有多少個(gè)鏈向其它網(wǎng)頁(yè)的鏈接;d 代表“隨機(jī)沖浪”中沿著鏈接訪(fǎng)問(wèn)網(wǎng)頁(yè)的平均次數(shù)。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁(yè)鏈接權(quán)值。該方法能夠大幅度的提高簡(jiǎn)單檢索返回結(jié)果的質(zhì)量,同時(shí)能夠有效的防止網(wǎng)頁(yè)編寫(xiě)者對(duì)搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶(hù)的網(wǎng)頁(yè)排序上,對(duì)于網(wǎng)頁(yè)評(píng)分越高的網(wǎng)頁(yè),就排的越前。權(quán)威網(wǎng)頁(yè)顧名思義,是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁(yè)。其重要性和權(quán)威性主要體現(xiàn)在以下兩點(diǎn):1) 從單個(gè)網(wǎng)頁(yè)來(lái)看,它的網(wǎng)頁(yè)內(nèi)容本身對(duì)于這個(gè)給定主題來(lái)說(shuō)是重要的;2) 從這個(gè)網(wǎng)頁(yè)在整個(gè)互聯(lián)網(wǎng)重的地位來(lái)看,這個(gè)網(wǎng)頁(yè)是被其他網(wǎng)頁(yè)承認(rèn)為權(quán)威的,這主要體現(xiàn)在跟這個(gè)主題相關(guān)的很多網(wǎng)頁(yè)都有鏈接指向這個(gè)網(wǎng)頁(yè)。由此可見(jiàn),權(quán)威網(wǎng)頁(yè)對(duì)于主題搜索引擎的實(shí)現(xiàn)有很重大的意義。主題搜索引擎一個(gè)很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無(wú)數(shù)的網(wǎng)頁(yè)之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁(yè),并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。中心網(wǎng)頁(yè)是包含很多指向權(quán)威網(wǎng)頁(yè)的超鏈接的網(wǎng)頁(yè)。最典型中心網(wǎng)頁(yè)的一個(gè)例子是 Yahoo!,它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁(yè),使得它兼任了很多主題的中心網(wǎng)頁(yè)。由中心網(wǎng)頁(yè)出發(fā),輕而易舉的就會(huì)到達(dá)大量的權(quán)威網(wǎng)頁(yè)。因此,它對(duì)于主題搜索引擎的實(shí)現(xiàn)也起了很大的意義。權(quán)威網(wǎng)頁(yè)和中心網(wǎng)頁(yè)之間是一種互相促進(jìn)的關(guān)系:一個(gè)好的中心網(wǎng)頁(yè)必然要有超鏈接指向多個(gè)權(quán)威網(wǎng)頁(yè);一個(gè)好的權(quán)威網(wǎng)頁(yè)反過(guò)來(lái)也必然被多個(gè)中心網(wǎng)頁(yè)所鏈接。本章介紹了面向主題的搜索策略,并作了詳細(xì)闡述。雖然在新聞搜索中并沒(méi)有應(yīng)用到搜索策略,但是對(duì)于 WWW 搜索引擎來(lái)說(shuō),搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。參考文獻(xiàn)文獻(xiàn)資料① 《Programming Spiders,Bots,and Aggregator in Java》[美]Jeff Heaton 著② 《搜索引擎與信息獲取技術(shù)》徐寶文、張衛(wèi)豐著③ 《基于 Java 的全文搜索引擎 Lucene》車(chē)東著④ 《主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)》羅旭著⑤ 《Thinking in Java 》[美]Bruce Eckel 著開(kāi)發(fā)工具、平臺(tái)及資源:① Borland Jbuilder 9② Sun JDK ③ Jakarta Tomcat ④ Jakarta Lucene⑤ Package Bot感謝:源碼愛(ài)好者(⑥
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1