freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文搜索引擎的研究與實現(xiàn)-資料下載頁

2025-06-19 17:55本頁面
  

【正文】 頁面請求后,尋找所請求的 Web 頁面,并將所請求的 Web 頁面?zhèn)魉徒o Web 瀏覽器;第三步,Web 服務(wù)器接收到所請求的 Web 頁面,并將它顯示出來。Tomcat 是一個開放源代碼、運(yùn)行 servlet 和 JSP Web 應(yīng)用軟件的基于 Java 的 Web 應(yīng)用軟件容器。Tomcat 由 ApacheJakarta 子項目支持并由來自開放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。Tomcat Server 是根據(jù) servlet 和 JSP 規(guī)范進(jìn)行執(zhí)行的,因此我們就可以說Tomcat Server 也實行了 ApacheJakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。一個良好的查詢界面非常重要,例如 Googl 就以她簡潔的查詢界面而聞名。我在設(shè)計的時候也充分考慮了實用性和簡潔性。查詢界面截圖如下: 搜索結(jié)果截圖如下:主要利用 JavaTM Servlet 技術(shù)實現(xiàn),用戶通過 GET 方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過 Tomcat 的 Servlet 容器接受并分析提交參數(shù),再調(diào)用 lucene 的開發(fā)包進(jìn)行搜索操作。最后把搜索的結(jié)果以 HTTP 消息包的形式發(fā)送至客戶端,從而完成一次搜索操作。服務(wù)端 Servlet 程序的結(jié)構(gòu)如下:實現(xiàn)的關(guān)鍵代碼如下:public void Search(String qc, PrintWriter out) throws Exception { // 從索引目錄創(chuàng)建索引 IndexSearcher _searcher = new IndexSearcher(c:\\news\\index)。 // 創(chuàng)建標(biāo)準(zhǔn)分析器 Analyzer analyzer = new ChineseAnalyzer()。 // 查詢條件 String line = qc。 // Query是一個抽象類 Query query = (line, title, analyzer)。 (html)。 (headtitle搜索結(jié)果/title/head)。 (body bgcolor=ffffff)。 (center + form action=39。/NewsServer/results39。 method=39。get39。 + font face=39。華文中宋39。 color=39。3399FF39。新聞搜索引擎/font: + input type=39。text39。 name=39。QueryContent39。 size=39。2039。 + input type=39。submit39。 name=39。submit39。 value=39。開始搜索39。 + /form/center )。 (p搜索關(guān)鍵字: font color=red + (title) + /font/p)。 Hits hits = (query)。 ( 總共找到font color=red + () + /font條新聞br)。 final int HITS_PER_PAGE = 10。 for (int start = 0。 start ()。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 for (int i = start。 i end。 i++) { Document doc = (i)。 String url = (url)。 if (url != null) { ( (i + 1) + a href=39。 + url + 39。 + replace((title), qc) + /abr)。} else { (沒有找到!)。} }} (/body/html)。 ()。 }。 Tomcat 上部署項目Tomcat 中的應(yīng)用程序是一個 WAR(Web Archive)文件。WAR 是 Sun 提出的一種Web 應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個壓縮包。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會有一個 WEBINF 目錄,這個目錄很重要。通常在 WEBINF 目錄下有一個 文件和一個 classes 目錄, 是這個應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的Servlet 類和 Jsp 或 Servlet 所依賴的其它類(如 JavaBean) 。通常這些所依賴的類也可以打包成 JAR 放到 WEBINF 下的 lib 目錄下,當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。在 Tomcat 中,應(yīng)用程序的部署很簡單,你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下,Tomcat 會自動檢測到這個文件,并將其解壓。你在瀏覽器中訪問這個應(yīng)用的 Jsp 時,通常第一次會很慢,因為 Tomcat 要將 Jsp 轉(zhuǎn)化為 Servlet 文件,然后編譯。編譯以后,訪問將會很快。本章中詳細(xì)介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器,使得用戶通過瀏覽器進(jìn)行新聞的搜索,最后還對 Tomcat 如何部署進(jìn)行了說明。第六章 搜索引擎策略隨著信息多元化的增長,千篇一律的給所有用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,我們需要一個分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。由于主題搜索運(yùn)用了人工分類以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準(zhǔn)確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。導(dǎo)向詞就是一組關(guān)鍵詞,它們會引導(dǎo)搜索器按照一定順序搜索整個網(wǎng)絡(luò),使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關(guān)的信息。通過設(shè)置導(dǎo)向詞以及它們對應(yīng)的不同權(quán)值,所有標(biāo)題、作者、正文或超連接文本中含有某一導(dǎo)向詞的網(wǎng)頁都會被賦予較高的權(quán)值,在搜索的時候會優(yōu)先考慮。搜索器在向主控程序獲得 URL 的時候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的 URL 和它的權(quán)值的時候,主控程序會按照權(quán)值預(yù)先排序,以便下一次有序的發(fā)給搜索器。在考慮一個網(wǎng)頁被另一個網(wǎng)頁的引用時候,不是單純的將被引用網(wǎng)頁的 Hit Number加一,而是將引用網(wǎng)頁的連接數(shù)作為權(quán),同時將該引用網(wǎng)頁的重要性也考慮進(jìn)來(看看上面提到的例子,Yahoo!引用的網(wǎng)頁顯然比個人網(wǎng)站引用的網(wǎng)頁重要,因為 Yahoo!本身很重要) ,就可以得到擴(kuò)展后的網(wǎng)頁評分。最早提出網(wǎng)頁評分的計算方法是 Google。它們提出了一個“隨機(jī)沖浪”模型來描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。模型假設(shè)如下:1) 用戶隨機(jī)的選擇一個網(wǎng)頁作為上網(wǎng)的起始網(wǎng)頁;2) 看完這個網(wǎng)頁后,從該網(wǎng)頁內(nèi)所含的超鏈內(nèi)隨機(jī)的選擇一個頁面繼續(xù)進(jìn)行瀏覽;3) 沿著超鏈前進(jìn)了一定數(shù)目的網(wǎng)頁后,用戶對這個主題感到厭倦,重新隨機(jī)選擇一個網(wǎng)頁進(jìn)行瀏覽,并重復(fù) 2和 3。按照以上的用戶行為模型,每個網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。如何計算這個權(quán)值呢?PageRank 采用以下公式進(jìn)行計算: ?????Njiij nWldW,1,)(其中 Wj代表第 j個網(wǎng)頁的權(quán)值; lij只取 0、1 值,代表從網(wǎng)頁 i到網(wǎng)頁 j是否存在鏈接;n i代表網(wǎng)頁 i有多少個鏈向其它網(wǎng)頁的鏈接;d 代表“隨機(jī)沖浪”中沿著鏈接訪問網(wǎng)頁的平均次數(shù)。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁鏈接權(quán)值。該方法能夠大幅度的提高簡單檢索返回結(jié)果的質(zhì)量,同時能夠有效的防止網(wǎng)頁編寫者對搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上,對于網(wǎng)頁評分越高的網(wǎng)頁,就排的越前。權(quán)威網(wǎng)頁顧名思義,是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁。其重要性和權(quán)威性主要體現(xiàn)在以下兩點:1) 從單個網(wǎng)頁來看,它的網(wǎng)頁內(nèi)容本身對于這個給定主題來說是重要的;2) 從這個網(wǎng)頁在整個互聯(lián)網(wǎng)重的地位來看,這個網(wǎng)頁是被其他網(wǎng)頁承認(rèn)為權(quán)威的,這主要體現(xiàn)在跟這個主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個網(wǎng)頁。由此可見,權(quán)威網(wǎng)頁對于主題搜索引擎的實現(xiàn)有很重大的意義。主題搜索引擎一個很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁,并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。中心網(wǎng)頁是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。最典型中心網(wǎng)頁的一個例子是 Yahoo!,它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁,使得它兼任了很多主題的中心網(wǎng)頁。由中心網(wǎng)頁出發(fā),輕而易舉的就會到達(dá)大量的權(quán)威網(wǎng)頁。因此,它對于主題搜索引擎的實現(xiàn)也起了很大的意義。權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種互相促進(jìn)的關(guān)系:一個好的中心網(wǎng)頁必然要有超鏈接指向多個權(quán)威網(wǎng)頁;一個好的權(quán)威網(wǎng)頁反過來也必然被多個中心網(wǎng)頁所鏈接。本章介紹了面向主題的搜索策略,并作了詳細(xì)闡述。雖然在新聞搜索中并沒有應(yīng)用到搜索策略,但是對于 WWW 搜索引擎來說,搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。參考文獻(xiàn)文獻(xiàn)資料① 《Programming Spiders,Bots,and Aggregator in Java》[美]Jeff Heaton 著② 《搜索引擎與信息獲取技術(shù)》徐寶文、張衛(wèi)豐著③ 《基于 Java 的全文搜索引擎 Lucene》車東著④ 《主題搜索引擎的設(shè)計與實現(xiàn)》羅旭著⑤ 《Thinking in Java 》[美]Bruce Eckel 著開發(fā)工具、平臺及資源:① Borland Jbuilder 9② Sun JDK ③ Jakarta Tomcat ④ Jakarta Lucene⑤ Package Bot感謝:源碼愛好者(⑥
點擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1