正文內容

jsp基于產品的搜索引擎-全文預覽

2024-12-12 04:00 上一頁面

下一頁面

　　

【正文】 tartindex + 9。 i++) { Document doc = (i1)。 int startpage。 } int span。 hasnext = 1。 if ((int)temp temp) { span = (int)temp。 (endpage)。 } return results。 } private Query makeQuery(String query) { TermQuery qu = new TermQuery(new Term(all, ()))。 WAR 是 Sun 提出的一種 Web應用程序格式，與 JAR 類似，也是許多文件的一個壓縮包。在 Tomcat 中，應用程序的部署很簡單，你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下， Tomcat 會自動檢測到這個文件，并將其解壓。基于的搜索引擎第 30 頁共 34 頁第六章搜索引擎策略隨著信息多元化的增長，千篇一律的給所有用戶同一個入口顯然已經不能滿足特定用戶更深入的查詢需求。題的搜索策略導向詞導向詞就是一組關鍵詞，它們會引導搜索器按照一定順序搜索整個網絡，使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關的信息。網頁評級在考慮一個網頁被另一個網頁的引用時候，不是單純的將被引用網頁的 Hit Number 加一，而是將引用網頁的連接數作為權，同時將該引用網頁的重要性也考慮進來（看看上面提到的例子， Yahoo！引用的網頁顯然比個人網站引用的網頁重要，因為 Yahoo！本身很重要），就可以得到擴展后的網頁評分。按照以上的用戶行為模型，每個網頁可能被訪問到的次數就是該網頁的鏈接權值。因此可以將其廣泛的應用在檢索器提供給用戶的網頁排序上，對于網頁評分越高的網頁，就排的越前。主題搜索引擎一個很關鍵的任務就是從互聯網上無數的網頁之中最快最準的找出這些可數的權威網頁，并為他們建立索引。由中心網頁出發(fā)，輕而易舉的就會到達大量的權威網頁。雖然在新聞搜索中并沒有應用到搜索策略，但是對于 WWW 搜索引擎來說，搜索策略是極其重要的。通過使用 SQL 語句和 ADO 數據庫訪問技術，我們實現了大學生理財系統(tǒng)的開發(fā)。但通過本次畢業(yè)設計 ,我也感受到了開源的方便 ,遇到什么問題 ,上網一查 ,就知道該怎么弄了 ,以前做個課程設計都是怕別人和我的一樣 ,不愿意給別人看 ,現在知道了程序弄不出來是多么的著急 ,學習都是相互的 ,互相研究才能共同進步的。同時，還得到了XX 老師在課余時間為本軟件的代碼設計進行指導。基于的搜索引擎第 34 頁共 34 頁參考文獻文獻資料 ① 《 Programming Spiders,Bots,and Aggregator in Java》 [美 ]Jeff Heaton 著 ② 《搜索引擎與信息獲取技術》徐寶文、張衛(wèi)豐著 ③ 《基于 Java的全文搜索引擎 Lucene》車東著 ④ 《主題搜索引擎的設計與實現》羅旭著 ⑤ 《 Thinking in Java 》 [美 ]Bruce Eckel著開發(fā)工具、平臺及資源： ① Borland Jbuilder 9 ② Sun JDK ③ Jakarta Tomcat ④ Jakarta Lucene ⑤ Package Bot 。最后，感謝一同參與本軟件開發(fā)的所有成員，感謝同學對本軟件的定位提出的思路，同學在本軟件的美工制件過程中積極配合，還有同學等的參予。本次畢業(yè)設計是我工作前一次很好的演練和實踐的機會 ,是培養(yǎng)獨立思考問題和自學能力的鍛煉 ,使我意識到必須努力學習才能才工作中體現自己的價值 ,適應社會的需要。通過小范圍的市場測試，本系統(tǒng)也是有一定的市場潛力的。基于的搜索引擎第 32 頁共 34 頁結論數據庫應用系統(tǒng)開發(fā)是當前主流的應用，大多數應用系統(tǒng)都需要后臺數據庫的支持。權威網頁和中心網頁之間是一種互相促進的關系：一個好的中心網頁必然要有超鏈接指向多個權威網頁；一個好的權威網頁反過來也必然被多個中心網頁所鏈接。中心網頁是包含很多指向權威網頁的超鏈接的網頁。其重要性和權威性主要體現在以下兩點： 1) 從單個網頁來看，它的網頁內容本身對于這個給定主題來說是重要的； 2) 從這個網頁在整個互聯網重的地位來看，這個網頁是被其他網頁承認為權威的，這主要體現在跟這個主題相關的很多網頁都有鏈接指向這個網頁。選擇合適的數值，遞歸的使用以上公式，即可得到理想的網頁鏈接權值。它們提出了一個“隨機沖浪”模型來描述網絡用戶對網頁的訪問行為。搜索器在向主控程序獲得 URL 的時候也是按照權值由高到低的順序。針對這種情況，我們需要一個分類細致精確、數據全面深入、更新及時的面向主題的搜索引擎。編譯以后，訪問將會很快。通常在 WEBINF 目錄下有一個文件和一個 classes 目錄，，而 classes 目錄下則包含編譯好的 Servlet類和 Jsp 或 Servlet 所依賴的其它類（如 JavaBean）。 } public static void main(String[] args) throws Exception { IndexSearcher searcher = new IndexSearcher(INDEX_STORE_PATH)。 } /** * * return */ public SearchResultDao getSearchResultDao() { return searchResultDao。 (startindex)。 } } endpage = startpage + span。 hasnext = 0。 float temp = ((float)(length (startpage1) * 10 ))/10。 if (startindex % 100 == 0) { startpage = (startindex / 100 1) * 10 + 1。 (id)。 } 基于的搜索引擎第 26 頁共 34 頁 for (int i = startindex。 int startindex = ()。 ArrayList list = new ArrayList()。 private static final String INDEX_STORE_PATH = ()。 private static final String CATEGORY = category。 import 。 import 。 import 。 import 。 import 。服務端設計主要利用 JavaTM Servlet 技術實現，用戶通過 GET 方法從客戶端向服務端提交查詢條件，服務端通過 Tomcat 的 Servlet 容器接受并分析提交參數，再調用 lucene 的開發(fā)包進行搜索操作。 Tomcat 由 ApacheJakarta 子項目支持并由來自開放性源代碼 Java 社區(qū)的志愿者進行維護。最后，還結合了具體代碼說明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來實現新聞搜索的功能。 } } 然后構造一個 HTML 解析類，把通過 bot 程序收集的新聞內容進行索引。 ((url, url))。 public class Index { IndexWriter _writer = null。 import ?；?2元切分后的索引一般大小和源文件差不多，而對于英文，索引文件一般只有原文件的 30%40%不同，自動切分詞表切分實現實現非常簡單實現復雜基于的搜索引擎第 20 頁共 34 頁查詢增加了查詢分析的復雜程度，適于實現比較復雜的查詢語法規(guī)則存儲效率索引冗余大，索引幾乎和原文一樣大索引效率高，為原文大小的 30％左右維護成本無詞表維護成本詞表維護成本非常高：中日韓等語言需要分別維護。另外一個解決的辦法是采用自動切分算法：將單詞按照 2元語法 (bigram)方式切分出來，比如：北京天安門 == 北京京天天安安門。（比如上萬條）需要大量的內存存放這些臨時結果集。匹配效果通過詞元 (term)進行匹配，通過語言分析接口的實現，可以實現對中文等非英語的支持。由此可以看出模糊查詢相對數據庫的精確查詢是一個非常不確定的問題，這也是大部分數據庫對全文檢索支持有限的原因。基于的搜索引擎第 18 頁共 34 頁由于數據庫索引不是為全文索引設計的，因此，使用 like %keyword%時，數據庫索引是不起作用的，在使用 like查詢時，搜索過程又變成類似于一頁頁翻書的遍歷過程了，所以對于含有模糊查詢的數據庫服務來說， LIKE對性能的危害是極大的。總體上看：可以先把 Lucene 當成一個支持全文索引的數據庫系統(tǒng) 。此外還用了第三方開發(fā)包 Bot（由 Jeff Heaton 提供的開發(fā)包）。 } 基于的搜索引擎第 16 頁共 34 頁 // 當 Spider程序沒有剩余的工作時調用這個方法。 } // 用來請求一個被處理的網頁。其他連接指的是非 HTML網頁，可能是 Email或者 FTP public boolean foundOtherLink(String url) { return false。 public boolean foundInternalLink(String url) { return false。 Spider _spider 基于的搜索引擎第 15 頁共 34 頁 = new Spider(_searcher, new HTTPSocket(), 100, wl)。 import 。 import 。數據庫技術當 Spider 程序訪問一個大型 Web 站點時，必須使用一種有效的方法來存儲站點隊列。瓶頸是一個程序中最慢的部分，他限制了其他任務的運行。下面就來介紹下幾種提高性能的技術： Java 的多線程技術線程是通過程序的一條執(zhí)行路線。 public void pletePage(HTTP page,boolean error)。下面是他的接口聲明： public interface IspiderReportable{ public boolean foundInternalLink(String url)。流程圖如下所示：發(fā)現 URL 等待隊列運行隊列完成隊列錯誤隊列完成 URL 基于的搜索引擎第 12 頁共

點擊復制文檔內容

試題試卷相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

jsp基于產品的搜索引擎-全文預覽

搜索引擎的發(fā)展與分類-資料下載頁

基于文本web圖片搜索引擎的研究論文-資料下載頁

超音速搜索引擎產品手冊-資料下載頁

搜索引擎優(yōu)化初級培訓-資料下載頁

搜索引擎營銷sem-資料下載頁

搜索引擎信息教學反思-資料下載頁

畢業(yè)論文基于lucene的桌面搜索引擎-資料下載頁

基于java技術搜索引擎的研究及實現-資料下載頁

如何使用搜索引擎-資料下載頁

搜索引擎推廣介紹-資料下載頁

搜索引擎行特點-資料下載頁

搜索引擎ppt課件-資料下載頁

搜索引擎使用技巧-資料下載頁

搜索引擎服務條款-資料下載頁

多媒體搜索引擎-資料下載頁

jsp基于產品的搜索引擎(留存版)

jsp基于產品的搜索引擎-文庫吧

jsp基于產品的搜索引擎-wenkub

jsp基于產品的搜索引擎(已修改)