freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎(參考版)

2024-11-18 04:00本頁(yè)面
  

【正文】 基于的搜索引擎 第 34 頁(yè) 共 34 頁(yè) 參考文獻(xiàn) 文獻(xiàn)資料 ① 《 Programming Spiders,Bots,and Aggregator in Java》 [美 ]Jeff Heaton 著 ② 《搜索引擎與信息獲取技術(shù)》徐寶文、張衛(wèi)豐著 ③ 《基于 Java的全文搜索引擎 Lucene》車東著 ④ 《主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)》羅旭著 ⑤ 《 Thinking in Java 》 [美 ]Bruce Eckel著 開發(fā)工具、平臺(tái)及資源: ① Borland Jbuilder 9 ② Sun JDK ③ Jakarta Tomcat ④ Jakarta Lucene ⑤ Package Bot 。 最后,感謝一同參與本軟件開發(fā)的所有成員,感謝 同學(xué) 對(duì)本軟件的定位提出的思路, 同學(xué) 在本軟件的美工制件過(guò)程中積極配合,還有 同學(xué) 等的參予。同時(shí),還得到了XX 老師在課余時(shí)間為本軟件的代碼設(shè)計(jì)進(jìn)行指導(dǎo)。 本次畢業(yè)設(shè)計(jì)是我工作前一次很好的演練和實(shí)踐的機(jī)會(huì) ,是培養(yǎng)獨(dú)立思考問(wèn)題和自學(xué)能力的鍛煉 ,使我意識(shí)到必須努力學(xué)習(xí)才能才工作中體現(xiàn)自己的價(jià)值 ,適應(yīng)社會(huì)的需要。 但通過(guò)本次畢業(yè)設(shè)計(jì) ,我也感受到了開源的方便 ,遇到什么問(wèn)題 ,上網(wǎng)一查 ,就知道該怎么弄了 ,以前做個(gè)課程設(shè)計(jì)都是怕別人和我的一樣 ,不愿意給別人看 ,現(xiàn)在知道了程序弄不出來(lái)是多么的著急 ,學(xué)習(xí)都是相互的 ,互相研究才能共同進(jìn)步的。通過(guò)小范圍的市場(chǎng)測(cè)試,本系統(tǒng)也是有一定的市場(chǎng)潛力的。 通過(guò)使用 SQL 語(yǔ)句和 ADO 數(shù)據(jù)庫(kù)訪問(wèn)技術(shù),我們實(shí)現(xiàn)了大學(xué)生理財(cái)系統(tǒng)的開發(fā)。 基于的搜索引擎 第 32 頁(yè) 共 34 頁(yè) 結(jié) 論 數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)開發(fā)是當(dāng)前主流的應(yīng)用,大多數(shù)應(yīng)用系統(tǒng)都需要后臺(tái)數(shù)據(jù)庫(kù)的支持。雖然在新聞搜索中并沒(méi)有應(yīng)用到搜索策略,但是對(duì)于 WWW 搜索引擎來(lái)說(shuō),搜索策略是極其重要的。 權(quán)威網(wǎng)頁(yè)和中心網(wǎng)頁(yè)之間是一種 互相 促進(jìn) 的關(guān)系:一個(gè)好的中心網(wǎng)頁(yè)必然要有超鏈接指向多個(gè)權(quán)威網(wǎng)頁(yè);一個(gè)好的權(quán)威網(wǎng)頁(yè)反過(guò)來(lái)也必然被多個(gè)中心網(wǎng)頁(yè)所鏈接。由中心網(wǎng)頁(yè)出發(fā),輕而易舉的就會(huì)到達(dá)大量的權(quán)威網(wǎng)頁(yè)。 中心網(wǎng)頁(yè) 是包含很多指向權(quán)威網(wǎng)頁(yè)的超鏈接的網(wǎng)頁(yè)。主題搜索引擎一個(gè)很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無(wú)數(shù)的網(wǎng)頁(yè)之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁(yè),并為他們建立索引。其重要性和權(quán)威性主要體現(xiàn)在以下兩點(diǎn): 1) 從單個(gè)網(wǎng)頁(yè)來(lái)看,它的網(wǎng)頁(yè)內(nèi)容本身對(duì)于這個(gè)給定主題來(lái)說(shuō)是重要的; 2) 從這個(gè)網(wǎng)頁(yè)在整個(gè)互聯(lián)網(wǎng)重的地位來(lái)看,這個(gè)網(wǎng)頁(yè)是被其他網(wǎng)頁(yè)承認(rèn)為權(quán)威的,這主要體現(xiàn)在跟這個(gè)主題相關(guān)的很多網(wǎng)頁(yè)都有鏈接指向這個(gè)網(wǎng)頁(yè)。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁(yè)排序上,對(duì)于網(wǎng)頁(yè)評(píng)分越高的網(wǎng)頁(yè),就排的越前。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁(yè)鏈接權(quán)值。 按照以上的用戶行為模型,每個(gè)網(wǎng)頁(yè)可能被訪問(wèn)到的次數(shù)就是該網(wǎng)頁(yè)的鏈接權(quán)值。它們提出了一個(gè)“隨機(jī)沖浪”模型來(lái)描述網(wǎng)絡(luò)用戶對(duì)網(wǎng)頁(yè)的訪問(wèn)行為。 網(wǎng)頁(yè)評(píng)級(jí) 在考慮一個(gè)網(wǎng) 頁(yè)被另一個(gè)網(wǎng)頁(yè)的引用時(shí)候,不是單純的將被引用網(wǎng)頁(yè)的 Hit Number 加一,而是將引用網(wǎng)頁(yè)的連接數(shù)作為權(quán),同時(shí)將該引用網(wǎng)頁(yè)的重要性也考慮進(jìn)來(lái)(看看上面提到的例子, Yahoo!引用的網(wǎng)頁(yè)顯然比個(gè)人網(wǎng)站引用的網(wǎng)頁(yè)重要,因?yàn)?Yahoo!本身很重要),就可以得到擴(kuò)展后的網(wǎng)頁(yè)評(píng)分。搜索器在向主控程序獲得 URL 的時(shí)候也是按照權(quán)值由高到低的順序。 題的搜索策略 導(dǎo)向詞 導(dǎo)向詞就是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面得到最全面的跟某一個(gè)主題相關(guān)的信息。針對(duì)這種情況,我們需要一個(gè)分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。 基于的搜索引擎 第 30 頁(yè) 共 34 頁(yè) 第六章 搜索引擎策略 隨著信息多元化的增長(zhǎng),千篇一律的給所有用戶同一個(gè)入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。編譯以后,訪問(wèn)將會(huì)很快。 在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下, Tomcat 會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。通常在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, ,而 classes 目錄下則包含編譯好的 Servlet類和 Jsp 或 Servlet 所依賴的其它類(如 JavaBean)。 WAR 是 Sun 提出的一種 Web應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個(gè)壓縮包。 } public static void main(String[] args) throws Exception { IndexSearcher searcher = new IndexSearcher(INDEX_STORE_PATH)。 } private Query makeQuery(String query) { TermQuery qu = new TermQuery(new Term(all, ()))。 } /** * * return */ public SearchResultDao getSearchResultDao() { return searchResultDao。 } return results。 (startindex)。 (endpage)。 } } endpage = startpage + span。 if ((int)temp temp) { span = (int)temp。 hasnext = 0。 hasnext = 1。 float temp = ((float)(length (startpage1) * 10 ))/10。 } int span。 if (startindex % 100 == 0) { startpage = (startindex / 100 1) * 10 + 1。 int startpage。 (id)。 i++) { Document doc = (i1)。 } 基于的搜索引擎 第 26 頁(yè) 共 34 頁(yè) for (int i = startindex。 if (startindex length) { // TODO should be impossible } else { endindex = startindex + 9。 int startindex = ()。 Hits hits = (query)。 ArrayList list = new ArrayList()。 /** 基于的搜索引擎 第 25 頁(yè) 共 34 頁(yè) * */ public SearchResults getSearchResults(SearchRequest request) { SearchResults results = new SearchResults()。 private static final String INDEX_STORE_PATH = ()。 private static final String PRODUCT_TYPE = type。 private static final String CATEGORY = category。 private static final String INDEX_TIME = indextime。 import 。 import 。 import 。 import 。 import 。 import 。 import 。 import 。 import 。 服務(wù)端 Servlet 程序的結(jié)構(gòu)如下: 基于的搜索引擎 第 23 頁(yè) 共 34 頁(yè) 實(shí)現(xiàn)的關(guān)鍵代碼如下: package 。 服務(wù)端設(shè)計(jì) 主要利用 JavaTM Servlet 技術(shù)實(shí)現(xiàn),用戶通過(guò) GET 方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過(guò) Tomcat 的 Servlet 容器接受并分析提交參數(shù),再調(diào)用 lucene 的開發(fā)包進(jìn)行搜索操作。 客戶端設(shè)計(jì) 一個(gè)良好的查詢界面非常重要,例如 Googl就以她簡(jiǎn)潔的查詢界面而聞名。 Tomcat 由 ApacheJakarta 子項(xiàng)目支持并由來(lái)自開放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。 Web 服務(wù)器如何工作:在 Web 頁(yè)面處理中大致可分為三個(gè)步驟,第一步, Web瀏覽器向一個(gè)特定的服務(wù)器發(fā)出 Web 頁(yè)面請(qǐng)求;第二步, Web 服務(wù)器接收到 Web頁(yè)面請(qǐng)求后,尋找所請(qǐng)求的 Web 頁(yè)面,并將所請(qǐng)求的 Web 頁(yè)面?zhèn)魉徒o Web 瀏覽器;第三步, Web服務(wù)器接收到所請(qǐng)求的 Web 頁(yè)面,并將它顯示出來(lái) 。 最后,還結(jié)合了具體代碼說(shuō)明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來(lái)實(shí)現(xiàn)新聞搜索的功能。速度將是極大的瓶頸。 } } 然后構(gòu)造一個(gè) HTML 解析類,把通過(guò) bot 程序收集的新聞內(nèi)容進(jìn)行索引。 } /** * 優(yōu)化并且清理資源 * throws */ void close() throws Exception { ()。 ((url, url))。 } 基于的搜索引擎 第 21 頁(yè) 共 34 頁(yè) void AddNews(String url, String title) throws Exception { Document _doc = new Document()。 public class Index { IndexWriter _writer = null。 import 。 import 。 代碼分析如下: package news?;?2元切分后的索引一般大小和源文件差不多,而對(duì)于英文,索引文件一般只有原文件的 30%40%不同, 自動(dòng)切分 詞表切分 實(shí)現(xiàn) 實(shí)現(xiàn)非常簡(jiǎn)單 實(shí)現(xiàn)復(fù)雜 基于的搜索引擎 第 20 頁(yè) 共 34 頁(yè) 查詢 增加了查詢分析的復(fù)雜程度, 適于實(shí)現(xiàn)比較復(fù)雜的查詢語(yǔ)法規(guī)則 存儲(chǔ)效率 索引冗余大,索引幾乎和原文一樣大 索引效率高,為原文大小的 30%左右 維護(hù)成本 無(wú)詞表維護(hù)成本 詞表維護(hù)成本非常高:中日韓等語(yǔ)言需要分別維護(hù)。這種方式對(duì)于其他亞洲語(yǔ)言:韓文,日文都是通用的。另外一個(gè)解決的辦法是采用自動(dòng)切分算法:將單詞按照 2元語(yǔ)法 (bigram)方式切分出來(lái),比如: 北京天安門 == 北京 京天 天安 安門 。 首先,肯定不能用單個(gè)字符作 (sigram)為索引單元,否則查 “ 上海 ” 時(shí),不能讓含有“ 海上 ” 也匹配。 (比如上萬(wàn)條)需要大量的內(nèi)存存放這些臨時(shí)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1