freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎-全文預(yù)覽

2024-12-12 04:00 上一頁面

下一頁面
  

【正文】 tartindex + 9。 i++) { Document doc = (i1)。 int startpage。 } int span。 hasnext = 1。 if ((int)temp temp) { span = (int)temp。 (endpage)。 } return results。 } private Query makeQuery(String query) { TermQuery qu = new TermQuery(new Term(all, ()))。 WAR 是 Sun 提出的一種 Web應(yīng)用程序格式,與 JAR 類似,也是許多文件的一個(gè)壓縮包。 在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的 WAR 放到 Tomcat 的 webapp 目錄下, Tomcat 會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。 基于的搜索引擎 第 30 頁 共 34 頁 第六章 搜索引擎策略 隨著信息多元化的增長(zhǎng),千篇一律的給所有用戶同一個(gè)入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。 題的搜索策略 導(dǎo)向詞 導(dǎo)向詞就是一組關(guān)鍵詞,它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面得到最全面的跟某一個(gè)主題相關(guān)的信息。 網(wǎng)頁評(píng)級(jí) 在考慮一個(gè)網(wǎng) 頁被另一個(gè)網(wǎng)頁的引用時(shí)候,不是單純的將被引用網(wǎng)頁的 Hit Number 加一,而是將引用網(wǎng)頁的連接數(shù)作為權(quán),同時(shí)將該引用網(wǎng)頁的重要性也考慮進(jìn)來(看看上面提到的例子, Yahoo!引用的網(wǎng)頁顯然比個(gè)人網(wǎng)站引用的網(wǎng)頁重要,因?yàn)?Yahoo!本身很重要),就可以得到擴(kuò)展后的網(wǎng)頁評(píng)分。 按照以上的用戶行為模型,每個(gè)網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上,對(duì)于網(wǎng)頁評(píng)分越高的網(wǎng)頁,就排的越前。主題搜索引擎一個(gè)很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準(zhǔn)的找出這些可數(shù)的權(quán)威網(wǎng)頁,并為他們建立索引。由中心網(wǎng)頁出發(fā),輕而易舉的就會(huì)到達(dá)大量的權(quán)威網(wǎng)頁。雖然在新聞搜索中并沒有應(yīng)用到搜索策略,但是對(duì)于 WWW 搜索引擎來說,搜索策略是極其重要的。 通過使用 SQL 語句和 ADO 數(shù)據(jù)庫訪問技術(shù),我們實(shí)現(xiàn)了大學(xué)生理財(cái)系統(tǒng)的開發(fā)。 但通過本次畢業(yè)設(shè)計(jì) ,我也感受到了開源的方便 ,遇到什么問題 ,上網(wǎng)一查 ,就知道該怎么弄了 ,以前做個(gè)課程設(shè)計(jì)都是怕別人和我的一樣 ,不愿意給別人看 ,現(xiàn)在知道了程序弄不出來是多么的著急 ,學(xué)習(xí)都是相互的 ,互相研究才能共同進(jìn)步的。同時(shí),還得到了XX 老師在課余時(shí)間為本軟件的代碼設(shè)計(jì)進(jìn)行指導(dǎo)。 基于的搜索引擎 第 34 頁 共 34 頁 參考文獻(xiàn) 文獻(xiàn)資料 ① 《 Programming Spiders,Bots,and Aggregator in Java》 [美 ]Jeff Heaton 著 ② 《搜索引擎與信息獲取技術(shù)》徐寶文、張衛(wèi)豐著 ③ 《基于 Java的全文搜索引擎 Lucene》車東著 ④ 《主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)》羅旭著 ⑤ 《 Thinking in Java 》 [美 ]Bruce Eckel著 開發(fā)工具、平臺(tái)及資源: ① Borland Jbuilder 9 ② Sun JDK ③ Jakarta Tomcat ④ Jakarta Lucene ⑤ Package Bot 。 最后,感謝一同參與本軟件開發(fā)的所有成員,感謝 同學(xué) 對(duì)本軟件的定位提出的思路, 同學(xué) 在本軟件的美工制件過程中積極配合,還有 同學(xué) 等的參予。 本次畢業(yè)設(shè)計(jì)是我工作前一次很好的演練和實(shí)踐的機(jī)會(huì) ,是培養(yǎng)獨(dú)立思考問題和自學(xué)能力的鍛煉 ,使我意識(shí)到必須努力學(xué)習(xí)才能才工作中體現(xiàn)自己的價(jià)值 ,適應(yīng)社會(huì)的需要。通過小范圍的市場(chǎng)測(cè)試,本系統(tǒng)也是有一定的市場(chǎng)潛力的。 基于的搜索引擎 第 32 頁 共 34 頁 結(jié) 論 數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)是當(dāng)前主流的應(yīng)用,大多數(shù)應(yīng)用系統(tǒng)都需要后臺(tái)數(shù)據(jù)庫的支持。 權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種 互相 促進(jìn) 的關(guān)系:一個(gè)好的中心網(wǎng)頁必然要有超鏈接指向多個(gè)權(quán)威網(wǎng)頁;一個(gè)好的權(quán)威網(wǎng)頁反過來也必然被多個(gè)中心網(wǎng)頁所鏈接。 中心網(wǎng)頁 是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。其重要性和權(quán)威性主要體現(xiàn)在以下兩點(diǎn): 1) 從單個(gè)網(wǎng)頁來看,它的網(wǎng)頁內(nèi)容本身對(duì)于這個(gè)給定主題來說是重要的; 2) 從這個(gè)網(wǎng)頁在整個(gè)互聯(lián)網(wǎng)重的地位來看,這個(gè)網(wǎng)頁是被其他網(wǎng)頁承認(rèn)為權(quán)威的,這主要體現(xiàn)在跟這個(gè)主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個(gè)網(wǎng)頁。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁鏈接權(quán)值。它們提出了一個(gè)“隨機(jī)沖浪”模型來描述網(wǎng)絡(luò)用戶對(duì)網(wǎng)頁的訪問行為。搜索器在向主控程序獲得 URL 的時(shí)候也是按照權(quán)值由高到低的順序。針對(duì)這種情況,我們需要一個(gè)分類細(xì)致精確、數(shù)據(jù)全面深入、更新及時(shí)的面向主題的搜索引擎。編譯以后,訪問將會(huì)很快。通常在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, ,而 classes 目錄下則包含編譯好的 Servlet類和 Jsp 或 Servlet 所依賴的其它類(如 JavaBean)。 } public static void main(String[] args) throws Exception { IndexSearcher searcher = new IndexSearcher(INDEX_STORE_PATH)。 } /** * * return */ public SearchResultDao getSearchResultDao() { return searchResultDao。 (startindex)。 } } endpage = startpage + span。 hasnext = 0。 float temp = ((float)(length (startpage1) * 10 ))/10。 if (startindex % 100 == 0) { startpage = (startindex / 100 1) * 10 + 1。 (id)。 } 基于的搜索引擎 第 26 頁 共 34 頁 for (int i = startindex。 int startindex = ()。 ArrayList list = new ArrayList()。 private static final String INDEX_STORE_PATH = ()。 private static final String CATEGORY = category。 import 。 import 。 import 。 import 。 import 。 服務(wù)端設(shè)計(jì) 主要利用 JavaTM Servlet 技術(shù)實(shí)現(xiàn),用戶通過 GET 方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過 Tomcat 的 Servlet 容器接受并分析提交參數(shù),再調(diào)用 lucene 的開發(fā)包進(jìn)行搜索操作。 Tomcat 由 ApacheJakarta 子項(xiàng)目支持并由來自開放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。 最后,還結(jié)合了具體代碼說明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來實(shí)現(xiàn)新聞搜索的功能。 } } 然后構(gòu)造一個(gè) HTML 解析類,把通過 bot 程序收集的新聞內(nèi)容進(jìn)行索引。 ((url, url))。 public class Index { IndexWriter _writer = null。 import ?;?2元切分后的索引一般大小和源文件差不多,而對(duì)于英文,索引文件一般只有原文件的 30%40%不同, 自動(dòng)切分 詞表切分 實(shí)現(xiàn) 實(shí)現(xiàn)非常簡(jiǎn)單 實(shí)現(xiàn)復(fù)雜 基于的搜索引擎 第 20 頁 共 34 頁 查詢 增加了查詢分析的復(fù)雜程度, 適于實(shí)現(xiàn)比較復(fù)雜的查詢語法規(guī)則 存儲(chǔ)效率 索引冗余大,索引幾乎和原文一樣大 索引效率高,為原文大小的 30%左右 維護(hù)成本 無詞表維護(hù)成本 詞表維護(hù)成本非常高:中日韓等語言需要分別維護(hù)。另外一個(gè)解決的辦法是采用自動(dòng)切分算法:將單詞按照 2元語法 (bigram)方式切分出來,比如: 北京天安門 == 北京 京天 天安 安門 。 (比如上萬條)需要大量的內(nèi)存存放這些臨時(shí)結(jié)果集。 匹配效果 通過詞元 (term)進(jìn)行匹配,通過語言分析接口的實(shí)現(xiàn),可以實(shí)現(xiàn)對(duì)中文等非英語的支持。 由此可以看出模糊查詢相對(duì)數(shù)據(jù)庫的精確查詢是一個(gè)非常不確定的問題,這也是大部分?jǐn)?shù)據(jù)庫對(duì)全文檢索支持有限的原因。 基于的搜索引擎 第 18 頁 共 34 頁 由于數(shù)據(jù)庫索引不是為全文索引設(shè)計(jì)的,因此, 使用 like %keyword%時(shí),數(shù)據(jù)庫索引是不起作用的 ,在使用 like查詢時(shí),搜索過程又變成類似于一頁頁翻書的遍歷過程了,所以對(duì)于含有模糊 查詢的數(shù)據(jù)庫服務(wù)來說, LIKE對(duì)性能的危害是極大的。 總體上看:可以先把 Lucene 當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫系統(tǒng) 。此外還用了第三方開發(fā)包 Bot(由 Jeff Heaton 提供的開發(fā)包)。 } 基于的搜索引擎 第 16 頁 共 34 頁 // 當(dāng) Spider程序沒有剩余的工作時(shí)調(diào)用這個(gè)方法。 } // 用 來請(qǐng)求一個(gè)被處理的網(wǎng)頁。其 他連接指的是非 HTML網(wǎng)頁,可能是 Email或者 FTP public boolean foundOtherLink(String url) { return false。 public boolean foundInternalLink(String url) { return false。 Spider _spider 基于的搜索引擎 第 15 頁 共 34 頁 = new Spider(_searcher, new HTTPSocket(), 100, wl)。 import 。 import 。 數(shù)據(jù)庫技術(shù) 當(dāng) Spider 程序訪問一個(gè)大型 Web 站點(diǎn)時(shí),必須使用一種有效的方法來存儲(chǔ)站點(diǎn)隊(duì)列。瓶頸是一個(gè)程序中最慢的部分,他限制了其他任務(wù)的運(yùn)行。下面就來介紹下幾種提高性能的技術(shù): Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。 public void pletePage(HTTP page,boolean error)。下面是他的接口聲明: public interface IspiderReportable{ public boolean foundInternalLink(String url)。 流程圖如下所示: 發(fā)現(xiàn) URL 等待隊(duì)列 運(yùn)行隊(duì)列 完成隊(duì)列 錯(cuò)誤隊(duì)列 完成 URL 基于的搜索引擎 第 12 頁 共
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1