freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)本科畢業(yè)論文-文庫(kù)吧在線文庫(kù)

  

【正文】 :由單個(gè)表示的 HTML 標(biāo)簽 開始標(biāo)簽和結(jié)束標(biāo)簽:用來(lái)控制所包含的 HTML 代碼 我們?cè)诰唧w解析 這些 HTMl 標(biāo)簽有兩種方法:通過 JavaTM 中的 Swing 類來(lái)解析或者通過 Bot 包中的 HTMLPage 類來(lái)解析 ,本人在實(shí)際編程中采用后者。 處理隊(duì)列 : 當(dāng) Spider 程序開始處理時(shí),他們被送到這個(gè)隊(duì)列中 錯(cuò)誤隊(duì)列 : 如果在解析網(wǎng)頁(yè)時(shí)出錯(cuò), URL 將被送到這里。 流程圖如下所示: 發(fā)現(xiàn) URL 等待隊(duì)列 運(yùn)行隊(duì)列 完成隊(duì)列 錯(cuò)誤隊(duì)列 完成 URL 14 圖 2 Spider 程序流程圖 把 URL 加入等待隊(duì)列 Spider 程序工作完成 等待隊(duì)列中是否有 URL? 否 下載從等待隊(duì)列中得到的網(wǎng)頁(yè),并將他送入運(yùn)行隊(duì)列中。 public void pletePage(HTTP page,boolean error)。瓶頸是一個(gè)程序中最慢的部分,它限制了其他任務(wù)的運(yùn)行。 /** * 新聞搜索引 擎 * 計(jì)算機(jī) 99630 沈晨 * 版本 */ import 。 Spider _spider = new Spider(_searcher, new HTTPSocket(), 100, wl)。其他連接指的是非 HTML 網(wǎng)頁(yè),可能是Email 或者 FTP public boolean foundOtherLink(String url) { return false。 } // 當(dāng) Spider 程序沒有剩余的工作時(shí)調(diào)用這個(gè)方法。 總體上看:可以先把 Lucene 當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)需要逐個(gè)便利記錄進(jìn)行 GREP 式的模糊匹配,比有索引的搜索速度要有多個(gè)數(shù)量級(jí)的下降。但一句話:“北京天安門”,計(jì)算機(jī)如何按照中文的語(yǔ)言習(xí)慣進(jìn)行切分呢?“北京 天安門” 還是“北 京 天安門”?讓計(jì)算機(jī)能夠按照語(yǔ)言習(xí)慣進(jìn)行切分,往往需要機(jī)器有一個(gè)比較豐富 的詞庫(kù)才能夠比較準(zhǔn)確的識(shí)別出語(yǔ)句中的單詞。 import 。 ((url, url))。 import 。 Index _index = new Index()。 } (共掃描到 + n + 條新聞 )。 26 第五章 基于 Tomcat 的 Web 服務(wù)器 什么是基于 Tomcat 的 Web服務(wù)器 Web 服務(wù)器是在網(wǎng)絡(luò)中為實(shí)現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺(tái)的服務(wù)器。最后把搜索的結(jié)果以 HTTP 消息包的形式發(fā)送至客戶端,從而完成一次搜索操作。 (center + form action=39。新聞搜索引擎 29 /font: + input type=39。 name=39。 final int HITS_PER_PAGE = 10。 if (url != null) { ( (i + 1) + a href=39。 WAR 是 Sun 提出的一種Web 應(yīng)用程序格式,與 JAR類似,也是許多文件的一個(gè)壓縮包。 31 第 六 章 項(xiàng)目總結(jié)以及未來(lái)工作展望 搜索引擎技術(shù)從誕生之日開始就一直是網(wǎng)絡(luò)人關(guān)注的焦點(diǎn),發(fā)展也很迅速,所以如今已出現(xiàn)了很多優(yōu)秀的開源的項(xiàng)目,例如本項(xiàng)目中的 Lucene。 2,系統(tǒng)的大部分功能己經(jīng)實(shí)現(xiàn),但是在代碼編寫方面還有很多需要優(yōu)化的地方。 論文的完成標(biāo)志著四年的本科時(shí)代即將結(jié)束,也意味著新的生活又將開始了。搜 索引 擎 — 原理、技術(shù)與系統(tǒng) [M] [3] 馮是聰 .中文 web文檔自動(dòng)分類技術(shù)研究及其在搜索引擎中的應(yīng)用 [C].北京大學(xué) 2020, pp. 88 [4] 于天恩 .做自己的搜索 引擎 —— 搜索引擎精解案例教程 [M]. [5] 鄒天思,潘凱華,劉中華 .PHP網(wǎng)絡(luò)編程自學(xué)手冊(cè) [M]. 人民郵電出版社, [6] Z Yuntao G Ling W Yongcheng . An improved TFIDF approach for text classifiction[N] 2020 [7] 黃菁萱 吳立德 .”基于向量空間模型的文檔分類系統(tǒng) ,” 模式識(shí)別與人工智能 , vol. 1, 1998. [8] 劉開瑛 .中文文本自動(dòng)分詞和標(biāo)注 . 北京 : 商務(wù)印 書館 , 200 [9] 北京大學(xué)天網(wǎng)中英文搜索引擎 . [10] 馮是聰 張志剛 李曉明 .”一種中文 web文檔自動(dòng)分類方法的實(shí)現(xiàn)及其應(yīng)用 ,”工程 , 2020 [11] M. Najork and A. Heydon, HighPerformance Web Crawling, Compaq Systems Research Center Sep 2020 [12] 趙淑梅 . 全文搜索引擎技術(shù) [J]. 鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào) , 2020, (03) [13] 陳康,許婷,戴文俊,武港山 . 基于 Web的全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [J]. 計(jì)算機(jī)工程 , 2020, (20) [14] 張海英 . 搜索引擎技術(shù)與原理剖析 [J]. 勝利油田職工大學(xué)學(xué)報(bào) , 2020, (04) [15] 胡雙雙,秦杰 . 搜索引擎技術(shù)及其發(fā)展趨勢(shì) [J]. 福建電腦 , 2020, (06) [16] 崔飛虎,潘正運(yùn) . 基于互聯(lián)網(wǎng)的全文搜索引擎模型 [J]. 信息安全與通信保密 , 2020 [17] 網(wǎng)絡(luò)爬蟲設(shè)計(jì) URL去重存儲(chǔ)庫(kù)設(shè)計(jì) [18] Lucene 簡(jiǎn)介 [19] Lucene 結(jié)構(gòu) Lucene 中國(guó) [20] 李剛、宋偉、邱哲 《征服 AJAX, Lucene構(gòu)建搜索引擎》 254頁(yè) [21] 夏旭 李健康《中外搜索引擎研究的現(xiàn)狀與發(fā)展》 33 致 謝 本論文是在我的導(dǎo)師雷迎科老師的親切關(guān)懷和悉心指導(dǎo)下完成的。因此,在以下幾個(gè)方面,我們 還要進(jìn)行繼續(xù)深入的研究,以提高整個(gè)系統(tǒng)的性能。 在 Tomcat 中,應(yīng)用程序的部署很簡(jiǎn)單,你只需將你的 WAR 放到 Tomcat 的 webapp目錄下, Tomcat 會(huì)自動(dòng)檢測(cè)到這個(gè)文件,并將其解壓。} }} (/body/html)。 for (int i = start。 + /form/center )。 size=39。 + font face=39。 // Query 是一個(gè)抽象類 Query query = (line, title, analyzer)。 Tomcat Server 是根據(jù) servlet 和 JSP 規(guī)范進(jìn)行執(zhí)行的,因此我們就可以說 Tomcat Server 也實(shí)行了 ApacheJakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。 if (str != null) { try { temp = new String((ISO8859_1))。 String _herf = input(().trim())。 public HTMLParse(HTTP ) { _ = 。 } } 然后構(gòu)造一個(gè) HTML 解析類,把通過 bot 程序收集的新聞內(nèi)容進(jìn)行索引。 public class Index { IndexWriter _writer = null。 22 表 2 自動(dòng)切分與詞表切分比較 自動(dòng)切分 詞表切分 實(shí)現(xiàn) 實(shí)現(xiàn)非常簡(jiǎn)單 實(shí)現(xiàn)復(fù)雜 查詢 增 加了查詢分析的復(fù)雜程度, 適于實(shí)現(xiàn)比較復(fù)雜的查詢語(yǔ)法規(guī)則 存儲(chǔ)效率 索引冗余大,索引幾乎和原文一樣大 索引效率高,為原文大小的 30%左右 維護(hù)成本 無(wú)詞表維護(hù)成本 詞表維護(hù)成本非常高:中日韓等語(yǔ)言需要分別維護(hù)。 結(jié)果輸出 通過特別的算法,將最匹配度最高的頭 100 條結(jié)果輸出,結(jié)果集返回所有的結(jié)果集,在匹配條目非常多的時(shí)候(比如上萬(wàn)條)需要大 21 是緩沖式的小批量讀取的。從而大大提高了多關(guān)鍵詞查詢的效率,所以,全文檢索問題歸結(jié)到最后是一個(gè)排序問題。此外還用了第三方開發(fā)包 Bot。 } // 用來(lái)請(qǐng)求一個(gè)被處理的網(wǎng)頁(yè)。 public boolean foundInternalLink(String url) { return false。 import 。 數(shù)據(jù)庫(kù)技術(shù) 當(dāng) Spider 程序訪問一個(gè)大型 Web 站點(diǎn)時(shí),必須使用一種有效的方法來(lái)存儲(chǔ)站點(diǎn)隊(duì)列。下面就來(lái)介紹下幾種提高性能的技術(shù): Java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。下面是他的接口聲明: public interface IspiderReportable{ public boolean foundInternalLink(String url)。只要等待隊(duì)列中有一個(gè)網(wǎng)頁(yè)或 Spider 程序正在處理一個(gè)網(wǎng)頁(yè),程序就會(huì)繼續(xù)他的工作。程序首先解析網(wǎng)頁(yè)的 HTML 代碼,查找該頁(yè)面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來(lái)實(shí)現(xiàn) Spider 程序。所以網(wǎng)絡(luò)機(jī)器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。用于查找大量的 Web頁(yè)面。客戶在瀏覽器中輸入查詢條件, Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢、排列然后返回給客戶端。它可以在掃描 WEB 頁(yè)面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。 這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1