freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

jsp基于產(chǎn)品的搜索引擎-文庫(kù)吧

2025-10-11 04:00 本頁(yè)面


【正文】 頁(yè) 共 34 頁(yè) Abstract The resources in the inter are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the inter in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself. The news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers39。 requests from the web server, it soon searchs the right project form the index engine. In the chapter of introducing search engine, it is not only elaborate the core technology, but also bine with the modern code,pictures included, easy to understand. 基于的搜索引擎 第 5 頁(yè) 共 34 頁(yè) 第一章 引言 面對(duì)浩瀚的網(wǎng)絡(luò)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個(gè)入口,毫不夸張的說(shuō),所有的用戶都可以從搜索出發(fā)到達(dá)自己想去的網(wǎng)上任何一個(gè)地方。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。 搜索引擎技術(shù)伴隨著 WWW 的發(fā)展是引人注目的。搜索引擎大約經(jīng)歷了三代的更新發(fā)展: 第一代搜索引擎出現(xiàn)于 1994 年。這類(lèi)搜索引擎一般都索引少于 1, 000, 000個(gè)網(wǎng)頁(yè),極少重新搜集網(wǎng)頁(yè)并去刷新索引。而且其檢索速度非常慢,一般都要等待 10 秒甚至更長(zhǎng)的時(shí)間。在實(shí)現(xiàn)技術(shù)上也基本沿用較為成熟的 IR( Information Retrieval)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)等技術(shù),相當(dāng)于利用一些已有技術(shù)實(shí)現(xiàn)的一個(gè) WWW上的應(yīng)用。在 1994 年 3 月到 4 月,網(wǎng)絡(luò)爬蟲(chóng) World Web Worm (WWWW)平均每天承受大約 1500 次查詢。 大約在 1996 年出現(xiàn)的第二代搜索引擎系統(tǒng)大多采用分布式方案(多個(gè)微型計(jì)算機(jī)協(xié)同工作)來(lái)提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量,它們一般都保持一個(gè)大約 50, 000, 000 網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù),每天能夠響應(yīng) 10, 000, 000 次用戶檢索請(qǐng)求。 1997 年 11月,當(dāng)時(shí)最先進(jìn)的幾個(gè)搜索引擎號(hào)稱能建立從 2, 000, 000 到100, 000, 000 的網(wǎng)頁(yè)索引。 Altavista 搜索引擎聲稱他們每天大概要承受 20,000, 000 次查詢。 2020 年搜索引擎 2020 年大會(huì)上,按照 Google 公司總裁 Larry Page 的演講,Google 正在用 3,000 臺(tái)運(yùn)行 Linux 系統(tǒng)的個(gè)人電腦在搜集 Web 上的網(wǎng)頁(yè),而且以每天 30 臺(tái)的速度向這個(gè)微機(jī)集群里添加電腦,以保持與網(wǎng)絡(luò)的發(fā)展相同步。每臺(tái)微機(jī)運(yùn)行多個(gè)爬蟲(chóng)程序搜集網(wǎng)頁(yè)的峰值速度是每秒 100個(gè)網(wǎng)頁(yè),平均速度是每秒 個(gè)網(wǎng)頁(yè),一天可以搜集超過(guò) 4, 000, 000 網(wǎng)頁(yè) 搜索引擎一詞在國(guó)內(nèi)外因特網(wǎng)領(lǐng)域被廣泛 使用,然而他的含義卻不盡相同。在美國(guó)搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,他們通過(guò)網(wǎng)絡(luò)機(jī)器人程序收集上千萬(wàn)到幾億個(gè)網(wǎng)頁(yè),并且每一個(gè)詞都被搜索引擎索引,也就是我們說(shuō)的全文檢索。著名的因特網(wǎng)搜索引擎包括 First Search、 Google、 HotBot 等。在中國(guó),搜索引擎通常指基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù),本人這里研基于的搜索引擎 第 6 頁(yè) 共 34 頁(yè) 究的是基于因特網(wǎng)的搜索技術(shù)。 基于的搜索引擎 第 7 頁(yè) 共 34 頁(yè) 第二章 搜索引擎的結(jié)構(gòu) 搜索引擎是根據(jù)用戶的查詢請(qǐng)求,按照一定算法從 索引數(shù)據(jù)中查找信息返回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù)。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、索引數(shù)據(jù)庫(kù)等部分組成。 系統(tǒng)結(jié)構(gòu)圖 網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛” (Spider),是一個(gè)功能很強(qiáng)的 WEB掃描程序。它可以在掃描 WEB 頁(yè)面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。因?yàn)?WEB 中廣泛使用超鏈接,所以一個(gè) Spider 程序理論上可以訪問(wèn)整個(gè) WEB 頁(yè)面。 為了保證網(wǎng)絡(luò)機(jī)器人 遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。 索引與搜索 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò) SQL 直接查詢WWW 文檔 網(wǎng)絡(luò)機(jī)器人程序 建立 Lucene 索引 從數(shù)據(jù)庫(kù)中搜索信息 Tomcat 服務(wù)器 Lucene 索引數(shù)據(jù)庫(kù) WWW 瀏覽器 WWW 瀏覽器 JSP 網(wǎng)絡(luò)機(jī)器人程序 基于的搜索引擎 第 8 頁(yè) 共 34 頁(yè) 信息速度將會(huì)難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。如果索引不及時(shí)跟新的話,用戶用搜索引擎也不能檢索到。 用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^(guò)索引數(shù)據(jù)庫(kù)進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫(kù)按照一定的策略進(jìn)行分級(jí)排列并且返回給用戶。 Web 服務(wù)器 客戶一般通過(guò)瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供 Web 服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行 連接??蛻粼跒g覽器中輸入查詢條件, Web 服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢、排列然后返回給客戶端。 搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率的,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來(lái)保障。 召回率 : 一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比 準(zhǔn)確率 : 一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之 比 相關(guān)度 : 用戶查詢與搜索結(jié)果之間相似度的一種度量 精確度 : 對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力 以上對(duì)基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用 JavaTM 技術(shù)和一些 Open Source 工具實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的搜索引擎—— 新聞搜索引擎。在接下來(lái)的幾章里將會(huì)就本人的設(shè)計(jì)進(jìn)行詳細(xì)的分析。 基于的搜索引擎 第 9 頁(yè) 共 34 頁(yè) 第三章 網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人又稱為 Spider 程序,是一種專(zhuān)業(yè)的 Bot 程序。用于查找大量的Web 頁(yè)面。它從一個(gè)簡(jiǎn)單的 Web 頁(yè)面上開(kāi)始 執(zhí)行,然后通過(guò)其超鏈接在訪問(wèn)其他頁(yè)面,如此反復(fù)理論上可以掃描互聯(lián)網(wǎng)上的所有頁(yè)面。 基于因特網(wǎng)的搜索引擎是 Spider 的最早應(yīng)用。例如搜索巨頭 Google 公司,就利用網(wǎng)絡(luò)機(jī)器人程序來(lái)遍歷 Web 站點(diǎn),以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫(kù)。 網(wǎng)絡(luò)機(jī)器人還可以通過(guò)掃描 Web 站點(diǎn)的主頁(yè)來(lái)得到這個(gè)站點(diǎn)的文件清單和層次機(jī)構(gòu)。還可以掃描出中斷的超鏈接和拼寫(xiě)錯(cuò)誤等。 Inter 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。 Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上,而 HTTP 又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上,它同時(shí)也是一種 Socket 協(xié)議。所以網(wǎng)絡(luò)機(jī)器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。 如何解析 HTML 因?yàn)?Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁(yè)時(shí)的第一個(gè)問(wèn)題就是如何解析 HTML。在解決如何解析之前,先來(lái)介紹下 HTML中 的幾種數(shù)據(jù)。 文本: 除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注 釋?zhuān)?程序員留下的說(shuō)明文字,對(duì)用戶是不可見(jiàn)的 簡(jiǎn)單標(biāo)簽: 由單個(gè)表示的 HTML標(biāo)簽 開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽: 用來(lái)控制所包含的 HTML代碼 我們?cè)谶M(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽,只需要對(duì)其中幾種重要的進(jìn)行解析即可。 超連接標(biāo)簽 超連接定義了 WWW 通過(guò) Inter 鏈接文檔 的功能。他們的主要目的是使用戶能夠任意遷移到新的頁(yè)面,這正是網(wǎng)絡(luò)機(jī)器人最關(guān)心的標(biāo)簽。 基于的搜索引擎 第 10 頁(yè) 共 34 頁(yè) 圖像映射標(biāo)簽 圖像映射是另一種非常重要的標(biāo)簽。它可以讓用戶通過(guò)點(diǎn)擊圖片來(lái)遷移到新的頁(yè)面中。 表單標(biāo)簽 表單 是 Web 頁(yè)面中 可以輸入數(shù)據(jù)的單元。許多站點(diǎn)讓用戶填寫(xiě) 數(shù)據(jù)然后通過(guò)點(diǎn)擊按鈕來(lái)提交內(nèi)容,這就是表單的典型應(yīng)用。 表格標(biāo)簽 表格 是 HTML 的構(gòu)成 部分,通常用來(lái)格式化存放、顯示數(shù)據(jù)。 我 們?cè)?具體解析這些 HTMl 標(biāo)簽有兩種方法:通過(guò) JavaTM 中的 Swing 類(lèi)來(lái)解析或者通過(guò) Bot 包中的 HTMLPage 類(lèi)來(lái)解析 ,本人在實(shí)際編程中采用后者。 Bot 包中的 HTMLPage 類(lèi)用來(lái)從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。下面給出該類(lèi)幾種重要的方法。 HTMLPage構(gòu)造函數(shù) 構(gòu)造對(duì)象并指定用于通訊的 HTTP對(duì)象 Public HTMLPage(HTTP ) GetForms方法 獲取最后一次調(diào)用 Open方法檢索到的表單清單 Public Vector getForms() GetHTTP方法 獲取發(fā)送給構(gòu)造函數(shù)的 HTTP對(duì)象 Public HTTP getHTTP() GetImage方法 獲取指定頁(yè)面的圖片清單 Public Vector getImage() GetLinks方法 獲取指定頁(yè)面的連接清單 Public Vector getLinks() Open方法 打開(kāi)一個(gè)頁(yè)面并讀入該頁(yè)面,若指定了回調(diào)對(duì)象則給出所有該對(duì)象數(shù)據(jù) Public void open(String url, a) Spider 程序結(jié)構(gòu) 網(wǎng)絡(luò)機(jī)器人必須從一個(gè)網(wǎng)頁(yè)遷移到另一個(gè)網(wǎng)頁(yè),所以必須找到該頁(yè)面上的超連接。程序首先解析網(wǎng)頁(yè)的 HTML 代碼,查找該頁(yè)面內(nèi)的超連接然后通過(guò)遞歸和非遞歸兩種結(jié)
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1