freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫(kù)吧

2025-07-28 17:54 本頁(yè)面


【正文】 年。這類(lèi)搜索引擎一般都索引少于 1, 000, 000 個(gè)網(wǎng)頁(yè),極少 重新搜集網(wǎng)頁(yè)并去刷新索引。而且其檢索速度非常慢,一般都要等待 10秒甚至更長(zhǎng)的時(shí)間。 第二代搜索出現(xiàn)在 1996 年。這類(lèi)搜索引擎系統(tǒng)大多采用分布式方案(多個(gè)微型計(jì)算機(jī)協(xié)同工作)來(lái)提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶(hù)數(shù)量,它們一般都保持一個(gè)大約50,000,000 網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù),每天能夠響應(yīng) 10,000,000 次用戶(hù)檢索請(qǐng)求。 第三代搜索引擎年代的劃分和主要特性至今沒(méi)有統(tǒng)一的認(rèn)識(shí),不過(guò)至少可以肯定的是:第三代搜索引擎是對(duì)第二代搜索引擎在搜索技術(shù)上的改進(jìn),主要增加了互動(dòng)性和個(gè)性化等高級(jí)的技術(shù),為用戶(hù)使用搜 索引擎獲取信息獲得更好的體驗(yàn)。至于互動(dòng)性的評(píng)價(jià)標(biāo)準(zhǔn)是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少價(jià)值 ——尤其是為企業(yè)利用搜索引擎開(kāi)展網(wǎng)絡(luò)營(yíng)銷(xiāo)增加了哪些價(jià)值,目前并沒(méi)有非常令人信服的研究結(jié)論。這也就是目前所謂的第三代搜索引擎并沒(méi)有表現(xiàn)出太多優(yōu)勢(shì)的原因之 7 一。 現(xiàn)在,網(wǎng)絡(luò)上有很多著名的搜索引擎,百度, google 等等,百度從 2020 年誕生到現(xiàn)在成為全球最大的中文搜索引擎,可想而知,發(fā)展的速度 是 多么的快,人們對(duì)搜索引擎的的需求 是多么的 大,百度的日點(diǎn)擊率我無(wú)法在找到確切的數(shù)字,但是我們可以計(jì)算一下, 截至 2020 年底,中國(guó)網(wǎng)民規(guī)模達(dá)到 億人,每個(gè)網(wǎng)民上網(wǎng)點(diǎn)擊百度的次數(shù)應(yīng)該不少于十次吧,像我們要在百度上找資料的網(wǎng)名點(diǎn)擊率百次不止,所以百度的日點(diǎn)擊率是多么驚人。 搜索引擎經(jīng)過(guò)幾年的發(fā)展和摸索,越來(lái)越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。搜索引擎在將來(lái)的的發(fā)展趨勢(shì)大概有以下幾個(gè)方面: 為了提高搜索引擎對(duì)用戶(hù)檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢(xún)的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢(xún)。用戶(hù)可以輸入簡(jiǎn)單的疑問(wèn)句,比如“ how can kill virus of puter?”。搜索引擎在對(duì)提問(wèn)進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問(wèn)的答案,或引導(dǎo)用戶(hù)從幾個(gè)可選擇的問(wèn)題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢(xún)變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢(xún),多半人會(huì)用“ virus”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類(lèi)病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息,而用“ how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶(hù),提高了檢索效率。 的結(jié)果進(jìn)行處理 對(duì)檢索的結(jié)果處理,有以下幾個(gè)方向:其一,使用鏈接評(píng)價(jià),就是將網(wǎng)頁(yè)的鏈接數(shù)量算作網(wǎng)頁(yè)評(píng)分因素之一,這樣搜索的結(jié)果就更加的能夠滿(mǎn)足用戶(hù)的要求,在這個(gè)方面 google( )的“鏈接評(píng)價(jià)體系”已經(jīng)做出了相當(dāng)出色的成績(jī)。其二,使用大眾訪問(wèn)性,就是將訪問(wèn)數(shù)量(也可以叫做點(diǎn)擊數(shù)量)算作網(wǎng)頁(yè)評(píng)分的因素之一,這樣想 這樣的網(wǎng)站的分?jǐn)?shù)會(huì)很高,而這樣的網(wǎng)站很多時(shí)候都是用戶(hù)想找的,這樣能 夠提高搜索引擎的準(zhǔn)確率。其三,去掉結(jié)果中的附加信息。 有調(diào)查指出,過(guò)多的附加信息加重了用戶(hù)的信息負(fù)擔(dān),為了去掉這些過(guò)多的附加信息,可以采用用戶(hù)定制、內(nèi)容過(guò)濾等檢索技術(shù)。 ,提高針對(duì)性 在這個(gè)方面現(xiàn)在的發(fā)展的方向是:其一,垂直主題搜索。垂直主題的搜索引擎以 8 其高度的目標(biāo)化和專(zhuān)業(yè)化在各類(lèi)搜索引擎中占據(jù)了一系席之地,比如象股票、天氣、新聞等類(lèi)的搜索引擎,具有很高的針對(duì)性,用戶(hù)對(duì)查詢(xún)結(jié)果的滿(mǎn)意度較高。其二,非 信息的搜索。搜索引擎提供了例如 ftp 等非 信息的搜索。其三,多媒體搜索。搜索引擎還提供 了例如包括聲音、圖像等等多媒體信息的檢索。 在這個(gè)方面有兩個(gè)主要的發(fā)展方向:其一,純凈搜索引擎。 這類(lèi)搜索引擎沒(méi)有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫(kù),主要關(guān)注檢索的理念、技術(shù)和機(jī)制等。其二,元搜索引擎。元搜索引擎 (metasearch enging)是將用戶(hù)提交的檢索請(qǐng)求到多個(gè)獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶(hù),因此有搜索引擎之上的搜索引擎之稱(chēng)。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性搜索功能的設(shè)置和用戶(hù)檢索界面的友好性上 ,查全率和查準(zhǔn)率都比較高。 9 第二章 搜索引擎的結(jié)構(gòu) 系統(tǒng)概述 搜索引擎是根據(jù)用戶(hù)的查詢(xún)請(qǐng)求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶(hù)。為了保證用戶(hù)查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù)。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、索引數(shù)據(jù)庫(kù)等部分組成。 圖 1 搜索引擎 的 系統(tǒng)結(jié)構(gòu) 搜索引擎的構(gòu)成 網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人也稱(chēng)為“網(wǎng)絡(luò)蜘蛛” (Spider),是一個(gè)功能很強(qiáng)的 WEB掃描程序。它可以 在掃描 WEB 頁(yè)面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后掃描。因?yàn)閃EB 中廣泛使用超鏈接,所以一個(gè) Spider 程序理論上可以訪問(wèn)整個(gè) WEB 頁(yè)面。 為了保證網(wǎng)絡(luò)機(jī)器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。 索引與搜索 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中,如果通過(guò) SQL直接查詢(xún)信息速度將會(huì)難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放。如果索引不及時(shí) 更 新的話, 這樣 用戶(hù)用搜索引擎也不能檢索到。 WWW 文檔 網(wǎng)絡(luò)機(jī)器人程序 建立 Lucene 索引 從數(shù)據(jù)庫(kù)中搜索信息 Tomcat 服務(wù)器 Lucene 索引數(shù)據(jù)庫(kù) WWW 瀏覽器 WWW 瀏覽器 JSP 網(wǎng)絡(luò)機(jī)器人程序 10 用戶(hù)輸入搜索條件后搜索程序?qū)?通過(guò)索引數(shù)據(jù)庫(kù)進(jìn)行檢索然后把符合查詢(xún)要求的數(shù)據(jù)庫(kù)按照一定的策略進(jìn)行分級(jí)排列并且返回給用戶(hù)。 Web 服務(wù)器 客戶(hù)一般通過(guò)瀏覽器進(jìn)行查詢(xún),這就需要系統(tǒng)提供 Web 服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行連接。客戶(hù)在瀏覽器中輸入查詢(xún)條件, Web 服務(wù)器接收到客戶(hù)的查詢(xún)條件后在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún)、排列然后返回給客戶(hù)端。 搜索引擎的主要指標(biāo)及分析 搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。這些指標(biāo)決定了搜索引擎的技術(shù)指標(biāo)。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速 度和高召回率、準(zhǔn)確率,當(dāng)然這些都需要搜索引擎技術(shù)指標(biāo)來(lái)保障。 召回率:一次搜索結(jié)果中符合用戶(hù)要求的數(shù)目與用戶(hù)查詢(xún)相關(guān)信息的總數(shù)之比 準(zhǔn)確率:一次搜索結(jié)果中符合用戶(hù)要求的數(shù)目與該次搜索結(jié)果總數(shù)之比 相關(guān)度:用戶(hù)查詢(xún)與搜索結(jié)果之間相似度的一種度量 精確度:對(duì)搜索結(jié)果的排序分級(jí)能力和對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力 小結(jié) 以上 是 對(duì) 于 基于因特網(wǎng)的搜索引擎 的 結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研究的基礎(chǔ)上利用 JavaTM 技術(shù)和一些 Open Source 工具實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的搜索引擎 —— 新聞搜索引擎。在接下來(lái)的幾章里 將會(huì)就本人的設(shè)計(jì)進(jìn)行詳細(xì)的分析。 11 第三章 網(wǎng)絡(luò)機(jī)器人 什么是網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人又稱(chēng)為 Spider 程序,是一種專(zhuān)業(yè)的 Bot 程序。用于查找大量的 Web頁(yè)面。它從一個(gè)簡(jiǎn)單的 Web頁(yè)面上開(kāi)始執(zhí)行,然后通過(guò)其超鏈接訪問(wèn)其他頁(yè)面,如此反復(fù) ,理論上可以掃描互聯(lián)網(wǎng)上的所有頁(yè)面。 基于因特網(wǎng)的搜索引擎是 Spider 的最早應(yīng)用。例如搜索巨頭 Google 公司,就利用網(wǎng)絡(luò)機(jī)器人程序來(lái)遍歷 Web 站點(diǎn),以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫(kù)。 網(wǎng)絡(luò)機(jī)器人還可以通過(guò)掃描 Web站點(diǎn)的主頁(yè)來(lái)得到這個(gè)站點(diǎn)的文件清單和層次機(jī)構(gòu) 。還可以掃描出中斷的超鏈接和拼寫(xiě)錯(cuò)誤等。 網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析 Inter 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。 Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上,而 HTTP又是建立在 TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上,它同時(shí)也是一種 Socket 協(xié)議。所以網(wǎng)絡(luò)機(jī)器人本質(zhì)上是一種基于 Socket 的網(wǎng)絡(luò)程序。 如何解析 HTML 因?yàn)?Web 中的信息都是建立在 HTML 協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng)頁(yè)時(shí)的第一個(gè)問(wèn)題就是如何解析 HTML。在解決如何解析之前,先來(lái)介紹下 HTML 中 的幾種數(shù)據(jù)。 我們?cè)谶M(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽,只需要對(duì)其中幾種重要的進(jìn)行解析即可。 文本:除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注釋?zhuān)撼绦騿T留下的說(shuō)明文字,對(duì)用戶(hù)是不可見(jiàn)的 簡(jiǎn)單標(biāo)簽:由單個(gè)表示的 HTML 標(biāo)簽 開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽:用來(lái)控制所包含的 HTML 代碼 我們?cè)诰唧w解析這些 HTMl 標(biāo)簽有兩種方法:通過(guò) JavaTM 中的 Swing 類(lèi)來(lái)解析或者 通過(guò) Bot 包中的 HTMLPage 類(lèi)來(lái)解析 ,本人在實(shí)際編程中采用后者。 Bot 包中的 HTMLPage 類(lèi)用來(lái)從指定 URL 中讀取數(shù)據(jù)并檢索出有用的信息。下面給出該類(lèi)幾種重要的方法。 12 HTMLPage 構(gòu)造函數(shù) : 構(gòu)造對(duì)象并指定用于通訊的 HTTP 對(duì)象 Public HTMLPage(HTTP ) GetForms 方法 : 獲取最后一次調(diào)用 Open 方法檢索到的表單清單 Public Vector getForms() GetHTTP 方法 : 獲取發(fā)送給構(gòu)造函數(shù)的 HTTP 對(duì)象 Public HTTP getHTTP() GetImage 方法 : 獲取指定頁(yè)面的圖片清單 Public Vector getImage() GetLinks 方法 : 獲取指定頁(yè)面的連接清單 Public Vector getLinks() Open 方法 :打開(kāi)一個(gè)頁(yè)面并讀入該頁(yè)面,若指定了回調(diào)對(duì)象則給出所有該對(duì)象數(shù)據(jù) Public void open(String url, a) Sp
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1