freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

h20xx032115_基于ajaxlucene構(gòu)建搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)(編輯修改稿)

2024-12-22 17:12 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 網(wǎng)站采集網(wǎng)頁(yè)資料。 它為保證采集的資料最新,還會(huì)回訪(fǎng)已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛 采集的網(wǎng)頁(yè),還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì) 算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。 我們平時(shí)看到的全文搜索引擎, 第 頁(yè) 共 19 頁(yè) 2 實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢(xún)時(shí),搜索 引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定 規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,搜索結(jié)果也就不盡 相同。 利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的 Spider 程序,自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),并沿 著網(wǎng)頁(yè)中的所有 URL 爬到其它網(wǎng)頁(yè) ,重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回 來(lái)。然后建立索引數(shù)據(jù)庫(kù),由分析索引程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取 相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在 URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵 詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),然后用這些相關(guān)信息建 立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。接下來(lái)在索引數(shù)據(jù)庫(kù)中搜索排序,當(dāng)用戶(hù)輸入關(guān)鍵詞搜索 后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。 最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái) 返回給用戶(hù)。搜索引擎只能搜到它網(wǎng) 頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。 Lucene 與搜索引擎 Lucene 是一個(gè)全文信息檢索工具包,為應(yīng)用程序提供索引和搜索功能。和 Java Lucene 兼容的 可以用在 . 平臺(tái)。 Lucene 能夠?yàn)槲谋绢?lèi)型的數(shù) 據(jù)建立索引,所以你只要能把你要索引的數(shù)據(jù)格式轉(zhuǎn)化的文本的, Lucene 就能 對(duì)你的文檔進(jìn)行索引和搜索。比如你要對(duì)一些 HTML 文檔, PDF 文檔進(jìn)行索引 的話(huà)你就首先需要把 HTML 文檔和 PDF 文檔轉(zhuǎn)化成文本格式的,然后將轉(zhuǎn)化 后的內(nèi) 容交給 Lucene 進(jìn)行索引,然后把創(chuàng)建好的索引文件保存到磁盤(pán)或者內(nèi)存 中,最后根據(jù)用戶(hù)輸入的查詢(xún)條件在索引文件上進(jìn)行查詢(xún)。不規(guī)定要索引的文 檔的格式也使 Lucene 能夠適用于幾乎所有的搜索應(yīng)用程序。 如圖 1 表示了搜索應(yīng)用程序和 Lucene 之間的關(guān)系,也反映了利用 Lucene 構(gòu)建搜索應(yīng)用程序的流程: 圖 1 應(yīng)用程序和 Lucene 第 頁(yè) 共 19 頁(yè) 3 索引和搜索 索引是現(xiàn)代搜索引擎的核心,建立索引是把數(shù)據(jù)源處理成非常方便查詢(xún)的 索引文件的過(guò)程。為什么索引這么重要呢,試想你現(xiàn)在要在大量的文檔中搜索 含有某個(gè)關(guān)鍵詞的文檔,那么如果不建立索引的話(huà)你就需要把這些文檔順序的 讀入內(nèi)存,然后檢查這個(gè)文章中是不是含有要查找的關(guān)鍵詞,這樣的話(huà)就會(huì)耗 費(fèi)非常多的時(shí)間,想想搜索引擎可是在毫秒級(jí)的時(shí)間內(nèi)查找出要搜索的結(jié)果的。 這就是由于建立了索引的原因,你可以把索引想象成這樣一種數(shù)據(jù)結(jié) 構(gòu),他能 夠使你快速的隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)在索引中的關(guān)鍵詞,進(jìn)而找到該關(guān)鍵詞所關(guān)聯(lián)的文 檔。 Lucene 采用的是一種稱(chēng)為反向索引( inverted index)的機(jī)制。反向索引就 是說(shuō)我們維護(hù)了一個(gè)詞 /短語(yǔ)表,對(duì)于這個(gè)表中的每個(gè)詞 /短語(yǔ),都有一個(gè)鏈表描 述了有哪些文檔包含了這個(gè)詞 /短語(yǔ)。這樣在用戶(hù)輸入查詢(xún)條件的時(shí)候,就能非 常快的得到搜索結(jié)果。我們將在本系列文章的第二部分詳細(xì)介紹 Lucene 的索引 機(jī)制,由于 Lucene 提供了簡(jiǎn)單易用的 API,所以也可以非常容易的使用 Lucene 對(duì)文 檔實(shí)現(xiàn)索引的建立。 對(duì)文檔建立好索引后,就可以在這些索引上面進(jìn)行搜索了。搜索引擎首先 會(huì)對(duì)搜索的關(guān)鍵詞進(jìn)行解析,然后再在建立好的索引上面進(jìn)行查找,最終返回 和用戶(hù)輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。 Ajax 技術(shù) Ajax 全稱(chēng)為 Asynchronous JavaScript and XML(異步 JavaScript 和 XML), 是指一種創(chuàng)建交互式網(wǎng)頁(yè)應(yīng)用的網(wǎng)頁(yè)開(kāi)發(fā)技術(shù)。 Ajax 技術(shù)是目前在瀏覽器中通 過(guò) JavaScript 腳本可以使用的所有技術(shù)的集合。包括: HTML 和 CSS,使用文 檔對(duì)象模型 DOM 作動(dòng)態(tài)顯示和交互,使用 XML 做數(shù)據(jù)交互和操作,使用 XMLHttpRequest 進(jìn)行異步數(shù)據(jù)接收,使用 JavaScript 將它們綁定在一起。 Ajax 技術(shù)之中,核心的技術(shù)就是 XMLHttpRequest,它最初的名稱(chēng)叫做 XMLHTTP,是微軟公司為了滿(mǎn)足開(kāi)發(fā)者的需要, 1999 年在 瀏覽器中率 先推出的。后來(lái)這個(gè)技術(shù)被上述的規(guī)范命名為 XMLHttpRequest。它正是 Ajax 技術(shù)之所以與眾不同的地方。簡(jiǎn)而言之, XMLHttpRequest 為運(yùn)行于瀏覽器中的 JavaScript 腳本提供了一種在頁(yè)面之內(nèi)與服務(wù)器通信的手段。頁(yè)面內(nèi)的 JavaScript 可以在不刷新頁(yè)面的情況下從服務(wù)器獲取數(shù)據(jù),或者向服務(wù)器提交數(shù)據(jù)。 XMLHttpRequest 的出現(xiàn)為 Web 開(kāi)發(fā)提供了一種全新的可能性,甚至整個(gè)改變 了人們對(duì)于 Web 應(yīng)用由什么來(lái)組成的看法。它可以使我們以一種全新的方式來(lái) 做 Web 開(kāi)發(fā),為用戶(hù)提供更好的交互體驗(yàn)。 傳統(tǒng)的 web 應(yīng)用模型如圖 2: 第 頁(yè) 共 19 頁(yè) 4 服務(wù)器端處理 數(shù)據(jù)返回 數(shù)據(jù)提交 新的頁(yè)面呈現(xiàn) 客戶(hù)端頁(yè)面 處理 用戶(hù)操作后等待 ? ? .. 圖 2 Web 應(yīng)用模型 與傳統(tǒng)的 Web 開(kāi)發(fā)不同, Ajax 并不是以一種基于靜態(tài)頁(yè)面的方式來(lái)看待 Web 應(yīng)用的。從 Ajax 的角度看來(lái), Web 應(yīng)用應(yīng)由少量的頁(yè)面組成,其中每個(gè)頁(yè) 面其實(shí)是一 個(gè)更小型的 Ajax 應(yīng)用。每個(gè)頁(yè)面上面都包括有一些使用 JavaScript 開(kāi)發(fā)的 Ajax 組件。這些組件使用 XMLHttpRequest 對(duì)象以異步的方式與服務(wù)器 通信,從服務(wù)器獲取需要的數(shù)據(jù)后使用 DOM API 來(lái)更新頁(yè)面中的一部分內(nèi)容。 因此 Ajax 應(yīng)用與傳統(tǒng)的 Web 應(yīng)用的區(qū)別主要在三個(gè)地方: 1. 不刷新整個(gè)頁(yè)面,在頁(yè)面內(nèi)與服務(wù)器通信。 2. 使用異步方式與服務(wù)器通信,不需要打斷用戶(hù)的操作,具有更加迅速的 響應(yīng)能力。 3. 系統(tǒng)僅由少量頁(yè)面組成。大部分交互在頁(yè)面之內(nèi)完 成,不需要切換整個(gè) 頁(yè)面。 由此可見(jiàn), Ajax 使得 Web 應(yīng)用更加動(dòng)態(tài),帶來(lái)了更高的智能,并且提供了 表現(xiàn)能力豐富的 Ajax UI 組件。 3 需求分析 同步環(huán)境 本系統(tǒng)的同步環(huán)境如圖 3: 第 頁(yè) 共 19 頁(yè) 5 圖 3 同步環(huán)境 檢索服務(wù)器通過(guò) Inter 檢索 Web 頁(yè)面。 功能需求 本設(shè)計(jì)要實(shí)現(xiàn)的功能: 1. 能夠?qū)? Inter 上的網(wǎng)頁(yè)內(nèi)容、標(biāo)題、鏈接等信息按鏈?zhǔn)绞占? 2. 能夠?qū)崿F(xiàn)一定鏈接深度的網(wǎng)頁(yè)收集 ,也就是在 Inter 上實(shí)現(xiàn)一定的 URL 級(jí)的數(shù)據(jù)收錄。 3. 對(duì)收集到的數(shù)據(jù)存入 MSSQL Server 2020 等關(guān)系型數(shù)據(jù)庫(kù)中、或者存入 文本文件中。 4. 網(wǎng)站信息庫(kù)中的信息 會(huì)不斷的變動(dòng),對(duì)收集到的數(shù)據(jù)需要定期的自動(dòng)維 護(hù),做到定期的刪除、從新收集。 5. 對(duì)收集到的數(shù)據(jù)進(jìn)行關(guān)鍵詞的檢索。 6. 對(duì)檢索出的數(shù)據(jù)要可定位性,即可以顯示對(duì)數(shù)據(jù)的出處的鏈接。 7. 實(shí)現(xiàn)中英文分詞功能,能夠按中文或者英文單詞檢索數(shù)據(jù)。 8. 實(shí)現(xiàn)無(wú)刷新的顯示搜索結(jié)果,對(duì)搜索用時(shí)的計(jì)算、顯示,關(guān)鍵字高亮顯 示等。 9. 邏輯搜索功能比如 中國(guó) AND北京 AND NOT( 海淀區(qū) AND 中關(guān)村 )。 性能需求 1. 精度: 對(duì)收集到的信息需要一定的完整性, 即對(duì)鏈接層次里的每個(gè)鏈接頁(yè) 面都能夠收集得到,并寫(xiě)入收集的存儲(chǔ)區(qū)里。 對(duì)搜索出的內(nèi)容需要包含有關(guān)鍵字信息 2. 時(shí)間特性要求: 數(shù)據(jù)收集時(shí),因?yàn)槭菍?duì) Inter 網(wǎng)上 Web 信息的收集,并且采用 URL 第 頁(yè) 共 19 頁(yè) 6 級(jí)鏈?zhǔn)降木W(wǎng)頁(yè)收集。收集數(shù)據(jù)時(shí)不能夠出現(xiàn)無(wú)響應(yīng)的等待。 搜索時(shí)響應(yīng)時(shí)間應(yīng)不超過(guò) 3 秒,無(wú)論搜索的記錄多少。 3. 靈活性 具有良好的中文切詞功能。 輸入輸出要求 輸入:搜索的關(guān)鍵字。 處理:去前后空格,關(guān)鍵字,查詢(xún)索引庫(kù)。 輸出: Web 頁(yè)面上顯示搜索信息。 運(yùn)行需求 1.硬件環(huán)境需求: 需要使用專(zhuān)用服務(wù)器, P4 以上, 512M 以上內(nèi)存, 80G 以上硬盤(pán); Inter 網(wǎng)絡(luò)連接 。 2.軟件環(huán)境: 源端: Windows 2020/XP 操作系統(tǒng)、 MSSQL Server 2020 數(shù)據(jù)庫(kù)、 、 .NET 。 4 方案設(shè)計(jì) 結(jié)合前面的同步原理,以及需求的介紹,下面給出同步的方案設(shè)計(jì)。 搜索引擎模型 模型包括爬蟲(chóng)、索引生成、查詢(xún)以及系統(tǒng)配置部分。爬蟲(chóng)包括:網(wǎng)頁(yè)抓取 模
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1