freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene與heritrix的搜索引擎構(gòu)建-全文預(yù)覽

2025-06-16 13:13 上一頁面

下一頁面
  

【正文】 子系統(tǒng) 的設(shè)計(jì) 。 (2) 索引建立 子 系統(tǒng) 主要是建立索引,及其周邊一些操作。下一階段是對(duì)以上所有信息進(jìn)行領(lǐng)域模型抽取。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –9– S o B a 系 統(tǒng)用 戶輸 入 ( 字 或 詞 )選 擇 搜 索 類 型請(qǐng) 求 搜 索返 回 信 息結(jié) 束 搜 索 圖 用戶與系統(tǒng)交互的系統(tǒng)順序圖 (2) 后臺(tái)維護(hù)人員進(jìn)行資源抓取 用例的主體是后臺(tái)維護(hù)人員和 Heritrix 爬蟲 子 系統(tǒng),兩者交互過程如圖 所示。 (2) 后臺(tái)維護(hù)人員進(jìn)行資源抓取用例 產(chǎn)生的用例圖系統(tǒng)參與者是后臺(tái)維護(hù)人員,系統(tǒng)事件包括定制抓取任務(wù),抓取資源,在抓取資源的過程中涉及到的是外部資源持有者 。 前置條件:維護(hù)人員有可利用資源 主要成功場(chǎng)景: ① 維護(hù)人員整理可利用資源,打開索引建立 子 系統(tǒng) ② 維護(hù)人員在配置文件中修改資源目錄 ③ 配置運(yùn)行時(shí)參數(shù) 后,點(diǎn)擊建立索引 ④ 系統(tǒng)產(chǎn)生索引文件并產(chǎn)生日志 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –8– 用例場(chǎng)景已經(jīng)分析出來,下一個(gè)階段是利用用例畫出用例圖。 前置條件:用戶可以與服務(wù)器良好連接 ,服務(wù)器狀態(tài)良好 主要成功場(chǎng)景: ① 用戶進(jìn)入 web 界面,輸入想要搜索的詞 ② 用戶在下拉列表中選擇影視 ③ 用戶點(diǎn)擊搜索按鈕,提交請(qǐng)求 ④ 系統(tǒng)進(jìn)行分析處理,并搜索結(jié)果 ⑤ 系統(tǒng)返回并顯示結(jié)果 ⑥ 用戶退出 擴(kuò)展: ① 用戶沒有輸入信息 沒有錯(cuò)誤提示信息,仍然停留在本頁面。 ② 索引建立 子 系統(tǒng)主要任務(wù)是根據(jù)網(wǎng)絡(luò)爬蟲抓取的資源進(jìn)行分析、正文抽取,利用分詞器將提取的資源進(jìn)行分詞 、 倒排建立索引。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –6– 3 系統(tǒng)分析與設(shè)計(jì) 系統(tǒng)需求分析 系統(tǒng)架構(gòu)分析 (1) 系統(tǒng)定位 系統(tǒng) 定位為 用于網(wǎng)頁 、 影視 和 圖片的搜索。對(duì)于 Ajax,當(dāng)用戶單擊 Edit 時(shí),可以將靜態(tài)表格刷新為內(nèi)容可編輯的表格。如果使用 Ajax 計(jì)算新的總量,服務(wù)器只會(huì)返回新的總量值,因此所需的帶寬僅為原來的百分之一。 (3) 使用 Ajax 可以完成的功能 在創(chuàng)建 Web 站點(diǎn)時(shí),在客戶端執(zhí)行屏幕更新為用戶提供了很大的靈活性。 Ajax 技術(shù)簡介 (1) Ajax( Asynchronous JavaScript + XML)的定義 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –5– ① 基于 web 標(biāo)準(zhǔn)( standardsbased presentation) XHTML+CSS 的表示; ② 使用 DOM( Document Object Model)進(jìn)行動(dòng)態(tài)顯示及交互; ③ 使用 XML 和 XSLT 進(jìn)行數(shù)據(jù)交換及相關(guān)操作; ④ 使用 XMLHttpRequest 進(jìn)行異步數(shù)據(jù)查詢、檢索; ⑤ 使用 JavaScript 將所有的東西綁定在一起。在這一點(diǎn)上,商業(yè)軟件的靈活性遠(yuǎn)遠(yuǎn)不及 Lucene。 Lucene 技術(shù)簡介 Lucene 是 apache 軟件基金會(huì) jakarta 項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開放源代碼的全文檢索引擎工具包,即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言 ) 。 ③ 只有官方支持,僅僅在 Linux 上進(jìn)行了測(cè)試。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –4– ④ 主要部件都是高效的可擴(kuò)展的 。 Heritrix 工程始于 2020 年初, IA 的目的是開發(fā)一個(gè)特殊的爬蟲,對(duì)網(wǎng)上的資源進(jìn)行歸檔,建立網(wǎng)絡(luò)數(shù)字圖書館,在過去的 6 年里, IA 已經(jīng)建立了 400TB 的數(shù)據(jù)。 系統(tǒng)開發(fā)平臺(tái) 本系統(tǒng)的開發(fā)平臺(tái)如下 表 所示: 表 系統(tǒng)開發(fā)平臺(tái)配 置 名稱 平臺(tái) 系統(tǒng)開發(fā)操作系統(tǒng): Windows XP 中文版 系統(tǒng)開發(fā)數(shù)據(jù)庫系統(tǒng): SQL Server2020 個(gè)人版 sp3 系統(tǒng)開發(fā)前臺(tái)頁面設(shè)計(jì): Macromedia J2EE 服務(wù)端引擎: 范圍 系統(tǒng)集成開發(fā)工具: Java 運(yùn)行環(huán)境 : 系統(tǒng)開發(fā)技術(shù) Heritrix 網(wǎng)絡(luò)爬蟲簡介 Heritrix 是一個(gè)由 Java 開發(fā)的、開源的 Web 網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò) 上抓取想要的資源。 (3) 網(wǎng)絡(luò)信息日新月異的變更 , 人們總是期望挑出最新的信息。 但是由于網(wǎng)絡(luò) 信息的復(fù)雜性和網(wǎng)絡(luò)檢索技術(shù)的限制,這類檢索工具也有著明顯的不足: (1) 隨著網(wǎng)頁數(shù)量的迅猛增加 , 人工無法對(duì)其進(jìn)行有效的分類、索引和利用。一般認(rèn)為,基 于網(wǎng)頁的信息檢索工具主要有網(wǎng)頁搜索引擎和網(wǎng)絡(luò)分類目錄兩種。 在這種背景下,搜索引擎的技術(shù)迅速發(fā)展。仿佛一夜間,各種各樣的搜索服務(wù)席卷而來。它通過定期搜索并分析 FTP 系統(tǒng)中存在的文件名信息,提供查找分布在各個(gè) FTP 主機(jī)中文件的服務(wù)。它的開放性和其上信息廣泛的可訪問性極大的激勵(lì)了人們 創(chuàng)作的積極性。 本系統(tǒng)具有抓取網(wǎng)頁、建立和管理索引、建立日志以及搜索信息等功能,具備一定的應(yīng)用前景。 大 連 民 族 學(xué) 院 本 科 畢 業(yè) 設(shè) 計(jì)(論 文) 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 學(xué) 院(系): 計(jì)算機(jī)科學(xué)與工程 專 業(yè): 軟件工程 學(xué) 生 姓 名: 馮超 學(xué) 號(hào): 04083105 指 導(dǎo) 教 師: 趙晶瑩 評(píng) 閱 教 師: 完 成 日 期 : 大連 民族學(xué)院 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 I 摘 要 在互聯(lián)網(wǎng)蓬勃發(fā)展的今天 , 互聯(lián)網(wǎng)上的信息更是浩如煙 海 。網(wǎng)絡(luò)蜘蛛部分采用了 基于遞歸和 歸檔 機(jī)制的 Heritrix 網(wǎng)絡(luò)爬蟲 ; 網(wǎng)頁索引部分利用開源的 Lucene 引擎架構(gòu)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)可復(fù)用 的 、可擴(kuò)展的 索引建立 與 管理子 系統(tǒng) ; 搜索部分在 Ajax 技術(shù) 支持 上,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)靈活、簡潔的 用戶接口。 The Searcher ponent based on the Ajax technology is designed and realized as a flexible, concise user interface. The system has some functions, such as crawling web page, establishment and management index, establishment log and search information, it has a certain application prospect. Key Words: Search Engine; Chinese Word Segmentation; Index 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 III 目 錄 摘 要 ..................................................................................................................................... I Abstract ...................................................................................................................................... II 1 緒論 ........................................................................................................................................ 1 項(xiàng)目背景 ..................................................................................................................... 1 國內(nèi)外發(fā)展現(xiàn)狀 ......................................................................................................... 1 2 系統(tǒng)的開發(fā)平臺(tái)及相關(guān)技術(shù) ................................................................................................ 3 系統(tǒng)開發(fā)平臺(tái) ............................................................................................................. 3 系統(tǒng)開發(fā)技術(shù) ............................................................................................................. 3 Heritrix 網(wǎng)絡(luò)爬蟲簡介 ..................................................................................... 3 Lucene 技術(shù)簡介 .............................................................................................. 4 Ajax 技術(shù)簡介 .................................................................................................. 4 3 系統(tǒng)分析與設(shè)計(jì) .................................................................................................................... 6 系統(tǒng)需求分析 ............................................................................................................. 6 系統(tǒng)架構(gòu)分析 .................................................................................................. 6 系統(tǒng)用例模型 .................................................................................................. 6 系統(tǒng)領(lǐng)域模型 ................................................................................................ 10 系統(tǒng)概要設(shè)計(jì) ........................................................................................................... 11 系統(tǒng)詳細(xì)設(shè)計(jì) ........................................................................................................... 12 索引建立子系統(tǒng) ............................................................................................
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1