freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于lucene與heritrix的搜索引擎構(gòu)建(編輯修改稿)

2025-06-26 13:13 本頁面
 

【文章內(nèi)容簡介】 輸入信息 沒有錯誤提示信息,仍然停留在本頁面。 ② 用戶輸入空格或制表符 沒有錯誤提示信息,刷新頁面。 ③ 用戶沒有選擇影視 系統(tǒng)返回當(dāng)前選擇類型的信息。 ④ 系統(tǒng)失去連接或崩潰 系統(tǒng)提示連接超時 用戶等待系統(tǒng)響應(yīng),直到恢復(fù)正常 ⑤ 系統(tǒng)崩潰 返回錯誤信息,提示用戶系統(tǒng)出現(xiàn)故障 , 用 戶退出 (2) 詳述用例: 后臺維護(hù)人員建立索引 主要參與者:維護(hù)人員 相關(guān)人員及其興趣: 維護(hù)人員希望系統(tǒng)能快速方便的完成建立索引任務(wù),并能產(chǎn)生日志,以便維護(hù)。 前置條件:維護(hù)人員有可利用資源 主要成功場景: ① 維護(hù)人員整理可利用資源,打開索引建立 子 系統(tǒng) ② 維護(hù)人員在配置文件中修改資源目錄 ③ 配置運(yùn)行時參數(shù) 后,點(diǎn)擊建立索引 ④ 系統(tǒng)產(chǎn)生索引文件并產(chǎn)生日志 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –8– 用例場景已經(jīng)分析出來,下一個階段是利用用例畫出用例圖。這樣更加直觀顯示出參與者與系統(tǒng)的交互流程。 用例圖如圖 所示。 用例圖表述 如下 : (1) 用 戶進(jìn)行影視搜索 用例 產(chǎn)生的用例圖系統(tǒng)外參與者為用戶,系統(tǒng)事件包括用戶選取類型 ,搜索信息和資源鏈接。 (2) 后臺維護(hù)人員進(jìn)行資源抓取用例 產(chǎn)生的用例圖系統(tǒng)參與者是后臺維護(hù)人員,系統(tǒng)事件包括定制抓取任務(wù),抓取資源,在抓取資源的過程中涉及到的是外部資源持有者 。 (3) 后臺維護(hù)人員建立索引 用例 產(chǎn)生的用例圖主要參與者為后臺維護(hù)人員,系統(tǒng)事件包括資源預(yù)處理 、 規(guī)范化 、 噪音過濾 、 正文抽取 、 索引建立 、 日志建立 和 索引維 護(hù)。 S o B a 系 統(tǒng)用 戶后 臺 維 護(hù) 人 員資 源 持 有 者搜 索 信 息抓 取 資 源索 引 建 立索 引 維 護(hù)日 志 建 立資 源 選 取 圖 部分 用例 語境 圖 詳述 用例 和用例 圖 已經(jīng)完成分析,接下來是根據(jù)用例來畫出系統(tǒng)順序圖。 系統(tǒng)順序圖將系統(tǒng)視為黑盒,注重的是參與者與系統(tǒng)之間的交互過程, 對用例 場景 進(jìn)行分析 如下: (1) 用戶進(jìn)行影視搜索 用例中用戶和 SoBa 系統(tǒng)其實(shí)就 是用戶和用戶接口 子 系統(tǒng)的交互,主體為用戶和接口 子 系統(tǒng),系統(tǒng)順序圖如圖 所示。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –9– S o B a 系 統(tǒng)用 戶輸 入 ( 字 或 詞 )選 擇 搜 索 類 型請 求 搜 索返 回 信 息結(jié) 束 搜 索 圖 用戶與系統(tǒng)交互的系統(tǒng)順序圖 (2) 后臺維護(hù)人員進(jìn)行資源抓取 用例的主體是后臺維護(hù)人員和 Heritrix 爬蟲 子 系統(tǒng),兩者交互過程如圖 所示。 后 臺 維 護(hù) 人 員S o B a 系 統(tǒng)輸 入 用 戶 和 密 碼創(chuàng) 建 新 的 抓 取 任 務(wù)返 回 驗(yàn) 證 信 息設(shè) 置 抓 取 時 的 處 理 鏈設(shè) 置 運(yùn) 行 時 的 參 數(shù)運(yùn) 行 抓 取 任 務(wù)結(jié) 束 抓 取 任 務(wù)返 回 資 源 和 日 志 圖 維護(hù)人員與 網(wǎng)絡(luò)爬蟲 交互 的 系統(tǒng)順序圖 (3) 后臺維護(hù)人員建立索引用例的主體是后臺維護(hù)人員和索引建立 子 系統(tǒng),兩者交互過程如圖 所示。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –10– 后 臺 維 護(hù) 人 員S o B a 系 統(tǒng)輸 入 用 戶 名 和 密 碼返 回 驗(yàn) 證 信 息配 置 資 源 路 徑配 置 運(yùn) 行 時 參 數(shù)請 求 開 始 建 立 索 引返 回 索 引 文 件 和 日 志結(jié) 束 建 立 索 引 圖 維護(hù)人員與索引建立 子 系統(tǒng)交互系統(tǒng)順序圖 系統(tǒng)順序圖已經(jīng)繪制出來,經(jīng)過分析得出了系統(tǒng)和外部參與者的交互過程,大概的分析出系統(tǒng)應(yīng)該承擔(dān)的責(zé)任和參與者的責(zé)任,在用戶和系統(tǒng)之間,用戶扮演的角色是把系統(tǒng)當(dāng)成黑盒來看,只是需要系統(tǒng)給出自己想要的信息,用戶的責(zé)任 只是將詞條輸入進(jìn)去,而此時的系統(tǒng)的責(zé)任就比較繁忙了,它會首先將信息進(jìn)行處理,轉(zhuǎn)換成讓搜索器認(rèn)識的詞語或單字,這樣就可以進(jìn)行下 一項(xiàng),利用搜索器在索引庫中搜索對應(yīng)的信息,當(dāng)信息被檢索出來,再對 結(jié)果 進(jìn)行篩選,最后 將其放入實(shí)體對象封裝起來,形成 xml 格式傳給客戶端,這就是用戶和系統(tǒng)的交互,并對用戶和系統(tǒng) 內(nèi)部進(jìn)行了簡單流程分析;在維護(hù)人員和系統(tǒng)之間,維護(hù)人員責(zé)任 是建立和維護(hù)索引以及日志,對于維護(hù)人員的責(zé)任就是盡量為系統(tǒng)的進(jìn)一步工作做準(zhǔn)備,并做好維護(hù)工作,而系統(tǒng)的責(zé)任就是對維護(hù)人員選取的資源進(jìn)行處理、正文抽取、建立索引 、維護(hù)索引和建立日志。這些是在這個階段簡單分析出來的過程。下一階段是對以上所有信息進(jìn)行領(lǐng)域模型抽取。 系統(tǒng)領(lǐng)域模型 對 參與者 和系統(tǒng)的交互過程進(jìn)行領(lǐng)域模型抽取,首先是名詞概念抽取: Term(詞條),TermDisposo(詞條處理器), Searcher(搜索器), EntitySet(實(shí)體集), IndexStore(索引庫) , FileSpider(文件蜘蛛), FileFilter(文件過濾器), Entity(實(shí)體)等 ,領(lǐng)域模型圖如圖 和 所示。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –11– w o r dT e r m1 T r a n s m i t t o1S e a r c h e r T e r m D i s p o s o r i n d e x e sI n d e x S t o r e1 T r a n s m i t t o1 S e a r c h f r o m 111 p r o d u c e1e n t i t i e sE n t i t y S e t 圖 用戶接口子系統(tǒng) 部分領(lǐng)域模型 1 P r o d u c e1N a m eT y p eE n t i t yf i l e P a t h sF i l e R e s u l t S e t F i l t F i l t e r I n d e x B u i l d e r E x t r a c t o r L o g g e rs o u r c e D i rF i l e S p i d e r I n d e x M a n a g e r1 T r a n s m i t1f i l e P a t h sF i l e R e s u l t S e t F i l t e r t o 11 T r a n s m i t f r o m11 P r o d u c e f r o m1* I n d e x T r a n s m i t t o*1 P r o d u c e11 P r o d u c e11 M a n a g e b y1 1 圖 索引建立 子 系統(tǒng)部分領(lǐng)域模型 系統(tǒng) 概要 設(shè)計(jì) 在需求分析階段, 產(chǎn)生的用例模型和領(lǐng)域模型帶入設(shè)計(jì)階段,現(xiàn)在可以大概設(shè)計(jì)系統(tǒng)的構(gòu)架,如圖 所示。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –12– S o B a 引 擎抓取資源H e r i t r i x 爬 蟲定制任務(wù)資源分析索 引 建 立 系 統(tǒng)預(yù)處理規(guī)范化噪音過濾分詞倒排建立索引可用資源抽取搜索器用 戶 接 口 系 統(tǒng)WEB用戶界面 圖 系統(tǒng)總體架構(gòu) 以下是對架構(gòu)設(shè)計(jì)的敘述: (1) Heritrix 爬蟲系統(tǒng) 主要是應(yīng)用 Heritrix 爬蟲抓取資源,而這些并不屬于這此工程開發(fā)任務(wù),所以不納入設(shè)計(jì)開 發(fā) 。 (2) 索引建立 子 系統(tǒng) 主要是建立索引,及其周邊一些操作。要設(shè)計(jì)索引建立 子 系統(tǒng) ,必須要了解索引建立過程,領(lǐng)域模型中已經(jīng)可以看出此子系統(tǒng)的大概框架,首先要利用文件爬蟲將資源目錄下的所有文件路徑收集起來,再經(jīng)過文件過濾器將自己感興趣的文件路徑得到,得到的路徑 經(jīng)過正文抽取器將數(shù)據(jù)抽取出來, 這樣就可以利用抽取出來的數(shù)據(jù)進(jìn)行索引建立。在熟悉了搜索引擎建立的過程后,可以對其架構(gòu)進(jìn)行設(shè)計(jì),可以在流程中看出資源文件就像是一批材料,索引建立 子 系統(tǒng)就像是工廠,將材料加工輸出成品,所以可以將該流程設(shè)計(jì)成流水線形式,可以將資 源路徑作為流水線上的材料,疵品被剔除掉,經(jīng)過流水線的一系列操作后,索引最后輸出。 (3) 用戶接口子系統(tǒng) 用戶接口子系統(tǒng) 是用戶利用 用戶接口子系統(tǒng) 進(jìn)行搜索,這部分可能設(shè)計(jì)到的技術(shù)是Ajax, Lucene Searcher 等,利用 Ajax 的用戶操作與服務(wù)器響應(yīng)異步化特性,可以實(shí)現(xiàn)局部數(shù)據(jù)傳輸,只將用戶所需要的信息返回即可,這樣大大降低了服務(wù)器和客戶端交互量,用戶可以創(chuàng)建接近本地桌面應(yīng)用的直觀、豐富 和 動態(tài)的 Web 用戶界面。 系統(tǒng) 詳細(xì) 設(shè)計(jì) 在框架設(shè)計(jì)中,簡要的設(shè)計(jì)出來了各個子系統(tǒng)的整體流程,下面則是對 索引建 立 子系統(tǒng)和 用戶接口子系統(tǒng) 的設(shè)計(jì) 。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –13– 索引建立 子 系統(tǒng) (1) 實(shí)體設(shè)計(jì) 實(shí)體的設(shè)計(jì) 的目的 是 封裝 資源抽取 出來的 數(shù)據(jù) , 這樣 有利于 使用和傳遞數(shù)據(jù)。 在實(shí)體設(shè)計(jì)的上層是 Entity,它繼承自 Object 類,是所有實(shí)體的父類 。在本項(xiàng)目中只設(shè)計(jì)了三個實(shí)體: Movie、 Text 和 Image,分別對應(yīng)影視、網(wǎng)頁和圖片。 實(shí)體關(guān)系圖如圖 所示。 E n t i t y t i t l e : s t r i n g p a t h : s t r i n g . . .I m a g e n a m e : s t r i n g p l a y e r : s t r i n g . . .M o v i e t i t l e : s t r i n g c o n t e n t : s t r i n g . . .T e x t 圖 實(shí)體 之間 關(guān)系圖 (2) 抽取器設(shè)計(jì) 提到正文抽取技術(shù),當(dāng)今流行的技術(shù)有基于分裝器的網(wǎng)頁文本信息抽取技 術(shù)、基于統(tǒng)計(jì)的網(wǎng)頁正文抽取技術(shù)和基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取技術(shù) 。 ① 基于分裝器的網(wǎng)頁文本信息抽取技術(shù),該方法屬于傳統(tǒng)的網(wǎng)頁信息抽取方法。它使用分裝器( wrapper) 來抽取網(wǎng)頁中感興趣的數(shù)據(jù)。分裝器(也稱為:包裝器)是一個程序,它根據(jù)一定的信息模式識別知識從特定的信息源中抽取相關(guān)內(nèi)容,并以特定形式加以表示。 ② 基于 統(tǒng)計(jì) 的網(wǎng)頁文本信息抽取技術(shù),該方法克服了傳統(tǒng)的網(wǎng)頁內(nèi)容抽取方法需要針對不同的數(shù)據(jù)源構(gòu)造不同的包裝器的缺點(diǎn),具有一定的普遍性。該方法對網(wǎng)頁正文信息的抽取依賴閾值 P 和 T,閾值 P 決定了選擇網(wǎng)頁正 文的文本塊。 ③ 基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取技術(shù),這類方法把數(shù)據(jù)挖掘技術(shù)應(yīng)用到對網(wǎng)頁自由文本的處理中,大大提高對網(wǎng)頁正文 ( 文章 ) 抽取的準(zhǔn)確率,突破了數(shù)據(jù)挖掘技術(shù)在應(yīng)用方面對結(jié)構(gòu)化數(shù)據(jù)的依賴,是一種很好的正文抽取技術(shù)。但仍然有一些普遍性問題有待進(jìn)一步改善。 基于 Lucene 與 Heritrix 的搜索引擎構(gòu)建 –14– 三種技術(shù)中基于數(shù)據(jù)挖掘的網(wǎng)頁正文抽取技術(shù)實(shí)現(xiàn)難度很大,在此次項(xiàng)目中不加以考慮,所以采用前兩種技術(shù)。在現(xiàn)今比較流行的開源項(xiàng)目中, HtmlParser 是基于分裝器的技術(shù),而基于統(tǒng)計(jì)的技術(shù)要自己來分析設(shè)計(jì)一種算法。這種算法的開發(fā)也是接下來的重要任務(wù)之一。 在 抽取器 設(shè)計(jì)中 , 影視和圖片的抽取器基于 分裝器技術(shù),而網(wǎng)頁抽取器是基于統(tǒng)計(jì)技術(shù) ,出于這樣的考慮是因?yàn)橛耙暫蛨D片在網(wǎng)頁中的結(jié)構(gòu)比較固定,比如說圖片,一般都封裝在 img 標(biāo)記中,這樣利用分裝器很容易就可以抽取出來,而對于網(wǎng)頁的抽取就不那么容易了,大量的網(wǎng)站中的網(wǎng)頁結(jié)構(gòu)不是相同的,存在很大的差異, 不適合利用分裝器抽取,所以選取了更為便捷的方式,基于統(tǒng)計(jì)的抽取技術(shù)。 抽取器之間的關(guān)系圖如圖 所示。 + e x t r a c t ( ) t a r g e t F i l e P a t h : s t r i n gE x t r a c t o r+ e x t r a c t ( ) t a r g e t F i l e P a t h . . .H t m l E x t r a c t o r+ e x t
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1