freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

2025-07-01 14:32本頁面

【導讀】畢業(yè)論文(設(shè)計). 論文(設(shè)計)題目:. 基于Nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)

  

【正文】 使得 HITS 算法比 PageRank 算法在收斂速度上快很多,但是在信息檢索的過程中不得不考慮排序的代價問題。 本文實現(xiàn) 的 算法 由于 目前的網(wǎng)頁多 才用 了半結(jié)構(gòu)化的 HTML 語言 , 其中包含有豐富的結(jié)構(gòu)信 息,在 抽取 網(wǎng)頁的主題內(nèi)容時,應(yīng)對此加以利用。對 位于 title、 meta、 anchor等標記 之內(nèi)的關(guān)鍵詞應(yīng)該重視,計算時賦予較大的權(quán)重系數(shù)。 并且 實踐 發(fā)現(xiàn)各大報紙網(wǎng)站中 的 鏈接大部分指向內(nèi)部,并且新聞頁面 都是 的形式, 所以 設(shè)置 Nutch 種子文件為報紙 新聞 網(wǎng)站 入口 , 并且控制抓取的頁面都是 的形式, 保證 抓取 頁面的主題相關(guān)準確率。 山東大學本科畢業(yè)論文 20 基于內(nèi)容 評價 Fish Search 算法 基 于內(nèi)容評價的搜索策略的特點是利用網(wǎng)頁中文本信息作為某一相關(guān)領(lǐng)域的知識來指導搜索過程,并根據(jù)網(wǎng)頁內(nèi)容和網(wǎng)頁鏈接與 (關(guān)鍵詞和主題 )之間的相關(guān)度來評價這個網(wǎng)頁鏈接對搜索主題來說的價值的高低,這種基于內(nèi)容搜索策略代表有: Fish Search 算法、 Shark Search 算法。 Fish Search 算法的核心是根據(jù)用戶主題相關(guān)度,實時動態(tài)地維護待爬行 URL 地址的優(yōu)先隊列 URL_Queue。此隊列分為三部分前端、中部、尾部。另外還有幾個重要的參數(shù)分別是 depth、 width 和 potential_score。它們 作用分別為記錄被搜索網(wǎng)頁的深度、網(wǎng)頁的鏈路數(shù)目和 URL 的相關(guān)度。 Fish Search 算法的基本工作流程是:將一個 URL 地址作為起始頁面進行搜索,在搜索頁面的同時動態(tài)的建立一個主題相關(guān)列表,用來存放待查詢的 URL地址,該列表的 URL 孩子鏈接或者子鏈接按照優(yōu)先級進行區(qū)分。 URL 地址的排序也是按照優(yōu)先級從高到低來排序的,在每進行一次查詢時,首先把優(yōu)先級最高的 URL 進行分析,假設(shè)該網(wǎng)頁和搜索內(nèi)容相關(guān),即對 URL 的 potential_score 進行賦值,同時也就改變此 URL 地址其相應(yīng)的 depth 和 width 參數(shù)值 ,然后再對下一個 URL 地址進行檢索,以此循環(huán)操作。 Fish Search 算法的具體流程描述如下: 1. 從動態(tài) URL 列表中從高到低的提取 URL 地址,對提取的 URL 地址進行搜索,取得與用戶搜索主題相關(guān)的網(wǎng)頁文件,將查詢出來的結(jié)果和用戶搜索內(nèi)容進行比對,檢查二者的相關(guān)性。 2. 給每個從 URL 列表中提取的 URL 賦相應(yīng)的 depth 值,假設(shè)這個 URL 文件列表是相關(guān),那么就對這個 URL 文件列表中的 URL 的 potential_score 值賦為1,并且得到一個最初設(shè)定的 depth 值。反之,如果 URL 文件列表不相關(guān),那 么就給 URL 的 potential_score 的值賦為 或 0。隨著 denpth 值遞減,具體賦值操作方法如下描述: ①如果 URL 文件列表相關(guān),則可以將這個 URL 文件列表前得 a*width 個孩子加入到 URL_Queue 列表的最前端,其中 a 為事先定義的大于 1 常量。 山東大學本科畢業(yè)論文 21 ②如果 URL 文件列表不相關(guān),則可以將這個 URL 文件列表前得 width 個孩子加入到 URL_Queue 列表中臨時孩子相關(guān)網(wǎng)頁的節(jié)點的后面。 ③最后,剩下的節(jié)點全部加入到 URL_Queue 的尾部,就按照事先設(shè)定時間爬行,直至爬行時間用完為止。 3. 在取得 URL列表文件的同時, Web 服務(wù)器的網(wǎng)絡(luò)傳輸速度也要進行檢測。如果速度太低,則將 URL 列表文件中的 URL 的 depth 設(shè)為 0。 4. 在經(jīng)過設(shè)定的一段時間之后,或者當 URL_Queue 已經(jīng)為空時,停止運行。 Fish Search 的搜索算法是模擬了魚群捕食以及延續(xù)后代的情況。目的是為了查詢主題相關(guān)網(wǎng)頁,在特定范圍內(nèi)增加搜索寬度和深度的值,深度的值它代表魚得到食物可以生產(chǎn)和延續(xù)后代。在生產(chǎn)過程中會有更多后代被加入到 URL_Queue 列表的尾部,被加入到尾部的 URL地址在算法就被認為魚已經(jīng)死了,想要訪問這些 URL 地址,必須是 URL 列表中的其它 URL 都已經(jīng)被訪問完,在設(shè)定的訪問時間還沒有用盡的情況下可以訪問。 Fish Search魚群檢索算法最關(guān)鍵的內(nèi)容就是維護 URL_Queue 中 URL地址在列表的順序,與傳統(tǒng)搜索算法有著本質(zhì)的區(qū)別,傳統(tǒng)搜索都按照 URL 在父網(wǎng)頁中出項的順序來進行搜索查詢操作 [17]。但是, Fish Search 則是根據(jù) URL 列表中potential_score 的值動態(tài)改變 URL 項在列表中先后順序,進而也就改變網(wǎng)頁被搜索的先后順序,這樣就可以處理更多相關(guān)網(wǎng)頁,避免了檢索無關(guān)網(wǎng)頁浪費時間。但是 Fish Search 不是完美的,它也是有缺點的,相關(guān)性設(shè)計相對比較簡單,只是分為兩種狀態(tài)相關(guān)或者不相關(guān),再就是 potential_score 精度不高,且精度只分為三種狀態(tài),分別為 0, , 1,所以它不能代表所有網(wǎng)頁的相關(guān)度。 Shark Search 算法 Shark Search 算法是在 Fish Search 算法的基礎(chǔ)上,經(jīng)過修改而提出來的,此修改主要體現(xiàn)在:改進了頁面、查詢信息的相關(guān)度計算、 potential_score 值的計算,下面對其修改作詳細說明: 1. Shark Search 算法引入向量空間模型,用來計算查詢頁面與用戶查詢內(nèi)容兩者之間的相關(guān)度,改善對于 Fish Search 相關(guān)度過于簡單所帶來的問題,因此山東大學本科畢業(yè)論文 22 對相關(guān)度的量化值作了詳細設(shè)計。 2. 在計算用戶查詢內(nèi)容的相關(guān)度時,要考慮超鏈接的文本以及網(wǎng)頁上下文所包含的提示信息。子節(jié)點的 potential_score 的計算公式需要綜合考慮上面所講述的兩個因素,在 Shark Search 算法中求解 potential_score 的時候,利用下面講述的方法: ① 計算孩子節(jié)點繼承相關(guān)度, inherited_score(child_node): if(current_node 相關(guān) ) inherited_score(child_node)=δ *sim_score。 //δ 是預先定義的衰減因子 else inherited_score(child_node)= δ*inherited_score(current_node)。 ② anchor_text 為 child_node 的錨文本, anchor_text_context 為錨文本的上下文; ③ 計算錨文本的相似度: anchor_score=sim(topic,anchor_text)。 ④ 計算 anchor_text_context 相似度的值: if(anchor_score0) anchor_context_score=1。 else anchor_context_score=sim(topic,anchor_text_context)。 ⑤計算 anchor 的值,用 neighborhood_score,β為自定義常量,方法如下: neighborhood_score=β*anchor_score+(1β)*anchor_context_score。 ⑥計算 potential_score(child node),方法如下: potential_score(child_node)=γ*inherited_score(child_node)+ (1γ)*neighborhood_score(child_node)。 其它一些算法與 Fish Search 算法類似,以上所研究的兩種算法 Fish Search 算法和 Shark Search 算法都是基于內(nèi)容評價的查詢搜索算法,根據(jù)查詢內(nèi)容與主題的相關(guān)度的高低來判斷訪問鏈接的先后次序,此類算法最早是從檢索文本相關(guān)度的評價衍生而來的 [18],此 類算法最顯著的優(yōu)點就是計算量非常非常小,但是Web 頁面與傳統(tǒng)的文本在結(jié)構(gòu)上具有較大的差異性,文本網(wǎng)頁是一種半結(jié)構(gòu)化的文本文檔,它包含了許多結(jié)構(gòu)化的信息,并且每個 Web 頁面都不是孤立存在,Web 頁面中的超鏈接把一個個存放在不同位置的頁面聯(lián)系起來,由于基于內(nèi)容山東大學本科畢業(yè)論文 23 相關(guān)度評價的爬蟲忽略了這些存在于網(wǎng)頁之間的關(guān)系,因此預測出來的超鏈接的價值是不準確的,存在一些漏洞,很容易使得網(wǎng)頁存在錯選和誤選,另外主題內(nèi)容評價的準確性與主題關(guān)鍵詞的選擇和構(gòu)建有著密切的關(guān)聯(lián)。 其他相關(guān)策略 基于鞏固學習的聚焦搜索 近年來對 Web信息資源分布的研究表明很多類型相同的網(wǎng)站在構(gòu)建方式上, 主題相同的網(wǎng)頁在組織方式上都存在著一定的相似性,有的學者就考慮將鞏固學習引入網(wǎng)絡(luò)爬蟲的訓練過程中,從這些相似性獲取一些“經(jīng)驗”。 而這些經(jīng)驗信息在搜索距相關(guān)頁面集較遠的地方往往能獲得較好的回報, 而前兩種策略在這種情況下容易迷失方向。在鞏固學習模型中,把網(wǎng)絡(luò)爬蟲經(jīng)過若干無關(guān)頁面的訪問之后才能獲得的主題相關(guān)頁面稱為未來回報,對未來回報的預測值稱為未來回報價值, 用 Q 價值表示 [18]。 這種方法的核心就是學習如何計算鏈接的 Q 價值, 根據(jù)未 來回報價值確定正確的搜索方向。目前這類搜索策略不足之處在于學習效率低的問題,而且在訓練過程中增加了用戶的負擔。 基于語境圖的聚焦搜索 基于鞏固學習的網(wǎng)絡(luò)爬蟲通過計算鏈接的 Q 價值可以確定搜索方向,但它卻無法估計距離目標頁面的遠近。為此, Diligent 等提出了基于“語境圖”的搜索策略,它通過構(gòu)建典型頁面的 web“語境圖”來估計離目標頁面的距離 [19],距離較近的頁面較早得到訪問基于“語境圖”的搜索策略需要借助已有的通用搜索引擎構(gòu)建“語境圖”,而搜索引擎的檢索結(jié)果并非一定代表真實的 web 結(jié)構(gòu),因而 這種方式也具有局限性。 本章小結(jié) 本章節(jié)主要介紹了幾種主流的主題爬蟲 策略, 并闡述 了本文所使用的基于URL 地址 相關(guān) 的 抓取 策略,為主題搜索引擎的實現(xiàn)奠定了基礎(chǔ)。 山東大學本科畢業(yè)論文 24 第 4 章 主題 搜索引擎的實現(xiàn) Nutch 搜索 引擎的實現(xiàn)需要 集成 Tomcat,由 JDK 提供支持,本章將重點介紹 部署 新聞主題搜索引擎 的 具體步驟。 開發(fā)環(huán)境介紹 硬件環(huán)境: CPU: Intel 酷睿 i3 550 @ RAM: 2GB Memory 軟件環(huán)境: Java VM: 操作系統(tǒng)版本: Ubuntu 開發(fā)工具: JavaCC 系統(tǒng) 的體系結(jié)構(gòu) 主題搜索引擎應(yīng)提供主題信息而不是大而全的結(jié)果,故必須制定有效的信息采集策略以滿足用戶的需要。在系統(tǒng)實現(xiàn)上,主題搜索引擎和通用搜索引擎的最大區(qū)別在于信息采集策略不同。主題搜索引擎的信息采集通過主題爬蟲完成,需要使用多種輔助策略。由于網(wǎng)速的限制,本文的訓練文本和初始 URL 主要針對計算機主題選取,構(gòu)造了一個基于 Nutch 的計算機主題搜索引擎,重點是主題爬蟲的實現(xiàn),其它主題均可通過更改訓練文本和初始 URL 的范圍來實現(xiàn)。在主題信息提取方面,我們構(gòu) 建了計算機主題詞典用于主題特征提取。 主題搜索引擎和通用搜索引擎一樣,由三個部分組成:信息采集模塊(Crawler)、索引模塊 (Indexer)和查詢模塊 (Query)[20]。采集模塊負責從網(wǎng)絡(luò)上搜集網(wǎng)頁、 Word 文本或者 PDF 文本,并將文本及文本的其他信息保存在本地機器的硬盤上。索引模塊對搜索到的信息進行整理、分類和索引。查詢模塊提供網(wǎng)絡(luò)用戶檢索界面,并根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出與之相關(guān)的信息資料并反饋給讀者。我們建立的計算機主題搜索引擎系統(tǒng)總體結(jié)構(gòu)如圖 41: 山東大學本科畢業(yè)論文 25 圖 41 主題 搜索引擎系統(tǒng)結(jié)構(gòu) 主題 爬 蟲 的 配置 配置 Java 環(huán)境 實現(xiàn)環(huán)境為 Linux Ubuntu ,需要編譯 Java 源碼,所以安裝相關(guān)工具 1. 安裝 Ant $ aptget install 2. 安裝配置 Java 環(huán)境 $ aptget install openjdk7jdk $ export JAVA_HOME=/usr/lib/jvm/openjdk7jdk 3. 安裝 JavaCC(用于中文分詞時生成 java 代碼) $ aptget install javacc 配置 Nutch 1. 從官網(wǎng)下載 并解壓 ~$ cd ~$ ant //編譯,生成可執(zhí)行程序和庫 ~$ ant war //編譯 war 文件,供 tomcat 使用 2. 設(shè)置要搜索的 URL 山東大學本科畢業(yè)論文 26 ~$ gedit 將 下面兩行輸入到文本中 ~$ gedit conf/ 編輯如下(否則運行時會報 agent 相關(guān)錯誤) property name/name valuetest/value /property 3. 設(shè)置搜索地址過濾 ~$ gedit conf/ 編輯如下 accept
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1