freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文(完整版)

2025-08-30 14:32上一頁面

下一頁面
  

【正文】 聚焦搜索 近年來對 Web信息資源分布的研究表明很多類型相同的網(wǎng)站在構建方式上, 主題相同的網(wǎng)頁在組織方式上都存在著一定的相似性,有的學者就考慮將鞏固學習引入網(wǎng)絡爬蟲的訓練過程中,從這些相似性獲取一些“經(jīng)驗”。 山東大學本科畢業(yè)論文 24 第 4 章 主題 搜索引擎的實現(xiàn) Nutch 搜索 引擎的實現(xiàn)需要 集成 Tomcat,由 JDK 提供支持,本章將重點介紹 部署 新聞主題搜索引擎 的 具體步驟。索引模塊對搜索到的信息進行整理、分類和索引。由于網(wǎng)速的限制,本文的訓練文本和初始 URL 主要針對計算機主題選取,構造了一個基于 Nutch 的計算機主題搜索引擎,重點是主題爬蟲的實現(xiàn),其它主題均可通過更改訓練文本和初始 URL 的范圍來實現(xiàn)。目前這類搜索策略不足之處在于學習效率低的問題,而且在訓練過程中增加了用戶的負擔。 else anchor_context_score=sim(topic,anchor_text_context)。但是, Fish Search 則是根據(jù) URL 列表中potential_score 的值動態(tài)改變 URL 項在列表中先后順序,進而也就改變網(wǎng)頁被搜索的先后順序,這樣就可以處理更多相關網(wǎng)頁,避免了檢索無關網(wǎng)頁浪費時間。 ③最后,剩下的節(jié)點全部加入到 URL_Queue 的尾部,就按照事先設定時間爬行,直至爬行時間用完為止。它們 作用分別為記錄被搜索網(wǎng)頁的深度、網(wǎng)頁的鏈路數(shù)目和 URL 的相關度。由于該過程與信息檢索相關聯(lián),盡管在極大減小規(guī)模的基礎上可以使得 HITS 算法比 PageRank 算法在收斂速度上快很多,但是在信息檢索的過程中不得不考慮排序的代價問題。一般情況下 HITS算法是在一定范圍內(nèi)起作用的。是一種用來分析網(wǎng)頁重要性的算法, HITS 算法是基于主題來衡量網(wǎng)頁的重要程度,相對不同主題,同一網(wǎng)頁的重要程度也是不同的。因此得出頁面 u 的 PageRank 值的計算方式如式 : PageRank 算法存在一個缺陷,假如當用戶開始隨機打開電腦訪問一個網(wǎng)頁,通過此網(wǎng)頁中的超鏈接可以瀏覽其它相關網(wǎng)頁,但不做返回瀏覽,瀏覽下一網(wǎng)頁的概率就取決于上一級被瀏覽過的網(wǎng)頁 PageRank 值,這樣就有可能會產(chǎn)生往返運動,就會導致無限的計算下去。 山東大學本科畢業(yè)論文 17 雖然 Web 頁面的重要性需要人來判斷,判斷結果取決于人的主觀判斷、人的知識、興趣、意見等,但是人們還是可以利用一些頁面的重要性和客觀性來判斷其它頁面。目前,主題搜索引擎主要采用基于鏈接結構的搜索策略和基于內(nèi)容價值評定的搜索策略。 IK 分詞器 簡介 IKAnalyzer 是一個開源基于 JAVA 語言的輕量級的中文分詞第三方工具包,從 20xx 年推出已經(jīng)經(jīng)歷了三個較為完整的版本,目前最新版本為 ,它基于lucene 為應用主體,但是,它也支持脫離 lucene,成為一個獨立的面向 JAVA 的分詞工具。根據(jù)不同長度優(yōu)先匹配原則,將字典匹配方法分為最長匹配方法和最短匹配方法,根據(jù)匹配掃描方式將其分為逆向匹配和正向匹配,實際上,可以結合幾種方法,比如正向最長匹配分詞,逆向最長匹配分詞,以及 這兩種相結合的分詞方法。然后逐步執(zhí)行: 取得此 URL 的 MD5 摘要 建立 Fetcheroutput (fle, hash, status) 建立空的 Content、 ParseText 和 ParseData 對象 利用這些對象調(diào)用 FetcherOutputPage()函數(shù) 如果標記為“ fetch” (己抓取此 URL 的網(wǎng)頁 ),調(diào)用 ProtocolFactory 并取得符合此 URL 的協(xié)議和內(nèi)容對象。因為 WebDB 中不允許重復的 URL,也就是說 fetchlist 中不會有重復的 URL,所以不需要對 fetchlist執(zhí)行 dedup 操作。當同時使用方法多個工具抓取的時候,這樣做就不會產(chǎn)生重復抓取的現(xiàn)象。 Segment 的命名是日期加時間,因此很直觀的可以看出他們的存活周期。Fetcher的輸出數(shù)據(jù)先被索引,索引后的結果存儲在 segment中。 WebDB 由以下數(shù)據(jù)組成: a、爬行數(shù)據(jù)庫 (crawdb):包含所有 Nutch 已知的 URL,這個 URL 是否被爬過,如果被爬過,是什么時候。 抓取部分是由 Nutch 的抓取工具驅(qū)動的。但如果與 JBoss(一個開源的應用服務器 )集成到一塊,則可以實現(xiàn) J2EE 的全部功能。這個包中的文件按一定目錄結構來組織:通常其根目錄下包含有 Html 和 Jsp 文件或者包含這兩種文件的目錄,另外還會有一個WEBINF 目 錄,這個目錄很重要。 Web 服務器是在網(wǎng)絡中為實現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應用搭建基本平臺的服務器。 EBNF 當然不能解決這個問題。 :前后構成的閉區(qū)間。這個部分的聲明如下: PARSER_BEGIN(elassname) Classelassname{ } PARSER_END(classname)[8] 詞法部分的聲明:這里面有四類: SKIP、 TOKEN、 SPECIALJOKEN、 MORE。僅僅用基本的編譯器就可以進行編譯。在一種語言中,存在非終結符和終結符兩種單詞。 山東大學本科畢業(yè)論文 6 第 2 章 主題 搜索引擎 相關技術介紹 因為 本文是在 Apache 的 兩 個 開源項目 Nutch、 Tomcat 的基礎上進行主題判別 ,而 這兩個項目的相關資料很少,只有在了解其工作原理的基礎上才能做更好的改進 , 所以我們 通過 本章 來分析 項目中的關鍵技術。這將為 主題 搜索引擎提供一個巨大的機會,爬蟲程序如果能理解網(wǎng)絡上的數(shù)據(jù),將對信息的收集和整理更加準確和專業(yè),搜索服務的查全率和查準率將更高。 2. 數(shù)據(jù)挖掘分析 行業(yè)的歷史發(fā)展、最新動向、趨勢都是行業(yè)從業(yè)人員非常關注的話題。它是與通用搜索引擎截然不同的引擎類型。隨著 WWW 信息的爆炸性增長,信息采集的速度越來越不能滿足實際應用的需要。同年4 月,斯坦福( Stanford)大學的兩名博士生, David Filo 和美籍華人楊致遠( Gerry Yang)共同創(chuàng)辦了超級目錄索引 Yahoo,并成功地使搜索引擎的概念深入人心。 ALIWEB 不使用“機器人”程序,而是靠網(wǎng)站主動提交信息來建立自己的鏈接索引,類似于現(xiàn)在我們熟知的 Yahoo。 Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。 News 山東大學本科畢業(yè)論文 1 第 1 章 緒論 課題研究背景 隨著社會的進步和科技的發(fā)展,人們對信息的需求量越來越大,對質(zhì)量的要求也越來越高。 論文 首先介紹了搜索引擎的 發(fā)展歷史 、面臨的問題, 以及 主題搜索引擎的的優(yōu)勢 和 研究現(xiàn)狀 , 并 在了解 Nutch 工作原理的基礎上 對 主題爬蟲抓取策略進了詳細的 討論, 分析 了新聞主題搜索引擎的 可行 方案, 接著介紹 了 Nutch、 Tomcat等 各組件的安裝配置,測試 運行 結果并與百度做比較。 另外,由于 Nutch 具有高透明度,任何單位或個人都可以查看搜索引擎的工作原理并且程序設置靈活,用戶可以根據(jù)自己需求定制,通過長時間的實際應用,結果表明 Nutch 運行非常穩(wěn)定,因此選擇 Nutch 為愛好搜索引擎的人們提供了一個很好的研究平臺。 Search Engine。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應運而生了。 山東大學本科畢業(yè)論文 2 世界上第一個用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機器人”程序是 Matthew Gray開發(fā)的 World wide Web Wanderer。而 RBSE 是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。國內(nèi)的百度也屬于這一類,搜狐和新浪用的就是它的 技術。 針對上述情況,另一種形式的搜索引擎悄然出現(xiàn),它可以在較小的范圍內(nèi)取得比通用搜索引擎更令人滿意的結果,以滿足某些特定用戶的需要,這就是 主題搜索引擎 。那么 主題 搜索的突破點和創(chuàng)新的東西在哪 里? 1. 實時性 主題 搜索引擎需要獲取的信息來自于某一特定領域的,這比起通用搜索引擎漫無邊際的信息抓取,有一個非常大的優(yōu)勢,那就是信息的實時性。這不光是用戶粘度,忠誠度的問題,更為重要的是, 主題 搜索引擎需要能夠獲取并且分析用戶的偏好信息,從而提供更加完善而且準確的數(shù)據(jù)服務。多元化查詢服務的提供,將會成為對競爭對手的殺手锏。 JavaCC 的語法定義是由正規(guī)式 (RegularExpression)來完成的 [7]。JavaCC 的語法定義功能十分強大,可以做幾乎所有的限制和指定。也可以把這些選項作為 JavaCC 命令的參數(shù)來啟動 JavaCC,可以達到同樣的效果。 以上說明的是 jj 文件的組成部分,下面再說明一下 jj 文件中語法的表示方法。 ():改變 運算的優(yōu)先級,把其中的內(nèi)容作為一個整體 [9]。 CJK 即中國、日本、朝鮮和韓國使用的中國漢字的總稱,全稱為 CJK Ideographs(CJK 象形文字 ),這是 Unieode 標準所定義的 [10]。由于 Java 的跨平臺特性,基于 Java 的 Tomcat 也具有跨平臺性。 Tomcat 也提供其它的一些特征,如與 SSL集成到一塊,實現(xiàn)安全傳輸。抓取部分和搜索部分的接口是索引,兩者都使用索引中的字段。頁面表示網(wǎng)絡上的一個網(wǎng)頁,這個網(wǎng)頁的 URL 作為標識被索引,同時建立一個對網(wǎng)頁內(nèi)容的 MDS 哈希簽名,跟網(wǎng)頁相關的其它內(nèi)容也被存儲,主要包括:頁面中的鏈接數(shù)量 (外鏈接 )、頁面抓取信息 (在頁面被重復抓取的情況下 )、表示頁面級別的分數(shù) Score。其中每個文件夾是一個 ArrayFile 對象。 Segment 的生命周期是有限制的,當下一輪抓取開始后它就沒有用了。 抓取過程詳解 抓取是一個循環(huán)的過程:抓取工具從 WebDB 中生成了一個 fetchlist 集合;抽取工具根據(jù) fetchlist 從 Web 上下載網(wǎng)頁內(nèi)容;根據(jù)抽取工具發(fā)現(xiàn)的新鏈接更新WebDB;然后再生成新的 fetchlist,周而復始。第 8 步中每個 segment 的索引都是單獨建立的,之后才消重 (第 9 步 )。Run()函數(shù)逐個實例化抓取線程 FetcherThread 對象,然后觸發(fā)各個線程的 start()函數(shù),在其初始化 threadCount 個線程并等待線程結束后或者出現(xiàn)大的異常后,此函數(shù)調(diào)用 close()結束輸入輸出流。 中文分詞技術對于中文搜索引擎搜索結果的準確性上具有十分重要的作用,好的中文切分技術不僅能夠提高分詞準確性,而且能夠提高分詞速度。 山東大學本科畢業(yè)論文 15 基于語義理解的分詞方法 基于語義理解的分詞方法指通過分詞、語法及語義分析模擬人腦對語言的理解能力來對語句進行識別分詞,一般包括句法語義模塊、控制模塊和分詞模塊。主題搜索引擎具有較強的針對性,面向某一專業(yè)行業(yè)或者某一特定主題,因此在搜索過程就可以有選擇檢索互聯(lián)網(wǎng)上的信息,無需將整個互聯(lián)網(wǎng)資源檢索一次,只需要檢索與主題相關的頁面或者某一專業(yè)行業(yè),比通用搜索引擎更注重檢索到頁面的正確性。于是需要用 PageRank 值來衡量一個網(wǎng)站的重要性 [13]。 PageRank 可以這樣被定義,網(wǎng)頁中的超鏈接,我們可以用有向圖來表示 Z=(X, Y), X 是節(jié)點,也就是網(wǎng)頁, E 是邊 (兩點成線,只有從頁面 T 到 頁面 A的鏈接時,才有存在頁面 T 到頁面 A 的邊 )[14]。此外,此方法的最大優(yōu)勢在于整個操作過程都是在離線情況下完成,因此對在線的查詢過程所付出的所有額外的代價就不會產(chǎn)生了,是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的 PageRank 值通過離線計算獲得,有效減少在線查詢時的計算量,極大降低了查詢響應時間。 HITS 算法發(fā)現(xiàn),在很多情況下,同一主題下的權威網(wǎng)頁 (authority)之間并不存在相互的鏈接,所以權威網(wǎng)頁 (authority)通常都是通過中心網(wǎng)頁 (hub)發(fā)生關聯(lián)的。該算法也常??梢员煌茝V應用到別的一些類似的排序系統(tǒng)中。 Fish Search 算法的核心是根據(jù)用戶主題相關度,實時動態(tài)地維護待爬行 URL 地址的優(yōu)先隊列 URL_Queue。反之,如果 URL 文件列表不相關,那 么就給 URL 的 potential_score 的值賦為 或 0。目的是為了查詢主題相關網(wǎng)頁,在特定范圍內(nèi)增加搜索寬度和深度的值,深度的值它代表魚得到食物可以生產(chǎn)和延續(xù)后代。 //δ 是預先定義的衰減因子 else inherited_score(child_node)= δ*inherited_score(current_node)。 而這些經(jīng)驗信息在搜索距相關頁面集較遠的地方往往能獲得較好的回報, 而前兩種策略在這種情況下容易迷失方向。 開發(fā)環(huán)境介紹 硬件環(huán)境: CPU: Intel 酷睿 i3 550 RAM: 2GB Memory 軟件環(huán)境: Java VM: 操作系統(tǒng)版本: Ubuntu 開發(fā)工具: JavaCC 系統(tǒng) 的體系結構 主題搜索引擎應提供主題信息而不是大而全的結果,故必須制定有效的信息
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1