freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-wenkub

2023-07-08 14:32:08 本頁(yè)面
 

【正文】 Nutch. Nowadays plenty of people read news from the Inter. While the news websites always put some lowquality news to catch readers’ eyes, and the newspaper websites can hardly feed readers’ various needs. Thus, it is very necessary to provide a News Vertical Search Engine for them. The paper first introduced the history, present problems of Search Engine, and the advantages, present situation of Topical Search Engine. Then we discussed the strategies of Focused Crawler and proposed a solution of News Topical Search Engine with knowledge in the process of Nutch. After that, we talked about setting up and configuring the ponents we need. Then we ran the engine so we could pare the results with Baidu’s. At last, we tested the Search Engine and made a summary of this project. Keywords: Nutch。 論文 首先介紹了搜索引擎的 發(fā)展歷史 、面臨的問(wèn)題, 以及 主題搜索引擎的的優(yōu)勢(shì) 和 研究現(xiàn)狀 , 并 在了解 Nutch 工作原理的基礎(chǔ)上 對(duì) 主題爬蟲(chóng)抓取策略進(jìn)了詳細(xì)的 討論, 分析 了新聞主題搜索引擎的 可行 方案, 接著介紹 了 Nutch、 Tomcat等 各組件的安裝配置,測(cè)試 運(yùn)行 結(jié)果并與百度做比較。我們?cè)谑褂脗鹘y(tǒng)的通用搜索引擎時(shí),經(jīng)常會(huì)遇到這樣的問(wèn)題,為了搜索到一些專(zhuān)業(yè)的基礎(chǔ)知識(shí),不 得不在眾多的網(wǎng)站中,花費(fèi)大量的時(shí)間去尋找,而主題搜索引擎的出現(xiàn)為解決這類(lèi)問(wèn)題提供了很好的方法。 另外,由于 Nutch 具有高透明度,任何單位或個(gè)人都可以查看搜索引擎的工作原理并且程序設(shè)置靈活,用戶(hù)可以根據(jù)自己需求定制,通過(guò)長(zhǎng)時(shí)間的實(shí)際應(yīng)用,結(jié)果表明 Nutch 運(yùn)行非常穩(wěn)定,因此選擇 Nutch 為愛(ài)好搜索引擎的人們提供了一個(gè)很好的研究平臺(tái)。 最后對(duì) 論文 進(jìn)行了總結(jié)分析。 Search Engine。而互聯(lián)網(wǎng)已經(jīng)成為很多人獲取信息的主要渠道。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶(hù)想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿(mǎn)足大眾信息檢索需求的專(zhuān)業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。由于 Archie深受用戶(hù)歡迎,受其啟發(fā),美國(guó)內(nèi)華達(dá)大學(xué)于 1993 年開(kāi)發(fā)了另一個(gè)與之非常相似的搜索工具 System Computing Services,不過(guò)此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁(yè)。 山東大學(xué)本科畢業(yè)論文 2 世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是 Matthew Gray開(kāi)發(fā)的 World wide Web Wanderer。 隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁(yè)變得越來(lái)越困難,因此,在 Matthew Gray 的 Wanderer 基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。國(guó)內(nèi)的百度也屬于這一類(lèi),搜狐和新浪用的就是它的 技術(shù)。最近的試驗(yàn)表明,即使大型的搜索引擎,它對(duì) Web 的覆蓋率也只有 3040%。 針對(duì)上述情況,另一種形式的搜索引擎悄然出現(xiàn),它可以在較小的范圍內(nèi)取得比通用搜索引擎更令人滿(mǎn)意的結(jié)果,以滿(mǎn)足某些特定用戶(hù)的需要,這就是 主題搜索引擎 。 主題 搜索引擎專(zhuān)注具體、深入的縱向服務(wù),致力于某一特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入,這個(gè)領(lǐng)域外的閑雜信息不收錄。那么 主題 搜索的突破點(diǎn)和創(chuàng)新的東西在哪 里? 1. 實(shí)時(shí)性 主題 搜索引擎需要獲取的信息來(lái)自于某一特定領(lǐng)域的,這比起通用搜索引擎漫無(wú)邊際的信息抓取,有一個(gè)非常大的優(yōu)勢(shì),那就是信息的實(shí)時(shí)性。 主題搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增 值服務(wù)。這不光是用戶(hù)粘度,忠誠(chéng)度的問(wèn)題,更為重要的是, 主題 搜索引擎需要能夠獲取并且分析用戶(hù)的偏好信息,從而提供更加完善而且準(zhǔn)確的數(shù)據(jù)服務(wù)。國(guó)外的 Pluggd( )正在向這個(gè)方向努力。多元化查詢(xún)服務(wù)的提供,將會(huì)成為對(duì)競(jìng)爭(zhēng)對(duì)手的殺手锏。 JavaCC 簡(jiǎn)介 JavaCC 是一個(gè)功能極其強(qiáng)大的“ 編譯器的編譯器”工具,可用于編制上下文無(wú)關(guān)的語(yǔ)法,集分詞和語(yǔ)法分析于一身的針對(duì) Java 語(yǔ)言的文本自動(dòng)分詞軟件包,類(lèi)似于 UNIX 系統(tǒng)中的 LEX 和 YACC 工具。 JavaCC 的語(yǔ)法定義是由正規(guī)式 (RegularExpression)來(lái)完成的 [7]。正規(guī)式就定義了一個(gè)非終結(jié)符怎樣被替換為另一個(gè)字符串。JavaCC 的語(yǔ)法定義功能十分強(qiáng)大,可以做幾乎所有的限制和指定。而該語(yǔ)言的布局也使得它易于添加產(chǎn)生式規(guī)則和行為。也可以把這些選項(xiàng)作為 JavaCC 命令的參數(shù)來(lái)啟動(dòng) JavaCC,可以達(dá)到同樣的效果。其中, SKIP 用來(lái)說(shuō)明被忽略的串, TOKEN 用來(lái)說(shuō)明在詞法層次上識(shí)別的 token。 以上說(shuō)明的是 jj 文件的組成部分,下面再說(shuō)明一下 jj 文件中語(yǔ)法的表示方法。 *:前面的內(nèi)容出現(xiàn) 0 次或多次。 ():改變 運(yùn)算的優(yōu)先級(jí),把其中的內(nèi)容作為一個(gè)整體 [9]。通過(guò)寫(xiě)入 Java 代碼,用各種對(duì)象和標(biāo)志變量制作特殊的“上下文”環(huán)境,就可以實(shí)現(xiàn) JavaCC 的中文分詞。 CJK 即中國(guó)、日本、朝鮮和韓國(guó)使用的中國(guó)漢字的總稱(chēng),全稱(chēng)為 CJK Ideographs(CJK 象形文字 ),這是 Unieode 標(biāo)準(zhǔn)所定義的 [10]。在Web 頁(yè)面處理中大致可分為三個(gè)步驟,第一步, Web 瀏 覽器向一個(gè)特定的服務(wù)器發(fā)出 Web 頁(yè)面請(qǐng)求;第二步, Web 服務(wù)器接收到 Web 頁(yè)面請(qǐng)求后,尋找所請(qǐng)求的 Web 頁(yè)面,并將所請(qǐng)求的 Web 頁(yè)面?zhèn)魉徒o Web 瀏覽器;第三步, Web 服務(wù)器接收到所請(qǐng)求的 Web 頁(yè)面,并將它顯示出來(lái)。由于 Java 的跨平臺(tái)特性,基于 Java 的 Tomcat 也具有跨平臺(tái)性。在 WEBINF 目錄下有一個(gè) 文件和一個(gè) classes 目錄, 是這個(gè)應(yīng)用的配置文件,而 classes 目錄下則包含編譯好的 Servlet 類(lèi)和 Jsp 或 Servlet 所依賴(lài)的其它類(lèi) (如 JavaBean)。 Tomcat 也提供其它的一些特征,如與 SSL集成到一塊,實(shí)現(xiàn)安全傳輸。既然應(yīng)用服務(wù)器具有Tomcat 的功能,那么 Tomcat 有沒(méi)有存在的必要呢 ?事實(shí)上,我們的很多中小應(yīng)用不需要采用 EJB 等技術(shù), Jsp 和 Servlet 己經(jīng)足夠,這時(shí)如果 用應(yīng)用服務(wù)器就有些浪費(fèi)了。抓取部分和搜索部分的接口是索引,兩者都使用索引中的字段。這組工具用來(lái)建立和維護(hù)幾個(gè)不同的數(shù)據(jù)結(jié)構(gòu): WebDB, segment, index。頁(yè)面表示網(wǎng)絡(luò)上的一個(gè)網(wǎng)頁(yè),這個(gè)網(wǎng)頁(yè)的 URL 作為標(biāo)識(shí)被索引,同時(shí)建立一個(gè)對(duì)網(wǎng)頁(yè)內(nèi)容的 MDS 哈希簽名,跟網(wǎng)頁(yè)相關(guān)的其它內(nèi)容也被存儲(chǔ),主要包括:頁(yè)面中的鏈接數(shù)量 (外鏈接 )、頁(yè)面抓取信息 (在頁(yè)面被重復(fù)抓取的情況下 )、表示頁(yè)面級(jí)別的分?jǐn)?shù) Score。 b、鏈接數(shù)據(jù)庫(kù) (linkdb):這里面包含的信息是每個(gè) URL 己知的鏈接信息。其中每個(gè)文件夾是一個(gè) ArrayFile 對(duì)象。文件夾 Content里保存抓取回來(lái)的網(wǎng)頁(yè)內(nèi)容,包括 頭信息和其它元信息。 Segment 的生命周期是有限制的,當(dāng)下一輪抓取開(kāi)始后它就沒(méi)有用了。 3. index。 抓取過(guò)程詳解 抓取是一個(gè)循環(huán)的過(guò)程:抓取工具從 WebDB 中生成了一個(gè) fetchlist 集合;抽取工具根據(jù) fetchlist 從 Web 上下載網(wǎng)頁(yè)內(nèi)容;根據(jù)抽取工具發(fā)現(xiàn)的新鏈接更新WebDB;然后再生成新的 fetchlist,周而復(fù)始。 Nutch 遵循 Robots Exclusion 協(xié)議,可以用 定義保護(hù)私有網(wǎng)頁(yè)數(shù)據(jù)不被抓去。第 8 步中每個(gè) segment 的索引都是單獨(dú)建立的,之后才消重 (第 9 步 )。默認(rèn)的抓取周期 是 30 天,如果已經(jīng)生成的舊 fetch 沒(méi)有刪除,而又生成了新的 fetch,還是會(huì)出現(xiàn)重復(fù)的 URL 的。Run()函數(shù)逐個(gè)實(shí)例化抓取線程 FetcherThread 對(duì)象,然后觸發(fā)各個(gè)線程的 start()函數(shù),在其初始化 threadCount 個(gè)線程并等待線程結(jié)束后或者出現(xiàn)大的異常后,此函數(shù)調(diào)用 close()結(jié)束輸入輸出流。 調(diào)用 Cal1 (url, fle, content),然后逐步執(zhí)行: 山東大學(xué)本科畢業(yè)論文 13 調(diào)用符合此內(nèi)容類(lèi)型的 () 執(zhí)行 (content) 利用新建立的 Fetcheroutput 和 URL 的 MD5 摘要,產(chǎn)生的內(nèi)容對(duì)象和己解析的 ParseText 調(diào)用 ()函數(shù) 循環(huán) 100 次,在 log 中記錄 撲捉各種小的異常以及記錄寫(xiě)入 log 文件 Nutch 的目標(biāo)是讓每個(gè)人都很容易配置世界上一流的 Web 搜索引擎,為了完成這個(gè)目標(biāo),研發(fā)人員做出了不懈的努力,使得 Nutch 必須作到:每個(gè)月都需從互聯(lián)網(wǎng)上取幾十億的網(wǎng)頁(yè),并為這幾十億的網(wǎng)頁(yè)維護(hù)作一個(gè)索引,同時(shí)對(duì)建立的索引文件需要進(jìn)行每秒千萬(wàn)次的搜索,為用戶(hù)提供高質(zhì)量、高效率的搜索結(jié)果,并且以最小的成本運(yùn)作。 中文分詞技術(shù)對(duì)于中文搜索引擎搜索結(jié)果的準(zhǔn)確性上具有十分重要的作用,好的中文切分技術(shù)不僅能夠提高分詞準(zhǔn)確性,而且能夠提高分詞速度。 基于詞頻統(tǒng)計(jì)的分詞方法 詞頻統(tǒng)計(jì)分詞,顧名思義,就是基于詞頻統(tǒng)計(jì)來(lái)進(jìn)行分詞,即根據(jù)在上下文語(yǔ)境中,相鄰字搭配出現(xiàn)的頻率越高就越可能成為一個(gè)詞。 山東大學(xué)本科畢業(yè)論文 15 基于語(yǔ)義理解的分詞方法 基于語(yǔ)義理解的分詞方法指通過(guò)分詞、語(yǔ)法及語(yǔ)義分析模擬人腦對(duì)語(yǔ)言的理解能力來(lái)對(duì)語(yǔ)句進(jìn)行識(shí)別分詞,一般包括句法語(yǔ)義模塊、控制模塊和分詞模塊。其結(jié)構(gòu)圖如圖 22: 圖 22 IK Analyzer 結(jié)構(gòu)圖 本章小結(jié) 本章主要介紹了 Nutch 相關(guān)技術(shù),包括 Nutch 的組成部分 :抓取和搜索,重點(diǎn)介紹了抓取部分, 即 Fetcher、 Crawler 的詳細(xì)工作過(guò)程,以方便將此 其 修改成主題爬蟲(chóng)。主題搜索引擎具有較強(qiáng)的針對(duì)性,面向某一專(zhuān)業(yè)行業(yè)或者某一特定主題,因此在搜索過(guò)程就可以有選擇檢索互聯(lián)網(wǎng)上的信息,無(wú)需將整個(gè)互聯(lián)網(wǎng)資源檢索一次,只需要檢索與主題相關(guān)的頁(yè)面或者某一專(zhuān)業(yè)行業(yè),比通用搜索引擎更注重檢索到頁(yè)面的正確性。 PageRank 算法是根據(jù)網(wǎng)頁(yè)之間的超鏈接來(lái)確定頁(yè)面的等級(jí)。于是需要用 PageRank 值來(lái)衡量一個(gè)網(wǎng)站的重要性 [13]。在傳統(tǒng)情報(bào)檢索理論中的分析方法,當(dāng)一個(gè)頁(yè)面 T 可以鏈接到另個(gè)頁(yè)面 A 時(shí),我就認(rèn)為 A 的重要性也非常高,也就是說(shuō) A 得到一個(gè)很高的分值,也就是說(shuō) T 的越重要,網(wǎng)頁(yè) A 得到的分值就會(huì)越高。 PageRank 可以這樣被定義,網(wǎng)頁(yè)中的超鏈接,我們可以用有向圖來(lái)表示 Z=(X, Y), X 是節(jié)點(diǎn),也就是網(wǎng)頁(yè), E 是邊 (兩點(diǎn)成線,只有從頁(yè)面 T 到 頁(yè)面 A的鏈接時(shí),才有存在頁(yè)面 T 到頁(yè)面 A 的邊 )[14]。例如 ,如果遇到了像圖 這樣的情況,網(wǎng)頁(yè) T 可以鏈接到網(wǎng)頁(yè) A 中,網(wǎng)頁(yè) A 也可以鏈接到網(wǎng)頁(yè) T 中,就形成了循環(huán),這樣就在遞歸計(jì)算過(guò)程 , u 和 v 的 PageRank 值將不斷積累,難以得到網(wǎng)頁(yè)真實(shí) PageRank 值。此外,此方法的最大優(yōu)勢(shì)在于整個(gè)操作過(guò)程都是在離線情況下完成,因此對(duì)在線的查詢(xún)過(guò)程所付出的所有額外的代價(jià)就不會(huì)產(chǎn)生了,是一個(gè)與查詢(xún)無(wú)關(guān)的靜態(tài)算法,所有網(wǎng)頁(yè)的 PageRank 值通過(guò)離線計(jì)算獲得,有效減少在線查詢(xún)時(shí)的計(jì)算量,極大降低了查詢(xún)響應(yīng)時(shí)間。例如,百度對(duì)于主題“搜索引擎”和主題“湖南 SEO”的重要程度是不同的。 HITS 算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威網(wǎng)頁(yè) (authority)之間并不存在相互的鏈接,所以權(quán)威網(wǎng)頁(yè) (authority)通常都是通過(guò)中心網(wǎng)頁(yè) (hub)發(fā)生關(guān)聯(lián)的。例如一個(gè)以房地產(chǎn)為主題的網(wǎng)頁(yè),指向了另外一個(gè)以房地產(chǎn)為主題的網(wǎng)頁(yè),那么另外一個(gè)網(wǎng)頁(yè)的重要性程度就有可能比較高。該算法也常??梢员煌茝V應(yīng)用到別的一些類(lèi)似的排序系統(tǒng)中。 本文實(shí)現(xiàn) 的 算法 由于 目前的網(wǎng)頁(yè)多 才用 了半結(jié)構(gòu)化的 HTML 語(yǔ)言 , 其中包含有豐富的結(jié)構(gòu)信 息,在 抽取 網(wǎng)頁(yè)的主題內(nèi)容時(shí),應(yīng)對(duì)此加以利用。 Fish Search 算法的核心是根據(jù)用戶(hù)主題相關(guān)度,實(shí)時(shí)動(dòng)態(tài)地維護(hù)待爬行 URL 地址的優(yōu)先隊(duì)列 URL_Queue。 Fish Search 算法的基本工作流程是:將一個(gè) URL 地址作為起始頁(yè)面進(jìn)行搜索,在搜索頁(yè)面
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1