正文內(nèi)容

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文(編輯修改稿)

2025-07-24 22:53 本頁面

　

【文章內(nèi)容簡介】 L更新WebDB (updatedb) 重復上面35步直到達到指定抓取層數(shù) 用計算出來的網(wǎng)頁URL權重scores更新segments (updatesegs) 對抓取回來的網(wǎng)頁建立索引 (index) 在索引中消除重復的內(nèi)容和重復的URL (dedup)合并多個索引到一個大索引，為搜索提供索引庫 (merge)在創(chuàng)建了一個新的WebDB后，抓取循環(huán)generate/fetch/update就根據(jù)第二步指定的根URL在一定周期下自動循環(huán)了。抓取循環(huán)結束后，生成一個最終的索引(第7步到第10步)。第8步中每個segment的索引都是單獨建立的，之后才消重(第9步)。第10步就大功告成，合并單獨的索引到一個大索引庫。Dedup工具可以從segment的索引中去除重復的URL。因為WebDB中不允許重復的URL，也就是說fetchlist中不會有重復的URL，所以不需要對fetchlist執(zhí)行dedup操作。默認的抓取周期是30天，如果已經(jīng)生成的舊fetch沒有刪除，而又生成了新的fetch，還是會出現(xiàn)重復的URL的。當只有一個抓取程序運行的時候是不會發(fā)生上述情況的。在爬蟲中，抓取是最主要的操作，其作用就是抓取網(wǎng)頁，但抓取的單位不是單個網(wǎng)頁，而是同屬于一個segment的網(wǎng)頁集合。下面我們仔細分析下這個類。Run()函數(shù)逐個實例化抓取線程FetcherThread對象，然后觸發(fā)各個線程的start()函數(shù)，在其初始化threadCount個線程并等待線程結束后或者出現(xiàn)大的異常后，此函數(shù)調(diào)用close()結束輸入輸出流。， Thread類，只有一個實體方法run()和三個靜態(tài)函數(shù)：handleFetch()，handleNoFetch()，logError()。()實例化了一個新的FetchListEntry實例，叫“fle”然后執(zhí)行以下循環(huán)：如果出現(xiàn)錯誤，記錄并退出循環(huán)從FetchList中取得下一個URL集，如果取得結果為空，退出循環(huán)從FetchListEntry解析出URL如果FetchListEntry沒有被標記為“fetch”(未抓取此URL的網(wǎng)頁)，調(diào)用()函數(shù)，設置status=1。然后逐步執(zhí)行：取得此URL的MD5摘要建立Fetcheroutput (fle，hash，status)建立空的Content、ParseText和ParseData對象利用這些對象調(diào)用FetcherOutputPage()函數(shù)如果標記為“fetch”(己抓取此URL的網(wǎng)頁)，調(diào)用ProtocolFactory并取得符合此URL的協(xié)議和內(nèi)容對象。調(diào)用Cal1 (url，fle，content)，然后逐步執(zhí)行：()(content)利用新建立的Fetcheroutput和URL的MD5摘要，()函數(shù)循環(huán)100次，在log中記錄撲捉各種小的異常以及記錄寫入log文件Nutch 的目標是讓每個人都很容易配置世界上一流的 Web 搜索引擎，為了完成這個目標，研發(fā)人員做出了不懈的努力，使得 Nutch 必須作到：每個月都需從互聯(lián)網(wǎng)上取幾十億的網(wǎng)頁，并為這幾十億的網(wǎng)頁維護作一個索引，同時對建立的索引文件需要進行每秒千萬次的搜索，為用戶提供高質(zhì)量、高效率的搜索結果，并且以最小的成本運作。其中Nutch ： Nutch結構圖中文分詞技術搜索引擎在處理英文信息和中文信息時有所不同，因為英文信息是通過詞、空格以及標點符號組成，所以在切分英文信息的時候只要以空格和標點符號作為分割符，整個過程不需要考慮分詞算法。但是對于中文信息來說，由于中文信息與英文信息不同，是以連續(xù)的句子組成，在字與字之問沒有明顯的分割符，所以如何有效分析成了一道難題，例如“我是一名研究生”，如果按照英文這種切分方法的話可能只能分出“我”、“是”、“一”、“名”、“研”、“究”、“生”。事實上需要計算機能夠分出“研究生”這個詞組，而不是單個切分。中文分詞技術對于中文搜索引擎搜索結果的準確性上具有十分重要的作用，好的中文切分技術不僅能夠提高分詞準確性，而且能夠提高分詞速度。目前主流的搜索引擎基本上都支持中文分詞技術，但由于中文分詞有一定的難度，尤其是如何理解基于上下文特殊語境下的詞語，所以分詞結果還有很大提升的空間。基于字典匹配的分詞方法字典匹配分詞技術是以字典分詞為基礎發(fā)展起來的，常使用標志切分或者特征掃描將輸入的字符串中具有顯著特征的詞匯識別和切分出來，然后以這些詞匯為間隔，將原字符串分割為較小串后再進行字典分詞。根據(jù)不同長度優(yōu)先匹配原則，將字典匹配方法分為最長匹配方法和最短匹配方法，根據(jù)匹配掃描方式將其分為逆向匹配和正向匹配，實際上，可以結合幾種方法，比如正向最長匹配分詞，逆向最長匹配分詞，以及這兩種相結合的分詞方法。基于詞頻統(tǒng)計的分詞方法詞頻統(tǒng)計分詞，顧名思義，就是基于詞頻統(tǒng)計來進行分詞，即根據(jù)在上下文語境中，相鄰字搭配出現(xiàn)的頻率越高就越可能成為一個詞。具體是通過對中文文本中統(tǒng)計相鄰出現(xiàn)的各個字的組合頻度，根據(jù)兩個字的統(tǒng)計信息，計算它們之間相鄰出現(xiàn)概率，當出現(xiàn)概率超過某個閾值時，認為這兩字是一個詞，將其切分出來，否則，不認為這兩個字為一個詞。這樣做會出現(xiàn)一些問題，比如一些不重要或者無意義但是出現(xiàn)頻率很高的字詞會被切分出來，這就需要對切分詞語配備一個詞典庫，對切分詞語進行匹配，過濾不重要詞。這種分詞方法具有分詞速度快、實現(xiàn)簡單和效率高的優(yōu)點。基于語義理解的分詞方法基于語義理解的分詞方法指通過分詞、語法及語義分析模擬人腦對語言的理解能力來對語句進行識別分詞，一般包括句法語義模塊、控制模塊和分詞模塊?？刂颇K協(xié)調(diào)句法語義模塊和分詞模塊，使得分詞模塊從句法語義模塊獲得詞語、句子的句法和語義，根據(jù)當前語境對句子進行分詞。這一方法能夠理解中文上下文環(huán)境，避免分詞出現(xiàn)歧義的優(yōu)點，正成為國內(nèi)外學者的研究熱點，目前還沒有成熟的系統(tǒng)出現(xiàn)。 IK分詞器簡介IKAnalyzer是一個開源基于JAVA語言的輕量級的中文分詞第三方工具包，從2006年推出已經(jīng)經(jīng)歷了三個較為完整的版本，它基于lucene為應用主體，但是，它也支持脫離lucene，成為一個獨立的面向JAVA的分詞工具。其結構圖如圖22：圖22 IK Analyzer結構圖本章小結本章主要介紹了Nutch相關技術，包括Nutch的組成部分：抓取和搜索，重點介紹了抓取部分，即Fetcher、Crawler的詳細工作過程，以方便將此其修改成主題爬蟲。第3章爬蟲搜索策略的研究主題爬行策略是根據(jù)某種爬行策略自動保留與特定主題相關網(wǎng)頁，過濾與主題不相關網(wǎng)頁，爬行策略的好壞直接決定了主題爬蟲器爬行效率和網(wǎng)頁的質(zhì)量，因此主題爬行策略已成為研究熱點，目前很多學者提出了主題爬行策略，各有優(yōu)劣，主要可以分為基于鏈接的爬行策略、基于內(nèi)容的爬行策略以及其他相關爬行策略，下面介紹這幾種策略。基于鏈接結構特征 PageRank算法搜索引擎的性能和處理速度取決于信息抓取系統(tǒng)性能的好壞。通用搜索引擎以提高Web 的覆蓋率和盡可能多的下載網(wǎng)頁為主要目的，它的網(wǎng)絡爬蟲采用了數(shù)據(jù)結構中圖的遍歷算法(廣度或深度優(yōu)先策略)。主題搜索引擎具有較強的針對性，面向某一專業(yè)行業(yè)或者某一特定主題，因此在搜索過程就可以有選擇檢索互聯(lián)網(wǎng)上的信息，無需將整個互聯(lián)網(wǎng)資源檢索一次，只需要檢索與主題相關的頁面或者某一專業(yè)行業(yè)，比通用搜索引擎更注重檢索到頁面的正確性。主題信息的搜索策略是整個主題搜索引擎系統(tǒng)的關鍵和核心，目前啟發(fā)式搜索策略是主題搜索引擎主要采用的策略。啟發(fā)式搜索策略即先通過查詢領域的知識相關對網(wǎng)頁中超鏈接進行價值評定，并用來判斷網(wǎng)絡信息資源的分布情況，然后按照優(yōu)先選擇原則對價值評定值最大的鏈接頁面進行更深一步的搜索。目前，主題搜索引擎主要采用基于鏈接結構的搜索策略和基于內(nèi)容價值評定的搜索策略。PageRank 算法是根據(jù)網(wǎng)頁之間的超鏈接來確定頁面的等級。它的計算過程可以比喻成“投票”的過程。網(wǎng)站的 PageRank值的高低取決于其它網(wǎng)站給它“投票”的總和。由于重要網(wǎng)站投的票應該有較大的分量。于是需要用 PageRank值來衡量一個網(wǎng)站的重要性[13]。事實上，PageRank就是一個概率，它反映了一個人在網(wǎng)絡中不同的頁面上隨機點擊鏈接會到達某個特定網(wǎng)站的概率。我們假設考慮的所有網(wǎng)站的 PageRank是均勻分布的，就是說如果互聯(lián)網(wǎng)上有N個網(wǎng)站，那么每個網(wǎng)站的PageRank 都是 1/N。雖然 Web 頁面的重要性需要人來判斷，判斷結果取決于人的主觀判斷、人的知識、興趣、意見等，但是人們還是可以利用一些頁面的重要性和客觀性來判斷其它頁面。在傳統(tǒng)情報檢索理論中的分析方法，當一個頁面 T 可以鏈接到另個頁面 A 時，我就認為 A 的重要性也非常高，也就是說 A 得到一個很高的分值，也就是說 T 的越重要，網(wǎng)頁A 得到的分值就會越高。PageRank算法的基本思路：PageRank是一個值，它用來衡量一個頁面的重要性。當一個頁面被其他許多頁面引用，那么這個頁面很有可能是重要頁面，盡管一個頁面不曾被其它頁面多次應用，但是只要被重要頁面引用過，那么這個頁面也會得到很高的分值，也就是說一個頁面PageRank的值被均勻分配給其它引用的頁面。因此，PageRank算法的頁面排序結果就會根據(jù)頁面鏈接信息的迭代計算得到，在這里只是考慮靜態(tài)頁面并沒有考慮動態(tài)網(wǎng)頁。PageRank可以這樣被定義，網(wǎng)頁中的超鏈接，我們可以用有向圖來表示 Z=(X，Y)，X 是節(jié)點，也就是網(wǎng)頁，E 是邊(兩點成線，只有從頁面T到頁面A的鏈接時，才有存在頁面T到頁面A的邊)[14]。用公式來表示PageRank的值，u代表一個頁面，F(xiàn)u代表u所指向的頁面集合，Au為指向u的頁面集合。Nv=|Fu|，Nv為頁面的出度。因此得出頁面u的：PRU=v∈AuPR (v)Nv (式 )PageRank 算法存在一個缺陷，假如當用戶開始隨機打開電腦訪問一個網(wǎng)頁，通過此網(wǎng)頁中的超鏈接可以瀏覽其它相關網(wǎng)頁，但不做返回瀏覽，瀏覽下一網(wǎng)頁的概率就取決于上一級被瀏覽過的網(wǎng)頁PageRank值，這樣就有可能會產(chǎn)生往返運動，就會導致無限的計算下去。例如,，網(wǎng)頁 T 可以鏈接到網(wǎng)頁A中，網(wǎng)頁A也可以鏈接到網(wǎng)頁T中，就形成了循環(huán)，這樣就在遞歸計算過程，u和v的PageRank值將不斷積累，難以得到網(wǎng)頁真實PageRank 值。頁T頁A 特殊的網(wǎng)頁鏈接關系圖用戶在搜索引擎信息檢索完成后，PageRank算法最早就被用于對查詢結果的排序，近幾年來才被應用于Crawler對鏈接重要性的評價。該算法的實質(zhì)是在離線狀態(tài)下通過對整個互聯(lián)網(wǎng)中的結構圖進行冪迭代計算，通過這種策略方法計算出來的網(wǎng)頁的等級值就是每個網(wǎng)頁的特征值，對每個網(wǎng)頁的特征值計算有著特殊的計算方法，只需要若干次迭代計算就可以得到每個網(wǎng)頁特征值。因此在整個互聯(lián)網(wǎng)中有很高的應用性和實踐性。此外，此方法的最大優(yōu)勢在于整個操作過程都是在離線情況下完成，因此對在線的查詢過程所付出的所有額外的代價就不會產(chǎn)生了，是一個與查詢無關的靜態(tài)算法，所有網(wǎng)頁的PageRank值通過離線計算獲得，有效減少在線查詢時的計算量，極大降低了查詢響應時間。不過 PageRank 算法也有自身的缺陷：計算的網(wǎng)頁等級值是否是針對查詢進行的？如果在對某一個特定主題的檢索，PageRank忽略了主題相關性，返回的結果列表中排在較前位置的有可能是與主題毫無關系的網(wǎng)頁集合，導致結果的相關性和主題性降低；另外，PageRank有很嚴重的對新網(wǎng)頁的歧視。 HITS算法HITS算法是Web結構挖掘中最具有權威性和使用最廣泛的算法。是一種用來分析網(wǎng)頁重要性的算法，HITS算法是基于主題來衡量網(wǎng)頁的重要程度，相對不同主題，同一網(wǎng)頁的重要程度也是不同的。例如，百度對于主題“搜索引擎”和主題“湖南SEO”的重要程度是不同的。HITS算法使用了兩個重要的概念：權威網(wǎng)頁(authority)和中心網(wǎng)頁(hub)[15]。例如：Google、Baidu、Yahoo!、bing、sogou、soso等這些搜索引擎相對于主題“搜索引擎”來說就是權威網(wǎng)頁(authority)，因為這些網(wǎng)頁會被大量的超鏈接指向。例如：(authority)，則這個頁面可以稱為中心網(wǎng)頁(hub)。HITS 算法發(fā)現(xiàn)，在很多情況下，同一主題下的權威網(wǎng)頁(authority)之間并不存在相互的鏈接，所以權威網(wǎng)頁(authority)通常都是通過中心網(wǎng)頁(hub)發(fā)生關聯(lián)的。HITS算法還描述了權威網(wǎng)頁(authority)和中心網(wǎng)頁(hub)之間的一種依賴關系，一個好的中心網(wǎng)頁(hub)應該指向很多好的權威性網(wǎng)頁(authority)，而一個好的權威性網(wǎng)頁(authority)應該被很多好的中心性網(wǎng)頁(hub)所指向[16]。HITS 算法的最重要的意義在于，如果一個網(wǎng)頁的重要性程度高，那么它指向的全部網(wǎng)頁的重要性程度相應的也高；如果哪個重要的網(wǎng)頁被另外一個或幾個網(wǎng)頁所指，那么就表明指向它的網(wǎng)頁的重要性程度也會很高。一般情況下HITS算法是在一定范圍內(nèi)起作用的。例如一個以房地產(chǎn)為主題的網(wǎng)頁，指向了另外一個以房地產(chǎn)為主題的網(wǎng)頁，那么另外一個網(wǎng)頁的重要性程度就有可能比較高。但是指向別的旅游類的網(wǎng)頁的重要性程度就不會高了。然而在限定的范圍之外，根據(jù)網(wǎng)頁的出度和入度需要建立一個矩陣。通過這個矩陣的一系列迭代運算及定義的收斂閾值不間斷的對兩個向量值進行更新直至收斂為止。該算法也常常可以被推廣應用到別的一些類似的排序系統(tǒng)中。從概念的定義上來講，HITS算法比 PageRank算法多了兩部分定義權威網(wǎng)頁和中心網(wǎng)頁。它在中心和權威網(wǎng)頁的相互作用中更好地闡述了WWW的組織結構特點，一般情況下，權威網(wǎng)頁間是由中心頁面發(fā)生相互關聯(lián)產(chǎn)生的，HITS算法在計算相鄰矩陣特征向量時也是采用迭代法的，不過 HITS 算法針對的是特定主題查詢的Internet子圖，而不是整個 Internet結構圖。由于該過程與信息檢索相關聯(lián)，盡管在極大減小規(guī)模的

點擊復制文檔內(nèi)容

環(huán)評公示相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文(編輯修改稿)

元搜索引擎的設計與實現(xiàn)-資料下載頁

聚焦搜索引擎的設計與開發(fā)查詢系統(tǒng)設計與實現(xiàn)畢業(yè)論文-資料下載頁

站內(nèi)全文搜索引擎的設計與實現(xiàn)-資料下載頁

畢業(yè)設計-基于ajaxlucene構建搜索引擎的設計和實現(xiàn)-論文-資料下載頁

站內(nèi)全文搜索引擎的設計與實現(xiàn)-資料下載頁

基于lucene的全文搜索引擎設計-資料下載頁

基于lucene的全文搜索引擎設計-資料下載頁

基于javaweb的搜索引擎的實現(xiàn)報告模板-資料下載頁

畢業(yè)設計-一個小型搜索引擎的設計與實現(xiàn)-論文-資料下載頁

全文搜索引擎的設計與實現(xiàn)-外文翻譯-資料下載頁

基于java語言的搜索引擎開發(fā)論文-資料下載頁

基于ajaxlucene構建搜索引擎的設計和實現(xiàn)—免費畢業(yè)設計論文-資料下載頁

基于網(wǎng)絡爬蟲的搜索引擎設計與實現(xiàn)—計算機畢業(yè)設計-資料下載頁

基于java技術搜索引擎的研究及實現(xiàn)-資料下載頁

基于lucene的圖書搜索引擎的設計與實現(xiàn)外文文獻-資料下載頁

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-在線瀏覽

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-閱讀頁

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文(文件)

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-全文預覽

基于nutch的新聞主題搜索引擎的設計與實現(xiàn)畢業(yè)論文-預覽頁