freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

2025-07-06 14:32本頁面
  

【正文】 查詢模塊提供網(wǎng)絡(luò)用戶檢索界面,并根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出與之相關(guān)的信息資料并反饋給讀者。采集模塊負(fù)責(zé)從網(wǎng)絡(luò)上搜集網(wǎng)頁、 Word 文本或者 PDF 文本,并將文本及文本的其他信息保存在本地機(jī)器的硬盤上。在主題信息提取方面,我們構(gòu) 建了計(jì)算機(jī)主題詞典用于主題特征提取。主題搜索引擎的信息采集通過主題爬蟲完成,需要使用多種輔助策略。 開發(fā)環(huán)境介紹 硬件環(huán)境: CPU: Intel 酷睿 i3 550 RAM: 2GB Memory 軟件環(huán)境: Java VM: 操作系統(tǒng)版本: Ubuntu 開發(fā)工具: JavaCC 系統(tǒng) 的體系結(jié)構(gòu) 主題搜索引擎應(yīng)提供主題信息而不是大而全的結(jié)果,故必須制定有效的信息采集策略以滿足用戶的需要。 本章小結(jié) 本章節(jié)主要介紹了幾種主流的主題爬蟲 策略, 并闡述 了本文所使用的基于URL 地址 相關(guān) 的 抓取 策略,為主題搜索引擎的實(shí)現(xiàn)奠定了基礎(chǔ)。 基于語境圖的聚焦搜索 基于鞏固學(xué)習(xí)的網(wǎng)絡(luò)爬蟲通過計(jì)算鏈接的 Q 價(jià)值可以確定搜索方向,但它卻無法估計(jì)距離目標(biāo)頁面的遠(yuǎn)近。 這種方法的核心就是學(xué)習(xí)如何計(jì)算鏈接的 Q 價(jià)值, 根據(jù)未 來回報(bào)價(jià)值確定正確的搜索方向。 而這些經(jīng)驗(yàn)信息在搜索距相關(guān)頁面集較遠(yuǎn)的地方往往能獲得較好的回報(bào), 而前兩種策略在這種情況下容易迷失方向。 其它一些算法與 Fish Search 算法類似,以上所研究的兩種算法 Fish Search 算法和 Shark Search 算法都是基于內(nèi)容評(píng)價(jià)的查詢搜索算法,根據(jù)查詢內(nèi)容與主題的相關(guān)度的高低來判斷訪問鏈接的先后次序,此類算法最早是從檢索文本相關(guān)度的評(píng)價(jià)衍生而來的 [18],此 類算法最顯著的優(yōu)點(diǎn)就是計(jì)算量非常非常小,但是Web 頁面與傳統(tǒng)的文本在結(jié)構(gòu)上具有較大的差異性,文本網(wǎng)頁是一種半結(jié)構(gòu)化的文本文檔,它包含了許多結(jié)構(gòu)化的信息,并且每個(gè) Web 頁面都不是孤立存在,Web 頁面中的超鏈接把一個(gè)個(gè)存放在不同位置的頁面聯(lián)系起來,由于基于內(nèi)容山東大學(xué)本科畢業(yè)論文 23 相關(guān)度評(píng)價(jià)的爬蟲忽略了這些存在于網(wǎng)頁之間的關(guān)系,因此預(yù)測(cè)出來的超鏈接的價(jià)值是不準(zhǔn)確的,存在一些漏洞,很容易使得網(wǎng)頁存在錯(cuò)選和誤選,另外主題內(nèi)容評(píng)價(jià)的準(zhǔn)確性與主題關(guān)鍵詞的選擇和構(gòu)建有著密切的關(guān)聯(lián)。 ⑤計(jì)算 anchor 的值,用 neighborhood_score,β為自定義常量,方法如下: neighborhood_score=β*anchor_score+(1β)*anchor_context_score。 ④ 計(jì)算 anchor_text_context 相似度的值: if(anchor_score0) anchor_context_score=1。 //δ 是預(yù)先定義的衰減因子 else inherited_score(child_node)= δ*inherited_score(current_node)。 2. 在計(jì)算用戶查詢內(nèi)容的相關(guān)度時(shí),要考慮超鏈接的文本以及網(wǎng)頁上下文所包含的提示信息。但是 Fish Search 不是完美的,它也是有缺點(diǎn)的,相關(guān)性設(shè)計(jì)相對(duì)比較簡單,只是分為兩種狀態(tài)相關(guān)或者不相關(guān),再就是 potential_score 精度不高,且精度只分為三種狀態(tài),分別為 0, , 1,所以它不能代表所有網(wǎng)頁的相關(guān)度。 Fish Search魚群檢索算法最關(guān)鍵的內(nèi)容就是維護(hù) URL_Queue 中 URL地址在列表的順序,與傳統(tǒng)搜索算法有著本質(zhì)的區(qū)別,傳統(tǒng)搜索都按照 URL 在父網(wǎng)頁中出項(xiàng)的順序來進(jìn)行搜索查詢操作 [17]。目的是為了查詢主題相關(guān)網(wǎng)頁,在特定范圍內(nèi)增加搜索寬度和深度的值,深度的值它代表魚得到食物可以生產(chǎn)和延續(xù)后代。 4. 在經(jīng)過設(shè)定的一段時(shí)間之后,或者當(dāng) URL_Queue 已經(jīng)為空時(shí),停止運(yùn)行。 3. 在取得 URL列表文件的同時(shí), Web 服務(wù)器的網(wǎng)絡(luò)傳輸速度也要進(jìn)行檢測(cè)。 山東大學(xué)本科畢業(yè)論文 21 ②如果 URL 文件列表不相關(guān),則可以將這個(gè) URL 文件列表前得 width 個(gè)孩子加入到 URL_Queue 列表中臨時(shí)孩子相關(guān)網(wǎng)頁的節(jié)點(diǎn)的后面。反之,如果 URL 文件列表不相關(guān),那 么就給 URL 的 potential_score 的值賦為 或 0。 Fish Search 算法的具體流程描述如下: 1. 從動(dòng)態(tài) URL 列表中從高到低的提取 URL 地址,對(duì)提取的 URL 地址進(jìn)行搜索,取得與用戶搜索主題相關(guān)的網(wǎng)頁文件,將查詢出來的結(jié)果和用戶搜索內(nèi)容進(jìn)行比對(duì),檢查二者的相關(guān)性。 Fish Search 算法的基本工作流程是:將一個(gè) URL 地址作為起始頁面進(jìn)行搜索,在搜索頁面的同時(shí)動(dòng)態(tài)的建立一個(gè)主題相關(guān)列表,用來存放待查詢的 URL地址,該列表的 URL 孩子鏈接或者子鏈接按照優(yōu)先級(jí)進(jìn)行區(qū)分。另外還有幾個(gè)重要的參數(shù)分別是 depth、 width 和 potential_score。 Fish Search 算法的核心是根據(jù)用戶主題相關(guān)度,實(shí)時(shí)動(dòng)態(tài)地維護(hù)待爬行 URL 地址的優(yōu)先隊(duì)列 URL_Queue。 并且 實(shí)踐 發(fā)現(xiàn)各大報(bào)紙網(wǎng)站中 的 鏈接大部分指向內(nèi)部,并且新聞頁面 都是 的形式, 所以 設(shè)置 Nutch 種子文件為報(bào)紙 新聞 網(wǎng)站 入口 , 并且控制抓取的頁面都是 的形式, 保證 抓取 頁面的主題相關(guān)準(zhǔn)確率。 本文實(shí)現(xiàn) 的 算法 由于 目前的網(wǎng)頁多 才用 了半結(jié)構(gòu)化的 HTML 語言 , 其中包含有豐富的結(jié)構(gòu)信 息,在 抽取 網(wǎng)頁的主題內(nèi)容時(shí),應(yīng)對(duì)此加以利用。它在中心和權(quán)威網(wǎng)頁的相互作用中 更好地闡述了 WWW 的組織結(jié)構(gòu)特點(diǎn),一般情況下,權(quán)威網(wǎng)頁間是由中心頁面發(fā)生相互關(guān)聯(lián)產(chǎn)生的, HITS算法在計(jì)算相鄰矩陣特征向量時(shí)也是采用迭代法的,不過 HITS 算法針對(duì)的是特定主題查詢的 Inter 子圖,而不是整個(gè) Inter 結(jié)構(gòu)圖。該算法也常??梢员煌茝V應(yīng)用到別的一些類似的排序系統(tǒng)中。然而在限定的范圍之外,根據(jù)網(wǎng)頁的出度和入度需要建立一個(gè)矩陣。例如一個(gè)以房地產(chǎn)為主題的網(wǎng)頁,指向了另外一個(gè)以房地產(chǎn)為主題的網(wǎng)頁,那么另外一個(gè)網(wǎng)頁的重要性程度就有可能比較高。 山東大學(xué)本科畢業(yè)論文 19 HITS 算法的最重要的意義在于,如果一個(gè)網(wǎng)頁的重要性程度高,那么它指向的全部網(wǎng)頁的重要性程度相應(yīng)的也高;如果哪個(gè)重要的網(wǎng)頁被另外一個(gè)或幾個(gè)網(wǎng)頁所指,那么就表明指向它的網(wǎng)頁的重要性程度也會(huì)很高。 HITS 算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威網(wǎng)頁 (authority)之間并不存在相互的鏈接,所以權(quán)威網(wǎng)頁 (authority)通常都是通過中心網(wǎng)頁 (hub)發(fā)生關(guān)聯(lián)的。例如: Google、 Baidu、 Yahoo!、 bing、sogou、 soso 等這些搜索引擎相對(duì)于主題 “搜索引擎” 來說就是權(quán)威網(wǎng)頁 (authority),因?yàn)檫@些網(wǎng)頁會(huì)被大量的超鏈接指向。例如,百度對(duì)于主題“搜索引擎”和主題“湖南 SEO”的重要程度是不同的。 HITS 算法 HITS 算法是 Web 結(jié)構(gòu)挖掘中最具有權(quán)威性和使用最廣泛的算法。此外,此方法的最大優(yōu)勢(shì)在于整個(gè)操作過程都是在離線情況下完成,因此對(duì)在線的查詢過程所付出的所有額外的代價(jià)就不會(huì)產(chǎn)生了,是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的 PageRank 值通過離線計(jì)算獲得,有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。該算法的實(shí)質(zhì)是在離線狀態(tài)下通過對(duì)整個(gè)互聯(lián)網(wǎng)中的結(jié)構(gòu)圖進(jìn)行冪迭代計(jì)算,通過這種策略方法計(jì)算出來的網(wǎng)頁的等級(jí)值就是每個(gè)網(wǎng)頁的特征值,對(duì)每 個(gè)網(wǎng)頁的特征值計(jì)算有著特殊的計(jì)算方法,只需要若干次迭代計(jì)算就可以得到每個(gè)網(wǎng)頁特征值。例如 ,如果遇到了像圖 這樣的情況,網(wǎng)頁 T 可以鏈接到網(wǎng)頁 A 中,網(wǎng)頁 A 也可以鏈接到網(wǎng)頁 T 中,就形成了循環(huán),這樣就在遞歸計(jì)算過程 , u 和 v 的 PageRank 值將不斷積累,難以得到網(wǎng)頁真實(shí) PageRank 值。 Nv=|Fu|, Nv為頁面的出度。 PageRank 可以這樣被定義,網(wǎng)頁中的超鏈接,我們可以用有向圖來表示 Z=(X, Y), X 是節(jié)點(diǎn),也就是網(wǎng)頁, E 是邊 (兩點(diǎn)成線,只有從頁面 T 到 頁面 A的鏈接時(shí),才有存在頁面 T 到頁面 A 的邊 )[14]。當(dāng)一個(gè)頁面被其他許多頁面引用,那么這個(gè)頁面很有可能是重要頁面,盡管一個(gè)頁面不曾被其它頁面多次應(yīng)用,但是只要被重要頁面引用過,那么這個(gè)頁面也會(huì)得到很高的分值,也就是說一個(gè)頁面 PageRank 的值被均勻分配給其它引用的頁面。在傳統(tǒng)情報(bào)檢索理論中的分析方法,當(dāng)一個(gè)頁面 T 可以鏈接到另個(gè)頁面 A 時(shí),我就認(rèn)為 A 的重要性也非常高,也就是說 A 得到一個(gè)很高的分值,也就是說 T 的越重要,網(wǎng)頁 A 得到的分值就會(huì)越高。我們假設(shè)考慮的所有網(wǎng)站的 PageRank 是均勻分布的,就是說如果互聯(lián)網(wǎng)上有 N 個(gè)網(wǎng)站,那么每個(gè)網(wǎng)站的 PageRank 都是 1/N。于是需要用 PageRank 值來衡量一個(gè)網(wǎng)站的重要性 [13]。網(wǎng)站的 PageRank 值的高低取決于其它網(wǎng)站給它“投票”的總和。 PageRank 算法是根據(jù)網(wǎng)頁之間的超鏈接來確定頁面的等級(jí)。啟發(fā)式搜索策略即先通過查詢領(lǐng)域的知識(shí)相關(guān)對(duì)網(wǎng)頁中超鏈接進(jìn)行價(jià)值評(píng)定,并用來判斷網(wǎng)絡(luò)信息資源的分布情況,然后按照優(yōu)先選擇原則對(duì)價(jià)值評(píng)定值最大的 鏈接頁面進(jìn)行更深一步的搜索。主題搜索引擎具有較強(qiáng)的針對(duì)性,面向某一專業(yè)行業(yè)或者某一特定主題,因此在搜索過程就可以有選擇檢索互聯(lián)網(wǎng)上的信息,無需將整個(gè)互聯(lián)網(wǎng)資源檢索一次,只需要檢索與主題相關(guān)的頁面或者某一專業(yè)行業(yè),比通用搜索引擎更注重檢索到頁面的正確性。 基于鏈接 結(jié)構(gòu)特征 PageRank 算法 搜索引擎的性能和處理速度取決于信息抓取系統(tǒng)性能的好壞。其結(jié)構(gòu)圖如圖 22: 圖 22 IK Analyzer 結(jié)構(gòu)圖 本章小結(jié) 本章主要介紹了 Nutch 相關(guān)技術(shù),包括 Nutch 的組成部分 :抓取和搜索,重點(diǎn)介紹了抓取部分, 即 Fetcher、 Crawler 的詳細(xì)工作過程,以方便將此 其 修改成主題爬蟲。這一方法能夠理解中文上下文環(huán)境,避免分詞出現(xiàn)歧義的優(yōu)點(diǎn),正成為國內(nèi)外學(xué)者的研究熱點(diǎn),目前還沒有成熟的系統(tǒng)出現(xiàn)。 山東大學(xué)本科畢業(yè)論文 15 基于語義理解的分詞方法 基于語義理解的分詞方法指通過分詞、語法及語義分析模擬人腦對(duì)語言的理解能力來對(duì)語句進(jìn)行識(shí)別分詞,一般包括句法語義模塊、控制模塊和分詞模塊。這樣做會(huì)出現(xiàn)一些問題,比如一些不重要或者無意義但是出現(xiàn)頻率很高的字詞會(huì)被切分出來,這就需要對(duì)切分詞語配備一個(gè)詞典庫,對(duì)切分詞語進(jìn)行匹配,過濾 不重要詞。 基于詞頻統(tǒng)計(jì)的分詞方法 詞頻統(tǒng)計(jì)分詞,顧名思義,就是基于詞頻統(tǒng)計(jì)來進(jìn)行分詞,即根據(jù)在上下文語境中,相鄰字搭配出現(xiàn)的頻率越高就越可能成為一個(gè)詞。 基于字典匹配的分詞方法 字典匹配分詞技術(shù)是以字典分詞為基礎(chǔ)發(fā)展起來的,常使用標(biāo)志切分或者特征掃描將輸入的字符串中具有顯著特征的詞匯識(shí)別和切分出來,然后以這些詞匯為間隔,將原字符串分割為較小串后再進(jìn)行字典分詞。 中文分詞技術(shù)對(duì)于中文搜索引擎搜索結(jié)果的準(zhǔn)確性上具有十分重要的作用,好的中文切分技術(shù)不僅能夠提高分詞準(zhǔn)確性,而且能夠提高分詞速度。 但是對(duì)于中文信息來說,由于中文信息與英文信息不同,是以連續(xù)的句子組成,在字與字之問沒有明顯的分割符,所以如何有效分析成了一道難題,例如“我是一名研究生”,如果按照英文這種切分方法的話可能只能分出“我”、“是”、“一”、“名”、“研”、“究”、“生”。 調(diào)用 Cal1 (url, fle, content),然后逐步執(zhí)行: 山東大學(xué)本科畢業(yè)論文 13 調(diào)用符合此內(nèi)容類型的 () 執(zhí)行 (content) 利用新建立的 Fetcheroutput 和 URL 的 MD5 摘要,產(chǎn)生的內(nèi)容對(duì)象和己解析的 ParseText 調(diào)用 ()函數(shù) 循環(huán) 100 次,在 log 中記錄 撲捉各種小的異常以及記錄寫入 log 文件 Nutch 的目標(biāo)是讓每個(gè)人都很容易配置世界上一流的 Web 搜索引擎,為了完成這個(gè)目標(biāo),研發(fā)人員做出了不懈的努力,使得 Nutch 必須作到:每個(gè)月都需從互聯(lián)網(wǎng)上取幾十億的網(wǎng)頁,并為這幾十億的網(wǎng)頁維護(hù)作一個(gè)索引,同時(shí)對(duì)建立的索引文件需要進(jìn)行每秒千萬次的搜索,為用戶提供高質(zhì)量、高效率的搜索結(jié)果,并且以最小的成本運(yùn)作。 ()實(shí)例化了一個(gè)新的 FetchListEntry 實(shí)例,叫“ fle”然后執(zhí)行以下循環(huán): 如果出現(xiàn)錯(cuò)誤,記錄并退出循環(huán) 從 FetchList 中取得下一個(gè) URL 集,如果取得結(jié)果為空,退出循環(huán) 從 FetchListEntry 解析出 URL 如果 FetchListEntry 沒有被標(biāo)記為“ fetch” (未抓取此 URL 的網(wǎng)頁 ),調(diào)用 ()函數(shù),設(shè)置 status=1。Run()函數(shù)逐個(gè)實(shí)例化抓取線程 FetcherThread 對(duì)象,然后觸發(fā)各個(gè)線程的 start()函數(shù),在其初始化 threadCount 個(gè)線程并等待線程結(jié)束后或者出現(xiàn)大的異常后,此函數(shù)調(diào)用 close()結(jié)束輸入輸出流。 在爬蟲中,抓取是最主要的操作,其作用就是抓取網(wǎng)頁,但抓取的單位不是單個(gè)網(wǎng)頁,而是同屬于一個(gè) segment 的網(wǎng)頁集合。默認(rèn)的抓取周期 是 30 天,如果已經(jīng)生成的舊 fe
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1