freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于nutch的新聞主題搜索引擎的設計與實現畢業(yè)論文(文件)

2025-07-31 14:32 上一頁面

下一頁面
 

【正文】 的同時動態(tài)的建立一個主題相關列表,用來存放待查詢的 URL地址,該列表的 URL 孩子鏈接或者子鏈接按照優(yōu)先級進行區(qū)分。反之,如果 URL 文件列表不相關,那 么就給 URL 的 potential_score 的值賦為 或 0。 3. 在取得 URL列表文件的同時, Web 服務器的網絡傳輸速度也要進行檢測。目的是為了查詢主題相關網頁,在特定范圍內增加搜索寬度和深度的值,深度的值它代表魚得到食物可以生產和延續(xù)后代。但是 Fish Search 不是完美的,它也是有缺點的,相關性設計相對比較簡單,只是分為兩種狀態(tài)相關或者不相關,再就是 potential_score 精度不高,且精度只分為三種狀態(tài),分別為 0, , 1,所以它不能代表所有網頁的相關度。 //δ 是預先定義的衰減因子 else inherited_score(child_node)= δ*inherited_score(current_node)。 ⑤計算 anchor 的值,用 neighborhood_score,β為自定義常量,方法如下: neighborhood_score=β*anchor_score+(1β)*anchor_context_score。 而這些經驗信息在搜索距相關頁面集較遠的地方往往能獲得較好的回報, 而前兩種策略在這種情況下容易迷失方向。 基于語境圖的聚焦搜索 基于鞏固學習的網絡爬蟲通過計算鏈接的 Q 價值可以確定搜索方向,但它卻無法估計距離目標頁面的遠近。 開發(fā)環(huán)境介紹 硬件環(huán)境: CPU: Intel 酷睿 i3 550 RAM: 2GB Memory 軟件環(huán)境: Java VM: 操作系統(tǒng)版本: Ubuntu 開發(fā)工具: JavaCC 系統(tǒng) 的體系結構 主題搜索引擎應提供主題信息而不是大而全的結果,故必須制定有效的信息采集策略以滿足用戶的需要。在主題信息提取方面,我們構 建了計算機主題詞典用于主題特征提取。查詢模塊提供網絡用戶檢索界面,并根據用戶的查詢要求,從信息數據庫中檢索出與之相關的信息資料并反饋給讀者。采集模塊負責從網絡上搜集網頁、 Word 文本或者 PDF 文本,并將文本及文本的其他信息保存在本地機器的硬盤上。主題搜索引擎的信息采集通過主題爬蟲完成,需要使用多種輔助策略。 本章小結 本章節(jié)主要介紹了幾種主流的主題爬蟲 策略, 并闡述 了本文所使用的基于URL 地址 相關 的 抓取 策略,為主題搜索引擎的實現奠定了基礎。 這種方法的核心就是學習如何計算鏈接的 Q 價值, 根據未 來回報價值確定正確的搜索方向。 其它一些算法與 Fish Search 算法類似,以上所研究的兩種算法 Fish Search 算法和 Shark Search 算法都是基于內容評價的查詢搜索算法,根據查詢內容與主題的相關度的高低來判斷訪問鏈接的先后次序,此類算法最早是從檢索文本相關度的評價衍生而來的 [18],此 類算法最顯著的優(yōu)點就是計算量非常非常小,但是Web 頁面與傳統(tǒng)的文本在結構上具有較大的差異性,文本網頁是一種半結構化的文本文檔,它包含了許多結構化的信息,并且每個 Web 頁面都不是孤立存在,Web 頁面中的超鏈接把一個個存放在不同位置的頁面聯(lián)系起來,由于基于內容山東大學本科畢業(yè)論文 23 相關度評價的爬蟲忽略了這些存在于網頁之間的關系,因此預測出來的超鏈接的價值是不準確的,存在一些漏洞,很容易使得網頁存在錯選和誤選,另外主題內容評價的準確性與主題關鍵詞的選擇和構建有著密切的關聯(lián)。 ④ 計算 anchor_text_context 相似度的值: if(anchor_score0) anchor_context_score=1。 2. 在計算用戶查詢內容的相關度時,要考慮超鏈接的文本以及網頁上下文所包含的提示信息。 Fish Search魚群檢索算法最關鍵的內容就是維護 URL_Queue 中 URL地址在列表的順序,與傳統(tǒng)搜索算法有著本質的區(qū)別,傳統(tǒng)搜索都按照 URL 在父網頁中出項的順序來進行搜索查詢操作 [17]。 4. 在經過設定的一段時間之后,或者當 URL_Queue 已經為空時,停止運行。 山東大學本科畢業(yè)論文 21 ②如果 URL 文件列表不相關,則可以將這個 URL 文件列表前得 width 個孩子加入到 URL_Queue 列表中臨時孩子相關網頁的節(jié)點的后面。 Fish Search 算法的具體流程描述如下: 1. 從動態(tài) URL 列表中從高到低的提取 URL 地址,對提取的 URL 地址進行搜索,取得與用戶搜索主題相關的網頁文件,將查詢出來的結果和用戶搜索內容進行比對,檢查二者的相關性。另外還有幾個重要的參數分別是 depth、 width 和 potential_score。 并且 實踐 發(fā)現各大報紙網站中 的 鏈接大部分指向內部,并且新聞頁面 都是 的形式, 所以 設置 Nutch 種子文件為報紙 新聞 網站 入口 , 并且控制抓取的頁面都是 的形式, 保證 抓取 頁面的主題相關準確率。它在中心和權威網頁的相互作用中 更好地闡述了 WWW 的組織結構特點,一般情況下,權威網頁間是由中心頁面發(fā)生相互關聯(lián)產生的, HITS算法在計算相鄰矩陣特征向量時也是采用迭代法的,不過 HITS 算法針對的是特定主題查詢的 Inter 子圖,而不是整個 Inter 結構圖。然而在限定的范圍之外,根據網頁的出度和入度需要建立一個矩陣。 山東大學本科畢業(yè)論文 19 HITS 算法的最重要的意義在于,如果一個網頁的重要性程度高,那么它指向的全部網頁的重要性程度相應的也高;如果哪個重要的網頁被另外一個或幾個網頁所指,那么就表明指向它的網頁的重要性程度也會很高。例如: Google、 Baidu、 Yahoo!、 bing、sogou、 soso 等這些搜索引擎相對于主題 “搜索引擎” 來說就是權威網頁 (authority),因為這些網頁會被大量的超鏈接指向。 HITS 算法 HITS 算法是 Web 結構挖掘中最具有權威性和使用最廣泛的算法。該算法的實質是在離線狀態(tài)下通過對整個互聯(lián)網中的結構圖進行冪迭代計算,通過這種策略方法計算出來的網頁的等級值就是每個網頁的特征值,對每 個網頁的特征值計算有著特殊的計算方法,只需要若干次迭代計算就可以得到每個網頁特征值。 Nv=|Fu|, Nv為頁面的出度。當一個頁面被其他許多頁面引用,那么這個頁面很有可能是重要頁面,盡管一個頁面不曾被其它頁面多次應用,但是只要被重要頁面引用過,那么這個頁面也會得到很高的分值,也就是說一個頁面 PageRank 的值被均勻分配給其它引用的頁面。我們假設考慮的所有網站的 PageRank 是均勻分布的,就是說如果互聯(lián)網上有 N 個網站,那么每個網站的 PageRank 都是 1/N。網站的 PageRank 值的高低取決于其它網站給它“投票”的總和。啟發(fā)式搜索策略即先通過查詢領域的知識相關對網頁中超鏈接進行價值評定,并用來判斷網絡信息資源的分布情況,然后按照優(yōu)先選擇原則對價值評定值最大的 鏈接頁面進行更深一步的搜索。 基于鏈接 結構特征 PageRank 算法 搜索引擎的性能和處理速度取決于信息抓取系統(tǒng)性能的好壞。這一方法能夠理解中文上下文環(huán)境,避免分詞出現歧義的優(yōu)點,正成為國內外學者的研究熱點,目前還沒有成熟的系統(tǒng)出現。這樣做會出現一些問題,比如一些不重要或者無意義但是出現頻率很高的字詞會被切分出來,這就需要對切分詞語配備一個詞典庫,對切分詞語進行匹配,過濾 不重要詞。 基于字典匹配的分詞方法 字典匹配分詞技術是以字典分詞為基礎發(fā)展起來的,常使用標志切分或者特征掃描將輸入的字符串中具有顯著特征的詞匯識別和切分出來,然后以這些詞匯為間隔,將原字符串分割為較小串后再進行字典分詞。 但是對于中文信息來說,由于中文信息與英文信息不同,是以連續(xù)的句子組成,在字與字之問沒有明顯的分割符,所以如何有效分析成了一道難題,例如“我是一名研究生”,如果按照英文這種切分方法的話可能只能分出“我”、“是”、“一”、“名”、“研”、“究”、“生”。 ()實例化了一個新的 FetchListEntry 實例,叫“ fle”然后執(zhí)行以下循環(huán): 如果出現錯誤,記錄并退出循環(huán) 從 FetchList 中取得下一個 URL 集,如果取得結果為空,退出循環(huán) 從 FetchListEntry 解析出 URL 如果 FetchListEntry 沒有被標記為“ fetch” (未抓取此 URL 的網頁 ),調用 ()函數,設置 status=1。 在爬蟲中,抓取是最主要的操作,其作用就是抓取網頁,但抓取的單位不是單個網頁,而是同屬于一個 segment 的網頁集合。 Dedup 工具可以從 segment 的索引中去除重復的 URL。上述 過程分別詳述如下,括號內是底層工具的名字: 創(chuàng)建一個新的 WebDB (admin db create) 把開始抓取的根 URL 放入 WebDB (inject) 從 WebDB 的新 segment 中生成 fetchlist (generate) 根據 fetchlist 列表抓取網頁的內容 (fetch) 根據抓取回來的網頁鏈接 URL 更新 WebDB (updatedb) 重復上面 35 步直到達到指定抓取層數 用計算出來的網頁 URL 權重 scores 更新 segments (updatesegs) 對抓取回來的網頁建立索引 (index) 在索引中消除重復的內容和重復的 URL (dedup) 合并多個索引到一個大索引,為搜索提供索引庫 (merge) 在創(chuàng) 建了一個新的 WebDB 后,抓取循環(huán) generate/fetch/update 就根據第二步山東大學本科畢業(yè)論文 12 指定的根 URL 在一定周期下自動循環(huán)了。 一般來說同一域名下的 URL 鏈接會被合成到同一個 fetchlist。 Nuteh 使用 Lueene 來建立索引,但 Lucene 的 segment的概 念和 Nutch 的 segment 概念是完全不同的。因此可以刪除超過這個時間期限的山東大學本科畢業(yè)論文 11 segment,而且也可以節(jié)省不少磁盤空間。 parse_data 文件夾里保存的是從 網頁中解析出來的一些數據,例如元數據。 Fetcher 文件夾里保存的是抓取狀態(tài)信息,輸出數據是從 fetchlist 中抓取到的網頁。被索引的網頁集合。因此 WebDB 可以說是一個網絡圖,頁面作為節(jié)點,鏈接是邊。是一個特殊存儲數據結構,保存被抓取網站數據的結構和屬性,只被抓取程序使用,搜索程序并不使用它。下面詳細介紹一下抓取部分組成。 Nutch 介紹 系統(tǒng)架構 總體上 Nutch 可以分為 2 個部分:抓取部分和搜索部分。而Tomcat 功能則沒有那么強大,它不提供 EJB 等支持。 Tomcat 能處理 Html 頁面。 WAR 是 Sun 提出的一種 Web 應用程序格式,與 JAR 類似,也是許多文件的一個壓縮包。由于有了 Sun 的參與和支持,最新的 Servlet 和 Jsp 規(guī)范總能在Tomcat 中得到體 現。用戶在瀏覽器中輸入查詢條件, Web 服務器接收到用戶的查詢條件后在索引數據庫中進行查詢、排列然后返回給用戶。只需利用中文 分詞功能,直接傳入中文句子,得到 ArrayList 類型的返回結果。當仔細研究后,發(fā)現所謂的“中文問題”實際上就是如何把上下文無關文法轉變?yōu)樯舷挛南嚓P文法。 ~:后面的內容的補。 +:前面的內容出現一次或多次。 語法聲明和動作代碼:這一部分生成的代碼會直接插入分析器類聲明的結束括號之前。這個部分是必須有的。 一個 jj 文本由下面幾個部分構成: Options{}部分:這個部分對產生的語法分析器的特性進行說明,例如向前看的 token 的個數 (用來解除沖突 )。要編譯由 JavaCC 生成的 Java代碼 ,無需任何外部 JAR 文件或目錄?;蛘?,正規(guī)式描述了正規(guī)文法,又稱線性文法,或上下文無關文法 。理解形式文法的定義,才能更好地理解和使用 JavaCC。用戶只需寫出分析腳本, JavaCC 就會生成符合用戶要求的類,用來進行詞法和語法分析。 文本組織結構 本文共分為五章,全文結構安排如下: 第一章緒論主要介紹了課題的研究背景以及發(fā)展現狀; 第二章總體介紹了開發(fā) 主題 搜索引擎所用到的各個組件及軟件,其中重點介紹了 Nutch 搜索引擎的系統(tǒng)架構、 Crawler 的組成和 Crawler 的工作流程以及中文分詞的實現方法; 第三章討論了幾種實現主 題爬取的爬蟲搜索策略 , 包括本文所使用的爬蟲策略 ; 第四章是基于 Nutch 的 主題 搜索引擎的具體實現,包括開發(fā)環(huán)境的搭建、環(huán)境變量的設置、主題爬蟲和索引的設計; 第五章為本論文的結束語 , 對 本次 設計 做 了總結和展望 。而關鍵字搜索帶來的問題是,搜索結果過多,并且不準確。 4. 智能化語義網 語義網( Semantic Web)將有可能成為下一代互聯(lián)網,這樣網絡上的數據和信息將被計算機程序所理解。 3. 個性化,社會化 查詢服務只是 主題 搜索引擎的一部分, 主題 搜索
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1