freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(參考版)

2025-06-30 22:53本頁面
  

【正文】 盡管每個DS4100是搭配一個專門的BladeCenterH機(jī)架,但由于我們運(yùn)行的光纖通道網(wǎng)絡(luò),集群中的任何刀片都可以可以查看到存儲系統(tǒng)的每個邏輯單元。在本文中的結(jié)論報告中,我們著重關(guān)注這些JS21刀片。這是四處理器(雙插槽,雙核心)的PowerPC 970片, GHz。在光纖通道適配器,兩個用于連接的刀片光纖通道交換機(jī),都被插入機(jī)架。三種不同葉片中使用了我們的集群:JS21( PowerPC處理器),HS21 (英特爾Woodcrest處理器)和LS21( AMD Opteron處理器)。(在機(jī)架上交換機(jī)模塊3與4和橋梁模塊3與4均共享相同的插槽。與之前的BladeCenter – 1機(jī)架相比,它有14個刀片插槽的刀片服務(wù)器。同時還提供有多達(dá)8個處理器的雙寬葉片配置和額外的內(nèi)存。IBM BladeCenter,解決方案(和類似的系統(tǒng)公司,如惠普和戴爾)引領(lǐng)著下一步機(jī)架式集群向外擴(kuò)展系統(tǒng)的商業(yè)計算。這是這個平臺基于向外擴(kuò)展方向的一個自然選擇。(見下面的說明DS4100)向外擴(kuò)展系統(tǒng)有許多不同的形狀和形式,但它們一般包括多個相互關(guān)聯(lián)的節(jié)點,每一個節(jié)點代表一個獨立的操作系統(tǒng)。另外,p5 575connects有兩個Gigabit/s以太網(wǎng)接口。我們所用的特殊p5 575測試系統(tǒng)擁有16個8位酷睿單元和32GB(1G= 1,073 , 741824字節(jié))的主存。這個8位或16位系統(tǒng)已經(jīng)由于其低成本,高性能,小型化()已經(jīng)吸引了不少客戶。2. 向上和向外擴(kuò)展系統(tǒng)在IBM的產(chǎn)品線,系統(tǒng)z,p和i全部建立在具有跨度范圍廣泛的計算能力的多處理系統(tǒng)上。第3節(jié)介紹了Nutch/Lucene在我們的系統(tǒng)中運(yùn)行的工作量。不同情況下,這點或許能改善性能。在我們的應(yīng)用案例中,這一業(yè)績的衡量精確到了秒。后一種做法顯著提高性能,同時又能保持單一系統(tǒng)形象,是一個很具優(yōu)勢的對稱多處理系統(tǒng)。我們更擅長于開發(fā)Power5的對稱多處理與“基于abox向外擴(kuò)展”的方案。其中一個重要的結(jié)論,我們的工作是一個“純粹”的向上擴(kuò)展的方案而不是很有效的利用所有的處理器在一個大型的對稱多處理。另一種是基于IBM Blade Center刀片服務(wù)器向外擴(kuò)展系統(tǒng)。向外擴(kuò)展在過去好多年一直是大規(guī)??茖W(xué)計算的唯一可行方案,我們可以觀察世界500強(qiáng)系統(tǒng)的發(fā)展。對于許多新的以網(wǎng)絡(luò)產(chǎn)品為主的企業(yè)(例如谷歌、雅虎、eBay、亞馬遜),使用向外擴(kuò)展是是解決必要計算能力唯一的辦法。IBM 、惠普和Sun這樣的公司每一代人都投入巨資以建設(shè)更大、更好多處理系統(tǒng)。在第一階段的商業(yè)計算革命中,向上擴(kuò)展的優(yōu)勢是顯而易見的。我們可以根據(jù)不同的做法,將采用多處理器系統(tǒng)的運(yùn)算(包括商業(yè)和技術(shù)/科學(xué))分為兩個大組:?向上擴(kuò)展:大型共享存儲服務(wù)器的部署應(yīng)用(多處理系統(tǒng))。1. 簡介在過去10年里的商業(yè)計算中,我們目睹了計算機(jī)系統(tǒng)單處理器到多處理器的全面換代。我們的結(jié)論表明,向外擴(kuò)展的策略即使在向上擴(kuò)展的機(jī)器中依然可以表現(xiàn)良好。向外擴(kuò)展的解決方案是以網(wǎng)絡(luò)為中心高吞吐量的特別有效的應(yīng)用。再次誠摯的感謝所有支持我的老師、同學(xué)和家人!參考文獻(xiàn)[1] :現(xiàn)狀、問題及對策[J].大學(xué)圖書館學(xué)報,1998,16(6):4446,:[2] 邵秀麗,劉彬,[J].計算機(jī)工程與設(shè)計,2011,32(2):539542,548.[3] 趙德平,王延臣,[J].沈陽建筑大學(xué)學(xué)報(自然科學(xué)版),2012,28(3):555562.[4] 胡維華,[J].杭州電子科技大學(xué)學(xué)報 ,2013,(6)::[10] 郭俊軍,孟繁疆,[J].農(nóng)機(jī)化研究 ,2014,(3)::[11] 王鐘斐,[J].計算機(jī)工程,2010,36(24)::[13] 趙鴻萍,[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(10):3842,66.[14] 郝光權(quán),[J].計算機(jī)光盤軟件與應(yīng)用,2011,(4):137138.[15] [J].計算機(jī)工程與設(shè)計,2011,32(9):30363040.[17] 王靜,劉偉峰,[J].信息系統(tǒng)工程,2014,(3):2931.[18] 張思發(fā),[J].計算機(jī)工程與應(yīng)用,2012,.[19] [D].北京郵電大學(xué),2010.[20] [D].杭州電子科技大學(xué),2011.[21] [D].云南大學(xué),2011.[22] [M].人民郵電出版社,2008.附錄:譯文:向上向外擴(kuò)展:關(guān)于研究Nutch/Lucene的互操作性摘要在過去幾年中,多處理系統(tǒng)提高運(yùn)行能力的解決方案一直困擾著主流的商業(yè)計算。還要感謝互聯(lián)網(wǎng)各技術(shù)論壇中無私分享項目經(jīng)驗的朋友們,他們對自己項目的分享以及為他人提供的解決方案是網(wǎng)民共享的寶貴財富。在此謹(jǐn)向林老師表示崇高的敬意和最衷心的感謝。首先感謝我的導(dǎo)師林老師,林老師在我的學(xué)習(xí)和生活上都給了無微不至的關(guān)懷,給我創(chuàng)造了良好的學(xué)習(xí)環(huán)境。關(guān)于Nutch開源項目的應(yīng)用的文章較少,且Nutch的研究還有待進(jìn)一步深入,希望更多的同行加入到這個研究隊伍中,使Web巨大的信息資源更好地為我們服務(wù),為我們使用Web帶來更大的便利。本論文在分析了通用搜索引擎的弊端和主題搜索引擎的優(yōu)勢之后,詳細(xì)討論了主題搜索引擎中最重要的部分——主題爬蟲的關(guān)鍵技術(shù)及算法,并在Nutch的基礎(chǔ)上通過修改抓取代碼實現(xiàn)了簡單的主題搜索引擎。第5章 總結(jié)與體會隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)信息的增長也達(dá)到了驚人的速度,人們對網(wǎng)絡(luò)信息的獲取也有了新的要求,搜索引擎技術(shù)成為計算機(jī)業(yè)界爭相研究和開發(fā)的對象。}5. 編譯時加入IK的jar包,在lib/lib之間(約200行)加入:include name=/設(shè)置自動編譯war包,之后無需再ant war修改target name=job depends=pile,改為target name=job depends=pile,war6. 編譯()~$ ant7. 設(shè)置tomcat與nutch接口(復(fù)制war文件到tomcat目錄)~$ rm /usr/local/–r目錄webapps/,替換war包時需要將其刪掉[22],新的war包才能生效~$cp /home/liu/$CATALINA_HOME/webapps/8. 重新生成索引$ bin/nutch crawl dir crawl depth 10 topN 100 threads 109. 重啟tomcat,然后關(guān)閉,終端輸入~$ run在網(wǎng)頁中搜索即可 系統(tǒng)測試啟動之后的搜索頁面如圖42:圖42 搜索引擎主界面圖43和圖44是在本文所搭建的主題搜索引擎和百度搜索引擎中分別搜索所得到的結(jié)果,可以發(fā)現(xiàn)即便只抓取了網(wǎng)站的一小部分內(nèi)容,搜索結(jié)果仍然要比百度站內(nèi)搜索更加符合我們對新聞的需求。 analyzer = new ()。 if (anchor.equals(fieldName)) analyzer = ANCHOR_ANALYZER。 rmdir ika。查詢模塊提供網(wǎng)絡(luò)用戶檢索界面,并根據(jù)用戶的查詢要求,從信息數(shù)據(jù)庫中檢索出與之相關(guān)的信息資料并反饋給讀者。采集模塊負(fù)責(zé)從網(wǎng)絡(luò)上搜集網(wǎng)頁、Word文本或者PDF文本,并將文本及文本的其他信息保存在本地機(jī)器的硬盤上。在主題信息提取方面,我們構(gòu)建了計算機(jī)主題詞典用于主題特征提取。主題搜索引擎的信息采集通過主題爬蟲完成,需要使用多種輔助策略。 開發(fā)環(huán)境介紹硬件環(huán)境:CPU: Intel 酷睿i3 550 RAM: 2GB Memory軟件環(huán)境:Java VM: 操作系統(tǒng)版本:Ubuntu 開發(fā)工具:JavaCC 系統(tǒng)的體系結(jié)構(gòu)主題搜索引擎應(yīng)提供主題信息而不是大而全的結(jié)果,故必須制定有效的信息采集策略以滿足用戶的需要。 本章小結(jié)本章節(jié)主要介紹了幾種主流的主題爬蟲策略,并闡述了本文所使用的基于URL地址相關(guān)的抓取策略,為主題搜索引擎的實現(xiàn)奠定了基礎(chǔ)。 基于語境圖的聚焦搜索基于鞏固學(xué)習(xí)的網(wǎng)絡(luò)爬蟲通過計算鏈接的Q價值可以確定搜索方向,但它卻無法估計距離目標(biāo)頁面的遠(yuǎn)近。 這種方法的核心就是學(xué)習(xí)如何計算鏈接的Q 價值, 根據(jù)未來回報價值確定正確的搜索方向。 而這些經(jīng)驗信息在搜索距相關(guān)頁面集較遠(yuǎn)的地方往往能獲得較好的回報, 而前兩種策略在這種情況下容易迷失方向。其它一些算法與Fish Search算法類似,以上所研究的兩種算法Fish Search 算法和Shark Search算法都是基于內(nèi)容評價的查詢搜索算法,根據(jù)查詢內(nèi)容與主題的相關(guān)度的高低來判斷訪問鏈接的先后次序,此類算法最早是從檢索文本相關(guān)度的評價衍生而來的[18],此類算法最顯著的優(yōu)點就是計算量非常非常小,但是Web 頁面與傳統(tǒng)的文本在結(jié)構(gòu)上具有較大的差異性,文本網(wǎng)頁是一種半結(jié)構(gòu)化的文本文檔,它包含了許多結(jié)構(gòu)化的信息,并且每個Web頁面都不是孤立存在,Web 頁面中的超鏈接把一個個存放在不同位置的頁面聯(lián)系起來,由于基于內(nèi)容相關(guān)度評價的爬蟲忽略了這些存在于網(wǎng)頁之間的關(guān)系,因此預(yù)測出來的超鏈接的價值是不準(zhǔn)確的,存在一些漏洞,很容易使得網(wǎng)頁存在錯選和誤選,另外主題內(nèi)容評價的準(zhǔn)確性與主題關(guān)鍵詞的選擇和構(gòu)建有著密切的關(guān)聯(lián)。⑤計算anchor的值,用neighborhood_score,β為自定義常量,方法如下:neighborhood_score=β*anchor_score+(1β)*anchor_context_score。④ 計算anchor_text_context相似度的值:if(anchor_score0)anchor_context_score=1。 //δ 是預(yù)先定義的衰減因子elseinherited_score(child_node)= δ*inherited_score(current_node)。2. 在計算用戶查詢內(nèi)容的相關(guān)度時,要考慮超鏈接的文本以及網(wǎng)頁上下文所包含的提示信息。但是Fish Search不是完美的,它也是有缺點的,相關(guān)性設(shè)計相對比較簡單,只是分為兩種狀態(tài)相關(guān)或者不相關(guān),再就是potential_score精度不高,且精度只分為三種狀態(tài),分別為0,1,所以它不能代表所有網(wǎng)頁的相關(guān)度。Fish Search魚群檢索算法最關(guān)鍵的內(nèi)容就是維護(hù)URL_Queue中URL地址在列表的順序,與傳統(tǒng)搜索算法有著本質(zhì)的區(qū)別,傳統(tǒng)搜索都按照URL在父網(wǎng)頁中出項的順序來進(jìn)行搜索查詢操作[17]。目的是為了查詢主題相關(guān)網(wǎng)頁,在特定范圍內(nèi)增加搜索寬度和深度的值,深度的值它代表魚得到食物可以生產(chǎn)和延續(xù)后代。4. 在經(jīng)過設(shè)定的一段時間之后,或者當(dāng) URL_Queue 已經(jīng)為空時,停止運(yùn)行。3. 在取得URL列表文件的同時,Web服務(wù)器的網(wǎng)絡(luò)傳輸速度也要進(jìn)行檢測。②如果URL文件列表不相關(guān),則可以將這個URL文件列表前得width個孩子加入到URL_Queue列表中臨時孩子相關(guān)網(wǎng)頁的節(jié)點的后面。反之,如果URL文件列表不相關(guān)。Fish Search 算法的具體流程描述如下:1. 從動態(tài)URL列表中從高到低的提取URL地址,對提取的URL地址進(jìn)行搜索,取得與用戶搜索主題相關(guān)的網(wǎng)頁文件,將查詢出來的結(jié)果和用戶搜索內(nèi)容進(jìn)行比對,檢查二者的相關(guān)性。Fish Search算法的基本工作流程是:將一個URL地址作為起始頁面進(jìn)行搜索,在搜索頁面的同時動態(tài)的建立一個主題相關(guān)列表,用來存放待查詢的URL地址,該列表的URL孩子鏈接或者子鏈接按照優(yōu)先級進(jìn)行區(qū)分。另外還有幾個重要的參數(shù)分別是depth、width 和potential_score。Fish Search算法的核心是根據(jù)用戶主題相關(guān)度,實時動態(tài)地維護(hù)待爬行 URL地址的優(yōu)先隊列URL_Queue。并且實踐發(fā)現(xiàn)各大報紙網(wǎng)站中的鏈接大部分指向內(nèi)部,并且新聞頁面都是://domain/[azAZ09_]*.html的形式,所以設(shè)置Nutch種子文件為報紙新聞網(wǎng)站入口,并且控制抓取的頁面都是://domain/[azAZ09_]*.html的形式,保證抓取頁面的主題相關(guān)準(zhǔn)確率。 本文實現(xiàn)的算法 由于目前的網(wǎng)頁多才用了半結(jié)構(gòu)化的HTML語言,其中包含有豐富的結(jié)構(gòu)信息,在抽取網(wǎng)頁的主題內(nèi)容時,應(yīng)對此加以利用。它在中心和權(quán)威網(wǎng)頁的相互作用中更好地闡述了WWW的組織結(jié)構(gòu)特點,一般情況下,權(quán)威網(wǎng)頁間是由中心頁面發(fā)生相互關(guān)聯(lián)產(chǎn)生的,HITS算法在計算相鄰矩陣特征向量時也是采用迭代法的,不過 HITS 算法針對的是特定主題查詢的Internet子圖,而不是整個 Internet結(jié)構(gòu)圖。該算法也常??梢员煌茝V應(yīng)用到別的一些類似的排序系統(tǒng)中。然而在限定的范圍之外,根據(jù)網(wǎng)頁的出度和入度需要建立一個矩陣。例如一個以房地產(chǎn)為主題的網(wǎng)頁,指向了另外一個以房地產(chǎn)為主題的網(wǎng)頁,那么另外一個網(wǎng)頁的重要性程度就有可能比較高。HITS 算法的最重要的意義在于,如果一個網(wǎng)頁的重要性程度高,那么它指向的全部網(wǎng)頁的重要性程度相應(yīng)的也高;如果哪個重要的網(wǎng)頁被另外一個或幾個網(wǎng)頁所指,那么就表明指向它的網(wǎng)頁的重要性程度也會很高。HITS 算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威網(wǎng)頁(authority)之間并不存在相互的鏈接,所以權(quán)威網(wǎng)頁(authority)通常都是通過中心網(wǎng)頁(hub)發(fā)生關(guān)聯(lián)的。例如:Google、Baidu、Yahoo!、bing、sogou、soso等這些搜索引擎相對于主題“搜索引擎”來說就是權(quán)威網(wǎng)頁(authority),因為這些網(wǎng)頁會被大量的超鏈接指向。例如,百度對于主題“搜索引擎”和主題“湖南SEO”的重要程度是不同的。 HITS算法HITS算法是Web結(jié)構(gòu)挖掘中最具有權(quán)威性和使用最廣泛的算法。此外,此方法的最大優(yōu)勢在于整個操作過程都是在離線情況下完成,因此對在線的查詢過程所付出的所有額外的代價就不會產(chǎn)生了,是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得,有效減少在線查詢時的計算量,極大降低了查詢響應(yīng)時間
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1