freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁(yè)

2025-06-27 22:53本頁(yè)面
  

【正文】 中文顯示~$ vi /usr/local/ 編輯如下 Connector port=8080 protocol=HTTP/ connectionTimeout=20000 redirectPort=8443 URIEncoding=UTF8 useBodyEncodingForURI=true/7. 指定搜索結(jié)果存儲(chǔ)的目錄注意webapps/,替換war包時(shí)需要?jiǎng)h除此目錄:~$ vi $CATALINA_BASE/webapps/編輯如下 configuration property name/name value/home/liu//value /property /configuration8. 開(kāi)啟web服務(wù)$ run9. 通過(guò)網(wǎng)頁(yè)訪問(wèn)搜索結(jié)果打開(kāi)firefox,在地址欄輸入 :8080/ 添加中文分詞1. 修改jj源碼,生成支持詞索引的java文件~$ cd $~$ vim src/java/org/apache/nutch/analysis/做以下修改,以支持中文詞的搜索| SIGRAM: (CJK)+ 以下為生成java文件,并覆蓋原有文件~$ cd $~$ javacc OUTPUT_DIRECTORY=./ika/ ~$ mv ./ika/* ./ 。 rmdir ika。2. ~$vim $兩處加入ParseException(否則編譯時(shí)會(huì)報(bào)錯(cuò))public static Query parseQuery(String queryString, Configuration conf) throws IOException,ParseException { ……public static Query parseQuery(String queryString, Analyzer analyzer, Configuration conf) throws IOException,ParseException { ……3. 將下載好的IK分詞器的jar包復(fù)制到相應(yīng)目錄下~$ cp $4. 修改分詞調(diào)用函數(shù)~$ vim src/java/org/apache/nutch/analysis/調(diào)用IK分詞工具,修改tokenStream函數(shù)如下public TokenStream tokenStream(String fieldName, Reader reader) { Analyzer analyzer。 if (anchor.equals(fieldName)) analyzer = ANCHOR_ANALYZER。 else //analyzer = CONTENT_ANALYZER。 analyzer = new ()。 return (fieldName, reader)。}5. 編譯時(shí)加入IK的jar包,在lib/lib之間(約200行)加入:include name=/設(shè)置自動(dòng)編譯war包,之后無(wú)需再ant war修改target name=job depends=pile,改為target name=job depends=pile,war6. 編譯()~$ ant7. 設(shè)置tomcat與nutch接口(復(fù)制war文件到tomcat目錄)~$ rm /usr/local/–r目錄webapps/,替換war包時(shí)需要將其刪掉[22],新的war包才能生效~$cp /home/liu/$CATALINA_HOME/webapps/8. 重新生成索引$ bin/nutch crawl dir crawl depth 10 topN 100 threads 109. 重啟tomcat,然后關(guān)閉,終端輸入~$ run在網(wǎng)頁(yè)中搜索即可 系統(tǒng)測(cè)試啟動(dòng)之后的搜索頁(yè)面如圖42:圖42 搜索引擎主界面圖43和圖44是在本文所搭建的主題搜索引擎和百度搜索引擎中分別搜索所得到的結(jié)果,可以發(fā)現(xiàn)即便只抓取了網(wǎng)站的一小部分內(nèi)容,搜索結(jié)果仍然要比百度站內(nèi)搜索更加符合我們對(duì)新聞的需求。圖43 新聞主題搜索引擎圖44 百度站內(nèi)搜索 本章小結(jié)本章主要介紹了主題搜索引擎各組件及軟件的部署過(guò)程,同時(shí)展示了搜索引擎的運(yùn)行流程,然后運(yùn)行Crawl命令抓取網(wǎng)站內(nèi)容,屬于本主題的網(wǎng)頁(yè)保留下來(lái)并建立倒排索引,最后使用Tomcat進(jìn)行搜索測(cè)試和比較。第5章 總結(jié)與體會(huì)隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)信息的增長(zhǎng)也達(dá)到了驚人的速度,人們對(duì)網(wǎng)絡(luò)信息的獲取也有了新的要求,搜索引擎技術(shù)成為計(jì)算機(jī)業(yè)界爭(zhēng)相研究和開(kāi)發(fā)的對(duì)象。通用搜索引擎因其搜集海量信息為目標(biāo),難以滿(mǎn)足用戶(hù)對(duì)特定信息的查詢(xún)要求,主題式搜索成為研究熱點(diǎn)。本論文在分析了通用搜索引擎的弊端和主題搜索引擎的優(yōu)勢(shì)之后,詳細(xì)討論了主題搜索引擎中最重要的部分——主題爬蟲(chóng)的關(guān)鍵技術(shù)及算法,并在Nutch的基礎(chǔ)上通過(guò)修改抓取代碼實(shí)現(xiàn)了簡(jiǎn)單的主題搜索引擎。但是這樣的主題搜索引擎還存在著很多缺陷,受限于作者的知識(shí)水平,本次的設(shè)計(jì)的爬蟲(chóng)沒(méi)有有效的修改Nutch的解析代碼,并且基于URL的爬行策略缺乏普遍性。關(guān)于Nutch開(kāi)源項(xiàng)目的應(yīng)用的文章較少,且Nutch的研究還有待進(jìn)一步深入,希望更多的同行加入到這個(gè)研究隊(duì)伍中,使Web巨大的信息資源更好地為我們服務(wù),為我們使用Web帶來(lái)更大的便利。致謝四年的大學(xué)生活很快過(guò)去,在畢業(yè)論文完成之際,我衷心感謝在這四年里給我?guī)椭娜藗?。首先感謝我的導(dǎo)師林老師,林老師在我的學(xué)習(xí)和生活上都給了無(wú)微不至的關(guān)懷,給我創(chuàng)造了良好的學(xué)習(xí)環(huán)境。林老師深厚的科學(xué)功底、高度的責(zé)任感、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和孜孜不倦的敬業(yè)精神都使我終身難忘。在此謹(jǐn)向林老師表示崇高的敬意和最衷心的感謝。同時(shí)感謝我的各位同學(xué),他們是,他們?cè)谖易鲰?xiàng)目的過(guò)程中給了我很多建議和鼓勵(lì),使我受益匪淺。還要感謝互聯(lián)網(wǎng)各技術(shù)論壇中無(wú)私分享項(xiàng)目經(jīng)驗(yàn)的朋友們,他們對(duì)自己項(xiàng)目的分享以及為他人提供的解決方案是網(wǎng)民共享的寶貴財(cái)富。最后,我要感謝我的父母,是他們給我了物質(zhì)上的支持和精神上的幫助,使我能夠安心的學(xué)習(xí),順利完成學(xué)業(yè)。再次誠(chéng)摯的感謝所有支持我的老師、同學(xué)和家人!參考文獻(xiàn)[1] :現(xiàn)狀、問(wèn)題及對(duì)策[J].大學(xué)圖書(shū)館學(xué)報(bào),1998,16(6):4446,:[2] 邵秀麗,劉彬,[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(2):539542,548.[3] 趙德平,王延臣,[J].沈陽(yáng)建筑大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,28(3):555562.[4] 胡維華,[J].杭州電子科技大學(xué)學(xué)報(bào) ,2013,(6)::[10] 郭俊軍,孟繁疆,[J].農(nóng)機(jī)化研究 ,2014,(3)::[11] 王鐘斐,[J].計(jì)算機(jī)工程,2010,36(24)::[13] 趙鴻萍,[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(10):3842,66.[14] 郝光權(quán),[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2011,(4):137138.[15] [J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):30363040.[17] 王靜,劉偉峰,[J].信息系統(tǒng)工程,2014,(3):2931.[18] 張思發(fā),[J].計(jì)算機(jī)工程與應(yīng)用,2012,.[19] [D].北京郵電大學(xué),2010.[20] [D].杭州電子科技大學(xué),2011.[21] [D].云南大學(xué),2011.[22] [M].人民郵電出版社,2008.附錄:譯文:向上向外擴(kuò)展:關(guān)于研究Nutch/Lucene的互操作性摘要在過(guò)去幾年中,多處理系統(tǒng)提高運(yùn)行能力的解決方案一直困擾著主流的商業(yè)計(jì)算。主要的服務(wù)器供應(yīng)商繼續(xù)提供越來(lái)越強(qiáng)悍的機(jī)器,而近期,向外擴(kuò)展的解決方案,規(guī)模較小的機(jī)器集群的形式,更加被商業(yè)計(jì)算所接受。向外擴(kuò)展的解決方案是以網(wǎng)絡(luò)為中心高吞吐量的特別有效的應(yīng)用。在本文中,我們調(diào)查了向上擴(kuò)展和向外擴(kuò)展這兩種相對(duì)的方法在一個(gè)新興的搜索應(yīng)用程序中并行的情況。我們的結(jié)論表明,向外擴(kuò)展的策略即使在向上擴(kuò)展的機(jī)器中依然可以表現(xiàn)良好。此外,向外擴(kuò)展的解決方案提供更好的價(jià)格/性能比,雖然增加了管理的復(fù)雜性。1. 簡(jiǎn)介在過(guò)去10年里的商業(yè)計(jì)算中,我們目睹了計(jì)算機(jī)系統(tǒng)單處理器到多處理器的全面換代。80年代初期引發(fā)的計(jì)算機(jī)行業(yè)的科技革命導(dǎo)致它占領(lǐng)了90年代商業(yè)計(jì)算大部分的市場(chǎng)。我們可以根據(jù)不同的做法,將采用多處理器系統(tǒng)的運(yùn)算(包括商業(yè)和技術(shù)/科學(xué))分為兩個(gè)大組:?向上擴(kuò)展:大型共享存儲(chǔ)服務(wù)器的部署應(yīng)用(多處理系統(tǒng))。?向外擴(kuò)展:多個(gè)小型服務(wù)器應(yīng)用程序的部署(網(wǎng)絡(luò)集群)。在第一階段的商業(yè)計(jì)算革命中,向上擴(kuò)展的優(yōu)勢(shì)是顯而易見(jiàn)的。多處理系統(tǒng)規(guī)模的增加,處理器時(shí)鐘速率的提高,提供更高的計(jì)算能力來(lái)處理事物的需要,即使是目前最大的公司也面臨這些問(wèn)題. 對(duì)稱(chēng)多處理系統(tǒng)是目前的主流商業(yè)計(jì)算。IBM 、惠普和Sun這樣的公司每一代人都投入巨資以建設(shè)更大、更好多處理系統(tǒng)。最近,針對(duì)于商業(yè)計(jì)算的向外擴(kuò)展越來(lái)越被關(guān)注。對(duì)于許多新的以網(wǎng)絡(luò)產(chǎn)品為主的企業(yè)(例如谷歌、雅虎、eBay、亞馬遜),使用向外擴(kuò)展是是解決必要計(jì)算能力唯一的辦法。另外,計(jì)算機(jī)制造商更容易部署基于機(jī)架最佳化和刀片服務(wù)器的向外擴(kuò)展解決方案。向外擴(kuò)展在過(guò)去好多年一直是大規(guī)??茖W(xué)計(jì)算的唯一可行方案,我們可以觀察世界500強(qiáng)系統(tǒng)的發(fā)展。在此論文中,我們研究的是一個(gè)新興的商業(yè)應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)的檢索,根據(jù)兩個(gè)不同的系統(tǒng):一個(gè)是以向上擴(kuò)展為基礎(chǔ)的超線程酷睿POWER5處理器。另一種是基于IBM Blade Center刀片服務(wù)器向外擴(kuò)展系統(tǒng)。這兩個(gè)系統(tǒng)配置價(jià)格差不多(約20萬(wàn)美元),從而可以公平的進(jìn)行性?xún)r(jià)比的比較。其中一個(gè)重要的結(jié)論,我們的工作是一個(gè)“純粹”的向上擴(kuò)展的方案而不是很有效的利用所有的處理器在一個(gè)大型的對(duì)稱(chēng)多處理。在純粹的向上擴(kuò)展中,我們只有一個(gè)實(shí)例運(yùn)行的應(yīng)用程序中的SMP,并使用該實(shí)例的所有可用資源(處理器)。我們更擅長(zhǎng)于開(kāi)發(fā)Power5的對(duì)稱(chēng)多處理與“基于abox向外擴(kuò)展”的方案。在這種情況下,多個(gè)實(shí)例方法同時(shí)運(yùn)行在一個(gè)單操作系統(tǒng)下。后一種做法顯著提高性能,同時(shí)又能保持單一系統(tǒng)形象,是一個(gè)很具優(yōu)勢(shì)的對(duì)稱(chēng)多處理系統(tǒng)。我們的另外一個(gè)結(jié)論是,同樣的價(jià)格尺度系統(tǒng)的情況下,向外擴(kuò)展的系統(tǒng)能夠?qū)崿F(xiàn)4倍的性能。在我們的應(yīng)用案例中,這一業(yè)績(jī)的衡量精確到了秒。向外擴(kuò)展系統(tǒng)需要使用多個(gè)系統(tǒng)的圖像,因此,可以有效方便的降低管理成本。不同情況下,這點(diǎn)或許能改善性能。其余部分本文安排如下:Section 2敘述了向上擴(kuò)展系統(tǒng)和向外擴(kuò)展系統(tǒng)榮在我們的研究中的配置。第3節(jié)介紹了Nutch/Lucene在我們的系統(tǒng)中運(yùn)行的工作量。第4節(jié)介紹我們的結(jié)論。2. 向上和向外擴(kuò)展系統(tǒng)在IBM的產(chǎn)品線,系統(tǒng)z,p和i全部建立在具有跨度范圍廣泛的計(jì)算能力的多處理系統(tǒng)上。我們選擇了Power5的p5 575機(jī)器作為代表著目前技術(shù)水平的系統(tǒng)。這個(gè)8位或16位系統(tǒng)已經(jīng)由于其低成本,高性能,小型化()已經(jīng)吸引了不少客戶(hù)。POWER5的p5575圖片如圖1。我們所用的特殊p5 575測(cè)試系統(tǒng)擁有16個(gè)8位酷睿單元和32GB(1G= 1,073 , 741824字節(jié))的主存。每個(gè)核心是雙線程,因此這個(gè)操作系統(tǒng)相當(dāng)于一個(gè)32位的SMP。另外,p5 575connects有兩個(gè)Gigabit/s以太網(wǎng)接口。它也有自己的專(zhuān)用DS4100存儲(chǔ)控制器。(見(jiàn)下面的說(shuō)明DS4100)向外擴(kuò)展系統(tǒng)有許多不同的形狀和形式,但它們一般包括多個(gè)相互關(guān)聯(lián)的節(jié)點(diǎn),每一個(gè)節(jié)點(diǎn)代表一個(gè)獨(dú)立的操作系統(tǒng)。我們選擇的BladeCenter作為我們的向外擴(kuò)展平臺(tái)。這是這個(gè)平臺(tái)基于向外擴(kuò)展方向的一個(gè)自然選擇。第一種在商業(yè)計(jì)算成為流行的向外擴(kuò)展系統(tǒng)是機(jī)架式集群。IBM BladeCenter,解決方案(和類(lèi)似的系統(tǒng)公司,如惠普和戴爾)引領(lǐng)著下一步機(jī)架式集群向外擴(kuò)展系統(tǒng)的商業(yè)計(jì)算。BladeCenter的刀片服務(wù)器使用和機(jī)架式集群服務(wù)器相似的能力: 4處理器的配置, 1632培養(yǎng)基的最大內(nèi)存,內(nèi)置以太網(wǎng),并擴(kuò)展卡兩種光纖通道,Infiniband的, Myrinet的,或10Gbit/s以太網(wǎng)。同時(shí)還提供有多達(dá)8個(gè)處理器的雙寬葉片配置和額外的內(nèi)存。BladeCenterH是最新的IBM BladeCenter機(jī)架。與之前的BladeCenter – 1機(jī)架相比,它有14個(gè)刀片插槽的刀片服務(wù)器。它也有多達(dá)兩個(gè)管理單元, 4個(gè)交換機(jī)模塊,四橋模塊和四個(gè)高速交換機(jī)模塊的空間。(在機(jī)架上交換機(jī)模塊3與4和橋梁模塊3與4均共享相同的插槽。)我們?cè)诿總€(gè)機(jī)架配備兩個(gè)1Gbit/s以太網(wǎng)交換機(jī)模塊和2個(gè)光纖通道交換機(jī)模塊。三種不同葉片中使用了我們的集群:JS21( PowerPC處理器),HS21 (英特爾Woodcrest處理器)和LS21( AMD Opteron處理器)。每一個(gè)刀片(JS21, HS21,或LS21)既有本地磁盤(pán)驅(qū)動(dòng)器(73 GB的容量)也有雙光纖通道的網(wǎng)絡(luò)適配器。在光纖通道適配器,兩個(gè)用于連接的刀片光纖通道交換機(jī),都被插入機(jī)架。大約一半的集群(4底盤(pán))組成JS21刀片。這是四處理器(雙插槽,雙核心)的PowerPC 970片, GHz。每一個(gè)刀片有8GiB的內(nèi)存。在本文中的結(jié)論報(bào)告中,我們著重關(guān)注這些JS21刀片。DS4100存儲(chǔ)子系統(tǒng)包括雙存儲(chǔ)控制器,每一個(gè)都配有2Gb/s的光纖通道接口,并且在主要抽屜中容納了14個(gè)SATA驅(qū)動(dòng)器。盡管每個(gè)DS4100是搭配一個(gè)專(zhuān)門(mén)的BladeCenterH機(jī)架,但由于我們運(yùn)行的光纖通道網(wǎng)絡(luò),集群中的任何刀片都可以可以查看到存儲(chǔ)系統(tǒng)的每個(gè)邏輯單元。3. Nutch/Lucene的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1