freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于nutch的新聞主題搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文-資料下載頁

2025-06-27 22:53本頁面
  

【正文】 中文顯示~$ vi /usr/local/ 編輯如下 Connector port=8080 protocol=HTTP/ connectionTimeout=20000 redirectPort=8443 URIEncoding=UTF8 useBodyEncodingForURI=true/7. 指定搜索結(jié)果存儲的目錄注意webapps/,替換war包時需要刪除此目錄:~$ vi $CATALINA_BASE/webapps/編輯如下 configuration property name/name value/home/liu//value /property /configuration8. 開啟web服務(wù)$ run9. 通過網(wǎng)頁訪問搜索結(jié)果打開firefox,在地址欄輸入 :8080/ 添加中文分詞1. 修改jj源碼,生成支持詞索引的java文件~$ cd $~$ vim src/java/org/apache/nutch/analysis/做以下修改,以支持中文詞的搜索| SIGRAM: (CJK)+ 以下為生成java文件,并覆蓋原有文件~$ cd $~$ javacc OUTPUT_DIRECTORY=./ika/ ~$ mv ./ika/* ./ 。 rmdir ika。2. ~$vim $兩處加入ParseException(否則編譯時會報錯)public static Query parseQuery(String queryString, Configuration conf) throws IOException,ParseException { ……public static Query parseQuery(String queryString, Analyzer analyzer, Configuration conf) throws IOException,ParseException { ……3. 將下載好的IK分詞器的jar包復制到相應(yīng)目錄下~$ cp $4. 修改分詞調(diào)用函數(shù)~$ vim src/java/org/apache/nutch/analysis/調(diào)用IK分詞工具,修改tokenStream函數(shù)如下public TokenStream tokenStream(String fieldName, Reader reader) { Analyzer analyzer。 if (anchor.equals(fieldName)) analyzer = ANCHOR_ANALYZER。 else //analyzer = CONTENT_ANALYZER。 analyzer = new ()。 return (fieldName, reader)。}5. 編譯時加入IK的jar包,在lib/lib之間(約200行)加入:include name=/設(shè)置自動編譯war包,之后無需再ant war修改target name=job depends=pile,改為target name=job depends=pile,war6. 編譯()~$ ant7. 設(shè)置tomcat與nutch接口(復制war文件到tomcat目錄)~$ rm /usr/local/–r目錄webapps/,替換war包時需要將其刪掉[22],新的war包才能生效~$cp /home/liu/$CATALINA_HOME/webapps/8. 重新生成索引$ bin/nutch crawl dir crawl depth 10 topN 100 threads 109. 重啟tomcat,然后關(guān)閉,終端輸入~$ run在網(wǎng)頁中搜索即可 系統(tǒng)測試啟動之后的搜索頁面如圖42:圖42 搜索引擎主界面圖43和圖44是在本文所搭建的主題搜索引擎和百度搜索引擎中分別搜索所得到的結(jié)果,可以發(fā)現(xiàn)即便只抓取了網(wǎng)站的一小部分內(nèi)容,搜索結(jié)果仍然要比百度站內(nèi)搜索更加符合我們對新聞的需求。圖43 新聞主題搜索引擎圖44 百度站內(nèi)搜索 本章小結(jié)本章主要介紹了主題搜索引擎各組件及軟件的部署過程,同時展示了搜索引擎的運行流程,然后運行Crawl命令抓取網(wǎng)站內(nèi)容,屬于本主題的網(wǎng)頁保留下來并建立倒排索引,最后使用Tomcat進行搜索測試和比較。第5章 總結(jié)與體會隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)信息的增長也達到了驚人的速度,人們對網(wǎng)絡(luò)信息的獲取也有了新的要求,搜索引擎技術(shù)成為計算機業(yè)界爭相研究和開發(fā)的對象。通用搜索引擎因其搜集海量信息為目標,難以滿足用戶對特定信息的查詢要求,主題式搜索成為研究熱點。本論文在分析了通用搜索引擎的弊端和主題搜索引擎的優(yōu)勢之后,詳細討論了主題搜索引擎中最重要的部分——主題爬蟲的關(guān)鍵技術(shù)及算法,并在Nutch的基礎(chǔ)上通過修改抓取代碼實現(xiàn)了簡單的主題搜索引擎。但是這樣的主題搜索引擎還存在著很多缺陷,受限于作者的知識水平,本次的設(shè)計的爬蟲沒有有效的修改Nutch的解析代碼,并且基于URL的爬行策略缺乏普遍性。關(guān)于Nutch開源項目的應(yīng)用的文章較少,且Nutch的研究還有待進一步深入,希望更多的同行加入到這個研究隊伍中,使Web巨大的信息資源更好地為我們服務(wù),為我們使用Web帶來更大的便利。致謝四年的大學生活很快過去,在畢業(yè)論文完成之際,我衷心感謝在這四年里給我?guī)椭娜藗儭J紫雀兄x我的導師林老師,林老師在我的學習和生活上都給了無微不至的關(guān)懷,給我創(chuàng)造了良好的學習環(huán)境。林老師深厚的科學功底、高度的責任感、嚴謹?shù)闹螌W態(tài)度和孜孜不倦的敬業(yè)精神都使我終身難忘。在此謹向林老師表示崇高的敬意和最衷心的感謝。同時感謝我的各位同學,他們是,他們在我做項目的過程中給了我很多建議和鼓勵,使我受益匪淺。還要感謝互聯(lián)網(wǎng)各技術(shù)論壇中無私分享項目經(jīng)驗的朋友們,他們對自己項目的分享以及為他人提供的解決方案是網(wǎng)民共享的寶貴財富。最后,我要感謝我的父母,是他們給我了物質(zhì)上的支持和精神上的幫助,使我能夠安心的學習,順利完成學業(yè)。再次誠摯的感謝所有支持我的老師、同學和家人!參考文獻[1] :現(xiàn)狀、問題及對策[J].大學圖書館學報,1998,16(6):4446,:[2] 邵秀麗,劉彬,[J].計算機工程與設(shè)計,2011,32(2):539542,548.[3] 趙德平,王延臣,[J].沈陽建筑大學學報(自然科學版),2012,28(3):555562.[4] 胡維華,[J].杭州電子科技大學學報 ,2013,(6)::[10] 郭俊軍,孟繁疆,[J].農(nóng)機化研究 ,2014,(3)::[11] 王鐘斐,[J].計算機工程,2010,36(24)::[13] 趙鴻萍,[J].醫(yī)學信息學雜志,2013,34(10):3842,66.[14] 郝光權(quán),[J].計算機光盤軟件與應(yīng)用,2011,(4):137138.[15] [J].計算機工程與設(shè)計,2011,32(9):30363040.[17] 王靜,劉偉峰,[J].信息系統(tǒng)工程,2014,(3):2931.[18] 張思發(fā),[J].計算機工程與應(yīng)用,2012,.[19] [D].北京郵電大學,2010.[20] [D].杭州電子科技大學,2011.[21] [D].云南大學,2011.[22] [M].人民郵電出版社,2008.附錄:譯文:向上向外擴展:關(guān)于研究Nutch/Lucene的互操作性摘要在過去幾年中,多處理系統(tǒng)提高運行能力的解決方案一直困擾著主流的商業(yè)計算。主要的服務(wù)器供應(yīng)商繼續(xù)提供越來越強悍的機器,而近期,向外擴展的解決方案,規(guī)模較小的機器集群的形式,更加被商業(yè)計算所接受。向外擴展的解決方案是以網(wǎng)絡(luò)為中心高吞吐量的特別有效的應(yīng)用。在本文中,我們調(diào)查了向上擴展和向外擴展這兩種相對的方法在一個新興的搜索應(yīng)用程序中并行的情況。我們的結(jié)論表明,向外擴展的策略即使在向上擴展的機器中依然可以表現(xiàn)良好。此外,向外擴展的解決方案提供更好的價格/性能比,雖然增加了管理的復雜性。1. 簡介在過去10年里的商業(yè)計算中,我們目睹了計算機系統(tǒng)單處理器到多處理器的全面換代。80年代初期引發(fā)的計算機行業(yè)的科技革命導致它占領(lǐng)了90年代商業(yè)計算大部分的市場。我們可以根據(jù)不同的做法,將采用多處理器系統(tǒng)的運算(包括商業(yè)和技術(shù)/科學)分為兩個大組:?向上擴展:大型共享存儲服務(wù)器的部署應(yīng)用(多處理系統(tǒng))。?向外擴展:多個小型服務(wù)器應(yīng)用程序的部署(網(wǎng)絡(luò)集群)。在第一階段的商業(yè)計算革命中,向上擴展的優(yōu)勢是顯而易見的。多處理系統(tǒng)規(guī)模的增加,處理器時鐘速率的提高,提供更高的計算能力來處理事物的需要,即使是目前最大的公司也面臨這些問題. 對稱多處理系統(tǒng)是目前的主流商業(yè)計算。IBM 、惠普和Sun這樣的公司每一代人都投入巨資以建設(shè)更大、更好多處理系統(tǒng)。最近,針對于商業(yè)計算的向外擴展越來越被關(guān)注。對于許多新的以網(wǎng)絡(luò)產(chǎn)品為主的企業(yè)(例如谷歌、雅虎、eBay、亞馬遜),使用向外擴展是是解決必要計算能力唯一的辦法。另外,計算機制造商更容易部署基于機架最佳化和刀片服務(wù)器的向外擴展解決方案。向外擴展在過去好多年一直是大規(guī)模科學計算的唯一可行方案,我們可以觀察世界500強系統(tǒng)的發(fā)展。在此論文中,我們研究的是一個新興的商業(yè)應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)的檢索,根據(jù)兩個不同的系統(tǒng):一個是以向上擴展為基礎(chǔ)的超線程酷睿POWER5處理器。另一種是基于IBM Blade Center刀片服務(wù)器向外擴展系統(tǒng)。這兩個系統(tǒng)配置價格差不多(約20萬美元),從而可以公平的進行性價比的比較。其中一個重要的結(jié)論,我們的工作是一個“純粹”的向上擴展的方案而不是很有效的利用所有的處理器在一個大型的對稱多處理。在純粹的向上擴展中,我們只有一個實例運行的應(yīng)用程序中的SMP,并使用該實例的所有可用資源(處理器)。我們更擅長于開發(fā)Power5的對稱多處理與“基于abox向外擴展”的方案。在這種情況下,多個實例方法同時運行在一個單操作系統(tǒng)下。后一種做法顯著提高性能,同時又能保持單一系統(tǒng)形象,是一個很具優(yōu)勢的對稱多處理系統(tǒng)。我們的另外一個結(jié)論是,同樣的價格尺度系統(tǒng)的情況下,向外擴展的系統(tǒng)能夠?qū)崿F(xiàn)4倍的性能。在我們的應(yīng)用案例中,這一業(yè)績的衡量精確到了秒。向外擴展系統(tǒng)需要使用多個系統(tǒng)的圖像,因此,可以有效方便的降低管理成本。不同情況下,這點或許能改善性能。其余部分本文安排如下:Section 2敘述了向上擴展系統(tǒng)和向外擴展系統(tǒng)榮在我們的研究中的配置。第3節(jié)介紹了Nutch/Lucene在我們的系統(tǒng)中運行的工作量。第4節(jié)介紹我們的結(jié)論。2. 向上和向外擴展系統(tǒng)在IBM的產(chǎn)品線,系統(tǒng)z,p和i全部建立在具有跨度范圍廣泛的計算能力的多處理系統(tǒng)上。我們選擇了Power5的p5 575機器作為代表著目前技術(shù)水平的系統(tǒng)。這個8位或16位系統(tǒng)已經(jīng)由于其低成本,高性能,小型化()已經(jīng)吸引了不少客戶。POWER5的p5575圖片如圖1。我們所用的特殊p5 575測試系統(tǒng)擁有16個8位酷睿單元和32GB(1G= 1,073 , 741824字節(jié))的主存。每個核心是雙線程,因此這個操作系統(tǒng)相當于一個32位的SMP。另外,p5 575connects有兩個Gigabit/s以太網(wǎng)接口。它也有自己的專用DS4100存儲控制器。(見下面的說明DS4100)向外擴展系統(tǒng)有許多不同的形狀和形式,但它們一般包括多個相互關(guān)聯(lián)的節(jié)點,每一個節(jié)點代表一個獨立的操作系統(tǒng)。我們選擇的BladeCenter作為我們的向外擴展平臺。這是這個平臺基于向外擴展方向的一個自然選擇。第一種在商業(yè)計算成為流行的向外擴展系統(tǒng)是機架式集群。IBM BladeCenter,解決方案(和類似的系統(tǒng)公司,如惠普和戴爾)引領(lǐng)著下一步機架式集群向外擴展系統(tǒng)的商業(yè)計算。BladeCenter的刀片服務(wù)器使用和機架式集群服務(wù)器相似的能力: 4處理器的配置, 1632培養(yǎng)基的最大內(nèi)存,內(nèi)置以太網(wǎng),并擴展卡兩種光纖通道,Infiniband的, Myrinet的,或10Gbit/s以太網(wǎng)。同時還提供有多達8個處理器的雙寬葉片配置和額外的內(nèi)存。BladeCenterH是最新的IBM BladeCenter機架。與之前的BladeCenter – 1機架相比,它有14個刀片插槽的刀片服務(wù)器。它也有多達兩個管理單元, 4個交換機模塊,四橋模塊和四個高速交換機模塊的空間。(在機架上交換機模塊3與4和橋梁模塊3與4均共享相同的插槽。)我們在每個機架配備兩個1Gbit/s以太網(wǎng)交換機模塊和2個光纖通道交換機模塊。三種不同葉片中使用了我們的集群:JS21( PowerPC處理器),HS21 (英特爾Woodcrest處理器)和LS21( AMD Opteron處理器)。每一個刀片(JS21, HS21,或LS21)既有本地磁盤驅(qū)動器(73 GB的容量)也有雙光纖通道的網(wǎng)絡(luò)適配器。在光纖通道適配器,兩個用于連接的刀片光纖通道交換機,都被插入機架。大約一半的集群(4底盤)組成JS21刀片。這是四處理器(雙插槽,雙核心)的PowerPC 970片, GHz。每一個刀片有8GiB的內(nèi)存。在本文中的結(jié)論報告中,我們著重關(guān)注這些JS21刀片。DS4100存儲子系統(tǒng)包括雙存儲控制器,每一個都配有2Gb/s的光纖通道接口,并且在主要抽屜中容納了14個SATA驅(qū)動器。盡管每個DS4100是搭配一個專門的BladeCenterH機架,但由于我們運行的光纖通道網(wǎng)絡(luò),集群中的任何刀片都可以可以查看到存儲系統(tǒng)的每個邏輯單元。3. Nutch/Lucene的
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1