freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(更新版)

  

【正文】 ............................................................ 64 第七章 總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻(xiàn) .................................................... 67 致 謝 ...................................................... 69 江蘇大學(xué)碩士研究生畢業(yè)論文 1 第 一 章 緒論 課題研究背景及意義 隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展, Web信息爆炸性的增長(zhǎng),互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的海量信息空間。 (3) 研究 基于 Hadoop 平臺(tái)的教育資源搜索系統(tǒng)所采用的關(guān)鍵技術(shù),包括聚焦蜘蛛的爬行技術(shù)、網(wǎng)頁(yè)信息結(jié)構(gòu)化提取技術(shù)、遠(yuǎn)程過(guò)程調(diào)用 (RPC)技術(shù)、基于Hadoop 的 Map/Reduce 技術(shù)和基于 Hadoop 的負(fù)載均衡技術(shù)。 涉密論文按學(xué)校規(guī)定處理。對(duì)本研究提供過(guò)幫助和做出過(guò)貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的說(shuō)明并表示了謝意。本人授權(quán)江蘇大學(xué)可以將本學(xué)位論文的全部?jī)?nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。 所以我們必須研究和設(shè)計(jì)出針對(duì)教育資源搜索的網(wǎng)絡(luò)平臺(tái),以提高用戶獲取教育資源信息的速度和準(zhǔn)確度。 關(guān)鍵詞 : 垂直搜索引擎 ; Hadoop; 網(wǎng)頁(yè)信息抽取 ; 抽取規(guī)則 ; 索引庫(kù) 江蘇大學(xué)碩士研究生畢業(yè)論文 III Abstract The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of inter. However, there’s still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently. On the basis of paring the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focusedspider creeping technology, this dissertation presents a new model of Multitier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects: 1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core ponents of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major ponent of Hadoop. This thesis also uses several sections to describe the Hbase’s date structure model design and the query improvements. 2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel pute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security. 3. The key technologies that MDVSP has been used includes focusedspider creeping technology, structured web information extraction technology, remote 江蘇大學(xué)碩士研究生畢業(yè)論文 IV procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop. 4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation acplishes the design of the Prototype System of MDisem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and pared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability. Keywords Vertical。大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表,為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。 3. 傾向簡(jiǎn)單的檢索方式 [2] 大多數(shù)人通常使用關(guān)鍵詞查詢,一部分人使用諸如“ +( and)”、“ ( or)”等檢索技巧,使用高級(jí)檢索的人很少,用合適的關(guān)鍵詞檢索是被所有用戶認(rèn)為是比較容易的,所有用戶都傾向于簡(jiǎn)單易用的檢索方式。網(wǎng)上資源內(nèi)容廣泛 ,通用搜索引擎返回的大量信息過(guò)多過(guò)雜 ,專業(yè)性不強(qiáng) .使用戶淹沒(méi)在海量信息里,篩選信息需要耗費(fèi)大量的精力。 (2) 闡述了 MDVSP 中應(yīng)用的關(guān)鍵技術(shù),包括聚焦蜘蛛的原理和爬行算法。 本文的組織結(jié) 構(gòu) 本論文共分為 七 章,各章內(nèi)容具體安排如下: 第一章 緒論。對(duì) MDVSP系統(tǒng)進(jìn)行了邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。 對(duì)本文的工作進(jìn)行總結(jié),并從系統(tǒng)功能和理論研究?jī)蓚€(gè)方面對(duì)以后的工作進(jìn)行規(guī)劃和展望。 Hadoop假設(shè)計(jì)算元素和存儲(chǔ)會(huì)出現(xiàn)故障,因?yàn)樗S護(hù)多個(gè)工作數(shù)據(jù)副本,在出現(xiàn)故障時(shí)可以對(duì)失敗的節(jié)點(diǎn)重新分布處理。 江蘇大學(xué)碩士研究生畢業(yè)論文 6 Hadoop 組件 Hadoop是一個(gè)分布式計(jì)算基礎(chǔ)架構(gòu)這把 大傘 下的相關(guān)子項(xiàng)目的集合,其中最出名的是 MapReduce及其分布式文件系統(tǒng) HDFS,還有其他子項(xiàng)目提供配套服務(wù) .如下 : 表 Hadoop組件 Pig Chukwa Hive HBase MapReduce HDFS Zoo Keeper Core Avro ? Core: 一系列分布式文件系統(tǒng)和通用 I/O 的組件和 接口 (序列化、 Java RPC 和持久化數(shù)據(jù)結(jié)構(gòu)。 ? ZooKeeper: 一個(gè)分布式的、高可用性的協(xié)調(diào)服務(wù)。為了更好的應(yīng)用 Hadoop平臺(tái)框架,對(duì) MDVSP系統(tǒng)中設(shè)計(jì)到的組件進(jìn)行剖析。這就導(dǎo)致了搜索引擎市場(chǎng)上出現(xiàn)了這樣的趨勢(shì) 。在一定程度上解決了教學(xué)資源的資源共享 [12]。 這能緩解教學(xué)資源不平等的現(xiàn)象。 江蘇大學(xué)碩士研究生畢業(yè)論文 11 5. 需要 能提供上傳資源的功能。圖 是 HDFS的體系結(jié)構(gòu) 。 HDFS 暴露文件命名空間和允許用戶數(shù)據(jù)存儲(chǔ)成文件。體系結(jié)構(gòu)排斥在一個(gè)機(jī)器上運(yùn)行多個(gè)數(shù)據(jù)節(jié)點(diǎn)的實(shí)例,但是實(shí)際的部署不會(huì)有這種情況。 PC 機(jī)上一般是 GUN/ Linux 操作系統(tǒng), HDFS 是用 Java 來(lái)寫的,任何支持 Java 的機(jī)器都可以運(yùn)行名字節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn),利用 Java 語(yǔ)言的超輕便型,很容易將 HDFS 部署到大范圍的機(jī)群上 [1617]。心跳包的接收表示該 Datanode節(jié)點(diǎn)正常工作,而Blockreport包括了該 Datanode上所有的 block組成的列表。這個(gè)簡(jiǎn)單策略設(shè)置可以將副本分布在集群中,有利于組件失敗情況下的負(fù)載均衡。 SafeMode Namenode啟動(dòng)后會(huì)進(jìn)入一個(gè) 稱為 SafeMode的特殊狀態(tài),處在這個(gè)狀態(tài)的Namenode是不會(huì)進(jìn)行數(shù)據(jù)塊的復(fù)制的。 HDFS典型的塊大小是 64M,一個(gè) HDFS文件可以最多被切分成 128MB個(gè)塊,每一個(gè)塊分布在不同的數(shù)據(jù)節(jié)點(diǎn)上。假如名字節(jié)點(diǎn)在文件關(guān)閉之前死掉,文件就會(huì)丟失 [182]。 Namenode將文件名插入文件系統(tǒng)的層次結(jié)構(gòu)中,并且分配一個(gè)數(shù)據(jù)塊給它,然后返回 Datanode的標(biāo)識(shí) 符和目標(biāo)數(shù)據(jù)塊給客戶端。然后客戶端開始向第一個(gè) Datanode傳輸數(shù)據(jù),第一個(gè)Datanode一小部分一小部分( 4kb)地接收數(shù)據(jù),將每個(gè)部分寫入本地倉(cāng)庫(kù),并且同時(shí)傳輸該部分到第二個(gè) Datanode節(jié)點(diǎn)。然后 Map任務(wù)會(huì)使用從指定的 lnputFormat類獲得的 ReeordReader類來(lái)讀取它的 FileSplit屬性。每個(gè)輸出文件對(duì)應(yīng)一個(gè)規(guī)約任務(wù),所有 Map對(duì)象的輸出鍵值對(duì)都會(huì)被路由以保證每一個(gè)給定的索引鍵的所有鍵值對(duì)會(huì)最終出現(xiàn)在指定的一個(gè) Reduce任務(wù)中。 一旦本地?cái)?shù)據(jù)準(zhǔn)備就緒所有的數(shù)據(jù)都會(huì)以追加到文件最后。 2. 指派 Map/Reduce 任務(wù) 在眾多程序拷貝中有一個(gè)管理機(jī) (master)的主程序,其他的均為工作站(worker)程序,工作站程序有管理機(jī)指派任務(wù)。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內(nèi)存,就啟用外部存儲(chǔ)。 表示層:表示層用于生成用戶訪問(wèn)的 Web 頁(yè)面,該層是用來(lái)實(shí)現(xiàn)系統(tǒng)與用戶的一個(gè)人機(jī)接口。 圖 數(shù)據(jù)處理模型框架 江蘇大學(xué)碩士研究生畢業(yè)論文 21 數(shù)據(jù)處理模型中所有的業(yè)務(wù)計(jì)算都在 Hadoop 平臺(tái)上,利用 Map/Reduce 技術(shù)計(jì)算,查詢用戶數(shù)據(jù)、更新聚焦爬蟲數(shù)據(jù)。但是 Hbase 在大規(guī)模數(shù)江蘇大學(xué)碩士研究生畢業(yè)論文 22 據(jù) (TB 級(jí) )的存儲(chǔ)和處理方面上有獨(dú)特的優(yōu)勢(shì)。 Type:爬行數(shù)據(jù)的類型,這個(gè)決定了后臺(tái)服務(wù)器如何處理爬行到的原始數(shù)據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1