正文內(nèi)容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(更新版)

2025-09-04 20:21上一頁面

下一頁面

　　

【正文】 ............................................................ 64 第七章總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻 .................................................... 67 致謝 ...................................................... 69 江蘇大學碩士研究生畢業(yè)論文 1 第一章緒論課題研究背景及意義隨著網(wǎng)絡與通信技術(shù)的迅速發(fā)展， Web信息爆炸性的增長，互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間。 (3) 研究基于 Hadoop 平臺的教育資源搜索系統(tǒng)所采用的關(guān)鍵技術(shù)，包括聚焦蜘蛛的爬行技術(shù)、網(wǎng)頁信息結(jié)構(gòu)化提取技術(shù)、遠程過程調(diào)用 (RPC)技術(shù)、基于Hadoop 的 Map/Reduce 技術(shù)和基于 Hadoop 的負載均衡技術(shù)。涉密論文按學校規(guī)定處理。對本研究提供過幫助和做出過貢獻的個人或集體，均已在文中作了明確的說明并表示了謝意。本人授權(quán)江蘇大學可以將本學位論文的全部內(nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索，可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。除了文中特別加以標注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。所以我們必須研究和設計出針對教育資源搜索的網(wǎng)絡平臺，以提高用戶獲取教育資源信息的速度和準確度。關(guān)鍵詞：垂直搜索引擎； Hadoop；網(wǎng)頁信息抽取；抽取規(guī)則；索引庫江蘇大學碩士研究生畢業(yè)論文 III Abstract The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of inter. However, there’s still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently. On the basis of paring the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focusedspider creeping technology, this dissertation presents a new model of Multitier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects: 1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core ponents of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major ponent of Hadoop. This thesis also uses several sections to describe the Hbase’s date structure model design and the query improvements. 2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel pute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security. 3. The key technologies that MDVSP has been used includes focusedspider creeping technology, structured web information extraction technology, remote 江蘇大學碩士研究生畢業(yè)論文 IV procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop. 4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation acplishes the design of the Prototype System of MDisem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and pared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability. Keywords Vertical。大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表，為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻。 3. 傾向簡單的檢索方式 [2] 大多數(shù)人通常使用關(guān)鍵詞查詢，一部分人使用諸如“ +（ and）”、“ （ or）”等檢索技巧，使用高級檢索的人很少，用合適的關(guān)鍵詞檢索是被所有用戶認為是比較容易的，所有用戶都傾向于簡單易用的檢索方式。網(wǎng)上資源內(nèi)容廣泛 ,通用搜索引擎返回的大量信息過多過雜 ,專業(yè)性不強 .使用戶淹沒在海量信息里，篩選信息需要耗費大量的精力。 (2) 闡述了 MDVSP 中應用的關(guān)鍵技術(shù)，包括聚焦蜘蛛的原理和爬行算法。本文的組織結(jié) 構(gòu) 本論文共分為七章，各章內(nèi)容具體安排如下：第一章緒論。對 MDVSP系統(tǒng)進行了邏輯結(jié)構(gòu)設計和物理結(jié)構(gòu)設計。對本文的工作進行總結(jié)，并從系統(tǒng)功能和理論研究兩個方面對以后的工作進行規(guī)劃和展望。 Hadoop假設計算元素和存儲會出現(xiàn)故障，因為它維護多個工作數(shù)據(jù)副本，在出現(xiàn)故障時可以對失敗的節(jié)點重新分布處理。江蘇大學碩士研究生畢業(yè)論文 6 Hadoop 組件 Hadoop是一個分布式計算基礎架構(gòu)這把大傘下的相關(guān)子項目的集合，其中最出名的是 MapReduce及其分布式文件系統(tǒng) HDFS,還有其他子項目提供配套服務 .如下 : 表 Hadoop組件 Pig Chukwa Hive HBase MapReduce HDFS Zoo Keeper Core Avro ? Core: 一系列分布式文件系統(tǒng)和通用 I/O 的組件和接口 (序列化、 Java RPC 和持久化數(shù)據(jù)結(jié)構(gòu)。 ? ZooKeeper: 一個分布式的、高可用性的協(xié)調(diào)服務。為了更好的應用 Hadoop平臺框架，對 MDVSP系統(tǒng)中設計到的組件進行剖析。這就導致了搜索引擎市場上出現(xiàn)了這樣的趨勢。在一定程度上解決了教學資源的資源共享 [12]。這能緩解教學資源不平等的現(xiàn)象。江蘇大學碩士研究生畢業(yè)論文 11 5. 需要能提供上傳資源的功能。圖是 HDFS的體系結(jié)構(gòu) 。 HDFS 暴露文件命名空間和允許用戶數(shù)據(jù)存儲成文件。體系結(jié)構(gòu)排斥在一個機器上運行多個數(shù)據(jù)節(jié)點的實例，但是實際的部署不會有這種情況。 PC 機上一般是 GUN／ Linux 操作系統(tǒng)， HDFS 是用 Java 來寫的，任何支持 Java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點，利用 Java 語言的超輕便型，很容易將 HDFS 部署到大范圍的機群上 [1617]。心跳包的接收表示該 Datanode節(jié)點正常工作，而Blockreport包括了該 Datanode上所有的 block組成的列表。這個簡單策略設置可以將副本分布在集群中，有利于組件失敗情況下的負載均衡。 SafeMode Namenode啟動后會進入一個稱為 SafeMode的特殊狀態(tài)，處在這個狀態(tài)的Namenode是不會進行數(shù)據(jù)塊的復制的。 HDFS典型的塊大小是 64M，一個 HDFS文件可以最多被切分成 128MB個塊，每一個塊分布在不同的數(shù)據(jù)節(jié)點上。假如名字節(jié)點在文件關(guān)閉之前死掉，文件就會丟失 [182]。 Namenode將文件名插入文件系統(tǒng)的層次結(jié)構(gòu)中，并且分配一個數(shù)據(jù)塊給它，然后返回 Datanode的標識符和目標數(shù)據(jù)塊給客戶端。然后客戶端開始向第一個 Datanode傳輸數(shù)據(jù)，第一個Datanode一小部分一小部分（ 4kb)地接收數(shù)據(jù)，將每個部分寫入本地倉庫，并且同時傳輸該部分到第二個 Datanode節(jié)點。然后 Map任務會使用從指定的 lnputFormat類獲得的 ReeordReader類來讀取它的 FileSplit屬性。每個輸出文件對應一個規(guī)約任務，所有 Map對象的輸出鍵值對都會被路由以保證每一個給定的索引鍵的所有鍵值對會最終出現(xiàn)在指定的一個 Reduce任務中。一旦本地數(shù)據(jù)準備就緒所有的數(shù)據(jù)都會以追加到文件最后。 2. 指派 Map/Reduce 任務在眾多程序拷貝中有一個管理機 (master)的主程序，其他的均為工作站(worker)程序，工作站程序有管理機指派任務。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內(nèi)存，就啟用外部存儲。表示層：表示層用于生成用戶訪問的 Web 頁面，該層是用來實現(xiàn)系統(tǒng)與用戶的一個人機接口。圖數(shù)據(jù)處理模型框架江蘇大學碩士研究生畢業(yè)論文 21 數(shù)據(jù)處理模型中所有的業(yè)務計算都在 Hadoop 平臺上，利用 Map/Reduce 技術(shù)計算，查詢用戶數(shù)據(jù)、更新聚焦爬蟲數(shù)據(jù)。但是 Hbase 在大規(guī)模數(shù)江蘇大學碩士研究生畢業(yè)論文 22 據(jù) (TB 級 )的存儲和處理方面上有獨特的優(yōu)勢。 Type：爬行數(shù)據(jù)的類型，這個決定了后臺服務器如何處理爬行到的原始數(shù)據(jù)

點擊復制文檔內(nèi)容

研究報告相關(guān)推薦

基于eclipse平臺的跳蚤市場設計與實現(xiàn)畢業(yè)論文-資料下載頁

【摘要】中南民族大學畢業(yè)論文(設計)學院:計算機科學學院專業(yè):網(wǎng)絡工程專業(yè)年級:2021題目:基于Eclipse平臺的跳蚤市場設計與實現(xiàn)學生姓名:學號:指導教師姓名:職稱

2025-02-26 09:19

基于云平臺的同步資源訪問實現(xiàn)技術(shù)畢業(yè)論文-資料下載頁

【摘要】基于云平臺的同步資源訪問實現(xiàn)技術(shù)畢業(yè)論文第一章緒論研究目的及意義隨著當今科技的不斷進步，云平臺已獲得當今大多數(shù)互聯(lián)網(wǎng)公司的青睞，云計算按照出現(xiàn)的時間大致可分為三種：任務集中交付的大型處理機模式、基于網(wǎng)絡的分布式處理模式和最新的云計算模式。云計算可以有效降低硬件成本，而且提高了云平臺的調(diào)度靈活性。當淘寶，京東等出現(xiàn)促銷搶購的時候，出現(xiàn)網(wǎng)站崩潰的等現(xiàn)象，或者出現(xiàn)付款擁擠等現(xiàn)象。因

2025-07-27 05:19

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(更新版)

基于eclipse平臺的跳蚤市場設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于云平臺的同步資源訪問實現(xiàn)技術(shù)畢業(yè)論文-資料下載頁

計算機畢業(yè)論文基于rfid的盲人導航系統(tǒng)路徑搜索設計與實現(xiàn)-資料下載頁

基于web搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-資料下載頁

基于web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-資料下載頁

畢業(yè)論文--基于web的畢業(yè)設計管理系統(tǒng)的設計與實現(xiàn)-資料下載頁

基于hadoop數(shù)據(jù)分析系統(tǒng)設計畢業(yè)論文-資料下載頁

基于ssh的新聞發(fā)布系統(tǒng)的設計與實現(xiàn)畢業(yè)論文設計-資料下載頁

基于安卓平臺的手機助手的設計與實現(xiàn)畢業(yè)論文-資料下載頁

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(專業(yè)版)

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(留存版)

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-文庫吧

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-wenkub