【正文】
□ 中 □ 及格 □ 不及格 學(xué)生答辯過程中的精神狀態(tài) □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 二、論文(設(shè)計(jì))質(zhì)量 論文( 設(shè)計(jì))的整體結(jié)構(gòu)是否符合撰寫規(guī)范? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 是否完成指定的論文(設(shè)計(jì))任務(wù)(包括裝訂及附件)? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 三、論文(設(shè)計(jì))水平 論文(設(shè)計(jì))的理論意義或?qū)鉀Q實(shí)際問題的指導(dǎo)意義 □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 論文的觀念是否有新意?設(shè)計(jì)是否有創(chuàng)意? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 論文(設(shè)計(jì)說明書)所體現(xiàn)的整體水平 □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 評定成績: □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 (在所選等級(jí)前的□內(nèi)畫“√”) 教研室主任(或答辯小組組長): (簽名) 年 月 日 教學(xué)系意見: 系主任: (簽名) 年 月 日 江蘇大學(xué)碩士研究生畢業(yè)論文 II 摘 要 互聯(lián)網(wǎng)的出現(xiàn)改變了我們的生活 、 工作 、 學(xué)習(xí)乃至娛樂的方式。 所以我們必須研究和設(shè)計(jì)出針對教育資源搜索的網(wǎng)絡(luò)平臺(tái),以提高用戶獲取教育資源信息的速度和準(zhǔn)確度。本文的 主要工作包括: (1) 通過對 Hadoop平臺(tái)的基本原理和架構(gòu)以及 Hadoop平臺(tái)的兩個(gè)核心組件HDFS 與 Map/Reduce 的分析, 選擇 Hbase 對 系統(tǒng)的數(shù)據(jù) 進(jìn)行管理,并對 可視化系統(tǒng)的 Hbase 數(shù)據(jù)模型的設(shè)計(jì)以及條件查詢的改進(jìn) 進(jìn)行闡述 。該架構(gòu)模型把業(yè)務(wù)處理服務(wù)器與 Web 服務(wù)器分開,采用并行計(jì)算 提高 業(yè)務(wù) 處理能力,使得基于該架構(gòu)模型下的系統(tǒng)具有良好的可伸縮性、可擴(kuò)展性、可維護(hù)性和更高的安全性。 (4) 以 Hadoop 為基礎(chǔ)架構(gòu),采用 Java 開發(fā)語言,設(shè)計(jì)并實(shí)現(xiàn) Hadoop 平臺(tái)的教育資源搜索系統(tǒng)。 關(guān)鍵詞 : 垂直搜索引擎 ; Hadoop; 網(wǎng)頁信息抽取 ; 抽取規(guī)則 ; 索引庫 江蘇大學(xué)碩士研究生畢業(yè)論文 III Abstract The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of inter. However, there’s still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently. On the basis of paring the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focusedspider creeping technology, this dissertation presents a new model of Multitier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects: 1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core ponents of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major ponent of Hadoop. This thesis also uses several sections to describe the Hbase’s date structure model design and the query improvements. 2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel pute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security. 3. The key technologies that MDVSP has been used includes focusedspider creeping technology, structured web information extraction technology, remote 江蘇大學(xué)碩士研究生畢業(yè)論文 IV procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop. 4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation acplishes the design of the Prototype System of MDisem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and pared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability. Keywords Vertical。 Hadoop。 Extraction rules。如何迅速、準(zhǔn)確、方便的從如此龐大的信息庫獲取自己需 要的信息,是互聯(lián)網(wǎng)用戶面臨的一個(gè)重要問題。大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表,為互聯(lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。 互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網(wǎng)頁量只有幾千萬頁,而現(xiàn)在已經(jīng)達(dá) 到幾十億頁,數(shù)量增加帶來的是搜索服務(wù)的品質(zhì)下降,查詢的結(jié)果集就是海量的,經(jīng)常是幾十萬筆的資料,結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶越來越難迅速找到符合的信息,現(xiàn)在經(jīng)常使用搜索引擎可以感覺到很難在短時(shí)間內(nèi)準(zhǔn)確的篩選出需要的內(nèi)容。 對于基礎(chǔ)教育領(lǐng)域的廣大教師、學(xué)生、家長以及其他教育工作者,互聯(lián)網(wǎng)已經(jīng)成為他們獲取基礎(chǔ)教育資源和信息的重要工具,網(wǎng)上大量的試卷、教學(xué)研究論文、課件、課外閱讀材料、招生信息等基礎(chǔ)教育 資源信息可以使教師提高自己的工作效率和水平,使學(xué)生擴(kuò)大自己的知識(shí)面,使家長掌握最新的教育信息。其中使用最多的是搜索引擎。 3. 傾向簡單的檢索方式 [2] 大多數(shù)人通常使用關(guān)鍵詞查詢,一部分人使用諸如“ +( and)”、“ ( or)”等檢索技巧,使用高級(jí)檢索的人很少,用合適的關(guān)鍵詞檢索是被所有用戶認(rèn)為是比較容易的,所有用戶都傾向于簡單易用的檢索方式。比如說,一位教師輸入“《阿 Q 正傳》教案”,關(guān)鍵詞“阿 Q 正傳”是主題信息,關(guān)鍵詞 “教案”,是類別限制信息,再如一個(gè)學(xué)生查找“八年級(jí)(上)生物學(xué)試題”為學(xué)段(年級(jí))、學(xué)科和資源類型的組合。 總體上,用戶使用通用搜索引擎獲取基礎(chǔ)教育資源存在的問題可歸為以下兩個(gè)方面: 1. 教育資源的關(guān)鍵詞不能被搜索引擎正確識(shí)別,導(dǎo)致檢索結(jié)果的信息雜亂與過量,即使搜索出來也與可能是與教育無關(guān)的資源信息。往往要搜索的信息排序靠后或漏檢。網(wǎng)上資源內(nèi)容廣泛 ,通用搜索引擎返回的大量信息過多過雜 ,專業(yè)性不強(qiáng) .使用戶淹沒在海量信息里,篩選信息需要耗費(fèi)大量的精力。由于通用搜索引擎強(qiáng)調(diào)通用性,檢索范圍廣,對資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對于不同的用戶,同一個(gè)關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個(gè)性 化需求。 本文的工作包括: (1) 提出了 基于 Hadoop 平臺(tái)的教育資源垂直搜索系統(tǒng) (MDVSP)模型。 (2) 闡述了 MDVSP 中應(yīng)用的關(guān)鍵技術(shù),包括聚焦蜘蛛的原理和爬行算法。 (4) 設(shè)計(jì)和封裝了 RPC 遠(yuǎn)程調(diào)用協(xié)議。 (5) 設(shè)計(jì)了 MDVSP 的 HA。 (6) 以 JAVA 和 PERL 為工具實(shí)現(xiàn)了 MDVSP 系統(tǒng)原型 。 本文的組織結(jié) 構(gòu) 本論文共分為 七 章,各章內(nèi)容具體安排如下: 第一章 緒論。 第二章 Hadoop平臺(tái)架構(gòu) 。 第三章 MDVSP平臺(tái)需求分析 。 第四章 基于 Hadoop平臺(tái)的 MDVSP模型 。對 MDVSP系統(tǒng)進(jìn)行了邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。 闡述基于 Hadoop平臺(tái)模型下構(gòu)建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關(guān)鍵技術(shù)。 第六章 MDVSP平臺(tái)的實(shí)現(xiàn) 。 通過試驗(yàn),并與有代表性的垂直搜索平臺(tái)的搜索結(jié)果進(jìn)行性能對比, 分析 MDVSP平臺(tái)在教育資源領(lǐng)域的搜索效率和準(zhǔn)確度都有所提高。 對本文的工作進(jìn)行總結(jié),并從系統(tǒng)功能和理論研究兩個(gè)方面對以后的工作進(jìn)行規(guī)劃和展望。然而,也許出于技術(shù)保密的目的,Google 公司并沒有透露其 MapReduce 的實(shí)現(xiàn)細(xì)節(jié)。 20xx 年 1 月, Doug Cutting 因其在開源項(xiàng)目 Nutch 和 Lucene 的卓越表現(xiàn)受邀加入 Yahoo公司,專職在 Hadoop項(xiàng)目上進(jìn)行開發(fā)。作為 Google MapReduce 技術(shù)的開源實(shí)現(xiàn) ,Hadoop 理所當(dāng)然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。 Hadoop假設(shè)計(jì)算元素和存儲(chǔ)會(huì)出現(xiàn)故障,因?yàn)樗S護(hù)多個(gè)工作數(shù)據(jù)副本,在出現(xiàn)故障時(shí)可以對失敗的節(jié)點(diǎn)重新分布處理。 Hadoop 的可擴(kuò)展性 依賴于部署 Hadoop 軟件框架計(jì)算集群的規(guī)模 ,Hadoop 的運(yùn)算是可擴(kuò)