freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設計與實現(xiàn)畢業(yè)論文(編輯修改稿)

2025-08-15 20:21 本頁面
 

【文章內容簡介】 43 方案部署 ............................................................. 43 硬件配置 ...................................................... 43 SSH 公鑰認證 配置 .............................................. 44 Hadoop 平臺搭建 ................................................ 44 Hbase 平臺搭建 ................................................. 45 與垂直搜索引擎結合 ............................................ 46 開發(fā)平臺及其開發(fā)工具 ................................................. 47 操作系統(tǒng) ....................................................... 47 硬件平臺 ....................................................... 47 開發(fā)工具 ....................................................... 47 MDVSP 系統(tǒng)的實現(xiàn) ................................................... 48 聚焦蜘蛛模塊的實現(xiàn) ............................................. 48 教育資源搜索結果 ............................................... 49 教育資源信息自動抽取的實現(xiàn) ..................................... 51 LUCENE 倒排文件索引結構 ........................................ 56 教育資源信息的存儲實現(xiàn) ......................................... 58 用戶查詢功能的實現(xiàn) ................................................... 58 用戶查詢主要函數(shù)實現(xiàn) ........................................... 58 教育資源信息查詢 ............................................... 60 運行結果與對比 ...................................................... 62 本章小結 ............................................................ 64 第七章 總結與展望 ............................................. 65 總結 ................................................................ 65 展望 ................................................................ 65 參考文獻 .................................................... 67 致 謝 ...................................................... 69 江蘇大學碩士研究生畢業(yè)論文 1 第 一 章 緒論 課題研究背景及意義 隨著網絡與通信技術的迅速發(fā)展, Web信息爆炸性的增長,互聯(lián)網已經成為一個巨大的海量信息空間。如何迅速、準確、方便的從如此龐大的信息庫獲取自己需 要的信息,是互聯(lián)網用戶面臨的一個重要問題。 搜索引擎的出現(xiàn),整合了眾多網站信息,極快的查詢起到了信息導航的作用,信息的價值得到眾多商家的普遍認可,成為互聯(lián)網中最有價值的領域。大家熟知的搜索引擎 Google、百度、雅虎等都是搜索引擎的杰出代表,為互聯(lián)網的發(fā)展做出了重要的貢獻。 我國互聯(lián)網絡信息中心 CNNIC于 20xx年 1月發(fā)布的《第 17次中國互聯(lián)網絡發(fā)展統(tǒng)計報告》顯示:搜索引擎以 %的使用率成為第二大網絡服務 [1]。 互聯(lián)網的信息量呈爆炸趨勢增長,幾年前全球式搜索引擎收錄的網頁量只有幾千萬頁,而現(xiàn)在已經達 到幾十億頁,數(shù)量增加帶來的是搜索服務的品質下降,查詢的結果集就是海量的,經常是幾十萬筆的資料,結果里存在大量的重復信息和垃圾信息,用戶越來越難迅速找到符合的信息,現(xiàn)在經常使用搜索引擎可以感覺到很難在短時間內準確的篩選出需要的內容。因此,如何對通用搜索引擎技術進行改進,使查詢的結果更加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點。 對于基礎教育領域的廣大教師、學生、家長以及其他教育工作者,互聯(lián)網已經成為他們獲取基礎教育資源和信息的重要工具,網上大量的試卷、教學研究論文、課件、課外閱讀材料、招生信息等基礎教育 資源信息可以使教師提高自己的工作效率和水平,使學生擴大自己的知識面,使家長掌握最新的教育信息。那么對教育資源用戶來講,目前的信息服務能否滿足他們的需求?他們更傾向于什么樣的信息服務形式? 目前現(xiàn)狀 1. 獲取基礎教育資源 最常用的方式是搜索引擎 [2] 用戶獲取基礎教育資源的較經常使用的方式為搜索引擎、學科專題網站、基礎教育綜合網站。其中使用最多的是搜索引擎。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網上信息,但由于它面江蘇大學碩士研究生畢業(yè)論文 2 向的是大眾,強調通用性,搜索結果中 有很多雜亂信息,信息的準確度較低,不能完全滿足基礎教育用戶的需求。 3. 傾向簡單的檢索方式 [2] 大多數(shù)人通常使用關鍵詞查詢,一部分人使用諸如“ +( and)”、“ ( or)”等檢索技巧,使用高級檢索的人很少,用合適的關鍵詞檢索是被所有用戶認為是比較容易的,所有用戶都傾向于簡單易用的檢索方式。 4. 通常輸入的檢索內容包含不同層次的信息 大多數(shù)用戶輸入單個或多個關鍵詞,而多個關鍵詞的查詢往往包含有兩類信息—— 主題描述信息和資源的類別限制信息。比如說,一位教師輸入“《阿 Q 正傳》教案”,關鍵詞“阿 Q 正傳”是主題信息,關鍵詞 “教案”,是類別限制信息,再如一個學生查找“八年級(上)生物學試題”為學段(年級)、學科和資源類型的組合。最常見的主題描述信息是學科內知識點、語文課文標題等,常見的類別限制信息是學科、學段(或年級)、資源類型。 總體上,用戶使用通用搜索引擎獲取基礎教育資源存在的問題可歸為以下兩個方面: 1. 教育資源的關鍵詞不能被搜索引擎正確識別,導致檢索結果的信息雜亂與過量,即使搜索出來也與可能是與教育無關的資源信息。 2. 由于在通過關鍵詞檢索方式中,關鍵詞與類別詞的混雜使用導致信息準確度較低。往往要搜索的信息排序靠后或漏檢。 教育資源搜索存在的問題 根據以上分析,用戶獲取網上教育資源主要存在以下問題: 信息過量。網上資源內容廣泛 ,通用搜索引擎返回的大量信息過多過雜 ,專業(yè)性不強 .使用戶淹沒在海量信息里,篩選信息需要耗費大量的精力。 信息準確度低。由于通用搜索引擎強調通用性,檢索范圍廣,對資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。 信息服務缺乏針對性,缺少用戶交互。通用搜索引擎檢索結果完全依賴于用戶的關鍵詞,即對于不同的用戶,同一個關鍵詞返回的結果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個性 化需求。 江蘇大學碩士研究生畢業(yè)論文 3 本文 主要工作 本人通過對現(xiàn)有教育領域搜索引擎的技術分析, 結合問卷抽樣調查反饋, 對用戶的需求進行鑒別、綜合和建模,清除用戶需求的模糊性、歧義性和不一致性 ,定義了本系統(tǒng)的功能和性能需求, 在對 Hadoop 平臺的框架研究基礎之上,提出了基于Hadoop 平臺 的 MDVSP(Multitier Distributed Vertical Searching Platform)模型 ,詳細闡述了 MDVSP 系統(tǒng)在設計和實現(xiàn)過程中 應用到的一些關鍵技術 ,并基于該模型實現(xiàn)了MDVSP 原型。 本文的工作包括: (1) 提出了 基于 Hadoop 平臺的教育資源垂直搜索系統(tǒng) (MDVSP)模型。 包括切合本系統(tǒng)的分布式的集群整體框架 和 HDFS 存放結構。 (2) 闡述了 MDVSP 中應用的關鍵技術,包括聚焦蜘蛛的原理和爬行算法。 (3) 設計了 Map/Reduce 的邏輯結構和數(shù)據流。 (4) 設計和封裝了 RPC 遠程調用協(xié)議。給出了設計思想和數(shù)據表示設計。 (5) 設計了 MDVSP 的 HA。包括框架、原理和詳細實現(xiàn)。 (6) 以 JAVA 和 PERL 為工具實現(xiàn)了 MDVSP 系統(tǒng)原型 。 最后 對全文的內容進行了總結,分析了系統(tǒng)現(xiàn)有的不足,并提出了進一步完善的目標和基本方法。 本文的組織結 構 本論文共分為 七 章,各章內容具體安排如下: 第一章 緒論。 主要論述課題的研究背景,垂直搜索引擎發(fā)展現(xiàn)狀、存在的問題 。 第二章 Hadoop平臺架構 。介紹 Hadoop的概念和 Hadoop的優(yōu)點, Hadoop平臺架構。 第三章 MDVSP平臺需求分析 。 給出 MDVSP平臺的使用用戶群,并基于抽樣調查和多年的教育經驗,對用戶的需求進行鑒別、 清除 用戶需求的模糊性、歧義性和不一致性,將原始問題的理解與軟件開發(fā)經驗結合,深入描述軟件的功能和性能需求。 第四章 基于 Hadoop平臺的 MDVSP模型 。 敘述基于 Hadoop平 臺的教育資源垂直搜索模型 (MDVSP),并闡述這種架構的優(yōu)點,提出使用這種架構可以解決目前現(xiàn)有搜索平臺在教育領域搜索中存在的一些問題。對 MDVSP系統(tǒng)進行了邏輯結構設計和物理結構設計。 第五章 基于 Hadoop平臺的 MDVSP的關鍵技術 。 闡述基于 Hadoop平臺模型下構建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關鍵技術。主要包括聚焦蜘蛛的爬行技術、江蘇大學碩士研究生畢業(yè)論文 4 基于 Hadoop平臺下 Map/Reduce的邏輯結構和數(shù)據流設計和系統(tǒng)采用的 MDVSPRPC遠程調用的封裝技術。 第六章 MDVSP平臺的實現(xiàn) 。 以 JAVA和 PERL為開發(fā)工具, 通過 Hadoop平臺框架 實現(xiàn) 基于上述架構模型的 MDVSP系統(tǒng)的各層設計,并 列出相關功能的關鍵性 JAVA和PERL代碼。 通過試驗,并與有代表性的垂直搜索平臺的搜索結果進行性能對比, 分析 MDVSP平臺在教育資源領域的搜索效率和準確度都有所提高。 第七章 總結與展望。 對本文的工作進行總結,并從系統(tǒng)功能和理論研究兩個方面對以后的工作進行規(guī)劃和展望。 江蘇大學碩士研究生畢業(yè)論文 5 Hadoop 平臺架構 Hadoop 的產生 自從 Google 工程師 Jeffrey Dean 提出 Map Reduce 編程思想, MapReduce便在 Google 的各種 Web 應用中釋放著魔力。然而,也許出于技術保密的目的,Google 公司并沒有透露其 MapReduce 的實現(xiàn)細節(jié)。幸運的是, Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實現(xiàn),讓 MapReduce 這么平易近人地走到了我們面前。 20xx 年 1 月, Doug Cutting 因其在開源項目 Nutch 和 Lucene 的卓越表現(xiàn)受邀加入 Yahoo公司,專職在 Hadoop項目上進行開發(fā)?,F(xiàn)在, Doug Cutting已經加盟 Cloudera(一家從事 Hadoop 產品商業(yè)化及技術支持的公司)。作為 Google MapReduce 技術的開源實現(xiàn) ,Hadoop 理所當然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。因此, Hadoop 也是一個能夠分布式處理大規(guī)模海量數(shù)據的軟件框架,這一點不足為奇。 Hadoop假設計算元素和存儲會出現(xiàn)故障,因為它維護多個工作數(shù)據副本,在出現(xiàn)故障時可以對失敗的節(jié)點重新分布處理。 Hadoop 的高效性在 MapReduce 的思想下, Hadoop 是并行工作的,以加 快任務處理速度。 Hadoop 的可擴展性 依賴于部署 Hadoop 軟件框架計算集群的規(guī)模 ,Hadoop 的運算是可擴展的,具有處理 PB 級數(shù)據的能力。 基于 Hadoop 分布式架構 的優(yōu)勢 沒有不好的工具,只用不適用的工具。本系統(tǒng)采用 Hadoop分布式架構的目的有以下幾個方面: 1. 可擴展:不論是存儲的可擴展還是計算的可擴展都是 Hadoop的設計根本。 2. 經濟:框架可以運行在任何普通的 PC上。 3. 可靠:分布式文件系統(tǒng)的備份恢復機制以及 MapReduce的任務監(jiān)
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1