freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-wenkub

2023-07-08 20:21:01 本頁面
 

【正文】 □ 及格 □ 不及格 二、論文(設(shè)計)質(zhì)量 論文( 設(shè)計)的整體結(jié)構(gòu)是否符合撰寫規(guī)范? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 是否完成指定的論文(設(shè)計)任務(wù)(包括裝訂及附件)? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 三、論文(設(shè)計)水平 論文(設(shè)計)的理論意義或?qū)鉀Q實際問題的指導(dǎo)意義 □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 論文的觀念是否有新意?設(shè)計是否有創(chuàng)意? □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 論文(設(shè)計說明書)所體現(xiàn)的整體水平 □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 評定成績: □ 優(yōu) □ 良 □ 中 □ 及格 □ 不及格 (在所選等級前的□內(nèi)畫“√”) 教研室主任(或答辯小組組長): (簽名) 年 月 日 教學(xué)系意見: 系主任: (簽名) 年 月 日 江蘇大學(xué)碩士研究生畢業(yè)論文 II 摘 要 互聯(lián)網(wǎng)的出現(xiàn)改變了我們的生活 、 工作 、 學(xué)習(xí)乃至娛樂的方式。本人完全意識到本聲明的法律后果由本人承擔(dān)。 作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日 期: 使用授權(quán)說明 本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢 業(yè)設(shè)計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。 本學(xué)位論文屬 于 不保密 。 分類號 密級 UDC 編號 學(xué) 位 論 文 基于 Hadoop 平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn) Implementation of Education Resource Vertical Searching System Based on Hadoop 分 類 號 : 密 級 : U D C : 編 號 : 學(xué) 位 論 文 基于 Hadoop 平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn) Implementation of Education Resource Vertical Searching System Based on Hadoop 學(xué)科專業(yè): 計算機(jī)應(yīng)用技術(shù) 計算機(jī)科學(xué)與通信工程學(xué)院 2 0 11 年 04 月江 蘇 大 學(xué) 工 程 碩 士 學(xué) 位 論 文 I 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。 學(xué)位論文作者簽名: 指導(dǎo)教師簽名: 年 月 日 年 月 日 畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。 作者簽名: 日 期: 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進(jìn)行研究所取得的研究成果。 作者簽名: 日期: 年 月 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。網(wǎng)上豐富的基礎(chǔ)教育資源為廣 大基礎(chǔ)教育工作者、學(xué)生以及學(xué)生家長提供了充足的參考資料和教育信息,然而由于缺乏行之有效的整合標(biāo)準(zhǔn)和手段,目前這些資源的分布呈現(xiàn)高度分散狀態(tài),內(nèi)容龐雜無序,結(jié)構(gòu)化程度低,用戶往往難以快速準(zhǔn)確地獲取到自己需要的信息。 (2) 基于抽樣調(diào)查和教育經(jīng)驗, 進(jìn)行 MDVSP 的軟件需求分析,設(shè)計基于Hadoop 平臺的教育資源垂直搜索 (MDVSP)架構(gòu)模型。經(jīng)過詳細(xì) 的 系統(tǒng)測試,系統(tǒng)在實現(xiàn)效率、搜索的準(zhǔn)確率和可擴(kuò)展性 等方面較有代表性的垂直搜索平臺 先進(jìn) 。 Web Information Extraction。 搜索引擎的出現(xiàn),整合了眾多網(wǎng)站信息,極快的查詢起到了信息導(dǎo)航的作用,信息的價值得到眾多商家的普遍認(rèn)可,成為互聯(lián)網(wǎng)中最有價值的領(lǐng)域。因此,如何對通用搜索引擎技術(shù)進(jìn)行改進(jìn),使查詢的結(jié)果更加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網(wǎng)上信息,但由于它面江蘇大學(xué)碩士研究生畢業(yè)論文 2 向的是大眾,強(qiáng)調(diào)通用性,搜索結(jié)果中 有很多雜亂信息,信息的準(zhǔn)確度較低,不能完全滿足基礎(chǔ)教育用戶的需求。最常見的主題描述信息是學(xué)科內(nèi)知識點、語文課文標(biāo)題等,常見的類別限制信息是學(xué)科、學(xué)段(或年級)、資源類型。 教育資源搜索存在的問題 根據(jù)以上分析,用戶獲取網(wǎng)上教育資源主要存在以下問題: 信息過量。 信息服務(wù)缺乏針對性,缺少用戶交互。 包括切合本系統(tǒng)的分布式的集群整體框架 和 HDFS 存放結(jié)構(gòu)。給出了設(shè)計思想和數(shù)據(jù)表示設(shè)計。 最后 對全文的內(nèi)容進(jìn)行了總結(jié),分析了系統(tǒng)現(xiàn)有的不足,并提出了進(jìn)一步完善的目標(biāo)和基本方法。介紹 Hadoop的概念和 Hadoop的優(yōu)點, Hadoop平臺架構(gòu)。 敘述基于 Hadoop平 臺的教育資源垂直搜索模型 (MDVSP),并闡述這種架構(gòu)的優(yōu)點,提出使用這種架構(gòu)可以解決目前現(xiàn)有搜索平臺在教育領(lǐng)域搜索中存在的一些問題。主要包括聚焦蜘蛛的爬行技術(shù)、江蘇大學(xué)碩士研究生畢業(yè)論文 4 基于 Hadoop平臺下 Map/Reduce的邏輯結(jié)構(gòu)和數(shù)據(jù)流設(shè)計和系統(tǒng)采用的 MDVSPRPC遠(yuǎn)程調(diào)用的封裝技術(shù)。 第七章 總結(jié)與展望。幸運的是, Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實現(xiàn),讓 MapReduce 這么平易近人地走到了我們面前。因此, Hadoop 也是一個能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架,這一點不足為奇。 基于 Hadoop 分布式架構(gòu) 的優(yōu)勢 沒有不好的工具,只用不適用的工具。 4. 高效:分布式文件系統(tǒng)的 高效數(shù)據(jù)交互實現(xiàn)以及 MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。 ? HDFS: (Hadoop Distributed File System)分布式文件系統(tǒng),運行于大型商用機(jī)集群。 HBase 使用 HDFS 作為底層存儲,同時支持 MapReduce 的批量式計算和點查詢 (隨機(jī)讀取 )。 Hive 管理 HDFS 中存儲的數(shù)據(jù),并提供基于 SQL的查詢語言 (由運行時引擎翻譯成 MapReduce 作業(yè) )用以查詢數(shù)據(jù)。盡管 HDFS目前仍然不盡完善,但是這些缺陷和不足之處不會影響到具體項目的成功實施。 造成這種現(xiàn)象的原因是什么呢?用一句話概括就是“ 網(wǎng)民多樣化,需求多樣化 ”。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。此外,由于針對特定 行業(yè)的培訓(xùn)、考試、輔導(dǎo)教材等 信 息的分類,垂直化搜索與傳統(tǒng)搜索相比顯得更為“聰明”、更具人性化。從圖上可以 看出用戶的群體數(shù)量還是比較大的。 江蘇大學(xué)碩士研究生畢業(yè)論文 10 圖 MDVSP搜索資源類型 MDVSP 搜索平臺功能需求 本搜索引擎是通過聚焦蜘蛛自動獲取相關(guān)的教育資源并建立索引,為用戶提供有效信息和相關(guān)服務(wù)的。 2. 需要建立 。 3. 需要定制個性化的信息。 有很多教學(xué)資源是以視頻、音頻的方式存在的,如果公開課視頻,優(yōu)秀教師示范課視頻,還有很多的動畫資源等。 本章小結(jié) 本章節(jié)深入描述 MDVSP軟件的功能和性能需求。 江蘇大學(xué)碩士研究生畢業(yè)論文 12 第四章 基于 Hadoop 平臺的 MDVSP 模型 分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個運行在普通的硬件上的分布式文件系統(tǒng), HDFS是高容錯性的,可以部署在低成本的硬件之上, HDFS大數(shù)據(jù)集的應(yīng)用程序。 Map/Reduce算法模型 是 Google的一項重要技術(shù),它是一種編程模式,用以 進(jìn)行大數(shù)據(jù)量的計算。 江蘇大學(xué)碩士研究生畢業(yè)論文 13 分布式文件系統(tǒng) HDFS 名字節(jié)點與 數(shù)據(jù)節(jié)點 HDFS 是一個主從結(jié)構(gòu)的體系,一個 HDFS 集群是由一個名字節(jié)點,它是一個管理文件的命名空間和調(diào)節(jié)客戶端訪問文件的主服務(wù)器,當(dāng)然還有的數(shù)據(jù)節(jié)點,一個節(jié)點一個,它來管理存儲。它同時確定塊與數(shù)據(jù)節(jié)點的映射。典型的部署時將有一個專門的機(jī)器來運行名字節(jié)點軟件,機(jī)群中的其他機(jī)器運行一個數(shù)據(jù)節(jié)點實例。系統(tǒng)設(shè)計成用戶的實際數(shù)據(jù)不經(jīng)過名字 節(jié)點。這些機(jī)器一般都是普通的 PC 機(jī)。文件的所有 block為了容錯都會被復(fù)制。Namenode全權(quán)管理 block的復(fù)制,它周期性地從集群中的每個 Datanode接收心跳江蘇大學(xué)碩士研究生畢業(yè)論文 14 包和一個 Blockreport。這個策略實現(xiàn)的短期目標(biāo)是驗證在生產(chǎn)環(huán)境下的表現(xiàn),觀察它的行為,構(gòu)建測試和研究的基礎(chǔ),以便實現(xiàn)更先進(jìn)的策略。這樣可以防止整個機(jī)架(非副本存放)失效的情況,并且允許讀數(shù)據(jù)的時候可以從多個機(jī)架讀取。機(jī)架的錯誤遠(yuǎn)遠(yuǎn)比節(jié)點的錯誤少,這個策略不會影響到數(shù)據(jù)的可靠性和有效性。如果一個 HDFS集群跨越多個數(shù)據(jù)中心,那么 reader也將首先嘗試讀本地數(shù)據(jù)中心的副本。每個 block都有指定的最小數(shù)目的副本。這些程序一次寫入數(shù)據(jù)多次讀取,因此需要一個比較好的流讀取速度。當(dāng)本地文件堆積到大于 HDFS塊大小的時候,客戶端聯(lián)系名字節(jié) 點??蛻舳穗S后通知名字節(jié)點,這個文件已經(jīng)關(guān)閉。 HDFS支持文件的 write oncereadmany語義。當(dāng)這個臨時文件累積的數(shù)據(jù)超過一個 block的大?。J(rèn) 64M),客戶端才會聯(lián)系 Namenode。此時 Namenode才將文件創(chuàng)建操作提交到持久存儲。 流水線復(fù)制 當(dāng)某個客戶端向 HDFS文件寫數(shù) 據(jù)的時候,一開始是寫入本地臨時文件,假設(shè)該文件的 replication因子設(shè)置為 3,那么客戶端會從 Namenode 獲取一張Datanode列表來存放副本。 Map/Reduce技術(shù) 主要操作實現(xiàn) 1) Map 操作 Map操作是并行的,所以輸入文件先被劃分為幾個“文件片斷 。 當(dāng)一個單獨的 Map任務(wù)開始時,對應(yīng)的都會按照每個 Reduce任務(wù)配置輸出文件寫操作者。例如 TextlnputFormat會讀取超過分割邊界值的 FileSplit的最后一行,當(dāng)讀到其他的非第一個FileSplit時, TextlnputFormat會忽略第一個新行以上部分的內(nèi)容。 N個輸入文件會產(chǎn)生 M個待運行的 Map任務(wù),每個 Map任務(wù)都會產(chǎn)生由系統(tǒng)配置江蘇大學(xué)碩士研究生畢業(yè)論文 17 好的規(guī)約任務(wù)數(shù)量相同的輸出文件。如果使用了一個 Combiner類,則映射過程產(chǎn)生的 Key/ Value對就不會立刻寫到輸出。如果 Reduce過程是運行在分布式模式下的 話,需要在拷貝階段先將這些文件拷貝到 Reduce任務(wù)所在節(jié)點的本地文件系統(tǒng)。最后,每個執(zhí)行的 Reduce任務(wù)的輸出都會包含一個輸出文件。下面詳細(xì)講解一下每一個步驟的作用: 江蘇大學(xué)碩士研究生畢業(yè)論文 18 圖 操作流程圖 1. 分割文件 (fork) 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機(jī)器集群中的眾多程序拷貝。 4. 本地寫 A,(10cal write) 內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性的劃分到 R個區(qū)域
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1