freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(留存版)

2025-09-14 20:21上一頁面

下一頁面
  

【正文】 ............................................................ 64 第七章 總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻(xiàn) .................................................... 67 致 謝 ...................................................... 69 江蘇大學(xué)碩士研究生畢業(yè)論文 1 第 一 章 緒論 課題研究背景及意義 隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展, Web信息爆炸性的增長,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的海量信息空間。 2. 由于在通過關(guān)鍵詞檢索方式中,關(guān)鍵詞與類別詞的混雜使用導(dǎo)致信息準(zhǔn)確度較低。包括框架、原理和詳細(xì)實(shí)現(xiàn)。 以 JAVA和 PERL為開發(fā)工具, 通過 Hadoop平臺(tái)框架 實(shí)現(xiàn) 基于上述架構(gòu)模型的 MDVSP系統(tǒng)的各層設(shè)計(jì),并 列出相關(guān)功能的關(guān)鍵性 JAVA和PERL代碼。 2. 經(jīng)濟(jì):框架可以運(yùn)行在任何普通的 PC上。 Chukwa[79]運(yùn)行 HDFS 中存儲(chǔ)數(shù)據(jù)的收集器,它使用 MapReduce 來生成 報(bào)告。 MDVSP搜索平臺(tái)的定位就是教育領(lǐng)域的幼稚園、小學(xué)、中學(xué)、大學(xué)、機(jī)構(gòu)培訓(xùn)以及成人教育。需要存儲(chǔ)保留一些用戶的關(guān)注度等信息。 Map/Reduce算法模型就是一種簡化并行計(jì)算的編程模型,它向上層用戶提供接口,屏蔽了并行計(jì)算特別是分布式處理的諸多細(xì)節(jié)問題,讓那些沒有多少并行計(jì)算經(jīng)驗(yàn)的開發(fā)人員也可以很方便的開發(fā)并行應(yīng)用,避免了很多重復(fù)工作。數(shù)據(jù)節(jié)點(diǎn)是負(fù)責(zé)存儲(chǔ)。 通過一個(gè)稱為 Rack Awareness的過程, Namenode決定了每個(gè) Datanode所屬的rack id。 數(shù)據(jù)組織 HDFS支持海量文件處理。 步驟 某個(gè)客戶端創(chuàng)建文件的請(qǐng)求其實(shí)并沒有立即發(fā)給 Namenode,事實(shí)上, HDFS客戶端會(huì)將文件數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件。在文件劃分的時(shí)候并不考慮輸入文件的內(nèi)部邏輯結(jié)構(gòu),例如一個(gè)按行記錄的文本文件也會(huì)被按照二進(jìn)制字節(jié)數(shù)大小進(jìn)行片段劃分。當(dāng)一定數(shù)量的鍵值對(duì)被寫入時(shí),這個(gè)緩沖區(qū)里的所有鍵值對(duì)會(huì)被清空轉(zhuǎn)移到 Combiner類的 Reduce方法中,然后將合并操作產(chǎn)生的鍵值對(duì)像原有的 Map操作一樣輸出。 5. 遠(yuǎn)程讀取 (remote read) 當(dāng)執(zhí)行 Reduce任務(wù)的工作站被告知這些數(shù)據(jù)的位置,它通過遠(yuǎn)程方式讀耿執(zhí)行 Map任務(wù)的工作站中的本地緩沖數(shù)據(jù)。存儲(chǔ)數(shù)據(jù)庫選用 Hadoop組件中的 HBase,由圖 底層結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲(chǔ)層主要包括兩個(gè)大規(guī)模的數(shù)據(jù)庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。數(shù)據(jù)查詢或者數(shù)據(jù)傳輸任何一個(gè)地方存在瓶頸就會(huì)造成分析結(jié)果的低效或者失敗。這張表的索引是行關(guān)鍵字,列關(guān)鍵字和時(shí)間戳。基于 Hadoop 平臺(tái)的業(yè)務(wù)數(shù)據(jù)并行計(jì)算,將在后面章節(jié)詳細(xì)展開論述。 當(dāng)所有的 Map任務(wù)和 Reduce任務(wù)都已經(jīng)完成了的時(shí)候, Master激活用戶程序。最后,每個(gè)執(zhí)行的 Reduce任務(wù)的輸出都會(huì)包含一個(gè)輸出文件。例如 TextlnputFormat會(huì)讀取超過分割邊界值的 FileSplit的最后一行,當(dāng)讀到其他的非第一個(gè)FileSplit時(shí), TextlnputFormat會(huì)忽略第一個(gè)新行以上部分的內(nèi)容。此時(shí) Namenode才將文件創(chuàng)建操作提交到持久存儲(chǔ)。當(dāng)本地文件堆積到大于 HDFS塊大小的時(shí)候,客戶端聯(lián)系名字節(jié) 點(diǎn)。機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少,這個(gè)策略不會(huì)影響到數(shù)據(jù)的可靠性和有效性。文件的所有 block為了容錯(cuò)都會(huì)被復(fù)制。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。 本章小結(jié) 本章節(jié)深入描述 MDVSP軟件的功能和性能需求。 江蘇大學(xué)碩士研究生畢業(yè)論文 10 圖 MDVSP搜索資源類型 MDVSP 搜索平臺(tái)功能需求 本搜索引擎是通過聚焦蜘蛛自動(dòng)獲取相關(guān)的教育資源并建立索引,為用戶提供有效信息和相關(guān)服務(wù)的。 造成這種現(xiàn)象的原因是什么呢?用一句話概括就是“ 網(wǎng)民多樣化,需求多樣化 ”。 ? HDFS: (Hadoop Distributed File System)分布式文件系統(tǒng),運(yùn)行于大型商用機(jī)集群。幸運(yùn)的是, Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實(shí)現(xiàn),讓 MapReduce 這么平易近人地走到了我們面前。介紹 Hadoop的概念和 Hadoop的優(yōu)點(diǎn), Hadoop平臺(tái)架構(gòu)。 信息服務(wù)缺乏針對(duì)性,缺少用戶交互。因此,如何對(duì)通用搜索引擎技術(shù)進(jìn)行改進(jìn),使查詢的結(jié)果更加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點(diǎn)。 (2) 基于抽樣調(diào)查和教育經(jīng)驗(yàn), 進(jìn)行 MDVSP 的軟件需求分析,設(shè)計(jì)基于Hadoop 平臺(tái)的教育資源垂直搜索 (MDVSP)架構(gòu)模型。 學(xué)位論文作者簽名: 指導(dǎo)教師簽名: 年 月 日 年 月 日 畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說明 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。 Hadoop。比如說,一位教師輸入“《阿 Q 正傳》教案”,關(guān)鍵詞“阿 Q 正傳”是主題信息,關(guān)鍵詞 “教案”,是類別限制信息,再如一個(gè)學(xué)生查找“八年級(jí)(上)生物學(xué)試題”為學(xué)段(年級(jí))、學(xué)科和資源類型的組合。 (4) 設(shè)計(jì)和封裝了 RPC 遠(yuǎn)程調(diào)用協(xié)議。 闡述基于 Hadoop平臺(tái)模型下構(gòu)建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關(guān)鍵技術(shù)。 Hadoop 的可擴(kuò)展性 依賴于部署 Hadoop 軟件框架計(jì)算集群的規(guī)模 ,Hadoop 的運(yùn)算是可擴(kuò)展的,具有處理 PB 級(jí)數(shù)據(jù)的能力。 ? Hive: 分布式數(shù)據(jù)倉庫。 MDVSP不關(guān)注 搜索信息的 競(jìng)價(jià)排名的現(xiàn)狀, 所以 MDVSP搜索引擎的 在教育界的價(jià) 值便突出出來。建立了社區(qū),為用戶尋求幫助提供了很好的渠道,也滿足教育工作者之間的直接經(jīng)驗(yàn)交流。 NameNode上元數(shù)據(jù)控制 DataNode信息。名字節(jié)點(diǎn)是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。 HDFS采用一種稱為 rackaware的策略來改進(jìn)數(shù)據(jù)的可靠性、有效性和網(wǎng)絡(luò)帶寬的利用。 Blockreport包括了某個(gè) Datanode所有的數(shù)據(jù)塊列表。這些應(yīng)用都是寫數(shù)據(jù)一次,讀卻是一次到多次,并且讀的速度要滿足流式讀。這就是流水線式的復(fù)制 。由于效率的原因,有時(shí)需要充分利用這個(gè)事實(shí)的優(yōu) 點(diǎn)去提供一個(gè)執(zhí)行規(guī)約類型功能的 Combiner類。 3. 讀取 (read) 被指派執(zhí)行 Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對(duì),經(jīng)過 Map函數(shù)處理,得到中問鍵值時(shí),存入內(nèi)存緩沖區(qū)。在這一層里我們利用相應(yīng)的代碼實(shí)現(xiàn)前面設(shè)計(jì)好的一些關(guān)鍵算法?!耙淮螌懭耄啻巫x取”是 Hbase 數(shù)據(jù)庫最大的特色。由于是稀疏存儲(chǔ)的,所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列。但它不適合于處理關(guān)系型很強(qiáng)的結(jié)構(gòu)化數(shù)據(jù),因?yàn)樗旧聿⒉皇峭耆年P(guān)系型數(shù)據(jù)。如圖 所示,在 Browser/Server 三層體系結(jié)構(gòu)下,表示層、邏輯層、數(shù)據(jù)存儲(chǔ)層被分割成三個(gè)相對(duì)獨(dú)立的單元,有效地實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、功能邏輯與用戶 使用界面的分離,并真正實(shí)現(xiàn)了顯示、計(jì)算、數(shù)據(jù)的分離。 Map/Reduce 執(zhí)行流程 Map/Reduce的系統(tǒng)執(zhí)行流程如圖 ,從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。絕大多數(shù)的應(yīng)用僅僅使用行的內(nèi)容而忽略行在文件中的偏移量。如果不采用客戶端緩存,由于網(wǎng)絡(luò)速度和網(wǎng)絡(luò)堵塞會(huì)對(duì)吞估量造成比較大的影響。當(dāng)文件關(guān)閉,還有一些沒有刷新的本地臨時(shí)文件也被傳遞到數(shù)據(jù)節(jié)點(diǎn)。如果在 reader的同一個(gè)機(jī)架上有一個(gè)副本,那么就讀該副本。 HDFS中的文件是 writeone,并且嚴(yán)格要求在任何時(shí)候只有一個(gè) writer。名 字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都是軟件運(yùn)行在普通的機(jī)器之上,機(jī)器典型的都是linux, HDFS 是用 java 來寫的,任何支持 java 的機(jī)器都可以運(yùn)行名字節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn),利用 java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機(jī)器上。最后歸納總結(jié)了系統(tǒng)平臺(tái)的功能需求。 教學(xué)資源主題信息檢索能保證返回信息的精確性,用戶在檢索信息的時(shí)候就不必面對(duì)成千上萬條記錄而產(chǎn)生心理負(fù)擔(dān)。據(jù)賽迪網(wǎng)調(diào)查,有六成的網(wǎng)民認(rèn)為面向某一領(lǐng)域的搜索引擎對(duì)其非?;虮容^重要,因此當(dāng) 大學(xué)畢業(yè)生有了例如論文、外文翻譯、論文格式 等某種特定需求時(shí),他自然希望能夠使用面向這些特定需求的搜索引擎。 ? HBase: 一個(gè)分布式 的、列存儲(chǔ)數(shù)據(jù)庫。作為 Google MapReduce 技術(shù)的開源實(shí)現(xiàn) ,Hadoop 理所當(dāng)然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。 第四章 基于 Hadoop平臺(tái)的 MDVSP模型 。 本文的工作包括: (1) 提出了 基于 Hadoop 平臺(tái)的教育資源垂直搜索系統(tǒng) (MDVSP)模型。其中使用最多的是搜索引擎。 (4) 以 Hadoop 為基礎(chǔ)架構(gòu),采用 Java 開發(fā)語言,設(shè)計(jì)并實(shí)現(xiàn) Hadoop 平臺(tái)的教育資源搜索系統(tǒng)。 作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日 期: 使用授權(quán)說明 本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢 業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。 作者簽名: 日 期: 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。經(jīng)過詳細(xì) 的 系統(tǒng)測(cè)試,系統(tǒng)在實(shí)現(xiàn)效率、搜索的準(zhǔn)確率和可擴(kuò)展性 等方面較有代表性的垂直搜索平臺(tái) 先進(jìn) 。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網(wǎng)上信息,但由于它面江蘇大學(xué)碩士研究生畢業(yè)論文 2 向的是大眾,強(qiáng)調(diào)通用性,搜索結(jié)果中 有很多雜亂信息,信息的準(zhǔn)確度較低,不能完全滿足基礎(chǔ)教育用戶的需求。 包括切合本系統(tǒng)的分布式的集群整體框架 和 HDFS 存放結(jié)構(gòu)。 敘述基于 Hadoop平 臺(tái)的教育資源垂直搜索模型 (MDVSP),并闡述這種架構(gòu)的優(yōu)點(diǎn),提出使用這種架構(gòu)可以解決目前現(xiàn)有搜索平臺(tái)在教育領(lǐng)域搜索中存在的一些問題。因此, Hadoop 也是一個(gè)能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架,這一點(diǎn)不足為奇。 HBase 使用 HDFS 作為底層存儲(chǔ),同時(shí)支持 MapReduce 的批量式計(jì)算和點(diǎn)查詢 (隨機(jī)讀取 )。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。 2. 需要建立 。 江蘇大學(xué)碩士研究生畢業(yè)論文 12 第四章 基于 Hadoop 平臺(tái)的 MDVSP 模型 分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個(gè)運(yùn)行在普通的硬件上的分布式文件系統(tǒng), HDFS是高容錯(cuò)性的,可以部署在低成本的硬件之上, HDFS大數(shù)據(jù)集的應(yīng)用程序。典型的部署時(shí)將有一個(gè)專門的機(jī)器來運(yùn)行名字節(jié)點(diǎn)軟件,機(jī)群中的其他機(jī)器運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)實(shí)例。Namenode全權(quán)管理 block的復(fù)制,它周期性地從集群中的每個(gè) Datanode接收心跳江蘇大學(xué)碩士研究生畢業(yè)論文 14 包和一個(gè) Blockreport。如果一個(gè) HDFS集群跨越多個(gè)數(shù)據(jù)中心,那么 reader也將首先嘗試讀本地?cái)?shù)據(jù)中心的副本??蛻舳穗S后通知名字節(jié)點(diǎn),這個(gè)文件已經(jīng)關(guān)閉。 流水線復(fù)制 當(dāng)某個(gè)客戶端向 HDFS文件寫數(shù) 據(jù)的時(shí)候,一開始是寫入本地臨時(shí)文件,假設(shè)該文件的 replication因子設(shè)置為 3,那么客戶端會(huì)從 Namenode 獲取一張Datanode列表來存放副本。 N個(gè)輸入文件會(huì)產(chǎn)生 M個(gè)待運(yùn)行的 Map任務(wù),每個(gè) Map任務(wù)都會(huì)產(chǎn)生由系統(tǒng)配置江蘇大學(xué)碩士研究生畢業(yè)論文 17 好的規(guī)約任務(wù)數(shù)量相同的輸出文件。下面詳細(xì)講解一下每一個(gè)步驟的作用: 江蘇大學(xué)碩士研究生畢業(yè)論文 18 圖 操作流程圖 1. 分割文件 (fork) 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動(dòng)機(jī)器集群中的眾多程序拷貝。如此設(shè)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1