正文內(nèi)容

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(留存版)

2025-09-14 20:21上一頁面

下一頁面

　　

【正文】 ............................................................ 64 第七章總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻(xiàn) .................................................... 67 致謝 ...................................................... 69 江蘇大學(xué)碩士研究生畢業(yè)論文 1 第一章緒論課題研究背景及意義隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展， Web信息爆炸性的增長，互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的海量信息空間。 2. 由于在通過關(guān)鍵詞檢索方式中，關(guān)鍵詞與類別詞的混雜使用導(dǎo)致信息準(zhǔn)確度較低。包括框架、原理和詳細(xì)實(shí)現(xiàn)。以 JAVA和 PERL為開發(fā)工具，通過 Hadoop平臺(tái)框架實(shí)現(xiàn) 基于上述架構(gòu)模型的 MDVSP系統(tǒng)的各層設(shè)計(jì)，并列出相關(guān)功能的關(guān)鍵性 JAVA和PERL代碼。 2. 經(jīng)濟(jì)：框架可以運(yùn)行在任何普通的 PC上。 Chukwa[79]運(yùn)行 HDFS 中存儲(chǔ)數(shù)據(jù)的收集器，它使用 MapReduce 來生成報(bào)告。 MDVSP搜索平臺(tái)的定位就是教育領(lǐng)域的幼稚園、小學(xué)、中學(xué)、大學(xué)、機(jī)構(gòu)培訓(xùn)以及成人教育。需要存儲(chǔ)保留一些用戶的關(guān)注度等信息。 Map/Reduce算法模型就是一種簡化并行計(jì)算的編程模型，它向上層用戶提供接口，屏蔽了并行計(jì)算特別是分布式處理的諸多細(xì)節(jié)問題，讓那些沒有多少并行計(jì)算經(jīng)驗(yàn)的開發(fā)人員也可以很方便的開發(fā)并行應(yīng)用，避免了很多重復(fù)工作。數(shù)據(jù)節(jié)點(diǎn)是負(fù)責(zé)存儲(chǔ)。通過一個(gè)稱為 Rack Awareness的過程， Namenode決定了每個(gè) Datanode所屬的rack id。數(shù)據(jù)組織 HDFS支持海量文件處理。步驟某個(gè)客戶端創(chuàng)建文件的請(qǐng)求其實(shí)并沒有立即發(fā)給 Namenode，事實(shí)上， HDFS客戶端會(huì)將文件數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件。在文件劃分的時(shí)候并不考慮輸入文件的內(nèi)部邏輯結(jié)構(gòu)，例如一個(gè)按行記錄的文本文件也會(huì)被按照二進(jìn)制字節(jié)數(shù)大小進(jìn)行片段劃分。當(dāng)一定數(shù)量的鍵值對(duì)被寫入時(shí)，這個(gè)緩沖區(qū)里的所有鍵值對(duì)會(huì)被清空轉(zhuǎn)移到 Combiner類的 Reduce方法中，然后將合并操作產(chǎn)生的鍵值對(duì)像原有的 Map操作一樣輸出。 5. 遠(yuǎn)程讀取 (remote read) 當(dāng)執(zhí)行 Reduce任務(wù)的工作站被告知這些數(shù)據(jù)的位置，它通過遠(yuǎn)程方式讀耿執(zhí)行 Map任務(wù)的工作站中的本地緩沖數(shù)據(jù)。存儲(chǔ)數(shù)據(jù)庫選用 Hadoop組件中的 HBase，由圖底層結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)存儲(chǔ)層主要包括兩個(gè)大規(guī)模的數(shù)據(jù)庫，一是面向爬蟲所得頁面與抽取信息的寫入，二是面向客戶查詢的信息的讀取。數(shù)據(jù)查詢或者數(shù)據(jù)傳輸任何一個(gè)地方存在瓶頸就會(huì)造成分析結(jié)果的低效或者失敗。這張表的索引是行關(guān)鍵字，列關(guān)鍵字和時(shí)間戳。基于 Hadoop 平臺(tái)的業(yè)務(wù)數(shù)據(jù)并行計(jì)算，將在后面章節(jié)詳細(xì)展開論述。當(dāng)所有的 Map任務(wù)和 Reduce任務(wù)都已經(jīng)完成了的時(shí)候， Master激活用戶程序。最后，每個(gè)執(zhí)行的 Reduce任務(wù)的輸出都會(huì)包含一個(gè)輸出文件。例如 TextlnputFormat會(huì)讀取超過分割邊界值的 FileSplit的最后一行，當(dāng)讀到其他的非第一個(gè)FileSplit時(shí)， TextlnputFormat會(huì)忽略第一個(gè)新行以上部分的內(nèi)容。此時(shí) Namenode才將文件創(chuàng)建操作提交到持久存儲(chǔ)。當(dāng)本地文件堆積到大于 HDFS塊大小的時(shí)候，客戶端聯(lián)系名字節(jié) 點(diǎn)。機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少，這個(gè)策略不會(huì)影響到數(shù)據(jù)的可靠性和有效性。文件的所有 block為了容錯(cuò)都會(huì)被復(fù)制。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。本章小結(jié) 本章節(jié)深入描述 MDVSP軟件的功能和性能需求。江蘇大學(xué)碩士研究生畢業(yè)論文 10 圖 MDVSP搜索資源類型 MDVSP 搜索平臺(tái)功能需求本搜索引擎是通過聚焦蜘蛛自動(dòng)獲取相關(guān)的教育資源并建立索引，為用戶提供有效信息和相關(guān)服務(wù)的。造成這種現(xiàn)象的原因是什么呢？用一句話概括就是“ 網(wǎng)民多樣化，需求多樣化 ”。 ? HDFS： (Hadoop Distributed File System)分布式文件系統(tǒng)，運(yùn)行于大型商用機(jī)集群。幸運(yùn)的是， Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實(shí)現(xiàn)，讓 MapReduce 這么平易近人地走到了我們面前。介紹 Hadoop的概念和 Hadoop的優(yōu)點(diǎn)， Hadoop平臺(tái)架構(gòu)。信息服務(wù)缺乏針對(duì)性，缺少用戶交互。因此，如何對(duì)通用搜索引擎技術(shù)進(jìn)行改進(jìn)，使查詢的結(jié)果更加貼近用戶的要求，成為搜索引擎行業(yè)近期的研究熱點(diǎn)。 (2) 基于抽樣調(diào)查和教育經(jīng)驗(yàn)，進(jìn)行 MDVSP 的軟件需求分析，設(shè)計(jì)基于Hadoop 平臺(tái)的教育資源垂直搜索 (MDVSP)架構(gòu)模型。學(xué)位論文作者簽名：指導(dǎo)教師簽名：年月日年月日畢業(yè)設(shè)計(jì)（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計(jì)（論文），是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。 Hadoop。比如說，一位教師輸入“《阿 Q 正傳》教案”，關(guān)鍵詞“阿 Q 正傳”是主題信息，關(guān)鍵詞 “教案”，是類別限制信息，再如一個(gè)學(xué)生查找“八年級(jí)（上）生物學(xué)試題”為學(xué)段（年級(jí)）、學(xué)科和資源類型的組合。 (4) 設(shè)計(jì)和封裝了 RPC 遠(yuǎn)程調(diào)用協(xié)議。闡述基于 Hadoop平臺(tái)模型下構(gòu)建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關(guān)鍵技術(shù)。 Hadoop 的可擴(kuò)展性依賴于部署 Hadoop 軟件框架計(jì)算集群的規(guī)模 ,Hadoop 的運(yùn)算是可擴(kuò)展的，具有處理 PB 級(jí)數(shù)據(jù)的能力。 ? Hive: 分布式數(shù)據(jù)倉庫。 MDVSP不關(guān)注搜索信息的競(jìng)價(jià)排名的現(xiàn)狀，所以 MDVSP搜索引擎的在教育界的價(jià) 值便突出出來。建立了社區(qū)，為用戶尋求幫助提供了很好的渠道，也滿足教育工作者之間的直接經(jīng)驗(yàn)交流。 NameNode上元數(shù)據(jù)控制 DataNode信息。名字節(jié)點(diǎn)是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。 HDFS采用一種稱為 rackaware的策略來改進(jìn)數(shù)據(jù)的可靠性、有效性和網(wǎng)絡(luò)帶寬的利用。 Blockreport包括了某個(gè) Datanode所有的數(shù)據(jù)塊列表。這些應(yīng)用都是寫數(shù)據(jù)一次，讀卻是一次到多次，并且讀的速度要滿足流式讀。這就是流水線式的復(fù)制。由于效率的原因，有時(shí)需要充分利用這個(gè)事實(shí)的優(yōu) 點(diǎn)去提供一個(gè)執(zhí)行規(guī)約類型功能的 Combiner類。 3. 讀取 (read) 被指派執(zhí)行 Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊，從原始數(shù)據(jù)中解析出Key/Value對(duì)，經(jīng)過 Map函數(shù)處理，得到中問鍵值時(shí)，存入內(nèi)存緩沖區(qū)。在這一層里我們利用相應(yīng)的代碼實(shí)現(xiàn)前面設(shè)計(jì)好的一些關(guān)鍵算法?！耙淮螌懭耄啻巫x取”是 Hbase 數(shù)據(jù)庫最大的特色。由于是稀疏存儲(chǔ)的，所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列。但它不適合于處理關(guān)系型很強(qiáng)的結(jié)構(gòu)化數(shù)據(jù)，因?yàn)樗旧聿⒉皇峭耆年P(guān)系型數(shù)據(jù)。如圖所示，在 Browser/Server 三層體系結(jié)構(gòu)下，表示層、邏輯層、數(shù)據(jù)存儲(chǔ)層被分割成三個(gè)相對(duì)獨(dú)立的單元，有效地實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、功能邏輯與用戶使用界面的分離，并真正實(shí)現(xiàn)了顯示、計(jì)算、數(shù)據(jù)的分離。 Map/Reduce 執(zhí)行流程 Map/Reduce的系統(tǒng)執(zhí)行流程如圖，從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。絕大多數(shù)的應(yīng)用僅僅使用行的內(nèi)容而忽略行在文件中的偏移量。如果不采用客戶端緩存，由于網(wǎng)絡(luò)速度和網(wǎng)絡(luò)堵塞會(huì)對(duì)吞估量造成比較大的影響。當(dāng)文件關(guān)閉，還有一些沒有刷新的本地臨時(shí)文件也被傳遞到數(shù)據(jù)節(jié)點(diǎn)。如果在 reader的同一個(gè)機(jī)架上有一個(gè)副本，那么就讀該副本。 HDFS中的文件是 writeone，并且嚴(yán)格要求在任何時(shí)候只有一個(gè) writer。名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都是軟件運(yùn)行在普通的機(jī)器之上，機(jī)器典型的都是linux， HDFS 是用 java 來寫的，任何支持 java 的機(jī)器都可以運(yùn)行名字節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn)，利用 java 語言的超輕便型，很容易將 HDFS 部署到大范圍的機(jī)器上。最后歸納總結(jié)了系統(tǒng)平臺(tái)的功能需求。教學(xué)資源主題信息檢索能保證返回信息的精確性，用戶在檢索信息的時(shí)候就不必面對(duì)成千上萬條記錄而產(chǎn)生心理負(fù)擔(dān)。據(jù)賽迪網(wǎng)調(diào)查，有六成的網(wǎng)民認(rèn)為面向某一領(lǐng)域的搜索引擎對(duì)其非?；虮容^重要，因此當(dāng) 大學(xué)畢業(yè)生有了例如論文、外文翻譯、論文格式等某種特定需求時(shí)，他自然希望能夠使用面向這些特定需求的搜索引擎。 ? HBase: 一個(gè)分布式的、列存儲(chǔ)數(shù)據(jù)庫。作為 Google MapReduce 技術(shù)的開源實(shí)現(xiàn) ,Hadoop 理所當(dāng)然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。第四章基于 Hadoop平臺(tái)的 MDVSP模型。本文的工作包括： (1) 提出了基于 Hadoop 平臺(tái)的教育資源垂直搜索系統(tǒng) (MDVSP)模型。其中使用最多的是搜索引擎。 (4) 以 Hadoop 為基礎(chǔ)架構(gòu)，采用 Java 開發(fā)語言，設(shè)計(jì)并實(shí)現(xiàn) Hadoop 平臺(tái)的教育資源搜索系統(tǒng)。作者簽名：日期：指導(dǎo)教師簽名：日期：使用授權(quán)說明本人完全了解大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)（論文）的規(guī)定，即：按照學(xué)校要求提交畢業(yè)設(shè)計(jì)（論文）的印刷本和電子版本；學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)（論文）的印刷本和電子版，并提供目錄檢索與閱覽服務(wù)；學(xué)?？梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文；在不以贏利為目的前提下，學(xué)?？梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名：日期：學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。經(jīng)過詳細(xì) 的系統(tǒng)測(cè)試，系統(tǒng)在實(shí)現(xiàn)效率、搜索的準(zhǔn)確率和可擴(kuò)展性等方面較有代表性的垂直搜索平臺(tái) 先進(jìn) 。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網(wǎng)上信息，但由于它面江蘇大學(xué)碩士研究生畢業(yè)論文 2 向的是大眾，強(qiáng)調(diào)通用性，搜索結(jié)果中有很多雜亂信息，信息的準(zhǔn)確度較低，不能完全滿足基礎(chǔ)教育用戶的需求。包括切合本系統(tǒng)的分布式的集群整體框架和 HDFS 存放結(jié)構(gòu)。敘述基于 Hadoop平臺(tái)的教育資源垂直搜索模型 (MDVSP)，并闡述這種架構(gòu)的優(yōu)點(diǎn)，提出使用這種架構(gòu)可以解決目前現(xiàn)有搜索平臺(tái)在教育領(lǐng)域搜索中存在的一些問題。因此， Hadoop 也是一個(gè)能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架，這一點(diǎn)不足為奇。 HBase 使用 HDFS 作為底層存儲(chǔ)，同時(shí)支持 MapReduce 的批量式計(jì)算和點(diǎn)查詢 (隨機(jī)讀取 )。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。 2. 需要建立。江蘇大學(xué)碩士研究生畢業(yè)論文 12 第四章基于 Hadoop 平臺(tái)的 MDVSP 模型分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個(gè)運(yùn)行在普通的硬件上的分布式文件系統(tǒng)， HDFS是高容錯(cuò)性的，可以部署在低成本的硬件之上， HDFS大數(shù)據(jù)集的應(yīng)用程序。典型的部署時(shí)將有一個(gè)專門的機(jī)器來運(yùn)行名字節(jié)點(diǎn)軟件，機(jī)群中的其他機(jī)器運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)實(shí)例。Namenode全權(quán)管理 block的復(fù)制，它周期性地從集群中的每個(gè) Datanode接收心跳江蘇大學(xué)碩士研究生畢業(yè)論文 14 包和一個(gè) Blockreport。如果一個(gè) HDFS集群跨越多個(gè)數(shù)據(jù)中心，那么 reader也將首先嘗試讀本地?cái)?shù)據(jù)中心的副本?？蛻舳穗S后通知名字節(jié)點(diǎn)，這個(gè)文件已經(jīng)關(guān)閉。流水線復(fù)制當(dāng)某個(gè)客戶端向 HDFS文件寫數(shù) 據(jù)的時(shí)候，一開始是寫入本地臨時(shí)文件，假設(shè)該文件的 replication因子設(shè)置為 3，那么客戶端會(huì)從 Namenode 獲取一張Datanode列表來存放副本。 N個(gè)輸入文件會(huì)產(chǎn)生 M個(gè)待運(yùn)行的 Map任務(wù)，每個(gè) Map任務(wù)都會(huì)產(chǎn)生由系統(tǒng)配置江蘇大學(xué)碩士研究生畢業(yè)論文 17 好的規(guī)約任務(wù)數(shù)量相同的輸出文件。下面詳細(xì)講解一下每一個(gè)步驟的作用：江蘇大學(xué)碩士研究生畢業(yè)論文 18 圖操作流程圖 1. 分割文件 (fork) 首先，將眾多文件分成大小不等的若干小塊數(shù)據(jù)，數(shù)據(jù)塊大小由用戶給定參數(shù)控制，然后啟動(dòng)機(jī)器集群中的眾多程序拷貝。如此設(shè)

點(diǎn)擊復(fù)制文檔內(nèi)容

研究報(bào)告相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(留存版)

基于hadoop數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)畢業(yè)論文-資料下載頁

基于ssh的新聞發(fā)布系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文設(shè)計(jì)-資料下載頁

基于安卓平臺(tái)的手機(jī)助手的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-資料下載頁

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫吧

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-wenkub

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(已修改)

基于hadoop平臺(tái)的教育資源垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(編輯修改稿)