freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文(留存版)

2024-09-08 20:21上一頁面

下一頁面
  

【正文】 ............................................................ 64 第七章 總結(jié)與展望 ............................................. 65 總結(jié) ................................................................ 65 展望 ................................................................ 65 參考文獻 .................................................... 67 致 謝 ...................................................... 69 江蘇大學(xué)碩士研究生畢業(yè)論文 1 第 一 章 緒論 課題研究背景及意義 隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展, Web信息爆炸性的增長,互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間。 2. 由于在通過關(guān)鍵詞檢索方式中,關(guān)鍵詞與類別詞的混雜使用導(dǎo)致信息準(zhǔn)確度較低。包括框架、原理和詳細(xì)實現(xiàn)。 以 JAVA和 PERL為開發(fā)工具, 通過 Hadoop平臺框架 實現(xiàn) 基于上述架構(gòu)模型的 MDVSP系統(tǒng)的各層設(shè)計,并 列出相關(guān)功能的關(guān)鍵性 JAVA和PERL代碼。 2. 經(jīng)濟:框架可以運行在任何普通的 PC上。 Chukwa[79]運行 HDFS 中存儲數(shù)據(jù)的收集器,它使用 MapReduce 來生成 報告。 MDVSP搜索平臺的定位就是教育領(lǐng)域的幼稚園、小學(xué)、中學(xué)、大學(xué)、機構(gòu)培訓(xùn)以及成人教育。需要存儲保留一些用戶的關(guān)注度等信息。 Map/Reduce算法模型就是一種簡化并行計算的編程模型,它向上層用戶提供接口,屏蔽了并行計算特別是分布式處理的諸多細(xì)節(jié)問題,讓那些沒有多少并行計算經(jīng)驗的開發(fā)人員也可以很方便的開發(fā)并行應(yīng)用,避免了很多重復(fù)工作。數(shù)據(jù)節(jié)點是負(fù)責(zé)存儲。 通過一個稱為 Rack Awareness的過程, Namenode決定了每個 Datanode所屬的rack id。 數(shù)據(jù)組織 HDFS支持海量文件處理。 步驟 某個客戶端創(chuàng)建文件的請求其實并沒有立即發(fā)給 Namenode,事實上, HDFS客戶端會將文件數(shù)據(jù)緩存到本地的一個臨時文件。在文件劃分的時候并不考慮輸入文件的內(nèi)部邏輯結(jié)構(gòu),例如一個按行記錄的文本文件也會被按照二進制字節(jié)數(shù)大小進行片段劃分。當(dāng)一定數(shù)量的鍵值對被寫入時,這個緩沖區(qū)里的所有鍵值對會被清空轉(zhuǎn)移到 Combiner類的 Reduce方法中,然后將合并操作產(chǎn)生的鍵值對像原有的 Map操作一樣輸出。 5. 遠程讀取 (remote read) 當(dāng)執(zhí)行 Reduce任務(wù)的工作站被告知這些數(shù)據(jù)的位置,它通過遠程方式讀耿執(zhí)行 Map任務(wù)的工作站中的本地緩沖數(shù)據(jù)。存儲數(shù)據(jù)庫選用 Hadoop組件中的 HBase,由圖 底層結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲層主要包括兩個大規(guī)模的數(shù)據(jù)庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。數(shù)據(jù)查詢或者數(shù)據(jù)傳輸任何一個地方存在瓶頸就會造成分析結(jié)果的低效或者失敗。這張表的索引是行關(guān)鍵字,列關(guān)鍵字和時間戳?;?Hadoop 平臺的業(yè)務(wù)數(shù)據(jù)并行計算,將在后面章節(jié)詳細(xì)展開論述。 當(dāng)所有的 Map任務(wù)和 Reduce任務(wù)都已經(jīng)完成了的時候, Master激活用戶程序。最后,每個執(zhí)行的 Reduce任務(wù)的輸出都會包含一個輸出文件。例如 TextlnputFormat會讀取超過分割邊界值的 FileSplit的最后一行,當(dāng)讀到其他的非第一個FileSplit時, TextlnputFormat會忽略第一個新行以上部分的內(nèi)容。此時 Namenode才將文件創(chuàng)建操作提交到持久存儲。當(dāng)本地文件堆積到大于 HDFS塊大小的時候,客戶端聯(lián)系名字節(jié) 點。機架的錯誤遠遠比節(jié)點的錯誤少,這個策略不會影響到數(shù)據(jù)的可靠性和有效性。文件的所有 block為了容錯都會被復(fù)制。它同時確定塊與數(shù)據(jù)節(jié)點的映射。 本章小結(jié) 本章節(jié)深入描述 MDVSP軟件的功能和性能需求。 江蘇大學(xué)碩士研究生畢業(yè)論文 10 圖 MDVSP搜索資源類型 MDVSP 搜索平臺功能需求 本搜索引擎是通過聚焦蜘蛛自動獲取相關(guān)的教育資源并建立索引,為用戶提供有效信息和相關(guān)服務(wù)的。 造成這種現(xiàn)象的原因是什么呢?用一句話概括就是“ 網(wǎng)民多樣化,需求多樣化 ”。 ? HDFS: (Hadoop Distributed File System)分布式文件系統(tǒng),運行于大型商用機集群。幸運的是, Doug Cutting 開發(fā) Hadoop 作為 MapReduce[56]開源實現(xiàn),讓 MapReduce 這么平易近人地走到了我們面前。介紹 Hadoop的概念和 Hadoop的優(yōu)點, Hadoop平臺架構(gòu)。 信息服務(wù)缺乏針對性,缺少用戶交互。因此,如何對通用搜索引擎技術(shù)進行改進,使查詢的結(jié)果更加貼近用戶的要求,成為搜索引擎行業(yè)近期的研究熱點。 (2) 基于抽樣調(diào)查和教育經(jīng)驗, 進行 MDVSP 的軟件需求分析,設(shè)計基于Hadoop 平臺的教育資源垂直搜索 (MDVSP)架構(gòu)模型。 學(xué)位論文作者簽名: 指導(dǎo)教師簽名: 年 月 日 年 月 日 畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明 原創(chuàng)性聲明 本人鄭重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。本人完全意識到本聲明的法律后果由本人承擔(dān)。 Hadoop。比如說,一位教師輸入“《阿 Q 正傳》教案”,關(guān)鍵詞“阿 Q 正傳”是主題信息,關(guān)鍵詞 “教案”,是類別限制信息,再如一個學(xué)生查找“八年級(上)生物學(xué)試題”為學(xué)段(年級)、學(xué)科和資源類型的組合。 (4) 設(shè)計和封裝了 RPC 遠程調(diào)用協(xié)議。 闡述基于 Hadoop平臺模型下構(gòu)建教育資源垂直搜索系統(tǒng) (MDVSP)中用到的關(guān)鍵技術(shù)。 Hadoop 的可擴展性 依賴于部署 Hadoop 軟件框架計算集群的規(guī)模 ,Hadoop 的運算是可擴展的,具有處理 PB 級數(shù)據(jù)的能力。 ? Hive: 分布式數(shù)據(jù)倉庫。 MDVSP不關(guān)注 搜索信息的 競價排名的現(xiàn)狀, 所以 MDVSP搜索引擎的 在教育界的價 值便突出出來。建立了社區(qū),為用戶尋求幫助提供了很好的渠道,也滿足教育工作者之間的直接經(jīng)驗交流。 NameNode上元數(shù)據(jù)控制 DataNode信息。名字節(jié)點是仲裁者和所有 HDFS 的元數(shù)據(jù)的倉庫。 HDFS采用一種稱為 rackaware的策略來改進數(shù)據(jù)的可靠性、有效性和網(wǎng)絡(luò)帶寬的利用。 Blockreport包括了某個 Datanode所有的數(shù)據(jù)塊列表。這些應(yīng)用都是寫數(shù)據(jù)一次,讀卻是一次到多次,并且讀的速度要滿足流式讀。這就是流水線式的復(fù)制 。由于效率的原因,有時需要充分利用這個事實的優(yōu) 點去提供一個執(zhí)行規(guī)約類型功能的 Combiner類。 3. 讀取 (read) 被指派執(zhí)行 Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過 Map函數(shù)處理,得到中問鍵值時,存入內(nèi)存緩沖區(qū)。在這一層里我們利用相應(yīng)的代碼實現(xiàn)前面設(shè)計好的一些關(guān)鍵算法?!耙淮螌懭耄啻巫x取”是 Hbase 數(shù)據(jù)庫最大的特色。由于是稀疏存儲的,所以同一張表的每一行數(shù)據(jù)都可以有截然不同的列。但它不適合于處理關(guān)系型很強的結(jié)構(gòu)化數(shù)據(jù),因為它本身并不是完全的關(guān)系型數(shù)據(jù)。如圖 所示,在 Browser/Server 三層體系結(jié)構(gòu)下,表示層、邏輯層、數(shù)據(jù)存儲層被分割成三個相對獨立的單元,有效地實現(xiàn)了數(shù)據(jù)存儲、功能邏輯與用戶 使用界面的分離,并真正實現(xiàn)了顯示、計算、數(shù)據(jù)的分離。 Map/Reduce 執(zhí)行流程 Map/Reduce的系統(tǒng)執(zhí)行流程如圖 ,從數(shù)據(jù)流的角度展示了Map/Reduce算法模型。絕大多數(shù)的應(yīng)用僅僅使用行的內(nèi)容而忽略行在文件中的偏移量。如果不采用客戶端緩存,由于網(wǎng)絡(luò)速度和網(wǎng)絡(luò)堵塞會對吞估量造成比較大的影響。當(dāng)文件關(guān)閉,還有一些沒有刷新的本地臨時文件也被傳遞到數(shù)據(jù)節(jié)點。如果在 reader的同一個機架上有一個副本,那么就讀該副本。 HDFS中的文件是 writeone,并且嚴(yán)格要求在任何時候只有一個 writer。名 字節(jié)點和數(shù)據(jù)節(jié)點都是軟件運行在普通的機器之上,機器典型的都是linux, HDFS 是用 java 來寫的,任何支持 java 的機器都可以運行名字節(jié)點或數(shù)據(jù)節(jié)點,利用 java 語言的超輕便型,很容易將 HDFS 部署到大范圍的機器上。最后歸納總結(jié)了系統(tǒng)平臺的功能需求。 教學(xué)資源主題信息檢索能保證返回信息的精確性,用戶在檢索信息的時候就不必面對成千上萬條記錄而產(chǎn)生心理負(fù)擔(dān)。據(jù)賽迪網(wǎng)調(diào)查,有六成的網(wǎng)民認(rèn)為面向某一領(lǐng)域的搜索引擎對其非?;虮容^重要,因此當(dāng) 大學(xué)畢業(yè)生有了例如論文、外文翻譯、論文格式 等某種特定需求時,他自然希望能夠使用面向這些特定需求的搜索引擎。 ? HBase: 一個分布式 的、列存儲數(shù)據(jù)庫。作為 Google MapReduce 技術(shù)的開源實現(xiàn) ,Hadoop 理所當(dāng)然地借鑒了 Google 的 Google File System 文件系統(tǒng)、 MapReduce 并行算法以及 BigTable。 第四章 基于 Hadoop平臺的 MDVSP模型 。 本文的工作包括: (1) 提出了 基于 Hadoop 平臺的教育資源垂直搜索系統(tǒng) (MDVSP)模型。其中使用最多的是搜索引擎。 (4) 以 Hadoop 為基礎(chǔ)架構(gòu),采用 Java 開發(fā)語言,設(shè)計并實現(xiàn) Hadoop 平臺的教育資源搜索系統(tǒng)。 作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日 期: 使用授權(quán)說明 本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢 業(yè)設(shè)計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。 作者簽名: 日 期: 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。經(jīng)過詳細(xì) 的 系統(tǒng)測試,系統(tǒng)在實現(xiàn)效率、搜索的準(zhǔn)確率和可擴展性 等方面較有代表性的垂直搜索平臺 先進 。 2. 目前的搜索引擎還不能完全滿足用戶需求 [2] 綜合性通用搜索引擎在一定程度上方便了用戶查找利用網(wǎng)上信息,但由于它面江蘇大學(xué)碩士研究生畢業(yè)論文 2 向的是大眾,強調(diào)通用性,搜索結(jié)果中 有很多雜亂信息,信息的準(zhǔn)確度較低,不能完全滿足基礎(chǔ)教育用戶的需求。 包括切合本系統(tǒng)的分布式的集群整體框架 和 HDFS 存放結(jié)構(gòu)。 敘述基于 Hadoop平 臺的教育資源垂直搜索模型 (MDVSP),并闡述這種架構(gòu)的優(yōu)點,提出使用這種架構(gòu)可以解決目前現(xiàn)有搜索平臺在教育領(lǐng)域搜索中存在的一些問題。因此, Hadoop 也是一個能夠分布式處理大規(guī)模海量數(shù)據(jù)的軟件框架,這一點不足為奇。 HBase 使用 HDFS 作為底層存儲,同時支持 MapReduce 的批量式計算和點查詢 (隨機讀取 )。但這些需求的復(fù)雜性與多樣性都是傳統(tǒng)搜索引擎無法滿足的。 2. 需要建立 。 江蘇大學(xué)碩士研究生畢業(yè)論文 12 第四章 基于 Hadoop 平臺的 MDVSP 模型 分布式文件系統(tǒng) HDFS 與 Map/Reduce 技術(shù) Hadoop文件系統(tǒng) (HDFS)是一個運行在普通的硬件上的分布式文件系統(tǒng), HDFS是高容錯性的,可以部署在低成本的硬件之上, HDFS大數(shù)據(jù)集的應(yīng)用程序。典型的部署時將有一個專門的機器來運行名字節(jié)點軟件,機群中的其他機器運行一個數(shù)據(jù)節(jié)點實例。Namenode全權(quán)管理 block的復(fù)制,它周期性地從集群中的每個 Datanode接收心跳江蘇大學(xué)碩士研究生畢業(yè)論文 14 包和一個 Blockreport。如果一個 HDFS集群跨越多個數(shù)據(jù)中心,那么 reader也將首先嘗試讀本地數(shù)據(jù)中心的副本。客戶端隨后通知名字節(jié)點,這個文件已經(jīng)關(guān)閉。 流水線復(fù)制 當(dāng)某個客戶端向 HDFS文件寫數(shù) 據(jù)的時候,一開始是寫入本地臨時文件,假設(shè)該文件的 replication因子設(shè)置為 3,那么客戶端會從 Namenode 獲取一張Datanode列表來存放副本。 N個輸入文件會產(chǎn)生 M個待運行的 Map任務(wù),每個 Map任務(wù)都會產(chǎn)生由系統(tǒng)配置江蘇大學(xué)碩士研究生畢業(yè)論文 17 好的規(guī)約任務(wù)數(shù)量相同的輸出文件。下面詳細(xì)講解一下每一個步驟的作用: 江蘇大學(xué)碩士研究生畢業(yè)論文 18 圖 操作流程圖 1. 分割文件 (fork) 首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機器集群中的眾多程序拷貝。如此設(shè)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1