freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云計算文件系統(tǒng)的實現(xiàn)畢業(yè)設計(論文)(編輯修改稿)

2025-08-23 13:41 本頁面
 

【文章內(nèi)容簡介】 op 架構平臺可以給出云計算的執(zhí)行過程如下圖所示。 云計算架構 Hadoop MapReduce API (Map,Reduce) BigTable (分布式數(shù)據(jù)庫 ) GFS( Goole 分布式文件系統(tǒng) ) 南華大學計算機科學與技術畢業(yè)設計(論文) 第 12 頁 共 54 頁 圖 云計算的執(zhí)行過程 Hadoop 作為應用最廣泛的云計算編程環(huán)境所以它有著大量的優(yōu)點: 1)可擴展性:不管是計算機的擴展性還是存儲的擴展性都是 hadoop 設計的基礎對 hadoop 的設計十分重要, hadoop 的擴展性十分的簡單,不用修改已有的任何結構。 2) Hadoop 很可靠: mapreduce 的監(jiān)控和分布式文件系統(tǒng)備份恢復機制使hadoop 有了很高的可靠性。 3)對硬件要求低: hadoop 架構能在任何計算機上執(zhí)行,對計算機沒有什么特殊的要求。 MapReduce API Master Worker1 worker2…… ..workern 選擇執(zhí)行Map 程序的 Worker機器 分配數(shù)據(jù)塊到執(zhí)行map 的機器執(zhí)行 將 map 結果存到本機磁盤 選擇執(zhí)行Reduce程序的worker 機器 結合 GFS 和BigTable 讀取遠程Map,混合、匯聚、排序,執(zhí)行 Reduce 南華大學計算機科學與技術畢業(yè)設計(論文) 第 13 頁 共 54 頁 Hadoop 得以在大數(shù)據(jù)處理應用中廣泛應用得益于其自身在數(shù)據(jù)提取、變形和加載 (ETL)方面上的天然優(yōu)勢。 Hadoop 的分布式架構,將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像 ETL 這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。 Hadoop 的 MapReduce 功能實現(xiàn)了將單個任務打碎,并將碎片任務發(fā)送 (Map)到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。 Hadoop 的最常見用法之一是 Web 搜索。雖然它不是惟一的 軟件 框架 應用程序 ,但作為一個并行 數(shù)據(jù)處理 引擎,它的表現(xiàn)非常突出。 Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到 Google 開發(fā)的啟發(fā)。這個流程稱為創(chuàng)建索引,它將 Web 爬行器 檢索到的文本 Web 頁面作為輸入,并且將這些頁面上的單詞的頻率報告作為結果。然后可以在整個 Web 搜索過程中使用這個結果從已定義的搜索參數(shù)中識別內(nèi)容。 MapReduce 分布式處理技術的介紹 MapReduce 是 Goole 開發(fā)的 c++、 java、 python 的編程工具,用于大規(guī)模的數(shù)據(jù)集的并行運算,同時也是云計算的核心 技術,一種分布式運算技術,也是簡化的分布式編程模式,適合處理大量的數(shù)據(jù)的分布式運算,用于解決問題的程序開發(fā)模式,同時也是開發(fā)人員解決問題的方法。 MapReduce 模式的運行方式是將問題拆分為 Map 映射和 Rduce 化簡的方法,先通過映射程序?qū)?shù)據(jù)分割成不相關的區(qū)塊,調(diào)度非大量計算機處理達到分布式運算的效果,然后通過化簡程序?qū)⒔Y果整合起來,最后輸出開發(fā)者需要的結果。 MapReduce 軟件實現(xiàn)是指定 一個 映射函數(shù),把鍵值對( key/value)映射成新的鍵值對,并形成一系列的中間形式的 key/value 對,在把他們傳給化簡函數(shù),把有相同中間形式的 key 及 value 合并在一起。這里的 map 及 reduce 具有一定的關聯(lián)性,如表 所示。 南華大學計算機科學與技術畢業(yè)設計(論文) 第 14 頁 共 54 頁 表 map、 reduce 關聯(lián)表 其中 v v2 即可以使簡單數(shù)據(jù),也可是一組數(shù)據(jù),對應不同的映射函數(shù)規(guī)則。在 map 過程中將數(shù)據(jù)并行,就是把數(shù)據(jù)用映射函數(shù)分開,而 redduce 是把分開后處理過的分開數(shù)據(jù)用化簡函數(shù)的規(guī)則在整合在一起,其實就是 map 函數(shù)是將數(shù)據(jù)分開的過程,而 reduce 則是對應的整合數(shù)據(jù) 。使用 mapreduce,即使編程人員不會分布式并行編程的情況下,也同樣可以將自己的程序運行在分布式系統(tǒng)上。 Mapreduce 的應用也十分廣泛包括簡單的計算任務、集群計算環(huán)境和海量輸入數(shù)據(jù)等。 MapReduce 架構 MapReduce 主要用于處理產(chǎn)生大數(shù)據(jù)集的相關實現(xiàn)。用戶指定一個映射函數(shù)來處理一個 key/value 對,從而形成一些列中間形式的 key/value 對。然后再指定一個化簡函數(shù)合并所有的具有相同中間形式的 key 的 value 合并在一起。下面將通過舉例來反應 mapreduce 的架構形式 。 Mapreduce 的主從結構: 主節(jié)點,只有一個 : JobTracker 其主要的功能負責接收客戶提交的計算任務、把計算任務分配給 TaskTrackers 執(zhí)行、監(jiān)控 TaskTracker 的執(zhí)行情況、 從節(jié)點,有很多個: TaskTrackers 它的主要功能是執(zhí)行 JobTracker 分配的計函數(shù) 輸入 輸出 Map Reduce ( K1, l1) ( k2, list( v2)) List( k2, v2) List( v2) 南華大學計算機科學與技術畢業(yè)設計(論文) 第 15 頁 共 54 頁 算任務。 下面為舉例查看 mapreduce 架構報表系統(tǒng),數(shù)據(jù)庫和數(shù)據(jù)倉庫會設計的比較麻煩,送一個指令給數(shù)據(jù)庫。報表內(nèi)存可能小于數(shù)據(jù)庫數(shù)據(jù),不能一次性加載,可以采用分布讀取,但十分慢,報表系統(tǒng)負責計算的性能遠遠低 于數(shù)據(jù)量本身。數(shù)據(jù)量本身遠遠超過了計算能力,只能用時間換空間。怎么改進?如果都跑相同的報表系統(tǒng),跑多臺,上面做累加,但是數(shù)據(jù)庫這塊分成三份,北京一個庫,河北一個庫,可以報表 1 系統(tǒng)跑北京數(shù)據(jù),報表系統(tǒng) 2 跑天津數(shù)據(jù),這樣每個報表處理的數(shù)據(jù)量處理為原來的一部分。再找一臺服務器進行匯總,匯總只是加上,邏輯是不一樣的。如果要處理海量數(shù)據(jù),從目前硬件的局限,只能是運行很多的服務器來處理海量數(shù)據(jù),運行少量的服務器處理中間結果。把邏輯拆分不同的系統(tǒng)中。 MapReduce :匯總和報表系統(tǒng)。報表叫 map 最后的 匯總叫 reduce .讓一個節(jié)點關系管理這些東西, Map 和 reduce 在管理上看沒有什么差別,由他分配誰是什么角色。其 mapreduce 架構圖形如下。 這一部分是mapreduce 報表系統(tǒng)一 Map 報表系統(tǒng) 2 報表系統(tǒng) 3 管理節(jié)點 客戶 數(shù)據(jù)庫是分布式的 匯總系統(tǒng) reduce 南華大學計算機科學與技術畢業(yè)設計(論文) 第 16 頁 共 54 頁 圖 報表 mapreduce 架構圖 HDFS 簡介 HDFS 是 Hadoop 實現(xiàn)的一個分布式文件系統(tǒng), HDFS 具 有高 容錯性 的特點,為了保證數(shù)據(jù)的一致性,一般都采用一次寫入,多次讀取的方式。 并且設計用來部署在低廉的( lowcost)硬件 設備 上 ,它有單一的文本空間, 而且它提供高傳輸率( high throughput)來訪問 應用程序 的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集( large data set)的應用程序。 HDFS 放寬了( relax) POSIX 的要求,可以以流的形式訪問( streaming access)文件系統(tǒng) 中的數(shù)據(jù)。 其中 HDFS 他把數(shù)據(jù)分成很多很小的快,以 64M 的大小為一個快,塊是磁盤上最小單位。每個數(shù)據(jù)塊( block)在很多個從節(jié)點存有數(shù)據(jù),客戶端是通過主節(jié)點獲取數(shù)據(jù)塊的位置,然后訪問從節(jié)點獲取數(shù)據(jù)。 ( 1)與普通文件系統(tǒng)的比較 分布式文件系統(tǒng)較普通的文件系統(tǒng)而言,其相同的是分布式文件系統(tǒng)中的文件也是被分成以大小為 64MB 為一塊的數(shù)據(jù)塊存儲的,而與普通的文件系統(tǒng)不同之處在于,當一個文件的大小不足 64mb 時,則這個文件將不占用整個數(shù)據(jù)塊。 ( 2)主從結構 首先介紹主節(jié)點和從節(jié)點。 主節(jié)點:只有一個 Namenode, 其主要的功能責任是接受用戶的操作請求、 維護文件系統(tǒng)的目錄結構,便于對文件進行分類管理及管理文件與 Block 之間關系, Block 與 Datanode 之間關系。 從節(jié)點:有很多個 Datanode,它的主要功能職責是存儲文件,當文件被分成很多數(shù)據(jù)塊時,將其存放在磁盤上。 下面我們通過一個主從節(jié)點的例子在了解一下主從結構。 主從結構: 須有地方存儲服務器和磁盤的映射關系。 和具體數(shù)據(jù)的對應信息。又叫做元數(shù)據(jù)信息。檢索數(shù)據(jù)更快的話,先訪問元數(shù)據(jù)。所有的節(jié)點信息,包括容量信息(不斷變化, 需要通過節(jié)點和元數(shù)據(jù)不斷可以通信,經(jīng)常通信可以稱為心跳機制,節(jié)點不停向元數(shù)據(jù)發(fā)送信息,元數(shù)據(jù)的職責已經(jīng)改變,管理各個節(jié)點的資源情況)都在元數(shù)據(jù)節(jié)點上注冊,元數(shù)據(jù),索引機制,數(shù)據(jù)量越大,價值越能體現(xiàn)出來。 引出角色劃分:繼續(xù)增加節(jié)點的時候會比較麻煩。節(jié)點上面跑程序,不停的 南華大學計算機科學與技術畢業(yè)設計(論文) 第 17 頁 共 54 頁 發(fā)送信息。節(jié)點上面跑服務,不會停止。調(diào)用元數(shù)據(jù)函數(shù),傳入形參,我節(jié)點的信息。元數(shù)據(jù)職責,處理每個節(jié)點的信息。客戶可以和節(jié)點通信,也可以和元數(shù)據(jù)通信,也可以元數(shù)據(jù)和節(jié)點通信。元數(shù)據(jù)就是 Namenode,主節(jié)點。 下面通過一個 例子的圖來了解一下元數(shù)據(jù)維護文件和快的關系,以及快與所在節(jié)點的關系。 圖 主從結構圖 ( 3) 文件系統(tǒng)的名字空間 傳統(tǒng)的文件組織體系結構是被 HDFS 所支持的,程序或用戶可以創(chuàng)建目錄,并在其中存儲自己想要存儲的文件。名字空間結構與大多數(shù)文件系統(tǒng)是十分相似的。用戶可以對文件進行刪除、創(chuàng)建或者讓文件從一個目錄移到另外一個目錄以及對一個文件進行重命名等操作。就現(xiàn)在的 DHFS 而言還不能實現(xiàn)訪問權限控制及用戶配置,也不支持軟硬連接。然而,就現(xiàn)在的 DHFS 這些性能都不會被影響到。 元數(shù)據(jù) (管理節(jié)點) 節(jié)點 磁盤 a 節(jié)點 磁盤 b 節(jié)點 磁盤 c 服務器 心跳機制 南華大學計算機科學與技術畢業(yè)設計(論文) 第 18 頁 共 54 頁 HDFS 體系結構 在 HDFS 中,是由給定的名字節(jié)點 NameNode 來管理一些文件系統(tǒng)的名字空間操作的,例如打開和關閉及重命名目錄或文件。名字節(jié)點 NameNode 會將block 映射到數(shù)據(jù)節(jié)點 DataNode 上,并處理來自 HDFS 客戶端的讀或?qū)懻埱?。DataNode 數(shù)據(jù)節(jié)點還根據(jù) NameNode 名字節(jié)點指令刪除、創(chuàng)建及復制數(shù)據(jù)塊。HDFS 體系架構,如下圖所 示。 圖 DHFS 體系結構 從 DHFS 體系結構圖可以看出,一個集群包含一個主節(jié)點,使系統(tǒng)機構得到了很大的簡化。主節(jié)點作為系統(tǒng)元數(shù)據(jù)的存儲及仲裁者,使得這種設計形成了一個簡化模型用來管理每個名稱空間的數(shù)據(jù)分布,使得用戶數(shù)據(jù)不會流經(jīng)名字節(jié)點。 客戶端 Namenode Metadata ops Read datanodes 客戶端 寫 blocks 應用 Block ops datanodes 存儲服務器 存儲服務器 南華大學計算機科學與技術畢業(yè)設計(論文) 第 19 頁 共 54 頁 ( 1)主節(jié)點 和 從節(jié)點 之間的關系 主節(jié)點和從節(jié)點是一些軟件組件,主要目的是用一種解耦和方式跨越多個異構操作系統(tǒng)在普通的計算機上運行。 HDFS 是由 Java 編程語言編寫的,因此,HDFS 能在任何支持 Java 編程語言的機器上運行。在一個集群里擁有一 臺專用機器,用來運行一個主節(jié)點,可能還有一個從節(jié)點,其他集群中的機器都運行一個從節(jié)點。 HDFS 典型部署是在專門的機器上運行主節(jié)點,集群中的其他機 從節(jié)點;也可以在運行主節(jié)點的機器上同時運行從節(jié)點,也可以一臺機器上運行多個從節(jié)點。一個集群只能一個主節(jié)點。 主節(jié)點使用事物日志( editLog)用來記錄 HDFS 元數(shù)據(jù)的變化,同時也使用使用映射文件( FsImage)存儲文件系統(tǒng)的命名空間,其中包含文件的屬性信息等。映射文件和事物日志都存儲在主節(jié)點的本地文件系統(tǒng)中。主節(jié)點啟動時,從一存儲的了映射文件和事物日志的盤里 讀取映射文件和事物日志,使事物日志的事物都可以應用到內(nèi)存中的映射文件上,然后將新的元數(shù)據(jù)移動到本地磁盤新的映射文件中,這樣就可以截去舊的事物日志,這個過程通常被稱為檢查
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1