freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop綜述-閱讀頁

2024-08-24 00:08本頁面
  

【正文】 he job is ready for execution MapReduce2Job Initialization ? job scheduler initialize job creating an object to represent the job encapsulates its tasks, and bookkeeping information ? create the list of tasks retrieves the input splits creates one map task for each split. ? 它的輸入往往是輸入文件的一個數(shù)據(jù)塊,或者是數(shù)據(jù)塊的一部分, 但通常,不跨數(shù)據(jù)塊 。這是依照分布式文件數(shù)據(jù)塊的位置來劃分的,比如一 個 Map任務(wù)需要用某個數(shù)據(jù)塊,這個數(shù)據(jù)塊有三份備份,那么,在這三臺服務(wù)器上都會掛上此任務(wù),可以視為是一個預(yù)分配 ? 兩步:選作業(yè),分任務(wù)。默認分配器,是JobQueueTaskScheduler ? Map task data locality considerations MapReduce4Task Execution ? First, it localizes the job JAR by copying it from the shared filesystem to the tasktracker’s filesystem. ? It also copies any files needed from the distributed cache by the application to the local disk。 Streamy 使用 RDBMS ? ? 是一個實時新聞聚合器,使用 PostgreSQL。 ? 除存儲,復(fù)雜查詢之一:從一個資源集合中讀取按時間排序的所有條目列表。整個團隊成為 DBA。 Streamy 解決辦法 ? RDBMS能實現(xiàn)需求,但是 ? 需要考慮伸宿性和性能,而 非正確性 ? RDBMS開銷和復(fù)雜性成為障礙 ? 存儲層抽象都是障礙 ? Hbase解決 ? 信賴 Hbase擴展存儲而非邏輯 ? 專注于應(yīng)用邏輯而非擴展本身 ? 目前已有上億行上萬列。 Hbase數(shù)據(jù)模型 ? 定義 :BT是一個稀疏的,長期存儲的,多維度的,排序的映射表 。 ? 行關(guān)鍵字可以是任意字符串 ? 表用行鍵即主鍵排序,通過主鍵訪問表。 Hbase數(shù)據(jù)模型 列族 ? 每行列分組形成列族: “family:qualifiers” ? 每張表有一個 family集合,固定不變,相當于表結(jié)構(gòu) ? 列族成員有相同前綴。比如, Webtable列族是 anchor;給列族的每一個列關(guān)鍵字代表一個錨鏈接 ? 物理存儲 ? 列族成員在文件系統(tǒng)存在一起,(確切)面向列族。 Hbase數(shù)據(jù)模型 時間戳 ? 表中每一個表項都可以包含同一數(shù)據(jù)的多個版本不同版本的表項內(nèi)容按時間戳倒序排列,即最新的排在前面。用戶可以指明只保留表項的最后 n個版本 ? 在 Webtable中,在 contents:列中存放確切爬行一個網(wǎng)頁的時間戳。 Hbase數(shù)據(jù)模型 ? 行名是一個反向 URL{即 }。 ? CNN的主頁被 Sports Illustrater和 MYlook的主頁引用,因此該行包含了名叫“ anchor:”和 “ anchhor:”的列。 一個存儲 Web網(wǎng)頁的例子的表的片斷 Hbase數(shù)據(jù)模型 概念視圖 ? 一個表可以想象成一個大的映射關(guān)系,通過主鍵,或者主鍵 +時間戳,可以定位一行數(shù)據(jù),由于是稀疏數(shù)據(jù),所以某些列可以是空白的,下面就是數(shù)據(jù)的概念視圖: Hbase數(shù)據(jù)模型 物理視圖 ? 在物理存儲上面,它是按照列來保存的, ? 在概念視圖上面有些列是空白的,這樣的列實際上并不會被存儲 ? 如果在查詢的時候不提供時間戳,返回最新版本 區(qū)域( tablet) ? 表橫向分不同區(qū)域,各區(qū)域代表所有行一個子集 ? 區(qū)域確定:第一行(包含)最后行(不含) +隨機標識 ? 表初始單個區(qū)域 逐漸擴大超過閾值 以行為界分割 ? 區(qū)域分散在 HBase集群上單元 ? Bigtable通過行關(guān)鍵字的字典序來維護數(shù)據(jù)。這樣一來,讀較少的連續(xù)行就比較有效率 架構(gòu)與實現(xiàn) ? Hbase由主節(jié)點 master多個區(qū)域服務(wù)器 regionserver從結(jié)點 ? Master ? 分配區(qū)域給已注冊的區(qū)域服務(wù)器 ? Regionserver ? 負責 0到多個區(qū)域,響應(yīng)客戶端讀寫請求 ? 通知 master分裂成子區(qū)域信息 特性 ? 無真正索引 ? 行順序,無索引膨脹問題,插入操作性能與表大小無關(guān) ? 自動分區(qū) ? 商用硬件 ? 建立在 10005000節(jié)點, RDBMS非常消耗 IO? Hbase API ? BT的API提供了建立和刪除表和列族的函數(shù).還提供了函數(shù)來修改集群,表和列族的元數(shù)據(jù),比如說訪問權(quán)限 Hbase API: 寫入 Bigtable. ? / Open the table ? Table *T = OpenOrDie(”/bigtable/web/webtable”)。 ? (”anchor:”, “CNN”)。 ? Operation op。op, amp。 Hbase API: 寫入 Bigtable. ? 在BT中,客戶應(yīng)用可以寫或者刪除值,從每個行中找值,或者遍歷一個表中的數(shù)據(jù)子集.圖 2的C++代碼是使用 RowMutation抽象表示來進行一系列的更新(為保證代碼精簡,沒有包括無關(guān)的細節(jié)).調(diào)用Apply函數(shù),就對W ebtable進行了一個原子修改:它為 外一個錨點. Hbase API: 讀 Bigtable. ? Scanner scanner(T)。 ? stream = (”anchor”)。 ? (””)。 !streamDone()。 Hbase API: 讀 Bigtable. ? C++代碼是使用 Scanner抽象來遍歷一個行內(nèi)的所有錨點.客戶可以遍歷多個列族.有很多方法可以限制一次掃描中產(chǎn)生的行,列和時間戳.例如,我們可以限制上面的掃描,讓它只找到那些匹配正則表達式*.,或者那些時間戳在當前時間前 10天的錨點. The End
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1