freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

hadoop常見筆試題答案-閱讀頁

2025-08-22 10:44本頁面
  

【正文】 根據我們的實際生產中來更改block的大小,如果block定義的太小,大的文件都會被切分成太多的小文件,減慢用戶上傳效率,如果block定義的太大,那么太多的小文件可能都會存到一個block塊中,雖然不浪費硬盤資源,可是還是會增加namenode的管理內存壓力。8. (5分)在一個運行的hadoop任務中,什么是InputSplit?答: InputSplit是MapReduce對文件進行處理和運算的輸入單位,只是一個邏輯概念,每個InputSplit并沒有對文件實際的切割,只是記錄了要處理的數據的位置(包括文件的path和hosts)和長度(由start和length決定),默認情況下與block一樣大。屬于split和mapper之間的一個過程,將inputsplit輸出的行為一個轉換記錄,成為keyvalue的記錄形式提供給mapper11. (3分)Map階段結束后,Hadoop框架會處理:Partitioning, Shuffle和Sort,在這幾個階段都發(fā)生了什么?答:Partition是對輸出的key,value進行分區(qū),可以自定義分區(qū),按照業(yè)務需求,將map的輸出歸分到多個不同的文件中 將map的輸出作為輸入傳給reducer 稱為shuffle sort是排序的過程,將map的輸出,作為reduce的輸入之前,我們可以自定義排序,按照key來對map的輸出進行排序12. (5分)如果沒有定義partitioner,那數據在被送達reducer前是如何被分區(qū)的?答:()時被調用。 hadoop有一個默認的分區(qū)類,HashPartioer類,通過對輸入的k2去hash值來確認map輸出的k2,v2送到哪一個reduce中去執(zhí)行。biner的輸入輸出類型必須和mapper的輸出以及reducer的輸入類型一致14. (3分)分別舉例什么情況要使用 biner,什么情況不使用?答:求平均數的時候就不需要用biner,因為不會減少reduce執(zhí)行數量。16. (5分)如何為一個hadoop任務設置mappers的數量?答:map的數量通常是由hadoop集群的DFS塊大小確定的,也就是輸入文件的總塊數,正常的map數量的并行規(guī)模大致是每一個Node是10~100個,對于CPU消耗較小的作業(yè)可以設置Map數量為300個左右,但是由于hadoop的沒一個任務在初始化時需要一定的時間,因此比較合理的情況是每個map執(zhí)行的時間至少超過1分鐘。這個參數設置的map數量僅僅是一個提示,只有當InputFormat 。這個方法能夠用來增加map任務的個數,但是不能設定任務的個數小于Hadoop系統通過分割輸入數據得到的值。17. (3分)hdfs文件寫入的流程? 2) NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。18. (3分)hdfs文件讀取的流程? 2) NameNode返回文件存儲的DataNode的信息。一個集群只有一個NameNode的設計大大簡化了系統架構。這里同樣沒有DFS,使用的是本地文件系統。20. (3分)偽分布模式中的注意點?答:偽分布式(Pseudo)適用于開發(fā)和測試環(huán)境,在這個模式中,所有守護進程都在同一臺機器上運行。這里會存在Namenode運行的主機,Datanode運行的主機,以及task tracker運行的主機。
點擊復制文檔內容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1