freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hadoop常見筆試題答案-閱讀頁(yè)

2025-08-22 10:44本頁(yè)面
  

【正文】 根據(jù)我們的實(shí)際生產(chǎn)中來(lái)更改block的大小,如果block定義的太小,大的文件都會(huì)被切分成太多的小文件,減慢用戶上傳效率,如果block定義的太大,那么太多的小文件可能都會(huì)存到一個(gè)block塊中,雖然不浪費(fèi)硬盤資源,可是還是會(huì)增加namenode的管理內(nèi)存壓力。8. (5分)在一個(gè)運(yùn)行的hadoop任務(wù)中,什么是InputSplit?答: InputSplit是MapReduce對(duì)文件進(jìn)行處理和運(yùn)算的輸入單位,只是一個(gè)邏輯概念,每個(gè)InputSplit并沒有對(duì)文件實(shí)際的切割,只是記錄了要處理的數(shù)據(jù)的位置(包括文件的path和hosts)和長(zhǎng)度(由start和length決定),默認(rèn)情況下與block一樣大。屬于split和mapper之間的一個(gè)過(guò)程,將inputsplit輸出的行為一個(gè)轉(zhuǎn)換記錄,成為keyvalue的記錄形式提供給mapper11. (3分)Map階段結(jié)束后,Hadoop框架會(huì)處理:Partitioning, Shuffle和Sort,在這幾個(gè)階段都發(fā)生了什么?答:Partition是對(duì)輸出的key,value進(jìn)行分區(qū),可以自定義分區(qū),按照業(yè)務(wù)需求,將map的輸出歸分到多個(gè)不同的文件中 將map的輸出作為輸入傳給reducer 稱為shuffle sort是排序的過(guò)程,將map的輸出,作為reduce的輸入之前,我們可以自定義排序,按照key來(lái)對(duì)map的輸出進(jìn)行排序12. (5分)如果沒有定義partitioner,那數(shù)據(jù)在被送達(dá)reducer前是如何被分區(qū)的?答:()時(shí)被調(diào)用。 hadoop有一個(gè)默認(rèn)的分區(qū)類,HashPartioer類,通過(guò)對(duì)輸入的k2去hash值來(lái)確認(rèn)map輸出的k2,v2送到哪一個(gè)reduce中去執(zhí)行。biner的輸入輸出類型必須和mapper的輸出以及reducer的輸入類型一致14. (3分)分別舉例什么情況要使用 biner,什么情況不使用?答:求平均數(shù)的時(shí)候就不需要用biner,因?yàn)椴粫?huì)減少reduce執(zhí)行數(shù)量。16. (5分)如何為一個(gè)hadoop任務(wù)設(shè)置mappers的數(shù)量?答:map的數(shù)量通常是由hadoop集群的DFS塊大小確定的,也就是輸入文件的總塊數(shù),正常的map數(shù)量的并行規(guī)模大致是每一個(gè)Node是10~100個(gè),對(duì)于CPU消耗較小的作業(yè)可以設(shè)置Map數(shù)量為300個(gè)左右,但是由于hadoop的沒一個(gè)任務(wù)在初始化時(shí)需要一定的時(shí)間,因此比較合理的情況是每個(gè)map執(zhí)行的時(shí)間至少超過(guò)1分鐘。這個(gè)參數(shù)設(shè)置的map數(shù)量?jī)H僅是一個(gè)提示,只有當(dāng)InputFormat 。這個(gè)方法能夠用來(lái)增加map任務(wù)的個(gè)數(shù),但是不能設(shè)定任務(wù)的個(gè)數(shù)小于Hadoop系統(tǒng)通過(guò)分割輸入數(shù)據(jù)得到的值。17. (3分)hdfs文件寫入的流程? 2) NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。18. (3分)hdfs文件讀取的流程? 2) NameNode返回文件存儲(chǔ)的DataNode的信息。一個(gè)集群只有一個(gè)NameNode的設(shè)計(jì)大大簡(jiǎn)化了系統(tǒng)架構(gòu)。這里同樣沒有DFS,使用的是本地文件系統(tǒng)。20. (3分)偽分布模式中的注意點(diǎn)?答:偽分布式(Pseudo)適用于開發(fā)和測(cè)試環(huán)境,在這個(gè)模式中,所有守護(hù)進(jìn)程都在同一臺(tái)機(jī)器上運(yùn)行。這里會(huì)存在Namenode運(yùn)行的主機(jī),Datanode運(yùn)行的主機(jī),以及task tracker運(yùn)行的主機(jī)。
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1