正文內(nèi)容

hadoop常見筆試題答案-閱讀頁(yè)

2025-08-22 10:44本頁(yè)面

　　

【正文】根據(jù)我們的實(shí)際生產(chǎn)中來(lái)更改block的大小，如果block定義的太小，大的文件都會(huì)被切分成太多的小文件，減慢用戶上傳效率，如果block定義的太大，那么太多的小文件可能都會(huì)存到一個(gè)block塊中，雖然不浪費(fèi)硬盤資源，可是還是會(huì)增加namenode的管理內(nèi)存壓力。8. (5分)在一個(gè)運(yùn)行的hadoop任務(wù)中，什么是InputSplit？答： InputSplit是MapReduce對(duì)文件進(jìn)行處理和運(yùn)算的輸入單位，只是一個(gè)邏輯概念，每個(gè)InputSplit并沒有對(duì)文件實(shí)際的切割，只是記錄了要處理的數(shù)據(jù)的位置(包括文件的path和hosts)和長(zhǎng)度(由start和length決定)，默認(rèn)情況下與block一樣大。屬于split和mapper之間的一個(gè)過(guò)程，將inputsplit輸出的行為一個(gè)轉(zhuǎn)換記錄，成為keyvalue的記錄形式提供給mapper11. (3分)Map階段結(jié)束后，Hadoop框架會(huì)處理：Partitioning, Shuffle和Sort，在這幾個(gè)階段都發(fā)生了什么？答：Partition是對(duì)輸出的key,value進(jìn)行分區(qū)，可以自定義分區(qū)，按照業(yè)務(wù)需求，將map的輸出歸分到多個(gè)不同的文件中將map的輸出作為輸入傳給reducer 稱為shuffle sort是排序的過(guò)程，將map的輸出，作為reduce的輸入之前，我們可以自定義排序，按照key來(lái)對(duì)map的輸出進(jìn)行排序12. (5分)如果沒有定義partitioner，那數(shù)據(jù)在被送達(dá)reducer前是如何被分區(qū)的？答：()時(shí)被調(diào)用。 hadoop有一個(gè)默認(rèn)的分區(qū)類，HashPartioer類，通過(guò)對(duì)輸入的k2去hash值來(lái)確認(rèn)map輸出的k2，v2送到哪一個(gè)reduce中去執(zhí)行。biner的輸入輸出類型必須和mapper的輸出以及reducer的輸入類型一致14. (3分)分別舉例什么情況要使用 biner，什么情況不使用？答：求平均數(shù)的時(shí)候就不需要用biner，因?yàn)椴粫?huì)減少reduce執(zhí)行數(shù)量。16. (5分)如何為一個(gè)hadoop任務(wù)設(shè)置mappers的數(shù)量？答：map的數(shù)量通常是由hadoop集群的DFS塊大小確定的，也就是輸入文件的總塊數(shù)，正常的map數(shù)量的并行規(guī)模大致是每一個(gè)Node是10~100個(gè)，對(duì)于CPU消耗較小的作業(yè)可以設(shè)置Map數(shù)量為300個(gè)左右，但是由于hadoop的沒一個(gè)任務(wù)在初始化時(shí)需要一定的時(shí)間，因此比較合理的情況是每個(gè)map執(zhí)行的時(shí)間至少超過(guò)1分鐘。這個(gè)參數(shù)設(shè)置的map數(shù)量?jī)H僅是一個(gè)提示，只有當(dāng)InputFormat 。這個(gè)方法能夠用來(lái)增加map任務(wù)的個(gè)數(shù)，但是不能設(shè)定任務(wù)的個(gè)數(shù)小于Hadoop系統(tǒng)通過(guò)分割輸入數(shù)據(jù)得到的值。17. (3分)hdfs文件寫入的流程？ 2) NameNode根據(jù)文件大小和文件塊配置情況，返回給Client它所管理部分DataNode的信息。18. (3分)hdfs文件讀取的流程？ 2) NameNode返回文件存儲(chǔ)的DataNode的信息。一個(gè)集群只有一個(gè)NameNode的設(shè)計(jì)大大簡(jiǎn)化了系統(tǒng)架構(gòu)。這里同樣沒有DFS，使用的是本地文件系統(tǒng)。20. (3分)偽分布模式中的注意點(diǎn)？答：偽分布式（Pseudo）適用于開發(fā)和測(cè)試環(huán)境，在這個(gè)模式中，所有守護(hù)進(jìn)程都在同一臺(tái)機(jī)器上運(yùn)行。這里會(huì)存在Namenode運(yùn)行的主機(jī)，Datanode運(yùn)行的主機(jī)，以及task tracker運(yùn)行的主機(jī)。

點(diǎn)擊復(fù)制文檔內(nèi)容

規(guī)章制度相關(guān)推薦

php筆試大全面試題答案解析-閱讀頁(yè)

【摘要】第一篇：php筆試大全面試題答案解析 php筆試大全面試題答案解析2009-09-2313:31選擇題 1、如何產(chǎn)生帶有數(shù)字列表符號(hào)的列表？（c） A.B.C.D. 2、以下哪條javascr...

2025-10-09 15:44

初中英語(yǔ)教師筆試試題答案-閱讀頁(yè)

【摘要】××年××縣招聘初中英語(yǔ)教師筆試試題全卷分英語(yǔ)專業(yè)知識(shí)和英語(yǔ)教育理論與實(shí)踐兩部分，滿分100分?？荚嚂r(shí)間120分鐘。題號(hào)一二三四五總分總分人得分

2025-07-03 15:18

hadoop常見錯(cuò)誤總結(jié)-閱讀頁(yè)

【摘要】第一篇：Hadoop常見錯(cuò)誤總結(jié) Hadoop常見錯(cuò)誤總結(jié)2010-12-3013:55錯(cuò)誤1：bin/hadoopdfs不能正常啟動(dòng)，持續(xù)提示： INFO:Retryingconnecttose...

2025-10-21 03:48

常見linux筆試題-閱讀頁(yè)

【摘要】Linux認(rèn)證筆試基本題（答案見最后）單選題1.cron后臺(tái)常駐程序(daemon)用于：A.負(fù)責(zé)文件在網(wǎng)絡(luò)中的共享B.管理打印子系統(tǒng)C.跟蹤管理系統(tǒng)信息和錯(cuò)誤D.管理系統(tǒng)日常任務(wù)的調(diào)度2.在大多數(shù)Linux發(fā)行版本中，以下哪個(gè)屬于塊設(shè)備(blockdevices)？A.串行口B.硬盤C.虛擬終端D.打

2025-04-09 01:12

軟件測(cè)試常見筆試題-閱讀頁(yè)

【摘要】本文格式為Word版，下載可任意編輯軟件測(cè)試常見筆試題軟件測(cè)試常見筆試題　　1.軟件測(cè)試的目的是盡可能多的找出軟件的缺陷。(Y) 　　2.Beta測(cè)試是驗(yàn)收測(cè)試的一種。(Y) 　　...

2025-04-04 12:01

項(xiàng)目部經(jīng)理試題答案--中國(guó)移動(dòng)筆試題目-閱讀頁(yè)

【摘要】姓名：部門：――――――――――――――――――――――――――――――――1項(xiàng)目部經(jīng)理試題一、單項(xiàng)選擇題(每題1分，共40分)1.常用的光功率單位為（D）。A、mWB、dbC、dbuD、dbm2.適用于高速率、密集波分復(fù)用傳輸?shù)墓饫w是（

2025-08-06 10:47

軟件測(cè)試常見筆試題分享-閱讀頁(yè)

【摘要】軟件測(cè)試常見筆試題分享　　1.軟件測(cè)試的目的是盡可能多的找出軟件的缺陷，軟件測(cè)試常見筆試題分享。(Y) 　　2.Beta測(cè)試是驗(yàn)收測(cè)試的一種。(Y) 　　Acceptancetesti...

2025-04-14 03:33

數(shù)據(jù)結(jié)構(gòu)常見筆試題-閱讀頁(yè)

【摘要】第一部分1.棧和隊(duì)列的共同特點(diǎn)是（只允許在端點(diǎn)處插入和刪除元素）（線性存儲(chǔ)結(jié)構(gòu)和鏈表存儲(chǔ)結(jié)構(gòu)）（B）A.不必事先估計(jì)存儲(chǔ)空間（便于插入和刪除操作），增加頭結(jié)點(diǎn)的目的是（方便運(yùn)算的實(shí)現(xiàn)）（從表中任一結(jié)點(diǎn)出發(fā)都能訪問(wèn)到整個(gè)鏈表），要求內(nèi)存中可用存儲(chǔ)單元的地址（D）

2025-04-09 03:01

語(yǔ)文試題答案-閱讀頁(yè)

【摘要】第一篇：語(yǔ)文試題答案第二次階段性考試語(yǔ)文試題答案 1答案C。本題為文中詞句的理解?！熬╉嵈蠊摹薄皢慰谙嗦暋薄皡亲趹?、小S”在文中都借代娛樂語(yǔ)言。2．答案D。本題考查對(duì)文章內(nèi)容的理解。學(xué)術(shù)語(yǔ)言...

2025-10-25 07:29

茶藝試題答案-閱讀頁(yè)

【摘要】第一篇：茶藝試題答案 2015女子課堂期末試題姓名：班級(jí)：學(xué)號(hào)：一、名詞解釋 1、茶藝茶藝是一種文化。茶藝在漢族優(yōu)秀文化的基礎(chǔ)上又廣泛吸收和借鑒了其它藝術(shù)形式，并擴(kuò)展到文學(xué)、藝術(shù)等領(lǐng)域...

2025-11-05 22:43

鉗工試題答案-閱讀頁(yè)

【摘要】第一篇：鉗工試題答案中級(jí)鉗工試題答案一、填空 40分每空1分1、45#鋼的含碳量為（%）。 2、液壓系統(tǒng)中控制閥基本上可分成三大類，即（壓力）控制、（流量）控制、（速度）控制。 3、...

2025-10-09 18:03

講稿試題答案-閱讀頁(yè)

【摘要】第一篇：講稿試題答案 1．簡(jiǎn)述數(shù)控車床的結(jié)構(gòu)特點(diǎn)和應(yīng)用特點(diǎn) 一、數(shù)控車床的結(jié)構(gòu)特點(diǎn) 數(shù)控車床機(jī)械結(jié)構(gòu)和普通車床既有相似之處，又有諸多不同之處。特別是現(xiàn)代數(shù)控車床已經(jīng)不是簡(jiǎn)單地將傳統(tǒng)車床配備上數(shù)控...

2025-10-13 19:21