【正文】
IVE的實現(xiàn) ? hive的元數(shù)據(jù)存儲在傳統(tǒng)的 RDBMS中,現(xiàn)在為mysql中。 ? (百科) hive是基于 Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能,可以將 sql語句轉(zhuǎn)換為 MapReduce任務(wù)進行運行。 MapReduce的原理 D a t a s t o r e 1 D a t a s t o r e nm a p( k e y 1 , v a l u e s . . . )( k e y 2 , v a l u e s . . . )( k e y 3 , v a l u e s . . . )m a p( k e y 1 , v a l u e s . . . )( k e y 2 , v a l u e s . . . )( k e y 3 , v a l u e s . . . )I n p u t k e y * v a l u e p a i r sI n p u t k e y * v a l u e p a i r s= = B a r r i e r = = : A g g r e g a t e s i n t e r m e d i a t e v a l u e s b y o u t p u t k e yr e d u c e r e d u c e r e d u c ek e y 1 , i n t e r m e d i a t e v a l u e sk e y 2 , i n t e r m e d i a t e v a l u e sk e y 3 , i n t e r m e d i a t e v a l u e sf i n a l k e y 1 v a l u e sf i n a l k e y 2 v a l u e sf i n a l k e y 3 v a l u e s. . .Mapreduce 控制 數(shù)據(jù)流 一個 Jobtracker 多個 tasktrackers MapReduce ? Jobtraker (Master) –接收任務(wù)( job)的提交 –提供任務(wù)的監(jiān)控 (monitoring)和控制 (control) –把 job劃分成多個 tasks,交給 Tasktracker執(zhí)行,并管理這些 tasks的執(zhí)行 ? Tasktracker (Worker) –管理單個 task的 map任務(wù)和 reduce任務(wù)的執(zhí)行 Word count: file0: hello world file1: hello mapreduce file2: bye bye Input files file0 file2 file1 0, “hello