【正文】
ad hoc querying. MapReduce: A software framework for distributed processing of large data sets on pute clusters. Pig: A highlevel dataflow language and execution framework for parallel putation. ZooKeeper: A highperformance coordination service for distributed applications. Hadoop的體系架構(gòu) HadoopHDFS ? HDFS的結(jié)構(gòu)按照 GFS設(shè)計 ? A GFS cluster consists of a single master and multiple ? chunkservers and is accessed by multiple clients HDFS ? Faulttolerant, 容錯性 ? Run on modity hardware,在通用的機器上運行 ? Scalable 可擴縮的 1個namenode 多個datanodes 11 HDFS ? NameNode –存貯 HDFS的元數(shù)據(jù) (metadata) –管理文件系統(tǒng)的命名空間( namespace) 187。HDFS有著高容錯性的特點,并且設(shè)計用來部署在低廉的( lowcost)硬件上。使用hadoophdfs作為數(shù)據(jù)存儲層;提供類似 SQL的語言( HQL),通過 hadoopmapreduce完成數(shù)據(jù)計算;通過 HQL語言提供使用者部分傳統(tǒng) RDBMS一樣的表格查詢特性和分布式存儲計算特性。 Dispatcher則維護 Rule到 Processor的映射,并進行 Rule的匹配工作。2021032039。2021032039。采用 JDO ( JPOX)。 ? Hadoop是一個海量數(shù)據(jù)存儲和計算的分布式系統(tǒng),它由若干個成員組成,主要包括: HDFS、MapReduce、 HBase、 Hive、 Pig 和 ZooKeeper, 其中 HDFS是 Google的 GFS開源版本, HBase 是 Google的 BigTable開源版本, ZooKeeper是 Google的 Chubby開源版本。而且它提供高傳輸率( high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集( large data set)的應(yīng)用程序。 ? (百科) hive是基于 Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能,可以將 sql語句轉(zhuǎn)換為 MapReduce任務(wù)進行運行。 HIVE查詢的簡單優(yōu)化步驟 ? 列裁剪( Column pruning):只有需要用到的列