【正文】
line content word, count word, count files 目錄 ? Hadoop簡介 –HDFS (Hadoop Distributed File System) –MapReduce ? Hive ? Hadoop的企業(yè)級應(yīng)用 What is HIVE ? 數(shù)據(jù)倉庫業(yè)務(wù)具有多樣性、多變性和邏輯復(fù)雜性,傳統(tǒng)的Parallel DBMSs只能使用 SQL語句,語言表達(dá)力不夠應(yīng)付現(xiàn)有的類似 google, facebook等的數(shù)據(jù)倉庫需求(若使用 UDF或 UDA自己定義 aggregate,則失去了其強大的優(yōu)化功能),而自己定制的 maper和 reducer的代碼較為低層比較繁瑣且重用性也不好,所以就有了 Hive,提供一個類 SQL的編程接口,簡單又不失靈活性,且基于mapreduce. What is HIVE ? (論文翻譯) hive是一個基于 hadoop的數(shù)據(jù)倉庫。(減少后期訪問) HIVE查詢的優(yōu)化過程 ? GraphWalker遍歷( walk)DAG中所有的 Node,并檢查一個 Rule是否滿足,在滿足的條件下回出發(fā)一個對應(yīng)的 Processor。) SELECT , COUNT(1) GROUP BY INSERT OVERWRITE TABLE school_summary PARTITION(ds=39。 )) subq1 INSERT OVERWRITE TABLE gender_summary PARTITION(ds=39。 ? 原因:訪問這些 Metadata,我們想要“很低的延時”,而存在 hdfs中是無法滿足。 ? Hadoop在大量的公司中被使用和研究 Hadoop的體系架構(gòu) Hadoop由以下幾個部件組成 : Hadoop Common: The mon utilities that support the other Hadoop subprojects. Avro: A data serialization system that provides dynamic integration with scripting languages. Chukwa: A data collection system for managing large distributed systems. HBase: A scalable, distributed database that supports structured data storage for large tables. HDFS: A distributed file system that provides high throughput access to application data. Hive: A data warehouse infrastructure that provides data summarization and