freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

電力大數(shù)據(jù)處理、存儲與分析的調研報告(參考版)

2025-08-06 05:45本頁面
  

【正文】 Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。(1)Hive定義Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎構架。、訪問接口(1)Native Java API,最常規(guī)和高效的訪問方式,適合Hadoop MapReduce Job并行批處理HBase表數(shù)據(jù)(2)HBase Shell,HBase的命令行工具,最簡單的接口,適合HBase管理使用(3)Thrift Gateway,利用Thrift序列化技術,支持C++,PHP,Python等多種語言,適合其他異構系統(tǒng)在線訪問HBase表數(shù)據(jù)(4)REST Gateway,支持REST 風格的Http API訪問HBase, 解除了語言限制(5)Pig,可以使用Pig Latin流式編程語言來操作HBase中的數(shù)據(jù),和Hive類似,本質最終也是編譯成MapReduce Job來處理HBase表數(shù)據(jù),適合做數(shù)據(jù)統(tǒng)計(6)Hive,當前Hive的Release版本尚沒有加入對HBase的支持,但在下一個版本Hive ,可以使用類似SQL語言來訪問HBaseHadoop查詢與分析工具、HiveHive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。master39。因此master下線短時間內對整個HBase集群沒有影響。master下線由于master只維護表和region的元數(shù)據(jù),而不參與表數(shù)據(jù)IO的過程,master下線僅導致所有元數(shù)據(jù)的修改被凍結(無法創(chuàng)建刪除表,無法修改表的schema,無法進行region的負載均衡,無法處理region(3)和2中的每個region server通信,獲得當前已分配的region和region server的對應關系。master上線master啟動進行以下步驟:(1)從zookeeper上獲取唯一一個代碼master的鎖,用來阻止其它master成為master。的其中一種情況發(fā)生了,無論哪種情況,region server都無法繼續(xù)為它的region提供服務了,此時master會刪除server目錄下代表這臺region server的文件,并將這臺region server的region分配給其它還活著的同志。如果master發(fā)現(xiàn)某個region server丟失了它自己的獨占鎖,(或者master連續(xù)幾次和region server通信都無法成功),master就是嘗試去獲取代表這個region server的讀寫鎖,一旦獲取成功,就可以確定:(1)region server和zookeeper之間的網絡斷開了。而master不斷輪詢因此一旦region server上線,master能馬上得到消息。由于master訂閱了serverregion server上線master使用zookeeper來跟蹤region server狀態(tài)。當存在未分配的region,并且有一個region server上有可用空間時,master就給這個region server發(fā)送一個裝載請求,把region分配給這個region server。master記錄了當前有哪些可用的region server。寫請求處理過程(1)client向region server提交寫請求(2)region server找到目標region(3)region檢查數(shù)據(jù)是否與schema一致(4)如果客戶端沒有指定版本,則獲取當前系統(tǒng)時間作為數(shù)據(jù)版本(5)將更新寫入WAL log(6)將更新寫入MemStore(7)判斷MemStore的是否需要flush為Store文件。由于對表的更新是不斷追加的,處理讀請求時,需要訪問Store中全部的當一個Store中的StoreFile達到一定的閾值后,就會進行一次合并(major pact),將對同一個key的修改合并到一起,形成一個大的StoreFile,當StoreFile的大小達到一定閾值后,又會對前面提到過StoreFile是只讀的,一旦創(chuàng)建后就不可以再修改。于此同時,系統(tǒng)會在zookeeper中記錄一個redo point,表示這個時刻之前的變更已經持久化了。讀寫過程上文提到,HBase使用MemStore和StoreFile存儲對表的更新。并且每個region限制為128MB。(3)為了加快訪問,.。(2),row key位置信息。通過root region。第一層是保存zookeeper里面的文件,它持有root region的位置。row key range)所在的regionbigtable(3)實時監(jiān)控Region Server的狀態(tài),將Region server的上線和下線信息實時通知給Master(4)存儲HBase的schema,包括有哪些table,每個table有哪些column familyMaster(1)為Region server分配region(2)負責region server的負載均衡(3)發(fā)現(xiàn)失效的region server并重新分配其上的region(4)GFS上的垃圾文件回收(5)處理schema更新請求Region Server(1)Region server維護Master分配給它的region,處理對這些region的IO請求(2)Region server負責切分在運行過程中變得過大的region可以看到,client訪問HBase上數(shù)據(jù)的過程并不需要master參與(尋址訪問zookeeper和region server,數(shù)據(jù)讀寫訪問regione server),master僅僅維護者table和region的元數(shù)據(jù)信息,負載很低。、系統(tǒng)架構ClientHBase Client使用HBase的RPC機制與HMaster和HRegionServer進行通信,對于管理類操作,Client與HMaster進行RPC;對于數(shù)據(jù)讀寫類操作,Client與HRegionServer進行RPC(1) 包含訪問HBase的接口,client維護著一些cache來加快對HBase的訪問,比如regione的位置信息。sequence number和timestamp,timestamp是寫入時間,sequence number的起始值為0,或者是最近一次存入文件系統(tǒng)中sequence number。HLog文件就是一個普通的Hadoop Sequence File,Sequence File這樣不同region(來自不同table)的日志會混在一起,這樣做的目的是不斷追加單個文件相對于同時寫多個文件而言,可以減少磁盤尋址次數(shù),因此可以提高對table的寫性能。意為Write ahead log,類似mysql中的binlog,用來做災難恢復只用,Hlog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改,就可以從log中進行恢復。目標Hfile的壓縮支持兩種方式:Gzip,Lzo。DataBlock Index采用LRU機制淘汰。(6)Trailer–這一段是定長的。(5)Meta Block Index段段–Data Block的索引。段–Hfile的元信息,不被壓縮,用戶也可以在這一部分添加自己的元信息。(可選的)–保存用戶自定義的kv對,可以被壓縮。段–保存表中的數(shù)據(jù),這部分可以被壓縮(2)Meta BlockHFile的格式為: StoreFile以HFile格式保存在HDFS上。每個Strore又由一個memStore和0至多個StoreFile組成。(5)HRegion雖然是分布式存儲的最小單元,但并不是存儲的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。當table中的行不斷增多,就會有越來越多的Hregion。(2)Table 在行的方向上分割為多個Hregion。 Column FamilyRow KeyTimestampColumn FamilyURIParserr1t3url=title=天天特價t2host=t1r2t5url=content=每天…t4host=Row Key:行鍵,Table的主鍵,Table中的記錄按照Row Key排序Timestamp:時間戳,每次數(shù)據(jù)操作對應的時間戳,可以看作是數(shù)據(jù)的version numberColumn Family:列簇,Table在水平方向有一個或者多個Column Family組成,一個Column Family中可以由任意多個Column組成,即Column Family支持動態(tài)擴展,無需預先定義Column的數(shù)量以及類型,所有Column均以二進制格式存儲,用戶需要自行進行類型轉換。、邏輯視圖HBase以表的形式存儲數(shù)據(jù),表有行和列組成。HBase中的表一般有這樣的特點:(1)大:一個表可以有上億行,上百萬列(2)面向列:面向列(族)的存儲和權限控制,列(族)獨立檢索。主要用來存儲非結構化和半結構化的松散數(shù)據(jù)。是建立的HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。另一個不同的是HBase基于列的而不是基于行的模式。HBase是Apache的Hadoop項目的子項目。所撰寫的Google論文Bigtable:一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)。Hadoop數(shù)據(jù)存儲—HBase、HBase簡介HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于和Xindice相比,BaseX更能支持大型XML文檔的存儲,而Xindice對大型xml沒有很好的支持,為管理中小型文檔的集合而設計。特性:BaseX一個比較顯著地優(yōu)點是有了GUI,界面中有查詢窗口,可采用XQuery查詢相關數(shù)據(jù)庫中的XML文件;也有能夠動態(tài)展示xml文件層次和節(jié)點關系的圖。區(qū)別的是redis會周期性的把更新的數(shù)據(jù)寫入磁盤或者把修改操作寫入追加的記錄文件,并且在此基礎上實現(xiàn)了masterslave(主從)同步。在此基礎上,redis支持各種不同方式的排序。和Memcached類似,它支持存儲的value類型相對更多,包括string(字符串)、list(鏈表)、set(集合)和zset(有序集合)。 HBase是Google Bigtable的開源實現(xiàn),類似Google Bigtable利用GFS作為其文件存儲系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù);Google Bigtable利用 Chubby作為協(xié)同服務,HBase利用Zookeeper作為對應。另一個不同的是HBase基于列的而不是基于行的模式。HBase是Apache的Hadoop項目的子項目。、HBaseHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)”。 ?。?)CouchDB支持REST API,可以讓用戶使用JavaScript來操作CouchDB數(shù)據(jù)庫,也可以用JavaScript編寫查詢語句,我們可以想像一下,用AJAX技術結合CouchDB開發(fā)出來的CMS系統(tǒng)會是多么的簡單和方便。對于基于web的大規(guī)模應用文檔應用,然的分布式可以讓它不必像傳統(tǒng)的關系數(shù)據(jù)庫那樣分庫拆表,在應用代碼層進行大量的改動。主要功能特性有:(1)CouchDB是分布式的數(shù)據(jù)庫,他可以把存儲系統(tǒng)分布到n臺物理的節(jié)點上面,并且很好的協(xié)調和同步節(jié)點之間的數(shù)據(jù)讀寫一致性。CouchDB是用Erlang開發(fā)的面向文檔的數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)存儲方式類似Lucene的Index文件格式。它提供以 JSON 作為數(shù)據(jù)格式的 REST 接口來對其進行操作,并可以通過視圖來操縱文檔的組織和呈現(xiàn)。   (11)可通過網絡訪問。  ?。?)支持RUBY,PYTHON,JAVA,C++,PHP,C等多種語言。   (7)使用高效的二進制數(shù)據(jù)存儲,包括大型對象(如視頻等)。  ?。?)支持查詢。(3)支持動態(tài)查詢。主要功能特性有:(1)面向集合存儲,易存儲對象類型的數(shù)據(jù)。 MongoDB把數(shù)據(jù)存儲在文件中(默認路徑為:/data/db),為提高效率使用內存映射文件進行管理。鍵用于唯一標識一個文檔,為字符串類型,而值則可以是各中復雜的文件類型。如果需要的話,你完全可以把不同結構的文件存儲在同一個數(shù)據(jù)庫里。集合的概念類似關系型數(shù)據(jù)庫(RDBMS)里的表(table),不同的是它不需要定義任何模式(schema)。所謂“面向集合”(CollenctionOrented),意思是數(shù)據(jù)被分組存儲在數(shù)據(jù)集中,被稱為一個集合(Collenction)。他支持的數(shù)據(jù)結構非常松散,是類似json的bjson格式,因此可以存儲比較復雜的數(shù)據(jù)類型。MongoDB也有一個Ruby的項目MongoMapper,是模仿Merb的DataMapper編寫的MongoDB接口,使用起來非常簡單,幾乎和DataMapper一模一樣,功能非常強大。MongoDB的并發(fā)讀寫效率不是特別出色,根據(jù)官方提供的性能測試表明,~。主要解決的是海量數(shù)據(jù)的訪問效率問題,為WEB應用提供可擴展的高性能數(shù)據(jù)存儲解決方案。、MongoDBMongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。在某些情況下,NoSQL和Hadoop協(xié)同工作。但是,如果說Hadoop擅長支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL 數(shù)據(jù)庫的目的是為最終用戶和自動
點擊復制文檔內容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1