freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)處理技術(shù)的總結(jié)與分析-全文預(yù)覽

2025-07-17 21:33 上一頁面

下一頁面
  

【正文】 擎層之間是松耦合關(guān)系。優(yōu)點三:對于資源的表示比之前以剩余slot數(shù)目更合理。 AplicationMaster啟動后先向ResourceManager注冊,并利用心跳信息,定期向ResourceManager報告自己存活性和資源分配請求3)ResourceManager分配一個container(container包括CPU個數(shù)和所需內(nèi)存數(shù)量)時, AplicationMaster構(gòu)造一個CLC,并在該container對應(yīng)機器上Nodemanager上啟動該container。資源管理器YARN(2) 資源調(diào)度與編程模型緊耦合,只支持MAPREDUCE一種編程模型。流程如下:(1)首先用戶程序(Client Program)提交了一個job,job的信息會發(fā)送到Job Tracker中,Job Tracker是Mapreduce框架的中心,他需要與集群中的機器定時通信(heartbeat), 需要管理哪些程序應(yīng)該跑在哪些機器上,需要管理所有job失敗、重啟等操作。MAPREDUCE架構(gòu)和該架構(gòu)缺點Mapreduce框架中,JobTracker承當MASTER的職責(zé),一般和HDFS中的NadeNode節(jié)點安裝在一個服務(wù)器上。MPP數(shù)據(jù)庫查詢引擎架構(gòu)也就是即使我們將數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中,也只有第一級計算能有效利用數(shù)據(jù)庫索引。因此超過一定規(guī)模數(shù)據(jù)分析系統(tǒng),都是采用SN架構(gòu)。但是現(xiàn)在大部分大的數(shù)據(jù)庫廠商的MPP數(shù)據(jù)庫還是采用了SN架構(gòu)。例如在MAPREDUCE中,map輸入是存儲在HDFS上的數(shù)據(jù)文件,因此MAP實例個數(shù)一是不能少于該數(shù)據(jù)文件分片數(shù),二是MAP實例最好運行在該數(shù)據(jù)文件所在機器,也就是要求任務(wù)調(diào)度時,能把該任務(wù)調(diào)度到特定機器上,即所謂“本地調(diào)度”,將計算盡量移動到數(shù)據(jù)。在整個并行計算過程中,基于數(shù)據(jù)劃分中涉及數(shù)據(jù)可以分為兩大類:原始數(shù)據(jù)與中間結(jié)果數(shù)據(jù)。(5) 自動并行化、數(shù)據(jù)重分布、本地調(diào)度并行計算引擎最重要的一個職責(zé)是自動并行。這兩者之間主要區(qū)別還是在于表達執(zhí)行計劃結(jié)構(gòu)方面:樹結(jié)構(gòu)是一個逐步匯聚的一個計算過程,無法表達split結(jié)構(gòu),因此基于DAG表達結(jié)構(gòu)更靈活和通用。五 Dremel、impala都只適合中間結(jié)果越來越小的查詢,因為這些系統(tǒng)都是把中間結(jié)果放在內(nèi)存,一旦某個中間節(jié)點輸出結(jié)果超過內(nèi)存,則整個任務(wù)會失敗,例如大表之間Join。二 Impala、Presto都只是一個并行查詢引擎,它們可以直接查詢以文件方式存儲在HDFS上的數(shù)據(jù),這樣同一份數(shù)據(jù)既可以利用這些引擎來實現(xiàn)交互式查詢,也可以支持利用其他計算框架進行更深入分析。此類并行計算引擎共同特點是:一是針對SQL專用并行計算引擎,只支持SQL或者類SQL語義。所有這一切都是由框架自動執(zhí)行。Dryad和Spark框架在執(zhí)行運算時,都會自動識別可以采取流水線方式執(zhí)行的計算步驟,并盡量采用流水線執(zhí)行方式來執(zhí)行。為了簡化MR作業(yè)組合,在早期出現(xiàn)了一系列項目來執(zhí)行組和式MR作業(yè),例如Cascading項目。基于DAG通用批處理并行計算框架MapReduce、Tez、Dryad、Spark等屬于基于DAG(有向無環(huán)圖)的通用批處理并行計算框架。目前雖然并行計算框架很多,但是可以把它們分成幾個大類(基于BSP并行圖計算引擎請參考第四章):最近一些年,各大型互聯(lián)網(wǎng)公司開發(fā)開發(fā)了一系列的通用并行計算框架。(2) 并行計算面臨的問題與并行計算框架并行計算需要解決的問題主要包括幾下幾個方面:自動并行化、通訊、任務(wù)調(diào)度、并發(fā)控制、容錯、資源管理。垂直并行化則是指存在流水線方式依賴關(guān)系的操作分別由不同處理機并行執(zhí)行的形式。水平并行化指的是互相獨立的多個操作或者一個操作內(nèi)互相獨立的多個子操作分別由不同的處理機并行執(zhí)行的形式。HIVE、Tezning數(shù)據(jù)庫是把SQL解析成DAG結(jié)構(gòu)的多個MAPREDUCE組合。該模型把每個操作都表達為由三個接口: open() ,流水線方法可以極大避免大量的中間結(jié)果磁盤IO。另外一種方法是同時交錯進行多個運算,由一個運算產(chǎn)生每個元組直接傳遞給下一個運算,而不將中間結(jié)果存儲到磁盤,也不用等到前一個運算全部運算完畢。一條SQL語句對開發(fā)人員而言,感覺只是一次調(diào)用,但是實際上在數(shù)據(jù)庫內(nèi)部,一條SQL語句執(zhí)行其實是有多個操作符組合而成的的樹型結(jié)構(gòu)計算流。(3) 物化與流水線執(zhí)行方法需要指出是,由于imapla、Presto、HIVE等系統(tǒng)只是一個查詢引擎,它們可以直接查詢以普通文件方式存儲在HDFS系統(tǒng)上的文件,因此這些系統(tǒng)一般無法使用索引和各種統(tǒng)計信息來進行物理執(zhí)行計劃的優(yōu)化,這些系統(tǒng)一般只能在邏輯層進行一些基于規(guī)則靜態(tài)優(yōu)化。 在物理層優(yōu)化的代價估算過程中,代價估算需要依靠很多統(tǒng)計信息,如表有多大,表中相關(guān)列的值分布是什么樣子等。252。例如掃描是全表掃描還是利用索引;Join是采用HASH連接、索引連接、合并排序等實現(xiàn)算法中的那一種。 增加一些操作符: 包括掃描和排序等。比較典型優(yōu)化是:“把投影和過濾下沉,先執(zhí)行過濾和投影操作”,減少中間結(jié)果。在關(guān)系數(shù)據(jù)庫中,一般會把SQL語言分析后,形成樹型結(jié)構(gòu)的執(zhí)行計劃。1) 語義層SQL語言是一種聲名式語言,SQL只是表達了要做什么,而沒有表達怎么做。為了能夠較好研究這些系統(tǒng),我們需要對并行查詢與并行計算的相關(guān)技術(shù)做一個簡要的介紹。 基于SPARK的Shark、基于Dryad的SCOPE、基于Tez的stinger。 HadoopDB系統(tǒng)n MPP并行數(shù)據(jù)庫 : TeraData、GreenPlum、Vertica等。但是并行計算中的多個任務(wù)屬于一個大任務(wù),因此某個子任務(wù)的失敗,如果不能恢復(fù)(粗粒度容錯與細粒度容錯),則整個任務(wù)都會失敗。2并發(fā)和并行區(qū)別并發(fā)是指同時執(zhí)行通常不相關(guān)的各種任務(wù),例如交易型系統(tǒng)典型屬于高并發(fā)系統(tǒng)?;贖BASE應(yīng)用的設(shè)計中,關(guān)鍵點是key的設(shè)計,要根據(jù)需要支持的應(yīng)用來設(shè)計key的組成。3)(3)只在一臺服務(wù)器上存儲和處理增量更新數(shù)據(jù),并且是在內(nèi)存中存儲和處理更新數(shù)據(jù)。2)由于此系統(tǒng)由于只需要滿足事務(wù)型操作即可,因此相對真正并行數(shù)據(jù)庫集群(例如TeraData等),此類系統(tǒng)提供操作沒有也不需要提供一些復(fù)雜跨庫處理,因此該系統(tǒng)存在以下限制:(1)不支持跨庫的join、分頁、排序、子查詢。1相關(guān)系統(tǒng)介紹1)(2)利用緩存等機制,盡量利用內(nèi)存,解決高并發(fā)時遇到的隨機IO效率問題。數(shù)據(jù)挖掘的整個計算更復(fù)雜,一般是由多個步驟組成計算流,多個計算步驟之間存在數(shù)據(jù)交換,也就是會產(chǎn)生大量中間結(jié)果,難以用一條sql語句來表達。傳統(tǒng)的數(shù)據(jù)挖掘軟件,一般只能支持在單機上進行小規(guī)模數(shù)據(jù)處理,受此限制傳統(tǒng)數(shù)據(jù)分析挖掘一般會采用抽樣方式來減少數(shù)據(jù)分析規(guī)模。另外目前在數(shù)據(jù)統(tǒng)計分析領(lǐng)域,為了滿足交互式統(tǒng)計分析需求,基于內(nèi)存計算的數(shù)據(jù)庫倉庫系統(tǒng)也成為一個發(fā)展趨勢,例如SAP的HANA平臺。二是數(shù)據(jù)統(tǒng)計分析計算相對復(fù)雜,例如會涉及大量goupby、 子查詢、嵌套查詢、窗口函數(shù)、聚合函數(shù)、排序等;有些復(fù)雜統(tǒng)計可能需要編寫SQL腳本才能實現(xiàn)。四是事務(wù)性操作都是實時交互式操作,至少能在幾秒內(nèi)執(zhí)行完成;五是基于以上特點,索引是支撐事務(wù)型處理一個非常重要的技術(shù)。精選資料二是計算相對簡單,一般只有少數(shù)幾步操作組成,比如修改某行的某列;三是事務(wù)型處理操作涉及數(shù)據(jù)的增、刪、改、查,對事務(wù)完整性和數(shù)據(jù)一致性要求非常高。事務(wù)型操作在淘寶、12306等互聯(lián)網(wǎng)企業(yè)中,由于數(shù)據(jù)量大、訪問并發(fā)量高,必然采用分布式技術(shù)來應(yīng)對,這樣就帶來了分布式事務(wù)處理問題,而分布式事務(wù)處理很難做到高效,因此一般采用根據(jù)業(yè)務(wù)應(yīng)用特點來開發(fā)專用的系統(tǒng)來解決本問題。數(shù)據(jù)統(tǒng)計分析特點包括以下幾點:一是數(shù)據(jù)統(tǒng)計一般涉及大量數(shù)據(jù)的聚合運算,每次統(tǒng)計涉及數(shù)據(jù)量會比較大。主要采用維度模型,通過預(yù)計算等方法,把數(shù)據(jù)整理成適合統(tǒng)計分析的結(jié)構(gòu)來實現(xiàn)高性能的數(shù)據(jù)統(tǒng)計分析,以支持可以通過下鉆和上卷操作,實現(xiàn)各種維度組合以及各種粒度的統(tǒng)計分析。數(shù)據(jù)挖掘主要過程是:根據(jù)分析挖掘目標,從數(shù)據(jù)庫中把數(shù)據(jù)提取出來,然后經(jīng)過ETL組織成適合分析挖掘算法使用寬表,然后利用數(shù)據(jù)挖掘軟件進行挖掘。因此總體來講,數(shù)據(jù)分析挖掘的特點是:為了解決該問題,從目前資料來看,其實沒有一個通用的解決方案,各大公司都會根據(jù)自己業(yè)務(wù)特點定制開發(fā)相應(yīng)的系統(tǒng),但是常用的思路主要包括以下幾點:(1)數(shù)據(jù)庫分片,結(jié)合業(yè)務(wù)和數(shù)據(jù)特點將數(shù)據(jù)分布在多臺機器上。(5)根據(jù)實際業(yè)務(wù)需求,盡量避免分布式事務(wù)。該系統(tǒng)主要采用數(shù)據(jù)庫分片思路,實現(xiàn)了:數(shù)據(jù)拆分、讀寫分離、復(fù)制等功能。說白了此類系統(tǒng)不具備并行計算能力,基本上相當于數(shù)據(jù)庫路由器!另外此類系統(tǒng)的在實際應(yīng)用的關(guān)鍵問題是,根據(jù)什么對數(shù)據(jù)進行切分,因為切分不好會導(dǎo)致分布式的事務(wù)問題。(2)基線數(shù)據(jù)是靜態(tài)數(shù)據(jù),采用分布式存儲方式進行存儲。因此這樣好處是:(1)讀事務(wù)和寫事務(wù)分離(2)通過犧牲一點擴展性(寫是一個單點),來避免分布式事務(wù)處理。在目前的大數(shù)據(jù)時代,一定是基于應(yīng)用定制才能找到好的解決方案!HBASE數(shù)據(jù)庫接口是非SQL接口,而是KV操作接口(基于Key的訪問和基于key范圍的scan操作),因此HBASE數(shù)據(jù)庫雖然可擴展性非常好,但是由于其接口限制導(dǎo)致該數(shù)據(jù)庫能支持上層應(yīng)用很窄。(2)容錯處理方面:由于并發(fā)任務(wù)之間相互獨立,某個任務(wù)執(zhí)行失敗并不會影響其它的任務(wù)。1并行查詢與并行計算技術(shù)介紹在大數(shù)據(jù)背景下的數(shù)據(jù)統(tǒng)計分析技術(shù)門類很多,常見的有:n 基于Hbase的Phoenix系統(tǒng)nn 基于內(nèi)存計算的Druid系統(tǒng)這些系統(tǒng)都解決了海量數(shù)據(jù)下的數(shù)據(jù)統(tǒng)計分析的問題,并且這些系統(tǒng)另外一個共同特點是都提供了SQL或者類SQL接口。對于提供類SQL接口并行計算系統(tǒng),語義層可以認為是SQL解析層。SQL解析層工作主要包括兩個大方面:(1) 通過語法分析
點擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1