freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

電力大數(shù)據(jù)處理、存儲與分析的調(diào)研報告-文庫吧資料

2024-08-16 05:45本頁面
  

【正文】 化的大數(shù)據(jù)應(yīng)用程序提供大量存儲在多結(jié)構(gòu)化數(shù)據(jù)中的離散數(shù)據(jù)。其他初創(chuàng)企業(yè)正在努力完善NoSQL(不僅僅是SQL)數(shù)據(jù)系統(tǒng),結(jié)合Hadoop提供近實時的分析解決方案。因此,該技術(shù)的發(fā)展日新月異,逐漸變得更加強(qiáng)大而且更易于實施和管理。最后,Hadoop是一個面向批處理的框架,這意味著它不支持實時的數(shù)據(jù)處理和分析。不幸的是,目前Hadoop開發(fā)者和數(shù)據(jù)科學(xué)家的缺乏,使得眾多企業(yè)維持復(fù)雜的Hadoop集群并利用其優(yōu)勢變得很不現(xiàn)實。Hadoop及其無數(shù)組件的不足之處是,他們還不成熟,仍處于發(fā)展階段。使用Hadoop的成本也很廉價。因為Hadoop集群可以擴(kuò)展到PB級甚至EB級數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關(guān)數(shù)據(jù)。與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong ZSuite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。說明幾點:最后這些單詞的出現(xiàn)次數(shù)會被寫到用戶定義的位置,存儲在底層的分布式存儲系統(tǒng)(GFS或HDFS)。  for each v in values:int result = 0。// key: a wordfor each word w in value:// key: document nameMapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。map函數(shù)和reduce函數(shù)是交給用戶實現(xiàn)的,這兩個函數(shù)定義了任務(wù)本身。MapReduce本質(zhì)上就是方法三,但是如何拆分文件集,如何copy程序,如何整合結(jié)果這些都是框架定義好的。這個方法跑得足夠快,但是部署起來很麻煩,我們要人工把程序copy到別的機(jī)器,要人工把論文集分開,最痛苦的是還要把N個運(yùn)行結(jié)果進(jìn)行整合(當(dāng)然我們也可以再寫一個程序)。但是寫一個多線程程序要比方法一困難多了,我們必須自己同步共享數(shù)據(jù),比如要防止兩個線程重復(fù)統(tǒng)計文件。這個問題理論上是可以高度并發(fā)的,因為統(tǒng)計一個文件時不會影響統(tǒng)計另一個文件。方法二:寫一個多線程程序,并發(fā)遍歷論文。這種方法在數(shù)據(jù)集比較小時,是非常有效的,而且實現(xiàn)最簡單,用來解決這個問題很合適。(2)從MapReduce產(chǎn)生過程和代碼的角度來講解如果想統(tǒng)計過去10年計算機(jī)論文出現(xiàn)最多的幾個單詞,看看大家都在研究些什么,那收集好論文后,該怎么辦呢?  方法一:我可以寫一個小程序,把所有論文按順序遍歷一遍,統(tǒng)計每一個遇到的單詞的出現(xiàn)次數(shù),最后就可以知道哪幾個單詞最熱門了。這樣,你就能得到洋蔥辣椒醬了。攪拌將自動完成,你可以假設(shè)key是一種原料的名字,就像洋蔥一樣。妻子:但是我怎么會制造出不同種類的番茄醬呢?我:現(xiàn)在你會看到MapReduce遺漏的階段—攪拌階段。每一個人都將不斷的從袋子里拿出蔬菜來,并且每次只對一種蔬菜進(jìn)行處理,也就是將它們切碎,直到袋子空了為止。我:沒錯,所以現(xiàn)在你就不得不分配工作了,你將需要幾個人一起切蔬菜。妻子: 當(dāng)然不能了,我會雇傭更多的工人來切蔬菜。我:是的..就是那樣的。得獎之后,辣椒醬食譜大受歡迎,于是你想要開始出售自制品牌的辣椒醬。我: 沒問題。 其實這只是MapReduce的一部分,MapReduce的強(qiáng)大在于分布式計算。因此,研磨機(jī)通常將map操作的蔬菜碎聚集在了一起。Reduce(化簡):在這一階段,你將各種蔬菜碎都放入研磨機(jī)里進(jìn)行研磨,你就可以得到一瓶辣椒醬了。在Map操作中可能會出現(xiàn)有個洋蔥壞掉了的情況,你只要把壞洋蔥丟了就行了。 所以,當(dāng)你在切像洋蔥這樣的蔬菜時,你執(zhí)行就是一個Map操作。所以你給Map一個洋蔥,Map就會把洋蔥切碎。Map和Reduce其實是兩種操作,我來給你詳細(xì)講解下。你會怎么做呢?妻子: 我會取薄荷葉一撮,洋蔥一個,番茄一個,辣椒一根,大蒜一根,切碎后加入適量的鹽和水,再放入混合研磨機(jī)里研磨,這樣你就可以得到一瓶混合辣椒醬了。讓我來編一個完整的情節(jié),這樣你肯定可以在15分鐘內(nèi)弄懂MapReduce.妻子: 好吧。這樣就能得到洋蔥辣椒醬了。MapReduce簡單案例2:(1)從理論部分來進(jìn)行講解MapReduce下面是一個關(guān)于一個程序員是如何給妻子講解什么是MapReduce.我問妻子:“你真的想要弄懂什么是MapReduce?” 她很堅定的回答說“是的”。MapReduce的基本原理就是:將大的數(shù)據(jù)分析分成小塊逐個分析,最后再將提取出來的數(shù)據(jù)匯總分析,最終獲得我們想要的內(nèi)容。如果計算的數(shù)組長度少的話,這樣實現(xiàn)是不會有問題的,還是面對海量數(shù)據(jù)的時候就會有問題。}}=i。for(int=Long...:Long下面以一個計算海量數(shù)據(jù)最大值為例:一個銀行有上億儲戶,銀行希望找到存儲金額最高的金額是多少,按照傳統(tǒng)的計算方式,我們會這樣:Java代碼MapReduce簡單案例1:通俗說MapReduce是一套從海量 OutputKey, OutputValue(4)Output輸出將最終處理結(jié)果輸出到文件OutputKey, OutputValue 結(jié)果文件上述就是MapReduce大致處理過程,在Map前還可能會對輸入的數(shù)據(jù)有Split(分割)的過程,保證任務(wù)并行效率,在Map之后還會有Shuffle(混合)的過程,對于提高Reduce的效率以及減小數(shù)據(jù)傳輸?shù)膲毫τ泻艽蟮膸椭?InputKey, InputValue(2)Map映射將原始數(shù)據(jù)映射成用于Reduce的數(shù)據(jù)InputKey, InputValue ListMapKey, MapValue(3)Reduce合并將相同Key值的中間數(shù)據(jù)合并成最終數(shù)據(jù)MapKey, ListMapValueMapReduce處理過程:(1) Input輸入從文件中讀取原始數(shù)據(jù)原始數(shù)據(jù)MapReduce的設(shè)計目標(biāo)是方便編程人員在不熟悉分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。TaskTracker根據(jù)應(yīng)用要求來結(jié)合本地數(shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。JobTracker的主要職責(zé)就是啟動、跟蹤和調(diào)度各個Slave的任務(wù)執(zhí)行。(6)TaskTrackerTaskTracker負(fù)責(zé)存儲數(shù)據(jù)的DataNode相結(jié)合,位于從節(jié)點,負(fù)責(zé)各自的task。(3)Block將一個文件進(jìn)行分塊,通常是64M(4)Secondary NameNodeSecondary NameNode是一個用來監(jiān)控HDFS狀態(tài)的輔助后臺程序,如果NameNode發(fā)生問題,可以使用Secondary NameNode作為備用的NameNode。(1)NameNodeNameNode是HDFS的守護(hù)程序,是 Hadoop 中的主服務(wù)器,它管理文件系統(tǒng)名稱空間和對集群中存儲的文件的訪問(2)DataNode集群中每個從服務(wù)器都運(yùn)行一個DataNode后臺程序,后臺程序負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫到本地文件系統(tǒng)。第二:響應(yīng)客戶端的讀寫請求。DataNode節(jié)點作為Slave服務(wù)器,同樣有三部分功能。第三:負(fù)責(zé)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點之間的映射。重命名39。關(guān)閉39。打開39。第一:處理來自客戶端的文件訪問。HDFS關(guān)鍵元素:Hadoop使用主/從(Master/Slave)架構(gòu),主要角色有NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker組成。(4)、廉價硬件,HDFS可以應(yīng)用在普通PC機(jī)上,這種機(jī)制能夠讓給一些公司用幾十臺廉價的計算機(jī)就可以撐起一個大數(shù)據(jù)集群。(2)、文件分塊存儲,HDFS會將一個完整的大文件平均分塊存儲到不同計算器上,它的意義在于讀取文件時可以同時從多個主機(jī)取不同區(qū)塊的文件,多主機(jī)讀取比單主機(jī)讀取效率要高得多得都。HDFS能提供高吞吐量的數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。要想了解Hadoop,就必須知道HDFS和MapReduce是什么?;靖拍睿号c將海量數(shù)據(jù)限定在一臺機(jī)器運(yùn)行的方式不同,Hadoop將大數(shù)據(jù)分成多個部分,這樣每個部分都可以被同時處理和分析。Hadoop集群運(yùn)行在廉價的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。最初由雅虎的Doug Cutting創(chuàng)建,Hadoop的靈感來自于 MapReduce ,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁索引的用戶定義函數(shù)。對建設(shè)堅強(qiáng)智能電網(wǎng)而言,亟需開展大數(shù)據(jù)相關(guān)技術(shù)研究,為電力大數(shù)據(jù)時代的到來奠定理論基礎(chǔ)和技術(shù)積累。數(shù)據(jù)即能量簡而言之,就是指通過大數(shù)據(jù)分析達(dá)到節(jié)能的目的,電力大數(shù)據(jù)應(yīng)用的過程,就是電力數(shù)據(jù)能量釋放的過程;數(shù)據(jù)即交互是指電力大數(shù)據(jù)與國民經(jīng)濟(jì)其他領(lǐng)域數(shù)據(jù)進(jìn)行交互融合,才能發(fā)揮其更大價值;數(shù)據(jù)即共情是指電力大數(shù)據(jù)緊密聯(lián)系千家萬戶、廠礦企業(yè),只有情系用電戶,滿足客戶需求,電力企業(yè)方能以數(shù)據(jù)取勝。3V 為體量大(Volume)、速度快(Velocity) 和類型多(Variety) ; 3E 為數(shù)據(jù)即能量(Energy) 、數(shù)據(jù)即交互(Exchange) 和數(shù)據(jù)即共情(Empathy)。中國電機(jī)工程學(xué)會信息化專委會在2013 年3 月發(fā)布了《中國電力大數(shù)據(jù)發(fā)展白皮書》,將2013 年定為“中國大數(shù)據(jù)元年”,掀起了電力大數(shù)據(jù)的研究熱潮。在智能電網(wǎng)深入推進(jìn)的形勢下,電力系統(tǒng)的數(shù)字化、信息化、智能化不斷發(fā)展,帶來了更多的數(shù)據(jù)源,例如智能電表從數(shù)以億計的家庭和企業(yè)終端帶來的數(shù)據(jù),電力設(shè)備狀態(tài)監(jiān)測系統(tǒng)從數(shù)以萬計的發(fā)電機(jī)、變壓器、開關(guān)設(shè)備、架空線路、高壓電纜等設(shè)備中獲取的高速增長的監(jiān)測數(shù)據(jù),光伏和風(fēng)電功率預(yù)測所需的大量的歷史運(yùn)行數(shù)據(jù)、氣象觀測數(shù)據(jù)等。展望電力大數(shù)據(jù)時代、電力大數(shù)據(jù)價值分析電力系統(tǒng)作為經(jīng)濟(jì)發(fā)展和人類生活依賴的能量供給系統(tǒng),也具有大數(shù)據(jù)的典型特征。事實上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。研究與發(fā)展: 有些企業(yè)(如制藥商)使用Hadoop技術(shù)進(jìn)行大量文本及歷史數(shù)據(jù)的研究,以協(xié)助新產(chǎn)品的開發(fā)。網(wǎng)絡(luò)監(jiān)控:Hadoop 和其他大數(shù)據(jù)技術(shù)被用來獲取,分析和顯示來自服務(wù)器,存儲設(shè)備和其他IT硬件的數(shù)據(jù),使管理員能夠監(jiān)視網(wǎng)絡(luò)活動,診斷瓶頸等問題。用戶體驗分析: 面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, ,以獲得對客戶體驗的完整視圖。Hadoop和下一代數(shù)據(jù)倉庫相結(jié)合,通過挖掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對其他客戶產(chǎn)生最大的影響力。企業(yè)就能采取最有效的措施挽留欲流失客戶??蛻袅魇Х治觯籂I銷活動分析:各行業(yè)的營銷部門長期使用技術(shù)手段監(jiān)測和確定營銷活動的有效性。金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為。財務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險,模擬市場行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險為潛在客戶打分。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個人用戶的情緒。情感分析:它們包括:推薦引擎:網(wǎng)絡(luò)資源和在線零售商使用Hadoop根據(jù)用戶的個人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務(wù)。這可能會產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運(yùn)營效率的方法。分析的結(jié)果可以通過工具可視化,也可以通過大數(shù)據(jù)應(yīng)用程序進(jìn)行操作,這些大數(shù)據(jù)應(yīng)用程序包括自己開發(fā)的應(yīng)用程序和現(xiàn)成的應(yīng)用程序。也就是說,他們必須使用高級分析技術(shù)處理數(shù)據(jù),并以此得出有意義的見解。Cloudera也在Impala和Hortonworks項目上通過開源倡議推行這一策略。這些大數(shù)據(jù)應(yīng)用將Hadoop、分析數(shù)據(jù)庫和預(yù)配置的硬件進(jìn)行捆綁,可以達(dá)到以最小的調(diào)整實現(xiàn)快速部署的目的。企業(yè)的目標(biāo)應(yīng)該是實現(xiàn)一個靈活的大數(shù)據(jù)架構(gòu),在該架構(gòu)中,三種技術(shù)可以盡可能無縫地共享數(shù)據(jù)和見解。例如,Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫供進(jìn)一步分析,或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成。NoSQL 數(shù)據(jù)庫擅長為基于Web的大數(shù)據(jù)應(yīng)用程序提供近實時地多結(jié)構(gòu)化數(shù)據(jù)存儲和處理。相反的這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。最值得注意的是,他們并非被設(shè)計用來存儲、處理和分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。有些(如SAP HANA)完全在內(nèi)存中運(yùn)行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動態(tài)RAM或閃存處理“熱”數(shù)據(jù)。在內(nèi)存中進(jìn)行數(shù)據(jù)處理:數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關(guān)的技術(shù))是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。它們允許分析數(shù)據(jù)庫收集和存儲更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫相比占用更少的硬件資源。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關(guān)系數(shù)據(jù)庫那樣構(gòu)造成整齊的表格。大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫采用列存儲結(jié)構(gòu),而大多數(shù)關(guān)系型數(shù)據(jù)庫以行結(jié)構(gòu)存儲和處理數(shù)據(jù)。對大規(guī)模并行處理環(huán)境而言,這點尤其重要,數(shù)百臺計算機(jī)并行處理數(shù)據(jù),偶爾出現(xiàn)一臺或多臺機(jī)器失敗是不可避免的。無共享架構(gòu)可確保分析數(shù)據(jù)庫環(huán)境中沒有單點故障。相對傳統(tǒng)的數(shù)據(jù)倉庫具有更快的性能,傳統(tǒng)數(shù)據(jù)倉庫運(yùn)行在單一機(jī)器上,會受到數(shù)據(jù)采集這個單一瓶頸點的限制。大規(guī)模并行分析數(shù)據(jù)庫在某些情況下支持近實時的大數(shù)據(jù)應(yīng)用。、大規(guī)模并行分析數(shù)據(jù)庫不同于傳統(tǒng)的數(shù)據(jù)倉庫,大規(guī)模并行分析數(shù)據(jù)庫能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構(gòu)化數(shù)據(jù),可以向外擴(kuò)展以容納TB甚至PB級數(shù)據(jù)。)這樣的批處理操作相對合適,因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。相反,Hadoop 的MapReduce 卻
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1