freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

13面向海量數(shù)據(jù)處理領(lǐng)域的云計算及其關(guān)鍵技術(shù)研究_任崇廣-資料下載頁

2025-06-05 17:28本頁面
  

【正文】 器用于分配記錄板到記錄板服務(wù)器以及負(fù)載平衡,垃圾回收等。記錄板服務(wù)器用于直接管理一組記錄板,處理讀寫請求等。為保證數(shù)據(jù)結(jié)構(gòu)的高可擴展性,BigTable采用三級的層次化的方式來存儲位置信息,。其中第一級的Chubby file中包含Root Tablet的位置,Root Tablet有且僅有一個,包含所有METADATA tablets的位置信息,每個METADATA tablets包含許多UserTable的位置信息。 BigTable中存儲記錄板位置信息的結(jié)構(gòu)當(dāng)客戶端讀取數(shù)據(jù)時,首先從Chubby file中獲取RootTablet的位置,并從中讀取相應(yīng)METADATA tablet的位置信息。接著從該METADATA tablet中讀取包含目標(biāo)數(shù)據(jù)位置信息的User Table的位置,然后從該User Table中讀取目標(biāo)數(shù)據(jù)的位置信息項。據(jù)此信息到服務(wù)器中特定位置讀取數(shù)據(jù)。這種數(shù)據(jù)管理技術(shù)雖然已經(jīng)投入使用,但是仍然具有部分缺點。例如,對類似數(shù)據(jù)庫中的Join操作效率太低,表內(nèi)數(shù)據(jù)如何切分存儲,數(shù)據(jù)類型限定為string類型過于簡單等。,這樣有利于對數(shù)據(jù)進行各種操作,同時對Join進行優(yōu)化,得到了比BigTable+MapReduce更快的Join速率和更易用的數(shù)據(jù)操作方式。本章首先分析了海量數(shù)據(jù)的產(chǎn)生和特點,海量數(shù)據(jù)已經(jīng)越來越廣泛和普及,逐漸成為科學(xué)研究領(lǐng)域以及人們?nèi)粘I钪幸环N重要的數(shù)據(jù)資源。然后,在第三節(jié)及處理應(yīng)對海量數(shù)據(jù)處理的數(shù)據(jù)統(tǒng)合機制,分析了統(tǒng)合機制的必要性,統(tǒng)合原則,以及數(shù)據(jù)統(tǒng)合的關(guān)鍵技術(shù)。在第四節(jié)介紹了云計算和海量數(shù)據(jù)處理,分析了云計算的特點和應(yīng)用層面;云計算下的海量數(shù)據(jù)處理的研究進展以及特點和不足。云計算技術(shù)是為解決海量數(shù)據(jù)管理過程中遇到的新需求而提出的一種新的技術(shù),目前己經(jīng)被用來對分布異構(gòu)的海量數(shù)據(jù)提供有效地管理。本章第五節(jié)從系統(tǒng)實現(xiàn)的角度,對虛擬化技術(shù)、存儲資源分配、編程方式、異構(gòu)數(shù)據(jù)訪問記數(shù)據(jù)存儲技術(shù)等若干關(guān)鍵技術(shù)目前的研究進展進行了詳細(xì)的介紹。 3云計算環(huán)境下海量小文件處理模型CMSFPM在各種存儲系統(tǒng)中,存在著大量的小文件。美國西北太平洋國家實驗室一份研究報告表明,他們系統(tǒng)中有1200萬個文件,其中94%的文件小于64MB,58%的小于64KB。在一些具體的科研計算環(huán)境中,也存在大量的小文件,例如,在某些生物學(xué)計算中可能會產(chǎn)生3000萬個文件,而其平均大小只有190KB。目前,Hadoop還沒有一個系統(tǒng)級的通用的解決HDFS小文件問題的方案。它自帶的三種方案,包括 Hadoop Archive,Sequence File 和 Combine File Input Format,需要用戶根據(jù)自己的需要編寫程序解決小文件問題,沒有形成一個比較通用的技術(shù)方案。在系統(tǒng)層面解決小文件的問題,需原有HDFS基礎(chǔ)上添加一個小文件處理模塊,當(dāng)用戶上傳一個文件時,判斷該文件是否屬于小文件,如果是,則交給小文件處理模塊處理,否則,交給通用文件處理模塊處理。小文件處理模塊的設(shè)計思想是,先將很多小文件合并成一個大文件,然后為這些小文件建立索引,以便進行快速存取和訪問。,Liu等人結(jié)合WebGIS應(yīng)用,以Hadoop為存儲平臺開發(fā)了 WebGIS原型系統(tǒng);Dong等人針對BlueSky系統(tǒng)中PPT課件的存儲問題,提出了將小文件合并到大文件中并結(jié)合預(yù)取機制來提高系統(tǒng)存儲和訪問小文件的效率的方法。另外,Mackey等人利用HAR技術(shù)實現(xiàn)小文件的合并[81],從而提高了 HDFS中元數(shù)據(jù)的存儲效率。劉立坤等人對分布式存儲系統(tǒng)中小文件的并發(fā)訪問進行了優(yōu)化。在海量文件系統(tǒng)中,常用和非常用文件混雜存放在一起。由于缺乏管理工具,管理人員很難區(qū)分、統(tǒng)計、管理混雜在一起的海量文件。為了解決這個問題,本章主要設(shè)計了云計算環(huán)境下的海量小文件處理模型(CMSFPM),該模型基于Hadoop和MapReduce,首先對當(dāng)前主流云平臺進行了深入分析和對比,并以此為基礎(chǔ)上,深入討論和研究了 CMSFPM模型設(shè)計中的相關(guān)技術(shù)。CMSFPM模型關(guān)鍵技術(shù)包括:云計算環(huán)境下的小文件類別劃分和預(yù)處理策略,文件信息索引機制,基于就近原則及權(quán)值相似度的文件合并算法等。本研究是基于開源云計算平臺Hadoop,所以,我們提到的小文件主要是指文件size小于HDFS上block大小的文件。這樣的文件會給Hadoop的擴展性和性能帶來嚴(yán)重問題。首先,在HDFS中,任何Block,文件或者目錄在內(nèi)存中均以對象的形式存儲,每個對象約占150byte,如果有一千萬個小文件,每個文件占用一個block,則Namenode大約需要2G空間。如果存儲一億個文件,則Namenode需要20G空間。這樣Namenode內(nèi)存容量嚴(yán)重制約了集群的擴展。其次,訪問大量小文件速度遠(yuǎn)遠(yuǎn)小于訪問幾個大文件。HDFS最初是為流式訪問大文件開發(fā)的,如果訪問大量小文件,需要不斷的從一個Datanode跳到另一個Datanode,嚴(yán)重影響性能。最后,處理大量小文件速度遠(yuǎn)遠(yuǎn)小于處理同等大小的大文件的速度。每一個小文件要占用一個slot,而Task啟動將耗費大量時間甚至大部分時間都耗費在啟動task和釋放task上。Hadoop自帶的解決小文件問題的方案具體介紹如下。(1)Hadoop ArchiveHadoop Archive或者HAR,是一個高效地將小文件放入HDFS塊中的文件存檔工具,它能夠?qū)⒍鄠€小文件打包成一個HAR文件,這樣在減少Namenode內(nèi)存使用的同時,仍然允許對文件進行透明的訪問。,它可以將眾多小文件打包成一個大文件進行存儲,并且打包后原來的文件仍然可以通過MapReduce進行操作,打包后的文件由索引和存儲兩大部分組成,索引部分記錄了原有的目錄結(jié)構(gòu)和文件狀態(tài)。使用HAR時需要兩點:第一,對小文件進行存檔后,原文件并不會自動被刪除,需要用戶自己刪除;第二,創(chuàng)建HAR文件的過程實際上是在運行一個MapReduce作業(yè),因而需要有一個Hadoop集群運行此命令。此外,HAR還有一些缺陷:第一,一旦創(chuàng)建,Archives便不可改變。要增加或移除里面的文件,必須重新創(chuàng)建歸檔文件。第二,要歸檔的文件名中不能有空格,否則會拋出異常,可以將空格用其他符號替換。HAR本質(zhì)上來說,就是把眾多文件整合到一起,文件個數(shù)減小了,但是文件總體大小并沒有減少(無壓縮)。歸檔文件與原文件分別使用了不同的Block,并沒有共用Block。當(dāng)歸檔文件較多時,性能并不明顯(典型的HDFS拷貝)。(2)Sequence FileSequence File由一系列的二進制key/value組成,如果為key小文件名,value為文件內(nèi)容,則可以將大批小文件合并成一個大文件。 中提供了 Sequence File,包括Writer, Reader 和 SequenceFileSorter類進行寫,讀和排序操作。(3)Combine File Input FormatCombine File Input Format是一種新的inputformat,用于將多個文件合并成一個單獨的split,另外,它會考慮數(shù)據(jù)的存儲位置。很多學(xué)者結(jié)合具體的應(yīng)用,構(gòu)造了自己的合并方法。Liu等人[48]結(jié)合WebGIS中數(shù)據(jù)相關(guān)性特征,將保存相鄰地理位置信息的小文件合并成一個大的文件,并為這些小文件建立索引以便對小文件進行存取。圖3.] WebGIS索引結(jié)構(gòu)Dong等人針對Bhiesky系統(tǒng)的特點提出了解決HDFS小文件存儲的方案。Bluesky是中國電子教學(xué)共享系統(tǒng),里面的PPT文件和視頻均存放在HDFS上。論文提出了將屬于同一個課件的文件合并成一個大文件,以提高小文件存儲效率。并且,提出了一種twolevel prefetching機制以提高小文件讀取效率,即索引文件預(yù)取和數(shù)據(jù)文件預(yù)取。數(shù)據(jù)文件預(yù)取是指用戶訪問某個文件時,將該文件所在課件中的所有文件加載到內(nèi)存中,用戶繼續(xù)訪問其他文件,速度會明顯提高。 BlueSky中上傳文件的過程本章在充分分析海量小文件特點及云平臺數(shù)據(jù)處理相關(guān)技術(shù)的基礎(chǔ)上,結(jié)合海量小文件的特點,從文件劃分策略,文件組織,以及文件合并處理機制等三個方面設(shè)計云環(huán)境下海量小文件處理模型CMSFPM。戴元順指出,從體系結(jié)構(gòu)的角度來看,一個云計算系統(tǒng)是為配置一系列IT資源、運行客戶應(yīng)用程序而搭建的平臺。用戶通過應(yīng)用程序發(fā)出獲取信息的請求,云計算系統(tǒng)據(jù)程序的要求調(diào)度計算資源來運行這個應(yīng)用程序。本節(jié)主要介紹云計算基本體系結(jié)構(gòu)以及主流云計算平臺(Google,亞馬遜,Hadoop)的體系結(jié)構(gòu)。云計算平臺是一個強大的“云”網(wǎng)絡(luò),連接了大量并發(fā)的網(wǎng)絡(luò)計算和服務(wù),可利用虛擬化技術(shù)擴展每一個服務(wù)器的能力,將各自的資源通過云計算平臺結(jié)合起來,提供超級計算和存儲能力。(1)用戶界面:提供云用戶請求服務(wù)的交互界面,也是用戶使用云的入口,用戶通過Web瀏覽器可以注冊、登錄及定制服務(wù)、配置和管理用戶。打幵應(yīng)用實例與本地操作桌面系統(tǒng)一樣。(2)服務(wù)目錄:云用戶在取得相應(yīng)權(quán)限(付費或其他限制)后可以選擇或定制服務(wù)列表,也可以對己有服務(wù)進行退訂操作,在云用戶端界面生成相應(yīng)的圖標(biāo)或列表來展示相關(guān)的服務(wù)。(3)管理系統(tǒng):用于管理可用計算資源和服務(wù),能管理云用戶,能對用戶的授權(quán)、認(rèn)證和登錄進行管理,并可以管理可用計算資源和服務(wù),接收用戶發(fā)送的請求,并根據(jù)用戶請求轉(zhuǎn)發(fā)到相應(yīng)的應(yīng)用程序。(4)部署工具:自治的,根據(jù)用戶請求智能地部署資源和應(yīng)用,動態(tài)地部署、配置和回收資源。(5)監(jiān)控:監(jiān)控和計量云系統(tǒng)資源的使用情況,以便做出迅速反應(yīng),完成節(jié)點同步配置、負(fù)載均衡和資源監(jiān)控,確保資源能順利分配給合適的用戶。(6)服務(wù)器集群:虛擬的或物理的服務(wù)器由管理系統(tǒng)管理,負(fù)責(zé)高并發(fā)量的用戶請求處理、大運算量計算處理、用戶Web應(yīng)用服務(wù),云數(shù)據(jù)存儲時釆用相應(yīng)數(shù)據(jù)切割算法以并行方式上傳和下載大容量數(shù)據(jù)。云計算技術(shù)體系結(jié)構(gòu)和云計算體系結(jié)構(gòu)不是一個概念,后者從服務(wù)的角度來劃分云,主要突出了云服務(wù)能給用戶帶來什么,而云計算的技術(shù)體系結(jié)構(gòu)主要從系統(tǒng)屬性和設(shè)計思想角度來說明云,是對軟硬件資源在云計算技術(shù)中所充當(dāng)角色的說明。從云計算技術(shù)角度來分,云計算大致由物理資源、虛擬化資源、中間件管理部分和服務(wù)接口四部分構(gòu)成[13]??蓮牟煌慕嵌葘τ谠朴嬎闫脚_進行分類從云平臺的使用方式來分,可以分為在線云平臺和其他云平臺,在線云平臺必須通過Internet才能使用,而其他云平臺是指可以由開發(fā)者自己在其產(chǎn)品搭建機構(gòu)內(nèi)部云平臺的產(chǎn)品。按照數(shù)據(jù)處理和數(shù)據(jù)存儲可分為,以數(shù)據(jù)存儲為主的云存儲平臺,以數(shù)據(jù)處理為主的計算型云平臺和存儲處理兼顧的綜合型云平臺三類。根據(jù)如前面所述的按照所提供服務(wù)的類型,分為IaaS, PaaS, SaaS。也可簡單的分為商業(yè)化云平臺和開源云平臺。本節(jié)我們將介紹幾個典型的云計算平臺,并對部分云計算平臺進行探討。l 亞馬遜云計算平臺全球IT研究與顧問咨詢公司高德納(Gartner)的分析師Chris Gaun指出,谷歌新的IaaS云擁有強大的計算性能,但和已有4年歷史的亞馬遜的云計算服務(wù)(AWS)的彈性云比較,無法相提并論。亞馬遜(Amazon)的云計算稱之為亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),它主要由四塊核心服務(wù)組成:Simple Storage Service (簡單存儲服務(wù) S3)、ElasticCompute Cloud(彈性計算云EC2)、Simple Queuing Services(簡單排列服務(wù))間以及SimpleDB(簡單數(shù)據(jù)庫)。目前亞馬遜所提供的是可以通過網(wǎng)絡(luò)訪問的存儲,計算機處理,信息排隊和數(shù)據(jù)庫管理系統(tǒng)接入式服務(wù)。無論是個人還是大型企業(yè),只要是使用AWS的研發(fā)人員都可以在亞馬遜的基礎(chǔ)架構(gòu)上進行應(yīng)用軟件的研發(fā)和交付,而無需實現(xiàn)配置軟件和服務(wù)器。 AWS整體架構(gòu)EC2旳創(chuàng)新在于允許用戶根據(jù)需求動態(tài)改變虛擬機實例的類型及數(shù)量,技術(shù)上支持容錯并在收費模式上支持按使用量付費,而不是預(yù)付費。EC2的最大特點是允許用戶根據(jù)需求動態(tài)調(diào)整運行的實例類型和數(shù)量,實現(xiàn)按需付費。為了支持這種靈活性,EC2需要在技術(shù)上支持容錯以及更好的安全性。其使用模式如下_。l 谷歌云計算平臺Google是最先提出云計算概念的廠商,Google的云計算技術(shù)實際上是針對Google特定的網(wǎng)絡(luò)應(yīng)用程序而定制的。Google比一般網(wǎng)站更需要分布式的存儲數(shù)據(jù)。因此Google開發(fā)了特有的GFS、MapReduce和BigTable,這正是Google云計算的基礎(chǔ)架構(gòu)1]。Google云是幾萬甚至大約100萬臺廉價的服務(wù)器所組成的網(wǎng)絡(luò)。同時,GoogleAppEngine支持多種API,并為用戶提供基于Web的管理控制臺。Google APPEngine以服務(wù)方式提供多種的云服務(wù),用戶可以選擇免費使用或在訪問量到達(dá)一定數(shù)量時選擇付費方式使用其提供的APP。GFS是為了滿足Google迅速增長的數(shù)據(jù)處理需求而設(shè)計實現(xiàn)的Google文件系統(tǒng)。一個GFS集群包含一個主服務(wù)器和多個塊服務(wù)器,被多個客戶端訪問。文件被分割成固定尺寸的塊。塊服務(wù)器把塊作為Unux文件保存在本地硬盤上,并根據(jù)指定的塊句柄和字節(jié)范圍來讀寫塊數(shù)據(jù)。每個塊都會復(fù)制到多個塊服務(wù)器上,缺省保存三個備份。主服務(wù)器管理文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息和文件到塊的映射信息,以及塊當(dāng)前所在的位置。 GFS系統(tǒng)架構(gòu)MapReduce用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念“Map (映射)”和“Reduce (化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。該架構(gòu)編程模式簡單,而且其具備了很好的容錯機制,適用于大容量的分布式文件系統(tǒng),具有較好的兼容性和安全的任務(wù)執(zhí)行措施。對于其具體的算法和原理, MapReduce原理進行詳細(xì)介紹。BigTable是Google的大型數(shù)據(jù)庫管理系統(tǒng),由于網(wǎng)絡(luò)數(shù)據(jù)的不一致性和大規(guī)模性,造成數(shù)據(jù)處理的困難。Google針對這一特性,設(shè)計出了用來處理海量的數(shù)據(jù)的一種非關(guān)系型的數(shù)據(jù)庫。Bigtable的設(shè)計目的是可靠的處理PB級別的
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1