freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

13面向海量數(shù)據(jù)處理領(lǐng)域的云計算及其關(guān)鍵技術(shù)研究_任崇廣(專業(yè)版)

2025-07-17 17:28上一頁面

下一頁面
  

【正文】 主服務(wù)器管理文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息和文件到塊的映射信息,以及塊當(dāng)前所在的位置。無論是個人還是大型企業(yè),只要是使用AWS的研發(fā)人員都可以在亞馬遜的基礎(chǔ)架構(gòu)上進(jìn)行應(yīng)用軟件的研發(fā)和交付,而無需實現(xiàn)配置軟件和服務(wù)器。打幵應(yīng)用實例與本地操作桌面系統(tǒng)一樣。(2)Sequence FileSequence File由一系列的二進(jìn)制key/value組成,如果為key小文件名,value為文件內(nèi)容,則可以將大批小文件合并成一個大文件。如果存儲一億個文件,則Namenode需要20G空間。美國西北太平洋國家實驗室一份研究報告表明,他們系統(tǒng)中有1200萬個文件,其中94%的文件小于64MB,58%的小于64KB。主服務(wù)器用于分配記錄板到記錄板服務(wù)器以及負(fù)載平衡,垃圾回收等??蛻舳藦腗aster獲取目標(biāo)數(shù)據(jù)塊的位置信息后,直接和塊服務(wù)器交互進(jìn)行讀操作。用戶的數(shù)據(jù)請求到達(dá)元數(shù)據(jù)之后,根據(jù)元數(shù)據(jù)中記錄的信息,進(jìn)行適當(dāng)?shù)膮f(xié)議轉(zhuǎn)換,將轉(zhuǎn)換后的數(shù)據(jù)訪問請求發(fā)到不同的存儲系統(tǒng),利用適用于該系統(tǒng)的訪問方式存取數(shù)據(jù),從而實現(xiàn)對異構(gòu)存儲資源的統(tǒng)一訪問為保證高可用、高可靠和經(jīng)濟(jì)性,云計算釆用分布式存儲的方式來存儲數(shù)據(jù),釆用冗余存儲的方式來保證存儲數(shù)據(jù)的可靠性,即為同一份數(shù)據(jù)存儲多個副本。(4)動態(tài)負(fù)載均衡:兼顧能源消耗和工作負(fù)載的均衡。(3)在海量數(shù)據(jù)存儲方面,沒能對于存儲任務(wù)的分配機(jī)制深入研究,應(yīng)用現(xiàn)有經(jīng)典算法融入到云存儲中。2008年,Hadoop成為Apache的頂級項目,并逐漸成為一個進(jìn)行分布式計算和海量數(shù)據(jù)處理的基礎(chǔ)平臺。你實際上在租用它的互聯(lián)網(wǎng)運算資源。(6)資源池化云計算帶來的一個好處是能夠提高資源的利用率,一般需要通過共享的方式來達(dá)到這個目的,而共享需要先把資源集中到一個公共的資源池中?!霸啤蹦苜x予用戶前所未有的計算能力。后者涉及到的核心技術(shù)有用戶檢索行為的獲取、分析與利用、用戶反饋檢索、用戶檢索歷史的應(yīng)用、個性化推薦服務(wù)、信息協(xié)同過濾等、定題信息提供(SDI)等。造成了數(shù)據(jù)冗余、相互關(guān)聯(lián)程度低,大量的信息孤島出現(xiàn),同時用戶的檢索負(fù)擔(dān)也日益加重。即使在目前的狀況下,高性能計算機(jī)可以滿足部分領(lǐng)域海量數(shù)據(jù)的存儲需求,但是其價格相當(dāng)昂貴,運行成本,維護(hù)成本也非常高,操作復(fù)雜,難以被推廣應(yīng)用。因此,導(dǎo)致了世界范圍內(nèi)天文觀測的數(shù)據(jù)量以指數(shù)級別迅速增長。這一差距表明,通過使用海量數(shù)據(jù)來創(chuàng)造價值的最大潛力在最發(fā)達(dá)經(jīng)濟(jì)體中。(3)針對文檔查詢過程中的復(fù)雜處理及內(nèi)容映射關(guān)系,提出了基于XML和多Value的改進(jìn)MapReduce模型。索引文件預(yù)取是當(dāng)用戶訪問某個文件時,該文件所在的block對應(yīng)的索引文件被加載到內(nèi)存中。隨著互聯(lián)網(wǎng)信息量呈現(xiàn)出的爆炸性增長,海量小文件處理的應(yīng)用需求,文本分類已經(jīng)成為信息檢索、數(shù)據(jù)挖掘等領(lǐng)域的關(guān)鍵技術(shù)。云計算的特點是對海量的數(shù)據(jù)存儲、讀取后進(jìn)行大量的分析,數(shù)據(jù)的讀操作頻率遠(yuǎn)大于數(shù)據(jù)的更新頻率,云中的數(shù)據(jù)管理是一種讀優(yōu)化的數(shù)據(jù)管理。Prodromidis等在staking分類器組合框架的基礎(chǔ)上提出了Metaleaming學(xué)習(xí)模型。以任務(wù)之間的消息傳遞驅(qū)動的MPI,其進(jìn)行大規(guī)模數(shù)據(jù)處理的基本思路就是,將任務(wù)劃分成為可以獨立完成的不同計算部分,將每個計算部分需要處理的數(shù)據(jù)分發(fā)到相應(yīng)的計算節(jié)點分別進(jìn)行計算,計算完成后各個節(jié)將各自的結(jié)果集中到主計算節(jié)點進(jìn)行結(jié)果的最終匯總。谷歌是最大的云計算使用者,它的搜索引擎建立在200多個地點、超過百萬臺服務(wù)器的支撐之上,這些基礎(chǔ)設(shè)施的數(shù)量目前正在快速增長。美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST):云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲,應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。當(dāng)前大型并行機(jī)主要有:單指令多數(shù)據(jù)流機(jī)SMD(SingleInstruction MultipleData)、對稱多處理機(jī)SMP(Symmetric MultiProcessing )、并行向量處理機(jī) PVP (Parallel Vector Processor)工作站機(jī)群COW(Cluster Of Workstation)分布共享存儲多處理機(jī)DSM(Distributed Shared Memory)以及大規(guī)模并行處理機(jī)MPP (Massively Parallel Processing)。云計算是在分布式計算(Distributed Computing)、并行計算(Parallel Computing)效用計算(Utility Computing)以及虛擬化(Virtualization)等技術(shù)上發(fā)展出來的一個新的技術(shù)模式。按服務(wù)類型可分為基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a Service, IaaS)、平臺即服務(wù)(Platform as a Service, PaaS)、軟件即服務(wù)(Software as a Service, SaaS)。目前,海量數(shù)據(jù)處理是一個非?;钴S的研究方向,眾多學(xué)者們在這個方向上進(jìn)行了廣泛而深入的研究。DAG相對于兩階段式的MapReduce,可以表達(dá)更加豐富的計算類型;同時,它支持在子任務(wù)之間通過TCP管道Sharedmemory FIFO(共享內(nèi)存先進(jìn)先出)進(jìn)行結(jié)果傳遞,盡量避免一些不必要的磁盤輸入輸出,加速計算的執(zhí)行。云計算因為其彈性可伸縮的計算模式,受到了以IBM、亞馬遜(Amazon)、Google等為代表的眾多高科技公司的重視,成為各公司應(yīng)對海量信息處理的利器。虛擬化是實現(xiàn)云計算的最重要的技術(shù)基礎(chǔ),目前,云計算中普遍使用了三種虛擬機(jī)技術(shù):VMware開發(fā)設(shè)計的VMware Infrastructure, Xensource管理的Xen,以及以色列開源組織提出的KVM。我國其中有具有代表性的有上海交通大學(xué)設(shè)計的基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文文本自動分類系統(tǒng)[M,清華大學(xué)的文本自動分類系統(tǒng)等。針對海量數(shù)據(jù)處理中存在的問題,本文以海量數(shù)據(jù)為研究對象,深入研究了云計算的相關(guān)理論,并結(jié)合有關(guān)前沿思想,突破了云計算在海量數(shù)據(jù)處理中的若千關(guān)鍵技術(shù),建立了一套行之有效的海量數(shù)據(jù)分析方法。(4)計對云存儲的問題,研究海量數(shù)據(jù)存儲機(jī)制,分析了云存儲中的協(xié)調(diào)機(jī)制和虛擬化。下面來看幾個海量數(shù)據(jù)的實例:在銀行證券等金融行業(yè),美國的紐約證券交易所每天大約會產(chǎn)生1TB的交易數(shù)據(jù)。而于2005年投入使用的大型強(qiáng)子對撞機(jī)LHC (Large Hadron Collider)其原始數(shù)據(jù)產(chǎn)生速度將達(dá)到lOOMB/s,導(dǎo)致每年約1PB的數(shù)據(jù)總量。不確定性可能是原始數(shù)據(jù)本來就不準(zhǔn)確或是采用了粗粒度的數(shù)據(jù)集合,也可能是原始數(shù)據(jù)是為了滿足特殊應(yīng)用目的或是經(jīng)過處理缺失值或者數(shù)據(jù)集成而生成的。數(shù)據(jù)統(tǒng)合是一個系統(tǒng)工程,如何在理論的指導(dǎo)和經(jīng)驗的驅(qū)使下,使信息資源的整合工程做到最優(yōu)。因此,從信息服務(wù)到內(nèi)容服務(wù)、知識服務(wù)的轉(zhuǎn)變,已成為一種必然。(3)高可擴(kuò)展性和高可靠性“云”使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施來保障服務(wù)的高可靠性,使用云計算比使用本地計算機(jī)可靠。所以,云計算是分布式計算、互聯(lián)網(wǎng)技術(shù)、大規(guī)模資源管理等技術(shù)的融合與發(fā)展,其研究和應(yīng)用是一個系統(tǒng)工程,涵蓋了數(shù)據(jù)中心管理、資源虛擬化、海量數(shù)據(jù)處理、計算機(jī)安全等重要問題閱,。隨著云計算技術(shù)的發(fā)展,雖然當(dāng)前國內(nèi)外學(xué)者和研究機(jī)構(gòu)已開始將云計算與海量數(shù)據(jù)處理結(jié)合進(jìn)行研究,但總的來說還是相對較少。因此,基于云計算的海量數(shù)據(jù)處理技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點技術(shù)。虛擬化技術(shù)根據(jù)對象可分成存儲虛擬化、計算虛擬化、網(wǎng)絡(luò)虛擬化等,計算虛擬化又分為系統(tǒng)級虛擬化、應(yīng)用級虛擬化和桌面虛擬化在云計算實現(xiàn)中。AUcock等人采用了層次化存儲資源管理[76],其存儲設(shè)備由磁盤和磁帶組成,不經(jīng)常使用的數(shù)據(jù)被存儲在磁帶上,而訪問頻率高的數(shù)據(jù)則存儲在磁盤上。云計算的數(shù)據(jù)存儲技術(shù)未來的發(fā)展將集中在超大規(guī)模的數(shù)據(jù)存儲、數(shù)據(jù)加密和安全性保證以及繼續(xù)提高I/O速率等方面。本質(zhì)上是一種分布式的數(shù)據(jù)存儲技術(shù),以及與之相關(guān)的虛擬化技術(shù),對上層屏蔽具體的物理存儲器的位置、信息等。接著從該METADATA tablet中讀取包含目標(biāo)數(shù)據(jù)位置信息的User Table的位置,然后從該User Table中讀取目標(biāo)數(shù)據(jù)的位置信息項。小文件處理模塊的設(shè)計思想是,先將很多小文件合并成一個大文件,然后為這些小文件建立索引,以便進(jìn)行快速存取和訪問。每一個小文件要占用一個slot,而Task啟動將耗費大量時間甚至大部分時間都耗費在啟動task和釋放task上。圖3.] WebGIS索引結(jié)構(gòu)Dong等人針對Bhiesky系統(tǒng)的特點提出了解決HDFS小文件存儲的方案。(6)服務(wù)器集群:虛擬的或物理的服務(wù)器由管理系統(tǒng)管理,負(fù)責(zé)高并發(fā)量的用戶請求處理、大運算量計算處理、用戶Web應(yīng)用服務(wù),云數(shù)據(jù)存儲時釆用相應(yīng)數(shù)據(jù)切割算法以并行方式上傳和下載大容量數(shù)據(jù)。l 谷歌云計算平臺Google是最先提出云計算概念的廠商,Google的云計算技術(shù)實際上是針對Google特定的網(wǎng)絡(luò)應(yīng)用程序而定制的。BigTable是Google的大型數(shù)據(jù)庫管理系統(tǒng),由于網(wǎng)絡(luò)數(shù)據(jù)的不一致性和大規(guī)模性,造成數(shù)據(jù)處理的困難。GFS是為了滿足Google迅速增長的數(shù)據(jù)處理需求而設(shè)計實現(xiàn)的Google文件系統(tǒng)。也可簡單的分為商業(yè)化云平臺和開源云平臺。戴元順指出,從體系結(jié)構(gòu)的角度來看,一個云計算系統(tǒng)是為配置一系列IT資源、運行客戶應(yīng)用程序而搭建的平臺。要增加或移除里面的文件,必須重新創(chuàng)建歸檔文件。為了解決這個問題,本章主要設(shè)計了云計算環(huán)境下的海量小文件處理模型(CMSFPM),該模型基于Hadoop和MapReduce,首先對當(dāng)前主流云平臺進(jìn)行了深入分析和對比,并以此為基礎(chǔ)上,深入討論和研究了 CMSFPM模型設(shè)計中的相關(guān)技術(shù)。然后,在第三節(jié)及處理應(yīng)對海量數(shù)據(jù)處理的數(shù)據(jù)統(tǒng)合機(jī)制,分析了統(tǒng)合機(jī)制的必要性,統(tǒng)合原則,以及數(shù)據(jù)統(tǒng)合的關(guān)鍵技術(shù)。 BigTable的邏輯結(jié)構(gòu)BigTable中的數(shù)據(jù)項按照行關(guān)鍵字的字典序排列,每行動態(tài)地劃分到記錄板中。GFS中的文件切分為64MB的塊進(jìn)行存儲。MapReduce是一種編程模型和任務(wù)調(diào)度模型。也包含主機(jī)節(jié)點的失效保護(hù),即當(dāng)一個主機(jī)節(jié)點失效后,該功能實體能將其上的服務(wù)自動轉(zhuǎn)移到其他節(jié)點上繼續(xù)運行。徐小龍?zhí)岢鲆环N基于大規(guī)模廉價計算平臺的海量數(shù)據(jù)處理模型,吸取了 MapReduce計算模式和大規(guī)模分布式數(shù)據(jù)存儲機(jī)制Bigtable的基本思想,實現(xiàn)了以數(shù)據(jù)為中心的計算密集型的經(jīng)濟(jì)性超級計算系統(tǒng)平臺。2004年,Google公司最先提出MapReduce技術(shù)作為面向大數(shù)據(jù)分析和處理的并行計算模型,主要包含3個層面的內(nèi)容: (1)分布式文件系統(tǒng);(2)并行編程模型;(3)并行執(zhí)行引擎。第二個層面,就是軟件作為服務(wù)最主要的典型,或者是資源作為服務(wù),這里面比較重要的兩個典型,一是斯達(dá)康,CRM典型的經(jīng)營商。(4)按需服務(wù)云計算是把信息技術(shù)作為服務(wù)(IT as a Service )提供的一種方式。如緒論中所述,云計算是分布式計算(Distributed Computing)、并行計算(Parallel Computing)、效用計算(Utility Computing)、網(wǎng)絡(luò)存儲(Network Storage Technologies)、虛擬化(Virtualization)、負(fù)載均衡(Load Balance)、面向服務(wù)架構(gòu)(ServiceOriented Architecture,簡稱為SOA)等計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。索引技術(shù)索引技術(shù)的研究,主要解決整合后的索引如何構(gòu)造的問題,這些索引要滿足不同檢索算法和檢索需求,如,全文檢索、同義詞檢索、排除檢索、擴(kuò)檢和縮檢、集成(整合、跨庫、一站式)檢索技術(shù)(涉及到關(guān)鍵詞、主題詞、分類導(dǎo)航、元搜索、TOPK集成檢索等整合檢索)、跨語言的信息檢索技術(shù)、概念檢索技術(shù)(利用同義詞詞典、概念詞典)等進(jìn)行基于概念(或基于語義、基于本體)的檢索。目前的大多數(shù)據(jù)庫系統(tǒng)只提供數(shù)據(jù)錄入,查詢,統(tǒng)計等功能,很難發(fā)現(xiàn)數(shù)據(jù)中存在關(guān)系和規(guī)則,無法根據(jù)己有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,不能挖掘出數(shù)據(jù)背后隱藏的知識,導(dǎo)致了數(shù)據(jù)爆炸,但知識貧乏的現(xiàn)象。不同的領(lǐng)域、不同的行業(yè)在數(shù)據(jù)獲取階段所采用的設(shè)備、手段和方式都千差萬別,取得的數(shù)據(jù)在數(shù)據(jù)形態(tài)、數(shù)據(jù)結(jié)構(gòu)上也各不相同。,每秒產(chǎn)生1000張短帖。麥肯錫全球研究院(MGI)估計,2010年,全球企業(yè)在硬盤上存儲了超過7EB (1EB等于10億GB)的新數(shù)據(jù),消費者在PC和筆記本等設(shè)備上存儲了超過6EB新數(shù)據(jù)。本研究主要目的是針對海量數(shù)據(jù)處理的應(yīng)用需求,研究云計算環(huán)境下的數(shù)據(jù)統(tǒng)合機(jī)制及關(guān)鍵技術(shù),從而為更深層次的高性能計算應(yīng)用提供服務(wù)。針對分布式文件系統(tǒng),結(jié)合WebGIS的應(yīng)用模式,該論文提出了小文件優(yōu)化策略。而Liu提出了GridBatch系統(tǒng),該系統(tǒng)可以解決云基礎(chǔ)設(shè)施環(huán)境下達(dá)規(guī)模數(shù)據(jù)批處理問題。Hadoop在可伸縮性,健壯性,計算性能和成本上具有很好的優(yōu)勢,同時它是免費開源旳,所以成為了當(dāng)前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺。國內(nèi)外很多學(xué)者提出了很多方法來提高海量數(shù)據(jù)處理的效率。該標(biāo)準(zhǔn)是由大量計算機(jī)供應(yīng)商和軟件開發(fā)商于1994年共同設(shè)計完成。隨著數(shù)據(jù)的急劇增長,對存儲資源、計算機(jī)系統(tǒng)、網(wǎng)絡(luò)資源等都提出了極高的性能要求,給以往的數(shù)據(jù)處理技術(shù)帶來了的挑戰(zhàn)。隨著Google云計算核心技術(shù)GFS、MapReduce和BigTable的公開,越來越多的企業(yè)認(rèn)同并廣泛應(yīng)用了云計算技術(shù)。目錄1緒論 2 3 6 6 8 9 11 11 12 132海量數(shù)據(jù)處理技術(shù)分析 15 15 15 18 21 21 24 26 27 28 28 29 29 323云計算環(huán)境下海量小文件處理模型CMSFPM 33 33 34 36 36 36 38 CMSFPM模型 43 43 48 50 51
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1