freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

13面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究_任崇廣(已修改)

2025-06-17 17:28 本頁面
 

【正文】 目錄1緒論 2 3 6 6 8 9 11 11 12 132海量數(shù)據(jù)處理技術(shù)分析 15 15 15 18 21 21 24 26 27 28 28 29 29 323云計(jì)算環(huán)境下海量小文件處理模型CMSFPM 33 33 34 36 36 36 38 CMSFPM模型 43 43 48 50 514基于CMSFPM的數(shù)據(jù)處理 52 52 52 MapReduce 編程模型 52 XML的數(shù)據(jù)模型 57 60 62 PDF格式文檔 62 66 68 71 72 75 76 78 805海量數(shù)據(jù)存儲(chǔ)機(jī)制研究 81 81 82 85 85 87 92 96 96 97 99 101 1緒論隨著信息時(shí)代的到來,在許多科學(xué)領(lǐng)域中,數(shù)據(jù)信息呈現(xiàn)出爆炸式的增長。根據(jù)IDC (International Data Corporation)的調(diào)查顯示,截止到2011年, (ZettaBytes)。IDC預(yù)計(jì),到下一個(gè)十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會(huì)比目前多出10倍,所管理的數(shù)據(jù)將會(huì)多出50倍。對(duì)于這些大規(guī)模、多態(tài)性、分布式、非(半)結(jié)構(gòu)化等特性的海量數(shù)據(jù),如何對(duì)其進(jìn)行有效地分析與處理,并且從中挖掘出有價(jià)值的信息,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理,以使其發(fā)揮出最大的效益,是目前實(shí)際應(yīng)用中迫切需要解決的問題。傳統(tǒng)的海量數(shù)據(jù)處理方法主要是釆用并行計(jì)算的方式。當(dāng)前大型并行機(jī)主要有:單指令多數(shù)據(jù)流機(jī)SMD(SingleInstruction MultipleData)、對(duì)稱多處理機(jī)SMP(Symmetric MultiProcessing )、并行向量處理機(jī) PVP (Parallel Vector Processor)工作站機(jī)群COW(Cluster Of Workstation)分布共享存儲(chǔ)多處理機(jī)DSM(Distributed Shared Memory)以及大規(guī)模并行處理機(jī)MPP (Massively Parallel Processing)。傳統(tǒng)的并行處理方式主要依托高性能計(jì)算機(jī),硬件成本過高、并行程序編寫困難,一般用戶很難操作。其應(yīng)用范圍也非常有限。目前,這種處理方式主要應(yīng)用于科學(xué)計(jì)算方面,例如,軍事、氣象、生物、核科學(xué)、高能物理等領(lǐng)域。云計(jì)算(Cloud Computing)是近年來出現(xiàn)的一個(gè)高熱度名詞,本質(zhì)上它并不是一個(gè)全新的技術(shù)。云計(jì)算是在分布式計(jì)算(Distributed Computing)、并行計(jì)算(Parallel Computing)效用計(jì)算(Utility Computing)以及虛擬化(Virtualization)等技術(shù)上發(fā)展出來的一個(gè)新的技術(shù)模式。云計(jì)算技術(shù)擁有分布式計(jì)算,超大規(guī)模,虛擬化,高可靠性,高彈性,可擴(kuò)展,按需服務(wù)等特點(diǎn),能夠?yàn)楹A繑?shù)據(jù)處理提供更為高效的分析以及更好的計(jì)算能力。目前,云計(jì)算平臺(tái)主要有亞馬遜云計(jì)算平臺(tái)、谷歌云計(jì)算平臺(tái)、IBM “藍(lán)云”計(jì)算平臺(tái)、Eucalyptus、Hadoop等。其中,由于Hadoop在海量數(shù)據(jù)處理方面具有非常優(yōu)越旳性能,因此,近幾年其已成為最為流行的云計(jì)算開發(fā)平臺(tái)之一。本文針對(duì)海量數(shù)據(jù)處理,海量小文件處理以及海量數(shù)據(jù)存儲(chǔ)中目前存在的問題,結(jié)合云計(jì)算技術(shù)中的虛擬化技術(shù)、分布式計(jì)算技術(shù),以及分布式存儲(chǔ)技術(shù)等相關(guān)理論與技術(shù),構(gòu)建了云計(jì)算環(huán)境下的海量小文件處理模型,研究和建立了云計(jì)算環(huán)境下PDF格式文檔內(nèi)容映射查詢機(jī)制與海量數(shù)據(jù)存儲(chǔ)機(jī)制,以期實(shí)現(xiàn)高速可靠的數(shù)據(jù)訪問,及對(duì)海量數(shù)據(jù)進(jìn)行高效的組織與管理,從而降低海量信息處理應(yīng)用開發(fā)和使用的復(fù)雜性,提升數(shù)據(jù)的統(tǒng)一管理和海量信息的共享。Google首席執(zhí)行官埃里克?施密特(Eric Schmidt)在2006年全球搜索引擎大會(huì)上(SES San Jose 2006)首次提出云計(jì)算(Cloud Computing)的概念。隨著Google云計(jì)算核心技術(shù)GFS、MapReduce和BigTable的公開,越來越多的企業(yè)認(rèn)同并廣泛應(yīng)用了云計(jì)算技術(shù)。云計(jì)算正在全球掀起一場云革命:無論是微軟、Oracle、SAP及IBM等國際知名的軟件業(yè)巨頭,還是亞馬遜、Salesforce以及國內(nèi)的阿里巴巴、中移動(dòng)、浪潮企業(yè)等服務(wù)廠商,均陸續(xù)推出了基于云計(jì)算技術(shù)的產(chǎn)品和服務(wù)。目前,云計(jì)算技術(shù)己成為IT與相關(guān)領(lǐng)域最受關(guān)注和發(fā)展最快的技術(shù)。云計(jì)算是多種技術(shù)融合的產(chǎn)物,由于其商業(yè)實(shí)現(xiàn)及研究成果不同的側(cè)重,因此,針對(duì)云計(jì)算的定義目前有很多種形式。中國網(wǎng)格計(jì)算、云計(jì)算專家劉鵬:云計(jì)算將計(jì)算任務(wù)發(fā)布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)。美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST):云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。原文:Cloud puting is a mode] for enabling ubiquitous, convenient, ondemand network access to a shared pool of configurable puting resources (., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction39。39。^^“網(wǎng)格之父”美國Argonne國家實(shí)驗(yàn)室的資深科學(xué)家Foster這樣定義云計(jì)算:云計(jì)算是由規(guī)模經(jīng)濟(jì)拖動(dòng),為互聯(lián)網(wǎng)上的用戶提供一組抽象的,虛擬化的,動(dòng)態(tài)可擴(kuò)展的,可管理的計(jì)算資源能力、存儲(chǔ)能力、平臺(tái)和服務(wù)的一種大規(guī)模分布式計(jì)算的聚合體。對(duì)于云計(jì)算的分類,按照云計(jì)算部署方式,可分為公共云(Public Cloud)、私有云(Private Cloud)和混合云(Hybrid Cloud)三類,。按服務(wù)類型可分為基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a Service, IaaS)、平臺(tái)即服務(wù)(Platform as a Service, PaaS)、軟件即服務(wù)(Software as a Service, SaaS)。具體如圖 所示。.近十幾年來,隨著科學(xué)技術(shù)的發(fā)展,計(jì)算機(jī)應(yīng)用系統(tǒng)的不斷發(fā)展和完善,在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),例如,美國紐約證券交易所每天會(huì)產(chǎn)生大約1TB (TeraByte)的交易數(shù)據(jù),互聯(lián)網(wǎng)檔案館(The Iniemet Aichive)存儲(chǔ)著約2PB數(shù)據(jù),并以每月至少20TB的速度增長。Facebook需要管理超過600億張照片數(shù)據(jù),并需應(yīng)對(duì)每周20TB的新照片數(shù)據(jù)的存儲(chǔ)。2006年5月的統(tǒng)計(jì)數(shù)據(jù)表明,美國國家航空航天局(NASA,National Aeronautics and Space Administration)的地球科學(xué)事業(yè)(ESE,Earth ScienceEnterprise) (1PB= 1024TB)的各類數(shù)據(jù),包括9個(gè)航天器及外場試驗(yàn)中的22個(gè)儀器觀測數(shù)據(jù),產(chǎn)品類型多達(dá)1786個(gè),。在互聯(lián)網(wǎng)快速發(fā)展的背景下,網(wǎng)絡(luò)上的數(shù)據(jù)內(nèi)容呈幾何級(jí)的增長,而其中增長最快并且最容易給技術(shù)架構(gòu)帶來挑戰(zhàn)的就是數(shù)目龐大的小文件。隨著數(shù)據(jù)的急劇增長,對(duì)存儲(chǔ)資源、計(jì)算機(jī)系統(tǒng)、網(wǎng)絡(luò)資源等都提出了極高的性能要求,給以往的數(shù)據(jù)處理技術(shù)帶來了的挑戰(zhàn)。IBM在2011年推出SmartCloud云計(jì)算平臺(tái),采用Hadoop框架,可對(duì)大量無序化的數(shù)據(jù)進(jìn)行分析并將其可視化。政府服務(wù)一直是云服務(wù)所不能涉及的領(lǐng)域,其特殊性使得政府使用云服務(wù)時(shí)需慎之又慎。Amazon通過推出的AWS (Amazon Web Services) GovCloud使政府能夠放心的、安全的享受云服務(wù)。NASA已經(jīng)在使用AWS GovCloud的云服務(wù),還有超過100家的政府部門已經(jīng)在某些地方使用AWS GovCloud。谷歌是最大的云計(jì)算使用者,它的搜索引擎建立在200多個(gè)地點(diǎn)、超過百萬臺(tái)服務(wù)器的支撐之上,這些基礎(chǔ)設(shè)施的數(shù)量目前正在快速增長。北京理工大學(xué)在分布式計(jì)算實(shí)驗(yàn)室和多元信息系統(tǒng)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室等的基礎(chǔ)上專門組建海量信息處理與云計(jì)算實(shí)驗(yàn)室。該實(shí)驗(yàn)室以海量文字信息處理及云計(jì)算方向?yàn)楹诵?涵蓋其在網(wǎng)絡(luò)信息處理等領(lǐng)域的應(yīng)用。海量數(shù)據(jù)的處理和應(yīng)用研究已向分布式,高性能并行處理方向發(fā)展,數(shù)據(jù)規(guī)模巨大(在TB級(jí)以上)的海量信息處理系統(tǒng)也隨之出現(xiàn)。如何對(duì)海量數(shù)據(jù)進(jìn)行快速及有效的分析處理,是一個(gè)非常有實(shí)用價(jià)值的研究領(lǐng)域。目前,海量數(shù)據(jù)處理是一個(gè)非?;钴S的研究方向,眾多學(xué)者們在這個(gè)方向上進(jìn)行了廣泛而深入的研究。所謂數(shù)據(jù)處理是指對(duì)各種類型的數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、分類、計(jì)算、加工、檢索和傳輸?shù)倪^程,也就是如何快速地從這些海量數(shù)據(jù)中抽取出關(guān)鍵的信息,然后提供給用戶隨著計(jì)算機(jī)硬件和軟件技術(shù)的不斷發(fā)展,數(shù)據(jù)處理技術(shù)也隨之不斷前進(jìn)和創(chuàng)新。將大量數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)上,將計(jì)算并行化,利用多機(jī)的計(jì)算資源,從而加快數(shù)據(jù)處理的速度。目前,這種并行計(jì)算的模型主要有兩種:高性能計(jì)算的MPI技術(shù)和Dryad并行計(jì)算模型。MPI即消息傳遞接口(Message Passing Interface),是一種編程接口標(biāo)準(zhǔn),而不是一種具體的編程語言。MPI是一種工業(yè)標(biāo)準(zhǔn)的API規(guī)范,專為在多處理器計(jì)算機(jī)、計(jì)算機(jī)集群和超級(jí)計(jì)算機(jī)上進(jìn)行高性能計(jì)算而設(shè)計(jì)。該標(biāo)準(zhǔn)是由大量計(jì)算機(jī)供應(yīng)商和軟件開發(fā)商于1994年共同設(shè)計(jì)完成。MPI作為目前國際上最流行的并行編程環(huán)境之一,因其良好的可移植性和易用性、完備的異步通信功能等優(yōu)點(diǎn),而在機(jī)群高性能計(jì)算中得到廣泛應(yīng)用。在基于MPI編程模型中,計(jì)算任務(wù)是由一個(gè)或多個(gè)彼此間通過調(diào)用庫函數(shù)進(jìn)行消息收、發(fā)通信的進(jìn)程所組成。絕大部分實(shí)現(xiàn)在程序初始化時(shí)生成一組固定的通信進(jìn)程。這些進(jìn)程在不同的節(jié)點(diǎn)上運(yùn)行(通常一個(gè)處理器一個(gè)進(jìn)程),執(zhí)行著相同或不同的程序,以點(diǎn)對(duì)點(diǎn)通信或者集合通信的方式進(jìn)行進(jìn)程間交互,共同協(xié)作完成同一個(gè)計(jì)算任務(wù)。以任務(wù)之間的消息傳遞驅(qū)動(dòng)的MPI,其進(jìn)行大規(guī)模數(shù)據(jù)處理的基本思路就是,將任務(wù)劃分成為可以獨(dú)立完成的不同計(jì)算部分,將每個(gè)計(jì)算部分需要處理的數(shù)據(jù)分發(fā)到相應(yīng)的計(jì)算節(jié)點(diǎn)分別進(jìn)行計(jì)算,計(jì)算完成后各個(gè)節(jié)將各自的結(jié)果集中到主計(jì)算節(jié)點(diǎn)進(jìn)行結(jié)果的最終匯總。Dryad是微軟在2007年提出的數(shù)據(jù)并行計(jì)算模型。目前已經(jīng)在Microsoft Ad’Center投入使用。Dryad通過將計(jì)算任務(wù)移動(dòng)到相應(yīng)的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)或靠近的節(jié)點(diǎn),讓計(jì)算就地或者就近完成,從而減輕網(wǎng)絡(luò)上傳輸?shù)膲毫?。在Dryad中,每個(gè)計(jì)算任務(wù)被表示成一個(gè)有向無環(huán)圖(Directed Acyclic Graph, DAG),計(jì)算任務(wù)按照有向無環(huán)圖的方向按照依賴關(guān)系執(zhí)行。DAG相對(duì)于兩階段式的MapReduce,可以表達(dá)更加豐富的計(jì)算類型;同時(shí),它支持在子任務(wù)之間通過TCP管道Sharedmemory FIFO(共享內(nèi)存先進(jìn)先出)進(jìn)行結(jié)果傳遞,盡量避免一些不必要的磁盤輸入輸出,加速計(jì)算的執(zhí)行。MapReduce是谷歌公司在2004年提出的應(yīng)用于大規(guī)模集群進(jìn)行大規(guī)模數(shù)據(jù)處理的并行計(jì)算模型。Map(映射)和Reduce(化簡)的概念,以及他們的主要思想,都來自于函數(shù)式語言。在一個(gè)計(jì)算任務(wù)中,計(jì)算被抽象并簡化成為兩個(gè)階段:Map和Reduce。Map階段,系統(tǒng)調(diào)用用戶提供的Map函數(shù),完成從一組鍵值到新一組鍵值的映射計(jì)算;而Reduce階段,用戶指定的Reduce函數(shù)則被用來將所有Map計(jì)算完成的結(jié)果進(jìn)行一次化簡歸約。與MPI有所不同的是,MapReduce是通過將計(jì)算(Map或者Reduce)分發(fā)到相應(yīng)的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)或靠近的節(jié)點(diǎn),讓計(jì)算(Map或者Reduce)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)就地或者就近完成,盡可能減輕大量數(shù)據(jù)在網(wǎng)絡(luò)上傳輸所產(chǎn)生的壓力。國內(nèi)外很多學(xué)者提出了很多方法來提高海量數(shù)據(jù)處理的效率。2005年,劉麗艷針對(duì)中國數(shù)字化虛擬人計(jì)劃(Chinese Digitized Virtual Human Project)所研究的海量數(shù)字人數(shù)據(jù)集的處理,引入了數(shù)據(jù)網(wǎng)格(DataGrid)的思想,研究了基于網(wǎng)格的海量數(shù)據(jù)處理的若干關(guān)鍵技術(shù),為目前許多領(lǐng)域的數(shù)據(jù)處理提供了一種新的解決思路和方法。對(duì)于海量多媒體數(shù)據(jù),Zhuang研究了海量多媒體數(shù)據(jù)的高效查詢與索引技術(shù),提出了基于復(fù)合距離轉(zhuǎn)換的高維索引(Composite Distance Transformation,CDT)和基于對(duì)稱編碼的雙距離樹索引(SymmetricalEncodingbased Dual Distance, EDDTree)。Chan和Stolfo以數(shù)據(jù)粒分解為基礎(chǔ),將海量數(shù)據(jù)集拆分成為一個(gè)個(gè)可以裝入內(nèi)存的分區(qū)來處理,但其正確率比直接對(duì)全部數(shù)據(jù)進(jìn)行處理有所降低。Qin和Wang等給出了一種基于粗糙集的海量數(shù)據(jù)處理方法,該方法將類分布鏈表存儲(chǔ)在磁盤,串行方法處理海量數(shù)據(jù)。Prodromidis等在staking分類器組合框架的基礎(chǔ)上提出了Metaleaming學(xué)習(xí)模型。Wu提出了通過計(jì)算各子數(shù)據(jù)站點(diǎn)的權(quán)值,來合并規(guī)則站點(diǎn)的方法,這些方法在一定程度上提高了海量數(shù)據(jù)的處理效率。云計(jì)算系統(tǒng)能夠?qū)Υ髷?shù)據(jù)集進(jìn)行處理與分析,并向用戶提供高效的服務(wù)。數(shù)據(jù)管理技術(shù)必須能夠高效地管理大數(shù)據(jù)集。其次,如何在規(guī)模巨大的數(shù)據(jù)中找到特定的數(shù)據(jù),也是云計(jì)算數(shù)據(jù)管理技術(shù)所必須解決的問題。云計(jì)算因?yàn)槠鋸椥钥缮炜s的計(jì)算模式,受到了以IBM、亞馬遜(Amazon)、Google等為代表的眾多高科技公司的重視,成為各公司應(yīng)對(duì)海量信息處理的利器。亞馬遜研發(fā)了彈性計(jì)算云(Elastie Compute Cloud,EC2)為企業(yè)提供計(jì)算服務(wù),IBM推出了藍(lán)云(Blue Cloud) [3i]計(jì)劃,微軟推出了 AZure的云計(jì)算基礎(chǔ)平臺(tái)。雅虎
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1