freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

13面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究_任崇廣-全文預(yù)覽

2025-06-26 17:28 上一頁面

下一頁面
  

【正文】 可互換等措施來保障服務(wù)的高可靠性,使用云計(jì)算比使用本地計(jì)算機(jī)可靠。(2)虛擬化云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。 云計(jì)算、網(wǎng)格計(jì)算等在Google中的搜索趨勢(shì)云計(jì)算模式是一種通過第三方網(wǎng)絡(luò)服務(wù)方式提供高性能計(jì)算和海量存儲(chǔ)的商業(yè)計(jì)算模型,能夠屏蔽IT基礎(chǔ)設(shè)施、軟件平臺(tái)的復(fù)雜性,實(shí)現(xiàn)自動(dòng)管理,提供高可靠性、高可擴(kuò)展性、可配置以及按需服務(wù)的網(wǎng)絡(luò)化服務(wù)能力?;谥R(shí)共享的服務(wù)網(wǎng)絡(luò)通過信息數(shù)據(jù)統(tǒng)合,知識(shí)達(dá)到充分共享的程度,知識(shí)價(jià)值得到充分體現(xiàn)。因此,從信息服務(wù)到內(nèi)容服務(wù)、知識(shí)服務(wù)的轉(zhuǎn)變,已成為一種必然。信息數(shù)據(jù)統(tǒng)合涉及到的其他的關(guān)鍵技術(shù)主要包括:信息數(shù)據(jù)統(tǒng)合的相關(guān)標(biāo)準(zhǔn)、協(xié)議,如元數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)及檢索協(xié)議;此外,還包括動(dòng)態(tài)信息發(fā)布技術(shù),分布式軟件體系,網(wǎng)絡(luò)安全控制技術(shù)等。信息自動(dòng)化處理技術(shù)信息的自動(dòng)標(biāo)引(包括智能分詞、信息抽取、信息過濾、話題跟蹤、關(guān)鍵詞標(biāo)引、主題標(biāo)引、概念標(biāo)引及其它元數(shù)據(jù)的自動(dòng)標(biāo)引)、自動(dòng)分類(分類也是一種整合)、自動(dòng)文摘、自動(dòng)篇章分析、機(jī)器翻譯(多語種的資源進(jìn)行整合時(shí))等。數(shù)據(jù)轉(zhuǎn)換技術(shù)主要解決將不同格式、不同平臺(tái)下的數(shù)據(jù)轉(zhuǎn)換問題,MARC、DOC、PDF、TXT等不同格式的文件的格式分析,數(shù)據(jù)交換或轉(zhuǎn)換技術(shù),數(shù)據(jù)的查重去重技術(shù)等。數(shù)據(jù)統(tǒng)合是一個(gè)系統(tǒng)工程,如何在理論的指導(dǎo)和經(jīng)驗(yàn)的驅(qū)使下,使信息資源的整合工程做到最優(yōu)。因此,需要有一種手段把這些信息集中、整序、關(guān)聯(lián)起來,把檢索系統(tǒng)集成起來,使用戶知道到哪里可以找到所需要的信息,怎樣去查找這些信息,如何篩選檢索結(jié)果,這就是數(shù)據(jù)統(tǒng)合處理的最終目的。我們也可以這樣來理解數(shù)據(jù)統(tǒng)合處理,就是把分散的資源集中起來,把無序的資源變?yōu)橛行颉kS著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)中數(shù)據(jù)量的急劇增加,信息時(shí)代出現(xiàn)了數(shù)據(jù)爆炸,信息泛濫及噪音化趨勢(shì),人們獲取所需信息也變得越來越困難。不確定性可能是原始數(shù)據(jù)本來就不準(zhǔn)確或是采用了粗粒度的數(shù)據(jù)集合,也可能是原始數(shù)據(jù)是為了滿足特殊應(yīng)用目的或是經(jīng)過處理缺失值或者數(shù)據(jù)集成而生成的。相比于高性能計(jì)算機(jī),磁盤、磁帶等存儲(chǔ)設(shè)備雖然存儲(chǔ)容量較低,但易于購買、維護(hù),而且價(jià)格也容易讓人接受。數(shù)據(jù)多源性導(dǎo)致數(shù)據(jù)有不同的分類,不同的分類具有不同的數(shù)據(jù)格式,最終導(dǎo)致結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并存,造成了數(shù)據(jù)資源的異構(gòu)性。這給現(xiàn)存的大容量、高性能存儲(chǔ)設(shè)備,海量數(shù)據(jù)分析處理提出了巨大的挑戰(zhàn)。而于2005年投入使用的大型強(qiáng)子對(duì)撞機(jī)LHC (Large Hadron Collider)其原始數(shù)據(jù)產(chǎn)生速度將達(dá)到lOOMB/s,導(dǎo)致每年約1PB的數(shù)據(jù)總量。國(guó)家天文臺(tái)聯(lián)合上海天文臺(tái)、紫金山天文臺(tái)共同建設(shè)八個(gè)中國(guó)科學(xué)院科學(xué)數(shù)據(jù)主題庫中的天文科學(xué)數(shù)據(jù)主題庫,目前天文數(shù)據(jù)總共約90TB,包含有國(guó)內(nèi)的郭守敬望遠(yuǎn)鏡科學(xué)試觀測(cè)數(shù)據(jù)、上海天文臺(tái)天體多體與流體數(shù)值模擬數(shù)據(jù)、紫金山天文臺(tái)亞毫米波射電天文數(shù)據(jù)、南極天文臺(tái)CSTAR天體測(cè)光數(shù)據(jù)、BATC天體星表星圖數(shù)據(jù),鏡像的國(guó)外數(shù)據(jù):SDSS光譜星表、CDS星表、UCAC天體照相星表、2MASS星表等。在天文學(xué)領(lǐng)域,隨著觀測(cè)技術(shù)和硬件設(shè)備的威力日益增強(qiáng),可以觀察到范圍更大,精度更高的數(shù)據(jù);另外,更好的數(shù)值模擬方法也為觀測(cè)數(shù)據(jù)的分析和處理提供了強(qiáng)有力的支持。淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,共有4億條產(chǎn)品訊息和2億多名注冊(cè)用戶在上面活動(dòng),每天超過4000萬人次訪問。下面來看幾個(gè)海量數(shù)據(jù)的實(shí)例:在銀行證券等金融行業(yè),美國(guó)的紐約證券交易所每天大約會(huì)產(chǎn)生1TB的交易數(shù)據(jù)。信息技術(shù)經(jīng)過近十年的發(fā)展,企業(yè)當(dāng)前的信息系統(tǒng)建設(shè)目標(biāo),由以往的注重于業(yè)務(wù)的實(shí)現(xiàn),到目前更注重業(yè)務(wù)的價(jià)值,注重?cái)?shù)據(jù)的價(jià)值,正是這種動(dòng)力驅(qū)動(dòng)著企業(yè)對(duì)信息系統(tǒng)的再次整合,挖掘數(shù)據(jù)的價(jià)值。歐洲的組織2010年存儲(chǔ)容量總計(jì)接近11EB,大約為整個(gè)美國(guó)存儲(chǔ)容量(16EB以上)的70%。幾個(gè)研究團(tuán)隊(duì)曾研究過全世界產(chǎn)生、存儲(chǔ)和消費(fèi)的數(shù)據(jù)總量。(4)計(jì)對(duì)云存儲(chǔ)的問題,研究海量數(shù)據(jù)存儲(chǔ)機(jī)制,分析了云存儲(chǔ)中的協(xié)調(diào)機(jī)制和虛擬化。該模型通過XML標(biāo)記數(shù)據(jù)的內(nèi)容,坐標(biāo),操作等信息,進(jìn)行數(shù)據(jù)復(fù)雜處理。本文詳細(xì)分析和研究了云平臺(tái)模型和海量數(shù)據(jù)處理的關(guān)鍵技術(shù),其主要?jiǎng)?chuàng)新有:(1)在已有云平臺(tái)各自特點(diǎn)的基礎(chǔ)上,整合開源云平臺(tái)用于分析和處理海量數(shù)據(jù),建立了一種新的基于云計(jì)算環(huán)境的海量小文件處理模型CMSFPM (Cloud putingMassive Small Files Process Model)o該模型針對(duì)小文件的特點(diǎn),通過文件類別劃分,建立索引結(jié)構(gòu),以及就近原則與權(quán)值相似度文件合并等,合并成大文件以便在云計(jì)算環(huán)境下處理。論文以海量數(shù)據(jù)處理為中心,以云計(jì)算技術(shù)為基礎(chǔ),從分析海量數(shù)據(jù)處理的特點(diǎn),云計(jì)算環(huán)境下海量數(shù)據(jù)處理的關(guān)鍵技術(shù),到建立云計(jì)算環(huán)境下海量小文件處理模型,分類、索引、合并小文件,再到海量PDF格式文檔處理的實(shí)際應(yīng)用,最后到云存儲(chǔ)的研究,取得了一系列研究成果。針對(duì)海量數(shù)據(jù)處理中存在的問題,本文以海量數(shù)據(jù)為研究對(duì)象,深入研究了云計(jì)算的相關(guān)理論,并結(jié)合有關(guān)前沿思想,突破了云計(jì)算在海量數(shù)據(jù)處理中的若千關(guān)鍵技術(shù),建立了一套行之有效的海量數(shù)據(jù)分析方法。數(shù)據(jù)文件預(yù)取是用戶訪問某個(gè)文件時(shí),將該文件所在課件中的所有文件加載到內(nèi)存中,這樣,如果用戶繼續(xù)訪問其他文件,速度會(huì)明顯提高。Dong針對(duì)Bluesky系統(tǒng)的特點(diǎn)提出了解決HDFS小文件存儲(chǔ)的方案。這種方法具有較好的理論基礎(chǔ),簡(jiǎn)單的實(shí)現(xiàn)機(jī)制,以及較好的文檔分類質(zhì)量等優(yōu)點(diǎn),目前實(shí)用的分類系統(tǒng)基本上都是采用這種分類。我國(guó)其中有具有代表性的有上海交通大學(xué)設(shè)計(jì)的基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文文本自動(dòng)分類系統(tǒng)[M,清華大學(xué)的文本自動(dòng)分類系統(tǒng)等。文本分類是數(shù)據(jù)挖掘中的一項(xiàng)非常重要的技術(shù),是指將給定的文檔集中的每一文檔自動(dòng)歸類于預(yù)先定義的一個(gè)或幾個(gè)類別中。由于傳統(tǒng)的文件系統(tǒng)對(duì)小文件處理的低效,互聯(lián)網(wǎng)應(yīng)用只能構(gòu)建特定的存儲(chǔ)系統(tǒng)以滿足其在低延遲、一致性和結(jié)構(gòu)化數(shù)據(jù)方面的要求。Boulon設(shè)計(jì)實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)監(jiān)測(cè)系統(tǒng)Chukwa、該系統(tǒng)是建立在Hadoop上的數(shù)據(jù)收集系統(tǒng),用以監(jiān)測(cè)和分析大規(guī)模分布式系統(tǒng)。虛擬化是實(shí)現(xiàn)云計(jì)算的最重要的技術(shù)基礎(chǔ),目前,云計(jì)算中普遍使用了三種虛擬機(jī)技術(shù):VMware開發(fā)設(shè)計(jì)的VMware Infrastructure, Xensource管理的Xen,以及以色列開源組織提出的KVM。因此,云系統(tǒng)的數(shù)據(jù)管理往往采用數(shù)據(jù)庫領(lǐng)域中列存儲(chǔ)的數(shù)據(jù)管理模式,將表按列劃分后存儲(chǔ)。在此基礎(chǔ)上,互聯(lián)網(wǎng)中便提取出了很多以云命名的概念,如云存儲(chǔ),云安全,云操作系統(tǒng)等等,這些都是云計(jì)算在專業(yè)領(lǐng)域方面的應(yīng)用。其中HDFS是GFS的開源實(shí)現(xiàn),MapReduce是Google MapReduce的開源實(shí)現(xiàn),HBase是BigTable的開源實(shí)現(xiàn)。云計(jì)算因?yàn)槠鋸椥钥缮炜s的計(jì)算模式,受到了以IBM、亞馬遜(Amazon)、Google等為代表的眾多高科技公司的重視,成為各公司應(yīng)對(duì)海量信息處理的利器。Wu提出了通過計(jì)算各子數(shù)據(jù)站點(diǎn)的權(quán)值,來合并規(guī)則站點(diǎn)的方法,這些方法在一定程度上提高了海量數(shù)據(jù)的處理效率。對(duì)于海量多媒體數(shù)據(jù),Zhuang研究了海量多媒體數(shù)據(jù)的高效查詢與索引技術(shù),提出了基于復(fù)合距離轉(zhuǎn)換的高維索引(Composite Distance Transformation,CDT)和基于對(duì)稱編碼的雙距離樹索引(SymmetricalEncodingbased Dual Distance, EDDTree)。Map階段,系統(tǒng)調(diào)用用戶提供的Map函數(shù),完成從一組鍵值到新一組鍵值的映射計(jì)算;而Reduce階段,用戶指定的Reduce函數(shù)則被用來將所有Map計(jì)算完成的結(jié)果進(jìn)行一次化簡(jiǎn)歸約。DAG相對(duì)于兩階段式的MapReduce,可以表達(dá)更加豐富的計(jì)算類型;同時(shí),它支持在子任務(wù)之間通過TCP管道Sharedmemory FIFO(共享內(nèi)存先進(jìn)先出)進(jìn)行結(jié)果傳遞,盡量避免一些不必要的磁盤輸入輸出,加速計(jì)算的執(zhí)行。Dryad是微軟在2007年提出的數(shù)據(jù)并行計(jì)算模型。在基于MPI編程模型中,計(jì)算任務(wù)是由一個(gè)或多個(gè)彼此間通過調(diào)用庫函數(shù)進(jìn)行消息收、發(fā)通信的進(jìn)程所組成。MPI即消息傳遞接口(Message Passing Interface),是一種編程接口標(biāo)準(zhǔn),而不是一種具體的編程語言。目前,海量數(shù)據(jù)處理是一個(gè)非?;钴S的研究方向,眾多學(xué)者們?cè)谶@個(gè)方向上進(jìn)行了廣泛而深入的研究。北京理工大學(xué)在分布式計(jì)算實(shí)驗(yàn)室和多元信息系統(tǒng)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室等的基礎(chǔ)上專門組建海量信息處理與云計(jì)算實(shí)驗(yàn)室。政府服務(wù)一直是云服務(wù)所不能涉及的領(lǐng)域,其特殊性使得政府使用云服務(wù)時(shí)需慎之又慎。2006年5月的統(tǒng)計(jì)數(shù)據(jù)表明,美國(guó)國(guó)家航空航天局(NASA,National Aeronautics and Space Administration)的地球科學(xué)事業(yè)(ESE,Earth ScienceEnterprise) (1PB= 1024TB)的各類數(shù)據(jù),包括9個(gè)航天器及外場(chǎng)試驗(yàn)中的22個(gè)儀器觀測(cè)數(shù)據(jù),產(chǎn)品類型多達(dá)1786個(gè),。按服務(wù)類型可分為基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as a Service, IaaS)、平臺(tái)即服務(wù)(Platform as a Service, PaaS)、軟件即服務(wù)(Software as a Service, SaaS)。原文:Cloud puting is a mode] for enabling ubiquitous, convenient, ondemand network access to a shared pool of configurable puting resources (., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction39。目前,云計(jì)算技術(shù)己成為IT與相關(guān)領(lǐng)域最受關(guān)注和發(fā)展最快的技術(shù)。本文針對(duì)海量數(shù)據(jù)處理,海量小文件處理以及海量數(shù)據(jù)存儲(chǔ)中目前存在的問題,結(jié)合云計(jì)算技術(shù)中的虛擬化技術(shù)、分布式計(jì)算技術(shù),以及分布式存儲(chǔ)技術(shù)等相關(guān)理論與技術(shù),構(gòu)建了云計(jì)算環(huán)境下的海量小文件處理模型,研究和建立了云計(jì)算環(huán)境下PDF格式文檔內(nèi)容映射查詢機(jī)制與海量數(shù)據(jù)存儲(chǔ)機(jī)制,以期實(shí)現(xiàn)高速可靠的數(shù)據(jù)訪問,及對(duì)海量數(shù)據(jù)進(jìn)行高效的組織與管理,從而降低海量信息處理應(yīng)用開發(fā)和使用的復(fù)雜性,提升數(shù)據(jù)的統(tǒng)一管理和海量信息的共享。云計(jì)算是在分布式計(jì)算(Distributed Computing)、并行計(jì)算(Parallel Computing)效用計(jì)算(Utility Computing)以及虛擬化(Virtualization)等技術(shù)上發(fā)展出來的一個(gè)新的技術(shù)模式。傳統(tǒng)的并行處理方式主要依托高性能計(jì)算機(jī),硬件成本過高、并行程序編寫困難,一般用戶很難操作。IDC預(yù)計(jì),到下一個(gè)十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會(huì)比目前多出10倍,所管理的數(shù)據(jù)將會(huì)多出50倍。根據(jù)IDC (International Data Corporation)的調(diào)查顯示,截止到2011年, (ZettaBytes)。當(dāng)前大型并行機(jī)主要有:單指令多數(shù)據(jù)流機(jī)SMD(SingleInstruction MultipleData)、對(duì)稱多處理機(jī)SMP(Symmetric MultiProcessing )、并行向量處理機(jī) PVP (Parallel Vector Processor)工作站機(jī)群COW(Cluster Of Workstation)分布共享存儲(chǔ)多處理機(jī)DSM(Distributed Shared Memory)以及大規(guī)模并行處理機(jī)MPP (Massively Parallel Processing)。云計(jì)算(Cloud Computing)是近年來出現(xiàn)的一個(gè)高熱度名詞,本質(zhì)上它并不是一個(gè)全新的技術(shù)。其中,由于Hadoop在海量數(shù)據(jù)處理方面具有非常優(yōu)越旳性能,因此,近幾年其已成為最為流行的云計(jì)算開發(fā)平臺(tái)之一。云計(jì)算正在全球掀起一場(chǎng)云革命:無論是微軟、Oracle、SAP及IBM等國(guó)際知名的軟件業(yè)巨頭,還是亞馬遜、Salesforce以及國(guó)內(nèi)的阿里巴巴、中移動(dòng)、浪潮企業(yè)等服務(wù)廠商,均陸續(xù)推出了基于云計(jì)算技術(shù)的產(chǎn)品和服務(wù)。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST):云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。對(duì)于云計(jì)算的分類,按照云計(jì)算部署方式,可分為公共云(Public Cloud)、私有云(Private Cloud)和混合云(Hybrid Cloud)三類,。Facebook需要管理超過600億張照片數(shù)據(jù),并需應(yīng)對(duì)每周20TB的新照片數(shù)據(jù)的存儲(chǔ)。IBM在2011年推出SmartCloud云計(jì)算平臺(tái),采用Hadoop框架,可對(duì)大量無序化的數(shù)據(jù)進(jìn)行分析并將其可視化。谷歌是最大的云計(jì)算使用者,它的搜索引擎建立在200多個(gè)地點(diǎn)、超過百萬臺(tái)服務(wù)器的支撐之上,這些基礎(chǔ)設(shè)施的數(shù)量目前正在快速增長(zhǎng)。如何對(duì)海量數(shù)據(jù)進(jìn)行快速及有效的分析處理,是一個(gè)非常有實(shí)用價(jià)值的研究領(lǐng)域。目前,這種并行計(jì)算的模型主要有兩種:高性能計(jì)算的MPI技術(shù)和Dryad并行計(jì)算模型。MPI作為目前國(guó)際上最流行的并行編程環(huán)境之一,因其良好的可移植性和易用性、完備的異步通信功能等優(yōu)點(diǎn),而在機(jī)群高性能計(jì)算中得到廣泛應(yīng)用。以任務(wù)之間的消息傳遞驅(qū)動(dòng)的MPI,其進(jìn)行大規(guī)模數(shù)據(jù)處理的基本思路就是,將任務(wù)劃分成為可以獨(dú)立完成的不同計(jì)算部分,將每個(gè)計(jì)算部分需要處理的數(shù)據(jù)分發(fā)到相應(yīng)的計(jì)算節(jié)點(diǎn)分別進(jìn)行計(jì)算,計(jì)算完成后各個(gè)節(jié)將各自的結(jié)果集中到主計(jì)算節(jié)點(diǎn)進(jìn)行結(jié)果的最終匯總。在Dryad中,每個(gè)計(jì)算任務(wù)被表示成一個(gè)有向無環(huán)圖(Directed Acyclic Graph, DAG),計(jì)算任務(wù)按照有向無環(huán)圖的方向按照依賴關(guān)系執(zhí)行。在一個(gè)計(jì)算任務(wù)中,計(jì)算被抽象并簡(jiǎn)化成為兩個(gè)階段:Map
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1