【正文】
可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠。(2)虛擬化云計算支持用戶在任意位置、使用各種終端獲取應用服務。 云計算、網格計算等在Google中的搜索趨勢云計算模式是一種通過第三方網絡服務方式提供高性能計算和海量存儲的商業(yè)計算模型,能夠屏蔽IT基礎設施、軟件平臺的復雜性,實現(xiàn)自動管理,提供高可靠性、高可擴展性、可配置以及按需服務的網絡化服務能力?;谥R共享的服務網絡通過信息數(shù)據(jù)統(tǒng)合,知識達到充分共享的程度,知識價值得到充分體現(xiàn)。因此,從信息服務到內容服務、知識服務的轉變,已成為一種必然。信息數(shù)據(jù)統(tǒng)合涉及到的其他的關鍵技術主要包括:信息數(shù)據(jù)統(tǒng)合的相關標準、協(xié)議,如元數(shù)據(jù)標準,數(shù)據(jù)轉換標準及檢索協(xié)議;此外,還包括動態(tài)信息發(fā)布技術,分布式軟件體系,網絡安全控制技術等。信息自動化處理技術信息的自動標引(包括智能分詞、信息抽取、信息過濾、話題跟蹤、關鍵詞標引、主題標引、概念標引及其它元數(shù)據(jù)的自動標引)、自動分類(分類也是一種整合)、自動文摘、自動篇章分析、機器翻譯(多語種的資源進行整合時)等。數(shù)據(jù)轉換技術主要解決將不同格式、不同平臺下的數(shù)據(jù)轉換問題,MARC、DOC、PDF、TXT等不同格式的文件的格式分析,數(shù)據(jù)交換或轉換技術,數(shù)據(jù)的查重去重技術等。數(shù)據(jù)統(tǒng)合是一個系統(tǒng)工程,如何在理論的指導和經驗的驅使下,使信息資源的整合工程做到最優(yōu)。因此,需要有一種手段把這些信息集中、整序、關聯(lián)起來,把檢索系統(tǒng)集成起來,使用戶知道到哪里可以找到所需要的信息,怎樣去查找這些信息,如何篩選檢索結果,這就是數(shù)據(jù)統(tǒng)合處理的最終目的。我們也可以這樣來理解數(shù)據(jù)統(tǒng)合處理,就是把分散的資源集中起來,把無序的資源變?yōu)橛行?。隨著信息技術和互聯(lián)網的迅速發(fā)展,網絡中數(shù)據(jù)量的急劇增加,信息時代出現(xiàn)了數(shù)據(jù)爆炸,信息泛濫及噪音化趨勢,人們獲取所需信息也變得越來越困難。不確定性可能是原始數(shù)據(jù)本來就不準確或是采用了粗粒度的數(shù)據(jù)集合,也可能是原始數(shù)據(jù)是為了滿足特殊應用目的或是經過處理缺失值或者數(shù)據(jù)集成而生成的。相比于高性能計算機,磁盤、磁帶等存儲設備雖然存儲容量較低,但易于購買、維護,而且價格也容易讓人接受。數(shù)據(jù)多源性導致數(shù)據(jù)有不同的分類,不同的分類具有不同的數(shù)據(jù)格式,最終導致結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)并存,造成了數(shù)據(jù)資源的異構性。這給現(xiàn)存的大容量、高性能存儲設備,海量數(shù)據(jù)分析處理提出了巨大的挑戰(zhàn)。而于2005年投入使用的大型強子對撞機LHC (Large Hadron Collider)其原始數(shù)據(jù)產生速度將達到lOOMB/s,導致每年約1PB的數(shù)據(jù)總量。國家天文臺聯(lián)合上海天文臺、紫金山天文臺共同建設八個中國科學院科學數(shù)據(jù)主題庫中的天文科學數(shù)據(jù)主題庫,目前天文數(shù)據(jù)總共約90TB,包含有國內的郭守敬望遠鏡科學試觀測數(shù)據(jù)、上海天文臺天體多體與流體數(shù)值模擬數(shù)據(jù)、紫金山天文臺亞毫米波射電天文數(shù)據(jù)、南極天文臺CSTAR天體測光數(shù)據(jù)、BATC天體星表星圖數(shù)據(jù),鏡像的國外數(shù)據(jù):SDSS光譜星表、CDS星表、UCAC天體照相星表、2MASS星表等。在天文學領域,隨著觀測技術和硬件設備的威力日益增強,可以觀察到范圍更大,精度更高的數(shù)據(jù);另外,更好的數(shù)值模擬方法也為觀測數(shù)據(jù)的分析和處理提供了強有力的支持。淘寶目前每天的活躍數(shù)據(jù)量已經超過50TB,共有4億條產品訊息和2億多名注冊用戶在上面活動,每天超過4000萬人次訪問。下面來看幾個海量數(shù)據(jù)的實例:在銀行證券等金融行業(yè),美國的紐約證券交易所每天大約會產生1TB的交易數(shù)據(jù)。信息技術經過近十年的發(fā)展,企業(yè)當前的信息系統(tǒng)建設目標,由以往的注重于業(yè)務的實現(xiàn),到目前更注重業(yè)務的價值,注重數(shù)據(jù)的價值,正是這種動力驅動著企業(yè)對信息系統(tǒng)的再次整合,挖掘數(shù)據(jù)的價值。歐洲的組織2010年存儲容量總計接近11EB,大約為整個美國存儲容量(16EB以上)的70%。幾個研究團隊曾研究過全世界產生、存儲和消費的數(shù)據(jù)總量。(4)計對云存儲的問題,研究海量數(shù)據(jù)存儲機制,分析了云存儲中的協(xié)調機制和虛擬化。該模型通過XML標記數(shù)據(jù)的內容,坐標,操作等信息,進行數(shù)據(jù)復雜處理。本文詳細分析和研究了云平臺模型和海量數(shù)據(jù)處理的關鍵技術,其主要創(chuàng)新有:(1)在已有云平臺各自特點的基礎上,整合開源云平臺用于分析和處理海量數(shù)據(jù),建立了一種新的基于云計算環(huán)境的海量小文件處理模型CMSFPM (Cloud putingMassive Small Files Process Model)o該模型針對小文件的特點,通過文件類別劃分,建立索引結構,以及就近原則與權值相似度文件合并等,合并成大文件以便在云計算環(huán)境下處理。論文以海量數(shù)據(jù)處理為中心,以云計算技術為基礎,從分析海量數(shù)據(jù)處理的特點,云計算環(huán)境下海量數(shù)據(jù)處理的關鍵技術,到建立云計算環(huán)境下海量小文件處理模型,分類、索引、合并小文件,再到海量PDF格式文檔處理的實際應用,最后到云存儲的研究,取得了一系列研究成果。針對海量數(shù)據(jù)處理中存在的問題,本文以海量數(shù)據(jù)為研究對象,深入研究了云計算的相關理論,并結合有關前沿思想,突破了云計算在海量數(shù)據(jù)處理中的若千關鍵技術,建立了一套行之有效的海量數(shù)據(jù)分析方法。數(shù)據(jù)文件預取是用戶訪問某個文件時,將該文件所在課件中的所有文件加載到內存中,這樣,如果用戶繼續(xù)訪問其他文件,速度會明顯提高。Dong針對Bluesky系統(tǒng)的特點提出了解決HDFS小文件存儲的方案。這種方法具有較好的理論基礎,簡單的實現(xiàn)機制,以及較好的文檔分類質量等優(yōu)點,目前實用的分類系統(tǒng)基本上都是采用這種分類。我國其中有具有代表性的有上海交通大學設計的基于神經網絡優(yōu)化算法的中文文本自動分類系統(tǒng)[M,清華大學的文本自動分類系統(tǒng)等。文本分類是數(shù)據(jù)挖掘中的一項非常重要的技術,是指將給定的文檔集中的每一文檔自動歸類于預先定義的一個或幾個類別中。由于傳統(tǒng)的文件系統(tǒng)對小文件處理的低效,互聯(lián)網應用只能構建特定的存儲系統(tǒng)以滿足其在低延遲、一致性和結構化數(shù)據(jù)方面的要求。Boulon設計實現(xiàn)了大規(guī)模數(shù)據(jù)監(jiān)測系統(tǒng)Chukwa、該系統(tǒng)是建立在Hadoop上的數(shù)據(jù)收集系統(tǒng),用以監(jiān)測和分析大規(guī)模分布式系統(tǒng)。虛擬化是實現(xiàn)云計算的最重要的技術基礎,目前,云計算中普遍使用了三種虛擬機技術:VMware開發(fā)設計的VMware Infrastructure, Xensource管理的Xen,以及以色列開源組織提出的KVM。因此,云系統(tǒng)的數(shù)據(jù)管理往往采用數(shù)據(jù)庫領域中列存儲的數(shù)據(jù)管理模式,將表按列劃分后存儲。在此基礎上,互聯(lián)網中便提取出了很多以云命名的概念,如云存儲,云安全,云操作系統(tǒng)等等,這些都是云計算在專業(yè)領域方面的應用。其中HDFS是GFS的開源實現(xiàn),MapReduce是Google MapReduce的開源實現(xiàn),HBase是BigTable的開源實現(xiàn)。云計算因為其彈性可伸縮的計算模式,受到了以IBM、亞馬遜(Amazon)、Google等為代表的眾多高科技公司的重視,成為各公司應對海量信息處理的利器。Wu提出了通過計算各子數(shù)據(jù)站點的權值,來合并規(guī)則站點的方法,這些方法在一定程度上提高了海量數(shù)據(jù)的處理效率。對于海量多媒體數(shù)據(jù),Zhuang研究了海量多媒體數(shù)據(jù)的高效查詢與索引技術,提出了基于復合距離轉換的高維索引(Composite Distance Transformation,CDT)和基于對稱編碼的雙距離樹索引(SymmetricalEncodingbased Dual Distance, EDDTree)。Map階段,系統(tǒng)調用用戶提供的Map函數(shù),完成從一組鍵值到新一組鍵值的映射計算;而Reduce階段,用戶指定的Reduce函數(shù)則被用來將所有Map計算完成的結果進行一次化簡歸約。DAG相對于兩階段式的MapReduce,可以表達更加豐富的計算類型;同時,它支持在子任務之間通過TCP管道Sharedmemory FIFO(共享內存先進先出)進行結果傳遞,盡量避免一些不必要的磁盤輸入輸出,加速計算的執(zhí)行。Dryad是微軟在2007年提出的數(shù)據(jù)并行計算模型。在基于MPI編程模型中,計算任務是由一個或多個彼此間通過調用庫函數(shù)進行消息收、發(fā)通信的進程所組成。MPI即消息傳遞接口(Message Passing Interface),是一種編程接口標準,而不是一種具體的編程語言。目前,海量數(shù)據(jù)處理是一個非?;钴S的研究方向,眾多學者們在這個方向上進行了廣泛而深入的研究。北京理工大學在分布式計算實驗室和多元信息系統(tǒng)國防重點學科實驗室等的基礎上專門組建海量信息處理與云計算實驗室。政府服務一直是云服務所不能涉及的領域,其特殊性使得政府使用云服務時需慎之又慎。2006年5月的統(tǒng)計數(shù)據(jù)表明,美國國家航空航天局(NASA,National Aeronautics and Space Administration)的地球科學事業(yè)(ESE,Earth ScienceEnterprise) (1PB= 1024TB)的各類數(shù)據(jù),包括9個航天器及外場試驗中的22個儀器觀測數(shù)據(jù),產品類型多達1786個,。按服務類型可分為基礎設施即服務(Infrastructure as a Service, IaaS)、平臺即服務(Platform as a Service, PaaS)、軟件即服務(Software as a Service, SaaS)。原文:Cloud puting is a mode] for enabling ubiquitous, convenient, ondemand network access to a shared pool of configurable puting resources (., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction39。目前,云計算技術己成為IT與相關領域最受關注和發(fā)展最快的技術。本文針對海量數(shù)據(jù)處理,海量小文件處理以及海量數(shù)據(jù)存儲中目前存在的問題,結合云計算技術中的虛擬化技術、分布式計算技術,以及分布式存儲技術等相關理論與技術,構建了云計算環(huán)境下的海量小文件處理模型,研究和建立了云計算環(huán)境下PDF格式文檔內容映射查詢機制與海量數(shù)據(jù)存儲機制,以期實現(xiàn)高速可靠的數(shù)據(jù)訪問,及對海量數(shù)據(jù)進行高效的組織與管理,從而降低海量信息處理應用開發(fā)和使用的復雜性,提升數(shù)據(jù)的統(tǒng)一管理和海量信息的共享。云計算是在分布式計算(Distributed Computing)、并行計算(Parallel Computing)效用計算(Utility Computing)以及虛擬化(Virtualization)等技術上發(fā)展出來的一個新的技術模式。傳統(tǒng)的并行處理方式主要依托高性能計算機,硬件成本過高、并行程序編寫困難,一般用戶很難操作。IDC預計,到下一個十年(2020年),全球所有IT部門擁有服務器的總量將會比目前多出10倍,所管理的數(shù)據(jù)將會多出50倍。根據(jù)IDC (International Data Corporation)的調查顯示,截止到2011年, (ZettaBytes)。當前大型并行機主要有:單指令多數(shù)據(jù)流機SMD(SingleInstruction MultipleData)、對稱多處理機SMP(Symmetric MultiProcessing )、并行向量處理機 PVP (Parallel Vector Processor)工作站機群COW(Cluster Of Workstation)分布共享存儲多處理機DSM(Distributed Shared Memory)以及大規(guī)模并行處理機MPP (Massively Parallel Processing)。云計算(Cloud Computing)是近年來出現(xiàn)的一個高熱度名詞,本質上它并不是一個全新的技術。其中,由于Hadoop在海量數(shù)據(jù)處理方面具有非常優(yōu)越旳性能,因此,近幾年其已成為最為流行的云計算開發(fā)平臺之一。云計算正在全球掀起一場云革命:無論是微軟、Oracle、SAP及IBM等國際知名的軟件業(yè)巨頭,還是亞馬遜、Salesforce以及國內的阿里巴巴、中移動、浪潮企業(yè)等服務廠商,均陸續(xù)推出了基于云計算技術的產品和服務。美國國家標準與技術研究院(NIST):云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。對于云計算的分類,按照云計算部署方式,可分為公共云(Public Cloud)、私有云(Private Cloud)和混合云(Hybrid Cloud)三類,。Facebook需要管理超過600億張照片數(shù)據(jù),并需應對每周20TB的新照片數(shù)據(jù)的存儲。IBM在2011年推出SmartCloud云計算平臺,采用Hadoop框架,可對大量無序化的數(shù)據(jù)進行分析并將其可視化。谷歌是最大的云計算使用者,它的搜索引擎建立在200多個地點、超過百萬臺服務器的支撐之上,這些基礎設施的數(shù)量目前正在快速增長。如何對海量數(shù)據(jù)進行快速及有效的分析處理,是一個非常有實用價值的研究領域。目前,這種并行計算的模型主要有兩種:高性能計算的MPI技術和Dryad并行計算模型。MPI作為目前國際上最流行的并行編程環(huán)境之一,因其良好的可移植性和易用性、完備的異步通信功能等優(yōu)點,而在機群高性能計算中得到廣泛應用。以任務之間的消息傳遞驅動的MPI,其進行大規(guī)模數(shù)據(jù)處理的基本思路就是,將任務劃分成為可以獨立完成的不同計算部分,將每個計算部分需要處理的數(shù)據(jù)分發(fā)到相應的計算節(jié)點分別進行計算,計算完成后各個節(jié)將各自的結果集中到主計算節(jié)點進行結果的最終匯總。在Dryad中,每個計算任務被表示成一個有向無環(huán)圖(Directed Acyclic Graph, DAG),計算任務按照有向無環(huán)圖的方向按照依賴關系執(zhí)行。在一個計算任務中,計算被抽象并簡化成為兩個階段:Map