【正文】
的FTP的基礎(chǔ)之上,除了繼承標(biāo)準(zhǔn)FTP協(xié)議的擴(kuò)展性好、應(yīng)用廣泛、標(biāo)準(zhǔn)化的特點(diǎn)之外,還增加了適應(yīng)數(shù)據(jù)網(wǎng)格結(jié)構(gòu)的新特性:支持網(wǎng)格安全體系、實現(xiàn)了第三方控制數(shù)據(jù)傳輸能力、分段式數(shù)據(jù)傳輸?shù)龋阋越鉀Q網(wǎng)格中安全高效數(shù)據(jù)傳輸?shù)膯栴}。目的是通過虛擬數(shù)據(jù)和對象復(fù)制技術(shù)來實現(xiàn)獲得原始數(shù)據(jù)的生成、分析、處理方法。理想的復(fù)制技術(shù),應(yīng)該隨著用戶的需求動態(tài)的管理數(shù)據(jù)復(fù)制,目前存在最優(yōu)客戶端、完全存儲、快速廣播等動態(tài)數(shù)據(jù)復(fù)制策略,他們各有其優(yōu)缺點(diǎn),應(yīng)該根據(jù)不同需求,靈活應(yīng)用。復(fù)制數(shù)據(jù)的目的就是為了平衡網(wǎng)絡(luò)帶寬、提高傳輸速度、避免單點(diǎn)失效。復(fù)制管理服務(wù)就是對一個邏輯文件名與其對應(yīng)的多個物理文件名進(jìn)行映射管理。邏輯文件名是一個文件在全局網(wǎng)絡(luò)范圍內(nèi)區(qū)別其他文件的獨(dú)一無二的標(biāo)識,而物理文件則是這種文件在不同主機(jī)不同網(wǎng)絡(luò)的實際存在位置。其工作原理是,元數(shù)據(jù)訪問服務(wù)器通過用戶描述的請求信息,形成一條元數(shù)據(jù),然后查詢元數(shù)據(jù)目錄,返回符合的文件給用戶。數(shù)據(jù)網(wǎng)格用元數(shù)據(jù)來表示上述描述信息。因此構(gòu)建數(shù)據(jù)網(wǎng)格比較困難,需要解決以下關(guān)鍵技術(shù)[11]:數(shù)據(jù)訪問是數(shù)據(jù)網(wǎng)格的基本操作,用戶不是直接訪問數(shù)據(jù)而是通過提供數(shù)據(jù)的各種描述信息來間接訪問數(shù)據(jù)。目前,我國己經(jīng)通過86十五攻關(guān)等計劃資助建立了中國國家網(wǎng)格(CNGrid)、織女星網(wǎng)格(Vega Grid)、中國教育科研網(wǎng)格(ChinaGrid),上海交通信息網(wǎng)格、中國空間信息網(wǎng)格等若干重大項目,并已經(jīng)取得了一些成果。如要由網(wǎng)格協(xié)議層、系統(tǒng)管理服務(wù)層、應(yīng)用服務(wù)層三個服務(wù)組成。網(wǎng)格物理網(wǎng)項目(Grid Physics Network, GriPhyN)[10]是由實驗物理學(xué)家和IT研究人員聯(lián)合開發(fā)的一個大型數(shù)據(jù)網(wǎng)格項目,提出了虛擬數(shù)據(jù)的概念和描述語言,為數(shù)據(jù)的自動生成和再生成提供了比較系統(tǒng)和完整的方法,以解決高能物理等物理科學(xué)領(lǐng)域的數(shù)據(jù)管理問題,向全球的科學(xué)家提供一個面向數(shù)據(jù)處理的計算平臺。EU Data Grid需要開發(fā)中間件以支持對海量數(shù)據(jù)的訪問,既要有統(tǒng)一的名字空間和統(tǒng)一的數(shù)據(jù)格式,又要能在不同站點(diǎn)之間高速移動和復(fù)制數(shù)據(jù),還要保持遠(yuǎn)程數(shù)據(jù)拷貝的一致性。歐洲原子能研究機(jī)構(gòu)CERN成立于1954年,是世界最大的粒子物理研究中心,由其主持開發(fā)的歐洲數(shù)據(jù)網(wǎng)格(European Data Grid)項目是另一個著名的網(wǎng)格項目,其基本思想是將大型強(qiáng)子對撞機(jī)LHC(Large Hadron Collider)等物理設(shè)備產(chǎn)生的超大規(guī)模海量數(shù)據(jù)分散到全球的計算機(jī)和存儲系統(tǒng)上進(jìn)行處理,將應(yīng)用擴(kuò)展到高能物理學(xué)、地球觀測和生物信息學(xué)等科學(xué)研究領(lǐng)域。具體提供訪問和管理位于各類存儲系統(tǒng),包括高性能存儲系統(tǒng)(HPSS)、分布式并行存儲系統(tǒng)(DPSS)甚至更復(fù)雜的SRB系統(tǒng)上的數(shù)據(jù)的機(jī)制,并且還可提供訪問和管理有關(guān)這些數(shù)據(jù)的信息,包括應(yīng)用元數(shù)據(jù)、復(fù)制元數(shù)據(jù)和系統(tǒng)配置元數(shù)據(jù)等。Globus Data Grid數(shù)據(jù)網(wǎng)格結(jié)構(gòu)可以抽象為核心服務(wù)層和高級服務(wù)層。Globus系統(tǒng)最初是面向計算網(wǎng)格的,后來在原有的基礎(chǔ)上增加了數(shù)據(jù)管理的功能,對數(shù)據(jù)的高速傳輸、元數(shù)據(jù)管理、數(shù)據(jù)復(fù)制、數(shù)據(jù)副本選擇等進(jìn)行了研究和實現(xiàn),成為數(shù)據(jù)網(wǎng)格應(yīng)用的開發(fā)平臺。在網(wǎng)格研究的基礎(chǔ)上,數(shù)據(jù)網(wǎng)格的研究工作也在世界各地逐步開展起來,各國政府和研究機(jī)構(gòu)結(jié)合具體的應(yīng)用領(lǐng)域推出了一系列重要的研究計劃,具體工作如下:Globus[4,5]是最具有影響力的網(wǎng)格研究項目,由美國Argonne國家實驗室、南加州大學(xué)和芝加哥大學(xué)聯(lián)合研制,主要研究網(wǎng)格基礎(chǔ)理論和關(guān)鍵技術(shù)、網(wǎng)格軟件工具的開發(fā)、試驗平臺的建立和網(wǎng)格應(yīng)用的開發(fā)。目前,已有許多網(wǎng)格研究的組織和項目。數(shù)據(jù)網(wǎng)格為各種應(yīng)用提供了一個高性能、大容量、高速傳輸?shù)牟⑿蟹植紡V域計算平臺,應(yīng)用領(lǐng)域十分之廣,自提出以來受到全世界很多國家和科學(xué)研究機(jī)構(gòu)的廣泛重視,并開展了諸多重大數(shù)據(jù)網(wǎng)格項目的研究。因此需要在這些策略的基礎(chǔ)上,根據(jù)應(yīng)用特點(diǎn)和用戶需求,綜合設(shè)計、實現(xiàn)符合數(shù)據(jù)網(wǎng)格特性的數(shù)據(jù)復(fù)制策略和技術(shù)。復(fù)制技術(shù)并不是一個嶄新的概念,在分布數(shù)據(jù)庫、分布對象計算、移動計算等領(lǐng)域已得到廣泛應(yīng)用。這樣數(shù)據(jù)復(fù)制技術(shù)在數(shù)據(jù)網(wǎng)格中的應(yīng)用就越來越廣泛。雖然隨著網(wǎng)絡(luò)性能的提高,網(wǎng)絡(luò)延遲將逐漸降低,但訪問本地數(shù)據(jù)與通過網(wǎng)格訪問遠(yuǎn)程數(shù)據(jù)相比,特別是數(shù)據(jù)量龐大且結(jié)構(gòu)復(fù)雜的數(shù)據(jù)網(wǎng)格環(huán)境中,仍存在很大的性能差異。在數(shù)據(jù)量龐大且結(jié)構(gòu)復(fù)雜的數(shù)據(jù)網(wǎng)格環(huán)境中,衡量不同系統(tǒng)的技術(shù)的一個重要指標(biāo)就是數(shù)據(jù)訪問時間。最終目標(biāo)是建立異構(gòu)分布環(huán)境下海量數(shù)據(jù)的一體化操作的構(gòu)架和環(huán)境,從而更好地解決海量數(shù)據(jù)難于組織、難以處理的問題。數(shù)據(jù)網(wǎng)格[3](Data Grid)是當(dāng)前網(wǎng)格領(lǐng)域的研究熱點(diǎn),它的概念來自網(wǎng)格。它們的數(shù)據(jù)將達(dá)到幾十個Terabyte至Petabyte的級別,地理上廣泛分布的用戶都希望能夠訪問、分析和使用這些龐大的分布數(shù)據(jù),而他們的分析方法往往是計算復(fù)雜和計算量大,這種結(jié)合海量數(shù)據(jù)集合,地理上分布的用戶和資源,以及計算密集型的分析處理應(yīng)用導(dǎo)致現(xiàn)有的數(shù)據(jù)管理體系結(jié)構(gòu)、方法和技術(shù)己經(jīng)不能很好的滿足高性能、大容量分布存儲和分布處理能力的要求,如何存儲、分發(fā)、組織和管理、高性能處理、分析和挖掘海量分布數(shù)據(jù)成為許多應(yīng)用的首要問題。在這種情況下,數(shù)據(jù)網(wǎng)格應(yīng)運(yùn)而生。然而,人們需要的不僅是實施大規(guī)模的數(shù)據(jù)計算,還需要存儲、傳送、分析海量數(shù)據(jù)――科學(xué)研究、軍事決策、戰(zhàn)場仿真、分子物理、數(shù)字地球計劃…,都迫切需要縮短提取和處理原始數(shù)據(jù)到高層信息的時間。所以網(wǎng)格最初被提出并研究的原由是為了大規(guī)模的并行計算,稱為計算網(wǎng)格[1,2](Grid Computing)。網(wǎng)格(Grid)自90年代中期被提出以來,得到迅速的發(fā)展,被稱作“下一代互連網(wǎng)”。然而,科學(xué)家們也被當(dāng)前互聯(lián)網(wǎng)存在的一些缺憾困擾,尤其是在進(jìn)行大規(guī)模分布式計算時,諸如網(wǎng)絡(luò)瓶頸、資源共享之類的問題也層出不窮。 Replica creation。副本定位AbstractComputational grid has been used to solve a wide area network distributed resource sharing, networking and interoperability issues, with the rapid development of dataintensive applications and the explosive growth of data, Data Grid emerged and bee another focus of grid. Data Replica Management is one of the critical parts in Data Grids. It has been widely applied in the areas of distributed database, mobile database, Internet and other distributed environments. Replication can reduce access latency, and balance the loads for distributed applications. Excellently Replica location is also important to reduce access latency in data grids. This paper investigates on two ponent of replica management in data grids: replicas creation strategies and replica location mechanism.Replicas creation strategies tend to make decisions on where and when to create which data replicas. we propose our replicas creating strategy based on investigating and analyzing the related researches. The method employ the different methods between the inner domain and the inter domain. This method can also reduce access latency, improve data locality and improve the overall performance of the grid system.Replica location is also important to reduce access latency in data grids. we proposed an improved replica location mechanismDecentralized Dynamic Replica Location method(DDRL),based on investigating and analyzing some Dynamic selfAdaptive Replica Location Method.Keywords: Data Grid。數(shù)據(jù)復(fù)制。通過對算法進(jìn)行理論分析和測試,結(jié)果表明DDRL定位方法能夠?qū)崿F(xiàn)宿主節(jié)點(diǎn)的負(fù)載均衡,同時該方法具有可靠性高、分布性、可擴(kuò)展性好等特點(diǎn)?;跀?shù)據(jù)網(wǎng)格的層次性,把整個網(wǎng)格劃分為域內(nèi)和域外兩部分,針對各自不同的特性,實施不同的副本創(chuàng)建方法,有效提高了訪問效率、減少帶寬消耗、節(jié)省存儲空間,通過仿真試驗驗證了上述優(yōu)越性。副本的創(chuàng)建策略研究的是如何在合適的時間、合適的地點(diǎn)創(chuàng)建相應(yīng)數(shù)據(jù)副本。而良好的副本定位機(jī)制可以有效的定位可能存在的諸多副本也是數(shù)據(jù)網(wǎng)格關(guān)注的重要問題之一。數(shù)據(jù)復(fù)制技術(shù)是數(shù)據(jù)網(wǎng)格中一個重要的組成部分,被廣泛應(yīng)用于分布式數(shù)據(jù)庫、移動數(shù)據(jù)庫和Internet等分布式環(huán)境之中。摘要計算網(wǎng)格被用來解決廣域網(wǎng)中分布的資源共享、互聯(lián)和互操作問題。 指導(dǎo)教師簽名: 日期: 年 月 日 (請在以上方框內(nèi)打“√”)本論文屬于本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。 日期: 年 月 日 學(xué)位論文作者簽名:對本文的研究做出貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。碩士學(xué)位論文數(shù)據(jù)網(wǎng)格中數(shù)據(jù)復(fù)制管理技術(shù)研究A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of EngineeringResearch on Data Replicating Managementin Data GridCandidate :Zhang Huina Major :Computer Software and TheorySupervisor :Associate Prof. Xu LiPingHuazhong University of Science and TechnologyWuhan 430074, P. R. ChinaJune, 2007華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。保密□,在_______年解密后適用本授權(quán)書。不保密。學(xué)位論文作者簽名: 日期: 年 月 日隨著數(shù)據(jù)密集型應(yīng)用的飛速發(fā)展,數(shù)據(jù)呈爆炸式增長,數(shù)據(jù)網(wǎng)格技術(shù)應(yīng)運(yùn)而生,而且正成為網(wǎng)格技術(shù)的另外一個研究重點(diǎn)。創(chuàng)建副本可以降低遠(yuǎn)程訪問該數(shù)據(jù)的網(wǎng)絡(luò)延遲以及帶寬消耗,還可以提高網(wǎng)絡(luò)的負(fù)載均衡。主要對數(shù)據(jù)復(fù)制管理中的副本創(chuàng)建策略和副本定位機(jī)制兩個方面展開了研究。通過分析和研究用戶驅(qū)動和利潤驅(qū)動的副本動態(tài)創(chuàng)建策略,提出域內(nèi)副本衍生和域間副本創(chuàng)建相結(jié)合的副本創(chuàng)建策略。數(shù)據(jù)副本的定位也是提高數(shù)據(jù)訪問速度的一個重要方面,通過綜合研究和評價基于同一個模型的幾種分布式、動態(tài)自適應(yīng)的副本定位方法,提出一種改進(jìn)的分布式動態(tài)副本定位方法(Decentralized Dynamic Replica Location method, DDRL)。關(guān)鍵詞:數(shù)據(jù)網(wǎng)格。副本創(chuàng)建。 Data Replica。 Replica location目錄摘要 IAbstract II1緒論 (1) (3) (8) (9)2數(shù)據(jù)復(fù)制管理技術(shù) (10) (12) (13) (14)3副本創(chuàng)建策略 (15) (16) (20) (22)4副本定位機(jī)制 (23) (24) (26) (30)5數(shù)據(jù)復(fù)制管理系統(tǒng)原型設(shè)計實現(xiàn) (31) (31) (33) (37) (43)6總結(jié)和展望致謝 (46)參考文獻(xiàn) (47)531緒論從1969年最早的互聯(lián)網(wǎng)雛形由美國軍方采用到今天人們在互聯(lián)網(wǎng)上進(jìn)行科學(xué)計算、閱讀新聞、采集信息、和網(wǎng)上聊天以及游戲等,