【正文】
統(tǒng)(BCPDM)、非結(jié)構(gòu)化云存儲系統(tǒng)(BCNAS)和搜索引擎(BCSE)等關(guān)鍵模塊,并已申請10余項專利。中國移動研究院廣泛參與了DMTF、SNIA、CGF、TGG等組織的云計算標準化項目,活躍于Hadoop等開源組織的工作;作為中國大陸唯一成員加入了全球云計算開放實驗室Open Cirrus[14],提供幾十個云計算節(jié)點用于云計算產(chǎn)的教育和科研工作;2008年11月,中國移動戰(zhàn)略咨詢委員會名譽主任、前郵電部部長吳基傳以及工程院院士李德毅、倪光南、中國移動研究院院長黃曉慶等專家牽頭的“中國云計算專委會”在中國移動研究院召開大會正式成立,中國的產(chǎn)業(yè)界、學(xué)術(shù)界、科研機構(gòu)開始了對云計算的廣泛討論與合作;可以預(yù)見,未來幾年,中國云計算產(chǎn)業(yè)必將迎來一個充滿生機的全新發(fā)展時期。在研究移動通信網(wǎng)絡(luò)和無線wifi體系后,針對云計算在當(dāng)今互聯(lián)網(wǎng)中的關(guān)鍵技術(shù)特點,研究相應(yīng)的的接入技術(shù)原理,參照現(xiàn)代運營商和企業(yè)的云接入應(yīng)用服務(wù),達到以下指標:在該接口技術(shù)下,移動通信網(wǎng)絡(luò)和無線wifi能夠訪問到互聯(lián)網(wǎng)里的云計算服務(wù)器,并實現(xiàn)相應(yīng)的云端控制應(yīng)用。 Subsequently, the two key ponents of system are described in detail: the one is distributed web page adaptation engine, which is designed for the purpose that the engine can be carried by puting cloud distributed and parallel。這使得企業(yè)能夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問計算機和存儲系統(tǒng)。云計算真正實現(xiàn)了按需計算,從而有效地提高了對軟硬件資源的利用效率。終端用戶不需要了解“云”中基礎(chǔ)設(shè)施的細節(jié),不必具有相應(yīng)的專業(yè)知識,也無需直接進行控制,只關(guān)注自己真正需要什么樣的資源以及如何通過網(wǎng)絡(luò)來得到相應(yīng)的服務(wù)。按照最大眾化、最通俗理解云計算就是把計算資源都放到互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)即是云計算時代的云。云計算典型的技術(shù)特征可分為虛擬化技術(shù)、分布式技術(shù)、并行計算/分布式計算、SaaS、WEB 。比如現(xiàn)在流行的云存儲技術(shù):在線服務(wù)提供商提供用戶主機代管、虛擬主機、數(shù)據(jù)備份等等服務(wù)。以GFS為例。Master存放文件系統(tǒng)的所有元數(shù)據(jù),包括名字空間、存取控制、文件分塊信息、文件塊的位置信息等。為了保證數(shù)據(jù)的一致性,對于數(shù)據(jù)的所有修改需要在所有的備份上進行,并用版本號的方式來確保所有備份處于一致的狀態(tài)。在所有的數(shù)據(jù)副本更新完數(shù)據(jù)后,由主副本向客戶端發(fā)出寫操作完成控制信號當(dāng)然,云計算的數(shù)據(jù)存儲技術(shù)并不僅僅只是GFS,其他廠商,包括微軟、Hadoop開發(fā)團隊也在開發(fā)相應(yīng)的數(shù)據(jù)管理工具。云存儲的實現(xiàn)并不存在技術(shù)上的障礙,它需要云設(shè)備、云軟件、云服務(wù)等有機地集合在一起,為用戶提供無障礙的云服務(wù)。Google擁有如今最大的信息庫和知識庫,因此對海量數(shù)據(jù)的存儲有自己的獨特之處,它所提出的GFS文件存儲系統(tǒng)能夠?qū)崿F(xiàn)對文件實時監(jiān)控、容錯檢測、自動恢復(fù)等功能,是建立在不可信節(jié)點的存儲條件下的一個相對很優(yōu)良的文件系統(tǒng)。2)數(shù)據(jù)管理技術(shù)云計算系統(tǒng)對大數(shù)據(jù)集進行處理、分析向用戶提供高效的服務(wù)。因此,云系統(tǒng)的數(shù)據(jù)管理往往采用數(shù)據(jù)庫領(lǐng)域中列存儲的數(shù)據(jù)管理模式。以Big Table為例。Big Table的基本元素是:行,列,記錄板和時間戳。時間戳是一個64位的整數(shù),表示數(shù)據(jù)的不同版本。記錄板服務(wù)器用于直接管理一組記錄板,處理讀寫請求等。接著從該METADATA tablet中讀取包含目標數(shù)據(jù)位置信息的User Table的位置,然后從該User Table中讀取目標數(shù)據(jù)的位置信息項。而微軟的Dryad ,這樣有利于對數(shù)據(jù)進行各種操作,同時對Join進行了優(yōu)化,得到了比Big Table +MapReduce更快的Join速率和更易用的數(shù)據(jù)操作方式。Map—Reduce這種編程模型并不僅適用于云計算,在多核和多處理器、ceil processor以及異構(gòu)機群上同樣有良好的性能。本地寫中間文件在減少了對網(wǎng)絡(luò)帶寬的壓力同時減少了寫中間文件的時間耗費。 MapReduce程序的具體執(zhí)行過程1)云計算系統(tǒng)提供的是服務(wù)。隨著計算機數(shù)量的增加,系統(tǒng)出現(xiàn)錯誤的概率大大增加。云計算系統(tǒng)可以自動檢測失效節(jié)點,并將失效節(jié)點排除,不影響系統(tǒng)的正常運行。5)經(jīng)濟性。為了更好地定義云計算,必須從云計算的服務(wù)使用者,服務(wù)提供者,組織方式,內(nèi)部實現(xiàn)機制等方面同時定義。從Google的經(jīng)驗和未來服務(wù)器集群的龐大規(guī)模來看,將服務(wù)器實效作為云計算系統(tǒng)的服務(wù)器模型是符合實際情況的,這種情況下單個服務(wù)器刻意看作是不可信的節(jié)點,在系統(tǒng)設(shè)計時需要將不可信服務(wù)器節(jié)點的實效屏蔽在系統(tǒng)之內(nèi),不能向開發(fā)者和普通者用戶傳遞。2)云計算中心可能跨區(qū)域的在多個中心之間融合,由于云計算中心會出現(xiàn)在不同地方,中心之間的協(xié)調(diào)[20]和通信是系統(tǒng)必須要考慮好的問題,而且由于存在跨區(qū)域的云計算中心為數(shù)據(jù)存儲提供了一個比跨機更為高級的跨區(qū)域數(shù)據(jù)安全保證級別,對于安全性要求很高的數(shù)據(jù)可以提供跨區(qū)域級的數(shù)據(jù)備份,從而也就可以在重大節(jié)點故障發(fā)生時實現(xiàn)跨區(qū)域的計算和存儲的遷移,系統(tǒng)實現(xiàn)更高的可用性。大量的應(yīng)用在系統(tǒng)中運行,系統(tǒng)必須要對不同的應(yīng)用、不同的用戶進行有效的軟硬件隔離,從而保證這些業(yè)務(wù)之間不能出現(xiàn)相互影響,不同用戶的數(shù)據(jù)之間不能相互覆蓋。當(dāng)然所提供的應(yīng)用場景并不是一個非常全面的場景,一個商業(yè)級的產(chǎn)品可能需要考慮更為復(fù)雜的場景情況。2)計算與存儲的整合,以適應(yīng)計算密集和數(shù)據(jù)密集的任務(wù)。這一云計算系統(tǒng)是基于不可信節(jié)點[22]設(shè)計的,框架的底層就是由大量的這類節(jié)點組成,各服務(wù)器使用現(xiàn)有的主流操作系統(tǒng),通過各類網(wǎng)絡(luò)將所有的節(jié)點連接起來成為一個龐大的機群系統(tǒng),這一部分組成了云計算的物理硬件核心,這一核心的復(fù)雜性將通過云計算的軟件核心層對所有用戶屏蔽。分布式文件系統(tǒng)[23]為系統(tǒng)提供有副本策略的文件存儲服務(wù),文件存儲的安全級別可分為:單機級、跨服務(wù)器級、跨機柜級和跨區(qū)域級。云計算按照服務(wù)類型大致可以分為三類:將基礎(chǔ)設(shè)施作為服務(wù)IaaS(Infrastructure as a Service)、將平臺作為服務(wù)PaaS (Platform as a Service) 和將軟件作為服務(wù)SaaS (Software as a Service)。簡單的說,用戶在服務(wù)商提供的運行環(huán)境下進行作業(yè),比如Google App Engine 只允許使用Python 和Java 語言、基于稱作Django的Web 應(yīng)用框架[24]、調(diào)用Google App Engine SDK 來開發(fā)在線應(yīng)用服務(wù)。實際上,云服務(wù)提供商傾向于提供可分為上述三個類別的服務(wù):把軟件當(dāng)作服務(wù) (Software as a Service)、把平臺當(dāng)作服務(wù)(Platform as a Service) 以及把基礎(chǔ)設(shè)施當(dāng)作服務(wù) (Infrastructure as a Service)。SaaS是基于互聯(lián)網(wǎng)提供軟件服務(wù)的軟件應(yīng)用模式。SaaS 是一種軟件布局模型,其應(yīng)用專為網(wǎng)絡(luò)交付而設(shè)計,便于用戶通過互聯(lián)網(wǎng)托管、部署及接入。該軟件的單個實例運行于云上,并為多個最終用戶或客戶機構(gòu)提供服務(wù)。 2)把平臺當(dāng)作服務(wù) (PaaS)“把平臺當(dāng)作服務(wù)”包含一個軟件層,并作為一項服務(wù)提供此軟件層,這項服務(wù)可用來構(gòu)建更高水平的服務(wù)??蛻敉ㄟ^ API 與該平臺互動,而且該平臺執(zhí)行一切必要的操作來管理和擴展其本身,以提供規(guī)定的服務(wù)水平。PaaS 的商業(yè)示例包括 Google App Engine,它在 Google 的基礎(chǔ)設(shè)施上提供應(yīng)用程序服務(wù)。IaaS 的商業(yè)示例包括 Joyent,其主要產(chǎn)品是提供高度可用的按需基礎(chǔ)設(shè)施的一系列虛擬化服務(wù)器。一個體系結(jié)構(gòu)必須支持云計算生態(tài)系統(tǒng)的管理,這個生態(tài)系統(tǒng)包括在云計算環(huán)境中涉及提供或消費共享資源的全體的服務(wù)和解決方案廠商、合作伙伴、以及最終用戶。其他軟件虛擬化技術(shù)包括動態(tài)代碼組裝和執(zhí)行。4) 云服務(wù)供給、訂閱及可擴展性。模塊化的云生態(tài)管理、虛擬化、服務(wù)導(dǎo)向、云核心服務(wù)為確保計算平臺可配置、可組合、和可管理提供了堅實的基礎(chǔ)。云信息體系結(jié)構(gòu)就是在統(tǒng)一云計算實體描述框架內(nèi)實現(xiàn)這些云實體的表示,而消息路由和交換協(xié)議以及消息轉(zhuǎn)換能力則構(gòu)成云信息體系結(jié)構(gòu)的基礎(chǔ)。隨著云計算的深化發(fā)展,不同云計算解決方案之間相互滲透融合,同一種產(chǎn)品往往橫跨兩種以上類型。傳統(tǒng)的應(yīng)用程序建立在完善的基礎(chǔ)結(jié)構(gòu),如操作系統(tǒng)之上,利用底層提供的服務(wù)來構(gòu)造應(yīng)用,而云計算為了更好地利用資源,采用了底層結(jié)構(gòu)與上層應(yīng)用共同設(shè)計的方法來完善應(yīng)用程序的構(gòu)建。通過上面的技術(shù)手段, 云計算達到了兩個分布式計算的重要目標:可擴展性和高可用性。終端用戶不需要了解“云”中基礎(chǔ)設(shè)施的細節(jié),不必具有相應(yīng)的專業(yè)知識,也無需直接進行控制,只關(guān)注自己真正需要什么樣的資源以及如何通過網(wǎng)絡(luò)來得到相應(yīng)的服務(wù)。這與文件傳輸協(xié)議 (FTP) 的工作方式相似: FTP 服務(wù)器維持與會話期間一直開放的客戶端的控制連接。這是一個新興行業(yè)的典型狀態(tài),其中,每個供應(yīng)商都有其專有技術(shù),這樣的技術(shù)往往把客戶限制在其服務(wù)里,因為專有 API 使得變更提供商非常困難。So it is necessary to adapt these web pages to small screen ,設(shè)計一種適配小屏幕設(shè)備瀏覽是這些網(wǎng)頁一種必要之舉。Subsequently, the two key ponents of system are described in detail: the one is distributed web page adaptation engine, which is designed for the purpose that the engine can be carried by puting cloud distributed and parallel。然而,無線手持設(shè)備存在限制功能,如小屏幕,有限的計算能力等,這些限制用戶無線網(wǎng)絡(luò)沖浪的質(zhì)量。大多數(shù)現(xiàn)有的引擎經(jīng)由代理或服務(wù)器時得到實現(xiàn)。另外,形成一個P2P協(xié)作系統(tǒng)。有一個強烈的愿望,那就是在分析新興的云計算基礎(chǔ)設(shè)施數(shù)據(jù),這是具有很高的價值的方案。例如,Amazon(亞馬遜)有多個數(shù)據(jù)中心,每個數(shù)據(jù)中心還擁有多個備份發(fā)電機。然后提供一種基于云計算的分布式網(wǎng)頁分塊管理方法,并設(shè)計出一種具體算法,這種算法旨在分配引擎的處理任務(wù),協(xié)調(diào)每個計算云之間的工作。此外,網(wǎng)絡(luò)優(yōu)化采集、分析到數(shù)據(jù)亦存在著不確定性,也導(dǎo)致了網(wǎng)絡(luò)優(yōu)化方案的復(fù)雜性、繁瑣性。主要在以下幾個方面:1)模式改變傳統(tǒng)移動通信網(wǎng)絡(luò)優(yōu)化模式環(huán)境下,運營商不得不面對多系統(tǒng)應(yīng)用和不同廠家生產(chǎn)的多種設(shè)備,為了增強系統(tǒng)的可用性,運營商必須對每種應(yīng)用和設(shè)備分別提出要求,并不時向技術(shù)限制妥協(xié)。2)降低成本,超值服務(wù)每個運營商都建立有一個專用的網(wǎng)絡(luò)優(yōu)化系統(tǒng),要負擔(dān)自身設(shè)備和人員的開銷,這樣成本是很高的。龐大的云端資源,剛好滿足了移動通信網(wǎng)絡(luò)優(yōu)化所需的數(shù)據(jù)管理。如果按現(xiàn)在GPRS的速度,打開一些電腦網(wǎng)頁也會出現(xiàn)延遲,更別說進行云計算了,因為云計算的處理部分雖然在“云”端,但單純輸入輸出的數(shù)據(jù)量也不少,還得做到延遲非常小才行。另外,高帶寬、低延時交換以及無線與有線以太網(wǎng)的結(jié)合也是保證云計算數(shù)據(jù)傳輸?shù)母?。?jīng)過初步探索,我認為搭建云平臺對于無線網(wǎng)絡(luò)通信需具備以下幾種技術(shù):1)虛擬化層的網(wǎng)絡(luò)穩(wěn)定性云計算技術(shù)必須在某種虛擬化技術(shù)支持下運行來滿足以下的各種需求,尤其是靈活性。換句話說,無論是否需要用戶都應(yīng)該能從隨需計算上獲取幫助。這不是單純決定我們應(yīng)該全力支持MySQL或者Postgres的問題,因為我們將發(fā)現(xiàn)如果使用這些工具,我們期望的需求(比如自動升級)在實際應(yīng)用中根本無法實現(xiàn)。這雖然提高了信噪比,卻降低了干線效率,不同的波束之間需越區(qū)切換。當(dāng)?shù)谌苿油ㄐ诺拈_發(fā)工作正在如火如荼地進行時,第四代移動通信的腳步聲已經(jīng)悄然響起。目前,從無線傳輸、系統(tǒng)、和“云業(yè)務(wù)傳輸”角度來看對新一代移動通信系統(tǒng)的共識主要有:1)統(tǒng)一的無線接入,全球無縫覆蓋以及全球漫游。5)極大的系統(tǒng)容量,更高的頻譜利用率。4)按需使用、按量計費:用戶可通過自服務(wù)系統(tǒng)按需對所需資源量進行調(diào)漲,系統(tǒng)應(yīng)能夠提供使用量監(jiān)控、管理和計費。在這里,它代表著新的無線網(wǎng)絡(luò)接入服務(wù)。結(jié)構(gòu)處理器分析正常網(wǎng)頁并創(chuàng)建DOM樹作為輸出頁面。網(wǎng)頁的內(nèi)容和結(jié)構(gòu)由了DOM樹反映出來,包括那些建設(shè)網(wǎng)頁的要素,比如,元素名稱,元素含量和元素屬性,也包括這些要素之間的關(guān)系。截至現(xiàn)在,由于實際操作中的語義技術(shù)的智能性較低,目前大部分的研究僅限于特殊的網(wǎng)頁、特殊的網(wǎng)站、或特殊頁面格式。為了設(shè)計一個迭代網(wǎng)頁攔截器,這里要首先分析頁面結(jié)構(gòu)。重復(fù)下去,直到當(dāng)前塊只包含沒有任何鏈接或能鏈接到上一層頁面的超鏈接的內(nèi)容信息。該表主要包含三個屬性: Blocks Table{Block ID, Block URL, HTML code}Block ID是每個區(qū)塊獨特的標識,每個區(qū)塊由分布式網(wǎng)頁適配引擎所創(chuàng)建。無論在垂直方向或在水平方向,一旦塊將進一步成為解析器,一個點將被附加在當(dāng)前Block ID后方。 2)頁塊映射此問題集中在如何取得HTML源代碼目標分塊頁,并且是在分布式云計算基礎(chǔ)設(shè)施的基礎(chǔ)上通過使用上面定義的Blocks Table獲得關(guān)系,在構(gòu)建Block ID時,使用Distributed Hash Table(DHT)和分層迭代關(guān)系,也就是分布式雜湊表,用來將一個關(guān)鍵值(key)的集合分散到所有在分散式系統(tǒng)中的節(jié)點,并且可以有效地將信息轉(zhuǎn)送到唯一 一個擁有查詢者提供的關(guān)鍵值的節(jié)點(Peers)。分散式雜湊表可以用以建立更復(fù)雜的服務(wù),例如分散式檔案系 統(tǒng)、點對點技術(shù)檔案分享系統(tǒng)、合作的網(wǎng)頁快取、多點傳輸、任意點傳輸(any cast)、網(wǎng)域名稱系統(tǒng)以及即時無線通信技術(shù)就可以設(shè)計出分布式映射算法。對于每個靠近表根節(jié)點的表子樹,如果它的所有直接子節(jié)點只有屬性而沒有價值,那么忽視這種子樹類。如果有多個子樹,水平方向的進程就會運行,這些塊將被發(fā)送到其他計算機云和進一步分解。并得出三