freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云計(jì)算及計(jì)算資源管理技術(shù)-wenkub

2022-11-08 06:47:31 本頁(yè)面
 

【正文】 景 互聯(lián)網(wǎng)的前身為冷戰(zhàn)期間美國(guó)所構(gòu)建抗打擊的軍事指揮系統(tǒng)研究 ARPANET,在 1969 年節(jié)點(diǎn)只有兩個(gè), 5 年后也只不過(guò)幾十個(gè)節(jié)點(diǎn)。在數(shù)據(jù)挖掘云服務(wù)中,為使海量數(shù)據(jù)挖掘應(yīng)用服務(wù)化,提供從 Hadoop 資源分配到目錄服務(wù),再到流管理等一系列的組件服務(wù),繼而提高海量數(shù)據(jù)挖掘軟件的服務(wù)能力。 6. 結(jié)果展示服務(wù):任務(wù)執(zhí)行完畢以后,用戶需要查看任務(wù)的執(zhí)行結(jié)果,結(jié)果展示可能包含多種方式 ,圖狀的、表格式的、文本式的等方式 。 2. 資源分配和任務(wù)調(diào)度服務(wù):把上層生成的執(zhí)行計(jì)劃映射到具體 的計(jì)算資源和節(jié)點(diǎn)上,然后進(jìn)行任務(wù)的調(diào)度和執(zhí)行 。數(shù)據(jù)挖掘云的中間層是數(shù)據(jù)挖掘云高層服務(wù),包括目錄服務(wù)、效用服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)等核心組件。用戶可以根據(jù)自己的需求以及付費(fèi)能力選擇適合自己的服務(wù)模式。數(shù)據(jù)挖掘任務(wù)中,選擇不同的數(shù)據(jù)和算法,將有可能導(dǎo)致不同的計(jì)算結(jié)果 。 2. 豐富的算法選擇。數(shù)據(jù)挖掘應(yīng)用從工作流角度來(lái)看,相對(duì) 非常簡(jiǎn)單。 圖 2 Dodo 工具箱運(yùn)行流 程 在圖 2 中,如果用戶是首次啟動(dòng)工具箱,需要選擇連接的 Hadoop 環(huán)境并對(duì)環(huán)境進(jìn)行配置;當(dāng)用戶需要上傳數(shù)據(jù),工具箱以樹(shù)形圖的形式,將用戶的數(shù)據(jù)上傳到指定的 Hadoop 路徑上;如果不是順序數(shù)據(jù),工具箱則將其順序化然后存儲(chǔ);在算法選擇階段,用戶可以選擇工具箱自帶的并行化數(shù)據(jù)挖掘算法,也可以選擇用戶指定的、本地的 jar 文件;通過(guò)工具箱,用戶能對(duì)選擇的算法進(jìn)行設(shè)置,其中包括輸入輸出路徑,算法特定的參數(shù)等等;最后在 Hadoop 環(huán)境上對(duì)指定輸入路徑上的數(shù)據(jù)運(yùn)行指定的算法,輸出結(jié)果以可視化的方式展示給用戶 。 Hadoop 平臺(tái)管理:?jiǎn)?dòng)、關(guān)閉。 表 1 Weka, Mahout 和 Dodo 主要異 同 數(shù)據(jù)源 數(shù)據(jù)格式 數(shù)據(jù)存儲(chǔ) 算法 用戶界面 Weka 支持文本文件:包括本地的數(shù)據(jù)文件以及網(wǎng)絡(luò)數(shù)據(jù)文件; 支持?jǐn)?shù)據(jù)庫(kù)文件:通過(guò) JDBC 連接。與 Weka不同的是, Apache組織基于 Hadoop 平臺(tái)的,采用 MapReduce計(jì)算模型,實(shí)現(xiàn)大量機(jī)器學(xué)習(xí)算法的并行化,并將其封裝在 Mahout 項(xiàng)目。 三 基于 Hadoop 的并行數(shù)據(jù)挖掘算法工具箱 —— Dodo Weka是由新西蘭 Waikato 大學(xué)研發(fā)的數(shù)據(jù)處理和知識(shí)發(fā)現(xiàn)軟件包。在資源管理和配置中,針對(duì)海量數(shù)據(jù)的大規(guī)模和異構(gòu)等特點(diǎn),運(yùn)用虛擬化技術(shù)進(jìn)行存儲(chǔ)管理,并設(shè)計(jì) 一種新型的動(dòng)態(tài)遷移架構(gòu) 。海量數(shù)據(jù)挖掘應(yīng)用往往是數(shù)據(jù)密集,且具有突發(fā)性的特點(diǎn);除此之外,不同的數(shù)據(jù)挖掘應(yīng)用對(duì)算法精度、性能要求也不一致。以上部分技術(shù)可以直接遷移到云計(jì)算平臺(tái)上,但由于云計(jì)算模式和數(shù)據(jù)挖掘服務(wù)的特殊性,仍需在按需服務(wù)、多任務(wù)調(diào)度和分配等技術(shù)上進(jìn)行進(jìn)一步的突破。但 Mahout 項(xiàng)目目前還缺少數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)展示和用戶交互,還不完全適合海量數(shù)據(jù)挖掘并行算法的性能評(píng)估。 ( 4)并行數(shù)據(jù)挖掘工具箱。在同構(gòu)海量數(shù)據(jù)挖掘系統(tǒng)中,各個(gè)節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)都具有相同的屬性空間。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、并行分類(lèi)算法和并行聚類(lèi)算法,用于分類(lèi)或預(yù)測(cè)模型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類(lèi)、關(guān)聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢(shì)發(fā)現(xiàn)等。 ( 2)適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法。但對(duì)于海量數(shù)據(jù)分析任務(wù),云平臺(tái)缺乏針對(duì)海量數(shù)據(jù)挖掘和分析算法的并行化實(shí)現(xiàn)。 本文首先討論了海量數(shù)據(jù)挖掘的研究熱點(diǎn);其次基于開(kāi)放的 Hadoop 平臺(tái),討論并行數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的設(shè)計(jì) 。中國(guó)移動(dòng) “大云 ”平臺(tái)主要為數(shù)據(jù)挖掘、系統(tǒng)評(píng)估、搜索等應(yīng)用提供計(jì)算服務(wù)。海量數(shù)據(jù)挖掘另一個(gè)核心問(wèn)題是數(shù)據(jù)挖掘算法的并行化。對(duì)于大量的數(shù)據(jù)密集型應(yīng)用(如數(shù)據(jù)挖掘任務(wù)),往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法,計(jì)算非常困難。 Google公司的云平臺(tái)是最具代表性的云計(jì)算技術(shù)之一,包括四個(gè)方面的主要技術(shù): Google文件系統(tǒng) GFS、并行計(jì)算模型 MapReduce、結(jié)構(gòu)化數(shù)據(jù)表 BigTable和分布式的鎖管理 Chubby。目前工業(yè)界推出的云計(jì)算平臺(tái)有 Amazon 公司的 EC2 和 S3, Google公司的Google Apps Engine, IBM 公司的 Blue Cloud, Microsoft 公司的 Windows Azure, Salesforce公司的 Sales Force, VMware公司的 vCloud, Apache軟件開(kāi)源組織的 Hadoop 等。在國(guó)內(nèi), IBM 與無(wú)錫市共建了云計(jì)算中心,中石化集團(tuán)成功應(yīng)用IBM 的云計(jì)算方案建立起一個(gè)企業(yè)云計(jì)算平臺(tái)?;谝陨霞夹g(shù),云計(jì)算可以為海量數(shù)據(jù)處理和分析提供一種高效的計(jì)算平臺(tái)。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點(diǎn)技術(shù)之一 。圖 1 給出基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù) 的層次結(jié)構(gòu)圖 。在開(kāi)源 Hadoop 云平臺(tái)上,中科院計(jì)算所研制了并行數(shù)據(jù)挖掘工具平臺(tái) PDMiner。 二 技術(shù)熱 點(diǎn) 云計(jì)算是一種資源利用模式,它能以簡(jiǎn)便的途徑和以按需的方式通過(guò)網(wǎng)絡(luò)訪問(wèn)可配置的計(jì)算資源,快速部署資源。因此面向海量數(shù)據(jù)挖掘的新型云計(jì)算模式,主要包括海量數(shù)據(jù)預(yù)處理、適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法、新型海量數(shù)據(jù)挖掘方法和云計(jì)算數(shù)據(jù)挖掘工具箱等技術(shù) 。海量數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題是數(shù)據(jù)挖掘算法的并行化。在此基礎(chǔ)上,針對(duì)海量數(shù)據(jù)挖掘算法的特點(diǎn)對(duì)已有的云計(jì)算模型進(jìn)行優(yōu)化和擴(kuò)充,使其更適用于海量數(shù)據(jù)挖掘 。云平臺(tái)采用集成學(xué)習(xí)的方式來(lái)生成最終的全局預(yù)測(cè)模型。海量數(shù)據(jù)挖掘應(yīng)用系統(tǒng)開(kāi)發(fā)前,都會(huì)對(duì)采用的算法進(jìn)行性能的評(píng)估。因此,云平臺(tái)應(yīng)可以提供一個(gè)基于 MapReduce計(jì)算模型的并行數(shù)據(jù)挖掘工具箱,用于海量數(shù)據(jù)挖掘并行算法的性能評(píng)估 。具體技術(shù)內(nèi)容包括 : 1. 按需服務(wù)的自治計(jì)算模式。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘必須優(yōu)化負(fù)載調(diào)節(jié)的策略與任務(wù)遷移策略等 。 4. 復(fù)雜數(shù)據(jù)挖掘任務(wù)服務(wù)平臺(tái)。其可以實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、聚類(lèi)、分類(lèi)、回歸、特征選擇、可視化等各種數(shù)據(jù)挖掘的任務(wù)。但由于 Mahout 并不提供一種圖形界面交互,用戶需要大量手工配置數(shù)據(jù)和參數(shù),同時(shí)目前實(shí)現(xiàn)的并行數(shù)據(jù)挖掘算法也不完全。 標(biāo)準(zhǔn)格式是 Arff,行表示實(shí)例,列表示各個(gè)屬性。 算法管理:選擇算法、修改算法參數(shù)。 圖 3 Dodo 工具箱模塊結(jié)構(gòu) 圖 圖 3 中,將 Dodo 工具箱分為用戶交互層、內(nèi)部實(shí)現(xiàn)層以及 Hadoop 交互層等三個(gè)層次。應(yīng)用中沒(méi)有復(fù)雜的流程,也沒(méi)有很多不同的角色。不同于企業(yè)應(yīng)用,在數(shù)據(jù)挖掘應(yīng)用實(shí)現(xiàn)一個(gè)具體的挖掘任務(wù)有很多種算法。 4. 應(yīng)用的突發(fā)性。因此,所謂數(shù)據(jù)挖掘云是指在 hadoop 平臺(tái)上提供支持復(fù)雜數(shù)據(jù)挖掘任務(wù)的服務(wù)系統(tǒng),此系統(tǒng)能夠提供復(fù)雜數(shù)據(jù)挖掘任務(wù)的工作流定義、資源調(diào)度、算法和工具以 web service的方式向外提供服務(wù) 。而最上層是客戶端組件,主要用于與用戶的直接交互。 3. 數(shù)據(jù)訪問(wèn)服務(wù):用戶根據(jù)自己的任務(wù),需要查找、上傳或下載所需要的數(shù)據(jù),數(shù)據(jù)訪問(wèn)服務(wù)為用戶提供了良好的接口讓用戶方便進(jìn)行這些操作 。 五 總 結(jié) 綜上所述,本文討論了基于云計(jì)算的海量數(shù)據(jù)挖掘的進(jìn)展和主要技術(shù)熱點(diǎn),并分析了基于 Hadoop 平臺(tái)的數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的結(jié)構(gòu)。作為能為企業(yè)效益增值的數(shù)據(jù)挖掘應(yīng)用,本質(zhì)上具備了請(qǐng)求突發(fā)、需求多變,結(jié)果依賴于數(shù)據(jù)和算法的特點(diǎn),因此必須進(jìn)一步優(yōu)化云計(jì)算平臺(tái),提高云平臺(tái)對(duì)按需服務(wù)的支撐能力 。但到 1992 年,互聯(lián)網(wǎng)上已有超過(guò) 100 萬(wàn)個(gè)節(jié)點(diǎn)。第二,互聯(lián)網(wǎng)的軟件業(yè)務(wù)規(guī)模出現(xiàn)迅速攀升趨勢(shì)。前英國(guó) eScience首席科學(xué)家 Tony Hey 出版書(shū)籍《 The fourth Paradigm: Dataintensive Scientific Discovery》 [5]都表明數(shù)據(jù)分析已經(jīng)成為繼理論、實(shí)驗(yàn)和計(jì)算的新的科學(xué)發(fā)現(xiàn)基礎(chǔ),將成為用來(lái)解開(kāi)經(jīng)濟(jì)價(jià)值的新來(lái)源 。例如我們平時(shí)所熟悉的 word 等文字處理軟件,能夠自動(dòng)提示和校正一些錯(cuò)誤的輸入等,這個(gè)功能是微軟在二十年上花費(fèi)了幾百萬(wàn)美元所研發(fā)的拼寫(xiě)檢查器。例如微軟的首席戰(zhàn)略規(guī)劃科學(xué)家 Mundie則稱(chēng) 數(shù)據(jù)為中心的經(jīng)濟(jì)剛剛開(kāi)始 , IBM 社會(huì)信息學(xué)家柯他達(dá) (James Cortada)認(rèn)為 這么多的數(shù)據(jù)使我們處在一個(gè)不同的時(shí)代 ,而這樣的時(shí)代被 Berkeley 的計(jì)算機(jī)科學(xué)家 Joe Hellerstein 稱(chēng)為 數(shù)據(jù)的工業(yè)革命 [4]。 二、云計(jì)算及云計(jì)算資源管理技 術(shù) 實(shí)現(xiàn)按需獲取看似無(wú)限的計(jì) 算資源而構(gòu)建一套可伸縮、安全可靠的資源管理平臺(tái),為用戶提供靈活可伸縮的工作負(fù)荷管理,解決大規(guī)模數(shù)據(jù)并行計(jì)算服務(wù)。 從根本上講,云計(jì)算仍然是追求 “Utility Computing”的一 種途徑,這也是人類(lèi)希望使用計(jì)算和存儲(chǔ)資源也能夠像用水、用電一樣方便快捷。例如在《 The fourth Paradigm: Dataintensive Scientific Discovery》 [5]提到近 3 年獲得的生物醫(yī)學(xué)數(shù)據(jù)超過(guò)過(guò)去 4 萬(wàn)年的總和,一百年前一名醫(yī)師就可以被認(rèn)為了解醫(yī)學(xué)領(lǐng)域的全部知識(shí),而如今即便一位保健醫(yī)生也需了解大約 10000 種疾病和癥狀,擁有 3000 個(gè)臨床療程的經(jīng)驗(yàn), 并進(jìn)行 1100次實(shí)驗(yàn)室試驗(yàn),對(duì)于一名專(zhuān)業(yè)的流行病學(xué)醫(yī)師,每天至少需要 21 個(gè)小時(shí)的研究學(xué)習(xí)才可以跟上醫(yī)學(xué)數(shù)據(jù)發(fā)展的腳步,這顯然需要借助大規(guī)模數(shù)據(jù)分析來(lái)緩解數(shù)據(jù)的飛速膨脹。 2020 年 2 月,來(lái)自 UC Berkeley 高可靠適應(yīng)性分布式系統(tǒng)實(shí)驗(yàn)室( UC Berkeley Reliable Adaptive Distributed Systems Laboratory) 的 11 位學(xué)者在聯(lián)合發(fā)表的一篇關(guān)于云計(jì)算的報(bào)告 [9],從硬件租用和軟件應(yīng)用給出了云計(jì)算模式和概念發(fā)展趨勢(shì)給出了分析,對(duì)公用計(jì)算的分類(lèi)、云計(jì)算的經(jīng)濟(jì),特別是云計(jì)算的 10 大問(wèn)題和應(yīng)對(duì)方式給出了獨(dú)特見(jiàn)解,其中有 3 項(xiàng)就涉及到應(yīng)用、數(shù)據(jù)安全和信任問(wèn)題 。抽象化的中間層對(duì)下層模塊提供的接口進(jìn)行提煉、裁剪、重新定義后 , 暴露給上層模塊。對(duì)于互聯(lián)網(wǎng)的軟件,不可忽視的是移動(dòng)與云的結(jié)合。隨著 Web 計(jì)算的發(fā)展,一些程序逐漸由軟件服務(wù)提供商來(lái)提供,這也是早期典型的 ASP 模式,但對(duì)于軟件服務(wù)提供商來(lái)說(shuō),可能需要去參與很多機(jī)房建設(shè)、運(yùn)維保障的工作;在云計(jì)算環(huán)境中,網(wǎng)絡(luò)化軟件具有更為明確的任務(wù)分工,軟件運(yùn)營(yíng)商將逐漸承擔(dān)起軟件運(yùn)維的工作,當(dāng)前 AppStore、 AppEngine等模式的逐漸成功在不斷印證著這個(gè)理念 。 iVICvSaaS針對(duì)云 計(jì)算和移動(dòng)互聯(lián)網(wǎng)新型應(yīng)用模式,旨在實(shí)現(xiàn)互聯(lián)網(wǎng)軟件 “按需分發(fā)、透明使用、集中運(yùn)營(yíng) ”,實(shí)現(xiàn)云計(jì)算軟件服務(wù)的虛擬桌面無(wú)縫融合,多類(lèi)移動(dòng)終端普適和流式軟件及展現(xiàn)技術(shù),為移動(dòng)互聯(lián)網(wǎng)軟件提供服務(wù)化運(yùn)營(yíng)平臺(tái),并支持電信級(jí)的移動(dòng) OA企業(yè)應(yīng)用 。因此,雖然對(duì)計(jì)算機(jī)操作系統(tǒng)一旦完全被國(guó)外企業(yè)壟斷,但國(guó)產(chǎn)中間件企業(yè)和研究機(jī)構(gòu)在分布式系統(tǒng)的數(shù)據(jù)管理、網(wǎng)絡(luò)管理、資源調(diào)度以及高可用技術(shù)等方面具有長(zhǎng)期的技術(shù)研究積累,將對(duì)構(gòu)建大規(guī)??煽康脑撇僮飨到y(tǒng)中占據(jù)先機(jī) 。特別是在分布式軟件的開(kāi)發(fā)時(shí),運(yùn)行環(huán)境一方面要求開(kāi)發(fā)者付出不小的經(jīng)濟(jì)代價(jià),另一方面將不可避免的要進(jìn)行繁瑣的系統(tǒng)安裝、配置以及后續(xù)的維護(hù)工作。由于業(yè)務(wù)需求的多樣性和復(fù)雜性,企業(yè)之間開(kāi)始尋求一種跨企業(yè)的應(yīng)用集成方法。以業(yè)務(wù)流程為核心的服務(wù)組合是面向服務(wù)軟件開(kāi)發(fā)方法的主流實(shí)現(xiàn)之一,類(lèi)比傳統(tǒng)的軟件開(kāi)發(fā)方法,它需要業(yè)務(wù)建模、組合服務(wù)編制、組合服務(wù)驗(yàn)證、組合服務(wù)測(cè)試等幾個(gè)階段。 近年來(lái),云計(jì)算 [2]無(wú)論在工業(yè)界還是在學(xué)術(shù)界都已經(jīng)被公認(rèn)為一種新的計(jì)算模式,它強(qiáng)調(diào)通過(guò)因特網(wǎng)來(lái)進(jìn)行軟件的透明分發(fā),軟件以服務(wù)的方式提供使用。目前在這個(gè)方向上已經(jīng)有了一些相似的工作。支持面向服務(wù)軟件開(kāi)發(fā)與運(yùn)行的云平臺(tái)的基本思路是將面向服務(wù)的軟件生產(chǎn)線改造為云計(jì)算應(yīng)用,實(shí)現(xiàn)在面向服務(wù)軟件開(kāi)發(fā)過(guò)程中的即時(shí)開(kāi)發(fā)、部署和運(yùn)行 。該系統(tǒng)著重解決了三個(gè)方面的問(wèn)題:( 1)服務(wù)資源管理。 問(wèn)題思考和分 析 即使面向服 務(wù)的軟件生產(chǎn)線為面向服務(wù)軟件的開(kāi)發(fā)和運(yùn)行提供了幾乎全面的解決方案,但在實(shí)際使用中還是存在一些問(wèn)題 。 其次,在測(cè)試階段,開(kāi)發(fā)者需要一個(gè)良好的測(cè)試環(huán)境。 對(duì)于第二個(gè)問(wèn)題,可以構(gòu)建和維護(hù)一個(gè)集中的服務(wù)化軟件應(yīng)用引擎。 圖 1 云計(jì)算平臺(tái)三大模 塊 其中,服務(wù)資源共享平臺(tái)負(fù)責(zé) Web 服務(wù)資源的注冊(cè)和收集、 Web 服務(wù)的組織、服務(wù)關(guān)系挖掘、服務(wù)可信保證以及服務(wù)搜索等。 基于云計(jì)算平臺(tái)的三個(gè)模塊,可以減輕面向服務(wù)的軟件開(kāi)發(fā)人員的工作,提高他們的開(kāi)發(fā)效率,實(shí)現(xiàn)面向服務(wù)軟件開(kāi)發(fā)的即時(shí)開(kāi)發(fā)、即
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1