正文內(nèi)容

云計算及計算資源管理技術(shù)-wenkub

2022-11-08 06:47:31 本頁面

　

【正文】景互聯(lián)網(wǎng)的前身為冷戰(zhàn)期間美國所構(gòu)建抗打擊的軍事指揮系統(tǒng)研究 ARPANET，在 1969 年節(jié)點只有兩個， 5 年后也只不過幾十個節(jié)點。在數(shù)據(jù)挖掘云服務(wù)中，為使海量數(shù)據(jù)挖掘應(yīng)用服務(wù)化，提供從 Hadoop 資源分配到目錄服務(wù)，再到流管理等一系列的組件服務(wù)，繼而提高海量數(shù)據(jù)挖掘軟件的服務(wù)能力。 6. 結(jié)果展示服務(wù)：任務(wù)執(zhí)行完畢以后，用戶需要查看任務(wù)的執(zhí)行結(jié)果，結(jié)果展示可能包含多種方式，圖狀的、表格式的、文本式的等方式。 2. 資源分配和任務(wù)調(diào)度服務(wù)：把上層生成的執(zhí)行計劃映射到具體的計算資源和節(jié)點上，然后進行任務(wù)的調(diào)度和執(zhí)行。數(shù)據(jù)挖掘云的中間層是數(shù)據(jù)挖掘云高層服務(wù)，包括目錄服務(wù)、效用服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)等核心組件。用戶可以根據(jù)自己的需求以及付費能力選擇適合自己的服務(wù)模式。數(shù)據(jù)挖掘任務(wù)中，選擇不同的數(shù)據(jù)和算法，將有可能導(dǎo)致不同的計算結(jié)果。 2. 豐富的算法選擇。數(shù)據(jù)挖掘應(yīng)用從工作流角度來看，相對非常簡單。圖 2 Dodo 工具箱運行流程在圖 2 中，如果用戶是首次啟動工具箱，需要選擇連接的 Hadoop 環(huán)境并對環(huán)境進行配置；當(dāng)用戶需要上傳數(shù)據(jù)，工具箱以樹形圖的形式，將用戶的數(shù)據(jù)上傳到指定的 Hadoop 路徑上；如果不是順序數(shù)據(jù)，工具箱則將其順序化然后存儲；在算法選擇階段，用戶可以選擇工具箱自帶的并行化數(shù)據(jù)挖掘算法，也可以選擇用戶指定的、本地的 jar 文件；通過工具箱，用戶能對選擇的算法進行設(shè)置，其中包括輸入輸出路徑，算法特定的參數(shù)等等；最后在 Hadoop 環(huán)境上對指定輸入路徑上的數(shù)據(jù)運行指定的算法，輸出結(jié)果以可視化的方式展示給用戶。 Hadoop 平臺管理：啟動、關(guān)閉。表 1 Weka, Mahout 和 Dodo 主要異同數(shù)據(jù)源數(shù)據(jù)格式數(shù)據(jù)存儲算法用戶界面 Weka 支持文本文件：包括本地的數(shù)據(jù)文件以及網(wǎng)絡(luò)數(shù)據(jù)文件；支持?jǐn)?shù)據(jù)庫文件：通過 JDBC 連接。與 Weka不同的是， Apache組織基于 Hadoop 平臺的，采用 MapReduce計算模型，實現(xiàn)大量機器學(xué)習(xí)算法的并行化，并將其封裝在 Mahout 項目。三基于 Hadoop 的并行數(shù)據(jù)挖掘算法工具箱 —— Dodo Weka是由新西蘭 Waikato 大學(xué)研發(fā)的數(shù)據(jù)處理和知識發(fā)現(xiàn)軟件包。在資源管理和配置中，針對海量數(shù)據(jù)的大規(guī)模和異構(gòu)等特點，運用虛擬化技術(shù)進行存儲管理，并設(shè)計一種新型的動態(tài)遷移架構(gòu) 。海量數(shù)據(jù)挖掘應(yīng)用往往是數(shù)據(jù)密集，且具有突發(fā)性的特點；除此之外，不同的數(shù)據(jù)挖掘應(yīng)用對算法精度、性能要求也不一致。以上部分技術(shù)可以直接遷移到云計算平臺上，但由于云計算模式和數(shù)據(jù)挖掘服務(wù)的特殊性，仍需在按需服務(wù)、多任務(wù)調(diào)度和分配等技術(shù)上進行進一步的突破。但 Mahout 項目目前還缺少數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)展示和用戶交互，還不完全適合海量數(shù)據(jù)挖掘并行算法的性能評估。（ 4）并行數(shù)據(jù)挖掘工具箱。在同構(gòu)海量數(shù)據(jù)挖掘系統(tǒng)中，各個節(jié)點存儲的數(shù)據(jù)都具有相同的屬性空間。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、并行分類算法和并行聚類算法，用于分類或預(yù)測模型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢發(fā)現(xiàn)等。（ 2）適合于云計算的海量數(shù)據(jù)挖掘并行算法。但對于海量數(shù)據(jù)分析任務(wù)，云平臺缺乏針對海量數(shù)據(jù)挖掘和分析算法的并行化實現(xiàn)。本文首先討論了海量數(shù)據(jù)挖掘的研究熱點；其次基于開放的 Hadoop 平臺，討論并行數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的設(shè)計。中國移動 “大云 ”平臺主要為數(shù)據(jù)挖掘、系統(tǒng)評估、搜索等應(yīng)用提供計算服務(wù)。海量數(shù)據(jù)挖掘另一個核心問題是數(shù)據(jù)挖掘算法的并行化。對于大量的數(shù)據(jù)密集型應(yīng)用（如數(shù)據(jù)挖掘任務(wù)），往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法，計算非常困難。 Google公司的云平臺是最具代表性的云計算技術(shù)之一，包括四個方面的主要技術(shù)： Google文件系統(tǒng) GFS、并行計算模型 MapReduce、結(jié)構(gòu)化數(shù)據(jù)表 BigTable和分布式的鎖管理 Chubby。目前工業(yè)界推出的云計算平臺有 Amazon 公司的 EC2 和 S3， Google公司的Google Apps Engine, IBM 公司的 Blue Cloud， Microsoft 公司的 Windows Azure, Salesforce公司的 Sales Force, VMware公司的 vCloud， Apache軟件開源組織的 Hadoop 等。在國內(nèi)， IBM 與無錫市共建了云計算中心，中石化集團成功應(yīng)用IBM 的云計算方案建立起一個企業(yè)云計算平臺。基于以上技術(shù)，云計算可以為海量數(shù)據(jù)處理和分析提供一種高效的計算平臺。因此，基于云計算的海量數(shù)據(jù)挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點技術(shù)之一。圖 1 給出基于云計算的海量數(shù)據(jù)挖掘服務(wù) 的層次結(jié)構(gòu)圖。在開源 Hadoop 云平臺上，中科院計算所研制了并行數(shù)據(jù)挖掘工具平臺 PDMiner。二技術(shù)熱點云計算是一種資源利用模式，它能以簡便的途徑和以按需的方式通過網(wǎng)絡(luò)訪問可配置的計算資源，快速部署資源。因此面向海量數(shù)據(jù)挖掘的新型云計算模式，主要包括海量數(shù)據(jù)預(yù)處理、適合于云計算的海量數(shù)據(jù)挖掘并行算法、新型海量數(shù)據(jù)挖掘方法和云計算數(shù)據(jù)挖掘工具箱等技術(shù) 。海量數(shù)據(jù)挖掘的關(guān)鍵問題是數(shù)據(jù)挖掘算法的并行化。在此基礎(chǔ)上，針對海量數(shù)據(jù)挖掘算法的特點對已有的云計算模型進行優(yōu)化和擴充，使其更適用于海量數(shù)據(jù)挖掘。云平臺采用集成學(xué)習(xí)的方式來生成最終的全局預(yù)測模型。海量數(shù)據(jù)挖掘應(yīng)用系統(tǒng)開發(fā)前，都會對采用的算法進行性能的評估。因此，云平臺應(yīng)可以提供一個基于 MapReduce計算模型的并行數(shù)據(jù)挖掘工具箱，用于海量數(shù)據(jù)挖掘并行算法的性能評估。具體技術(shù)內(nèi)容包括： 1. 按需服務(wù)的自治計算模式。因此，基于云計算的海量數(shù)據(jù)挖掘必須優(yōu)化負(fù)載調(diào)節(jié)的策略與任務(wù)遷移策略等。 4. 復(fù)雜數(shù)據(jù)挖掘任務(wù)服務(wù)平臺。其可以實現(xiàn)數(shù)據(jù)預(yù)處理、聚類、分類、回歸、特征選擇、可視化等各種數(shù)據(jù)挖掘的任務(wù)。但由于 Mahout 并不提供一種圖形界面交互，用戶需要大量手工配置數(shù)據(jù)和參數(shù)，同時目前實現(xiàn)的并行數(shù)據(jù)挖掘算法也不完全。標(biāo)準(zhǔn)格式是 Arff,行表示實例，列表示各個屬性。算法管理：選擇算法、修改算法參數(shù)。圖 3 Dodo 工具箱模塊結(jié)構(gòu) 圖圖 3 中，將 Dodo 工具箱分為用戶交互層、內(nèi)部實現(xiàn)層以及 Hadoop 交互層等三個層次。應(yīng)用中沒有復(fù)雜的流程，也沒有很多不同的角色。不同于企業(yè)應(yīng)用，在數(shù)據(jù)挖掘應(yīng)用實現(xiàn)一個具體的挖掘任務(wù)有很多種算法。 4. 應(yīng)用的突發(fā)性。因此，所謂數(shù)據(jù)挖掘云是指在 hadoop 平臺上提供支持復(fù)雜數(shù)據(jù)挖掘任務(wù)的服務(wù)系統(tǒng)，此系統(tǒng)能夠提供復(fù)雜數(shù)據(jù)挖掘任務(wù)的工作流定義、資源調(diào)度、算法和工具以 web service的方式向外提供服務(wù) 。而最上層是客戶端組件，主要用于與用戶的直接交互。 3. 數(shù)據(jù)訪問服務(wù)：用戶根據(jù)自己的任務(wù)，需要查找、上傳或下載所需要的數(shù)據(jù)，數(shù)據(jù)訪問服務(wù)為用戶提供了良好的接口讓用戶方便進行這些操作。五總結(jié) 綜上所述，本文討論了基于云計算的海量數(shù)據(jù)挖掘的進展和主要技術(shù)熱點，并分析了基于 Hadoop 平臺的數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的結(jié)構(gòu)。作為能為企業(yè)效益增值的數(shù)據(jù)挖掘應(yīng)用，本質(zhì)上具備了請求突發(fā)、需求多變，結(jié)果依賴于數(shù)據(jù)和算法的特點，因此必須進一步優(yōu)化云計算平臺，提高云平臺對按需服務(wù)的支撐能力。但到 1992 年，互聯(lián)網(wǎng)上已有超過 100 萬個節(jié)點。第二，互聯(lián)網(wǎng)的軟件業(yè)務(wù)規(guī)模出現(xiàn)迅速攀升趨勢。前英國 eScience首席科學(xué)家 Tony Hey 出版書籍《 The fourth Paradigm： Dataintensive Scientific Discovery》 [5]都表明數(shù)據(jù)分析已經(jīng)成為繼理論、實驗和計算的新的科學(xué)發(fā)現(xiàn)基礎(chǔ)，將成為用來解開經(jīng)濟價值的新來源。例如我們平時所熟悉的 word 等文字處理軟件，能夠自動提示和校正一些錯誤的輸入等，這個功能是微軟在二十年上花費了幾百萬美元所研發(fā)的拼寫檢查器。例如微軟的首席戰(zhàn)略規(guī)劃科學(xué)家 Mundie則稱數(shù)據(jù)為中心的經(jīng)濟剛剛開始， IBM 社會信息學(xué)家柯他達 (James Cortada)認(rèn)為這么多的數(shù)據(jù)使我們處在一個不同的時代，而這樣的時代被 Berkeley 的計算機科學(xué)家 Joe Hellerstein 稱為數(shù)據(jù)的工業(yè)革命 [4]。二、云計算及云計算資源管理技術(shù) 實現(xiàn)按需獲取看似無限的計算資源而構(gòu)建一套可伸縮、安全可靠的資源管理平臺，為用戶提供靈活可伸縮的工作負(fù)荷管理，解決大規(guī)模數(shù)據(jù)并行計算服務(wù)。從根本上講，云計算仍然是追求 “Utility Computing”的一種途徑，這也是人類希望使用計算和存儲資源也能夠像用水、用電一樣方便快捷。例如在《 The fourth Paradigm： Dataintensive Scientific Discovery》 [5]提到近 3 年獲得的生物醫(yī)學(xué)數(shù)據(jù)超過過去 4 萬年的總和，一百年前一名醫(yī)師就可以被認(rèn)為了解醫(yī)學(xué)領(lǐng)域的全部知識，而如今即便一位保健醫(yī)生也需了解大約 10000 種疾病和癥狀，擁有 3000 個臨床療程的經(jīng)驗，并進行 1100次實驗室試驗，對于一名專業(yè)的流行病學(xué)醫(yī)師，每天至少需要 21 個小時的研究學(xué)習(xí)才可以跟上醫(yī)學(xué)數(shù)據(jù)發(fā)展的腳步，這顯然需要借助大規(guī)模數(shù)據(jù)分析來緩解數(shù)據(jù)的飛速膨脹。 2020 年 2 月，來自 UC Berkeley 高可靠適應(yīng)性分布式系統(tǒng)實驗室（ UC Berkeley Reliable Adaptive Distributed Systems Laboratory）的 11 位學(xué)者在聯(lián)合發(fā)表的一篇關(guān)于云計算的報告 [9]，從硬件租用和軟件應(yīng)用給出了云計算模式和概念發(fā)展趨勢給出了分析，對公用計算的分類、云計算的經(jīng)濟，特別是云計算的 10 大問題和應(yīng)對方式給出了獨特見解，其中有 3 項就涉及到應(yīng)用、數(shù)據(jù)安全和信任問題。抽象化的中間層對下層模塊提供的接口進行提煉、裁剪、重新定義后 , 暴露給上層模塊。對于互聯(lián)網(wǎng)的軟件，不可忽視的是移動與云的結(jié)合。隨著 Web 計算的發(fā)展，一些程序逐漸由軟件服務(wù)提供商來提供，這也是早期典型的 ASP 模式，但對于軟件服務(wù)提供商來說，可能需要去參與很多機房建設(shè)、運維保障的工作；在云計算環(huán)境中，網(wǎng)絡(luò)化軟件具有更為明確的任務(wù)分工，軟件運營商將逐漸承擔(dān)起軟件運維的工作，當(dāng)前 AppStore、 AppEngine等模式的逐漸成功在不斷印證著這個理念。 iVICvSaaS針對云計算和移動互聯(lián)網(wǎng)新型應(yīng)用模式，旨在實現(xiàn)互聯(lián)網(wǎng)軟件 “按需分發(fā)、透明使用、集中運營 ”，實現(xiàn)云計算軟件服務(wù)的虛擬桌面無縫融合，多類移動終端普適和流式軟件及展現(xiàn)技術(shù)，為移動互聯(lián)網(wǎng)軟件提供服務(wù)化運營平臺，并支持電信級的移動 OA企業(yè)應(yīng)用。因此，雖然對計算機操作系統(tǒng)一旦完全被國外企業(yè)壟斷，但國產(chǎn)中間件企業(yè)和研究機構(gòu)在分布式系統(tǒng)的數(shù)據(jù)管理、網(wǎng)絡(luò)管理、資源調(diào)度以及高可用技術(shù)等方面具有長期的技術(shù)研究積累，將對構(gòu)建大規(guī)?？煽康脑撇僮飨到y(tǒng)中占據(jù)先機。特別是在分布式軟件的開發(fā)時，運行環(huán)境一方面要求開發(fā)者付出不小的經(jīng)濟代價，另一方面將不可避免的要進行繁瑣的系統(tǒng)安裝、配置以及后續(xù)的維護工作。由于業(yè)務(wù)需求的多樣性和復(fù)雜性，企業(yè)之間開始尋求一種跨企業(yè)的應(yīng)用集成方法。以業(yè)務(wù)流程為核心的服務(wù)組合是面向服務(wù)軟件開發(fā)方法的主流實現(xiàn)之一，類比傳統(tǒng)的軟件開發(fā)方法，它需要業(yè)務(wù)建模、組合服務(wù)編制、組合服務(wù)驗證、組合服務(wù)測試等幾個階段。近年來，云計算 [2]無論在工業(yè)界還是在學(xué)術(shù)界都已經(jīng)被公認(rèn)為一種新的計算模式，它強調(diào)通過因特網(wǎng)來進行軟件的透明分發(fā)，軟件以服務(wù)的方式提供使用。目前在這個方向上已經(jīng)有了一些相似的工作。支持面向服務(wù)軟件開發(fā)與運行的云平臺的基本思路是將面向服務(wù)的軟件生產(chǎn)線改造為云計算應(yīng)用，實現(xiàn)在面向服務(wù)軟件開發(fā)過程中的即時開發(fā)、部署和運行。該系統(tǒng)著重解決了三個方面的問題：（ 1）服務(wù)資源管理。問題思考和分析即使面向服務(wù)的軟件生產(chǎn)線為面向服務(wù)軟件的開發(fā)和運行提供了幾乎全面的解決方案，但在實際使用中還是存在一些問題。其次，在測試階段，開發(fā)者需要一個良好的測試環(huán)境。對于第二個問題，可以構(gòu)建和維護一個集中的服務(wù)化軟件應(yīng)用引擎。圖 1 云計算平臺三大模塊其中，服務(wù)資源共享平臺負(fù)責(zé) Web 服務(wù)資源的注冊和收集、 Web 服務(wù)的組織、服務(wù)關(guān)系挖掘、服務(wù)可信保證以及服務(wù)搜索等。基于云計算平臺的三個模塊，可以減輕面向服務(wù)的軟件開發(fā)人員的工作，提高他們的開發(fā)效率，實現(xiàn)面向服務(wù)軟件開發(fā)的即時開發(fā)、即

點擊復(fù)制文檔內(nèi)容

試題試卷相關(guān)推薦

云計算及策略講義課件-資料下載頁

【總結(jié)】云計算及策略云計算(cloudputing)定義?維基百科“云計算，是這樣一種計算方式，計算資源是動態(tài)易擴展而且虛擬化的，往往通過互聯(lián)網(wǎng)提供。用戶不需要了解‘云’中基礎(chǔ)設(shè)施的細(xì)節(jié)，不必具有相應(yīng)的專業(yè)知識，也無需直接進行控制”。?Baidu百科云計算是網(wǎng)格計算（GridComputin

2025-02-18 19:33

云計算=saas網(wǎng)格計算虛擬化-資料下載頁

【總結(jié)】奉繼承博士：云計算＝SaaS+網(wǎng)格計算+虛擬化到底什么是云計算？在IT業(yè)界，對于“云計算”至少有超過20種的解釋。維基百科的定義為“云計算（cloudputing），是這樣一種計算方式，計算資源是動態(tài)易擴展而且虛擬化的，往往通過互聯(lián)網(wǎng)提供。用戶不需要了解‘云’中基礎(chǔ)設(shè)施的細(xì)節(jié)，不必具有相應(yīng)的專業(yè)知識，也無需直接進行控制”。埃森哲（Accenture）咨詢公司的定義“第三方提

2025-06-19 00:32

云計算與網(wǎng)格計算比較-資料下載頁

【總結(jié)】GridComputing&CloudComputingbyHuJingProgressCloudComputing3DefinitionforCloudputing?Alarge-scaledistributedputingparadigmthatisdrivenbyeconomiesofsc

2025-05-11 18:24

信息安全技術(shù)云計算服務(wù)安全指南-資料下載頁

【總結(jié)】信息安全技術(shù)云計算服務(wù)安全指南1范圍本標(biāo)準(zhǔn)描述了云計算可能面臨的主要安全風(fēng)險，提出了政府部門采用云計算服務(wù)的安全管理基本要求及云計算服務(wù)的生命周期各階段的安全管理和技術(shù)要求。本標(biāo)準(zhǔn)為政府部門采用云計算服務(wù)，特別是采用社會化的云計算服務(wù)提供全生命周期的安全指導(dǎo)，適用于政府部門采購和使用云計算服務(wù)，也可供重點行業(yè)和其他企事業(yè)單位參考。2規(guī)范性引用文件下列文件對于本文件的應(yīng)用

2025-07-30 05:16

xxx云計算項目技術(shù)方案(詳細(xì)版)-資料下載頁

【總結(jié)】-1-XXX云計算平臺項目技術(shù)方案

2025-01-15 17:32

云計算會議紀(jì)要及心得-資料下載頁

【總結(jié)】第一篇：云計算會議紀(jì)要及心得企業(yè)云計算信息化管理會議紀(jì)要會議主題：企業(yè)云計算信息化管理講座會議時間：2013年6月18日下午15:45會議地點：新疆大學(xué)會議內(nèi)容：孫慧（博士）：1、2、3、...

2025-10-04 13:35

人力資源管理師計算題匯總-資料下載頁

【總結(jié)】人力資源管理師計算題匯總計算題的命題視角：計算題主要檢驗考生從事人力資源管理活動所應(yīng)具有的基本計算能力的程度，以及對各種數(shù)據(jù)處理和運算水乎的高低。相對來說，計算題所考查的知識面比案例分析題以及方案設(shè)計題都要簡單一些，因為計算題所涉及的題目都是人力資源管理人員在日常的工作中所必需用到的一些簡單的計算方法，計算題的命題視角也集中于此。一、某企業(yè)崗位評價表如表1所示

2024-12-15 13:25

基于saas云計算的物流云倉儲門戶技術(shù)方案-資料下載頁

【總結(jié)】物流云倉儲門戶技術(shù)方案Creator:朱少華1、什么是物流云2、優(yōu)勢3、業(yè)務(wù)4、成熟SaaS的幾個特性5、宏觀架構(gòu)6、部署拓?fù)浣Y(jié)構(gòu)7、技術(shù)架構(gòu)8、前端技術(shù)及優(yōu)化9、PASS服務(wù)10、多租戶方案11、元

2025-05-25 18:18

[計算機]人力資源管理系統(tǒng)調(diào)研報告-資料下載頁

【總結(jié)】一．課題的背景與意義1．課題的背景人力資源管理系統(tǒng)是一門新興的、集管理科學(xué)、信息科學(xué)、系統(tǒng)科學(xué)及計算機科學(xué)為一體的綜合性學(xué)科，在諸多的企業(yè)競爭要素中，人力資源己逐漸成為企業(yè)最主要的資源，現(xiàn)代企業(yè)的競爭也越來越直接地反映為人才戰(zhàn)略的競爭。在此背景下，現(xiàn)代企業(yè)為適應(yīng)快速變化的市場，需要更加靈活、快速反應(yīng)的，具有決策功能的人力資源管理平臺和解決方案。企業(yè)采用人力資源

2025-04-14 03:39

計算機專業(yè)，企業(yè)人力資源管理系統(tǒng)-資料下載頁

【總結(jié)】摘要：隨著信息技術(shù)的不斷發(fā)展，企業(yè)對人力資源管理也越來越重視了，資金投入比例也在加大，人力資源管理系統(tǒng)開發(fā)也開始走向完善的階段。論文是從某公司的實際業(yè)務(wù)出發(fā)，針對公司的人事管理的現(xiàn)狀，經(jīng)過詳細(xì)的系統(tǒng)調(diào)查，為該公司分析和設(shè)計了一套實用的人力資源管理信息系統(tǒng)。本系統(tǒng)使用VisualFOXPRO中文版作為開發(fā)工具，后臺數(shù)據(jù)庫采用Microsoft

2024-12-04 01:15

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片