freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

云計算及計算資源管理技術(shù)-wenkub

2022-11-08 06:47:31 本頁面
 

【正文】 景 互聯(lián)網(wǎng)的前身為冷戰(zhàn)期間美國所構(gòu)建抗打擊的軍事指揮系統(tǒng)研究 ARPANET,在 1969 年節(jié)點只有兩個, 5 年后也只不過幾十個節(jié)點。在數(shù)據(jù)挖掘云服務(wù)中,為使海量數(shù)據(jù)挖掘應(yīng)用服務(wù)化,提供從 Hadoop 資源分配到目錄服務(wù),再到流管理等一系列的組件服務(wù),繼而提高海量數(shù)據(jù)挖掘軟件的服務(wù)能力。 6. 結(jié)果展示服務(wù):任務(wù)執(zhí)行完畢以后,用戶需要查看任務(wù)的執(zhí)行結(jié)果,結(jié)果展示可能包含多種方式 ,圖狀的、表格式的、文本式的等方式 。 2. 資源分配和任務(wù)調(diào)度服務(wù):把上層生成的執(zhí)行計劃映射到具體 的計算資源和節(jié)點上,然后進行任務(wù)的調(diào)度和執(zhí)行 。數(shù)據(jù)挖掘云的中間層是數(shù)據(jù)挖掘云高層服務(wù),包括目錄服務(wù)、效用服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)等核心組件。用戶可以根據(jù)自己的需求以及付費能力選擇適合自己的服務(wù)模式。數(shù)據(jù)挖掘任務(wù)中,選擇不同的數(shù)據(jù)和算法,將有可能導(dǎo)致不同的計算結(jié)果 。 2. 豐富的算法選擇。數(shù)據(jù)挖掘應(yīng)用從工作流角度來看,相對 非常簡單。 圖 2 Dodo 工具箱運行流 程 在圖 2 中,如果用戶是首次啟動工具箱,需要選擇連接的 Hadoop 環(huán)境并對環(huán)境進行配置;當(dāng)用戶需要上傳數(shù)據(jù),工具箱以樹形圖的形式,將用戶的數(shù)據(jù)上傳到指定的 Hadoop 路徑上;如果不是順序數(shù)據(jù),工具箱則將其順序化然后存儲;在算法選擇階段,用戶可以選擇工具箱自帶的并行化數(shù)據(jù)挖掘算法,也可以選擇用戶指定的、本地的 jar 文件;通過工具箱,用戶能對選擇的算法進行設(shè)置,其中包括輸入輸出路徑,算法特定的參數(shù)等等;最后在 Hadoop 環(huán)境上對指定輸入路徑上的數(shù)據(jù)運行指定的算法,輸出結(jié)果以可視化的方式展示給用戶 。 Hadoop 平臺管理:啟動、關(guān)閉。 表 1 Weka, Mahout 和 Dodo 主要異 同 數(shù)據(jù)源 數(shù)據(jù)格式 數(shù)據(jù)存儲 算法 用戶界面 Weka 支持文本文件:包括本地的數(shù)據(jù)文件以及網(wǎng)絡(luò)數(shù)據(jù)文件; 支持?jǐn)?shù)據(jù)庫文件:通過 JDBC 連接。與 Weka不同的是, Apache組織基于 Hadoop 平臺的,采用 MapReduce計算模型,實現(xiàn)大量機器學(xué)習(xí)算法的并行化,并將其封裝在 Mahout 項目。 三 基于 Hadoop 的并行數(shù)據(jù)挖掘算法工具箱 —— Dodo Weka是由新西蘭 Waikato 大學(xué)研發(fā)的數(shù)據(jù)處理和知識發(fā)現(xiàn)軟件包。在資源管理和配置中,針對海量數(shù)據(jù)的大規(guī)模和異構(gòu)等特點,運用虛擬化技術(shù)進行存儲管理,并設(shè)計 一種新型的動態(tài)遷移架構(gòu) 。海量數(shù)據(jù)挖掘應(yīng)用往往是數(shù)據(jù)密集,且具有突發(fā)性的特點;除此之外,不同的數(shù)據(jù)挖掘應(yīng)用對算法精度、性能要求也不一致。以上部分技術(shù)可以直接遷移到云計算平臺上,但由于云計算模式和數(shù)據(jù)挖掘服務(wù)的特殊性,仍需在按需服務(wù)、多任務(wù)調(diào)度和分配等技術(shù)上進行進一步的突破。但 Mahout 項目目前還缺少數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)展示和用戶交互,還不完全適合海量數(shù)據(jù)挖掘并行算法的性能評估。 ( 4)并行數(shù)據(jù)挖掘工具箱。在同構(gòu)海量數(shù)據(jù)挖掘系統(tǒng)中,各個節(jié)點存儲的數(shù)據(jù)都具有相同的屬性空間。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、并行分類算法和并行聚類算法,用于分類或預(yù)測模型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢發(fā)現(xiàn)等。 ( 2)適合于云計算的海量數(shù)據(jù)挖掘并行算法。但對于海量數(shù)據(jù)分析任務(wù),云平臺缺乏針對海量數(shù)據(jù)挖掘和分析算法的并行化實現(xiàn)。 本文首先討論了海量數(shù)據(jù)挖掘的研究熱點;其次基于開放的 Hadoop 平臺,討論并行數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的設(shè)計 。中國移動 “大云 ”平臺主要為數(shù)據(jù)挖掘、系統(tǒng)評估、搜索等應(yīng)用提供計算服務(wù)。海量數(shù)據(jù)挖掘另一個核心問題是數(shù)據(jù)挖掘算法的并行化。對于大量的數(shù)據(jù)密集型應(yīng)用(如數(shù)據(jù)挖掘任務(wù)),往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法,計算非常困難。 Google公司的云平臺是最具代表性的云計算技術(shù)之一,包括四個方面的主要技術(shù): Google文件系統(tǒng) GFS、并行計算模型 MapReduce、結(jié)構(gòu)化數(shù)據(jù)表 BigTable和分布式的鎖管理 Chubby。目前工業(yè)界推出的云計算平臺有 Amazon 公司的 EC2 和 S3, Google公司的Google Apps Engine, IBM 公司的 Blue Cloud, Microsoft 公司的 Windows Azure, Salesforce公司的 Sales Force, VMware公司的 vCloud, Apache軟件開源組織的 Hadoop 等。在國內(nèi), IBM 與無錫市共建了云計算中心,中石化集團成功應(yīng)用IBM 的云計算方案建立起一個企業(yè)云計算平臺。基于以上技術(shù),云計算可以為海量數(shù)據(jù)處理和分析提供一種高效的計算平臺。因此,基于云計算的海量數(shù)據(jù)挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點技術(shù)之一 。圖 1 給出基于云計算的海量數(shù)據(jù)挖掘服務(wù) 的層次結(jié)構(gòu)圖 。在開源 Hadoop 云平臺上,中科院計算所研制了并行數(shù)據(jù)挖掘工具平臺 PDMiner。 二 技術(shù)熱 點 云計算是一種資源利用模式,它能以簡便的途徑和以按需的方式通過網(wǎng)絡(luò)訪問可配置的計算資源,快速部署資源。因此面向海量數(shù)據(jù)挖掘的新型云計算模式,主要包括海量數(shù)據(jù)預(yù)處理、適合于云計算的海量數(shù)據(jù)挖掘并行算法、新型海量數(shù)據(jù)挖掘方法和云計算數(shù)據(jù)挖掘工具箱等技術(shù) 。海量數(shù)據(jù)挖掘的關(guān)鍵問題是數(shù)據(jù)挖掘算法的并行化。在此基礎(chǔ)上,針對海量數(shù)據(jù)挖掘算法的特點對已有的云計算模型進行優(yōu)化和擴充,使其更適用于海量數(shù)據(jù)挖掘 。云平臺采用集成學(xué)習(xí)的方式來生成最終的全局預(yù)測模型。海量數(shù)據(jù)挖掘應(yīng)用系統(tǒng)開發(fā)前,都會對采用的算法進行性能的評估。因此,云平臺應(yīng)可以提供一個基于 MapReduce計算模型的并行數(shù)據(jù)挖掘工具箱,用于海量數(shù)據(jù)挖掘并行算法的性能評估 。具體技術(shù)內(nèi)容包括 : 1. 按需服務(wù)的自治計算模式。因此,基于云計算的海量數(shù)據(jù)挖掘必須優(yōu)化負(fù)載調(diào)節(jié)的策略與任務(wù)遷移策略等 。 4. 復(fù)雜數(shù)據(jù)挖掘任務(wù)服務(wù)平臺。其可以實現(xiàn)數(shù)據(jù)預(yù)處理、聚類、分類、回歸、特征選擇、可視化等各種數(shù)據(jù)挖掘的任務(wù)。但由于 Mahout 并不提供一種圖形界面交互,用戶需要大量手工配置數(shù)據(jù)和參數(shù),同時目前實現(xiàn)的并行數(shù)據(jù)挖掘算法也不完全。 標(biāo)準(zhǔn)格式是 Arff,行表示實例,列表示各個屬性。 算法管理:選擇算法、修改算法參數(shù)。 圖 3 Dodo 工具箱模塊結(jié)構(gòu) 圖 圖 3 中,將 Dodo 工具箱分為用戶交互層、內(nèi)部實現(xiàn)層以及 Hadoop 交互層等三個層次。應(yīng)用中沒有復(fù)雜的流程,也沒有很多不同的角色。不同于企業(yè)應(yīng)用,在數(shù)據(jù)挖掘應(yīng)用實現(xiàn)一個具體的挖掘任務(wù)有很多種算法。 4. 應(yīng)用的突發(fā)性。因此,所謂數(shù)據(jù)挖掘云是指在 hadoop 平臺上提供支持復(fù)雜數(shù)據(jù)挖掘任務(wù)的服務(wù)系統(tǒng),此系統(tǒng)能夠提供復(fù)雜數(shù)據(jù)挖掘任務(wù)的工作流定義、資源調(diào)度、算法和工具以 web service的方式向外提供服務(wù) 。而最上層是客戶端組件,主要用于與用戶的直接交互。 3. 數(shù)據(jù)訪問服務(wù):用戶根據(jù)自己的任務(wù),需要查找、上傳或下載所需要的數(shù)據(jù),數(shù)據(jù)訪問服務(wù)為用戶提供了良好的接口讓用戶方便進行這些操作 。 五 總 結(jié) 綜上所述,本文討論了基于云計算的海量數(shù)據(jù)挖掘的進展和主要技術(shù)熱點,并分析了基于 Hadoop 平臺的數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的結(jié)構(gòu)。作為能為企業(yè)效益增值的數(shù)據(jù)挖掘應(yīng)用,本質(zhì)上具備了請求突發(fā)、需求多變,結(jié)果依賴于數(shù)據(jù)和算法的特點,因此必須進一步優(yōu)化云計算平臺,提高云平臺對按需服務(wù)的支撐能力 。但到 1992 年,互聯(lián)網(wǎng)上已有超過 100 萬個節(jié)點。第二,互聯(lián)網(wǎng)的軟件業(yè)務(wù)規(guī)模出現(xiàn)迅速攀升趨勢。前英國 eScience首席科學(xué)家 Tony Hey 出版書籍《 The fourth Paradigm: Dataintensive Scientific Discovery》 [5]都表明數(shù)據(jù)分析已經(jīng)成為繼理論、實驗和計算的新的科學(xué)發(fā)現(xiàn)基礎(chǔ),將成為用來解開經(jīng)濟價值的新來源 。例如我們平時所熟悉的 word 等文字處理軟件,能夠自動提示和校正一些錯誤的輸入等,這個功能是微軟在二十年上花費了幾百萬美元所研發(fā)的拼寫檢查器。例如微軟的首席戰(zhàn)略規(guī)劃科學(xué)家 Mundie則稱 數(shù)據(jù)為中心的經(jīng)濟剛剛開始 , IBM 社會信息學(xué)家柯他達 (James Cortada)認(rèn)為 這么多的數(shù)據(jù)使我們處在一個不同的時代 ,而這樣的時代被 Berkeley 的計算機科學(xué)家 Joe Hellerstein 稱為 數(shù)據(jù)的工業(yè)革命 [4]。 二、云計算及云計算資源管理技 術(shù) 實現(xiàn)按需獲取看似無限的計 算資源而構(gòu)建一套可伸縮、安全可靠的資源管理平臺,為用戶提供靈活可伸縮的工作負(fù)荷管理,解決大規(guī)模數(shù)據(jù)并行計算服務(wù)。 從根本上講,云計算仍然是追求 “Utility Computing”的一 種途徑,這也是人類希望使用計算和存儲資源也能夠像用水、用電一樣方便快捷。例如在《 The fourth Paradigm: Dataintensive Scientific Discovery》 [5]提到近 3 年獲得的生物醫(yī)學(xué)數(shù)據(jù)超過過去 4 萬年的總和,一百年前一名醫(yī)師就可以被認(rèn)為了解醫(yī)學(xué)領(lǐng)域的全部知識,而如今即便一位保健醫(yī)生也需了解大約 10000 種疾病和癥狀,擁有 3000 個臨床療程的經(jīng)驗, 并進行 1100次實驗室試驗,對于一名專業(yè)的流行病學(xué)醫(yī)師,每天至少需要 21 個小時的研究學(xué)習(xí)才可以跟上醫(yī)學(xué)數(shù)據(jù)發(fā)展的腳步,這顯然需要借助大規(guī)模數(shù)據(jù)分析來緩解數(shù)據(jù)的飛速膨脹。 2020 年 2 月,來自 UC Berkeley 高可靠適應(yīng)性分布式系統(tǒng)實驗室( UC Berkeley Reliable Adaptive Distributed Systems Laboratory) 的 11 位學(xué)者在聯(lián)合發(fā)表的一篇關(guān)于云計算的報告 [9],從硬件租用和軟件應(yīng)用給出了云計算模式和概念發(fā)展趨勢給出了分析,對公用計算的分類、云計算的經(jīng)濟,特別是云計算的 10 大問題和應(yīng)對方式給出了獨特見解,其中有 3 項就涉及到應(yīng)用、數(shù)據(jù)安全和信任問題 。抽象化的中間層對下層模塊提供的接口進行提煉、裁剪、重新定義后 , 暴露給上層模塊。對于互聯(lián)網(wǎng)的軟件,不可忽視的是移動與云的結(jié)合。隨著 Web 計算的發(fā)展,一些程序逐漸由軟件服務(wù)提供商來提供,這也是早期典型的 ASP 模式,但對于軟件服務(wù)提供商來說,可能需要去參與很多機房建設(shè)、運維保障的工作;在云計算環(huán)境中,網(wǎng)絡(luò)化軟件具有更為明確的任務(wù)分工,軟件運營商將逐漸承擔(dān)起軟件運維的工作,當(dāng)前 AppStore、 AppEngine等模式的逐漸成功在不斷印證著這個理念 。 iVICvSaaS針對云 計算和移動互聯(lián)網(wǎng)新型應(yīng)用模式,旨在實現(xiàn)互聯(lián)網(wǎng)軟件 “按需分發(fā)、透明使用、集中運營 ”,實現(xiàn)云計算軟件服務(wù)的虛擬桌面無縫融合,多類移動終端普適和流式軟件及展現(xiàn)技術(shù),為移動互聯(lián)網(wǎng)軟件提供服務(wù)化運營平臺,并支持電信級的移動 OA企業(yè)應(yīng)用 。因此,雖然對計算機操作系統(tǒng)一旦完全被國外企業(yè)壟斷,但國產(chǎn)中間件企業(yè)和研究機構(gòu)在分布式系統(tǒng)的數(shù)據(jù)管理、網(wǎng)絡(luò)管理、資源調(diào)度以及高可用技術(shù)等方面具有長期的技術(shù)研究積累,將對構(gòu)建大規(guī)??煽康脑撇僮飨到y(tǒng)中占據(jù)先機 。特別是在分布式軟件的開發(fā)時,運行環(huán)境一方面要求開發(fā)者付出不小的經(jīng)濟代價,另一方面將不可避免的要進行繁瑣的系統(tǒng)安裝、配置以及后續(xù)的維護工作。由于業(yè)務(wù)需求的多樣性和復(fù)雜性,企業(yè)之間開始尋求一種跨企業(yè)的應(yīng)用集成方法。以業(yè)務(wù)流程為核心的服務(wù)組合是面向服務(wù)軟件開發(fā)方法的主流實現(xiàn)之一,類比傳統(tǒng)的軟件開發(fā)方法,它需要業(yè)務(wù)建模、組合服務(wù)編制、組合服務(wù)驗證、組合服務(wù)測試等幾個階段。 近年來,云計算 [2]無論在工業(yè)界還是在學(xué)術(shù)界都已經(jīng)被公認(rèn)為一種新的計算模式,它強調(diào)通過因特網(wǎng)來進行軟件的透明分發(fā),軟件以服務(wù)的方式提供使用。目前在這個方向上已經(jīng)有了一些相似的工作。支持面向服務(wù)軟件開發(fā)與運行的云平臺的基本思路是將面向服務(wù)的軟件生產(chǎn)線改造為云計算應(yīng)用,實現(xiàn)在面向服務(wù)軟件開發(fā)過程中的即時開發(fā)、部署和運行 。該系統(tǒng)著重解決了三個方面的問題:( 1)服務(wù)資源管理。 問題思考和分 析 即使面向服 務(wù)的軟件生產(chǎn)線為面向服務(wù)軟件的開發(fā)和運行提供了幾乎全面的解決方案,但在實際使用中還是存在一些問題 。 其次,在測試階段,開發(fā)者需要一個良好的測試環(huán)境。 對于第二個問題,可以構(gòu)建和維護一個集中的服務(wù)化軟件應(yīng)用引擎。 圖 1 云計算平臺三大模 塊 其中,服務(wù)資源共享平臺負(fù)責(zé) Web 服務(wù)資源的注冊和收集、 Web 服務(wù)的組織、服務(wù)關(guān)系挖掘、服務(wù)可信保證以及服務(wù)搜索等。 基于云計算平臺的三個模塊,可以減輕面向服務(wù)的軟件開發(fā)人員的工作,提高他們的開發(fā)效率,實現(xiàn)面向服務(wù)軟件開發(fā)的即時開發(fā)、即
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1