freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

氣象大數(shù)據(jù)技術(shù)架構(gòu)思路(參考版)

2025-07-17 00:27本頁面
  

【正文】 數(shù)據(jù)治理 分布式存儲與分布式應(yīng)用 服務(wù)平臺的硬件架構(gòu)與調(diào)整 數(shù)據(jù)庫與數(shù)據(jù)倉庫 NOSQL數(shù)據(jù)庫 數(shù)據(jù)集成工具 數(shù)據(jù)分析軟件 Web應(yīng)用以及Web開發(fā)的關(guān)鍵問題5 我們的研發(fā)策略 效益 目前的形勢 針對目前直接的應(yīng)用需求 技術(shù)儲備與項目應(yīng)用 如何保證將來的擴展38。流計算動態(tài)收集多個數(shù)據(jù)流,使用先進的算法來提供近乎瞬時的分析。Streams 流計算在傳統(tǒng)的數(shù)據(jù)分析策略中,數(shù)據(jù)被收集到一個數(shù)據(jù)庫中,并被搜索或查詢答案。另外,從NOSQL數(shù)據(jù)到數(shù)據(jù)倉庫需要一個緩沖處理。傳統(tǒng)的數(shù)據(jù)庫/數(shù)據(jù)倉庫用于存儲結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),NOSQL數(shù)據(jù)庫用于存儲非結(jié)構(gòu)化的數(shù)據(jù)。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架實現(xiàn)?!皊tore and explore(存儲和探索)”模式是最簡單的。必須對模式進行調(diào)整,以滿足特定的情況和需求。每個復(fù)合模式都被設(shè)計為針對具有一組特定特征的數(shù)據(jù)在特定情況下使用。例如,在設(shè)備被預(yù)測會發(fā)生故障之后,系統(tǒng)可以自動創(chuàng)建一個工作訂單。全自動半自動手動操作圖 8. 可操作的分析復(fù)合模式圖 8 說明該分析可以是手動、半自動或全自動的。l 制定決策。行動是預(yù)定義的,分析的結(jié)果被映射到行動。該操作可以是手動、半自動或全自動的。該處理可實時發(fā)生或以批量模式發(fā)生。此外,可以將通知發(fā)送給與特定任務(wù)或消息有關(guān)的系統(tǒng)或用戶。圖 7. 專用和預(yù)測分析復(fù)合模式圖 7 說明了這種模式的多個維度。作為可以分析的靜態(tài)數(shù)據(jù)的示例,某電信公司可能構(gòu)建客戶流失模型,包括分析呼叫數(shù)據(jù)記錄、社交數(shù)據(jù)和事務(wù)數(shù)據(jù)。 專業(yè)分析和預(yù)測分析組件使用此模式的情況是,使用多種處理技術(shù)執(zhí)行分析,因此,可以用新洞察豐富現(xiàn)有數(shù)據(jù),或創(chuàng)建可由各種用戶使用的輸出。在處理和使用的情況下,分析的結(jié)果可以被處理和使用。數(shù)據(jù)的使用目的可能只是存儲它,或處理和使用它。您可以使用 ETL 工具來預(yù)處理和凈化原始數(shù)據(jù),然后再進行任何類型的分析。所存儲的數(shù)據(jù)可用于初始勘探和即席發(fā)現(xiàn)。 存儲和探索復(fù)合組件如果業(yè)務(wù)問題需要存儲大量新數(shù)據(jù)和現(xiàn)有數(shù)據(jù),而且先前由于缺乏足夠的存儲和分析能力而一直未使用這些數(shù)據(jù),那么這種模式就非常有用??梢詫?fù)合模式映射到一個或多個原子模式,以解決某個給定的業(yè)務(wù)問題。每個復(fù)合模式都要考慮一個或多個維度。但是,復(fù)合模式 復(fù)合模式原子模式您需要考慮數(shù)據(jù)安全性、數(shù)據(jù)共享、數(shù)據(jù)治理,以及有關(guān)數(shù)據(jù)的其他政策,在考慮將云作為大數(shù)據(jù)存儲庫的時候尤其如此。探索大數(shù)據(jù)技術(shù)的企業(yè)可以使用云解決方案來提供大數(shù)據(jù)的存儲、維護和系統(tǒng)管理。從傳統(tǒng)的配置、維護、系統(tǒng)管理、編程和建模角度講,大數(shù)據(jù)技術(shù)有點不同。不要認為傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)適用于大數(shù)據(jù)。 傳統(tǒng)數(shù)據(jù)存儲組件對于存儲大數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)存儲并不是最佳選擇,但在企業(yè)執(zhí)行初步數(shù)據(jù)探索的情況下,企業(yè)可能會選擇使用現(xiàn)有的數(shù)據(jù)倉庫、RDBMS 系統(tǒng)和其他內(nèi)容存儲。Hadoop 中的 HBase 可媲美 BigTable??梢允褂?Google 的 BigTable 等技術(shù)來存儲結(jié)構(gòu)化數(shù)據(jù)。 分布式結(jié)構(gòu)化數(shù)據(jù)存儲組件結(jié)構(gòu)化數(shù)據(jù)包括從數(shù)據(jù)源到達的已經(jīng)是結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預(yù)處理,被轉(zhuǎn)換為 JSON 數(shù)據(jù)等格式的非結(jié)構(gòu)化數(shù)據(jù)。這樣的數(shù)據(jù)可以存儲在分布式文件系統(tǒng)(如 HDFS)和 NoSQL 文檔存儲(如 MongoDB)中。 分布式非結(jié)構(gòu)化數(shù)據(jù)存儲組件大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且可以通過不同的方式針對不同的上下文提取它所擁有的信息。但是,高效地檢索或查詢數(shù)據(jù)的能力會影響性能。數(shù)據(jù)可以按原樣存儲,根據(jù)鍵值對存儲,或者以預(yù)定義的格式存儲。使用 Sqoop 等工具可以更容易將事務(wù)數(shù)據(jù)推入存儲系統(tǒng),如 HBase 和 HDFS??梢允褂煤唵蔚奶崛?、轉(zhuǎn)換和加載流程將事務(wù)數(shù)據(jù)移動到存儲中。使用由多個數(shù)據(jù)庫廠商提供的標準連接器,事務(wù)和倉庫數(shù)據(jù)可以被推入存儲。對于大多數(shù)企業(yè)而言,事務(wù)、運營、主數(shù)據(jù)和倉庫信息都是所有分析的核心。對于分析來說,要求執(zhí)行預(yù)處理。機器生成的數(shù)據(jù)大多為二進制格式(音頻、視頻和傳感器讀數(shù))或文本格式。圖 5. 設(shè)備生成的數(shù)據(jù)訪問圖 5 說明了訪問來自傳感器的數(shù)據(jù)的過程。這些數(shù)據(jù)可以是照片、視頻、文本和其他二進制格式。雖然預(yù)處理通常被認為是微不足道的,但這項處理可能非常復(fù)雜和耗時。在可以分析數(shù)據(jù)之前,數(shù)據(jù)格式必須可用于實體解析或用于查詢所需數(shù)據(jù)。步驟 E3. 經(jīng)過預(yù)處理的結(jié)構(gòu)化數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。Web 媒體訪問預(yù)處理非結(jié)構(gòu)化數(shù)據(jù)步驟 E1. 不能使用在存儲時未經(jīng)過預(yù)處理的非結(jié)構(gòu)化數(shù)據(jù),除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的 Web 媒體訪問步驟 D1. 數(shù)據(jù)供應(yīng)商提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟 C2. 對數(shù)據(jù)進行預(yù)處理。步驟 B3. 數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。Web 媒體訪問為結(jié)構(gòu)化存儲預(yù)處理數(shù)據(jù)步驟 B1. 爬網(wǎng)程序讀取原始數(shù)據(jù)。圖 大數(shù)據(jù)訪問步驟非結(jié)構(gòu)化數(shù)據(jù)存儲中的 Web 媒體訪問步驟 A1. 爬網(wǎng)程序讀取原始數(shù)據(jù)。如果需要的話,在完成預(yù)處理后,可將所訪問的數(shù)據(jù)存儲在數(shù)據(jù)存儲中。從大數(shù)據(jù)的角度講,高級的類別是商業(yè)站點、社交媒體站點,以及具有特定和通用組件的站點。網(wǎng)站大約有 4050 個類別,每一個類別都需要使用不同的方式來訪問數(shù)據(jù)。在幾乎所有分析中,都會用到 Web 和社交媒體,但獲得這種數(shù)據(jù)需要不同的訪問機制。所以需要利用數(shù)據(jù)專家和業(yè)務(wù)用戶的專業(yè)知識來定義下列任務(wù)所需的分析:l 識別并發(fā)現(xiàn)計算和算法l 識別并發(fā)現(xiàn)數(shù)據(jù)源l 定義所需的可以由計算使用的格式l 對數(shù)據(jù)執(zhí)行并行計算 數(shù)據(jù)訪問組件在大數(shù)據(jù)解決方案中,有許多數(shù)據(jù)源,還有很多訪問數(shù)據(jù)的方式,本節(jié)將介紹最常見的幾種。 即席分析組件處理大數(shù)據(jù)的即席查詢所帶來的挑戰(zhàn)不同于對結(jié)構(gòu)化數(shù)據(jù)執(zhí)行即席查詢時所面臨的挑戰(zhàn),由于數(shù)據(jù)源和數(shù)據(jù)格式不是固定的,所以需要使用不同的機制來檢索和處理數(shù)據(jù)。此外,使用預(yù)測和統(tǒng)計算法的高級分析的準確性和正確性取決于用來訓練其模型的數(shù)據(jù)和算法的數(shù)量。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。要對任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)都必須是某種結(jié)構(gòu)化格式。然而,從非結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)(例如,圖像、音頻、視頻、二進制提要,甚至是文本)是一項復(fù)雜的任務(wù),需要具有機器學習能力并掌握自然語言處理等技術(shù)。這些工具訪問存儲在大數(shù)據(jù)存儲系統(tǒng)(比如 BigTable、HBase,等等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(例如,JSON 數(shù)據(jù))。數(shù)據(jù)專家可以指導(dǎo)您識別合適的技術(shù)、算法和數(shù)據(jù)集,以及在給定上下文中解決問題所需的數(shù)據(jù)源。高級分析的應(yīng)用包括生物統(tǒng)計數(shù)據(jù)分析(例如,DNA 分析)、空間分析、基于位置的分析、科學分析、研究,等等。發(fā)現(xiàn)這些關(guān)系需要創(chuàng)新的復(fù)雜算法和技術(shù)。 高級分析組件大數(shù)據(jù)提供了很多實現(xiàn)創(chuàng)意洞察的機會。 和 InfoSphere174。歷史分析包括分析給定時間段、季節(jié)組合和產(chǎn)品的歷史趨勢,并與最新的可用數(shù)據(jù)進行比較?;?Hadoop 的系統(tǒng)和其他等效的系統(tǒng)可以克服這些限制,因為它們具有豐富的存儲以及分布式大規(guī)模并行處理能力。 歷史數(shù)據(jù)分析組件傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預(yù)定義的數(shù)據(jù)時間段,這通常取決于數(shù)據(jù)保留策略。惟一的區(qū)別是龐大規(guī)模的數(shù)據(jù)、多樣性和速度。以下高級的大數(shù)據(jù)處理類別適用于大多數(shù)分析。具體情況取決于分析的復(fù)雜性,有可能不需要對數(shù)據(jù)進行實時處理。例如,推薦引擎可以提供有關(guān)世界各地的龐大客戶群的洞察,而且可以將通知發(fā)送給這樣的客戶。通知平臺必須能夠處理及時發(fā)送出去的預(yù)計數(shù)量的通知。您可能需要使用具有大規(guī)模并行處理能力的高級工具來解決數(shù)據(jù)的數(shù)量、多樣性、真實性和速度特征。通過拓寬數(shù)據(jù)范圍,使之包含現(xiàn)有存儲中的新事實表、維度和主數(shù)據(jù),并從社交媒體獲取客戶數(shù)據(jù),組織可以獲得更深入的客戶洞察。 數(shù)據(jù)轉(zhuǎn)儲組件在大數(shù)據(jù)的初步探索中,許多企業(yè)選擇使用現(xiàn)有的分析平臺來降低成本,并依賴于現(xiàn)有的技能。l 輸出可以是靜態(tài)的,并具有多種格式(視頻、音頻、圖形和文本)。即席處理中涉及的復(fù)雜性來自多種因素:多個數(shù)據(jù)源可用于相同的域。用戶在查找特定信息時,可能需要獲得根據(jù)問題的
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1