freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)架構(gòu)和模式-文庫吧資料

2025-04-15 11:35本頁面
  

【正文】 以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。要對任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)都必須是某種結(jié)構(gòu)化格式。然而,從非結(jié)構(gòu)化數(shù)據(jù)提取數(shù)據(jù)(例如,圖像、音頻、視頻、二進(jìn)制提要,甚至是文本)是一項復(fù)雜的任務(wù),需要具有機(jī)器學(xué)習(xí)能力并掌握自然語言處理等技術(shù)。這些工具訪問存儲在大數(shù)據(jù)存儲系統(tǒng)(比如 BigTable、HBase,等等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(例如,JSON 數(shù)據(jù))。數(shù)據(jù)科學(xué)家可以指導(dǎo)您識別合適的技術(shù)、算法和數(shù)據(jù)集,以及在給定上下文中解決問題所需的數(shù)據(jù)源。高級分析的應(yīng)用包括生物統(tǒng)計數(shù)據(jù)分析(例如,DNA 分析)、空間分析、基于位置的分析、科學(xué)分析、研究,等等。發(fā)現(xiàn)這些關(guān)系需要創(chuàng)新的復(fù)雜算法和技術(shù)。高級分析模式大數(shù)據(jù)提供了很多實現(xiàn)創(chuàng)意洞察的機(jī)會。 和 InfoSphere174。歷史分析包括分析給定時間段、季節(jié)組合和產(chǎn)品的歷史趨勢,并與最新的可用數(shù)據(jù)進(jìn)行比較?;?Hadoop 的系統(tǒng)和其他等效的系統(tǒng)可以克服這些限制,因為它們具有豐富的存儲以及分布式大規(guī)模并行處理能力。歷史數(shù)據(jù)分析模式傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預(yù)定義的數(shù)據(jù)時間段,這通常取決于數(shù)據(jù)保留策略。惟一的區(qū)別是龐大規(guī)模的數(shù)據(jù)、多樣性和速度。以下高級的大數(shù)據(jù)處理類別適用于大多數(shù)分析。具體情況取決于分析的復(fù)雜性,有可能不需要對數(shù)據(jù)進(jìn)行實時處理。啟動一個自動響應(yīng)模式從大數(shù)據(jù)獲得的業(yè)務(wù)洞察,可用于觸發(fā)或啟動其他業(yè)務(wù)流程或事務(wù)。這些通知與大量郵件或群發(fā)短信不同,因為內(nèi)容一般是特定于使用者的。通知模式大數(shù)據(jù)洞察使人類、企業(yè)和機(jī)器可以通過使用事件通知而立即采取行動。但要牢記的是,新的數(shù)據(jù)集通常比較大,而現(xiàn)有的提取、轉(zhuǎn)換和加載工具可能不足以處理它。加強(qiáng)現(xiàn)有的數(shù)據(jù)存儲有助于拓寬可用于現(xiàn)有分析的數(shù)據(jù)的范圍,包括駐留在組織邊界內(nèi)外的數(shù)據(jù),比如社交媒體數(shù)據(jù),它可以豐富主數(shù)據(jù)。輸出可以是動態(tài)和交互式的。單一的查詢可以有多個結(jié)果。即席分析可以幫助數(shù)據(jù)科學(xué)家和關(guān)鍵業(yè)務(wù)用戶了解業(yè)務(wù)數(shù)據(jù)的行為。即席發(fā)現(xiàn)模式創(chuàng)建滿足所有業(yè)務(wù)需求的標(biāo)準(zhǔn)報告往往是不可行的,因為企業(yè)的業(yè)務(wù)數(shù)據(jù)查詢會有不同的需求。必須在適當(dāng)?shù)纳舷挛闹酗@示洞察。大數(shù)據(jù)可視化的典型需求(包括新出現(xiàn)的需求)如下所示:執(zhí)行流數(shù)據(jù)的實時分析和顯示基于上下文,以交互方式挖掘數(shù)據(jù)執(zhí)行高級搜索,并獲得建議并行可視化信息獲得先進(jìn)的硬件,支持未來的可視化需求正在進(jìn)行研究,以確定人類和機(jī)器如何使用大數(shù)據(jù)洞察??梢暬J娇梢暬瘮?shù)據(jù)的傳統(tǒng)方式以圖表、儀表板和摘要報告為基礎(chǔ)。圖 2. 用于數(shù)據(jù)使用、處理、數(shù)據(jù)訪問和存儲的原子模式的示例該圖顯示了每種原子模式下的樣例模式的列表數(shù)據(jù)使用模式這種類型的模式處理使用數(shù)據(jù)分析結(jié)果的各種方式。這些原子模式?jīng)]有進(jìn)行分層或排序。每種模式都用于滿足特定的需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲。它們還有助于識別所需的組件。本系列的最后一篇文章將介紹解決方案模式。利用原子模式和復(fù)合模式可以幫助進(jìn)一步完善大數(shù)據(jù)解決方案的每個組件的角色和責(zé)任。通過將所提出的解決方案映射到此處提供的模式,讓用戶了解需要如何設(shè)計組件,以及從功能角度考慮,應(yīng)該將它們放置在何處。這些層定義了各種組件,并對它們進(jìn)行分類,這些組件必須處理某個給定業(yè)務(wù)用例的功能性和非功能性需求。下一篇文章將介紹用于此用途的原子模式。但是,對于想要從大數(shù)據(jù)獲取洞察的業(yè)務(wù)用戶,考慮大數(shù)據(jù)需求和范圍通常會有所幫助。系統(tǒng)管理系統(tǒng)管理對大數(shù)據(jù)至關(guān)重要,因為它涉及到跨企業(yè)集群和邊界的許多系統(tǒng)。如果能夠存儲數(shù)據(jù),數(shù)據(jù)可存儲多長時間?可存儲何種類型的數(shù)據(jù)?F、數(shù)據(jù)提供程序約束(政策、技術(shù)和地區(qū))G、社交媒體使用條款數(shù)據(jù)頻率提供新鮮數(shù)據(jù)的頻率是多少?它是按需、連續(xù)還是離線的?抓取的數(shù)據(jù)大小此屬性有助于定義可抓取的數(shù)據(jù)以及每次抓取后可使用的數(shù)據(jù)大小。必須制定有關(guān)數(shù)據(jù)屏蔽和這類數(shù)據(jù)的存儲的決策。從外部機(jī)構(gòu)和提供程序獲取的數(shù)據(jù)可能包含敏感數(shù)據(jù)(比如 Facebook 用戶的聯(lián)系信息或產(chǎn)品定價信息)。設(shè)置數(shù)據(jù)加密策略。定義數(shù)據(jù)歸檔和清除策略。請記住,設(shè)置處理非結(jié)構(gòu)化數(shù)據(jù)時的重要一步。除了正常的數(shù)據(jù)治理考慮因素之外,大數(shù)據(jù)治理還包含其他因素:管理各種格式的大量數(shù)據(jù)。大數(shù)據(jù)治理有助于處理企業(yè)內(nèi)或從外部來源傳入的數(shù)據(jù)的復(fù)雜性、量和種類。大多數(shù)大數(shù)據(jù)存儲都提供了服務(wù)和 API 來存儲和檢索該信息。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。集成將具有不同特征(例如協(xié)議和連接性)的數(shù)據(jù)源的信息,需要高質(zhì)量的連接器和適配器。 服務(wù)質(zhì)量信息集成大數(shù)據(jù)應(yīng)用程序從各種數(shù)據(jù)起源、提供程序和數(shù)據(jù)源獲取數(shù)據(jù),并存儲在 HDFS、NoSQL 和 MongoDB 等數(shù)據(jù)存儲系統(tǒng)中。 大數(shù)據(jù)治理垂直層影響邏輯層(大數(shù)據(jù)來源、數(shù)據(jù)改動和存儲、分析和使用層)的所有組件的各方面都包含在垂直層中:數(shù)據(jù)可能具有不同的內(nèi)容和格式,所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)可組合來進(jìn)行可視化并提供給用戶。該引擎實時處理可用信息并動態(tài)地響應(yīng)每個用戶,響應(yīng)基于用戶的實時活動、存儲在 CRM 系統(tǒng)中的注冊客戶信息,以及非注冊客戶的社交概況。用戶可基于從分析層中得到的洞察,創(chuàng)建臨時報告、計劃的報告或自助查詢和分析。實時數(shù)據(jù)可從各種來源以儀表板的形式向業(yè)務(wù)用戶公開,以便監(jiān)視系統(tǒng)的健康或度量營銷活動的有效性??梢詫⒕姘l(fā)送給感興趣的使用者和設(shè)備,比如智能電話和平板電腦。業(yè)務(wù)流程管理流程— 來自分析層的洞察可供業(yè)務(wù)流程執(zhí)行語言 (BPEL) 流程、API 或其他業(yè)務(wù)流程使用,通過自動化上游和下游 IT 應(yīng)用程序、人員和流程的功能,進(jìn)一步獲取業(yè)務(wù)價值??梢允褂酶鞣N類型的適配器和 API 來連接到數(shù)據(jù)源。為了提高操作有效性,可以從數(shù)據(jù)中生成實時業(yè)務(wù)警告,而且可以監(jiān)視操作性的關(guān)鍵績效指標(biāo):交易攔截器— 此組件可實時攔截高容量交易,將它們轉(zhuǎn)換為一種容易被分析層理解的實時格式,以便在傳入數(shù)據(jù)上執(zhí)行實時分析。使用層還為內(nèi)部用戶提供了理解、找到和導(dǎo)航企業(yè)內(nèi)外的鏈鎖信息的能力。分析的輸出也可由推薦引擎使用,該引擎可將客戶與他們喜歡的產(chǎn)品相匹配。此外,可以根據(jù)在數(shù)據(jù)改動層完成的分析來觸發(fā)業(yè)務(wù)流程。該洞察可用于檢測欺詐,實時攔截交易,并將它們與使用已存儲在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖進(jìn)行關(guān)聯(lián)。此洞察可用于針對客戶提供產(chǎn)品營銷信息。使用層這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。模型管理— 負(fù)責(zé)維護(hù)各種統(tǒng)計模型,驗證和檢驗這些模型,通過持續(xù)培訓(xùn)模型來提高準(zhǔn)確性。分析引擎— 使用其他組件(具體來講,包括實體鑒別、模型管理和分析算法)來處理和執(zhí)行分析。數(shù)據(jù)整理組件應(yīng)為這個實體識別組件提供補(bǔ)充,將數(shù)據(jù)修改為需要的格式。分析層這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:分析層實體識別— 負(fù)責(zé)識別和填充上下文實體。分布式數(shù)據(jù)存儲— 負(fù)責(zé)存儲來自數(shù)據(jù)源的數(shù)據(jù)。分析引擎將會確定所需的特定的數(shù)據(jù)格式。數(shù)據(jù)整理— 負(fù)責(zé)將數(shù)據(jù)修改為需要的格式,以實現(xiàn)分析用途。此組件必須足夠智能,能夠選擇是否和在何處存儲傳入的數(shù)據(jù)。 力、密度級別等 壓力 光學(xué)、光、成像、見光度 汽車、運(yùn)輸?shù)?位置、角度、位移、距離、速度、加速度 電離輻射、亞原子粒子等 電氣:電流、能源潛力等 在線信息傳感器數(shù)據(jù): 電子郵件 礦井詳細(xì)信息人類生成的內(nèi)容: 地區(qū)詳細(xì)信息其他數(shù)據(jù)源— 有許多數(shù)據(jù)來自自動化的來源:地理信息:聚合的數(shù)據(jù)提供程序— 這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率通過特定的過濾器公開它。這些設(shè)備可用于執(zhí)行各種類型的分析。智慧設(shè)備— 智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動和存儲層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。 電子表格 Microsoft174。這些應(yīng)用程序可使用自定義的協(xié)議和機(jī)制來公開數(shù)據(jù)。 企業(yè)資源規(guī)劃 結(jié)算操作這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:圖 1. 邏輯和垂直層的組件該圖顯示了邏輯和垂直層的組件大數(shù)據(jù)來源此層包含所有必要的數(shù)據(jù)源,提供了解決業(yè)務(wù)問題所需的洞察。有時,看看類似市場中的競爭對手是如何做的會有所幫助。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)。 理解執(zhí)行分析需要哪些算法和工具。 找到所需的實體 生成想要的分析設(shè)計分析層需要認(rèn)真地進(jìn)行事先籌劃和規(guī)劃。分析層:分析層讀取數(shù)據(jù)改動和存儲層整理 (digest) 的數(shù)據(jù)。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲在 Hadoop Distributed File System (HDFS) 存儲或關(guān)系數(shù)據(jù)庫管理系統(tǒng) (RDBMS) 倉庫中,以供進(jìn)一步處理。識別您具有有限訪問權(quán)的數(shù)據(jù),因為對數(shù)據(jù)的訪問會影響可用于分析的數(shù)據(jù)范圍。數(shù)據(jù)可能來自某個主要來源,比如天氣條件,也有可能來自一個輔助來源,比如媒體贊助的天氣頻道。速度和數(shù)據(jù)量— 數(shù)據(jù)到達(dá)的速度和傳送它的速率因數(shù)據(jù)源不同而不同。要求組織中的數(shù)據(jù)科學(xué)家闡明執(zhí)行您需要的分析類型所需的數(shù)據(jù)。這些層只是邏輯層;這并不意味著支持每層的功能在獨(dú)立的機(jī)器或獨(dú)立的進(jìn)程上運(yùn)行。大數(shù)據(jù)解決方案的邏輯層邏輯層提供了一種組織您的組件的方式。來源: DeveloperWorksEnd. 大數(shù)據(jù)架構(gòu)和模式(三)理解大數(shù)據(jù)解決方案的架構(gòu)層問題導(dǎo)讀???概述這個 “大數(shù)據(jù)架構(gòu)和模式” 系列的 第 2 部分 介紹了一種評估大數(shù)據(jù)解決方案可行性的基于維度的方法。作者: Divakar等競爭對手在做什么?哪些市場力量在發(fā)揮作用?客戶想要什么?使用本文中的問題,幫助確定大數(shù)據(jù)解決方案是否適合于您的業(yè)務(wù)情形和您需要的業(yè)務(wù)洞察。是否所有大數(shù)據(jù)都存在大數(shù)據(jù)問題?不是所有大數(shù)據(jù)情形都需要大數(shù)據(jù)解決方案。對于更復(fù)雜的數(shù)據(jù),需要評估與實現(xiàn)大數(shù)據(jù)解決方案關(guān)聯(lián)的任何風(fēng)險。 不清楚數(shù)據(jù)是否完整。 數(shù)據(jù)包含模糊不清的信息。 數(shù)據(jù)的真實性或準(zhǔn)確性未知。 在快速更改,必須立即響應(yīng) 領(lǐng)域?qū)嶓w在不同的上下文中具有不同的含義。 以前沒有為了獲得洞察而被挖掘的數(shù)據(jù)來源不斷地在產(chǎn)生新的數(shù)據(jù)類型。 電子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒體、Web 和軟件日志、電子郵件、來自相機(jī)的照片和視頻、信息感知的移動設(shè)備、空中感知技術(shù)、基因組和醫(yī)療記錄。 用戶和機(jī)器能夠以任何格式生成數(shù)據(jù),例如:Microsoft174。 數(shù)據(jù)格式各不相同,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)內(nèi)容和結(jié)構(gòu)無法預(yù)期或預(yù)測。 數(shù)據(jù)處理目前可使用可用硬件上的大規(guī)模并行處理能力。 這一數(shù)據(jù)量給使用傳統(tǒng)方法(比如關(guān)系數(shù)據(jù)庫引擎)存儲、搜索、共享、分析和可視化數(shù)據(jù)帶來的技術(shù)和經(jīng)濟(jì)挑戰(zhàn)。 數(shù)據(jù)大小達(dá)到 PB 和 EB 級,而且在不久的將來,它們可能增長到 ZB 級別。數(shù)據(jù)復(fù)雜性是否在增長?查找數(shù)據(jù)復(fù)雜性增長的線索,尤其是在數(shù)據(jù)量、種類、速度和真實性方面。這些數(shù)據(jù)包括日志文件、錯誤文件和來自應(yīng)用程序的操作數(shù)據(jù)。 您是否獲得利益相關(guān)者和其他愿意投資該項目的業(yè)務(wù)贊助者的支持?擁有建模、統(tǒng)計、分析和數(shù)學(xué)方面的專業(yè)經(jīng)驗的數(shù)據(jù)科學(xué)家,是任何大數(shù)據(jù)舉措成功的關(guān)鍵。人員:是否已有恰當(dāng)?shù)募寄懿⒄{(diào)整了合適的人員?需要特定的技能來理解和分析需求,并維護(hù)大數(shù)據(jù)解決方案。如果該范圍太小,業(yè)務(wù)收益將無法實現(xiàn),如果范圍太大,獲得資金和在恰當(dāng)?shù)钠谙迌?nèi)完成項目就會很有挑戰(zhàn)性。明確地定義業(yè)務(wù)問題的范圍,并以可度量的方式設(shè)置預(yù)期的業(yè)務(wù)收入提升,這樣做會很有幫助。除了 IT 治理問題之外,組織的業(yè)務(wù)流程可能也需要重新定義和修改,讓組織能夠獲取、存儲和訪問外部數(shù)據(jù)。一些行業(yè)制度會約束組織獲取和使用的數(shù)據(jù)??紤]大數(shù)據(jù)工具和技術(shù)需要的基礎(chǔ)架構(gòu)、硬件、軟件和維護(hù)的成本。例如,一個普通的 Hadoop 平臺可能無法滿足您的需求,您可能必須購買專業(yè)的工具。如果業(yè)務(wù)問題可以使用現(xiàn)有數(shù)據(jù)解決,那么有可能不需要使用來自外部來源的數(shù)據(jù)。從新的來源獲取數(shù)據(jù)具有很高的成本。它還依賴于將從新數(shù)據(jù)來源收集的數(shù)據(jù)量、業(yè)務(wù)用例的復(fù)雜性、處理的分析復(fù)雜性,以及獲取數(shù)據(jù)和擁有恰當(dāng)技能集的人員的成本。 現(xiàn)有 IT 應(yīng)用程序的異構(gòu)性 現(xiàn)有平臺的存儲能力 現(xiàn)有系統(tǒng)的可伸縮性
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1