freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項目中etl設計與思考(完整版)

2025-08-04 19:01上一頁面

下一頁面
  

【正文】 率準確地捕獲到。實際應用中,數(shù)據(jù)源較多采用的是關系數(shù)據(jù)庫。(1)數(shù)據(jù)抽取:從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)。但是隨著信息系統(tǒng)的增加,各自孤立工作的信息系統(tǒng)將會造成大量的冗余數(shù)據(jù)和業(yè)務人員的重復勞動。  ETL日志與警告發(fā)送  ETL日志,記錄日志的目的是隨時可以知道ETL運行情況,如果出錯了,出錯在那里。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉了,對于每個過濾規(guī)則認真進行驗證,并要用戶確認才行。   B、錯誤的數(shù)據(jù),產(chǎn)生原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車、日期格式不正確、日期越界等。 1 2 :12下一頁 另外一種方法通過程序接口來完成。前兩種方法各有優(yōu)缺點,借助工具可以快速的建立起ETL工程,屏蔽復雜的編碼任務,提高速度,降低難度,但是欠缺靈活性。數(shù)據(jù)抽取、清洗與轉換 BI項目中ETL設計作者: 葉江,  出處:ITPub, 責任編輯: 葉江,  20070514 13:39  ETL是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)  ETL是BI項目最重要的一個環(huán)節(jié),通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。一類是執(zhí)行過程日志,這一部分日志是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數(shù)據(jù),流水賬形式?! ?1)不一致數(shù)據(jù)轉換:這個過程是一個整合的過程,將不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個供應商在結算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統(tǒng)一轉換成一個編碼。  (2)錯誤的數(shù)據(jù):這一類錯誤產(chǎn)生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。  增量更新的問題  對于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取。  一、數(shù)據(jù)的抽取  這一部分需要在調(diào)研階段做大量的工作,首先要搞清楚數(shù)據(jù)是從幾個業(yè)務系統(tǒng)中來,各個業(yè)務系統(tǒng)的數(shù)據(jù)庫服務器運行什么DBMS,是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大,是否存在非結構化的數(shù)據(jù)等等,當收集完這些信息之后才可以進行數(shù)據(jù)抽取的設計。數(shù)據(jù)的抽取是從各個不同的數(shù)據(jù)源抽取到ODS(OperationalDataStore,操作型數(shù)據(jù)存儲)中——這個過程也可以做一些數(shù)據(jù)的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。 通常情況下,在BI項目中ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。前兩種方法各有各的優(yōu)缺點,借助工具可以快速的建立起ETL工程,屏蔽了復雜的編碼任務,提高了速度,降低了難度,但是缺少靈活性。另外一種方法是通過程序接口來完成?! ?1)不完整的數(shù)據(jù):這一類數(shù)據(jù)主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。對于是否過濾,是否修正一般要求客戶確認,對于過濾掉的數(shù)據(jù),寫入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數(shù)據(jù)的依據(jù)?! 【姘l(fā)送  如果ETL出錯了,不僅要形成ETL出錯日志,而且要向系統(tǒng)管理員發(fā)送警告。ETL三個部分中,花費時間最長的是T(清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3?! ∨cDW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源的處理方法。利用業(yè)務系統(tǒng)的時間戳,一般情況下,業(yè)務系統(tǒng)沒有或者部分有時間戳。需要將這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時間內(nèi)補全?! ?shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題。   B、數(shù)據(jù)粒度的轉換,業(yè)務系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù),一般情況下,會將業(yè)務系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進行聚合?! ∪绻褂肊TL工具,工具會自動產(chǎn)生一些日志,這一類日志也可以作為ETL日志的一部分。因此,如何對數(shù)據(jù)進行有效的集成管理已成為增強企業(yè)商業(yè)競爭力的必然選擇。    ETL過程中的主要環(huán)節(jié)就是數(shù)據(jù)抽取、數(shù)據(jù)轉換和加工、數(shù)據(jù)裝載。在ETL使用過程中。當進行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間與時間戳字段的值來決定抽取哪些數(shù)據(jù)。MD5方式的優(yōu)點是對源系統(tǒng)的傾入性較小(僅需要建立一個MD5臨時表),但缺點也是顯而易見的,與觸發(fā)器和時間戳方式中的主動通知不同,MD5方式是被動的進行全表數(shù)據(jù)的比對,性能較差。CDC體系結構基于發(fā)布者/訂閱者模型。一個訂閱者可能不會對發(fā)布者發(fā)布的所有數(shù)據(jù)都感興趣?! ?1)ETL引擎中的數(shù)據(jù)轉換和加工  ETL引擎中一般以組件化的方式實現(xiàn)數(shù)據(jù)轉換。 else REMARK end as CONTENT from TB_REMARK where ID 100。但是,批量裝載操作易于使用,并且在裝入大量數(shù)據(jù)時效率較高?! DI的主要功能特點有:  。通過使用DTS,可以從任何數(shù)據(jù)源中提取數(shù)據(jù)以及將數(shù)據(jù)加載到任何數(shù)據(jù)源中。數(shù)據(jù)流也稱為流水線,主要解決數(shù)據(jù)轉換的問題?! ?4)數(shù)據(jù)轉換和加工的功能強不強?! 腛LAP系統(tǒng)的分析需求和ETL的處理效率兩方面來考慮:星型結構聚合快,分析效率高。分析角度(維度)是星星的各個角?! ×慷仁且y(tǒng)計的指標,必須事先選擇恰當,基于不同的量度可以進行復雜關鍵性能指標(KPI)等的設計和計算?! ?四)、確定維度  維度是指分析的各個角度。(圖五:)   另外,值得一提的是,我們在建立維度表時要充分使用代理鍵。這種情況下,我們使用UPDATE方法來修改維度表中的數(shù)據(jù)。  緩慢變化維度第三種類型:  新增數(shù)據(jù)維度成員改變了屬性。  事實數(shù)據(jù)表是數(shù)據(jù)倉庫的核心,需要精心維護,在JOIN后將得到事實數(shù)據(jù)表,一般記錄條數(shù)都比較大,我們需要為其設置復合主鍵和索引,以實現(xiàn)數(shù)據(jù)的完整性和基于數(shù)據(jù)倉庫的查詢性能優(yōu)化。(圖七:)  那么,在這一轉換過程中,我們就完成了對數(shù)據(jù)格式的更正、對數(shù)據(jù)字段的合并、以及新增指標的計算三項操作。  (二)、時間戳的運用  時間維度對于某一事實主題來說十分重要,因為不同的時間有不同的統(tǒng)計數(shù)據(jù)信息,那么按照時間記錄的信息將發(fā)揮很重要的作用。比如希望按天進行查看,那么我們最好按天進行抽取,如果數(shù)據(jù)量不大,可以按照月或半年對數(shù)據(jù)進行更新?! TL是OLTP系統(tǒng)和OLAP系統(tǒng)之間的橋梁,是數(shù)據(jù)從源系統(tǒng)流入數(shù)據(jù)倉庫的通道。19 / 19。ORACLE的ETL工具是什么?以前一直以為是BIEE.....今天才發(fā)現(xiàn)BIEE是類似COGNOS的報表工具......只看該作者   調(diào)度是數(shù)據(jù)倉庫的關鍵環(huán)節(jié),要考慮縝密。在記錄數(shù)據(jù)庫和數(shù)據(jù)倉庫的操作時,我們也將使用時間戳標識信息?! 『喍灾?,通過ETL,我們可以基于源系統(tǒng)中的數(shù)據(jù)來生成數(shù)據(jù)倉庫?! ∪?、什么是ETL  在數(shù)據(jù)倉庫的構建中,ETL貫穿于項目始終,它是整個數(shù)據(jù)倉庫的生命線,包括了數(shù)據(jù)清洗、整合、轉換、加載等各個過程。那么,我們將使用存儲過程或程序生成新的維度屬性,在后續(xù)的數(shù)據(jù)中將基于新的屬性進行查看?! 【徛兓S度第二種類型:  歷史數(shù)據(jù)保留,新增數(shù)據(jù)也要保
點擊復制文檔內(nèi)容
職業(yè)教育相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1