freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項目中etl設計與思考-wenkub

2023-07-14 19:01:51 本頁面
 

【正文】 ,為企業(yè)的決策提供分析的依據(jù)  ETL是BI項目最重要的一個環(huán)節(jié),通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。記錄日志的目的是隨時可以知道ETL運行情況,如果出錯了,可以知道哪里出錯。一類是執(zhí)行過程日志,這一部分日志是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數(shù)據(jù),流水賬形式。  (1)不一致數(shù)據(jù)轉(zhuǎn)換:這個過程是一個整合的過程,將不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個供應商在結算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個編碼?! ?shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題?! ?2)錯誤的數(shù)據(jù):這一類錯誤產(chǎn)生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類?! ≡隽扛碌膯栴}  對于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取。如果不能建立數(shù)據(jù)庫鏈接,可以有兩種方式完成,然后再將這些源系統(tǒng)文件導入到ODS中。  一、數(shù)據(jù)的抽取  這一部分需要在調(diào)研階段做大量的工作,首先要搞清楚數(shù)據(jù)是從幾個業(yè)務系統(tǒng)中來,各個業(yè)務系統(tǒng)的數(shù)據(jù)庫服務器運行什么DBMS,是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大,是否存在非結構化的數(shù)據(jù)等等,當收集完這些信息之后才可以進行數(shù)據(jù)抽取的設計。一種是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服務、Informatic等)實現(xiàn),一種是SQL方式實現(xiàn),另外一種是ETL工具和SQL相結合。數(shù)據(jù)的抽取是從各個不同的數(shù)據(jù)源抽取到ODS(OperationalDataStore,操作型數(shù)據(jù)存儲)中——這個過程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL是BI項目重要的一個環(huán)節(jié)。 通常情況下,在BI項目中ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL三個部分中,花費時間最長的是“T”(Transform,清洗、轉(zhuǎn)換)的部分,一般情況下這部分工作量是整個ETL的2/3。前兩種方法各有各的優(yōu)缺點,借助工具可以快速的建立起ETL工程,屏蔽了復雜的編碼任務,提高了速度,降低了難度,但是缺少靈活性?! τ谂c存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理方法  這一類數(shù)據(jù)源在設計上比較容易。另外一種方法是通過程序接口來完成。一般情況下,業(yè)務系統(tǒng)會記錄業(yè)務發(fā)生的時間,我們可以用來做增量的標志,每次抽取之前首先判斷ODS中記錄最大的時間,然后根據(jù)這個時間去業(yè)務系統(tǒng)取大于這個時間所有的記錄?! ?1)不完整的數(shù)據(jù):這一類數(shù)據(jù)主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不可見字符的問題,只能通過寫SQL語句的方式找出來,然后要求客戶在業(yè)務系統(tǒng)修正之后抽取。對于是否過濾,是否修正一般要求客戶確認,對于過濾掉的數(shù)據(jù),寫入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快地修正錯誤,同時也可以做為將來驗證數(shù)據(jù)的依據(jù)。  (2)數(shù)據(jù)粒度的轉(zhuǎn)換:業(yè)務系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)倉庫中數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù)。一類是錯誤日志,當某個模塊出錯的時候?qū)戝e誤日志,記錄每次出錯的時間、出錯的模塊以及出錯的信息等?! 【姘l(fā)送  如果ETL出錯了,不僅要形成ETL出錯日志,而且要向系統(tǒng)管理員發(fā)送警告。ETL也是一個長期的過程,只有不斷的發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為項目后期開發(fā)提供準確的數(shù)據(jù)。ETL三個部分中,花費時間最長的是T(清洗、轉(zhuǎn)換)的部分,一般情況下這部分工作量是整個ETL的2/3。SQL的方法優(yōu)點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高?! ∨cDW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源的處理方法?! τ谖募愋蛿?shù)據(jù)源(.txt,,xls),可以培訓業(yè)務人員利用數(shù)據(jù)庫工具將這些數(shù)據(jù)導入到指定的數(shù)據(jù)庫,然后從指定的數(shù)據(jù)庫抽取。利用業(yè)務系統(tǒng)的時間戳,一般情況下,業(yè)務系統(tǒng)沒有或者部分有時間戳。  數(shù)據(jù)清洗  數(shù)據(jù)清洗的任務是過濾那些不符合要求的數(shù)據(jù),將過濾的結果交給業(yè)務主管部門,確認是否過濾掉還是由業(yè)務單位修正之后再進行抽取。需要將這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時間內(nèi)補全。這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不面見字符的問題只能寫SQL的方式找出來,然后要求客戶在業(yè)務系統(tǒng)修正之后抽取。  數(shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題?! ?shù)據(jù)轉(zhuǎn)換  數(shù)據(jù)轉(zhuǎn)換的任務主要是進行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換和一些商務規(guī)則的計算。   B、數(shù)據(jù)粒度的轉(zhuǎn)換,業(yè)務系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù),一般情況下,會將業(yè)務系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進行聚合?! TL日志分為三類。  如果使用ETL工具,工具會自動產(chǎn)生一些日志,這一類日志也可以作為ETL日志的一部分。企業(yè)應用集成(EAI,Enterprise Application Integration)應運而生。因此,如何對數(shù)據(jù)進行有效的集成管理已成為增強企業(yè)商業(yè)競爭力的必然選擇。(2)數(shù)據(jù)轉(zhuǎn)換:將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務需求,轉(zhuǎn)換成目的數(shù)據(jù)源要求的形式,并對錯誤、不一致的數(shù)據(jù)進行清洗和加工?!   TL過程中的主要環(huán)節(jié)就是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載。從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有以下幾種方式。在ETL使用過程中。性能,不能對業(yè)務系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務。當進行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間與時間戳字段的值來決定抽取哪些數(shù)據(jù)。另外,無法捕獲對時間戳以前數(shù)據(jù)的delete和update操作,在數(shù)據(jù)準確性上受到了一定的限制。MD5方式的優(yōu)點是對源系統(tǒng)的傾入性較小(僅需要建立一個MD5臨時表),但缺點也是顯而易見的,與觸發(fā)器和時間戳方式中的主動通知不同,MD5方式是被動的進行全表數(shù)據(jù)的比對,性能較差。CDC 特性是在Oracle9i數(shù)據(jù)庫中引入的。CDC體系結構基于發(fā)布者/訂閱者模型。發(fā)布者首先需要識別捕獲變化數(shù)據(jù)所需的源表。一個訂閱者可能不會對發(fā)布者發(fā)布的所有數(shù)據(jù)都感興趣?! TL處理的數(shù)據(jù)源除了關系數(shù)據(jù)庫外,還可能是文件,例如txt文件、excel文件、xml文件等?! ?1)ETL引擎中的數(shù)據(jù)轉(zhuǎn)換和加工  ETL引擎中一般以組件化的方式實現(xiàn)數(shù)據(jù)轉(zhuǎn)換?! ?2)在數(shù)據(jù)庫中進行數(shù)據(jù)加工  關系數(shù)據(jù)庫本身已經(jīng)提供了強大的SQL、函數(shù)來支持數(shù)據(jù)的加工,如在SQL查詢語句中添加where條件進行過濾,查詢中重命名字段名與目的表進行映射,substr函數(shù),case條件判斷等等。 else REMARK end as CONTENT from TB_REMARK where ID 100。裝載數(shù)據(jù)的最佳方法取決于所執(zhí)行操作的類型以及需要裝入多少數(shù)據(jù)。但是,批量裝載操作易于使用,并且在裝入大量數(shù)據(jù)時效率較高。開源世界也有很多的ETL工具,功能各異,強弱不一?! DI的主要功能特點有:  ?! ?。通過使用DTS,可以從任何數(shù)據(jù)源中提取數(shù)據(jù)以及將數(shù)據(jù)加
點擊復制文檔內(nèi)容
職業(yè)教育相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1