freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考-在線瀏覽

2024-08-09 19:01本頁(yè)面
  

【正文】 一步的記錄,記錄每次運(yùn)行每一步驟的起始時(shí)間,影響了多少行數(shù)據(jù),流水賬形式。第三類日志是總體日志,只記錄ETL開始時(shí)間、結(jié)束時(shí)間是否成功信息。記錄日志的目的是隨時(shí)可以知道ETL運(yùn)行情況,如果出錯(cuò)了,可以知道哪里出錯(cuò)。發(fā)送警告的方式多種,一般常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。數(shù)據(jù)抽取、清洗與轉(zhuǎn)換 BI項(xiàng)目中ETL設(shè)計(jì)作者: 葉江,  出處:ITPub, 責(zé)任編輯: 葉江,  20070514 13:39  ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)  ETL是BI項(xiàng)目最重要的一個(gè)環(huán)節(jié),通常情況下ETL會(huì)花掉整個(gè)項(xiàng)目的1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗?! TL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。數(shù)據(jù)的抽取是從各個(gè)不同的數(shù)據(jù)源抽取到ODS中(這個(gè)過程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運(yùn)行效率。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫入DW中去。前兩種方法各有優(yōu)缺點(diǎn),借助工具可以快速的建立起ETL工程,屏蔽復(fù)雜的編碼任務(wù),提高速度,降低難度,但是欠缺靈活性。第三種是綜合了前面二種的優(yōu)點(diǎn),極大的提高ETL的開發(fā)速度和效率。  與存放DW的數(shù)據(jù)庫(kù)系統(tǒng)相同的數(shù)據(jù)源處理方法  這一類數(shù)源在設(shè)計(jì)比較容易,一般情況下,DBMS(包括SQLServer,Oracle)都會(huì)提供數(shù)據(jù)庫(kù)鏈接功能,在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫Select 語(yǔ)句直接訪問?! ∵@一類數(shù)據(jù)源一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫(kù)鏈接,如SQL Server和Oracle之間。另外一種方法通過程序接口來完成?;蛘呖梢越柚ぞ邔?shí)現(xiàn),如SQL SERVER 2005 的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標(biāo)等組件導(dǎo)入ODS中去。一般情況,業(yè)務(wù)系統(tǒng)會(huì)記錄業(yè)務(wù)發(fā)生的時(shí)間,可以用作增量的標(biāo)志,每次抽取之前首先判斷ODS中記錄最大的時(shí)間,然后根據(jù)這個(gè)時(shí)間去業(yè)務(wù)系統(tǒng)取大于這個(gè)時(shí)間的所有記錄?! ?shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩部分,通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉,再?gòu)腛DS到DW的過程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合。 1 2 :12下一頁(yè) 不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類。   A、不完整的數(shù)據(jù),其特征是是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱,分公司的名稱,客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。補(bǔ)全后才寫入數(shù)據(jù)倉(cāng)庫(kù)。   B、錯(cuò)誤的數(shù)據(jù),產(chǎn)生原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車、日期格式不正確、日期越界等。日期格式不正確的或者是日期越界的這一類錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來,交給業(yè)務(wù)主管部門要求限期修正,修正之后再抽取。   C、重復(fù)的數(shù)據(jù),特別是維表中比較常見,將重復(fù)的數(shù)據(jù)的記錄所有字段導(dǎo)出來,讓客戶確認(rèn)并整理。對(duì)于是否過濾、是否修正一般要求客戶確認(rèn)。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉了,對(duì)于每個(gè)過濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶確認(rèn)才行。   ETL日志與警告發(fā)送  ETL日志,記錄日志的目的是隨時(shí)可以知道ETL運(yùn)行情況,如果出錯(cuò)了,出錯(cuò)在那里。第一類是執(zhí)行過程日志,是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運(yùn)行每一步驟的起始時(shí)間,影響了多少行數(shù)據(jù),流水賬形式。第三類日志是總體日志,只記錄ETL開始時(shí)間,結(jié)束時(shí)間是否成功信息。  警告發(fā)送  ETL出錯(cuò)了,不僅要寫ETL出錯(cuò)日志而且要向系統(tǒng)管理員發(fā)送警告,發(fā)送警告的方式有多種,常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。但是隨著信息系統(tǒng)的增加,各自孤立工作的信息系統(tǒng)將會(huì)造成大量的冗余數(shù)據(jù)和業(yè)務(wù)人員的重復(fù)勞動(dòng)。EAI通過建立底層數(shù)據(jù)交換平臺(tái)來聯(lián)系橫貫整個(gè)企業(yè)的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在企業(yè)內(nèi)部的ERP、CRM、SCM、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),以及其它重要的內(nèi)部系統(tǒng)之間無縫地共享和交換數(shù)據(jù)的需要。   但是,在實(shí)施數(shù)據(jù)集成的過程中,由于不同用戶提供的數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時(shí)甚至?xí)龅綌?shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,嚴(yán)重阻礙了數(shù)據(jù)在各部門和各應(yīng)用系統(tǒng)中的流動(dòng)與共享。ETL是實(shí)現(xiàn)數(shù)據(jù)集成的主要技術(shù)。(1)數(shù)據(jù)抽?。簭脑磾?shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)。(3)數(shù)據(jù)加載:將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。現(xiàn)在也越來越多地將ETL應(yīng)用于一般信息系統(tǒng)中數(shù)據(jù)的遷移、交換和同步。為了實(shí)現(xiàn)這些功能,各個(gè)ETL工具一般會(huì)進(jìn)行一些功能上的擴(kuò)充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計(jì)信息等。實(shí)際應(yīng)用中,數(shù)據(jù)源較多采用的是關(guān)系數(shù)據(jù)庫(kù)?! ?1)全量抽取  全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫(kù)中抽取出來,并轉(zhuǎn)換成自己的ETL工具可以識(shí)別的格式?! ?2)增量抽取  增量抽取只抽取自上次抽取以來數(shù)據(jù)庫(kù)中要抽取的表中新增或修改的數(shù)據(jù)。增量抽取較全量抽取應(yīng)用更廣。對(duì)捕獲方法一般有兩點(diǎn)要求:準(zhǔn)確性,能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準(zhǔn)確地捕獲到。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有: :在要抽取的表上建立需要的觸發(fā)器,一般要建立插入、修改、刪除三個(gè)觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個(gè)臨時(shí)表,抽取線程從臨時(shí)表中抽取數(shù)據(jù),臨時(shí)表中抽取過的數(shù)據(jù)被標(biāo)記或刪除。 ?。核且环N基于快照比較的變化數(shù)據(jù)捕獲方式,在源表上增加一個(gè)時(shí)間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時(shí)候,同時(shí)修改時(shí)間戳字段的值。有的數(shù)據(jù)庫(kù)的時(shí)間戳支持自動(dòng)更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時(shí),自動(dòng)更新時(shí)間戳字段的值。同觸發(fā)器方式一樣,時(shí)間戳方式的性能也比較好,數(shù)據(jù)抽取相對(duì)清楚簡(jiǎn)單,但對(duì)業(yè)務(wù)系統(tǒng)也有很大的傾入性(加入額外的時(shí)間戳字段),特別是對(duì)不支持時(shí)間戳的自動(dòng)更新的數(shù)據(jù)庫(kù),還要求業(yè)務(wù)系統(tǒng)進(jìn)行額外的更新時(shí)間戳操作?! 。旱湫偷娜肀葘?duì)的方式是采用MD5校驗(yàn)碼。每次進(jìn)行數(shù)據(jù)抽取時(shí),對(duì)源表和MD5臨時(shí)表進(jìn)行MD5校驗(yàn)碼的比對(duì),從而決定源表中的數(shù)據(jù)是新增、修改還是刪除,同時(shí)更新MD5校驗(yàn)碼。當(dāng)表中沒有主鍵或唯一列且含有重復(fù)記錄時(shí),MD5方式的準(zhǔn)確性較差。Oracle的改變數(shù)據(jù)捕獲(CDC,Changed Data Capture)技術(shù)是這方面的代表。CDC能夠幫助你識(shí)別從上次抽取之后發(fā)生變化的數(shù)據(jù)。這樣就可以捕獲發(fā)生變化的數(shù)據(jù),然后利用數(shù)據(jù)庫(kù)視圖以一種可控的方式提供給目標(biāo)系統(tǒng)。發(fā)布者捕捉變化數(shù)據(jù)并提供給訂閱者。通常,CDC系統(tǒng)擁有一個(gè)發(fā)布者和多個(gè)訂閱者。然后,它捕捉變化的數(shù)據(jù)并將其保存在特別創(chuàng)建的變化表中。訂閱者需要清楚自己感興趣的是哪些變化數(shù)據(jù)。訂閱者需要?jiǎng)?chuàng)建一個(gè)訂閱者視圖來訪問經(jīng)發(fā)布者授權(quán)可以訪問的變化數(shù)據(jù)。異步模式則是基于Oracle的流復(fù)制技術(shù)。對(duì)文件數(shù)據(jù)的抽取一般是進(jìn)行全量抽取,一次抽取前可保存文件的時(shí)間戳或計(jì)算文件的MD5校驗(yàn)碼,下次抽取時(shí)進(jìn)行比對(duì),如果相同則可忽略本次抽取?! ?shù)據(jù)的轉(zhuǎn)換和加工可以在ETL引擎中進(jìn)行,也可以在數(shù)據(jù)抽取過程中利用關(guān)系數(shù)據(jù)庫(kù)的特性同時(shí)進(jìn)行。常用的數(shù)據(jù)轉(zhuǎn)換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等?! ∮行〦TL工具還提供了腳本支
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1