freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考-預(yù)覽頁(yè)

 

【正文】 日期格式不正確的或者是日期越界的這一類錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來,交給業(yè)務(wù)主管部門要求限期修正,修正之后再抽取。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉,對(duì)于每個(gè)過濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶確認(rèn)。一般情況下,會(huì)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。第三類日志是總體日志,只記錄ETL開始時(shí)間、結(jié)束時(shí)間是否成功信息。發(fā)送警告的方式多種,一般常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤?! TL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫入DW中去。第三種是綜合了前面二種的優(yōu)點(diǎn),極大的提高ETL的開發(fā)速度和效率?! ∵@一類數(shù)據(jù)源一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫(kù)鏈接,如SQL Server和Oracle之間?;蛘呖梢越柚ぞ邔?shí)現(xiàn),如SQL SERVER 2005 的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標(biāo)等組件導(dǎo)入ODS中去?! ?shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩部分,通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉,再?gòu)腛DS到DW的過程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類。補(bǔ)全后才寫入數(shù)據(jù)倉(cāng)庫(kù)。日期格式不正確的或者是日期越界的這一類錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來,交給業(yè)務(wù)主管部門要求限期修正,修正之后再抽取。對(duì)于是否過濾、是否修正一般要求客戶確認(rèn)。 第一類是執(zhí)行過程日志,是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運(yùn)行每一步驟的起始時(shí)間,影響了多少行數(shù)據(jù),流水賬形式?! 【姘l(fā)送  ETL出錯(cuò)了,不僅要寫ETL出錯(cuò)日志而且要向系統(tǒng)管理員發(fā)送警告,發(fā)送警告的方式有多種,常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。EAI通過建立底層數(shù)據(jù)交換平臺(tái)來聯(lián)系橫貫整個(gè)企業(yè)的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在企業(yè)內(nèi)部的ERP、CRM、SCM、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),以及其它重要的內(nèi)部系統(tǒng)之間無縫地共享和交換數(shù)據(jù)的需要。ETL是實(shí)現(xiàn)數(shù)據(jù)集成的主要技術(shù)。(3)數(shù)據(jù)加載:將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。為了實(shí)現(xiàn)這些功能,各個(gè)ETL工具一般會(huì)進(jìn)行一些功能上的擴(kuò)充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計(jì)信息等?! ?1)全量抽取  全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫(kù)中抽取出來,并轉(zhuǎn)換成自己的ETL工具可以識(shí)別的格式。增量抽取較全量抽取應(yīng)用更廣。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有:?。涸谝槿〉谋砩辖⑿枰挠|發(fā)器,一般要建立插入、修改、刪除三個(gè)觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個(gè)臨時(shí)表,抽取線程從臨時(shí)表中抽取數(shù)據(jù),臨時(shí)表中抽取過的數(shù)據(jù)被標(biāo)記或刪除。有的數(shù)據(jù)庫(kù)的時(shí)間戳支持自動(dòng)更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時(shí),自動(dòng)更新時(shí)間戳字段的值?! 。旱湫偷娜肀葘?duì)的方式是采用MD5校驗(yàn)碼。當(dāng)表中沒有主鍵或唯一列且含有重復(fù)記錄時(shí),MD5方式的準(zhǔn)確性較差。CDC能夠幫助你識(shí)別從上次抽取之后發(fā)生變化的數(shù)據(jù)。發(fā)布者捕捉變化數(shù)據(jù)并提供給訂閱者。然后,它捕捉變化的數(shù)據(jù)并將其保存在特別創(chuàng)建的變化表中。訂閱者需要?jiǎng)?chuàng)建一個(gè)訂閱者視圖來訪問經(jīng)發(fā)布者授權(quán)可以訪問的變化數(shù)據(jù)。對(duì)文件數(shù)據(jù)的抽取一般是進(jìn)行全量抽取,一次抽取前可保存文件的時(shí)間戳或計(jì)算文件的MD5校驗(yàn)碼,下次抽取時(shí)進(jìn)行比對(duì),如果相同則可忽略本次抽取。常用的數(shù)據(jù)轉(zhuǎn)換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。下面是一個(gè)SQL查詢的例子?! ∠啾仍贓TL引擎中進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工,直接在SQL語(yǔ)句中進(jìn)行轉(zhuǎn)換和加工更加簡(jiǎn)單清晰,性能更高。當(dāng)目的庫(kù)是關(guān)系數(shù)據(jù)庫(kù)時(shí),一般來說有兩種裝載方式:  (1)直接SQL語(yǔ)句進(jìn)行insert、update、delete操作。使用哪種數(shù)據(jù)裝載方法取決于業(yè)務(wù)系統(tǒng)的需要?! ?1)Oracle Data Integrator(ODI)  ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle收購(gòu),重新命名為Oracle Data Integrator,主要定位于在ETL和數(shù)據(jù)集成的場(chǎng)景里使用?! ??! ?Service。在SQL Server 2005中,對(duì)DTS進(jìn)行了重新設(shè)計(jì)和改進(jìn)形成了SSIS。在任務(wù)流中可能有分支。數(shù)據(jù)流由一組預(yù)定義的轉(zhuǎn)換操作組成。   SSIS體系結(jié)構(gòu)圖    在數(shù)據(jù)集成中該如何選擇ETL工具呢?一般來說需要考慮以下幾個(gè)方面:  (1)對(duì)平臺(tái)的支持程度?! ?5)是否具有管理和調(diào)度功能?! ?shù)據(jù)倉(cāng)庫(kù)的架構(gòu)模型包括了星型架構(gòu)(圖二:)與雪花型架構(gòu)(圖三:)兩種模式。而雪花型結(jié)構(gòu)明確,便于與OLTP系統(tǒng)交互。例如:我們希望分析某年某月某一地區(qū)的啤酒銷售情況,這就是一個(gè)主題。我們將通過維度的組合,來考察量度。  (二)、確定量度  在確定了主題以后,我們將考慮要分析的技術(shù)指標(biāo),諸如年銷售額之類?! ?三)、確定事實(shí)數(shù)據(jù)粒度  在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況。反過來,如果我們不能確認(rèn)將來的分析需求在時(shí)間上是否需要精確到秒,那么,我們就需要遵循“最小粒度原則”,在數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)表中保留每一秒的數(shù)據(jù),以便日后對(duì)“秒”進(jìn)行分析。例如我們希望按照時(shí)間,或者按照地區(qū),或者按照產(chǎn)品進(jìn)行分析,那么這里的時(shí)間、地區(qū)、產(chǎn)品就是相應(yīng)的維度。同理,當(dāng)我們建立產(chǎn)品維度時(shí),我們可以將“產(chǎn)品大類產(chǎn)品子類產(chǎn)品”劃為一個(gè)層次,其中包含“產(chǎn)品大類”、“產(chǎn)品子類”、“產(chǎn)品”三個(gè)級(jí)別。代理鍵是數(shù)值型的ID號(hào)碼(例如圖六中每張表的第一個(gè)字段),它唯一標(biāo)識(shí)了每一維度成員。  比如我們?cè)黾恿诵碌漠a(chǎn)品,或者產(chǎn)品的ID號(hào)碼修改了,或者產(chǎn)品增加了一個(gè)新的屬性,此時(shí),維度表就會(huì)被修改或者增加新的記錄行。例如:產(chǎn)品的ID號(hào)碼為123,后來發(fā)現(xiàn)ID號(hào)碼錯(cuò)了,需要改寫成456,那么,我們就在ETL處理時(shí),直接修改維度表中原來的ID號(hào)碼為456。那么在統(tǒng)計(jì)2005年的數(shù)據(jù)時(shí)就應(yīng)該將該員工定位到A部門。例如:某一維度成員新加入了一列,該列在歷史數(shù)據(jù)中不能基于它瀏覽,而在目前數(shù)據(jù)和將來數(shù)據(jù)中可以按照它瀏覽,那么此時(shí)我們需要改變維度表屬性,即加入新的字段列?! ∥覀兊淖龇ㄊ菍⒃急砼c維度表進(jìn)行關(guān)聯(lián),生成事實(shí)表(圖六:)。事實(shí)數(shù)據(jù)表與維度表一起放于數(shù)據(jù)倉(cāng)庫(kù)中,如果前端需要連接數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行查詢,我們還需要建立一些相關(guān)的中間匯總表或物化視圖,以方便查詢。所以ETL在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中起著十分關(guān)鍵的作用,必須擺到十分重要的位置。類似地,我們也可以根據(jù)其他需求,完善數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。先將數(shù)據(jù)抽取到準(zhǔn)備區(qū)中,然后基于準(zhǔn)備區(qū)中的數(shù)據(jù)進(jìn)行處理,這樣處理的好處是防止了在原OLTP系統(tǒng)中頻繁訪問,進(jìn)行數(shù)據(jù)運(yùn)算或排序等操作。在ETL中,時(shí)間戳有其特殊的作用,在上面提到的緩慢變化維度中,我們可以使用時(shí)間戳標(biāo)識(shí)維度成員。這樣,當(dāng)數(shù)據(jù)發(fā)生錯(cuò)誤時(shí),我們很容易發(fā)現(xiàn)問題所在,然后對(duì)出錯(cuò)的數(shù)據(jù)進(jìn)行修正或重新處理。如果有緩慢變化維度情況,調(diào)度時(shí)需要考慮到維度表更新情況,在更新事實(shí)數(shù)據(jù)表之前要先更新維度表?! ∥?、總結(jié)  構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)需要簡(jiǎn)單的五步,掌握了這五步的方法,我們可以構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)倉(cāng)庫(kù)。在數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施中,它關(guān)系到整個(gè)項(xiàng)目的數(shù)據(jù)質(zhì)量,所以馬虎不得,必須將其擺到重要位置,將數(shù)據(jù)倉(cāng)庫(kù)這一大廈的根基筑牢。16
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1