freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

bi項目中etl設計與思考-預覽頁

2024-07-24 19:01 上一頁面

下一頁面
 

【正文】 日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗,這一類錯誤需要去業(yè)務系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,交給業(yè)務主管部門要求限期修正,修正之后再抽取。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉,對于每個過濾規(guī)則認真進行驗證,并要用戶確認。一般情況下,會將業(yè)務系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進行聚合。第三類日志是總體日志,只記錄ETL開始時間、結束時間是否成功信息。發(fā)送警告的方式多種,一般常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯的信息,方便管理員排查錯誤?! TL的設計分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉換、數(shù)據(jù)的加載。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫入DW中去。第三種是綜合了前面二種的優(yōu)點,極大的提高ETL的開發(fā)速度和效率。  這一類數(shù)據(jù)源一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫鏈接,如SQL Server和Oracle之間?;蛘呖梢越柚ぞ邔崿F(xiàn),如SQL SERVER 2005 的SSIS服務的平面數(shù)據(jù)源和平面目標等組件導入ODS中去。  數(shù)據(jù)的清洗轉換  一般情況下,數(shù)據(jù)倉庫分為ODS、DW兩部分,通常的做法是從業(yè)務系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉,再從ODS到DW的過程中轉換,進行一些業(yè)務規(guī)則的計算和聚合。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復的數(shù)據(jù)三大類。補全后才寫入數(shù)據(jù)倉庫。日期格式不正確的或者是日期越界的這一類錯誤會導致ETL運行失敗,這一類錯誤需要去業(yè)務系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,交給業(yè)務主管部門要求限期修正,修正之后再抽取。對于是否過濾、是否修正一般要求客戶確認。 第一類是執(zhí)行過程日志,是在ETL執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數(shù)據(jù),流水賬形式?! 【姘l(fā)送  ETL出錯了,不僅要寫ETL出錯日志而且要向系統(tǒng)管理員發(fā)送警告,發(fā)送警告的方式有多種,常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯的信息,方便管理員排查錯誤。EAI通過建立底層數(shù)據(jù)交換平臺來聯(lián)系橫貫整個企業(yè)的異構系統(tǒng)、應用、數(shù)據(jù)源等,完成在企業(yè)內部的ERP、CRM、SCM、數(shù)據(jù)庫、數(shù)據(jù)倉庫,以及其它重要的內部系統(tǒng)之間無縫地共享和交換數(shù)據(jù)的需要。ETL是實現(xiàn)數(shù)據(jù)集成的主要技術。(3)數(shù)據(jù)加載:將轉換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。為了實現(xiàn)這些功能,各個ETL工具一般會進行一些功能上的擴充,例如工作流、調度引擎、規(guī)則引擎、腳本支持、統(tǒng)計信息等。  (1)全量抽取  全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)據(jù)庫中抽取出來,并轉換成自己的ETL工具可以識別的格式。增量抽取較全量抽取應用更廣。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有:?。涸谝槿〉谋砩辖⑿枰挠|發(fā)器,一般要建立插入、修改、刪除三個觸發(fā)器,每當源表中的數(shù)據(jù)發(fā)生變化,就被相應的觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時表,抽取線程從臨時表中抽取數(shù)據(jù),臨時表中抽取過的數(shù)據(jù)被標記或刪除。有的數(shù)據(jù)庫的時間戳支持自動更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時,自動更新時間戳字段的值?! 。旱湫偷娜肀葘Φ姆绞绞遣捎肕D5校驗碼。當表中沒有主鍵或唯一列且含有重復記錄時,MD5方式的準確性較差。CDC能夠幫助你識別從上次抽取之后發(fā)生變化的數(shù)據(jù)。發(fā)布者捕捉變化數(shù)據(jù)并提供給訂閱者。然后,它捕捉變化的數(shù)據(jù)并將其保存在特別創(chuàng)建的變化表中。訂閱者需要創(chuàng)建一個訂閱者視圖來訪問經發(fā)布者授權可以訪問的變化數(shù)據(jù)。對文件數(shù)據(jù)的抽取一般是進行全量抽取,一次抽取前可保存文件的時間戳或計算文件的MD5校驗碼,下次抽取時進行比對,如果相同則可忽略本次抽取。常用的數(shù)據(jù)轉換組件有字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。下面是一個SQL查詢的例子?! ∠啾仍贓TL引擎中進行數(shù)據(jù)轉換和加工,直接在SQL語句中進行轉換和加工更加簡單清晰,性能更高。當目的庫是關系數(shù)據(jù)庫時,一般來說有兩種裝載方式:  (1)直接SQL語句進行insert、update、delete操作。使用哪種數(shù)據(jù)裝載方法取決于業(yè)務系統(tǒng)的需要?! ?1)Oracle Data Integrator(ODI)  ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle收購,重新命名為Oracle Data Integrator,主要定位于在ETL和數(shù)據(jù)集成的場景里使用?! ??! ?Service。在SQL Server 2005中,對DTS進行了重新設計和改進形成了SSIS。在任務流中可能有分支。數(shù)據(jù)流由一組預定義的轉換操作組成?! ?SSIS體系結構圖    在數(shù)據(jù)集成中該如何選擇ETL工具呢?一般來說需要考慮以下幾個方面:  (1)對平臺的支持程度?! ?5)是否具有管理和調度功能?! ?shù)據(jù)倉庫的架構模型包括了星型架構(圖二:)與雪花型架構(圖三:)兩種模式。而雪花型結構明確,便于與OLTP系統(tǒng)交互。例如:我們希望分析某年某月某一地區(qū)的啤酒銷售情況,這就是一個主題。我們將通過維度的組合,來考察量度?! ?二)、確定量度  在確定了主題以后,我們將考慮要分析的技術指標,諸如年銷售額之類。  (三)、確定事實數(shù)據(jù)粒度  在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況。反過來,如果我們不能確認將來的分析需求在時間上是否需要精確到秒,那么,我們就需要遵循“最小粒度原則”,在數(shù)據(jù)倉庫的事實表中保留每一秒的數(shù)據(jù),以便日后對“秒”進行分析。例如我們希望按照時間,或者按照地區(qū),或者按照產品進行分析,那么這里的時間、地區(qū)、產品就是相應的維度。同理,當我們建立產品維度時,我們可以將“產品大類產品子類產品”劃為一個層次,其中包含“產品大類”、“產品子類”、“產品”三個級別。代理鍵是數(shù)值型的ID號碼(例如圖六中每張表的第一個字段),它唯一標識了每一維度成員?! ”热缥覀冊黾恿诵碌漠a品,或者產品的ID號碼修改了,或者產品增加了一個新的屬性,此時,維度表就會被修改或者增加新的記錄行。例如:產品的ID號碼為123,后來發(fā)現(xiàn)ID號碼錯了,需要改寫成456,那么,我們就在ETL處理時,直接修改維度表中原來的ID號碼為456。那么在統(tǒng)計2005年的數(shù)據(jù)時就應該將該員工定位到A部門。例如:某一維度成員新加入了一列,該列在歷史數(shù)據(jù)中不能基于它瀏覽,而在目前數(shù)據(jù)和將來數(shù)據(jù)中可以按照它瀏覽,那么此時我們需要改變維度表屬性,即加入新的字段列?! ∥覀兊淖龇ㄊ菍⒃急砼c維度表進行關聯(lián),生成事實表(圖六:)。事實數(shù)據(jù)表與維度表一起放于數(shù)據(jù)倉庫中,如果前端需要連接數(shù)據(jù)倉庫進行查詢,我們還需要建立一些相關的中間匯總表或物化視圖,以方便查詢。所以ETL在整個數(shù)據(jù)倉庫項目中起著十分關鍵的作用,必須擺到十分重要的位置。類似地,我們也可以根據(jù)其他需求,完善數(shù)據(jù)倉庫中的數(shù)據(jù)。先將數(shù)據(jù)抽取到準備區(qū)中,然后基于準備區(qū)中的數(shù)據(jù)進行處理,這樣處理的好處是防止了在原OLTP系統(tǒng)中頻繁訪問,進行數(shù)據(jù)運算或排序等操作。在ETL中,時間戳有其特殊的作用,在上面提到的緩慢變化維度中,我們可以使用時間戳標識維度成員。這樣,當數(shù)據(jù)發(fā)生錯誤時,我們很容易發(fā)現(xiàn)問題所在,然后對出錯的數(shù)據(jù)進行修正或重新處理。如果有緩慢變化維度情況,調度時需要考慮到維度表更新情況,在更新事實數(shù)據(jù)表之前要先更新維度表。  五、總結  構建企業(yè)級數(shù)據(jù)倉庫需要簡單的五步,掌握了這五步的方法,我們可以構建一個強大的數(shù)據(jù)倉庫。在數(shù)據(jù)倉庫的項目實施中,它關系到整個項目的數(shù)據(jù)質量,所以馬虎不得,必須將其擺到重要位置,將數(shù)據(jù)倉庫這一大廈的根基筑牢。16
點擊復制文檔內容
職業(yè)教育相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1